0% encontró este documento útil (0 votos)
153 vistas22 páginas

Medidas de Tendencia Central y Dispersión

Este documento describe diferentes medidas de tendencia central y dispersión para describir conjuntos de datos. Introduce conceptos como la media, mediana y moda para datos agrupados y no agrupados. Explica cómo calcular la media aritmética, la media ponderada y otras medidas. También presenta ejemplos numéricos para ilustrar los cálculos.

Cargado por

Angeles Dmc
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
153 vistas22 páginas

Medidas de Tendencia Central y Dispersión

Este documento describe diferentes medidas de tendencia central y dispersión para describir conjuntos de datos. Introduce conceptos como la media, mediana y moda para datos agrupados y no agrupados. Explica cómo calcular la media aritmética, la media ponderada y otras medidas. También presenta ejemplos numéricos para ilustrar los cálculos.

Cargado por

Angeles Dmc
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

33

UNIDAD II

Descripción de datos. Medidas de Tendencia Central. Media poblacional. Me-


dia muestral. Propiedades de la media aritmética. Media ponderada. Mediana.
Determinación gráfica de la mediana. Moda. Media geométrica. Media, me-
diana y moda para datos agrupados. Posiciones relativas de la media, me-
diana y moda. Medidas de dispersión. Amplitud/Intervalo/Rango. Desviación
media absoluta. Varianza. Desvío Estándar. Medidas de dispersión para da-
tos agrupados. Interpretación y usos de la desviación estándar. Teorema de
Chebyshev. Regla empírica. Dispersión Relativa. Asimetría. Otras medidas
de dispersión: Cuartiles, Deciles, Percentiles. Diagrama de caja.

DESCRIPCIÓN DE DATOS

En la primera unidad iniciamos el estudio de la estadística descriptiva; para poder pre-


sentar un conjunto de datos a granel o no agrupados, en un formato comprensible se
los organizó en una distribución de frecuencias y se los presentó gráficamente con un
histograma o un polígono de frecuencias; también se describieron otros recursos para
presentar datos, como las representaciones de tallo y hoja, las gráficas de línea, de
barras y las circulares.

En esta unidad vamos a continuar con el desarrollo de métodos para describir un con-
junto de datos, mediante un único valor. A dicho valor se le denomina medida de ten-
dencia central.

MEDIDAS DE TENDENCIA CENTRAL

Se llaman así a los valores típicos de una serie o de una variable en el sentido que ese
valor puede representar al conjunto de los valores considerados.

Medida de tendencia central: es un valor único que resume un conjunto de da-


tos. Señala el centro de los valores.

El concepto de promedio es el que nos resulta más familiar, sin embargo no existe
solamente una medida de tendencia central sino varias. Aquí consideraremos seis: la
media aritmética, la media ponderada, la mediana, la moda, la media geométrica y la
media armónica.

MEDIA POBLACIONAL/MUESTRAL | PROPIEDADES

La media poblacional de datos sin procesar, datos que no han sido agrupados en
una distribución de frecuencias o en una representación de tallo y hoja, es la suma de
todos los valores de la población, dividida entre el número total de dichos datos. Para
calcular la media de una población se utiliza la siguiente fórmula:

∑ 𝑥𝑥
𝜇𝜇 =
𝑁𝑁
Donde:

μ: representa la media de la población (letra griega “mu” minúscula)


N: es el número total de elementos en la población
34

x: representa cualquier valor en particular


Σ: es la letra griega “sigma” mayúscula, indica la operación de sumar
Σx: simboliza la suma de todos los valores x

Cualquier característica medible de una población se denomina parámetro. La media


de una población es, por tanto, un parámetro.

Ejemplo: Hay 12 empresas fabricantes de autos en Estados Unidos. A continuación


se presenta el número de patentes otorgadas el año pasado por el gobierno de ese
país a cada negociación.

Empresa N° de patentes Empresa N° de patentes


General Motors 511 Mazda 210
Nissan 385 Chrysler 97
Daimler Chrysler 275 Porsche 50
Toyota 257 Mitsubishi 36
Honda 249 Volvo 23
Ford 234 BMW 13

1. ¿Esta información es una muestro o una población?


2. ¿Cuál es el número medio de patentes otorgadas?

Esta información es una población, porque se consideran TODAS las compañías au-
tomovilísticas que obtuvieron patentes de cada una de las 12 empresas. La cantidad
total de patentes de las 12 compañías es 2.340. Para evaluar la media aritmética, se
divide ese total entre 12. Por tanto, la media es 195, que se obtiene de 2.340/12.

∑ 𝑥𝑥 511 + 385 + 275 + ⋯ + 13 2340


𝜇𝜇 = = = = 195
𝑁𝑁 12 12

¿Cómo se interpreta el valor 195? El número típico de patentes recibido por una em-
presa es 195. Puesto que se considera a todas las compañías que recibieron patentes,
este valor es un parámetro poblacional.

Con frecuencia se selecciona una muestra de la población con el objeto de evaluar


algo acerca de una característica específica de tal población. Para datos a granel, es
decir, no agrupados, la media es la suma de todos los valores, dividida entre el núme-
ro total de los mismos.

∑ 𝑥𝑥
𝑥𝑥 =
𝑛𝑛

Donde x simboliza la media muestral y se lee “equis barra”. La letra n designa al nú-
mero total de valores de la muestra.

La media de una muestra, o cualquier otra medida basada en datos muestrales, se


denomina dato estadístico.
35

Sin embargo, la media tiene varias desventajas. Como para su cálculo se utiliza el
valor de cada elemento de la población o muestra; si uno o dos de estos valores es
muy grande o muy pequeño, la media podría no ser un promedio adecuado para re-
presentar los datos. La media también resulta inadecuada si hay una clase de extre-
mos abiertos en el caso de datos agrupados en una distribución de frecuencias.

AUTOEVALUACIÓN

El ingreso anual para una muestra de varios Técnicos en Higiene y


Seguridad en la empresa “la Violeta” es: $62900 - $69100 - $58300 y
$76800.

a. Exprese la fórmula para la media muestral.


b. Obtenga la media de la muestra.
c. La media que obtuvo en b, es un dato estadístico o un parámetro.
Fundamente su respuesta.

Los estudiantes de un curso de incendio se consideran como una


población. Sus calificaciones en el curso son: 9,2 – 9,6 – 6,1 – 8,6 –
7,9 – 8,4.

a. Indique la fórmula para calcular la media poblacional.


b. Determine la calificación media del curso.
c. Justifique si la media obtenida en b es un dato estadístico o un pa-
rámetro.

MEDIA PONDERADA O PROMEDIO PONDERADO

La media ponderada es un caso especial de la media aritmética que se presenta


cuando hay varias observaciones con un mismo valor, lo cual puede ocurrir si los da-
tos se han agrupado en una distribución de frecuencias.

Para explicar el concepto vamos a suponer que en una empresa de elementos de pro-
tección se venden camisas de trabajo chicas, medianas y grandes y que sus precios
son los siguientes: $200, $250 y $300 respectivamente. De las últimas 10 camisas que
36

se vendieron, 3 eran chicas, 4 medianas y 3 grandes. Para calcular el precio promedio


de las últimas 10 camisas vendidas se puede utilizar la siguiente fórmula:

$200+$200+$200+$250+$250+$250+$250+$300+$300+$300 $2500
𝑥𝑥 = = = $250
10 10

El precio medio de venta de las últimas 10 camisas es $250.


Un modo más fácil de encontrar el precio medio de venta es determinar la media pon-
derada. Esto quiere decir que cada observación se multiplica por el número de veces
que se presenta. A la media ponderada se la presenta con el símbolo xw y se lee
“equis barra subíndice w”

3 ∗ $200 + 4 ∗ $250 + 3 ∗ $300 $2500


𝑥𝑥𝑤𝑤 = = = $250
10 10

En general, la media ponderada de un conjunto de números designados por x1, x2,


x3,…,xn con las ponderaciones (o pesos) correspondientes w1, w2, w3, …, wn se calcula
como sigue:

𝑤𝑤1 ∗ 𝑥𝑥1 + 𝑤𝑤2 ∗ 𝑥𝑥2 + 𝑤𝑤3 ∗ 𝑥𝑥3 + ⋯ + 𝑤𝑤𝑤𝑤 ∗ 𝑥𝑥𝑥𝑥 ∑ 𝑤𝑤𝑤𝑤


𝑥𝑥𝑤𝑤 = =
𝑤𝑤1 + 𝑤𝑤2 + 𝑤𝑤3 + ⋯ + 𝑤𝑤𝑤𝑤 ∑ 𝑤𝑤

Ejemplo: La constructora Carter para a sus empleados $65, $75 o bien $85 por hora.
Hay 26 empleados contratados por hora; 14 reciben la tarifa de $65, 10 la de $75 y 2
la de $85. ¿Cuál es la media de la tarifa por hora que se paga a los 26 trabajadores?

Para encontrar la media de las tarifas por hora, se multiplica cada una por el número
de empleados que ganan ese importe:

14 ∗ $65 + 10 ∗ $75 + 2 ∗ $85 $1830


𝑥𝑥𝑤𝑤 = = = $70,38
14 + 10 + 2 26

AUTOEVALUACIÓN

La empresa “Fuego” vendió 95 trajes de bomberos al precio normal


de $4000. En la venta de verano, los trajes se rebajaron a $3000 y se
vendieron 126. En la venta de liquidación, el precio se redujo a $2000
y se vendieron los 79 trajes restantes.

a. ¿Cuál fue el precio medo ponderado de un traje?


b. La empresa pagó $2000 por cada uno de los 300 trajes. Comente
acerca de la ganancia que aportan estas prendas si un vendedor
recibe una comisión de $250 por cada traje vendido.
37

MEDIANA | DETERMINACIÓN GRÁFICA DE LA MEDIANA

Hemos enunciado anteriormente que para datos que contienen uno o dos valores muy
grandes o muy pequeños, la media aritmética puede no ser representativa. El punto
central de tales datos puede describirse mejor utilizando una medida de tendencia
central, denominada mediana (Me) y que es un solo valor, no necesariamente perte-
neciente a la serie, calculado a partir del conjunto de datos que mide la observación
central de éstos, es decir, la mitad de los elementos están por arriba de este punto y la
otra mitad está por debajo.

Es de suponer entonces, que para hallar la mediana de un conjunto de datos, primero


debemos ordenarlos, ya sea de forma ascendente o descendente.

Para series de datos no agrupados, puede que éstos resulten pares o impares. Si el
conjunto de datos contiene un número impar de elementos, el del medio del arreglo es
la mediana. Si hay un número par de observaciones, la mediana es el promedio de los
dos elementos de en medio.

Ejemplo: Supongamos que tenemos la siguiente serie de datos: 15, 17, 2, 11, 20, 25,
31, 28, 8, 4, 27, 23, 5. El número de elementos de esta serie es 13, por tanto estamos
en la situación de número impar de observaciones.

Primeramente debemos ordenar los datos. En este caso lo haremos de menor a ma-
yor, nos queda entonces: 2, 4, 5, 8, 11, 15, 17, 20, 23, 25, 27, 28, 31

Hemos mencionado que el valor mediano deja la mitad de los elementos por arriba de
este punto y la otra mitad por debajo. Vamos a calcular entonces la posición mediana
PMe donde N es el número de datos:

𝑁𝑁 + 1
𝑃𝑃𝑃𝑃𝑃𝑃 =
2

En nuestro ejemplo:

13 + 1
𝑃𝑃𝑃𝑃𝑃𝑃 = =7
2

Ahora que conocemos la posición en que se encuentra nuestro valor mediano en la


serie ordenada, vemos:

Posición 1 2 3 4 5 6 7 8 9 10 11 12 13
Valor 2 4 5 8 11 15 17 20 23 25 27 28 31

Entonces: Me = 17

Como puede observarse hay seis valores por debajo del 17 y seis valores por encima.
.
Ejemplo: Supongamos que tenemos ahora la siguiente serie de datos: 15, 17, 2, 11,
20, 25, 31, 28, 8, 4, 2, 23, 5, 33. El número de elementos de esta serie es 14, por tanto
estamos en la situación de número par de observaciones.

Al igual que en el ejemplo anterior se deben primeramente ordenar los datos. Nos
queda entonces: 2, 4, 5, 8, 11, 15, 17, 20, 23, 25, 27, 28, 31, 33

Para calcular la posición mediana PMe utilizamos la misma fórmula anterior:


38

𝑁𝑁 + 1
𝑃𝑃𝑃𝑃𝑃𝑃 =
2
Reemplazando:
14 + 1
𝑃𝑃𝑃𝑃𝑃𝑃 = = 7,5
2

Ahora la posición no es un número entero, por lo que será un valor entre la posición 7
y la 8, es decir, entre el valor 17 y el valor 20. Si bien puede ser cualquier valor com-
prendido entre los mencionados, por convención se toma como mediana al valor in-
termedio.

Posición 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Valor 2 4 5 8 11 15 17 20 23 25 27 28 31 33

O sea:
17 + 20
𝑀𝑀𝑀𝑀 = = 18,5
2
Obsérvese que:

• La posición de la mediana se encuentra con la misma fórmula sea el número de da-


tos par o impar.
• El valor de la mediana 18,5 es un valor no perteneciente a la serie, tal como lo he-
mos tenido en cuenta en la definición dada de mediana. En rigor cualquier valor en-
tre 17 y 20 es una mediana, ya que todos ellos dejan tantos valores por encima (sie-
te) como valores por debajo (siete), el hecho que se tome un valor equidistante de 17
y 20 es puramente convencional.
• Los valores extremos no influyen en el valor de la mediana. Así por ejemplo si susti-
tuimos en la serie 2, 4, 5, 8, 11, 15, 17, 20, 23, 25, 27, 28, 31 el 2 inicial por 1 y el 31
final por 43, la mediana seguirá siendo la misma.

PROPIEDADES IMPORTANTES DE LA MEDIANA

•Es única, sólo exite una mediana para un conjunto de datos.


•Nos e ve afectada por valores extremadamente grandes o mjuy
pequeños y por tanto, es una medida valiosa de tendencia central
cuando se presenta esta clase de valores.
•Puede calcularse para una distribución de frecuencias con una clase de
extremo abierto (luego se expondrá el cálculo de la mediana para datos
agrupados)
•Puede calcularse para datos de nivel de razón, de intervalo y ordinal.

Para determinar gráficamente la mediana debemos trazar la ojiva de frecuencia acu-


mulada igual o menor y la ojiva de frecuencias acumuladas igual o mayor poniendo en
las abscisas el número o marca de clase y las frecuencias acumuladas respectivas en
las ordenadas.
39

300

250

200
FA=<
150
FA=>
100

50

0
4,75 6,25 7,75 9,25 10,75 12,25 13,75 15,25 16,75

El valor que toma en el eje horizontal la intersección de las mismas coincide con el
valor mediano.

MODA

La moda es otra medida de tendencia central y se la define como el valor de la obser-


vación que aparece con más frecuencia por tanto, no se calcula mediante proceso
matemático. La moda es especialmente útil para describir los niveles de medición no-
minales y ordinarios.

Ejemplo: A continuación se muestran los sueldos anuales expresados en miles de $


de Licenciados en HyS en algunas provincias. ¿Cuál es el valor modal de los sueldos?

Provincia Sueldo Provincia Sueldo Provincia Sueldo


Jujuy 35 Chaco 58 San Juan 50
Salta 49 Formosa 60 Mendoza 60
Tucumán 60 Misiones 60 La Pampa 71
Catamarca 60 Entre Ríos 40 Stgo del E 60
La Rioja 40 Corrientes 65 Neuquén 55

Una revisión de las cantidades revela que el sueldo anual de $60.000 aparece con
mayor frecuencia que cualquier otra percepción. Por tanto, la moda es $60.000.

Cabe destacar que se puede determinar la moda para datos de cualquiera de los nive-
les: nominal, ordinal, de intervalo y de razón. La moda también tiene la ventaja de no
verse afectada por valores extremadamente altos o muy bajos. Al igual que la media-
na, puede utilizarse como medida de tendencia central en distribuciones con clases de
extremo abierto.

Sin embargo, la moda también presenta algunas desventajas, las que hacen que sea
utilizada con menor frecuencia que la media o la mediana. En muchos conjuntos de
datos no hay valor modal porque ningún valor aparece más de una vez; puesto que
cada valor es diferente se podría argumentar que cada valor es modal. Por el contra-
rio, en ciertos conjuntos de datos hay más de una moda con lo que pueden denomi-
narse bimodal, trimodal, etc., según sean los valores que se repitan; aunque sería
cuestionable utilizar los dos/tres valores de moda para representar la tendencia central
de ese conjunto de datos.
40

AUTOEVALUACIÓN

Indique el valor modal de un conjunto de observaciones si en total hay:

a. 10 observaciones y no hay dos valores iguales.


b. 6 observaciones y son todas iguales.
c. 6 observaciones y los valores son 1, 2,3, 3, 4 y 4.

MEDIA GEOMÉTRICA

La media geométrica es útil para encontrar el promedio de porcentajes, razones, ín-


dices o tasas de crecimiento. Se define como la raíz n-ésima del producto de los n
valores:
𝑛𝑛
𝑀𝑀𝑀𝑀 = √𝑥𝑥1 ∗ 𝑥𝑥2 ∗ 𝑥𝑥3 ∗ … ∗ 𝑥𝑥𝑥𝑥
La media geométrica siempre será menor que o igual a (NUNCA mayor que) la media
aritmética. Deben observar también que TODOS los valores de datos deben ser positi-
vos para determinar la media geométrica.

Ejemplo: Supongamos que recibimos un aumento de sueldo de 5% este año y recibi-


remos uno de 15% el año próximo. El aumento porcentual promedio es 9,886 y no 10
¿por qué?

Comencemos calculando la media geométrica recordando que un aumento del 5% en


el sueldo es 1,05.
2
𝑀𝑀𝑀𝑀 = �1,05 ∗ 1,15 = 1,09886

Lo anterior se puede verificar suponiendo que el ingreso mensual inicia el $3000 y que
recibió los dos aumentos:

Aumento 1: $3000 * 0,05 = $150,00


Aumento 2: $3150 * 0,15 = $472,50
Total: $150 + $472,50 = $622,50
El equivalente a: $3000 * 0,09886 = 296,58
$3296,58 * 0,09886 = 325,90
Total: $622,48 redondeado a $622,50

Ejemplo: Las ganancias obtenidas por la constructora Atkins en cuatro proyectos re-
cientes fueron 3%, 2%, 4% y 6% ¿cuál es la media geométrica de la ganancia?
4 4
𝑀𝑀𝑀𝑀 = √3 ∗ 2 ∗ 4 ∗ 6 = √144 = 3,46

Un segundo uso de la media geométrica es encontrar aumentos porcentuales prome-


dio en un intervalo de tiempo. La tasa de aumento se determina mediante la siguiente
fórmula:

𝑛𝑛 𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉 𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓 𝑑𝑑𝑑𝑑𝑑𝑑 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝


𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴 𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃 𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃 = 𝑀𝑀𝑀𝑀 = � −1
𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉 𝑎𝑎𝑎𝑎 𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖 𝑑𝑑𝑑𝑑𝑑𝑑 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝
41

Donde n es el número de periodos.

Ejemplo: Supongamos que la población en un determinado Distrito era de 2 personas


en 1990 y en 2000 eran 22 personas ¿Cuál fue la tasa de incremento porcentual anual
promedio para el periodo?

Hay 10 años de diferencia, por tanto n = 10. La fórmula quedaría entonces:

10 22
𝑀𝑀𝑀𝑀 = � − 1 = 1,271 − 1 = 0,271
2

El valor final es de 0,271 de modo que la tasa de aumento anual es del 27,1%.

AUTOEVALUACIÓN

Los rendimientos anuales (en %) de cuatro acciones de petróleo son:


4,91 – 5,75 – 8,12 y 21,60.

a. Obtener la media geométrica de los rendimientos


b. Determinar la media aritmética

La producción de camiones aumentó de 23.000 unidades en 1980 a


120.520 en el año 2000. Obtener la media del incremento porcentual
anual.

MEDIA, MEDIANA Y MODA PARA DATOS AGRUPADOS

Con frecuencia los datos relacionados con ingresos, edades y demás, se agrupan y
presentan en forma de una distribución de frecuencias. Generalmente, resulta imposi-
ble obtener los datos originales de modo que, si interesa un valor típico que represente
a los datos, es necesario estimarlo basándose en la distribución de frecuencias.

Media Aritmética

Para determinar la media aritmética de datos agrupados se considera que las obser-
vaciones en cada clase están representadas por el punto medio o marca de clase. La
media de una muestra de datos organizados en una distribución de frecuencias se
calcula de la siguiente manera:

∑(𝑓𝑓𝑥𝑥 ∗ )
𝑥𝑥 =
𝑛𝑛

Donde:
x es la media aritmética
x* es el valor central o punto medio de cada clase
f es la frecuencia de cada clase
n es el número de frecuencias
42

Ejemplo: Determinar la media aritmética del precio de venta de los vehículos resumi-
dos a continuación y expresados en miles de pesos.

* *
Precio de Ventas f x f*x
120 hasta 150 8 13,5 108,0
150 hasta 180 23 16,5 379,5
180 hasta 210 17 19,5 331,5
210 hasta 240 18 22,5 405,0
240 hasta 270 8 25,5 204,0
270 hasta 300 4 28,5 114,0
300 hasta 330 2 31,5 63,0
TOTAL 80 1605,0

Aplicando la fórmula para calcular la media aritmética para datos agrupados tenemos:

∑(𝑓𝑓𝑥𝑥 ∗ ) 1605
𝑥𝑥 = = = $20,1
𝑛𝑛 80

Por tanto se concluye que la media del precio de venta de los vehículos es aproxima-
damente $20.100.

La media de datos agrupados puede ser diferente de la media de los datos reales.
El hecho de agrupar los datos produce una pérdida de información.

Mediana

Recordemos que la mediana se define como el valor debajo del cual se encuentra la
mitad de los valores y arriba del cual se encuentra la otra mitad. Dado que agrupando
los datos parte de la información ya no es identificable, no es posible determinar la
mediana exacta; sin embargo, puede estimarse localizando la clase en la que se en-
cuentra la mediana y realizando interpolaciones dentro de esa clase para obtener di-
cho valor.

La razón de este enfoque es que se supone que los elementos de la clase en que se
encuentra la mediana están espaciados de manera uniforme en toda la clase.
𝑛𝑛
− 𝐹𝐹𝐹𝐹
𝑀𝑀𝑀𝑀 = 𝐿𝐿 + 2 ∗ 𝑖𝑖
𝑓𝑓

Donde:
L es el límite inferior de la clase que contiene a la mediana
n es el número total de frecuencias
f es la frecuencia de la clase que contiene a la mediana
FA es el número acumulado de frecuencias en todas las clases que preceden a
la clase que contiene a la mediana
i es la amplitud (o anchura) de la clase en que se encuentra la mediana

Ejemplo: Tomaremos los valores del ejemplo anterior


43

Precio de Ventas f FA
120 hasta 150 8 8
150 hasta 180 23 31
180 hasta 210 17 48
210 hasta 240 18 66
240 hasta 270 8 74
270 hasta 300 4 78
300 hasta 330 2 80
TOTAL 80

Para obtener la mediana de los precios de venta se necesita localizar la observación


número 40 (ya que hay en total 80 observaciones) en los datos ordenados de menor a
mayor. La clase que contiene el precio de venta del vehículo número 40 es la equiva-
lente a la que tiene la FA igual o mayor a 40, es decir, el intervalo que va desde 180
hasta 210.

Recordemos que hay 17 vehículos en el intervalo mencionado. Supongamos que los


precios de venta se distribuyen de manera uniforme entre los límites inferior (180) y
superior (210) de la clase y aplicando la fórmula tendremos:
𝑛𝑛
− 𝐹𝐹𝐹𝐹
𝑀𝑀𝑀𝑀 = 𝐿𝐿 + 2 ∗ 𝑖𝑖
𝑓𝑓

80
− 31
𝑀𝑀𝑀𝑀 = 180 + 2 ∗ 30
17

𝑀𝑀𝑀𝑀 = 180 + 15,88 = 195,88

La consideración en que se basa la aproximación de la mediana puede no ser correc-


ta; en consecuencia, es más seguro decir que aproximadamente la mitad de los pre-
cios de venta son inferiores a 195,88 mil pesos y la otra mitad son mayores. Nueva-
mente, es probable que exista una diferencia entre la mediana estimada de datos
agrupados y la mediana determinada a partir de datos sin agrupar.

La mediana sólo se basa en las frecuencias y los límites de la clase que la contiene.
Las clases de extremo abierto que se presentan en los extremos rara vez se necesi-
tan; en consecuencia, se podrá determinar la mediana de una distribución de frecuen-
cias que tenga extremos abiertos.

Si se tienen frecuencias relativas (o porcentuales) en lugar de frecuencias absolutas,


igualmente se puede determinar la mediana.

Moda

Recordemos que la moda se define como el valor que más se repite. Para datos agru-
pados es posible aproximar la moda usando el punto medio o marca de clase de aque-
lla que contienen el mayor número de frecuencias de clase.

Si el conjunto de datos tiene más de dos valores modales, a la distribución se denomi-


na multimodal. En tales casos probablemente, no se considerarían ninguna de las mo-
das como representativas del valor central de los datos.
44

Posiciones relativas de la media, mediana y moda

Vamos a considerar la siguiente figura:

Se trata de una distribución simétrica en forma de campana, esto significa que la dis-
tribución tiene la misma forma en ambos lados del eje central. En una distribución si-
métrica, los valores modal, mediano y medio se localizan en el centro y siempre son
iguales. En el caso de estudio, la moda, mediana y media son 20 años.

Si un conjunto de datos no es simétrico, sino que es asimétrico o sesgado, entonces


se modifica la relación entre las tres medidas.

En una distribución con asimetría positiva o positivamente sesgada, es decir, hacia


la derecha, la moda se encuentra en el punto más alto de la distribución, la mediana
hacia la derecha de la moda y la media se encuentra todavía más hacia la derecha de
la moda y la mediana. Por tanto, la moda es la menor de las tres medidas.

En una distribución asimétrica negativa o negativamente sesgada, es decir, hacia la


izquierda, la moda se encuentra en el punto más alto de la distribución, la mediana
hacia la izquierda de aquella y la media se encuentra todavía más hacia la izquierda
de la moda y la mediana. Por tanto, el valor modal es el mayor de los tres promedios.
45

Cuando la población está sesgada positiva o negativamente, con frecuencia la media-


na resulta ser la mejor medida de posición debido a que siempre se encuentra entre la
moda y la media. La mediana no se ve influida por la frecuencia de aparición de un
solo valor (como es el caso de la moda) ni se distorsiona con la presencia de valores
extremos (como la media aritmética).

AUTOEVALUACIÓN

Las ventas semanales en una muestra de tiendas de suministros


electrónicos de alta tecnología se organizaron en una distribución de
frecuencias. El valor calculado para la media de las ventas semana-
les fue $105.900, la mediana $105.000 y la moda $104.500.

a. Representar las ventas en forma de un polífono de frecuencias.


Observar la ubicación de la media, la mediana y la moda sobre el
eje x.
b. ¿La distribución es simétrica, asimétrica negativa o bien asimétri-
ca positiva? Justificar la respuesta.

MEDIDAS DE DISPERSIÓN

Un promedio como la media o la mediana, solamente localiza el centro de los datos y


esto es importante desde ese punto de vista, pero un promedio nada indica acerca de
la diseminación de los datos. Vamos a continuar con medidas para describir el conjun-
to, concentrándonos en aquellas que refieren la dispersión o variabilidad de los datos
considerados.

Un valor pequeño en una medida de dispersión indica que los datos se acumulan es-
trechamente, por ejemplo, alrededor de la media aritmética; en consecuencia, el valor
medio se considera representativo de los datos. Por el contrario, una medida de dis-
persión grande indicaría que la media no es confiable.

Otra razón importante para estudiar la dispersión de un conjunto de datos es comparar


la correspondiente a dos o más distribuciones.

A continuación vamos a considerar varias medidas de dispersión como por ejemplo la


amplitud de variación o rango que se basa en la localización de los valores más gran-
de y más pequeño de un conjunto de datos; la desviación media, la varianza y la des-
viación estándar que se basan en las desviaciones respecto de la media.

AMPLITUD/ALCANCE/RANGO

Es la medida de dispersión más sencilla. Se trata de la diferencia entre el valor más


grande y el más pequeño de un conjunto de datos.

𝑅𝑅 = 𝑋𝑋𝑋𝑋á𝑥𝑥 − 𝑋𝑋𝑋𝑋í𝑛𝑛
46

El rango es fácil de entender y de calcular, pero su utilidad como medida de dispersión


es limitada ya que toma en cuenta solamente los valores extremos sin considerar nin-
guna otra observación del conjunto de datos, como consecuencia de esto, ignora la
naturaleza de variación entre todas las demás observaciones y puede cambiar drásti-
camente de una muestra a la siguiente de una población dada.

Debemos tener en cuenta que las distribuciones de extremos abiertos no tienen rango.

DESVIACIÓN MEDIA ABSOLUTA

Esta medida de dispersión considera todos los datos del conjunto observado y mide el
monto medio en que varían los valores de una población o muestra, con respecto a su
media.
∑ |𝑥𝑥−𝑥𝑥|
𝐷𝐷𝐷𝐷 =
𝑛𝑛

Donde
x es el valor de cada observación
x es la media aritmética de los valores
n es el número de observaciones en la muestra

La desviación media tiene dos ventajas: primero que utiliza en su cálculo todos los
valores en la muestra y segundo que es fácil de comprender, ya que representa el
promedio en que los valores se desvían con respecto a la media.

Sin embargo, su principal desventaja es el uso de valores absolutos, ya que general-


mente es difícil trabajar con ellos y en consecuencia, la desviación media no se utiliza
con la misma frecuencia que las otras medidas de dispersión como por ejemplo la
desviación estándar.

AUTOEVALUACIÓN

Los pesos en libras de un grupo de vajas que se van a enviar a Ho-


landa son: 95 – 103 – 105 – 110- 104 – 105 – 112 – 90.

a. ¿Cuál es la amplitud de variación de los pesos?


b. Calcular la media aritmética de los valores.
c. Determinar la desviación media de los pesos.

Varianza

La varianza es la media aritmética de las desviaciones cuadráticas con respecto a la


media. Cabe indicar que la varianza es no negativa y será cero solamente si todas las
observaciones son iguales.
47

Las fórmulas para calcular la varianza poblacional y la varianza muestral son un tanto
diferentes. Consideraremos primeramente a la varianza poblacional de datos no agru-
pados, para la cual se emplea la siguiente fórmula:

∑(𝑥𝑥 − 𝜇𝜇)2
𝜎𝜎 2 =
𝑁𝑁

Donde:
σ2 es el símbolo de la varianza poblacional (letra griega sigma minúscula)
se expresa normalmente como sigma cuadrada
x es el valor de una observación de la población
μ es la media aritmética de la población
N es el número total de observaciones en la población

Ejemplo: Las edades de los pacientes del pabellón de Hemodiálisis del Hospital Pro-
vincial son 38 - 26 - 13 - 41 y 22 años. ¿Cuál es la varianza de la población?

x-μ (x - μ)
2
Edad (x)
38 +10 100
26 -2 4
13 -15 225
41 +13 169
22 -6 36
140 0 534

∑(𝑥𝑥 − 𝜇𝜇)2 534


𝜎𝜎 2 = = = 106,8
𝑁𝑁 5

Al igual que el alcance o rango y la desviación media, la varianza se utiliza para com-
parar la dispersión en dos o más conjuntos de observaciones.

La conversión de la varianza poblacional a la muestral implica una pequeña modifica-


ción en el denominador:

∑(𝑥𝑥 − 𝑥𝑥)2
𝑠𝑠 2 =
𝑛𝑛 − 1

Donde
s2 es el símbolo para representar la varianza muestral
x es el valor de cada observación en la muestra
x es la media de la muestra
n es el número total de observaciones muestrales

Desvío Estándar

La interpretación del alcance y la desviación media es fácil: la primera es la diferencia


entre los valores máximo y mínimo de un conjunto de datos mientras que la segunda
es el promedio de las desviaciones respecto a la media. Sin embargo, cuando tene-
mos que interpretar la varianza se nos presenta el caso de que, por ejemplo, la varian-
za de 106,8 para las edades de los pacientes en aislamiento no está expresada en
términos de “años” sino de “años al cuadrado”.
48

Este dilema se soluciona al calcular la raíz cuadrada de la varianza poblacional, lo que


transforma a un valor que tiene la misma unidad de medición que se utiliza en los da-
tos originales. A esta magnitud, la raíz cuadrada de la varianza poblacional, se deno-
mina desviación estándar poblacional o desvío típico poblacional y se expresa
matemáticamente como:
∑(𝑥𝑥 − 𝜇𝜇)2
𝜎𝜎 = �
𝑁𝑁
Del ejemplo anterior, tendríamos:

∑(𝑥𝑥 − 𝜇𝜇)2 534


𝜎𝜎 = � = � = �106,8 = 10,33 𝑎𝑎ñ𝑜𝑜𝑜𝑜
𝑁𝑁 5

El concepto desviación estándar muestral o desvío típico muestral se utiliza como


un estimador de la desviación estándar poblacional, la fórmula matemática que lo ex-
presa es la siguiente:

∑(𝑥𝑥 − 𝑥𝑥)2
𝑠𝑠 = �
𝑛𝑛 − 1

Medidas de dispersión para datos agrupados

AMPLITUD DE VARIACIÓN | RANGO | ALCANCE

Recordemos que el rango se define como la diferencia entre el valor máximo y mínimo
de una población. Para calcular la amplitud de variación a partir de datos agrupados
en una distribución de frecuencias, se resta el límite inferior de la clase más baja, del
límite más alto de la clase más alta.

DESVÍO TÍPICO | DESVIACIÓN ESTÁNDAR

La fórmula directa del desvío estándar para datos no agrupados es

2 (∑ 𝑥𝑥)2
�∑ 𝑥𝑥 − 𝑛𝑛
𝑠𝑠 =
𝑛𝑛 − 1

Si los datos que interesan están agrupados, la desviación estándar muestral puede
aproximarse sustituyendo Σx2 por Σfx2 y Σx por Σfx, donde x es el punto medio de la
clase. Dicho esto, la fórmula para la desviación estándar muestral para datos agrupa-
dos se convierte en:

2 (∑ 𝑓𝑓𝑓𝑓)2
�∑ 𝑓𝑓𝑓𝑓 − 𝑛𝑛
𝑠𝑠 =
𝑛𝑛 − 1
49

AUTOEVALUACIÓN

Los tiempos de uso de brocas es de un cuarto de pulgada para alqui-


ler, disponibles en “Alquiler de Herramientas” se organizaron en la si-
guiente frecuencia:

Importaciones Nº de Proveedores
2 hasta 4 2
4 hasta 6 5
6 hasta 8 10
8 hasta 10 4
10 hasta 12 2

a. Calcular el alcance/rango.
b. Evaluar la desviación estándar muestral.
c. Determinar la varianza muestral.

Interpretación y usos de la desviación estándar

Generalmente, la desviación estándar se emplea como una medida para comparar la


dispersión en dos o más conjuntos de observaciones.

Hemos visto que una desviación estándar pequeña para un conjunto de valores, indica
que los mismos se localizan cerca de la media. Por el contrario, una desviación con
valor grande indica que las observaciones están lejos de la media.

TEOREMA DE CHEBYSHEV

A propósito de lo anterior, el matemático ruso P.L. Chebyshev (1821 - 1894) desarrolló


un teorema que permite determinar la proporción mínima de los valores que se en-
cuentran dentro de un número específico de desviaciones estándar con respecto a la
media.

Por ejemplo, con base al teorema de Chebyshev, por lo menos 3 de cada 4 valores (o
el 75%) deben encontrarse entre la media más 2 desviaciones estándar y la media
menos 2 desviaciones estándar. Esta relación se aplica sin importar la forma de la
distribución que tengan esos datos. Asimismo, enuncia que por lo menos 8 de cada 9
valores (el 88,9%) estarán entre la media ±3 desviaciones estándar y que al menos 24
de 25 valores (el 96%) se encontrarán entre la media y ±5 desviaciones estándar. En
términos generales, el teorema de Chebyshev establece que:

Para un conjunto cualquiera de observaciones (muestra o población) la pro-


porción mínima de los valores que se encuentran dentro de k desviaciones
2
estándar desde la media es por lo menos 1 - 1/k donde k es una constante
mayor que 1.

Ejemplo: Se tiene un conjunto de datos cuya media aritmética es 51,54 y cuya des-
viación estándar se calculó en 7,51. Al menos ¿qué porcentaje de los valores se en-
cuentra entre ±3,5 desviaciones estándar?
50

Si aplicamos el teorema de Chebyshev obtenemos que aproximadamente el 92% de


los valores se encuentran entre ±3,5 desviaciones estándar.

1 1
1− = 1 − = 0,92
𝑘𝑘 2 3,52

Regla empírica

El teorema de Chebyshev se refiere a cualquier conjunto de valores; esto es, al distri-


bución de los valores puede tomar cualquier forma. Sin embargo, en una distribución
simétrica en forma de campana, se obtiene mayor precisión al explicar la dispersión
con respecto a la media. Estas relaciones entre la desviación estándar y la media
constituyen la llamada regla empírica, que la pueden encontrar en otra bibliografía
como regla normal.

En una distribución de frecuencias simétrica, con forma de campana, apro-


ximadamente el 68% de las observaciones estarán entre ± 1 desviación es-
tándar desde la media; aproximadamente el 95% de las observaciones se en-
contrarán entre ± 2 desviaciones estándar desde la media y prácticamente
todas las observaciones (99,7%) se hallarán entre ± 3 desviaciones estándar
a partir del valor medio.

Ejemplo: Una muestra de las cantidades de dinero mensual que destina a sus alimen-
tos un ciudadano de tercera edad que vive solo sigue aproximadamente una distribu-
ción de frecuencias simétrica de tipo campana. La media muestral es de $1500 y la
desviación estándar es de $200. Utilizando la regla empírica indique:

1. Aproximadamente ¿entre qué cantidades está el 68% de los gastos mensuales en


alimentos?
2. Aproximadamente ¿entre qué cantidades se halla el 95% de los gastos mensuales?
3. Aproximadamente ¿entre qué montos están todos los gastos mensuales?

Vamos a resolver estas cuestiones a continuación:

1. Aproximadamente el 68% está entre $1300 y $1700 que se obtiene por x±1s =
$1500±$200
2. Aproximadamente el 95% está entre $1100 y $1900 que resulta de x±2s =
$1500±2($200)
3. Casi todos los casos (99,7%) están entre $900 y $2100 lo que se obtiene mediante
x±3s = $1500±3($200)

Dispersión Relativa

Resulta imposible una comparación directa de dos o más medidas de dispersión (por
ejemplo, la desviación estándar de una distribución de ingresos anuales y la desvia-
ción estándar de una distribución de inasistencias, ambas del mismo grupo de em-
pleados ¿se puede decir que la desviación estándar de $1200 de la distribución de
ingresos es mayor que la desviación estándar de 4,5 días en la distribución de faltas o
asistencias? Obviamente no, porque no podemos comparar directamente pesos con
días de inasistencia al trabajo.

Para poder realizar una comparación significativa se necesita convertir cada una de
esas medias a un valor relativo, es decir, a un porcentaje. Karl Pearson (1857 - 1936)
contribuyó de manera importante a la ciencia estadística y desarrolló una media relati-
va denominada coeficiente de variación (CV) que resulta muy útil cuando:
51

• distantes.

Coeficiente de Variación: es la razón (cociente) de la desviación estándar y la


media aritmética, expresada como un porcentaje.

𝑠𝑠
𝐶𝐶𝐶𝐶 = ∗ 100
𝑥𝑥

Donde
s es la desviación estándar
x es la media muestral
al multiplicar por 100 se convierte la expresión decimal a porcentaje

Ejemplo: Un estudio sobre el monto de bonos y los años de servicio de varios em-
pleados, dio como resultado los siguientes datos estadísticos: media $2000 y desvia-
ción estándar $400. La media del número de años de servicio fue de 20 años y la des-
viación estándar de 2 años. Comparar las dispersiones relativas de las dos distribucio-
nes empleando el coeficiente de variación.

Como las distribuciones están en unidades diferentes se convierten en coeficientes de


variación:

• Para los bonos:


𝑠𝑠 400
𝐶𝐶𝐶𝐶 = ∗ 100 = ∗ 100 = 20%
𝑥𝑥 2000

• Para los años de servicio:


𝑠𝑠 2
𝐶𝐶𝐶𝐶 = ∗ 100 = ∗ 100 = 10%
𝑥𝑥 20

Al interpretar se puede ver que existe mayor dispersión relativa con respecto a la me-
dia en la distribución de los bonos pagados en comparación con la distribución de los
años de servicio.

ASIMETRÍA

Ya hemos descripto numéricamente la tendencia central de un conjunto de observa-


ciones mediante la media, la mediana y la moda. Ahora vamos a describir varias me-
didas que muestran la magnitud de la dispersión en un conjunto de datos, medida por
la amplitud de variación y la desviación estándar.

Otra característica de un conjunto de datos es su forma. Comúnmente se observan


cuatro formas: simétrica, positivamente asimétrica, negativamente asimétrica y bimo-
dal.

En un conjunto simétrico de observaciones, la media y la mediana son iguales y los


valores de los datos se encuentran distribuidos uniformemente alrededor de estos va-
lores. Los valores de los datos menores que la media y la mediana son una imagen en
espejo de los que son mayores.

Un conjunto de valores es sesgado (o asimétrico) hacia la derecha o positivamente


asimétrico si hay un solo pico y los valores se encuentran extendidos más a la dere-
cha del pico que hacia la izquierda. En este caso la media es mayor que la mediana.
52

En una distribución sesgada hacia la izquierda o negativamente asimétrica hay un


solo pico, pero las observaciones se encuentran más extendidas hacia la izquierda, en
la dirección negativa, que hacia la derecha. En una distribución como ésta, la mediana
es mayor que la media.

En la bibliografía estadística hay varias fórmulas que se utilizan para calcular la asime-
tría; la más simple, desarrollada por Karl Pearson se basa en la diferencia entre la me-
dia y la mediana.

3(𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 − 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚)
𝐶𝐶𝐶𝐶 (𝑑𝑑𝑑𝑑 𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃) =
𝑠𝑠

De acuerdo con esta relación el coeficiente de asimetría puede variar desde -3 hasta
+3; con lo que un valor cercano a -3 indica una considerable asimetría negativa. Un
valor como por ejemplo 1,57 indicaría una asimetría positiva moderada. El valor cero
que se presenta cuando media y mediana tienen el mismo valor, indica que la distribu-
ción es simétrica.

Otras medidas de dispersión

La medida de dispersión más utilizada es la desviación estándar o desvío típico; sin


embargo, existen otros métodos para describir la variación o dispersión en un conjunto
de datos. Un método es, por ejemplo, determinar la ubicación de los valores que divi-
den un conjunto de observaciones en partes iguales. Estas medidas son los cuartiles,
los deciles, y los centiles (o percentiles como podrán encontrar en otra bibliografía)

Los cuartiles dividen un conjunto de observaciones en cuatro partes iguales. Vamos a


considerar cualquier conjunto de valores organizados del mínimo al máximo, de mane-
ra análoga a la mediana y sabiendo que los cuartiles dividen el conjunto en cuatro,
vamos a decir entonces que el primer cuartil (Q1) es al valor bajo del cual se encuen-
tra el 25% de las observaciones y el tercer cuartil (Q3) es el valor por debajo del cual
se encuentra el 75% de las observaciones. Lógicamente, Q2 (el segundo cuartil)
coincide con la Mediana. Los valores Q1, Q2 y Q3 dividen un conjunto de datos en cua-
tro partes iguales donde Q1 puede considerarse la mediana de la mitad inferior de los
datos y Q3 como la correspondiente a la mitad superior de los datos.

Siguiendo el mismo principio, los deciles dividen al conjunto de observaciones en 10


partes iguales y los centiles en 100 partes iguales.

Para formalizar el procedimiento de cálculo, sea Lc la ubicación del centil deseado, n el


número de observaciones (por tanto si se quiere ubicar una observación ésta estará
representada por (n+1)/(C/100) donde C es el centil deseado) tenemos la siguiente
fórmula:
𝐶𝐶
𝐿𝐿𝑐𝑐 = (𝑛𝑛 + 1)
100

Ejemplo: De los siguientes datos ordenados, localizar la mediana, primer y tercer


cuartil.

1460 - 1471 - 1637 - 1721 - 1758 - 1787 - 1940 - 2038 - 2047 - 2054 - 2097 - 2205 -
2287 - 2311 - 2406

El valor de la mediana es la observación que se encuentra en el centro. Dicho valor


central (o L50) se localiza en (n +1)/2 donde n es el número total de observaciones. En
este caso es la posición 8 que equivale a 2038. Para localizar el Q1 utilizamos la fór-
mula reemplazando n=15 y C=25 con lo que nos queda:
53

𝐶𝐶 25
𝐿𝐿𝑐𝑐 = (𝑛𝑛 + 1) = (15 + 1) = 4
100 100

Ahora bien, para calcular el Q3, n se mantendría fija en 15 y variaría C que tomaría el
valor 75 con lo que nos queda:

𝐶𝐶 75
𝐿𝐿𝑐𝑐 = (𝑛𝑛 + 1) = (15 + 1) = 12
100 100

Por tanto, los valores del primer y tercer cuartil se localizan en las posiciones 4 y 12,
que tienen los valores 1721 y 2205 respectivamente.

En el ejemplo que vimos anteriormente, la fórmula de ubicación de la posición dio co-


mo resultado un número entero ¿qué pasaría si por ejemplo tuviésemos 20 observa-
ciones, esto es n=20 y se quisiera localizar el Q1?

Al aplicar la fórmula de ubicación tenemos:

𝐶𝐶 25
𝐿𝐿𝑐𝑐 = (𝑛𝑛 + 1) = (20 + 1) = 5,25
100 100

Se debe localizar primero el quinto valor en el conjunto ordenado y luego, desplazar-


nos un 0,25 de la distancia entre el quinto y sexto valor, señalando ese como el primer
cuartil.

Supongamos que se tienen los siguientes datos ya ordenados: 43 - 61 - 75 - 91 - 101 y


104. El Q1 se localizará entonces en:

𝐶𝐶 25
𝐿𝐿𝑐𝑐 = (𝑛𝑛 + 1) = (6 + 1) = 1,75
100 100

La fórmula de posición indica que el Q1 se localiza entre el primer y segundo valor y se


encuentra a 0,75 de la distancia entre ellos. El primer valor es 43 y el segundo 61 por
lo que la distancia entre ellos es 18. Para ubicar el primer cuartil hay que pasar a 0,75
de la distancia entre ellos, por lo que 0,75*(18) = 13,5. Para terminar el procedimiento
se suma 13,5 al primer valor resultando así que el Q1 se localiza en 56,5.

Análogamente se extiende lo anterior tanto a los deciles como a los centiles.

DIAGRAMA DE CAJA

Un diagrama de caja es una representación gráfica basada en los cuartiles, ayuda a


ilustrar un conjunto de datos. Para elaborarlo, necesitamos cinco valores estadísticos:
el valor mínimo, Q1, la mediana, Q3 y el valor máximo. Lo vamos a ver mejor con el
siguiente ejemplo.

Ejemplo: El restaurante La Pizzadinha ofrece el servicio de entrega a domicilio sin


cargo extra en un radio de 15 km. Juan, el propietario, desea obtener información
acerca del tiempo de entrega. ¿Cuánto tiempo toma una entrega típica? ¿Dentro de
qué intervalo de tiempos se efectúa la mayor parte de las entregas? Para una muestra
de 20 se obtuvo la siguiente información:

• Valor mínimo: 13 minutos


• Q1: 15 min
• Mediana: 18 min
54

• Q3: 22 min
• Valor máximo: 30 min

El primer paso para elaborar un diagrama de caja es establecer una escala adecuada
en el eje horizontal. Después se dibuja un rectángulo (o caja) que par de Q1 (15 min) y
termina en Q3 (22 min) Dentro de la caja se marca un segmento vertical para represen-
tar la mediana (18 min) Finalmente se trazan dos líneas horizontales, una desde la
caja hasta el valor mínimo (13 min) y otra hasta el valor máximo (30 min) Estas líneas
horizontales que sobresalen de la caja se llaman salientes de la caja o bigotes.

El diagrama de caja muestra que el 50% central de las entregas toma entre 15 y 22
minutos. La distancia o intervalo entre los extremos de la caja (7min) se denomina
amplitud o rango intercuartílico dicho valor es la distancia entre el Q1 y Q3.

El diagrama de caja también indica que la distribución del ejemplo es positivamente


asimétrica esto es porque puede verse que el 25% de los datos mayores que el Q3 se
encuentran más dispersos que el 25% de los datos menores que el primer cuartil. Un
segundo indicio de asimetría positiva es que la mediana no se encuentra en el centro
de la caja (la distancia del Q1 a la mediana es menor que la distancia de esta última al
Q3).

También podría gustarte