Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Además de las medidas de localización, suele ser útil considerar las medidas de variabilidad o de
dispersión. Suponga que usted es el encargado de compras de una empresa grande y que con
regularidad envía órdenes de compra a dos proveedores. Después de algunos meses de operación, se
percata de que el número promedio de días que ambos proveedores requieren para surtir una orden es
10 días.
empresa 1 empresa 2 empresa 3
6,5 6,5 6,5
Una medida que no es afectada por los valores extremos es el rango intercuartílico (RIC).
Esta medida de variabilidad es la diferencia entre el tercer cuartil Q3 y el primer cuartil Q1. En
otras palabras, el rango intercuartílico es el rango en que se encuentra el 50% central de los
datos.
VARIANZA
La varianza es una medida de variabilidad que utiliza todos los datos. La varianza está basada en
la diferencia entre el valor de cada observación (xi) y la media. A la diferencia entre cada valor xi y
la media ( cuando se trata de una muestra, μ cuando se trata de una población) se le llama
desviación respecto de la media. Si se trata de una muestra, una desviación respecto de la media se
escribe (xi ), y si se trata de una población se escribe (xi μ). Para calcular la varianza, estas
desviaciones respecto de la media se elevan al cuadrado.
Si los datos son de una población, el promedio de estas desviaciones elevadas al cuadrado es la
varianza poblacional. La varianza poblacional se denota con la letra griega σ2. En una población
en la que hay N observaciones y la media poblacional es μ, la varianza poblacional se define como
sigue.
En la mayor parte de las aplicaciones de la estadística, los datos a analizar provienen de una
muestra. Cuando se calcula la varianza muestral, lo que interesa es estimar la varianza poblacional
σ2.
Control de calidad
Considere una muestra con los datos 10, 20, 12, 17 y 16 calcule los estadísticos descriptivos
siguientes:
a. Rango c. Desviación estándar
b. Varianza d. Coeficiente de variación
empresa 1 Xi - Ẋ (Xi - Ẋ)²
SUMA = 5,50
6 -0,5 0,25
7 0,5 0,25
8 1,5 2,25
7 0,5 0,25
6 -0,5 0,25
5 -1,5 2,25
6,5 0 5,50
EXPLORACION DE DATOS
Gráficas de puntos
Muchos conjuntos de datos cuantitativos están formados de números que no se
pueden separar fácilmente en categorías o intervalos. Entonces se hace necesaria
una forma diferente de graficar este tipo de datos.
La gráfica más sencilla para datos cuantitativos es la gráfica de puntos. Para un
conjunto pequeño de mediciones, por ejemplo el conjunto 2, 6, 9, 3, 7, 6, se puede
simplemente graficar las mediciones como puntos en un eje horizontal.
EXPLORACION DE DATOS
GRÁFICAS DE TALLO Y HOJAS
90 70 70 70 75 70
Precios de zapatos 65 68 60 74 70 95
deportivos 75 70 68 65 40 65
70
4 0
6 5 8 0 8 5 5
7 0 0 0 5 0 4 0 500
9 0 5
GRÁFICAS DE TALLO Y HOJAS
4 0
6 0 5 5 5 8 8
7 0 0 0 0 0 00 4 5 5
9 0 5
A veces las opciones de tallo disponibles resultan en una gráfica que contiene muy
pocos tallos y un gran número de hojas dentro de cada tallo. En esta situación, se
pueden prolongar los tallos al dividir cada uno en varias líneas, dependiendo de
los valores de hojas que se les asignen. Por lo general los tallos se dividen en una
de dos formas:
• En dos líneas, con las hojas 0-4 en la primera línea y las hojas 5-9 en la segunda
línea
• En cinco líneas, con las hojas 0-1, 2-3, 4-5, 6-7 y 8-9 en las cinco líneas,
respectivamente
GRÁFICAS DE TALLO Y HOJAS
Los datos de la tabla, son los pesos de 30 bebés de gestación completa al momento
de nacer, nacidos en un hospital y registrados al décimo de libra más cercano.
Construya una gráfica de tallo y hoja para mostrar la distribución de los datos.
5 8 6
6 1 2
6 8 8 8 7
7 2 2 1
7 8 7 9 5 7 7 5 87
8 0 2 2 2
8 5 6 5
9 0 4 0
Pesos de 30 bebés de gestación completa al momento de
nacer
Interpretación de gráficas
Una vez creada una gráfica o gráficas, para un conjunto de datos, ¿qué se debe buscar al tratar de
describir los datos?
• Primero, verificar las escalas horizontales y verticales, de manera que haya claridad respecto a lo
que se mide.
• Examinar el lugar de la distribución de datos. ¿Dónde está el centro de distribución del eje
horizontal? Si se comparan dos distribuciones, ¿están centradas en el mismo lugar?
• Examinar la forma de la distribución. ¿La distribución tiene un “pico”, un punto que es más alto
que cualquier otro? Si es así, ésta es la medición o categoría que se presenta con más frecuencia.
¿Hay más de un pico? ¿Hay un número aproximadamente igual de mediciones a la izquierda y
derecha del pico?
• Buscar mediciones poco comunes o resultados atípicos. Esto es, ¿hay mediciones mucho
mayores o menores que todas las otras? Estos resultados atípicos pueden no ser representativos de
los otros valores del conjunto.
Por definición, un cuarto de las mediciones del conjunto de datos se encuentre entre
cada uno de los cuatro pares adyacentes de números.
El resumen de cinco números se puede usar para crear una gráfica sencilla llamada
gráfica de caja a fin de describir visualmente la distribución de datos. De la gráfica de
caja, rápidamente se puede detectar cualquier sesgo en la forma de la distribución y
ver si hay algunos resultados atípicos en el conjunto de datos.
PARA CONSTRUIR UNA GRÁFICA DE CAJA
• Trace una recta horizontal que represente la escala de medición. Forme una caja un poco arriba de
la recta horizontal con los extremos derecho e izquierdo en Q1 y Q3.
• Trace una recta vertical que pase por la caja en la ubicación de la mediana.
1. El valor menor.
2. El primer cuartil (Q1).
3. La mediana (Q2).
4. El tercer cuartil (Q3).
5. El valor mayor
Ordenamos de menor a mayor
3310 3355 3450 3480 3480 3490 3520 3540 3550 3650 3730 3925
El resumen de cinco números correspondiente a los datos de los salarios iniciales es 3310, 3465,
3505, 3600, 3925. Entre cada dos números adyacentes del resumen de cinco números se
Encuentran aproximadamente 25% de los datos.
1. Se dibuja una caja cuyos extremos se localicen en el primer y tercer cuartiles. En los datos de los salarios
iniciales Q1 3465 y Q3 3600. Esta caja contiene 50% de los datos centrales.
2. En el punto donde se localiza la mediana (3505 en los datos de los salarios) se traza una línea vertical.
3. Usando el rango intercuartílico, RIC Q3 – Q1, se localizan los limites. En un diagrama de caja los límites se
encuentran 1.5(RIC) abajo del Q1 y 1.5(RIC) arriba del Q3. En el caso de los salarios,
RIC= Q3 – Q1 =3600 – 3465 = 135.
Por tanto, los límites son: 3465 – 1.5(135)= 3262.5 y 3600 +1.5(135)= 3802.5.
Los datos que quedan fuera de estos límites se consideran observaciones atípicas.
4. A las líneas punteadas que se observan en la figura se les llama bigotes. Los bigotes van desde los extremos
de la caja hasta los valores menor y mayor de los limites calculados en el paso 3. Por tanto, los bigotes
terminan en los salarios cuyos valores son 3310 y 3730.