Lectura Semana 2 PDF

DESCRIPCIÓN DE LOS DATOS:
MEDIDAS DE DISPERSIÓN
OBJETIVOS
Al terminar esta unidad el estudiante podrá:

 Calcular e interpretar la amplitud de variación, la desviación media, la variancia, y la
desviación estándar de los datos originales.
 Calcular e interpretar la amplitud de variación, la variancia y la desviación estándar de
datos agrupados.
 Explicar las características, usos, ventajas y desventajas de cada medida de dispersión.
 Entender el Teorema de Chebyshev y la regla normal o empírica, y su relación con un
conjunto de observaciones.
 Calcular y explicar los cuartiles y la amplitud de variación intercuartílica.
 Elaborar e interpretar los diagramas de caja.
 Calcular y entender el coeficiente de variación y el coeficiente de asimetría.
Amplitud
La amplitud es la diferencia entre los valores mayor y menor en un conjunto de datos.
AMPLITUD = valor mayor - valor menor
Ejemplo 1
Una muestra de cinco recién graduados indicó los siguientes salarios iniciales: $22000,
$28000, $31000, $23000, $24 000.
La amplitud es $31000 - $22000 = $9000.
Desviación media:
 La desviación media es la media aritmética de los valores absolutos de las desviaciones
respecto a la media aritmética.
Σ Xi − X
DM =
n
Ejemplo
Los pesos de una muestra de 5 canecas de pintura son (en lb) 103, 97, 101, 106 y 103.
X=
∑X i
= 510/5 = 102 lb. X =
∑X i
n n
∑X i − X = 1 + 5 + 1 + 4 + 1 = 12
DM = 12/5 = 2.4
Por lo común los pesos de las canecas están a 2.4 lb del peso medio de 102 lb.
Varianza de la población
 La varianza de la población para datos no agrupados es la media aritmética de las

desviaciones cuadráticas respecto a la media de la población.
Σ( X i − µ ) 2
σ2 =
N
Ejemplo 1
 Las edades de la familia Pérez son 2, 18, 34, y 42 años. ¿Cuál es la varianza de la
población?
 µ=
ΣX i / N ==
96 / 4 24
 σ2 =
Σ( X i − µ ) 2 / N =
944 / 4 =
236
 Una fórmula alternativa para la variancia poblacional es:
 = σ2
ΣX i 2 ΣX i 2
−( ) =
∑ X i2 − µ 2
N N N
Desviación estándar poblacional
 La desviación estándar poblacional (σ) es la raíz cuadrada de la varianza de la población.
 Para el ejemplo 1, la desviación estándar poblacional es 15.36 (raíz cuadrada de 236).
Varianza muestral
−
Σ( X i − X ) 2
2
Fórmula conceptual =S =
n −1
Ejemplo 2
 Una muestra de cinco salarios por hora para varios trabajadores en el área es: $7, $5,
$11, $8, $6. Encuentre la varianza.
 X=
∑X i
= 37/5 = 7.40
n
−
Σ( X i − X ) 2
 Fórmula conceptual =S 2 = = 21.2/(5-1) = 5.3
n −1
Desviación estándar muestral
 La desviación estándar muestral es la raíz cuadrada de la variancia muestral.

 En el ejemplo 2, la desviación estándar de la muestra es = 2.30 = S.
Varianza muestral para datos agrupados
 La fórmula de la variancia muestral para datos agrupados usada como estimador de la

varianza poblacional es:
( ΣX i f i ) 2
ΣX i2 fi −
=
 S2
∑
=
(X − X ) f
i
2
i n
n −1 n −1
 donde fi es la frecuencia de clase y Xi es el punto medio de la clase.
Propiedades de la varianza
 La varianza siempre es positiva, es el promedio de las desviaciones al cuadrado con

respecto a la media, se promedian cuadrados y los cuadrados son positivos.
 La varianza de una constante es igual a cero. Una constante no tiene dispersión.
 La varianza de una constante más una variable es igual a la varianza de la variable.
 La varianza de una constante por una variable es igual a la constante al cuadrado
por la varianza de la variable.
 La desviación estándar como es la raíz cuadrada de la varianza, cumple con estas
mismas propiedades, pero sacándole la raíz cuadrada a los resultados de la varianza.
Interpretación y usos de la desviación estándar
 Teorema de Chebyshev: para cualquier conjunto de observaciones, la proporción

mínima de valores que está dentro de k desviaciones estándar desde la media es al
menos 1 - 1/k2 , donde k es una constante mayor que 1.
 Regla empírica: para una distribución de frecuencias simétrica de forma acampana,
cerca de 68 % de las observaciones estará dentro de ±1σ de la media (µ); cerca de 95
% de las observaciones estará dentro de ±2σ de la media (µ); alrededor de 99 % estará
dentro de ±3σ de la media (µ).
Dispersión relativa
 El coeficiente de variación es la razón de la desviación estándar a la media aritmética,

expresada como porcentaje:
s
 CV = (100%)
X
 Mide la homogeneidad de la distribución en términos absolutos y por este motivo se

pueden comparar dos o más distribuciones con esta medida para determinar cuál es la
más homogénea es decir la de menor dispersión, entre más pequeño sea el coeficiente
de variación, menor es la dispersión y por tanto se dice que la distribución es más
homogénea.
Asimetría
 Asimetría (sesgo) es la medida de la falta de simetría en una distribución.
 El coeficiente de asimetría se calcula mediante la siguiente fórmula:
 Sk = 3(media - mediana)/desviación estándar
 Si el coeficiente de asimetría es igual a cero se dice que la distribución es simétrica, si es

positivo tiene asimetría positiva (la cola de la distribución se alarga a la derecha), si es
negativo, la asimetría es negativa (la cola de la distribución se alarga ala izquierda).
Amplitud intercuartílica
 La amplitud intercuartílica es la distancia entre el tercer cuartil Q3 y el primer.

cuartil Q1.
 Amplitud intercuartílica = tercer cuartil - primer cuartel = Q3 – Q1
 Primer cuartil (datos agrupados)
 El primer cuartil es el valor correspondiente al punto debajo del cual se encuentra el 25

% de las observaciones en un conjunto ordenado de datos.
n
− F j −1
Q1 = Y j −1 + C j 4
fj
Donde Yj-1 = límite de la clase se que contienen Q1, Fj-1 = frecuencia acumulada que
precede a la clase que contiene a Q1, fj = frecuencia de la clase que contiene Q1, Cj=
tamaño de la clase que contiene Q1.
Tercer cuartil (datos agrupados)
 El tercer cuartil es el valor correspondiente al punto debajo del cual se encuentra 75 %

de las observaciones en un conjunto ordenado de datos:

3n
− F j −1
 Q1 = Y j −1 + C j 4
fj
 donde Yj-1 = límite inferior de la clase que contiene a Q3, Fj-1 = frecuencia acumulada
precedente a la clase que contiene a Q3, fj = frecuencia de la clase que contiene a Q3,
Cj = tamaño de la clase que contiene a Q3.
 Desviación cuartílica
 La desviación cuartílica es la mitad de la distancia entre el tercer cuartil, Q3, y el primero,

Q1.
 DQ = [Q3 - Q1 ]/2
EJEMPLO 4
Si el tercer cuartil, Q3 = 24 y el primer cuartil, Q1 = 10, ¿cuál es la desviación cuartílica? La

amplitud intercuartílica es 24 - 10 = 14; por lo tanto, la desviación cuartílica es 14/2 = 7.
Fórmula para calcular percentiles en datos sin agrupar

 Cada conjunto de datos tiene 99 porcentiles, que dividen el conjunto en 100 partes iguales.
 El percentil de orden k, Pk, es el valor de la variable debajo del cual está el k por ciento de las
observaciones.
 Para calcular el percentil de orden k, Pk, en datos sin agrupar, se realizan los siguientes
pasos: primero, se ordenan los datos de menor a mayor; luego se calcula el factor de
localización mediante la fórmula:
k
FL = (n + 1)
100
El factor de localización FL, corresponde al orden de la observación que corresponde al
percentil késimo, aplicando la siguiente fórmula para determinar el Pk.
Pk= A la observación que corresponde a la parte entera del FL, más la diferencia
entre la observación siguiente al FL y la observación del FL, multiplicada dicha diferencia
por la parte decimal del FL.
Ejemplo 5
Los siguientes datos corresponde a la edad, en años cumplidos de 15 estudiantes de una
universidad: 18, 16, 20, 22, 19, 24, 17, 17, 23, 20, 19, 25, 30, 27, 24. Se desea
conocer cuál es la edad máxima del 30 % de los estudiantes muestreado.
La pregunta anterior en forma explicita, está solicitando calcular el percentil de orden 30, P30.
Para obtener este percentil, lo primero es ordenar los datos en forma ascendente, de menor a
mayor: 16, 17, 17, 18, 19, 19, 20, 20, 22, 23, 24, 24, 25, 27, 30. Luego de
ordenarlos se calcula el factor de localización, FL = (15+1)*30/100 = 4.8 = FL. La parte entera
de FL es 4, por tanto la cuarta observación es 18 y el P30 = 18+ (19-18)*0.8 = 18.8. El 30% de
los estudiantes encuestados tiene una edad máxima de 18.8 años
 Los percentiles dividen en 100 partes iguales la distribución, por tanto, se tiene
equivalencia entre los percentiles , los cuartiles y la mediana:
P25 = Q1; P50 = Q2 = Me; P75 = Q3. Las anteriores relaciones se cumplen tanto
para datos agrupados como para datos sin agrupar.
Diagramas de caja
 Un diagrama de caja es una ilustración gráfica, basada en cuartiles, que ayuda a
visualizar un conjunto de datos.
 Se requieren cinco tipos de datos para construir un diagrama de caja: el valor mínimo, el
primer cuartil, la mediana, el tercer cuartil, y el valor máximo.
Ejemplo
Con base en una muestra de 20 entregas, una tienda de entregas a domicilio determinó la
siguiente información: tiempo mínimo de entrega = 13 minutos, Q1 = 15 minutos, mediana =
18 minutos, Q3 = 22 minutos, tiempo máximo de entrega = 30 minutos. Desarrolle un
diagrama de caja para los tiempos de entrega.
Gráfico de Caja y Bigotes
13 16 19 22 25 28 31
Tiempo de entrega

Lectura Semana 2 PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Lectura Semana 2 PDF

Cargado por

Copyright:

Formatos disponibles

DESCRIPCIÓN DE LOS DATOS:

Al terminar esta unidad el estudiante podrá:

 La varianza de la población para datos no agrupados es la media aritmética de las

 Una fórmula alternativa para la variancia poblacional es:

Desviación estándar poblacional

 La desviación estándar poblacional (σ) es la raíz cuadrada de la varianza de la población.

 Para el ejemplo 1, la desviación estándar poblacional es 15.36 (raíz cuadrada de 236).

Desviación estándar muestral

 La desviación estándar muestral es la raíz cuadrada de la variancia muestral.

Varianza muestral para datos agrupados

 La fórmula de la variancia muestral para datos agrupados usada como estimador de la

 donde fi es la frecuencia de clase y Xi es el punto medio de la clase.

 La varianza siempre es positiva, es el promedio de las desviaciones al cuadrado con

 Teorema de Chebyshev: para cualquier conjunto de observaciones, la proporción

 El coeficiente de variación es la razón de la desviación estándar a la media aritmética,

 Mide la homogeneidad de la distribución en términos absolutos y por este motivo se

 Sk = 3(media - mediana)/desviación estándar

 Si el coeficiente de asimetría es igual a cero se dice que la distribución es simétrica, si es

 La amplitud intercuartílica es la distancia entre el tercer cuartil Q3 y el primer.

 Primer cuartil (datos agrupados)

 El primer cuartil es el valor correspondiente al punto debajo del cual se encuentra el 25

Tercer cuartil (datos agrupados)

 El tercer cuartil es el valor correspondiente al punto debajo del cual se encuentra 75 %

 La desviación cuartílica es la mitad de la distancia entre el tercer cuartil, Q3, y el primero,

Si el tercer cuartil, Q3 = 24 y el primer cuartil, Q1 = 10, ¿cuál es la desviación cuartílica? La

Fórmula para calcular percentiles en datos sin agrupar

Gráfico de Caja y Bigotes

También podría gustarte