Documentos de Académico
Documentos de Profesional
Documentos de Cultura
2. Datos atípicos
2.1 Resumen de cinco números
2.2 Diagrama de cajas
1/61
Medidas descriptivas de
centro, localización,
dispersión y forma
2/61
Descripción de un conjunto de medidas numéricas
3/61
Medidas de tendencia central
4/61
Media aritmética
Promedio aritmético, media o promedio
Definición
Es el valor “alrededor del cual” la variable tiende preferencialmente
a agruparse; implica que los elementos del colectivo o de la muestra
presentaron para la variable, valores que están alrededor del
promedio.
m
∑︁ nj
MT (x) = Mj (x)
j=i
n
7/61
Media aritmética
Las fórmulas de la media aritmética poblacional y muestral son
iguales, difiriendo exclusivamente de sobre qué conjunto se mide.
Media poblacional
N
1 ∑︁
μ= xi
N i=1
Media muestral
n
1 ∑︁
x̄ = xi
n i=1
8/61
Media aritmética
La media como punto de equilibrio
Como ejemplo la media de 3, 8 y 4 es 5. De esta manera:
n
∑︁ 3
∑︁
M(x − x̄) = (xi − x̄) = (xi − 5) = (3 − 5) + (8 − 5) + (4 − 5) = 0
i=1 i=1
Imagine una regla con los números 1, 2, 3, ..., 9 uniformemente espaciados. Suponga
que se colocarán tres barras del mismo peso sobre la regla en los números 3, 4 y 8 y
que el punto de equilibrio se colocara en 5, la media de los tres números. Descubrirá
que la regla se equilibra perfectamente. Las desviaciones debajo de la media (-3)
son iguales a las desviaciones por encima de la media (+3). El esquema es:
9/61
Media aritmética
Características
Media armónica
Es el recíproco, o inverso, de la media aritmética de los recíprocos de dichos valores
y es recomendada para promediar velocidades.
n n
H(x) = =
∑︀n 1 1 1
i=1
+ ···+
xi x1 xn
11/61
Mediana
Datos originales
La mediana m de un conjunto de n mediciones es el valor de x que cae en la
posición media cuando las mediciones son ordenadas de menor a mayor.
Definición
Sean x(1) , x(2) , ..., x(n) una muestra acomodada en orden creciente de magnitud;
esto es, x(1) denota la observación más pequeña, x(2) es la segunda observación más
pequeña, y así sucesivamente hasta x(n) que denota la observación más grande.
Entonces, la mediana x̃ se define como la parte media o la ([n + 1] / 2)-ésima
observación si n es impar, o el promedio entre las dos observaciones intermedias [la
(n/ 2)-ésima y la ([n/ 2] + 1)-ésima] si n es par.
⎧
⎪
⎪ x([n+1] / 2) si n es impar
⎨
x̃ =
x + x([n/ 2]+1)
⎩ (n/ 2)
⎪
si n es par
⎪
2 12/61
Mediana
Datos agrupados discretos y continuos agrupados en intervalos
Definición
La moda es la categoría que se presenta con más frecuencia o el
valor de x que se presenta con más frecuencia. Cuando las
mediciones en una variable continua se han agrupado como
histograma de frecuencia o de frecuencia relativa, la clase con el pico
más alto o frecuencia se llama clase modal, y el punto medio de esa
clase se toma como la moda. Si la moda se repite dos veces se habla
de que los datos son bimodales y si se repite más veces son
multimodales.
14/61
Sobre el uso de medidas de tendencia central
15/61
Medidas de dispersión
16/61
Varianza
Motivación
17/61
Varianza
Suponga que usted es el encargado de compras de una empresa grande y
que con regularidad envía órdenes de compra a dos proveedores. Después
de algunos meses de operación, se percata de que el número promedio de
días que ambos proveedores requieren para surtir una orden es 10 días.
Aunque en ambos casos este número promedio de días es igual, ¿muestran
los dos proveedores el mismo grado de confiabilidad en términos de
tiempos para surtir los productos? Observe la dispersión, o variabilidad, de
estos tiempos en ambos histogramas. ¿Qué proveedor preferiría usted?
18/61
Varianza
Definición
Definición
Se define el promedio de la suma de los cuadrados de las diferencias entre los datos
y su media.
19/61
Varianza
Definición
Fórmula de cálculo para datos discretos agrupados
Para datos discretos agrupados, se denomina xj a los valores distintos de la variable
y fj a sus frecuencias relativas respectivas, el cálculo de la media se efectúa con:
k
1 ∑︁
V(x) = (xj − x̄)2 nj
n j=1
1. V(x) ≥ 0
2. V(k) = 0
(︃ )︃
m m
xj = V(xj ) si las variables son independientes.
∑︀ ∑︀
3. V
j=1 j=1
4. V(x ± k) = V(x)
5. V(kx) = k2 V(x)
6. V(k1 ± k2 x) = k2 V(x)
7. Sea x sobre un conjunto particionado en m subconjuntos y sean: nj , Mj (x) y
Vj (x) la parte de datos y la media aritmética y la varianza de la variable en
cada parte de la partición, entonces:
m
∑︁ nj ∑︁ nj
VT (x) = Vj (x) + (Mj (x) − MT (x))2
j=1 n n
21/61
Varianza
Descomposición elemental de la varianza
Varianza poblacional
n
1 ∑︁
σ2 = (xi − μ)2
N i=1
Varianza muestral
n
1 ∑︁
s2 = (xi − x̄)2
n−1 i=1
23/61
Desviación estándar
Para obviar el problema de interpretación tangible de la varianza, se define una
medida adicional de dispersión, denominada desviación estándar o tipo o típica.
Datos originales
⎯
⎸ n
⎸ ∑︀
⎸ (xi − x̄)2
⎷ i=1
s=
n−1
25/61
Desviación estándar
1 1 1
1− =1− =1− = 0.92
k2 (3.5)2 12.25
26/61
Desviación estándar
Interpretación y usos de la desviación estándar
La regla empírica
En cualquier distribución de frecuencias simétrica con forma de campana,
aproximadamente 68% de las observaciones se encontrarán entre más y menos una
desviación estándar de la media; cerca de 95% de las observaciones se encontrarán
entre más y menos dos desviaciones estándares de la media y, de hecho todas
(99.7%), estarán entre más y menos tres desviaciones estándares de la media.
27/61
Desviación estándar
29/61
Coeficiente de variación
Es una medida de variabilidad de la relación entre el tamaño de la media y la
variabilidad de la variable. En ingeniería se usa mucho el coeficiente inverso, |x̄|s , y se
conoce como coeficiente señal-ruido.
Definición
Se denomina coeficiente de variación al cociente:
s
CV =
|x̄|
Interpretación
r = max(xi ) − min(xi )
31/61
Medidas de posición relativa
32/61
Puntos z
xi − x̄
zi =
s
donde zi suele denominarse el punto z para xi
33/61
Puntos z
Interpretación
Al punto z también se le suele llamar valor estandarizado y se interpreta
como el número de desviaciones estándar a las que xi se encuentra de la
media x̄.
Ejemplo
Cuartiles
• Q1 es el valor debajo del cual se presenta 25% de las observaciones.
• Q2 es el valor debajo del cual se presenta 50% de las observaciones, es decir,
es la misma mediana.
• Q3 es el valor debajo del cual se presenta 75% de las observaciones.
35/61
Cuartiles, deciles y percentiles
Definición
Percentiles El percentil p es un valor de la variable X, es decir cierto xi tal
que por lo menos p% de las observaciones son menores o iguales que este
valor y por lo menos (100 − p)% de las observaciones son mayores o
iguales que este valor.
Ejemplo
Por lo tanto, si su promedio general en la universidad se encuentra en el
octavo decil, usted podría concluir que 80% de los estudiantes tuvieron un
promedio general inferior al suyo y un 20%, un promedio superior.
Un promedio general ubicado en el trigésimo tercer percentil significa que
33% de los estudiantes tienen un promedio general más bajo y 67% un
promedio general más alto
36/61
Cuartiles, deciles y percentiles
Proceso de cálculo
1. Ordene los datos de menor a mayor
2. Ubique el valor central (mediana o Q2 ) teniendo en cuenta si el número de
observaciones es par o impar.
3. Dependiendo de la posición requerida (cuartil, decil, quintil, etc.) convierta
ese valor a un percentil.
4. Calcule el percentil con la fórmula
Fórmula
P
Lp = (n + 1)
100
donde Lp es la ubicación de cierto percentil relacionado con P que es el percentil
que busca. n es el tamaño de la muestra. 37/61
Cuartiles, deciles, percentiles
Ejemplo
En seguida aparecen las comisiones que ganó el último mes una
muestra de 15 corredores de bolsa de la oficina de Salomon Smith
Barney’s Okland.
38/61
Cuartiles, deciles, percentiles
39/61
Rango intercuartil
Definición
El rango intercuartil (IQR) para un conjunto de mediciones es la
diferencia entre los cuartiles superior e inferior; esto es,
IQR = Q3 − Q1
40/61
Medidas de forma
41/61
Medidas de simetría, curtosis y sesgo
42/61
Simetría
Intuición
43/61
Simetría
45/61
Simetría
Medidas
3(x̄ − Mediana)
sk1 =
s
Propiedades:
1. Si SK1 > 0 ⇒ la distribución tiene sesgo negativo
2. Si SK1 = 0 ⇒ la distribución es simétrica
3. Si SK1 < 0 ⇒ la distribución tiene sesgo positivo
46/61
Simetría
Medidas
n
(xi − x̄)3
∑︀
i=1
SK2 =
ns3
Si SK2 > 0, la distribución tiene sesgo positivo. Si SK2 = 0, la
distribución es simétrica. Si SK2 < 0, la distribución tiene sesgo
negativo.
47/61
Coeficientes de asimetría
Ejemplos
48/61
Figure 2: Dos distribuciones asimétricas y sus coeficientes de asimetría
Curtosis
49/61
Coeficiente de curtosis
50/61
Coeficiente de curtosis
Fórmula
n
(xi − x̄)4
∑︀
i=1
Kr = −3
ns4
Kr > 0 (distribución leptocúrtica).
Kr = 0 (distribución mesocúrtica).
Kr < 0 (distribución platicúrtica).
51/61
Esquema para la sección 2
2. Datos atípicos
2.1 Resumen de cinco números
2.2 Diagrama de cajas
52/61
Datos atípicos
Definición
Son observaciones que contienen errores de medida o de transcripción o
que son heterogéneas con el resto porque se han obtenido en
circunstancias distintas.
Características:
1. Aparecen entre un 1 y un 3% de observaciones atípicas en la muestra.
Sin embargo, sin un cuidado especial, la proporción de datos atípicos
puede llegar al 5% y ser incluso mayor.
2. Se identifican fácilmente con un histograma o diagrama de barras de
los datos, porque aparecerán separados del resto de la distribución
3. Considerar sospechosas aquellas observaciones alejadas de la media
más de tres desviaciones estándar
4. Valores de x tales que x < Q1 − 1.5(Q3 − Q1 ) o x > Q3 + 1.5(Q3 − Q1 ) 53/61
Resumen de cinco números
54/61
Diagrama de caja
Definición
Un diagrama de caja es una representación gráfica, basada en
cuartiles, que ayuda a presentar un conjunto de datos. Para construir
un diagrama de caja, sólo necesita las cinco estadísticas.
55/61
Diagrama de cajas
Propiedades
IQR = Q3 − Q1
56/61
Diagrama de cajas
Propiedades
57/61
Diagrama de cajas
Propiedades
58/61
Diagrama de caja
Construcción
Ejemplo
Pizzería Sara Valentina ofrece entregas gratuitas de pizza a 15 metros a la redonda.
Alex, el propietario y padre de Sara Valentina, desea información relacionada con el
tiempo de entrega. ¿Cuánto tiempo tarda una entrega regularmente? ¿En qué
margen de tiempo deben completarse la mayoría de las entregas? En el caso de una
muestra de 20 entregas, Alex recopiló la siguiente información:
• Valor mínimo = 13 minutos
• Q1 = 15 minutos
• Mediana = 18 minutos
• Q3 = 22 minutos
• Valor máximo = 30 minutos
Elabore un diagrama de caja de los tiempos de entrega. ¿Qué conclusiones deduce
sobre los tiempos de entrega?
60/61
Diagrama de caja
Ejemplo
Figure 4: Diagrama de caja para los tiempos de entrega de Pizzería Sara Valentina
El diagrama de caja muestra que el valor medio de las entregas, 50%, consume
entre 15 y 22 minutos. La distancia entre los extremos de la caja, 7 minutos, es el
rango intercuartil. Este rango, que es la distancia entre el primer y el tercer cuartiles,
muestra la propagación o dispersión de la mayoría de las entregas.
61/61