Documentos de Académico
Documentos de Profesional
Documentos de Cultura
2
Estadísticos
• Centralización
– Indican valores con respecto a los que los datos parecen agruparse.
• Media, mediana y moda
• Dispersión
– Indican la mayor o menor concentración de los datos con respecto
a las medidas de centralización.
• Desviación típica, coeficiente de variación, rango, varianza
• Forma
– Asimetría
– Apuntamiento o curtosis
• Posición
– Dividen un conjunto ordenado de datos en grupos con la misma
cantidad de individuos.
• Cuantiles, percentiles, cuartiles, deciles,...
3
Medidas de Centralización
• Son medidas que buscan posiciones (valores) con
respecto a los que los datos muestran tendencia a
agruparse.
6
Algunas fórmulas
• Datos sin agrupar: x1, x2, ..., xn
– Media
x=
å x i i
n
• Datos organizados en tabla
– si está en intervalos usar como xi las marcas de
clase. Si no ignorar la columna de intervalos.
– Media x=
å xn i i i
n
Variable fr. fr.
ac.
– Cuantil de orden α
L0 – L1 x1 n1 N1 » i es el menor intervalo que tiene
frecuencia acumulada superior a α ·n
L1 – L2 x2 n2 N2
» α=0,5 es mediana
... a × n - N i -1
Lk-1 – Lk xk nk Nk
Ca = Li -1 + ( Li - Li -1 )
ni
n
7
Ejemplo con variable en intervalos
Peso M. frec Fr.
Clase acum
.
40 – 50 45 5 5
50 – 60 55 10 15
60 – 70 65 21 36
70 - 80 75 11 47
80 - 90 85 5 52
90 - 100 95 3 55
100 – 115 3 58
130
En el histograma se identifica “unidad de área”
con “individuo”.
0,75 × 58 - N i -1 43,5 - 36
P75 = C0,75 = Li -1 + ( Li - Li -1 ) = 70 + (80 - 70) = 76,8
ni 11
• Moda = marca de clase de (60,70] = 65
– Cada libro ofrece una fórmula diferente para la moda (difícil estar al día.)
9
Medidas de dispersión
•Miden el grado de dispersión
(variabilidad, homogeneidad, heterogeneidad,
concentración ) de los datos, independientemente
de su causa.
•Amplitud o Rango: %
5 % 25% 25 %
2 25
La diferencia entre las
observaciones extremas.
– 2,1,4,3,8,4. El rango es 8-1=7
– Es muy sensible a los valores
extremos.
•Rango intercuartílico (‘interquartile range’):
– Es la distancia entre el primer y tercer cuartil.
• Rango intercuartílico = P75 - P25
– Parecida al rango, pero eliminando las observaciones más extremas
inferiores y superiores. 10
– No es tan sensible a valores extremos.
• Varianza S2 (‘Variance’): Mide el promedio de las desviaciones (al
cuadrado) de las observaciones con respecto a la media.
1
S = å ( xi - x )
2 2
n i
– Es sensible a valores extremos (alejados de la media).
S= S 2
11
Variables Bidimensionales.
• Se trata de variables que surgen cuando se
estudia dos características, asociadas a la
observación de un fenómeno.
• Por ejemplo estudiamos la talla (Estatura),
medidas en centímetros y el peso medido en
kilogramos de un grupo de 10 personas,
obteniendo los siguientes valores:
Tabla talla v/s peso.
X Talla en 160 165 168 170 171 175 175 180 180 182
cms.
Y Peso en 55 58 58 61 62 67 62 74 79 83
Kgs.
Calculo de varianza para una
variable bidireccional.
Talla en cms. (X) Peso en Kgs.(Y)
160 55
165 58
168 58
170 61
171 62
175 67
175 62
180 74
180 79
182 83
Promedios para X e Y.
x=
åi xi y=
å y i i
n n
Promedios para X e Y.
x=
å x i i
y=
åi
y i
n n
å (x - x)
i
i
2
= 456,4
Talla en cms. (x)
(x - x) (x - x) 2
å i
(
i
x - x ) 2
= 456,4
1
å i
2
s = - 2
x
( x x )
n i
Talla en cms. (x)
(x - x) (x - x) 2
å i
(
i
x - x ) 2
= 456,4
1
å
2
s = - = 45,64
2
x
( xi x )
10 i
Calculo final de la Desviación
Estándar para X
2
å i
( x - x ) 2
s x
= i
10
= 45,64 = 6,76
Peso en Kgs.(Y) ( y - y)
55 -10,9
58 -7,9
58 -7,9
61 -4,9
62 -3,9
67 1,1
62 -3,9
74 8,1
79 13,1
83 17,1
Peso en Kgs.(Y) ( y - y) ( y - y) 2
55 -10,9 118,81
58 -7,9 62,41
58 -7,9 62,41
61 -4,9 24,01
62 -3,9 15,21
67 1,1 1,21
62 -3,9 15,21
74 8,1 65,61
79 13,1 171,61
83 17,1 292,41
Peso en Kgs.(Y) ( y - y) ( y - y) 2
55 -10,9 118,81
58 -7,9 62,41
58 -7,9 62,41
61 -4,9 24,01
62 -3,9 15,21
67 1,1 1,21
62 -3,9 15,21
74 8,1 65,61
79 13,1 171,61
83 17,1 292,41
å ( y - y)
i
i
2
= 828,9
Peso en Kgs.(Y) ( y - y) ( y - y) 2
55 -10,9 118,81
58 -7,9 62,41
58 -7,9 62,41
61 -4,9 24,01
62 -3,9 15,21
67 1,1 1,21
62 -3,9 15,21
74 8,1 65,61
79 13,1 171,61
83 17,1 292,41
å(y
i
i - y ) = 828,9
2
1
å i
2
s = - 2
y
( y y )
n i
Peso en Kgs.(Y) ( y - y) ( y - y) 2
55 -10,9 118,81
58 -7,9 62,41
58 -7,9 62,41
61 -4,9 24,01
62 -3,9 15,21
67 1,1 1,21
62 -3,9 15,21
74 8,1 65,61
79 13,1 171,61
83 17,1 292,41
å ( y - y)
i
i
2
= 828,9
1
å
2
s = - = 82,89
2
y
( y i y )
10 i
Calculo final de la Desviación
Estándar para Y
2
å i
( y - y ) 2
s = i
= 82,89 = 9,10
y 10
Asumiendo normalidad de los datos
• Centrados en la media y a una desviación típica de distancia
tenemos más de la mitad de las observaciones (izq.)
29
Desviación Típica como unidad de medida en
la curva normal tipificada
• Entre la media y una
desviación típica
tenemos siempre
aprox. 68% de las
observaciones.
x < Me < Mo
Media Moda
Mediana
Curva Simétrica:
Esta curva carece de sesgo
La media, la Mediana y la Moda son iguales o
coinciden
x = Me = Mo
Moda Media
Mediana
Apuntamiento o curtosis
La curtosis nos indica el grado de apuntamiento (aplastamiento) de una
distribución con respecto a la distribución normal o gaussiana. Es
adimensional.
0.8
0.3
1.5
0.6
0.2
1.0
0.4
0.1
0.5
0.2
x± s
x±s x± s
68 %
57 % 82 %
0.0
0.0
0.0
38
• Percentil de orden k = cuantil de orden k/100
– La mediana es el percentil 50.
– El percentil de orden 15 deja por debajo al 15% de
las observaciones. Por encima queda el 85%.
t=
(n + 1)´ k
100
Si esta ecuación nos da un número con decimales, aproximarlo al entero más cercano. Si el
decimal es .5 tomamos el promedio de las observaciones adyacentes.
Es decir, si x(1),.., x(n) son los n valores ordenados de X, el k-ésimo percentil corresponde
al valor en la posición x(t), donde t se calcula con la fórmula anterior.
Ejemplo: Calculemos los percentiles 25 y 50 de la variable peso del recién nacido,
para una muestra de n=10 niños, con pesos: 3220, 2650, 2750, 3430, 3220, 2980,
3460, 3005, 3560 y 3100 gramos.
• Los peso ordenados son: 2650, 2750, 2980, 3005, 3100, 3220, 3220, 3430, 3460 3560
Interpretación: "El 25% de los niños tiene un peso de nacimiento inferior a 2980
grs., mientras que el 50% tiene un peso inferior a 3160 grs."
• Los percentiles más importantes son los cuartiles: 25%, 50% y
75%, y los deciles: cada 10%.
0.75
0.5
0.25
Recorrido o rango
intercuartílico
0
P25 P50 P75 x
Q1 Q2 Q3
mediana 44
Gráficos de Dispersión
Boxplot o Diagrama de cajas
• Indique los estadísticas que resume el gráfico
• Interpretes y escriba sus conclusiones
1200
Ingreso autónomo
800
400
0
Hombre Mujer
sexo
Conclusiones
• En los hombres la dispersión del ingreso es
menor que en las mujeres (Rango)
• Los hombres presentan los sueldos más
bajos, las mujeres los más altos (valores
mínimo y máximo)
• Él primer 50% de las mujeres ganan menos
que el primer 50% de los hombres.
• la distribución entre el Q1 y Q3 en los
hombres tiene un ingreso más homogéneo
que en igual intervalos en las mujeres 47
¿Qué hemos visto?
• Parámetros
• Estadísticos y estimadores
• Clasificación
– Medidas de centralización: Media, mediana y moda
• Diferenciar sus propiedades.
– Medidas de dispersión
• con unidades: rango, rango intercuartílico, varianza, desv.
típica
• sin unidades: coeficiente de variación
– ¿Qué usamos para comparar dispersión de dos poblaciones?
– Asimetría
• positiva
• negativa
– ¿Podemos observar asimetría sin mirar la gráfica?
– ¿Cómo me gustan los datos?
– Medidas de apuntamiento (curtosis)
• ¿Cómo me gustan los datos?
– Posición (cuantiles, percentiles,...)
• Diagramas de cajas
48