Documentos de Académico
Documentos de Profesional
Documentos de Cultura
RESUMEN DE DATOS
MEDIDAS DE LOCALIZACIÓN
INTRODUCCION
Una vez clasificados los datos originales mediante tablas de frecuencias, es necesario
calcular un conjunto de medidas resumen o índices que caractericen de una forma más precisa la
distribución que se está estudiando y, de este modo, podemos tener una idea de cómo están
situados los datos a lo largo del eje real.
Estos índices o medidas resumen permiten hacer comparaciones entre dos o más muestras o
poblaciones.
Las medidas resumen se calculan a partir de los datos obtenidos de una muestra o de toda la
población. Dependiendo del caso, adoptan diferentes nombres. De este modo,
a) Las medidas descriptivas calculadas a partir de los datos de una muestra se denominan
estadígrafos. Entre los estadígrafos más comunes tenemos la media muestral, la varianza
muestral y la proporción muestral.
b) Las medidas descriptivas calculadas a partir de los datos de la población se denominan
parámetros. Entre los parámetros más comunes tenemos la media poblacional, la varianza
poblacional y la proporción poblacional.
LA MEDIA ARITMETICA
Ejemplo 1: Suponiendo que el número de hijos en cada una de las familias de un grupo de 15
profesores es como sigue:
2, 0, 3, 2, 1, 2, 2, 4, 2, 2, 0, 1, 3, 2, 1
2 0 3 2 ...... 3 2 1
La media es μ = 1.8
15
En promedio, los 15 profesores tienen 1.8 hijos.
x1 f1 x2 f 2 ... xk f k k x f
μ i i (2)
N i 1 N
siendo k el número de valores diferentes de la variable X, x i cada valor diferente de la variable y fi
su respectiva frecuencia (caso discreto).
Ejemplo 2: Los datos de la variable X: número de hijos, de una población de 49 jefes de familia, se
distribuyen del modo siguiente:
Xi: 0 1 2 3 4 5 6 k = 7, i = 1,…,7 n= 49
fi: 5 14 14 8 6 1 1
b) Si los datos están agrupados en intervalos de clase, reemplazar en la fórmula (2) los valores
x i por las marcas de clase Xi’ (caso continuo).
Ejemplo 2’: Para el siguiente conjunto de 17 datos de edades, agrupados en 5 intervalos de clase,
calcularemos un valor aproximado de su media utilizando las marcas de clase.
Intervalos Xi’ fi
5 x<9 7 2
9 x<13 11 4 k = 5 i=1,…,5 n = 17
13 x<17 15 7
17 x<21 19 3
21 x<25 23 1
También se puede calcular la media considerando las frecuencias relativas. Sabiendo que
k
f
hi i , reemplazando en la fórmula (2) se tiene μ = xi hi . (3)
N i 1
PROPIEDADES DE LA MEDIA
Ejemplo 4: Sean los datos 11, 12, 13, 14, 15 cuya media es 13. Entonces ( xi ) (1-
3) + (2-3) + (3-3) + (4-3) + (5-3) = 0
3. La suma de los cuadrados de las distancias entre los datos y su media es mínima; esto es,
N N
( X ) ( X A)
i 1
i
2
i 1
i
2
, para cualquier valor A.
Esta propiedad indica que la media es, en cierto sentido, el valor más próximo al conjunto de
datos.
Ejemplo 5: Para los datos 11, 12, 13, 14, 15 ; X 13 . Sea A = 12.
Siendo ( X i 13) 2 10 y ( X i 12) 2 15 , se cumple la propiedad.
4. Si a cada uno de los datos se le suma o se le resta una constante k , entonces la media de los
datos transformados es igual a la media de los datos originales aumentada o disminuida en la
constante k ; esto es,
M ( X i k) = M ( X i ) k .
Ejemplo 6:
Datos originales, xi 11, 12, 13, 14, 15 M ( xi ) = X = 13
Sea k 5 xi 5 16, 17, 18, 19, 20 M ( xi 5) = 13 + 5 18
Sea k 3 xi 3 8, 9, 10, 11, 12 M ( xi 3) = 13 - 3 10
5. Si a los datos se le multiplica o divide por una constante k , entonces la media de los datos
transformados es igual a la media de los datos originales multiplicada o dividida por la
constante k ; esto es,
x M( xi )
M ( k xi ) = k M ( xi ) o M i =
k k
Ejemplo 7:
Para los datos x i : 1, 2, 3, 4, 5 es x 3.
Sea k 4 para los datos 4 xi : 4, 8, 12, 16, 20 es M(4 xi ) 4(3) 12
Ejemplo 8:
Ejemplo 9:
El promedio de los precios de los artículos que conforman la “canasta familiar” es 500 u.m.
Si cada artículo de la canasta aumenta el 15% de su precio, entonces el nuevo promedio de
los precios de la canasta es igual a 1.15 x 500 = 575 u.m.
Ejemplo 10:
Si tenemos los datos 1, 2, 3, 4, 5 entonces es x 3 .
Si tenemos los datos 1, 2, 3, 4, 5, 6, 7, 45, 55, entonces es x 14.22 . En casos como este,
donde uno o unos cuantos datos se alejan de la masa, la media no es adecuada, ya que no
representa bien al conjunto.
Ejemplo 11:
El salario medio de 40 obreros de la fábrica A es 200 u.m. y el de 20 obreros de la fábrica B
es 250 u.m. Luego, el salario medio de los 60 obreros es
(40200) (20250)
XT 216.667
40 20
LA MODA, Mo
La moda es la medida de centralización más simple. Se la puede usar para resumir datos
medidos con cualquier escala de medición.
Para un conjunto de datos correspondientes a una variable, la moda es el dato que más se
repite, es el valor más frecuente. Para el conjunto de datos del ejemplo 1 la moda es 2. La mayoría
de profesores tiene 2 hijos (unimodal).
No siempre existe la moda. Por ejemplo, el siguiente conjunto de datos: 64 70 75 82 90
no definen una moda.
En distribuciones donde existen dos o más datos que se repiten con la misma frecuencia, se
dice que la distribución es bimodal o multimodal.
Ejemplo 12: De la base de datos de la práctica 4 (problema 3, de los 40 clientes), se observa que
en la distribución de la variable “sector ocupacional” acerca de los que solicitaron prestamos no
hipotecarios, el valor que más se repite es 1( quince veces).
Moda = 1 (negocios), la mayoría de los clientes que solicitaron préstamos no hipotecarios
corresponde al sector negocios.
Xi: 0 1 2 3 4 5 6
fi: 5 14 14 8 6 1 1
NOTA:
Si los datos corresponden a una variable contínua y están agrupados en intervalos de clase,
no es posible determinar exactamente el valor de la moda. Lo que sí puede hacerse es identificar el
intervalo modal, aquél que tiene la mayor frecuencia, representado por su marca de clase o punto
medio.
OBSERVACIÓN:
Se usa la moda cuando se desea obtener el valor más “típico” del conjunto de datos. Así por
ejemplo, hablando del sueldo promedio en cierta industria, nos referimos a menudo al sueldo
modal. También, cuando el tipo de cambio de la moneda extranjera es estable, hacemos referencia
al valor modal como precio promedio.
LA MEDIANA, Me
Puede ser usada como índice de centralización de datos asociados con escalas de medición
ordinal, de intervalo y de razón.
La mediana de un conjunto de N datos es el valor que ocupa la posición central; es decir, es
el dato que divide al conjunto de observaciones en dos partes iguales, 50% menores o iguales que la
mediana y 50% mayores que la mediana.
Para calcular la mediana se procede del modo siguiente:
1º) Se ordenan los datos de menor a mayor (estadísticas de orden).
2º) Se ubica el dato que ocupa la posición central:
Si el número N de datos es impar, la mediana es el dato que ocupa la posición (N+1)/2.
Si el número N de datos es par, la mediana será el punto medio de los 2 datos centrales que
ocupan las posiciones N/2 y N/2 + 1.
Si los datos están agrupados en una tabla de distribución de frecuencias, se tienen dos casos:
a) Si se tiene la lista de datos con sus respectivas frecuencias (variable cuantitativa discreta),
siempre será posible determinar el valor exacto de la mediana. Solamente se tiene que ubicar
el dato central que está en la posición N/2 (ó 50%), utilizando las frecuencias acumuladas.
M e a 0.5 H a 0.5 H a
o M e a (b a) (5)
ba Hb Ha Hb Ha
donde:
a es el límite inferior del intervalo mediano,
b es el límite superior del intervalo mediano,
Ha es la frecuencia relativa acumulada hasta el extremo a y
Hb es la frecuencia relativa acumulada hasta el extremo b.
Ejemplo 16: Los datos siguientes representan los pesos de un grupo de 50 personas.
Peso(kg.) Xi fi hi Fi Hi
[46, 53) 49.5 3 0.06 3 0.06
[53, 60) 56.5 7 0.14 10 0.20
[60, 67) 63.5 7 0.14 17 0.34
******** [67, 74) 70.5 18 0.36 35 0.70
[74, 81) 77.5 8 0.16 43 0.86
[81, 88) 84.5 4 0.08 47 0.94
[88, 95) 91.5 3 0.06 50 1.00
Observando la columna Hi notamos que el valor del peso que ocupa la posición central está en el
intervalo [67,74). Luego,
0.500.34
M e 67 (74 67) 011
.
0.70 0.34
Este valor se puede interpretar del modo siguiente: aproximadamente, el 50% de las personas pesan
menos de 70.11 kg. y el resto pesa más de 70.11 kg.
Observaciones:
X Me Mo Mo Me X X Me Mo
MEDIDAS DE POSICIÓN
Hemos visto que la mediana divide el conjunto de datos en dos partes iguales. Si se desea
dividir el conjunto de datos en cuatro partes iguales, se usarán los cuartiles. Las medidas de
posición que dividen a la masa de datos en diez partes iguales se llaman deciles y las que la dividen
en cien partes iguales se llaman centiles o percentiles.
Muchas veces se desea describir la posición de un cierto valor en un conjunto de datos. Para
ello se usan los percentiles. El primer paso para la obtención de un percentil es ordenar los datos.
Para un conjunto de n datos ordenados el i-ésimo percentil está definido como el valor que
ocupa la posición o el rango (in/100)+0.5, para i = 1,2, ..., 99
Cuando el valor del rango no es entero, se acostumbra tomar el promedio de los datos cuyos
rangos son próximos a este número.
Ejemplo 19:
En el siguiente conjunto de 10 datos ordenados: 15 15 16 17 18 19 21 23 25 25 el
percentil 25 es el dato que ocupa la posición 25x10/100 + 0.5 = 3; esto es P25 = 16. Notar que
debajo de 16 existe aproximadamente el 25% de los datos.
El percentil 45 es 18 (pues su rango es 45x10/100+0.5 = 5).
El percentil 50 tiene rango 50x10/100 + 0.5 = 5.5; como el rango no es entero, el percentil 50 será el
promedio de los datos que ocupan las posiciones 5 y 6. Así, P50 = (18+19)/2 = 18.5 .
El percentil 75 es el dato que ocupa la octava posición, esto es P75 = 23.
Notas:
(k / 100) H a
Pk a (b a)
Hb Ha
Ejemplo 20: Con los datos del ejm. 16 calcularemos, en forma aproximada, los percentiles 25 y 75.
conjunto 1: 1 2 3 4 5
conjunto 2: 5 10 15 20 25
conjunto 3: 10 20 30 40 50.
En el primero, cuya media es 3, pareciera que los datos están muy concentrados. En el segundo,
cuya media es 15, los datos están menos concentrados. En el tercero, cuya media es 30, los datos
están más distantes, mucho más dispersos.
Pero, concentrados o dispersos ¿alrededor de qué valor? Se debe tener un punto de referencia.
Entonces, es importante tomar en cuenta la variación de los datos alrededor de un valor
central para no llegar a conclusiones engañosas.
Ya veremos después que los tres conjuntos tienen la misma dispersión relativa.
Entre las medidas de dispersión más conocidas tenemos: el recorrido o rango, el rango intercuartil,
la varianza, la desviación estándar, el coeficiente de variación.
EL RANGO
Ejemplo 22:
Para las siguientes edades de un grupo de 6 personas: 1 2 3 4 5 21 el rango es 20; y para
las siguientes edades de otro grupo de 7 personas: 47 54 57 60 63 65 67 el rango también es
20. A pesar de tener el mismo rango de edades, vemos que el comportamiento de los datos al
interior de cada conjunto es totalmente diferente.
Estos dos ejemplos muestran que el rango no indica de qué manera se distribuyen los
datos.
Observaciones:
El rango puede ser una medida de dispersión poco útil si queremos conocer el
comportamiento de los datos al interior de los dos datos extremos.
Puede darse el caso en que el mínimo y el máximo de dos conjuntos de datos sean los
mismos y al interior de ellos los datos pueden tener comportamientos muy diferentes.
Es por esto que el rango tiene un uso muy limitado.
Por otra parte, si existen datos atípicos, estos afectarán fuertemente el valor del rango.
Ejemplo 23:
Para los conjuntos de datos del ejemplo 21 se tiene la siguiente información.
Conjunto 1: media 3, rango de 1 a 5
Conjunto 2: media 15, rango de 5 a 25
Conjunto 3: media 30, rango de 10 a 50
Los tres conjuntos muestran rangos diferentes y medias diferentes. ¿Qué se puede decir
comparando la dispersión? Siendo las medias diferentes, no podemos usar los rangos directamente.
Ya veremos otro indicador de variabilidad que tome en cuenta a todos los datos y no solo a los
extremos.
EL RANGO INTERCUARTIL
Peso(kg.) Xi fi hi Fi Hi
[46, 53) 49.5 3 0.06 3 0.06
[53, 60) 56.5 7 0.14 10 0.20
[60, 67) 63.5 7 0.14 17 0.34
[67, 74) 70.5 18 0.36 35 0.70
[74, 81) 77.5 8 0.16 43 0.86
[81, 88) 84.5 4 0.08 47 0.94
[88, 95) 91.5 3 0.06 50 1.00
Por las propiedades que posee, la varianza es el indicador de dispersión más utilizado. Su
definición se basa en la propiedad de “mínimos cuadrados” de la media. Si quisiéramos evaluar qué
tan próxima se halla la media al conjunto de datos, tendríamos que calcular un promedio de
distancias cuadráticas de los datos con respecto a la media. Ese promedio de distancias es
precisamente la varianza.
La varianza de un conjunto de N datos x1 , x 2 , ..., x N , que tienen una media μ, está definida
como
N
( xi ) 2
2 Var ( X ) = i 1
N
Es la media de los cuadrados de las distancias respecto a la media.
Si los datos están agrupados en tablas de frecuencia, para calcular la varianza, se debe tomar en
cuenta el número de veces que se repite cada dato (caso discreto) o la frecuencia de cada marca de
clase (caso contínuo), de modo que:
N
(x x) f
i
2
i
2 Var ( X ) = i 1
N
donde xi es el valor de la variable (caso discreto) o la marca de clase (caso continuo)
Var ( xi k ) Var ( xi )
Ejm 26: Para los datos 1, 2, 3, 4 ,5 es x 3 y 2 . Sea k=3. Los nuevos datos x i 3 son 4, 5,
2
180
6, 7, 8 cuya media es 6 y cuya varianza es Var ( xi 3) 36 2 .
5
4) Si a cada uno de los datos se le multiplica por una constante k , entonces la varianza de los
datos transformados es igual a la varianza de los datos originales multiplicada por el cuadrado de la
constante; esto es,
Var ( kxi ) k 2Var ( xi ), donde k es una constante.
Datos, xi : 1, 2, 3, 4, 5 x 3 y 2 .
2
Ejm 27:
Sea k 5 . Los nuevos datos ( kxi ) son: 5, 10, 15, 20, 25, cuya media es 15 y su varianza es
1375
Var ( kxi ) 225 50 52 2
5
5) Si un conjunto de datos ha sido dividido en r subconjuntos, cada uno de los cuales tiene un
tamaño ni , una media x i y una varianza Si2 (i 1, 2, ..., r ) , en este caso la dispersión o
variabilidad del conjunto total se debe a las variaciones dentro de cada subconjunto (intravarianza)
y a las variaciones entre los diferentes subconjuntos (intervarianza).
S 2
n
i i
S 2
dentro M (S )
i
2 i 1
, donde Si2 es la varianza de cada subconjunto, ni es el
n
tamaño de cada subconjunto, n es el conjunto total.
r
(x i x ) 2 ni
2
S entre Var ( xi ) i 1
, donde
n
x i es la media de cada subconjunto;
x es la media del conjunto total;
ni es el tamaño de cada subconjunto.
Reemplazando en (*) se tiene:
r r
S 2
n
i i (x i x ) 2 ni
S2 i 1
+ i 1
n n
Nota 1: Para el caso en que se tenga dos subconjuntos, con medias x1 , x 2 , tamaños n1 , n2 ,
varianzas S12 , S22 , respectivamente, entonces:
x n x 2 n2
x 1 1 , donde n n1 n2 .
n
S 2 n S22 n2 ( x x ) 2 n1 ( x2 x ) 2 n2
2
Sdentro 1 1 2
, Sentre 1
n n
de modo tal que S Sd Se .
2 2 2
Nota 2: Para dos subconjuntos de tamaño n1 y n 2 que tienen medias iguales y varianzas S12 , S22 ,
respectivamente, la varianza total será
S12 n1 S22 n2
S 2
n
Ejm 28: Descomposición de la varianza
DESVIACIÓN MEDIA
Para un conjunto de n datos, la desviación media es la media de las desviaciones de los datos
respecto a su media, desviaciones en valor absoluto.
̅|
∑𝒏𝒊=𝟏|𝑿𝒊 − 𝑿
𝑫𝑴 =
𝒏
DESVIACIÓN MEDIANA
Para un conjunto de n datos, la desviación mediana es la media de las desviaciones de los datos
respecto a su mediana, desviaciones en valor absoluto.
∑𝒏𝒊=𝟏|𝑿𝒊 − 𝑴𝒆 |
𝑫𝑴𝒆 =
𝒏
Si se tuviera los datos agrupados en tablas de frecuencias, habría que multiplicar cada desviación
por su respectiva frecuencia absoluta simple, tanto para el cálculo de la desviación media como para
la desviación mediana.
COEFICIENTE DE VARIACION
Dos conjuntos de datos pueden tener una misma media. Analizando la dispersión, podemos
utilizar directamente la desviación estándar para comparar la variabilidad en ambos conjuntos de
datos, ya que estas desviaciones han sido calculadas utilizando la misma media.
Cuando los promedios son diferentes, no se puede usar directamente las desviaciones típicas
para comparar la variabilidad, puesto que éstas han sido calculadas tomando en cuenta medias
diferentes.
Para comparar la variabilidad de grupos de datos que tienen diferentes medias, se usa otro
índice de dispersión denominado coeficiente de variación, el cual es una medida relativa de
dispersión, y está definido como el cociente entre la desviación estándar y la media aritmética:
s
CV x 100
X
Se expresa en porcentaje. El grupo de datos que tiene el menor coeficiente de variación es el que
tiene la menor dispersión. También se le usa para comparar la variabilidad de dos o más conjuntos
de datos que están expresados en unidades diferentes.
Así, para los conjuntos vistos en el ejemplo 21, cuyas medias respectivas son 3, 15 y 30, y cuyas
varianzas son 2, 50 y 200 respectivamente, el coeficiente de variación de cada conjunto es 0.47
(47%). Ahora podemos decir que, con respecto a la media, los tres conjuntos tienen igual dispersión
relativa.
MEDIDAS DE FORMA
Las medidas resumen relacionadas a la forma de una distribución son de dos tipos:
MEDIDAS DE ASIMETRÍA
La asimetría es el grado en que los datos se reparten de manera equilibrada por encima y por
debajo de una medida de tendencia central. Cuando la distribución de los datos no es simétrica se
dice que es sesgada. Una medida para el sesgo se obtiene con la diferencia media – moda. Si la
diferencia es positiva, la curva tiene una cola a la derecha; si la diferencia es cero, la curva es
simétrica; si la diferencia es negativa, la curva tiene una cola a la izquierda.
Para comparar la simetría de dos o más distribuciones, que pueden estar expresadas en
diferentes unidades, se estandarizan los sesgos, obteniéndose la medida que se conoce como sesgo
de Pearson:
Media Moda
a1 =
Desv. estándar
Otra forma equivalente de expresar el sesgo de Pearson es mediante la relación
3( Media Mediana )
Sesgo de Pearson = a2 =
Desv.estd .
Si el sesgo es igual a cero, la curva de distribución es simétrica; si este valor es positivo, la curva
tiene una cola a la derecha; si la diferencia es negativa, la curva tiene una cola a la izquierda.
(0.5)(P75 P25 )
En distribuciones normales el valor de es aproximadamente 0.263 resultando k =
P90 P10
0. Es por ello que, si:
ESTANDARIZACIÓN DE DATOS
Ejemplo 30 (a):
En un curso de post grado, las calificaciones de un grupo de estudiantes tiene media 34,6 y
desviación estándar 9,6. Javier pertenece a este grupo y su nota es 48. ¿Cuál es la ubicación de
Javier en este grupo?
La nota estandarizada de Javier es Z = (48 – 34,6) / 9,6 = 1,4. Entonces, la nota de Javier se ubica
a 1,4 desviaciones estándar por encima de la media.
Ejemplo 30 (b):
En el aula A la nota de Estadística es 13 y la desviación estándar es 2, mientras que en el aula B las
notas de Estadística tienen media 16 y desviación estándar 1. Juan, que estudia en el aula A, obtuvo
la nota 12, y Pedro, que estudia en el aula B, obtuvo la nota 14. La nota estandarizada de Juan es ZJ
= (12-13)/2 = –0.5 y la de Pedro es ZP = (14-16)/1 = –2. Entonces, Juan está en mejor posición en
su aula que Pedro en la suya.