Documentos de Académico
Documentos de Profesional
Documentos de Cultura
EyP Unidad 2
EyP Unidad 2
Estadística Descriptiva
Introducción
En la unidad anterior pudimos ver que tanto las tablas como las gráficas, pueden ser muy
útiles para representar y comprender información numérica. Existen, sin embargo,
circunstancias en las que ni las tablas ni las gráficas nos dan información suficiente para
tomar decisiones. En estos casos debemos procesar nuestros datos o información de
diversas maneras para obtener medidas de la misma. A estas medidas se les llama
“parámetros” si trabajamos con toda la población y “Estadístico” si trabajamos con una
muestra.
Una vez que los datos han sido obtenidos y organizados, estamos listos para hacer un
análisis descriptivo; en esta unidad mostraremos diferentes técnicas para resumir y
describir los datos. Al inicio mostraremos la forma en que los datos obtenidos pueden
resumirse en un solo valor central alrededor del cual todos los datos se distribuyen. Por
esta razón, a menudo se le llama a un valor central una Medida de tendencia central.
Existen muchos tipos de valores centrales pero las utilizadas con más frecuencia son la
Media aritmética, la Mediana y la Moda.
Propósito
Al trabajar con histogramas, vimos que la distribución de los datos puede adoptar varias
formas. En algunas distribuciones los datos tienden a agruparse más en una parte de la
distribución que en otra. Comenzaremos a analizar las distribuciones con el objeto de
obtener medidas descriptivas (parámetros o estadísticos), que nos ayuden en el análisis
1
de las características de los datos. Las Medidas de Tendencia central son las medidas
descriptivas o indicadores que muestran hacia qué valor (o valores) se agrupan los datos.
Las Medidas de Tendencia Central se pueden calcular para datos agrupados (en una
tabla de distribución de frecuencias) y para datos no agrupados.
Las Medidas de Tendencia Central que se trabajarán en esta unidad son: La media
aritmética, la moda y la mediana.
Podemos definir a la media aritmética, de una manera muy sencilla, como el promedio
de los datos.
Una muestra con n datos, tiene una media que se llama estadístico.
Una población con N datos tiene una media que se llama parámetro.
2
Ejemplo para datos no agrupados
0.20 m, 0.50 m, 0.25 m, 0.60 m, 0.30 m, 0.50 m, 0.25 m, 0.65 m, 0.20 m, 0.55 m, 0.25 m,
0.55 m, 0.20 m, 0.50 m, 0.25 m, 0.60 m, 0.15 m, 0.45 m, 0.25 m, 0.75 m.
Como estamos tomando al total de los alumnos del grupo, la población, usamos para
calcular el promedio o media aritmética la fórmula
Donde
3
Ejemplo para datos agrupados
En base a la tabla anterior, se desea saber ¿cuál es la media o promedio del precio del
boleto?
PASO 3. Obtenemos su promedio o media; en este caso como los datos provienen de
una muestra usamos la fórmula
4
Así el promedio del precio del boleto es de $959.28.
Ventajas de la media
Desventajas de la media
• Es sensible a los valores extremos, es decir, si tenemos por ejemplo los datos 8, 7, 8, 7,
8, 7 su media es 7.5 la cual tiene sentido por el comportamiento y naturaleza de los datos;
sin embargo si en estos datos hacemos cambios extremos sustituyendo dos de ellos por 0
y 10, por ejemplo 8, 7, 0, 10, 8, 7 su media es 6.66 la cual no es representativa y no tiene
sentido ya que la mayoría de los datos está entre 8 y 7.
• No es recomendable emplearla en distribuciones muy asimétricas.
2.1.2 Mediana
Si el número de datos (n) es impar entonces la fórmula que nos da la posición del dato
que será la mediana está dada por
4, 1, 2, 3, 4, 2, 2, 1, 5, 5, 3
1, 1, 2, 2, 2, 3, 3, 4, 4, 5, 5
5
PASO 2. Calculamos la posición del valor que divide en dos parte iguales el número de
datos. El número de datos es 11.
1 1 2 2 2 3 3 4 4 5 5
Así la mediana Me=3. Esto quiere decir que éste valor parte a los datos en el 50% por
debajo de él y 50% por arriba de él.
Si el número de datos (n) es par, la mediana está dada por el promedio de los datos que
se encuentran en las posiciones .
4, 1, 2, 3, 4, 2, 2, 1, 5, 5
1, 1, 2, 2, 2, 3, 4, 4, 5, 5
1 1 2 2 2 3 4 4 5 5
Entonces la Me =
6
Donde
Me= mediana
Lm=Límite inferior de la clase mediana (la clase mediana es la clase que contiene a la
mediana).
n = Número de datos.
Fi-1= Frecuencia acumulada de la clase anterior al intervalo de la clase mediana.
fi= Frecuencia de la clase mediana.
h=amplitud del intervalo de clase.
Ejemplo:
En base a la tabla anterior, se desea saber ¿cuál es la mediana del precio del boleto?
7
Clase Límite Inferior Límite superior f F
A 450 600 4 4
B 650 800 10 4+10 =14
C 850 1000 9 14 + 9 =23
D 1050 1200 3 23 + 3 =26
E 1250 1400 6 26 + 6 =32
F 1450 1600 3 32 + 3 =35
TOTAL 35
PASO 3. Para terminar, calculamos la mediana usando la fórmula.
Ventajas de la mediana
Desventajas de la mediana
2.1.3 Moda
Ejemplo:
+) Los siguientes datos son los resultados de haber preguntado a 30 personas sobre la
marca de refresco que más consume en la semana:
Marca 1 Marca 2 Marca 1 Marca 1 Marca 1 Marca 3 Marca 1 Marca 3 Marca 1 Marca 2
Marca 1 Marca 1 Marca 2 Marca 1 Marca 3 Marca 3 Marca 2 Marca 1 Marca 1 Marca 1
Marca 1 Marca 3 Marca 1 Marca 2 Marca 3 Marca 1 Marca 3 Marca 3 Marca 2 Marca 3
8
PASO 1. Calcular la frecuencia de cada marca en los datos.
Puede ocurrir que para un conjunto de datos, dos de ellos sean los que más se repiten.
En este caso se dice que los datos tienen dos modas. Por ejemplo, para los datos
2,3,4,4,4,5,6,7,7,7,9,10 los valores 4 y 7 tienen la mayor frecuencia, se repiten 3 veces;
por lo tanto las modas son Mo=4 y Mo=7. Se dice entonces que los datos tienen una
distribución Bimodal.
Donde
Mo = Moda
LMo = Límite inferior de la clase modal. La clase modal es el intervalo de clase que tenga
la mayor frecuencia.
d1= Es la frecuencia de la clase modal menos la frecuencia de la clase anterior a ella, es
decir, d1=fi – fi-1
d2= Es la frecuencia de la clase modal menos la frecuencia de la clase posterior a ella, es
decir, d2=fi – fi+1
h= amplitud del intervalo de clase.
Ejemplo:
9
D 1050 1200 3
E 1250 1400 6
F 1450 1600 3
TOTAL 35
Con base a la tabla anterior, se desea saber ¿cuál es la moda del precio del boleto?
La Moda es 778.57
Ventajas de la moda
Desventajas de la moda
10
2.1.4 Comparación entre las medidas de tendencia central
11
Observa que cuando la distribución es asimétrica ‘positiva’, (es decir, el extremo más
largo de la distribución apunta hacia su derecha), la moda está a la izquierda de la
mediana, y a su vez, la mediana está a la izquierda del promedio. Sucede lo contrario
cuando la distribución es asimétrica negativa. Esto nos lleva a una consideración final: si
una distribución es asimétrica, es decir, notoriamente sesgada, la mediana será mejor que
la media (promedio) para describir la tendencia central de la distribución de los datos.
Observa las figuras anteriores. Nota que en todas las distribuciones asimétricas, la
mediana efectivamente se acerca más que la media al valor ‘promedio o ‘normal’ de las
observaciones o, en otras palabras, refleja mejor la existencia de un sesgo en los datos.
Anteriormente vimos las medidas de tendencia central, las cuales empleamos para
encontrar el centro de un conjunto de datos y no sólo basta con determinar las medidas
de tendencia central para comprender el comportamiento de un conjunto de datos. Con
mucha frecuencia, es igualmente importante describir la forma en que los datos están
dispersos o diseminados a cada lado del centro, es decir, conocer qué tan alejados están
esos datos respecto a ese punto de concentración. A esto se le conoce como dispersión,
variación o variabilidad.
Las medidas de dispersión son indicadores que nos muestra la distancia promedio de los
datos respecto a las medidas de tendencia central. Son muy útiles porque nos
proporcionan información adicional que nos permite juzgar la confiabilidad de nuestra
medida de tendencia central; si los datos están muy dispersos la posición central es
menos representativa de los datos, como un todo, que cuando estos se agrupan más
estrechamente alrededor de la media; como existen problemas característicos de
12
distribuciones muy dispersas, debemos ser capaces de distinguir que presentan esa
dispersión antes de abordar los problemas y también nos permiten comparar varias
muestras con promedios parecidos.
Calificación 2 3 4 5 6 7 8 9 10
de la
prueba
Hombres 2 4 7 6 1
(n=20)
Mujeres 1 1 2 3 6 3 2 1 1
(n=20)
La calificación promedio (media), para hombres y mujeres, es de 6 pero las dispersiones
de los datos para los hombres y mujeres son distintas.
Las descripciones más comprensibles de la dispersión de los datos son aquellas que
tratan con la desviación promedio con respecto a alguna medida de tendencia central. La
varianza y desviación estándar nos dan una distancia promedio con respecto a la media
de la distribución.
Podemos definir a la varianza como el promedio del cuadrado de las distancias de los
datos a su media. Si la varianza de un conjunto de datos es grande, se dice que los
datos tienen mayor dispersión o variabilidad que un conjunto de datos que tenga una
varianza pequeña.
13
Una muestra con n datos, tiene una desviación estándar s.
Una población con N datos tiene una desviación estándar .
Para muchos fines prácticos es una medida de la variabilidad más útil que la varianza
debido a que la desviación estándar se expresa en las mismas unidades que las de los
datos recogidos. La varianza se expresa en unidades elevadas al cuadrado. Así p or
ejemplo si los datos que se usen están en cm, la media y la desviación estándar estarán
en cm. En cambio la varianza estará en cm2.
La desviación estándar la podemos interpretar como “en promedio los valores se alejan
de la media en …. unidades”.
En realidad el cálculo de la desviación estándar, una vez que tenemos la varianza, es muy
sencillo porque simplemente sacamos la raíz cuadrada de la varianza.
Ejemplo:
Para facilitar el cálculo, hacemos una tabla con todos los elementos involucrados en la
fórmula para el cálculo de la varianza
14
Dato (x) Media ( ) x- (x- )2
1 16 21.7 -5.7 32.49
2 17 21.7 -4.7 22.09
3 18 21.7 -3.7 13.69
4 20 21.7 -1.7 2.89
5 21 21.7 -0.7 0.49
6 22 21.7 0.3 0.09
7 23 21.7 1.3 1.69
8 25 21.7 3.3 10.89
9 27 21.7 5.3 28.09
10 28 21.7 6.3 39.69
Total 217 152.1
Entonces
16.9 y
= 4.11
15
Ejemplo:
Finalmente, lo que nos indica es que en promedio el precio del boleto se separa de la
media en $304.80
16
2.2.2 Aplicación de la desviación estándar
La desviación estándar nos permite determinar, con un buen grado de precisión, dónde
están localizados los datos de una distribución de frecuencias en relación a la media. Una
herramienta usada para esto es el Teorema de Chebyshev1.
El teorema nos dice que para cualquier distribución de datos (simétricos o asimétricos) de
una muestra o una población el intervalo cuyo centro es la media de la colección de datos,
cuyo punto extremo izquierdo es la media menos k desviaciones estándar y cuyo punto
extremo derecho es la media más k desviaciones estándar, contiene por lo menos (1-1/k2)
x 100 % del total de los datos, siendo k mayor o igual a uno.
Así por ejemplo, vamos a suponer que tenemos que una muestra de datos arroja una
=3.96 y una =2.18 entonces los intervalos para k=2 y k=3 quedarían
. Lo que indica
que éste intervalo contiene al menos el 75% de los datos.
. Lo que indica
que éste intervalo contiene al menos el 88.88% de los datos.
1
Matemático ruso (1821-1894) reconocido por sus trabajos y contribuciones en la Estadística y Probabilidad.
17
Pero, para datos que particularmente tienen una distribución normal (datos que tienen una
distribución simétrica alrededor de la media) la regla empírica nos indica que:
Ejemplo:
Y la desviación estándar es
18
Con lo cual los intervalos quedan:
Si k=2,
Si k=3,
Lo anterior nos indica que el intervalo contiene al menos el 75% de los datos y
que el intervalo contiene al menos el 88.88%
2.3.1 Cuartiles
Los Cuartiles dividen en cuatro partes los datos. Son cuatro Cuartiles los que dividen los
datos en cuatro partes con la misma cantidad de valores en cada uno de ellos. El primer
cuartil Q 1 es un valor que deja por debajo de él el 25% de los datos y por encima el 75%
de los datos. El segundo cuartil Q 2 es un valor que deja el 50% por debajo de él y 50% de
los datos por encima (es la mediana). El tercer cuartil Q 3 es el valor que deja por debajo el
75% y el 25% por encima de los datos.
Gráficamente tenemos:
PORCIENTO DE INFORMACIÓN
19
Para datos no agrupados los Cuartiles se calculan usando las fórmulas:
Ejemplo:
+) Calcular los Cuartiles para los siguientes datos: 3, 5, 6, 11, 14, 18,18, 20, 24, 25, 27,
27, 28, 29, 31, 33, 34, 36, 44, 45, 47, 48, 48, 50, 50, 52.
28.5
3 5 6 11 14 18 18 20 24 25 27 27 28 29 31 33 34 36 44 45 47 48 48 50 50 52
Q1 Q2 Q3
intervalos de clase:
Q1=
20
Posición del segundo cuartil dentro de los
intervalos de clase: Q2=
intervalos de clase:
Q3=
donde
n = Es la frecuencia total.
Ejemplo:
2
PASO 1. Calcular el límite inferior exacto y el límite superior exacto de cada clase
usando las fórmulas:
2
Los límites exactos sirven para marcar con precisión el valor inicial y final de cada clase. Por ejemplo, en el
caso de dos casas vecinas, el límite nominal o práctico ( límites inferior y superior ) no incluye la barda entre
las casas; el límite exacto sí la considera.
21
Así para la clase 1 tenemos que
22
Posición del primer cuartil dentro de los
intervalos de clase:
Q2=
intervalos de clase:
Q3=
Buscamos el valor 47 dentro de las
frecuencias acumuladas y vemos que se Q3=
encuentra en la cuarta clase por lo tanto
el intervalo que contiene el tercer cuartil
es el cuarto.
En la vida diaria los porcentajes suelen constituir una herramienta muy descriptiva. Si los
padres de Sofía descubren que sólo un 20% de sus compañeros saben más Matemáticas
que ella quedarán perfectamente informados del nivel de su hija, y muy satisfechos al
descubrir que ella supera al 80% de su clase. Por eso se usan los cuantiles en Estadística
Descriptiva, porque señalan el porcentaje de datos inferiores a uno dado, lo que lo sitúa
muy bien dentro del colectivo.
3
Factor de impacto: El factor de impacto intenta medir la repercusión que ha obtenido una revista
en la comunidad científica. Es un instrumento utilizado para comparar revistas y evaluar la
importancia relativa de una revista concreta dentro de un mismo campo científico.
23
partes iguales, cada una de ellas es un cuartil. Las revistas con el factor de impacto más
alto están en el primer cuartil, los Cuartiles medios serán el segundo y tercero, y el cuartil
más bajo el cuarto. Así, en un listado de 100 revistas, el primer cuartil serán las 25
primeras revistas y estas serán las que tienen el mayor factor de impacto y por lo tanto las
más valoradas.
2.3.2 Deciles
Los Deciles dividen en diez partes los datos. Son nueve Deciles los que dividen en 10
partes los datos con la misma cantidad de valores entre cada uno de ellos. El primer Decil
D1 es un valor que deja por debajo de él el 10% de los datos y por encima el 90% de los
datos; el segundo Decil D 2 es un valor que deja el 20% por debajo de él y 80% de los
datos por encima; el tercer Decil D3 es el valor que deja por debajo el 30% y el 70% por
encima de los datos y así sucesivamente hasta el noveno Decil D 9 que es el valor que
deja el 90% por debajo y el 10% por encima de los datos. En particular el quinto Decil D 5
que deja el 50% por arriba y por abajo es la mediana.
Gráficamente tenemos:
PORCIENTO DE INFORMACIÓN
Ejemplo:
24
+) Calcular el primer y quinto Decil para los siguientes datos: 3, 5, 6, 11, 14, 18,18, 20,
24, 25, 27, 27, 28, 29, 31, 33, 34, 36, 44, 45, 47, 48, 48, 50, 50, 52.
6.5 28.5
3 5 6 11 14 18 18 20 24 25 27 27 28 29 31 33 34 36 44 45 47 48 48 50 50 52
D1 D5
Si te fijas muy bien el procedimiento para obtener los Deciles es muy similar al que se usa
para calcular los Cuartiles, sólo cambia el denominador de 4 a 10 en la primera parte de la
fórmula.
25
Posición del noveno Decil dentro de los
intervalos de clase: D9=
donde
n = Es la frecuencia total.
Una vez más, si te fijas muy bien, las fórmulas son muy similares a las que se usan para
calcular los Cuartiles así que no tendrás ningún problema para calcular los Deciles.
Como un apoyo para analizar la distribución del ingreso, INEGI utiliza la ENIGH (Encuesta
Nacional de Ingresos y Gastos de los Hogares) en donde ordena a todos los hogares
según el ingreso que perciben, de menor a mayor, y los agrupa en diez bloques
denominados Deciles, de manera que en los extremos, el primero contiene a la décima
parte de los hogares con menores ingresos, y el último, a la décima parte de los hogares
con mayores ingresos. En el año 2010, el 10% más favorecido (Decil X) 4 de los hogares
mexicanos concentró 34.6% del ingreso total mientras que 60% de los hogares menos
afortunados (Deciles I – VI) sólo acumulaba 27.6% del ingreso total. Estas cifras
confirman la percepción de que un pequeño porcentaje de la población tiene condiciones
de vida mejores que la gran mayoría 5.
2.3.3 Percentiles
Los Percentiles dividen en cien partes los datos. Son noventa y nueve percentiles los que
dividen en 100 partes los datos con la misma cantidad de valores entre cada uno de ellos.
El primer percentil P 1 es un valor que deja por debajo de él el 1% de los datos y por
encima el 99% de los datos; el segundo Percentil P2 es un valor que deja el 2% por
debajo de él y 98% de los datos por encima; el tercer Percentil P3 es el valor que deja por
debajo el 30% y el 70% por encima de los datos y así sucesivamente hasta el Percentil
número 99 P99 que es el valor que deja el 99% por debajo y el 1% por encima de los
4
La INEGI considera los Deciles como las 10 agrupaciones, recuerda que para poder lograr esa agrupación se
usan 9 números: D1, D2, …, D9. El Decil X al que se refiere INEGI es el intervalo que se forma a partir de D 9.
Cuidado, no hay un D10.
5
Fuente: ENIGH 2010, INEGI.
26
datos. En particular el quinto Decil P50 que deja el 50% por arriba y por abajo es la
mediana.
y así sucesivamente
Ejemplo:
+) Calcular P17 para los siguientes datos: 3, 5, 6, 11, 14, 18,18, 20, 24, 25, 27, 27, 28,
29, 31, 33, 34, 36, 44, 45, 47, 48, 48, 50, 50, 52.
27
Posición del noventa y nueve Percentil
dentro de los intervalos de clase: P99=
donde
n = Es la frecuencia total.
En general, y si te fijas muy bien, los Percentiles usan fórmulas muy similares a los
Cuartiles y a los Deciles. Lo anterior es importante mencionarlo para que te des cuenta
que su cálculo no será difícil.
Las aplicaciones de los Percentiles son muy variadas, por ejemplo, Supongamos que
tenemos una muestra con 1000 datos de personas y salarios. El P75 sería el valor de
salario que ganan el 75% de las personas de esa muestra (ese conjunto de valores). O
por ejemplo el P20 el que ganan el 20% de las personas; otro ejemplo más técnico, si
registramos los días que tarda una alumna en encontrar trabajo, ¿cuál es el tiempo en el
que encuentran trabajo el 40% de las alumnas? Pues P 40 (el percentil 40). Parece un poco
complicado, pero la idea es simple: conocer cuál es el valor a partir del que un X% de los
valores están por encima o por debajo.
Otra aplicación, donde se utilizan los percentiles, es el de considerarlos como una medida
para comparar el crecimiento de un niño con el crecimiento de otros niños de su edad.
Hay percentiles de talla, peso, perímetro craneal, etc. Los más utilizados son los de talla y
peso de los bebés. Así
Cuando el pediatra nos dice que el niño está en el percentil 25 de altura, significa
que de cada 100 niños de su edad, 75 son más altos que nuestro hijo y 24 serían
más bajos.
Por el contrario, si nuestro bebé está en el percentil 90 de altura significa que, de
cada 100 bebés, solo hay 10 que midan más que nuestro niño, por lo que habría
89 que medirían menos.
El percentil 50 es la media, por lo queque si tu hijo se encuentra en este percentil
mide lo mismo que el 50 por ciento de los niños de su misma edad y sexo.
28
(Se realizan en plataforma)
Conclusión
29
Referencias
De contenido
Libros
De consulta
Sitios de internet
Las siguientes ligas electrónicas te servirán de apoyo para las medidas de Tendencia
Central, las de Dispersión y las de Posición, te pido revisarlas.
De imágenes
30
15. Calificación promedio para hombres (media)
Elaborada por: Víctor Manuel Terreros Muñoz
Editado por: Alma Martínez Campech
31