Está en la página 1de 31

Unidad 2.

Estadística Descriptiva

Introducción

En la unidad anterior pudimos ver que tanto las tablas como las gráficas, pueden ser muy
útiles para representar y comprender información numérica. Existen, sin embargo,
circunstancias en las que ni las tablas ni las gráficas nos dan información suficiente para
tomar decisiones. En estos casos debemos procesar nuestros datos o información de
diversas maneras para obtener medidas de la misma. A estas medidas se les llama
“parámetros” si trabajamos con toda la población y “Estadístico” si trabajamos con una
muestra.

La Estadística descriptiva se enfoca a la tarea de la presentación de la información o


datos, de organizarlos y resumirlos, por lo general con ayuda de cuadros, gráficas o
medidas numéricas de resumen. Este tipo de presentación, a diferencia de grandes
cantidades de datos sin elaborar, logra que la información sea comprensible y muchas
veces pone al descubierto ciertas características que de otra forma quedarían ocultas.

Una vez que los datos han sido obtenidos y organizados, estamos listos para hacer un
análisis descriptivo; en esta unidad mostraremos diferentes técnicas para resumir y
describir los datos. Al inicio mostraremos la forma en que los datos obtenidos pueden
resumirse en un solo valor central alrededor del cual todos los datos se distribuyen. Por
esta razón, a menudo se le llama a un valor central una Medida de tendencia central.
Existen muchos tipos de valores centrales pero las utilizadas con más frecuencia son la
Media aritmética, la Mediana y la Moda.

Posteriormente, resultará muy importante describir la forma en que los datos o


información están dispersos, a cada lado del centro; por eso mostraremos cómo calcular
las llamadas Medidas de dispersión y cómo aplicarlas. Las más usadas son la Varianza
y la Desviación estándar.

Propósito

Al término de la unidad serás competente para aplicar estadística descriptiva, mediante la


determinación de las medidas de tendencia central y medidas de dispersión así como el
análisis exploratorio de datos. Lo que te permitirá analizar un problema físico o social a
partir de tus resultados.

2.1 Medidas de Tendencia Central

Al trabajar con histogramas, vimos que la distribución de los datos puede adoptar varias
formas. En algunas distribuciones los datos tienden a agruparse más en una parte de la
distribución que en otra. Comenzaremos a analizar las distribuciones con el objeto de
obtener medidas descriptivas (parámetros o estadísticos), que nos ayuden en el análisis

1
de las características de los datos. Las Medidas de Tendencia central son las medidas
descriptivas o indicadores que muestran hacia qué valor (o valores) se agrupan los datos.

Las Medidas de Tendencia Central se pueden calcular para datos agrupados (en una
tabla de distribución de frecuencias) y para datos no agrupados.

Las Medidas de Tendencia Central que se trabajarán en esta unidad son: La media
aritmética, la moda y la mediana.

1.1.1 Media aritmética

Podemos definir a la media aritmética, de una manera muy sencilla, como el promedio
de los datos.

 Una muestra con n datos, tiene una media que se llama estadístico.
 Una población con N datos tiene una media que se llama parámetro.

Para datos no agrupados calculamos la media usando las siguientes fórmulas

Es importante mencionar que el símbolo es la letra griega sigma que en Matemáticas


es un operador llamado sumatoria, el cual representa la suma de varios sumando. Así por
ejemplo si tenemos

2
Ejemplo para datos no agrupados

+) En una escuela se obtuvo una muestra de 9 alumnos de 2° año de bachillerato y se le


preguntó sobre su calificación en el examen de Inglés. Las calificaciones fueron las
siguientes: 7, 6, 7, 8, 9, 8, 9, 9 y 6. ¿Cuál es la media o promedio de las calificaciones?

Como se trata de una muestra, la media la calculamos de la siguiente forma:

+) El profesor de Educación Física quiere saber el promedio de los saltos de longitud de


los alumnos de su grupo, de 20 alumnos, en la pasada competencia. Los saltos
registrados fueron:

0.20 m, 0.50 m, 0.25 m, 0.60 m, 0.30 m, 0.50 m, 0.25 m, 0.65 m, 0.20 m, 0.55 m, 0.25 m,
0.55 m, 0.20 m, 0.50 m, 0.25 m, 0.60 m, 0.15 m, 0.45 m, 0.25 m, 0.75 m.

Como estamos tomando al total de los alumnos del grupo, la población, usamos para
calcular el promedio o media aritmética la fórmula

Por lo tanto el promedio de los saltos de longitud de sus alumnos es de 0.3975 m

Para datos agrupados, en una tabla de distribución de frecuencias, calculamos la media


usando la fórmula

Donde

Nc= Número de clases


Mci=Marca de clase de la clase i (la marca de clase de la clase i se calcula obteniendo el
promedio entre el Límite Inferior y el Límite superior de la clase i).
Fi =Frecuencia de la clase i

3
Ejemplo para datos agrupados

+) En un estadio de Futbol, durante el juego por el campeonato, se tomó una muestra de


35 personas a las cuales se les preguntó ¿cuánto pagó por sus boletos?, la tabla de
distribución de frecuencias que se obtuvo fue la siguiente

Clase Límite Inferior Límite superior f


A 450 600 4
B 650 800 10
C 850 1000 9
D 1050 1200 3
E 1250 1400 6
F 1450 1600 3
TOTAL 35

En base a la tabla anterior, se desea saber ¿cuál es la media o promedio del precio del
boleto?

PASO 1. Calculamos la Marca de clase de cada clase.

Clase Límite Inferior Límite superior f MC


A 450 600 4 525
B 650 800 10 725
C 850 1000 9 925
D 1050 1200 3 1125
E 1250 1400 6 1325
F 1450 1600 3 1525
TOTAL 35

PASO 2. Multiplicamos la MC por su F para cada clase y al final obtenemos su total.

Clase Límite Límite f MC MC f


Inferior superior
A 450 600 4 525 2100
B 650 800 10 725 7250
C 850 1000 9 925 8325
D 1050 1200 3 1125 3375
E 1250 1400 6 1325 7950
F 1450 1600 3 1525 4575
TOTAL 35 33575

PASO 3. Obtenemos su promedio o media; en este caso como los datos provienen de
una muestra usamos la fórmula

4
Así el promedio del precio del boleto es de $959.28.

Ventajas de la media

• Es la medida de tendencia central más usada.


• El promedio es estable en el muestreo.
• Es sensible a cualquier cambio en los datos (puede ser usado como un detector de
variaciones en los datos).
• Se emplea a menudo en cálculos estadísticos posteriores.
• Presenta rigor matemático.

Desventajas de la media

• Es sensible a los valores extremos, es decir, si tenemos por ejemplo los datos 8, 7, 8, 7,
8, 7 su media es 7.5 la cual tiene sentido por el comportamiento y naturaleza de los datos;
sin embargo si en estos datos hacemos cambios extremos sustituyendo dos de ellos por 0
y 10, por ejemplo 8, 7, 0, 10, 8, 7 su media es 6.66 la cual no es representativa y no tiene
sentido ya que la mayoría de los datos está entre 8 y 7.
• No es recomendable emplearla en distribuciones muy asimétricas.

2.1.2 Mediana

La mediana, representada por Me y la podemos definir como el valor que divide al


conjunto ordenado de datos, en dos partes con la misma cantidad de elementos. La
mitad de los datos son menores que la mediana y la otra mitad son mayores.

Para datos no agrupados (número de datos impar)

Si el número de datos (n) es impar entonces la fórmula que nos da la posición del dato
que será la mediana está dada por

Ejemplo: Encontrar la mediana para los datos:

4, 1, 2, 3, 4, 2, 2, 1, 5, 5, 3

PASO 1. Ordenamos los datos de forma ascendente

1, 1, 2, 2, 2, 3, 3, 4, 4, 5, 5

5
PASO 2. Calculamos la posición del valor que divide en dos parte iguales el número de
datos. El número de datos es 11.

Entonces el dato que se encuentra en la posición 6 es la mediana

1 1 2 2 2 3 3 4 4 5 5

Así la mediana Me=3. Esto quiere decir que éste valor parte a los datos en el 50% por
debajo de él y 50% por arriba de él.

Para datos no agrupados (número de datos par)

Si el número de datos (n) es par, la mediana está dada por el promedio de los datos que
se encuentran en las posiciones .

Ejemplo: Encontrar la mediana para los datos:

4, 1, 2, 3, 4, 2, 2, 1, 5, 5

PASO 1. Ordenamos los datos de forma ascendente

1, 1, 2, 2, 2, 3, 4, 4, 5, 5

PASO 2. Determinamos las posiciones de los valores que se usaran para el


cálculo de la mediana, n=10.

Los datos que tienen las posiciones 5 y 6 son

1 1 2 2 2 3 4 4 5 5

Entonces la Me =

Para datos agrupados

Si los datos están agrupados en una tabla de distribución de frecuencias utilizamos la


fórmula

6
Donde
Me= mediana
Lm=Límite inferior de la clase mediana (la clase mediana es la clase que contiene a la
mediana).
n = Número de datos.
Fi-1= Frecuencia acumulada de la clase anterior al intervalo de la clase mediana.
fi= Frecuencia de la clase mediana.
h=amplitud del intervalo de clase.

Ejemplo:

+) En un estadio de Futbol, durante el juego por el campeonato, se tomó una muestra de


35 personas a las cuales se les preguntó ¿cuánto pagó por sus boletos?, la tabla de
distribución de frecuencias que se obtuvo fue la siguiente

Clase Límite Inferior Límite superior f


A 450 600 4
B 650 800 10
C 850 1000 9
D 1050 1200 3
E 1250 1400 6
F 1450 1600 3
TOTAL 35

En base a la tabla anterior, se desea saber ¿cuál es la mediana del precio del boleto?

PASO 1. Calculamos la columna con las frecuencias acumuladas.

Clase Límite Inferior Límite superior f F


A 450 600 4 4
B 650 800 10 4+10 =14
C 850 1000 9 14 + 9 =23
D 1050 1200 3 23 + 3 =26
E 1250 1400 6 26 + 6 =32
F 1450 1600 3 32 + 3 =35
TOTAL 35

PASO 2. Determinamos la clase media. Es la clase que contiene a la mediana. Para


encontrarla calculamos y en las frecuencias acumuladas buscamos la
que contenga este valor, la frecuencia acumulada que contiene este valor de 18 es 23 la
cual pertenece a la clase C. La clase media es la clase C.

7
Clase Límite Inferior Límite superior f F
A 450 600 4 4
B 650 800 10 4+10 =14
C 850 1000 9 14 + 9 =23
D 1050 1200 3 23 + 3 =26
E 1250 1400 6 26 + 6 =32
F 1450 1600 3 32 + 3 =35
TOTAL 35
PASO 3. Para terminar, calculamos la mediana usando la fórmula.

Ventajas de la mediana

• Es estable a los valores extremos.


• Es recomendable para distribuciones muy asimétricas.

Desventajas de la mediana

• No presenta todo el rigor matemático


• Se emplea solo en variables cuantitativas.
• Si hay un gran número de datos, el tener que ordenarlos para hallar la mediana
implica esfuerzo y tiempo.

2.1.3 Moda

La moda se representa por Mo y es el valor que más se repite en un conjunto de datos.

Para datos no agrupados.

Ejemplo:

+) Los siguientes datos son los resultados de haber preguntado a 30 personas sobre la
marca de refresco que más consume en la semana:

Marca 1 Marca 2 Marca 1 Marca 1 Marca 1 Marca 3 Marca 1 Marca 3 Marca 1 Marca 2
Marca 1 Marca 1 Marca 2 Marca 1 Marca 3 Marca 3 Marca 2 Marca 1 Marca 1 Marca 1
Marca 1 Marca 3 Marca 1 Marca 2 Marca 3 Marca 1 Marca 3 Marca 3 Marca 2 Marca 3

8
PASO 1. Calcular la frecuencia de cada marca en los datos.

Marca 1 se repite 15 veces.


Marca 2 se repite 6 veces.
Marca 3 se repite 9 veces.

PASO 2. Para terminar, encontramos la moda.

La moda Mo=Marca 1. Por lo tanto el valor que más se repite es la Marca 1.

Puede ocurrir que para un conjunto de datos, dos de ellos sean los que más se repiten.
En este caso se dice que los datos tienen dos modas. Por ejemplo, para los datos
2,3,4,4,4,5,6,7,7,7,9,10 los valores 4 y 7 tienen la mayor frecuencia, se repiten 3 veces;
por lo tanto las modas son Mo=4 y Mo=7. Se dice entonces que los datos tienen una
distribución Bimodal.

Para datos agrupados.

Si los datos se encuentran agrupados en una tabla de distribución de frecuencias


utilizamos la fórmula

Donde

Mo = Moda
LMo = Límite inferior de la clase modal. La clase modal es el intervalo de clase que tenga
la mayor frecuencia.
d1= Es la frecuencia de la clase modal menos la frecuencia de la clase anterior a ella, es
decir, d1=fi – fi-1
d2= Es la frecuencia de la clase modal menos la frecuencia de la clase posterior a ella, es
decir, d2=fi – fi+1
h= amplitud del intervalo de clase.

Ejemplo:

+) En un estadio de Futbol, durante el juego por el campeonato, se tomó una muestra de


35 personas a las cuales se les preguntó ¿cuánto pagó por sus boletos?, la tabla de
distribución de frecuencias que se obtuvo fue la siguiente

Clase Límite Inferior Límite superior f


A 450 600 4
B 650 800 10
C 850 1000 9

9
D 1050 1200 3
E 1250 1400 6
F 1450 1600 3
TOTAL 35

Con base a la tabla anterior, se desea saber ¿cuál es la moda del precio del boleto?

PASO 1. Encontramos la clase modal. La clase que tiene la mayor frecuencia es la B,


entonces la clase modal es B.

Clase Límite Inferior Límite superior f


A 450 600 4
B 650 800 10
C 850 1000 9
D 1050 1200 3
E 1250 1400 6
F 1450 1600 3
TOTAL 35

PASO 2. Usamos la fórmula para encontrar la moda.

La Moda es 778.57

Ventajas de la moda

• Es estable a los valores extremos, es decir, no se ve afectada por los valores


extremos.
• Es recomendable para el tratamiento de variables cualitativas.

Desventajas de la moda

• Puede que no se presente. Cuando todas las frecuencias de un conjunto de datos


tienen la misma frecuencia se dice que no tiene moda.
• Puede existir más de una moda.
• En distribuciones muy asimétricas suele ser un dato muy poco representativo.
• Carece de rigor matemático.

Pero, ¿Cuál es la mejor medida de Tendencia Central?

10
2.1.4 Comparación entre las medidas de tendencia central

Las ventajas y limitaciones de usar la media, la moda y la mediana para describir un


conjunto de datos dependen estrictamente de la forma (tipo) de la distribución de datos.
Siempre que se pueda usar, en general se prefiere la media para describir la tendencia
central, aunque algunas distribuciones se describen mejor por medio de la moda y la
mediana.

Si los datos se encuentran distribuidos simétricamente (distribuidos normalmente)


entonces las medias de tendencia central coinciden En una distribución normal, la
media, moda y mediana tienen un valor idéntico

Esto en realidad es evidente, dado que una distribución normal es perfectamente


simétrica, y la curva tiene un sólo punto máximo (moda) que también se encuentra en el
centro. Así, la media debe ser nuestra medida preferida de tendencia central para los
conjuntos de datos que se distribuyen normalmente, puesto que es más fácil de calcular y
de usar en forma matemática.

Cuando se describen distribuciones asimétricas positivas (a la izquierda) o negativas (a la


derecha), la media no es la mejor medida de tendencia central disponible. Mientras mayor
sea la asimetría o sesgo de los datos, mayor utilidad tendrá la mediana (y más engañosa
será la media), porque la mediana estará más cerca del ‘valor promedio’ real de las
observaciones. Por ejemplo, en el caso de una distribución asimétrica positiva, la media
se encuentra ‘inflada’ por la minoría de las observaciones que tienen un valor mayor. Esto
sucede, por ejemplo, con el ingreso per cápita, puesto que las distribuciones del ingreso
son asimétricas positivas.

11
Observa que cuando la distribución es asimétrica ‘positiva’, (es decir, el extremo más
largo de la distribución apunta hacia su derecha), la moda está a la izquierda de la
mediana, y a su vez, la mediana está a la izquierda del promedio. Sucede lo contrario
cuando la distribución es asimétrica negativa. Esto nos lleva a una consideración final: si
una distribución es asimétrica, es decir, notoriamente sesgada, la mediana será mejor que
la media (promedio) para describir la tendencia central de la distribución de los datos.
Observa las figuras anteriores. Nota que en todas las distribuciones asimétricas, la
mediana efectivamente se acerca más que la media al valor ‘promedio o ‘normal’ de las
observaciones o, en otras palabras, refleja mejor la existencia de un sesgo en los datos.

(Se realiza en plataforma)

2.2 Medidas de Dispersión

Anteriormente vimos las medidas de tendencia central, las cuales empleamos para
encontrar el centro de un conjunto de datos y no sólo basta con determinar las medidas
de tendencia central para comprender el comportamiento de un conjunto de datos. Con
mucha frecuencia, es igualmente importante describir la forma en que los datos están
dispersos o diseminados a cada lado del centro, es decir, conocer qué tan alejados están
esos datos respecto a ese punto de concentración. A esto se le conoce como dispersión,
variación o variabilidad.

Las medidas de dispersión son indicadores que nos muestra la distancia promedio de los
datos respecto a las medidas de tendencia central. Son muy útiles porque nos
proporcionan información adicional que nos permite juzgar la confiabilidad de nuestra
medida de tendencia central; si los datos están muy dispersos la posición central es
menos representativa de los datos, como un todo, que cuando estos se agrupan más
estrechamente alrededor de la media; como existen problemas característicos de

12
distribuciones muy dispersas, debemos ser capaces de distinguir que presentan esa
dispersión antes de abordar los problemas y también nos permiten comparar varias
muestras con promedios parecidos.

Por ejemplo, para los siguientes datos

Calificación 2 3 4 5 6 7 8 9 10
de la
prueba
Hombres 2 4 7 6 1
(n=20)
Mujeres 1 1 2 3 6 3 2 1 1
(n=20)
La calificación promedio (media), para hombres y mujeres, es de 6 pero las dispersiones
de los datos para los hombres y mujeres son distintas.

2.2.1 Varianza y Desviación Estándar

Las descripciones más comprensibles de la dispersión de los datos son aquellas que
tratan con la desviación promedio con respecto a alguna medida de tendencia central. La
varianza y desviación estándar nos dan una distancia promedio con respecto a la media
de la distribución.

Podemos definir a la varianza como el promedio del cuadrado de las distancias de los
datos a su media. Si la varianza de un conjunto de datos es grande, se dice que los
datos tienen mayor dispersión o variabilidad que un conjunto de datos que tenga una
varianza pequeña.

 Una muestra con n datos, tiene una varianza s 2.


 Una población con N datos tiene una varianza .

La desviación estándar se puede definir como la raíz cuadrada positiva de la varianza.

13
 Una muestra con n datos, tiene una desviación estándar s.
 Una población con N datos tiene una desviación estándar .

Para muchos fines prácticos es una medida de la variabilidad más útil que la varianza
debido a que la desviación estándar se expresa en las mismas unidades que las de los
datos recogidos. La varianza se expresa en unidades elevadas al cuadrado. Así p or
ejemplo si los datos que se usen están en cm, la media y la desviación estándar estarán
en cm. En cambio la varianza estará en cm2.

La desviación estándar la podemos interpretar como “en promedio los valores se alejan
de la media en …. unidades”.

Para datos no agrupados calculamos la varianza y la desviación estándar usando las


siguientes fórmulas

En realidad el cálculo de la desviación estándar, una vez que tenemos la varianza, es muy
sencillo porque simplemente sacamos la raíz cuadrada de la varianza.

Ejemplo:

+) Los siguientes datos representan una muestra de la cantidad de pedidos diarios


entregados: 17, 25, 28, 27, 16, 21, 20, 22, 18 y 23. Calcular su varianza y desviación
estándar.

Para facilitar el cálculo, hacemos una tabla con todos los elementos involucrados en la
fórmula para el cálculo de la varianza

14
Dato (x) Media ( ) x- (x- )2
1 16 21.7 -5.7 32.49
2 17 21.7 -4.7 22.09
3 18 21.7 -3.7 13.69
4 20 21.7 -1.7 2.89
5 21 21.7 -0.7 0.49
6 22 21.7 0.3 0.09
7 23 21.7 1.3 1.69
8 25 21.7 3.3 10.89
9 27 21.7 5.3 28.09
10 28 21.7 6.3 39.69
Total 217 152.1

Entonces

16.9 y

= 4.11

Lo que significa que en promedio, la cantidad de pedidos se separa de la media


(promedio) en 4.11 pedidos.

Para datos agrupados calculamos la varianza y la desviación estándar, para la población


o una muestra, usando las siguientes fórmulas:

Es importante recordar que MCci es la marca de clase para la clase i y Nc el número


de clases.

15
Ejemplo:

+) En un estadio de Futbol, durante el juego por el campeonato, se tomó una muestra de


35 personas a las cuales se les preguntó ¿cuánto pagó por sus boletos?, la tabla de
distribución de frecuencias que se obtuvo fue la siguiente

Clase Límite Inferior Límite superior f


A 450 600 4
B 650 800 10
C 850 1000 9
D 1050 1200 3
E 1250 1400 6
F 1450 1600 3
TOTAL 35

En base a la tabla anterior, se desea saber ¿cuál es la varianza y la desviación estándar


para el precio del boleto?

PASO 1. Calculamos la media para los datos de la tabla de distribución de frecuencias.

PASO 2. Calculamos los componentes de la fórmula para la varianza usando la tabla de


distribución de frecuencias de los datos

Clase Límite Límite f MC (MC- )2 (MC- )2 f


Inferior superior
A 450 600 4 525 959.28 188599.118 754396.474
B 650 800 10 725 959.28 54887.1184 548871.184
C 850 1000 9 925 959.28 1175.1184 10576.0656
D 1050 1200 3 1125 959.28 27463.1184 82389.3552
E 1250 1400 6 1325 959.28 133751.118 802506.71
F 1450 1600 3 1525 959.28 320039.118 960117.355
TOTAL 35 3158857.14

PASO 3. Calculamos la varianza y la desviación estándar usando las fórmulas.

Finalmente, lo que nos indica es que en promedio el precio del boleto se separa de la
media en $304.80

16
2.2.2 Aplicación de la desviación estándar

La desviación estándar nos permite determinar, con un buen grado de precisión, dónde
están localizados los datos de una distribución de frecuencias en relación a la media. Una
herramienta usada para esto es el Teorema de Chebyshev1.

El teorema nos dice que para cualquier distribución de datos (simétricos o asimétricos) de
una muestra o una población el intervalo cuyo centro es la media de la colección de datos,
cuyo punto extremo izquierdo es la media menos k desviaciones estándar y cuyo punto
extremo derecho es la media más k desviaciones estándar, contiene por lo menos (1-1/k2)
x 100 % del total de los datos, siendo k mayor o igual a uno.

Lo anterior significa que si y (o bien y ) son la media y la desviación estándar de


una colección de datos y si k 1 entonces el intervalo o bien
contiene como mínimo al (1-1/k2) x 100 % del total de datos. Es decir

 Si k=2 el intervalo o contiene como mínimo al


(1-1/4)*100% = 75% de los datos.
 Si k=3 el intervalo o contiene como mínimo al
(1-1/9)*100% = 88.88% de los datos.

Así por ejemplo, vamos a suponer que tenemos que una muestra de datos arroja una
=3.96 y una =2.18 entonces los intervalos para k=2 y k=3 quedarían

 . Lo que indica
que éste intervalo contiene al menos el 75% de los datos.
 . Lo que indica
que éste intervalo contiene al menos el 88.88% de los datos.

1
Matemático ruso (1821-1894) reconocido por sus trabajos y contribuciones en la Estadística y Probabilidad.

17
Pero, para datos que particularmente tienen una distribución normal (datos que tienen una
distribución simétrica alrededor de la media) la regla empírica nos indica que:

 El intervalo o contiene aproximadamente el 68% de


todos los datos.
 El intervalo o contiene aproximadamente el 95%
de todos los datos.
 El intervalo o contiene aproximadamente el 99%
de todos los datos.

Gráficamente quedarían así los porcentajes con respecto de los datos:

Imagen 18. Porcentajes con respecto a los datos

Ejemplo:

+) En una escuela se obtuvo una muestra de 9 alumnos de 2° año de bachillerato y se le


preguntó sobre su calificación en el examen de Inglés. Las calificaciones fueron las
siguientes: 7, 6, 7, 8, 9, 8, 9, 9 y 6. Determinar los intervalos que contienen al menos el
75% y el 88.88% de los datos con respecto a la media.

Como se trata de una muestra, la media la calculamos de la siguiente forma:

Y la desviación estándar es

18
Con lo cual los intervalos quedan:

 Si k=2,
 Si k=3,

Lo anterior nos indica que el intervalo contiene al menos el 75% de los datos y
que el intervalo contiene al menos el 88.88%

(Se realizan en plataforma)

2.3 Medidas de Posición

Las medidas de posición dividen un conjunto de datos ordenados de manera ascendente


en grupos con el mismo número de individuos. La mediana se puede considerar como
una medida de posición ya que divide a los datos en dos grupos que contienen el 50% de
los datos menores que la mediana y 50% de los datos mayores a la mediana. Los
cuantiles son otras medidas de posición que al igual que la mediana dividen a los datos
en varios grupos con el mismo porcentaje de individuos en cada uno de ellos. Los
cuantiles son: Cuartiles, Deciles y Percentiles.

2.3.1 Cuartiles

Los Cuartiles dividen en cuatro partes los datos. Son cuatro Cuartiles los que dividen los
datos en cuatro partes con la misma cantidad de valores en cada uno de ellos. El primer
cuartil Q 1 es un valor que deja por debajo de él el 25% de los datos y por encima el 75%
de los datos. El segundo cuartil Q 2 es un valor que deja el 50% por debajo de él y 50% de
los datos por encima (es la mediana). El tercer cuartil Q 3 es el valor que deja por debajo el
75% y el 25% por encima de los datos.

Gráficamente tenemos:

PORCIENTO DE INFORMACIÓN

19
Para datos no agrupados los Cuartiles se calculan usando las fórmulas:

 Q1 es el valor que ocupa la posición , donde n=número de datos.


 Q2 es el valor que ocupa la posición , donde n=número de datos.
 Q3 es el valor que ocupa la posición , donde n=número de datos.

Ejemplo:

+) Calcular los Cuartiles para los siguientes datos: 3, 5, 6, 11, 14, 18,18, 20, 24, 25, 27,
27, 28, 29, 31, 33, 34, 36, 44, 45, 47, 48, 48, 50, 50, 52.

Tenemos que n=26

 Posición de Q1 = . El dato que ocupa el lugar 7 es 18. Entonces


Q1=18.
 Posición de Q 2 = . Esto nos indica que el segundo cuartil debe
estar entre el valor que ocupa la posición 13 (el dato 28) y la posición 14 (el dato
29). Para determinar a la posición 13.5 tomamos el valor que ocupa la posición 13,
el dato 28, y le sumamos 0.5 veces la diferencia entre el dato de la posición 14 y
el dato de la posición 13; es decir, 28 + 0.5*(29-28)= 28 +0.5 = 28.5. Por lo tanto
Q2= 28.5.
 Posición de Q 3 = . El dato que ocupa el lugar 20 es 45. Por lo
tanto Q3=45.

28.5
3 5 6 11 14 18 18 20 24 25 27 27 28 29 31 33 34 36 44 45 47 48 48 50 50 52

Q1 Q2 Q3

6 datos 6 datos 6 datos 6 datos

Para datos agrupados los Cuartiles se calculan usando las formulas:

Posición del primer cuartil dentro de los

intervalos de clase:
Q1=

20
Posición del segundo cuartil dentro de los
intervalos de clase: Q2=

Posición del tercer cuartil dentro de los

intervalos de clase:
Q3=

donde

Li = Es el límite inferior exacto de la clase que contiene el cuartil deseado.

n = Es la frecuencia total.

F = Es la frecuencia acumulada de la clase anterior a la que contiene el cuartil deseado.

Frecuencia de clase = Es la frecuencia de la clase que contiene el cuartil deseado.

c = Es el ancho del intervalo de la clase que contiene el cuartil deseado.

Ejemplo:

+) Para la siguiente tabla de distribución de frecuencias que representa una muestra de la


producción de manzanas, en kg, de una huerta, determinar los Cuartiles.

Clase Límite Límite f F


Inferior Superior
1 31 35 15 15
2 36 40 9 24
3 41 45 13 37
4 46 50 16 53
5 51 55 9 62
TOTAL 62

2
PASO 1. Calcular el límite inferior exacto y el límite superior exacto de cada clase
usando las fórmulas:

2
Los límites exactos sirven para marcar con precisión el valor inicial y final de cada clase. Por ejemplo, en el
caso de dos casas vecinas, el límite nominal o práctico ( límites inferior y superior ) no incluye la barda entre
las casas; el límite exacto sí la considera.

21
Así para la clase 1 tenemos que

Para la demás clases se calcula de manera similar.

Clase Límite Límite f F


Inferior Superior
1 30.5 35.5 15 15
2 35.5 40.5 9 24
3 40.5 45.5 13 37
4 45.5 50.5 16 53
5 50.5 55.5 9 62
TOTAL 62

PASO 2. Calculamos los Cuartiles. En la muestra n=62.

Posición del primer cuartil dentro de los


intervalos de clase:
Q1=
.

Buscamos el valor 15.75 dentro de las Q1=


frecuencias acumuladas y vemos que se
encuentra en la segunda clase por lo
tanto el intervalo que contiene el primer
cuartil es el segundo.

22
Posición del primer cuartil dentro de los

intervalos de clase:
Q2=

Buscamos el valor 31.5 dentro de las Q2=


frecuencias acumuladas y vemos que se
encuentra en la tercera clase por lo tanto
el intervalo que contiene el segundo
cuartil es el tercero.

Posición del primer cuartil dentro de los

intervalos de clase:
Q3=
Buscamos el valor 47 dentro de las
frecuencias acumuladas y vemos que se Q3=
encuentra en la cuarta clase por lo tanto
el intervalo que contiene el tercer cuartil
es el cuarto.

En la vida diaria los porcentajes suelen constituir una herramienta muy descriptiva. Si los
padres de Sofía descubren que sólo un 20% de sus compañeros saben más Matemáticas
que ella quedarán perfectamente informados del nivel de su hija, y muy satisfechos al
descubrir que ella supera al 80% de su clase. Por eso se usan los cuantiles en Estadística
Descriptiva, porque señalan el porcentaje de datos inferiores a uno dado, lo que lo sitúa
muy bien dentro del colectivo.

En las revistas científicas se considera como un indicador para evaluar la importancia


relativa de las revistas dentro del total de revistas de su área. ¿Cómo se usa? Si un
listado de revistas ordenadas de mayor a menor factor de impacto 3 se divide en cuatro

3
Factor de impacto: El factor de impacto intenta medir la repercusión que ha obtenido una revista
en la comunidad científica. Es un instrumento utilizado para comparar revistas y evaluar la
importancia relativa de una revista concreta dentro de un mismo campo científico.

El factor de impacto de una revista donde se ha publicado un artículo determinado se pueden


obtener a partir de la búsqueda en el Journal Citation Reports (JCR). El JCR es una base de datos
multidisciplinar producida por el ISI (Institute for Scientific Information) con un gran número de
aplicaciones bibliométricas y cienciométricas.

23
partes iguales, cada una de ellas es un cuartil. Las revistas con el factor de impacto más
alto están en el primer cuartil, los Cuartiles medios serán el segundo y tercero, y el cuartil
más bajo el cuarto. Así, en un listado de 100 revistas, el primer cuartil serán las 25
primeras revistas y estas serán las que tienen el mayor factor de impacto y por lo tanto las
más valoradas.

2.3.2 Deciles

Los Deciles dividen en diez partes los datos. Son nueve Deciles los que dividen en 10
partes los datos con la misma cantidad de valores entre cada uno de ellos. El primer Decil
D1 es un valor que deja por debajo de él el 10% de los datos y por encima el 90% de los
datos; el segundo Decil D 2 es un valor que deja el 20% por debajo de él y 80% de los
datos por encima; el tercer Decil D3 es el valor que deja por debajo el 30% y el 70% por
encima de los datos y así sucesivamente hasta el noveno Decil D 9 que es el valor que
deja el 90% por debajo y el 10% por encima de los datos. En particular el quinto Decil D 5
que deja el 50% por arriba y por abajo es la mediana.

Gráficamente tenemos:

PORCIENTO DE INFORMACIÓN

Para datos no agrupados los Deciles se calculan usando las fórmulas:

 D1 es el valor que ocupa la posición , donde n=número de datos.


 D2 es el valor que ocupa la posición , donde n=número de datos.
 D3 es el valor que ocupa la posición , donde n=número de datos.

y así sucesivamente hasta

 D9 es el valor que ocupa la posición , donde n=número de datos.

Ejemplo:

24
+) Calcular el primer y quinto Decil para los siguientes datos: 3, 5, 6, 11, 14, 18,18, 20,
24, 25, 27, 27, 28, 29, 31, 33, 34, 36, 44, 45, 47, 48, 48, 50, 50, 52.

Tenemos que n=26.

 Posición de D1 = . Esto nos indica que el primer Decil debe estar


entre el valor que ocupa la posición 3 (el dato 6) y la posición 4 (el dato 11). Para
determinar a la posición 3.1 tomamos el valor que ocupa la posición 3, el dato 6,
y le sumamos 0.1 veces la diferencia entre el dato de la posición 4 y el dato de la
posición 3; es decir, 6 + 0.1*(11-6)= 6 +0.5 = 6.5. Por lo tanto D1= 6.5.
 Posición de D5 = Esto nos indica que el quinto Decil debe
estar entre el valor que ocupa la posición 13 (el dato 28) y la posición 14 (el dato
29). Para determinar a la posición 13.5 tomamos el valor que ocupa la posición 13,
el dato 28, y le sumamos 0.5 veces la diferencia entre el dato de la posición 14 y
el dato de la posición 13; es decir, 28 + 0.5*(29-28)= 28 + 0.5 = 28.5. Por lo tanto
D5= 28.5.

6.5 28.5
3 5 6 11 14 18 18 20 24 25 27 27 28 29 31 33 34 36 44 45 47 48 48 50 50 52

D1 D5

Si te fijas muy bien el procedimiento para obtener los Deciles es muy similar al que se usa
para calcular los Cuartiles, sólo cambia el denominador de 4 a 10 en la primera parte de la
fórmula.

Para datos agrupados los Deciles se calculan usando las formulas:

Posición del primer Decil dentro de los


intervalos de clase: D1=

Posición del segundo Decil dentro de los


intervalos de clase: D2=

Posición del tercer Decil dentro de los


intervalos de clase: D3=

y así sucesivamente hasta

25
Posición del noveno Decil dentro de los
intervalos de clase: D9=

donde

Li = Es el límite inferior exacto de la clase que contiene el cuartil deseado.

n = Es la frecuencia total.

F = Es la frecuencia acumulada de la clase anterior a la que contiene el cuartil deseado.

Frecuencia de clase = Es la frecuencia de la clase que contiene el cuartil deseado.

c = Es el ancho del intervalo de la clase que contiene el cuartil deseado.

Una vez más, si te fijas muy bien, las fórmulas son muy similares a las que se usan para
calcular los Cuartiles así que no tendrás ningún problema para calcular los Deciles.

Como un apoyo para analizar la distribución del ingreso, INEGI utiliza la ENIGH (Encuesta
Nacional de Ingresos y Gastos de los Hogares) en donde ordena a todos los hogares
según el ingreso que perciben, de menor a mayor, y los agrupa en diez bloques
denominados Deciles, de manera que en los extremos, el primero contiene a la décima
parte de los hogares con menores ingresos, y el último, a la décima parte de los hogares
con mayores ingresos. En el año 2010, el 10% más favorecido (Decil X) 4 de los hogares
mexicanos concentró 34.6% del ingreso total mientras que 60% de los hogares menos
afortunados (Deciles I – VI) sólo acumulaba 27.6% del ingreso total. Estas cifras
confirman la percepción de que un pequeño porcentaje de la población tiene condiciones
de vida mejores que la gran mayoría 5.

2.3.3 Percentiles

Los Percentiles dividen en cien partes los datos. Son noventa y nueve percentiles los que
dividen en 100 partes los datos con la misma cantidad de valores entre cada uno de ellos.
El primer percentil P 1 es un valor que deja por debajo de él el 1% de los datos y por
encima el 99% de los datos; el segundo Percentil P2 es un valor que deja el 2% por
debajo de él y 98% de los datos por encima; el tercer Percentil P3 es el valor que deja por
debajo el 30% y el 70% por encima de los datos y así sucesivamente hasta el Percentil
número 99 P99 que es el valor que deja el 99% por debajo y el 1% por encima de los

4
La INEGI considera los Deciles como las 10 agrupaciones, recuerda que para poder lograr esa agrupación se
usan 9 números: D1, D2, …, D9. El Decil X al que se refiere INEGI es el intervalo que se forma a partir de D 9.
Cuidado, no hay un D10.
5
Fuente: ENIGH 2010, INEGI.

26
datos. En particular el quinto Decil P50 que deja el 50% por arriba y por abajo es la
mediana.

Para datos no agrupados los Percentiles se calculan usando las fórmulas:

 P1 es el valor que ocupa la posición , donde n=número de datos.


 P2 es el valor que ocupa la posición , donde n=número de datos.
 P3 es el valor que ocupa la posición , donde n=número de datos.

y así sucesivamente

 P99 es el valor que ocupa la posición , donde n=número de datos.

Ejemplo:

+) Calcular P17 para los siguientes datos: 3, 5, 6, 11, 14, 18,18, 20, 24, 25, 27, 27, 28,
29, 31, 33, 34, 36, 44, 45, 47, 48, 48, 50, 50, 52.

Tenemos que n=26

 Posición de P17 = . Esto nos indica que el P17 debe estar


entre el valor que ocupa la posición 4 (el dato 11) y la posición 5 (el dato 14). Para
determinar a la posición 4.92 tomamos el valor que ocupa la posición 4, el dato
11, y le sumamos 0.92 veces la diferencia entre el dato de la posición 5 y el dato
de la posición 4; es decir, 11 + 0.92*(14-11)= 11+0.92*(3) = 13.76. Por lo tanto
P17= 13.76.

Para datos agrupados los Percentiles se calculan usando las formulas:

Posición del primer Percentil dentro de los


intervalos de clase:
P1=

Posición del segundo Percentil dentro de


los intervalos de clase: P2=

Posición del tercer Percentil dentro de los


intervalos de clase: P3=

y así sucesivamente hasta

27
Posición del noventa y nueve Percentil
dentro de los intervalos de clase: P99=

donde

Li = Es el límite inferior exacto de la clase que contiene el cuartil deseado.

n = Es la frecuencia total.

F = Es la frecuencia acumulada de la clase anterior a la que contiene el cuartil deseado.

Frecuencia de clase = Es la frecuencia de la clase que contiene el cuartil deseado.

c = Es el ancho del intervalo de la clase que contiene el cuartil deseado.

En general, y si te fijas muy bien, los Percentiles usan fórmulas muy similares a los
Cuartiles y a los Deciles. Lo anterior es importante mencionarlo para que te des cuenta
que su cálculo no será difícil.

Las aplicaciones de los Percentiles son muy variadas, por ejemplo, Supongamos que
tenemos una muestra con 1000 datos de personas y salarios. El P75 sería el valor de
salario que ganan el 75% de las personas de esa muestra (ese conjunto de valores). O
por ejemplo el P20 el que ganan el 20% de las personas; otro ejemplo más técnico, si
registramos los días que tarda una alumna en encontrar trabajo, ¿cuál es el tiempo en el
que encuentran trabajo el 40% de las alumnas? Pues P 40 (el percentil 40). Parece un poco
complicado, pero la idea es simple: conocer cuál es el valor a partir del que un X% de los
valores están por encima o por debajo.

Otra aplicación, donde se utilizan los percentiles, es el de considerarlos como una medida
para comparar el crecimiento de un niño con el crecimiento de otros niños de su edad.
Hay percentiles de talla, peso, perímetro craneal, etc. Los más utilizados son los de talla y
peso de los bebés. Así

 Cuando el pediatra nos dice que el niño está en el percentil 25 de altura, significa
que de cada 100 niños de su edad, 75 son más altos que nuestro hijo y 24 serían
más bajos.
 Por el contrario, si nuestro bebé está en el percentil 90 de altura significa que, de
cada 100 bebés, solo hay 10 que midan más que nuestro niño, por lo que habría
89 que medirían menos.
 El percentil 50 es la media, por lo queque si tu hijo se encuentra en este percentil
mide lo mismo que el 50 por ciento de los niños de su misma edad y sexo.

28
(Se realizan en plataforma)

Evaluación de Unidad (Se desarrollan en plataforma)

Conclusión

Haz finalizado tu segunda unidad del curso de Estadística y Probabilidad, en el cual


aprendiste los siguientes conceptos:

29
Referencias

De contenido

Libros

 Castillo, J. (1998). Estadística Básica. México: Grupo Editorial Iberoamérica.


 Freund, J. (1994). Estadística Elemental. México: Pearson Prentice Hall.
 Ross, S. (2007). Introducción a la Estadística. México: Reverté.
 Triola, M. (2009). Estadística. México: Pearson Prentice Hall.
 Zavala Aguilar, R. (2011). Estadística Básica. México: Trillas.

De consulta

Sitios de internet

Las siguientes ligas electrónicas te servirán de apoyo para las medidas de Tendencia
Central, las de Dispersión y las de Posición, te pido revisarlas.

 Mancilla, H. (sf). Estadística Descriptiva e Inferencial I. Colegio de Bachilleres.


http://www.conevyt.org.mx/bachillerato/material_bachilleres/cb6/5sempdf/edin1/e
din1_f1.pdf
 UNAM. (2012). Estadística y Probabilidad.
http://www.recursoseducativos.unam.mx/eduCommons/search?Subject%3Alist=E
stad%C3%ADstica%20y%20Probabilidad
 UNAM. (2012). Portal académico. Colegio de Ciencias y Humanidades. UNAM.
http://portalacademico.cch.unam.mx/alumno/sitiosdeinteres/matematicas/estadisti
ca1

De imágenes

12. Distribución normal


Elaborada por: Víctor Manuel Terreros Muñoz
Editado por: Alma Martínez Campech

13. Distribución asimétrica positiva


Elaborada por: Víctor Manuel Terreros Muñoz
Editado por: Alma Martínez Campech

14. Distribución asimétrica negativa


Elaborada por: Víctor Manuel Terreros Muñoz
Editado por: Alma Martínez Campech

30
15. Calificación promedio para hombres (media)
Elaborada por: Víctor Manuel Terreros Muñoz
Editado por: Alma Martínez Campech

16. Calificación promedio para mujeres (media)


Elaborada por: Víctor Manuel Terreros Muñoz
Editado por: Alma Martínez Campech

17. Pafnuti Lvóvich Chebyshev


Recuperado de:
http://es.wikipedia.org/wiki/Tchebycheff

18. Porcentajes con respecto a los datos


Elaborada por: Víctor Manuel Terreros Muñoz
Editado por: Alma Martínez Campech

31

También podría gustarte