Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Semana 2
INTRODUCCIÓN ................................................................................................................................... 2
1. MEDIDAS DE TENDENCIA CENTRAL ............................................................................................ 3
1.1. MEDIA ARITMÉTICA ............................................................................................................ 3
1.2. MEDIANA ............................................................................................................................. 5
1.3. MODA .................................................................................................................................. 6
2. MEDIDAS DE POSICIÓN ............................................................................................................... 7
2.1. PERCENTILES ........................................................................................................................ 7
2.2. CUARTILES ......................................................................................................................... 11
2.3. DECILES .............................................................................................................................. 12
2.4. BOX PLOT (O DIAGRAMA DE CAJA Y BIGOTES) ................................................................ 13
INTRODUCCIÓN
La estadística nace de las necesidades reales del hombre. La variada y cuantiosa información relacionada
con este, y que es necesaria para la toma de decisiones, hace que la estadística sea hoy una importante
herramienta de trabajo.
En esta semana se aprenderá a sacar conclusiones generales de la población con la obtención de datos
característicos (medidas de tendencia central y posición) que permitirán tomar medidas en beneficio de la
misma.
Las medidas de tendencia central tienen como objetivo determinar dónde se concentran los datos (cuál es
el centro de un histograma de frecuencias absolutas o frecuencias relativas). Entre las medidas de tendencia
central que se presentarán están: la media aritmética, la moda, la mediana y los percentiles. Antes de
comenzar es importante considerar la diferencia entre dos conceptos: datos agrupados y datos no
agrupados.
• Datos agrupados: son aquellos cuya representación es a través de intervalos o rangos de clases. Por
lo corresponden a la variable continua.
• Datos no agrupados: son aquellos que son contables, como puede ser variable discreta.
: Variable
𝜒
n: tamaño de la población
𝑋𝑖 = y {x1, x2, x3,…, Xn} el conjunto de valores que toma la variable.
Ejemplo:
Se tiene la siguiente variable:
X = notas de pertenecientes a Juan Pérez: 6,3 – 5,8 – 7,0 – 3,3 – 4,0 – 5,1 – 6,3 – 6,5
Luego, el promedio es:
∑(𝑀𝑐 ∗ 𝑓𝑖 )
=
𝜒 𝑛
Donde:
Mc = marca de clase (punto medio de cada intervalo)
𝑓𝑖 = frecuencia absoluta
n = tamaño de la población
Ejemplo:
Calcular la media aritmética o promedio de empleados que trabajan en una fábrica.
Sea X = cantidad de trabajadores de una fábrica.
Luego,
∑(𝑀𝑐 ∗ 𝑓𝑖 ) 3.550
= = = 17,7
𝜒 𝑛 200
1.2. MEDIANA
En un conjunto de observaciones ordenadas de menor a mayor, la mediana divide a la muestra o la población
en dos partes iguales y las agrupa en: 50% menor a esa observación y un 50% mayor a esa observación.
En el caso de datos no agrupados, para obtener la mediana se debe ordenar de menor a mayor los datos y
ubicar el dato central (a la izquierda del dato central debe haber la misma cantidad de datos que a la
derecha).
Ejemplo:
Se tiene la siguiente variable:
X = notas de estadística pertenecientes a Juan Pérez: 6,4 – 5,8 – 3,3 – 4,0 – 5,1 – 6,3 – 6,5.
Al ordenar el conjunto, se obtiene: 3,3 – 4,0 – 5,1 – 5,8 – 6,3 – 6,4 – 6,5.
Así, la mediana o Me = 5,8 (a la izquierda hay tres datos al igual que a la derecha).
Se debe tomar en cuenta que si el total de los datos es impar, la mediana está al centro, es decir, la cantidad
de datos a la izquierda coincide con la cantidad de datos de la derecha. Y si el conjunto de datos es par, se
consideran los dos centrales y se saca el promedio (es decir, sumar y dividir en dos).
X = notas de Estadística de Juana Estela: 6,3 – 5,7 – 3,0 – 4,5 – 7,0 –5,6 – 6,6 – 6,5
Al ordenar el conjunto, se obtiene: 3,0 – 4,5 – 5,6 – 5,7 – 6,3 – 6,5 – 6,6 – 7,0.
12
Datos centrales: 5,7 + 6,3 = = 6,0
2
Para el caso de datos agrupados, se necesita la tabla de frecuencias. Entonces, la clase mediana se puede
definir como el intervalo cuya frecuencia absoluta acumulada (Fi) contiene al 50% de la población. El límite
inferior de un intervalo es el número más pequeño. La fórmula es:
𝑛
− 𝐹𝑖−1
𝑀𝑒 = 𝐿í𝑚. 𝑖𝑛𝑓. + (2 )∗𝐴
𝑓𝑖
Donde:
Lím. inf. = límite inferior del intervalo
n = tamaño población
𝐹i−1 = frecuencia absoluta acumulada anterior a la clase mediana
𝑓i = frecuencia absoluta puntual de la clase mediana
A = amplitud
Ejemplo:
Minutos
𝒇𝒊 𝑭𝒊
de atraso
0-10 60 60
10-20 80 140
20-30 30 170
30-40 20 190
40-80 10 200
Primero hay que encontrar la mediana. Según la definición, se debe determinar qué frecuencia absoluta
acumulada contiene al 50% de la población. El 50% de 200 es 100, ya que 200 * 0,5 = 100, por lo tanto la
clase mediana es el intervalo 10-20, ya que 140 es la primera Fi que contiene al 50% de la población. El límite
inferior es 10, la 𝑓𝑖 = 80 y la amplitud es 10. Reemplazando se tiene:
𝑛 200
− 𝐹𝑖−1 − 60
𝑀𝑒 = 𝐿í𝑚. 𝑖𝑛𝑓. + ( 2 ) ∗ 𝐴 = 10 + ( 2 ) ∗ 10 = 15
𝑓𝑖 80
1.3. MODA
Esta se define como el valor observado con mayor frecuencia. Además, puede existir más de un valor con
igual número de frecuencia, por lo tanto, se tendría una distribución con varias modas.
En el caso de datos no agrupados no se tiene fórmula, pues solo se debe identificar el valor que más se repite
dentro de una distribución.
En el caso de datos agrupados, se define la clase modal como el intervalo que tiene más datos. Y se obtiene
con la siguiente fórmula:
𝑑1
𝑀𝑜 = 𝐿𝑖𝑚. 𝑖𝑛𝑓. + ( )∗𝐴
𝑑1 + 𝑑2
Donde:
𝑑1 = 𝑓i − 𝑓i−1 = frecuencia absoluta puntual de la clase modal, menos la frecuencia acumulada puntual
anterior.
𝑑2 = 𝑓i − 𝑓i+1 = frecuencia absoluta puntual de la clase modal, menos la frecuencia absoluta puntual
siguiente.
Ejemplo:
Sea X = minutos de atraso de los alumnos de Estadística.
Minutos
𝒇𝒊 𝑭𝒊
de atraso
0-5 6 6
5-10 3 9
10-15 8 17
15-20 2 19
20-30 1 20
Total 20
Entonces, la clase modal es 10-15, ya que es la que tiene el número mayor. Su límite inferior es 10,
𝑑1 5
𝑀𝑜 = 𝐿𝑖𝑚. 𝑖𝑛𝑓. + ( ) ∗ 𝐴 = 10 + ( ) ∗ 5 = 12,27
𝑑1 + 𝑑2 5+6
Así, los minutos de atraso que más se repiten son 12 aproximadamente. Es decir, los alumnos de
Estadística cuando llegan atrasados demoran la mayoría de las veces unos 12 minutos.
Observación: si en los datos no están agrupados y existe más de un valor con la misma frecuencia máxima,
todos serán también moda y se dice que la distribución de la frecuencia es bimodal (si son dos modas),
trimodal (si son tres modas), etc.
2. MEDIDAS DE POSICIÓN
Son aquellas que dividen a la población en grupos de cantidades iguales. Estas medidas permiten conocer
otros puntos característicos de la distribución que no son los valores centrales. Algunas son las siguientes:
cuartiles, percentiles, deciles y quintiles.
2.1. PERCENTILES
Cuando se tiene una muestra de valores perteneciente a datos no agrupados se pueden ordenar los valores
de menor a mayor, y de acuerdo a la posición de cada valor numérico se puede determinar el porcentaje de
elementos (valores) que son menores o mayores a un determinado punto de corte, por lo tanto, cuando se
habla de percentiles se está dividiendo la muestra de datos en 99 puntos de corte que dividen a la población
en 100 partes de igual frecuencia.
Entonces se tiene:
𝑛∗𝑘
𝐴=
100
Si A es entero, entonces el percentil k corresponde al valor medio (promedio) de las observaciones ubicadas
en las posiciones A y A + 1. Si A no es entero, el percentil k corresponde a la observación ubicada en la
posición entera siguiente.
Ejemplo:
Determinar los percentiles 25 y 60 de los siguientes datos: 3, 5, 5, 8, 12, 15, 21, 23, 25, 26, 29, 35. Entonces,
como la cantidad de datos es 12, se tiene n = 12.
Hay que obtener A, esto es:
𝑛 ∗ 𝑘 12 ∗ 25
𝐴= = =3
100 100
Es un valor entero, por lo tanto 𝑃25 es igual al promedio de las posiciones 3ª y 4ª.
Entonces:
5+8
𝑃25 = = 6,5
2
𝑛 ∗ 𝑘 12 ∗ 60
𝐴= = = 7,2
100 100
Donde:
𝐿í𝑚. 𝑖𝑛𝑓. = límite inferior de la clase percentil
𝑛 = tamaño de la población
𝑘 = percentil buscado
𝐹𝑖−1 = frecuencia absoluta acumulada anterior a la de la clase percentil
𝑓𝑖 = frecuencia absoluta puntual de la clase porcentual
𝐴 = amplitud
Ejemplo:
Cierto gerente de una empresa de construcción está interesado en averiguar los valores de venta que ofrece
la competencia en el sector. La información se resume en la siguiente tabla:
Solución:
a) Lo primero que hay que calcular es la clase percentil 85, es decir, el intervalo cuya frecuencia absoluta
acumulada contiene al 85% del número de empresas. La tabla se completa, entonces, con la columna
de las frecuencias absolutas acumuladas.
Ahora, al mirar la columna con los intervalos se puede notar que la clase percentil 85 es
40-45 (su 𝐹i contiene al 85% = 42,5 de la variable). Luego, de acuerdo a los datos:
Lím. inf. = 40
𝑛 = 50
𝑘 = 85
𝐹i−1 = 40
𝑓i = 6
𝐴=5
85
50 ∗ 100 − 40
𝑃85 = 40 + ( ) ∗ 5 = 42,08
6
b) Se tiene lo siguiente: el 30% de los mayores precios está al final de los intervalos, por lo que se puede
representar por el siguiente dibujo. Hay que imaginar que al interior del siguiente rectángulo los
datos están ordenados de menor a mayor.
Se sabe que todo el rectángulo corresponde al 100%, por lo cual la diferencia es del 70%. Así, el 30% de los
mayores precios está entre 𝑃70 y el valor más grande del último intervalo. Por lo que se debe ocupar la
fórmula de percentil,
Donde:
Reemplazando queda:
70
50 ∗ 100 − 21
𝑃70 = 35 + ( ) ∗ 5 = 38,68
19
Así, el 30% de los mayores precios se encuentra entre los 39 y 50 mil pesos.
c) El porcentaje de empresas que superan los $32.000. Se ocupa la misma fórmula, ya que es la única
herramienta: el dato 32 pertenece al intervalo del 30-35 por lo que esta sería la clase percentil.
Entonces se tiene: 𝑃𝑘 = 32. Se quiere encontrar k , por lo cual hay que despejar de la fórmula:
𝑘
50 ∗ 100 − 6
𝑃𝑘 = 32 → 30 + ( ) ∗ 5 = 32
15
𝑘
50 ∗ 100 − 6
( ) ∗ 5 = 32 − 30
15
𝑘
50 ∗ 100 − 6
( )∗5= 2
15
𝑘
50 ∗ −6 2
( 100 )=
15 5
𝑘 2
(50 ∗ − 6) = ∗ 15
100 5
𝑘
(50 ∗ − 6) = 6
100
𝑘
(50 ∗ )=6+6
100
𝑘 12
( )=
100 50
12 ∗ 100
𝑘=
50
𝑘 = 24
2.2. CUARTILES
Cuando se habla de cuartiles la definición se basa en los percentiles, ya que los cuartiles generan 3 puntos
de corte que dividen el conjunto de datos en cuatro grupos con la misma frecuencia. Dividen a la población
en 4 partes iguales. Son un caso especial de los percentiles, es decir: 𝑃25 = 𝑄1; 𝑃50 = 𝑄2 y 𝑃75 = 𝑄3.
El primer cuartil Q1 es el valor que corresponde al punto por debajo del cual se encuentra el 25% de las
observaciones. El segundo cuartil Q2 corresponde a la mediana, es decir separa el 50% superior de un
conjunto de observaciones, del 50% inferior. Y el tercer cuartil Q3 corresponde al punto que acumula al
75% de las observaciones.
Ejemplo:
Si se tiene datos no agrupados, dada la siguiente distribución en el número de hijos de 100 familias, calcular
sus cuartiles.
X 𝒇𝒊 𝑭𝒊
0 14 14
1 10 24
2 15 39
3 26 65
4 20 85
5 15 100
𝑛 100
El primer cuartil: = = 25 y como 𝐹i = 39 > 25 se tiene que el primer cuartil es 2.
4 4
2𝑛 200
El segundo cuartil: = = 50 y como 𝐹i = 65 > 50 se tiene que el segundo cuartil es 3.
4 4
3𝑛 300
El tercer cuartil: = = 75 y como 𝐹i = 85 >75 se tiene que el tercer cuartil es 4.
4 4
2.3. DECILES
Los deciles dividen a la población en 10 partes iguales. Se pueden obtener de la siguiente forma con la ayuda
de los percentiles:
𝑘∗𝑛
Primeramente, se busca la clase donde se encuentra , 𝑘 = 1,2,3, … 9
10
𝑘∗𝑛
− 𝐹𝑖
𝐷𝑘 = 𝑙𝑖𝑚. 𝑖𝑛𝑓, + 10 ∗𝐴
𝑓𝑖
Ejemplo:
fi Fi
40 -50 8 8
50 -60 10 18
60 -70 16 34
70 -80 14 48
80 -90 12 60
90 - 100 6 66
100 -110 4 70
Total 70
Solución:
a) Primer decil:
70 ∗ 1
=7
10
7−0
𝐷1 = 40 + ∗ 10 = 48,75
8
b) Cuarto decil:
70 ∗ 4
= 28
10
28 − 18
𝐷4 = 60 + ∗ 10 = 72,5
8
Es una representación gráfica de los datos que permite analizar conjuntamente una serie de medidas
numéricas, tales como el mínimo, el máximo, la mediana y los cuartiles (Qx). En este gráfico es posible
observar características de los datos como simetría y observaciones atípicas. Los pasos a seguir para la
construcción del box plot son los siguientes:
a) Ordenar los datos y obtener: mín., max., 𝑄1, 𝑄2 y 𝑄3.
b) Dibujar un rectángulo cuyos extremos sean 𝑄1, 𝑄3, e indicar 𝑄2 mediante una línea.
c) Indicar todos los datos que están fuera del intervalo admisible marcándolos como atípicos.
Ejemplo:
• Promedio (media):
= PROMEDIO (celda inicial : celda final)
• Moda:
= MODA (celda inicial : celda final)
• Mediana:
= MEDIANA (celda inicial : celda final)
• Cálculo de percentil
= PERCENTIL (celda inicial : celda final ; porcentaje)