Está en la página 1de 14

26-11-2020 ESTADÍSTICA

Semana 2

Nayadeth Muñoz Olivares


CENTRO DE CARRERAS TÉCNICAS UNIVERSIDAD DE ANTOFAGASTA
INDICE

INTRODUCCIÓN ................................................................................................................................... 2
1. MEDIDAS DE TENDENCIA CENTRAL ............................................................................................ 3
1.1. MEDIA ARITMÉTICA ............................................................................................................ 3
1.2. MEDIANA ............................................................................................................................. 5
1.3. MODA .................................................................................................................................. 6
2. MEDIDAS DE POSICIÓN ............................................................................................................... 7
2.1. PERCENTILES ........................................................................................................................ 7
2.2. CUARTILES ......................................................................................................................... 11
2.3. DECILES .............................................................................................................................. 12
2.4. BOX PLOT (O DIAGRAMA DE CAJA Y BIGOTES) ................................................................ 13

INTRODUCCIÓN

La estadística nace de las necesidades reales del hombre. La variada y cuantiosa información relacionada
con este, y que es necesaria para la toma de decisiones, hace que la estadística sea hoy una importante
herramienta de trabajo.
En esta semana se aprenderá a sacar conclusiones generales de la población con la obtención de datos
característicos (medidas de tendencia central y posición) que permitirán tomar medidas en beneficio de la
misma.

1. MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central tienen como objetivo determinar dónde se concentran los datos (cuál es
el centro de un histograma de frecuencias absolutas o frecuencias relativas). Entre las medidas de tendencia
central que se presentarán están: la media aritmética, la moda, la mediana y los percentiles. Antes de
comenzar es importante considerar la diferencia entre dos conceptos: datos agrupados y datos no
agrupados.
• Datos agrupados: son aquellos cuya representación es a través de intervalos o rangos de clases. Por
lo corresponden a la variable continua.
• Datos no agrupados: son aquellos que son contables, como puede ser variable discreta.

1.1. MEDIA ARITMÉTICA


La media aritmética o promedio se define como el centro de gravedad de los datos. Para obtenerla, va a
depender del tipo de variable:
Para datos no agrupados, la fórmula es la siguiente:
∑𝑋𝑖
=
𝜒 𝑛
Siendo:

: Variable
𝜒

n: tamaño de la población
𝑋𝑖 = y {x1, x2, x3,…, Xn} el conjunto de valores que toma la variable.

Ejemplo:
Se tiene la siguiente variable:
X = notas de pertenecientes a Juan Pérez: 6,3 – 5,8 – 7,0 – 3,3 – 4,0 – 5,1 – 6,3 – 6,5
Luego, el promedio es:

∑𝑋𝑖 6,5 + 6,3 + 5,1 + 4,0 + 3,3 + 7,0 + 5,8 + 6,3


= = = 5,5
𝜒 𝑛 8

La interpretación sería: el promedio de notas de Juan Pérez es 5,5.


Para datos agrupados, se tiene que ver la tabla de frecuencias. Pero primero se deberá entender lo que es
la marca de clase que se define como la mitad o punto medio del intervalo. La definición de este concepto
es relevante, ya que es utilizado para la fórmula del promedio de una variable continua.
La fórmula para la media si los datos están agrupados es:

∑(𝑀𝑐 ∗ 𝑓𝑖 )
=
𝜒 𝑛

Donde:
Mc = marca de clase (punto medio de cada intervalo)
𝑓𝑖 = frecuencia absoluta
n = tamaño de la población
Ejemplo:
Calcular la media aritmética o promedio de empleados que trabajan en una fábrica.
Sea X = cantidad de trabajadores de una fábrica.

Minutos de 𝒇𝒊 Marca de clase (𝑴𝒄 ∙ 𝒇𝒊)


atraso (Mc)
0-10 60 5 60 * 5 = 300
10-20 80 15 80 * 15 = 1.200
20-30 30 25 30 * 25 = 750
30-40 20 35 20 * 35 = 700
40-80 10 60 10 * 60 = 600
Total 200 3.550

Luego,
∑(𝑀𝑐 ∗ 𝑓𝑖 ) 3.550
= = = 17,7
𝜒 𝑛 200

La cantidad promedio de trabajadores es de 18 aproximadamente.

1.2. MEDIANA
En un conjunto de observaciones ordenadas de menor a mayor, la mediana divide a la muestra o la población
en dos partes iguales y las agrupa en: 50% menor a esa observación y un 50% mayor a esa observación.
En el caso de datos no agrupados, para obtener la mediana se debe ordenar de menor a mayor los datos y
ubicar el dato central (a la izquierda del dato central debe haber la misma cantidad de datos que a la
derecha).
Ejemplo:
Se tiene la siguiente variable:
X = notas de estadística pertenecientes a Juan Pérez: 6,4 – 5,8 – 3,3 – 4,0 – 5,1 – 6,3 – 6,5.
Al ordenar el conjunto, se obtiene: 3,3 – 4,0 – 5,1 – 5,8 – 6,3 – 6,4 – 6,5.
Así, la mediana o Me = 5,8 (a la izquierda hay tres datos al igual que a la derecha).
Se debe tomar en cuenta que si el total de los datos es impar, la mediana está al centro, es decir, la cantidad
de datos a la izquierda coincide con la cantidad de datos de la derecha. Y si el conjunto de datos es par, se
consideran los dos centrales y se saca el promedio (es decir, sumar y dividir en dos).
X = notas de Estadística de Juana Estela: 6,3 – 5,7 – 3,0 – 4,5 – 7,0 –5,6 – 6,6 – 6,5
Al ordenar el conjunto, se obtiene: 3,0 – 4,5 – 5,6 – 5,7 – 6,3 – 6,5 – 6,6 – 7,0.
12
Datos centrales: 5,7 + 6,3 = = 6,0
2

Para el caso de datos agrupados, se necesita la tabla de frecuencias. Entonces, la clase mediana se puede
definir como el intervalo cuya frecuencia absoluta acumulada (Fi) contiene al 50% de la población. El límite
inferior de un intervalo es el número más pequeño. La fórmula es:

𝑛
− 𝐹𝑖−1
𝑀𝑒 = 𝐿í𝑚. 𝑖𝑛𝑓. + (2 )∗𝐴
𝑓𝑖

Donde:
Lím. inf. = límite inferior del intervalo
n = tamaño población
𝐹i−1 = frecuencia absoluta acumulada anterior a la clase mediana
𝑓i = frecuencia absoluta puntual de la clase mediana
A = amplitud

Ejemplo:

Si X = minutos de atraso de los trabajadores de una empresa.

Minutos
𝒇𝒊 𝑭𝒊
de atraso
0-10 60 60
10-20 80 140
20-30 30 170
30-40 20 190
40-80 10 200

Primero hay que encontrar la mediana. Según la definición, se debe determinar qué frecuencia absoluta
acumulada contiene al 50% de la población. El 50% de 200 es 100, ya que 200 * 0,5 = 100, por lo tanto la
clase mediana es el intervalo 10-20, ya que 140 es la primera Fi que contiene al 50% de la población. El límite
inferior es 10, la 𝑓𝑖 = 80 y la amplitud es 10. Reemplazando se tiene:

𝑛 200
− 𝐹𝑖−1 − 60
𝑀𝑒 = 𝐿í𝑚. 𝑖𝑛𝑓. + ( 2 ) ∗ 𝐴 = 10 + ( 2 ) ∗ 10 = 15
𝑓𝑖 80

Luego, el valor central de esta variable es 15.

1.3. MODA

Esta se define como el valor observado con mayor frecuencia. Además, puede existir más de un valor con
igual número de frecuencia, por lo tanto, se tendría una distribución con varias modas.

En el caso de datos no agrupados no se tiene fórmula, pues solo se debe identificar el valor que más se repite
dentro de una distribución.

En el caso de datos agrupados, se define la clase modal como el intervalo que tiene más datos. Y se obtiene
con la siguiente fórmula:

𝑑1
𝑀𝑜 = 𝐿𝑖𝑚. 𝑖𝑛𝑓. + ( )∗𝐴
𝑑1 + 𝑑2

Donde:
𝑑1 = 𝑓i − 𝑓i−1 = frecuencia absoluta puntual de la clase modal, menos la frecuencia acumulada puntual
anterior.
𝑑2 = 𝑓i − 𝑓i+1 = frecuencia absoluta puntual de la clase modal, menos la frecuencia absoluta puntual
siguiente.
Ejemplo:
Sea X = minutos de atraso de los alumnos de Estadística.

Minutos
𝒇𝒊 𝑭𝒊
de atraso
0-5 6 6
5-10 3 9
10-15 8 17
15-20 2 19
20-30 1 20
Total 20

Entonces, la clase modal es 10-15, ya que es la que tiene el número mayor. Su límite inferior es 10,

𝑑1 = 𝑓i − 𝑓i−1 = 8 − 3 = 5, 𝑑2 = 𝑓i − 𝑓i+1 = 8 − 2 = 6 y la A = 5. Luego se tiene:

𝑑1 5
𝑀𝑜 = 𝐿𝑖𝑚. 𝑖𝑛𝑓. + ( ) ∗ 𝐴 = 10 + ( ) ∗ 5 = 12,27
𝑑1 + 𝑑2 5+6

Así, los minutos de atraso que más se repiten son 12 aproximadamente. Es decir, los alumnos de

Estadística cuando llegan atrasados demoran la mayoría de las veces unos 12 minutos.

Observación: si en los datos no están agrupados y existe más de un valor con la misma frecuencia máxima,
todos serán también moda y se dice que la distribución de la frecuencia es bimodal (si son dos modas),
trimodal (si son tres modas), etc.

2. MEDIDAS DE POSICIÓN
Son aquellas que dividen a la población en grupos de cantidades iguales. Estas medidas permiten conocer
otros puntos característicos de la distribución que no son los valores centrales. Algunas son las siguientes:
cuartiles, percentiles, deciles y quintiles.

2.1. PERCENTILES

Cuando se tiene una muestra de valores perteneciente a datos no agrupados se pueden ordenar los valores
de menor a mayor, y de acuerdo a la posición de cada valor numérico se puede determinar el porcentaje de
elementos (valores) que son menores o mayores a un determinado punto de corte, por lo tanto, cuando se
habla de percentiles se está dividiendo la muestra de datos en 99 puntos de corte que dividen a la población
en 100 partes de igual frecuencia.

Entonces se tiene:

𝑛∗𝑘
𝐴=
100
Si A es entero, entonces el percentil k corresponde al valor medio (promedio) de las observaciones ubicadas
en las posiciones A y A + 1. Si A no es entero, el percentil k corresponde a la observación ubicada en la
posición entera siguiente.

Ejemplo:
Determinar los percentiles 25 y 60 de los siguientes datos: 3, 5, 5, 8, 12, 15, 21, 23, 25, 26, 29, 35. Entonces,
como la cantidad de datos es 12, se tiene n = 12.
Hay que obtener A, esto es:

𝑛 ∗ 𝑘 12 ∗ 25
𝐴= = =3
100 100

Es un valor entero, por lo tanto 𝑃25 es igual al promedio de las posiciones 3ª y 4ª.

Posición 1ª 2ª 3ª 4ª 5ª 6ª 7ª 8ª 9ª 10ª 11ª 12ª


Datos 3 5 5 8 12 15 21 23 25 26 29 35

Entonces:

5+8
𝑃25 = = 6,5
2

Para obtener el 𝑃60, se tiene:

𝑛 ∗ 𝑘 12 ∗ 60
𝐴= = = 7,2
100 100

El entero siguiente a 7,2 es 8, luego la 8ª posición es 23.


Para datos agrupados se debe buscar la clase percentil, que es aquel intervalo cuya frecuencia absoluta
acumulada (𝐹i) contiene al porcentaje asociado.
𝑘
𝑛 ∗ 100 − 𝐹𝑖−1
𝑃𝑘 = 𝐿𝑖𝑚. 𝑖𝑛𝑓. + ( )∗𝐴
𝑓𝑖

Donde:
𝐿í𝑚. 𝑖𝑛𝑓. = límite inferior de la clase percentil
𝑛 = tamaño de la población
𝑘 = percentil buscado
𝐹𝑖−1 = frecuencia absoluta acumulada anterior a la de la clase percentil
𝑓𝑖 = frecuencia absoluta puntual de la clase porcentual
𝐴 = amplitud
Ejemplo:
Cierto gerente de una empresa de construcción está interesado en averiguar los valores de venta que ofrece
la competencia en el sector. La información se resume en la siguiente tabla:

Precio (miles Número de


de pesos) empresas
25-30 6
30-35 15
35-40 19
40-45 6
45-50 4

De acuerdo a estos datos:

a) Determine el percentil 85.


b) Determine entre qué valores está el 30% de los mayores precios.
c) ¿Qué cantidad de empresas superan los $32.000 en el precio de venta del producto?

Solución:
a) Lo primero que hay que calcular es la clase percentil 85, es decir, el intervalo cuya frecuencia absoluta
acumulada contiene al 85% del número de empresas. La tabla se completa, entonces, con la columna
de las frecuencias absolutas acumuladas.

Precio (miles de pesos) 𝒇𝒊 𝑭𝒊


25-30 6 6
30-35 15 21
35-40 19 40
40-45 6 46
45-50 4 50
Así, se tiene que el 85% de 50 es 42,5.

Ahora, al mirar la columna con los intervalos se puede notar que la clase percentil 85 es

40-45 (su 𝐹i contiene al 85% = 42,5 de la variable). Luego, de acuerdo a los datos:

Lím. inf. = 40
𝑛 = 50
𝑘 = 85
𝐹i−1 = 40
𝑓i = 6
𝐴=5

Reemplazando en la fórmula queda:

85
50 ∗ 100 − 40
𝑃85 = 40 + ( ) ∗ 5 = 42,08
6

b) Se tiene lo siguiente: el 30% de los mayores precios está al final de los intervalos, por lo que se puede
representar por el siguiente dibujo. Hay que imaginar que al interior del siguiente rectángulo los
datos están ordenados de menor a mayor.

Se sabe que todo el rectángulo corresponde al 100%, por lo cual la diferencia es del 70%. Así, el 30% de los
mayores precios está entre 𝑃70 y el valor más grande del último intervalo. Por lo que se debe ocupar la
fórmula de percentil,

Donde:

La clase percentil 70 es 35-40, pues el 70% de 50 es 35 (su 𝐹𝑖 de la población).

El Lím. inf. = 35; 𝑛 = 50; 𝑘 = 70; 𝐹i−1 = 21; 𝑓i = 19 y 𝐴 = 5

Reemplazando queda:

70
50 ∗ 100 − 21
𝑃70 = 35 + ( ) ∗ 5 = 38,68
19

Así, el 30% de los mayores precios se encuentra entre los 39 y 50 mil pesos.

c) El porcentaje de empresas que superan los $32.000. Se ocupa la misma fórmula, ya que es la única
herramienta: el dato 32 pertenece al intervalo del 30-35 por lo que esta sería la clase percentil.
Entonces se tiene: 𝑃𝑘 = 32. Se quiere encontrar k , por lo cual hay que despejar de la fórmula:
𝑘
50 ∗ 100 − 6
𝑃𝑘 = 32 → 30 + ( ) ∗ 5 = 32
15

𝑘
50 ∗ 100 − 6
( ) ∗ 5 = 32 − 30
15

𝑘
50 ∗ 100 − 6
( )∗5= 2
15

𝑘
50 ∗ −6 2
( 100 )=
15 5

𝑘 2
(50 ∗ − 6) = ∗ 15
100 5

𝑘
(50 ∗ − 6) = 6
100

𝑘
(50 ∗ )=6+6
100

𝑘 12
( )=
100 50

12 ∗ 100
𝑘=
50

𝑘 = 24

Por lo que el precio de $32.000 representa el 24%.

2.2. CUARTILES
Cuando se habla de cuartiles la definición se basa en los percentiles, ya que los cuartiles generan 3 puntos
de corte que dividen el conjunto de datos en cuatro grupos con la misma frecuencia. Dividen a la población
en 4 partes iguales. Son un caso especial de los percentiles, es decir: 𝑃25 = 𝑄1; 𝑃50 = 𝑄2 y 𝑃75 = 𝑄3.
El primer cuartil Q1 es el valor que corresponde al punto por debajo del cual se encuentra el 25% de las
observaciones. El segundo cuartil Q2 corresponde a la mediana, es decir separa el 50% superior de un
conjunto de observaciones, del 50% inferior. Y el tercer cuartil Q3 corresponde al punto que acumula al
75% de las observaciones.
Ejemplo:
Si se tiene datos no agrupados, dada la siguiente distribución en el número de hijos de 100 familias, calcular
sus cuartiles.

X 𝒇𝒊 𝑭𝒊
0 14 14
1 10 24
2 15 39
3 26 65
4 20 85
5 15 100

𝑛 100
El primer cuartil: = = 25 y como 𝐹i = 39 > 25 se tiene que el primer cuartil es 2.
4 4

2𝑛 200
El segundo cuartil: = = 50 y como 𝐹i = 65 > 50 se tiene que el segundo cuartil es 3.
4 4

3𝑛 300
El tercer cuartil: = = 75 y como 𝐹i = 85 >75 se tiene que el tercer cuartil es 4.
4 4

2.3. DECILES

Los deciles dividen a la población en 10 partes iguales. Se pueden obtener de la siguiente forma con la ayuda
de los percentiles:

𝑃10=𝐷1 ; 𝑃20 = 𝐷2 ; 𝑃30 = 𝐷3 ; 𝑃40 = 𝐷4 ; 𝑃50 = 𝐷5 ; 𝑃60 = 𝐷6 ; 𝑃70 = 𝐷7 ; 𝑃80 = 𝐷8 ; 𝑃90 = 𝐷9

𝑘∗𝑛
Primeramente, se busca la clase donde se encuentra , 𝑘 = 1,2,3, … 9
10

𝑘∗𝑛
− 𝐹𝑖
𝐷𝑘 = 𝑙𝑖𝑚. 𝑖𝑛𝑓, + 10 ∗𝐴
𝑓𝑖

Ejemplo:

Considerando la siguiente tabla, calcule el primer y cuarto decil:

fi Fi
40 -50 8 8
50 -60 10 18
60 -70 16 34
70 -80 14 48
80 -90 12 60
90 - 100 6 66
100 -110 4 70
Total 70

Solución:
a) Primer decil:
70 ∗ 1
=7
10
7−0
𝐷1 = 40 + ∗ 10 = 48,75
8

b) Cuarto decil:

70 ∗ 4
= 28
10
28 − 18
𝐷4 = 60 + ∗ 10 = 72,5
8

2.4. BOX PLOT (O DIAGRAMA DE CAJA Y BIGOTES)

Es una representación gráfica de los datos que permite analizar conjuntamente una serie de medidas
numéricas, tales como el mínimo, el máximo, la mediana y los cuartiles (Qx). En este gráfico es posible
observar características de los datos como simetría y observaciones atípicas. Los pasos a seguir para la
construcción del box plot son los siguientes:
a) Ordenar los datos y obtener: mín., max., 𝑄1, 𝑄2 y 𝑄3.

b) Dibujar un rectángulo cuyos extremos sean 𝑄1, 𝑄3, e indicar 𝑄2 mediante una línea.

c) Indicar todos los datos que están fuera del intervalo admisible marcándolos como atípicos.
Ejemplo:

Para profundizar en este tema revisar el siguiente video:


Diagrama box plot: https://www.youtube.com/watch?v=CGMl02C_LEU&feature=youtu.be
https://vimeo.com/195966024/7c0ca07e36
Fórmulas funciones de Excel:

• Promedio (media):
= PROMEDIO (celda inicial : celda final)

• Moda:
= MODA (celda inicial : celda final)

• Mediana:
= MEDIANA (celda inicial : celda final)

• Cálculo de percentil
= PERCENTIL (celda inicial : celda final ; porcentaje)

• Cálculo del % de la muestra


= RANGO.PERCENTIL (celda inicial : celda final ; dato)

También podría gustarte