Está en la página 1de 15

UC 1: ESTADÍSTICA DESCRIPTIVA Y CÁLCULO

DE PROBABILIDADES

ANÁLISIS EXPLORATORIO DE DATOS


MEDIDAS DE TENDENCIA CENTRAL, DE DISPERSIÓN

ANÁLISIS EXPLORATORIO DE DATOS


TABLAS DE FRECUENCIAS Y MEDIDAS DE TENDENCIA CENTRAL

ESTADISTICA
EDISON MORENO FABIÁN ORDÓÑEZ MARLON ARÉVALO
DEPARTAMENTO DE CIENCIAS EXACTAS - ESPE
CLASE # 1

CONTENIDO

Título Medidas Descriptivas – Medidas de tendencia central

Duración 2 horas

Información general Determinar medidas de tendencia central que permiten


describir el comportamiento de un grupo datos.

Objetivo Desarrollar en el estudiante la habilidad de diferenciar y


utilizar las medidas de tendencia central, para describir un
grupo de datos sean estos de una población o muestra y,
aplicarlas en ejercicios prácticos de la administración.

1
CLASE # 1

1. Tipo de variables

Variable cuantitativa: Son variables que se expresan numéricamente.


Variable continua: Pueden tomar un valor infinito de valores en un intervalo. Ejemplo el
tiempo utilizado en viajar de una ciudad a otra.
Variable discreta: Toman un valor finito de valores entre un intervalo de datos. Número de
artículos producidos.
Variable cualitativa: Son variables que expresan atributos o características.
Variable ordinal: Expresa diferentes niveles y orden, por ejemplo título, cargo que
desempeña, etc…
Variable nominal: Expresa una característica que lo diferencia: por ejemplo género, raza,
religión, etc…
2. Escalas de medida

2.1 Nominal
En esta escala se asigna un número a la característica, sin establecer orden o jerarquía. Así
por ejemplo si se analiza el sexo, masculino se podría asignar el 1 a masculino y 2 a femenino.
2.2 Ordinal
Permite ordenar a los atributos o características jerárquicamente. Por ejemplo, si se clasifica
un grupo de personas en base al nivel de instrucción académica, asignando 1 si no tiene
ninguna instrucción, 2 si tiene instrucción básica, 3 instrucción media, 4 instrucción de
pregrado, 5 instrucción de 4 nivel y 6 para doctorados o postdoctorados.
2.3 De Intervalo
Para este caso, los datos tienen las propiedades de los ordinales y la separación entre las
variables tiene sentido. El valor cero no indica la ausencia de la propiedad.
Por ejemplo, la temperatura media, en donde los valores que se miden permiten saber
mayor o menor temperatura, y las diferencias entre ellos deben ser tomadas en cuenta.
2.4 De Razón

En una escala de razón, los datos tienen todas las propiedades de los datos de intervalo, y la
proporción entre ellos tiene sentido. Para esto se requiere que el valor cero de la escala
indique la ausencia de la propiedad a medir. Por ejemplo el salario de una persona, y se le
compara con otra como un razón en donde se puede decir que la una gana el doble de la
otra o la cuarta parte, etc...

2
CLASE # 1

3. Tablas de frecuencias

La información recopilada de diferentes sucesos, puede ser ordenada, tabulada organizada e


interpretada a través de tablas denominadas de frecuencias.
Estas importantes tablas, presentan la frecuencia absoluta o el número de veces que un
dato se repite (fi), frecuencia relativa que relaciona a la frecuencia absoluta respectiva con el
𝑓
tamaño de la muestra (ℎ𝑖 = 𝑛𝑖 ), la frecuencia absoluta acumulada (F i) que se construye
sumando la frecuencia anterior y la frecuencia relativa acumulada (H i) similar a la anterior,
pero utiliza los datos de la frecuencia relativa; las frecuencias relativas, se puede también
expresar en porcentaje. En las frecuencias acumuladas, podemos observar que el último valor
será igual al tamaño de la muestra n o a 1 (100%) cuando son relativas y se denominan ojivas
cuando se suaviza la curva.
Ejemplo 1
La siguiente información se refiere al peso en onzas de 145 frascos de mermelada con su
respectiva frecuencia. Construir la tabla de frecuencias y los diagramas de barra.

xi fi Fi hi (%) Hi(%)
12 25 25 17.24 17.24
15 38 63 26.21 43.45
22 45 108 31.03 74.48
30 22 130 15.17 89.65
50 15 145 10.35 100
∑= 145 100

Frecuencia absoluta fi Gráfico de frecuencias


50 absolutas acumuladas Fi
40 200

30 150

20 100

10 50

0 0
12 15 22 30 50 12 15 22 30 50

3
CLASE # 1

Gráfico de frecuencias Gráfico de frecuencias


relativas hi (%) relativas acumuladas
35 Hi(%)
30
150
25
20
100
15
10 50
5
0 0
12 15 22 30 50 12 15 22 30 50

3.1 Medidas Descriptivas (de resumen)

En un grupo de datos cuyas características son numéricas y de nivel de medición de intervalo


o de razón, es necesario determinar qué valor es él que lo representa, estos únicos valores
describen esas características que poseen el grupo y en forma resumida.
Es importante saber que los datos recolectados para un estudio estadístico no son
generalmente constantes, es necesario determinar una medida o valor que nos indique y
resuma la variabilidad de estos datos y nos dé una referencia sobre alrededor de que valor
fluctúan.
Por otro lado, también es necesario conocer la simetría y la forma en la que los datos
generan al agruparse. Las medidas que permite describir estas características son las llamadas
medidas descriptivas y usualmente se encuadran en los siguientes cuatro tipos:

 Medidas de posición (o de tendencia central)


 Medidas de dispersión
 Medidas de simetría (sesgo)
 Medidas de forma (curtosis)

3.2 Medidas de Tendencia Central

Los estadísticos de ubicación o de tendencia central (también llamados promedios)


proporcionan una estimación de la puntuación típica, común o normal encontrada en una

4
CLASE # 1

distribución de puntuaciones en bruto (valor representativo del grupo). Este valor calculado
tiende a ubicarse en el centro de los datos
Es muy importante que, a más de saber determinar las medidas de tendencia central,
se les pueda dar una interpretación correcta de la información que éstas proporcionan al
grupo de datos.
Una primera medida es la media poblacional (µ) que es la suma de todos los valores
observados en la población dividido para el número de todos los datos en la población. La
media muestral (ẋ) o media aritmética es la suma de todos los valores observados de la
muestra dividido para el número de todos los datos en la muestra o tamaño muestral (es la
medida de tendencia central más utilizada). La media ponderada posee el mismo principio
que la media aritmética cuyos resultados son iguales, la diferencia entre ellas es que la
repetición de los datos en la media ponderada se le llama peso (frecuencia) y estas es muy
utilizada en datos agrupados.
El valor de la media aritmética pierde su representatividad cuando se ve afectada por
la presencia de uno o más valores sumamente grandes o pequeños (valores extremos o datos
atípicos). En tales casos, la medida de tendencia central más representativa es la mediana.
Otra medida de tendencia central que es utilizada es la media geométrica que resulta
útil para determinar el cambio promedio de porcentajes, razones, índices o tasas de
crecimiento. La media geométrica es la raíz enésima del producto de n datos.
La mediana es un valor que se ubica en el centro (medio) del grupo de datos, considera
su ubicación y subestima los valores de los datos; es decir la mediana una vez que se han
ordenado de menor a mayor, es decir la mediana se ubica 50% antes y 50% después de la
cantidad de los datos que conforman el grupo en el centro. Si el número de datos es par, la
mediana es la media aritmética de los dos valores centrales, pero si el número de datos es
impar, la mediana es el único dato central. Las principales propiedades de la mediana son que
no es influida por la presencia de valores extremos o atípicos y que es utilizada con los datos
de nivel ordinal o más altos.
La moda es el dato u observación que aparece con mayor frecuencia. En una
distribución puede haber una o más modas o no haber ninguna. La moda puede determinarse
para todos los niveles de datos y tiene la ventaja de que no influyen en ella los valores
extremos. Sin embargo, se usa menos que la media o la mediana, ya que en muchos casos
no hay moda o hay más de una.

5
CLASE # 1

Nota: si hay una sola moda es unimodal; si hay dos modas es bimodal y si tiene tres o más
modas es multimodal
3.3.1 Posición relativa de la media mediana y moda en una distribución

Si Media = Mediana = Moda en un grupo de datos, la distribución es simétrica. Si Media >


Mediana > Moda, la distribución es asimétrica positiva y tiene sesgo positivo. Si Moda >
Mediana > Media, la distribución es asimétrica negativa y tiene sesgo negativo.
A continuación, se detalla un ejemplo para un conjunto de datos no agrupados, que
son datos no organizados por medio de una distribución de frecuencias.

EJERCICIO 1
Con el siguiente grupo de datos que se refieren a la variable edad (en años):
Xi = 8, 2, 3, 5, 4, 2, 6, 3, 1, 3, 13, 4
Calcular la media aritmética, la media geométrica, la mediana y la moda. Indicar además
si hay un valor extremo y cuál es el tipo de sesgo de la distribución.
1. Media aritmética:
∑𝑥 8+2+…+4 54
x̅ = = = 12 = 4.5
n 12

2. Media geométrica:
𝑛
𝑛
MG = √∏ 𝑥𝑖
¡=1

12 12
𝑀𝐺 = √8x2x3x5x4x2x6x3x1x3x13x4 = √5391360 = 3.639

3. Mediana:

Para determinar la mediana se debe ordenar los datos

Xi = 1,2,2,3,3,3,4,4,5,6,8,13

Como n = 12 es par, la mediana es la media de las dos puntuaciones centrales 6 y 7


ubicación, es decir:
3+4
𝑀𝑒 = = 3.5
2

6
CLASE # 1

4. Moda, el valor con la frecuencia mayor o el valor que más se repite


Md = 3
5. Valor extremo: 13 (claramente separado de los demás valores, atípico)
6. Tipo de sesgo: Media > Mediana > Moda, el sesgo es positivo o a la izquierda.

Para datos agrupados en una distribución de frecuencias, en el cálculo de la media


aritmética intervienen el producto de la frecuencia y el punto medio de cada intervalo de
clase como valor representativo de la clase, denominado marca de clase.
Para agrupar datos, después de recopilar la información, se calcula el ancho del
intervalo, viene dado por:
𝑉𝑚á𝑥 − 𝑉𝑚í𝑛
𝑐=
𝑛
donde n es el número de subintervalos, deben estar entre 5 ≤ n ≤15.
Las fórmulas que se utilizarán para este tipo de datos son:

Media aritmética:

𝑓1 𝑥1 + 𝑓2 𝑥2 + … + 𝑓2 𝑥𝑛 ∑𝑛1 𝑥𝑖 𝑓𝑖
𝑥̅ = =
𝑛 𝑛

Donde: xi = punto medio o marca de clase.


fi = frecuencia

Mediana:
𝑛
− 𝐹𝑎
𝑀𝑒 = 𝐿𝑚 + [ 2 ]𝑤
𝑓

Lm es el límite inferior de la clase mediana


n/2, es el semi tamaño de la muestra
Fa, es la frecuencia absoluta acumulada anterior a la de la clase mediana
f, es la frecuencia absoluta de la clase mediana
w, es la amplitud del intervalo

7
CLASE # 1

Moda:
Se la puede aproximar por el punto medio de la clase modal. Un valor más preciso se
obtiene aplicando la siguiente fórmula:

 d1 
Moda  Lmo    w
 d1  d 2 

Donde:
Lmo = límite inferior de la clase modal
d 1 = (frecuencia de la clase modal) – (frecuencia de la clase anterior)

d 2 = (frecuencia de la clase modal) – (frecuencia de la clase posterior)

w = es el ancho del intervalo de clase.

3.3 Otras medidas descriptivas

Cuartiles, deciles, quintiles y percentiles

Son valores que se ubican en ciertas posiciones que fueron obtenidas al dividir al
grupo de datos en “n” partes iguales para obtener estos valores es necesario ordenar el grupo
de datos de menor a mayor y a partir del dato menor se ubican estas medidas.
Cuartiles (Q) dividen al grupo de datos en cuatro partes iguales y se obtienen Q 1 se
ubica al 25% antes y 75% después, Q2 se ubica al 50% antes y 50% después y el Q3 se ubica al
75% antes y 25% después.
Deciles (D) dividen al grupo de datos en diez partes iguales y se obtienen D 1 se ubica
al 10% antes y 90% después, D2 se ubica al 20% antes y 80% después, D5 se ubica al 50% antes
y 50% después; los demás deciles se los obtiene siguiendo el mismo proceso.
Quintiles dividen al grupo de datos en 5 partes iguales y los percentiles (P) dividen al
grupo de datos en cien partes iguales e igual interpretación que los anteriores.
Para calcular la posición de un cuartil, decil, quintil o percentil se usa la fórmula:
𝑟
𝐿 = (𝑛 + 1)
𝑠

8
CLASE # 1

donde L es la ubicación de cualquier cuantil y n número total del grupo de datos. No confundir
la posición del cuantil con su valor.
𝑟 1
Para la posición del primer cuartil: 𝑠 = 4
𝑟 3
Para el tercer cuartil: 𝑠 = 4
𝑟 3
Para el tercer decil: 𝑠 = 10
𝑟 7
Para el séptimo decil: 𝑠 = 10
𝑟 4
Para el 4 quintil: 𝑠 = 5
𝑟 90
Para el 90 percentil: 𝑠 = 100

Si L es entero, el cuantil es el dato de la posición L. Si L no es entero, por ejemplo, si L = 7.62


es de un percentil 25 se encontrará a 0.62 de la distancia entre el séptimo y el octavo dato.
Su valor se calcula del siguiente modo:
P25 = Dato7 + 0.62 (Dato8 – Dato7)
EJERCICIO 2
Calcular el primer y tercer cuartiles de los siguientes datos:
xi = 8.4 8.8 9.2 10 11.3 12.5 12.9 13.6 14 15
n = 10
25
𝐿 = (10 + 1) = 2.75
100
Es la posición de Q1, mientras que su valor es:
Q1 = Dato2 + 0.75 (Dato3 – Dato2)
𝑄1 = 8.8 + 0.75(9.2 − 8.8) = 9.2
Para el tercer cuartil,
3
𝐿 = (10 + 1) = 8.25
4
Es la posición de Q3, mientras que su valor es
Q3 = Dato8 + 0.25 (Dato9 – Dato8)
𝑄3 = 13.6 + 0.25(14 − 13.6) = 13.7

9
CLASE # 1

La mediana es Q2 se calcula del mismo modo que los otros cuartiles.

Si los datos son agrupados, la fórmula de cálculo, en forma general, es:


𝑟
(𝑠 ) 𝑛 − 𝐹−1
𝐹 = 𝐿−1 + [ ]𝑐
𝑓

Para el caso del tercer cuartil la fórmula, es:


3
(4) 𝑛 − 𝐹−1
𝑄3 = 𝐿−1 + [ ]𝑐
𝑓

Para el caso de 90 percentil la fórmula, es:


90
(100) 𝑛 − 𝐹−1
𝑃90 = 𝐿−1 + [ ]𝑐
𝑓

EJERCICIO 3

La siguiente información ha sido recopilada relativa al precio de algunos artículos de una


ferretería y su frecuencia. Construir una tabla de frecuencias, las medidas de tendencia
central y los respectivos histogramas de las frecuencias.
En la tabla de frecuencias, aparece una columna nueva con respecto a la tabla del
ejercicio 1, que es la “MARCA DE CLASE” (xi), así por ejemplo del intervalo [30, 40[ su
30+40
marca de clase es = 35
2

xi fi Fi hi (%) Hi (%) xi.fi fi(xi-x)2


[0, 10[ 5 14 14 11,67 11,67 70 7843,76
[10, 20[ 15 18 32 15,00 26,67 270 3363,64
[20, 30[ 25 30 62 25,00 51,67 750 404,07
[30, 40[ 35 36 98 30,00 81,67 1260 1442,48
[40, 50[ 45 12 110 10,00 91,67 540 3200,03
[50, 60] 55 10 120 8,33 100 550 6932,69
∑= 120 100 3440 23186,67

14 ∗ 5 + 18 ∗ 15 + 30 ∗ 25 + 36 ∗ 35 + 12 ∗ 45 + 10 ∗ 55 3340
𝑥̅ = = = 28.67
120 120

10
CLASE # 1

𝑛
− 𝐹−1 60 − 32
𝑀𝑒 = 𝐿−1 + [2 ] 𝑐 = 20 + [ ] 10 = 29.33
𝑓 30

𝐷1 36 − 30
𝑀𝑑 = 𝐿−1 + [ ] 𝑐 = 30 + [ ] 10 = 32
𝐷1 + 𝐷2 (36 − 30) + (36 − 12)
1 1 3 3
( ) 𝑛 = ( ) 120 = 30 ( ) 𝑛 = ( ) 120 = 90
4 4 4 4
1
(4) 𝑛 − 𝐹−1 30 − 14
𝑄1 = 𝐿−1 + [ ] 𝑐 = 10 + [ ] ∗ 10 = 18.89
𝑓 18

3
(4) 𝑛 − 𝐹−1 90 − 62
𝑄3 = 𝐿−1 + [ ] 𝑐 = 30 + [ ] ∗ 10 = 37.78
𝑓 36

𝐼𝑄𝑅 = 37.78 − 18.89 = 18.89

Histograma de frecuencia Histograma de


absoluta frecuencia absoluta
40 acumulada
Frecuencia absoluta

30 150
Frecuencia absoluta

20 100
acumulada

10 50

0 0
[0, 10[ [10, [20, [30, [50, [60, [0, [10, [20, [30, [50, [60,
20[ 30[ 40[ 60[ 70] 10[ 20[ 30[ 40[ 60[ 70]

Histograma de Histograma de
frecuencia relativa frecuencia relativa
35,00 acumulada
Frecuencia relativa

30,00
120,00
25,00
Frecuencia relativa

100,00
20,00 80,00
acumulada

15,00 60,00
10,00 40,00
5,00 20,00
0,00 0,00
[0, [10, [20, [30, [50, [60, [0, [10, [20, [30, [50, [60,
10[ 20[ 30[ 40[ 60[ 70] 10[ 20[ 30[ 40[ 60[ 70]

11
CLASE # 1

12
CLASE # 1

REFERENCIAS BIBLIOGRAFICAS

1. Galindo, E., Estadística Métodos y Aplicaciones, Prociencia Editores, tercera edición,


Quito-Ecuador, 2015
2. Levin R., Rubin D., Estadística para Administración y Economía, Pearson Educación de
México S.A. de C.V., séptima edición, 2010
3. Lind, D., Marchal, W., Wathen, S., Estadística aplicada a los negocios y la Economía,
McGraw-Hill Interamericana Editores S.A. de C.V., décimoséptima edición, México, 2019
4. Webster, A., Estadística para la Administración y Economía, séptima edición, McGraw-Hill
Interamericana, Colombia, 2000
5. https://mauricioanderson.com/escalas-de-medicion-estadistica/
6. https://www.youtube.com/watch?v=Ecd3BIcJ1yA
7. https://www.youtube.com/watch?v=0DA7Wtz1ddg
8. https://www.youtube.com/watch?v=biIhZa6jRMg

13
CLASE # 1

14

También podría gustarte