Está en la página 1de 27

Guía de estudio.

Estadística Descriptiva
Profesor Ricardo Montoya González

Bloque IV. Estadística descriptiva 3


Medidas de tendencia central y de dispersión 3
Medidas de tendencia central 3
Medidas de dispersión 5
Medidas de tendencia central para datos no agrupados 7
Media 7
Mediana 7
Moda 8
Ejemplo media, mediana y moda para datos no agrupados 8
Medidas de dispersión para datos no agrupados 10
Rango 10
Varianza 11
Desviación estándar 12
Ejemplo varianza, desviación estándar y rango para datos no agrupados 13
Medidas de tendencia central para datos agrupados 14

1
Media 14
Mediana 14
Moda 15
Ejemplo Media, mediana y moda para datos agrupados 16
Medidas de dispersión para datos agrupados 19
Varianza poblacional 19
Varianza muestral 20
Desviación estándar poblacional 20
Desviación estándar muestral 21
Ejemplo medidas de dispersión para datos agrupados 21
Cuantiles 24
Cuartil 24
Decil 25
Percentil 25
Ejemplo cuantiles 25
Fuentes de consulta 27

2
Bloque IV. Estadística descriptiva
La estadística descriptiva es la técnica matemática que obtiene, organiza, presenta
y describe un conjunto de datos con el propósito de facilitar el uso, generalmente
con el apoyo de tablas, medidas numéricas o gráficas.

Estas técnicas son utilizadas en el proceso de investigación, en la etapa donde el


investigador necesita procesar y analizar los datos recolectados en dicho estudio.

Medidas de tendencia central y de dispersión

Medidas de tendencia central

La medida de tendencia central, parámetro de tendencia central o medida de


centralización es un número situado hacia el centro de la distribución de los valores
de una serie de observaciones (medidas), en la que se encuentra ubicado el
conjunto de los datos.

Nos ayudan a identificar de manera más simple el comportamiento general de los


datos.

Las medidas de tendencia central son medidas estadísticas que pretenden resumir
en un solo valor a un conjunto de valores. Representan un centro en torno al cual
se encuentra ubicado el conjunto de los datos. Existen tres tipos de medidas de
tendencia central, los cuales se presentan a continuación:

 Media: La media es el valor promedio de un conjunto de datos numéricos,


calculada como la suma del conjunto de valores dividida entre el número total
de valores. Gráficamente, representa exactamente la mitad de todos los
datos, cómo se muestra en la siguiente figura:

3
 Moda: La moda es el valor con mayor frecuencia en una de las distribuciones
de datos. Gráficamente lo podemos observar de la siguiente manera, dónde
la moda es la altura repetida de las personas:

 Mediana: La mediana representa el valor de la variable de posición central


en un conjunto de datos ordenados, se puede observar gráficamente en la
siguiente figura, dónde al ordenar a los individuos por estaturas el que se
encuentre justo a la mitad representará a la mediana:

En conjunto las medidas de tendencia central se pueden representar en las


siguientes gráficas:

4
Dónde moda representa la mayor frecuencia de los datos, la mediana se muestra
justo a la mitad del conjunto de datos ordenados y la media recopila todos los datos
y se localiza justo a la mitad de ellos

Medidas de dispersión

Las medidas de dispersión en cambio miden el grado de dispersión de los valores


de la variable. Dicho en otros términos las medidas de dispersión pretenden evaluar
en qué medida los datos difieren entre sí. De esta forma, ambos tipos de medidas
usadas en conjunto permiten describir un conjunto de datos entregando información
acerca de su posición y su dispersión.

las medidas de dispersión es el grado en que una distribución se estira o exprime.

Es una medida que es cero si todos los datos son iguales y aumenta a medida que
los datos se vuelven más diversos.

Las medidas de dispersión se contrastan con la ubicación o la tendencia central, y


juntas son las propiedades más utilizadas de las distribuciones.

Si no nos apoyáramos de las medias de dispersión y sólo de las medidas de


tendencia centran no conoceríamos el error o dispersión asociada al estudio, por
ejemplo, si se evaluaran las estaturas de niños de primero de primaria y de sexto
de primaria existiría una media de altura, pero los datos estarán muy alejados de la
media, este fenómeno se puede apreciar en la siguiente gráfica, donde la media
esta justo a la mitad pero los datos están muy alejados de ellas, por ende se dice
que están muy dispersos

Datos alejados de la media


120
100
80
60
40
0 2 4 6 8 10 12

5
Existen varias medidas de dispersión para las principales son las siguientes:

 Desviación Estándar: La desviación estándar o desviación típica es una


medida que ofrece información sobre la dispersión media de una variable. La
desviación estándar es siempre mayor o igual que cero. En la gráfica
siguiente se puede apreciar la desviación con respecto a la media, siendo los
porcentajes mostrados, el porcentaje de los datos en el rango dado, por
ejemplo, el 68.3% de los datos se encuentran entre -1 y 1:

 Varianza: La varianza es una medida de dispersión que representa la


variabilidad de una serie de datos respecto a su media. Formalmente se
calcula como la suma de los residuos al cuadrado divididos entre el total de
observaciones.
 Rango: El rango es un valor numérico que indica la diferencia entre el valor
máximo y el mínimo de una población o muestra estadística.

Los procedimientos para obtener las medidas estadísticas difieren levemente


dependiendo de la forma en que se encuentren los datos. Si los datos se encuentran
ordenados en una tabla estadística diremos que se encuentran “agrupados” y si los
datos no están en una tabla hablaremos de datos “no agrupados”.

6
Medidas de tendencia central para datos no agrupados

A continuación, estudiaremos cómo calcular las medidas de tendencia central para


datos NO agrupados.

Media

La media es el valor promedio de un conjunto de datos numéricos, calculada como


la suma del conjunto de valores dividida entre el número total de valores. A
continuación, se muestra su fórmula:

Dónde:

• 𝑥̅ = Media
• 𝑥𝑖 =Dato i
• 𝑛 = Número de dato

Mediana

La mediana de un conjunto de números es el número medio en el conjunto (después


que los números han sido arreglados del menor al mayor) o, si hay un número par
de datos, la mediana es el promedio de los dos números medios.

7
Moda

En la estadística, la moda es el valor con mayor frecuencia en una de las


distribuciones de datos. Esto va en forma de una columna cuando encontremos dos
modas, es decir, dos datos que tengan la misma frecuencia absoluta máxima.

Ejemplo media, mediana y moda para datos no agrupados

Teniendo el siguiente conjunto de datos encuentre:

a) Media
b) Mediana
c) Moda

{3, 10, 36, 255, 79, 24, 5, 8}.

Solución

El primer paso será ordenar los datos de menor a mayor y para un mejor manejo de
los datos serán organizados en forma de tabla, la cual se muestra a continuación:

Número Variable
de dato (𝑥𝑖 )

1 3

2 5

3 8

4 10

5 24

6 36

8
7 79

8 255

Observamos que tenemos un total de 8 datos.

a) Media

Para calcular la media realizaremos la suma de todos los datos para posteriormente
dividirlos entre el número total de datos, el procedimiento se muestra a continuación:

3 + 5 + 8 + 10 + 24 + 36 + 79 + 255
𝑥̅ = = 52.5
8

Dando como resultado una media de 52.5

b) Mediana

Ya que los datos fueron ordenados de menor a mayor, se puede encontrar la


mediana simplemente buscando el dato que este justo a la mitad, ya que tenemos
un número par de datos (8) la mediana será el promedio de los datos que se
encuentren a la mitad, los cuáles se muestran marcados en amarillo en la tabla
siguiente:

Número Variable
de dato (𝑥𝑖 )

1 3

2 5

3 8

4 10

9
5 24

6 36

7 79

8 255

Por lo tanto, la mediana será el promedio del dato 4 y 4l dato 5, dando como
resultado 13

c) Moda

Recordando que la moda es el dato que más se repite en nuestro conjunto y no hay
ninguno que se repita en los daos del problema no existe una moda.

Medidas de dispersión para datos no agrupados

Las medidas de dispersión tratan, a través del cálculo de diferentes fórmulas, de


arrojar un valor numérico que ofrezca información sobre el grado de variabilidad de
los datos. Es decir que tan alejados están de la tendencia central.

En este tema se estudiará cómo calcular las medidas de dispersión para datos NO
agrupados.

Rango

El rango es un valor numérico que indica la diferencia entre el valor máximo y el


mínimo de los datos. Su fórmula es:

𝑅 = 𝑀𝑎𝑥𝑥 − 𝑀í𝑛𝑥

• 𝑅= Rango

10
• 𝑀𝑎𝑥𝑥 = Valor Máximo

• 𝑀í𝑛𝑥 = Valor mínimo

• 𝑥= Variable

En la gráfica siguiente se puede observar que la diferencia entre valor máximo y el


mínimo es el rango:

Varianza

La varianza es una medida de dispersión que representa la variabilidad de una serie


de datos respecto a su media. Su fórmula es la siguiente:

𝑛
∑𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝜎2 =
𝑛

Donde:

• 𝜎= Varianza
• 𝑥𝑖 = Cualquier variable

11
• 𝑥̅ = Media
• 𝑛= Número de datos

Desviación estándar

La desviación estándar es otra medida que ofrece información de la dispersión


respecto a la media. La desviación estándar es la raíz cuadrada de la varianza.

∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝜎=√
𝑛

Donde:

 𝜎=Desviación estándar
 𝑥𝑖 = Cualquier variable
 𝑥̅ = Media
 𝑛= Número de datos

12
Ejemplo varianza, desviación estándar y rango para datos no
agrupados

Se tiene los siguientes datos; 2, 4, 6 y 8 que corresponden a una población, calcular:

a) Varianza
b) Desviación estándar
c) Rango

Solución

a) Varianza

El primer paso será encontrar la media, ya que es requerida para encontrar la


varianza, el procedimiento se muestra a continuación:

2+4+6+8
𝑥̅ = =5
4

Una vez encontrada la media se procederá a calcular la varianza, el procedimiento


se muestra a continuación:

(2 − 5)2 + (4 − 5)2 + (6 − 5)2 + (8 − 5)2


𝜎2 = =5
4

Dando como resultado una varianza de 5.

b) Desviación estándar

La desviación estándar es simplemente la raíz cuadrada de la varianza.

𝜎 = √5 = 2.236

Obteniendo así una desviación estándar de 2.236.

13
c) Rango

Para encontrar el rango hay que encontrar la diferencia entre el valor máximo y el
valor mínimo, a continuación, se presenta el procedimiento:

𝑅 = 8−2 =6

Dando como resultado un rango de 6

Medidas de tendencia central para datos agrupados

En este tema se estudiará cómo calcular las medidas de tendencia central para
datos agrupados.

Media
𝑛
𝑥𝑖 ⋅ 𝑓𝑖
𝑥̅ = ∑
𝑛
𝑖=1

Donde:

• 𝑥̅ = Media
𝐿𝑖 +𝐿𝑠
• 𝑥𝑖 = Marca de clase i (𝑥𝑖 = )
2

• 𝑛 = Número de datos
• 𝑓𝑖 = Frecuencia de la variable i

Mediana

Para estimar la mediana, hay que seguir 2 pasos:

1) Encontrar el intervalo en el que se encuentra la mediana usando la fórmula:

14
𝑛+1
𝑝𝑜𝑠𝑖𝑐𝑖ó𝑛 =
2

2) Usar la fórmula de la mediana:

𝑛
− 𝐹𝑖−1
𝑀𝑒 = 𝐿𝑖 + 2 ⋅ 𝐴𝑖
𝑓𝑖

Donde:

• 𝐿𝑖 = Límite inferior del intercalo en el cual se encuentra la mediana

• 𝑛= Número de datos

• 𝐹𝑖−1 = Frecuencia acumulada del intervalo anterior al que se encuentra


la mediana.

• 𝐴𝑖 = Amplitud del intervalo en el que se encuentra la mediana.

• 𝑓𝑖 = Frecuencia absoluta del intervalo en el que se encuentra la


mediana.

Moda

Para estimar la moda, se siguen los siguientes pasos:

1) Encontrar el intervalo en el cual se encuentra la moda, que es el intervalo con


mayor frecuencia absoluta.

2) Usar la siguiente fórmula para estimar el valor de la moda:

𝑓𝑖 − 𝑓𝑖−1
𝑀𝑜 = 𝐿𝑖 + ⋅𝐴
𝑓𝑖 − 𝑓𝑖−1 + 𝑓𝑖 − 𝑓𝑖+1 𝑖

Donde:

15
• 𝐿𝑖 = Límite inferior del intervalo en el cual se encuentra la moda.

• 𝑓𝑖−1= Frecuencia absoluta del intervalo anterior en el que se encuentra


la moda.

• 𝑓𝑖+1= Frecuencia absoluta del intervalo siguiente en el que se


encuentra la moda.

• 𝑓𝑖 = Frecuencia absoluta del intervalo en el que se encuentra la moda.

• 𝐴𝑖 = Amplitud del intervalo en el que se encuentra la moda.

Ejemplo Media, mediana y moda para datos agrupados

Utilizando los datos agrupados mostrados en la siguiente tabla encontrar:

a) Media
b) Mediana
c) Moda

Intervalos Marca de clase Frecuencia (𝒇𝒊 ) Frecuencia


(𝒙𝒊 ) acumulada (𝑭𝒊 )

[0-4) 2 3 3

[4-8) 6 5 8

[8-12) 10 6 14

[12-16) 14 4 18

[16-20) 19 3 21

16
TOTAL 21

Solución

En este ejemplo. La marca de clase, así como la frecuencia acumulada ya está dada

a) Media

Utilizando la fórmula de la media para datos agrupados, que es la sumatoria del


producto de la variable por la frecuencia entre el número total de datos, llegando
asía la siguiente expresión:

𝑥1 ⋅ 𝑓2 + 𝑥2 ⋅ 𝑓2 + 𝑥3 ⋅ 𝑓3 + 𝑥4 ⋅ 𝑓4 + 𝑥5 ⋅ 𝑓5
𝑥̅ =
𝑛

Sustituyendo valores se obtiene lo siguiente:

2 ⋅ 3 + 6 ⋅ 5 + 10 ⋅ 6 + 14 ⋅ 4 + 19 ⋅ 3
𝑥̅ = = 9.809
21

Encontrando así la media de 9.809

b) Mediana

Para encontrar la mediana hay que seguir dos pasos, el primero es encontrar el
intervalo en el que se encuentra, utilizando la siguiente expresión:

𝑛+1
𝑝𝑜𝑠𝑖𝑐𝑖ó𝑛 =
2

Sustituyendo los valores del problema se obtiene lo siguiente

17
21 + 1
𝑝𝑜𝑠𝑖𝑐𝑖ó𝑛 = = 11
2

Así encontramos que la mediana se encuentra en el intervalo que contiene al 11.


Una vez encontrada la posición pasamos al paso 2 que es utilizar la fórmula de la
mediana, que es la siguiente

𝑛
− 𝐹𝑖−1
𝑀𝑒 = 𝐿𝑖 + 2 ⋅ 𝐴𝑖
𝑓𝑖

Sustituyendo los valores del problema se obtiene lo siguiente

21
−8
𝑀𝑒 = 8 + 2 ⋅ 4 = 9.667
6

Obteniendo así la mediana que tiene un valor de 9.667.

c) Moda

Al igual que con la mediana se requieren dos pasos para encontrar la moda, el
primero es encontrar el intervalo en el cual se encuentra la moda, es decir el
intervalo con mayor frecuencia absoluta, remarcado en amarillo en la siguiente
tabla.

Intervalos Marca Frecuencia Frecuencia


de clase (𝒇𝒊 ) acumulada
(𝒙𝒊 ) (𝑭𝒊 )

[0-4) 2 3 3

[4-8) 6 5 8

18
[8-12) 10 6 14

[12-16) 14 4 18

[16-20) 19 3 21

Una vez que se ha identificado el intervalo con una mayor frecuencia absoluta se
pasa al paso dos para encontrar la moda, utilizando la siguiente fórmula:

𝑓𝑖 − 𝑓𝑖−1
𝑀𝑜 = 𝐿𝑖 + ⋅𝐴
𝑓𝑖 − 𝑓𝑖−1 + 𝑓𝑖 − 𝑓𝑖+1 𝑖

Sustituyendo los valores del problema y del intervalo en el que se encuentra la moda
se obtiene la siguiente expresión:

6−5
𝑀𝑜 = 8 + ⋅ 4 = 9.333
6−5+6−4

Obteniendo una moda de 9.333.

Medidas de dispersión para datos agrupados

Aquí se estudiará cómo calcular las medidas de dispersión para datos agrupados.

Varianza poblacional
𝑛
∑𝑖=1 𝑓𝑖 (𝑥𝑖 − 𝑥̅ )2
𝜎2 =
𝑛

Donde:

• fi= frecuencia absoluta de cada clase, es decir, el número de elementos que


pertenecen a dicha clase.

19
• xi= marca de clase. Es el punto medio del límite inferior y del límite superior
𝐿𝑖 +𝐿𝑠
(𝑥𝑖 = ).
2

• σ2=varianza de la población.

• x̄ = media.

Varianza muestral

En los casos en los que no se puede calcular la varianza de toda la población se


extrae una muestra representativa de esta y se le conoce como muestra, en estos
casos se utiliza la varianza muestral y por ende la siguiente fórmula:

𝑛
∑𝑖=1 𝑓𝑖 (𝑥𝑖 − 𝑥̅ )2
𝑠2 =
𝑛−1

Donde:

• fi: frecuencia absoluta de cada clase, es decir, el número de elementos que


pertenecen a dicha clase.

• xi: marca de clase. Es el punto medio del límite inferior y del límite superior
𝐿𝑖 +𝐿𝑠
(𝑥𝑖 = ).
2

• 𝑠 2 : varianza de la muestra.

• s: desviación estándar de la muestra.

• x̄ : media.

Desviación estándar poblacional

20
𝜎 = √𝜎 2

Donde:

• 𝜎 2 =varianza de la población.
• 𝜎= desviación estándar de la población.

Desviación estándar muestral

s = √𝑠 2

Donde:

• 𝑠 2 = varianza de la muestra.
• s= desviación estándar de la muestra.

Ejemplo medidas de dispersión para datos agrupados

Utilizando los siguientes datos agrupados de una población de niños calculas:

a) Varianza.
b) Desviación estándar.

Edad Frecuencia
(𝒇𝒊 )
(años)

[0-2) 7

21
[2-4) 8

[4-6) 8

[6-8] 7

TOTAL 30

Solución

Antes de empezar a realizar el problema es importante recalcar que se esta


analizando una población completa, NO una muestra.

El primer paso será calcular la marca de clase para cada intervalo, esto utilizando
la siguiente expresión:

𝐿𝑖 + 𝐿𝑠
𝑥𝑖 =
2

Sustituyendo los límites intervalo podremos obtener la primera marca de clase:

0+2
𝑥1 = =1
2

Repitiendo el procedimiento anterior para cada intervalo se calculan en resto de las


marcas de clase, obteniendo así la siguiente tabla:

Edad Frecuencia Marca de


(𝒇𝒊 ) clase (𝒙𝒊 )
(años)

[0-2) 7 1

22
[2-4) 8 3

[4-6) 8 6

[6-8] 7 7

TOTAL 30

Después se calcula la media población que es la siguiente:

𝑛
𝑥𝑖 ⋅ 𝑓𝑖
𝑥̅ = ∑
𝑛
𝑖=1

Obteniendo una media de 4 años.

Una vez encontrada la media se procederá al cálculo de la varianza, utilizando la


fórmula siguiente:

𝑓1 (𝑥1 − 𝑥̅ )2 + 𝑓2 (𝑥2 − 𝑥̅ )2 + 𝑓3 (𝑥3 − 𝑥̅ )2 𝑓4 (𝑥4 − 𝑥̅ )2


2
𝜎 =
𝑛

Sustituyendo los valores del problema y la media se obtiene la siguiente expresión:

2
7(1 − 4)2 + 8(3 − 4)2 + 8(5 − 4)2 + 7(7 − 4)2
𝜎 = = 4.73
30

Obteniendo una varianza de 4.73 años.

Por último, realizaremos el cálculo de la desviación estándar, calculando la raíz


cuadrada de la varianza, lo cuál se muestra en la siguiente ecuación:

23
𝜎 = √𝜎 2 = √4.73 = 2.175

Encontrando una desviación estándar de 2.175 años.

Cuantiles

Los cuantiles son puntos tomados a intervalos regulares de la función de distribución


de una variable aleatoria.

Un cuantil es aquel punto que divide la función de distribución de una variable


aleatoria en intervalos regulares.

Por tanto, no es más que una técnica estadística para separar los datos de una
distribución. Se debe cumplirse que los grupos sean iguales. Por eso, existen
diversos tipos de cuantil, en función del número de particiones que hacen.

Los cuantiles más utilizados son:

 Cuartil.
 Decil.
 Precentil.

Cuartil

Separa los valores en cuatro grupos iguales y existen tres cuartiles. El cuartil uno
(Q1) son los datos menores y el tres (Q3) los mayores. Por otro lado, el cuartil dos
(Q2) se corresponde con la mediana que es un estadístico de posición que divide la
distribución de los datos a la mitad. Los valores del cuantil serían 0.25 (Q1), 0.5(Q2)
y 0.75 (Q3).

24
Decil

En este caso se dividen en diez partes y, por tanto, hay nueve deciles. Sus valores
serían de 0.1 a 0.9.

Percentil

Esta es una variante en que la distribución se divide en cien partes iguales. Sus
valores van de 0.01 a 0.99.

Ejemplo cuantiles

Calcular los cuartiles la siguiente serie:

3,5,2,7,6,4,9, 1

Solución

Lo que sebe hacer para encontrar los cuartiles es ordenarlos de menor a mayor
para después dividir el número total de datos en 4 partes iguale y si son un número
se calculará el promedio de las partes, esto se muestra a continuación:

1, 2, 3, 4, 5, 6, 7, 9

2+3 2+3
𝑄1 = 𝑄3 =
2 2

4+5
𝑀𝑒 =
2

25
Obteniendo así que 𝑸𝟏 =2.5, 𝑴𝒆 = 𝟒. 𝟓 y 𝑸𝟑 = 𝟔. 𝟓

26
Fuentes de consulta
Google Arts y Culture. (s/a). Estadística descriptiva. Disponible en:
https://artsandculture.google.com/entity/m028sz?hl=es

Quevedo, F. Estadística aplicada en salud. Medidas de Tendencia Central y


Dispersión. Chile: Medwave. Disponible en:
https://www.medwave.cl/link.cgi/descripcion.act

José Francisco López (07 de octubre, 2019). Medidas de tendencia central.


Economipedia.com

La Suma de Todos Comunidad de Madrid. Estadística Básica. Madrid. Disponible


en:
http://www.madrid.org/cs/StaticFiles/Emprendedores/Analisis_Riesgos/pages/pdf/e
stadisticas_es.pdf

27

También podría gustarte