Está en la página 1de 65

Estadística Descriptiva Univariada

Francisco González
Introducción

¿Qué es la estadística?

Para definir la estadística en un sentido amplio nos


referiremos a ella como el arte y la ciencia de reunir datos,
analizarlos, presentarlos y finalmente interpretarlos. Esta
información reunida proporciona a directivos,
administrativos o a cualquier persona que deba tomar
decisiones, una mejor comprensión con respecto al
entorno al que se enfrentará para así actuar de manera
informada.
Conceptos importantes

Estadística descriptiva:
Se refiere a la recopilación y descripción de un grupo de
datos.

Población:
Es el conjunto total de individuos, elementos u objetos, que
cuentan con la o las características comunes de interés,
para la realización del estudio.

Muestra:
Subconjunto representativo de la población.
Conceptos importantes

Variable estadística

Al analizar una determinada población o muestra,


observamos ciertas características o propiedades.

Por ejemplo, de los estudiantes de este curso, se puede


estudiar: la edad, nivel socioeconómico, número de
hermanos, número de hijos, etc.

A cada una de estas características, le llamamos variable.


Clasificación de las variables

Las variables se pueden clasificar en:

Variables cualitativas:
Se les conoce también como atributos, e indican una
propiedad o cualidad de la característica que se está
estudiando. Estas variables tienen como característica que
no pueden ser medidas, se expresan con conceptos o
palabras, pero nunca con números.

Por ejemplo: género, profesión, nivel de estudios, color de


pelo, etc.
Clasificación de las variables

Las variables cualitativas, se subdividen en:

Nominales:
Cuando la medición de las cualidades no presenta un orden
jerárquico.
Ejemplos: estado civil, profesión, género.

Ordinales:
Cuando la medición de las cualidades presentan un orden
jerárquico descendente o ascendente.
Ejemplos: nivel de satisfacción de los clientes, nivel de estudios.
Clasificación de las variables

Variables cuantitativas:
Son características susceptibles de ser medidas, es decir,
se les puede asignar una cantidad. Estas variables,
generalmente se definen comenzando por “número de…”

Por ejemplo: número de hijos, número de integrantes de la


familia, número de productos bancarios, etc.
Clasificación de las variables

Las variables cuantitativas, se subdividen en:

Discreta:
Cuando la variable toma sus valores en número enteros.
Ejemplos: número de hijos, número de protestos.

Continua:
Cuando la variable toma sus valores en un rango de los
números reales.
Ejemplos: ingreso familiar, estatura.
Distribución de frecuencias

Una vez obtenido los datos de una variable, se puede


tabular dicha información en tablas de frecuencias, y se
componen de la siguiente manera:

Variables de estudio:
Es de relevancia definir la variable que se quiere tabular
considerando los posibles valores que pueda tomar, en el
caso de datos no agrupados la utilizada es la variable
cuantitativa discreta.
Distribución de frecuencias

Frecuencia absoluta:
Es el número de repeticiones de cualquier suceso, se
denomina como f𝑖 , y se debe contestar ¿cuántas
observaciones hay en cada clase?

Frecuencia relativa:
Es el valor de la frecuencia relativa de cada clase dividida
por el número de observaciones totales, correspondiente al
n, se denomina como ℎ𝑖 , y se debe contestar ¿qué
proporción de observaciones hay en la clase?
Distribución de frecuencias

Frecuencia absoluta acumulada:


Es la suma acumulada de las frecuencias absolutas de las
clases anteriores más la clase corriente, se denomina como
F𝑖 , y se debe contestar ¿cuántos datos son menores que la
clase en análisis?

Frecuencia relativa acumulada:


Es la suma acumulada de las frecuencias relativas de las
clases anteriores más la clase corriente y se denomina como
𝐻𝑖 , y responde a la pregunta ¿qué proporción o parte de un
total de datos son menores que la clase en análisis?
Distribución de frecuencias
Ejemplo 1:
• Un estudio determina la cantidad de pololos (as) y ex pololos o
pololas de los estudiantes de estadística, obteniéndose los
siguientes datos:
• 20 – 12 – 5 – 10 – 12 – 5 – 1 – 5 – 10 – 5 – 20 – 12 – 5 – 10 – 12 – 5
– 1 – 5 – 10 – 5 ; N=20
Cantidad de fi Fi hi Hi hi% Hi%
pololos o ex (fi/n)
pololos (as)
1 2 2 2/20=0,1 0,1 10% 10%

5 8 10 0,4 0,5 40% 50%

10 4 14 0,2 0,7 20% 70%

12 4 18 4/20 = 0,2 0,9 20% 90%

20 2 20 0,1 1 10% 100%


Ejercicio distribución de frecuencias
En una clase de 30 alumnos se ha preguntado el número de hermanos
que tienen, el resultado ha sido el siguiente:
1-1-0-1-2-1-5-3-5-2-0-3-0-1-1-2-3-4-4-2-1-1-
12-0-3-1-1-2-1

fi Fi hi Hi hi% Hi%
(fi/n)
Distribución de frecuencias con datos
agrupados en intervalos
 La distribución de frecuencias agrupadas o tabla con datos agrupados
se emplea si las variables toman un número grande de valores o la
variable es continua.

Se agrupan los valores en intervalos que tengan la misma amplitud


denominados clases. A cada clase se le asigna su frecuencia
correspondiente.

[a , b[ ; a: Limite inferior; b: Límite superior; a < b. Ej.: [4,6[ [6, x[

Marca de clase (mi): Es el punto medio de cada intervalo


([Límite inferior + límite superior] / 2)

Ej: (4+6) / 2 = 5
Distribución de frecuencias con datos
agrupados en intervalos

 Construcción de los intervalos:

• Cantidad de intervalos: y el resultado se aproxima por


exceso.

• Rango: Diferencia entre el número mayor y el menor de


los datos

• Tamaño de cada intervalo: Rango / Cantidad de


intervalos. Y el resultado se utiliza tal cual o bien se
aproxima por exceso.
Distribución de frecuencias con datos
agrupados en intervalos
Los siguientes datos corresponden a las horas extras que realizan
mensualmente los trabajadores de una empresa de
telecomunicaciones.

¿Cuál es la población de estudio?


• Los 40 trabajadores de una empresa de telecomunicaciones
¿Cuál es la variable de estudio?
• Las horas extras mensuales
¿Cuál es la clasificación de la variable de estudio?
• Cuantitativa continua
Distribución de frecuencias con datos
agrupados en intervalos
 Armar la tabla de frecuencias correspondiente:

• Cantidad de intervalos:

• Rango: 13,5 – 1 = 12,5.

• Tamaño del intervalo:


Distribución de frecuencias con datos
agrupados en intervalos
Horas fi Fi hi Hi hi% Hi% mi
extras fi/N
Distribución de frecuencias con datos
agrupados en intervalos
Horas fi Fi hi Hi hi% Hi% mi
extras fi/N

[1,3[ 9 9 0,225 0,225 22,5% 22,5% 2


[3, 5[ 9 18 0,225 0,45 22,5% 45% 4
[5,7[ 5 23 0,125 0,575 12,5% 57,5% 6
[7,9[ 4 27 0,1 0,675 10% 67,5% 8
[9,11[ 6 33 0,15 0,825 15% 82,5% 10
[11,13[ 6 39 0,15 0,975 15% 97,5% 12
[13,15] 1 40 0,025 1 2,5% 100% 14
• ¿Qué porcentaje de trabajadores realiza entre 7 y 11 horas extras?
Resp. 25%

• ¿Cuántos trabajadores realizan a lo menos 5 horas extras?


Resp. 22 trabajadores

• Determine e interprete h4.


Resp. 0,1; 4 de 40 trabajadores realiza entre 7 y 9 horas extras.
Representación gráfica de la información

Los gráficos estadísticos nos transmiten la información


presentada en las tablas de frecuencia de modo más
expresivo, y solo con un golpe de vista nos permite
entender de qué se nos habla, observar las características
más importantes, incluso obtener alguna conclusión sobre
el comportamiento de la muestra donde se está realizando
el estudio.
Representación gráfica de la información
Gráfico de barras

Consideremos el número de estudiantes matriculados en tres especialidades de


administración en el año 2000:
Representación gráfica de la información
Gráfico circular o de torta

Consideremos el número de estudiantes matriculados en tres


especialidades de administración en el año 2000:
Representación gráfica de la información

Histograma

Consideremos un estudio de la longitud de espigas en un predio de la


Región del Bío Bío:
Representación gráfica de la información

Polígono de frecuencias:

Es el gráfico de líneas de la frecuencia absoluta, que tiene las clases


en el eje horizontal, los puntos se unen por líneas rectas.
Representación gráfica de la información

Ojiva

Consideremos un estudio de la longitud de espigas en un predio de la


Región del Bío Bío:
Medidas de tendencia central

Media Aritmética o promedio: Un valor que representa al


general de los datos, que toma a todos los datos y los
divide por la cantidad total de datos.
σ 𝑛𝑖=1 𝑥𝑖
𝑥ҧ=
𝑛
Ejemplo, promedio de años 10, 18, 20, 26, 30, 26, 20 18

10 + 18 + 20 + 26 + 30 + 26 + 20 + 18
𝑥ҧ= = 21
8
Medidas de tendencia central

Media aritmética en tablas de frecuencia:


Medidas de tendencia central
Medidas de tendencia central
Ejercicio:
Los siguientes datos corresponden a los sueldos en miles de pesos
que reciben un grupo de empleados de la empresa de peluquerías
“Contigo Aprendo”
Variable (xi) Frecuencia absoluta Marca de clase
(fi) (mi)

[300,350[ 4  

[350,400[ 5  

[400,450[ 7  

[450,500[ 3  

[500,550[ 9  

[550,600[ 2  

[600,650] 4  
Medidas de tendencia central
Variable (xi) Frecuencia absoluta Marca de clase
(fi) (mi)

[300,350[ 4 325
[350,400[ 5 375
[400,450[ 7 425
[450,500[ 3 475
[500,550[ 9 525
[550,600[ 2 575
[600,650] 4 625

• Determinar e interpretar la media

• Media (aritmética o promedio): 469,1176471


• Al multiplicar por 1000 =469117,671 (Recuerde que son pesos)
• En general el grupo de trabajadores de la empresa de peluquería
Contigo Aprendo recibe un sueldo de $469.118.-
Medidas de tendencia central
• Moda (Mo):
Es el valor que más se repite o la frecuencia mayor.
Un conjunto de datos puede ser unimodal (una moda), bimodal (dos
modas), multimodal (más de dos modas), amodal (no existe moda)
Ejemplo 1:
2 – 5 – 7 – 2 – 5 – 9 – 3 – 2 – 9 – 10 – 2 – 3 – 5
Frecuencia modal (la cantidad de veces que se repite el valor de la
moda) y la moda (la variable que más se repite)
Datos Frecuencia

Unimodal. Dónde la moda es el 2, ya


2 4
3 2
que se repite 4 veces (frecuencia
5 3 modal)
7 1
9 2
10 1
Medidas de tendencia central
Ejemplo 2:
2 – 5 – 7 – 2 – 5 – 9 – 3 – 2 – 9 – 10 – 3 – 5
Datos Frecuenci
a

2 3
3 2
5 3
7 1
9 2
10 1

Bimodal con moda o Mo =


2y5
Medidas de tendencia central
Ejemplo 3:
2 – 5 – 7 – 2 – 5 – 9 – 3 – 2 – 9 – 10 – 3 – 5 – 9
Datos Frecuenci
a

2 3
3 2
5 3
7 1
9 3
10 1

Multimodal con moda o Mo = 2,


5y9
Medidas de tendencia central
Ejemplo 4:
2 – 5 – 7 – 2 – 5 – 9 – 3 – 2 – 9 – 10 – 3 – 5 – 9 – 3 – 7 – 7 – 10 – 10

Datos Frecuenci
a

2 3
3 3
5 3
7 3
9 3
10 3

No existe
moda
Medidas de tendencia central
Ejemplo 5:
1–2–3–4–5
Datos Frecuencia

1 1
2 1
3 1
4 1
5 1

No existe
moda
Medidas de tendencia central
Medidas de tendencia central
Medidas de tendencia central
Ejercicio:
Los siguientes datos corresponden a los sueldos en miles de pesos
que reciben un grupo de empleados de la empresa de peluquerías
“Contigo Aprendo”
Variable Frecuencia Marca de
Determinen e interpreten la moda.
(xi) absoluta clase
(fi) (mi)

[300,350[ 4 325
[350,400[ 5 375
[400,450[ 7 425
[450,500[ 3 475
[500,550[ 9 525
El sueldo más recurrente o frecuente del
grupo de trabajadores es de $523.077.-
[550,600[ 2 575
[600,650] 4 625
Medidas de tendencia central
Mediana (Me):
Es el valor central de la muestra o población que divide al
conjunto de datos ordenados (de menor a mayor) en dos
partes iguales, separándolos en el 50% menor y el 50%
mayor.
1) Datos sin agrupar en tablas: Ordenar los datos de
menor a mayor y luego buscar la posición central.
Medidas de tendencia central
Ejemplo:

El 50% menor de los datos se encuentra hasta 26, mientras que el 50%
mayor de los datos se encuentra desde el 26.
Medidas de tendencia central
Ejemplo:

El 50% menor de los datos se encuentra hasta 27, mientras que el 50%
mayor de los datos se encuentra desde el 27.
Medidas de tendencia central
2) Los datos están agrupados en tablas sin intervalos:

Se debe calcular el Fi, luego el “n” se divide en 2 y se ubica el primer valor del Fi que
lo contenga (que sea mayor o igual), finalmente la variable que le corresponde es la
mediana.
Medidas de tendencia central
3) Los datos están agrupados en tablas con intervalos:

• Se debe calcular el Fi, luego el “n” se divide en 2 y se ubica el primer

valor del Fi que lo contenga (que sea mayor o igual), finalmente una vez

encontrado el intervalo modal se hace el cálculo de la siguiente fórmula:


Medidas de tendencia central
Ejemplo:

Como el 17 es el que contiene a la posición 16, la mediana va a estar en el intervalo


[6, 8[; (intervalo mediano o clase mediana)
Medidas de tendencia central
Ejercicio:
Determine e interprete la mediana en el siguiente caso:
Los siguientes datos corresponden a los sueldos en miles de pesos que
reciben un grupo de empleados de la empresa de peluquerías “Contigo
Aprendo”

Como el 19 es el que contiene a la posición 17, la


mediana va a estar en el intervalo [450, 500[;
(intervalo mediano o clase mediana)
Medidas de tendencia central
Ejercicio:
Los siguientes datos corresponden a las calificaciones obtenidas en la
primera prueba por un curso de estadística.
Calificaciones fi Fi mi Determine e interprete:
[1,2[ 6     La media aritmética o
[2,3[ 4     promedio; la moda y la
[3,4[ 5     mediana
[4,5[ 12    
[5,6[ 9    
[6,7] 8    
  N=44    
Medidas de tendencia central
Medidas de tendencia central
Medidas de tendencia central
Medidas de posición

Son valores que dividen al 100% de los datos de la muestra o


población en distintas partes iguales (Datos ordenados de menor a
mayor).

 Quintiles (Ci): Es dividir en 5 partes iguales (cada parte tiene un 20% es


acumulado)
 Cuartiles (Qi): Es dividir en 4 partes iguales (cada parte tiene un 25% es
acumulado)
 Deciles (Di): Es dividir en 10 partes iguales (cada parte tiene un 10% es
acumulado)
 Percentil (Pi): Es dividir en 100 partes iguales (cada parte tiene un 1% es
acumulado)
Medidas de posición
1) Los datos están agrupados en tablas sin intervalos: Se debe calcular el Fi, luego

el “i*n” se divide en 100 y se ubica el primer valor del F i que lo contenga (que sea mayor

o igual), finalmente la variable que le corresponde es la mediana.


Medidas de posición

2) Los datos están agrupados en tablas con intervalos: Se debe calcular el


Fi, luego el “i*n” se divide en 100 y se ubica el primer valor del Fi que lo
contenga (que sea mayor o igual), finalmente una vez encontrado el intervalo
correspondiente al percentil pedido se hace el cálculo de la siguiente fórmula:

𝑖∗𝑛
−𝐹
100 (𝑖−1)
𝑃𝑖 = 𝐿𝑖 + ∗𝐴
𝑓𝑖
Medidas de posición
Ejemplo: Determine el percentil 35

Como el 17 es el que contiene a la posición 16, la mediana va a estar en el intervalo [6, 8[;
(intervalo mediano o clase mediana)
Medidas de posición
Ejercicio:
Medidas de dispersión

Se encargan del análisis de los datos y su comparación respecto a la media

aritmética, determinando las distancias promedias que existen entre cada dato y la

media.

Si las distancias promedias son lejanas a cero, el grupo va a ser más heterogéneo,

mientras que si las distancias son más cercanas a cero, el grupo será más

homogéneo.

Los estadígrafos más usuales que


permiten medir la dispersión en datos
univariados son la varianza, la desviación
estándar y el coeficiente de variación.
Medidas de dispersión
Varianza:

Determina las distancias promedias cuadradas entre cada dato y la media. La unidad de
medida está en unidades cuadradas.
Medidas de dispersión
Medidas de dispersión
Desviación estándar:

Determina las distancias promedias entre cada dato y la media. La unidad de medida es la misma
que la variable de estudio.
Medidas de dispersión
Coeficiente de variación:
Entrega el porcentaje de variación del conjunto de datos respecto a la media aritmética.
Medidas de dispersión

Ejemplo:

Calcular las medidas de dispersión como si fuese poblacional y muestral.


xi fi mi mi2 fi*mi fi*mi2

[2,4[ 4 3      
[4,6[ 6 5      
[6,8[ 7 7      
[8,10[ 2 9      
[10,12[ 1 11      
[12,14[ 8 13      
[14,16] 4 15      
Suma n=32        
Medidas de dispersión
Medidas de dispersión
Medidas de dispersión
Medidas de dispersión
Medidas de dispersión
Ejercicio:

También podría gustarte