Está en la página 1de 46

Análisis exploratorio de datos.

Lorena Brun González


2023
Ramas de la estadística

Descriptiva Inferencial

Recopila, organiza,  Consiste en llegar a obtener


presenta, analiza e conclusiones o
interpreta datos de manera generalizaciones que
tal que describa fácil y sobrepasan los límites de
rápidamente las los conocimientos aportados
características esenciales por un conjunto de datos.
de dichos datos mediante Busca obtener información
el empleo de métodos sobre la población basándose
en el estudio de los datos
gráficos, tabulares o
de una muestra tomada a
numéricos.
partir de ella.
Conceptos básicos

Características
que se observan
o miden de un
individuo.

sujeto, animal, cosa,


sobre le cual se mide
Es el conjunto de todos
o se observa una o
los individuos que poseen
más características. PARÁMETRO ⇒ una
información acerca del
fenómeno que se estudia. medida resumen
calculada sobre la
población.
Es un subconjunto
representativo de elementos
ESTADÍSTICO ⇒ una
que pertenecen a la
medida resumen
población.
calculada sobre la
muestra.
Análisis
estadístico
Análisis de Variables Cuatitativas
Objetivo: Distinguir entre diferentes escalas de medición, elegir los
métodos estadísticos descriptivos e inferenciales apropiados basados ​en
estas distinciones e interpretar los resultados.

• Histograma y polígono de frecuencias.


• Diagrama de caja.
• Gráfico de dispersión.
Análisis gráfico • Diagrama de puntos.

• Medidas de tendencia central.


• Medidas de dispersión.
Análisis • Medidas de localización.
numérico • Medidas de forma.
• Tablas de frecuencias
Medidas de tendencia central

Media Mediana Moda


Promedio aritmético
 Punto medio de
la distribución.  Observación más
 Promedio
frecuente.
muestral.
 Percentil 50,
 µ Promedio de la
cuartil 2.
población
Medidas de tendencia central
Ejemplo: Puntuación obtenida en Median. n impar
un examen por 9 estudiantes.

75 69 88 93 95 54 87 88 27
Median: 87
Median. n par
Mean
Ejemplo: Puntuación obtenida en un
examen por 10 estudiantes.

Mode: 88 87+88
=87.5
2
¿Asimetría – Simetría ?
Medidas de dispersión

• Rango ()
• Varianza
• Desviación estándar
• Coeficiente de
variación.
• Rango intercuartilico
()
Varianza varianza
poblacional
Es aproximadamente el promedio de las
desviaciones de los datos con respecto varianza

a la media al cuadrado.
muestral
Ejemplo: Tenga en cuenta que el promedio de la expectativa de vida de 201 países
es 70,5.
Desviación estándar
ds
Es la desviación promedio alrededor de la media,
S ds tiene las mismas unidades de los datos.
Coeficiente de variación

Permite comparar la variabilidad de dos o más conjuntos


de datos.
MEDIDAS DE VARIABILIDAD
Cuartiles - Rango intercuartilico
Cuartiles - Rango intercuartilico
DIAGRAMA DE CAJA - BOXPLOT
DIAGRAMA DE CAJA - BOXPLOT

El diagrama de caja representa gráficamente la distribución de una variable


cuantitativa al mostrar visualmente el resumen de cinco números y cualquier
observación que se clasificó como un valor atípico sospechoso utilizando el
criterio 1.5 en el cálculo del IQR.
Rango intercuartilico

Es el rango medio del 50% de los datos. Distancia entre el


primer cuartil (percentil 25) y el tercer cuartil
(percentil 75).
TABLAS DE FRECUENCIAS
𝑋 𝑖=
𝐿𝑖 + 𝐿𝑠 𝑓𝑖 𝐹𝑖
2 𝑓 𝑟 %= 𝑥 100 𝐹 𝑟 %= 𝑥 100
𝑛 𝑛

Limites del intervalo Marca de Frecuencia Frecuencia Frecuencia Frecuencia


clases Absoluta Absoluta relativa relativa
acumulada porcentual porcentual
acumulada
-

L_i = X_min -- L_s=X_min+A

n 100

Total -------------- n ------------ 100 -----------


Variable: Puntos en una prueba.
Tipo: Cuantitativa – Discreta.

DATOS
1 1 2 3 3 4 5 5 5 7
7 8 9 10 10 11 13 13 14 15
15 17 18 18            
i
1

Total
i
1 [80 90) 85 15%
2 [ 90 100) 8
3 [100 110) 105 23 22.5% 57.5%
4 [ 110 120) 82,5%
5 [120 130) 125 7
Total 40
Ejemplo
-

[ 1.48 --- 1. 54) 9 9 9.18 9.18

[ 1.54 --- 1.60) 1.57 18 27 18.36 27.55

[ 1.60 --- 1.66) 1.63 20 47 20.40 47.95

[ 1.66 --- 1.72) 1.69 16 63 16.32 64.28

[1.72 --- 1.78) 1.75 19 82 19.38 83.67

[ 1.78 --- 1.84) 1.81 8 90 8.16 91.83

[ 1.84 --- 1.90) 1.87 5 95 5.10 96.93

[ 1.90 --- 1.96) 1.93 3 98=n 3.06 100

Total n= 98 100
Histograma
Ejercicio: Los siguientes
datos corresponden a los
resultados de los exámenes
de 15 estudiantes: 88, 48,
60, 51, 57, 85, 69, 75, 97,
72, 71, 79, 65, 63, 73.
Histograma

 La distribución de calificaciones es
aproximadamente simétrica y unimodal, sin
valores atípicos.

 El centro de la distribución de
calificaciones es de aproximadamente 70 (7
estudiantes obtuvieron calificaciones por
debajo de 70 y 8 estudiantes obtuvieron
calificaciones por encima de 70).

 min aproximado: 45 (la mitad del intervalo


más bajo de puntajes)
 máx. aproximado: 95 (la mitad del intervalo
más alto de puntuaciones)
 rango aproximado: 95-45 = 50
Histograma

 Forma: La distribución de edades está sesgada a la


derecha. Tenemos una concentración de datos entre las
edades más jóvenes y una larga cola a la derecha. La gran
mayoría de los premios a la "mejor actriz" se otorgan a
las actrices jóvenes, y muy pocos se otorgan a las
actrices mayores.

 Centro: Los datos parecen estar centrados alrededor de


los 35 o 36 años. Tenga en cuenta que esto implica que
aproximadamente la mitad de los premios se otorgan a
actrices de menos de 35 años.

 Dispersión: Los datos esta entre 20 y 80 aproximadamente,


por lo que el rango aproximado es 80 - 20 = 60.

 Valores atípicos: Parece que existen dos valores atípicos


probables en la extrema derecha y posiblemente un tercero
alrededor de los 62 años.
Forma de la distribución de los datos
Forma de la distribución de los datos
Forma de la distribución de los datos
Forma de la distribución de los datos
Forma de la distribución de los datos

Tomado de gapminder.com
Forma de la distribución de los datos
Forma de la distribución de los datos
Forma de la distribución de los datos
Análisis de Variables categóricas

¿Cómo resumimos ¿Qué visualizaciones y


una variable medidas numéricas son
categórica? apropiadas?

Medidas numéricas Tablas de frecuencias

Diagrama circular
Análisis gráfico Diagrama de barras
Análisis de Variables categóricas

La tabla corresponde a las respuestas de una muestra de 1200 estudiantes


universitarios a los cuales se les pregunto, ¿Consideras que tienes sobre peso, bajo
peso o un peso normal?
Análisis de Variables categóricas

Medidas numéricas.

Suma
100.1%

En general, aunque podría ser "menos confuso" si registramos los valores completos anteriores (71.25% en lugar de 71.3%, etc.),
preferimos no mostrar demasiados lugares decimales, ya que esto puede distraer las conclusiones que queremos ilustrar. No queremos
que aquellos que están leyendo nuestros resultados se sientan abrumados o distraídos por dígitos innecesarios.
Variables categóricas

Gráficos.

También podría gustarte