Documentos de Académico
Documentos de Profesional
Documentos de Cultura
03 Exploratory Data Analysis
03 Exploratory Data Analysis
EXPLORATORY DATA
ANALYSIS (EDA)
4 de agosto de 2022
Prof. Diabb Zegpi D.
REPASO DE LA ÚLTIMA CLASE 2
1.
CONTANDO UNA HISTORIA CON
DATOS
4
“
The greatest value of a picture is when it
forces us to notice what we never expected to
see.
John Tukey
5
¿De dónde
provienen los
mejores granos
de café del
mundo?
6
Comparación
entre consumo
de productos
de origen
animal y no
animal vs
huella de
carbono, por
país
Puntos de agua en África
7
8
¿Cómo ha cambiado
en los últimos años
la proporción de
mujeres en altos
cargos directivos en
Alemania?
Puntos por match promedio en la Bundesliga
9
10
11
¿QUÉ
MEDIR?
2.
ESTADÍSTICA DESCRIPTIVA
13
“
Descriptive statistics exist to simplify, which
always implies some loss of nuance or detail.
Charles Wheelan
ESTADíSTICA DESCRIPTIVA 14
MPG dataset
Datos de economía de
combustible de 1999 a 2008
para 38 modelos populares
de automóviles
VISUALIZANDO FRECUENCIAS 17
HISTOGRAMA
Método gráfico univariado
que, aplicado a una serie
numérica, la divide en clases y
cuenta la frecuencia por clase.
VISUALIZANDO DENSIDAD 18
GRÁFICO DE DENSIDAD
Similar al histograma, pero
suavizando una curva a las
frecuencias, transformándolas
en densidades.
VISUALIZANDO CUARTILES 19
BOX PLOT
Gráfico univariado aplicable a series
numéricas. El box plot (“diagrama de
caja y bigotes”) muestra los siguientes
estadísticos:
» 1er cuartil (25% de los datos, Q1)
» 2do cuartil (50%, Q2)
» 3er cuartil (75%, Q3)
» Q1 – 1,5 (Q3 – Q1)
» Q3 + 1,5 (Q3 – Q1)
VISUALIZANDO FRECUENCIAS 20
GRÁFICO DE BARRAS
Gráfico univariado y aplicable
a variables categóricas.
Consiste en ilustrar la
frecuencia de cada clase en
una categoría.
CONTRASTANDO VARIABLES 21
GRÁFICO DE DISPERSIÓN
Gráfico bivariado que
contrasta dos variables
numéricas.
CONTRASTANDO VARIABLES 22
GRÁFICO DE MOSAICO
Gráfico bivariado que
contrasta dos variables
categóricas.
4.
TRANSFORMACIONES
MATEMÁTICAS
24
Las
transformaciones
matemáticas
tienen el efecto
de cambiar la
distribución de
las variables
MATERIAL DE ESTUDIO 25
EDA en Kaggle
» Ingresar a www.kaggle.com
» Crear un notebook de R o python
» Cargar los datasets “2022-ukraine-russian-
war” y “Vietnam War Bombing Operations”
» Conducir un EDA
» Proponer un dataset para la próxima clase
27
GRACIAS