Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introducción al análisis
exploratorio de datos
https://tacosdedatos.com/introduccion-eda 1/20
6/2/2021 Introducción al análisis exploratorio de datos
sería
🌮 tacos difícil
de datos de conocer
| Aprende acerca
visualización deennuestros
de datos español. datos; mediante este
comparte esto
No existe una técnica formal sobre cómo llevar a cabo este tipo de
análisis, sino que más dependen de lo que vayamos encontrando en
los datos, así como de la experiencia y conocimiento específico del
problema con el que contemos.
Para este post usaré algunas de las librerías más comunes para el
análisis de datos en el ecosistema de Python, todas las puedes
instalar desde PyPI:
Y sobre los datos que vamos a analizar, serán los datos de Red Wine
Quality. Por cierto, puedes ver el notebook completo en Kaggle, si
accedes al notebook ahí, no tienes que preocuparte por instalar nada
ni descargar nada, todo está listo. Ahora si, comenzamos con
nuestros imports de regla:
https://tacosdedatos.com/introduccion-eda 2/20
6/2/2021 Introducción al análisis exploratorio de datos
style.use('ggplot')
wine_quality = pd.read_csv("/kaggle/input/red-wine-quality-cortez-et-
al-2009/winequality-red.csv")
print("Dataset length", len(wine_quality))
wine_quality.head()
https://tacosdedatos.com/introduccion-eda 3/20
6/2/2021 Introducción al análisis exploratorio de datos
wine_quality.columns
Visita
🌮 tacos este
de datos link sivisualización
| Aprende quieres de una ligera
datos introducción
en español. a loscomparte
componentes
esto
del vino.
Antes de continuar ⚠
Si lo que estás esperando hacer con la información es crear
un modelo predictivo, lo primero que hay que hacer es
separar los datos en conjuntos de prueba, entrenamiento y,
si puedes, validación. El análisis exploratorio de datos se
debe conducir únicamente sobre los datos de entrenamiento,
ya que realizar el análisis en todo el conjunto de datos nos
llevaría a tomar decisiones teniendo en cuenta datos a los
que, en teoría, tu modelo no tendría acceso en producción.
Es decir, este es un problema de filtración de datos.
https://tacosdedatos.com/introduccion-eda 5/20
6/2/2021 Introducción al análisis exploratorio de datos
https://tacosdedatos.com/introduccion-eda 6/20
6/2/2021 Introducción al análisis exploratorio de datos
<class 'pandas.core.frame.DataFrame'>
🌮 tacos de datos | Aprende visualización de datos en español. comparte esto
Int64Index: 1199 entries, 1060 to 418
Data columns (total 12 columns):
fixed acidity 1199 non-null float64
volatile acidity 1199 non-null float64
citric acid 1199 non-null float64
residual sugar 1199 non-null float64
chlorides 1199 non-null float64
free sulfur dioxide 1199 non-null float64
total sulfur dioxide 1199 non-null float64
density 1199 non-null float64
pH 1199 non-null float64
sulphates 1199 non-null float64
alcohol 1199 non-null float64
quality 1199 non-null int64
dtypes: float64(11), int64(1)
memory usage: 121.8 KB
<class 'pandas.core.frame.DataFrame'>
Int64Index: 400 entries, 1186 to 1163
Data columns (total 12 columns):
fixed acidity 400 non-null float64
volatile acidity 400 non-null float64
citric acid 400 non-null float64
Y pues no, no hay
residual sugar
datos faltantes… sin embargo si faltaran, debes
400 non-null float64
saber que existe toda una400
chlorides metodología para decidir cómo actuar ante
non-null float64
free sulfur dioxide 400 non-null float64
datos faltantes en nuestro dataset. Pero de eso podemos hablar en
total sulfur dioxide 400 non-null float64
otro momento.
density 400 non-null float64
pH 400 non-null float64
sulphates 400 non-null float64
Estadísticas descriptivas
alcohol 400 non-null float64
quality 400 non-null int64
dtypes: float64(11), int64(1)
El memory
segundo paso40.6
usage: a dar,
KB es ver las estadísticas descriptivas de nuestra
información, esto nos ayudará a darnos una idea de los posibles
valores de nuestro dataset. El paquete pandas ofrece el método
describe para obtener una vista detallada y completa de algunas de
las estadísticas más comunes:
wine_train.describe()
https://tacosdedatos.com/introduccion-eda 7/20
6/2/2021 Introducción al análisis exploratorio de datos
También tengo que decir que algun conocedor del tema podría tener
opiniones acerca de los rangos de valores que cubren ciertas
variables… pero nosotros vamos a pasar al análisis gráfico.
https://tacosdedatos.com/introduccion-eda 8/20
6/2/2021 Introducción al análisis exploratorio de datos
@contextmanager
🌮 tacos de datos | Aprende visualización de datos en español. comparte esto
def plot(title=None, xlabel=None, ylabel=None, figsize=(9,5)):
fig = plt.figure(figsize=figsize)
ax = fig.gca()
yield ax
if title:
ax.set_title(title)
ax.set_xlabel(xlabel, size=15)
ax.set_ylabel(ylabel, size=15)
Histogramas
Primero podemos echarle un ojo a la distribución de la variable
quality , que como ya sabemos que es una variable discreta y que los
valores van, en teoría de 0 a 10, podemos simplemente usar
countplot del módulo seaborn:
https://tacosdedatos.com/introduccion-eda 9/20
6/2/2021 Introducción al análisis exploratorio de datos
https://tacosdedatos.com/introduccion-eda 10/20
6/2/2021 Introducción al análisis exploratorio de datos
Podemos
🌮 tacos usar un
de datos | Aprende poco dedecódigo
visualización datos enpara visualizar
español. más de una variable
comparte esto
a la vez:
columns = 4
plt.tight_layout()
https://tacosdedatos.com/introduccion-eda 11/20
6/2/2021 Introducción al análisis exploratorio de datos
De esta gráfica podemos ver que muchas de las variables tienen una
distribución asimétrica ( fixed acidity , residual sugar , chlorides ,
por ejemplo), además de que al parecer algunos valores tienen
valores extremos ( residual sugar , sulphates , total sulfur dioxide ).
Tal vez merezcan más exploración…
Boxplots
Como mencioné anteriormente, existen algunas variables que
merecen un poco más de exploración ya que parecen tener valores
extremos, las boxplots nos permiten encontrar precisamente estos
valores extremos. Es fácil graficar boxplots con seaborn.
https://tacosdedatos.com/introduccion-eda 12/20
6/2/2021 Introducción al análisis exploratorio de datos
Como ya sabemos, los puntos fuera de las líneas horizontales son los
famosos outliers o “valores atípicos”, dependiendo de la aplicación
podemos reaccionar de diversas maneras frente a ellos… a veces los
outliers se eliminan, a veces se transforman, o a veces se dejan
porque tienen alto valor predictivo.
Scatterplots
El siguiente paso es tratar de identificar relaciones entre variables,
podríamos por ejemplo usar un scatterplot para ver qué tipo de
relación existe entre la cantidad de alcohol y la calidad de un vino:
https://tacosdedatos.com/introduccion-eda 13/20
6/2/2021 Introducción al análisis exploratorio de datos
Tal vez esta gráfica no sea tan reveladora, ya que nuestra variable
quality es más bien del tipo categórico y es difícil identificar una
tendencia. Otra cosa a notar es que las correlaciones también se
pueden y, en la mayoría de los casos, se deben identificar entre las
variables independientes también, no solo entre una de ellas y la
variable dependiente. Por ejemplo, entre free sulfur dioxide y
total sulfur dioxide :
https://tacosdedatos.com/introduccion-eda 14/20
6/2/2021 Introducción al análisis exploratorio de datos
Matrices de correlación
Una matriz de correlación no es más que una matriz de números
(cada número va de -1 a 1) que nos indican qué tan relacionadas
están una variable con otra. Existen 3 métodos para calcular esta
correlación. Para calcularla en nuestro dataframe de vinos, podemos
simplemente usar el método corr de un dataframe:
https://tacosdedatos.com/introduccion-eda 15/20
6/2/2021 Introducción al análisis exploratorio de datos
correlation = wine_train.corr(method="pearson")
🌮 tacos de datos | Aprende visualización de datos en español. comparte esto
correlation.head()
https://tacosdedatos.com/introduccion-eda 16/20
6/2/2021 Introducción al análisis exploratorio de datos
Y pues, eso es todo por este post, sí, es bastante sencillo y aún hay
mucho qué discutir sobre el análisis exploratorio de datos, aquí hay
algunos de los recursos que yo consulté para preparar este video, y
aún así hay mucho más por explorar:
EDA Introduction
https://tacosdedatos.com/introduccion-eda 17/20
6/2/2021 Introducción al análisis exploratorio de datos
🌮📊
tacosdedatos,
el boletín 📋
https://tacosdedatos.com/introduccion-eda 18/20
6/2/2021 Introducción al análisis exploratorio de datos
¿Qué opinas?
🌮 tacos de datos | Aprende visualización de datos en español. comparte esto
5 Responses
Política de Comentarios de tacosdedatos
recuerda que todos estamos aprendiendo. no faltes al respeto a nadie.
Comienza la discusión...
Tutoriales
BLOG
FACEBOOK
GGPLOT2
R
TEXT-MINING
https://tacosdedatos.com/introduccion-eda 20/20