Está en la página 1de 10

Universidad Profesional Interdisciplinaria de Ingeniería

Campus Coahuila

EQUIPO 2
Nestor Delgado Javier
Ramiro Gerardo Dávila Joch
Michelle Alejandra Ramos Gonzalez
¿QUÉ ES?
El análisis exploratorio de datos (Exploratory Data Analysis, EDA) o estadística
descriptiva es un paso previo e imprescindible a la hora de comprender los datos con
los que se va a trabajar y altamente recomendable para una correcta metodología de
investigación.

Es el proceso de utilizar resúmenes numéricos y visualizaciones para explorar sus


datos e identificar posibles relaciones entre variables.

Proceso de investigación en el que se usan estadísticas de resumen y herramientas


gráficas para llegar a conocer los datos y comprender lo que se puede averiguar de
ellos.
¿CUÁL ES SU OBJETIVO?
El principal propósito del análisis exploratorio es tener una idea completa de cómo son
nuestros datos, antes de decidir qué técnica de Ciencia de Datos o de Machine
Learning usaremos.

El objetivo de este análisis es explorar, describir, resumir y visualizar la naturaleza de


los datos recogidos en las variables aleatorias del proyecto o investigación de interés,
mediante la aplicación de técnicas simples de resumen de datos y métodos gráficos
sin asumir asunciones para su interpretación.

Esta es una potente herramienta para explorar un conjunto de datos. Incluso cuando
su objetivo es efectuar análisis planificados, el EDA puede utilizarse para limpiar datos,
para análisis de subgrupos o simplemente para comprender mejor los datos.
¿CUÁL ES SU OBJETIVO?
Como el EDA implica explorar, es un proceso iterativo. Lo más probable es que se
averigüen diferentes aspectos sobre los datos a partir de diferentes gráficos. Los
objetivos típicos son comprender:

• La distribución de variables en su conjunto de datos. Esto es, ¿cuál es la forma de


sus datos? ¿Está sesgada la distribución? ¿Tiene forma de montículo? ¿Es bimodal?
• Las relaciones entre variables.
• Si sus datos tienen o no valores atípicos o puntos inusuales puede indicar problemas
de calidad de los datos o conducir a descubrimientos interesantes.
• Si sus datos tienen o no patrones temporales.
¿CUÁL ES SU FUNCIÓN?
Con el EDA, se puede:
- Hallar anomalías en los datos, como valores atípicos u observaciones inusuales.
-Revelar patrones.
-Comprender posibles relaciones entre variables.
-Generar preguntas o hipótesis interesantes que se pueden comprobar más adelante
mediante métodos estadísticos más formales.

El análisis exploratorio de datos es como el trabajo detectivesco: se buscan claves y


pistas que puedan conducir a la identificación de las posibles causas de origen del
problema que se intenta resolver. Se exploran las variables de una en una, luego de
dos en dos, y luego muchas variables a la vez.
PROCEDIMIENTO
Los pasos seguidos en el E. D. A. son básicamente dos:

- Medición y descripción de los datos tecnológicos, tipológicos, y dimensiones, por


medio de la Estadística descriptiva. Aquí tenemos, por un lado, las medidas de
tendencia central (promedios que, en una sola cifra, resumen todos los valores de
una muestra: media, mediana y moda son las más habituales) y, por otro, las
medidas de dispersión (que calculan hasta qué punto la muestra se agrupa o no
entorno a esos promedios).

- Comparación de los caracteres de una muestra, o de varias muestras diferentes


por medio de la Estadística inferencial. Las pruebas más frecuentemente utilizadas
comienzan por las más sencillas comparaciones visuales, a través de gráficas como la
campana de Gauss, nubes de dispersión o diagramas de caja y arbotantes, pasando
por las socorridas tablas de contingencia, y por los típicos Análisis de Varianza (que no
es más que una confrontación muy precisa de los promedios de varias muestras),
hasta llegar a los más complejos análisis multivariantes de conglomerados.
FASES
Podemos resumir las fases del análisis exploratorio en 7 pasos:

1. Tener clara la pregunta que queremos responder;


2. Tener una idea general de nuestro dataset: columnas y filas.
3. Definir los tipos de datos que tenemos: numéricos o categóricos.
4. Elegir el tipo de estadística descriptiva: medidas de tendencia central o de ,
variabilidad.
5. Visualizar los datos.
6. Analizar las posibles interacciones entre las variables del dataset: análisis
, bivariado y multivariado.
7. Extraer algunas conclusiones de todo este análisis.
CONCLUSIÓN
Como en la práctica los datos no son ideales, debemos organizarlos, entender su
contenido, entender cuáles son las variables más relevantes y cómo se relacionan
unas con otras, comenzar a ver algunos patrones, determinar qué hacer con los datos
faltantes y con los datos atípicos, y finalmente extraer conclusiones acerca de todo
este análisis.

Y todo esto es precisamente el análisis exploratorio de datos, que es en resumen una


forma de entender, visualizar y extraer información relevante del set de datos para
poder decidir cuál será la ruta o técnica más adecuada para su posterior
procesamiento.
PREGUNTAS
1. ¿Para qué se utiliza el EDA?
R= Para explorar sus datos e identificar posibles relaciones entre variables.
2. ¿Antes de qué se utiliza?
R= Antes de decidir qué técnica de Ciencia de Datos o de Machine Learning usaremos.
3. ¿Para qué más se puede utilizar aparte de explorar datos?
R= Para limpiar datos, para análisis de subgrupos o simplemente para comprender mejor los datos.
4. ¿Cuál es uno de sus objetivos típicos?
R= Comprender relaciones entre las variables.
5. ¿Por qué se compara con un trabajo detectivesco?
R= Porque se buscan claves y pistas que puedan conducir a la identificación de las posibles causas
de origen del problema que se intenta resolver.
6. ¿Cuáles son los dos pasos de su procedimiento?
R= Medición, descripción de los datos y la comparación de caracteres.
7. ¿Cuántas son las fases del EDA?
R= 7
8. De acuerdo con la fase 2, ¿qué debemos observar en nuestro dataset?
R= Las columnas, filas y el tamaño del conjunto de datos
9. ¿Qué tipos de estadística descriptivas podemos utilizar en la fase 4?
R= De medida central y de variabilidad o dispersión.
10. ¿Cómo se llama cuando hay interacción entre dos o más variables?
R= Bivariado y multivariado.
GRACIAS!!

También podría gustarte