Documentos de Académico
Documentos de Profesional
Documentos de Cultura
EXPLORACIÓN DE
DATOS
DOCENTE
MARTA SILVIA TABARES B.
UNIVERSIDAD EAFIT
2018
PRESENTACIÓN DEFINIDA POR:
Alexandra Pomares Quimbaya
Departamento de Ingeniería de Sistemas
Facultad de Ingeniería
Pontificia Universidad Javeriana
MODIFICACIONES A LA PRESENTACIÓN ORIGINAL:
Marta Silvia Tabares B.
Universidad EAFIT
Escuela de Ingeniería
2018
Para qué usar los datos?
[ftp://public.dhe.ibm.com/software/analytics/spss/documentation/modeler/15.0/es/CRISP-DM.pdf]
ASUM: Composición general
ASUM: Composición general
ENTENDIMIENTO DE LOS DATOS
El objetivo de esta actividad es comprender los objetivos y requisitos del proyecto
desde una perspectiva del negocio, luego convertir este conocimiento en una
definición de problema de minería de datos y un plan preliminar diseñado para
lograr los objetivos.
ASUM: ENTENDIMIENTO DE LOS DATOS
Adquiera los datos (o acceso a los datos) enumerados en los recursos del proyecto. Esta colección
inicial incluye la carga de datos, que es necesaria para la comprensión de los datos. Cargue los
datos en un repositorio. Este esfuerzo posiblemente lleve a los pasos iniciales de preparación de
datos.
Nota: si adquiere varias fuentes de datos, la integración es un problema adicional, ya sea aquí o en
la actividad posterior de preparación de datos.
ASUM: ENTENDIMIENTO DE LOS DATOS
Los datos existentes. Esto incluye una amplia variedad de datos, como datos transaccionales, datos de
encuestas, registros web, etc. Considere si los datos existentes son suficientes para satisfacer sus necesidades.
Datos comprados. ¿Su organización usa datos suplementarios, como datos demográficos? Si no, considere si
puede ser necesario.
Datos adicionales. Si las fuentes anteriores no satisfacen sus necesidades, es posible que deba realizar
encuestas o comenzar un seguimiento adicional para complementar las tiendas de datos existentes.
Ejercicio 1
Parte 1
• https://www.ncbi.nlm.nih.gov/pubmed/25873485
• Archivo: NHANES2009-2012.csv
ASUM: ENTENDIMIENTO DE LOS DATOS
Eche un vistazo a los datos en repositorio y tenga en cuenta las siguientes preguntas. Asegúrese de tomar notas
sobre sus hallazgos:
- ¿Hay datos suficientes para extraer conclusiones generalizables o hacer predicciones precisas?
- ¿Está fusionando varias fuentes de datos? Si es así, ¿hay áreas que puedan plantear un problema al
fusionarse?
- ¿Ha considerado cómo se manejan los valores perdidos en cada una de sus fuentes de datos?
ASUM: ENTENDIMIENTO DE LOS DATOS
Eche un vistazo a los datos en repositorio y tenga en cuenta las siguientes preguntas. Asegúrese de tomar notas
sobre sus hallazgos:
- ¿Hay datos suficientes para extraer conclusiones generalizables o hacer predicciones precisas?
- ¿Está fusionando varias fuentes de datos? Si es así, ¿hay áreas que puedan plantear un problema al
fusionarse?
- ¿Ha considerado cómo se manejan los valores perdidos en cada una de sus fuentes de datos?
ASUM: ENTENDIMIENTO DE LOS DATOS
Cree un informe que describa los datos que se han adquirido, incluido el formato de los datos, la
cantidad de datos (por ejemplo, el número de registros y campos en cada tabla), las identidades de los
campos y cualquier otra característica de superficie que han sido descubiertos. Evaluar si los datos
adquiridos satisfacen los requisitos pertinentes.
Hay muchas maneras de describir datos, pero la mayoría de las descripciones se centran en la
cantidad y calidad de los datos: la cantidad de datos disponibles y la condición de los datos.
ASUM: ENTENDIMIENTO DE LOS DATOS
• Tipos de valores. Los datos pueden tomar una variedad de formatos, como numérico, categórico
(cadena) o booleano (verdadero / falso). Prestar atención al tipo de valor puede evitar problemas
durante el modelado posterior.
• Esquemas de codificación. Con frecuencia, los valores en la base de datos son representaciones
de características tales como género o tipo de producto. Por ejemplo, un conjunto de datos puede
usar M y F para representar a hombres y mujeres, mientras que otro puede usar los valores
numéricos 1 y 2. Observe cualquier esquema conflictivo en el informe de datos.
ASUM: ENTENDIMIENTO DE LOS DATOS
Esta tarea aborda preguntas de minería de datos mediante consultas, visualización y técnicas de
informes. Estos incluyen la distribución de los atributos clave (por ejemplo, el atributo de destino
de una tarea de predicción) las relaciones entre pares o un pequeño número de atributos, los
resultados de agregaciones simples, las propiedades de subpoblaciones significativas y los
análisis estadísticos simples.
Estos análisis pueden abordar directamente los objetivos de minería de datos; también pueden contribuir
o refinar la descripción de los datos y los informes de calidad, y alimentar la transformación y otros
pasos de preparación de datos necesarios para un análisis posterior.
ASUM: ENTENDIMIENTO DE LOS DATOS
- ¿Es correcto o contiene errores y, si hay errores, qué tan comunes son?
- ¿Hay valores faltantes en los datos? Si es así, ¿cómo se representan, dónde ocurren y qué tan comunes
son?
ASUM: ENTENDIMIENTO DE LOS DATOS
De hecho, la mayoría de los datos contienen errores de codificación, valores perdidos u otros tipos de
inconsistencias que dificultan el análisis a veces. Una forma de evitar riesgos potenciales es llevar a cabo un
análisis de calidad completo de los datos disponibles antes del modelado.
ASUM: ENTENDIMIENTO DE LOS DATOS
Los datos faltantes incluyen valores que están en blanco o codificados como falta de respuesta (como $ null
$,? O 999).
- Los errores de datos suelen ser errores tipográficos al ingresar los datos.
- Los errores de medición incluyen datos que se ingresan correctamente pero que se basan en un esquema
de medición incorrecto.
- Los metadatos incorrectos incluyen desajustes entre el significado aparente de un campo y el significado
establecido en un nombre o definición de campo.
ASUM: ENTENDIMIENTO DE LOS DATOS
Este documento proporciona una descripción detallada de los datos que se utilizan para resolver el problema
del negocio.
El documento proporciona una vista de alto nivel de los datos recopilados, las propiedades brutas o de
superficie de los datos y las técnicas utilizadas para explorar los datos. La calidad de los datos también se
analiza en este documento.
¿Por qué es necesario Entender los Dato?
20
¿Por qué es necesario Entender los Datos?
21
¿Qué sucede si no se Entienden los Datos?
22
¿Por qué los datos tienen problemas?
• Incompletos
• Atributos opcionales en el sistema de información
• Cuando se recolectó la información aún no estaba completa
• Problemas humanos
• Errores
• Falta de validaciones en el sistema de información
• Problemas humanos
• Errores en la transmisión de los datos
• Inconsistentes
• Datos provenientes de múltiples fuentes
• Fuentes de datos informales (excel)
23
Entendiendo los tipos de Datos:Tipo de dato a nivel conceptual
¿Qué tipo de exigencias hacen las técnicas de analítica?
Clasificación 1
• Numérico
Tienen orden y relación de distancia
D(2.3,4.2)=1.9
• Categórico
Sólo puede afirmarse si son iguales o diferentes.
24
Entendiendo los tipos de Datos:Tipo de dato a nivel conceptual
¿Qué tipo de exigencias hacen las técnicas de analítica?
• Discreta
Nominal (categórico): Es aquel dato que toma una etiqueta con propósitos de identificación,
no implica ni orden ni grupos. Ej: Tipo de parte.
Ordinal: El valor del dato además de definir su pertenencia a una categoría, brinda algún tipo
de orden entre las categorías así no indique claramente la cantidad en la que difiere una de
otra. Ej: Estado de mantenimiento (Iniciado, en proceso, terminado)
Periódica: tienen función de distancia pero no de orden. Días de la semana.
25
Entendiendo los tipos de Datos:Tipo de dato a nivel conceptual
¿Qué tipo de exigencias hacen las técnicas de analítica?
• Datos discretos
• Todos los atributos deben ser discretos
• Son medibles y los llamados variables
• Son los valores que toma la variable en cada caso
• Tienen un número limitado de posibles valores
• Se obtienen como resultado de un conteo
• Soporta numéricos pero funciona mejor con discretos
• Ejemplo: https://desktop.arcgis.com/es/arcmap/10.4/manage-data/raster-and-
images/discrete-and-continuous-data.htm
• No pueden ser fraccionados o decimales
26
¿Qué tipo de exigencias hacen las técnicas de analítica?
• Datos normalizados
• Todos los atributos deben estar en la misma escala
27
PREPARACIÓN DE LOS DATOS
La preparación de datos es uno de los aspectos más importantes y que a menudo requiere mucho tiempo
de la minería de datos. De hecho, se estima que la preparación de datos generalmente requiere del 50-70%
del tiempo y esfuerzo de un proyecto.
Es altamente dependiente de las actividades de "comprender los datos" y "entender el negocio", por lo que
dedicar la energía adecuada a estas actividades anteriores puede minimizar esta sobrecarga, pero aún
necesita gastar una buena cantidad de esfuerzo preparando y empaquetando los datos para la minería.
PREPARACIÓN DE LOS DATOS
Según la organización y sus objetivos, la preparación de datos generalmente implica lo siguiente:
• Combinación de conjuntos de datos y / o registros
• Selección de un subconjunto de datos de muestra
• Agregación de registros
• Derivación de nuevos atributos
• Clasificación de los datos para modelar
• Eliminación o reemplazo de espacios en blanco o faltantes valores
• División en conjuntos de datos de entrenamiento y prueba
ASUM: Preparación de Datos
ASUM: PREPARACIÓN DE LOS DATOS
Decida los datos que se utilizarán para el análisis. Los criterios incluyen relevancia para los
objetivos de minería de datos, calidad y restricciones técnicas, como límites en el volumen de datos
o tipos de datos. Tenga en cuenta que la selección de datos cubre la selección de atributos
(columnas), así como la selección de registros (filas) en una tabla.
Enumere los datos que se incluirán / excluirán y las razones de estas decisiones. Tenga en cuenta
lo siguiente:
Aumente la calidad de los datos al nivel requerido por las técnicas de análisis seleccionadas. Esto
puede implicar la selección de subconjuntos limpios de los datos, la inserción de valores
predeterminados adecuados o técnicas más ambiciosas, como la estimación de datos faltantes por
modelado.
ASUM: PREPARACIÓN DE LOS DATOS
Documente qué decisiones y acciones se tomaron para abordar los problemas de calidad de los
datos informados durante la tarea Verificar la calidad de los datos de la actividad Comprender datos.
Se deben considerar las transformaciones de los datos para fines de limpieza y el posible impacto
en los resultados del análisis. Considere también las siguientes preguntas al crear su
documentación:
Estos son métodos mediante los cuales la información se combina de múltiples tablas o registros
para crear nuevos registros o valores.
Fusionar tablas se refiere a unir dos o más tablas que tienen información diferente sobre los mismos
objetos. Ejemplo: una cadena minorista tiene una tabla con información sobre las características
generales de cada tienda (p. Ej., Superficie, tipo de centro comercial), otra tabla con datos
resumidos de ventas (por ejemplo, ganancias, cambio porcentual en ventas del año anterior) y otra
con información sobre la demografía de los alrededores. Cada una de estas tablas contiene un
registro para cada tienda. Estas tablas se pueden fusionar en una nueva tabla con un registro para
cada tienda, combinando campos de las tablas de origen.
ASUM: PREPARACIÓN DE LOS DATOS
Como último paso antes de “conducir el modelamiento”, es útil verificar si ciertas técnicas requieren
un formato u orden particular para los datos. Por ejemplo, no es raro que un algoritmo de secuencia
requiera que los datos sean predichos antes de ejecutar el modelo. Incluso si el modelo puede
realizar la clasificación por usted, puede ahorrar tiempo de procesamiento para usar un “Ordenar”
antes del modelado.
Este documento proporciona una descripción detallada de las actividades de preparación de datos
realizadas para preparar los datos para la actividad de modelado.
MacroProcesos en la Preparación de Datos
1.
Recopilar
los datos
4. Crear la 2.
vista Preparación Explorar y
minable de Datos visualizar
los datos
3. Limpiar
los datos
41
Preparación de datos
Objetivos
A. Obtención de la mayor cantidad de datos útiles para el
proyecto de analítica
1. Recopilación de datos
B. Eliminación del mayor número de datos erróneos o
inconsistentes e irrelevantes
2. Exploración y visualización
3. Limpieza de datos
C. Presentación de los datos de una manera apropiada para la
minería.
4. Creación de vista minable
42
MacroProcesos en la Preparación de Datos
43
MacroProcesos Entendimiento y Preparación de Datos
44
MacroProcesos Entendimiento y Preparación de Datos
1.
Recopilar
los datos
3. Limpiar
los datos
45
Inventario de fuentes de datos
46
Inventario de fuente de datos
• Ejemplos de fuentes
• ERP, sistemas de información empresariales
• Compras, devoluciones, PQR
• Comportamiento en portal
• Videos de cámaras de seguridad
• Información de seguimiento GPS
• Información de salud
• Interacción con redes sociales
Priorizar
Tener Acceso
Repositorio Analítico
BD
Relacionales
Repositorio
Archivos planos
MacroProcesos Entendimiento y Preparación de Datos
1.
Recopilar
los datos
• Visualización
4. Crear la 2.
vista Preparación Explorar y • Generación de resumen descriptivo de los datos
minable de Datos visualizar
los datos
3. Limpiar
los datos
49
Exploración Inicial
51
Tipo de dato a nivel de almacenamiento (mysql)
int. Entero.
numeric(p,d). Número en coma fijo, con la precisión especificada por el usuario de p dígitos, con d
dígitos a la derecha del punto decimal.
real, double precision. Números en coma flotante y números en coma flotante de doble precisión,
con precisión dependiente de la máquina.
float(n). Número en coma flotante, con precisión especificada por el usuario de al menos n dígitos.
Tipo de dato a nivel de almacenamiento
Atributo Tabla Tipo de dato Tipo de dato # nulos # distintos Media Desviación Moda Min Max Valores
Almacenamiento conceptual Estandar
https://docs.rapidminer.com/8.0/studio/operators/c
leansing/missing/declare_missing_value.html
https://docs.rapidminer.com/8.0/studio/operators
/cleansing/missing/declare_missing_value.html
https://docs.rapidminer.com/latest/studio/operators/blendi
ng/attributes/selection/remove_useless_attributes.html
Inputs/Outputs
mod = Model
unl = Unlabelled data
lab = Labelled data
exa = Example set
ori = Original data
https://docs.rapidminer.com/latest/studio/operators/blend
pre = preprocessing
ing/attributes/selection/remove_useless_attributes.html
Ejercicio 1
1. Visualizar
a. Scatter
• X:SexNumberPartnerYear, Y:Age, Color:
Gender
• Libre
b. Scatter Multiple
• X:HHincomeMid, Y: diabetesAge, Age1stBaby
• Libre
Ejercicio 1
1. Visualizar
a. AdvanceChart
• DomainDimension SmokeAge
• ColorDimension HHIncomeMid
• NumericalAxis AgeFirstMarij
b. Libre
Exploración de los datos
• Objetivo
• Entender mejor : Tendencia central de los datos, variación y dispersión
• Población
Una población es individuo o grupo que representa todos
los miembros de cierto grupo o categoría de interés.
• Muestra
Una muestra es un subconjunto extraído de una población Muestra (n = 4)
más grande.
• Parámetro
Un parámetro es un valor generado o aplicado a una
población.
• Estadísticas
Población (N = 11)
Son valores derivados desde la muestra de datos, mientras
que los parámetros son valores que son derivados o
aplicados a los datos de la población.
Exploración de los datos
Conceptos básicos
• Ejemplo:
Quiero conocer el promedio de los ingresos de los empleados de tiempo completo actuales en
Google.
1. Podría obtener la lista de todos los empleados de tiempo completo de Google y encontrar los
ingresos anuales de cada miembro de la lista. Esto es posible porque la lista contiene a cada
miembro del grupo de interés, el cual puede ser considerado una población.
Si yo recolectara estos datos y calculara la media (mean), entonces podría haber generado un
parámetro.
2. Otra forma de generar el ingreso medio de los empleados a tiempo completo en Google sería
seleccionar al azar un subconjunto de nombres de empleados de mi lista y calcular el ingreso
promedio de este subconjunto. Este subconjunto es conocido como una muestra, en este caso
muestra aleatoria. Y la media que genero a partir de esta muestra es un tipo de estadística.
Exploración de los datos
Medidas de Tendencia Central
• Distribución
si toma los puntajes en una variable y los ordena en orden de menor a mayor, obtendrá una distribución de puntajes.
• Media (mean)
Es el promedio aritmético de una distribución de puntajes. Esta no indica nada acerca de cómo están esparcidos o
extendidos dichos puntajes (i.e. varianza), o cómo muchos puntajes in la distribución están cerca a la media.
• Mediana (median)
Es el puntaje en la distribución que marca el percentil 50th. Esto es, el 50 por ciento de los puntajes en la distribución
caen por encima de la mediana y el 50 por ciento caen por debajo.
• Valor medio si el número de valores es impar
• la media de los dos valores centrales si es par
La media también es una estadística útil para examinar cuándo los puntajes en una distribución están sesgados o
cuándo hay algunas puntuaciones extremas en lo alto y lo bajo de la distribución.
• Moda (mode)
Indica cuál puntaje (valor) ocurre más frecuentemente o tiene la más alta frecuencia.
Medir la tendencia central
• Media ponderada:
63
Medir la tendencia central
Ejemplo
---------------------------------------------------------------------------------------------------------
Media = (86 + 90 + 95 + 100 + 100 + 100 + 110 + 110 + 115 + 120) /10 = 102.6
---------------------------------------------------------------------------------------------------------
---------------------------------------------------------------------------------------------------------
64
Ejercicio Media y Mediana
58 54 72 54 86 10.5
N es el número de valores
L1 es el límite inferior del grupo donde se encuentra la mediana
Freq es la suma de las frecuencias de todos los grupos menores al grupo donde se encuentra la mediana
freqmedian es la frecuencia del intervalo donde está la mediana
Width amplitud del intervalo donde está la mediana
67
Mediana por interpolación
fi Fi N 100 N/2=50
L1 66
[60, 63) 5 5 Freq 23
[63, 66) 18 23 freqmedian 42
[66, 69) 42 65 Width 3
[69, 72) 27 92
[72, 75) 8 100
Mediana= 66+((50-23)/42)*3=67,93
100
Medir la tendencia central
• Modos
Si una distribución tiene más de una categoría con el puntaje más común,
la distribución tiene múltiples modos y es llamada multimodal.
• Unimodal, bimodal, trimodal
• Fórmula empírica para datos unimodales:
69
Medir la tendencia central
• Ejemplo
Si tuviera que preguntar a una muestra de 100 personas cómo se sentían acerca
de la pena capital, podría obtener los resultados que se presentan a continuación.
En la siguiente escala, por favor indicar como usted se siente acerca de la pena
capital.
1---------------2---------------3--------------4---------------5
Fuertemente Opuesto (FO) Apoyo Total (AT)
Resultados
Frecuencia de respuestas a “como usted se siente acerca de la pena capital”.
Categoría de respuesta en la escala dada
1 (FO) 2 3 4 5 (AT)
Frecuencia de
Respuesta 45 3 4 3 45
en cada categoría
70
Datos Simétricos Vs. Datos Asimétricos
• Kurtosis: Grado de concentración de los valores alrededor de la zona central de la distribución. Mide el
pico.
• Positivo: mas datos cerca a la media
• Negativo: menos datos cerca a la media
MEDIDAS DE VARIABILIDAD
Medir la dispersión de los datos – Métricas útiles
• Rango
Es la diferencia entre el máximo valor y el mínimo valor de una distribución
• Varianza
La varianza proporciona un promedio estadístico de la cantidad de dispersión en una distribución de puntajes. Es usada comúnmente como un
paso en el cálculo de otras estadísticas.
• Desviación Estándar
La mejor manera de entender una desviación estándar es considerar lo que significan las dos palabras.
• Desviación, es este caso, se refiere a la diferencia entre un puntaje individual en una distribución y el puntaje promedio de la distribución.
Entonces, si el puntaje promedio para una distribución es 10, y un niño individual tiene un puntaje de 12, la desviación es 2.
• Estándar, significa lo típico o promedio.
Entonces, una desviación estándar es más o menos la típica, o promedio desviación entre puntajes individuales en una distribución y la media
de la distribución.
MEDIDAS DE VARIABILIDAD
Medir la dispersión de los datos – Métricas útiles
Varianza
Se define como la raíz cuadrada de la varianza de la variable.y indica qué tan alejados
están los valores de la media
1. Graficar
a. Histograma : AlcoholDay
2. Comparar de AlcoholDay
a. Media, Mediana, Moda, Desviación Estándar
Medir la dispersión de los datos – Métricas útiles
1. Range: Diferencia entre el Max y el Min
2. Cuantiles: Son los puntos tomados en intervalos regulares que dividen esencialmente los datos
en conjuntos consecutivos de igual tamaño.
A. Mediana: El 2-cuantil es el punto que divide la primera mitad de la segunda mital de los
datos (la mediana)
B. Cuartiles: Los 4-cuantil son los tres puntos que dividen los datos en cuatro partes iguales.
“El término cuantil se refiere a las medidas de posición no central que me permiten
reconocer otros puntos característicos de la distribución los cuales no son centrales.
Dataset 1 Dataset 2
Medir la dispersión de los datos – Métricas útiles
Ejercicio
Datos
1 30
2 36
3 47
4 50
5 52
6 52
7 56
8 60
9 63
10 70
11 70
12 110
IQR=16
5 métricas resumen para medir dispersión
Atípicos
Más
grandes Q3
IQR
Mediana
Más
pequeños Q1
Datos Simétricos Vs. Datos Asimétricos
Atípicos
Más
grandes
Q3
IQR
Mediana
Más
pequeños
Q1
Ejercicio 3
• Histogramas
• Gráficos de dispersión
• Quantile plot
• Quantile-quantile plot
Histogramas de frecuencia
98
Preguntas?
Gracias
pomares@javeriana.edu.co
99
Referencias
• Dorian Pyle. 1999. Data Preparation for Data Mining (1st ed.). Morgan Kaufmann
Publishers Inc., San Francisco, CA, USA.
• Daniel Larose, Chantal Larose. 2015. Data Mining and Predictive Analytics. Wiley.
• Kantardzic M. 2011. Data Mining: concepts, methods and algorithms. 2ª edición.
Willey.
• Jiawei Han. 2012. Data Mining: Concepts and Techniques 3ra Edición. Morgan
Kaufmann Publishers Inc., San Francisco, CA, USA.
• Peter Flach. 2016. Machine Learning: The art and science of algorithms that make
sense of data, Cambridge
• http://www.statmethods.net/graphs/scatterplot.html
• https://cran.r-project.org/web/packages/stargazer/vignettes/stargazer.pdf