1 IntroducciónPreparacióndeDatos PDF

PREPARACIÓN Y
EXPLORACIÓN DE
DATOS
DOCENTE
MARTA SILVIA TABARES B.
UNIVERSIDAD EAFIT
2018
PRESENTACIÓN DEFINIDA POR:
Alexandra Pomares Quimbaya
Departamento de Ingeniería de Sistemas
Facultad de Ingeniería
Pontificia Universidad Javeriana
MODIFICACIONES A LA PRESENTACIÓN ORIGINAL:
Marta Silvia Tabares B.
Universidad EAFIT
Escuela de Ingeniería
2018
Para qué usar los datos?
• Generar reportes estructurados

• Generar reportes visuales
• Generar Infografías
• Desarrollar proyectos de analítica
• …
CRISP-DM
[ftp://public.dhe.ibm.com/software/analytics/spss/documentation/modeler/15.0/es/CRISP-DM.pdf]
ASUM: Composición general
ASUM: Composición general
ENTENDIMIENTO DE LOS DATOS
El objetivo de esta actividad es comprender los objetivos y requisitos del proyecto
desde una perspectiva del negocio, luego convertir este conocimiento en una
definición de problema de minería de datos y un plan preliminar diseñado para
lograr los objetivos.
ASUM: ENTENDIMIENTO DE LOS DATOS
Adquiera los datos (o acceso a los datos) enumerados en los recursos del proyecto. Esta colección
inicial incluye la carga de datos, que es necesaria para la comprensión de los datos. Cargue los
datos en un repositorio. Este esfuerzo posiblemente lleve a los pasos iniciales de preparación de
datos.
Nota: si adquiere varias fuentes de datos, la integración es un problema adicional, ya sea aquí o en
la actividad posterior de preparación de datos.
Los datos provienen de una variedad de fuentes, tales como:
Los datos existentes. Esto incluye una amplia variedad de datos, como datos transaccionales, datos de
encuestas, registros web, etc. Considere si los datos existentes son suficientes para satisfacer sus necesidades.
Datos comprados. ¿Su organización usa datos suplementarios, como datos demográficos? Si no, considere si
puede ser necesario.
Datos adicionales. Si las fuentes anteriores no satisfacen sus necesidades, es posible que deba realizar
encuestas o comenzar un seguimiento adicional para complementar las tiendas de datos existentes.
Ejercicio 1
Parte 1
1. Cargar Datos NHANES2009-2012 en Rapid Miner

(Readcsv)
• https://www.ncbi.nlm.nih.gov/pubmed/25873485
• Archivo: NHANES2009-2012.csv
Eche un vistazo a los datos en repositorio y tenga en cuenta las siguientes preguntas. Asegúrese de tomar notas
sobre sus hallazgos:
- ¿Qué atributos (columnas) de la base de datos parecen más prometedores?
- ¿Qué atributos parecen irrelevantes y pueden excluirse?
- ¿Hay datos suficientes para extraer conclusiones generalizables o hacer predicciones precisas?
- ¿Hay demasiados atributos para su método de modelado de elección?
- ¿Está fusionando varias fuentes de datos? Si es así, ¿hay áreas que puedan plantear un problema al
fusionarse?
- ¿Ha considerado cómo se manejan los valores perdidos en cada una de sus fuentes de datos?
Eche un vistazo a los datos en repositorio y tenga en cuenta las siguientes preguntas. Asegúrese de tomar notas
sobre sus hallazgos:
- ¿Qué atributos (columnas) de la base de datos parecen más prometedores?
- ¿Qué atributos parecen irrelevantes y pueden excluirse?
- ¿Hay datos suficientes para extraer conclusiones generalizables o hacer predicciones precisas?
- ¿Hay demasiados atributos para su método de modelado de elección?
- ¿Está fusionando varias fuentes de datos? Si es así, ¿hay áreas que puedan plantear un problema al
fusionarse?
- ¿Ha considerado cómo se manejan los valores perdidos en cada una de sus fuentes de datos?
Cree un informe que describa los datos que se han adquirido, incluido el formato de los datos, la
cantidad de datos (por ejemplo, el número de registros y campos en cada tabla), las identidades de los
campos y cualquier otra característica de superficie que han sido descubiertos. Evaluar si los datos
adquiridos satisfacen los requisitos pertinentes.
Hay muchas maneras de describir datos, pero la mayoría de las descripciones se centran en la
cantidad y calidad de los datos: la cantidad de datos disponibles y la condición de los datos.
Características clave a abordar cuando se describen datos:
• La cantidad de datos. Para la mayoría de las técnicas de modelado, existen compensaciones

asociadas con el tamaño de los datos. Los grandes conjuntos de datos pueden producir modelos más
precisos, pero también pueden alargar el tiempo de procesamiento. Considere si es posible usar un
subconjunto de datos. Al tomar notas para el informe final, asegúrese de incluir estadísticas de
tamaño para todos los conjuntos de datos, y recuerde considerar tanto el número de registros como
los campos (atributos) al describir los datos.
Características clave a abordar cuando se describen datos:
• Tipos de valores. Los datos pueden tomar una variedad de formatos, como numérico, categórico
(cadena) o booleano (verdadero / falso). Prestar atención al tipo de valor puede evitar problemas
durante el modelado posterior.
• Esquemas de codificación. Con frecuencia, los valores en la base de datos son representaciones
de características tales como género o tipo de producto. Por ejemplo, un conjunto de datos puede
usar M y F para representar a hombres y mujeres, mientras que otro puede usar los valores
numéricos 1 y 2. Observe cualquier esquema conflictivo en el informe de datos.
Esta tarea aborda preguntas de minería de datos mediante consultas, visualización y técnicas de
informes. Estos incluyen la distribución de los atributos clave (por ejemplo, el atributo de destino
de una tarea de predicción) las relaciones entre pares o un pequeño número de atributos, los
resultados de agregaciones simples, las propiedades de subpoblaciones significativas y los
análisis estadísticos simples.
Estos análisis pueden abordar directamente los objetivos de minería de datos; también pueden contribuir
o refinar la descripción de los datos y los informes de calidad, y alimentar la transformación y otros
pasos de preparación de datos necesarios para un análisis posterior.
Examine la calidad de los datos, abordando preguntas tales como:
- ¿Están completos los datos (cubre todos los casos requeridos)?
- ¿Es correcto o contiene errores y, si hay errores, qué tan comunes son?
- ¿Hay valores faltantes en los datos? Si es así, ¿cómo se representan, dónde ocurren y qué tan comunes
son?
Los datos rara vez son perfectos.
De hecho, la mayoría de los datos contienen errores de codificación, valores perdidos u otros tipos de
inconsistencias que dificultan el análisis a veces. Una forma de evitar riesgos potenciales es llevar a cabo un
análisis de calidad completo de los datos disponibles antes del modelado.
Los datos faltantes incluyen valores que están en blanco o codificados como falta de respuesta (como $ null
$,? O 999).
- Los errores de datos suelen ser errores tipográficos al ingresar los datos.
- Los errores de medición incluyen datos que se ingresan correctamente pero que se basan en un esquema
de medición incorrecto.
- Las incoherencias en la codificación generalmente involucran unidades de medida no estándar o

inconsistencias de valor, como el uso de M y de sexo masculino para el género.
- Los metadatos incorrectos incluyen desajustes entre el significado aparente de un campo y el significado
establecido en un nombre o definición de campo.
Cree un informe para documentar las actividades de comprensión de datos realizadas.
Este documento proporciona una descripción detallada de los datos que se utilizan para resolver el problema
del negocio.
El documento proporciona una vista de alto nivel de los datos recopilados, las propiedades brutas o de
superficie de los datos y las técnicas utilizadas para explorar los datos. La calidad de los datos también se
analiza en este documento.
¿Por qué es necesario Entender los Dato?
1. Los datos originales pueden tener diferentes problemas:
• Incompletos: valores vacíos o datos resumidos

• e.g., Diagnóstico=NA, Venta=50.000
• Con errores: valores que no coinciden con el dominio de la

empresa, registros con valores atípicos
• e.g., Salario=“-10”
• Inconsistentes: Discrepancias entre atributos o entre fuentes

de datos
• e.g., Edad=“42” FechaNacimiento=“03/07/1997”
• e.g., Calificación “1,2,3”, Calificación “A, B, C”
• e.g., Dirección: Cra 7 No 40-62 y en otra fuente Cra 7 No 45-39
20
¿Por qué es necesario Entender los Datos?
2. Las técnicas de analítica no funcionan o pueden viciarse si

se les entrega los datos de manera incorrecta.
21
¿Qué sucede si no se Entienden los Datos?
1. GIGO Garbage In Garbage Out

• Toma de decisiones basada en malas reglas y
estadísticas
2. No se puede ejecutar la técnica de analítica
22
¿Por qué los datos tienen problemas?
• Incompletos
• Atributos opcionales en el sistema de información
• Cuando se recolectó la información aún no estaba completa
• Problemas humanos
• Errores
• Falta de validaciones en el sistema de información
• Problemas humanos
• Errores en la transmisión de los datos
• Inconsistentes
• Datos provenientes de múltiples fuentes
• Fuentes de datos informales (excel)
23
Entendiendo los tipos de Datos:Tipo de dato a nivel conceptual
¿Qué tipo de exigencias hacen las técnicas de analítica?
Clasificación 1
• Numérico
Tienen orden y relación de distancia
D(2.3,4.2)=1.9
Datos numéricos: Todos los atributos de entrada

deben ser numéricos
• Categórico
Sólo puede afirmarse si son iguales o diferentes.
24
Clasificación 2 – Posibles valores

• Continua
Escala de intervalo: El punto 0 está localizado arbitrariamente. 0o Centígrados no indican que
no haya temperatura.
Escala de radio: El 0 es absoluto. Altura, Salario, …
• Discreta
Nominal (categórico): Es aquel dato que toma una etiqueta con propósitos de identificación,
no implica ni orden ni grupos. Ej: Tipo de parte.
Ordinal: El valor del dato además de definir su pertenencia a una categoría, brinda algún tipo
de orden entre las categorías así no indique claramente la cantidad en la que difiere una de
otra. Ej: Estado de mantenimiento (Iniciado, en proceso, terminado)
Periódica: tienen función de distancia pero no de orden. Días de la semana.
25
• Datos discretos
• Todos los atributos deben ser discretos
• Son medibles y los llamados variables
• Son los valores que toma la variable en cada caso
• Tienen un número limitado de posibles valores
• Se obtienen como resultado de un conteo
• Soporta numéricos pero funciona mejor con discretos
• Ejemplo: https://desktop.arcgis.com/es/arcmap/10.4/manage-data/raster-and-
images/discrete-and-continuous-data.htm
• No pueden ser fraccionados o decimales
26
• Datos normalizados
• Todos los atributos deben estar en la misma escala
• Datos sin registros atípicos

• Si hay registros atípicos se generan modelos errados
• Datos con atributos importantes

• Si le entrego muchos atributos el modelo obtenido no es generalizable
27
PREPARACIÓN DE LOS DATOS
La preparación de datos es uno de los aspectos más importantes y que a menudo requiere mucho tiempo
de la minería de datos. De hecho, se estima que la preparación de datos generalmente requiere del 50-70%
del tiempo y esfuerzo de un proyecto.
Es altamente dependiente de las actividades de "comprender los datos" y "entender el negocio", por lo que
dedicar la energía adecuada a estas actividades anteriores puede minimizar esta sobrecarga, pero aún
necesita gastar una buena cantidad de esfuerzo preparando y empaquetando los datos para la minería.
PREPARACIÓN DE LOS DATOS
Según la organización y sus objetivos, la preparación de datos generalmente implica lo siguiente:
• Combinación de conjuntos de datos y / o registros
• Selección de un subconjunto de datos de muestra
• Agregación de registros
• Derivación de nuevos atributos
• Clasificación de los datos para modelar
• Eliminación o reemplazo de espacios en blanco o faltantes valores
• División en conjuntos de datos de entrenamiento y prueba
ASUM: Preparación de Datos
ASUM: PREPARACIÓN DE LOS DATOS
Decida los datos que se utilizarán para el análisis. Los criterios incluyen relevancia para los
objetivos de minería de datos, calidad y restricciones técnicas, como límites en el volumen de datos
o tipos de datos. Tenga en cuenta que la selección de datos cubre la selección de atributos
(columnas), así como la selección de registros (filas) en una tabla.
Enumere los datos que se incluirán / excluirán y las razones de estas decisiones. Tenga en cuenta
lo siguiente:
¿Un atributo dado es relevante para sus objetivos de minería de datos?

¿La calidad de un determinado conjunto de datos o atributos impide la validez de sus resultados?
¿Puedes salvar esos datos?
¿Hay alguna restricción en el uso de campos particulares como el género o la raza?
Aumente la calidad de los datos al nivel requerido por las técnicas de análisis seleccionadas. Esto
puede implicar la selección de subconjuntos limpios de los datos, la inserción de valores
predeterminados adecuados o técnicas más ambiciosas, como la estimación de datos faltantes por
modelado.
Documente qué decisiones y acciones se tomaron para abordar los problemas de calidad de los
datos informados durante la tarea Verificar la calidad de los datos de la actividad Comprender datos.
Se deben considerar las transformaciones de los datos para fines de limpieza y el posible impacto
en los resultados del análisis. Considere también las siguientes preguntas al crear su
documentación:
¿Qué tipos de ruido ocurrieron en los datos?

¿Qué enfoques usaste para eliminar el ruido? ¿Qué técnicas fueron exitosas?
¿Hay algún caso o atributo que no se pueda rescatar? Asegúrese de anotar los datos excluidos
debido al ruido.
Esta tarea incluye operaciones constructivas de preparación de datos, como la producción de

atributos derivados o registros completos nuevos, o valores transformados para atributos existentes.
Es frecuente que necesite construir nuevos datos.

Por ejemplo, puede ser útil crear una nueva columna que marque la compra de una garantía
extendida, por ejemplo, cada transacción.
Hay dos formas de construir nuevos datos:
• Derivar atributos (columnas o características)

Los atributos derivados son atributos nuevos que se construyen a partir de uno o más atributos
existentes en el mismo registro. Ejemplo: área = longitud * ancho.
• Generando registros (filas)

Generar registros describe la creación de registros completamente nuevos. Ejemplo: crear
registros para los clientes que no compraron durante el año pasado. No había ninguna razón
para tener tales registros en los datos brutos, pero para fines de modelado podría tener sentido
representar explícitamente el hecho de que ciertos clientes realizaron cero compras.
Estos son métodos mediante los cuales la información se combina de múltiples tablas o registros
para crear nuevos registros o valores.
Fusionar tablas se refiere a unir dos o más tablas que tienen información diferente sobre los mismos
objetos. Ejemplo: una cadena minorista tiene una tabla con información sobre las características
generales de cada tienda (p. Ej., Superficie, tipo de centro comercial), otra tabla con datos
resumidos de ventas (por ejemplo, ganancias, cambio porcentual en ventas del año anterior) y otra
con información sobre la demografía de los alrededores. Cada una de estas tablas contiene un
registro para cada tienda. Estas tablas se pueden fusionar en una nueva tabla con un registro para
cada tienda, combinando campos de las tablas de origen.
Los datos fusionados también cubren agregaciones.

• La agregación se refiere a operaciones en las que se computan nuevos valores al resumir
información de múltiples registros y / o tablas. Por ejemplo, convirtiendo una tabla de compras de
clientes donde hay un registro para cada compra en una nueva tabla donde hay un registro para
cada cliente, con campos como el número de compras, el monto promedio de la compra, el
porcentaje de pedidos cargados a la tarjeta de crédito, por ciento de artículos bajo promoción,
etc.
Las transformaciones de formateo se refieren principalmente a las modificaciones sintácticas

realizadas en los datos que no cambian su significado, pero que pueden ser requeridas por la
herramienta de modelado.
Como último paso antes de “conducir el modelamiento”, es útil verificar si ciertas técnicas requieren
un formato u orden particular para los datos. Por ejemplo, no es raro que un algoritmo de secuencia
requiera que los datos sean predichos antes de ejecutar el modelo. Incluso si el modelo puede
realizar la clasificación por usted, puede ahorrar tiempo de procesamiento para usar un “Ordenar”
antes del modelado.
Considere las siguientes preguntas al formatear datos:

• ¿Qué modelos planeas usar?
• ¿Estos modelos requieren un formato de datos u orden en particular?
Crear un informe que detalle las actividades de preparación de datos
Este documento proporciona una descripción detallada de las actividades de preparación de datos
realizadas para preparar los datos para la actividad de modelado.
MacroProcesos en la Preparación de Datos
1.
Recopilar
los datos
4. Crear la 2.
vista Preparación Explorar y
minable de Datos visualizar
los datos
3. Limpiar
los datos
41
Preparación de datos
Objetivos
A. Obtención de la mayor cantidad de datos útiles para el
proyecto de analítica
1. Recopilación de datos
B. Eliminación del mayor número de datos erróneos o
inconsistentes e irrelevantes
2. Exploración y visualización
3. Limpieza de datos
C. Presentación de los datos de una manera apropiada para la
minería.
4. Creación de vista minable
42
MacroProcesos en la Preparación de Datos
1. Recopilar los datos

• Obtener acceso a los datos relevantes para el proyecto y dejarlos disponibles
para ser explorados
• Documentar los datos obtenidos
2. Explorar y Visualizar los datos
• Identificar metadatos que permitan conocer en detalle los datos y así
identificar datos susceptibles de ser omitidos, limpiados, mejorados o
enriquecidos
• Generar resumen de los datos de manera estructurada y visualmente
43
MacroProcesos Entendimiento y Preparación de Datos
3. Limpiar los datos

• Remover o completar valores faltantes, suavizar datos con ruido, identificar o
remover datos atípicos o inconsistentes.
4. Crear la vista minable
• Transformar los datos para que generen mejores resultados de análisis
• Dejar los datos en el formato requerido por la herramienta de análisis que se
va a utilizar.
44
1.
Recopilar
los datos
• Inventario de fuente de datos

4. Crear la 2. • Documentación de cada fuente de datos
vista Preparación Explorar y
minable de Datos visualizar • Extracción, Transformación y Carga en el repositorio
los datos analítico
3. Limpiar
los datos
45
Inventario de fuentes de datos
• Fuente de datos (internos o externos)

• Dueño
• Responsable de mantenimiento de datos
• DBA
• Costo
• Tipo de almacenamiento (Base de datos, archivo plano, etc.)
• Número de tablas, atributos, registros, etc.
• Tamaño en bytes
• Almacenamiento físico (servidor interno, servidor externo, etc.)
• Requerimientos de seguridad
• Restricciones de uso
• Requerimientos de privacidad
46
Inventario de fuente de datos
• Ejemplos de fuentes
• ERP, sistemas de información empresariales
• Compras, devoluciones, PQR
• Comportamiento en portal
• Videos de cámaras de seguridad
• Información de seguimiento GPS
• Información de salud
• Interacción con redes sociales
Priorizar
Tener Acceso
Repositorio Analítico
BD
Relacionales
Repositorio
Archivos planos
1.
Recopilar
los datos
• Visualización
4. Crear la 2.
vista Preparación Explorar y • Generación de resumen descriptivo de los datos
minable de Datos visualizar
los datos
3. Limpiar
los datos
49
Exploración Inicial
• Ingeniería de datos reversa, perfilamiento de datos

• Permite identificar variación y calidad de cada atributo de la
fuente de datos
¿Para atributos continuos qué podemos explorar?
• Min, max, media, desviación, moda
• Distribución univariada
• Atípicos
• Faltantes
• ¿Para atributos discretos qué podemos explorar?
• Valores
• Frecuencia de cada valor, moda
• Faltantes
• Relaciones entre atributos
• Tabulaciones cruzadas: Análisis de Tablas de contingencia.
• Correlaciones
Documentación de cada fuente de datos
• Número y nombre de atributos

• Porcentaje de registros con datos perdidos.
• Por cada atributo:
Obtención automática Obtención a partir de experto

1. Tipo de dato a nivel de almacenamiento 1. Tipo de datos a nivel conceptual
2. Tabla Origen 1. Definición
3. Contiene valores únicos (todos son 2. Unidad de medida
distintos) 3. Lista de posibles valores
4. Contiene un único valor (todos son el 4. Rango de posibles valores
mismo)
5. Lista de valores reales
6. Rango de valores reales
7. Min, Max, Moda, Desv. Estándar
8. Número de registros con valores nulos
51
Tipo de dato a nivel de almacenamiento (mysql)
char(n). Cadena de caracteres de longitud fija.
varchar(n). Cadenas de caracteres de longitud variable.
int. Entero.
smallint. Entero pequeño.
numeric(p,d). Número en coma fijo, con la precisión especificada por el usuario de p dígitos, con d
dígitos a la derecha del punto decimal.
real, double precision. Números en coma flotante y números en coma flotante de doble precisión,
con precisión dependiente de la máquina.
float(n). Número en coma flotante, con precisión especificada por el usuario de al menos n dígitos.
Tipo de dato a nivel de almacenamiento
date. Fechas, contiene un año (4 dígitos), mes y día

• Por ejemplo date ‘2001-7-27’
time. Hora del día, en horas, minutos y segundos.
• Por ejemplo time ’09:00:30’ time ’09:00:30.75’
timestamp. fecha y hora del día
• Por ejemplo timestamp ‘2001-7-27 09:00:30.75’
interval. periodo de tiempo
• Por ejemplo interval ‘1’ día
• Al substraer un valor de fecha-hora y fecha-hora de otro da un valor de intervalo
• Los valores del intervalo se pueden añadir a los valores de date/time/timestamp
Exploración Inicial – Tabla resumen
Atributo Tabla Tipo de dato Tipo de dato # nulos # distintos Media Desviación Moda Min Max Valores
Almacenamiento conceptual Estandar
Edad Cliente Integer Numérico 10 40 38 12 34 18 87 -
Sexo Cliente String Nominal 0 3 - - F - - F,M
VIP Cliente Integer Nominal 0 2 - - 0 - - 0,1

Ejercicio 1
1. Cargar Datos NHANES2009-2012 en Rapid Miner

(Readcsv)
2. Declarar el valor usado para datos faltantes: NA
(DeclareMissingValue)
3. Remover Datos Inútiles (RemoveUnusedValues)
4. Reconocer los atributos que contienen números
(ParseNumber)
5. Realizar exploración inicial de los datos
Ejercicio 1
https://docs.rapidminer.com/8.0/studio/operators/c
leansing/missing/declare_missing_value.html
https://docs.rapidminer.com/8.0/studio/operators
/cleansing/missing/declare_missing_value.html
https://docs.rapidminer.com/latest/studio/operators/blendi
ng/attributes/selection/remove_useless_attributes.html
Inputs/Outputs
mod = Model
unl = Unlabelled data
lab = Labelled data
exa = Example set
ori = Original data
https://docs.rapidminer.com/latest/studio/operators/blend
pre = preprocessing
ing/attributes/selection/remove_useless_attributes.html
Ejercicio 1
1. Visualizar
a. Scatter
• X:SexNumberPartnerYear, Y:Age, Color:
Gender
• Libre
b. Scatter Multiple
• X:HHincomeMid, Y: diabetesAge, Age1stBaby
• Libre
Ejercicio 1
1. Visualizar
a. AdvanceChart
• DomainDimension SmokeAge
• ColorDimension HHIncomeMid
• NumericalAxis AgeFirstMarij
b. Libre
Exploración de los datos
• Objetivo
• Entender mejor : Tendencia central de los datos, variación y dispersión
• Características de la dispersión de los datos

• media, max, min, cuantiles, atípicos, varianza, …
• Atributos numéricos que corresponden con intervalos ordenados
• Dispersión de los datos: analizados con múltiples granularidades de precisión
• Análisis Boxplot o cuantiles en intervalos ordenados
• Análisis de nominales
• Frecuencias, distribución
Conceptos básicos
• Población
Una población es individuo o grupo que representa todos
los miembros de cierto grupo o categoría de interés.
• Muestra
Una muestra es un subconjunto extraído de una población Muestra (n = 4)
más grande.
• Parámetro
Un parámetro es un valor generado o aplicado a una
población.
• Estadísticas
Población (N = 11)
Son valores derivados desde la muestra de datos, mientras
que los parámetros son valores que son derivados o
aplicados a los datos de la población.
Conceptos básicos
• Ejemplo:
Quiero conocer el promedio de los ingresos de los empleados de tiempo completo actuales en
Google.
Hay dos formas para encontrar este promedio.
1. Podría obtener la lista de todos los empleados de tiempo completo de Google y encontrar los
ingresos anuales de cada miembro de la lista. Esto es posible porque la lista contiene a cada
miembro del grupo de interés, el cual puede ser considerado una población.
Si yo recolectara estos datos y calculara la media (mean), entonces podría haber generado un
parámetro.
2. Otra forma de generar el ingreso medio de los empleados a tiempo completo en Google sería
seleccionar al azar un subconjunto de nombres de empleados de mi lista y calcular el ingreso
promedio de este subconjunto. Este subconjunto es conocido como una muestra, en este caso
muestra aleatoria. Y la media que genero a partir de esta muestra es un tipo de estadística.
Medidas de Tendencia Central
• Distribución
si toma los puntajes en una variable y los ordena en orden de menor a mayor, obtendrá una distribución de puntajes.
• Media (mean)
Es el promedio aritmético de una distribución de puntajes. Esta no indica nada acerca de cómo están esparcidos o
extendidos dichos puntajes (i.e. varianza), o cómo muchos puntajes in la distribución están cerca a la media.
• Mediana (median)
Es el puntaje en la distribución que marca el percentil 50th. Esto es, el 50 por ciento de los puntajes en la distribución
caen por encima de la mediana y el 50 por ciento caen por debajo.
• Valor medio si el número de valores es impar
• la media de los dos valores centrales si es par
La media también es una estadística útil para examinar cuándo los puntajes en una distribución están sesgados o
cuándo hay algunas puntuaciones extremas en lo alto y lo bajo de la distribución.
• Moda (mode)
Indica cuál puntaje (valor) ocurre más frecuentemente o tiene la más alta frecuencia.
Medir la tendencia central
• Media - Promedio (medida algebráica) :

• Media aritmética:
• Media ponderada:
La media es muy sensible a

variables que no estén
• Media truncada: cortar valores extremos (2%) balanceadas en ambos lados.
63
Ejemplo
Supongamos que tenemos la siguiente distribución del IQ test de 10 estudiantes.
86 90 95 100 100 100 110 110 115 120
---------------------------------------------------------------------------------------------------------
Media = (86 + 90 + 95 + 100 + 100 + 100 + 110 + 110 + 115 + 120) /10 = 102.6
---------------------------------------------------------------------------------------------------------
Median = 86 90 95 100 100 100 110 110 115 120 n es par
(100 + 100) / 2 = 100
---------------------------------------------------------------------------------------------------------
Moda = 100 (el valor que más se repite).
64
Ejercicio Media y Mediana
• Calcular media y mediana de :
Media Mediana Media Mediana Media Mediana

30 30 5 5 5 5
36 36 36 36 6 6
47 47 47 47 7 7
50 50 50 50 8 8
52 52 52 52 9 9
52 52 52 52 10 10
56 56 56 56 11 11
60 60 60 60 12 12
63 63 63 63 13 13
70 70 70 70 14 14
70 70 70 70 400 400
110 110 303 303 537 537
Ejercicio Media y Mediana
• Calcular media y mediana de :

Media Mediana Media Mediana Media Mediana
30 30 5 5 5 5
36 36 36 36 6 6
47 47 47 47 7 7
50 50 50 50 8 8
52 52 52 52 9 9
52 52 52 52 10 10
56 56 56 56 11 11
60 60 60 60 12 12
63 63 63 63 13 13
70 70 70 70 14 14
70 70 70 70 400 400
110 110 303 303 537 537
58 54 72 54 86 10.5
Cómo interpretar el valor?

• Mediana: Medida holística

• Estimada por interpolación (para datos agrupados):
N es el número de valores
L1 es el límite inferior del grupo donde se encuentra la mediana
Freq es la suma de las frecuencias de todos los grupos menores al grupo donde se encuentra la mediana
freqmedian es la frecuencia del intervalo donde está la mediana
Width amplitud del intervalo donde está la mediana
67
Mediana por interpolación
fi Fi N 100 N/2=50
L1 66
[60, 63) 5 5 Freq 23
[63, 66) 18 23 freqmedian 42
[66, 69) 42 65 Width 3
[69, 72) 27 92
[72, 75) 8 100
Mediana= 66+((50-23)/42)*3=67,93
100
• Modos
Si una distribución tiene más de una categoría con el puntaje más común,
la distribución tiene múltiples modos y es llamada multimodal.
• Unimodal, bimodal, trimodal
• Fórmula empírica para datos unimodales:
69
• Ejemplo
Si tuviera que preguntar a una muestra de 100 personas cómo se sentían acerca
de la pena capital, podría obtener los resultados que se presentan a continuación.
En la siguiente escala, por favor indicar como usted se siente acerca de la pena
capital.
1---------------2---------------3--------------4---------------5
Fuertemente Opuesto (FO) Apoyo Total (AT)
Resultados
Frecuencia de respuestas a “como usted se siente acerca de la pena capital”.
Categoría de respuesta en la escala dada
1 (FO) 2 3 4 5 (AT)
Frecuencia de
Respuesta 45 3 4 3 45
en cada categoría
70
Datos Simétricos Vs. Datos Asimétricos
• Media, mediana y moda de datos simétricos, asimétricos positivos (sesgo positive –

asimetría a la derecha de la media), n(sesgo negative – asimetría a la izquierda de la
media)
Sesgo: Mide la cola

Sesgo moderado -1 y -0.5 o 0.5
Aproximadamente simétrica
Entre -0.5 y 0.5
Sesgo negativo < -1
Sesgo positivo > +1
Fallecidos por infarto
Sesgo a la izquierda o sesgo negativo

Métricas de forma (sin gráficar)
• Kurtosis: Grado de concentración de los valores alrededor de la zona central de la distribución. Mide el
pico.
• Positivo: mas datos cerca a la media
• Negativo: menos datos cerca a la media
MEDIDAS DE VARIABILIDAD
Medir la dispersión de los datos – Métricas útiles
• Rango
Es la diferencia entre el máximo valor y el mínimo valor de una distribución
• Varianza
La varianza proporciona un promedio estadístico de la cantidad de dispersión en una distribución de puntajes. Es usada comúnmente como un
paso en el cálculo de otras estadísticas.
• Desviación Estándar
La mejor manera de entender una desviación estándar es considerar lo que significan las dos palabras.
• Desviación, es este caso, se refiere a la diferencia entre un puntaje individual en una distribución y el puntaje promedio de la distribución.
Entonces, si el puntaje promedio para una distribución es 10, y un niño individual tiene un puntaje de 12, la desviación es 2.
• Estándar, significa lo típico o promedio.
Entonces, una desviación estándar es más o menos la típica, o promedio desviación entre puntajes individuales en una distribución y la media
de la distribución.
MEDIDAS DE VARIABILIDAD
Varianza
La desviación típica o desviación estándar (denotada con el símbolo σ o s, dependiendo

de la procedencia del conjunto de datos) es una medida de dispersión para variables de
razón (variables cuantitativas o cantidades racionales) y de intervalo.
Se define como la raíz cuadrada de la varianza de la variable.y indica qué tan alejados
están los valores de la media
La desviación está en las unidades de la variable a la cual se le está midiendo la

dispersión.
Propiedades de la curva de distribución normal
• De μ–σ a μ+σ: contiene cerca del 68% de las observaciones

(μ: media, σ: desviación estandar)
• De μ–2σ a μ+2σ: contiene cerca del 95% de las observaciones
• De μ–3σ a μ+3σ: contiene cerca del 99.7% de las observaciones
Ejercicio 2
1. Duplicar el conjunto de datos (Multiply)

2. Generar de AlcoholDay (Aggregate)
a. Media, Mediana, Moda, Desviación Estándar
3. Filtrar los registros que tienen Nulo en AlcoholDay
(FilterExamples/Custom: isNotMissing)
Ejercicio 2
1. Graficar
a. Histograma : AlcoholDay
2. Comparar de AlcoholDay
a. Media, Mediana, Moda, Desviación Estándar
1. Range: Diferencia entre el Max y el Min
2. Cuantiles: Son los puntos tomados en intervalos regulares que dividen esencialmente los datos
en conjuntos consecutivos de igual tamaño.
A. Mediana: El 2-cuantil es el punto que divide la primera mitad de la segunda mital de los
datos (la mediana)
B. Cuartiles: Los 4-cuantil son los tres puntos que dividen los datos en cuatro partes iguales.
“El término cuantil se refiere a las medidas de posición no central que me permiten
reconocer otros puntos característicos de la distribución los cuales no son centrales.
• Q1 (25th percentil), Q3 (75th percentil)

C. Percentiles, Los 100-cuantiles dividen los datos en 100 partes iguales
3. Interquartile range : IQR = Q3 – Q1

Cómo calcular el Rango Intercuantil
Esencialmente, se trata de una

forma de comprender la
propagación o "dispersión" de un
conjunto de números
Dataset
Cómo calcular el Rango Intercuantil
Dataset 1 Dataset 2
Ejercicio
Cuál es el rango intercuatílico de los siguientes

datos:
Datos
1 30
2 36
3 47
4 50
5 52
6 52
7 56
8 60
9 63
10 70
11 70
12 110
IQR=16
5 métricas resumen para medir dispersión
Min, Q1, Mediana, Q3, Max
Datos posiblemente inconsistentes o atípicos:
1.5 × IQR arriba del Q3

1.5 × IQR abajo del Q1
Visualización de métricas resumen de dispersión
Atípicos
Más
grandes Q3
IQR
Mediana
Más
pequeños Q1
Atípicos
Más
grandes
Q3
IQR
Mediana
Más
pequeños
Q1
Ejercicio 3
1. Graficar usando Quartiles el Age y el AlcoholDay

2. Reemplazar valores faltantes de todos por el Average
(ReplaceMissingValues)
3. Visualizar los Quartiles de todos los atributos
Visualización de distribuciones
• Histogramas
• Gráficos de dispersión
• Quantile plot
• Quantile-quantile plot
Histogramas de frecuencia
Fórmula de Sturges para

definir cuántos subrangos:
N° de clases = 1 + 3.332 log N

Gráficos de dispersión
Gráficos de dispersión – Correlación
Correlación Positiva Correlación Negativa Sin Correlación

Gráficos de dispersión
Quantile Plot q-plot
Quantile Quantile Plot qq-plot
¿Quién vende más caro?

Correlación
Para recordar
Tipo Orden Escala Tendencia Dispersión Forma

Central
Nominal No No Moda _ _
Ordinal Sí No Mediana Cuantiles _
Continuo Sí Sí Media y Rango, Sesgo
mediana IQR, (cola),
varianza, curtosis
desviación (pico)
estándar
Documentación adicional
• ¿Qué periodos históricos se tienen registrados?

• Datos están originales o anonimizados
• ¿Cuáles de los datos se pueden conocer al momento de tomar la
decisión? (en clasificación, estimación y predicción)
• ¿Los datos se pueden usar en tiempo real?
98
Preguntas?
Gracias
pomares@javeriana.edu.co
99
Referencias
• Dorian Pyle. 1999. Data Preparation for Data Mining (1st ed.). Morgan Kaufmann
Publishers Inc., San Francisco, CA, USA.
• Daniel Larose, Chantal Larose. 2015. Data Mining and Predictive Analytics. Wiley.
• Kantardzic M. 2011. Data Mining: concepts, methods and algorithms. 2ª edición.
Willey.
• Jiawei Han. 2012. Data Mining: Concepts and Techniques 3ra Edición. Morgan
Kaufmann Publishers Inc., San Francisco, CA, USA.
• Peter Flach. 2016. Machine Learning: The art and science of algorithms that make
sense of data, Cambridge
• http://www.statmethods.net/graphs/scatterplot.html
• https://cran.r-project.org/web/packages/stargazer/vignettes/stargazer.pdf

1 IntroducciónPreparacióndeDatos PDF

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

1 IntroducciónPreparacióndeDatos PDF

Cargado por

Copyright:

Formatos disponibles

PREPARACIÓN Y

• Generar reportes estructurados

Los datos provienen de una variedad de fuentes, tales como:

1. Cargar Datos NHANES2009-2012 en Rapid Miner

- ¿Qué atributos (columnas) de la base de datos parecen más prometedores?

- ¿Qué atributos parecen irrelevantes y pueden excluirse?

- ¿Hay demasiados atributos para su método de modelado de elección?

- ¿Qué atributos (columnas) de la base de datos parecen más prometedores?

- ¿Qué atributos parecen irrelevantes y pueden excluirse?

- ¿Hay demasiados atributos para su método de modelado de elección?

Características clave a abordar cuando se describen datos:

• La cantidad de datos. Para la mayoría de las técnicas de modelado, existen compensaciones

Características clave a abordar cuando se describen datos:

Examine la calidad de los datos, abordando preguntas tales como:

- ¿Están completos los datos (cubre todos los casos requeridos)?

Los datos rara vez son perfectos.

- Las incoherencias en la codificación generalmente involucran unidades de medida no estándar o

Cree un informe para documentar las actividades de comprensión de datos realizadas.

1. Los datos originales pueden tener diferentes problemas:

• Incompletos: valores vacíos o datos resumidos

• Con errores: valores que no coinciden con el dominio de la

• Inconsistentes: Discrepancias entre atributos o entre fuentes

2. Las técnicas de analítica no funcionan o pueden viciarse si

1. GIGO Garbage In Garbage Out

2. No se puede ejecutar la técnica de analítica

Datos numéricos: Todos los atributos de entrada

Clasificación 2 – Posibles valores

• Datos sin registros atípicos

• Datos con atributos importantes

¿Un atributo dado es relevante para sus objetivos de minería de datos?

¿Qué tipos de ruido ocurrieron en los datos?

Esta tarea incluye operaciones constructivas de preparación de datos, como la producción de

Es frecuente que necesite construir nuevos datos.

Hay dos formas de construir nuevos datos:

• Derivar atributos (columnas o características)

• Generando registros (filas)

Los datos fusionados también cubren agregaciones.

Las transformaciones de formateo se refieren principalmente a las modificaciones sintácticas

Considere las siguientes preguntas al formatear datos:

Crear un informe que detalle las actividades de preparación de datos

1. Recopilar los datos

3. Limpiar los datos

• Inventario de fuente de datos

• Fuente de datos (internos o externos)

• Ingeniería de datos reversa, perfilamiento de datos

• Número y nombre de atributos

Obtención automática Obtención a partir de experto

char(n). Cadena de caracteres de longitud fija.

varchar(n). Cadenas de caracteres de longitud variable.

smallint. Entero pequeño.

date. Fechas, contiene un año (4 dígitos), mes y día

Edad Cliente Integer Numérico 10 40 38 12 34 18 87 -

Sexo Cliente String Nominal 0 3 - - F - - F,M

VIP Cliente Integer Nominal 0 2 - - 0 - - 0,1

1. Cargar Datos NHANES2009-2012 en Rapid Miner

• Características de la dispersión de los datos

Hay dos formas para encontrar este promedio.

• Media - Promedio (medida algebráica) :

La media es muy sensible a

Supongamos que tenemos la siguiente distribución del IQ test de 10 estudiantes.

86 90 95 100 100 100 110 110 115 120

Median = 86 90 95 100 100 100 110 110 115 120 n es par