Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Preparación de Datos - 2020
Preparación de Datos - 2020
Información Irrelevante:
• Nombre
• Teléfono
• Dirección
• Documento de Identificación
2. Eliminar variables irrelevantes y
redundantes
• Eliminar variables redundantes:
Variables numéricas/categóricas:
– Edad
– Mayor de edad={si, no}
ELIMINAR REDUNDANCIAS
3. Descripción Estadística de Datos
• Variables numéricas: estadística descriptiva y
visualización con histogramas de frecuencia, cajas de
bigote, dispersión.
Edad
Edad
Reprobó
4. Limpieza de Datos
• Registros duplicados
ELIMINAR
UNIR
4. Limpieza de Datos
• Datos atípicos (outliers): valores por fuera del rango
esperado.
Día de la semana
Festivo
Quincena
Matriz de covarianzas
ó
Matriz de correlaciones
7. Reducción de Variables
• Análisis de Componentes Principales: reducción de
dimensión (menos variables):
Matriz de covarianzas
ó
Matriz de correlaciones
8. Balanceo de Datos (clasificación)
• Selección aleatoria de datos
Aprobó
Reprobó
Reprobó
9. Transformación de Tipo de Dato según el
Método
Sensorial
Activo
Visual
Visual
equilibrio
Weka
File: aprobacion_curso.arff
1. Integración y Representación de
datos en Weka
d) Adicionamos la descripción de atributos
1. Integración y Representación de
datos en Weka
@relation aprobacion_curso
% Tipos de atributos: numeric, integer, date, string, enumerate{a,b,c}
@attribute Id integer
@attribute Estrato{1,2,3,4,5}
@attribute Sexo{F,M}
@attribute Enfermedad{SI,NO}
@attribute Colegio_U{SI, NO}
@attribute Activo_web{ALTA, MEDIA, BAJA}
@attribute Asistencia numeric
@attribute Entregas_completas numeric
@attribute Trabaja{SI, NO}
@attribute Examen_Final{APROBADO, DESAPROBADO}
@data
Eliminar
variables
3. Estadística descriptiva
Estadística
descriptiva
Ver
histogramas
4. Limpieza
5. Creación de nuevas variables
6. Correlaciones: Entre variables
(Valor esperado menor a 0.7)
maximumAttributeNames: máxima
cantidad de atributos a incluir en nuevas
variables.
transformBackToOriginal: True si se
evalúan los atributos iniciales. False si
evalúan nuevas variables como combinación
de atributos.
• Clase a balancear
• Vecinos
• Cuantos datos quiero
aumentar?
9. Transformación: Discretize
Conversión de variable numérica a categórica.
Filtro: unsupervised/attribute/discretize
• Número de atributo a
discretizar
• Cantidad de categorías
• Ignorar si el atributo es la
clase a predecir
9. Transformación: Categoría a número
Niño -> 0
Adulto -> 1
Sensorial
Activo
Visual
Visual
equilibrio
AUTOMÁTICA EN WEKA