Documentos de Académico
Documentos de Profesional
Documentos de Cultura
a) Formular Problema
o pasar de cualquier tarea a una de análisis de datos (clasificación, clustering…)
o subdividir un problema en subproblemas de clasificación.
8
4. SELECCIÓN DE DATOS DE ENTRADA Y PRE-PROCESAMIENTO
- Selección de Datos
o aleatoriamente
o los que se parecen más entre sí
o los que se diferencian más entre sí
o según alguna distribución
o los que están en las fronteras entre las clases
o los que tienen mayores errores de clasificación se tratan más veces (boosting)
o Incremental: incorporar sucesivamente datos de un conjunto reserva
- Pre-procesamiento
o Datos
§ Reducción ruido
§ Tratamiento de valores desconocidos
§ Quitar outliers
§ Rebalanceo
o Atributos
§ Normalización (rango 0-1)
§ Codificación one-hot
§ Creación de atributos derivados
5. SELECCIÓN DE ATRIBUTOS
Técnicas
9
- Técnicas “Filter”: clasifica características mediante una función que evalúa cada una asignándole
un valor. Las que obtengan más valoración serán más significativas.
Ej1: sexo correlacionado con gusto fútbol; DNI no. Ej2: salario correlacionado con devolver crédito.
Ej: problema de clasificación de textos en 2 clases “informática” y “filosofía” con atributos booleanos
“inteligencia” y “artificial”, ciertos si esas palabras aparecen en el texto; falsos en caso contrario. Por
separado, no permiten distinguir entre informática y filosofía. El objetivo de la selección de atributos
es encontrar el subconjunto relevante.
10
6. EXTRACCIÓN DE ATRIBUTOS: PCA
§ Características Pi:
o Independientes entre sí.
o Ordenados según su relevancia (o contenido informacional)
o Cada atributo Pi = ki1 · x1 + ki2 · x2 + … + kin · xn à Construye nuevos atributos a partir de la
combinación lineal de los anteriores.
- Ventajas: puede determinar la dimensionalidad “real” de los datos (ej: imaginar datos en forma
de elipse de 2 dimensiones embebida en 20 dimensiones. PCA identificará fácilmente que con
sólo 2 dimensiones se explica toda la varianza)
- Desventajas: método no supervisado. Puede eliminar atributos que pueden ser necesarios para
discriminar bien las clases.
11