Resumenes Machine Learning 2

TEMA 2: ASPECTOS METODOLÓGICOS
1. PROCESO DE ANÁLISIS DE DATOS
- Requiere más pasos que el uso de un algoritmo inductivo.

- Actividades usuales
o Selección
§ datos de entrada
§ atributos y valores
§ algoritmo
§ parámetros
o Ejecución de algoritmo
o Análisis de resultado
o Visualización
2. METODOLOGÍA (LANGLEY Y SIMON, 98)
a) Formular Problema
o pasar de cualquier tarea a una de análisis de datos (clasificación, clustering…)
o subdividir un problema en subproblemas de clasificación.
b) Determinar Representación (atributos y clases)

o directamente
o hablando con expertos
o a partir de otras técnicas (filtros)
c) Recolectar Datos de Entrenamiento

d) Analizar Datos
e) Evaluar lo aprendido
o validación cruzada
o expertos
f) Desarrollar, aplicar e integrar la base de conocimiento resultante
3. CROSS INDUSTRY STANDARD PROCESS FOR DATA MINING (CRISP-DM)
Metodología de desarrollo de procesos de minería de datos
8
4. SELECCIÓN DE DATOS DE ENTRADA Y PRE-PROCESAMIENTO
- Selección de Datos
o aleatoriamente
o los que se parecen más entre sí
o los que se diferencian más entre sí
o según alguna distribución
o los que están en las fronteras entre las clases
o los que tienen mayores errores de clasificación se tratan más veces (boosting)
o Incremental: incorporar sucesivamente datos de un conjunto reserva
- Pre-procesamiento
o Datos
§ Reducción ruido
§ Tratamiento de valores desconocidos
§ Quitar outliers
§ Rebalanceo
o Atributos
§ Normalización (rango 0-1)
§ Codificación one-hot
§ Creación de atributos derivados
5. SELECCIÓN DE ATRIBUTOS
- Reducción dimensionalidad datos

- Algunos atributos pueden ser redundantes (ej: salario, categoría social)
o ralentiza aprendizaje
o confunden a clasificadores
- Irrelevantes (ej: DNI para saber si una persona va a devolver un crédito)
- Maldición dimensionalidad: nº datos necesarios para construir un modelo predictivo (sin
sobreadaptarse) puede crecer exponencialmente con el nº de dimensiones (atributos)
- A veces es útil tener el conocimiento de los atributos relevantes para una tarea.
- Menos atributos = modelo más simple y fácil de entender
Técnicas
- Ranking/filtrado Atributos (Filter): ordenarlos según X criterio, mirando características.

- Selección Subconjuntos (Wrapper): buscar en el espacio de los conjuntos de atributos.
Búsqueda: cualquier técnica de búsqueda
Evaluación: correlación, entropía, información mutua…
Criterio de Parada: porcentaje, umbral, iteraciones…
9
- Técnicas “Filter”: clasifica características mediante una función que evalúa cada una asignándole
un valor. Las que obtengan más valoración serán más significativas.
- Orden de menor a mayor à mayores utilizadas en método de aprendizaje.

- Dados atributos A1, A2, …., An à evalúa cada Ai independiente, calculando medidas de correlación
del atributo con la clase.
- Atributo A1 correlacionado clase à conocer valor implica poder predecir clase.
Ej1: sexo correlacionado con gusto fútbol; DNI no. Ej2: salario correlacionado con devolver crédito.
- Criterios evaluación atributos: entropía (information gain) à árboles decisión; Chi-Score; F-

Score...
- Ventajas: rápido; gran capacidad de generalización

- Desventajas: no elimina atributos redundantes ni detecta atributos que funcionan bien
conjuntamente pero mal de manera separada.
- Técnicas “Wrapper”: 2 atributos por separado no dan información, juntos sí.
Ej: problema de clasificación de textos en 2 clases “informática” y “filosofía” con atributos booleanos
“inteligencia” y “artificial”, ciertos si esas palabras aparecen en el texto; falsos en caso contrario. Por
separado, no permiten distinguir entre informática y filosofía. El objetivo de la selección de atributos
es encontrar el subconjunto relevante.
IF inteligencia=si THEN ?; IF artificial=si THEN ?

Pero juntos sí:
IF inteligencia=si Y artificial=si THEN “informática”
- Búsqueda Exhaustiva: método preciso.

- Búsqueda en espacio de estados de conjuntos de atributos
- Comenzar por
o conjunto atributos entrada completo
o conjunto vacío de atributos
- Evaluación de cada nodo (subconjunto de atributos): llamando al algoritmo inductivo.
- Evalúan subconjunto de atributos ejecutando algoritmo de entrenamiento de modelos
sobre conjunto de datos (sólo con columnas a evaluar)
- Obtienen subconjuntos de atributos adecuados para un algoritmo concreto.
- Ventaja: evalúan atributos de los subconjuntos conjuntamente.

- Desventaja: lentos (ejecutar algoritmo de aprendizaje muchas veces)
10
6. EXTRACCIÓN DE ATRIBUTOS: PCA
Análisis de componentes principales (PCA: Principal Component Analysis)
- Funciona con atributos numéricos.

- Proyección del espacio de atributos original a 1 reducido:
x1, x2, …, xn → P1, P2, …, Pp donde p ≤ n
§ Características Pi:
o Independientes entre sí.
o Ordenados según su relevancia (o contenido informacional)
o Cada atributo Pi = ki1 · x1 + ki2 · x2 + … + kin · xn à Construye nuevos atributos a partir de la
combinación lineal de los anteriores.
- La ordenación permite elegir un número “m” de características o atributos relevantes.
- Ventajas: puede determinar la dimensionalidad “real” de los datos (ej: imaginar datos en forma
de elipse de 2 dimensiones embebida en 20 dimensiones. PCA identificará fácilmente que con
sólo 2 dimensiones se explica toda la varianza)
- Desventajas: método no supervisado. Puede eliminar atributos que pueden ser necesarios para
discriminar bien las clases.
11

Resumenes Machine Learning 2

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Resumenes Machine Learning 2

Cargado por

Copyright:

Formatos disponibles

TEMA 2: ASPECTOS METODOLÓGICOS

1. PROCESO DE ANÁLISIS DE DATOS

- Requiere más pasos que el uso de un algoritmo inductivo.

2. METODOLOGÍA (LANGLEY Y SIMON, 98)

b) Determinar Representación (atributos y clases)

c) Recolectar Datos de Entrenamiento

f) Desarrollar, aplicar e integrar la base de conocimiento resultante

3. CROSS INDUSTRY STANDARD PROCESS FOR DATA MINING (CRISP-DM)

Metodología de desarrollo de procesos de minería de datos

- Reducción dimensionalidad datos

- Ranking/filtrado Atributos (Filter): ordenarlos según X criterio, mirando características.

Búsqueda: cualquier técnica de búsqueda

Evaluación: correlación, entropía, información mutua…

Criterio de Parada: porcentaje, umbral, iteraciones…

- Orden de menor a mayor à mayores utilizadas en método de aprendizaje.

- Criterios evaluación atributos: entropía (information gain) à árboles decisión; Chi-Score; F-

- Ventajas: rápido; gran capacidad de generalización

- Técnicas “Wrapper”: 2 atributos por separado no dan información, juntos sí.

IF inteligencia=si THEN ?; IF artificial=si THEN ?

- Búsqueda Exhaustiva: método preciso.

- Ventaja: evalúan atributos de los subconjuntos conjuntamente.

Análisis de componentes principales (PCA: Principal Component Analysis)

- Funciona con atributos numéricos.

x1, x2, …, xn → P1, P2, …, Pp donde p ≤ n

- La ordenación permite elegir un número “m” de características o atributos relevantes.

También podría gustarte