Está en la página 1de 4

TEMA 2: ASPECTOS METODOLÓGICOS

1. PROCESO DE ANÁLISIS DE DATOS

- Requiere más pasos que el uso de un algoritmo inductivo.


- Actividades usuales
o Selección
§ datos de entrada
§ atributos y valores
§ algoritmo
§ parámetros
o Ejecución de algoritmo
o Análisis de resultado
o Visualización

2. METODOLOGÍA (LANGLEY Y SIMON, 98)

a) Formular Problema
o pasar de cualquier tarea a una de análisis de datos (clasificación, clustering…)
o subdividir un problema en subproblemas de clasificación.

b) Determinar Representación (atributos y clases)


o directamente
o hablando con expertos
o a partir de otras técnicas (filtros)

c) Recolectar Datos de Entrenamiento


d) Analizar Datos
e) Evaluar lo aprendido
o validación cruzada
o expertos

f) Desarrollar, aplicar e integrar la base de conocimiento resultante

3. CROSS INDUSTRY STANDARD PROCESS FOR DATA MINING (CRISP-DM)

Metodología de desarrollo de procesos de minería de datos

8
4. SELECCIÓN DE DATOS DE ENTRADA Y PRE-PROCESAMIENTO

- Selección de Datos
o aleatoriamente
o los que se parecen más entre sí
o los que se diferencian más entre sí
o según alguna distribución
o los que están en las fronteras entre las clases
o los que tienen mayores errores de clasificación se tratan más veces (boosting)
o Incremental: incorporar sucesivamente datos de un conjunto reserva

- Pre-procesamiento
o Datos
§ Reducción ruido
§ Tratamiento de valores desconocidos
§ Quitar outliers
§ Rebalanceo

o Atributos
§ Normalización (rango 0-1)
§ Codificación one-hot
§ Creación de atributos derivados

5. SELECCIÓN DE ATRIBUTOS

- Reducción dimensionalidad datos


- Algunos atributos pueden ser redundantes (ej: salario, categoría social)
o ralentiza aprendizaje
o confunden a clasificadores
- Irrelevantes (ej: DNI para saber si una persona va a devolver un crédito)
- Maldición dimensionalidad: nº datos necesarios para construir un modelo predictivo (sin
sobreadaptarse) puede crecer exponencialmente con el nº de dimensiones (atributos)
- A veces es útil tener el conocimiento de los atributos relevantes para una tarea.
- Menos atributos = modelo más simple y fácil de entender

Técnicas

- Ranking/filtrado Atributos (Filter): ordenarlos según X criterio, mirando características.


- Selección Subconjuntos (Wrapper): buscar en el espacio de los conjuntos de atributos.

Búsqueda: cualquier técnica de búsqueda

Evaluación: correlación, entropía, información mutua…

Criterio de Parada: porcentaje, umbral, iteraciones…

9
- Técnicas “Filter”: clasifica características mediante una función que evalúa cada una asignándole
un valor. Las que obtengan más valoración serán más significativas.

- Orden de menor a mayor à mayores utilizadas en método de aprendizaje.


- Dados atributos A1, A2, …., An à evalúa cada Ai independiente, calculando medidas de correlación
del atributo con la clase.
- Atributo A1 correlacionado clase à conocer valor implica poder predecir clase.

Ej1: sexo correlacionado con gusto fútbol; DNI no. Ej2: salario correlacionado con devolver crédito.

- Criterios evaluación atributos: entropía (information gain) à árboles decisión; Chi-Score; F-


Score...

- Ventajas: rápido; gran capacidad de generalización


- Desventajas: no elimina atributos redundantes ni detecta atributos que funcionan bien
conjuntamente pero mal de manera separada.

- Técnicas “Wrapper”: 2 atributos por separado no dan información, juntos sí.

Ej: problema de clasificación de textos en 2 clases “informática” y “filosofía” con atributos booleanos
“inteligencia” y “artificial”, ciertos si esas palabras aparecen en el texto; falsos en caso contrario. Por
separado, no permiten distinguir entre informática y filosofía. El objetivo de la selección de atributos
es encontrar el subconjunto relevante.

IF inteligencia=si THEN ?; IF artificial=si THEN ?


Pero juntos sí:
IF inteligencia=si Y artificial=si THEN “informática”

- Búsqueda Exhaustiva: método preciso.


- Búsqueda en espacio de estados de conjuntos de atributos
- Comenzar por
o conjunto atributos entrada completo
o conjunto vacío de atributos
- Evaluación de cada nodo (subconjunto de atributos): llamando al algoritmo inductivo.
- Evalúan subconjunto de atributos ejecutando algoritmo de entrenamiento de modelos
sobre conjunto de datos (sólo con columnas a evaluar)
- Obtienen subconjuntos de atributos adecuados para un algoritmo concreto.

- Ventaja: evalúan atributos de los subconjuntos conjuntamente.


- Desventaja: lentos (ejecutar algoritmo de aprendizaje muchas veces)

10
6. EXTRACCIÓN DE ATRIBUTOS: PCA

Análisis de componentes principales (PCA: Principal Component Analysis)

- Funciona con atributos numéricos.


- Proyección del espacio de atributos original a 1 reducido:

x1, x2, …, xn → P1, P2, …, Pp donde p ≤ n

§ Características Pi:
o Independientes entre sí.
o Ordenados según su relevancia (o contenido informacional)
o Cada atributo Pi = ki1 · x1 + ki2 · x2 + … + kin · xn à Construye nuevos atributos a partir de la
combinación lineal de los anteriores.

- La ordenación permite elegir un número “m” de características o atributos relevantes.

- Ventajas: puede determinar la dimensionalidad “real” de los datos (ej: imaginar datos en forma
de elipse de 2 dimensiones embebida en 20 dimensiones. PCA identificará fácilmente que con
sólo 2 dimensiones se explica toda la varianza)

- Desventajas: método no supervisado. Puede eliminar atributos que pueden ser necesarios para
discriminar bien las clases.

11

También podría gustarte