TÉCNICAS DE APRENDIZAJE AUTOMÁTICO
Prof. José Manuel Bernal
Tema 9. Combinación de clasificadores.
Bootstrapping, Bagging, Boosting, y Stacking
Universidad Internacional de La Rioja
INTRODUCCIÓN Y OBJETIVOS
Propósito del Tema 9: Presentar la fusión o combinación de clasificadores
como una opción potente en el aprendizaje automático
Problema Planteado: ¿Puede un modelo de aprendizaje automático ser
más robusto utilizando un enfoque Ensemble?
¿Cuál es el mejor método Ensemble?
Objetivos de la actividad de hoy:
Introducir los conceptos básico sobre la fusión de clasificadores.
Entender el principio de funcionamiento de la técnica estadística Boostrap.
Describir los métodos Bagging, Boosting, y Stacking.
2
SUMARIO
1. Introducción
2. Fusión o combinación de clasificadores
3. Enfoques para clasificadores Ensemble
o Técnica de muestreo Boostrap
o Bagging, Boosting, y Stacking
4. Comparación entre modelos de ensamble
3
TRABAJO EN PYTHON
Técnicas de Aprendizaje Automático (MIA) - PER 11096 -
Octubre 2024 Recursos Recursos audiovisuales
+
REVISAR TAMBIÉN:
https://scikit-learn.org/stable/modules/ensemble.html
https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.BaggingClassifier.html
https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.AdaBoostClassifier.html
https://scikit-learn.org/1.5/modules/generated/sklearn.ensemble.StackingClassifier.html
https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.StackingRegressor.html
+
Bibliografía complementaria:
Combining Pattern Classifiers: Methods and Algorithms
Ludmila Ilieva Kuncheva
4
INTRODUCCIÓN:
Existe una multiplicidad de diseños de clasificadores
Se construyen con el próposito:
En el pasado: encontrar el “mejor” clasificador.
En el presente: sacar provecho de la diversidad
o Utilizar distintos clasificadores para obtener mayor eficiencia y precisión.
o Clasificadores distintos se equivocan en muestras distintas.
Especialmente útiles si los clasificadores
individuales son independientes
5
INTRODUCCIÓN:
Existe una multiplicidad de diseños de clasificadores
Se construyen con el próposito:
En el pasado: encontrar el “mejor” clasificador.
En el presente: sacar provecho de la diversidad
o Utilizar distintos clasificadores para obtener mayor eficiencia y precisión.
o Clasificadores distintos se equivocan en muestras distintas.
Especialmente útiles si los clasificadores Turner y Ghosh (1996)
individuales son independientes mostraron que el
promediado de clasificadores
con errores no
correlados e insesgados
mejoran la performance y
si son infinitos alcanza el
óptimo de Bayes.
6
INTRODUCCIÓN:
Existe una multiplicidad de diseños de clasificadores
Se construyen con el próposito:
En el pasado: encontrar el “mejor” clasificador.
En el presente: sacar provecho de la diversidad
o Utilizar distintos clasificadores para obtener mayor eficiencia y precisión.
o Clasificadores distintos se equivocan en muestras distintas.
Especialmente útiles si los clasificadores
individuales son independientes
– Dimensionalidad del problema
Eficiencia: – Complejidad del sistema
– Velocidad
Precisión
7
INTRODUCCIÓN
El teorema 'no free lunch' en el aprendizaje automático
El teorema "no free lunch" establece que, dado un conjunto de características X
y un conjunto de etiquetas L, no existe un algoritmo de aprendizaje automático
que sea superior a otros en todos los problemas de aprendizaje.
8
INTRODUCCIÓN
El teorema 'no free lunch' en el aprendizaje automático
El teorema "no free lunch" establece que, dado un conjunto de características X
y un conjunto de etiquetas L, no existe un algoritmo de aprendizaje automático
que sea superior a otros en todos los problemas de aprendizaje.
El teorema "no free lunch" no significa que todos los algoritmos de
aprendizaje sean iguales. Simplemente nos dice que los algoritmos no
pueden ser superiores en todos los casos y que el conocimiento
previo sobre el problema de aprendizaje es crucial para obtener
resultados óptimos.
9
FUSIÓN O COMBINACIÓN DE CLASIFICADORES
La fusión de clasificadores puede mejorar el desempeño del mejor
clasificador y en el algunos casos alcanzar la cota de Bayes.
Esto es posible si los diferentes clasificadores realizan errores distintos.
Sistema multiclasificadores
• Sistema con múltiples expertos
• Comité de expertos
• Mezcla de expertos
• Ensamble de clasificadores
• Composición de sistemas de clasificación
10
COMBINACIÓN DE CLASIFICADORES: ARQUITECTURA
1. Paralela: Se seleccionan las salidas de los clasificadores individuales o se
pesan antes de ser combinados.
2. Cascada o combinación serie: Se invocan los distintos clasificadores en
forma secuencial.
o Primero se pasa por los más simples y/o menos costosos y luego se refina.
3. Híbrida o Jerárquica: Se combinan los clasificadores en una forma
estructurada como la de los árboles de decisión.
o Cada nodo se asocia con un clasificador complejo (muy eficiente y flexible).
11
COMBINACIÓN DE CLASIFICADORES: ARQUITECTURA
Serie Paralela
12
COMBINACIÓN DE CLASIFICADORES: ARQUITECTURA
Dos ejemplos conocidos de arquitecturas diferentes para lograr clasificación múltiples con SVM
Paralela
Serie
13
COMBINACIÓN DE CLASIFICADORES: ARQUITECTURA
Hibrida
14
ARQUITECTURAS Y MÚLTIPLES FUENTES
Clasificadores distintos, entrenados con los mismos datos,
pueden tener diferente desempeño global y local.
Cada clasificador tiene su región del espacio de características donde es el
“mejor”.
Incluir diversidad mediante múltiples fuentes también es una opción
interesante.
Espacio de características distintos: huellas, voz, caras, iris
Conjunto de entrenamiento distinto: muestreo
Clasificadores distintos: DT, SVM, Bayes
Arquitecturas y Parámetros distintos para los modelos.
15
ARQUITECTURA vs. MÚLTIPLES FUENTES
Características Biométricas
Fusión basada en un
solo espacio de
características pero
• Chequear que una persona es quien refiere ser. con diferentes
• Identificación forense de un individuo desconocido
clasificadores
16
ARQUITECTURA vs. MÚLTIPLES FUENTES
Características Biométricas
Fusión basada en
diferentes espacios de
características y
• Chequear que una persona es quien refiere ser. diferentes clasificadores
• Identificación forense de un individuo desconocido
17
MÉTODOS DE FUSIÓN Y REGLAS DE COMBINACIÓN
Nivel de decisión (Tipo I)
Cada clasificador asigna una
clase a cada patrón
Nivel de ordenamiento (Tipo II)
Cada clasificador da una lista
ordenada de las posibles clases.
Nivel de medida de la salida
(Tipo III) Lista de clases con
índice de confianza
18
MÉTODOS DE FUSIÓN Y REGLAS DE COMBINACIÓN
Voto por mayoría: Cuenta la
cantidad de votos que tuvo cada
clase y elige la clase con más
votos
Conteo de Borda: Suma los
rankings para cada clase y elige
la que tiene la mayor suma.
Regla de la suma: Utiliza la
suma los índices de cada clase,
elige la clase con mejor suma y
requiere normalización de índices.
19
Enfoques para clasificadores Ensemble:
Bootstrap,
Bagging, Boosting, y Stacking
20
TÉCNICA DE MUESTREO BOOSTRAP
En estadística, Bootstrap Sampling es un método basado en una técnica
estadística que consiste en un muestreo aleatorio con
reemplazamiento.
Si tenemos el reto de modelar una población con una muestra de dos
millones de ejemplos de diez millones que realmente son, decimos que
existe una representación de la población, aunque se duda si esta
muestra representa el promedio real de toda la población.
Boostrapping resuelve ese problema: en lugar de calcular la media una
sola vez, lo hace varias veces mediante un remuestreo con reemplazo de la
muestra original.
21
ENFOQUE CON BAGGING
BAGGING es un método para combinar
varias instancias de estimadores que se han
construido sobre muestras aleatorias del
conjunto de entrenamiento original y que
agregan las predicciones individuales para
obtener una predicción única.
Out-of-bag error (OOB)
El error de test en un modelo basado en Bagging se
aborda utilizando el out-of-bag error (OOB), y calcula
usando la muestra de datos (1/3) que no se utilizan para
el entrenamiento.
22
ENFOQUES BOOSTING Y ADABOOST
BOOSTING es un método de combinación de modelos que se puede
aplicar a los modelos de regresión y clasificación.
• No involucra el uso de remuestreo.
• Los modelos se generan de forma secuencial
• En cada iteración de la secuencia los datos son recalibrados.
o Los ejemplos que estaban correctamente clasificados pierden peso y los ejemplos incorrectamente clasificados
ganan peso.
Método Boosting AdaBoost
• AdaBoost (adaptive boosting) fue propuesto por Freund and Schapire (1995)
• Consiste en crear varios predictores sencillos en secuencia, de tal manera que el segundo ajuste bien
lo que el primero no ajustó, que el tercero ajuste un poco mejor lo que el segundo no pudo ajustar y
así sucesivamente.
23
ENFOQUES BOOSTING Y ADABOOST
24
STACKING
El método de Stacking (denominado también stacked generalization o
meta ensamblado) implica el entrenamiento de un modelo para combinar
las predicciones de otros modelos:
PASO 1: Entrenar varios modelos sobre
los datos de entrenamiento modelos
de primer nivel.
PASO 2: Entrenar el modelo final
modelo de segundo nivel o stacking
model, sobre los datos originales
considerando como características
adicionales las predicciones de los
primeros. Este modelo final es
frecuentemente una regresión
logística.
25
STACKING
El método de Stacking (denominado también stacked generalization o
meta ensamblado) implica el entrenamiento de un modelo para combinar
las predicciones de otros modelos:
Válido en escenarios supervisados y no
supervisados.
El rendimiento aumenta cuanto más diversos
sean los modelos de primer nivel.
En el segundo nivel puede incluir varios
modelos, siendo posible crear niveles
adicionales (por ejemplo un tercer nivel) en el
que se entrene un modelo basado en las
predicciones de los modelos de segundo nivel.
26
COMPARACIÓN ENTRE BAGGING, BOOSTING, STACKING
27
CONCLUSIONES
28
www.unir.net