Está en la página 1de 2

TEMA 7: CONJUNTOS DE CLASIFICADORES

• Bagging: se crean modelos base paralelamente, con el mismo método. Clasifica los datos por
votación y regresión con medias.

Objetivo: evitar que los métodos se adapten excesivamente a las muestras de entrenamiento;
esto se consigue generando métodos sobre diferentes muestras y calculando sus medias.

Bagging (D, B, T)

• Randomnización: creación de varios modelos. Existen algoritmos estocásticos que cada vez que
se usa, generan modelos ligeramente diferentes (ej: redes neuronales, con sus pesos iniciales
aleatorios)

• Boosting: construye modelos base de forma secuencial, cuando uno se centra en datos difíciles
para el anterior.

• Stacking: combina decisiones de clasificadores utilizando el concepto de “meta-clasificador”.


Entrena modelo para combinar predicciones de los otros:

1) Entrena aprendices sobre datos de entreno (modelos nivel 0)


2) Entrena modelo final (nivel 1) sobre datos originales.

• Método Monte Carlo: estimación de una función f(x), que dice, dado un par de “estado-acción”,
el refuerzo acumulado esperado.

• Q-Learning: aprendizaje por prueba y error.

Q(s,a)

s = estado inicial; a = acción

• Funciones de Actualización
o Determinista: devuelve mismos resultados.
o No determinista: devuelve diferentes resultados.

26
TEMA 8: APRENDIZAJE POR REFUERZO

1. INTRODUCCIÓN

- Problema de Aprendizaje por Refuerzo (definido como MDP):

o Conjunto de todos los posibles estados (S)


o Conjunto de todas las posibles acciones (A)
o Función de transición de estados desconocida (T : S × A × S → ℜ)
o Función de refuerzo desconocida (R : S × A → ℜ)

- Objetivo: aprender política de acción (Π : S → A) que maximice refuerzo medio esperado.

2. MÉTODO MONTE CARLO

- Estima función Q à dice (dado un par estado-acción) el refuerzo acumulado a obtener.


- Basado en:
o alternar evaluación de política y su mejora
o la ejecución de episodios de aprendizaj
o actualización de Q basada en media de refuerzos obtenidos en distintos episodios.

3. REPRESENTACIÓN TABULAR DE LA FUNCIÓN Q

- Problema: espacio de estados continuo/de gran tamaño.


- Solución: métodos de generalización:
o Aproximaciones ad-hoc basadas en conocimiento del dominio
o Discretización del espacio de estados
o Aproximación de funciones

4. Q-LEARNING (WATKINS, 1989)

- Aprendizaje por prueba y error.


Q-Learning (γ, α)
› Inicializar Q(s, a), ∀s ∈ S, a ∈ A
› Repetir (para cada episodio)
› Inicializa el estado inicial, s, aleatoriamente.
› Repetir (para cada paso del episodio)
- Selecciona una acción a y ejecútala
- Recibe el estado actual (s) y el refuerzo (r)
- Q(s, a) ← Q(s, a) + α[r + γ maxaʹ Q(sʹ, aʹ) − Q(s, a)]
- Asigna s ← sʹ
› Devuelve Q(s, a)

27

También podría gustarte