Está en la página 1de 2

Árboles de Regresión M5

Entradas y Salidas

Entradas: Un conjunto de instancias de entrenamiento, descritas en terminos de atributos y sus valores, con
un valor numérico (continuo) que representa la clase.
Tratamiento de las entradas: En un sólo paso (simultáneo)
Preprocesamiento: No
Fuente de las entradas: Externa
Representación de las salidas: Un árbol de regresión que tiene en cada nodos intermedios una pregunta
sobre el valor de un atributo y en cada nodo hoja un modelo de regresión lineal para calcular la clase
numérica.

Ruido

Entradas: Acepta ejemplos con ruido, que queda suavizado por el análisis de los errores. Los modelos lineales
suavizan el efecto del ruido en la clasificación.
Estructura: La salida es tolerante a fallos, porque dispone del modelo lineal de los nodos y del modelo basado
en el árbol. Al eliminar algún nodo o modelo se puede seguir clasificando.

Complejidad

Espacial: El ocupado por el árbol: En el peor de los casos en cada rama se usarían todos los atributos, en cuyo
caso habría tantos nodos como la suma de los valores de cada atributo elevado al número de atributo (en una
representación con 3 atributos binarios tendríamos 20+21+22+23 = 1+2+4+8 = 15 nodos). En el caso mejor la
simplificación y poda del árbol daría con un nodo raíz cuyo modelo lineal representaría a los ejemplos.
Temporal: O(n) con n= número de nodos en la generación y recorridos sucesivos de simplificación y poda, lo
que significa que sería O(v|A|) con v = número medio de valores por atributo y |A| número de atributos.

Control de la tarea aprendida

Crítica/valoración: Mediante cálculo del error, realizado con un conjunto externo de instancias.
Utilización: Mediante presentación para su clasificación de un ejemplo al árbol de regresión devuelto por el
algoritmo.

Dependencia del conocimiento del dominio

Solo utiliza la definición de los atributos y los posibles valores de cada atributo.

Tarea

Se realizan tres búsquedas:


Primera búsqueda: Generación de un árbol de regresión y cálculo de un modelo lineal para cada nodo del árbol (o
también solo para las hojas y no para los nodos intermedios).

Conjunto de estados: Cada estado es un subárbol de regresión


Conjunto de operadores: Expansión de un nodo intermedio, mediante la introducción de una pregunta sobre
un atributo en el nodo.
Estado inicial: Árbol vacío.
Meta: Árbol de regresión que separa los ejemplos, y con un modelo lineal de calcula el valor de clase.
Heurística: Elegir el atributo que maximice la reducción del error.

Descripción
Se van eligiendo los atributos que separan los ejemplos en los nodos intermedios minimizando en cada paso el
error ponderado de los atributos, mediante la selección del que ofrezca menor resultado a la fórmula de la
izquierda:
Donde Ei son el número de ejemplos para el valor i del atributo, E el número de ejemplos presentes en el nodo que
se va a dividir (en el inicio es el número total de ejemplos) y σEi es la desviación típica (fórmula de la derecha) del
valor de la clase en los ejemplos de Ei.

Podemos resumir la fórmula del error como la suma ponderada de las desviaciones típicas de cada
valor de un atributo.

Una vez se han dividido los ejemplos en el árbol creado, se procede con cada conjunto de ejemplos con el resto de
atributos no seleccionados, aplicando un bias según los parámetros ω o τ
- ω indica el número de ejemplos iniciales que debe tener un nodo para seguir subdividiéndose. Suele establacerse
con un valor de ω > 3.
- τ indica el 5% de la desviación típica del conjunto de ejemplos inicial (en examen se dará como valor constante)

Un nodo se deja de expandir si el número de ejemplos iniciales del nodo es < ω y si la desviación
típica de este conjunto es < τ

Una vez generado el árbol, se generaría un modelo de regresión lineal para cada hoja, o sustituyendo este modelo
por el promediado del valor del atributo clase para los casos pertenecientes a esa hoja.

Segunda búsqueda: Simplificación del árbol de regresión.

Conjunto de estados: Cada estado es un árbol de regresión


Conjunto de operadores: Eliminar un atributo de un modelo lineal de un nodo.
Estado inicial: Árbol de regresión resultante de la primera búsqueda.
Meta: Árbol de regresión simplificado
Heurística: Eliminar en los modelos lineales los atributos que, al eliminarlos, no hacen que en la estimación del
error residual de clasificación se incremente.

Tercera búsqueda: Poda del árbol de regresión.

Conjunto de estados: Cada estado es un árbol de regresión


Conjunto de operadores: Eliminar un subárbol por debajo de un nodo, es decir, poda.
Estado inicial: Árbol de regresión resultante de la segunda búsqueda.
Meta: Árbol de regresión con el menor error de clasificación.
Heurística: Elimina un subárbol si el error de clasificación que se produce con el árbol total es mayor que el
producido por el modelo lineal del nodo (y eliminando ese subárbol).

Bias

Derivados de las heurísticas al elegir mejor atributo y al computar el error producido por un árbol o modelo lineal,
además de la propia representación con modelos lineales solamente.

También podría gustarte