Está en la página 1de 5

 Bosques al azar utilizando combinaciones lineales de

entradas.
Si sólo hay unos pocos insumos, digamos M, tomando F una fracción
apreciable de M podría conducir un aumento en la fuerza pero una
correlación más alta. Otro enfoque consiste en definiendo más
características tomando combinaciones lineales aleatorias de un número de
las variables de entrada. Es decir, se genera una característica
especificando L, el número de variables a combinar. En un nodo dado, L
variables son seleccionadas al azar y se suman con coeficientes que son
números aleatorios uniformes en [-1,1].
En F se generan combinaciones lineales, y luego se realiza una búsqueda
sobre éstas para la mejor división. Este procedimiento se denomina
Forest-RC.
Nota:
Si las variables de entrada en un conjunto de datos son inconmensurables,
se normalizan substrayendo medios y dividiendo por desviaciones
estándar, donde se determinan las medias y desviaciones estándar del
conjunto de entrenamiento.
 Variables categóricas
Algunas o todas las variables de entrada pueden ser categóricas y puesto que
queremos definir combinaciones aditivas de variables, necesitamos definir
cómo categoricals y serán tratados para que puedan ser combinados con
variables numéricas. Mi acercamiento es que cada vez que se selecciona una
variable categórica para dividirla en un nodo, para seleccionar un subconjunto
aleatorio de las categorías de la variable, y definir una variable de sustitución
que es uno cuando el valor categórico de la variable está en el subconjunto y
cero fuera de él.
Dado que una variable categórica con valores I se puede codificar en I-1
dummy 0-1 variables, hacemos que la variable I-1 veces sea tan probable
como una variable numérica seleccionado en la división de nodos.
Cuando muchas de las variables son categóricas, el bajo valor de F resulta en
baja correlación, pero también baja fuerza. F debe ser aumentó a
aproximadamente dos-tres veces int (log2M + 1) para obtener suficiente
fuerza para proporcionar una buena precisión de la prueba.
Nota:
Una ventaja de este enfoque es que
consigue alrededor de la dificultad
de qué hacer con categoricals que
tienen muchos valores. En el
problema de dos clases, esto puede
ser evitado mediante el uso del
dispositivo propuesto en Breiman
et al [1985], que reduce la
búsqueda de la mejor división
categórica para un cálculo O (I).
Para más clases, la búsqueda de la
mejor división categórica es un
cálculo O (2I-1).
En la implementación forestal
aleatoria, el cálculo para cualquier variable implica sólo la selección de un
subconjunto aleatorio de las categorías.
 Resultados empíricos sobre la fuerza y la correlación.

El propósito de esta sección es analizar el efecto de la fuerza y la correlación


el error de generalización. Otro aspecto que queríamos obtener más
comprensión de la falta de sensibilidad en el error de generalización al tamaño
del grupo F.
Para realizar un estudio empírico de los efectos de la correlación en una
variedad de conjuntos de datos, estimaciones fuera de bolsa de la Correlación.
Comenzamos por ejecutar Forest-RI en los datos (60 entradas, 208 ejemplos)
usando de 1 a 50 entradas. En cada iteración, el 10% de los datos se separó
como un conjunto de prueba.
Entonces F, el número de entradas aleatorias seleccionadas en cada nodo, se
varió de 1a 50. Para cada valor de F, se cultivaron 100 árboles para formar un
bosque al azar y se registran los valores terminales del error del ensayo, la
resistencia, la correlación, etc. Ochenta iteraciones, cada vez que se elimina un
10% de los datos al azar para su uso como conjunto de pruebas, y todos los
resultados promediados sobre las 80 repeticiones. En total, 400.000 los árboles
fueron cultivados.
Nota:
 Dado que los conjuntos de datos más grandes parecían tener un
comportamiento diferente de los más pequeños, realizamos un
experimento similar en el conjunto de datos. El número de
características, cada uno consistente en una suma aleatoria de dos
insumos, se varió de 1 a 25, y para cada uno, se combinaron 100
clasificadores.
Los resultados se muestran en los resultados difieren de los conjuntos
de datos más pequeños. Tanto la correlación como fuerza muestran un
aumento pequeño pero constante.
Las tasas de error muestran un ligero disminución. Conjeturamos que
con conjuntos de datos más grandes y más complejos, la fuerza
continúa aumentando más tiempo antes de que se aleje.

 Nuestros resultados indican que mejor (menor error de generalización)


los bosques al azar menor correlación entre clasificadores y mayor
resistencia. La aleatoriedad utilizada en la construcción del árbol tiene
que apuntar para la baja correlación ρ mientras que mantiene la fuerza
razonable. Esta conclusión ha sido sugerida en trabajos anteriores.

 Conjetura: Adaboost es un bosque al azar

Se pueden modificar varios clasificadores para utilizar un conjunto de


entrenamiento y un conjunto de pesos en el conjunto de entrenamiento.
Considere el bosque aleatorio siguiente: una colección grande se definen K
conjuntos diferentes de ponderaciones de suma no negativa en el conjunto de
entrenamiento.
Denotan estos pesos por w (1), w (2),... w (K). Correspondientes a estos pesos
están las probabilidades p (1), p (2),... p (K) cuya suma es una. Dibujar a
partir de los enteros 1,..., K según estas probabilidades.
El resultado es Θ. Si Θ = k crece el clasificador h (x, Θ) usando el
conjunto de entrenamiento con pesos w (k).
En su versión original, Adaboost (Freund y Schapire [1996]) es un algoritmo
que selecciona los pesos en el conjunto de entrenamiento para la entrada al
siguiente clasificador basado en las clasificaciones erróneas en los
clasificadores anteriores. En nuestro experimento, los bosques al azar se
produjeron de la siguiente manera: Adaboost fue ejecutado 75 veces en un
conjunto de datos que producen conjuntos de pesos no negativos de la suma-
uno w (1), w (2),... w (50) (los primeros 25 fueron descartados).
La probabilidad para el kth conjunto de los pesos se establece
proporcionalmente a Q (wk) = log [(1-error (k)) / error (k)] donde error (k) es
el error de conjunto de entrenamiento ponderado w (k) del kth clasificador.
Luego se ejecuta el bosque 250 veces.

 Conjetura: Adaboost es un bosque al azar


En el algoritmo de Adaboost, w (k + 1) = φ (w () k) donde φ es una función
determinada por el clasificador base. Denote el kth clasificador por h (x, wk).
El voto del kth clasificador es ponderado por Q (wk) por lo que el voto
normalizado para la clase j en x es igual:

Para cualquier función f definida en el espacio de peso, defina el operador


Tf (w) = f (φ (w)). Conjeturamos que T es ergódico con medida invariante
π (dw).
Entonces la sumatoria convergerá a donde la
distribución es
Si esta conjetura es verdadera, entonces Adaboost es equivalente a un bosque
aleatorio donde se seleccionan los pesos del conjunto de entrenamiento al azar
de la distribución Qπ.

También podría gustarte