Documentos de Académico
Documentos de Profesional
Documentos de Cultura
entradas.
Si sólo hay unos pocos insumos, digamos M, tomando F una fracción
apreciable de M podría conducir un aumento en la fuerza pero una
correlación más alta. Otro enfoque consiste en definiendo más
características tomando combinaciones lineales aleatorias de un número de
las variables de entrada. Es decir, se genera una característica
especificando L, el número de variables a combinar. En un nodo dado, L
variables son seleccionadas al azar y se suman con coeficientes que son
números aleatorios uniformes en [-1,1].
En F se generan combinaciones lineales, y luego se realiza una búsqueda
sobre éstas para la mejor división. Este procedimiento se denomina
Forest-RC.
Nota:
Si las variables de entrada en un conjunto de datos son inconmensurables,
se normalizan substrayendo medios y dividiendo por desviaciones
estándar, donde se determinan las medias y desviaciones estándar del
conjunto de entrenamiento.
Variables categóricas
Algunas o todas las variables de entrada pueden ser categóricas y puesto que
queremos definir combinaciones aditivas de variables, necesitamos definir
cómo categoricals y serán tratados para que puedan ser combinados con
variables numéricas. Mi acercamiento es que cada vez que se selecciona una
variable categórica para dividirla en un nodo, para seleccionar un subconjunto
aleatorio de las categorías de la variable, y definir una variable de sustitución
que es uno cuando el valor categórico de la variable está en el subconjunto y
cero fuera de él.
Dado que una variable categórica con valores I se puede codificar en I-1
dummy 0-1 variables, hacemos que la variable I-1 veces sea tan probable
como una variable numérica seleccionado en la división de nodos.
Cuando muchas de las variables son categóricas, el bajo valor de F resulta en
baja correlación, pero también baja fuerza. F debe ser aumentó a
aproximadamente dos-tres veces int (log2M + 1) para obtener suficiente
fuerza para proporcionar una buena precisión de la prueba.
Nota:
Una ventaja de este enfoque es que
consigue alrededor de la dificultad
de qué hacer con categoricals que
tienen muchos valores. En el
problema de dos clases, esto puede
ser evitado mediante el uso del
dispositivo propuesto en Breiman
et al [1985], que reduce la
búsqueda de la mejor división
categórica para un cálculo O (I).
Para más clases, la búsqueda de la
mejor división categórica es un
cálculo O (2I-1).
En la implementación forestal
aleatoria, el cálculo para cualquier variable implica sólo la selección de un
subconjunto aleatorio de las categorías.
Resultados empíricos sobre la fuerza y la correlación.