Está en la página 1de 20

Esta es la página

587 Impresora:
Opaque esto
15
Bosques aleatorios

15.1 Introducción
El embolsado o agregación bootstrap (sección 8.7) es una técnica para
reducir la varianza de una función de predicción estimada. El embolsado
parece funcionar especialmente bien para procedimientos de alta varianza
y bajo sesgo, como los árboles. Para la regresión, simplemente ajustamos el
mismo árbol de regresión muchas veces a las versiones muestreadas de
arranque de los datos de entrenamiento y promediamos el resultado. Para
la clasificación, un comité de árboles emitió cada uno un voto para la clase
predicha.
El impulso en el Capítulo 10 también se propuso inicialmente como un
método de comité, aunque a diferencia del embolsado, el comité de
estudiantes débiles evoluciona con el tiempo y los miembros emiten un
voto ponderado. El impulso parece dominar el embolsado en la mayoría de
los problemas, y se convirtió en la opción preferida.
Los bosques aleatorios (Breiman, 2001) son una modificación sustancial
del embolsado que construye una gran colección de árboles
descorrelacionados y luego los promedia. En muchos problemas, el
rendimiento de los bosques aleatorios es muy similar al impulso, y son
más fáciles de entrenar y afinar. Como consecuencia, los bosques
aleatorios son populares y se implementan en una variedad de paquetes.

15.2 Definición de bosques aleatorios


La idea esencial en el embolsado (Sección 8.7) es promediar muchos
modelos ruidosos pero aproximadamente imparciales, y por lo tanto
reducir la varianza. Los árboles son candidatos ideales para el embolsado,
ya que pueden capturar interacciones complejas.
588 15. Aleatorio
Bosques
Algoritmo 15.1 Bosque aleatorio para regresión o clasificación.
1. Para b = 1 a B:
(a) Dibuja una muestra de arranque Z∗ de tamaño N a partir de los datos de
entrenamiento.
(b) Haga crecer un árbol de bosque aleatorio Tb a los datos de
arranque, repitiendo recursivamente los siguientes pasos para
cada nodo terminal del árbol, hasta que se alcance el
tamaño mínimo de nodo nmin.
i. Seleccione m variables al azar de las variables p .
ii. Elija la mejor variable / punto dividido entre la m.
iii. Divida el nodo en dos nodos secundarios.

2. Salida el conjunto de árboles {Tb}B1.

Para hacer una predicción en un nuevo punto x:


Σ
1 B
Regresión: fRˆB (x) = B Tb(x).
b=1
f
ClaSsification: LEt Ĉb (x) be tél claSs PrEdiction of tél bth raNdom-forest
tree. TgallinaRĈ B (x) = majority vote {Ĉb (x)}B
1 .
f

Las estructuras en los datos, y si crecen lo suficientemente profundas,


tienen un sesgo relativamente bajo. Dado que los árboles son notoriamente
ruidosos, se benefician enormemente de la aviación. Además, dado que
cada árbol generado en el embolsado se distribuye de manera idéntica
(i.d.), la expectativa de un promedio de B tales árboles es la misma que
la expectativa de cualquiera de ellos. Esto significa que el sesgo de los
árboles embolsados es el mismo que el de los árboles individuales, y la
única esperanza de mejora es a través de la reducción de la varianza.
Esto contrasta con el impulso, donde los árboles se cultivan de manera
adaptativa para eliminar los bias y, por lo tanto, no se identifican.
Un promedio de B I.I.D. aleatorio Variables cada con varianza σ2, tiene
Vari- BAnce 1 σ2. Si las variables son simplemente i.d. (idénticamente
distribuidas, pero no necesariamente independiente) con correlación
positiva por pares ρ, la varianza de el promedio es (Ejercicio 15.1)
1−ρ 2
ρσ 2 + σ . (15.1)
B
A medida que B aumenta, el segundo término desaparece, pero el
primero permanece, y por lo tanto el tamaño de la correlación de pares de
árboles embolsados limita los beneficios del promedio. La idea en
bosques aleatorios (Algoritmo 15.1) es mejorar la reducción de la varianza
del embolsado reduciendo la correlación entre los árboles, sin aumentar
demasiado la varianza. Esto se logra en el proceso de crecimiento del
árbol a través de la selección aleatoria de las variables de entrada.
Específicamente, al cultivar un árbol en un conjunto de datos de arranque:
Antes de cada división, seleccione
≤ m p de las variables de
entrada al azar como Candidatos para desdoblamiento.
15.2 Definición de Aleatorio 589
Bosques

Normalmente, los valores para m son p o incluso tan bajos como 1.
Después B tal árboles {T (x; Θb1)}B son crecido el aleatorio bosque (regresión)
predictor es

1 ΣB
fˆRB (x) = T (x; Θ ).b (15.2)
f B b=1

Como en la Sección 10.9 (página 356), Θ b caracteriza el árbol de bosque


aleatorio b en términos de variables divididas, puntos de corte en cada
nodo y valores de nodo terminal. Intuitivamente, reducir m reducirá la
correlación entre cualquier par de árboles en el conjunto y, por lo tanto,
(15.1) reducirá la varianza del promedio.

Spam Datos

Embolsado de
bosque

aleatorio
Aumento de
gradiente (5 nodos)
0,070
0,040 0,045 0,050 0,055 0,060 0,065
Error de
prueba

0 500 1000 1500 2000 2500

Número de árboles

FIGURA 15.1. Embolsado, bosque aleatorio y aumento de degradado, aplicado a


los datos de spam. Para el impulso, se utilizaron árboles de 5 nodos, y el
número de árboles se eligió mediante validación cruzada de 10 veces (2500
árboles). Cada "paso" en la figura corresponde a un cambio en una sola
clasificación errónea (en un conjunto de pruebas de 1536).

No todos los estimadores se pueden mejorar sacudiendo los datos de


esta manera. Parece que los estimadores altamente no lineales, como los
árboles, son los que más se benefician. Para los árboles bootstrap, ρ es
típicamente pequeño (0.05 o menor es típico; véase la figura 15.9),
mientras que σ2 no es mucho mayor que la varianza del árbol original. Por
otro lado, el bagging no cambia las estimaciones lineales, como la media
de la muestra (de ahí su varianza); la correlación por pares entre las
medias de arranque es de aproximadamente el 50% (Ejercicio 15.4).
590 15. Aleatorio
Bosques
Los bosques aleatorios son populares.La colaboradora de Leo Breiman1,
Adele Cutler, mantiene un sitio web forestal aleatorio 2 donde el software
está disponible gratuitamente, con más de 3000 descargas reportadas en
2002. Hay un paquete randomForest en R, mantenido por Andy Liaw,
disponible en el sitio web de CRAN. Los autores hacen grandes
afirmaciones sobre el éxito de los bosques aleatorios: "más preciso", "más
interpretable" y similares. En nuestra experiencia, los bosques ran- dom
funcionan notablemente bien, con muy poca puesta a punto. Un
clasificador de bosque ran- dom logra 4.88% de error de clasificación
errónea en los datos de prueba de spam, que se compara bien con todos
los demás métodos, y no es significativamente peor que el aumento de
gradiente a 4. 5%. El embolsado logra 5.4% que es significativamente peor
que cualquiera de los dos (usando la prueba de McNemar descrita en
Ejercicio 10.6), por lo que aparece en este ejemplo la aleatorización
adicional
Ayuda.

Anidado Esferas
de prueba0.15
de clasificación
0.10
errónea
0.05
Error

Error de
Bayes
0.00

RF−1 RF−3 Embolsado GBM−1 GBM−6

FIGURA 15.2. Los resultados de 50 simulaciones del modelo de "esferas


anidadas" en IR10. El límite de decisión de Bayes es la superficie de una esfera
(aditivo). "RF-3" se refiere a un bosque aleatorio con m = 3, y "GBM-6" un
modelo potenciado de gradiente con orden de interacción seis; de manera
similar para "RF-1" y "GBM-1". Los conjuntos de entrenamiento eran de
tamaño 2000, y los conjuntos de prueba 10, 000.

La figura 15.1 muestra la progresión del error de prueba en 2500 árboles


para los tres métodos. En este caso, hay alguna evidencia de que el
aumento del gradiente ha comenzado a sobreajustarse, aunque la
validación cruzada de 10 veces eligió los 2500 árboles.

1Lamentablemente, Leo Breiman murió en julio de 2005.


//www.math. u su.e du/∼ad e l e/for e s ts/
2 http:
15.2 Definición de Aleatorio 591
Bosques

California Vivienda Datos

RF m= 2
RF m=6
Profundidad
GBM=4 GBM
profundidad=6
de
0,40 0,42
Error absoluto promedio

0,36 0,38
prueba

0,44
0,32 0,34

0 200 400 600 800 1000

Número de árboles

FIGURA 15.3. Bosques aleatorios en comparación con el aumento del gradiente


en los datos de vivienda de California. Las curvas representan el error absoluto
medio en los datos de prueba en función del número de árboles en los
modelos. Se muestran dos bosques aleatorios, con m = 2 y m = 6. Los dos
modelos potenciados por gradiente utilizan un parámetro de contracción ν =
0.05 pulgadas (10.41), y tienen profundidades de interacción de 4 y 6. Los
modelos potenciados superan a los bosques aleatorios.

La figura 15.2 muestra los resultados de una simulación3 que compara


bosques aleatorios con el aumento de gradiente en el problema de esferas
anidadas [Ecuación (10.2) en el capítulo 10]. El aumento supera fácilmente
a los bosques aleatorios aquí. Tenga en cuenta que m más pequeño es
mejor aquí, aunque parte de la razón podría ser que el verdadero límite de
decisión es aditivo.
La figura 15.3 compara los bosques aleatorios con el aumento (con
contracción) en un problema de regresión, utilizando los datos de vivienda
de California (Sección 10.14.1). Dos características fuertes que emergen
son:

• Aleatorio bosques estabilizar en acerca de 200 árboles mientras en


1000 árboles impulsar- Ing sigue mejorando. El impulso se ralentiza
por la contracción, como pozo como el hecho ese el árboles son
mucho menor.

• Impulsar Supera aleatorio bosques aquí. En 1000 letra chica el Débil


Impulsar modelo (GBM profundidad 4) tiene a menor error que el
Fuerte

3D e t a il s: h e r a nd o m fo r e s t s w e r e fi t using t h e R pack a g e r
T
andomForest 4. 5-1 1, wi t h 500 trees. Th e g r a d i e n t b o o s t i n g mod e ls w
e r e fi t usin g R p a cka g e gbm 1.5, parámetro de contracción w ith establecido
en 0.05, y 2000 árboles.
592 15. Aleatorio
Bosques

0.075
Error de
prueba de

clasificación
error

0.065
OOB

errónea
Error de
0.055
0.045

0 500 1000 1500 2000 2500

Número de árboles

FIGURA 15.4. ERROR OOB calculado en los datos de entrenamiento de spam,


en comparación con el error de prueba calculado en el conjunto de prueba.

bosque aleatorio (RF m = 6); una prueba de Wilcoxon sobre las


diferencias medias en los errores absolutos tiene un valor p de 0.
007. Para m más grandes , los bosques aleatorios no tuvieron un
mejor desempeño.

15.3 Detalles de Random Forests


Hemos pasado por alto la distinción entre bosques aleatorios para la
clasificación y regresión. Cuando se utiliza para la clasificación, un bosque
aleatorio obtiene un voto de clase de cada árbol, y luego se clasifica
utilizando el voto mayoritario (véase la Sección 8.7 sobre embolsado para
una discusión similar). Cuando se usa para la regresión, las predicciones de
cada árbol en un punto objetivo x simplemente se promedian, como en
(15.2). Además, los investigadores formulan las siguientes
recomendaciones:

• Para la clasificación, el valor predeterminado⌊ para
⌋ m es p y el
mínimo nodo tamaño es Uno.

• Para la regresión, el valor predeterminado⌊ para


⌋ m es p/3 y el
mínimo nodo tamaño es Cinco.

En la práctica, los mejores valores para estos parámetros dependerán del


problema, y deben tratarse como parámetros de ajuste. En la figura
15.3, m = 6 funciona mucho mejor que el valor predeterminado ⌊8/3⌋ =
2.

15.3.1 Muestras fuera de bolsa


Una característica importante de los bosques aleatorios es su uso de
productos fuera de bolsa (OOB):
15.3 Detalles de Aleatorio 593
Bosques
Para cada observación z i = (x i, y i), construya su predictor de
bosque aleatorio promediando solo aquellos árboles
correspondientes a muestras de boot-strap en las que z i no
apareció.

Una estimación del error de OOB es casi idéntica a la obtenida por validación
cruzada de N veces ; ver Ejercicio 15.2. Por lo tanto, a diferencia de
muchos otros estimadores no lineales, los bosques aleatorios pueden
encajar en una secuencia, con validación cruzada que se forma a lo largo
del camino. Una vez que el error OOB se estabiliza, el entrenamiento
puede terminarse.
La figura 15.4 muestra el error de clasificación errónea OOB para los datos
de spam, en comparación con el error de prueba. Aunque aquí se promedian
2500 árboles, parece por la parcela que unos 200 serían suficientes.

15.3.2 Importancia variable


Las gráficas de importancia variable se pueden construir para bosques
aleatorios exactamente de la misma manera que para los modelos
potenciados por gradiente (Sección 10.13).En cada división en cada árbol, la
mejora en el criterio de división es la medida de importancia atribuida a la
variable de división, y se acumula sobre todos los árboles en el bosque por
separado para cada variable. El gráfico de la izquierda de la figura 15.5
muestra las importancias variables calculadas de esta manera para los
datos de spam; comparar con la figura correspondiente 10.6 en la página
354 para el aumento de degradado. El aumento ignora algunas variables
por completo, mientras que el bosque aleatorio no lo hace. La selección de
variables divididas candidatas aumenta la posibilidad de que cualquier
variable individual se incluya en un bosque aleatorio, mientras que ninguna
selección de este tipo aumenta el impulso.
Los bosques aleatorios también usan las muestras OOB para construir una
medida de importancia variable diferente, aparentemente para medir la
fuerza de predicción de cada variable. Cuando se cultiva el árbol b, las
muestras de OOB se pasan por el árbol y se registra la precisión de la
predicción . Luego, los valores de la variable jésima se permutan
aleatoriamente en las muestras OOB, y la precisión se calcula
nuevamente. La disminución en la precisión como resultado de esta
permutación se promedia sobre todos los árboles, y se utiliza como una
medida de la importancia de la variable j en el bosque aleatorio. Estos
se expresan como un porcentaje del máximo en la gráfica de la derecha
en la figura 15.5. Aunque las clasificaciones de los dos métodos son
similares, las importancias en la gráfica derecha son más uniformes
sobre las variables. La aleatorización anula efectivamente el efecto de una
variable, al igual que establecer un coeficiente a cero en un modelo
lineal (Ejercicio 15.7). Esto no mide el efecto sobre la predicción si esta
variable no estuviera disponible, porque si el modelo se reajustó sin la
variable, otras variables podrían usarse como sustitutos.
594 15. Aleatorio
Bosques

E
l Gini
i
m
Pieza i Piezas de mesa 3D
s de n Direcciones
tabla a
CS c Informe directo CS Make 415
3D i # 857
Direcciones ó conferencia
857 n
415 Proyecto de datos de crédito Personas Telnet Lab Dirección
original
Conferencia 85 [
g
direct laboratorios todos los pedidos
Tecnología
r
a Fuente de correo
a ;
Inform Correo electrónico sobre Recibir PM 650
e t Internet
original voluntad (
del u
Reunión de dinero
pro i 000
negocio
yec t HPL YOU re 1999
nuestro tu CAPTOT
to a george edu CAPMAX
Telnet
Lab
$
! HP CAPAVE gratis
[ $ eliminar
!
85
Tecnología

Crédit
o
de
fuent
e de
da
to
s
#
Hacer
que las
persona
s PM se
dirijan a
la
reunión
de
los
laborato
rios de

ped
idos
650
;
Corr
eo
sobre
recepci
ón
re
corre
o
electr
ónico
todo
volun
tad
(
Internet
1999
negocio
HP
L
ED
U
000
George

nuestr
o
dinero
CAPTOT

HP
CAPMAX
su
CAPAVE
Aleatorización
15.3 Detalles de Aleatorio 595
Bosques

0 20 40 60 80 100 0 20 40 60 80 100

Importancia variable Importancia variable

FIGURA 15.5. Gráficos de importancia variable para un bosque aleatorio de


clasificación cultivado en los datos de spam. El gráfico de la izquierda basa la
importancia en el índice de división de Gini, como en el aumento del gradiente.
Las clasificaciones se comparan bien con las clasificaciones producidas por el
aumento del gradiente (Figura 10.6 en la página 354). La gráfica de la derecha
utiliza la aleatorización OOB para calcular las importancias variables, y tiende
a distribuir las importaciones de manera más uniforme.
596 15. Aleatorio
Bosques

Proximidad Conspirar Aleatorio Bosque Clasificador


4
6
5
2
3
Dimensión 2

4 3
1

X2
2
5

Dimensión 1 X1

FIGURA 15.6. (Izquierda): Gráfica de proximidad para un clasificador de bosque


aleatorio cultivado según los datos de mezcla . (Derecha): Datos de límite de
decisión y entrenamiento para bosques aleatorios en datos de mezcla. Se han
identificado seis puntos en cada parcela.

15.3.3 Parcelas de proximidad


Una de las salidas anunciadas de un bosque aleatorio es un parcela de
proximidad. Higo- Ure 15.6 Muestra a proximidad conspirar para el mezcla
datos definido en Sección 2.3.3 en el capítulo 2. ×Al cultivar un bosque al
azar, un N N La matriz de proximidad es Acumulado para el TRAdatos de
entrada. Para cada árbol, cualquier par de OOB obser- vaciones Compartir
un nodo terminal tiene su proximidad aumentada en uno. Éste La matriz de
proximidad se representa en dos dimensiones utilizando Multidimen-
escala (Sección 14.8). La idea es que a pesar de que los datos pueden ser de
alta dimensión, Participación mixto Variables etc. el proximidad conspirar
Da un indicación de cuál observationes son efectivamente cerrar junto en el
ojosde el aleatorio bosque clasificador.
Las parcelas de proximidad para bosques aleatorios a menudo se ven
muy similares, independientemente de los datos, lo que arroja dudas sobre
su utilidad. Tienden a tener una forma de estrella, un brazo por clase, que
es más pronunciada cuanto mejor sea el rendimiento de clasificación.
Dado que los datos de mezcla son bidimensionales, podemos mapear
puntos desde la gráfica de proximidad hasta las coordenadas originales y
obtener una mejor comprensión de lo que representan. Parece que los
puntos en regiones puras se asignan a las extremidades de la estrella,
mientras que los puntos más cercanos a los límites de decisión se acercan
al centro. Esto no es sorprendente cuandoconsideramos la construcción de
las matrices de proximidad. Los puntos vecinos en regiones puras a
menudo terminarán compartiendo un cubo, ya que cuando un nodo
terminal es puro, ya no lo es.
15.3 Detalles de Aleatorio 597
Bosques
dividido por un algoritmo aleatorio de cultivo de árboles forestales. Por
otro lado, los pares de puntos que están cerca pero pertenecen a
diferentes clases a veces compartirán un nodo terminal, pero no siempre.

15.3.4 Bosques aleatorios y sobreajuste


Cuando el número de Variables es grande pero el fracción de pertinente
Variables Bosques pequeños y aleatorios son Es probable que tenga un
rendimiento deficiente con m. En cada La posibilidad de que se seleccionen
las variables relevantes puede ser pequeña. La figura 15.7 muestra los
resultados de una simulación que respalda esta afirmación. De- cruz son
dado en el figura cAption y Ejercicio 15.3. En el Arriba de cada par Vemos
la probabilidad hipergeométrica de que una variable relevante sea
seleccionado en cualquier partir por a aleatorio bosque árbol (en éste
simulación el pertinente todas las variables son iguales en estatura). A
medida que esta probabilidad se reduce, la brecha entre el aumento y el
aumento de los bosques aleatorios. Cuando el número de rele- Vant Las
variables aumentan, el rendimiento de√ los bosques aleatorios es
sorprendentemente robusto a un aumento en el NUmber ≈ de variables de
ruido. Por ejemplo, con 6 pertinente y 100 ruido Variables el probabilidad
de a pertinente variable ser seleccionado en cualquier división es 0,46,
suponiendo que m = (6 + 100) 10. Según Figura 15.7, éste hace no doler el
rendimiento de aleatorio bosques Comparado con impulso. Esta robustez se
debe en gran medida a la relativa insensibilidad de Costo de clasificación
errónea al sesgo y varianza de las estimaciones de probabilidad en cada
árbol. Nosotros Considere al azar Bosques para regresión en el próximo
sección.

Otra afirmación es que los bosques aleatorios "no pueden


sobreajustar" los datos. Lo es Ciertamente cierto que el aumento de B no
provoca la secuencia de bosque aleatorio para sobreajustar; Al igual que el
embolsado, la estimación del bosque aleatorio (15.2) se aproxima al
expectativa
R
fˆrf (x) = EΘT (x; Θ) = lim fˆ(x)fB (15.3)
B→∞

con un promedio sobre B realizaciones de Θ. La distribución de Θ aquí


depende de los datos de entrenamiento. Sin embargo, este límite
puede sobreajustar los datos; El promedio de árboles completamente
desarrollados puede resultar en un modelo demasiado rico e incurrir en
una variación innecesaria. Segal (2004) demuestra pequeñas ganancias en
el rendimiento al controlar las profundidades de los árboles individuales
cultivados en bosques aleatorios. Nuestra experiencia es que el uso de
árboles maduros rara vez cuesta mucho, y da como resultado un parámetro
de ajuste menos .
La figura 15.8 muestra el efecto modesto del control de profundidad en un
ejemplo de regresión simple. Los clasificadores son menos sensibles a la
varianza, y este efecto de sobreajuste rara vez se observa con la
clasificación de bosques aleatorios.
15.4 Análisis de Aleatorio 597
Bosques

0.52 0.34 0.25 0.19 0.15

0.30
Aumentodel
prueba0.25
de
gradiente
de clasificación

bosque
aleatorio
de0.20 errónea
Error
0.15

Error de
Bayes
0.10

(2, 5) (2, 25) (2, 50) (2, 100) (2, 150)


Número de variables (relevantes, ruido)

FIGURA 15.7. Una comparación de bosques aleatorios y aumento de gradiente


en problemas con un número creciente de variables de ruido. En cada caso, el
verdadero límite de decisión depende de dos variables, y un número creciente
de variables de ruido

están incluidos. Los bosques aleatorios usan su valor predeterminado m = p. En la parte superior de cada
par es la probabilidad de que una de las variables relevantes sea elegida en
cualquier división. Los resultados se basan en 50 simulaciones para cada
pareja, con una muestra de entrenamiento de 300 y una muestra de
prueba de 500.

15.4 Análisis de bosques aleatorios


En esta sección analizamos los mecanismos en juego con la aleatorización
adicional empleada por los bosques aleatorios. Para esta discusión nos
centramos en la regresión y la pérdida de error al cuadrado, ya que esto
llega a los puntos principales, y el sesgo y la varianza son más complejos
con la pérdida 0-1 (ver Sección 7.3.1). Además, incluso en el caso de un
problema de clasificación, podemos considerar el promedio de bosque
aleatorio como una estimación de las probabilidades posteriores de clase,
para las cuales el sesgo y la varianza son descriptores apropiados.

15.4.1 La varianza y el efecto de descorrelación


La forma limitante (B → ∞) del estimador de regresión de bosque aleatorio es

fˆrf (x) = EΘ|ZT (x; Θ(Z)), (15.4)


donde hemos hecho explícita la dependencia de los datos de
entrenamiento Z. Aquí consideramos la estimación en un solo punto
objetivo x. De (15.1) vemos que
598 15. Aleatorio
Bosques

Poco profundo Profundo

1.10
Medio
prueba
de
1.05
cuadrática
Error
1.00

50 30 20 10 5

Tamaño mínimo del nodo

FIGURA 15.8. El efecto del tamaño del árbol en el error en la regresión


aleatoria del bosque. En este ejemplo, la superficie verdadera fue aditiva en dos
de las 12 variables, más el ruido gaussiano de varianza unitaria aditiva. La
profundidad del árbol se controla aquí por el tamaño mínimo del nodo;
Cuanto menor sea el tamaño mínimo del nodo, más profundos serán los
árboles.

Varfˆrf (x) = ρ(x)σ2(x). (15.5)

Aquí
• ρ(x) es el muestreo correlación entre cualquier par de árboles usado
en elPromedio:
ρ(x) = corr[T (x; Θ1(Z)), T (x; Θ2(Z))], (15.6)
donde Θ1(Z) y Θ 2(Z) son un par de árboles forestales aleatorios
sorteados al azar que crecen hasta el Z muestreado
aleatoriamente;

• σ2(x) es la varianza de muestreo de cualquier árbol sorteado al azar,

σ2(x) = Var T (x; Θ(Z)). (15,7)

Es fácil confundir ρ(x) con la correlación promedio entre árboles encajados en


un conjunto de bosque aleatorio dado; es decir, piense en los árboles ajustados
como vectores N - y calcule la correlación promedio por pares entre estos
vec- tores, condicionada a los datos. Este no es el caso; Esta correlación
condicional no es directamente relevante en el proceso de promedio, y la
dependencia de x en ρ(x) nos advierte de la distinción. Más bien, ρ(x) es la
correlación teórica entre un par de árboles forestales aleatorios evaluados en
x, inducidos por hacer repetidamente muestras de entrenamiento que
extraen Z de la población, y luego dibujar un par de árboles forestales
aleatorios . En la jerga estadística, esta es la correlación inducida por la
distribución muestral de Z y Θ.
Más precisamente, la variabilidad promediada en los cálculos en (15.6) y
(15.7) es tanto
15.4 Análisis de Aleatorio 599
Bosques
• condicional en Z: pendiente Para el Bootstrap muestreo y
característica muestreoen cada partir y

• un resultado de la variabilidad muestral de la propia Z.

En hecho el condicional covarianza de a par de árbol Encaja en x es cero


porqueel Bootstrap y característica muestreo es I.I.D; ver Ejercicio 15.5.
0.08
0.06
Correlación entre árboles

0.04
0.02
0.00

1 4 7 13 19 25 31 37 43 49

Número de variables de división seleccionadas aleatoriamente m

FIGURA 15.9. Correlaciones entre pares de árboles dibujados por un algoritmo


de regresión de bosque aleatorio, en función de m. Losgráficos de bueyes b
representan las correlaciones en 600 puntos de predicción elegidos al azar x.

Las siguientes demostraciones se basan en un modelo de simulación

Σ 50
1
Y = √ Xj + ε, (15.8)
50 j=1

con todas las Xj y ε iid gaussianas. Utilizamos 500 conjuntos de


entrenamiento de tamaño 100 y un solo conjunto de ubicaciones de
prueba de tamaño 600. Dado que los árboles de regresión no son
lineales en Z, los patrones que vemos a continuación diferirán un poco
dependiendo de la estructura del modelo.
La figura 15.9 muestra cómo la correlación (15.6) entre pares de árboles
disminuye a medida que m disminuye: es probable que los pares de
predicciones de árboles en x para diferentes conjuntos de entrenamiento Z
sean menos similares si no usan las mismas variables de división.
En el panel izquierdo de la figura 15.10 consideramos las varianzas de los
predictores de árbol único, VarT (x; Θ(Z)) (promediado sobre 600 puntos de
predicción x extraídos aleatoriamente de nuestro modelo de simulación).
Esta es la varianza total, y puede ser
600 15. Aleatorio
Bosques
descompuesto en dos partes usando argumentos de varianza condicional
estándar (ver Ejercicio 15.5):

Var Θ,Z T (x; Θ(Z)) = VarZEΘ|ZT (x; Θ(Z)) + E ZVarΘ|ZT (x; Θ(Z))
To t a l V a r i a n ce=V a r Z f ˆr f (x)+ w i th i n-Z V a riance
(15.9)
El segundo término es la varianza dentro de Z, un resultado de la
aleatorización, que aumenta a medida que m disminuye. El primer
término es, de hecho, la varianza de muestreo del conjunto de bosque
aleatorio (que se muestra en el panel derecho), que disminuye a medida
que m disminuye. La varianza de los árboles individuales no cambia
apreciablemente en gran parte del rango de m, por lo tanto, a la luz de
(15.5), la varianza del conjunto es dramáticamente más bajo que
esta variación de árbol.

Soltero Árbol 0.85 Aleatorio Bosque Conjunto

0.20
y SESGO
1.95

0,80

0,15
medio
1.90
Varianza

Varianza
0,75

0,10
Error Cuadrático
1.85

0,70

0,05
0.65Cuadrado

de
1.80

Dentro Varianza

0.0
de Z
Sesgo Cuadrático
Total
del Error
0 10 20 30 40 50 0 10cuadrático20 30 40 50

m mediom

FIGURA 15.10. Resultados de la simulación. El panel izquierdo muestra la


varianza promedio de un solo árbol forestal aleatorio, en función de m.
"Dentro de Z" se refiere a la contribución promedio dentro de la muestra a la
varianza, resultante del muestreo bootstrap y el muestreo de variables
divididas (15.9). "Total" incluye la variabilidad muestral de
Z. La línea horizontal es la varianza promedio de un solo árbol completamente
desarrollado (sin muestreo bootstrap). El panel derecho muestra el error
cuadrático medio medio, el sesgo cuadrático y la varianza del conjunto, en
función de m. Tenga en cuenta que el eje de varianza está a la derecha (misma
escala, nivel diferente). La línea horizontal es el sesgo cuadrado promedio de un
árbol completamente desarrollado.

15.4.2 Predisposición
Al igual que en el embolsado, el sesgo de un bosque aleatorio es el mismo
que el sesgo de cualquiera de los árboles muestreados individuales T (x;
Θ(Z)):
15.4 Análisis de Aleatorio 601
Bosques
Bias(x) = μ(x) − EZ f ˆrf (x)
= μ(x) − E ZEΘ| ZT (x; Θ(Z)). (15.10)
Esto también es típicamente mayor (en términos absolutos) que el sesgo
de un árbol sin podar cultivado a Z, ya que la aleatorización y el espacio de
muestra reducido imponen restricciones. Por lo tanto, las mejoras en la
predicción obtenida por el embolsado o los bosques aleatorios son
únicamente el resultado de la reducción de la varianza.
Cualquier discusión sobre el sesgo depende de la función verdadera
desconocida. La figura 15.10 (panel derecho) muestra el sesgo cuadrado
para nuestra simuflación del modelo aditivo ( estimado a partir de las 500
realizaciones). Aunque para diferentes modelos la forma y la velocidad de
las curvas de sesgo pueden diferir, la tendencia general es que a medida
que m disminuye, el sesgo aumenta. En la figura se muestra el error
cuadrático medio, y vemos una compensación clásica sesgo-varianza en la
elección de m. Para todo m el sesgo cuadrado del bosque aleatorio es
mayor que el de un solo árbol (línea horizontal).
Estos patrones sugieren una similitud con la regresión de cresta (Sección
3.4.1). La regresión de cresta es útil (en modelos lineales) cuando se tiene
un gran número de variables con coeficientes de tamaño similar; la cresta
reduce sus coeficientes hacia cero y los de variables fuertemente
correlacionadas entre sí. Aunque el tamaño de la muestra de
entrenamiento podría no permitir que todas las variables estén en el
modelo, esta regularización a través de la cresta estabiliza el modelo y
reduce todas las variables para expresar su opinión (aunque
disminuida). Los bosques aleatorios con m pequeña realizan un promedio
similar. Cada una de las variables relevantes obtiene su turno para ser la
división primaria, y el promedio de ensemble reduce la contribución de
cualquier variable individual. Dado que este examen de simulación (
15.8) se basa en un modelo lineal en todas las variables, la regresión de
cresta logra un error cuadrático medio más bajo (aproximadamente
0.45 con df(λopt) ≈ 29).

15.4.3 Vecinos más cercanos adaptables


El clasificador de bosque aleatorio tiene mucho en común con el clasificador
k-más cercano (Sección 13.3); de hecho, una versión ponderada del
mismo. Dado que cada árbol se cultiva hasta el tamaño máximo, para un Θ∗
particular, T (x; Θ∗(Z)) es el valor de respuesta para una de las muestras de
entrenamiento 4. El algoritmo de crecimiento de árboles encuentra un
camino "óptimo" para esa observación, eligiendo los predictores más
informativos de los que están a su disposición. El proceso de promedio
asigna pesos a estas respuestas de entrenamiento, que finalmente votan a
favor de la predicción. Por lo tanto, a través del mecanismo de votación de
bosques aleatorios, esas observaciones cercanas a la
El punto objetivo obtiene pesos asignados, un núcleo equivalente, que se
combinan para formar la decisión de clasificación.
La figura 15.11 demuestra la similitud entre el límite de decisión de los 3
vecinos más cercanos y los bosques aleatorios en los datos de mezcla .

4Pasamos por alto el hecho de que los nodos puros no se dividen más, y por lo tanto

puede haber más de una observación en un nodo terminal


602 15. Aleatorio
Bosques
Clasificador de bosque aleatorio 3−Vecinos más cercanos

oo oo oo oo
o oo oo
o o o oooo
o o
ooo ooo ooo ooo
o
o o ooooo o oo o
o o oo oo oo
oo oo oo o
oo o o o
o oo o o o o o o o o oo oo ooo oo o
o o
oo oooo o
o o o oo ooo oo o o o
o o o o o
ooooo o o o o o o
o oo
o o o oo o
o o o o o ooo o ooo oooo o o o ooo oo o
o o o oo o oo o o o o oo o oo o
o o
oo ooooo ooooo ooooo o o oo ooooo ooooo ooooo o o
oo oooo o o o oo oooo o o o
o ooo o o oo oooo o ooo o o oo oooo
o o o o o o
ooooo o ooooo o
o o
ooooo ooooo
Error de ooo Error de ooo
o o o o
entrenamiento : 0.000 entrenamiento : 0.130
Error de prueba: o Error de prueba: o
0.238 0.242
Error de Bayes : Error de Bayes :
0.210 0.210

FIGURA 15.11. Bosques aleatorios versus 3-NN en los datos de mezcla. La


naturaleza de origen del eje de los árboles individuales en un bosque
aleatorio conduce a regiones de decisión con un sabor orientado al eje.

Notas bibliográficas
Los bosques aleatorios como se describen aquí fueron introducidos por
Breiman (2001), aunque muchas de las ideas habían surgido anteriormente
en la literatura en diferentes formas. Cabe destacar que Ho (1995)
introdujo el término "bosque aleatorio" y utilizó un consenso de árboles
cultivados ensubespacios de las características. La idea de usar
perturbación estocástica y promediar para evitar el sobreajuste fue
introducida por Kleinberg (1990), y más tarde en Kleinberg (1996). Amit y
Geman (1997) utilizaron árboles aleatorizados cultivados en características
de imagen para problemas de asificación de imágenes. Breiman (1996a)
introdujo el embolsado, un precursor de su versión de los bosques
aleatorios. Dietterich (2000b) también propuso una mejora en el
embolsado utilizando aleatorización adicional. Su enfoque fue clasificar las
20 principales divisiones candidatas en cada nodo, y luego seleccionar de la
lista al azar. Demostró a través de simulaciones y ejemplos reales que esta
aleatorización adicional mejoró sobre el rendimiento del embolsado.
Friedman y Hall (2007) demostraron que elmuestreo (sin reemplazo) es
una alternativa eficaz al embolsado. Demostraron que el crecimiento y el
envejecimiento de árboles en muestras de tamaño N/2 es
aproximadamente equivalente (en términos de consideraciones de
sesgo/varianza ) al embolsado, mientras que el uso de fracciones más
pequeñas de N reduce aún más la varianza (a través de la decorrerelación).
Hay varias implementaciones de software libre de bosques aleatorios. En
En este capítulo utilizamos el randomForest paquete en R, mantenido por
Andy Liaw, disponible en el CRAN sitio web. Esto permite que tanto la
variable dividida se- lección, así como submuestreo. Adele Cutler mantiene
un bosque aleatorio sitio web http://www.math.usu.edu/
∼ Adele/bosques/
donde (a partir de Au- ráfaga 2008) el software escrito por Leo Breiman y
Adele Cuchillero es libremente
Ejercicios 603

disponible. Su código, y el nombre "random forests", es licenciado


exclusivamente a Salford Systems para su lanzamiento comercial. El
http://www.cs.waikato.ac.nz/ml/weka/ de archivos de aprendizaje
automático Weka en la Universidad de Waikato, Nueva Zelanda, ofrece una
implementación java gratuita de bosques aleatorios.

Ejercicios

Ejemplo 15.1 Derivar la fórmula de varianza (15.1). Esto parece fallar si ρ es


negativo; Diagnostique el problema en este caso.

Ejemplo 15.2 Muestre que a medida que aumenta el número de


muestras de bootstrap B, la estimación de error OOB para un bosque
aleatorio se acerca a su estimación de error CV de N pliegues, y que en el
límite , la identidad es exacta.

Ejemplo 15.3 Considere el modelo de simulación utilizado en la figura


15.7 (Mease y Wyner, 2008). Las observaciones binarias se generan con
probabilidades

ΣJ
Pr(Y = 1|X) = q + (1 − 2q) · 1 Xj > J/2 , (15.11)
j=1

Dónde X ∼ U [0, 1]p, 0 ≤≤ q ≤ 12 , y J p es algunos predefinido


(par)número. Describir éste probabilidad Superficie y dar el Bayes error
tasa.
Ex. 15.4 Suppose x i, i = 1, . . . , N are iid (μ, σ 2 ). Let x ∗
̄ andx̄∗ be two
1 2
Bootstrap realizaciones de la media de la muestra. Demostrar que el muestreo
relation corr(x̄∗1, x̄∗2) = 2n−1
n
≈ 50%. AloNg tél way, Derive var(x̄∗ ) 1aNd
t he v a ri a nce of the b a gged me a nxb̄ ag . Her e x̄ i s a l i ne a r s t a t i s t ic; bagging
no produce ninguna reducción en la varianza para las estadísticas lineales.

Ex. 15.5 Mostrar que la correlación de muestreo entre un par de árboles


forestales aleatorios en un punto x está dada por

VarZ[EΘ|ZT (x; Θ(Z))] VarZ[EΘ|ZT


ρ(x) = (x; Θ(Z))] + EZVarΘ|Z[T (x, Θ(Z)] . (15.12)

T he t er m i n t he numer a t o r i s V a r Z [f ˆr f (x)], and t he sec oEl


denominador es la varianza condicional esperada debido a la aleatorización
en bosques aleatorios.

Ejemplo 15.6 Ajuste una serie de clasificadores de bosque aleatorio a los


datos de spam, para explorar la sensibilidad al parámetro m. Trazar tanto el
error oob como el error de prueba contra un rango de valores
adecuadamente elegido para m.
604 15. Aleatorio
Bosques
Ejemplo 15.7 Supongamos que ajustamos un modelo de regresión lineal
a N observaciones con respuesta y i y predictores x i1, . . . , xip.
Supongamos que todas las variables están estandarizadas para tener una
media cero y una desviación estándar. Sea RSS el me a n-squ a r ed r es i
du a l o n t he t r a i ning d a t a, a ndβ̂ t he es t i ma t ed c oeff i cien t.

Denotar por .RSS j el media cuadrática residual en el adiestramiento datos Usando el
sam e β̂, pero w i t h t he N v a l ues f o r t he j th v a r i a ble r andomly
permut ed antes de que se calculen las predicciones. Demostrar que

EP [RSSj∗ − RSS] = 2β̂ 2j, (15.13)

donde EP denota expectativa con respecto a la distribución de


permutación. Argumente que esto es aproximadamente cierto cuando
las evaluaciones se realizan utilizando un conjunto de pruebas
independiente.

También podría gustarte