Documentos de Académico
Documentos de Profesional
Documentos de Cultura
587 Impresora:
Opaque esto
15
Bosques aleatorios
15.1 Introducción
El embolsado o agregación bootstrap (sección 8.7) es una técnica para
reducir la varianza de una función de predicción estimada. El embolsado
parece funcionar especialmente bien para procedimientos de alta varianza
y bajo sesgo, como los árboles. Para la regresión, simplemente ajustamos el
mismo árbol de regresión muchas veces a las versiones muestreadas de
arranque de los datos de entrenamiento y promediamos el resultado. Para
la clasificación, un comité de árboles emitió cada uno un voto para la clase
predicha.
El impulso en el Capítulo 10 también se propuso inicialmente como un
método de comité, aunque a diferencia del embolsado, el comité de
estudiantes débiles evoluciona con el tiempo y los miembros emiten un
voto ponderado. El impulso parece dominar el embolsado en la mayoría de
los problemas, y se convirtió en la opción preferida.
Los bosques aleatorios (Breiman, 2001) son una modificación sustancial
del embolsado que construye una gran colección de árboles
descorrelacionados y luego los promedia. En muchos problemas, el
rendimiento de los bosques aleatorios es muy similar al impulso, y son
más fáciles de entrenar y afinar. Como consecuencia, los bosques
aleatorios son populares y se implementan en una variedad de paquetes.
1 ΣB
fˆRB (x) = T (x; Θ ).b (15.2)
f B b=1
Spam Datos
Embolsado de
bosque
aleatorio
Aumento de
gradiente (5 nodos)
0,070
0,040 0,045 0,050 0,055 0,060 0,065
Error de
prueba
Número de árboles
Anidado Esferas
de prueba0.15
de clasificación
0.10
errónea
0.05
Error
Error de
Bayes
0.00
RF m= 2
RF m=6
Profundidad
GBM=4 GBM
profundidad=6
de
0,40 0,42
Error absoluto promedio
0,36 0,38
prueba
0,44
0,32 0,34
Número de árboles
3D e t a il s: h e r a nd o m fo r e s t s w e r e fi t using t h e R pack a g e r
T
andomForest 4. 5-1 1, wi t h 500 trees. Th e g r a d i e n t b o o s t i n g mod e ls w
e r e fi t usin g R p a cka g e gbm 1.5, parámetro de contracción w ith establecido
en 0.05, y 2000 árboles.
592 15. Aleatorio
Bosques
0.075
Error de
prueba de
clasificación
error
0.065
OOB
errónea
Error de
0.055
0.045
Número de árboles
Una estimación del error de OOB es casi idéntica a la obtenida por validación
cruzada de N veces ; ver Ejercicio 15.2. Por lo tanto, a diferencia de
muchos otros estimadores no lineales, los bosques aleatorios pueden
encajar en una secuencia, con validación cruzada que se forma a lo largo
del camino. Una vez que el error OOB se estabiliza, el entrenamiento
puede terminarse.
La figura 15.4 muestra el error de clasificación errónea OOB para los datos
de spam, en comparación con el error de prueba. Aunque aquí se promedian
2500 árboles, parece por la parcela que unos 200 serían suficientes.
E
l Gini
i
m
Pieza i Piezas de mesa 3D
s de n Direcciones
tabla a
CS c Informe directo CS Make 415
3D i # 857
Direcciones ó conferencia
857 n
415 Proyecto de datos de crédito Personas Telnet Lab Dirección
original
Conferencia 85 [
g
direct laboratorios todos los pedidos
Tecnología
r
a Fuente de correo
a ;
Inform Correo electrónico sobre Recibir PM 650
e t Internet
original voluntad (
del u
Reunión de dinero
pro i 000
negocio
yec t HPL YOU re 1999
nuestro tu CAPTOT
to a george edu CAPMAX
Telnet
Lab
$
! HP CAPAVE gratis
[ $ eliminar
!
85
Tecnología
Crédit
o
de
fuent
e de
da
to
s
#
Hacer
que las
persona
s PM se
dirijan a
la
reunión
de
los
laborato
rios de
ped
idos
650
;
Corr
eo
sobre
recepci
ón
re
corre
o
electr
ónico
todo
volun
tad
(
Internet
1999
negocio
HP
L
ED
U
000
George
Tú
nuestr
o
dinero
CAPTOT
HP
CAPMAX
su
CAPAVE
Aleatorización
15.3 Detalles de Aleatorio 595
Bosques
0 20 40 60 80 100 0 20 40 60 80 100
4 3
1
X2
2
5
Dimensión 1 X1
0.30
Aumentodel
prueba0.25
de
gradiente
de clasificación
bosque
aleatorio
de0.20 errónea
Error
0.15
Error de
Bayes
0.10
1.10
Medio
prueba
de
1.05
cuadrática
Error
1.00
50 30 20 10 5
Aquí
• ρ(x) es el muestreo correlación entre cualquier par de árboles usado
en elPromedio:
ρ(x) = corr[T (x; Θ1(Z)), T (x; Θ2(Z))], (15.6)
donde Θ1(Z) y Θ 2(Z) son un par de árboles forestales aleatorios
sorteados al azar que crecen hasta el Z muestreado
aleatoriamente;
0.04
0.02
0.00
1 4 7 13 19 25 31 37 43 49
Σ 50
1
Y = √ Xj + ε, (15.8)
50 j=1
Var Θ,Z T (x; Θ(Z)) = VarZEΘ|ZT (x; Θ(Z)) + E ZVarΘ|ZT (x; Θ(Z))
To t a l V a r i a n ce=V a r Z f ˆr f (x)+ w i th i n-Z V a riance
(15.9)
El segundo término es la varianza dentro de Z, un resultado de la
aleatorización, que aumenta a medida que m disminuye. El primer
término es, de hecho, la varianza de muestreo del conjunto de bosque
aleatorio (que se muestra en el panel derecho), que disminuye a medida
que m disminuye. La varianza de los árboles individuales no cambia
apreciablemente en gran parte del rango de m, por lo tanto, a la luz de
(15.5), la varianza del conjunto es dramáticamente más bajo que
esta variación de árbol.
0.20
y SESGO
1.95
0,80
0,15
medio
1.90
Varianza
Varianza
0,75
0,10
Error Cuadrático
1.85
0,70
0,05
0.65Cuadrado
de
1.80
Dentro Varianza
0.0
de Z
Sesgo Cuadrático
Total
del Error
0 10 20 30 40 50 0 10cuadrático20 30 40 50
m mediom
15.4.2 Predisposición
Al igual que en el embolsado, el sesgo de un bosque aleatorio es el mismo
que el sesgo de cualquiera de los árboles muestreados individuales T (x;
Θ(Z)):
15.4 Análisis de Aleatorio 601
Bosques
Bias(x) = μ(x) − EZ f ˆrf (x)
= μ(x) − E ZEΘ| ZT (x; Θ(Z)). (15.10)
Esto también es típicamente mayor (en términos absolutos) que el sesgo
de un árbol sin podar cultivado a Z, ya que la aleatorización y el espacio de
muestra reducido imponen restricciones. Por lo tanto, las mejoras en la
predicción obtenida por el embolsado o los bosques aleatorios son
únicamente el resultado de la reducción de la varianza.
Cualquier discusión sobre el sesgo depende de la función verdadera
desconocida. La figura 15.10 (panel derecho) muestra el sesgo cuadrado
para nuestra simuflación del modelo aditivo ( estimado a partir de las 500
realizaciones). Aunque para diferentes modelos la forma y la velocidad de
las curvas de sesgo pueden diferir, la tendencia general es que a medida
que m disminuye, el sesgo aumenta. En la figura se muestra el error
cuadrático medio, y vemos una compensación clásica sesgo-varianza en la
elección de m. Para todo m el sesgo cuadrado del bosque aleatorio es
mayor que el de un solo árbol (línea horizontal).
Estos patrones sugieren una similitud con la regresión de cresta (Sección
3.4.1). La regresión de cresta es útil (en modelos lineales) cuando se tiene
un gran número de variables con coeficientes de tamaño similar; la cresta
reduce sus coeficientes hacia cero y los de variables fuertemente
correlacionadas entre sí. Aunque el tamaño de la muestra de
entrenamiento podría no permitir que todas las variables estén en el
modelo, esta regularización a través de la cresta estabiliza el modelo y
reduce todas las variables para expresar su opinión (aunque
disminuida). Los bosques aleatorios con m pequeña realizan un promedio
similar. Cada una de las variables relevantes obtiene su turno para ser la
división primaria, y el promedio de ensemble reduce la contribución de
cualquier variable individual. Dado que este examen de simulación (
15.8) se basa en un modelo lineal en todas las variables, la regresión de
cresta logra un error cuadrático medio más bajo (aproximadamente
0.45 con df(λopt) ≈ 29).
4Pasamos por alto el hecho de que los nodos puros no se dividen más, y por lo tanto
oo oo oo oo
o oo oo
o o o oooo
o o
ooo ooo ooo ooo
o
o o ooooo o oo o
o o oo oo oo
oo oo oo o
oo o o o
o oo o o o o o o o o oo oo ooo oo o
o o
oo oooo o
o o o oo ooo oo o o o
o o o o o
ooooo o o o o o o
o oo
o o o oo o
o o o o o ooo o ooo oooo o o o ooo oo o
o o o oo o oo o o o o oo o oo o
o o
oo ooooo ooooo ooooo o o oo ooooo ooooo ooooo o o
oo oooo o o o oo oooo o o o
o ooo o o oo oooo o ooo o o oo oooo
o o o o o o
ooooo o ooooo o
o o
ooooo ooooo
Error de ooo Error de ooo
o o o o
entrenamiento : 0.000 entrenamiento : 0.130
Error de prueba: o Error de prueba: o
0.238 0.242
Error de Bayes : Error de Bayes :
0.210 0.210
Notas bibliográficas
Los bosques aleatorios como se describen aquí fueron introducidos por
Breiman (2001), aunque muchas de las ideas habían surgido anteriormente
en la literatura en diferentes formas. Cabe destacar que Ho (1995)
introdujo el término "bosque aleatorio" y utilizó un consenso de árboles
cultivados ensubespacios de las características. La idea de usar
perturbación estocástica y promediar para evitar el sobreajuste fue
introducida por Kleinberg (1990), y más tarde en Kleinberg (1996). Amit y
Geman (1997) utilizaron árboles aleatorizados cultivados en características
de imagen para problemas de asificación de imágenes. Breiman (1996a)
introdujo el embolsado, un precursor de su versión de los bosques
aleatorios. Dietterich (2000b) también propuso una mejora en el
embolsado utilizando aleatorización adicional. Su enfoque fue clasificar las
20 principales divisiones candidatas en cada nodo, y luego seleccionar de la
lista al azar. Demostró a través de simulaciones y ejemplos reales que esta
aleatorización adicional mejoró sobre el rendimiento del embolsado.
Friedman y Hall (2007) demostraron que elmuestreo (sin reemplazo) es
una alternativa eficaz al embolsado. Demostraron que el crecimiento y el
envejecimiento de árboles en muestras de tamaño N/2 es
aproximadamente equivalente (en términos de consideraciones de
sesgo/varianza ) al embolsado, mientras que el uso de fracciones más
pequeñas de N reduce aún más la varianza (a través de la decorrerelación).
Hay varias implementaciones de software libre de bosques aleatorios. En
En este capítulo utilizamos el randomForest paquete en R, mantenido por
Andy Liaw, disponible en el CRAN sitio web. Esto permite que tanto la
variable dividida se- lección, así como submuestreo. Adele Cutler mantiene
un bosque aleatorio sitio web http://www.math.usu.edu/
∼ Adele/bosques/
donde (a partir de Au- ráfaga 2008) el software escrito por Leo Breiman y
Adele Cuchillero es libremente
Ejercicios 603
Ejercicios
ΣJ
Pr(Y = 1|X) = q + (1 − 2q) · 1 Xj > J/2 , (15.11)
j=1