Está en la página 1de 8

Métodos de conjunto:

embolsado y bosques aleatorios


| Métodos de la naturaleza
Nivel Principiante

Author Naomi Altman y Martín Krzywinski

Link https://www.nature.com/articles/nmeth.4438

Summary Muchas cabezas piensan mejor que una.

Dificultad ⭐
Contenido Teoría

Idioma Español

PDF

Type Tutorial

Métodos de conjunto: embolsado y bosques


aleatorios
Muchas cabezas son mejor que una.
El embolsado es un método de conjunto común que utiliza muestreo
bootstrap 3 . Random forest es una mejora del embolsado que puede mejorar la

Métodos de conjunto: embolsado y bosques aleatorios | Métodos de la naturaleza 1


selección de variables. Comenzaremos explicando el embolsado y luego discutiremos
la mejora que conduce al bosque aleatorio.
Ilustraremos el embolsado mejorando un ajuste de árbol de regresión 4 de datos
ruidosos muestreados de una parábola ( Fig. 1 ). Debido a que nuestra muestra es
relativamente pequeña ( n = 30), nuestra predicción del árbol de regresión basada en la
muestra completa es tosca ( Fig. 1a ). Comenzamos a empaquetar generando
muestras de arranque de tamaño n mediante el muestreo de n observaciones con
reemplazo de nuestra muestra y luego calculamos una predicción de árbol de regresión
para cada muestra de arranque ( Fig. 1b ). Finalmente, combinamos las predicciones
de arranque individuales en una estimación de consenso, que se puede hacer para la
regresión promediando los valores ajustados ( Fig. 1c ).
Figura 1: Embolsado aplicado a la regresión utilizando un árbol de regresión.

( a ) Una muestra de tamaño n = 30 generada a partir de una parábola (línea


discontinua) con ruido agregado y el ajuste asociado de un árbol de regresión (línea
negra continua). ( b ) Cuatro muestras de arranque diferentes de la muestra en a y sus
correspondientes predicciones del árbol de regresión. Los puntos sólidos están en la
muestra de arranque y algunos se representan más de una vez. Los puntos huecos no
están en la muestra de arranque y se denominan puntos fuera de la bolsa (OOB). ( c )
Regresión de conjunto (línea azul) formada por el promedio de regresiones de arranque
en b . También se muestra el ajuste del árbol de regresión original de a .

Nuestro ajuste de regresión de consenso en la Figura 1c es más suave que el ajuste
simple basado en toda la muestra y refleja la forma de la parábola más de cerca. Esto
sugiere que si aumentamos el número de bootstraps, podríamos obtener un ajuste aún
mejor, pero ¿cuántos deberíamos usar? El uso de más muestras reduce la varianza del

Métodos de conjunto: embolsado y bosques aleatorios | Métodos de la naturaleza 2


ajuste, pero debido a que muchas muestras de arranque son similares, en algún
momento más arranques simplemente aumentarán el tiempo de cálculo sin mejorar las
estimaciones.
En general, el número óptimo de muestras de arranque depende del problema. Veamos
cómo podemos monitorear la calidad de nuestro ajuste para elegir el número de
bootstraps. Sea ŷ nuestro predictor original basado en la muestra completa y ŷ B sea el
predictor de bolsa de consenso. Podemos usarlos para calcular el error de predicción
del cuadrado medio, MSE = Σ i ( y i − ŷ i ) 2 / n , para ambos ajustes, que
llamaremos ε y ε B .

Resulta que hay otro error útil que podemos calcular, el error 'out-of-bag'
(OOB). Debido a que muestreamos con reemplazo, en cualquier muestra de arranque
dada, algunas observaciones no se seleccionan (puntos huecos, Fig. 1b ), mientras que
otras se representan más de una vez. Los puntos que no se seleccionan forman la
muestra OOB, que se puede utilizar como muestra de validación para el ajuste 5 para
evaluar la precisión de la regresión para nuevas observaciones no incluidas en los
datos de entrenamiento. El error OOB, ε OOB , se calcula de manera análoga a ε B ,
excepto que en lugar de ŷ i usamos ŷ OOB, i , que es el ajuste para cada y ipromediado
a partir de muestras en las que es OOB.
Para evaluar el proceso de embolsado, calculamos periódicamente ε OOB y
continuamos creando nuevas muestras de arranque hasta que el error se
estabilice. Realicemos más arranques a la muestra en la Figura 1 y veamos cómo
disminuyen los errores. El ajuste del árbol de regresión basado en la muestra completa
da un MSE de ε = 0,067. Si ejecutamos diez bootstraps ( Fig. 2a ), el error cae a ε B =
0.048 con un error OOB de ε OOB = 0.077. En la Figura 2bcomparamos las
regresiones de conjunto para ejecuciones individuales de 10, 25 y 50 bootstraps. No
parece haber mucha diferencia entre los ajustes que usan 25 y 50 bootstraps, lo que
podemos verificar observando el perfil de ε B y ε OOB en función del número de
bootstraps ( Fig. 2c ). Podemos ver que después de unos 25 arranques, ambos errores
permanecen relativamente constantes. El uso de ε OOB nos brinda una mejor
indicación de cuándo detenerse, ya que ε B parece estabilizarse demasiado pronto
(alrededor de 15 arranques).
Figura 2: Las regresiones de conjunto mejoran en calidad, hasta cierto punto, a
medida que aumenta el número de arranques.

Métodos de conjunto: embolsado y bosques aleatorios | Métodos de la naturaleza 3


( a ) La regresión de consenso (línea azul) para diez iteraciones de arranque (líneas
grises) para los datos de la Figura 1 . ( b ) Regresiones de conjunto para 10, 25 y 50
iteraciones de arranque. ( c ) Los errores bagged y OOB ( ε B , ε OOB ) en función del
número de bootstraps. La curva se ajusta a diez simulaciones en cada nivel de
arranque utilizando suavizado ponderado localmente. La banda gris es el intervalo de
confianza del 95 % del ajuste.
Debido a que las regresiones empaquetadas son promedios, por lo general tienen una
varianza menor que ŷ . Pero debido a que ŷ OOB se basa solo en alrededor del 37 %
de las muestras de arranque (la fracción esperada de la muestra que es OOB), es más
variable que ŷ B . Esto se refleja en el valor más pequeño de ε B en comparación
con ε OOB ( Fig. 2c ). Sin embargo, como estimador del verdadero error de predicción
para muestras nuevas, ε B es demasiado pequeño porque se basa en la muestra de
entrenamiento sobreajustada. Mientras que ε OOBtiende a ser un poco mayor que el
verdadero error de predicción basado en nuevas muestras, este sesgo conservador
suele ser pequeño. El uso de ε OOB para evaluar el ajuste nos permite usar todos los
datos para desarrollar nuestra regresión, en lugar de requerir una muestra de prueba
reservada y, por lo tanto, proporciona un mejor ajuste en general.

Las simulaciones han demostrado que el embolsado funciona mejor con algoritmos que
son muy sensibles a pequeños cambios en los datos 6 . Esta sensibilidad significa que
los valores ajustados ŷ serán muy variables de una muestra a otra sin
agregación. Cuando el algoritmo es muy estable, por ejemplo, en una regresión lineal
sin puntos influyentes, el ŷ B en realidad puede ser más variable que ŷ .

El embolsado se puede aplicar fácilmente a problemas de clasificación. En lugar de


usar la regresión promedio como consenso, ahora se forma una clasificación de

Métodos de conjunto: embolsado y bosques aleatorios | Métodos de la naturaleza 4


consenso mediante 'votación', donde la observación se clasifica en la clase elegida con
mayor frecuencia.

En la Figura 3 mostramos el embolsado aplicado al ejemplo de clasificación


bidimensional que discutimos en nuestra columna anterior 4 . Este ejemplo utiliza dos
predictores ( posición x e y ) y un resultado categórico con cuatro niveles. El resultado
de la clasificación es sensible a los valores atípicos: los valores atípicos verdes en el
cuadrante superior izquierdo hacen que el límite de la clase verde se extienda por todo
el ancho del cuadrado ( Fig. 3a ). Este problema se mitiga cuando se crean muestras
de arranque, ya que los valores atípicos pueden quedar fuera, lo que hace que los
límites de la clase verde estén más confinados a la parte superior derecha ( Fig. 3b ). A
medida que aumentamos el número de iteraciones de arranque, los límites se suavizan
y es menos probable que se sobreajusten (figura 3c ). Como antes, podemos
monitorear el embolsado y el error OOB ( Fig. 3d ) para guiarnos sobre la cantidad de
iteraciones de arranque a realizar. La tasa de clasificación errónea del predictor original
fue del 29 %, que se redujo al 26 % en 50 iteraciones de arranque con un error OOB de
aproximadamente el 40 %.

Figura 3: Aplicación de embolsado a la clasificación utilizando un árbol de


decisión aplicado a n = 100 puntos de datos bidimensionales asignados a una de
las cuatro categorías de color.

Métodos de conjunto: embolsado y bosques aleatorios | Métodos de la naturaleza 5


( a ) El conjunto de datos se compone de 25 puntos muestreados de los cuatro círculos,
cada uno con una categoría asociada. El muestreo se realiza a partir de una
distribución normal bidimensional centrada en el círculo con una desviación estándar
del radio del círculo. La clasificación se realiza mediante un árbol de decisión. Los
límites del árbol están indicados por las regiones de colores sólidos. ( b ) Límites de
clasificación basados en cinco muestras de arranque diferentes. Los puntos en el
bootstrap se muestran como círculos y los puntos OOB no se muestran. ( c ) Los
límites de la clasificación del conjunto por votación para 5, 10, 25 y 50 iteraciones de
arranque. ( d ) Los errores en bolsa y OOB ( ε B , ε OOB; MSE) en función del número
de bootstraps. El error se basa en la tasa de clasificación errónea en diez simulaciones
en cada nivel de arranque. La curva de error se presenta como en la Figura 2 .

Métodos de conjunto: embolsado y bosques aleatorios | Métodos de la naturaleza 6


Los ajustes de regresión o clasificación generados a partir de diferentes muestras de
arranque se correlacionan debido a las observaciones que se han seleccionado en
ambas muestras. Cuanto mayor sea la correlación, más similar será el ajuste de cada
bootstrap y menor será el efecto mitigador del consenso en la reducción de la
varianza. Para los problemas de selección de variables, las variables altamente
predictivas que se seleccionan en la mayoría de las muestras de arranque inducen una
fuerte correlación entre los ajustes, lo que reduce la utilidad del embolsado.

Para limitar el impacto de dichas variables, se utiliza una modificación sencilla pero
inteligente del embolsado CART: un bosque aleatorio 7 . En este enfoque, en cada
nodo del árbol, se selecciona al azar un subconjunto m de las p variables en los datos,
y solo estas m variables se consideran para la partición en el nodo. Esta selección
aleatoria de variables reduce la similitud de los árboles que crecen a partir de diferentes
muestras de arranque; es probable que incluso dos árboles que crecen a partir de la
misma muestra de arranque difieran. Una vez que se ha cultivado un bosque de
árboles lo suficientemente grande, los resultados se embolsan de la forma habitual.
Habrá un valor de m que optimice la reducción de la varianza en relación con el costo
computacional. Esto se puede estimar utilizando el error OOB en función de m . Los
bosques aleatorios son bastante sólidos con respecto a m , y en ocasiones se utilizan
reglas generales como m = p /3 para la regresión y m = √ p para la clasificación 7 .

Los métodos de conjunto como bagging y random forest son prácticos para mitigar
tanto el ajuste insuficiente como el sobreajuste, como hemos visto con nuestros
ejemplos de regresión y clasificación. El uso de la muestra OOB con cada bootstrap es
conceptualmente equivalente a usar un conjunto de pruebas para la evaluación fuera
de la muestra, pero proporciona un medio para usar la muestra completa para estimar y
evaluar el ajuste.

Referencias
1. Kulesa, A., Krzywinski, M., Blainey, P. & Altman, N. Nat. Methods 12, 477–478
(2015).

2. Liang, G., Zhu, X. & Zhang, C. in Proc. 25th AAAI Conference on Artificial
Intelligence (eds. Wang, D. & Reynolds, M.) 1802–1803 (Springer, 2011).

Información del autor

Métodos de conjunto: embolsado y bosques aleatorios | Métodos de la naturaleza 7


Autores y Afiliaciones
1. Profesor de Estadística en la Universidad Estatal de Pensilvania,
Noemí Altman
2. científico del personal del Centro de Ciencias del Genoma Michael Smith de
Canadá,
Martín Krzywinski

Acerca de este artículo

Citar este artículo


Altman, N., Krzywinski, M. Métodos de conjunto: embolsado y bosques
aleatorios. Métodos nacionales 14, 933–934 (2017). https://doi.org/10.1038/nmeth.4438
Descargar cita

Publicado@September 29, 2017

Fecha de asunto@October 1, 2017

DOIhttps://doi.org/10.1038/nmeth.4438

Métodos de conjunto: embolsado y bosques aleatorios | Métodos de la naturaleza 8

También podría gustarte