Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Informática y Geociencias
Trabajo de investigación
Palabras clave: Random forest es una técnica de clasificación ampliamente utilizada en la teledetección. Una de sus ventajas es que produce
Clasificación una estimación de la precisión de clasificación basada en el llamado método de validación cruzada out-of-bag. Por lo general,
Bosque aleatorio
se supone que dicha estimación no está sesgada y puede usarse en lugar de una validación basada en un conjunto de datos
Análisis de imágenes basado en objetos
externo o una validación cruzada externa al algoritmo.
Harpillera
En este artículo mostramos que este no es necesariamente el caso cuando clasificamos imágenes de sensores remotos
Independencia estadística
utilizando áreas de entrenamiento con varios píxeles u objetos. Según nuestros resultados, la validación cruzada out-of-bag
claramente sobreestima la precisión, tanto en general como por clase. La razón es que, en un parche de entrenamiento, los
píxeles u objetos no son independientes (desde un punto de vista estadístico) entre sí; sin embargo, se dividen mediante
arranque en bolsa y fuera de la bolsa como si fueran realmente independientes. Creemos que colocar un parche completo, en
lugar de píxeles/objetos, en uno u otro conjunto produciría una validación cruzada inmediata menos sesgada. Para solucionar
el problema, proponemos una modificación del algoritmo de bosque aleatorio para dividir parches de entrenamiento en lugar
de los píxeles (u objetos) que los componen. Este algoritmo modificado no sobrestima la precisión y no tiene una capacidad
predictiva inferior a la del original. Cuando sus resultados se validan con un conjunto de datos externo, la precisión no es
diferente a la obtenida con el algoritmo original.
Analizamos tres imágenes de teledetección con diferentes enfoques de clasificación (basada en píxeles y objetos); en
los tres casos reportados, la modificación que proponemos produce una estimación de precisión menos sesgada.
1. Introducción la ciencia del suelo (p. ej ., Schmidt et al. (2008)), o para analizar el abandono de la
tierra (p. ej. , Alonso-Sarría et al. (2016)). El uso de RF en la clasificación de imágenes
La clasificación ha sido una de las prácticas más relevantes en la teledetección; ha experimentado un crecimiento significativo. Muchos trabajos de investigación
como consecuencia, se ha dedicado un gran esfuerzo a desarrollar y aplicar nuevas destacan su buen desempeño en comparación con alternativas más tradicionales (Cutler
técnicas para clasificar imágenes de teledetección, principalmente basadas en et al., 2007; Ok et al., 2012). También supera a algoritmos más recientes como las
inteligencia artificial y aprendizaje automático (Gao, 2009). Recientemente, las técnicas redes neuronales artificiales o los k vecinos más cercanos ponderados (Maxwell et al.,
de aprendizaje en conjunto han recibido mucha atención. Dichos métodos generan una 2015; Cánovas-García y Alonso Sarría, 2015b), y ha demostrado ser tan potente como
gran cantidad de clasificadores, que luego se agrupan, mediante un procedimiento más las máquinas de vectores soporte (Pal, 2005; Ghosh y Joshi, 2014; Sesnie et al., 2010;
o menos complejo, para obtener una clasificación global. Los árboles de decisión se Adam et al., 2014). Otras ventajas son que es un método no paramétrico, por lo que no
encuentran entre las técnicas de aprendizaje automático más adecuadas utilizadas en se supone una distribución teórica en los datos de entrenamiento; se encuentra entre
conjuntos; boosting, bagging y random forest (RF) son técnicas de aprendizaje de los métodos de aprendizaje automático más precisos (Belgiu y Dragut, 2016);
conjunto bien conocidas que se utilizan con árboles de decisión (Hastie et al., 2009). proporciona una medida de la importancia de las variables; está disponible como
paquete (randomForest) en el programa de código abierto R (Liaw y Wiener, 2002);
La RF se ha utilizado en medicina (p. ej ., Ghose et al. (2012)), ecología (p. ej ., produce una medida interna de la precisión (validación cruzada fuera de bolsa, OOB-
Cutler et al. (2007)), hidrología para clasificar muestras de agua subterránea (p. ej ., CV); y es menos
Baudron et al. (2013)), química (p. ej ., Svetnik et al. otros (2004)); en
ÿ Autor para correspondencia en: Departamento de Geología y Minas e Ingeniera Civil, Universidad Técnica Particular de Loja, San Cayetano Alto s/n, Loja, Ecuador.
Dirección de correo electrónico: fulgencio.canovas@um.es (F. Cánovas-García).
http://dx.doi.org/10.1016/j.cageo.2017.02.012 Recibido
el 9 de septiembre de 2016; Aceptado el 15 de febrero de 2017
Disponible en línea el 20 de febrero de 2017 0098-3004/ © 2017
Elsevier Ltd. Todos los derechos reservados.
Machine Translated by Google
sensible que otros algoritmos al efecto Hughes (Cánovas-García y Alonso-Sarría, 2015b). los valores no aumentan significativamente la precisión de la clasificación (Liaw y Wiener,
La principal desventaja de RF (al menos en la clasificación) es que el efecto de las 2002; Belgiu y Dragut, 2016). Ismael et al. (2010) y Cánovas-García y Alonso-Sarría
variables no es tan fácil de interpretar como en otros métodos (por ejemplo, árboles de (2015b) obtuvieron buenos resultados utilizando estos parámetros por defecto.
decisión o análisis discriminante). Cuando se utilizan como herramienta de regresión, las
gráficas de dependencia parcial se pueden utilizar para interpretar el efecto de las
diferentes variables, pero la interpretación no es tan sencilla en la clasificación. Sin 1.2. El problema de la dependencia espacial con la validación cruzada out-of-bag (OOB-
embargo, al clasificar imágenes, la capacidad de predecir es más importante que la CV) y la validación cruzada dejando uno fuera (LOO-CV)
capacidad de explicar.
Todos los modelos predictivos asumen que los casos de calibración y validación son
independientes. Al clasificar las imágenes de teledetección, los casos se obtienen como
1.1. El algoritmo del bosque aleatorio áreas de entrenamiento y validación. Estas áreas son parches de píxeles que no presentan
discontinuidades espaciales y son lo suficientemente homogéneos para que el fotointérprete
Se puede encontrar una descripción clara y completa de los árboles de clasificación los etiquete como de la misma clase. El objetivo es encontrar parches que se puedan
y las técnicas de aprendizaje de conjunto derivadas en Gao (2009), Waske et al. (2012), asimilar a las diferentes clases en las que queremos dividir la imagen.
James et al. (2013) o Kuhn y Johnson (2013).
Aquí describimos brevemente las características del método para explicar por qué La autocorrelación espacial entre los valores de reflectividad se ha estudiado en gran
creemos que OOB-CV puede estar sesgado en ciertas aplicaciones de detección remota. medida e incluso se ha utilizado para crear características contextuales que
mejorar la precisión de la clasificación (Ghimire et al., 2010). Sin embargo, debido a esta
Los árboles de decisión (Gao, 2009) son una técnica no paramétrica que permite autocorrelación espacial, los valores de reflectividad dentro de un parche no son
seleccionar, entre un amplio conjunto de características, aquellas que mejor discriminan independientes entre sí. Entonces, podemos considerar que los píxeles en diferentes
la variable dependiente, ya sean cuantitativas (regresión) o cualitativas (clasificación). Uno parches de entrenamiento y sus valores de reflectividad son estadísticamente
de los algoritmos de árboles de decisión más populares es CART (Árboles de clasificación independientes entre sí, pero los píxeles en el mismo parche de entrenamiento no lo son.
y regresión) (Breiman et al., 1984). Este problema debe tenerse en cuenta al realizar la validación cruzada, para evitar dividir
La calibración de un árbol de clasificación comienza con un solo nodo que incluye los píxeles del mismo parche en conjuntos de datos de calibración y validación.
todos los casos de entrenamiento. Luego, este nodo se divide en dos nodos utilizando la
función predictora y el valor de umbral que minimizan una medición de heterogeneidad en Cuando se analizan datos no espaciales, generalmente se considera que Random
los nodos resultantes. Este proceso continúa hasta que todos los nodos terminales son Forest OOB-CV proporciona una estimación imparcial de la precisión general de la
homogéneos. En un segundo paso, el árbol se poda utilizando un conjunto independiente clasificación, lo que hace innecesaria una validación cruzada externa (Efron y Tibshirani,
de datos de entrenamiento para obtener un equilibrio entre precisión y parsimonia (Gao, 1997; Breiman, 2001; Svetnik et al. , 2004).
2009) y evitar el sobreajuste. El índice de Gini (Breiman et al., 1984) se utiliza como Sin embargo, planteamos la hipótesis de que RF OOB-CV sobreestima
medida de heterogeneidad en CART y RF. La importancia de una característica dada en significativamente la precisión, al menos al clasificar las imágenes de teledetección. En
un árbol se mide como la suma de los decrementos en el índice de Gini atribuidos a esa nuestra opinión, la razón de esta sobreestimación es que el embolsado asume la
característica a lo largo del árbol. independencia entre los casos (píxeles) en cada parche de calibración y, por lo tanto, los
dividirá entre las submuestras cargadas y fuera de la bolsa. Por lo tanto, la independencia
El principal problema de los árboles de decisión es su alta varianza; son muy sensibles necesaria entre los datos de calibración y validación se ve comprometida y la estimación
a las ligeras diferencias en los datos de entrenamiento que podrían conducir el proceso de precisión OOB-CV sobreestimará la precisión real del modelo.
de división de nodos a través de un camino diferente, lo que lleva a un árbol completamente
diferente. Los algoritmos de aprendizaje de conjunto (boosting, bagging y RF) intentan Todas estas consideraciones también son válidas en el Análisis de imágenes basado
resolver este problema. en objetos (OBIA). El enfoque OBIA implica dos pasos: la segmentación, que consiste en
En el embolsado, todos los árboles se entrenan de forma independiente y simultánea. dividir la imagen en objetos espacialmente cohesivos (Ryherd y Woodcock, 1996), y la
Cada árbol se entrena con un subconjunto de casos obtenidos mediante bootstrapping, posterior clasificación de dichos objetos utilizando un conjunto más amplio de
mientras que los demás (en torno al 33% de media) forman el denominado out-of-bag. características que incluyen atributos espectrales, texturales, contextuales y geométricos. .
Cada caso aparece en el out-of-bag de varios árboles, y estos árboles se utilizan para Los objetos dentro de un parche de entrenamiento son más similares entre sí que los
predecir su clase mediante un sistema de votación. Finalmente, la comparación de clases objetos ubicados en otros parches, incluso si estos parches pertenecen a la misma clase,
pronosticadas y observadas se utiliza para obtener una estimación de la precisión global ya que la homogeneidad de objetos intraparche es mayor que la homogeneidad entre
y por clase, la llamada validación cruzada fuera de bolsa (OOB-CV). parches.
Los tres enfoques de validación diferentes que se utilizarán son:
RF (Breiman, 2001) es uno de los algoritmos de clasificación basados en árboles de
decisión más utilizados. Este algoritmo utiliza embolsado, pero incluye otro componente • VAL: Validación con un conjunto de datos diferente e independiente. • LOPO-
de aleatorización: selección aleatoria de características. CV: Validación cruzada Leave-one-patch-out: Validación cruzada realizada dejando fuera
La variable dividida en cada nodo de los árboles de decisión se elige de un subconjunto no sólo un píxel u objeto, sino todos los píxeles/objetos de un parche de entrenamiento.
aleatorio de las funciones disponibles (Waske et al., 2012). Esta modificación • OOB-CV: validación cruzada fuera de bolsa, la estimación del error interno de RF
aparentemente contraria a la intuición ha demostrado ser una estrategia que da muy
buenos resultados (Liaw y Wiener, 2002). Reduce la correlación entre árboles, dando más ción
sentido a todo el concepto de aprendizaje conjunto (James et al., 2013).
Cuando analicemos los resultados del algoritmo RF original, agregaremos una O
RF proporciona mediciones de la importancia de las variables. Uno de los más delante del método de validación, y cuando usemos nuestra modificación agregaremos
utilizados es la disminución media del índice de Gini (MDGI), que se obtiene para cada una M. Por lo tanto, M-LOPO-CV significará dejar un parche cruzado. -validación de una
característica promediando su importancia en todos los árboles (Breiman et al., 1984). clasificación realizada con el algoritmo modificado, y O-VAL significará la validación con
un conjunto de datos independiente de una clasificación realizada con el algoritmo original.
El número de características elegidas aleatoriamente para dividir cada nodo (Mtry) es
uno de los parámetros que el usuario debe decidir u optimizar; sin embargo, el método no
es muy sensible a este parámetro, cuyo valor por defecto se obtiene truncando la raíz 1.3. Objetivos
cuadrada del número de características disponibles (Gislason et al., 2006). Otro parámetro
configurable es el número de árboles generados (Ntree), 500 por defecto. Más alto El objetivo general de esta investigación es doble. En primer lugar, demostrar que la
falta de independencia entre elementos (píxeles o
2
Machine Translated by Google
Figura 1. Ubicación de las tres áreas de estudio. (a) Unidad de riego 28, (b) Cuenca del río Vinalopó, (c) Municipio de Zapotillo, (d) Ubicación de la unidad de riego 28 y cuenca del río Vinalopó
en España y Europa y (e) Ubicación del municipio de Zapotillo en Ecuador y Sudamérica .
objetos) en los parches de entrenamiento pueden comprometer la independencia 2. Áreas de estudio y conjuntos de datos
estadística entre los elementos de entrenamiento y de prueba cuando se realiza la
estimación de precisión O-OOB-CV. En segundo lugar, proponer una modificación del Para verificar nuestra hipótesis, se analizaron tres áreas de estudio utilizando
algoritmo RF original, más concretamente de la función randomForest del paquete diferentes tipos de imágenes y enfoques; el objetivo era probar la generalidad de
randomForest R (Liaw y Wiener, 2002). Este algoritmo modificado produce una nuestra hipótesis. La primera imagen es un caso basado en objetos, mientras que las
validación cruzada de RF out-of-bag modificada (MO OOB-CV) que es imparcial cuando otras dos son casos basados en píxeles. Una de las características del enfoque basado
se analizan datos espaciales. Estos objetivos generales implican varios objetivos en objetos es que produce una gran cantidad de características, por lo que se necesita
parciales: un proceso de selección, y este proceso también puede verse afectado por la falta de
independencia estadística.
1. Demostrar que O-OOB-CV subestima el error de predicción medido por la validación
cruzada de dejar un parche usando el algoritmo de RF original (O-LOPO-CV). 2.1. Unidad de Riego 28 en el sureste de España (IU28)
2. Implementar una modificación del algoritmo original para garantizar la independencia La primera zona de estudio (Fig. 1 a), situada en la Región de Murcia (sureste de
estadística de los elementos asignados internamente al in-bag y los asignados al España, Fig. 1 d), corresponde a la Unidad de Regadío 28, tal y como se define en el
out-of-bag. La validación cruzada realizada por este algoritmo modificado es la M Plan Hidrológico de la demarcación del Segura 2015/2021 ( Plan Hidrológico de la
mencionada anteriormente Cuenca del Río Segura 2015/2021). En esta zona se clasificó una imagen de alta
OOB-CV.
resolución. Consiste en una imagen multiespectral (azul, verde, rojo e infrarrojo cercano)
3. Demostrar que la estimación del error M-OOB-CV no está tan sesgada como O-OOB-
de 2 m de resolución y una imagen pancromática de 0,45 m adquirida el 9, 10 y 11 de
CV, utilizando una validación con un conjunto de datos diferente (VAL) como julio de 2008 con una cámara cartográfica digital Intergraph Z/I-Imaging.
referencia.
4. Demostrar que M-VAL es equivalente a O-VAL. Esto implicaría que la modificación La imagen se segmentó mediante segmentación multirresolución (Baatz y Schape,
propuesta no implica una pérdida en la capacidad predictiva del algoritmo modificado. 2000), uno de los algoritmos de segmentación más utilizados en OBIA. Los detalles
pueden consultarse en Cánovas García y Alonso-Sarría (2015a).
5. Generar una versión modificada de la función randomForest (Liaw y Wiener, 2002)
en un paquete R de libre acceso para cualquier interesado. El objetivo de la clasificación era producir un mapa de tipos de cobertura de suelo
agrícola; las clases incluidas en el esquema de clasificación fueron: Almendros (Alm);
cereales (Cer); pastizales de regadío
3
Machine Translated by Google
tabla 1
Resumen estadístico de las muestras de entrenamiento y validación de las tres zonas de estudio: almendros (Alm), cereales (Cer), dehesa de regadío (Igr), baldío rural (Rws), frutales de regadío
(Ifr), tierras de cultivo de secano (Rar), olivos (Oli), invernaderos (Gre), plántulas (See), bosque (For), matorral (Scr), cultivos arbóreos dispersos (NDArb), cultivos arbóreos densos (DArb) , cultivos de pastos de secano
(NIGr), cultivos de pastos de regadío (IGr), superficies impermeables (Imp), cuerpos de agua (Wat), suelo desnudo (BaSo), viñedos (Vin), arroz (Ric), maíz (Cor), barbecho (Fall), asociados cultivos (Asso), y
dehesa (Pas).
Clase parches Objetos parches Objetos Clase parches Píxeles parches Píxeles Clase parches Píxeles parches Píxeles
Total 258 15,632 368 25,925 141 38,473 73 16,046 176 12,614 176 12,690
% Sorber 0,73% 2,81% 0,032% 0,013% 0,018% 0.018%
(igr); páramo rural (Rws); frutales de regadío (Ifr); cultivable de secano 3. Metodología
tierras (rar); olivos (Oli); invernaderos (Gre); plántulas (Ver).
3.1. Modificación del algoritmo de bosque aleatorio
4
Machine Translated by Google
Tabla 2
Resumen de las características del objeto calculado (DEFINIENS, 2009) para la unidad de riego 28. Las características texturales se calculan para varias direcciones. El número total de características aparece en
paréntesis. DTM: modelo digital de terreno, DSM: modelo digital de superficie.
COMPACTO (1) ·
LARGO ANCHO ÁREA/ GLCM.sd (26) Desviación Estándar
DENSIDAD (1) Semejanza a un cuadrado GLCM.corr (26) Correlación
ELLIPTIC.fit (1) Semejanza a una elipse Funciones basadas en píxeles
PRINCIPAL.dir, (1) dirección principal MEAN.int.bor (1) Reflectividad media del borde interior
RADIO.mayor (1) Radio de la elipse cerrada más grande MEAN.ext.bor (1) Reflectividad media del borde exterior
RADIUS.smallest (1) Radio de la elipse encerrada más pequeña BOR.cont (1) Diferencia entre MEAN.int.bor y los bordes del entorno
objetos
Ajuste RECT. (1) Semejanza a un rectángulo SD.rec (1) Desviación estándar de píxeles no en el objeto sino en el SR
Redondez (1) NEIGH.cont (1) Diferencia entre MEAN y la media de píxeles no en el objeto sino en
el rectángulo circundante
FORMA.i (1) SUPERFICIE PERIM / (4· ) Características del contexto
AREA.excl (1) Área excluyendo polígonos interiores NUM.c (1) Número de objetos vecinos
AREA.incl (1) Área que incluye polígonos interiores MEDIA.c (2) Media de los objetos vecinos
LONGITUD.arco (1) Longitud media de los arcos MEDIA.dc (10) Diferencia de medias con los objetos vecinos, usando las medias de los objetos
arco más largo (1) Longitud del arco más largo MEAN.dcdr (10) Diferencia media con objetos vecinos más oscuros
COMPACT.p (1) ÁREA dividida por el área de un círculo con el mismo MEAN.dcdr2 (10) Diferencia media modificada a objetos vecinos más oscuros cuando el más oscuro
perímetro el objeto está siendo analizado
NÚMERO.arcos (1) MEAN.dcbr (10) Diferencia media con objetos vecinos más brillantes
NÚMERO.int (1) Número de objetos internos MEAN.dcbr2 (10) Diferencia media modificada a objetos vecinos más brillantes cuando el
se está analizando un objeto más brillante
PERÍMETRO.p (1) Excluyendo los bordes interiores NUM.dr (10) Número de objetos vecinos más oscuros
Bordes SD (1) Desviación estándar de la longitud de los arcos NUM.br (10) Número de objetos vecinos más brillantes
POR.bor.br (10) Borde relativo a objetos vecinos más brillantes
tanto para áreas de entrenamiento como de validación con el mismo número de parches apoyar la fotointerpretación. Además, imágenes de muy alta resolución
en cada clase (30) excepto arroz (6) y barbecho (20) que son bastante y mapas temáticos se utilizaron como datos auxiliares para ayudar en la
infrecuente en la zona de estudio. identificación de las diferentes coberturas del suelo. En Vinalopó y Zapotillo,
En IU28 se identificaron y rotularon áreas de capacitación y validación Se identificaron las áreas de capacitación y validación mediante fotografías aéreas.
mediante una combinación de trabajo de campo y un análisis estadístico descriptivo para y mapas de uso de la tierra/cobertura de la tierra.
Tabla 3
Resumen de las características del objeto calculado para el área de estudio Cuenca del río Vinalopó y municipio de Zapotillo. Las características texturales se calculan para varias direcciones. El numero total de
características aparece entre paréntesis. L5: Landsat 5, L8: Landsat 8, GLCM: Matriz de coocurrencia de nivel de gris.
B6 (1) Infrarrojo de longitud de onda corta (L8) ASP.cos (1) Aspecto coseno
B7 (1) Infrarrojo de longitud de onda corta (L5 y L8) Índice y transformaciones
Características de la textura de Haralick (Haralick et al., 1973) calculadas sobre la primera capa obtenida con la transformación Tasselled Cap.
GLCM.homo (5) Homogeneidad Segundo momento angular GLCM.asm (5)
GLCM.cont (5) Correlación de contraste GLCM.coor (5)
GLCM.ent (5) entropía GLCM.var (5) Diferencia
5
Machine Translated by Google
Fig. 2. Unidad de riego 28. Índices Kappa obtenidos con el algoritmo de bosque aleatorio original y Fig. 4. Municipio de Zapotillo. Índices Kappa obtenidos con el algoritmo de bosque aleatorio original y
modificado, ambos utilizando OOB-CV y un conjunto de datos de validación externa. O-VAL: Validación modificado usando OOB-CV y un conjunto de datos de validación externa. O VAL: Validación con un
con un conjunto de datos diferente e independiente usando el algoritmo original, M-VAL: Validación con conjunto de datos diferente e independiente usando el algoritmo original, M VAL: Validación con un
un conjunto de datos diferente e independiente usando el algoritmo modificado, O-OOB CV: Validación conjunto de datos diferente e independiente usando el algoritmo modificado, O OOB-CV: Validación
cruzada out-of-bag usando el algoritmo original, M-OOB -CV: Validación cruzada out-of-bag mediante cruzada out-of-bag usando el algoritmo original, M-OOB-CV : Validación cruzada out-of-bag usando un
algoritmo modificado. algoritmo modificado.
3.3. Características obtenidas de las imágenes relevancia para la clasificación del conjunto de datos, en este caso la disminución media
del índice de Gini (MDGI) obtenido para cada variable aplicando el algoritmo original. Se
La Tabla 2 muestra las características del objeto calculadas utilizando el software utilizó la prueba de correlación de Spearman para verificar si el algoritmo modificado
eCognition en IU28. Las funciones se agrupan en seis categorías principales y se agrega una podría modificar significativamente los rangos de importancia de las variables.
breve descripción cuando es necesario. El número de bandas a partir de las cuales se
calcularon las características se indica entre paréntesis. (2) Modificar iterativamente un modelo de clasificación eliminando características en orden
Los detalles técnicos de cada función se describen en DEFINIENS (2009). inverso a su rango basado en MDGI.
En resumen, hay 356 características: 40 características espectrales, 5 características basadas (3) Seleccionar el mejor subconjunto de características según una medida de precisión de
en píxeles, 24 características geométricas, 204 características de textura y 83 características clasificación: el índice kappa de la curva M-VAL.
de contexto.
La Tabla 3 muestra las características de píxeles para Vinalopó y Zapotillo calculadas con Una vez que se clasificaron todas las características, se usaron para entrenar los
GRASS GIS 7. Las características se agrupan en cinco categorías principales y se agrega una algoritmos de RF originales y modificados utilizando los valores predeterminados de Ntree y
breve descripción cuando es necesario. Para el Vinalopó se calcularon 14 características Mtry. Se calcularon los índices Kappa de O-OOB-CV, M-OOB-CV, O-VAL, M VAL y luego se
espectrales, siete relacionadas con DTM y 34 características de textura. Finalmente, para eliminaron del conjunto de datos las características menos importantes. Todo el procedimiento
Zapotillo se calcularon 16 características espectrales y 32 características de textura. se repitió recursivamente hasta que solo quedó la característica más importante. Luego se
representó la evolución de los índices kappa obtenidos (Figs. 2–4) para mostrar cómo
evoluciona la precisión de los algoritmos de RF originales y modificados a través de un gran
3.4. Clasificación y selección de características número de clasificaciones, el número óptimo de características para minimizar el error de
clasificación que se obtienen con cada método de validación y las diferencias introducidas por
Un enfoque exitoso en el aprendizaje automático es considerar la selección de nuestra modificación en el algoritmo RF en la selección de características
características como un procedimiento heurístico en el que se especifica un subconjunto de
características posibles en cada paso de una búsqueda iterativa (Blum y Langley, 1997). Tal
procedimiento implica 3 pasos: proceso.
Este enfoque reduce significativamente la cantidad de características necesarias para
(1) Clasificar todas las características de acuerdo con un criterio relacionado con su entrenar algoritmos de clasificación (Yu et al., 2006; Duro et al., 2012; Löw et al., 2013) y
también sirve para probar la sensibilidad de ambos algoritmos a cambios en el número de
caracteristicas
En Vinalopó y Zapotillo se eliminó un único rasgo en cada ciclo; sin embargo, en IU28,
para reducir el costo computacional, se eliminaron cinco características en cada ciclo debido a
la alta dimensionalidad de este conjunto de datos.
Aunque las matrices de confusión son herramientas adecuadas para analizar en detalle
los resultados de un modelo de clasificación, comparar seis matrices diferentes se vuelve
bastante engorroso. En cambio, las estadísticas de precisión por clase se compararon entre sí
mediante gráficos piramidales que mostraban los errores de omisión y comisión (Figs. 5–7).
Estas pirámides permiten una comparación por clase de los resultados de dos clasificaciones
Fig. 3. Cuenca del río Vinalopó. Índices Kappa obtenidos con el algoritmo de bosque aleatorio original y
diferentes según los dos tipos de error que se suelen estudiar en los problemas de clasificación.
modificado usando OOB-CV y un conjunto de datos de validación externa. O-VAL: Validación con un
Para facilitar la interpretación de las pirámides, las clases se han ordenado según los errores
conjunto de datos diferente e independiente usando el algoritmo original, M-VAL: Validación con un
de omisión O-LOPO-CV.
conjunto de datos diferente e independiente usando el algoritmo modificado, O-OOB CV: Validación
cruzada out-of-bag usando el algoritmo original, M-OOB -CV: Validación cruzada out-of-bag mediante
algoritmo modificado.
6
Machine Translated by Google
Fig. 6. Pirámides de error en las tres áreas de estudio (a) Unidad de Riego 28, (b) cuenca del
río Vinalopó y (c) municipio de Zapotillo. Se comparan los errores de omisión y comisión para
M-LOPO-CV y M-OOB-CV. M-LOPO-CV: validación cruzada Leave-one-patch-out con algoritmo
modificado, M-OOB-CV: validación cruzada out-of-bag usando algoritmo modificado.
Fig. 5. Pirámides de error en las tres áreas de estudio (a) Unidad de Riego 28, (b) cuenca del
río Vinalopó y (c) municipio de Zapotillo. Se comparan los errores de omisión y comisión para
O-LOPO-CV y O-OOB-CV. O-LOPO-CV: Validación cruzada de dejar un parche fuera con el Zapotillo y 0,96 en Vinalopó. Estos resultados muestran que nuestra modificación del algoritmo no
algoritmo original, O-OOB-CV: Validación cruzada fuera de bolsa usando el algoritmo original. cambia significativamente las clasificaciones de importancia de las características.
4. Resultados
En las Figs. 2, 3 y 4, las líneas representan los índices kappa obtenidos por OOB-CV y VAL tanto
La Tabla 4 muestra las 25 características más importantes según MDGI utilizando el algoritmo en el algoritmo original como en el modificado. Está claro que O-OOB-CV sobreestima en gran medida
original. Los rasgos relacionados con la altura, cuando están disponibles, ocupan los primeros puestos la precisión de la clasificación proporcionada por O-VAL o M-VAL. Además, M-OOB-CV es muy similar
(IU28 y Vinalopó). Las características espectrales también aparecen en los primeros rangos en las a O-VAL o M-VAL, y solo en el municipio de Zapotillo es menor M-OOB-CV. La razón de esta menor
tres áreas de estudio. Los valores obtenidos con la prueba de correlación de Spearman fueron 0,99 precisión
en UI28 y
7
Machine Translated by Google
5. Discusión
La estimación es probablemente la reducción en la aleatorización causada por la
división por áreas en M-OOB-CV, ya que hay menos combinaciones posibles dentro En un artículo de revisión reciente sobre la RF aplicada a la teledetección, Belgiu
y fuera de la bolsa. En cualquier caso, implica una estimación de la precisión más y Dragut (2016) señalaron que aunque algunos investigadores informaron que el error
conservadora. El kappa de M-VAL es, en general, ligeramente superior al kappa de OOB (equivalente a O-OOB-CV en este estudio) podría usarse como una medida
O-VAL. Esto demuestra que el algoritmo modificado no pierde capacidad predictiva. confiable de precisión de la clasificación, se ha hecho muy poco trabajo sobre el tema
y que la declaración debe contrastarse con más experimentos utilizando una variedad
Finalmente, estos gráficos nos permiten seleccionar el subconjunto más pequeño de conjuntos de datos en diferentes escenarios de aplicación. Nuestra investigación
de variables que maximiza la precisión de clasificación (redondeado a dos decimales) podría considerarse una respuesta a ese llamado.
de un conjunto de características ordenadas. A partir de ahora, haremos
8
Machine Translated by Google
Tabla 4 Los resultados dispares pueden deberse a que la investigación de estos autores se basó en un
Ranking de las 25 características más relevantes según el índice de Gini de disminución media. Las conjunto de datos con errores de validación muy pequeños, lo que podría oscurecer las
características seleccionadas están resaltadas en rojo (en el caso de IU28 había 70 características más). diferencias de precisión.
Las características que se calcularon con más de una de las bandas originales van seguidas de dos
También hemos probado nuestra modificación al algoritmo RF, obteniendo
puntos y la banda que se utilizó. En las características de textura, la dirección se indica entre paréntesis.
dir significa direccionalmente invariante (detalles en las Tablas 2, 3).
resultados equivalentes con M-OOB-CV y M-LOPO-CV, tanto para errores de omisión
como de comisión (Fig. 6). Solo hubo unas pocas diferencias en los valores de
precisión en las clases con un bajo número de parches de entrenamiento. En tales
casos, la reducción en la aleatorización debido al enfoque LOPO-CV afecta fuertemente
los resultados, por lo que una gran cantidad de pequeños parches de validación parece
una mejor opción que una pequeña cantidad de grandes parches de validación.
6. Conclusiones
Se propone una modificación del algoritmo de bosque aleatorio para realizar una
división basada en parches en lugar de una división basada en píxeles al calcular la
Tabla 5
validación cruzada fuera de la bolsa.
Índices Kappa obtenidos después de la selección de características y número de características
seleccionadas. O-VAL: Validación con un conjunto de datos diferente e independiente usando el algoritmo La modificación se realiza en la función randomForest del paquete randomForest
original, M-VAL: Validación con un conjunto de datos diferente e independiente usando el algoritmo R (Liaw y Wiener, 2002) (no sabemos si el tema de la independencia se aborda en
modificado, O-OOB CV: Validación cruzada out-of-bag usando el algoritmo original, M -OOB-CV: otras implementaciones de random forest). El resultado es una función llamada SDRF
Validación cruzada out-of-bag usando algoritmo modificado.
(Spatial Dependence Random Forest) dentro de un paquete homónimo que se puede
O-VAL M-VAL O-OOB M-OOB Características descargar desde https://github.com/pacoalonso/SDRF. Cabe destacar que hemos
CV CV introducido solo una ligera modificación en un paquete muy grande y potente.
9
Machine Translated by Google
Referencias
Adam, E., Mutanga, O., Odindi, J., Abdel-Rahman, E., 2014. Uso del suelo/cobertura
clasificación en un paisaje costero heterogéneo utilizando imágenes Rapid Eye:
evaluación del rendimiento de clasificadores aleatorios de bosques y máquinas de
vectores de soporte . En t. J. Remote Sens. 35, 3440–3458.
Alonso-Sarría, F., Martínez-Hernández, C., Romero-Díaz, A., Cánovas-García, F.,
Gomariz-Castillo, F., 2016. Principales rasgos ambientales que provocan el abandono reciente del
suelo en la Región de Murcia (Sureste de España). Degradación de la tierra. desarrollo 27 (3), 654–670.
Baatz, M., Schape, A., 2000. Segmentación de múltiples resoluciones: un enfoque de optimización para la
segmentación de imágenes de múltiples escalas de alta calidad. En: Strobl, J., Blaschke, T., Griesebner,
G. (Eds.), Angewandte Geographische Informationsverarbeitung XIII.
Wichmann Verlag, 12–23.
Baudron, P., Alonso-Sarría, F., García-Aróstegui, JL, Cánovas-García, F., Martínez
Vicente, D., Moreno-Brotóns, J., 2013. Identificación del origen de muestras de agua subterránea en un
sistema acuífero multicapa con clasificación Random Forest. J. Hydrol. 499, 303–315.
Belgiu, M., Dragut, L., 2016. Bosque aleatorio en sensores remotos: una revisión de aplicaciones y direcciones
futuras. ISPRS J. Photogramm. Sensores remotos 114, 24–31.
Blum, A., Langley, P., 1997. Selección de características y ejemplos relevantes en aprendizaje automático.
Artefacto Intel. 97, 245–271.
Breiman, L., 2001. Bosque aleatorio. Mach. Aprender. 45, 5–32.
Breiman, L., Friedman, J., Stone, C., Olshen, R., 1984. Clasificación y regresión
Árboles. Chapman y Hall/CRC.
Cánovas-García, F., Alonso-Sarría, F., 2015a. Un enfoque local para optimizar la escala
parámetro en segmentación multiresolución para imágenes multiespectrales. Geocarto Int. 30 (8), 937–961.
Ghosh, A., Joshi, P., 2014. Una comparación de algoritmos de clasificación seleccionados para
mapeo de parches de bambú en las llanuras del Ganges inferior utilizando imágenes de World View 2 de
muy alta resolución. En t. Aplicación J. Observación de la Tierra Geoinf. 26 (0), 298–311.
Gislason, P., Benediktsson, L., Sveinsson, J., 2006. Bosques aleatorios para la clasificación de la cubierta
terrestre. Reconocimiento de patrones. Letón. 27, 294–300.
Haralick, R., Shanmugan, K., Dinstein, I., 1973. Características texturales para la clasificación de
imágenes. IEEE Tr. Syst., Man Cybern. SMC-3 (6), 610–621.
Hastie, T., Tibshirani, R., Friedman, J., 2009. Los elementos del aprendizaje estadístico: datos
Minería, Inferencia y Predicción 2ª edición. Saltador.
Fig. 8. Pirámides de error en las tres áreas de estudio (a) Unidad de Riego 28, (b) cuenca del río Vinalopó y (c) Ismail, R., Mutanga, O., Kumar, L., 2010. Modelización de la distribución potencial del pino
municipio de Zapotillo. Los errores de omisión y comisión se comparan para M-VAL y O-VAL. O-VAL: Validación bosques susceptibles a infestaciones de sirex noctilio en mpumalanga, Sudáfrica. Trans.
con un conjunto de datos diferente e independiente usando el algoritmo original, M-VAL: Validación con un SIG 14 (5), 709–726.
James, G., Witten, D., Hastie, T., Tibshirani, R., 2013. Una introducción a la estadística
conjunto de datos diferente e independiente usando el algoritmo modificado.
Aprendizaje: con Aplicaciones en R. Springer.
Kuhn, M., Johnson, K., 2013. Modelado predictivo aplicado. Saltador.
Lawrence, R., Wood, S., Sheley, R., 2006. Mapeo de plantas invasoras usando imágenes hiperespectrales y
Las implicaciones de esta dependencia estadística de los elementos que forman clasificaciones de Breiman Cutler (Random Forest). Sensores Remotos Entorno. 100, 356–362.
un parche van más allá de los resultados empíricos expuestos en esta investigación y
Liaw, A., Wiener, M., 2002. Clasificación y regresión por bosque aleatorio. R. Noticias 2
merecen ser investigadas ya que de lo contrario se pueden llegar a conclusiones (3), 18–22.
erróneas. Löw, F., Michel, U., Dech, S., Conrad, C., 2013. Impacto de la selección de características en el
precisión e incertidumbre espacial de la clasificación de cultivos por campo utilizando máquinas de vectores
de soporte. ISPRS J. Photogramm. Sensores remotos 85, 102–119.
Maxwell, A., Warner, T., Strager, M., Conley, J., Sharp, A., 2015. Máquina de evaluación
Reconoce
algoritmos de aprendizaje y variables derivadas de imágenes y LIDAR para la clasificación GEOBIA de
minería y recuperación de minas. En t. J. Remote Sens. 36, 954–978.
Esta investigación ha sido financiada por Proyecto Prometeo, Secretaría de Ok, AO, Akar, O., Gungor, O., 2012. Evaluación del método de bosque aleatorio para la clasificación
de cultivos agrícolas. EUR. J. Remote Sens. 45, 421–432.
Educación Superior, Ciencia, Tecnología e Innovación, Gobierno de Ecuador. También
Pal, M., 2005. Clasificador de bosques aleatorios para la clasificación de sensores remotos. En t. J.
agradecemos a los cuatro revisores anónimos cuyas sugerencias han mejorado Remote Sens. 26 (1), 217–222.
sustancialmente este manuscrito. Puissant, A., Rougier, S., Stumpf, A., 2014. Mapeo orientado a objetos de árboles urbanos usando
10
Machine Translated by Google
clasificadores aleatorios de bosque. En t. Aplicación J. Observación de la Tierra Geoinf. 26, 235–245. Svetnik, V., Liaw, A., Tong, C., Wang, T., 2004. Aplicación de Random Forest de Breiman para modelar
Rodríguez-Galiano, V., Ghimire, B., Rogan, J., Chica-Olmo, M., Rigol-Sanchez, J., 2012. relaciones estructura-actividad de moléculas farmacéuticas. En: Roli, F., Kittler, J., Windeatt, T. (Eds.),
Una evaluación de la eficacia de un clasificador forestal aleatorio para la cobertura del suelo MCS. Springer-Verlag, 334–343.
clasificación. ISPRS J. Photogramm. Sensores remotos 67, 93–104. Teillet, P., Guindon, B., Goodenough, D., 1982. Sobre la corrección del aspecto de la pendiente de
Ryherd, S., Woodcock, C., 1996. Combinación de datos espectrales y de textura en el los datos del escáner multiespectral. Rev. Can. J. Remote Sens. 58, 84–106.
Segmentación de imágenes de sensores remotos. Fotograma. Ing. Sensor remoto 62 (2), Waske, B., Benediktsson, A., Sveinsson, J., 2012. Clasificación aleatoria de bosques de datos de
181–194. teledetección. En: Chen, C. (Ed.), Procesamiento de señales e imágenes para sensores remotos.
Schmidt, K., Behrens, T., Scholten, T., 2008. Selección de instancias y análisis de árboles de clasificación Prensa CRC.
para grandes conjuntos de datos espaciales en el mapeo digital de suelos. Geoderma 146 (1–2), Yu, Q., Gong, P., Clinton, N., Biging, G., Kelly, M., Schirokauer, D., 2006. Clasificación de
138–146. vegetación detallada basada en objetos con imágenes de teledetección espacial de alta
Sesnie, S., Finegan, B., Gessler, P., Thessler, S., Bendana, Z., Smith, A., 2010. La separabilidad resolución aérea . Fotograma. Ing. Sensores remotos 72 (7), 799–811.
multiespectral de los tipos de selva tropical costarricense con máquinas de vectores de soporte
y árboles de decisión Random Forest. En t. J. Remote Sens. 31, 2885–2909.
11