Está en la página 1de 11

Machine Translated by Google

Informática y geociencias 103 (2017) 1–11

Listas de contenidos disponibles en ScienceDirect

Informática y Geociencias

página de inicio de la revista: www.elsevier.com/locate/cageo

Trabajo de investigación

Modificación del algoritmo de bosque aleatorio para evitar problemas de MARCOS


dependencia estadística al clasificar las imágenes de teledetección
Fulgencio Cánovas-Garcíaa,d,ÿ , Francisco Alonso Sarríab, Francisco Gomariz-Castillobc ,
Fernando Oñate-Valdiviesoa
a
Departamento de Geología y Minas e Ingeniería Civil, Universidad Técnica Particular de Loja, San Cayetano Alto s/n, Loja, Ecuador b
Instituto Universitario del Agua y del Medio Ambiente, Universidad de Murcia, Edificio D Campus de Espinardo s/n 30100 Murcia, España
C
Instituto Euromediterráneo del Agua, Universidad de Murcia, Edificio D s/n 30100 Murcia, España d
Departamento de Ingeniería Civil, Universidad de Cuenca, Av. 12 de Abril y Av. Loja s/n, Cuenca, Ecuador

INFORMACIÓN DEL ARTÍCULO RESUMEN

Palabras clave: Random forest es una técnica de clasificación ampliamente utilizada en la teledetección. Una de sus ventajas es que produce
Clasificación una estimación de la precisión de clasificación basada en el llamado método de validación cruzada out-of-bag. Por lo general,
Bosque aleatorio
se supone que dicha estimación no está sesgada y puede usarse en lugar de una validación basada en un conjunto de datos
Análisis de imágenes basado en objetos
externo o una validación cruzada externa al algoritmo.
Harpillera
En este artículo mostramos que este no es necesariamente el caso cuando clasificamos imágenes de sensores remotos
Independencia estadística
utilizando áreas de entrenamiento con varios píxeles u objetos. Según nuestros resultados, la validación cruzada out-of-bag
claramente sobreestima la precisión, tanto en general como por clase. La razón es que, en un parche de entrenamiento, los
píxeles u objetos no son independientes (desde un punto de vista estadístico) entre sí; sin embargo, se dividen mediante
arranque en bolsa y fuera de la bolsa como si fueran realmente independientes. Creemos que colocar un parche completo, en
lugar de píxeles/objetos, en uno u otro conjunto produciría una validación cruzada inmediata menos sesgada. Para solucionar
el problema, proponemos una modificación del algoritmo de bosque aleatorio para dividir parches de entrenamiento en lugar
de los píxeles (u objetos) que los componen. Este algoritmo modificado no sobrestima la precisión y no tiene una capacidad
predictiva inferior a la del original. Cuando sus resultados se validan con un conjunto de datos externo, la precisión no es
diferente a la obtenida con el algoritmo original.
Analizamos tres imágenes de teledetección con diferentes enfoques de clasificación (basada en píxeles y objetos); en
los tres casos reportados, la modificación que proponemos produce una estimación de precisión menos sesgada.

1. Introducción la ciencia del suelo (p. ej ., Schmidt et al. (2008)), o para analizar el abandono de la
tierra (p. ej. , Alonso-Sarría et al. (2016)). El uso de RF en la clasificación de imágenes
La clasificación ha sido una de las prácticas más relevantes en la teledetección; ha experimentado un crecimiento significativo. Muchos trabajos de investigación
como consecuencia, se ha dedicado un gran esfuerzo a desarrollar y aplicar nuevas destacan su buen desempeño en comparación con alternativas más tradicionales (Cutler
técnicas para clasificar imágenes de teledetección, principalmente basadas en et al., 2007; Ok et al., 2012). También supera a algoritmos más recientes como las
inteligencia artificial y aprendizaje automático (Gao, 2009). Recientemente, las técnicas redes neuronales artificiales o los k vecinos más cercanos ponderados (Maxwell et al.,
de aprendizaje en conjunto han recibido mucha atención. Dichos métodos generan una 2015; Cánovas-García y Alonso Sarría, 2015b), y ha demostrado ser tan potente como
gran cantidad de clasificadores, que luego se agrupan, mediante un procedimiento más las máquinas de vectores soporte (Pal, 2005; Ghosh y Joshi, 2014; Sesnie et al., 2010;
o menos complejo, para obtener una clasificación global. Los árboles de decisión se Adam et al., 2014). Otras ventajas son que es un método no paramétrico, por lo que no
encuentran entre las técnicas de aprendizaje automático más adecuadas utilizadas en se supone una distribución teórica en los datos de entrenamiento; se encuentra entre
conjuntos; boosting, bagging y random forest (RF) son técnicas de aprendizaje de los métodos de aprendizaje automático más precisos (Belgiu y Dragut, 2016);
conjunto bien conocidas que se utilizan con árboles de decisión (Hastie et al., 2009). proporciona una medida de la importancia de las variables; está disponible como
paquete (randomForest) en el programa de código abierto R (Liaw y Wiener, 2002);
La RF se ha utilizado en medicina (p. ej ., Ghose et al. (2012)), ecología (p. ej ., produce una medida interna de la precisión (validación cruzada fuera de bolsa, OOB-
Cutler et al. (2007)), hidrología para clasificar muestras de agua subterránea (p. ej ., CV); y es menos
Baudron et al. (2013)), química (p. ej ., Svetnik et al. otros (2004)); en

ÿ Autor para correspondencia en: Departamento de Geología y Minas e Ingeniera Civil, Universidad Técnica Particular de Loja, San Cayetano Alto s/n, Loja, Ecuador.
Dirección de correo electrónico: fulgencio.canovas@um.es (F. Cánovas-García).

http://dx.doi.org/10.1016/j.cageo.2017.02.012 Recibido
el 9 de septiembre de 2016; Aceptado el 15 de febrero de 2017
Disponible en línea el 20 de febrero de 2017 0098-3004/ © 2017
Elsevier Ltd. Todos los derechos reservados.
Machine Translated by Google

F. Cánovas-García et al. Informática y geociencias 103 (2017) 1–11

sensible que otros algoritmos al efecto Hughes (Cánovas-García y Alonso-Sarría, 2015b). los valores no aumentan significativamente la precisión de la clasificación (Liaw y Wiener,
La principal desventaja de RF (al menos en la clasificación) es que el efecto de las 2002; Belgiu y Dragut, 2016). Ismael et al. (2010) y Cánovas-García y Alonso-Sarría
variables no es tan fácil de interpretar como en otros métodos (por ejemplo, árboles de (2015b) obtuvieron buenos resultados utilizando estos parámetros por defecto.
decisión o análisis discriminante). Cuando se utilizan como herramienta de regresión, las
gráficas de dependencia parcial se pueden utilizar para interpretar el efecto de las
diferentes variables, pero la interpretación no es tan sencilla en la clasificación. Sin 1.2. El problema de la dependencia espacial con la validación cruzada out-of-bag (OOB-
embargo, al clasificar imágenes, la capacidad de predecir es más importante que la CV) y la validación cruzada dejando uno fuera (LOO-CV)
capacidad de explicar.
Todos los modelos predictivos asumen que los casos de calibración y validación son
independientes. Al clasificar las imágenes de teledetección, los casos se obtienen como
1.1. El algoritmo del bosque aleatorio áreas de entrenamiento y validación. Estas áreas son parches de píxeles que no presentan
discontinuidades espaciales y son lo suficientemente homogéneos para que el fotointérprete
Se puede encontrar una descripción clara y completa de los árboles de clasificación los etiquete como de la misma clase. El objetivo es encontrar parches que se puedan
y las técnicas de aprendizaje de conjunto derivadas en Gao (2009), Waske et al. (2012), asimilar a las diferentes clases en las que queremos dividir la imagen.
James et al. (2013) o Kuhn y Johnson (2013).
Aquí describimos brevemente las características del método para explicar por qué La autocorrelación espacial entre los valores de reflectividad se ha estudiado en gran
creemos que OOB-CV puede estar sesgado en ciertas aplicaciones de detección remota. medida e incluso se ha utilizado para crear características contextuales que
mejorar la precisión de la clasificación (Ghimire et al., 2010). Sin embargo, debido a esta
Los árboles de decisión (Gao, 2009) son una técnica no paramétrica que permite autocorrelación espacial, los valores de reflectividad dentro de un parche no son
seleccionar, entre un amplio conjunto de características, aquellas que mejor discriminan independientes entre sí. Entonces, podemos considerar que los píxeles en diferentes
la variable dependiente, ya sean cuantitativas (regresión) o cualitativas (clasificación). Uno parches de entrenamiento y sus valores de reflectividad son estadísticamente
de los algoritmos de árboles de decisión más populares es CART (Árboles de clasificación independientes entre sí, pero los píxeles en el mismo parche de entrenamiento no lo son.
y regresión) (Breiman et al., 1984). Este problema debe tenerse en cuenta al realizar la validación cruzada, para evitar dividir
La calibración de un árbol de clasificación comienza con un solo nodo que incluye los píxeles del mismo parche en conjuntos de datos de calibración y validación.
todos los casos de entrenamiento. Luego, este nodo se divide en dos nodos utilizando la
función predictora y el valor de umbral que minimizan una medición de heterogeneidad en Cuando se analizan datos no espaciales, generalmente se considera que Random
los nodos resultantes. Este proceso continúa hasta que todos los nodos terminales son Forest OOB-CV proporciona una estimación imparcial de la precisión general de la
homogéneos. En un segundo paso, el árbol se poda utilizando un conjunto independiente clasificación, lo que hace innecesaria una validación cruzada externa (Efron y Tibshirani,
de datos de entrenamiento para obtener un equilibrio entre precisión y parsimonia (Gao, 1997; Breiman, 2001; Svetnik et al. , 2004).
2009) y evitar el sobreajuste. El índice de Gini (Breiman et al., 1984) se utiliza como Sin embargo, planteamos la hipótesis de que RF OOB-CV sobreestima
medida de heterogeneidad en CART y RF. La importancia de una característica dada en significativamente la precisión, al menos al clasificar las imágenes de teledetección. En
un árbol se mide como la suma de los decrementos en el índice de Gini atribuidos a esa nuestra opinión, la razón de esta sobreestimación es que el embolsado asume la
característica a lo largo del árbol. independencia entre los casos (píxeles) en cada parche de calibración y, por lo tanto, los
dividirá entre las submuestras cargadas y fuera de la bolsa. Por lo tanto, la independencia
El principal problema de los árboles de decisión es su alta varianza; son muy sensibles necesaria entre los datos de calibración y validación se ve comprometida y la estimación
a las ligeras diferencias en los datos de entrenamiento que podrían conducir el proceso de precisión OOB-CV sobreestimará la precisión real del modelo.
de división de nodos a través de un camino diferente, lo que lleva a un árbol completamente
diferente. Los algoritmos de aprendizaje de conjunto (boosting, bagging y RF) intentan Todas estas consideraciones también son válidas en el Análisis de imágenes basado
resolver este problema. en objetos (OBIA). El enfoque OBIA implica dos pasos: la segmentación, que consiste en
En el embolsado, todos los árboles se entrenan de forma independiente y simultánea. dividir la imagen en objetos espacialmente cohesivos (Ryherd y Woodcock, 1996), y la
Cada árbol se entrena con un subconjunto de casos obtenidos mediante bootstrapping, posterior clasificación de dichos objetos utilizando un conjunto más amplio de
mientras que los demás (en torno al 33% de media) forman el denominado out-of-bag. características que incluyen atributos espectrales, texturales, contextuales y geométricos. .
Cada caso aparece en el out-of-bag de varios árboles, y estos árboles se utilizan para Los objetos dentro de un parche de entrenamiento son más similares entre sí que los
predecir su clase mediante un sistema de votación. Finalmente, la comparación de clases objetos ubicados en otros parches, incluso si estos parches pertenecen a la misma clase,
pronosticadas y observadas se utiliza para obtener una estimación de la precisión global ya que la homogeneidad de objetos intraparche es mayor que la homogeneidad entre
y por clase, la llamada validación cruzada fuera de bolsa (OOB-CV). parches.
Los tres enfoques de validación diferentes que se utilizarán son:
RF (Breiman, 2001) es uno de los algoritmos de clasificación basados en árboles de
decisión más utilizados. Este algoritmo utiliza embolsado, pero incluye otro componente • VAL: Validación con un conjunto de datos diferente e independiente. • LOPO-
de aleatorización: selección aleatoria de características. CV: Validación cruzada Leave-one-patch-out: Validación cruzada realizada dejando fuera
La variable dividida en cada nodo de los árboles de decisión se elige de un subconjunto no sólo un píxel u objeto, sino todos los píxeles/objetos de un parche de entrenamiento.
aleatorio de las funciones disponibles (Waske et al., 2012). Esta modificación • OOB-CV: validación cruzada fuera de bolsa, la estimación del error interno de RF
aparentemente contraria a la intuición ha demostrado ser una estrategia que da muy
buenos resultados (Liaw y Wiener, 2002). Reduce la correlación entre árboles, dando más ción
sentido a todo el concepto de aprendizaje conjunto (James et al., 2013).
Cuando analicemos los resultados del algoritmo RF original, agregaremos una O
RF proporciona mediciones de la importancia de las variables. Uno de los más delante del método de validación, y cuando usemos nuestra modificación agregaremos
utilizados es la disminución media del índice de Gini (MDGI), que se obtiene para cada una M. Por lo tanto, M-LOPO-CV significará dejar un parche cruzado. -validación de una
característica promediando su importancia en todos los árboles (Breiman et al., 1984). clasificación realizada con el algoritmo modificado, y O-VAL significará la validación con
un conjunto de datos independiente de una clasificación realizada con el algoritmo original.
El número de características elegidas aleatoriamente para dividir cada nodo (Mtry) es
uno de los parámetros que el usuario debe decidir u optimizar; sin embargo, el método no
es muy sensible a este parámetro, cuyo valor por defecto se obtiene truncando la raíz 1.3. Objetivos
cuadrada del número de características disponibles (Gislason et al., 2006). Otro parámetro
configurable es el número de árboles generados (Ntree), 500 por defecto. Más alto El objetivo general de esta investigación es doble. En primer lugar, demostrar que la
falta de independencia entre elementos (píxeles o

2
Machine Translated by Google

F. Cánovas-García et al. Informática y geociencias 103 (2017) 1–11

Figura 1. Ubicación de las tres áreas de estudio. (a) Unidad de riego 28, (b) Cuenca del río Vinalopó, (c) Municipio de Zapotillo, (d) Ubicación de la unidad de riego 28 y cuenca del río Vinalopó
en España y Europa y (e) Ubicación del municipio de Zapotillo en Ecuador y Sudamérica .

objetos) en los parches de entrenamiento pueden comprometer la independencia 2. Áreas de estudio y conjuntos de datos
estadística entre los elementos de entrenamiento y de prueba cuando se realiza la
estimación de precisión O-OOB-CV. En segundo lugar, proponer una modificación del Para verificar nuestra hipótesis, se analizaron tres áreas de estudio utilizando
algoritmo RF original, más concretamente de la función randomForest del paquete diferentes tipos de imágenes y enfoques; el objetivo era probar la generalidad de
randomForest R (Liaw y Wiener, 2002). Este algoritmo modificado produce una nuestra hipótesis. La primera imagen es un caso basado en objetos, mientras que las
validación cruzada de RF out-of-bag modificada (MO OOB-CV) que es imparcial cuando otras dos son casos basados en píxeles. Una de las características del enfoque basado
se analizan datos espaciales. Estos objetivos generales implican varios objetivos en objetos es que produce una gran cantidad de características, por lo que se necesita
parciales: un proceso de selección, y este proceso también puede verse afectado por la falta de
independencia estadística.
1. Demostrar que O-OOB-CV subestima el error de predicción medido por la validación
cruzada de dejar un parche usando el algoritmo de RF original (O-LOPO-CV). 2.1. Unidad de Riego 28 en el sureste de España (IU28)

2. Implementar una modificación del algoritmo original para garantizar la independencia La primera zona de estudio (Fig. 1 a), situada en la Región de Murcia (sureste de
estadística de los elementos asignados internamente al in-bag y los asignados al España, Fig. 1 d), corresponde a la Unidad de Regadío 28, tal y como se define en el
out-of-bag. La validación cruzada realizada por este algoritmo modificado es la M Plan Hidrológico de la demarcación del Segura 2015/2021 ( Plan Hidrológico de la
mencionada anteriormente Cuenca del Río Segura 2015/2021). En esta zona se clasificó una imagen de alta
OOB-CV.
resolución. Consiste en una imagen multiespectral (azul, verde, rojo e infrarrojo cercano)
3. Demostrar que la estimación del error M-OOB-CV no está tan sesgada como O-OOB-
de 2 m de resolución y una imagen pancromática de 0,45 m adquirida el 9, 10 y 11 de
CV, utilizando una validación con un conjunto de datos diferente (VAL) como julio de 2008 con una cámara cartográfica digital Intergraph Z/I-Imaging.
referencia.
4. Demostrar que M-VAL es equivalente a O-VAL. Esto implicaría que la modificación La imagen se segmentó mediante segmentación multirresolución (Baatz y Schape,
propuesta no implica una pérdida en la capacidad predictiva del algoritmo modificado. 2000), uno de los algoritmos de segmentación más utilizados en OBIA. Los detalles
pueden consultarse en Cánovas García y Alonso-Sarría (2015a).
5. Generar una versión modificada de la función randomForest (Liaw y Wiener, 2002)
en un paquete R de libre acceso para cualquier interesado. El objetivo de la clasificación era producir un mapa de tipos de cobertura de suelo
agrícola; las clases incluidas en el esquema de clasificación fueron: Almendros (Alm);
cereales (Cer); pastizales de regadío

3
Machine Translated by Google

F. Cánovas-García et al. Informática y geociencias 103 (2017) 1–11

tabla 1
Resumen estadístico de las muestras de entrenamiento y validación de las tres zonas de estudio: almendros (Alm), cereales (Cer), dehesa de regadío (Igr), baldío rural (Rws), frutales de regadío
(Ifr), tierras de cultivo de secano (Rar), olivos (Oli), invernaderos (Gre), plántulas (See), bosque (For), matorral (Scr), cultivos arbóreos dispersos (NDArb), cultivos arbóreos densos (DArb) , cultivos de pastos de secano
(NIGr), cultivos de pastos de regadío (IGr), superficies impermeables (Imp), cuerpos de agua (Wat), suelo desnudo (BaSo), viñedos (Vin), arroz (Ric), maíz (Cor), barbecho (Fall), asociados cultivos (Asso), y
dehesa (Pas).

Unidad de riego 28 cuenca del rio vinalopo municipio de Zapotillo

Capacitación Validación Capacitación Validación Capacitación Validación

Clase parches Objetos parches Objetos Clase parches Píxeles parches Píxeles Clase parches Píxeles parches Píxeles

Alm 30 3853 50 7610 Para 19 5267 10 1563 Para 30 5669 30 4560


cer 26 830 50 3714 Scr 22 4841 12 3410 Scr 30 2381 30 2682
Igr 33 1187 50 3544 NDArb 13 1241 7 828 rico 134 162
Rws 29 1309 50 1365 DArb 14 2374 8 636 corazón 6 605 6 864
Ifr 30 3113 50 4347 NIGr 15 3715 8 1774 Otoño 30 480 30 522
raro 30 985 50 1818 IGr 10 4695 5 1653 Aso 20 30 2005 20 30 2267
oli 30 2568 50 4593 Diablillo dieciséis 6783 7 1798 pas 30 1340 30 1633
Ver 20 1476 15 907 Wat 11 6262 6 3327
verde 30 311 50 1192 BaSo 4 118 2 129
Vin 17 3177 8 928

Total 258 15,632 368 25,925 141 38,473 73 16,046 176 12,614 176 12,690
% Sorber 0,73% 2,81% 0,032% 0,013% 0,018% 0.018%

(igr); páramo rural (Rws); frutales de regadío (Ifr); cultivable de secano 3. Metodología
tierras (rar); olivos (Oli); invernaderos (Gre); plántulas (Ver).
3.1. Modificación del algoritmo de bosque aleatorio

Hemos creado un nuevo paquete llamado SDRF (Spatial Dependence


Random Forest) incluyendo una modificación del original
2.2. Cuenca del río Vinalopó (Vinalopó)
paquete randomForest (Liaw y Wiener, 2002). En este último paquete,
la función R randomForest llama a una función C llamada classRF
Esta área de estudio (Fig. 1 b) cubre alrededor de 3000 km2 . Es una muy
(ubicado en el archivo rf.c en el directorio src), que realiza la mayoría
cuenca costera antropizada situada en el sureste de España (sur de Alicante
cálculos involucrados. Actualmente, este paquete solo funciona en Linux
provincia). A pesar de su pequeño tamaño, la variedad de usos del suelo es grande.
sistemas (ver material complementario).
La altura varía de 0 a 1600 msnm, dando una variedad de
Hemos modificado la función classRF para recibir 2 adicionales
entornos. Una imagen de Landsat 5 Thematic Mapper (ruta 199, fila 33)
argumentos: un puntero a valores enteros que contienen el valor numérico
desde el 24 de julio de 2009. Las bandas infrarrojas visibles y reflejadas fueron
identificador del parche de entrenamiento en el que se muestra cada caso (píxel u objeto)
utilizado para clasificar la imagen. Preprocesado de la imagen incluido
localizado, y un número entero con el número de parches de entrenamiento. si esto ultimo
atmosférica (Chávez, 1988) e iluminación (Teillet et al., 1982)
argumento no es igual a cero, un bootstrapping de parches de entrenamiento es
correcciones Además, la información del terreno de un DEM 1:25,000
llevado a cabo en lugar del arranque de píxeles/objetos. De esta manera, todos
del Instituto Geográfico Nacional de España
los píxeles/objetos dentro de un parche de entrenamiento se colocarán en el mismo lugar: el
Instituto Geográfico) se utilizó como datos auxiliares. el objetivo era
dentro de la bolsa o fuera de la bolsa. Esta función modificada se denomina classRF2 en
para obtener un mapa de cobertura del suelo utilizando una clasificación basada en píxeles. los
el nuevo paquete.
el esquema de clasificación incluye: Bosque (Para); matorral (Scr); árbol escaso
También hemos creado la función SDRF como una modificación de la
cultivos (NDArb); cultivos arbóreos densos (DArb); cultivos de pastos de secano (NIGr);
función randomForest que recibe un nuevo argumento llamado areas,
cultivos de pastos de regadío (IGr); superficies impermeables (Imp); cuerpos de agua
con el que el usuario puede pasar los identificadores de los parches de entrenamiento a
(Wat); suelo desnudo (BaSo); viñedos (Vin).
la función. La función calculará internamente el número de
parches de entrenamiento y pasará ambos argumentos a la función C
claseRF2.

2.3. Municipio de Zapotillo (Zapotillo)


3.2. Conjuntos de datos de entrenamiento y validación
El municipio de Zapotillo (Fig. 1c) está ubicado en el suroeste de
Provincia de Loja (Ecuador) (Fig. 1 e). El municipio cubre un área de Los tres conjuntos de datos se obtuvieron en diferentes proyectos, por lo que el muestreo
más de 1200 km2 . Se encuentra en una zona de transición entre el Los procedimientos también eran diferentes. En IU28 y Vinalopó, muestreo
región interandina y la región costera para que su clima sea procedimientos se derivan de los objetivos de tales proyectos. Solo Zapotillo
influenciado por el Océano Pacífico, la cálida Contracorriente Ecuatorial, los datos fueron recolectados específicamente para este trabajo. La tabla 1 muestra los principales
y los movimientos de la zona de convergencia intertropical. Landsat 8 características de las áreas de formación y validación.
Los datos del sensor Land Imager operativo (ruta 011, fila 063) se utilizaron para En IU28, se crearon alrededor de 30 parches representativos para cada clase.
estudiar la zona. La imagen fue tomada el 12 de junio de 2013, utilizando ocho de seleccionados como áreas de entrenamiento, a excepción de las plántulas (15 parches) como esta clase
de las nueve bandas disponibles (Tabla 3). La resolución radiométrica fue tiene muy baja frecuencia. Las áreas de validación se recolectaron mediante un muestreo aleatorio.
16 bits No se llevó a cabo ningún preprocesamiento y los conteos digitales, más bien muestreo estratificado incluyendo 50 parches por clase (15 en plántulas).
que reflectividades, fueron utilizados. La escena fue recortada de acuerdo con el En el Vinalopó se recogieron tanto las zonas de formación como las de validación
límites del área de estudio. La clasificación de esta imagen también se basó utilizando un muestreo aleatorio estratificado. Los tamaños de los estratos fueron
en el análisis de píxeles. El objetivo era producir un mapa de la agricultura proporcional al porcentaje de cada clase en el área de estudio que
clases: Bosque (Para); matorral (Scr); arroz (ric); maíz (Cor); barbecho (otoño); se estimó utilizando los mapas de cobertura terrestre de CORINE de 2006.
cultivos asociados (Asso); dehesa (Pas). Finalmente, en Zapotillo se realizó un muestreo aleatorio estratificado

4
Machine Translated by Google

F. Cánovas-García et al. Informática y geociencias 103 (2017) 1–11

Tabla 2
Resumen de las características del objeto calculado (DEFINIENS, 2009) para la unidad de riego 28. Las características texturales se calculan para varias direcciones. El número total de características aparece en
paréntesis. DTM: modelo digital de terreno, DSM: modelo digital de superficie.

bandas originales Características espectrales


B1 Rojo MEDIA (10)
B2 Verde SD (10) Desviación Estándar
B3 Azul MÁX. (1) Valor máximo de píxel
B4 Infrarrojo cercano MÍN. (1) Valor mínimo de píxel
C5 DTM ASYM (10) Oblicuidad
C6 DSM INTENSIDAD (1) Transformación IHS
C7 DSM-DTM TONO (1) Transformación IHS
C8 Pendiente SATURACIÓN (1) Transformación IHS
C9 Aspecto NDVI (1) Índice de vegetación de diferencia normalizada
C10 Convexidad RELACIÓN (4) Porcentaje de brillo total
Elementos geométricos Características de la textura

PERIM (1) Incluyendo bordes interiores GLCM.homo (26) Homogeneidad


LONGITUD (1) GLCM.cont (26) Contraste
ANCHO (1) GLCM.dis (26) Disimilitud
L/A (1) LARGO/ANCHO GLCM.ent (26) entropía
ASYM02 (1) Asimetría GLCM.asm (26) segundo momento angular
FRONTERA.i (1) perímetro PERIM /RS GLCM.media (26) Media

COMPACTO (1) ·
LARGO ANCHO ÁREA/ GLCM.sd (26) Desviación Estándar
DENSIDAD (1) Semejanza a un cuadrado GLCM.corr (26) Correlación
ELLIPTIC.fit (1) Semejanza a una elipse Funciones basadas en píxeles
PRINCIPAL.dir, (1) dirección principal MEAN.int.bor (1) Reflectividad media del borde interior
RADIO.mayor (1) Radio de la elipse cerrada más grande MEAN.ext.bor (1) Reflectividad media del borde exterior
RADIUS.smallest (1) Radio de la elipse encerrada más pequeña BOR.cont (1) Diferencia entre MEAN.int.bor y los bordes del entorno
objetos
Ajuste RECT. (1) Semejanza a un rectángulo SD.rec (1) Desviación estándar de píxeles no en el objeto sino en el SR
Redondez (1) NEIGH.cont (1) Diferencia entre MEAN y la media de píxeles no en el objeto sino en
el rectángulo circundante
FORMA.i (1) SUPERFICIE PERIM / (4· ) Características del contexto

AREA.excl (1) Área excluyendo polígonos interiores NUM.c (1) Número de objetos vecinos
AREA.incl (1) Área que incluye polígonos interiores MEDIA.c (2) Media de los objetos vecinos
LONGITUD.arco (1) Longitud media de los arcos MEDIA.dc (10) Diferencia de medias con los objetos vecinos, usando las medias de los objetos
arco más largo (1) Longitud del arco más largo MEAN.dcdr (10) Diferencia media con objetos vecinos más oscuros
COMPACT.p (1) ÁREA dividida por el área de un círculo con el mismo MEAN.dcdr2 (10) Diferencia media modificada a objetos vecinos más oscuros cuando el más oscuro
perímetro el objeto está siendo analizado
NÚMERO.arcos (1) MEAN.dcbr (10) Diferencia media con objetos vecinos más brillantes
NÚMERO.int (1) Número de objetos internos MEAN.dcbr2 (10) Diferencia media modificada a objetos vecinos más brillantes cuando el
se está analizando un objeto más brillante
PERÍMETRO.p (1) Excluyendo los bordes interiores NUM.dr (10) Número de objetos vecinos más oscuros
Bordes SD (1) Desviación estándar de la longitud de los arcos NUM.br (10) Número de objetos vecinos más brillantes
POR.bor.br (10) Borde relativo a objetos vecinos más brillantes

tanto para áreas de entrenamiento como de validación con el mismo número de parches apoyar la fotointerpretación. Además, imágenes de muy alta resolución
en cada clase (30) excepto arroz (6) y barbecho (20) que son bastante y mapas temáticos se utilizaron como datos auxiliares para ayudar en la
infrecuente en la zona de estudio. identificación de las diferentes coberturas del suelo. En Vinalopó y Zapotillo,
En IU28 se identificaron y rotularon áreas de capacitación y validación Se identificaron las áreas de capacitación y validación mediante fotografías aéreas.
mediante una combinación de trabajo de campo y un análisis estadístico descriptivo para y mapas de uso de la tierra/cobertura de la tierra.

Tabla 3
Resumen de las características del objeto calculado para el área de estudio Cuenca del río Vinalopó y municipio de Zapotillo. Las características texturales se calculan para varias direcciones. El numero total de
características aparece entre paréntesis. L5: Landsat 5, L8: Landsat 8, GLCM: Matriz de coocurrencia de nivel de gris.

Bandas originales B1 Derivado del DTM


(1) Azul (L5), costero/aerosol (L8) PENDIENTE (1) Pendiente

B2 (1) Verde (L5), azul (L8) ASP (1) Aspecto


B3 (1) Rojo (L5), verde (L8) CURV.perp (1) curvatura perpendicular
B4 (1) Infrarrojo cercano (L5), rojo (L8) Espiga CURV (1) Curvatura tangencial
B5 (1) ordenar longitud de onda infrarroja (L5), infrarrojo cercano (L8) ASP.sin (1) Aspecto del pecado

B6 (1) Infrarrojo de longitud de onda corta (L8) ASP.cos (1) Aspecto coseno
B7 (1) Infrarrojo de longitud de onda corta (L5 y L8) Índice y transformaciones

B9 (1) Cirro (L8) NDVI (1) Índice de vegetación de diferencia normalizada


MDT (1) modelo de terreno digital INTENSIDAD (1) Transformación IHS
Capas de textura basadas en el semivariograma espectral VARIO.tc.1 (1) TONO (1) Transformación IHS
Semivariograma empírico calculado sobre la primera capa de la transformación Tasselled Cap SATURACIÓN (1) Transformación IHS
VARIO.ndvi (1) Semivariograma empírico calculado sobre la capa NDVI CT (4) Transformación de gorra con borlas

Características de la textura de Haralick (Haralick et al., 1973) calculadas sobre la primera capa obtenida con la transformación Tasselled Cap.
GLCM.homo (5) Homogeneidad Segundo momento angular GLCM.asm (5)
GLCM.cont (5) Correlación de contraste GLCM.coor (5)
GLCM.ent (5) entropía GLCM.var (5) Diferencia

5
Machine Translated by Google

F. Cánovas-García et al. Informática y geociencias 103 (2017) 1–11

Fig. 2. Unidad de riego 28. Índices Kappa obtenidos con el algoritmo de bosque aleatorio original y Fig. 4. Municipio de Zapotillo. Índices Kappa obtenidos con el algoritmo de bosque aleatorio original y
modificado, ambos utilizando OOB-CV y un conjunto de datos de validación externa. O-VAL: Validación modificado usando OOB-CV y un conjunto de datos de validación externa. O VAL: Validación con un
con un conjunto de datos diferente e independiente usando el algoritmo original, M-VAL: Validación con conjunto de datos diferente e independiente usando el algoritmo original, M VAL: Validación con un
un conjunto de datos diferente e independiente usando el algoritmo modificado, O-OOB CV: Validación conjunto de datos diferente e independiente usando el algoritmo modificado, O OOB-CV: Validación
cruzada out-of-bag usando el algoritmo original, M-OOB -CV: Validación cruzada out-of-bag mediante cruzada out-of-bag usando el algoritmo original, M-OOB-CV : Validación cruzada out-of-bag usando un
algoritmo modificado. algoritmo modificado.

3.3. Características obtenidas de las imágenes relevancia para la clasificación del conjunto de datos, en este caso la disminución media
del índice de Gini (MDGI) obtenido para cada variable aplicando el algoritmo original. Se
La Tabla 2 muestra las características del objeto calculadas utilizando el software utilizó la prueba de correlación de Spearman para verificar si el algoritmo modificado
eCognition en IU28. Las funciones se agrupan en seis categorías principales y se agrega una podría modificar significativamente los rangos de importancia de las variables.
breve descripción cuando es necesario. El número de bandas a partir de las cuales se
calcularon las características se indica entre paréntesis. (2) Modificar iterativamente un modelo de clasificación eliminando características en orden
Los detalles técnicos de cada función se describen en DEFINIENS (2009). inverso a su rango basado en MDGI.

En resumen, hay 356 características: 40 características espectrales, 5 características basadas (3) Seleccionar el mejor subconjunto de características según una medida de precisión de
en píxeles, 24 características geométricas, 204 características de textura y 83 características clasificación: el índice kappa de la curva M-VAL.
de contexto.

La Tabla 3 muestra las características de píxeles para Vinalopó y Zapotillo calculadas con Una vez que se clasificaron todas las características, se usaron para entrenar los
GRASS GIS 7. Las características se agrupan en cinco categorías principales y se agrega una algoritmos de RF originales y modificados utilizando los valores predeterminados de Ntree y
breve descripción cuando es necesario. Para el Vinalopó se calcularon 14 características Mtry. Se calcularon los índices Kappa de O-OOB-CV, M-OOB-CV, O-VAL, M VAL y luego se
espectrales, siete relacionadas con DTM y 34 características de textura. Finalmente, para eliminaron del conjunto de datos las características menos importantes. Todo el procedimiento
Zapotillo se calcularon 16 características espectrales y 32 características de textura. se repitió recursivamente hasta que solo quedó la característica más importante. Luego se
representó la evolución de los índices kappa obtenidos (Figs. 2–4) para mostrar cómo
evoluciona la precisión de los algoritmos de RF originales y modificados a través de un gran
3.4. Clasificación y selección de características número de clasificaciones, el número óptimo de características para minimizar el error de
clasificación que se obtienen con cada método de validación y las diferencias introducidas por
Un enfoque exitoso en el aprendizaje automático es considerar la selección de nuestra modificación en el algoritmo RF en la selección de características
características como un procedimiento heurístico en el que se especifica un subconjunto de
características posibles en cada paso de una búsqueda iterativa (Blum y Langley, 1997). Tal
procedimiento implica 3 pasos: proceso.
Este enfoque reduce significativamente la cantidad de características necesarias para
(1) Clasificar todas las características de acuerdo con un criterio relacionado con su entrenar algoritmos de clasificación (Yu et al., 2006; Duro et al., 2012; Löw et al., 2013) y
también sirve para probar la sensibilidad de ambos algoritmos a cambios en el número de
caracteristicas
En Vinalopó y Zapotillo se eliminó un único rasgo en cada ciclo; sin embargo, en IU28,
para reducir el costo computacional, se eliminaron cinco características en cada ciclo debido a
la alta dimensionalidad de este conjunto de datos.

3.5. Análisis de precisión por clase

Aunque las matrices de confusión son herramientas adecuadas para analizar en detalle
los resultados de un modelo de clasificación, comparar seis matrices diferentes se vuelve
bastante engorroso. En cambio, las estadísticas de precisión por clase se compararon entre sí
mediante gráficos piramidales que mostraban los errores de omisión y comisión (Figs. 5–7).
Estas pirámides permiten una comparación por clase de los resultados de dos clasificaciones
Fig. 3. Cuenca del río Vinalopó. Índices Kappa obtenidos con el algoritmo de bosque aleatorio original y
diferentes según los dos tipos de error que se suelen estudiar en los problemas de clasificación.
modificado usando OOB-CV y un conjunto de datos de validación externa. O-VAL: Validación con un
Para facilitar la interpretación de las pirámides, las clases se han ordenado según los errores
conjunto de datos diferente e independiente usando el algoritmo original, M-VAL: Validación con un
de omisión O-LOPO-CV.
conjunto de datos diferente e independiente usando el algoritmo modificado, O-OOB CV: Validación
cruzada out-of-bag usando el algoritmo original, M-OOB -CV: Validación cruzada out-of-bag mediante
algoritmo modificado.

6
Machine Translated by Google

F. Cánovas-García et al. Informática y geociencias 103 (2017) 1–11

Fig. 6. Pirámides de error en las tres áreas de estudio (a) Unidad de Riego 28, (b) cuenca del
río Vinalopó y (c) municipio de Zapotillo. Se comparan los errores de omisión y comisión para
M-LOPO-CV y M-OOB-CV. M-LOPO-CV: validación cruzada Leave-one-patch-out con algoritmo
modificado, M-OOB-CV: validación cruzada out-of-bag usando algoritmo modificado.
Fig. 5. Pirámides de error en las tres áreas de estudio (a) Unidad de Riego 28, (b) cuenca del
río Vinalopó y (c) municipio de Zapotillo. Se comparan los errores de omisión y comisión para
O-LOPO-CV y O-OOB-CV. O-LOPO-CV: Validación cruzada de dejar un parche fuera con el Zapotillo y 0,96 en Vinalopó. Estos resultados muestran que nuestra modificación del algoritmo no
algoritmo original, O-OOB-CV: Validación cruzada fuera de bolsa usando el algoritmo original. cambia significativamente las clasificaciones de importancia de las características.

4. Resultados

4.2. Proceso de selección de características


4.1. Clasificación de características

En las Figs. 2, 3 y 4, las líneas representan los índices kappa obtenidos por OOB-CV y VAL tanto
La Tabla 4 muestra las 25 características más importantes según MDGI utilizando el algoritmo en el algoritmo original como en el modificado. Está claro que O-OOB-CV sobreestima en gran medida
original. Los rasgos relacionados con la altura, cuando están disponibles, ocupan los primeros puestos la precisión de la clasificación proporcionada por O-VAL o M-VAL. Además, M-OOB-CV es muy similar
(IU28 y Vinalopó). Las características espectrales también aparecen en los primeros rangos en las a O-VAL o M-VAL, y solo en el municipio de Zapotillo es menor M-OOB-CV. La razón de esta menor
tres áreas de estudio. Los valores obtenidos con la prueba de correlación de Spearman fueron 0,99 precisión
en UI28 y

7
Machine Translated by Google

F. Cánovas-García et al. Informática y geociencias 103 (2017) 1–11

Continúe analizando los resultados por clase de los modelos de clasificación


generados con las primeras 95 características en IU28, las primeras 13 características
en Vinalopó y las primeras 9 características en Zapotillo (línea azul vertical en los
gráficos de las Figs. 2, 3 y 4). Las características seleccionadas aparecen resaltadas
en rojo en la Tabla 4 (en IU28 había 70 características más). Los índices Kappa
correspondientes a estas clasificaciones se presentan en la Tabla 5.

4.3. Análisis de precisión por clase

Una vez que el subconjunto de características que maximiza la clasificación


Cuando se obtuvo precisión, se analizó el modelo correspondiente para obtener un
enfoque por clase de las diferencias en la estimación de la precisión.
La figura 5 compara O-OOB-CV con O-LOPO-CV. En las tres áreas O OOB-CV
los errores son mucho menores. En el área de estudio de IU28 (Fig. 5 a) las
estimaciones del error por clase O OOB-CV solo son similares a O-LOPO-CV cuando
son cercanas a 0. El caso más evidente de subestimación se presenta en Vinalopó
(Fig. 5 b) donde el error de comisión O-OOB-CV para suelo desnudo (BaSo) es
cercano a 0, mientras que el valor O-LOPO-CV es ligeramente superior a 0,8.
Resultados similares se obtuvieron con errores de omisión, y también al analizar la
clase cultivos arbóreos dispersos (NDArb), donde las pequeñas diferencias entre O-
OOB-CV y O-LOPO-CV solo se obtienen en clases con errores O-LOPO-CV cercanos.
a 0. En Zapotillo (Fig. 5c) tanto los errores de omisión como los de comisión O-OOB-
CV están subestimados en todas las clases.

La Fig. 6 muestra cómo M-OOB-CV produce resultados equivalentes a M LOPO-


CV. En IU28, tanto los errores de omisión como los de comisión son prácticamente
iguales en ambas clasificaciones. Sólo existen pequeñas diferencias en errores de
omisión en cereales (Cer) y olivo (Oli) y en errores de comisión en frutales de regadío
(Ifr). RF es un modelo estocástico y no genera dos modelos idénticos a partir de los
mismos datos, por lo que siempre hay pequeñas diferencias en los resultados. En las
áreas de estudio de Vinalopó y Zapotillo (Fig. 6 b y c), los resultados son similares;
siendo similares los errores de omisión y comisión calculados por M-OOB-CV y M-
LOPO-CV.

La Fig. 7 compara los resultados de O-LOPO-CV y M-LOPO-CV.


Las diferencias son muy pequeñas en IU28 para la mayoría de las clases (Fig. 7 a),
solo dos clases muestran valores ligeramente diferentes. La clase invernaderos (Gre)
para la que los mayores errores de omisión se obtienen con el algoritmo modificado,
y la clase almendros (Alm), donde ocurre lo contrario. Con respecto a los errores de
comisión, solo una clase (frutales de regadío) presenta una diferencia notable, aunque
todavía mínima. En la zona de estudio del Vinalopó (Fig. 7 b), obtuvimos resultados
similares. Solo la clase suelo desnudo (BaSo) presenta diferencias significativas en
errores de omisión y comisión. El algoritmo modificado produce errores ligeramente
mayores. En Zapotillo (Fig. 7c), solo la clase arroz (Ric) mostró resultados diferentes.
Los errores de la comisión fueron mayores con el algoritmo modificado (0,25), el
mayor de las tres áreas de estudio.

Finalmente, la Fig. 8 muestra la comparación entre M-VAL y O-VAL en las tres


áreas de estudio. Los resultados son muy similares para ambas estimaciones de
precisión.
En resumen, O-OOB-CV sobreestima la precisión de la clasificación, mientras
Fig. 7. Pirámides de error en las tres áreas de estudio (a) Unidad de Riego 28, (b) cuenca que M-OOB-CV no lo hace. Además, cuando se prueba el rendimiento de ambos
del río Vinalopó y (c) municipio de Zapotillo. Se comparan los errores de omisión y comisión
algoritmos mediante validación cruzada externa, los resultados son muy similares.
para M-LOPO-CV y O-LOPO-CV. O-LOPO-CV: validación cruzada Leave-one-patch-out
Por lo tanto, concluimos que la modificación realizada en el algoritmo de RF no afecta
con algoritmo original, M-LOPO-CV: validación cruzada Leave-one-patch-out con algoritmo
modificado. su capacidad predictiva.

5. Discusión
La estimación es probablemente la reducción en la aleatorización causada por la
división por áreas en M-OOB-CV, ya que hay menos combinaciones posibles dentro En un artículo de revisión reciente sobre la RF aplicada a la teledetección, Belgiu
y fuera de la bolsa. En cualquier caso, implica una estimación de la precisión más y Dragut (2016) señalaron que aunque algunos investigadores informaron que el error
conservadora. El kappa de M-VAL es, en general, ligeramente superior al kappa de OOB (equivalente a O-OOB-CV en este estudio) podría usarse como una medida
O-VAL. Esto demuestra que el algoritmo modificado no pierde capacidad predictiva. confiable de precisión de la clasificación, se ha hecho muy poco trabajo sobre el tema
y que la declaración debe contrastarse con más experimentos utilizando una variedad
Finalmente, estos gráficos nos permiten seleccionar el subconjunto más pequeño de conjuntos de datos en diferentes escenarios de aplicación. Nuestra investigación
de variables que maximiza la precisión de clasificación (redondeado a dos decimales) podría considerarse una respuesta a ese llamado.
de un conjunto de características ordenadas. A partir de ahora, haremos

8
Machine Translated by Google

F. Cánovas-García et al. Informática y geociencias 103 (2017) 1–11

Tabla 4 Los resultados dispares pueden deberse a que la investigación de estos autores se basó en un
Ranking de las 25 características más relevantes según el índice de Gini de disminución media. Las conjunto de datos con errores de validación muy pequeños, lo que podría oscurecer las
características seleccionadas están resaltadas en rojo (en el caso de IU28 había 70 características más). diferencias de precisión.
Las características que se calcularon con más de una de las bandas originales van seguidas de dos
También hemos probado nuestra modificación al algoritmo RF, obteniendo
puntos y la banda que se utilizó. En las características de textura, la dirección se indica entre paréntesis.
dir significa direccionalmente invariante (detalles en las Tablas 2, 3).
resultados equivalentes con M-OOB-CV y M-LOPO-CV, tanto para errores de omisión
como de comisión (Fig. 6). Solo hubo unas pocas diferencias en los valores de
precisión en las clases con un bajo número de parches de entrenamiento. En tales
casos, la reducción en la aleatorización debido al enfoque LOPO-CV afecta fuertemente
los resultados, por lo que una gran cantidad de pequeños parches de validación parece
una mejor opción que una pequeña cantidad de grandes parches de validación.

Finalmente, para comprobar si la modificación propuesta reduce la capacidad


predictiva del algoritmo, comparamos O-LOPO-CV con M-LOPO-CV, por un lado, y O-
VAL con M-VAL, por otro.
Las diferencias fueron insignificantes, siendo solo un poco más altas en las clases con
menos parches de entrenamiento.
Otra práctica común cuando se clasifican imágenes con RF es usar O-OOB-CV
para identificar el subconjunto de características y los valores de los parámetros que
maximizan la precisión de la clasificación (p. ej ., Puissant et al. (2014)).
Según nuestros datos, al menos a la hora de identificar el subconjunto óptimo de
variables, esta estrategia no habría tenido éxito utilizando el algoritmo original en dos
de las tres áreas de estudio. El número de variables seleccionadas habría sido mucho
menor que el número que maximiza la precisión de la clasificación.

6. Conclusiones

Se propone una modificación del algoritmo de bosque aleatorio para realizar una
división basada en parches en lugar de una división basada en píxeles al calcular la
Tabla 5
validación cruzada fuera de la bolsa.
Índices Kappa obtenidos después de la selección de características y número de características
seleccionadas. O-VAL: Validación con un conjunto de datos diferente e independiente usando el algoritmo La modificación se realiza en la función randomForest del paquete randomForest
original, M-VAL: Validación con un conjunto de datos diferente e independiente usando el algoritmo R (Liaw y Wiener, 2002) (no sabemos si el tema de la independencia se aborda en
modificado, O-OOB CV: Validación cruzada out-of-bag usando el algoritmo original, M -OOB-CV: otras implementaciones de random forest). El resultado es una función llamada SDRF
Validación cruzada out-of-bag usando algoritmo modificado.
(Spatial Dependence Random Forest) dentro de un paquete homónimo que se puede
O-VAL M-VAL O-OOB M-OOB Características descargar desde https://github.com/pacoalonso/SDRF. Cabe destacar que hemos
CV CV introducido solo una ligera modificación en un paquete muy grande y potente.

Unidad de Riego 28 0,73 Río 0.73 0.97 0.73 95


Vinalopó 0,84 Cuenca Municipio 0.86 0.99 0.84 13
Zapotillo Esta modificación no afecta la clasificación de características según la importancia
0.59 0,61 0.76 0.58 9 de MDGI. Los coeficientes de Spearman entre los diferentes rankings fueron iguales o
superiores a 0,96.
La modificación tampoco produce una pérdida en la capacidad de capacidad de
predicción. Ambos algoritmos se utilizaron para clasificar los mismos tres conjuntos
de datos; cuando los resultados se validaron con un conjunto de validación externo,
Según nuestra interpretación de la literatura sobre RF, O-OOB-CV y LOPO-CV los resultados fueron equivalentes.
deberían ser similares (Hastie et al., 2009). Sin embargo, nuestra hipótesis es que, al Cuando los resultados de la validación cruzada out-of-bag en el algoritmo original
clasificar las imágenes de teledetección, la estimación de la precisión O OOB-CV (O-OOB-CV) se comparan con una validación con un conjunto de datos externo o con
podría estar sesgada cuando los parches de entrenamiento se componen de varios los resultados de una validación cruzada de dejar un parche fuera (LOPO-CV) externo
elementos (píxeles u objetos) debido a la dependencia estadística entre los elementos al algoritmo, está claro que O-OOB CV sobreestima la precisión y subestima tanto los
en un solo parche. Esto ha sido confirmado en las tres áreas de estudio. Al validar los errores de omisión como los de comisión.
modelos de clasificación derivados de la selección de características, en IU28 el índice
kappa CV de O-OOB es aproximadamente 0,28 mayor que para O-VAL, lo cual es una Por otro lado, cuando se usa el algoritmo modificado (M-OOB CV) de la misma
diferencia muy grande. En Vinalopó esta desviación es de 0,21 y en Zapotillo de 0,14. manera, no hay sobreestimación de la precisión ni subestimación del error.
Estas diferencias sugieren que la estimación de precisión O-OOB-CV está fuertemente
sobreestimada. El único inconveniente de esta modificación es que si una clase está representada
por un número muy pequeño de parches de entrenamiento, los resultados se ven muy
Esta sobreestimación también aparece cuando se realiza un análisis por clases. afectados debido a la reducción de la aleatorización inherente al enfoque M-OOB-CV.
La figura 5 es bastante convincente en este sentido: todos los errores de omisión y
comisión de los datos OOB-CV que utilizan el algoritmo original están sobreestimados. El proceso de selección de características, el análisis de precisión y el análisis de
Evidentemente este resultado queda algo enmascarado con clases cuyos errores de errores de omisión y comisión nos permiten llegar a las conclusiones antes mencionadas.
omisión y comisión LOPO-CV son cercanos a cero. Por lo tanto, para estudiar estos
problemas en ciertos casos, tenemos que usar clasificaciones menos que perfectas, Creemos que los resultados tienen un interés tanto teórico como práctico. Hemos
de lo contrario, será difícil encontrar sesgos en las estimaciones de precisión o error. demostrado cómo OOB-CV, tal como lo realiza actualmente el algoritmo de bosque
aleatorio, no produce necesariamente estimaciones fiables de precisión o error en una
Otros estudios parecen llegar a conclusiones diferentes (Lawrence et al., 2006; clasificación de imágenes de teledetección. Sin embargo, nuestra modificación parece
Rodriguez-Galiano et al., 2012). Una posible explicación para tal hacerlo.

9
Machine Translated by Google

F. Cánovas-García et al. Informática y geociencias 103 (2017) 1–11

Apéndice A. Material complementario

Los datos complementarios asociados con este artículo se pueden encontrar en el


versión en línea en http://dx.doi.org/10.1016/j.cageo.2017.02.012.

Referencias

Adam, E., Mutanga, O., Odindi, J., Abdel-Rahman, E., 2014. Uso del suelo/cobertura
clasificación en un paisaje costero heterogéneo utilizando imágenes Rapid Eye:
evaluación del rendimiento de clasificadores aleatorios de bosques y máquinas de
vectores de soporte . En t. J. Remote Sens. 35, 3440–3458.
Alonso-Sarría, F., Martínez-Hernández, C., Romero-Díaz, A., Cánovas-García, F.,
Gomariz-Castillo, F., 2016. Principales rasgos ambientales que provocan el abandono reciente del
suelo en la Región de Murcia (Sureste de España). Degradación de la tierra. desarrollo 27 (3), 654–670.

Baatz, M., Schape, A., 2000. Segmentación de múltiples resoluciones: un enfoque de optimización para la
segmentación de imágenes de múltiples escalas de alta calidad. En: Strobl, J., Blaschke, T., Griesebner,
G. (Eds.), Angewandte Geographische Informationsverarbeitung XIII.
Wichmann Verlag, 12–23.
Baudron, P., Alonso-Sarría, F., García-Aróstegui, JL, Cánovas-García, F., Martínez
Vicente, D., Moreno-Brotóns, J., 2013. Identificación del origen de muestras de agua subterránea en un
sistema acuífero multicapa con clasificación Random Forest. J. Hydrol. 499, 303–315.

Belgiu, M., Dragut, L., 2016. Bosque aleatorio en sensores remotos: una revisión de aplicaciones y direcciones
futuras. ISPRS J. Photogramm. Sensores remotos 114, 24–31.
Blum, A., Langley, P., 1997. Selección de características y ejemplos relevantes en aprendizaje automático.
Artefacto Intel. 97, 245–271.
Breiman, L., 2001. Bosque aleatorio. Mach. Aprender. 45, 5–32.
Breiman, L., Friedman, J., Stone, C., Olshen, R., 1984. Clasificación y regresión
Árboles. Chapman y Hall/CRC.
Cánovas-García, F., Alonso-Sarría, F., 2015a. Un enfoque local para optimizar la escala
parámetro en segmentación multiresolución para imágenes multiespectrales. Geocarto Int. 30 (8), 937–961.

Cánovas-García, F., Alonso-Sarría, F., 2015b. Combinación óptima de clasificación


algoritmos y métodos de clasificación de características para la clasificación basada en objetos de imágenes
DMC de Z/I-Imaging de resolución submétrica. Sensor remoto 7, 4651–4677.
Chávez, P., 1988. Una técnica mejorada de sustracción de objetos oscuros para la corrección de dispersión
atmosférica de datos multiespectrales. Sensores Remotos Entorno. 24, 459–479.
Cutler, D., Edwards, T., Beard, K., Cutler, A., Hess, K., Gibson, J., Lawler, J., 2007.
Bosque aleatorio para clasificación en ecología. Ecología 88 (11), 2783–2792.
DEFINIENS, 2009. eCognition Developer 8. Libro de referencia, DEFINIENS.
Duro, DC, Franklin, SE, Dubé, MG, 2012. Análisis de imágenes basado en objetos a escala múltiple y selección
de características de imágenes de observación de la Tierra con sensores múltiples utilizando bosques
aleatorios. En t. J. Remote Sens. 33 (14), 4502–4526.
Efron, B., Tibshirani, R., 1997. Mejoras en la validación cruzada: el arranque 0.632+
método. Mermelada. Estadística Asoc. 92 (438), 548–560.
Gao, H., 2009. Análisis digital de imágenes de sensores remotos. McGraw-Hill.
Ghimire, B., Rogan, J., Miller, J., 2010. Clasificación contextual de la cobertura terrestre:
incorporando la dependencia espacial en los modelos de clasificación de cobertura terrestre utilizando
bosques aleatorios y la estadística getis. Sensor remoto Lett. 1 (1), 45–54.
Ghose, S., Mitra, J., Oliver, A., Martí, R., Lladó, X., Freixenet, J., Vilanova, J., Sidibe, D., Meriadeau, F., 2012. A
Random For . Clasificación basada Abordaje Segm Próstata. RM, 20–27.

Ghosh, A., Joshi, P., 2014. Una comparación de algoritmos de clasificación seleccionados para
mapeo de parches de bambú en las llanuras del Ganges inferior utilizando imágenes de World View 2 de
muy alta resolución. En t. Aplicación J. Observación de la Tierra Geoinf. 26 (0), 298–311.
Gislason, P., Benediktsson, L., Sveinsson, J., 2006. Bosques aleatorios para la clasificación de la cubierta
terrestre. Reconocimiento de patrones. Letón. 27, 294–300.
Haralick, R., Shanmugan, K., Dinstein, I., 1973. Características texturales para la clasificación de
imágenes. IEEE Tr. Syst., Man Cybern. SMC-3 (6), 610–621.
Hastie, T., Tibshirani, R., Friedman, J., 2009. Los elementos del aprendizaje estadístico: datos
Minería, Inferencia y Predicción 2ª edición. Saltador.
Fig. 8. Pirámides de error en las tres áreas de estudio (a) Unidad de Riego 28, (b) cuenca del río Vinalopó y (c) Ismail, R., Mutanga, O., Kumar, L., 2010. Modelización de la distribución potencial del pino
municipio de Zapotillo. Los errores de omisión y comisión se comparan para M-VAL y O-VAL. O-VAL: Validación bosques susceptibles a infestaciones de sirex noctilio en mpumalanga, Sudáfrica. Trans.

con un conjunto de datos diferente e independiente usando el algoritmo original, M-VAL: Validación con un SIG 14 (5), 709–726.
James, G., Witten, D., Hastie, T., Tibshirani, R., 2013. Una introducción a la estadística
conjunto de datos diferente e independiente usando el algoritmo modificado.
Aprendizaje: con Aplicaciones en R. Springer.
Kuhn, M., Johnson, K., 2013. Modelado predictivo aplicado. Saltador.
Lawrence, R., Wood, S., Sheley, R., 2006. Mapeo de plantas invasoras usando imágenes hiperespectrales y
Las implicaciones de esta dependencia estadística de los elementos que forman clasificaciones de Breiman Cutler (Random Forest). Sensores Remotos Entorno. 100, 356–362.

un parche van más allá de los resultados empíricos expuestos en esta investigación y
Liaw, A., Wiener, M., 2002. Clasificación y regresión por bosque aleatorio. R. Noticias 2
merecen ser investigadas ya que de lo contrario se pueden llegar a conclusiones (3), 18–22.
erróneas. Löw, F., Michel, U., Dech, S., Conrad, C., 2013. Impacto de la selección de características en el
precisión e incertidumbre espacial de la clasificación de cultivos por campo utilizando máquinas de vectores
de soporte. ISPRS J. Photogramm. Sensores remotos 85, 102–119.
Maxwell, A., Warner, T., Strager, M., Conley, J., Sharp, A., 2015. Máquina de evaluación
Reconoce
algoritmos de aprendizaje y variables derivadas de imágenes y LIDAR para la clasificación GEOBIA de
minería y recuperación de minas. En t. J. Remote Sens. 36, 954–978.
Esta investigación ha sido financiada por Proyecto Prometeo, Secretaría de Ok, AO, Akar, O., Gungor, O., 2012. Evaluación del método de bosque aleatorio para la clasificación
de cultivos agrícolas. EUR. J. Remote Sens. 45, 421–432.
Educación Superior, Ciencia, Tecnología e Innovación, Gobierno de Ecuador. También
Pal, M., 2005. Clasificador de bosques aleatorios para la clasificación de sensores remotos. En t. J.
agradecemos a los cuatro revisores anónimos cuyas sugerencias han mejorado Remote Sens. 26 (1), 217–222.
sustancialmente este manuscrito. Puissant, A., Rougier, S., Stumpf, A., 2014. Mapeo orientado a objetos de árboles urbanos usando

10
Machine Translated by Google

F. Cánovas-García et al. Informática y geociencias 103 (2017) 1–11

clasificadores aleatorios de bosque. En t. Aplicación J. Observación de la Tierra Geoinf. 26, 235–245. Svetnik, V., Liaw, A., Tong, C., Wang, T., 2004. Aplicación de Random Forest de Breiman para modelar
Rodríguez-Galiano, V., Ghimire, B., Rogan, J., Chica-Olmo, M., Rigol-Sanchez, J., 2012. relaciones estructura-actividad de moléculas farmacéuticas. En: Roli, F., Kittler, J., Windeatt, T. (Eds.),
Una evaluación de la eficacia de un clasificador forestal aleatorio para la cobertura del suelo MCS. Springer-Verlag, 334–343.
clasificación. ISPRS J. Photogramm. Sensores remotos 67, 93–104. Teillet, P., Guindon, B., Goodenough, D., 1982. Sobre la corrección del aspecto de la pendiente de
Ryherd, S., Woodcock, C., 1996. Combinación de datos espectrales y de textura en el los datos del escáner multiespectral. Rev. Can. J. Remote Sens. 58, 84–106.
Segmentación de imágenes de sensores remotos. Fotograma. Ing. Sensor remoto 62 (2), Waske, B., Benediktsson, A., Sveinsson, J., 2012. Clasificación aleatoria de bosques de datos de
181–194. teledetección. En: Chen, C. (Ed.), Procesamiento de señales e imágenes para sensores remotos.
Schmidt, K., Behrens, T., Scholten, T., 2008. Selección de instancias y análisis de árboles de clasificación Prensa CRC.
para grandes conjuntos de datos espaciales en el mapeo digital de suelos. Geoderma 146 (1–2), Yu, Q., Gong, P., Clinton, N., Biging, G., Kelly, M., Schirokauer, D., 2006. Clasificación de
138–146. vegetación detallada basada en objetos con imágenes de teledetección espacial de alta
Sesnie, S., Finegan, B., Gessler, P., Thessler, S., Bendana, Z., Smith, A., 2010. La separabilidad resolución aérea . Fotograma. Ing. Sensores remotos 72 (7), 799–811.
multiespectral de los tipos de selva tropical costarricense con máquinas de vectores de soporte
y árboles de decisión Random Forest. En t. J. Remote Sens. 31, 2885–2909.

11

También podría gustarte