Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Iván Lizarazo
Resumen Abstract
Este artículo presenta una comparación del fun- This paper aims to compare the capabilities of two
cionamiento y de las capacidades de dos algorit- algorithms, back-propagation (artificial neural net-
mos de Inteligencia Artificial, retro-propagación works) and decision trees, as alternative methods
(redes neuronales artificiales) y árboles de decisión, for digital classification of remotely sensed images.
que representan métodos alternativos para la cla- In particular, advantages and limitations of the
sificación digital de imágenes de sensores remotos new techniques are examined using both theore-
frente a los algoritmos estadísticos convencionales. tical concepts and experiences in their implemen-
En particular, se muestran las ventajas y limita- tation in a land-cover and land-use classification
ciones de las nuevas técnicas, teniendo en cuenta experiment in a study zone located in Bogotá, Co-
conceptos teóricos al igual que la evaluación de los lombia.
resultados obtenidos en su aplicación en la clasi- Key words: Digital Image Classification,
ficación de cobertura y uso del suelo en una zona Land-Cover, Land-Use, Artificial Neural Networ-
piloto de la ciudad de Bogotá, Colombia. ks, Decision Trees.
Palabras clave: clasificación de imágenes digi-
tales, cobertura del suelo, uso del suelo, redes neu-
ronales artificiales, árboles de decisión.
de las funciones específicas que se obtienen usando 5. Aplicación del clasificador a todos los datos de
una muestra de datos que sirve de entrenamiento. la imagen para producir una clasificación de
toda el área de interés.
3. El proceso de clasificación supervisada Es importante tener en cuenta que la selección
El proceso de clasificación supervisada consiste en de un clasificador específico afecta principal-
mente el paso 3 y que tiene un impacto menor
una secuencia de pasos genéricos que se utilizan in-
en los demás pasos. Sin embargo, los factores
dependientemente del algoritmo utilizado, ya sea
limitantes más grandes en una clasificación
árboles de decisión (DT), redes neuronales artificia-
tienen que ver con los pasos 1 y 2; específica-
les (ANN) o Clasificador de Máxima Probabilidad
mente la capacidad de diferenciar las clases de-
(MLC). El proceso que se indica enseguida está ba-
pende del cuidado que se tenga en la selección
sado en el propuesto por Richards y Jia (1999).
de las clases objetivo y de los atributos que se
1. Definición del Problema: las clases objetivo de- utilizan para caracterizar esas clases y realizar su
ben ser definidas, wi, i = 1, ... R, al igual que discernimiento.
el conjunto de atributos que se utilizarán para La clasificación es un proceso de división del
identificar las clases xj, j = 1, ... n. espacio de atributos en compartimentos que
2. Selección de las muestras de entrenamiento “engloban” a cada una de las clases objetivo.
para cada una de las clases objetivo. Para que la Las redes neuronales y los árboles de decisión
clasificación sea exacta, esas muestras deben ser dividen el espacio de atributos mediante una
‘representativas’ de cada clase. Es recomenda- serie de funciones discriminantes –en las redes
ble realizar algún tipo de análisis exploratorio neuronales se conocen como hiper-planos y en
para establecer si las clases se están caracteri- los árboles de decisión como reglas de decisión o
zando de manera correcta, al igual que enten- cortes. En las dos técnicas mencionadas hay que
sumar las funciones que definen las diferentes
der si existen dificultades para la separación
particiones.
de las clases. Si se descubre algún problema de
caracterización, se deben modificar las clases 4. Funcionamiento de una red neuronal
objetivo y/o cambiar los atributos que se utili- Las redes neuronales artificiales también son
zarán para diferenciarlas. conocidas como “aproximaciones de la fun-
3. Construcción del clasificador usando criterios ción universal” por su capacidad para mode-
predeterminados En Inteligencia Artificial (IA) lar relaciones matemáticas y transformaciones
este paso se conoce de manera indistinta como complejas de una manera heurística. Existen
fase de entrenamiento ó como aprendizaje in- muchas maneras de interpretación del com-
portamiento interno de una red neuronal (p.
ductivo (Briscoe y Caelli, 1996).
e., Carpenter, 1989; Kohonen, 1989). En un
4. Validación de los resultados del entrenamien- perceptrón multi-capa (MLP) como el que se
to. Este paso busca evaluar el desempeño del muestra en la figura 2, que tiene 5 atributos, 6
clasificador usando datos nuevos que no se han nodos ocultos y 3 clases, una interpretación se
utilizado en el entrenamiento. Si los resulta- basa en la relación entre los valores de los atri-
dos no son satisfactorios, puede ser necesario butos y las clases objetivo, aplicando el método
repetir el proceso de entrenamiento utilizando de retro-propagación (BP) (p.e. Pao, 1989; Tso
criterios diferentes. y Mather, 2001).
solamente considera aquellos atributos que ayudan sión única. Las dos técnicas de IA que se analizan
a resolver el problema de clasificación y los otros en este artículo pueden ser consideradas como “in-
son simplemente ignorados. El árbol se construye dependientes de la distribución de los datos”, en el
iniciando desde la raíz y evaluando cada uno de sentido en que ellas no parten de ningún supuesto
los atributos para determinar cuál de ellos es el que estadístico sobre la forma de distribución de los
mejor divide los datos en dos conjuntos disjuntos. datos de entrenamiento en el espacio de atributos.
El mejor atributo es aquel que produce el menor De hecho, las suposiciones estadísticas son redu-
número de muestras mal clasificadas. Luego de este cidas al mínimo y la única que se hace es que la
paso, el árbol ya está compuesto de dos ramas y un distancia euclidiana en el espacio de atributos re-
nodo raíz. El proceso se repite por cada rama, reali- presenta el grado de similaridad entre las clases: las
zando la partición de las muestras de manera tal que distancias pequeñas indican una gran semejanza y
se puedan clasificar todos los datos. las distancias grandes una gran diferencia.
Los cortes de decisión se hacen de manera pa- Las muestras de entrenamiento se consideran
ralela a los ejes, como se muestra en la figura 6, y independientes entre sí. Cuando se usan redes
se realizan en una secuencia que tiene implicacio- neuronales es usual que se escalen (normalicen)
nes para la generalización y la optimización, como los atributos, de manera que el rango de valores
se verá más adelante. Algunos árboles de decisión de cada dominio sea consistente, usualmente esto
tales como el Clasificador Oblicuo OC1 (Murthy, significa que 0 ≤ a ≤ 1. Esto es necesario, puesto
et al., 1994) pueden usar una regla de partición no que los atributos se usan de manera combinada y
ortogonal (oblicua), que realiza modificaciones a por tanto deben ser comparables numéricamente.
los cortes ortogonales en un intento de mejorar el Igualmente, ello ayuda a evitar errores de redon-
desempeño de la regla. deo. Ese problema no ocurre con los árboles de
decisión ya que cada regla de partición se formula
para un solo atributo. La única comparación re-
querida está relacionada con el desempeño de las
diferentes decisiones que podrían hacerse para
cada tipo de atributo.
Cuando se construye inicialmente el espacio de
atributos no se establece ninguna dependencia que
se supone puede existir de manera natural (p. e., la
correlación entre altura y temperatura o entre el
aspecto del terreno y la precipitación). El peso de
la evidencia (es decir, la contribución relativa de
cada atributo para identificar cada clase) se apren-
de durante la fase de entrenamiento. Los árboles
de decisión asignan pesos de manera implícita a la
evidencia ordenando las reglas de acuerdo con el
Figura 6. Participación del espacio de atributos usando un árbol
de decisión que usa cortes paralelos a los ejes.
mejoramiento que la partición asociada le brinde
al desempeño general de la clasificación. Los atri-
butos que tienen una capacidad baja de clasifica-
6. Espacio de atributos y supuestos
ción simplemente son ignorados o son relegados a
estadísticos la parte más profunda del árbol.
El espacio de atributos requerido por un árbol de A diferencia de los clasificadores paramétricos,
decisión, una red neuronal o un clasificador MLC las redes neuronales y los árboles de decisión pue-
es simplemente un espacio de dimensionalidad n, den funcionar en cualquier tipo de dato estadísti-
en el cual n es el número de atributos que se están co, es decir que los atributos individuales pueden
utilizando. Cada atributo suministra una dimen- representar una mezcla de tipos de datos nomina-
les, ordinales y cuantitativos (intervalo y propor- representan alguna condición como cobertura de
ción). Sin embargo, para ello se requiere que los suelo, tres de los cuales {A, B, C} están asociados
atributos nominales sean enumerados de manera con un uso del suelo específico, representado por
que puedan ser “mapeados” en un eje y ello puede los cuadrados de la figura 7. Dependiendo del or-
ocasionar algunos problemas de ordenamiento que denamiento de dichos valores, el número de fron-
se muestran en la figura 7. Considere el caso en el teras de decisión requeridas puede variar entre uno
cual algunos valores nominales {A, B, C, D, E, F} (1) y tres (3).
Figura 7. Dos ordenamientos diferentes para un conjunto de atributos nominales {A, B, C, D, E, F, G} en un problema de dos clases (tomada
de Gahegan, 1998).
Cuando se usan redes neuronales, este proble- pertenece a la clase w1, de lo contrario pertenece a la
ma de asignación se complica debido a que se debe clase w2. En otras palabras, los atributos no tienen
determinar cuál es el número correcto de hiper- fronteras definidas. La mínima generalización usa
planos. Con los árboles de decisión el problema los valores de atributos que localizan las muestras
se manifiesta de manera más sutil; si se separan las en un paralelepípedo en el espacio de atributos e
diferentes coberturas, como se indica en la parte ignora los espacios entre los paralelepípedos. Por
derecha de la figura 7, es probable que su aporte ejemplo: si el valor de X está dentro de T1 y T2, en-
a la clasificación sea reducido o incluso insigni- tonces pertenece a la clase w1, de lo contrario su clase
ficante. Ello significa que si los datos nominales es desconocida. En otras palabras, los atributos tie-
muestran una agrupación consistente para todas nen fronteras definidas.
las clases objetivo, ellos deberían ser unidos u or- La generalización máxima es apropiada si exis-
denados de manera apropiada, para simplificar la te una gran confianza en que los datos de entre-
namiento son representativos y se espera que, en
tarea de clasificación.
el futuro, todos los datos caigan en alguna de las
clases definidas. Por el contrario, la generalización
7. Entrenamiento y generalización mínima es mejor en situaciones en las cuales los
La ubicación de las fronteras de los “compartimen- datos de entrenamiento representan de manera
tos” de cada clase que son apropiadas constituye parcial el mundo real. Por ejemplo, en la figu-
un asunto problemático que se puede comprender ra 8(b) se muestra un ejemplo de generalización
mejor usando como referencia los conceptos de mínima introduciendo el concepto de una clase
máxima generalización y de mínima generaliza- desconocida o de fondo que existe en zonas del es-
ción. En la figura 8(a-b) se muestran los dos casos pacio de atributos en las cuales no existen muestras
mencionados para dos atributos y dos clases. La de entrenamiento.
máxima generalización toma su decisión con base En cualquiera de las dos formas de generaliza-
en el lado de la partición en el cual cae la muestra. ción puede ocurrir que algunas zonas del espacio
Por ejemplo: si el valor de X es menor que T, entonces de atributos no contengan datos de entrenamiento
y que los datos nuevos que caen en ellas sean asig- una muestra que está a cierta distancia de las clases
nados a una clase específica. Por ejemplo, considere identificadas como el triángulo de la figura 8.
Figura 8. Generalización máxima (a), generalización mínima (b) y generalización híbrida (c). El triángulo representa una muestra no conocida
que tiene que ser clasificada. En el caso (a) ella se asigna a la clase ‘cuadrado’ debido a que cae dentro de la frontera de decisión, pero no es
clasificada en los casos (b) y (c) porque es diferente de cualquier cuadrado encontrado durante el entrenamiento.
Las redes neuronales posicionan los hiper- La generalización mínima en los árboles de
planos de una manera libre dentro de un espacio decisión usualmente emplea los hiper-rectángu-
de atributos continuo, pero la posición final está los de menor perímetro como medio para definir
determinada por la búsqueda de la minimización las fronteras y por tanto está expuesta a los mis-
del error global mínimo como se indicó en el nu- mos problemas de sobre-entrenamiento indicados
meral 4. Usualmente, ellas utilizan la generali- atrás.
zación máxima debido a que los hiper-planos se En ocasiones, la mejor solución es un compro-
posicionan para maximizar la separación entre las miso entre la generalización mínima y máxima
clases. Puede ocurrir sobre-entrenamiento cuan- que ofrece un balance entre las características de
do la red se enfoca en la minimización de errores las dos opciones. Existe una variedad de técnicas
que no se deben a tendencias significativas en los estadísticas alternativas que pueden emplear para
datos sino a desviaciones individuales de algunos ello (Devijver y Kittler, 1982). Una posibilidad,
atributos, lo cual significa que se tiende a la gene- que se muestra en la figura 8(c), es usar la gene-
ralización mínima. Este problema es ocasionado ralización máxima para construir un árbol de de-
por la introducción de muchos hiper-planos con cisión preliminar y luego examinar los valores de
la esperanza de reducir el error. El sobre-entrena- los atributos de cada hoja e introducir las fronteras
miento solamente se detecta mediante la evalua- basadas en los datos de entrenamiento.
ción el desempeño del clasificador en un conjunto Es clara la importancia de ir ajustando las ha-
de validación. bilidades de generalización del clasificador a los
En contraste, los árboles de decisión pueden ser patrones observados dentro de los datos. Como
configurados para seguir alguna de las dos aproxi- no existe un mecanismo fijo que permita lograr
maciones de generalización. Dado un conjunto ello, existe la necesidad de experimentación y va-
finito y ordenado de muestras de entrenamiento lidación antes del paso final de la clasificación.
{v1, v2, ... vm}, una frontera de decisión (vI) puede 8. Aspectos prácticos
ser colocada en cualquier parte entre vi y vi+1. Las En esta sección se mencionan elementos ope-
fronteras de decisión cercanas o coincidentes con racionales que hay que tener en cuenta cuando se
vi causarán generalización mínima de la clase a la usan estos clasificadores. Ellos se basan en las reco-
cual la división vI ayuda a definir. mendaciones de Gahegan y West (1998), al igual
un proceso nuevo como ocurre en el caso de las umbrales a usar para realizar la partición en cada
redes neuronales. nodo. Los datos de atributos deben ordenarse y
todos los posibles umbrales deben ser evaluados
8.3 Búsqueda del error mínimo en función de su desempeño. La complejidad final
Las redes neuronales examinan al mismo tiempo depende de los datos, aunque la experiencia con
todas las dimensiones en su búsqueda de una so- problemas reales muestra que el ordenamiento es
lución óptima y para ello usa rutinas sofisticadas el factor que más incide. Sin embargo, los tiempos
que examinan la tendencia del error e intentan de creación de un árbol se miden en términos de
encontrar el punto donde ocurre el menor error segundos y no de minutos. En general, la comple-
total, tal como se describió en la sección 4. Estas jidad del problema aumenta de manera lineal con
rutinas pueden ser muy sensibles al gradiente y a el número de dimensiones del espacio de atribu-
la dirección de cambio (Richards y Jia, 1999). Sin tos, debido a la independencia de las reglas como
embargo, no es posible garantizar que el mínimo se describió en la sección anterior.
global se ha encontrado a menos que la superficie En las redes neuronales, la complejidad es ma-
se haya investigado de manera exhaustiva utilizan- yor. El mecanismo de búsqueda es global y la bús-
do un método analítico. queda se realiza en todos los atributos y clases de
En contraste, los árboles de decisión se mueven manera simultánea. Aunque podría esperarse una
hacia una solución de una manera incremental, relación tipo función cuadrada entre los atributos y
tomando decisiones independientes en cada di- la demanda computacional a medida que se incre-
mensión de los datos y en cada iteración. El orden
menta la dimensionalidad, ello no es cierto. Cada
en el cual se generan las reglas de decisión deter-
dimensión adicional atrae un nodo de entrada ex-
mina cómo es la búsqueda de la superficie de error
tra y por tanto se requieren q conexiones de peso
y ella está definida únicamente por los datos. Por
adicionales en la capa oculta (donde q es el número
ello, los árboles de decisión no usan el concepto de
global mínimo, aunque las implementaciones más de nodos en la capa oculta). Esto complica la tarea
avanzadas realizan la planeación de las iteraciones de entrenamiento en términos de la matriz W. Sin
siguientes. embargo, si el número de los hiper-planos reque-
Es claro que ninguna de las dos técnicas ase- ridos no se incrementa, entonces el incremento en
gura una solución óptima, ni siquiera en condi- desempeño es nuevamente lineal. Es únicamente
ciones ideales en las cuales se conoce el número cuando los nodos de la capa oculta se incrementan
correcto de hiper-planos o los criterios de parada. que la complejidad aumenta de forma alarmante,
Por consiguiente, el desempeño del clasificador pues ello afecta tanto a W como a U. Pero incluso
solamente se puede evaluar de manera confiable en ese caso, el uso de procedimientos sofisticados
usando datos de validación que sean independien- de búsqueda reduce el impacto del cambio, de ma-
tes estadísticamente. Cualquier intento para pre- nera que la complejidad cae en algún punto entre
decir el desempeño basado en la capacidad para una relación lineal y una función cuadrática rela-
clasificar las muestras de entrenamiento conduce cionada con el número de atributos.
a sobre-estimar la exactitud, pues ignora el riesgo En la práctica, muchos investigadores han en-
del sobre-entrenamiento (sección 7). contrado que, en el caso de los árboles de deci-
8.4 Uso de recursos computacionales sión, la escalabilidad no causa problemas. En las
redes neuronales se requiere un gran esfuerzo para
Puesto que los dos métodos se usan en conjuntos definir la arquitectura de la red. Esto no se debe
de datos de imágenes, en los cuales el número de tanto a la complejidad computacional sino a la
capas de entrada y/o las clases de salida es alto, ‘saturación’ de los nodos de la capa oculta, un pro-
es pertinente examinar cómo es el desempeño en blema que ocurre cuando existe un gran número
términos de tiempo de computador a medida que de nodos de entrada que deben conectarse. Entre
crecen los atributos y el espacio de clases. más pesos existan más difícil es asegurar que úni-
Los árboles de decisión deben determinar cuál camente se trabaje con la que es evidencia útil. El
es el atributo más importante y cuáles son los
entrenamiento también se vuelve muy demorado, plejidad, a costa de experimentar usando diferentes
particularmente si la red se inicializa con pesos valores en los parámetros de la red hasta encontrar
aleatorios. la configuración adecuada. Como ejemplo, hay
que indicar que en la clasificación de la cobertura
9. Conclusiones del suelo de la zona de estudio usando como da-
tos de entrada las bandas originales de una imagen
Este artículo ha presentado aspectos relaciona-
QuickBird multi-espectral complementadas con
dos con la selección y diseño de dos técnicas de
una imagen de bordes de Sobel las redes neurona-
aprendizaje de máquina que son útiles para la
les (BP) alcanzaron una exactitud global del 79%,
clasificación de imágenes digitales. En particular
luego de 26 intentos por encontrar una configura-
se han revisado temas como la generalización y
ción apropiada. Dicha exactitud final estuvo muy
aspectos de funcionamiento como arquitectura,
búsqueda de la mejor solución y evaluación de la cerca a la obtenida mediante MLC (82%) y fue
complejidad. El propósito central ha sido enfa- ligeramente superior a la obtenida mediante árbo-
tizar elementos que deben ser tenidos en cuenta les de decisión (72%) en su primer intento. En
al utilizar cualquiera de dichos clasificadores. En la clasificación del uso del suelo realizada en dicho
resumen, no existe evidencia empírica suficiente estudio, usando como bandas de entrada las métri-
para recomendar de manera absoluta el uso de los cas de proporción de cada cobertura y de diversi-
algoritmos analizados sobre los métodos conven- dad de cobertura, el algoritmo BP (ANN) permitió
cionales. En cada caso particular, se debe realizar obtener una exactitud temática del 64% mientras
la selección tomando como base las características que el algoritmo DT alcanzó una exactitud global
específicas del problema a resolver y el análisis de del 74% y el algoritmo MLC solamente llegó al
los datos disponibles. 42%. Para fines comparativos, las figuras 9, 10 y
Los árboles de decisión y las redes neurona- 11 muestran los resultados gráficos obtenidos por
les no son una panacea para resolver todos los los diferentes métodos.
problemas de los clasificadores paramétricos, ni Por otro lado, es pertinente anotar que un
su uso garantiza por sí mismo un aumento de la determinado algoritmo puede tener implemen-
exactitud temática. Ellos permiten superar algunas tación diferente en diferentes programas de
limitaciones de los métodos tradicionales pero a procesamiento digital y ello significa que su des-
costa de enfrentarse a nuevas dificultades como el empeño –así como las opciones disponibles para
desempeño computacional, el comportamiento de los usuarios– pueden variar enormemente. A ma-
la generalización y la configuración de los pará- nera de ejemplo, Lizarazo, et al. (2006) reportan
metros adecuados. Las redes neuronales son, hasta que, usando los mismos parámetros de entrena-
cierto punto, cajas negras que realizan clasificacio- miento, el algoritmo BP de Idrisi utilizado para
nes buenas sin que el usuario pueda establecer cuál clasificar la cobertura del suelo urbano en la zona
es la contribución de los diferentes atributos. Por de estudio necesitó solamente de 3 minutos para
ello es que los árboles de decisión pueden ser con- producir una clasificación cuya exactitud con los
siderados inicialmente como la mejor alternativa, datos de entrenamiento fue del 86% mientras que
debido a que son más simples de configurar y a el algoritmo BP de ENVI requirió de 5 horas, al
que el usuario puede conocer las reglas de decisión
cabo de las cuales entregó una exactitud de entre-
usadas. Sin embargo, es pertinente indicar que los
namiento del 79%.
dos algoritmos requieren una intervención cuida-
dosa de los usuarios, en particular para seleccio-
nar los parámetros operacionales adecuados. Esto Un reporte detallado de los parámetros utilizados y los
significa que hay necesidad de experimentación y resultados obtenidos en la zona de estudio puede verse
en Lizarazo et al. (2006).
validación mediante datos independientes.
IDRISI es un software académico producido por Clark
La búsqueda global empleada por las redes
Labs (Clark University, MA).
neuronales puede ayudar a obtener una mejor cla-
ENVI es un software comercial producido por Research
sificación, sobre todo en problemas de gran com- Systems Inc.
La dificultad de decidir cuál es el mejor cla- BP y evalúe su desempeño, (3) seleccione nuevas
sificador y cuáles son los parámetros apropiados muestras de entrenamiento y aplique el algoritmo
han conducido a que varios investigadores adop- cuyo desempeño inicial fue mejor y (4) si la exac-
ten como solución lo que se conoce como aproxi- titud final no cumple los requerimientos, ensaye
la combinación de los resultados de diferentes
mación a problemas no resueltos (Dietterich, 1997)
clasificadores como DT y ANN. Esta aproxima-
(Gahegan, 1999) que puede plantearse así: (1) ción empírica muestra que todavía existe mucho
pruebe inicialmente con algoritmos de aprendi- terreno por recorrer para encontrar herramientas
zaje convencionales como MLC, (2) use métodos de clasificación robustas para el procesamiento de
alternativos de clasificación como DT y ANN- imágenes de sensores remotos.
Agradecimientos
Esta publicación es uno de los productos del pro- Científico (CIDC) de la Universidad Distrital. Los
yecto de investigación “Clasificación digital de la ingenieros catastrales Ricardo Cuitiva y Samuel
cobertura y uso del suelo urbano usando métodos Mesa participaron en las pruebas de clasificación
no convencionales” que fue realizado gracias al mediante redes neuronales artificiales.
apoyo del Centro de Investigaciones y Desarrollo
Iván Lizarazo
Ingeniero civil, Universidad Industrial de Santander. Especialista en SIG, Universidad Distrital.
MSc en Geographic Information Science, Universidad de Londres. Profesor del Proyecto Curricular
Ingeniería Catastral y Geodesia. Integrante del Grupo de Investigación NIDE. Universidad Distrital
Francisco José de Caldas, Bogotá, Colombia.
Correro electrónico: ilizarazo@udistrital.edu.co