Está en la página 1de 24

CLASIFICACIÓN NO SUPERVISADA DE COBERTURAS

VEGETALES SOBRE IMÁGENES DIGITALES DE SENSORES


REMOTOS: “LANDSAT – ETM+”

Mauricio Arango Gutiérrez1 ; John William Branch Bedoya2 y


Verónica Botero Fernández3

RESUMEN

La diversidad de especies vegetales presentes en Colombia y la falta de inventario sobre ellas hace
pensar en un proceso que facilite la labor de los investigadores en estas disciplinas. Los sensores
remotos satelitales como el LANDSAT ETM+ y las técnicas de inteligencia artificial no supervisa-
das, como los Self-Organizing Maps - SOM, podrían proveer una alternativa viable para avanzar en
la obtención rápida de información que corresponda a zonas con diferentes coberturas vegetales
presentes en la geografía nacional. La zona propuesta para el caso en estudio fue clasificada de
forma supervisada por el método de máxima similitud en otro trabajo de investigación en ciencias
forestales y se discriminaron ocho tipos de coberturas vegetales. Esta información sirvió como
patrón de medida para evaluar el desempeño de los clasificadores no supervisados ISODATA y
SOM. Sin embargo, la información que proveen las imágenes debió ser depurada previamente de
acuerdo a los criterios de uso y calidad de los datos de manera que se utilizara la información
adecuada para estos métodos no supervisados. Para esto se recurrió a varios conceptos como las
estadísticas de las imágenes, el comportamiento espectral de las comunidades vegetales, las
características del sensor y la divergencia promedio que permitieron definir las mejores bandas y
sus combinaciones. Sobre éstas se aplicó el concepto de análisis de componentes principales que
permitió reducir el número de datos conservando un gran porcentaje de la información. Sobre estos
datos depurados se aplicaron las técnicas no supervisadas modificando algunos parámetros que

1
Instructor Asociado. Universidad Nacional de Colombia, Sede Medellín. Facultad de Minas. A. A. 1027. Medellín, Colombia.
<marangog@unalmed.edu.co>
2
Profesor Asistente. Universidad Nacional de Colombia, Sede Medellín. Facultad de Minas. A. A. 1027. Medellín, Colombia.
<jwbranch@unalmed.edu.co>
3
Profesora Asistente. Universidad Nacional de Colombia, Sede Medellín. Facultad de Minas. A. A. 1027. Medellín, Colombia.
<vbotero@unalmed.edu.co>

Recibido: Mayo 10 de 2004; aceptado: Abril 26 de 2005.


Arango G., Branch B., Botero F.

pudieran mostrar una mejor convergencia de los métodos. Los resultados obtenidos se compara-
ron con la clasificación supervisada a través de matrices de confusión y se concluye que no hay una
buena convergencia de los métodos de clasificación no supervisada con este proceso para el caso
de las coberturas vegetales.

Palabras claves: SOM, ISODATA, LANDSAT, análisis de componentes principales, clasifi-


cación no supervisada, coberturas vegetales.

ABSTRACT

NONSUPERVISED CLASSIFICATION OF VEGETABLE COVERS


ON DIGITAL IMAGES OF REMOTE SENSORS: “LANDSAT – ETM+”

The plant species diversity in Colombia and the lack of inventories of them suggests the need for a
process that facilitates the work of investigators in these disciplines. Remote satellite sensors such
as LANDSAT ETM+ and non-supervised artificial intelligence techniques, such as self-organizing
maps - SOM, could provide viable alternatives for advancing in the rapid obtaining of information
related to zones with different vegetative covers in the national geography. The zone proposed for
the study case was classified in a supervised form by the method of maximum likelihood by another
investigation in forest sciences and eight types of vegetative covers were discriminated. This
information served as a base line to evaluate the performance of the non-supervised sort keys
ISODATA and SOM. However, the information that the images provided had to first be purified
according to the criteria of use and data quality, so that adequate information for these non-
supervised methods were used. For this, several concepts were used; such as, image statistics,
spectral behavior of the vegetative communities, sensor characteristics and the average divergence
that allowed to define the best bands and their combinations. Principal component analysis was
applied to these to reduce to the number of data while conserving a large percentage of the
information. The non-supervised techniques were applied to these purified data, modifying some
parameters that could yield a better convergence of the methods. The results obtained were
compared with the supervised classification via confusion matrices and it was concluded that there
was not a good convergence of non-supervised classification methods with this process for the case
of vegetative covers.

Key words: SOM, ISODATA, LANDSAT, principal component analysis, non-supervised


classification, vegetative covers.

2612 Rev.Fac.Nal.Agr.Medellín.Vol.58, No.1.p.2611-2634.2005.


Clasificación no supervisada de coberturas vegetales...

INTRODUCCIÓN • Proponer un método de segmentación


no supervisada para este tipo de imágenes
La clasificación es una forma de aprendi- digitales.
zaje, un proceso que acumula y concentra
experiencias dentro de modificaciones in- • Validar el método propuesto para cober-
ternas de un sistema; no razona para de- turas vegetales sobre dichas imágenes de
ducir un resultado o tomar decisiones. Por sensores remotos.
lo tanto, la clasificación se limita a agrupar
conjuntos de objetos en clases a través del Se busca categorizar segmentos de Imáge-
uso de técnicas de inteligencia artificial o nes Digitales Multiespectrales Satelitales –
estadísticas, principalmente en aquella del IDMS del tipo LANDSAT ETM+ de manera
tipo digital. eficiente, confiable y sin conocimiento ex-
perto en ella, tomando como punto inicial
Ésta es posible hacerla de dos maneras, con un caso estudio con ciertos tipos de cober-
orientación de un experto en el tema a cla- turas.
sificar o sin esa orientación. La primera es
un proceso más del reconocimiento y la El desarrollo de estos métodos permite
segunda aprovecha las características de la potenciar la investigación hacia nuevas téc-
imagen para definir las agrupaciones con nicas computacionales que sólo hasta hace
valores similares. Además, ésta puede va- algunos años se vienen desarrollando en el
riar de un tema a otro y es allí donde se país en otras áreas pero que tienen actual-
deben definir algunos criterios que permi- mente un gran interés para el reconocimien-
tan generalizar el uso de este proceso. Todo to de patrones en IDMS.
esto plantea la necesidad de investigar so-
bre el diseño de un proceso de segmenta- El tener un modelo de clasificación no su-
ción no-supervisada en imágenes digitales pervisada eficaz, permite a las entidades
que exploten todas las posibilidades de tra- relacionadas con los recursos naturales,
tamiento dentro de un tema particularmente lograr un mejor planeamiento del recurso
complejo como es el caso de la definición humano y técnico para la verificación en
de coberturas vegetales en regiones con una campo de la clasificación que se obtenga
alta diversidad como la colombiana. de una zona específica. Lo que redundará
en una mayor eficiencia en el momento de
Para orientar esta investigación se escogie- determinar los usos del suelo, en función
ron las imágenes digitales del sensor re- de la vegetación y a gran escala en el terri-
moto satelital LANDSAT ETM+, buscando torio nacional. Además, la aplicación tem-
responder a varios interrogantes como: poral de este modelo permitiría conocer
fácilmente como evolucionan las cobertu-
• Determinar el proceso de combinación ras vegetales ante eventos climáticos o ac-
de las diferentes imágenes que contiene ciones del hombre. Esto permite una ade-
una escena LANDSAT ETM+, para obte- cuada administración de los recursos como
ner la mejor diferenciación espectral res- también el inventario de la oferta de oxíge-
pecto al contenido de la información a eva- no que proviene de las coberturas de bos-
luar. ques, tema de gran importancia mundial.

Rev.Fac.Nal.Agr.Medellín.Vol.58, No.1.p.2611-2634.2005. 2613


Arango G., Branch B., Botero F.

La organización de este documento en la En la sección cinco se describen dos méto-


sección dos contextualiza el problema den- dos de clasificación no supervisada. Uno
tro de las diferentes disciplinas y técnicas. de ellos es una técnica ampliamente cono-
cida y el otro no ha sido tan estudiado en
La sección tres trata sobre las correcciones estos casos. Este último se fundamenta en
que se hace a las imágenes digitales. Allí tres parámetros: variables que intervienen
se revisa que los segmentos a probar no en el análisis, criterio para medir la simili-
necesiten ser sometidos a algún tipo de
tud o distancia entre casos y criterio para
corrección que altere los Niveles Digitales -
agrupar los casos similares. La teoría defi-
ND originales de la imagen. Como se tra-
ne algunos métodos con base en estos
bajará en segmentación no-supervisada no
será necesario hacer realce o mejoras de la parámetros, los cuales se han orientado al
imagen para efectos de visualización. Pero uso de redes neuronales. Éstos no han sido
si se deberá hacer una aproximación en la probados con este tipo de imágenes y de-
conversión de ND a reflectividades para cada berán ser definidos según los resultados
banda. arrojados por las imágenes generadas en el
proceso de diferenciación espectral desa-
La sección cuatro define dos criterios de rrollado en etapas anteriores. Este último
selección de información que será el insumo aspecto hace al modelo diferente de otros
para la fase siguiente. Una parte se refiere ya que las variables involucradas provienen
a la información que la literatura recomien- de múltiples imágenes.
da para combinar bandas orientadas a la
clasificación de coberturas vegetales y la Finalmente, la sección seis cierra este estu-
otra se refiere a la reducción de los datos dio a través de la validación de la hipótesis
sin pérdida de información. Este concep- propuesta donde se aplicarán los algoritmos
to cobra mucha importancia en la clasifi- de clasificación existentes sobre las imáge-
cación digital, pero en especial en el méto- nes escogidas y sus resultados se compa-
do de inteligencia artificial ya que éste re-
rarán con una clasificación supervisada.
comienda una entrada de datos pequeña
para evitar redundancias y procesos de aná-
En la sección siete se analizan los resulta-
lisis lentos.
dos, se concluye y se define el trabajo fu-
La segunda parte de esta sección se refiere turo.
al Análisis de Componentes Principales que
resume el conjunto de las bandas Antes de abordar esta lectura es conveniente
espectrales en un conjunto más pequeño revisar algún material introductorio al
sin perder una parte significativa de la in- sensado remoto del cual hay gran disponi-
formación original. Lo que se busca es sin- bilidad en Internet, pero una página intere-
tetizar las bandas originales y crear nuevas sante es www.ccrs.ncan.gc.ca. También
bandas que recojan la mayor parte de la son muy cercanos en conceptos a este tra-
información original. Este modelo deberá bajo los de (Todt, 1998 y Avendaño, 1999).
generar imágenes que, por su diferencia- Otra recomendación es revisar la literatura
ción espectral, garantice un proceso de sobre componentes principales y técnicas
segmentación confiable. de inteligencia artificial.

2614 Rev.Fac.Nal.Agr.Medellín.Vol.58, No.1.p.2611-2634.2005.


Clasificación no supervisada de coberturas vegetales...

REVISIÓN DE LA LITERATURA radiancia, para una parcela de terreno y en


una banda específica, en 8 bits (0 a 255)
Las fuentes de datos para la clasificación para el caso de las imágenes LANDSAT. La
digital de imágenes son diversas pero en- colección de todos estos datos se constitu-
tre ellas se destacan las imágenes satelitales ye en un arreglo matricial (Figura 1) que
de la serie Landsat (National Aeronautics tiene una unidad mínima de observación
and Space Administration NASA, 1998), (parcela) denominada píxel (Picture Element
cuyos objetivos han sido cartografiar y eva- de su sigla en inglés) con un número ente-
luar los recursos naturales. El último satéli- ro (ND) que puede convertirse en una in-
te de esa serie es el LANDSAT ETM+ con tensidad luminosa o nivel de gris y con una
ocho bandas lo cual reviste especial impor- localización espacial.
tancia debido a que una de las limitantes
para el funcionamiento eficiente de un cla- Lo primero a considerar en este proceso de
sificador no supervisado es la presencia de generación de información son las trans-
una baja diferenciación espectral entre cla- formaciones en los ND’s originales que
ses, aunque por otro lado aumenta la com- permiten una mejor disposición para ge-
plejidad de los datos. nerar información de muchos tipos; en
otras palabras, se genera nueva informa-
El sistema de captura de una imagen en ción a partir de las bandas espectrales dis-
estos sistemas optico-electrónicos, consis- ponibles. Las más usuales son: conversión
te en un sensor que explora la superficie de ND a valores físicos de reflectividad y
terrestre adquiriendo la radiación emitida y temperatura, transformaciones multibandas
reflejada de los objetos situados sobre ella. como índices de vegetación y otros cocien-
Esta energía que capta el sensor está defi- tes, componentes principales, Tasseled Cap
nida por el valor numérico o Nivel Digital - y análisis lineal de mezclas espectrales
ND, que codifica digitalmente esta (Chuvieco, 2000).

Figura 1. Organización de datos de ocho bandas espectrales sobre una misma escena

Rev.Fac.Nal.Agr.Medellín.Vol.58, No.1.p.2611-2634.2005. 2615


Arango G., Branch B., Botero F.

En nuestro medio no se ha desarrollado ción de pixeles con valores digitales simila-


una solución computacional a este proble- res para todas las bandas y cada una de
ma pero en investigaciones internaciona- estas agrupaciones son llamadas clases
les ya se han logrado avances al espectrales, las cuales se supone corres-
implementar nuevas técnicas que permi- ponden a un tipo de cubierta de terreno.
ten manipular estos datos que son de ten- Los métodos usados para desarrollar esta
dencias no lineales, tales como las Redes clasificación son del tipo agrupamiento (del
Neuronales Artificiales (Solaiman, Mouchot inglés clustering), aunque recientemente se
y Maillard, 1994b), lógica difusa (Duda; ha trabajado con los modelos neuronales.
Canty y Klaus, 1999) y técnicas híbridas
(Solaiman y Mouchot, 1994a; 1995a; La aplicación de esta clasificación opera
Ruppert et al., 1997; Sergi; Solaiman y como una búsqueda automática de gru-
Mouchot, 1995; Velickov et al, 2000; pos de valores homogéneos dentro de las
Nissinen; Hyötyniemi y Koivo, 1999 y San- imágenes, pero pueden ocurrir varias posi-
tos, 2003). Sin embargo, estos modelos se bilidades: que una categoría esté expresa-
diferencian por el tipo de imágenes digitales da en varias clases espectrales, que dos o
sobre las que han operado y porque su in- más categorías compartan una sola clase
terés no se ha centrado en las coberturas espectral, que varias categorías compartan
vegetales probando técnicas combinadas, clases espectrales y la ideal, que haya una
aunque los fundamentos teóricos básicos correspondencia biunívoca entre las clases
son similares a las condiciones de este pro- espectrales y las categorías. Esto será la base
blema. para el agrupamiento.

Esta problemática plantea una primera di- El agrupamiento (Clustering) es una técni-
ficultad a resolver que es encontrar cuales ca de clasificación en que la imagen es
bandas son importantes para el reconoci- segmentada en clases desconocidas que
miento de clases espectrales (Nissinen; posteriormente serán etiquetadas. Ésta se
Hyötyniemi y Koivo, 1999) antes de abor- emplea en diversos métodos, como por
dar el problema de clasificación. Lo prime- ejemplo: K-medias, C-medias e ISODATA
ro es definir cuales son las condiciones (IInteractive Self-O
Organizing Data Analysis
espectrales de la imagen que le permitan Technique (Algorithm)) (Richards, 1995).
ser clasificada por un algoritmo no super-
visado orientado a coberturas vegetales. Es En la CNS de imágenes multiespectrales
así como en esta etapa se busca realizar uno de los algoritmos que resulta adecua-
una corrección de los datos a fin de dismi- do para delimitar los valores homogéneos
nuir la componente de ruido atmosférico dentro de la imagen ha sido el ISODATA
inherente a las imágenes digitales de (Datos auto-asociados iteractivamente)
sensores remotos y mostrar las considera- (Duda y Hart, 1973) el cual calcula los pro-
ciones que para ello se hacen. medios de las clases o agrupaciones que
eventualmente están distribuidos en el es-
Ahora, se define la clasificación no-super- pacio de decisión. En cada una de las
visada – CNS como un proceso de agrupa- iteracciones re-calcula los promedios y re-

2616 Rev.Fac.Nal.Agr.Medellín.Vol.58, No.1.p.2611-2634.2005.


Clasificación no supervisada de coberturas vegetales...

clasifica los pixeles de la imagen con res- géneos dentro de la imagen (Rebollo y Orti,
pecto a los nuevos promedios. Este proce- 1980). Sin embargo, es artificioso señalar
so continúa hasta que el cambio del nú- unos parámetros de control significativos,
mero de pixeles en cada clase (cluster) es puesto que el usuario no conoce, inicial-
mínimo respecto a un valor de tolerancia o mente, el número de grupos espectrales
hasta que se realiza cierto número de presentes en la imagen, ni el valor idóneo
iteracciones predefinidas. Sin embargo, es de dispersión interna o distancia entre gru-
muy artificioso señalar parámetros de con- pos. De esta forma, el análisis no supervi-
trol significativos sino se conocen los gru- sado se convierte en un proceso interactivo,
pos espectrales ni el valor idóneo de dis- en donde el usuario establece unos valores
persión o distancia entre grupos; es decir, arbitrarios que se van modificando a la luz
el usuario es quien define el número de de los resultados.
categorías que cree se pueden obtener
cuando éste no tiene conocimiento de lo Éstas razones han llevado a algunos inves-
que estará presente en la imagen. Otra di- tigadores a desarrollar otras técnicas que
ficultad es el gran volumen de cálculo que definan un modelo que permita segmen-
precisa, donde a partir de la quinta tar imágenes multiespectrales satelitales de
iteracción los cálculos son mayores que para manera eficiente, confiable y sin conoci-
la clasificación de máxima verosimilitud miento experto. Algunos trabajos han re-
(clasificación supervisada) (Richards, 1993). currido a la lógica difusa (Duda; Canty y
Klaus, 1999) que aunque obtiene mejores
La principal ventaja que ofrecen los méto- resultados que con los métodos C-medias
dos no supervisados es que la intervención y C-medias-Difuso plantea definir el número
humana se centra en la interpretación más de agrupamientos. Se destacan otros tra-
que en la consecución de los resultados. bajos en técnicas híbridas donde se com-
Lo que buscan estos métodos es definir los binan algoritmos de aprendizaje no-super-
grupos o categorías que intervendrán en lo visado (SOFM) y supervisado (LVQ2)
que sí podría llamarse “clasificación” (Solaiman, Mouchot y Maillard, 1994b)
(Chuvieco, 2000), también podría decirse que posteriormente se comparó con SOFM
que son exploratorios (Mather, 1989) ya y con el Perceptrón Multicapa usando Com-
que buscan reducir las clases espectrales ponentes Principales como entrada de da-
presentes en la imagen. tos pero sin ninguna finalidad específica
de tipos de coberturas (Sergi; Solaiman y
En el caso particular de la clasificación de Mouchot, 1995). También se comparó con
coberturas vegetales, muchos especialistas el clasificador Bayesiano de Máxima Simili-
han optado por trabajar bajo las técnicas tud del tipo supervisado y se concluyó que
supervisadas, ya que los algoritmos de cla- se llegaba a soluciones equivalentes
sificación no-supervisada se orientan a de- (Solaiman, Mouchot y Koffi, 1995a). Este
finir propiamente los grupos que interven- análisis se aplicó sobre 5 bandas espectrales
drán en la clasificación (Chuvieco, 2000). de imágenes LANDSAT 5, pero no analiza-
El ISODATA es el algoritmo más adecuado ron los Componentes Principales. Siguien-
para delimitar los grupos de valores homo- do con esta línea, se propuso la segmenta-

Rev.Fac.Nal.Agr.Medellín.Vol.58, No.1.p.2611-2634.2005. 2617


Arango G., Branch B., Botero F.

ción de imágenes LANDSAT 5 usando RNA se han aplicado las técnicas de clasifica-
y sistemas expertos, los resultados fueron ción supervisada para la solución de este
buenos en términos de preservación de tipo de problemas.
bordes de coberturas (Solaiman et al.,
1995b). El Instituto Geográfico Agustín Codazzi
genera algunas publicaciones indicando sus
En el contexto latinoamericano existen dos desarrollos en este campo. Sin embargo,
trabajos que ayudaron a motivar el actual: se ha relegado el uso de los métodos de
(Avendaño, 1999 y Todt, 1998). El prime- clasificación no supervisada a aquellos ca-
ro hace una comparación para el reconoci- sos en donde la diferencia espectral en los
miento de patrones en imágenes elementos contenidos en las imágenes es
multiespectrales entre modelos supervisa- muy marcada. En muchos casos no se usa
dos paramétricos (máxima similitud) y ni como proceso exploratorio para definir
neuronal (Retropropagación) y no supervi- las clases espectrales en que posiblemente
sados paramétricos (ISODATA) y neuronal se pueda segmentar una clasificación su-
(Kohonen et al., 1996 a). En este trabajo pervisada y esto se debe a la insatisfacción
se llega a resultados que resaltan las bon- del usuario del software por las respuestas
dades de los modelos neuronales en la cla- que arrojan los algoritmos disponibles, lo
sificación supervisada más no en la CNS que hace que se pierda gran parte del po-
debido a que en este último se presenta tencial de información que provee una
que el número de clases a clasificar está en imagen digital como la LANDSAT ETM+.
función del tamaño del mapa de la red. El
segundo hace una evaluación del desem- Lo mismo ha sucedido con las entidades
peño de clasificadores neuronales de for- encargadas del manejo de los recursos na-
ma similar al anterior pero en la CNS se turales como las Corporaciones Autóno-
usa como parámetro el Histograma mas. Éstas han desarrollado excelentes tra-
Tridimensional. Una de las conclusiones es bajos en fotografías aéreas pero la escala
que si las bandas utilizadas son debidamen- regional, que ofrecen las imágenes
te seleccionadas a través de un método satelitales, ha sido poco explorada y me-
estadístico el desempeño del clasificador nos aún con la clasificación no supervisa-
neuronal puede contribuir a una mejor ocu- da.
rrencia de clases.
Lo definido anteriormente implica diseñar
En el contexto nacional el desarrollo de la un modelo analítico que discrimine mejor
teledetección ha sido exclusivo de los ex- las coberturas vegetales, genere las imáge-
pertos en las áreas temáticas; es decir, geó- nes que tengan una mayor información es-
grafos, geólogos, ingenieros, agrónomos, pectral y reduzca los datos conservando la
entre otros. Éstos se han orientado a la mayor cantidad de información. Estos
generación de productos con base en los parámetros anteriores servirán para diseñar
algoritmos que ofrecen las plataformas de el accionar de la técnica de redes neuronales
software para teledetección, que sumada implementada, Mapas de Kohonen et al
la experiencia al uso de estas herramientas, (1996 a), como una técnica de inteligen-

2618 Rev.Fac.Nal.Agr.Medellín.Vol.58, No.1.p.2611-2634.2005.


Clasificación no supervisada de coberturas vegetales...

cia artificial aplicada a la clasificación de El funcionamiento de los sensores satelitales


imágenes de sensores remotos. Finalmen- se hace por exploración secuencial de la
te, se hace una validación del modelo, te- superficie terrestre adquiriendo la radiación
niendo en cuenta tanto las técnicas usadas de los objetos que estén consignados en
frecuentemente como la descrita en este un área que depende de la resolución es-
trabajo, contra una clasificación supervisa- pacial del sensor. Esta área constituye la
da producto de un trabajo de campo muy unidad mínima de información en la ima-
detallado. gen denominada píxel (picture element) y
la unión de estos cuadros es la que forma
CORRECCIÓN DE LA IMAGEN una imagen (Figura 2) donde los valores
DIGITAL SATELITAL numéricos definen el valor de radiancia que
se puede representar mediante tonos o ni-
Se pueden hacer diferentes tipos de correc- veles de gris de cada píxel.
ción sobre una imagen de sensor remoto
pero debe tenerse especial cuidado ya que El nivel de gris que toma cada píxel se de-
estos afectan los procesos posteriores que fine por un valor numérico que algunos
se desean realizar. Por esta razón, es im- autores definen como Nivel Digital (ND)
portante mostrar el grado de abstracción y (Chuvieco, 2000), que codifica
análisis que se hace antes de someterla a la digitalmente la radiancia detectada por el
clasificación. Se describe la estructura de sensor para un área del terreno y en una
la imagen y las posibles fuentes de error banda espectral. El ND es un valor numéri-
con el fin de aclarar sobre cuales se puede co, no visual, que puede traducirse a una
operar sin alterar de forma negativa los pro- intensidad visual o nivel de gris mediante
cesos siguientes. un convertidor digital-analógico (monitor).

Figura 2. Pixeles de una imagen digital ampliada y sus valores de radiancia.

Rev.Fac.Nal.Agr.Medellín.Vol.58, No.1.p.2611-2634.2005. 2619


Arango G., Branch B., Botero F.

A partir de lo anterior, la imagen digital neral, éstas correcciones modifican los ni-
puede esquematizarse como una matriz nu- veles digitales y no se harán con el fin de
mérica en tres dimensiones donde X y Y disminuir el tiempo de tratamiento y abor-
corresponden a las coordenadas geográfi- dar el trabajo con los valores originales.
cas, Z a la dimensión espectral (Figura 1) y
el origen se sitúa frecuentemente en la es- Ahora, considerando que la reflectividad es
quina superior izquierda. Esto último se la relación entre la energía reflejada y la
debe a la secuencia de adquisición de imá- incidente, tenemos que la primera se ob-
genes que es de Norte-Sur de acuerdo con tiene de los datos medidos por el sensor ya
la traza del satélite y el número de bandas que éste mide radiancia espectral que es
depende de la resolución espectral del consecuencia de la reflexión de la radia-
sensor satelital. ción electromagnética en las cubiertas, más
la influencia de la atmósfera. Para hacer un
Con base en este carácter matricial de la cálculo preciso de la reflectividad real de la
imagen numérica es que se aplican trans- cubierta se deben considerar muchos fac-
formaciones y cálculos sobre las imágenes tores (Chuvieco, 2000) y resolverlos resul-
tales como sintetizar varias bandas redu- ta muy laborioso y requiere datos sobre las
ciendo la información redundante a través condiciones de la atmósfera en el momen-
de componentes principales o discriminar to de toma de la imagen, los cuales no
grupos de ND homogéneos dentro de la suelen estar disponibles. Además, estos
matriz como se plantean posteriormente. efectos varían de una zona a otra dentro
de la imagen. Por lo tanto, las correccio-
Por otro lado, las imágenes de sensores nes atmosféricas se han abordado de va-
remotos presentan unas alteraciones rias formas:
radiométricas y geométricas que hacen que
éstas no coincidan con el tono, posición, · Asumir ciertas condiciones atmosféricas
forma y tamaño de los objetos que inclu- estándar que corresponde a una determi-
ye. En el caso de las imágenes satelitales nada composición de vapor de agua,
las deformaciones se pueden agrupar en anhídrido carbónico, oxígeno, ozono y
cuatro tipos (Mather, 1989): aerosoles, en función de temperatura y
humedad relativa del día de la toma.
· Distorsiones originadas por la plataforma. · Otro método es el de homogeneizar los
· Distorsiones provocadas por la rotación ND’s entre imágenes multitemporales de
terrestre. la misma zona.
· Distorsiones provocadas por el sensor. · Apoyarse en los datos de la propia escena
· Distorsiones provocadas por la atmósfe obteniendo a partir de las diferentes ban-
ra. das una estimación del efecto atmosféri-
co. Entre estos métodos se destaca el de
Algunos de estos problemas se solucionan corrección del histograma por valores mí-
en el centro de recepción de las imágenes nimos (Campbell, 1987) donde se asume
y otros se solucionan con correcciones que las áreas cubiertas con materiales de
radiométricas o geométricas. Pero en ge- fuerte absortividad (agua, zonas en som-

2620 Rev.Fac.Nal.Agr.Medellín.Vol.58, No.1.p.2611-2634.2005.


Clasificación no supervisada de coberturas vegetales...

bra) deberían presentar una radiancia es- espacial de 60 m y la pancromática de 15


pectral muy próxima a cero. Por lo tanto, m, contra 30 m que tienen las otras; por lo
una sencilla aproximación a la corrección tanto, la inclusión de estas dos bandas no
atmosférica consiste en restar a todos los se consideran en el alcance del presente
ND’s de cada banda el mínimo de esa mis- trabajo ya que involucraría un trabajo a ni-
ma banda, situando el origen del vel del subpíxel para convertirlas a la escala
histograma en cero. de las otras.

El último método del numeral anterior es Otro aspecto a considerar es el comporta-


el más sencillo y el que mejor se adapta a miento espectral de la vegetación. Éste
las características de las imágenes LANDSAT. debe entenderse desde el conocimiento de
En este caso el método de corrección at- la estructura interna de la hoja individual
mosférica se basa en las características de (Todt, 1998) que junto con los cloroplastos
la banda del infrarrojo cercano (banda 4 y la cantidad de agua presente varían la
del sensor LANDSAT ETM+) que se aplica reflectancia (R), absorción (A) y transmi-
sobre las bandas afectadas por el efecto sión (T) de energía incidente (I) provenien-
atmosférico como son las del visible (azul, te de los rayos solares. Las longitudes de
verde y rojo). onda del rojo (Rj) y azul (A) son absorbidas
para la fotosíntesis y las del verde (V) e
Una de las formas que permiten explotar infrarrojo cercano (IC) son reflejadas (Figu-
estas posibilidades es el operar sobre una ra 3).
banda del visible usando un ploteo de pun-
tos (scatter-plot) de referencia con la ban- Es posible observar (Figura 4) que el com-
da 4 y así obtener el valor a restar de cada portamiento espectral varía de acuerdo con
banda para corregir las bandas del visible la longitud de onda que registra la hoja al
ubicando el origen de los histogramas en ser iluminada por los rayos solares. En ge-
cero. neral las hojas poseen alta absorción en las
regiones del ultravioleta (0,01-0,39 ìm),
MÉTODOS PARA SELECCIÓN DE azul (0,43-0,5 ìm), rojo (0,6-0,76 ìm) e
infrarrojo medio (1,35-2,6 ìm). Aquí la
DATOS
mayor parte de la energía incidente es ab-
sorbida para efectos de la pigmentación y
La determinación de los mejores datos a la la respuesta espectral depende tanto de la
entrada de procesos de clasificación es un cantidad del pigmento como del tipo.
paso importante en el diseño de un pro-
blema particular, como el de la clasifica- En las regiones del verde (0,5-0,6 ìm) y el
ción de coberturas vegetales. infrarrojo cercano (0,76-1,35 ìm) se con-
centra aproximadamente el 90 % de la
En el caso específico de la vegetación se reflectancia. Aquí los pigmentos se tornan
hacen consideraciones basadas en las ca- altamente trasparentes a la radiación; por
racterísticas propias del sensor (NASA, lo tanto, de la energía que incide en la hoja
1998), pero de esto es importante recor- el 45-50 % es transmitida, el 45-50 % re-
dar que la banda 6 tiene una resolución flejada y el 5 % absorbida (Todt, 1998).

Rev.Fac.Nal.Agr.Medellín.Vol.58, No.1.p.2611-2634.2005. 2621


Arango G., Branch B., Botero F.

Figura 3. Efecto de las longitudes de onda sobre la vegetación. (Canada Centre for
Remote Sensing - CCRS, 2001).

Figura 4. Comportamiento espectral de una hoja en los vegetales.

Para la selección de bandas se ofrecen al- utiliza el concepto de Divergencia Trans-


gunos métodos tales como la Distancia de formada Promedio para definir las bandas
Battacharyya, Divergencia y distancia de óptimas. Ésta es una medida de la diferen-
Jeffries-Matusita pero éstos requieren de un cia entre dos señales de clases. Se calcula
muestreo que va asociado a una clasifica- con las medias de las clases y las matrices
ción supervisada que se sale del objetivo de covarianza; y se extiende a todas las cla-
principal de este trabajo. En este caso se ses aplicando una regla de decisión sobre

2622 Rev.Fac.Nal.Agr.Medellín.Vol.58, No.1.p.2611-2634.2005.


Clasificación no supervisada de coberturas vegetales...

todos los pares de clases de señales. Lo pendiente de las condiciones de observa-


que muestra es la separabilidad entre cla- ción. Parten de demostrar la relación entre
ses presentes en las bandas evaluando sus el parámetro a estimar y las variables con-
estadísticas. Esto permite evaluar que com- tenidas en la imagen. Tiene como ventaja
binaciones de bandas pueden discriminar que no requiere información de campo si-
mejor las clases presentes en ellas que uni- multánea a la adquisición, que sólo estará
do a las características del sensor y el obje- disponible cuando se haya planificado pre-
to de esta investigación, deben dar rele- viamente un experimento con ese objeti-
vancia a las combinaciones que contengan
vo. Entre estos se encuentran algunos de
las bandas 1, 2, 3, 4 y 5.
transformaciones multibanda como: índi-
ces de vegetación, componentes principa-
En las redes neuronales es especialmente
crítico hacer una buena selección de los les y Tasseled Cap, entre otros.
datos ya que un gran número de entradas
reduce la capacidad de generalización de También es evidente que no siempre una
la red y un número pequeño podría ser in- banda espectral contiene una única infor-
suficiente para el aprendizaje ya que el mación sobre una zona, de hecho los va-
número de bandas de entrada define la lores de los pixeles están altamente
complejidad de la red (Kavzoglu, 2002). correlacionados entre canales. Por lo tan-
to, una aproximación más eficiente es em-
Algunas variables son ponderables de modo plear una estrategia de reducción de datos
directo y corresponden a las adquiridas por antes de la clasificación ya que la parte más
el sensor, tales como reflectividad y tem- crítica en dicho proceso es que el tiempo
peratura, entre otras. También es posible de computación y análisis se incrementa
generar información de otras variables de exponencialmente con el número de ban-
modo indirecto en donde se asuma una das o canales.
relación teórica entre el parámetro a esti-
mar y lo que mide el sensor. A partir de Entre los métodos propuestos en la litera-
este concepto surgen los diferentes tipos tura el ACP ha sido ampliamente aceptado
de modelos: los inductivos o empíricos y
para el análisis de datos multivariados. Tra-
los deductivos o teóricos.
dicionalmente ha sido empleado para me-
joramiento de imágenes y reducción de
Los inductivos son los que establecen una
relación numérica entre el parámetro a es- canales pero efectivamente usados en es-
timar y los ND’s de la imagen, a partir de tudios multitemporales de detección de
observaciones in situ, tomadas en el mo- cambios (Piwowar y Ellsworth, 1995).
mento de adquirir ésta. Su inconveniente
viene dado por el carácter local de la apli- Según González y Woods (1992), el ACP
cación que no permite extrapolar estas fun- comprende un procedimiento matemático
ciones a otras zonas. que transforma un conjunto de variables
correlacionadas de respuesta en un con-
Los deductivos o teóricos tratan de esta- junto menor de variables no correlacionadas
blecer un modelo de validez general, inde- llamadas componentes principales.

Rev.Fac.Nal.Agr.Medellín.Vol.58, No.1.p.2611-2634.2005. 2623


Arango G., Branch B., Botero F.

Estos conceptos de base del ACP han teni- vectores alimentan al sistema en una fre-
do un impacto especial en el estudio de las cuencia y cada vez que un vector distinti-
imágenes de sensores remotos ya que la vo de entrada no es mapeado con un
adquisición de imágenes sobre bandas ad- identificador de una clase ya aprendida, el
yacentes del espectro hace suponer infor- sistema establece una nueva clase con un
mación redundante, puesto que un área identificador para esa clase y ajusta esos
observada tiende a mostrar un comporta- parámetros al mapa del vector distintivo
miento similar en regiones próximas del es- dentro de ese identificador. Esto se puede
pectro. Por esta razón una medida en una hacer en procesos tales como algoritmo
banda puede tener una fuerte correlación ISODATA, K-medias o Kohonen, entre otros.
con las deducidas de otra y así el ACP
tiene sentido porque convertiría un con- En el entrenamiento supervisado o no su-
junto de variables correlacionadas en uno pervisado el sistema determina uno o más
de variables no correlacionadas reducien- vectores prototipo, arquetipo, patrón, re-
do, no eliminando, el número de variables presentativo o central, entre otros, como
respuesta medida y por ende la modelo(s) idealizados para cada clase. Des-
dimensionalidad real. pués de entrenado, el sistema está listo para
operación pero se deben hacer algunas
Algunos autores sugieren que el ACP pruebas para verificar el entrenamiento. En
involucra transformación de características el modo operativo, cada vector de entrada
y obtiene un conjunto de rasgos transfor- es comparado con algunas medidas de se-
mados más que un subconjunto de carac- mejanza con un(os) vector(es) de ejemplo
terísticas originales (Mitra; Murthy y Pal, para cada clase y se toma una decisión de
2002). Lo que debe merecer un estudio acuerdo con la mayor similitud (o diferen-
posterior a la luz de la propuesta planteada cia) entre el vector de entrada y el(los)
por ellos. ejemplo(s).

Se recomienda la aplicación de este méto- Uno de los tipos de agrupación más fre-
do en casos donde: Todas las variables es- cuentemente usados y estudiados en la cla-
tén en las mismas unidades o unidades sificación no supervisada es el ISODATA,
comparables y que tengan varianzas con que será comparado con Mapas de Kohonen
tamaños muy semejantes. Éste es el caso en la solución del problema planteado en
de las imágenes satelitales correspondien- este trabajo.
tes a una misma escena.
Según Looney (1997) el Interactive Self-
CLASIFICACIÓN DIGITAL Organizing Data Analysis Technique
(Algorithm) es como el K-medias, excepto
En el método de clasificación no supervi- porque el primero incorpora algunas aproxi-
sado o modo autorganizado de clasifica- maciones heurísticas como definir el nú-
ción, un sistema desempeña ambos pro- mero de agrupaciones existentes. Una de
cesos de entrenamiento y operación sobre las dificultades de este método es que no
cualquier vector distintivo de entrada. Los es tan autorganizado ya que se deben defi-

2624 Rev.Fac.Nal.Agr.Medellín.Vol.58, No.1.p.2611-2634.2005.


Clasificación no supervisada de coberturas vegetales...

nir parámetros basados en la experiencia quier método de clasificación no supervi-


como número de agrupaciones deseadas, sado puede ser usado para encontrar agru-
número mínimo de vectores distintivos, paciones de datos de entrada e identificar
mezclador inicial (lumping threshold), des- vectores de datos desconocidos con una
viación estándar y número máximo de pa- de las agrupaciones. Por otro lado, si los
res de agrupaciones. datos son conocidos previamente, se pue-
de hacer de forma óptima la alineación de
La red Kohonen también es llamada Self- un número finito de clases en un vector de
Organizing Map – SOM, es una red que datos desconocido por medio del algorit-
corresponde a uno de los tantos modelos mo de aprendizaje supervisado LVQ, el cual
de Redes Neuronales Artificiales – RNA que no se desarrolla en este documento.
se han desarrollado desde el modelo de
McCulloch-Pitts en 1943 que fue el primer Aunque es posible obtener algunas clases
acercamiento para inventar un dispositivo de mapas sin tener en cuenta algunas pre-
neuronal sintético. cauciones, es importante poner atención a
algunos aspectos con el fin de que los
El SOM representa el resultado de un algo- mapas resultantes sean estables, bien orien-
ritmo de cuantificación de vector que ubi- tados y menos ambiguos (Kohonen, 1996),
ca un número de vectores de referencia o así: Forma del arreglo, Aprendizaje con un
códigos en un espacio de datos de entrada pequeño número de muestras de entrena-
altamente dimensionado para aproximar a miento disponibles, Mejoramiento de ca-
esos conjuntos de datos en una forma or- sos raros, Calidad de aprendizaje, Compo-
denada. Cuando las relaciones de orden nentes de vectores de entrada perdidos, Es-
local están definidas entre los vectores de calado de componentes y Representacio-
referencia, los valores relativos del último nes forzadas para un lugar buscado en el
dependen el uno del otro así como sus mapa. Los elementos anteriores se consi-
valores de vecindad deberían atarse a lo deraron al momento de adaptar los
largo de una “superficie elástica”. Por me- algoritmos de clasificación para el caso es-
dio del SOM esta superficie llega a ser de- tudio.
finida como una clase de regresión no li-
neal de los vectores de referencia a través
de los puntos de los datos.
CASO ESTUDIO
Una aplicación típica de los SOM está en
el análisis de datos vectoriales experimen- La región sobre la cual se desea hacer un
tales complejos donde los elementos de los análisis de los algoritmos anteriormente
datos frecuentemente están relacionados los descritos corresponde a la zona urbana y
unos a los otros en una forma altamente alrededores del Municipio de Sonsón del
no lineal (Kohonen, 1996). Departamento de Antioquia – Colombia
(Figura 5). Esta es un segmento de una
Según Kohonen (1996), el proceso en el escena LANDSAT 7 ETM+ (composición
cual está formado el SOM es un proceso bandas 453) con una extensión de 2.25
de aprendizaje no supervisado. Como cual- Km2 (500*500 pixeles).

Rev.Fac.Nal.Agr.Medellín.Vol.58, No.1.p.2611-2634.2005. 2625


Arango G., Branch B., Botero F.

Figura 5. Localización área de estudio (Sonsón, Antioquia-Colombia).

La región sobre la cual se desea hacer un Siguiendo con la metodología descrita an-
análisis de los algoritmos anteriormente des- teriormente se le aplicó a la escena correc-
critos corresponde a la zona urbana y alre- ción atmosférica, selección de datos, clasi-
dedores del Municipio de Sonsón del De- ficación digital y análisis.
partamento de Antioquia – Colombia (Fi-
gura 5). Esta es un segmento de una esce- La reducción del ruido atmosférico busca
na LANDSAT 7 ETM+ (composición ban- acercar los valores de Niveles Digitales a
das 453) con una extensión de 2.25 km2 Reflectividades. Este proceso hace una gran
(500*500 pixeles). abstracción sobre los elementos que afec-
tan los valores sensados debido a la difi-
cultad que representa tener control sobre
Se escogió esta zona de una clasificación
todas esas variables. Es una propuesta acep-
supervisada mayor por tener ésta un con-
tada en la literatura ya que utiliza una ca-
trol de campo más exhaustivo (Figura 6).
racterística importante del sensor. En estas
El resultado obtenido por Uribe (2002) in- regiones tropicales y montañosas en la
dica una representación muy ajustada a lo mayoría de los casos es posible encontrar
que efectivamente se tendría en el terreno, zonas de cero reflectividad como las som-
lo que permitiría una muestra adecuada en bras de nubes o montañas y éstas se pre-
contenido de píxeles y clases. El método sentan claramente en banda del infrarrojo
usado por él fue máxima verosimilitud y cercano. Si se compara esta banda, a tra-
define 14 clases de coberturas presentes en vés de un ploteo de puntos, con cada una
la zona de estudio con una frecuencia en de las bandas del visible (azul, verde y rojo)
los rangos de datos muy fluctuante. Se es posible trasladar el origen de los valores
puede observar un alto predominio de los del histograma y corregir los datos de es-
tipos de bosques y cultivos. tas bandas.

2626 Rev.Fac.Nal.Agr.Medellín.Vol.58, No.1.p.2611-2634.2005.


Clasificación no supervisada de coberturas vegetales...

Figura 6. Clasificación supervisada de la zona de prueba (Uribe, 2002).

En la escogencia de las bandas se tuvo en los componentes principales 1 y 2 de cada


cuenta que las del infrarrojo térmico y combinación ya que estos contienen más
pancromático presentan escalas diferentes del 95 % de la información total, para un
en los datos lo que requeriría un proceso total de 16 imágenes.
adicional de tratamiento de los datos para
poderlos usar en este contexto; por lo tan- Se propuso el método para clasificación no
to, no se tienen en cuenta. La banda del supervisada de Mapas de Kohonen o Self
infrarrojo medio – lejano se orienta a la Organizing Maps – SOM y se comparó con
discriminación de formaciones rocosas y ISODATA.
alteraciones hidrotermales, por lo que tam-
poco se tuvo en cuenta para la selección. - Interactive Self-Organizing Data Analysis
Las bandas 2, 3, 4 y 5 fueron diseñadas Technique (Algorithm) – ISODATA es uno
para el monitoreo de coberturas vegetales de los algoritmos de clasificación no su-
y la clasificación supervisada presenta 8 pervisada más utilizados y mencionados en
clases de éstas. Pero teniendo en cuenta la literatura sobre análisis de imágenes y
que la desviación estándar, la varianza y el por eso se compara con el SOM que no
rango son muy bajos en las bandas 1 y 2, lleva gran trayectoria en este campo aún.
entonces se aplica el concepto de la Diver- También por esta razón, es posible obtener
gencia Transformada Promedio para dife- muchos software comerciales con esta apli-
renciar 14 clases tomando sólo aquellas cación ya implementada por lo cual se uso
combinaciones que contengan las bandas el Image Analyst® para obtener los resulta-
3, 4 y 5 (rojo, infrarrojo cercano y medio), dos.
así: 123456, 12345, 2345, 345, 23456,
13456, 1345 y 3456. - La implementación del SOM se desarro-
lló en JAVA sobre la estructura del
Ahora, se aplica el concepto de ACP sobre HidroSIG® que es un software que integra
esas combinaciones de bandas y se toman aplicaciones de Sistemas de Información

Rev.Fac.Nal.Agr.Medellín.Vol.58, No.1.p.2611-2634.2005. 2627


Arango G., Branch B., Botero F.

Geográficos – SIG y sensores remotos. La No varía en las pruebas.


estructura de este algoritmo se hizo con § El número mínimo de pixeles: 25. Co-
base en algunos algoritmos disponibles en rresponde al número mínimo de pixeles que
la literatura entre los que está el puede contener una agrupación. Se utili-
SOM_PACK® revisado por Kohonen (1996). zarán valores de 25 y 50 para las pruebas
con el fin de mejorar el proceso de agrupa-
- Ambos métodos se aplicaron sobre los ción.
resultados del proceso de selección de da- § El máximo número de pares de agrupa-
tos previo (Componentes Principales) y sus ciones: 10. Corresponde al máximo núme-
resultados fueron comparados contra la ro que puede ser combinado en una
clasificación supervisada a través del soft- iteracción. No varía en las pruebas.
ware ArcView®, donde se pueden obtener § Método de agrupación: Máxima proba-
las matrices de confusión entre dos imáge- bilidad con un umbral de probabilidad del
nes. 95 %. No varía en las pruebas.
§ Máximo número de iteracciones: 1000.
Los parámetros de los algoritmos de clasi- Corresponde al número de veces que se
ficación ISODATA y SOM aplicados a las repite el algoritmo de entrenamiento. Va-
imágenes fueron: ría entre 100 y 1000

§ ISODATA: Siempre se presentan áreas no típicas que


§ Vectores de entrada: las imágenes. resultan con firmas espectrales con gran-
§ Número de agrupaciones: 12, no varía. des desviaciones estándar. Es muy difícil
§ Número de agrupaciones: 15, referente reducir el número total de clases porque la
a la clasificación supervisada. Estas agru- mayoría de las firmas se encuentran
paciones no se excederán a menos que las estadísticamente en el centro de la distri-
agrupaciones contengan menos que el bución con sesgos en los extremos
mínimo número de pixeles o si muchas (“outliers”) y esto ocasiona un incremento
agrupaciones son agrupadas. de las clases que afecta los valores de dis-
§ Máxima desviación estándar: 3. Éste es tribución normal de los datos. Este asunto
un umbral que define la posibilidad de di- se obviará en este análisis.
visión así, si la desviación estándar de la
banda es superior a este valor la agrupa- § SOM: Para esta etapa se construyó un
ción es candidata para dividirse. No varía algoritmo en JAVA incluido en el Hidrosig®
en las pruebas. (Hernández, 2002), bajo los siguientes
§ Mínima distancia para combinar conglo- parámetros:
merados: 20. Corresponde a la mínima dis- § Un arreglo rectangular de 5 *3 que per-
tancia para combinar pares. Si la distancia mite una salida de máximo 15 clases. El
entre las medias de las agrupaciones es algoritmo permite otros arreglos.
menor que este valor entonces se agrupan. § Para el aprendizaje se define un número
Además, se selecciona la Distancia aleatorio de datos con un máximo de 1000
Euclidiana basada en el Teorema de iteracciones ya que se puede tener una con-
Pitágoras aplicado a la distancia entre pixeles. vergencia apropiada a este nivel. Sin em-

2628 Rev.Fac.Nal.Agr.Medellín.Vol.58, No.1.p.2611-2634.2005.


Clasificación no supervisada de coberturas vegetales...

bargo, el algoritmo permite hacerlo con un Una vez elaboradas las dos clasificaciones
número mayor. se procede a la evaluación a través del
§ No se tiene un arreglo para el mejora- método de Matriz de Confusión también
miento de casos raros por la supervisión denominada matriz de error o tabla de con-
que éste requiere. tingencia. Éste es un arreglo de números
§ La calidad del aprendizaje está dada por
que expresa el número de unidades de
las funciones de vecindad tomadas como
Gaussiana y Burbuja aunque no se define pixeles asignados a una categoría particu-
un índice de desempeño ya que los mapas lar con respecto a otra de prueba. En las
a utilizar son muy pequeños. columnas se encuentran los datos verifica-
§ Como se definió una imagen de prueba dos en el campo y sobre los que se tiene
sin errores no se aplica un componente para certeza del tipo de cubierta que represen-
vectores de entrada perdidos. tan, que en este caso sería la clasificación
§ No se utiliza un reescalamiento de los supervisada (Uribe, 2002). Las filas contie-
datos ya que los datos están en un rango nen los tipos de cubiertas definidos como
discreto de 0 a 255 y no se considera ne- resultado de una prueba de clasificación.
cesario.
§ Para las pruebas se consideró además:
La precisión de una clasificación se obtie-
§ Vectores de entrada: corresponde a las
mismas imágenes (bandas) utilizadas en el ne al calcular el número total de tipos de
método anterior de clasificación cubierta (suma de las celdas de la diagonal
§ Funciones de vecindad: se harán pruebas de la matriz de confusión) dividido por el
con ambas técnicas Gaussiana y Burbuja. total de ejemplos de prueba (número total
§ Tipo de malla: Rectangular. En esta in- de elementos en las celdas de la matriz de
vestigación se prueban mapas de salida con confusión) (Figura 7). A través de ésta se
arreglos 5 *3 (Filas *Columnas) para una puede evaluar el porcentaje de precisión
clasificación con máximo 15 clases. de una clase con respecto a una determi-
§ Proceso de entrenamiento: puede ser hasta nada prueba. La precisión total en la clasi-
100.000 iteracciones, pero se busca una ficación se define por la proporción de la
convergencia apropiada con 1.000 y se
suma de la diagonal principal contra la
probará también con 100 para evaluar los
cambios. obtenida por el clasificador.

Figura 7. Matriz de confusión para 120 elementos en 6 tipos de cubiertas.

Rev.Fac.Nal.Agr.Medellín.Vol.58, No.1.p.2611-2634.2005. 2629


Arango G., Branch B., Botero F.

Para el análisis de los datos se tomaron las ción supervisada con base en las imágenes
matrices que mejor discriminación presen- que representan el caso estudio. Además,
taron, se hizo una reasignación de las cla- el método de comparación ISODATA tam-
ses y se generaron las matrices de confu- poco converge a una solución satisfacto-
sión respectivas. ria.

CONCLUSIONES Lo anterior lleva a dos tipos de conclusio-


nes:
El análisis de resultados considera sólo las
clases vegetales de la clasificación supervi- - El método de reducción de datos
sada (Figura 6) para realizar 32 pruebas en implementado en este trabajo introduce in-
cada método. Sin embargo, ni en el méto- formación que distorsiona los valores rea-
do de ISODATA ni en el SOM es posible les de la imagen y por lo tanto los méto-
diferenciar alguna de las coberturas vege- dos de clasificación no operan adecuada-
tales presentes en la clasificación supervi- mente. Esto también podría sustentarse
sada. sobre los resultados de algunas investiga-
ciones que indican que el ACP si altera la
Recordando los logros y resultados que información evaluada (Mitra; Murthy y Pal,
perseguía este trabajo se pueden describir 2002).
así:
- El principio sobre el que se fundamentan
· La diferenciación espectral de coberturas los métodos de clasificación no supervisa-
vegetales se fundamentó en principios es- da se desvirtúa a la luz de que la interven-
tadísticos ampliamente usados en la litera- ción humana es necesaria para este tipo de
tura y lograr así una reducción de datos procesos o que al menos se debe integrar
orientados a la clasificación de coberturas información de otras fuentes que permitan
vegetales. tomar decisiones al algoritmo sobre la po-
sibilidad de que exista una cobertura en un
· El método propuesto de clasificación determinado sitio, según las condiciones
(SOM), al igual que el de comparación de relieve, humedad relativa, frecuencia de
(ISODATA) y la técnica de validación (Ma- lluvias, entre otras.
triz de confusión) fueron definidos de acuer-
do con parámetros que contempla la lite- También es claro que el método SOM al
ratura en análisis de datos de este tipo y igual que el ISODATA, requiere que se le
similares. Estos aspectos han sido proba- definan un número de clases aproximado
dos en muchos problemas de análisis de a obtener, lo cual introduce un parámetro
datos de manera satisfactoria. que es propio de la clasificación supervisa-
da. Aunque la teoría dice que un número
· Finalmente, en la validación del método máximo de clases a definir en una cobertu-
los resultados permiten concluir que el ra es de aproximadamente 15 y podría pen-
método propuesto no converge satisfacto- sarse en dejar fijo el parámetro. Esto haría
riamente a las coberturas de la clasifica- que se clasifique con base en ese valor

2630 Rev.Fac.Nal.Agr.Medellín.Vol.58, No.1.p.2611-2634.2005.


Clasificación no supervisada de coberturas vegetales...

máximo pero cuando se presente en una quema de SOM 3D el cual ya se menciona


zona donde hayan menos de 15 cobertu- en la literatura aunque con pocas aplica-
ras es posible que se obligue al sistema a ciones y poca literatura.
generar más coberturas de las requeridas.
· Es recomendable elaborar sistemas
TRABAJO FUTURO híbridos entre técnicas no supervisadas, sis-
temas expertos y reglas difusas que eva-
Las razones que explican la condición por lúan la viabilidad de que una cobertura se
la que no se alcanza el objetivo general aloje en una posición determinada tenien-
puede deberse a varias aspectos que defi- do en cuenta otras variables ambientales y
nen el trabajo a seguir: la proximidad con ellas. Esto sería un pro-
ceso complejo que requeriría de mucha más
· El proceso de clasificación no se realizó información pero que introduce aquellos
sobre valores de reflectividades reales sino elementos que un experto considera cuan-
sobre una simulación con imágenes corre- do elige clasificar un tipo de cobertura en
gidas atmosféricamente. Si es posible con- un sitio determinado.
seguir información de campo, simultáneo
al momento de la toma calcular los valores · No era el objetivo de este trabajo llegar a
de reflectividades y operar sobre estos da- etiquetar las coberturas, ya que esto impli-
tos. Si esto no es posible, como ocurre en ca un análisis más detallado de las respues-
la mayoría del territorio colombiano, se tas espectrales en el campo de las cobertu-
sugiere abordar el problema desde las imá- ras vegetales, tema que se debe explorar
genes de laboratorio donde se pueden con- porque en esta región tropical se tiene muy
trolar las variables entre el sensor y el ele- poca información al respecto. En esta in-
mento sensado, como es el caso de la formación también podría estar la razón
microscopia asistida por computador. por la cual no fue posible lograr una con-
vergencia apropiada del algoritmo. Se plan-
· La abstracción de información que se hace tearon en este trabajo, todas las variables
a través del ACP no es la apropiada para que intervienen en la clasificación apropia-
este tipo de datos ya que los datos de en- da de una cobertura vegetal y que éstas
trenamiento pueden ser insuficientes para afectan la firma o respuesta espectral, pero
lograr una buena convergencia posterior. un análisis de ellas a través de programas
Se sugiere evaluar otros métodos de reduc- de computacionales que relacionen un ban-
ción de datos (Mitra; Murthy y Pal, 2002) co de datos de las diferentes y posibles fir-
o modificar el algoritmo de forma que, mas espectrales multitemporales podrían
según el volumen de datos a evaluar, se permitir analizar estos patrones y tomar la
introduzca un patrón de parada antes de decisión de clasificar en una u otra clase,
que la red se sobre entrene. esto puede ser una ampliación del punto
anterior.
· Si la selección de bandas se reduce a tres,
como ocurrió en este caso con las bandas · Explorar casos puntuales de aplicación de
3-4-5, es posible pensar en un espacio los SOM como para el caso de condicio-
tridimensional para lo que operaría un es- nes anómalas de la vegetación tal como

Rev.Fac.Nal.Agr.Medellín.Vol.58, No.1.p.2611-2634.2005. 2631


Arango G., Branch B., Botero F.

enfermedades, contenidos de humedad The Netherlands). Proceedings 2nd


mayores que alteran la respuesta espectral International Symposium on
o presencia de otras especies vegetales que Operationalization of Remote Sensing,
alteran la respuesta espectral por proximi- 1999. p. 1256-1258.
dad, entre otras.
GONZÁLEZ, R. C. and WOODS, R. E.
BIBLIOGRAFÍA Digital image processing. Massachusetts,
EUA: Addison-Wesley, 1992. 599 p.
AVENDAÑO, M. Análisis comparativo en-
tre algoritmos para el reconocimiento de HERNÁNDEZ N., O. Herramienta para la
patrones en imágenes multiespectrales clasificación de imágenes digitales de
(MODELOS paramétricos y neuronales). sensores remotos. Medellín, 2003. 73 p.
Ensenada, Baja California, México, 1999. Tesis (Ingeniero de Sistemas e Informática)
111 p. Tesis (Master of Science). Centro Universidad Nacional de Colombia. Facul-
de Investigación Científica y Educación tad de Minas.
Superior de Ensenada. Departamento de
Ciencias de la Computación. KAVZOGLU, T. and MATHER, P. M. The
role of feature selection in artificial neural
CAMPBELL, J. B. Introduction to remote network applications. En: International
sensing, New York: The Guilford Press, Journal of Remote Sensing. Vol. 23
1987. 670 p. (2001); p. 2919-2937

CANADA CENTRE FOR REMOTE SENSING. KOHONEN, T. et al Som_pak: the self-


News and announcements. Disponible en organizing map program package. Espoo,
Internet: www.ccrs.nrcan.gc.ca (consulta Finland: Helsinki University of Technology,
en Noviembre, 2001). Laboratory of Computer and Information
Science, 1996. s.p. (Technical Report A
CHUVIECO, Emilio. Fundamentos de 31).
teledetección espacial. 3ed. España: Rialp,
2000. 568 p. LOONEY, C. G. Pattern recognition using
neural networks: theory and algorithms for
DUDA R. O. and HART, P. Pattern engineers and scientists. Oxford University
classification and scene analysis. New York: Press, 1997. ISBN 0-19-507920-5
John Wiley and Sons, 1973. 189 p.
MATHER, P. M. Computer processing of
DUDA, T.; CANTY, M. J. and KLAUS, D. remotely sensed images. En: Journal of
Unsupervised land-use classification of Geography in Higher Education. Vol. 13,
multispectral satellite images: a comparison No. 1 (1989); p. 81-83.
of conventional and fuzzy-logic based
clustering algorithms. En: INTERNATIONAL MITRA, P., MURTHY, C. A. and PAL, S. K.
SYMPOSIUM ON OPERATIONALIZATION Unsupervised feature selection using feature
OF REMOTE SENSING (1999: Enschede, similarity. En: IEEE Transaction on Pattern

2632 Rev.Fac.Nal.Agr.Medellín.Vol.58, No.1.p.2611-2634.2005.


Clasificación no supervisada de coberturas vegetales...

Analysis and Machine Intelligence, Vol. 24, cial: uma abordagem conexionista.
Nº 3. (2002); p. 301-312. Embrapa: Empresa Brasileira de Pesquisa
Agropecuária –Instituto Nacional de Pes-
NATIONAL AERONAUTICS AND SPACE quisas Espaciais, 2003.
ADMINISTRATION. Landsat 7 science data
users handbook: Greenbelt, Maryland, SERGI, R.;; SOLAIMAN, B. and MOUCHOT,
NASA Goddard Space Flight Center, M. C. LANDSAT - TM Image classification
electronic version. Disponible en Internet: using principal components analysis and
http://ltpwww.gsfc.nasa.gov/IAS/ neural networks. En: INTERNATIONAL
GEOSCIENCE AND REMOTE SENSING
handbook/handbook_toc.html . (Consulta-
SYMPOSIUM (1995: Florence, Italy).
da Noviembre 12, 1998).
Quantitative Remote Sensing for Science
and Applications. p.1927-1929.
NISSINEN, A. S., HYÖTYNIEMI, H. and
KOIVO, H. Classification of radiation spectra SOLAIMAN, B., and MOUCHOT, M. C. A
using map of linear classifiers. En: comparative study of conventional and
INTERNATIONAL CONFERENCE ON neural network classification of
COMPUTATIONAL INTELLIGENCE FOR multispectral data. Ecole Nationale
MODELLING CONTROL AND Superieure des Télécommunications de
AUTOMATION (1999: Vienna). Proceedings Bretagne, France.1994a. 5 p.
of the International Conference on
Computational Intelligence for Modelling ________; ________ and KOFFI, R. K.
Control and Automation. p.128-133. Multispectral LANDSAT Images
Segmentation using Neural Networks and
PIWOWAR, J. M. and ELLSWORTH, F. L. Multi-Experts Approach. Ecole Nationale
Hypertemporal analysis of remotely sensed Superieure des Télécommunications de
sea-ice data for climate change studies. En: Bretagne - France. 1995a. 5 p.
Progress in Physical Geography. Vol. 19,
No. 2 (1995); p. 216-242. ________; ________ and MAILLARD, E.
A Hybrid algorithm (HLVQ) combining
unsupervised and supervised learning
REBOLLO, M. y ORTI, F. Pattern recognition
approaches. Ecole Nationale Superieure des
techniques: remote sensing applications.
Télécommunications de Bretagne - France.
Madrid: Centro de Investigación UAM – 1994b. 4 p.
IBM, 1980. p. 136-187.
SOLAIMAN, B. et al. A comparative study
RUPPERT, G. S. et al. A hybrid classifier on multispectral agricultural images
for remote sensing applications En: classification using Bayesian and neural
International Journal of Neural Systems, Vol. networks approaches. Ecole Nationale
8, No. 1 (Feb., 1997); p. 63-68. Superieure des Télécommunications de
Bretagne – France and Canada Center for
SANTOS, M. A. Clasificaçâo de imagens Remote Sensing, Application Division –
LANDSATTM a través da inteligência artifi Canada. 1995 b.

Rev.Fac.Nal.Agr.Medellín.Vol.58, No.1.p.2611-2634.2005. 2633


Arango G., Branch B., Botero F.

TODT, V. Avaliaçao do desempenho de Tesis (Magister en Bosques y Conservación


classificadores neurais para aplicaçoes em Ambiental). Universidad Nacional de Co-
sensoriamento remoto. Porto Alegre, 1998.
lombia. Facultad Ciencias Agropecuarias.
413 p. Tesis (Sensoriamento remoto).
Universidade Federal do Rio Grande Do Sul.
Centro Estadual de Pesquisas em VELICKOV, S. et al. Application of data
Sensoriamento Remoto e Meteorologia. mining techniques for remote sensing
image analysis. En: INTERNATIONAL
URIBE, L. F. Análisis multitemporal de las
coberturas vegetales en un ecosistema de CONFERENCE ON HYDROINFORMATICS
alta montaña en el oriente de Antioquia en (2000: Iowa). Proceedings 4 th International
los años 1992-2000. Medellín, 2005. 112 p. Conference on Hydroinformatics. 1 Cd-rom.

2634 Rev.Fac.Nal.Agr.Medellín.Vol.58, No.1.p.2611-2634.2005.

También podría gustarte