Está en la página 1de 24

CLASIFICACIÓN NO SUPERVISADA DE COBERTURAS

VEGETALES SOBRE IMÁGENES DIGITALES DE SENSORES


REMOTOS: “LANDSAT – ETM+
ETM+”

Mauricio Arango Gutiérrez1; John William Branch Bedoya2 y


Verónica Botero Fernández3
__________________________________________________________________________
__________________________________________________________________________

RESUMEN

La diversidad de especies vegetales presentes en Colombia y la falta de inventario sobre


ellas hace pensar en un proceso que facilite la labor de los investigadores en estas
disciplinas. Los sensores remotos satelitales como el LANDSAT ETM+ y las técnicas de
inteligencia artificial no supervisadas, como los Self-Organizing Maps - SOM, podrían
proveer una alternativa viable para avanzar en la obtención rápida de información que
corresponda a zonas con diferentes coberturas vegetales presentes en la geografía
nacional. La zona propuesta para el caso en estudio fue clasificada de forma
supervisada por el método de máxima similitud en otro trabajo de investigación en
ciencias forestales y se discriminaron ocho tipos de coberturas vegetales. Esta
información sirvió como patrón de medida para evaluar el desempeño de los
clasificadores no supervisados ISODATA y SOM. Sin embargo, la información que
proveen las imágenes debió ser depurada previamente de acuerdo a los criterios de
uso y calidad de los datos de manera que se utilizara la información adecuada para
estos métodos no supervisados. Para esto se recurrió a varios conceptos como las
estadísticas de las imágenes, el comportamiento espectral de las comunidades
vegetales, las características del sensor y la divergencia promedio que permitieron
definir las mejores bandas y sus combinaciones. Sobre éstas se aplicó el concepto de

1
Instructor Asociado. Universidad Nacional de Colombia, Sede Medellín. Facultad de Minas. A. A. 1027.
Medellín, Colombia. <marangog@unalmed.edu.co>
2
Profesor Asistente. Universidad Nacional de Colombia, Sede Medellín. Facultad de Minas. A. A. 1027.
Medellín, Colombia. <jwbranch@unalmed.edu.co>
3
Profesora Asistente. Universidad Nacional de Colombia, Sede Medellín. Facultad de Minas. A. A. 1027.
Medellín, Colombia. <vbotero@unalmed.edu.co>

Recibido: Mayo 10 de 2004; aceptado: Abril 26 de 2005.


Arango G., Branch B., Botero F.

análisis de componentes principales que permitió reducir el número de datos


conservando un gran porcentaje de la información. Sobre estos datos depurados se
aplicaron las técnicas no supervisadas modificando algunos parámetros que pudieran
mostrar una mejor convergencia de los métodos. Los resultados obtenidos se
compararon con la clasificación supervisada a través de matrices de confusión y se
concluye que no hay una buena convergencia de los métodos de clasificación no
supervisada con este proceso para el caso de las coberturas vegetales.

Palabras claves: SOM, ISODATA, LANDSAT, análisis de componentes principales,


clasificación no supervisada, coberturas vegetales.
__________________________________________________________________________

ABSTRACT

NONSUPERVISED CLASSIFICATION OF VEGETABLE COVERS


ON DIGITAL IMAGES OF REMOTE SENSORS: "LANDSAT – ETM
ETM+
+"

The plant species diversity in Colombia and the lack of inventories of them
suggests the need for a process that facilitates the work of investigators in these
disciplines. Remote satellite sensors such as LANDSAT ETM+ and non-supervised
artificial intelligence techniques, such as self-organizing maps - SOM, could
provide viable alternatives for advancing in the rapid obtaining of information
related to zones with different vegetative covers in the national geography. The
zone proposed for the study case was classified in a supervised form by the
method of maximum likelihood by another investigation in forest sciences and
eight types of vegetative covers were discriminated. This information served as a
base line to evaluate the performance of the non-supervised sort keys ISODATA
and SOM. However, the information that the images provided had to first be
purified according to the criteria of use and data quality, so that adequate
information for these non-supervised methods were used. For this, several
concepts were used; such as, image statistics, spectral behavior of the vegetative
communities, sensor characteristics and the average divergence that allowed to
define the best bands and their combinations. Principal component analysis was
applied to these to reduce to the number of data while conserving a large
percentage of the information. The non-supervised techniques were applied to
these purified data, modifying some parameters that could yield a better
convergence of the methods. The results obtained were compared with the
supervised classification via confusion matrices and it was concluded that there
was not a good convergence of non-supervised classification methods with this
process for the case of vegetative covers.

words: SOM, ISODATA, LANDSAT, principal component analysis, non-


Key words
supervised classification, vegetative covers.

2612 Rev.Fac.Nal.Agr.Medellín.Vol.58,No.1. p.2611-2634.2005


Clasificación no supervisada de coberturas vegetales...

INTRODUCCIÓN al contenido de la información a evaluar.


● Proponer un método de segmen-
La clasificación es una forma de aprendi- tación no supervisada para este tipo de
zaje, un proceso que acumula y concentra imágenes digitales.
experiencias dentro de modificaciones
internas de un sistema; no razona para ● Validar el método propuesto para
deducir un resultado o tomar decisiones. coberturas vegetales sobre dichas
Por lo tanto, la clasificación se limita a imágenes de sensores remotos.
agrupar conjuntos de objetos en clases a
través del uso de técnicas de inteligencia Se busca categorizar segmentos de Imá-
artificial o estadísticas, principalmente en genes Digitales Multiespectrales Satelitales
aquella del tipo digital. – IDMS del tipo LANDSAT ETM+ de ma-
nera eficiente, confiable y sin conocimien-
Ésta es posible hacerla de dos maneras, to experto en ella, tomando como punto
con orientación de un experto en el tema inicial un caso estudio con ciertos tipos de
a clasificar o sin esa orientación. La pri- coberturas.
mera es un proceso más del recono-
cimiento y la segunda aprovecha las El desarrollo de estos métodos permite
características de la imagen para definir potenciar la investigación hacia nuevas
las agrupaciones con valores similares. técnicas computacionales que sólo hasta
Además, ésta puede variar de un tema a hace algunos años se vienen desarro-
otro y es allí donde se deben definir llando en el país en otras áreas pero que
algunos criterios que permitan generalizar tienen actualmente un gran interés para el
el uso de este proceso. Todo esto plantea reconocimiento de patrones en IDMS.
la necesidad de investigar sobre el diseño
de un proceso de segmentación no- El tener un modelo de clasificación no
supervisada en imágenes digitales que supervisada eficaz, permite a las entidades
exploten todas las posibilidades de relacionadas con los recursos naturales,
tratamiento dentro de un tema particular- lograr un mejor planeamiento del recurso
mente complejo como es el caso de la humano y técnico para la verificación en
definición de coberturas vegetales en campo de la clasificación que se obtenga
regiones con una alta diversidad como la de una zona específica. Lo que redundará
colombiana. en una mayor eficiencia en el momento de
determinar los usos del suelo, en función
Para orientar esta investigación se esco- de la vegetación y a gran escala en el terri-
gieron las imágenes digitales del sensor torio nacional. Además, la aplicación tem-
remoto satelital LANDSAT ETM+, buscan- poral de este modelo permitiría conocer
do responder a varios interrogantes como: fácilmente como evolucionan las cober-
turas vegetales ante eventos climáticos o
● Determinar el proceso de combinación acciones del hombre. Esto permite una
de las diferentes imágenes que contiene adecuada administración de los recursos
una escena LANDSAT ETM+, para obtener como también el inventario de la oferta de
la mejor diferenciación espectral respecto oxígeno que proviene de las coberturas de

Rev.Fac.Nal.Agr.Medellín.Vol.58,No.1. p.2611-2634.2005 2613


Arango G., Branch B., Botero F.

bosques, tema de gran importancia mun- diferenciación espectral, garantice un


dial. La organización de este documento en proceso de segmentación confiable.
la sección dos contextualiza el problema
dentro de las diferentes disciplinas y En la sección cinco se describen dos
técnicas. métodos de clasificación no supervisada.
Uno de ellos es una técnica ampliamente
La sección tres trata sobre las correcciones conocida y el otro no ha sido tan estu-
que se hace a las imágenes digitales. Allí se diado en estos casos. Este último se
revisa que los segmentos a probar no ne- fundamenta en tres parámetros: variables
cesiten ser sometidos a algún tipo de que intervienen en el análisis, criterio para
corrección que altere los Niveles Digitales - medir la similitud o distancia entre casos y
ND originales de la imagen. Como se tra- criterio para agrupar los casos similares. La
bajará en segmentación no-supervisada no teoría define algunos métodos con base
será necesario hacer realce o mejoras de la en estos parámetros, los cuales se han
imagen para efectos de visualización. Pero orientado al uso de redes neuronales.
si se deberá hacer una aproximación en la Éstos no han sido probados con este tipo
conversión de ND a reflectividades para de imágenes y deberán ser definidos
cada banda. según los resultados arrojados por las
imágenes generadas en el proceso de
La sección cuatro define dos criterios de diferenciación espectral desarrollado en
selección de información que será el etapas anteriores. Este último aspecto
insumo para la fase siguiente. Una parte hace al modelo diferente de otros ya que
se refiere a la información que la literatura las variables involucradas provienen de
recomienda para combinar bandas orien- múltiples imágenes.
tadas a la clasificación de coberturas
vegetales y la otra se refiere a la reducción Finalmente, la sección seis cierra este
de los datos sin pérdida de información. estudio a través de la validación de la
Este concepto cobra mucha importancia hipótesis propuesta donde se aplicarán los
en la clasificación digital, pero en especial algoritmos de clasificación existentes
en el método de inteligencia artificial ya sobre las imágenes escogidas y sus re-
que éste recomienda una entrada de sultados se compararán con una clasifica-
datos pequeña para evitar redundancias y ción supervisada.
procesos de análisis lentos.
En la sección siete se analizan los
La segunda parte de esta sección se refiere resultados, se concluye y se define el
al Análisis de Componentes Principales que trabajo futuro.
resume el conjunto de las bandas espec-
trales en un conjunto más pequeño sin Antes de abordar esta lectura es conve-
perder una parte significativa de la infor- niente revisar algún material introductorio
mación original. Lo que se busca es al sensado remoto del cual hay gran
sintetizar las bandas originales y crear disponibilidad en Internet, pero una página
nuevas bandas que recojan la mayor parte interesante es www.ccrs.ncan.gc.ca. Tam-
de la información original. Este modelo bién son muy cercanos en conceptos a este
deberá generar imágenes que, por su trabajo los de (Todt, 1998 y Avendaño,

2614 Rev.Fac.Nal.Agr.Medellín.Vol.58,No.1. p.2611-2634.2005


Clasificación no supervisada de coberturas vegetales...

1999). Otra recomendación es revisar la definida por el valor numérico o Nivel


literatura sobre componentes principales y Digital - ND, que codifica digitalmente
técnicas de inteligencia artificial. esta radiancia, para una parcela de
terreno y en una banda específica, en 8
REVISIÓN DE LA LITERATURA bits (0 a 255) para el caso de las imágenes
LANDSAT. La colección de todos estos
Las fuentes de datos para la clasificación datos se constituye en un arreglo matricial
digital de imágenes son diversas pero en- (Figura 1) que tiene una unidad mínima
tre ellas se destacan las imágenes sate- de observación (parcela) denominada
litales de la serie Landsat (National píxel (Picture Element de su sigla en
Aeronautics and Space Administration inglés) con un número entero (ND) que
NASA, 1998), cuyos objetivos han sido puede convertirse en una intensidad lumi-
cartografiar y evaluar los recursos natura- nosa o nivel de gris y con una localización
les. El último satélite de esa serie es el espacial.
LANDSAT ETM+ con ocho bandas lo cual
reviste especial importancia debido a que Lo primero a considerar en este proceso
una de las limitantes para el funciona- de generación de información son las
miento eficiente de un clasificador no transformaciones en los ND’s originales
supervisado es la presencia de una baja que permiten una mejor disposición para
diferenciación espectral entre clases, aun- generar información de muchos tipos; en
que por otro lado aumenta la complejidad otras palabras, se genera nueva informa-
de los datos. ción a partir de las bandas espectrales
disponibles. Las más usuales son: conver-
El sistema de captura de una imagen en sión de ND a valores físicos de reflec-
estos sistemas optico-electrónicos, consis- tividad y temperatura, transformaciones
te en un sensor que explora la superficie multibandas como índices de vegetación y
terrestre adquiriendo la radiación emitida otros cocientes, componentes principales,
y reflejada de los objetos situados sobre Tasseled Cap y análisis lineal de mezclas
ella. Esta energía que capta el sensor está espectrales (Chuvieco, 2000).

Figura 1. Organización de datos de ocho bandas espectrales sobre una misma escena

Rev.Fac.Nal.Agr.Medellín.Vol.58,No.1. p.2611-2634.2005 2615


Arango G., Branch B., Botero F.

En nuestro medio no se ha desarrollado agrupación de pixeles con valores digitales


una solución computacional a este similares para todas las bandas y cada una
problema pero en investigaciones interna- de estas agrupaciones son llamadas clases
cionales ya se han logrado avances al espectrales, las cuales se supone corres-
implementar nuevas técnicas que per- ponden a un tipo de cubierta de terreno.
miten manipular estos datos que son de Los métodos usados para desarrollar esta
tendencias no lineales, tales como las clasificación son del tipo agrupamiento
Redes Neuronales Artificiales (Solaiman, (del inglés clustering), aunque reciente-
Mouchot y Maillard, 1994b), lógica difusa mente se ha trabajado con los modelos
(Duda; Canty y Klaus, 1999) y técnicas neuronales.
híbridas (Solaiman y Mouchot, 1994a;
1995ª; Ruppert et al., 1997; Sergi; La aplicación de esta clasificación opera
Solaiman y Mouchot, 1995; Velickov et al, como una búsqueda automática de gru-
2000; Nissinen; Hyötyniemi y Koivo, 1999 pos de valores homogéneos dentro de las
y Santos, 2003). Sin embargo, estos imágenes, pero pueden ocurrir varias
modelos se diferencian por el tipo de posibilidades: que una categoría esté ex-
imágenes digitales sobre las que han presada en varias clases espectrales, que
operado y porque su interés no se ha dos o más categorías compartan una sola
centrado en las coberturas vegetales clase espectral, que varias categorías com-
probando técnicas combinadas, aunque partan clases espectrales y la ideal, que
los fundamentos teóricos básicos son haya una correspondencia biunívoca entre
similares a las condiciones de este las clases espectrales y las categorías. Esto
problema. será la base para el agrupamiento.

Esta problemática plantea una primera El agrupamiento (Clustering) es una téc-


dificultad a resolver que es encontrar nica de clasificación en que la imagen es
cuales bandas son importantes para el segmentada en clases desconocidas que
reconocimiento de clases espectrales posteriormente serán etiquetadas. Ésta se
(Nissinen; Hyötyniemi y Koivo, 1999) antes emplea en diversos métodos, como por
de abordar el problema de clasificación. ejemplo: K-medias, C-medias e ISODATA
Lo primero es definir cuales son las (IInteractive Self-O
Organizing Data Analysis
condiciones espectrales de la imagen que Technique (Algorithm)) (Richards, 1995).
le permitan ser clasificada por un algorit-
mo no supervisado orientado a coberturas En la CNS de imágenes multiespectrales
vegetales. Es así como en esta etapa se uno de los algoritmos que resulta adecua-
busca realizar una corrección de los datos do para delimitar los valores homogéneos
a fin de disminuir la componente de ruido dentro de la imagen ha sido el ISODATA
atmosférico inherente a las imágenes (Datos auto-asociados iteractivamente)
digitales de sensores remotos y mostrar (Duda y Hart, 1973) el cual calcula los
las consideraciones que para ello se promedios de las clases o agrupaciones
hacen. que eventualmente están distribuidos en
el espacio de decisión. En cada una de las
Ahora, se define la clasificación no- iteracciones recalcula los promedios y
supervisada – CNS como un proceso de reclasifica los pixeles de la imagen con

2616 Rev.Fac.Nal.Agr.Medellín.Vol.58,No.1. p.2611-2634.2005


Clasificación no supervisada de coberturas vegetales...

respecto a los nuevos promedios. Este artificioso señalar unos parámetros de


proceso continúa hasta que el cambio del control significativos, puesto que el
número de pixeles en cada clase (cluster) usuario no conoce, inicialmente, el
es mínimo respecto a un valor de toleran- número de grupos espectrales presentes
cia o hasta que se realiza cierto número en la imagen, ni el valor idóneo de
de iteracciones predefinidas. Sin embargo, dispersión interna o distancia entre
es muy artificioso señalar parámetros de grupos. De esta forma, el análisis no
control significativos sino se conocen los supervisado se convierte en un proceso
grupos espectrales ni el valor idóneo de interactivo, en donde el usuario establece
dispersión o distancia entre grupos; es unos valores arbitrarios que se van
decir, el usuario es quien define el número modificando a la luz de los resultados.
de categorías que cree se pueden obtener
cuando éste no tiene conocimiento de lo Éstas razones han llevado a algunos
que estará presente en la imagen. Otra investigadores a desarrollar otras técnicas
dificultad es el gran volumen de cálculo que definan un modelo que permita
que precisa, donde a partir de la quinta segmentar imágenes multiespectrales
iteracción los cálculos son mayores que satelitales de manera eficiente, confiable
para la clasificación de máxima ve- y sin conocimiento experto. Algunos
rosimilitud (clasificación supervisada) trabajos han recurrido a la lógica difusa
(Richards, 1993). (Duda; Canty y Klaus, 1999) que aunque
obtiene mejores resultados que con los
La principal ventaja que ofrecen los mé- métodos C-medias y C-medias-Difuso
todos no supervisados es que la interven- plantea definir el número de agrupa-
ción humana se centra en la interpreta- mientos. Se destacan otros trabajos en
ción más que en la consecución de los técnicas híbridas donde se combinan
resultados. Lo que buscan estos métodos algoritmos de aprendizaje no-super-
es definir los grupos o categorías que visado (SOFM) y supervisado (LVQ2)
intervendrán en lo que sí podría llamarse (Solaiman, Mouchot y Maillard, 1994b)
“clasificación” (Chuvieco, 2000), también que posteriormente se comparó con
podría decirse que son exploratorios SOFM y con el Perceptrón Multicapa
(Mather, 1989) ya que buscan reducir las usando Componentes Principales como
clases espectrales presentes en la imagen. entrada de datos pero sin ninguna
finalidad específica de tipos de cober-
En el caso particular de la clasificación de turas (Sergi; Solaiman y Mouchot, 1995).
coberturas vegetales, muchos especialistas También se comparó con el clasificador
han optado por trabajar bajo las técnicas Bayesiano de Máxima Similitud del tipo
supervisadas, ya que los algoritmos de supervisado y se concluyó que se llegaba
clasificación no-supervisada se orientan a a soluciones equivalentes (Solaiman,
definir propiamente los grupos que Mouchot y Koffi, 1995a). Este análisis se
intervendrán en la clasificación (Chuvieco, aplicó sobre 5 bandas espectrales de
2000). El ISODATA es el algoritmo más imágenes LANDSAT 5, pero no analizaron
adecuado para delimitar los grupos de los Componentes Principales. Siguiendo
valores homogéneos dentro de la imagen con esta línea, se propuso la seg-
(Rebollo y Orti, 1980). Sin embargo, es mentación de imágenes LANDSAT 5

Rev.Fac.Nal.Agr.Medellín.Vol.58,No.1. p.2611-2634.2005 2617


Arango G., Branch B., Botero F.

usando RNA y sistemas expertos, los supervisada para la solución de este tipo
resultados fueron buenos en términos de problemas.
de preservación de bordes de
coberturas (Solaiman et al., 1995b). El Instituto Geográfico Agustín Codazzi
genera algunas publicaciones indicando
En el contexto latinoamericano existen sus desarrollos en este campo. Sin
dos trabajos que ayudaron a motivar el embargo, se ha relegado el uso de los
actual: (Avendaño, 1999 y Todt, 1998). El métodos de clasificación no supervisada
primero hace una comparación para el a aquellos casos en donde la diferencia
reconocimiento de patrones en imágenes espectral en los elementos contenidos en
multiespectrales entre modelos super- las imágenes es muy marcada. En
visados paramétricos (máxima similitud) muchos casos no se usa ni como proceso
y neuronal (Retropropagación) y no exploratorio para definir las clases
supervisados paramétricos (ISODATA) y espectrales en que posiblemente se
neuronal (Kohonen et al., 1996 a). En pueda segmentar una clasificación
este trabajo se llega a resultados que supervisada y esto se debe a la
resaltan las bondades de los modelos insatisfacción del usuario del software
neuronales en la clasificación supervisada por las respuestas que arrojan los
más no en la CNS debido a que en este algoritmos disponibles, lo que hace que
último se presenta que el número de se pierda gran parte del potencial de
clases a clasificar está en función del información que provee una imagen
tamaño del mapa de la red. El segundo digital como la LANDSAT ETM+.
hace una evaluación del desempeño de
clasificadores neuronales de forma Lo mismo ha sucedido con las entidades
similar al anterior pero en la CNS se usa encargadas del manejo de los recursos
como parámetro el Histograma naturales como las Corporaciones Autó-
Tridimensional. Una de las conclusiones nomas. Éstas han desarrollado excelentes
es que si las bandas utilizadas son trabajos en fotografías aéreas pero la
debidamente seleccionadas a través de escala regional, que ofrecen las imágenes
un método estadístico el desempeño del satelitales, ha sido poco explorada y
clasificador neuronal puede contribuir a menos aún con la clasificación no
una mejor ocurrencia de clases. supervisada.

En el contexto nacional el desarrollo de la Lo definido anteriormente implica


teledetección ha sido exclusivo de los diseñar un modelo analítico que discri-
expertos en las áreas temáticas; es decir, mine mejor las coberturas vegetales,
geógrafos, geólogos, ingenieros, agró- genere las imágenes que tengan una
nomos, entre otros. Éstos se han mayor información espectral y reduzca
orientado a la generación de productos los datos conservando la mayor cantidad
con base en los algoritmos que ofrecen de información. Estos parámetros an-
las plataformas de software para teriores servirán para diseñar el accionar
teledetección, que sumada la experiencia de la técnica de redes neuronales
al uso de estas herramientas, se han implementada, Mapas de Kohonen et
aplicado las técnicas de clasificación al (1996 a), como una técnica de

2618 Rev.Fac.Nal.Agr.Medellín.Vol.58,No.1. p.2611-2634.2005


Clasificación no supervisada de coberturas vegetales...

inteligencia artificial aplicada a la El funcionamiento de los sensores


clasificación de imágenes de sensores satelitales se hace por exploración
remotos. Finalmente, se hace una secuencial de la superficie terrestre
validación del modelo, teniendo en adquiriendo la radiación de los objetos
cuenta tanto las técnicas usadas que estén consignados en un área que
frecuentemente como la descrita en depende de la resolución espacial del
este trabajo, contra una clasificación sensor. Esta área constituye la unidad
supervisada producto de un trabajo de mínima de información en la imagen
campo muy detallado. denominada píxel (picture element) y la
unión de estos cuadros es la que forma
CORRECCIÓN DE LA IMAGEN una imagen (Figura 2) donde los valores
DIGITAL SATELITAL numéricos definen el valor de radiancia
que se puede representar mediante
Se pueden hacer diferentes tipos de tonos o niveles de gris de cada píxel.
corrección sobre una imagen de sensor
remoto pero debe tenerse especial El nivel de gris que toma cada píxel se
cuidado ya que estos afectan los procesos define por un valor numérico que
posteriores que se desean realizar. Por algunos autores definen como Nivel
esta razón, es importante mostrar el Digital (ND) (Chuvieco, 2000), que
grado de abstracción y análisis que se codifica digitalmente la radiancia
hace antes de someterla a la clasificación. detectada por el sensor para un área del
Se describe la estructura de la imagen y terreno y en una banda espectral. El ND
las posibles fuentes de error con el fin de es un valor numérico, no visual, que
aclarar sobre cuales se puede operar sin puede traducirse a una intensidad visual
alterar de forma negativa los procesos o nivel de gris mediante un convertidor
siguientes. digital-analógico (monitor).

Figura 2. Pixeles de una imagen digital ampliada y sus valores de radiancia.

Rev.Fac.Nal.Agr.Medellín.Vol.58,No.1. p.2611-2634.2005 2619


Arango G., Branch B., Botero F.

A partir de lo anterior, la imagen digital tricas. Pero en general, éstas correcciones


puede esquematizarse como una matriz modifican los niveles digitales y no se
numérica en tres dimensiones donde X y harán con el fin de disminuir el tiempo
Y corresponden a las coordenadas geo- de tratamiento y abordar el trabajo con
gráficas, Z a la dimensión espectral (Figura los valores originales.
1) y el origen se sitúa frecuentemente en
la esquina superior izquierda. Esto último Ahora, considerando que la reflectividad
se debe a la secuencia de adquisición de es la relación entre la energía reflejada y la
imágenes que es de Norte-Sur de acuerdo incidente, tenemos que la primera se
con la traza del satélite y el número de obtiene de los datos medidos por el sen-
bandas depende de la resolución espectral sor ya que éste mide radiancia espectral
del sensor satelital. que es consecuencia de la reflexión de la
radiación electromagnética en las cubier-
Con base en este carácter matricial de la tas, más la influencia de la atmósfera. Para
imagen numérica es que se aplican trans- hacer un cálculo preciso de la reflectividad
formaciones y cálculos sobre las imá- real de la cubierta se deben considerar
genes tales como sintetizar varias bandas muchos factores (Chuvieco, 2000) y resol-
reduciendo la información redundante a verlos resulta muy laborioso y requiere
través de componentes principales o datos sobre las condiciones de la atmós-
discriminar grupos de ND homogéneos fera en el momento de toma de la
dentro de la matriz como se plantean imagen, los cuales no suelen estar dis-
posteriormente. ponibles. Además, estos efectos varían de
una zona a otra dentro de la imagen. Por
Por otro lado, las imágenes de sensores lo tanto, las correcciones atmosféricas se
remotos presentan unas alteraciones han abordado de varias formas:
radiométricas y geométricas que hacen
que éstas no coincidan con el tono, - Asumir ciertas condiciones atmosféricas
posición, forma y tamaño de los objetos estándar que corresponde a una deter-
que incluye. En el caso de las imágenes minada composición de vapor de agua,
satelitales las deformaciones se pueden anhídrido carbónico, oxígeno, ozono y
agrupar en cuatro tipos (Mather, 1989): aerosoles, en función de temperatura y
humedad relativa del día de la toma.
- Distorsiones originadas por la pla- - Otro método es el de homogeneizar los
taforma. ND’s entre imágenes multitemporales de
- Distorsiones provocadas por la rotación la misma zona.
terrestre. - Apoyarse en los datos de la propia
- Distorsiones provocadas por el sensor. escena obteniendo a partir de las dife-
- Distorsiones provocadas por la at- rentes bandas una estimación del efecto
mósfera. atmosférico. Entre estos métodos se
destaca el de corrección del histograma
Algunos de estos problemas se solu- por valores mínimos (Campbell, 1987)
cionan en el centro de recepción de las donde se asume que las áreas cubiertas
imágenes y otros se solucionan con con materiales de fuerte absortividad
correcciones radiométricas o geomé- (agua, zonas en sombra) deberían

2620 Rev.Fac.Nal.Agr.Medellín.Vol.58,No.1. p.2611-2634.2005


Clasificación no supervisada de coberturas vegetales...

presentar una radiancia espectral muy de estas dos bandas no se consideran en


próxima a cero. Por lo tanto, una sencilla el alcance del presente trabajo ya que
aproximación a la corrección atmosférica involucraría un trabajo a nivel del subpíxel
consiste en restar a todos los ND's de cada para convertirlas a la escala de las otras.
banda el mínimo de esa misma banda,
situando el origen del histograma en cero. Otro aspecto a considerar es el
comportamiento espectral de la vege-
El último método del numeral anterior es tación. Éste debe entenderse desde el
el más sencillo y el que mejor se adapta a conocimiento de la estructura interna
las características de las imágenes de la hoja individual (Todt, 1998) que
LANDSAT. En este caso el método de junto con los cloroplastos y la cantidad
corrección atmosférica se basa en las de agua presente varían la reflectancia
características de la banda del infrarrojo (R), absorción (A) y transmisión (T) de
cercano (banda 4 del sensor LANDSAT energía incidente (I) proveniente de los
ETM+) que se aplica sobre las bandas rayos solares. Las longitudes de onda
afectadas por el efecto atmosférico como del rojo (Rj) y azul (A) son absorbidas
son las del visible (azul, verde y rojo). para la fotosíntesis y las del verde (V) e
infrarrojo cercano (IC) son reflejadas
Una de las formas que permiten explotar (Figura 3).
estas posibilidades es el operar sobre una
banda del visible usando un ploteo de Es posible observar (Figura 4) que el
puntos (scatter-plot) de referencia con la comportamiento espectral varía de
banda 4 y así obtener el valor a restar de acuerdo con la longitud de onda que
cada banda para corregir las bandas del registra la hoja al ser iluminada por los
visible ubicando el origen de los rayos solares. En general las hojas
histogramas en cero. poseen alta absorción en las regiones
del ultravioleta (0,01-0,39 µm), azul
MÉTODOS PARA SELECCIÓN DE (0,43-0,5 µm), rojo (0,6-0,76 µm) e
DATOS infrarrojo medio (1,35-2,6 µm). Aquí la
mayor parte de la energía incidente es
La determinación de los mejores datos a la absorbida para efectos de la
entrada de procesos de clasificación es un pigmentación y la respuesta espectral
paso importante en el diseño de un depende tanto de la cantidad del
problema particular, como el de la pigmento como del tipo.
clasificación de coberturas vegetales.
En las regiones del verde (0,5-0,6 µm) y
En el caso específico de la vegetación se el infrarrojo cercano (0,76-1,35 µm) se
hacen consideraciones basadas en las concentra aproximadamente el 90 %
características propias del sensor (NASA, de la reflectancia. Aquí los pigmentos
1998), pero de esto es importante se tornan altamente trasparentes a la
recordar que la banda 6 tiene una radiación; por lo tanto, de la energía
resolución espacial de 60 m y la que incide en la hoja el 45-50 % es
pancromática de 15 m, contra 30 m que transmitida, el 45-50 % reflejada y el 5
tienen las otras; por lo tanto, la inclusión % absorbida (Todt, 1998).

Rev.Fac.Nal.Agr.Medellín.Vol.58,No.1. p.2611-2634.2005 2621


Arango G., Branch B., Botero F.

Figura 3.
3 Efecto de las longitudes de onda sobre la vegetación. (Canada Centre for
Remote Sensing - CCRS, 2001).

Figura 4. Comportamiento espectral de una hoja en los vegetales.

Para la selección de bandas se ofrecen Transformada Promedio para definir las


algunos métodos tales como la Distancia bandas óptimas. Ésta es una medida de
de Battacharyya, Divergencia y distancia la diferencia entre dos señales de
de Jeffries-Matusita pero éstos requieren clases. Se calcula con las medias de las
de un muestreo que va asociado a una clases y las matrices de covarianza; y se
clasificación supervisada que se sale del extiende a todas las clases aplicando
objetivo principal de este trabajo. En este una regla de decisión sobre todos los
caso se utiliza el concepto de Divergencia pares de clases de señales. Lo que

2622 Rev.Fac.Nal.Agr.Medellín.Vol.58,No.1. p.2611-2634.2005


Clasificación no supervisada de coberturas vegetales...

muestra es la separabilidad entre clases independiente de las condiciones de


presentes en las bandas evaluando sus observación. Parten de demostrar la
estadísticas. Esto permite evaluar que relación entre el parámetro a estimar y
combinaciones de bandas pueden las variables contenidas en la imagen.
discriminar mejor las clases presentes en Tiene como ventaja que no requiere
ellas que unido a las características del información de campo simultánea a la
sensor y el objeto de esta investigación, adquisición, que sólo estará disponible
deben dar relevancia a las combinaciones cuando se haya planificado previamente
que contengan las bandas 1, 2, 3, 4 y 5. un experimento con ese objetivo. Entre
estos se encuentran algunos de trans-
En las redes neuronales es especialmente formaciones multibanda como: índices
crítico hacer una buena selección de los de vegetación, componentes principales
datos ya que un gran número de y Tasseled Cap, entre otros.
entradas reduce la capacidad de
generalización de la red y un número También es evidente que no siempre una
pequeño podría ser insuficiente para el banda espectral contiene una única
aprendizaje ya que el número de bandas información sobre una zona, de hecho los
de entrada define la complejidad de la valores de los pixeles están altamente
red (Kavzoglu, 2002). correlacionados entre canales. Por lo
tanto, una aproximación más eficiente es
Algunas variables son ponderables de emplear una estrategia de reducción de
modo directo y corresponden a las datos antes de la clasificación ya que la
adquiridas por el sensor, tales como parte más crítica en dicho proceso es que
reflectividad y temperatura, entre otras. el tiempo de computación y análisis se
También es posible generar información incrementa exponencialmente con el
de otras variables de modo indirecto en número de bandas o canales.
donde se asuma una relación teórica entre
el parámetro a estimar y lo que mide el Entre los métodos propuestos en la
sensor. A partir de este concepto surgen literatura el ACP ha sido ampliamente
los diferentes tipos de modelos: los aceptado para el análisis de datos
inductivos o empíricos y los deductivos o multivariados. Tradicionalmente ha sido
teóricos. empleado para mejoramiento de
imágenes y reducción de canales pero
Los inductivos son los que establecen una efectivamente usados en estudios
relación numérica entre el parámetro a multitemporales de detección de cambios
estimar y los ND’s de la imagen, a partir (Piwowar y Ellsworth, 1995).
de observaciones in situ, tomadas en el
momento de adquirir ésta. Su incon- Según González y Woods (1992), el ACP
veniente viene dado por el carácter local comprende un procedimiento matemático
de la aplicación que no permite extrapolar que transforma un conjunto de variables
estas funciones a otras zonas. correlacionadas de respuesta en un
conjunto menor de variables no
Los deductivos o teóricos tratan de correlacionadas llamadas componentes
establecer un modelo de validez general, principales.

Rev.Fac.Nal.Agr.Medellín.Vol.58,No.1. p.2611-2634.2005 2623


Arango G., Branch B., Botero F.

Estos conceptos de base del ACP han alimentan al sistema en una frecuencia
tenido un impacto especial en el estudio y cada vez que un vector distintivo de
de las imágenes de sensores remotos ya entrada no es mapeado con un iden-
que la adquisición de imágenes sobre tificador de una clase ya aprendida, el
bandas adyacentes del espectro hace sistema establece una nueva clase con
suponer información redundante, puesto un identificador para esa clase y ajusta
que un área observada tiende a mostrar esos parámetros al mapa del vector
un comportamiento similar en regiones distintivo dentro de ese identificador. Esto
próximas del espectro. Por esta razón se puede hacer en procesos tales como
una medida en una banda puede tener algoritmo ISODATA, K-medias o Kohonen,
una fuerte correlación con las deducidas entre otros.
de otra y así el ACP tiene sentido porque
convertiría un conjunto de variables En el entrenamiento supervisado o no
correlacionadas en uno de variables no supervisado el sistema determina uno o
correlacionadas reduciendo, no elimi- más vectores prototipo, arquetipo, pa-
nando, el número de variables respuesta trón, representativo o central, entre
medida y por ende la dimensionalidad otros, como modelo(s) idealizados para
real. cada clase. Después de entrenado, el
sistema está listo para operación pero se
Algunos autores sugieren que el ACP deben hacer algunas pruebas para
involucra transformación de caracterís- verificar el entrenamiento. En el modo
ticas y obtiene un conjunto de rasgos operativo, cada vector de entrada es
transformados más que un subconjunto comparado con algunas medidas de
de características originales (Mitra; semejanza con un(os) vector(es) de
Murthy y Pal, 2002). Lo que debe ejemplo para cada clase y se toma una
merecer un estudio posterior a la luz de decisión de acuerdo con la mayor
la propuesta planteada por ellos. similitud (o diferencia) entre el vector de
entrada y el(los) ejemplo(s).
Se recomienda la aplicación de este
método en casos donde: Todas las varia- Uno de los tipos de agrupación más
bles estén en las mismas unidades o frecuentemente usados y estudiados en la
unidades comparables y que tengan clasificación no supervisada es el
varianzas con tamaños muy semejantes. ISODATA, que será comparado con Mapas
Éste es el caso de las imágenes satelitales de Kohonen en la solución del problema
correspondientes a una misma escena. planteado en este trabajo.

CLASIFICACIÓN DIGITAL Según Looney (1997) el Interactive Self-


Organizing Data Analysis Technique
En el método de clasificación no (Algorithm) es como el K-medias, excepto
super.visado o modo autorganizado de porque el primero incorpora algunas
clasificación, un sistema desempeña aproximaciones heurísticas como definir el
ambos procesos de entrenamiento y número de agrupaciones existentes. Una
operación sobre cualquier vector dis- de las dificultades de este método es que
tintivo de entrada. Los vectores no es tan autorganizado ya que se

2624 Rev.Fac.Nal.Agr.Medellín.Vol.58,No.1. p.2611-2634.2005


Clasificación no supervisada de coberturas vegetales...

deben definir parámetros basados en la cualquier método de clasificación no su-


experiencia como número de agrupacio- pervisado puede ser usado para encontrar
nes deseadas, número mínimo de vec- agrupaciones de datos de entrada e
tores distintivos, mezclador inicial (lumping identificar vectores de datos desconocidos
threshold), desviación estándar y número con una de las agrupaciones. Por otro
máximo de pares de agrupaciones. lado, si los datos son conocidos previa-
mente, se puede hacer de forma óptima
La red Kohonen también es llamada Self- la alineación de un número finito de clases
Organizing Map – SOM, es una red que en un vector de datos desconocido por
corresponde a uno de los tantos modelos medio del algoritmo de aprendizaje
de Redes Neuronales Artificiales – RNA supervisado LVQ, el cual no se desarrolla
que se han desarrollado desde el modelo en este documento.
de McCulloch-Pitts en 1943 que fue el
primer acercamiento para inventar un Aunque es posible obtener algunas clases
dispositivo neuronal sintético. de mapas sin tener en cuenta algunas
precauciones, es importante poner
El SOM representa el resultado de un atención a algunos aspectos con el fin de
algoritmo de cuantificación de vector que que los mapas resultantes sean estables,
ubica un número de vectores de referen- bien orientados y menos ambiguos
cia o códigos en un espacio de datos de (Kohonen, 1996), así: Forma del arreglo,
entrada altamente dimensionado para Aprendizaje con un pequeño número de
aproximar a esos conjuntos de datos en muestras de entrenamiento disponibles,
una forma ordenada. Cuando las rela- Mejoramiento de casos raros, Calidad de
ciones de orden local están definidas entre aprendizaje, Componentes de vectores de
los vectores de referencia, los valores entrada perdidos, Escalado de
relativos del último dependen el uno del componentes y Representaciones forzadas
otro así como sus valores de vecindad para un lugar buscado en el mapa. Los
deberían atarse a lo largo de una “super- elementos anteriores se consideraron al
ficie elástica”. Por medio del SOM esta momento de adaptar los algoritmos de
superficie llega a ser definida como una clasificación para el caso estudio.
clase de regresión no lineal de los vectores
de referencia a través de los puntos de los
datos. CASO ESTUDIO

Una aplicación típica de los SOM está en La región sobre la cual se desea hacer
el análisis de datos vectoriales experimen- un análisis de los algoritmos anterior-
tales complejos donde los elementos de mente descritos corresponde a la zona
los datos frecuentemente están relaciona- urbana y alrededores del Municipio de
dos los unos a los otros en una forma Sonsón del Departamento de Antioquia
altamente no lineal (Kohonen, 1996). – Colombia (Figura 5). Esta es un
segmento de una escena LANDSAT 7
Según Kohonen (1996), el proceso en el ETM+ (composición bandas 453) con
cual está formado el SOM es un proceso una extensión de 2.25 Km2 (500*500
de aprendizaje no supervisado. Como pixeles).

Rev.Fac.Nal.Agr.Medellín.Vol.58,No.1. p.2611-2634.2005 2625


Arango G., Branch B., Botero F.

Figura
Figura 5. Localización área de estudio (Sonsón, Antioquia-Colombia).

Se escogió esta zona de una clasifica- La reducción del ruido atmosférico bus-
ción supervisada mayor por tener ésta ca acercar los valores de Niveles
un control de campo más exhaustivo Digitales a Reflectividades. Este proceso
(Figura 6). El resultado obtenido por hace una gran abstracción sobre los
Uribe (2002) indica una representación elementos que afectan los valores sensa-
muy ajustada a lo que efectivamente se dos debido a la dificultad que repre-
tendría en el terreno, lo que permitiría senta tener control sobre todas esas
una muestra adecuada en contenido de variables. Es una propuesta aceptada en
píxeles y clases. El método usado por él la literatura ya que utiliza una carac-
fue máxima verosimilitud y define 14 terística importante del sensor. En estas
clases de coberturas presentes en la regiones tropicales y montañosas en la
zona de estudio con una frecuencia en mayoría de los casos es posible encon-
los rangos de datos muy fluctuante. Se trar zonas de cero reflectividad como las
puede observar un alto predominio de sombras de nubes o montañas y éstas
los tipos de bosques y cultivos. se presentan claramente en banda del
infrarrojo cercano. Si se compara esta
Siguiendo con la metodología des- banda, a través de un ploteo de puntos,
crita anteriormente se le aplicó a la con cada una de las bandas del visible
escena corrección atmosférica, selec- (azul, verde y rojo) es posible trasladar el
ción de datos, clasificación digital y origen de los valores del histograma y
análisis. corregir los datos de estas bandas.

2626 Rev.Fac.Nal.Agr.Medellín.Vol.58,No.1. p.2611-2634.2005


Clasificación no supervisada de coberturas vegetales...

SOMBRA
NUBE
SOMBRA NUBE
RÍOS
CONSTRUCCIONES
PASTO MANEJADO
PASTO NO MANEJADO
CULTIVOS PERMANENTES
CULTIVOS TRANSITORIOS
BOSQUE PLANTADO
BOSQUE TARDÍO
BOSQUE INTERMEDIO
BOSQUE TEMPRANO
SUELO DESNUDO

Figura 6. Clasificación supervisada de la zona de prueba (Uribe, 2002).

En la escogencia de las bandas se tuvo en Ahora, se aplica el concepto de ACP sobre


cuenta que las del infrarrojo térmico y esas combinaciones de bandas y se toman
pancromático presentan escalas diferentes los componentes principales 1 y 2 de cada
en los datos lo que requeriría un proceso combinación ya que estos contienen más
adicional de tratamiento de los datos para del 95 % de la información total, para un
poderlos usar en este contexto; por lo tan- total de 16 imágenes.
to, no se tienen en cuenta. La banda del
infrarrojo medio – lejano se orienta a la Se propuso el método para clasificación
discriminación de formaciones rocosas y no supervisada de Mapas de Kohonen o
alteraciones hidrotermales, por lo que Self Organizing Maps – SOM y se com-
tampoco se tuvo en cuenta para la paró con ISODATA.
selección. Las bandas 2, 3, 4 y 5 fueron
diseñadas para el monitoreo de cober- - Interactive Self-Organizing Data
turas vegetales y la clasificación supervi- Analysis Technique (Algorithm) –
sada presenta 8 clases de éstas. Pero te- ISODATA es uno de los algoritmos de
niendo en cuenta que la desviación clasificación no supervisada más
estándar, la varianza y el rango son muy utilizados y mencionados en la literatura
bajos en las bandas 1 y 2, entonces se sobre análisis de imágenes y por eso se
aplica el concepto de la Divergencia compara con el SOM que no lleva gran
Transformada Promedio para diferenciar trayectoria en este campo aún. También
14 clases tomando sólo aquellas combina- por esta razón, es posible obtener
ciones que contengan las bandas 3, 4 y 5 muchos software comerciales con esta
(rojo, infrarrojo cercano y medio), así: aplicación ya implementada por lo cual
123456, 12345, 2345, 345, 23456, se uso el Image Analyst® para obtener
13456, 1345 y 3456. los resultados.

Rev.Fac.Nal.Agr.Medellín.Vol.58,No.1. p.2611-2634.2005 2627


Arango G., Branch B., Botero F.

- La implementación del SOM se desarrolló Euclidiana basada en el Teorema de Pitá-


en JAVA sobre la estructura del HidroSIG® goras aplicado a la distancia entre pixeles.
que es un software que integra aplica- No varía en las pruebas.
ciones de Sistemas de Información - El número mínimo de pixeles: 25. Co-
Geográficos – SIG y sensores remotos. La rresponde al número mínimo de pixeles
estructura de este algoritmo se hizo con que puede contener una agrupación. Se
base en algunos algoritmos disponibles en utilizarán valores de 25 y 50 para las prue-
la literatura entre los que está el bas con el fin de mejorar el proceso de
SOM_PACK® revisado por Kohonen (1996). agrupación.
- El máximo número de pares de agrupa-
- Ambos métodos se aplicaron sobre los ciones: 10. Corresponde al máximo núme-
resultados del proceso de selección de ro que puede ser combinado en una ite-
datos previo (Componentes Principales) y racción. No varía en las pruebas.
sus resultados fueron comparados contra - Método de agrupación: Máxima pro-
la clasificación supervisada a través del babilidad con un umbral de probabilidad
software ArcView®, donde se pueden ob- del 95 %. No varía en las pruebas.
tener las matrices de confusión entre dos - Máximo número de iteracciones: 1000.
imágenes. Corresponde al número de veces que se
repite el algoritmo de entrenamiento.
Los parámetros de los algoritmos de Varía entre 100 y 1000
clasificación ISODATA y SOM aplicados a
las imágenes fueron: Siempre se presentan áreas no típicas que
resultan con firmas espectrales con gran-
- ISODATA: des desviaciones estándar. Es muy difícil
- Vectores de entrada: las imágenes. reducir el número total de clases porque la
- Número de agrupaciones: 12, no varía. mayoría de las firmas se encuentran esta-
- Número de agrupaciones: 15, referente a dísticamente en el centro de la distribución
la clasificación supervisada. Estas agrupa- con sesgos en los extremos (“outliers”) y
ciones no se excederán a menos que las esto ocasiona un incremento de las clases
agrupaciones contengan menos que el que afecta los valores de distribución
mínimo número de pixeles o si muchas normal de los datos. Este asunto se obviará
agrupaciones son agrupadas. en este análisis.
- Máxima desviación estándar: 3. Éste es un
umbral que define la posibilidad de división - SOM: Para esta etapa se construyó un
así, si la desviación estándar de la banda es algoritmo en JAVA incluido en el Hidrosig®
superior a este valor la agrupación es (Hernández, 2002), bajo los siguientes
candidata para dividirse. No varía en las parámetros:
pruebas. - Un arreglo rectangular de 5∗3 que
- Mínima distancia para combinar conglo- permite una salida de máximo 15 clases.
merados: 20. Corresponde a la mínima dis- El algoritmo permite otros arreglos.
tancia para combinar pares. Si la distancia - Para el aprendizaje se define un número
entre las medias de las agrupaciones es aleatorio de datos con un máximo de
menor que este valor entonces se agrupan. 1000 iteracciones ya que se puede tener
Además, se selecciona la Distancia una convergencia apropiada a este nivel.

2628 Rev.Fac.Nal.Agr.Medellín.Vol.58,No.1. p.2611-2634.2005


Clasificación no supervisada de coberturas vegetales...

Sin embargo, el algoritmo permite hacerlo probará también con 100 para evaluar los
con un número mayor. cambios. Una vez elaboradas las dos clasi-
- No se tiene un arreglo para el mejora- icaciones se procede a la evaluación a través
miento de casos raros por la supervisión del método de Matriz de Confusión también
que éste requiere. denominada matriz de error o tabla de con-
- La calidad del aprendizaje está dada por tingencia. Éste es un arreglo de números
las funciones de vecindad tomadas como que expresa el número de unidades de pixe-
Gaussiana y Burbuja aunque no se define les asignados a una categoría particular con
un índice de desempeño ya que los mapas respecto a otra de prueba. En las columnas
a utilizar son muy pequeños. se encuentran los datos verificados en el
- Como se definió una imagen de prueba campo y sobre los que se tiene certeza del
sin errores no se aplica un componente tipo de cubierta que representan, que en
para vectores de entrada perdidos. este caso sería la clasificación supervisada
- No se utiliza un reescalamiento de los (Uribe, 2002). Las filas contienen los tipos de
datos ya que los datos están en un rango cubiertas definidos como resultado de una
discreto de 0 a 255 y no se considera prueba de clasificación.
necesario.
Para las pruebas se consideró además: La precisión de una clasificación se obtiene
- Vectores de entrada: corresponde a las al calcular el número total de tipos de cu-
mismas imágenes (bandas) utilizadas en el bierta (suma de las celdas de la diagonal de
método anterior de clasificación la matriz de confusión) dividido por el total
- Funciones de vecindad: se harán pruebas de ejemplos de prueba (número total de
con ambas técnicas Gaussiana y Burbuja. elementos en las celdas de la matriz de
- Tipo de malla: Rectangular. En esta inves- confusión) (Figura 7). A través de ésta se
tigación se prueban mapas de salida con puede evaluar el porcentaje de precisión de
arreglos 5∗3 (Filas ∗ Columnas) para una una clase con respecto a una determinada
clasificación con máximo 15 clases. prueba. La precisión total en la clasificación
- Proceso de entrenamiento: puede ser has- se define por la proporción de la suma de
ta 100.000 iteracciones, pero se busca una la diagonal principal contra la obtenida por
convergencia apropiada con 1.000 y se el clasificador.

Clases Total clasificador Precisión


espectrales 1 2 3 4 5 6 clasificador

1 22 0 0 0 0 0 22 100
2 0 19 0 0 8 0 27 58
3 0 0 24 0 0 0 24 100
4 0 0 0 15 0 0 15 100
5 0 0 0 0 17 0 17 100
6 0 0 5 0 0 13 18 62
Pixeles por clase
22 19 29 15 25 13 120

Figura 7. Matriz de confusión para 120 elementos en 6 tipos de cubiertas.

Rev.Fac.Nal.Agr.Medellín.Vol.58,No.1. p.2611-2634.2005 2629


Arango G., Branch B., Botero F.

Para el análisis de los datos se tomaron las imágenes que representan el caso estudio.
matrices que mejor discriminación Además, el método de comparación
presentaron, se hizo una reasignación de ISODATA tampoco converge a una
las clases y se generaron las matrices de solución satisfactoria.
confusión respectivas.
Lo anterior lleva a dos tipos de
conclusiones:
CONCLUSIONES
- El método de reducción de datos
El análisis de resultados considera sólo las implementado en este trabajo introduce
clases vegetales de la clasificación super- información que distorsiona los valores
visada (Figura 6) para realizar 32 pruebas reales de la imagen y por lo tanto los
en cada método. Sin embargo, ni en el métodos de clasificación no operan
método de ISODATA ni en el SOM es adecuadamente. Esto también podría
posible diferenciar alguna de las cober- sustentarse sobre los resultados de
turas vegetales presentes en la clasifica- algunas investigaciones que indican que el
ción supervisada. ACP si altera la información evaluada
(Mitra; Murthy y Pal, 2002).
Recordando los logros y resultados que
perseguía este trabajo se pueden describir - El principio sobre el que se fundamentan
así: los métodos de clasificación no
supervisada se desvirtúa a la luz de que la
- La diferenciación espectral de coberturas intervención humana es necesaria para
vegetales se fundamentó en principios este tipo de procesos o que al menos se
estadísticos ampliamente usados en la debe integrar información de otras
literatura y lograr así una reducción de fuentes que permitan tomar decisiones al
datos orientados a la clasificación de algoritmo sobre la posibilidad de que
coberturas vegetales. exista una cobertura en un determinado
sitio, según las condiciones de relieve,
- El método propuesto de clasificación humedad relativa, frecuencia de lluvias,
(SOM), al igual que el de comparación entre otras.
(ISODATA) y la técnica de validación
(Matriz de confusión) fueron definidos de También es claro que el método SOM al
acuerdo con parámetros que contempla la igual que el ISODATA, requiere que se le
literatura en análisis de datos de este tipo definan un número de clases aproximado
y similares. Estos aspectos han sido a obtener, lo cual introduce un
probados en muchos problemas de parámetro que es propio de la
análisis de datos de manera satisfactoria. clasificación supervisada. Aunque la
teoría dice que un número máximo de
- Finalmente, en la validación del método clases a definir en una cobertura es de
los resultados permiten concluir que el aproximadamente 15 y podría pensarse
método propuesto no converge satisfac- en dejar fijo el parámetro. Esto haría
toriamente a las coberturas de la que se clasifique con base en ese valor
clasificación supervisada con base en las máximo pero cuando se presente en

2630 Rev.Fac.Nal.Agr.Medellín.Vol.58,No.1. p.2611-2634.2005


Clasificación no supervisada de coberturas vegetales...

una zona donde hayan menos de 15 espacio tridimensional para lo que opera-
coberturas es posible que se obligue al ría un esquema de SOM 3D el cual ya se
sistema a generar más coberturas de menciona en la literatura aunque con
las requeridas. pocas aplicaciones y poca literatura.

TRABAJO FUTURO - Es recomendable elaborar sistemas híbri-


dos entre técnicas no supervisadas, sis-
Las razones que explican la condición por temas expertos y reglas difusas que
la que no se alcanza el objetivo general evalúan la viabilidad de que una cober-
puede deberse a varias aspectos que tura se aloje en una posición determi-
definen el trabajo a seguir: nada teniendo en cuenta otras variables
ambientales y la proximidad con ellas.
- El proceso de clasificación no se realizó Esto sería un proceso complejo que re-
sobre valores de reflectividades reales sino queriría de mucha más información pero
sobre una simulación con imágenes corre- que introduce aquellos elementos que un
gidas atmosféricamente. Si es posible con- experto considera cuando elige clasificar
seguir información de campo, simultáneo un tipo de cobertura en un sitio
al momento de la toma calcular los va- determinado.
lores de reflectividades y operar sobre
estos datos. Si esto no es posible, como - No era el objetivo de este trabajo llegar a
ocurre en la mayoría del territorio etiquetar las coberturas, ya que esto im-
colombiano, se sugiere abordar el pro- plica un análisis más detallado de las
blema desde las imágenes de laboratorio respuestas espectrales en el campo de las
donde se pueden controlar las variables coberturas vegetales, tema que se debe
entre el sensor y el elemento sensado, explorar porque en esta región tropical se
como es el caso de la microscopia asistida tiene muy poca información al respecto.
por computador. En esta información también podría estar
la razón por la cual no fue posible lograr
- La abstracción de información que se una convergencia apropiada del algorit-
hace a través del ACP no es la apropiada mo. Se plantearon en este trabajo, todas
para este tipo de datos ya que los datos las variables que intervienen en la clasi-
de entrenamiento pueden ser insufi- ficación apropiada de una cobertura ve-
cientes para lograr una buena convergen- getal y que éstas afectan la firma o res-
cia posterior. Se sugiere evaluar otros puesta espectral, pero un análisis de ellas
métodos de reducción de datos (Mitra; a través de programas de computacio-
Murthy y Pal, 2002) o modificar el algo- nales que relacionen un banco de datos
ritmo de forma que, según el volumen de de las diferentes y posibles firmas espec-
datos a evaluar, se introduzca un patrón trales multitemporales podrían permitir
de parada antes de que la red se sobre analizar estos patrones y tomar la decisión
entrene. de clasificar en una u otra clase, esto pue-
de ser una ampliación del punto anterior.
- Si la selección de bandas se reduce a
tres, como ocurrió en este caso con las - Explorar casos puntuales de aplicación
bandas 3-4-5, es posible pensar en un de los SOM como para el caso de

Rev.Fac.Nal.Agr.Medellín.Vol.58,No.1. p.2611-2634.2005 2631


Arango G., Branch B., Botero F.

condiciones anómalas de la vegetación tal 2nd International Symposium on


como enfermedades, contenidos de hu- Operationalization of Remote Sensing,
medad mayores que alteran la respuesta 1999. p. 1256-1258.
espectral o presencia de otras especies ve-
getales que alteran la respuesta espectral GONZÁLEZ, R. C. and WOODS, R. E. Digital
por proximidad, entre otras. image processing. Massachusetts, EUA:
Addison-Wesley, 1992. 599 p.
BIBLIOGRAFÍA
HERNÁNDEZ N., O. Herramienta para la
AVENDAÑO, M. Análisis comparativo clasificación de imágenes digitales de
entre algoritmos para el reconocimiento sensores remotos. Medellín, 2003. 73 p.
de patrones en imágenes multiespectrales Tesis (Ingeniero de Sistemas e Informática)
(MODELOS paramétricos y neuronales). Universidad Nacional de Colombia.
Ensenada, Baja California, México, 1999. Facultad de Minas.
111 p. Tesis (Master of Science). Centro de
Investigación Científica y Educación KAVZOGLU, T. and MATHER, P. M. The
Superior de Ensenada. Departamento de role of feature selection in artificial neural
Ciencias de la Computación. network applications. En: International
Journal of Remote Sensing. Vol. 23
CAMPBELL, J. B. Introduction to remote (2001); p. 2919-2937
sensing, New York: The Guilford Press,
1987. 670 p. KOHONEN, T. et al Som_pak: the self-
organizing map program package. Espoo,
CANADA CENTRE FOR REMOTE SENSING. Finland: Helsinki University of Technology,
News and announcements. Disponible en Laboratory of Computer and Information
Internet: www.ccrs.nrcan.gc.ca (consulta Science, 1996. s.p. (Technical Report A
en Noviembre, 2001). 31).

CHUVIECO, Emilio. Fundamentos de LOONEY, C. G. Pattern recognition using


teledetección espacial. 3ed. España: Rialp, neural networks: theory and algorithms for
2000. 568 p. engineers and scientists. Oxford University
Press, 1997. ISBN 0-19-507920-5
DUDA R. O. and HART, P. Pattern
classification and scene analysis. New MATHER, P. M. Computer processing of
York: John Wiley and Sons, 1973. 189 p. remotely sensed images. En: Journal of
Geography in Higher Education. Vol. 13,
DUDA, T.; CANTY, M. J. and KLAUS, D. No. 1 (1989); p. 81-83.
Unsupervised land-use classification of
multispectral satellite images: a compa- MITRA, P., MURTHY, C. A. and PAL, S.
rison of conventional and fuzzy-logic K. Unsupervised feature selection using
based clustering algorithms. En: INTERNA- feature similarity. En: IEEE Transaction
TIONAL SYMPOSIUM ON OPERATIO- on Pattern Analysis and Machine
NALIZATION OF REMOTE SENSING (1999: Intelligence, Vol. 24, Nº 3. (2002); p.
Enschede, The Netherlands). Proceedings 301-312.

2632 Rev.Fac.Nal.Agr.Medellín.Vol.58,No.1. p.2611-2634.2005


Clasificación no supervisada de coberturas vegetales...

NATIONAL AERONAUTICS AND SPACE SERGI, R.;; SOLAIMAN, B. and MOUCHOT,


ADMINISTRATION. Landsat 7 science M. C. LANDSAT - TM Image classification
data users handbook: Greenbelt, using principal components analysis and
Maryland, NASA Goddard Space Flight neural networks. En: INTERNATIONAL
Center, electronic version. Disponible GEOSCIENCE AND REMOTE SENSING
en Internet: http://ltpwww.gsfc.nasa. SYMPOSIUM (1995: Florence, Italy).
gov/IAS/handbook/handbook_toc.html Quantitative Remote Sensing for Science
. (Consultada Noviembre 12, 1998). and Applications. p.1927-1929.

NISSINEN, A. S., HYÖTYNIEMI, H. and SOLAIMAN, B., and MOUCHOT, M. C. A


KOIVO, H. Classification of radiation comparative study of conventional and
spectra using map of linear classifiers. En: neural network classification of
INTERNATIONAL CONFERENCE ON COM- multispectral data. Ecole Nationale
PUTATIONAL INTELLIGENCE FOR MODE- Superieure des Télécommunications de
LLING CONTROL AND AUTOMATION Bretagne, France.1994a. 5 p.
(1999: Vienna). Proceedings of the Inter-
national Conference on Computational ________; ________ and KOFFI, R. K.
Intelligence for Modelling Control and Multispectral LANDSAT Images Segmen-
Automation. p.128-133. tation using Neural Networks and Multi-
Experts Approach. Ecole Nationale
PIWOWAR, J. M. and ELLSWORTH, F. L. Superieure des Télécommunications de
Hypertemporal analysis of remotely Bretagne - France. 1995a. 5 p.
sensed sea-ice data for climate change
studies. En: Progress in Physical ________; ________ and MAILLARD, E. A
Geography. Vol. 19, No. 2 (1995); p. Hybrid algorithm (HLVQ) combining
216-242. unsupervised and supervised learning
approaches. Ecole Nationale Superieure
REBOLLO, M. y ORTI, F. Pattern des Télécommunications de Bretagne -
recognition techniques: remote sensing France. 1994b. 4 p.
applications. Madrid: Centro de
Investigación UAM – IBM, 1980. p. 136- SOLAIMAN, B. et al. A comparative study
187. on multispectral agricultural images
classification using Bayesian and neural
RUPPERT, G. S. et al. A hybrid classifier for networks approaches. Ecole Nationale
remote sensing applications En: Superieure des Télécommunications de
International Journal of Neural Systems, Bretagne – France and Canada Center for
Vol. 8, No. 1 (Feb., 1997); p. 63-68. Remote Sensing, Application Division –
Canada. 1995 b.
SANTOS, M. A. Clasificaçāo de imagens
LANDSATTM a través da inteligência TODT, V. Avaliaçao do desempenho de
artificial: uma abordagem conexionista. classificadores neurais para aplicaçoes
Embrapa: Empresa Brasileira de Pesquisa em sensoriamento remoto. Porto
Agropecuária –Instituto Nacional de Alegre, 1998. 413 p. Tesis (Sensoria-
Pesquisas Espaciais, 2003. mento remoto). Universidade Federal

Rev.Fac.Nal.Agr.Medellín.Vol.58,No.1. p.2611-2634.2005 2633


Arango G., Branch B., Botero F.

do Rio Grande Do Sul. Centro Estadual Nacional de Colombia. Facultad Ciencias


de Pesquisas em Sensoriamento Agropecuarias.
Remoto e Meteorologia.
VELICKOV, S. et al. Application of data
URIBE, L. F. Análisis multitemporal de las mining techniques for remote sensing
coberturas vegetales en un ecosistema de image analysis. En: INTERNATIONAL
alta montaña en el oriente de Antioquia CONFERENCE ON HYDROINFORMATICS
en los años 1992-2000. Medellín, 2005. (2000: Iowa). Proceedings 4th International
112 p. Tesis (Magister en Bosques y Conference on Hydroinformatics. 1 Cd-
Conservación Ambiental). Universidad rom.

2634 Rev.Fac.Nal.Agr.Medellín.Vol.58,No.1. p.2611-2634.2005

También podría gustarte