Documentos de Académico
Documentos de Profesional
Documentos de Cultura
RESUMEN
1
Instructor Asociado. Universidad Nacional de Colombia, Sede Medellín. Facultad de Minas. A. A. 1027.
Medellín, Colombia. <marangog@unalmed.edu.co>
2
Profesor Asistente. Universidad Nacional de Colombia, Sede Medellín. Facultad de Minas. A. A. 1027.
Medellín, Colombia. <jwbranch@unalmed.edu.co>
3
Profesora Asistente. Universidad Nacional de Colombia, Sede Medellín. Facultad de Minas. A. A. 1027.
Medellín, Colombia. <vbotero@unalmed.edu.co>
ABSTRACT
The plant species diversity in Colombia and the lack of inventories of them
suggests the need for a process that facilitates the work of investigators in these
disciplines. Remote satellite sensors such as LANDSAT ETM+ and non-supervised
artificial intelligence techniques, such as self-organizing maps - SOM, could
provide viable alternatives for advancing in the rapid obtaining of information
related to zones with different vegetative covers in the national geography. The
zone proposed for the study case was classified in a supervised form by the
method of maximum likelihood by another investigation in forest sciences and
eight types of vegetative covers were discriminated. This information served as a
base line to evaluate the performance of the non-supervised sort keys ISODATA
and SOM. However, the information that the images provided had to first be
purified according to the criteria of use and data quality, so that adequate
information for these non-supervised methods were used. For this, several
concepts were used; such as, image statistics, spectral behavior of the vegetative
communities, sensor characteristics and the average divergence that allowed to
define the best bands and their combinations. Principal component analysis was
applied to these to reduce to the number of data while conserving a large
percentage of the information. The non-supervised techniques were applied to
these purified data, modifying some parameters that could yield a better
convergence of the methods. The results obtained were compared with the
supervised classification via confusion matrices and it was concluded that there
was not a good convergence of non-supervised classification methods with this
process for the case of vegetative covers.
Figura 1. Organización de datos de ocho bandas espectrales sobre una misma escena
usando RNA y sistemas expertos, los supervisada para la solución de este tipo
resultados fueron buenos en términos de problemas.
de preservación de bordes de
coberturas (Solaiman et al., 1995b). El Instituto Geográfico Agustín Codazzi
genera algunas publicaciones indicando
En el contexto latinoamericano existen sus desarrollos en este campo. Sin
dos trabajos que ayudaron a motivar el embargo, se ha relegado el uso de los
actual: (Avendaño, 1999 y Todt, 1998). El métodos de clasificación no supervisada
primero hace una comparación para el a aquellos casos en donde la diferencia
reconocimiento de patrones en imágenes espectral en los elementos contenidos en
multiespectrales entre modelos super- las imágenes es muy marcada. En
visados paramétricos (máxima similitud) muchos casos no se usa ni como proceso
y neuronal (Retropropagación) y no exploratorio para definir las clases
supervisados paramétricos (ISODATA) y espectrales en que posiblemente se
neuronal (Kohonen et al., 1996 a). En pueda segmentar una clasificación
este trabajo se llega a resultados que supervisada y esto se debe a la
resaltan las bondades de los modelos insatisfacción del usuario del software
neuronales en la clasificación supervisada por las respuestas que arrojan los
más no en la CNS debido a que en este algoritmos disponibles, lo que hace que
último se presenta que el número de se pierda gran parte del potencial de
clases a clasificar está en función del información que provee una imagen
tamaño del mapa de la red. El segundo digital como la LANDSAT ETM+.
hace una evaluación del desempeño de
clasificadores neuronales de forma Lo mismo ha sucedido con las entidades
similar al anterior pero en la CNS se usa encargadas del manejo de los recursos
como parámetro el Histograma naturales como las Corporaciones Autó-
Tridimensional. Una de las conclusiones nomas. Éstas han desarrollado excelentes
es que si las bandas utilizadas son trabajos en fotografías aéreas pero la
debidamente seleccionadas a través de escala regional, que ofrecen las imágenes
un método estadístico el desempeño del satelitales, ha sido poco explorada y
clasificador neuronal puede contribuir a menos aún con la clasificación no
una mejor ocurrencia de clases. supervisada.
Figura 3.
3 Efecto de las longitudes de onda sobre la vegetación. (Canada Centre for
Remote Sensing - CCRS, 2001).
Estos conceptos de base del ACP han alimentan al sistema en una frecuencia
tenido un impacto especial en el estudio y cada vez que un vector distintivo de
de las imágenes de sensores remotos ya entrada no es mapeado con un iden-
que la adquisición de imágenes sobre tificador de una clase ya aprendida, el
bandas adyacentes del espectro hace sistema establece una nueva clase con
suponer información redundante, puesto un identificador para esa clase y ajusta
que un área observada tiende a mostrar esos parámetros al mapa del vector
un comportamiento similar en regiones distintivo dentro de ese identificador. Esto
próximas del espectro. Por esta razón se puede hacer en procesos tales como
una medida en una banda puede tener algoritmo ISODATA, K-medias o Kohonen,
una fuerte correlación con las deducidas entre otros.
de otra y así el ACP tiene sentido porque
convertiría un conjunto de variables En el entrenamiento supervisado o no
correlacionadas en uno de variables no supervisado el sistema determina uno o
correlacionadas reduciendo, no elimi- más vectores prototipo, arquetipo, pa-
nando, el número de variables respuesta trón, representativo o central, entre
medida y por ende la dimensionalidad otros, como modelo(s) idealizados para
real. cada clase. Después de entrenado, el
sistema está listo para operación pero se
Algunos autores sugieren que el ACP deben hacer algunas pruebas para
involucra transformación de caracterís- verificar el entrenamiento. En el modo
ticas y obtiene un conjunto de rasgos operativo, cada vector de entrada es
transformados más que un subconjunto comparado con algunas medidas de
de características originales (Mitra; semejanza con un(os) vector(es) de
Murthy y Pal, 2002). Lo que debe ejemplo para cada clase y se toma una
merecer un estudio posterior a la luz de decisión de acuerdo con la mayor
la propuesta planteada por ellos. similitud (o diferencia) entre el vector de
entrada y el(los) ejemplo(s).
Se recomienda la aplicación de este
método en casos donde: Todas las varia- Uno de los tipos de agrupación más
bles estén en las mismas unidades o frecuentemente usados y estudiados en la
unidades comparables y que tengan clasificación no supervisada es el
varianzas con tamaños muy semejantes. ISODATA, que será comparado con Mapas
Éste es el caso de las imágenes satelitales de Kohonen en la solución del problema
correspondientes a una misma escena. planteado en este trabajo.
Una aplicación típica de los SOM está en La región sobre la cual se desea hacer
el análisis de datos vectoriales experimen- un análisis de los algoritmos anterior-
tales complejos donde los elementos de mente descritos corresponde a la zona
los datos frecuentemente están relaciona- urbana y alrededores del Municipio de
dos los unos a los otros en una forma Sonsón del Departamento de Antioquia
altamente no lineal (Kohonen, 1996). – Colombia (Figura 5). Esta es un
segmento de una escena LANDSAT 7
Según Kohonen (1996), el proceso en el ETM+ (composición bandas 453) con
cual está formado el SOM es un proceso una extensión de 2.25 Km2 (500*500
de aprendizaje no supervisado. Como pixeles).
Figura
Figura 5. Localización área de estudio (Sonsón, Antioquia-Colombia).
Se escogió esta zona de una clasifica- La reducción del ruido atmosférico bus-
ción supervisada mayor por tener ésta ca acercar los valores de Niveles
un control de campo más exhaustivo Digitales a Reflectividades. Este proceso
(Figura 6). El resultado obtenido por hace una gran abstracción sobre los
Uribe (2002) indica una representación elementos que afectan los valores sensa-
muy ajustada a lo que efectivamente se dos debido a la dificultad que repre-
tendría en el terreno, lo que permitiría senta tener control sobre todas esas
una muestra adecuada en contenido de variables. Es una propuesta aceptada en
píxeles y clases. El método usado por él la literatura ya que utiliza una carac-
fue máxima verosimilitud y define 14 terística importante del sensor. En estas
clases de coberturas presentes en la regiones tropicales y montañosas en la
zona de estudio con una frecuencia en mayoría de los casos es posible encon-
los rangos de datos muy fluctuante. Se trar zonas de cero reflectividad como las
puede observar un alto predominio de sombras de nubes o montañas y éstas
los tipos de bosques y cultivos. se presentan claramente en banda del
infrarrojo cercano. Si se compara esta
Siguiendo con la metodología des- banda, a través de un ploteo de puntos,
crita anteriormente se le aplicó a la con cada una de las bandas del visible
escena corrección atmosférica, selec- (azul, verde y rojo) es posible trasladar el
ción de datos, clasificación digital y origen de los valores del histograma y
análisis. corregir los datos de estas bandas.
SOMBRA
NUBE
SOMBRA NUBE
RÍOS
CONSTRUCCIONES
PASTO MANEJADO
PASTO NO MANEJADO
CULTIVOS PERMANENTES
CULTIVOS TRANSITORIOS
BOSQUE PLANTADO
BOSQUE TARDÍO
BOSQUE INTERMEDIO
BOSQUE TEMPRANO
SUELO DESNUDO
Sin embargo, el algoritmo permite hacerlo probará también con 100 para evaluar los
con un número mayor. cambios. Una vez elaboradas las dos clasi-
- No se tiene un arreglo para el mejora- icaciones se procede a la evaluación a través
miento de casos raros por la supervisión del método de Matriz de Confusión también
que éste requiere. denominada matriz de error o tabla de con-
- La calidad del aprendizaje está dada por tingencia. Éste es un arreglo de números
las funciones de vecindad tomadas como que expresa el número de unidades de pixe-
Gaussiana y Burbuja aunque no se define les asignados a una categoría particular con
un índice de desempeño ya que los mapas respecto a otra de prueba. En las columnas
a utilizar son muy pequeños. se encuentran los datos verificados en el
- Como se definió una imagen de prueba campo y sobre los que se tiene certeza del
sin errores no se aplica un componente tipo de cubierta que representan, que en
para vectores de entrada perdidos. este caso sería la clasificación supervisada
- No se utiliza un reescalamiento de los (Uribe, 2002). Las filas contienen los tipos de
datos ya que los datos están en un rango cubiertas definidos como resultado de una
discreto de 0 a 255 y no se considera prueba de clasificación.
necesario.
Para las pruebas se consideró además: La precisión de una clasificación se obtiene
- Vectores de entrada: corresponde a las al calcular el número total de tipos de cu-
mismas imágenes (bandas) utilizadas en el bierta (suma de las celdas de la diagonal de
método anterior de clasificación la matriz de confusión) dividido por el total
- Funciones de vecindad: se harán pruebas de ejemplos de prueba (número total de
con ambas técnicas Gaussiana y Burbuja. elementos en las celdas de la matriz de
- Tipo de malla: Rectangular. En esta inves- confusión) (Figura 7). A través de ésta se
tigación se prueban mapas de salida con puede evaluar el porcentaje de precisión de
arreglos 5∗3 (Filas ∗ Columnas) para una una clase con respecto a una determinada
clasificación con máximo 15 clases. prueba. La precisión total en la clasificación
- Proceso de entrenamiento: puede ser has- se define por la proporción de la suma de
ta 100.000 iteracciones, pero se busca una la diagonal principal contra la obtenida por
convergencia apropiada con 1.000 y se el clasificador.
1 22 0 0 0 0 0 22 100
2 0 19 0 0 8 0 27 58
3 0 0 24 0 0 0 24 100
4 0 0 0 15 0 0 15 100
5 0 0 0 0 17 0 17 100
6 0 0 5 0 0 13 18 62
Pixeles por clase
22 19 29 15 25 13 120
Para el análisis de los datos se tomaron las imágenes que representan el caso estudio.
matrices que mejor discriminación Además, el método de comparación
presentaron, se hizo una reasignación de ISODATA tampoco converge a una
las clases y se generaron las matrices de solución satisfactoria.
confusión respectivas.
Lo anterior lleva a dos tipos de
conclusiones:
CONCLUSIONES
- El método de reducción de datos
El análisis de resultados considera sólo las implementado en este trabajo introduce
clases vegetales de la clasificación super- información que distorsiona los valores
visada (Figura 6) para realizar 32 pruebas reales de la imagen y por lo tanto los
en cada método. Sin embargo, ni en el métodos de clasificación no operan
método de ISODATA ni en el SOM es adecuadamente. Esto también podría
posible diferenciar alguna de las cober- sustentarse sobre los resultados de
turas vegetales presentes en la clasifica- algunas investigaciones que indican que el
ción supervisada. ACP si altera la información evaluada
(Mitra; Murthy y Pal, 2002).
Recordando los logros y resultados que
perseguía este trabajo se pueden describir - El principio sobre el que se fundamentan
así: los métodos de clasificación no
supervisada se desvirtúa a la luz de que la
- La diferenciación espectral de coberturas intervención humana es necesaria para
vegetales se fundamentó en principios este tipo de procesos o que al menos se
estadísticos ampliamente usados en la debe integrar información de otras
literatura y lograr así una reducción de fuentes que permitan tomar decisiones al
datos orientados a la clasificación de algoritmo sobre la posibilidad de que
coberturas vegetales. exista una cobertura en un determinado
sitio, según las condiciones de relieve,
- El método propuesto de clasificación humedad relativa, frecuencia de lluvias,
(SOM), al igual que el de comparación entre otras.
(ISODATA) y la técnica de validación
(Matriz de confusión) fueron definidos de También es claro que el método SOM al
acuerdo con parámetros que contempla la igual que el ISODATA, requiere que se le
literatura en análisis de datos de este tipo definan un número de clases aproximado
y similares. Estos aspectos han sido a obtener, lo cual introduce un
probados en muchos problemas de parámetro que es propio de la
análisis de datos de manera satisfactoria. clasificación supervisada. Aunque la
teoría dice que un número máximo de
- Finalmente, en la validación del método clases a definir en una cobertura es de
los resultados permiten concluir que el aproximadamente 15 y podría pensarse
método propuesto no converge satisfac- en dejar fijo el parámetro. Esto haría
toriamente a las coberturas de la que se clasifique con base en ese valor
clasificación supervisada con base en las máximo pero cuando se presente en
una zona donde hayan menos de 15 espacio tridimensional para lo que opera-
coberturas es posible que se obligue al ría un esquema de SOM 3D el cual ya se
sistema a generar más coberturas de menciona en la literatura aunque con
las requeridas. pocas aplicaciones y poca literatura.