Documentos de Académico
Documentos de Profesional
Documentos de Cultura
imágenes georreferenciadas.
Resumen:
A continuación se presenta un método para la
realización de minería de datos espaciales
sobre imágenes georreferenciadas. El método
consiste en la simulación de un proceso
parecido al de la difusión, para la
caracterización de figuras planas. Se pretende
utilizar dicho proceso de difusión para agrupar
eventos localizados sobre imágenes
georreferenciadas.
Summary:
We present a method for spatial data mining on
georreferenced images (that is, those with data
in geographical coordinates). The method
consists of the simulation of a diffusion-like
process to characterize planar figures. We
intend to use that process to cluster events that
are geographically located in a spatial image.
Palabras claves
Minería de datos espaciales, sistemas de
información geográficos, agrupamiento,
Key Words:
Spatial data mining, geographical information
systems, clustering
1. ANTECEDENTES Para el desarrollo del nuevo algoritmo, se
En los últimos años ha habido un gran tomarán en cuenta los siguientes
interés y un gran avance en el desarrollo factores:
de la minería de datos; en especial
1. El conocimiento de que todos los
cuando se trata con problemas de índole
datos de entrada son
geográfico (por la cantidad de datos que
coordenadas geográficos, según
llegan a ser procesados). Estudios
un modelo de conversión.
hechos por Shekhar y Chawla (2003) y
distintos congresos y libros (por ejemplo, 2. En caso de eventos temporales,
Bolstad (2002) o Cressie (1993)) reflejan se considerará el hecho de que la
la gran cantidad de conocimiento que se acumulación de eventos implica
produce al respecto. un mayor riesgo de ocurrencia.
Ahora bien, las técnicas utilizadas 3. El hecho que, hasta el momento,
tienden a ser modelos basados en la los algoritmos de agrupamiento
estadística multivariada, tal como el espacial son estadísticos o
análisis del componente principal (Jain, aritméticos.
1988), clasificadores de Markov (Li,
1995), outliers (Barnett 1994), entre Entonces, el objetivo de la ponencia es
desarrollar y fundamentar ese nuevo
otros. Esto no implica que no se puedan
utilizar otros algoritmos de minería de método y aplicarlo a datos geográficos
datos y de agrupamiento (Jain, 1988) existentes para verificar su efectividad.
pero es necesario adaptarlos a los
modelos y las características de la
minería espacial, en donde las
características a evaluar tienen 3. METODOLOGIA
relaciones implícitas y distintos tipos de
continuidad (Shekhar y otros, 2004). Para la aplicación de este proceso
necesitaremos una representación en
una imagen, de la información espacial
que queremos analizar, una vez que ya
2. PROBLEMA Y OBJETIVOS tenemos nuestra figura lista dentro de la
imagen procedemos con la aplicación del
algoritmo. El algoritmo consiste en tomar
Existen entonces, técnicas estadísticas cada pixel, de la figura a analizar y
para el estudio del agrupamiento de simular un proceso de difusión. Dicho
eventos y datos espaciales (donde los proceso lo que hará es tomar los pixeles
eventos se pueden considerar datos que que tienen algún objeto dentro de él y
se acumulan sobre el tiempo); pero tomarlos como fuentes, los pixeles que
ninguno de ellos está fundamentado en no tendrán objetos es donde se realiza la
modelos físicos. difusión. Por ejemplo, es como si
tuviéramos una hoja blanca con unas
En este caso, se ha propuesto la
manchas de tinta. Y nuestro objetivo es
necesidad de tomar un algoritmo de
agrupar las manchas de tinta de la mejor
agrupamiento no estadístico, y adaptarlo
forma posible, entonces derramamos un
a las necesidades y características de
poco de agua sobre nuestra hoja y la
los datos geográficos. Para ello, se
tinta empezará a moverse y dispersarse
tomará como base el modelo de
conforme el tiempo avanza por las partes
agrupamiento por difusión (Skliar y otros,
del papel donde antes no había tinta y
2007).
haciendo que las manchas de tinta se
comienzan a agrupar unas con otras.
Ahora procedemos a mostrar en consultarse Skliar (2007) para más
profundidad el algoritmo para información sobre el proceso de las
caracterizar figuras planas. Por ahora, variantes.
se considerará cada imagen
Finalmente, el parámetro de resolución R
georreferenciada como una figura plana
determina la cantidad mínima de
compuesta por píxeles.
partículas necesaria para que una zona
El algoritmo consiste en un modelo de sea considerada un agrupamiento.
simulación por difusión de partículas (que
es un proceso determinado por la
cantidad de partículas para cada 4. RESULTADOS
coordenada (variable N), el progreso del
tiempo (variable t) y por ciertas El algoritmo desarrollado fue puesto en
constantes de difusión (k y kd)). práctica para analizar las características
Para cada coordenada donde exista un geográficas de sismos. Los datos fueron
evento (es decir, un píxel en nuestra obtenidos de la United States Geological
imagen georreferenciada), la cantidad de Survey, en su compilación para el año
partículas es fija, no cambia en el tiempo. 2004; que corresponde a los sismos con
magnitud mayor a 5.0 de todo el planeta
( ) ( ) (USGS 2010).
Para cada coordenada donde no exista Los datos geográficos fueron colocados
un evento, la cantidad de partículas en forma de imágenes georreferenciadas
dependerá de la cantidad de partículas y se realizó el análisis de agrupamiento
que tenía, de la cantidad de partículas por difusión propuesto.
que aportan los vecinos (o sea, las
coordenadas inmediatamente
circundantes) y de la cantidad de
partículas que éste aporta a sus vecinos.
( ) ( ) ( )
( ) ( )
( ) ( )
5. CONCLUSIONES