Está en la página 1de 5

Diapositiva 2

El datamining (minera de datos), es el conjunto de tcnicas y tecnologas que permiten explorar


grandes bases de datos, de manera automtica o semiautomtica, con el objetivo de encontrar
patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un
determinado contexto.
Spatial Data Mining es el proceso de descubrir interesantes y desconocidas pero potencialmente
tiles patrones de grandes conjuntos de datos espaciales. Extraer patrones interesantes y tiles de
conjuntos de datos espaciales es ms difcil que extraer el patrn correspondiente de datos
categricos y numricos tradicionales debido a la complejidad de los tipos de datos espaciales, las
relaciones espaciales y autocorrelacin espacial.
Las bases de datos espaciales son bases de datos que almacenan datos espaciales, o en otras
palabras, los datos relacionados a los espacios en el mundo fsico, las partes de los organismos
vivientes, el diseo en ingeniera y muchos otros espacios de inters extendidos espacialmente en
un espacio 2D o 3D. Los datos en una base de datos espacial a menudo son capturados
inicialmente en forma de imgenes digitales, por lo que las bases de datos espaciales algunas
veces son llamadas pictricas o de imgenes.
La aplicacin principal de las bases de datos espaciales se encuentra en los sistemas para
almacenar, editar y mostrar informacin geogrfica en una computadora, conocidos como
sistemas de informacin geogrfica (GIS, geographical information systems en ingls). Las
aplicaciones de las bases de datos espaciales tpicamente estn relacionadas con la representacin
de objetos geomtricos distintos acomodados en el espacio, o cada punto de un espacio en
particular.
Diapositiva 3
Las bases de datos espaciales incluyen un conjunto de tipos de datos espaciales, como POINT, LINE
y REGION, para modelar entidades geomtricas en el espacio.
Punto: Se encuentran determinados por las coordenadas terrestres medidas por latitud y longitud.
Por ejemplo, ciudades, accidentes geogrficos puntuales, hitos.
Lineas: Objetos abiertos que cubren una distancia dada y comunican varios puntos o nodos,
aunque debido a la forma esfrica de la tierra tambin se le consideran como arcos. Lneas
telefnicas, carreteras y vas de trenes son ejemplos de lneas geogrficas.
Regin o Poligonos: Figuras planas conectadas por distintas lneas u objetos cerrados que cubren
un rea determinada, como por ejemplo pases, regiones o lagos.


Diapositiva 4
Hay muchas tcnicas como clasificacin, rbol de decisin, lgica difusa, redes neuronales, etc.
aplicadas para minera de datos espaciales. La mayora de los trabajos recientes sobre datos
espaciales ha utilizado varias tcnicas de clustering debido a la naturaleza de los datos.
Agrupamiento es decir, agrupar los objetos de una base de datos en subclases significativas, es
uno de los mtodos de minera de datos principales. Entre muchos tipos de algoritmos de
agrupamiento basados en densidad, el algoritmo ms eficiente es el de deteccin de los clster
con densidad variada.
Para su aplicacin en grandes bases de datos espaciales se introducen los siguientes requisitos:
MNIMO NMERO DE PARMETROS DE ENTRADA: Porque es muy difcil identificar los
parmetros iniciales como nmero de clusters, forma y densidad de antemano para
grandes bases de datos espaciales.
DESCUBRIMIENTO DE LOS CLUSTERS CON FORMA ARBITRARIA Es decir que no tome un
orden especfico al momento de comenzar a identificar los clusters dentro de la base de
datos.
BUENA EFICACIA Es decir que debe trabajar de manera ptima con grandes bases de
datos espaciales.

El paper analiza 5 algoritmos de clustering basados en densidad:
- DBSCAN Density-based spatial clustering of applications with noise
- VDBSCAN
- DVBSCAN
- DBCLASD
- ST DBSCAN

Diapositiva 5
DBSCAN
DBSCAN requiere dos parmetros de entrada (mnimo puntos y radio) y soporta el usuario en la
bsqueda de un valor aproximado de utilizando k-dist grfico (distancia).Descubre los racimos de
forma arbitraria. Posee buena para grandes bases de datos espaciales.

Para entender cmo es que trabajan estos algoritmos deben entender los siguientes conceptos:
Definicion 1: Vecino de un punto
NEps(p) significa neighbor o vecino de un punto p en un radio Eps.
A partir de la formula se puede decir que un punto q es vecino de un punto p si p pertence
a la base de datos D, y la distancia ente p y q es menor al radio del punto p denotado por
Eps.
Un punto ncleo o core point es aquel punto de la base de datos a partir del cual se va a
formar el cluster y desde el cual se va a medir el radio Eps.
P es un punto ncleo porque cuenta con el minimo numero de puntos requeridos dentro
del cluster, en cambio q no lo es porque tiene 4 en lugar de 5 que es el minimo denotado
por la variable Minpts (Nota: en la diapo hay un error, en q debera haber 4 y no 5 puntos)
Un punto fronterizo es aquel que se encuentra cerca de un cluster, sin embargo este no se
encuentra dentro del radio del punto ncleo, por lo que queda fuera del cluster.


Diapositiva 6
Definicin 2: Densidad Accesible directa
Un punto p tiene densidad accesible directa a un punto q si p pertenece a los puntos
vecinos de q, y el punto q tiene el mnimo numero de puntos requeridos para formar un
cluster.
q tiene densidad accesible directa desde p debido a que q pertenece a los puntos
vecinos de p y p cuenta con el numero mnimo de puntos requeridos dentro del cluster.
p no tiene densidad accesible directa desde q debido a que, si bien p es vecino de q,
q no cuenta con el numero minimo de puntos requeridos dentro del cluster.

Diapositva 7
Definicin 3: Densidad Accesible
Un punto p tiene densidad-accesible desde un punto q si existe una cadena de puntos p1,..., px,
con p1 = q y px = p, tal que pi+1 es directamente densidad-accesible de pi.
q tiene densidad accesible desde p debido a que un punto dentro de la cadena de
puntos entre q y p tiene densidad accesible directa a otro punto dentro de p.
p no tiene densidad accesible desde q debido a ningn punto de la cadena desde q
tiene densidad accesible a un punto de p debido a la condicin de el minimo de puntos
requeridos dentro del cluster.
La densidad accesible es asimtrica debido a que un lado es densamente accesible al otro,
sin que este tambin sea densamente accesible al primero.
Definicin 4: Densidad Conectada
Un punto p tiene densidad - conectada a un punto q si hay un punto tal al que ambos, p y q,
tengan densidad-accesible.
p y q son densamente conectados por r debido a que tanto q como p tienen densidad
accesible al punto r.
La densidad conectada es simtrica ya que ambos son densamente accesible desde el punto r y
viceversa.

Diapositiva 8
Clster y Ruido (Noise)
Un clster es un subconjunto no vaco de D (la base de datos) que cumple con la condiciones pre
establecidas por el usuario, en este caso podemos tomar el radio del cluster en base a un core
point o punto nucleo, y al minimo numero de puntos requerido para formar un cluster.
El ruido o Noise se define como el conjunto de puntos dentro de la base de datos que no
pertenecen a ningn grupo o cluster.

Diapositiva 9
Pseudocodigo DBSCAN
Explicar el pseudocodigo

Diapositiva 10 y 11
Explicar el ejemplo



Diapositiva 12 y 13
El algoritmo DBSCAN no es capaz de encontrar clster de datos con densidades variadas. El
Algoritmo VDBSCAN detecta estos clusters con densidades variadas, asimismo selecciona
automticamente varios valores de parmetro de entrada Eps (que es el radio de cada cluster)
para las diferentes densidades. Incluso el parmetro k (que es la distancia entre dos puntos, lo
mismo que dist) se genera automticamente basndose en las caractersticas de los conjuntos de
datos.
VDBSCAN tiene la misma complejidad de tiempo como DBSCAN y puede identificar grupos con
diferentes densidades que no son posibles en el algoritmo DBSCAN. Incluso los parmetros de
entrada (Eps) se generan automticamente a partir de los conjuntos de datos.

Explicar el ejemplo

Diapositiva 14, 15 y 16
DBSCAN es un algoritmo pionero de agrupamiento basado en densidad, que detecta grupos con
diferentes formas y tamaos pero es incapaz de detectar los clusters con variadas densidades que
existe dentro de un cluster. Algoritmo de DVBSCAN se encarga de la variacin de la densidad local
(es decir la que existe dentro de los cluster que ya se formaron). Los parmetros de entrada
utilizados en este algoritmo son objetos mnimos (Minpts), radio (Eps). Calcula la media de la
densidad creciente de clster y la varianza de densidad de clster para cualquier objeto del
ncleo, que se supone ser ampliado ms lejos, pero teniendo en cuenta la densidad de su barrio E
con respecto a la densidad de clster.
El DVBSCAN es capaz de manejar las variaciones de densidad que existen dentro del cluster. Los
grupos detectados por este algoritmo tienen variacin considerable densidad dentro de los
racimos. Los grupos detectados son no slo separados por la regin escasa pero tambin
separados por las regiones con la variacin de la densidad. Supera el DBSCAN, especialmente en el
caso de la densidad local [10]. como se muestra en la figura 1 y figura 2 este algoritmo encuentra
los grupos que representan a regiones relativamente uniformes sin estar separadas por escasas
regiones. Los parmetros y se utilizan para limitar la cantidad de variaciones de la densidad
local permitida dentro del clster.
Explicar el ejemplo

Diapositiva 17
Este nuevo algoritmo de agrupamiento DBCLASD detecta los clster de forma arbitraria y no
requiere ningn parmetro de entrada. La eficacia de DBCLASD en grandes bases de datos
espaciales tambin es muy atractiva.
DBCLASD es un algoritmo incremental, la asignacin de un punto a un clster se basa nicamente
en los puntos tratados hasta ahora sin considerar toda la base de datos.
Gradualmente aumenta un clster inicial por sus vecinos puntos mientras la distancia del vecino
ms cercano de la agrupacin resultante ajusta a la distribucin de la distancia prevista.
El enfoque incremental implica que una dependencia inherente de descubrir los cluster con la
generacin y probar a los candidatos. El orden de los candidatos la prueba es crucial. Los
candidatos que no son aceptados por la prueba por primera vez se llaman a candidatos
fracasados, quienes volvern a ser probados posteriormente.
Algoritmo de DBCLASD se basa en la suposicin de que los puntos dentro de un cluster estn
distribuidos uniformemente. La aplicacin de DBCLASD terremotos demuestra que tambin
funciona con eficacia real de bases de datos donde los datos se distribuyen uniformemente no
exactamente.

Diapositiva 18
ST DBSCAN
Explicar lo que dice la diapositiva mas esto:
Datos espacial-temporal se refieren a los datos que se almacenan como rebanadas temporales del
conjunto de datos espacial. El descubrimiento de conocimiento en datos espacio-temporales es
complejo que los datos no espaciales y temporales. As este algoritmo ST_DBSCAN [12] puede ser
utilizado en muchas aplicaciones tales como sistemas de informacin geogrfica, imgenes
mdicas y pronsticos meteorolgicos.

Diapositiva 19 y 20
Conclusiones y cuadro final donde se explica la diferencia entre todos los algoritmos vistos.

Diapositiva 21
Referencia

GRACIAS

FIN