Está en la página 1de 11

Índice

Introducción.................................................................................................................................3
Marco teórico...............................................................................................................................4
Resultados de la aplicación del algoritmo....................................................................................6
Resultado de la aplicación del algoritmo......................................................................................7
Gráficos obtenidos:......................................................................................................................8
Conclusión:..................................................................................................................................9
Recomendaciones.......................................................................................................................10
Bibliografía................................................................................................................................11
Introducción

Actualmente la gestión de la información almacenada en bases de datos es de vital


importancia para las compañías que ponen el análisis de datos como uno de sus
principales fortalezas para tomar decisiones o analizar patrones dentro del modelo de
negocio.

Sin embargo, los algoritmos de agrupamiento tradicionales se vuelven


computacionalmente costoso cuando el conjunto de daros a agrupar es grande. Hay tres
formas diferentes en que el conjunto de datos puede ser grande.

1. Puede haber una gran cantidad de elementos en el conjunto de datos.

2. Cada elemento puede tener muchas características.

3. Puede haber muchos grupos para descubrir.

Hay que recalcar que los algoritmos de agrupamiento han abordado estos problemas de
eficiencia pero solos parcialmente. Por ejemplo, los arboles KD [15] proporciona una
agrupaciones eficiente de muchos elementos al estilo EM, pero requiere que la
dimensión de cada elemento sea pequeña.

Como otro ejemplo el algoritmo [3] realiza eficientemente la agrupación de K-means


encontrando buenos puntos de partida iniciales, pero no tan eficiente cuando el número
de grupo es grande.

Es importante recalcar que no se ha logrado obtener el funcionamiento correcto de


algoritmos cuando el conjunto de datos es grande en los tres sentidos a la vez, es decir,
cuando hay millones de elementos, miles de características y miles de racimos.

Cuando el problema es grande en todas estas tres formas en una sola, la idea clave es
realizar una agrupación en dos etapas; primero una etapa aproximada y rápida que
divide los datos en subconjuntos superpuestos que llamamos toldos. Luego una etapa
mas rigurosa etapa final en la que son costosas mediciones de distancias solo se hace
entre puntos que ocurren en un dosel común.
Marco teórico

Agrupación de dosel: Es un método muy simple, rápido y sorprendentemente preciso


para agrupar objetos en grupos. Todos los objetos se representan como un punto en un
espacio de características multidimensionales. El algoritmo utiliza una métrica de
distancia aproximada rápida y dos umbrales de distancia T1> T2 para el
procesamiento. El algoritmo básico es comenzar con un conjunto de puntos y eliminar
uno al azar. Cree un dosel que contenga este punto e itere por el resto del conjunto de
puntos. En cada punto, si su distancia desde el primer punto es <T1, agregue el punto al
clúster. Si, además, la distancia es <T2, elimine el punto del conjunto. De esta manera,
los puntos que están muy cerca del original evitarán todo el procesamiento posterior. El
algoritmo se repite hasta que el conjunto inicial está vacío, acumulando un conjunto de
Canopies, cada uno con uno o más puntos.

Estrategia de paralelización  

El procesamiento se realiza en 3 paso:

1. Los datos se combinan en un formato de entrada adecuado.


2. Cada mapeador realiza agrupación de dosel en los puntos en su conjunto de
entrada y emite los centros de su dosel
3. El reductor agrupa los centros de dosel para producir los centros finales de dosel
4. Los puntos se agrupan en estos dosel finales

Diseño de implementación

Los puntos pueden expresarse como vectores densos o dispersos y el procesamiento se


realiza en dos fases: generación de dosel y, opcionalmente, agrupamiento.

Fase de generación de dosel

Durante el paso del mapa, cada mapeador procesa un subconjunto de los puntos totales
y aplica la medida de la distancia y los umbrales elegidos para generar los toldos. En el
asignador, cada punto que se encuentre dentro de un dosel existente se agregará a una
lista interna de Canopies. Después de observar todos sus vectores de entrada, el
asignador actualiza todos sus Canopies y normaliza sus totales para producir centroides
de dosel que se emiten, usando una tecla constante ("centroide") en un solo reductor. El
reductor recibe todos los centroides iniciales y nuevamente aplica la medida y los
umbrales del dosel para producir un conjunto final de centroides del dosel que se emite
(es decir, agrupando los centroides del grupo). El formato de salida del reductor es:
SequenceFile con la clave que codifica el identificador del dosel.

Fase de agrupamiento

Durante la fase de agrupamiento, cada mapeador lee los Canopies producidos por la
primera fase. Dado que todos los mapeadores tienen las mismas definiciones de dosel,
sus resultados se combinarán durante la combinación para que cada reductor (se
permiten muchos aquí) vea todos los puntos asignados a uno o más dosel. El formato de
salida será: SequenceFile con la clave que codifica el
canopyId. WeightedVectorWritable tiene dos campos: un doble peso y un vector
VectorWritable. Juntos codifican la probabilidad de que cada vector sea miembro del
dosel dado.
Resultados de la aplicación del algoritmo

1. Seleccionar el archivo para aplicar el algoritmo requerido (Canopy). En este caso se


utilizó el archivo arff Soybean.

2. Información del archivo dentro de WEKA:


3. Seleccionar el agrupamiento a usar (En nuestro caso “Canopy”)

Resultado de la aplicación del algoritmo


Gráficos obtenidos:
Conclusión:

El algoritmo de agrupación de dosel también es un algoritmo de pre-agrupamiento no


supervisado, a menudo utilizado como paso de preprocesamiento para “K-means”
algoritmo o algoritmo de agrupamiento jerárquico. Pretende acelerar las operaciones de
agrupamiento en grandes conjuntos de datos, dado que el algoritmo usa funciones de
distancia y requiere la especificación de distancia de umbrales, su aplicabilidad para
datos de alta dimensión está limitada por el problema que trae las dimensiones.

El agrupamiento de dosel es muy simple, rápido y método sorprendentemente preciso


para agrupar objetos en grupos, por lo tanto, se puede utilizar en el concepto de
MapReduce usando clúster hadoop en para mejorar las técnicas de agrupamiento.
También se puede usar la idea del dosel para acelerar métodos de agrupamiento basados
en prototipos como “K-means” y “Expectation-Maximization” (EM).
Recomendaciones

Al realizar investigaciones que requieren del análisis de mediciones de grandes


cantidades, se aconseja el uso del algoritmo de canopy debido a que, al implementar
este tipo de agrupamiento inicial, el número de mediciones de distancia más costosas
puede verse reducido significativamente al ignorar los puntos fuera de los círculos
iniciales que se vayan a analizar.

El enfoque de dosel es ampliamente aplicable debido a sus medidas baratas que pueden
ser aplicadas ignorando los puntos fueras de los toldos iniciales, en comparación de
algunos atributos de un registro complejo, o encontrar similitudes utilizando un índice
invertido.

La medida costosa puede usar medidas de similitud detalladas, como la distancia de


edición de cadena calculada con dinámica programación.
Bibliografía

https://blog.mdcloud.es/que-es-data-mining-algoritmos-y-ejemplos/

https://rockcontent.com/es/blog/como-hacer-una-introduccion/

http://mahout.apache.org//users/clustering/canopy-clustering.html

http://www.kamalnigam.com/papers/canopy-kdd00.pdf

También podría gustarte