ExposicionCanopy Final-Scribb

Índice
Introducción.................................................................................................................................3
Marco teórico...............................................................................................................................4
Resultados de la aplicación del algoritmo....................................................................................6
Resultado de la aplicación del algoritmo......................................................................................7
Gráficos obtenidos:......................................................................................................................8
Conclusión:..................................................................................................................................9
Recomendaciones.......................................................................................................................10
Bibliografía................................................................................................................................11
Introducción
Actualmente la gestión de la información almacenada en bases de datos es de vital

importancia para las compañías que ponen el análisis de datos como uno de sus
principales fortalezas para tomar decisiones o analizar patrones dentro del modelo de
negocio.
Sin embargo, los algoritmos de agrupamiento tradicionales se vuelven

computacionalmente costoso cuando el conjunto de daros a agrupar es grande. Hay tres
formas diferentes en que el conjunto de datos puede ser grande.
1. Puede haber una gran cantidad de elementos en el conjunto de datos.
2. Cada elemento puede tener muchas características.
3. Puede haber muchos grupos para descubrir.
Hay que recalcar que los algoritmos de agrupamiento han abordado estos problemas de
eficiencia pero solos parcialmente. Por ejemplo, los arboles KD [15] proporciona una
agrupaciones eficiente de muchos elementos al estilo EM, pero requiere que la
dimensión de cada elemento sea pequeña.
Como otro ejemplo el algoritmo [3] realiza eficientemente la agrupación de K-means

encontrando buenos puntos de partida iniciales, pero no tan eficiente cuando el número
de grupo es grande.
Es importante recalcar que no se ha logrado obtener el funcionamiento correcto de

algoritmos cuando el conjunto de datos es grande en los tres sentidos a la vez, es decir,
cuando hay millones de elementos, miles de características y miles de racimos.
Cuando el problema es grande en todas estas tres formas en una sola, la idea clave es
realizar una agrupación en dos etapas; primero una etapa aproximada y rápida que
divide los datos en subconjuntos superpuestos que llamamos toldos. Luego una etapa
mas rigurosa etapa final en la que son costosas mediciones de distancias solo se hace
entre puntos que ocurren en un dosel común.
Marco teórico
Agrupación de dosel: Es un método muy simple, rápido y sorprendentemente preciso

para agrupar objetos en grupos. Todos los objetos se representan como un punto en un
espacio de características multidimensionales. El algoritmo utiliza una métrica de
distancia aproximada rápida y dos umbrales de distancia T1> T2 para el
procesamiento. El algoritmo básico es comenzar con un conjunto de puntos y eliminar
uno al azar. Cree un dosel que contenga este punto e itere por el resto del conjunto de
puntos. En cada punto, si su distancia desde el primer punto es <T1, agregue el punto al
clúster. Si, además, la distancia es <T2, elimine el punto del conjunto. De esta manera,
los puntos que están muy cerca del original evitarán todo el procesamiento posterior. El
algoritmo se repite hasta que el conjunto inicial está vacío, acumulando un conjunto de
Canopies, cada uno con uno o más puntos.
Estrategia de paralelización
El procesamiento se realiza en 3 paso:
1. Los datos se combinan en un formato de entrada adecuado.

2. Cada mapeador realiza agrupación de dosel en los puntos en su conjunto de
entrada y emite los centros de su dosel
3. El reductor agrupa los centros de dosel para producir los centros finales de dosel
4. Los puntos se agrupan en estos dosel finales
Diseño de implementación
Los puntos pueden expresarse como vectores densos o dispersos y el procesamiento se

realiza en dos fases: generación de dosel y, opcionalmente, agrupamiento.
Fase de generación de dosel
Durante el paso del mapa, cada mapeador procesa un subconjunto de los puntos totales
y aplica la medida de la distancia y los umbrales elegidos para generar los toldos. En el
asignador, cada punto que se encuentre dentro de un dosel existente se agregará a una
lista interna de Canopies. Después de observar todos sus vectores de entrada, el
asignador actualiza todos sus Canopies y normaliza sus totales para producir centroides
de dosel que se emiten, usando una tecla constante ("centroide") en un solo reductor. El
reductor recibe todos los centroides iniciales y nuevamente aplica la medida y los
umbrales del dosel para producir un conjunto final de centroides del dosel que se emite
(es decir, agrupando los centroides del grupo). El formato de salida del reductor es:
SequenceFile con la clave que codifica el identificador del dosel.
Fase de agrupamiento
Durante la fase de agrupamiento, cada mapeador lee los Canopies producidos por la
primera fase. Dado que todos los mapeadores tienen las mismas definiciones de dosel,
sus resultados se combinarán durante la combinación para que cada reductor (se
permiten muchos aquí) vea todos los puntos asignados a uno o más dosel. El formato de
salida será: SequenceFile con la clave que codifica el
canopyId. WeightedVectorWritable tiene dos campos: un doble peso y un vector
VectorWritable. Juntos codifican la probabilidad de que cada vector sea miembro del
dosel dado.
Resultados de la aplicación del algoritmo
1. Seleccionar el archivo para aplicar el algoritmo requerido (Canopy). En este caso se

utilizó el archivo arff Soybean.
2. Información del archivo dentro de WEKA:

3. Seleccionar el agrupamiento a usar (En nuestro caso “Canopy”)
Resultado de la aplicación del algoritmo

Gráficos obtenidos:
Conclusión:
El algoritmo de agrupación de dosel también es un algoritmo de pre-agrupamiento no

supervisado, a menudo utilizado como paso de preprocesamiento para “K-means”
algoritmo o algoritmo de agrupamiento jerárquico. Pretende acelerar las operaciones de
agrupamiento en grandes conjuntos de datos, dado que el algoritmo usa funciones de
distancia y requiere la especificación de distancia de umbrales, su aplicabilidad para
datos de alta dimensión está limitada por el problema que trae las dimensiones.
El agrupamiento de dosel es muy simple, rápido y método sorprendentemente preciso

para agrupar objetos en grupos, por lo tanto, se puede utilizar en el concepto de
MapReduce usando clúster hadoop en para mejorar las técnicas de agrupamiento.
También se puede usar la idea del dosel para acelerar métodos de agrupamiento basados
en prototipos como “K-means” y “Expectation-Maximization” (EM).
Recomendaciones
Al realizar investigaciones que requieren del análisis de mediciones de grandes

cantidades, se aconseja el uso del algoritmo de canopy debido a que, al implementar
este tipo de agrupamiento inicial, el número de mediciones de distancia más costosas
puede verse reducido significativamente al ignorar los puntos fuera de los círculos
iniciales que se vayan a analizar.
El enfoque de dosel es ampliamente aplicable debido a sus medidas baratas que pueden
ser aplicadas ignorando los puntos fueras de los toldos iniciales, en comparación de
algunos atributos de un registro complejo, o encontrar similitudes utilizando un índice
invertido.
La medida costosa puede usar medidas de similitud detalladas, como la distancia de

edición de cadena calculada con dinámica programación.
Bibliografía
https://blog.mdcloud.es/que-es-data-mining-algoritmos-y-ejemplos/
https://rockcontent.com/es/blog/como-hacer-una-introduccion/
http://mahout.apache.org//users/clustering/canopy-clustering.html
http://www.kamalnigam.com/papers/canopy-kdd00.pdf

ExposicionCanopy Final-Scribb

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

ExposicionCanopy Final-Scribb

Cargado por

Copyright:

Formatos disponibles

Índice

Actualmente la gestión de la información almacenada en bases de datos es de vital

Sin embargo, los algoritmos de agrupamiento tradicionales se vuelven

1. Puede haber una gran cantidad de elementos en el conjunto de datos.

2. Cada elemento puede tener muchas características.

3. Puede haber muchos grupos para descubrir.

Como otro ejemplo el algoritmo [3] realiza eficientemente la agrupación de K-means

Es importante recalcar que no se ha logrado obtener el funcionamiento correcto de

Agrupación de dosel: Es un método muy simple, rápido y sorprendentemente preciso

El procesamiento se realiza en 3 paso:

1. Los datos se combinan en un formato de entrada adecuado.

Los puntos pueden expresarse como vectores densos o dispersos y el procesamiento se

Fase de generación de dosel

1. Seleccionar el archivo para aplicar el algoritmo requerido (Canopy). En este caso se

2. Información del archivo dentro de WEKA:

Resultado de la aplicación del algoritmo

El algoritmo de agrupación de dosel también es un algoritmo de pre-agrupamiento no

El agrupamiento de dosel es muy simple, rápido y método sorprendentemente preciso

Al realizar investigaciones que requieren del análisis de mediciones de grandes

La medida costosa puede usar medidas de similitud detalladas, como la distancia de

También podría gustarte