Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introducción.................................................................................................................................3
Marco teórico...............................................................................................................................4
Resultados de la aplicación del algoritmo....................................................................................6
Resultado de la aplicación del algoritmo......................................................................................7
Gráficos obtenidos:......................................................................................................................8
Conclusión:..................................................................................................................................9
Recomendaciones.......................................................................................................................10
Bibliografía................................................................................................................................11
Introducción
Hay que recalcar que los algoritmos de agrupamiento han abordado estos problemas de
eficiencia pero solos parcialmente. Por ejemplo, los arboles KD [15] proporciona una
agrupaciones eficiente de muchos elementos al estilo EM, pero requiere que la
dimensión de cada elemento sea pequeña.
Cuando el problema es grande en todas estas tres formas en una sola, la idea clave es
realizar una agrupación en dos etapas; primero una etapa aproximada y rápida que
divide los datos en subconjuntos superpuestos que llamamos toldos. Luego una etapa
mas rigurosa etapa final en la que son costosas mediciones de distancias solo se hace
entre puntos que ocurren en un dosel común.
Marco teórico
Estrategia de paralelización
Diseño de implementación
Durante el paso del mapa, cada mapeador procesa un subconjunto de los puntos totales
y aplica la medida de la distancia y los umbrales elegidos para generar los toldos. En el
asignador, cada punto que se encuentre dentro de un dosel existente se agregará a una
lista interna de Canopies. Después de observar todos sus vectores de entrada, el
asignador actualiza todos sus Canopies y normaliza sus totales para producir centroides
de dosel que se emiten, usando una tecla constante ("centroide") en un solo reductor. El
reductor recibe todos los centroides iniciales y nuevamente aplica la medida y los
umbrales del dosel para producir un conjunto final de centroides del dosel que se emite
(es decir, agrupando los centroides del grupo). El formato de salida del reductor es:
SequenceFile con la clave que codifica el identificador del dosel.
Fase de agrupamiento
Durante la fase de agrupamiento, cada mapeador lee los Canopies producidos por la
primera fase. Dado que todos los mapeadores tienen las mismas definiciones de dosel,
sus resultados se combinarán durante la combinación para que cada reductor (se
permiten muchos aquí) vea todos los puntos asignados a uno o más dosel. El formato de
salida será: SequenceFile con la clave que codifica el
canopyId. WeightedVectorWritable tiene dos campos: un doble peso y un vector
VectorWritable. Juntos codifican la probabilidad de que cada vector sea miembro del
dosel dado.
Resultados de la aplicación del algoritmo
El enfoque de dosel es ampliamente aplicable debido a sus medidas baratas que pueden
ser aplicadas ignorando los puntos fueras de los toldos iniciales, en comparación de
algunos atributos de un registro complejo, o encontrar similitudes utilizando un índice
invertido.
https://blog.mdcloud.es/que-es-data-mining-algoritmos-y-ejemplos/
https://rockcontent.com/es/blog/como-hacer-una-introduccion/
http://mahout.apache.org//users/clustering/canopy-clustering.html
http://www.kamalnigam.com/papers/canopy-kdd00.pdf