0 calificaciones0% encontró este documento útil (0 votos)
2 vistas4 páginas
El documento describe diferentes métodos para determinar el número óptimo de clusters en un análisis de agrupamiento. Explica la distancia euclidiana y cómo se calcula. También describe el método Elbow, que escoge el número de clusters a partir del cual añadir más apenas mejora la varianza total intra-cluster. Además, presenta el método Average Silhouette, que selecciona el número de clusters que maximiza la media del coeficiente de silueta de todas las observaciones. Finalmente, menciona brevemente el estadístico GAP.
El documento describe diferentes métodos para determinar el número óptimo de clusters en un análisis de agrupamiento. Explica la distancia euclidiana y cómo se calcula. También describe el método Elbow, que escoge el número de clusters a partir del cual añadir más apenas mejora la varianza total intra-cluster. Además, presenta el método Average Silhouette, que selecciona el número de clusters que maximiza la media del coeficiente de silueta de todas las observaciones. Finalmente, menciona brevemente el estadístico GAP.
El documento describe diferentes métodos para determinar el número óptimo de clusters en un análisis de agrupamiento. Explica la distancia euclidiana y cómo se calcula. También describe el método Elbow, que escoge el número de clusters a partir del cual añadir más apenas mejora la varianza total intra-cluster. Además, presenta el método Average Silhouette, que selecciona el número de clusters que maximiza la media del coeficiente de silueta de todas las observaciones. Finalmente, menciona brevemente el estadístico GAP.
La distancia euclídea entre dos puntos pp y qq se define como la
longitud del segmento que une ambos puntos. En coordenadas cartesianas, la distancia euclídea se calcula empleando el teorema de Pitágoras. Método Elbow
El método Elbow calcula la varianza total intra-cluster en función
del número de clusters y escoge como óptimo aquel valor a partir del cual añadir más clusters apenas consigue mejoría. Método Average Silhouette
El método de average silhouette considera como número óptimo
de clusters aquel que maximiza la media del silhouette coeficient de todas las observaciones.
El silhouette coeficient (si)(si) cuantifica cómo de buena es la
asignación que se ha hecho de una observación comparando su similitud con el resto de observaciones de su cluster frente a las de los otros clusters. Su valor puede estar entre -1 y 1, siendo valores próximos a 1 un indicativo de que la observación se ha asignado al cluster correcto Estadístico GAP