Está en la página 1de 103

ANALYTICS 2

Miguel Mejía Puente


Unidad 1 - Análisis de conglomerados,
clasificación y clusterización
1. Introducción
2. Análisis discriminante lineal
3. Análisis de conglomerados
4. Clasificador K-vecinos más cercanos
5. Máquinas de Vectores de Soporte
6. Clasificador Bayesiano (Naïve Bayes)

22/8/2022 Miguel Mejía Puente 2


Análisis de conglomerados
Gallardo, J. A. (2011). Análisis de Datos Multivariantes. 3a Diplomatura
de Estadística. Curso 2011-12.
Johnson, Richard A.; Wichern, Dean (2014). Applied Multivariate
Statistical Analysis.
Veliz Capuñay, Carlos (2017). Analisis Multivariante.

22/8/2022 Miguel Mejía Puente 3


Análisis de conglomerados (Clustering
Analysis) - 1
El análisis de conglomerados, también conocido como análisis clúster,
comprende una serie de técnicas descriptivas del análisis multivariado.
Tiene por objetivo la clasificación o agrupamiento de individuos u
objetos en clases o conglomerados a partir de mediciones realizadas en
ellos, de tal manera que dentro de los grupos se reúnan los elementos
más homogéneos y que entre los grupos exista la mayor heterogeneidad.
El resultado es la clasificación de entidades a partir de sus atributos en
grupos que no son definidos a priori, sino que son descubiertos por el
análisis.

22/8/2022 Miguel Mejía Puente 4


Análisis de conglomerados (Clustering
Analysis) - 2
La clasificación es una herramienta que se aplica para comprender y
abordar los fenómenos de manera diferenciada, de ahí la importancia
de este análisis.

Ejemplos.- Se forman grupos de clientes de un banco con base en su


edad, salario, tipo y número de tarjetas que poseen. Se forman grupos
de usuarios de servicios de salud, teniendo en cuenta la edad, la
presión arterial sistólica, el nivel de colesterol.

22/8/2022 Miguel Mejía Puente 5


Análisis de conglomerados (Clustering
Analysis) - 3
Aplicaciones
• En Mercadotecnia, para formar segmentos de clientes que tienen
comportamientos de compra semejantes y así poder diseñar estrategias de
ventas que mejor se adapten a cada segmento formado.
• En Finanzas, se usa para encontrar grupos de acciones que presenten
oportunidades de inversión, basándose en las tasas de retorno, volatilidad,
coeficiente beta.

Hay dos categorías de métodos para formar conglomerados: métodos


jerárquicos y métodos no jerárquicos.

22/8/2022 Miguel Mejía Puente 6


Métodos Jerárquicos (Hierarchical Methods) -
1
Los métodos jerárquicos tienen por objetivo agrupar clústeres para
formar uno nuevo o bien separar alguno ya existente para dar origen a
otros dos, de tal forma que se minimice alguna función distancia o bien
se maximice alguna medida de similitud.

Los métodos jerárquicos se subdividen a su vez en métodos


aglomerativos y métodos divisivos.

22/8/2022 Miguel Mejía Puente 7


Métodos Jerárquicos (Hierarchical Methods) -
2
Los métodos aglomerativos comienzan el análisis con tantos grupos
como individuos haya en el estudio. A partir de ahí se van formando
grupos de forma ascendente, hasta que, al final del proceso, todos los
casos están englobados en un mismo conglomerado.

Los métodos divisivos o disociativos empiezan con un conglomerado


que engloba a todos los individuos. A partir de este grupo inicial se van
formando, a través de sucesivas divisiones, grupos cada vez más
pequeños. Al final del proceso se tienen tantos grupos como individuos
en la muestra estudiada.
22/8/2022 Miguel Mejía Puente 8
Métodos Jerárquicos (Hierarchical Methods) -
3
Independientemente del proceso de agrupamiento, hay diversos
criterios para ir formando los conglomerados; todos estos criterios se
basan en una matriz de distancias o similitudes.

Dentro de los métodos aglomerativos destacan: el método del enlace


simple, el método del enlace completo, el método del enlace
promedio, el método del centroide, el método de la mediana y el
método de Ward.

22/8/2022 Miguel Mejía Puente 9


Métodos Jerárquicos (Hierarchical Methods) -
4
Dentro de los métodos divisivos destacan, además de los anteriores
que siguen siendo validos, el análisis de asociación y el detector
automático de interacción.

22/8/2022 Miguel Mejía Puente 10


Métodos no Jerárquicos (Non Hierarchical
Methods) - 1
Los métodos no jerárquicos, también conocidos como partitivos o de
optimización, tienen por objetivo realizar una sola partición de los
individuos en K grupos. Ello implica que el investigador debe especificar
a priori los grupos que deben ser formados. La asignación de individuos
a los grupos se hace mediante algún proceso que optimice el criterio de
selección.

Usan la matriz de datos original y no precisan su conversión en una


matriz de distancias o similitudes.

22/8/2022 Miguel Mejía Puente 11


Métodos no Jerárquicos (Non Hierarchical
Methods) - 2
Los métodos no jerárquicos se agrupan en métodos de reasignación,
métodos de búsqueda de la densidad, métodos directos y métodos de
reducción de dimensiones.

22/8/2022 Miguel Mejía Puente 12


Métodos no Jerárquicos (Non Hierarchical
Methods) - 3
Los métodos de reasignación permiten que un individuo asignado a un
grupo en un determinado paso del proceso sea reasignado a otro
grupo en un paso posterior, si ello optimiza el criterio de selección. El
proceso acaba cuando no quedan individuos cuya reasignación permita
optimizar el resultado que se ha conseguido. Dentro de los métodos de
reasignación están: el método K-Medias, el análisis Quick-Clúster, el
método de Forgy y el método de las nubes dinámicas.

22/8/2022 Miguel Mejía Puente 13


Métodos no Jerárquicos (Non Hierarchical
Methods) - 4
Los métodos de búsqueda de la densidad comprenden los que
proporcionan una aproximación tipológica y una aproximación
probabilística. En el primer tipo, los grupos se forman buscando las
zonas en las cuales se da una mayor concentración de individuos. Entre
ellos destacan: el análisis modal de Wishart, el método Taxmap y el
método de Fortin. En el segundo tipo se parte del postulado de que las
variables siguen una ley de probabilidad según la cual los parámetros
varían de un grupo a otro. Se trata de encontrar los individuos que
pertenecen a la misma distribución. Entre los métodos de este tipo
destaca el método de las combinaciones de Wolf.
22/8/2022 Miguel Mejía Puente 14
Métodos no Jerárquicos (Non Hierarchical
Methods) - 5
Los métodos directos permiten clasificar simultáneamente a los
individuos y a las variables. El algoritmo más conocido dentro de este
grupo es el Block-Clustering.

Los métodos de reducción de dimensiones consisten en la búsqueda de


unos factores en el espacio de los individuos; cada factor corresponde a
un grupo. Se les conoce como Análisis Factorial tipo Q.

22/8/2022 Miguel Mejía Puente 15


Método K-Medias (K-Means Method) - 1
MacQueen, en 1972, emplea el término K-Medias para denotar el
proceso de asignar cada individuo al clúster, de los K prefijados, con el
centroide más próximo. La clave de este procedimiento radica en que
el centroide se calcula a partir de los miembros del clúster tras cada
asignación.

22/8/2022 Miguel Mejía Puente 16


Método K-Medias (K-Means Method) - 2
El algoritmo que propuso es el siguiente:
1. Dividir los elementos en K clústeres iniciales.
2. Proceder a través de la lista de elementos, asignando un elemento
al clúster cuyo centroide (media) es más cercano. La distancia
generalmente se calcula utilizando la distancia euclidiana con
observaciones estandarizadas o no estandarizadas. Volver a calcular
el centroide para el clúster que gana el elemento y para el clúster
que pierde el elemento.
3. Repetir el Paso 2 hasta que no se realicen más reasignaciones.

22/8/2022 Miguel Mejía Puente 17


Método K-Medias (K-Means Method) - 3
En lugar de comenzar con una partición de todos los elementos en
grupos preliminares K en el Paso 1, podríamos especificar K centroides
iniciales (puntos semilla) y luego continuar con el Paso 2.

La asignación final de elementos a los grupos dependerá, en cierta


medida, de la partición inicial o de la selección inicial de los puntos
semilla. La experiencia sugiere que la mayoría de los cambios
importantes en la asignación ocurren con el primer paso de
reasignación.

22/8/2022 Miguel Mejía Puente 18


Ejemplo de agrupamiento usando el método
K-Medias - 1
Supongamos que medimos dos variables 𝑥𝑥1 y 𝑥𝑥2 para cada uno de los
cuatro elementos A, B, C y D. Los datos se dan en la siguiente tabla:

Observaciones
Elemento 𝒙𝒙𝟏𝟏 𝒙𝒙𝟐𝟐
A 5 3
B -1 1
C 1 -2
D -3 -2

22/8/2022 Miguel Mejía Puente 19


Ejemplo de agrupamiento usando el método
K-Medias - 2
El objetivo es dividir estos elementos en K = 2 grupos de tal manera
que los elementos dentro de un clúster estén más cerca uno del otro
que de los elementos de diferentes grupos. Para implementar el
método K = 2-medias, particionamos (arbitrariamente) los elementos
en dos clústeres, como (AB) y (CD), y calculamos las coordenadas
(𝑥𝑥1̅ , 𝑥𝑥̅2 ) del centroide del clúster (media). Por lo tanto, en el Paso 1,
tenemos: Coordenadas del centroide
Clúster 𝑥𝑥̅1 𝑥𝑥̅2
5 + (−1) 3+1
(AB) =2 =2
2 2
1 + (−3) −2 + (−2)
(CD) = −1 = −2
2 2
22/8/2022 20
Ejemplo de agrupamiento usando el método
K-Medias - 3
En el Paso 2, calculamos la distancia euclidiana al cuadrado de cada
elemento de los centroides del grupo y reasignamos cada elemento al
grupo más cercano. Si un elemento se mueve de la configuración
inicial, los centroides del clúster (medias) deben actualizarse antes de
continuar. La coordenada i-ésima, del centroide se actualiza fácilmente
utilizando las fórmulas:
𝑛𝑛𝑥𝑥̅𝑖𝑖 + 𝑥𝑥𝑗𝑗𝑗𝑗
𝑥𝑥̅𝑖𝑖,𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 = , si el 𝑗𝑗 − é𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 elemento es agregado a un grupo
𝑛𝑛 + 1
𝑛𝑛𝑥𝑥̅𝑖𝑖 − 𝑥𝑥𝑗𝑗𝑗𝑗
𝑥𝑥̅𝑖𝑖,𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 = , si el 𝑗𝑗 − é𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 elemento es separado de un grupo
𝑛𝑛 − 1

22/8/2022 Miguel Mejía Puente 21


Ejemplo de agrupamiento usando el método
K-Medias - 4
Aquí n es el número de elementos en el grupo "antiguo" con centroide
𝑥𝑥̅ ′ = (𝑥𝑥̅1 , 𝑥𝑥̅2 , … 𝑥𝑥̅𝑝𝑝 ).

Considere los grupos iniciales (AB) y (CD). Las coordenadas de los


centroides son (2, 2) y (-1, -2) respectivamente.

Supongamos que el elemento A con coordenadas (5, 3) se mueve al


grupo (CD). Los nuevos grupos son (B) y (ACD) con centroides
actualizados:

22/8/2022 Miguel Mejía Puente 22


Ejemplo de agrupamiento usando el método
K-Medias - 5
𝑛𝑛𝑥𝑥̅ 1 −𝑥𝑥11 2 2 −5 𝑛𝑛𝑥𝑥̅ 2 −𝑥𝑥12 2 2 −3
Grupo (B): 𝑥𝑥̅1,𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 = = = −1 y 𝑥𝑥̅2,𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 = = =1
𝑛𝑛−1 2−1 𝑛𝑛−1 2−1

𝑛𝑛𝑥𝑥̅ 1 +𝑥𝑥11 2 −1 +5 𝑛𝑛𝑥𝑥̅ 2 +𝑥𝑥12 2 −2 +3


Grupo (ACD): 𝑥𝑥̅1,𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 = 𝑛𝑛+1
= 2+1
= 1 y 𝑥𝑥̅2,𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 = 𝑛𝑛+1
= 2+1
=
− 0.333

Volviendo a las agrupaciones iniciales en el Paso 1, calculamos las


distancias euclidianas al cuadrado.

22/8/2022 Miguel Mejía Puente 23


Ejemplo de agrupamiento usando el método
K-Medias - 6
Si A no es movido
𝑑𝑑 2 𝐴𝐴, 𝐴𝐴𝐴𝐴 = (5 − 2)2 +(3 − 2)2 = 10
𝑑𝑑 2 𝐴𝐴, 𝐶𝐶𝐶𝐶 = (5 − (−1))2 +(3 − (−2))2 = 61

Si A es movido al grupo (CD)


𝑑𝑑 2 𝐴𝐴, 𝐵𝐵 = (5 − (−1))2 +(3 − 1)2 = 40
𝑑𝑑 2 𝐴𝐴, 𝐴𝐴𝐴𝐴𝐴𝐴 = (5 − 1)2 +(3 − (−0.333))2 = 27.089

Dado que A está más cerca del centro de (AB) que del centro de (ACD),
no se reasigna.
22/8/2022 Miguel Mejía Puente 24
Ejemplo de agrupamiento usando el método
K-Medias - 7
Continuando, supongamos que el elemento B con coordenadas (-1, 1)
se mueve al grupo (CD). Los nuevos grupos son (A) y (BCD) con
centroides actualizados:

𝑛𝑛𝑥𝑥̅ 1 −𝑥𝑥21 2 2 −(−1) 𝑛𝑛𝑥𝑥̅ 2 −𝑥𝑥22 2 2 −1


Grupo (A): 𝑥𝑥̅1,𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 = = = 5 y 𝑥𝑥̅2,𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 = = =3
𝑛𝑛−1 2−1 𝑛𝑛−1 2−1

𝑛𝑛𝑥𝑥̅ 1 +𝑥𝑥21 2 −1 +(−1) 𝑛𝑛𝑥𝑥̅ 2 +𝑥𝑥22


Grupo (BCD): 𝑥𝑥̅1,𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 = 𝑛𝑛+1
= 2+1
= −1 y 𝑥𝑥̅2,𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 = 𝑛𝑛+1
=
2 −2 +1
2+1
= −1

22/8/2022 Miguel Mejía Puente 25


Ejemplo de agrupamiento usando el método
K-Medias - 8
Volviendo a las agrupaciones iniciales en el Paso 1, calculamos las
distancias euclidianas al cuadrado.

Si B no es movido
𝑑𝑑 2 𝐵𝐵, 𝐴𝐴𝐴𝐴 = (−1 − 2)2 +(1 − 2)2 = 10
𝑑𝑑 2 𝐵𝐵, 𝐶𝐶𝐶𝐶 = (−1 − (−1))2 +(1 − (−2))2 = 9

Si B es movido al grupo (CD)


𝑑𝑑 2 𝐵𝐵, 𝐴𝐴 = (−1 − 5)2 +(1 − 3)2 = 40
𝑑𝑑 2 𝐵𝐵, 𝐵𝐵𝐵𝐵𝐵𝐵 = (−1 − (−1))2 +(1 − (−1))2 = 4
22/8/2022 Miguel Mejía Puente 26
Ejemplo de agrupamiento usando el método
K-Medias - 9
Dado que B está más cerca del centro del grupo (BCD) que del centro
del grupo (AB), B se reasigna al grupo (CD). Ahora tenemos los clústeres
(A) y (BCD) con coordenadas de centroide (5, 3) y (-1, -1)
respectivamente.

22/8/2022 Miguel Mejía Puente 27


Ejemplo de agrupamiento usando el método
K-Medias - 10
Continuando, supongamos que el elemento C con coordenadas (1, -2)
se mueve al grupo (A). Los nuevos grupos son (AC) y (BD) con
centroides actualizados:

𝑛𝑛𝑥𝑥̅ 1 +𝑥𝑥31 1 5 +1 𝑛𝑛𝑥𝑥̅ 2 +𝑥𝑥32 1 3 −2


Grupo (AC): 𝑥𝑥1,𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛
̅ = = = 3 y 𝑥𝑥̅2,𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 = = = 0.5
𝑛𝑛+1 1+1 𝑛𝑛+1 1+1

𝑛𝑛𝑥𝑥̅ 1 −𝑥𝑥31 3 −1 −1 𝑛𝑛𝑥𝑥̅ 2 −𝑥𝑥32


Grupo (BD): 𝑥𝑥̅1,𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 = 𝑛𝑛−1
= 3−1
= −2 y 𝑥𝑥̅2,𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 = 𝑛𝑛−1
=
3 −1 −(−2)
3−1
= −0.5

22/8/2022 Miguel Mejía Puente 28


Ejemplo de agrupamiento usando el método
K-Medias - 11
Volviendo a las últimas agrupaciones en el Paso 1, calculamos las
distancias euclidianas al cuadrado.

Si C no es movido
𝑑𝑑 2 𝐶𝐶, 𝐴𝐴 = (1 − 5)2 +(−2 − 3)2 = 41
𝑑𝑑 2 𝐶𝐶, 𝐵𝐵𝐵𝐵𝐵𝐵 = (1 − (−1))2 +(−2 − (−1))2 = 5

Si C es movido al grupo (A)


𝑑𝑑 2 𝐶𝐶, 𝐴𝐴𝐴𝐴 = (1 − 3)2 +(−2 − 0.5)2 = 10.25
𝑑𝑑 2 𝐶𝐶, 𝐵𝐵𝐵𝐵 = (1 − (−2))2 +(−2 − (−0.5))2 = 11.25
22/8/2022 Miguel Mejía Puente 29
Ejemplo de agrupamiento usando el método
K-Medias - 12

Dado que C está más cerca del centro del grupo (BCD) que del centro
del grupo (AC), C no se mueve. Continuando de esta manera,
encontramos que no se producen más reasignaciones y los K = 2 grupos
finales son (A) y (BCD).

Para los grupos finales, tenemos:

22/8/2022 Miguel Mejía Puente 30


Ejemplo de agrupamiento usando el método
K-Medias - 13
Distancias al cuadrado a los
centroides del grupo
Elementos
A B C D
Clúster
(5, 3) (-1, 1) (1, -2) (-3, -2)
A
0 40 41 89
(5, 3)
(BCD)
52 4 5 5
(-1, -1)

La suma de cuadrados dentro del clúster (suma de distancias al


cuadrado al centroide) es: Clúster A = 0 y Clúster (BCD) = 4 + 5 + 5 = 14

22/8/2022 Miguel Mejía Puente 31


Usando R
> # Crear el marco de datos
> X1 <- c(5, -1, 1, -3)
> X2 <- c(3, 1, -2, -2)
> Datos <- data.frame(X1, X2)

> # Ejecutar la función kmeans()


> kmeans.result <- kmeans(Datos, 2)

> # Conglomerados
> kmeans.result$cluster
[1] 2 1 1 1

22/8/2022 Miguel Mejía Puente 32


Medidas de similitud
Johnson, Richard A.; Wichern, Dean (2014). Applied
Multivariate Statistical Analysis.
Medidas de similitud (Similarity Measures) - 1
La mayoría de los esfuerzos para producir una estructura de grupo
bastante simple a partir de un conjunto de datos complejo requieren
una medida de "cercanía" o "similitud". A menudo hay una gran
cantidad de subjetividad involucrada en la elección de una medida de
similitud. Las consideraciones importantes incluyen la naturaleza de las
variables (discretas, continuas, binarias), las escalas de medición
(nominal, ordinal, intervalo, relación) y el conocimiento de la materia.

22/8/2022 Miguel Mejía Puente 34


Medidas de similitud (Similarity Measures) - 2
Cuando los elementos (unidades o casos) se agrupan, la proximidad
generalmente se indica por algún tipo de distancia. Por el contrario, las
variables generalmente se agrupan sobre la base de coeficientes de
correlación o medidas similares de asociación.

22/8/2022 Miguel Mejía Puente 35


Distancias y coeficientes de similitud para
pares de elementos
La distancia de Minkowski (en línea recta) entre dos observaciones p-
dimensionales (elementos) 𝑥𝑥 ′ = 𝑥𝑥1 , 𝑥𝑥2 , … , 𝑥𝑥𝑝𝑝 y 𝑦𝑦 ′ = 𝑦𝑦1 , 𝑦𝑦2 , … , 𝑦𝑦𝑝𝑝
es,
1�
𝑝𝑝 𝑚𝑚
𝑑𝑑 𝑥𝑥, 𝑦𝑦 = � 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖 𝑚𝑚

𝑖𝑖=1

Para m = 1, tenemos la distancia Manhattan o city block.


Para m = 2, tenemos la distancia euclidiana.

22/8/2022 Miguel Mejía Puente 36


Medidas de similitud para variables binarias - 1

Cuando los elementos no pueden ser representados por mediciones p-


dimensionales significativas, los pares de elementos a menudo se
comparan sobre la base de la presencia o ausencia de ciertas
características. Elementos similares tienen más características en
común que los elementos diferentes. La presencia o ausencia de una
característica se puede describir matemáticamente introduciendo una
variable binaria, que asume el valor 1 si la característica está presente y
el valor 0 si la característica está ausente. Para p = 5 variables binarias,
por ejemplo, las "puntuaciones" para dos elementos i y k podrían
organizarse de la siguiente manera:
22/8/2022 Miguel Mejía Puente 37
Medidas de similitud para variables binarias - 2
Variables
1 2 3 4 5
Elemento i 1 0 0 1 1
Elemento k 1 1 0 1 0

En este caso, hay dos coincidencias 1-1, una coincidencia 0-0 y dos
discrepancias.

Sea 𝑥𝑥𝑖𝑖𝑖𝑖 el puntaje (1 o 0) de la j-ésima variable binaria en el i-ésimo


elemento y 𝑥𝑥𝑗𝑗𝑗𝑗 el puntaje (de nuevo, 1 o 0) de la j-ésima variable en el
k-ésimo elemento. Donde j = 1, 2, …, p.

22/8/2022 Miguel Mejía Puente 38


Medidas de similitud para variables binarias - 3

En consecuencia,
2 0 𝑆𝑆𝑆𝑆 𝑥𝑥𝑖𝑖𝑖𝑖 = 𝑥𝑥𝑘𝑘𝑘𝑘 = 1 𝑜𝑜 𝑥𝑥𝑖𝑖𝑖𝑖 = 𝑥𝑥𝑘𝑘𝑘𝑘 = 0
𝑥𝑥𝑖𝑖𝑖𝑖 − 𝑥𝑥𝑘𝑘𝑘𝑘 =�
1 𝑆𝑆𝑆𝑆 𝑥𝑥𝑖𝑖𝑖𝑖 ≠ 𝑥𝑥𝑘𝑘𝑘𝑘

2
y la distancia euclidiana al cuadrado, ∑𝑝𝑝𝑗𝑗=1
𝑥𝑥𝑖𝑖𝑖𝑖 − 𝑥𝑥𝑘𝑘𝑘𝑘 , proporciona un
recuento del número de no coincidencias. Una gran distancia
corresponde a muchas no coincidencias, es decir, elementos disímiles.
De la tabla anterior, el cuadrado de la distancia entre los elementos i y
k sería,
22/8/2022 Miguel Mejía Puente 39
Medidas de similitud para variables binarias - 4
2
∑5𝑗𝑗=1 𝑥𝑥𝑖𝑖𝑖𝑖 − 𝑥𝑥𝑘𝑘𝑘𝑘 = 1−1 2
+ 0−1 2
+ 0−0 2
+ 1−1 2
+ 1−0 2
=2

Aunque se puede usar la distancia euclidiana al cuadrado para medir la


similitud, esta adolece de ponderación para las coincidencias 1-1 y 0-0.

En algunos casos, una coincidencia 1-1 es una indicación más fuerte de


similitud que una coincidencia 0-0. Ejemplo.- al agrupar personas, la
evidencia de que dos personas leen griego antiguo es una evidencia
más fuerte de similitud que la ausencia de esta habilidad.

22/8/2022 Miguel Mejía Puente 40


Medidas de similitud para variables binarias - 5

Por lo tanto, podría ser razonable descontar las coincidencias 0-0 o


incluso descartarlas por completo. Para permitir un tratamiento
diferenciado de las coincidencias 1-1 y las coincidencias 0-0, se han
sugerido varios esquemas para definir los coeficientes de similitud.

Para introducir estos esquemas, organicemos las frecuencias de


coincidencias y desajustes para los ítems i y k en forma de tabla de
contingencia.

22/8/2022 Miguel Mejía Puente 41


Medidas de similitud para variables binarias - 6

Elemento k
1 0 Totales
1 a b a+b
Elemento i
0 c d c+d
Totales a+c b+d p=a+b+c+d

En esta tabla, a representa la frecuencia de coincidencias 1-1, b es la


frecuencia de no coincidencias 1-0, c es la frecuencia de no
coincidencias 0-1 y d es la frecuencia de coincidencias 1-1.

22/8/2022 Miguel Mejía Puente 42


Medidas de similitud para variables binarias - 7

Dados los cinco pares de resultados binarios mostrados, tenemos a = 2,


b = 1, c = 1, d = 1.
Elemento k
Variables 1 0 Totales
1 2 3 4 5 1 2 1 3
Elemento i
Elemento i 1 0 0 1 1 0 1 1 2
Elemento k 1 1 0 1 0 Totales 3 2 5

La Tabla 1 enumera los coeficientes de similitud comunes definidos en


términos de las frecuencias.
22/8/2022 Miguel Mejía Puente 43
Tabla 1. Coeficientes de similitud para elementos de agrupación
Coeficiente Razón fundamental
𝑎𝑎+𝑑𝑑
1. 𝑝𝑝
Pesos iguales para coincidencias 1-1 y coincidencias 0-0.
2(𝑎𝑎+𝑑𝑑)
2. 2 𝑎𝑎+𝑑𝑑 +𝑏𝑏+𝑐𝑐
Peso doble para coincidencias 1-1 y coincidencias 0-0.
𝑎𝑎+𝑑𝑑
3. 𝑎𝑎+𝑑𝑑+2(𝑏𝑏+𝑐𝑐) Peso doble para pares sin coincidencias.
𝑎𝑎
4. 𝑝𝑝
No hay coincidencias 0-0 en el numerador.
No hay coincidencias 0–0 en el numerador o el
𝑎𝑎
5. 𝑎𝑎+𝑏𝑏+𝑐𝑐 denominador (Los coincidencias 0-0 se tratan como
irrelevantes).
2𝑎𝑎 No hay coincidencias 0–0 en el numerador o el
6. 2𝑎𝑎+𝑏𝑏+𝑐𝑐
denominador. Peso doble para coincidencias 1–1.
𝑎𝑎 No hay coincidencias 0–0 en el numerador o el
7. 𝑎𝑎+2(𝑏𝑏+𝑐𝑐)
denominador. Doble peso para pares sin coincidencia.
𝑎𝑎 Ratio coincidencias / no coincidencias. Coincidencias 0-0
8. 𝑏𝑏+𝑐𝑐
excluidas.

22/8/2022 44
Ejemplo de personas con diversas características - 1
Color de Color de
Persona Altura Peso Lateralidad Sexo
ojos pelo
1 1.72 m 63.5 k Verde Negro Derecha Femenino
2 1.85 m 83.9 k Marrón Marrón Derecha Masculino
3 1.70 m 74.8 k Azul Negro Derecha Masculino
4 1.63 m 54.4 k Marrón Marrón Derecha Femenino
5 1.93 m 95.3 k Marrón Marrón Izquierda Masculino

Definimos seis variables binarias 𝑥𝑥1 , 𝑥𝑥2 , 𝑥𝑥3 , 𝑥𝑥4 , 𝑥𝑥5 , 𝑥𝑥6 como:
1 𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 ≥ 1.80 𝑚𝑚 1 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 ≥ 68 𝑘𝑘 1 𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚
𝑥𝑥1 = � 𝑥𝑥2 = � 𝑥𝑥3 = �
0 𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 < 1.80 𝑚𝑚 0 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 < 68 𝑘𝑘 0 𝑑𝑑𝑑𝑑 𝑙𝑙𝑙𝑙 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐

1 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 1 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 1 𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓


𝑥𝑥4 = � 𝑥𝑥5 = � 𝑥𝑥6 = �
0 𝑑𝑑𝑑𝑑 𝑙𝑙𝑙𝑙 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 0 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖 0 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚

22/8/2022 Miguel Mejía Puente 45


Ejemplo de personas con diversas características - 2

Las puntuaciones de las personas 1 y 2 en las p = 6 variables binarias son:


𝑥𝑥1 𝑥𝑥2 𝑥𝑥3 𝑥𝑥4 𝑥𝑥5 𝑥𝑥6
Persona 1 0 0 0 1 1 1
Persona 2 1 1 1 0 1 0

y el número de coincidencias y no coincidencias se indica en la matriz bidireccional


Persona 2
1 0 Totales
1 1 2 3
Persona 1
0 3 0 3
Totales 4 2 6

22/8/2022 Miguel Mejía Puente 46


Ejemplo de personas con diversas características - 3

Empleando el coeficiente de similitud 1 (Tabla 1), que otorga el mismo peso a las
coincidencias, se obtiene
𝑎𝑎+𝑑𝑑 1+0
𝑝𝑝
= 6
= 0.167
Continuando con el coeficiente de similitud 1, calculamos los números de similitud
restantes para pares de individuos. Estos se muestran en la matriz simétrica.
Persona 1 Persona 2 Persona 3 Persona 4 Persona 5
Persona 1 1
Persona 2 0.167 1
Persona 3 0.667 0.5 1
Persona 4 0.667 0.5 0.333 1
Persona 5 0 0.833 0.333 0.333 1

22/8/2022 Miguel Mejía Puente 47


Ejemplo de personas con diversas características - 4
Persona 1 Persona 2 Persona 3 Persona 4 Persona 5
Persona 1 1
Persona 2 0.167 1
Persona 3 0.667 0.5 1
Persona 4 0.667 0.5 0.333 1
Persona 5 0 0.833 0.333 0.333 1

Con base en las magnitudes del coeficiente de similitud, debemos concluir que los
individuos 2 y 5 son los más similares y los individuos 1 y 5 son los menos similares.
Otros pares caen entre estos extremos. Si tuviéramos que dividir a los individuos en
dos subgrupos relativamente homogéneos sobre la base de los números de
similitud, podríamos formar los subgrupos (1 3 4) y (2 5).

22/8/2022 Miguel Mejía Puente 48


Ejemplo de personas con diversas características - 5

Tenga en cuenta que 𝑥𝑥3 = 0 implica la ausencia de ojos marrones, por lo que dos
personas, una con ojos negros y otra con ojos verdes, darán una coincidencia de 0-
0. En consecuencia, puede ser inapropiado usar el coeficiente de similitud 1, 2 o 3
porque estos coeficientes otorgan el mismo peso a las coincidencias 1-1 y 0-0.

22/8/2022 Miguel Mejía Puente 49


Semejanzas y medidas de asociación para
pares de variables - 1
En algunas aplicaciones, son las variables, en lugar de los elementos, las que
deben agruparse. Las medidas de similitud de las variables a menudo
adoptan la forma de coeficientes de correlación muestral. Además, en
algunas aplicaciones de agrupamiento, las correlaciones negativas se
reemplazan por sus valores absolutos.

Cuando las variables son binarias, los datos pueden ordenarse nuevamente
en forma de una tabla de contingencia. Esta vez, sin embargo, las variables,
en lugar de los elementos, delimitan las categorías. Para cada par de
variables, hay n elementos categorizados en la tabla. Con la codificación
habitual 0 y 1, la tabla queda de la siguiente manera:
22/8/2022 Miguel Mejía Puente 50
Semejanzas y medidas de asociación para
pares de variables - 2
Variable k
1 0 Totales
1 a b a+b
Variable i
0 c d c+d
Totales a+c b+d n=a+b+c+d

Ejemplo.- la variable i es igual a 1 y la variable k es igual a 0 para b de


los n elementos.

La fórmula usual de correlación del producto-momento (Coeficiente de


Pearson) aplicada a las variables binarias en la tabla de contingencia da,

22/8/2022 Miguel Mejía Puente 51


Semejanzas y medidas de asociación para
pares de variables - 3
𝑎𝑎𝑎𝑎 − 𝑏𝑏𝑏𝑏
𝑟𝑟 = 1�
(𝑎𝑎 + 𝑏𝑏)(𝑐𝑐 + 𝑑𝑑)(𝑎𝑎 + 𝑐𝑐)(𝑏𝑏 + 𝑑𝑑) 2

Este número se puede tomar como una medida de la similitud entre las
dos variables.

22/8/2022 Miguel Mejía Puente 52


Métodos de Agrupamiento
Jerárquico
Johnson, Richard A.; Wichern, Dean (2014). Applied
Multivariate Statistical Analysis.
Métodos de Agrupamiento Jerárquico
(Hierarchical Clustering Methods) - 1
Las técnicas de agrupación jerárquica proceden de una serie de
fusiones sucesivas o de una serie de divisiones sucesivas.

Los Métodos Jerárquicos Aglomerativos (Agglomerative Hierarchical


Methods) comienzan con los objetos individuales. Por lo tanto,
inicialmente hay tantos clústeres como objetos. Los objetos más
similares se agrupan primero, y estos grupos iniciales se fusionan de
acuerdo con sus similitudes. Eventualmente, a medida que la similitud
disminuye, todos los subgrupos se fusionan en un solo grupo.

22/8/2022 Miguel Mejía Puente 54


Métodos de Agrupamiento Jerárquico
(Hierarchical Clustering Methods) - 2
Los Métodos Jerárquicos Divisivos (Divisive Hierarchical Methods)
funcionan en la dirección opuesta. Un solo grupo inicial de objetos se
divide en dos subgrupos de tal manera que los objetos de un subgrupo
están "lejos" de los objetos del otro. Estos subgrupos se dividen en
subgrupos disímiles; el proceso continúa hasta que hay tantos
subgrupos como objetos, es decir, hasta que cada objeto forma un
grupo.

22/8/2022 Miguel Mejía Puente 55


Métodos de Agrupamiento Jerárquico
(Hierarchical Clustering Methods) - 3
Los resultados de los métodos aglomerativos y divisivos pueden
mostrarse en forma de un diagrama bidimensional conocido como
dendrograma.

El dendrograma ilustra las fusiones o escisiones que se han realizado en


niveles sucesivos.

22/8/2022 Miguel Mejía Puente 56


Métodos de Enlace (Linkage Methods) - 1
Los Métodos de Enlace son parte de los Métodos Jerárquicos
Aglomerativos.

Los Métodos de Enlace son adecuados para agrupar elementos, así


como variables. Esto no es cierto para todos los procedimientos de
aglomeración jerárquica. Veremos tres métodos, Enlace Simple (Single
Linkage), Enlace Completo (Complete Linkage), y Centroide (Centroid).

22/8/2022 Miguel Mejía Puente 57


Métodos de Enlace (Linkage Methods) - 2
Los siguientes son los pasos del algoritmo general de agrupamiento
jerárquico aglomerativo para agrupar N objetos (elementos o
variables):

1. Comience con N clústeres, cada uno con una sola entidad y una
matriz simétrica N x N de distancias (o similitudes) 𝑫𝑫 = 𝑑𝑑𝑖𝑖𝑖𝑖 .
2. Busque en la matriz de distancia el par de grupos más cercano (más
similar). Sea la distancia entre los clústeres "más similares" U y V
igual a 𝑑𝑑𝑈𝑈𝑈𝑈 .

22/8/2022 Miguel Mejía Puente 58


Métodos de Enlace (Linkage Methods) - 3
3. Fusionar los clústeres U y V. Etiquete el grupo recién formado (UV).
Actualice las entradas de la matriz de distancias (a) eliminando las
filas y columnas correspondientes a los clústeres U y V y (b)
agregando una fila y una columna que indiquen las distancias entre
el clúster (UV) y los clústeres restantes.
4. Repita los pasos 2 y 3 un total de N-1 veces. (Todos los objetos
estarán en un clúster único después de que finalice el algoritmo).
Registre la identidad de los clústeres que se fusionan y los niveles
(distancias o similitudes) en los que tienen lugar las fusiones.

22/8/2022 Miguel Mejía Puente 59


Enlace Simple (Single Linkage) - 1
Las entradas para el algoritmo de enlace simple pueden ser distancias o
similitudes entre pares de objetos. Los grupos se forman a partir de las
entidades individuales mediante la fusión de vecinos más cercanos,
donde el término vecino más cercano connota la distancia más
pequeña o la similitud más grande.

Inicialmente, debemos encontrar la distancia más pequeña y fusionar


los objetos correspondientes, digamos, U y V, para obtener el clúster.
Para el paso 3 del algoritmo general, las distancias entre y cualquier
(UV) otro clúster W se calculan por 𝑑𝑑 𝑈𝑈𝑈𝑈 𝑊𝑊 = 𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑𝑈𝑈𝑈𝑈 , 𝑑𝑑𝑉𝑉𝑉𝑉
22/8/2022 Miguel Mejía Puente 60
Enlace Simple (Single Linkage) - 2
Aquí las cantidades 𝑑𝑑𝑈𝑈𝑈𝑈 y 𝑑𝑑𝑉𝑉𝑉𝑉 son las distancias entre los vecinos más
cercanos de los clústeres U y W y los clústeres V y W, respectivamente.

Los resultados de la agrupación de enlaces únicos se pueden mostrar


gráficamente en forma de dendrograma o diagrama de árbol. Las ramas
del árbol representan racimos. Las ramas se unen (fusionan) en nodos
cuyas posiciones a lo largo de un eje de distancia (o similitud) indican el
nivel en el que se producen las fusiones.

22/8/2022 Miguel Mejía Puente 61


Ejemplo de un conglomerado usando enlace
simple - 1
Para ilustrar el algoritmo de enlace simple, consideramos las distancias hipotéticas
entre pares de cinco objetos de la siguiente manera:
1 2 3 4 5
1 0
2 9 0
𝑫𝑫 = 𝑑𝑑𝑖𝑖𝑖𝑖 = 3 3 7 0
4 6 5 9 0
5 11 10 2 8 0

Al tratar cada objeto como un grupo, comenzamos a agrupar fusionando los dos
elementos menos distantes (más similares). Ya que min 𝑑𝑑𝑖𝑖𝑖𝑖 = 𝑑𝑑53 = 2
𝑖𝑖,𝑘𝑘

22/8/2022 Miguel Mejía Puente 62


Ejemplo de un conglomerado usando enlace
simple - 2
los objetos 5 y 3 se fusionan para formar el grupo (35). Para implementar el
siguiente nivel de agrupación, necesitamos las distancias entre el grupo (35) y los
objetos restantes, 1, 2 y 4. Las distancias del vecino más cercano son

𝑑𝑑 35 1 = 𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑31 , 𝑑𝑑51 = 𝑚𝑚𝑚𝑚𝑚𝑚 3, 11 = 3


𝑑𝑑 35 2 = 𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑32 , 𝑑𝑑52 = 𝑚𝑚𝑚𝑚𝑚𝑚 7, 10 = 7
𝑑𝑑 35 4 = 𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑34 , 𝑑𝑑54 = 𝑚𝑚𝑚𝑚𝑚𝑚 9, 8 = 8

Eliminando las filas y columnas de 𝑫𝑫 correspondientes a los objetos 3 y 5, y


agregando fila y columna para el conglomerado (35), obtenemos la nueva matriz de
distancia para el siguiente nivel de agrupamiento

22/8/2022 Miguel Mejía Puente 63


Ejemplo de un conglomerado usando enlace
simple - 3
(35) 1 2 4
(35) 0
1 3 0
2 7 9 0
4 8 6 5 0

La distancia mínima entre vecinos más cercanos de pares de grupos es 𝑑𝑑 35 1 = 3 y


fusionamos el objeto 1 con el grupo (35) para obtener el grupo (135). Calculando

𝑑𝑑 135 2 = 𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑 35 2 , 𝑑𝑑12 = 𝑚𝑚𝑚𝑚𝑚𝑚 7, 9 = 7


𝑑𝑑 135 4 = 𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑 35 4 , 𝑑𝑑14 = 𝑚𝑚𝑚𝑚𝑚𝑚 8, 6 = 6

22/8/2022 Miguel Mejía Puente 64


Ejemplo de un conglomerado usando enlace
simple - 4
encontramos que la matriz de distancia para el siguiente nivel de agrupamiento es
(135) 2 4
(135) 0
2 7 0
4 6 5 0

La distancia mínima entre vecinos más cercanos de pares de grupos es 𝑑𝑑42 = 5 y


fusionamos los objetos 4 y 2 para obtener el grupo (24).

En este punto tenemos dos grupos distintos, (135) y (24). La distancia de su vecino
más cercano es

22/8/2022 Miguel Mejía Puente 65


Ejemplo de un conglomerado usando enlace
simple - 5
𝑑𝑑 135 (24) = 𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑 135 2 , 𝑑𝑑 135 4 = 𝑚𝑚𝑚𝑚𝑚𝑚 7, 6 = 6

La matriz de distancia final se convierte en


(135) (24)
(135) 0
(24) 6 0

En consecuencia, los grupos (135) y (24) se fusionan para formar un solo grupo de
los cinco objetos (12345), cuando la distancia del vecino más cercano llega a 6.

22/8/2022 Miguel Mejía Puente 66


Ejemplo de un 6

conglomerado usando 5

enlace simple - 6 4

Distancias
3

El dendrograma que representa el


2
agrupamiento jerárquico recién
concluido se muestra en la figura. Las
1
agrupaciones y los niveles de distancia
en los que ocurren están claramente 0
ilustrados por el dendrograma. 1 3 5 2 4

Objetos

22/8/2022 Miguel Mejía Puente 67


Ejemplo de un conglomerado usando enlace
simple resuelto usando R - 1
Supongamos que medimos dos variables para cada uno de los diez
elementos. Los datos se dan en la siguiente tabla:
Observaciones Observaciones
Elemento 𝒙𝒙𝟏𝟏 𝒙𝒙𝟐𝟐 Elemento 𝒙𝒙𝟏𝟏 𝒙𝒙𝟐𝟐
1 2 4 6 23 26
2 3 8 7 44 9
3 10 23 8 45 5
4 22 25 9 48 8
5 21 25 10 49 6

22/8/2022 Miguel Mejía Puente 68


Ejemplo de un conglomerado usando enlace
simple resuelto usando R - 2
> # Crear el marco de datos
> X1 <- c(2, 3, 10, 22, 21, 23, 44, 45, 48, 49)
> X2 <- c(4, 8, 23, 25, 25, 26, 9, 5, 8, 6)
> Datos <- data.frame(X1, X2)

> # Matriz de similitud


> ms <- dist(Datos, method = "euclidean")^2
> ms
1 2 3 4 5 6 7 8 9
2 17
3 425 274
4 841 650 148
5 802 613 125 1
6 925 724 178 2 5
7 1789 1682 1352 740 785 730
8 1850 1773 1549 929 976 925 17
9 2132 2025 1669 965 1018 949 17 18
10 2213 2120 1810 1090 1145 1076 34 17 5
22/8/2022 Miguel Mejía Puente 69
Ejemplo de un conglomerado usando enlace
simple resuelto usando R - 3
> # Ejecutar la función hclust() con el método del enlace simple
> hcluster.result <- hclust(ms, method = "single")

> # Valores de medida de los conglomerados


> hcluster.result$height
[1] 1 2 5 17 17 17 125 274 730

> # Secuencia de formación de los conglomerados


> hcluster.result$merge
[,1] [,2]
Primer conglomerado: 4 con 5 mide 1
[1,] -4 -5 Segundo conglomerado: 4-5 con 6 mide 2
[2,] -6 1 Tercer conglomerado: 9 con 10 mide 5
[3,] -9 -10 Cuarto conglomerado: 1 con 2 mide 17
[4,] -1 -2 Quinto conglomerado: 7 con 8 mide 17
[5,] -7 -8 Sexto conglomerado: 9-10 con 7-8 mide 17
[6,] 3 5 Séptimo conglomerado: 3 con 4-5-6 mide 125
[7,] -3 2
Octavo conglomerado: 1-2 con 3-4-5-6 mide 274
[8,] 4 7
[9,] 6 8
Noveno conglomerado: 7-8-9-10 con 1-2-3-4-5-6 mide 730
70
Ejemplo de un conglomerado usando enlace
simple resuelto usando R - 4
> # Grafico del dendrograma
> plot(hcluster.result, cex = 0.6, hang = -1, main = "Dendrograma", xlab =
"Elementos", ylab = "Distancia")
> # Cortar el árbol en tres conglomerados
> rect.hclust(hcluster.result, k = 3)

71
22/8/2022 Miguel Mejía Puente 72
Enlace Completo (Complete Linkage) - 1
El agrupamiento de enlace completo procede de la misma manera que
los agrupamientos de enlace simple, con una excepción importante: en
cada etapa, la distancia (similitud) entre los clústeres está determinada
por la distancia (similitud) entre los dos elementos, uno de cada clúster,
que son más distantes. Por lo tanto, la vinculación completa garantiza
que todos los elementos de un grupo estén dentro de una distancia
máxima (o similitud mínima) entre sí.

22/8/2022 Miguel Mejía Puente 73


Enlace Completo (Complete Linkage) - 2
El algoritmo general nuevamente comienza encontrando la entrada
mínima 𝑫𝑫 = 𝑑𝑑𝑖𝑖𝑖𝑖 y fusionando los objetos correspondientes, como U
y V, para obtener el clúster (UV). Para el paso 3 del algoritmo general,
las distancias entre (UV) y cualquier otro grupo W se calculan mediante

𝑑𝑑 𝑈𝑈𝑈𝑈 𝑊𝑊 = 𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑𝑈𝑈𝑈𝑈 , 𝑑𝑑𝑉𝑉𝑉𝑉

Aquí las cantidades 𝑑𝑑𝑈𝑈𝑈𝑈 y 𝑑𝑑𝑉𝑉𝑉𝑉 son las distancias entre los vecinos más
distantes de los clústeres U y W y los clústeres V y W, respectivamente.

22/8/2022 Miguel Mejía Puente 74


Ejemplo de un conglomerado usando enlace
completo - 1
Para ilustrar el algoritmo de enlace completo, consideramos las distancias
hipotéticas entre pares de cinco objetos de la siguiente manera:
1 2 3 4 5
1 0
2 9 0
𝑫𝑫 = 𝑑𝑑𝑖𝑖𝑖𝑖 = 3 3 7 0
4 6 5 9 0
5 11 10 2 8 0

Al tratar cada objeto como un grupo, comenzamos a agrupar fusionando los dos
elementos más similares (menos distantes). Ya que min 𝑑𝑑𝑖𝑖𝑖𝑖 = 𝑑𝑑53 = 2
𝑖𝑖,𝑘𝑘

22/8/2022 Miguel Mejía Puente 75


Ejemplo de un conglomerado usando enlace
completo - 2
los objetos 5 y 3 se fusionan para formar el grupo (35). Para implementar el
siguiente nivel de agrupación, necesitamos las distancias entre el grupo (35) y los
objetos restantes, 1, 2 y 4. Las distancias del vecino más cercano son

𝑑𝑑 35 1 = 𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑31 , 𝑑𝑑51 = 𝑚𝑚𝑎𝑎𝑎𝑎 3, 11 = 11


𝑑𝑑 35 2 = 𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑32 , 𝑑𝑑52 = 𝑚𝑚𝑎𝑎𝑎𝑎 7, 10 = 10
𝑑𝑑 35 4 = 𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑34 , 𝑑𝑑54 = 𝑚𝑚𝑎𝑎𝑎𝑎 9, 8 = 9

Eliminando las filas y columnas de 𝑫𝑫 correspondientes a los objetos 3 y 5, y


agregando fila y columna para el conglomerado (35), obtenemos la nueva matriz de
distancia para el siguiente nivel de agrupamiento

22/8/2022 Miguel Mejía Puente 76


Ejemplo de un conglomerado usando enlace
completo - 3
(35) 1 2 4
(35) 0
1 11 0
2 10 9 0
4 9 6 5 0

La distancia mínima entre vecinos más lejanos de pares de grupos es 𝑑𝑑24 = 5 y


fusionamos el objeto 2 con el objeto 4 para obtener el grupo (24). Calculando

𝑑𝑑 24 (35) = 𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑2(35) , 𝑑𝑑4(35) = 𝑚𝑚𝑎𝑎𝑎𝑎 10, 9 = 10


𝑑𝑑 24 1 = 𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑21 , 𝑑𝑑41 = 𝑚𝑚𝑎𝑎𝑎𝑎 9, 6 = 9

22/8/2022 Miguel Mejía Puente 77


Ejemplo de un conglomerado usando enlace
completo - 4
encontramos que la matriz de distancia para el siguiente nivel de agrupamiento es
(35) (24) 1
(35) 0
(24) 10 0
1 11 9 0

La distancia mínima entre vecinos más lejanos de pares de grupos es 𝑑𝑑1(24) = 9 y


fusionamos el objeto 1 y el grupo (24) para obtener el grupo (124).

En este punto tenemos dos grupos, (124) y (35). La distancia de su vecino más
lejano es

22/8/2022 Miguel Mejía Puente 78


Ejemplo de un conglomerado usando enlace
completo - 5
𝑑𝑑 124 (35) = 𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑1 35 , 𝑑𝑑(24) 35 = 𝑚𝑚𝑎𝑎𝑎𝑎 11, 10 = 11

La matriz de distancia final se convierte en


(35) (124)
(35) 0
(124) 11 0

En consecuencia, los grupos (124) y (35) se fusionan para formar un solo grupo de
los cinco objetos (12345), cuando la distancia del vecino más lejano llega a 11.

22/8/2022 Miguel Mejía Puente 79


Ejemplo de un 11

conglomerado usando
10

enlace completo - 6 8

Distancias
6

El dendrograma que representa el


5

agrupamiento jerárquico recién 4

concluido se muestra en la figura. 3

0
1 2 4 3 5

Objetos

22/8/2022 Miguel Mejía Puente 80


Ejemplo de un conglomerado usando enlace
completo resuelto usando R - 1
Supongamos que medimos dos variables para cada uno de los diez
elementos. Los datos se dan en la siguiente tabla:
Observaciones Observaciones
Elemento 𝒙𝒙𝟏𝟏 𝒙𝒙𝟐𝟐 Elemento 𝒙𝒙𝟏𝟏 𝒙𝒙𝟐𝟐
1 2 4 6 23 26
2 3 8 7 44 9
3 10 23 8 45 5
4 22 25 9 48 8
5 21 25 10 49 6

22/8/2022 Miguel Mejía Puente 81


Ejemplo de un conglomerado usando enlace
completo resuelto usando R - 2
> # Crear el marco de datos
> X1 <- c(2, 3, 10, 22, 21, 23, 44, 45, 48, 49)
> X2 <- c(4, 8, 23, 25, 25, 26, 9, 5, 8, 6)
> Datos <- data.frame(X1, X2)

> # Matriz de similitud


> ms <- dist(Datos, method = "euclidean")^2
> ms
1 2 3 4 5 6 7 8 9
2 17
3 425 274
4 841 650 148
5 802 613 125 1
6 925 724 178 2 5
7 1789 1682 1352 740 785 730
8 1850 1773 1549 929 976 925 17
9 2132 2025 1669 965 1018 949 17 18
10 2213 2120 1810 1090 1145 1076 34 17 5
22/8/2022 Miguel Mejía Puente 82
Ejemplo de un conglomerado usando enlace
completo resuelto usando R - 3
> # Ejecutar la función hclust() con el método del enlace completo
> hcluster.result <- hclust(ms, method = "complete")

> # Valores de medida de los conglomerados


> hcluster.result$height
[1] 1 5 5 17 17 34 178 925 2213

> # Secuencia de formación de los conglomerados


> hcluster.result$merge
[,1] [,2] Primer conglomerado: 4 con 5 mide 1
[1,] -4 -5 Segundo conglomerado: 4-5 con 6 mide 5
[2,] -6 1 Tercer conglomerado: 9 con 10 mide 5
[3,] -9 -10 Cuarto conglomerado: 1 con 2 mide 17
[4,] -1 -2 Quinto conglomerado: 7 con 8 mide 17
[5,] -7 -8 Sexto conglomerado: 9-10 con 7-8 mide 34
[6,] 3 5
Séptimo conglomerado: 3 con 4-5-6 mide 178
[7,] -3 2
[8,] 4 7
Octavo conglomerado: 1-2 con 3-4-5-6 mide 925
[9,] 6 8 Noveno conglomerado: 7-8-9-10 con 1-2-3-4-5-6 mide 2213
83
Ejemplo de un conglomerado usando enlace
completo resuelto usando R - 4
> # Grafico del dendrograma
> plot(hcluster.result, cex = 0.6, hang = -1, main = "Dendrograma", xlab =
"Elementos", ylab = "Distancia")
> # Cortar el árbol en tres conglomerados
> rect.hclust(hcluster.result, k = 3)

84
22/8/2022 Miguel Mejía Puente 85
Método del Centroide
Gutiérrez, R.; González, A.; Torres, F.; Gallardo, J. A. (1994).
Métodos Jerárquicos de Análisis Clúster.
Método del Centroide (Centroid Method) - 1
En este método, la semejanza entre dos clústeres viene dada por la
semejanza entre sus centroides, esto es, los vectores de medias de las
variables medidas sobre los individuos del clúster. Además, los tamaños
de los clústeres son considerados a la hora de efectuar los cálculos.

El método de centroide se basa en la distancia euclidiana al cuadrado.


Supongamos que pretendemos medir la distancia entre los clústeres 𝐶𝐶𝑗𝑗 ,
compuesto por 𝑛𝑛𝑗𝑗 elementos, y 𝐶𝐶𝑖𝑖 , formado a su vez por dos clústeres,
𝐶𝐶𝑖𝑖𝑖 y 𝐶𝐶𝑖𝑖𝑖 , con 𝑛𝑛𝑖𝑖𝑖 y 𝑛𝑛𝑖𝑖2 elementos, respectivamente.

22/8/2022 Miguel Mejía Puente 87


Método del Centroide (Centroid Method) - 2
Sean 𝑚𝑚𝑗𝑗 , 𝑚𝑚𝑖𝑖𝑖 y 𝑚𝑚𝑖𝑖𝑖 los centroides de los clústeres anteriormente
citados (estos centroides son vectores n dimensionales).

Así, el centroide del clúster 𝐶𝐶𝑖𝑖 vendrá dado en notación vectorial por:
𝑛𝑛 𝑚𝑚 𝑖𝑖𝑖 + 𝑛𝑛 𝑚𝑚𝑖𝑖2
𝑖𝑖 𝑖𝑖𝑖 𝑖𝑖2
𝑚𝑚 =
𝑛𝑛𝑖𝑖𝑖 + 𝑛𝑛𝑖𝑖2
cuyas componentes serán:
𝑖𝑖1 𝑖𝑖2
𝑛𝑛 𝑚𝑚
𝑖𝑖𝑖 𝑙𝑙 + 𝑛𝑛 𝑚𝑚
𝑖𝑖2 𝑙𝑙
𝑚𝑚𝑙𝑙𝑖𝑖 = , para 𝑙𝑙 = 1, … , 𝑛𝑛
𝑛𝑛𝑖𝑖𝑖 + 𝑛𝑛𝑖𝑖2

22/8/2022 Miguel Mejía Puente 88


Método del Centroide (Centroid Method) - 3
Con ello, la distancia euclidiana al cuadrado entre los clústeres 𝐶𝐶𝑖𝑖 y 𝐶𝐶𝑗𝑗
vendrá dada por:
𝑛𝑛𝑖𝑖𝑖 𝑛𝑛𝑖𝑖2 𝑛𝑛𝑖𝑖1 𝑛𝑛𝑖𝑖𝑖
𝑑𝑑2 𝐶𝐶𝑗𝑗 , 𝐶𝐶𝑖𝑖 = 2
𝑑𝑑 𝐶𝐶𝑖𝑖𝑖 , 𝐶𝐶𝑗𝑗 + 2
𝑑𝑑 𝐶𝐶𝑖𝑖2 , 𝐶𝐶𝑗𝑗 − 2
𝑑𝑑 2 𝐶𝐶 , 𝐶𝐶
𝑖𝑖1 𝑖𝑖𝑖
𝑛𝑛𝑖𝑖𝑖 + 𝑛𝑛𝑖𝑖𝑖 𝑛𝑛𝑖𝑖𝑖 + 𝑛𝑛𝑖𝑖𝑖 𝑛𝑛𝑖𝑖𝑖 + 𝑛𝑛𝑖𝑖𝑖

22/8/2022 Miguel Mejía Puente 89


Ejemplo de un conglomerado usando el
método del centroide - 1
Supongamos que medimos dos variables y para cada uno de los cinco elementos A,
B, C, D y E. Los datos se dan en la siguiente tabla:
Observaciones
Elemento 𝒙𝒙𝟏𝟏 𝒙𝒙𝟐𝟐
A 10 5
B 20 20
C 30 10
D 30 15
E 5 10

22/8/2022 Miguel Mejía Puente 90


Ejemplo de un conglomerado usando el
método del centroide - 2
La distancia euclidiana al cuadrado se calcula con la expresión
𝑝𝑝 2
𝑑𝑑 𝑥𝑥, 𝑦𝑦 = ∑𝑖𝑖=1 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖

La matriz inicial de distancias euclidianas al cuadrado es


A B C D E
A 0
B 325 0
𝑫𝑫 = C 425 200 0
D 500 125 25 0
E 50 325 625 650 0

22/8/2022 Miguel Mejía Puente 91


Ejemplo de un conglomerado usando el
método del centroide - 3
Al tratar cada objeto como un clúster, comenzamos a agrupar los elementos de 2
en 2. Ya que min 𝑑𝑑𝑈𝑈𝑈𝑈 = 𝑑𝑑𝐷𝐷𝐷𝐷 = 25, el centroide del clúster 𝐶𝐶6 = (𝐶𝐶, 𝐷𝐷) es
𝑈𝑈,𝑉𝑉
6 𝑛𝑛61 𝑚𝑚61 +𝑛𝑛62 𝑚𝑚62 1(30, 10)+1(30, 15)
𝑚𝑚 = 𝑛𝑛61 +𝑛𝑛62
= 1+1
= (30, 12.5)

La matriz de distancias para A, B, (C, D) y E es


A B (C, D) E
A 0
B 325 0
(C, D) 456.25 156.25 0
E 50 325 631.25 0

22/8/2022 Miguel Mejía Puente 92


Ejemplo de un conglomerado usando el
método del centroide - 4
𝑛𝑛61 𝑛𝑛62 𝑛𝑛61 𝑛𝑛62
𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷: 𝑑𝑑 2 𝐶𝐶1 , 𝐶𝐶6 = 𝑑𝑑 2 𝐶𝐶61 , 𝐶𝐶1 + 𝑑𝑑 2 𝐶𝐶62 , 𝐶𝐶1 − 𝑑𝑑 2 𝐶𝐶 , 𝐶𝐶
61 62
𝑛𝑛61 + 𝑛𝑛62 𝑛𝑛61 + 𝑛𝑛62 𝑛𝑛61 + 𝑛𝑛62 2
Y, como: 𝐶𝐶1 = 𝐴𝐴, 𝐶𝐶61 = 𝐶𝐶, 𝐶𝐶62 = 𝐷𝐷, 𝐶𝐶6 = 𝐶𝐶, 𝐷𝐷
2 𝐴𝐴, (𝐶𝐶, 𝐷𝐷) =
1 2
1 2
(1)(1) 2
𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸: 𝑑𝑑 𝑑𝑑 𝐶𝐶, 𝐴𝐴 + 𝑑𝑑 𝐷𝐷, 𝐴𝐴 − 𝑑𝑑 𝐶𝐶, 𝐷𝐷 = 212.5 + 250 − 6.25 = 456.25
1+1 1+1 1+1 2
𝑛𝑛61 𝑛𝑛62 𝑛𝑛61 𝑛𝑛62
𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷: 𝑑𝑑 2 𝐶𝐶2 , 𝐶𝐶6 = 𝑑𝑑 2 𝐶𝐶61 , 𝐶𝐶2 + 𝑑𝑑 2 𝐶𝐶62 , 𝐶𝐶2 − 𝑑𝑑 2 𝐶𝐶 , 𝐶𝐶
61 62
𝑛𝑛61 + 𝑛𝑛62 𝑛𝑛61 + 𝑛𝑛62 𝑛𝑛61 + 𝑛𝑛62 2
Y, como: 𝐶𝐶2 = 𝐵𝐵, 𝐶𝐶61 = 𝐶𝐶, 𝐶𝐶62 = 𝐷𝐷, 𝐶𝐶6 = 𝐶𝐶, 𝐷𝐷
2 𝐵𝐵, (𝐶𝐶, 𝐷𝐷) =
1 2
1 2
(1)(1) 2
𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸: 𝑑𝑑 𝑑𝑑 𝐶𝐶, 𝐵𝐵 + 𝑑𝑑 𝐷𝐷, 𝐵𝐵 − 𝑑𝑑 𝐶𝐶, 𝐷𝐷 = 100 + 62.5 − 6.25 = 156.25
1+1 1+1 1+1 2

𝑛𝑛61 𝑛𝑛62 𝑛𝑛61 𝑛𝑛62


𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷: 𝑑𝑑 2 𝐶𝐶5 , 𝐶𝐶6 = 𝑑𝑑 2 𝐶𝐶61 , 𝐶𝐶5 + 𝑑𝑑 2 𝐶𝐶62 , 𝐶𝐶5 − 𝑑𝑑 2 𝐶𝐶 , 𝐶𝐶
61 62
𝑛𝑛61 + 𝑛𝑛62 𝑛𝑛61 + 𝑛𝑛62 𝑛𝑛61 + 𝑛𝑛62 2
Y, como: 𝐶𝐶5 = 𝐸𝐸, 𝐶𝐶61 = 𝐶𝐶, 𝐶𝐶62 = 𝐷𝐷, 𝐶𝐶6 = 𝐶𝐶, 𝐷𝐷
2 𝐸𝐸, (𝐶𝐶, 𝐷𝐷) =
1 2
1 2
(1)(1) 2
𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸: 𝑑𝑑 𝑑𝑑 𝐶𝐶, 𝐸𝐸 + 𝑑𝑑 𝐷𝐷, 𝐸𝐸 − 𝑑𝑑 𝐶𝐶, 𝐷𝐷 = 312.5 + 325 − 6.25 = 631.25
1+1 1+1 1+1 2
22/8/2022 Miguel Mejía Puente 93
Ejemplo de un conglomerado usando el
método del centroide - 5
Ya que min 𝑑𝑑𝑈𝑈𝑈𝑈 = 𝑑𝑑𝐸𝐸𝐸𝐸 = 50, el centroide del clúster 𝐶𝐶7 = (𝐴𝐴, 𝐸𝐸) es
𝑈𝑈,𝑉𝑉
7 𝑛𝑛71 𝑚𝑚71 +𝑛𝑛72 𝑚𝑚72 1(10,5)+1(5,10)
𝑚𝑚 = 𝑛𝑛71 +𝑛𝑛72
= 1+1
= (7.5, 7.5)

La matriz de distancias para (A, E), B y (C, D) es

(A, E) B (C, D)
(A, E) 0
B 312.5 0
(C, D) 531.25 156.25 0

22/8/2022 Miguel Mejía Puente 94


Ejemplo de un conglomerado usando el
método del centroide - 6
𝑛𝑛71 𝑛𝑛72 𝑛𝑛71 𝑛𝑛72
𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷: 𝑑𝑑 2 𝐶𝐶2 , 𝐶𝐶7 = 𝑛𝑛 𝑑𝑑 2 𝐶𝐶71 , 𝐶𝐶2 + 𝑛𝑛 𝑑𝑑 2 𝐶𝐶72 , 𝐶𝐶2 − 2 𝑑𝑑 2 𝐶𝐶71 , 𝐶𝐶72
71 +𝑛𝑛72 71 +𝑛𝑛72 𝑛𝑛71 +𝑛𝑛72
Y, como: 𝐶𝐶2 = 𝐵𝐵, 𝐶𝐶71 = 𝐴𝐴, 𝐶𝐶72 = 𝐸𝐸, 𝐶𝐶7 = 𝐴𝐴, 𝐸𝐸
2 𝐵𝐵, (𝐴𝐴, 𝐸𝐸) =
1 2
1 2
(1)(1) 2
𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸: 𝑑𝑑 𝑑𝑑 𝐴𝐴, 𝐵𝐵 + 𝑑𝑑 𝐸𝐸, 𝐵𝐵 − 𝑑𝑑 𝐴𝐴, 𝐸𝐸 = 162.5 + 162.5 − 12.5
1+1 1+1 1+1 2
= 312.15
𝑛𝑛71 𝑛𝑛72 𝑛𝑛71 𝑛𝑛72
𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷: 𝑑𝑑 2 𝐶𝐶6 , 𝐶𝐶7 = 𝑛𝑛 𝑑𝑑 2 𝐶𝐶71 , 𝐶𝐶6 + 𝑛𝑛 𝑑𝑑 2 𝐶𝐶72 , 𝐶𝐶6 − 2 𝑑𝑑 2 𝐶𝐶71 , 𝐶𝐶72
71 +𝑛𝑛72 71 +𝑛𝑛72 𝑛𝑛71 +𝑛𝑛72
Y, como: 𝐶𝐶6 = (𝐶𝐶, 𝐷𝐷), 𝐶𝐶71 = 𝐴𝐴, 𝐶𝐶72 = 𝐸𝐸, 𝐶𝐶7 = 𝐴𝐴, 𝐸𝐸
1 1 1 1
𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸: 𝑑𝑑 2 (𝐶𝐶, 𝐷𝐷), (𝐴𝐴, 𝐸𝐸) = 𝑑𝑑 2 𝐴𝐴, (𝐶𝐶, 𝐷𝐷) + 𝑑𝑑 2 𝐸𝐸, (𝐶𝐶, 𝐷𝐷) − 2 𝑑𝑑
2
𝐴𝐴, 𝐸𝐸 = 228.125
1+1 1+1 1+1
+315.625 − 12.5 = 531.25

22/8/2022 Miguel Mejía Puente 95


Ejemplo de un conglomerado usando el
método del centroide - 7
Ya que min 𝑑𝑑𝑈𝑈𝑈𝑈 = 𝑑𝑑𝐵𝐵(𝐶𝐶,𝐷𝐷) = 156.25, el centroide del clúster 𝐶𝐶8 = (𝐵𝐵, 𝐶𝐶, 𝐷𝐷) es
𝑈𝑈,𝑉𝑉
8 𝑛𝑛81 𝑚𝑚81 +𝑛𝑛82 𝑚𝑚82 1(20,20)+2(30,12.5)
𝑚𝑚 = 𝑛𝑛81 +𝑛𝑛82
= 1+2
= (26.67, 15)

La matriz de distancias para (A, E) y (B, C, D) es

(A, E) (B, C, D)
(A, E) 0
(B, C, D) 423.62 0

22/8/2022 Miguel Mejía Puente 96


Ejemplo de un conglomerado usando el
método del centroide - 8
𝑛𝑛81 𝑛𝑛82 𝑛𝑛81 𝑛𝑛82
𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷: 𝑑𝑑 2 𝐶𝐶7 , 𝐶𝐶8 = 𝑛𝑛 𝑑𝑑 2 𝐶𝐶81 , 𝐶𝐶7 + 𝑛𝑛 𝑑𝑑 2 𝐶𝐶82 , 𝐶𝐶7 − 2 𝑑𝑑 2 𝐶𝐶81 , 𝐶𝐶82
81 +𝑛𝑛82 81 +𝑛𝑛82 𝑛𝑛81 +𝑛𝑛82
Y, como: 𝐶𝐶7 = 𝐴𝐴, 𝐸𝐸 , 𝐶𝐶81 = 𝐵𝐵, 𝐶𝐶82 = (𝐶𝐶, 𝐷𝐷), 𝐶𝐶8 = 𝐵𝐵, 𝐶𝐶, 𝐷𝐷
2
1 2
2 2
(1)(2) 2
𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸: 𝑑𝑑 (𝐴𝐴, 𝐸𝐸), (𝐵𝐵, 𝐶𝐶, 𝐷𝐷) = 𝑑𝑑 𝐵𝐵, (𝐴𝐴, 𝐸𝐸) + 𝑑𝑑 (𝐶𝐶, 𝐷𝐷), (𝐴𝐴, 𝐸𝐸) − 𝑑𝑑 𝐵𝐵, (𝐶𝐶, 𝐷𝐷)
1+2 1+2 1+2 2
= 104.17 + 354.17 − 34.72 = 423.62

Ya que min 𝑑𝑑𝑈𝑈𝑈𝑈 = 𝑑𝑑(𝐴𝐴,𝐸𝐸)(𝐵𝐵,𝐶𝐶,𝐷𝐷) = 423.62, el centroide del clúster 𝐶𝐶9 =


𝑈𝑈,𝑉𝑉
(𝐴𝐴, 𝐵𝐵, 𝐶𝐶, 𝐷𝐷, 𝐸𝐸) es
𝑛𝑛91 𝑚𝑚91+𝑛𝑛92 𝑚𝑚92 2(7.5, 7.5)+3(26.67, 15)
𝑚𝑚9 = = = (19, 12)
𝑛𝑛91+𝑛𝑛92 2+3

Y con esto se completa la jerarquía.

22/8/2022 Miguel Mejía Puente 97


Ejemplo de un 450

conglomerado usando 423.62

el método del
375

centroide - 9 300

Distancias
225

El dendrograma que representa el 156.25

agrupamiento jerárquico recién


150

concluido se muestra en la figura. 75


50
25
0
A E C D B

Elementos

22/8/2022 Miguel Mejía Puente 98


Usando R - 1
> # Crear el marco de datos
> X1 <- c(10, 20, 30, 30, 5)
> X2 <- c(5, 20, 10, 15, 10)
> Datos <- data.frame(X1, X2)

> # Matriz de similitud


> ms <- dist(Datos, method = "euclidean")^2
> ms
1 2 3 4 A (1) B (2) C (3) D (4) E (5)
2 325
A (1) 0
3 425 200
4 500 125 25 B (2) 325 0
5 50 325 625 650
𝑫𝑫 = C (3) 425 200 0
D (4) 500 125 25 0
E (5) 50 325 625 650 0

22/8/2022 Miguel Mejía Puente 99


Usando R - 2
> # Ejecutar la función hclust() con el método del centroide
> hcluster.result <- hclust(ms, method = "centroid")

> # Conglomerados
> groups <- cutree(hcluster.result, k = 2)
> Datos$cluster <- groups
Primer conglomerado: 3 (C) con 4 (D) mide 25
> # Valores de medida de los conglomerados
> hcluster.result$height
Segundo conglomerado: 1 (A) con 5 (E) mide 50
[1] 25.0000 50.0000 156.2500 423.6111 Tercer conglomerado: 2 (B) con 34 (CD) mide 156.25
Cuarto conglomerado: 15 (AE) con 234 (BCD) mide 423.6111
> # Secuencia de formación de los conglomerados
> hcluster.result$merge
[,1] [,2] 1 (A), 2 (B), 3 (C), 4 (D), 5 (E)
[1,] -3 -4 Primer conglomerado: 3 (C) con 4 (D)
[2,] -1 -5 Segundo conglomerado: 1 (A) con 5 (E)
[3,] -2 1 Tercer conglomerado: 2 (B) con 34 (CD)
[4,] 2 3 Cuarto conglomerado: 15 (AE) con 234 (BCD)

22/8/2022 Miguel Mejía Puente 100


Usando R - 3
> # Grafico del dendrograma
> plot(hcluster.result, cex = 0.6, hang = -1, main = "Dendrograma", xlab =
"Elementos", ylab = "Distancia")

> # Cortar el árbol en tres conglomerados


> rect.hclust(hcluster.result, k = 3)

22/8/2022 Miguel Mejía Puente 101


Usando R - 4

A E B C D

22/8/2022 Miguel Mejía Puente 102


ANALYTICS 2

FIN DE LA PRESENTACIÓN

También podría gustarte