Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Observaciones
Elemento 𝒙𝒙𝟏𝟏 𝒙𝒙𝟐𝟐
A 5 3
B -1 1
C 1 -2
D -3 -2
Dado que A está más cerca del centro de (AB) que del centro de (ACD),
no se reasigna.
22/8/2022 Miguel Mejía Puente 24
Ejemplo de agrupamiento usando el método
K-Medias - 7
Continuando, supongamos que el elemento B con coordenadas (-1, 1)
se mueve al grupo (CD). Los nuevos grupos son (A) y (BCD) con
centroides actualizados:
Si B no es movido
𝑑𝑑 2 𝐵𝐵, 𝐴𝐴𝐴𝐴 = (−1 − 2)2 +(1 − 2)2 = 10
𝑑𝑑 2 𝐵𝐵, 𝐶𝐶𝐶𝐶 = (−1 − (−1))2 +(1 − (−2))2 = 9
Si C no es movido
𝑑𝑑 2 𝐶𝐶, 𝐴𝐴 = (1 − 5)2 +(−2 − 3)2 = 41
𝑑𝑑 2 𝐶𝐶, 𝐵𝐵𝐵𝐵𝐵𝐵 = (1 − (−1))2 +(−2 − (−1))2 = 5
Dado que C está más cerca del centro del grupo (BCD) que del centro
del grupo (AC), C no se mueve. Continuando de esta manera,
encontramos que no se producen más reasignaciones y los K = 2 grupos
finales son (A) y (BCD).
> # Conglomerados
> kmeans.result$cluster
[1] 2 1 1 1
𝑖𝑖=1
En este caso, hay dos coincidencias 1-1, una coincidencia 0-0 y dos
discrepancias.
En consecuencia,
2 0 𝑆𝑆𝑆𝑆 𝑥𝑥𝑖𝑖𝑖𝑖 = 𝑥𝑥𝑘𝑘𝑘𝑘 = 1 𝑜𝑜 𝑥𝑥𝑖𝑖𝑖𝑖 = 𝑥𝑥𝑘𝑘𝑘𝑘 = 0
𝑥𝑥𝑖𝑖𝑖𝑖 − 𝑥𝑥𝑘𝑘𝑘𝑘 =�
1 𝑆𝑆𝑆𝑆 𝑥𝑥𝑖𝑖𝑖𝑖 ≠ 𝑥𝑥𝑘𝑘𝑘𝑘
2
y la distancia euclidiana al cuadrado, ∑𝑝𝑝𝑗𝑗=1
𝑥𝑥𝑖𝑖𝑖𝑖 − 𝑥𝑥𝑘𝑘𝑘𝑘 , proporciona un
recuento del número de no coincidencias. Una gran distancia
corresponde a muchas no coincidencias, es decir, elementos disímiles.
De la tabla anterior, el cuadrado de la distancia entre los elementos i y
k sería,
22/8/2022 Miguel Mejía Puente 39
Medidas de similitud para variables binarias - 4
2
∑5𝑗𝑗=1 𝑥𝑥𝑖𝑖𝑖𝑖 − 𝑥𝑥𝑘𝑘𝑘𝑘 = 1−1 2
+ 0−1 2
+ 0−0 2
+ 1−1 2
+ 1−0 2
=2
Elemento k
1 0 Totales
1 a b a+b
Elemento i
0 c d c+d
Totales a+c b+d p=a+b+c+d
22/8/2022 44
Ejemplo de personas con diversas características - 1
Color de Color de
Persona Altura Peso Lateralidad Sexo
ojos pelo
1 1.72 m 63.5 k Verde Negro Derecha Femenino
2 1.85 m 83.9 k Marrón Marrón Derecha Masculino
3 1.70 m 74.8 k Azul Negro Derecha Masculino
4 1.63 m 54.4 k Marrón Marrón Derecha Femenino
5 1.93 m 95.3 k Marrón Marrón Izquierda Masculino
Definimos seis variables binarias 𝑥𝑥1 , 𝑥𝑥2 , 𝑥𝑥3 , 𝑥𝑥4 , 𝑥𝑥5 , 𝑥𝑥6 como:
1 𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 ≥ 1.80 𝑚𝑚 1 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 ≥ 68 𝑘𝑘 1 𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚
𝑥𝑥1 = � 𝑥𝑥2 = � 𝑥𝑥3 = �
0 𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 < 1.80 𝑚𝑚 0 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 < 68 𝑘𝑘 0 𝑑𝑑𝑑𝑑 𝑙𝑙𝑙𝑙 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐
Empleando el coeficiente de similitud 1 (Tabla 1), que otorga el mismo peso a las
coincidencias, se obtiene
𝑎𝑎+𝑑𝑑 1+0
𝑝𝑝
= 6
= 0.167
Continuando con el coeficiente de similitud 1, calculamos los números de similitud
restantes para pares de individuos. Estos se muestran en la matriz simétrica.
Persona 1 Persona 2 Persona 3 Persona 4 Persona 5
Persona 1 1
Persona 2 0.167 1
Persona 3 0.667 0.5 1
Persona 4 0.667 0.5 0.333 1
Persona 5 0 0.833 0.333 0.333 1
Con base en las magnitudes del coeficiente de similitud, debemos concluir que los
individuos 2 y 5 son los más similares y los individuos 1 y 5 son los menos similares.
Otros pares caen entre estos extremos. Si tuviéramos que dividir a los individuos en
dos subgrupos relativamente homogéneos sobre la base de los números de
similitud, podríamos formar los subgrupos (1 3 4) y (2 5).
Tenga en cuenta que 𝑥𝑥3 = 0 implica la ausencia de ojos marrones, por lo que dos
personas, una con ojos negros y otra con ojos verdes, darán una coincidencia de 0-
0. En consecuencia, puede ser inapropiado usar el coeficiente de similitud 1, 2 o 3
porque estos coeficientes otorgan el mismo peso a las coincidencias 1-1 y 0-0.
Cuando las variables son binarias, los datos pueden ordenarse nuevamente
en forma de una tabla de contingencia. Esta vez, sin embargo, las variables,
en lugar de los elementos, delimitan las categorías. Para cada par de
variables, hay n elementos categorizados en la tabla. Con la codificación
habitual 0 y 1, la tabla queda de la siguiente manera:
22/8/2022 Miguel Mejía Puente 50
Semejanzas y medidas de asociación para
pares de variables - 2
Variable k
1 0 Totales
1 a b a+b
Variable i
0 c d c+d
Totales a+c b+d n=a+b+c+d
Este número se puede tomar como una medida de la similitud entre las
dos variables.
1. Comience con N clústeres, cada uno con una sola entidad y una
matriz simétrica N x N de distancias (o similitudes) 𝑫𝑫 = 𝑑𝑑𝑖𝑖𝑖𝑖 .
2. Busque en la matriz de distancia el par de grupos más cercano (más
similar). Sea la distancia entre los clústeres "más similares" U y V
igual a 𝑑𝑑𝑈𝑈𝑈𝑈 .
Al tratar cada objeto como un grupo, comenzamos a agrupar fusionando los dos
elementos menos distantes (más similares). Ya que min 𝑑𝑑𝑖𝑖𝑖𝑖 = 𝑑𝑑53 = 2
𝑖𝑖,𝑘𝑘
En este punto tenemos dos grupos distintos, (135) y (24). La distancia de su vecino
más cercano es
En consecuencia, los grupos (135) y (24) se fusionan para formar un solo grupo de
los cinco objetos (12345), cuando la distancia del vecino más cercano llega a 6.
conglomerado usando 5
enlace simple - 6 4
Distancias
3
Objetos
71
22/8/2022 Miguel Mejía Puente 72
Enlace Completo (Complete Linkage) - 1
El agrupamiento de enlace completo procede de la misma manera que
los agrupamientos de enlace simple, con una excepción importante: en
cada etapa, la distancia (similitud) entre los clústeres está determinada
por la distancia (similitud) entre los dos elementos, uno de cada clúster,
que son más distantes. Por lo tanto, la vinculación completa garantiza
que todos los elementos de un grupo estén dentro de una distancia
máxima (o similitud mínima) entre sí.
Aquí las cantidades 𝑑𝑑𝑈𝑈𝑈𝑈 y 𝑑𝑑𝑉𝑉𝑉𝑉 son las distancias entre los vecinos más
distantes de los clústeres U y W y los clústeres V y W, respectivamente.
Al tratar cada objeto como un grupo, comenzamos a agrupar fusionando los dos
elementos más similares (menos distantes). Ya que min 𝑑𝑑𝑖𝑖𝑖𝑖 = 𝑑𝑑53 = 2
𝑖𝑖,𝑘𝑘
En este punto tenemos dos grupos, (124) y (35). La distancia de su vecino más
lejano es
En consecuencia, los grupos (124) y (35) se fusionan para formar un solo grupo de
los cinco objetos (12345), cuando la distancia del vecino más lejano llega a 11.
conglomerado usando
10
enlace completo - 6 8
Distancias
6
0
1 2 4 3 5
Objetos
84
22/8/2022 Miguel Mejía Puente 85
Método del Centroide
Gutiérrez, R.; González, A.; Torres, F.; Gallardo, J. A. (1994).
Métodos Jerárquicos de Análisis Clúster.
Método del Centroide (Centroid Method) - 1
En este método, la semejanza entre dos clústeres viene dada por la
semejanza entre sus centroides, esto es, los vectores de medias de las
variables medidas sobre los individuos del clúster. Además, los tamaños
de los clústeres son considerados a la hora de efectuar los cálculos.
Así, el centroide del clúster 𝐶𝐶𝑖𝑖 vendrá dado en notación vectorial por:
𝑛𝑛 𝑚𝑚 𝑖𝑖𝑖 + 𝑛𝑛 𝑚𝑚𝑖𝑖2
𝑖𝑖 𝑖𝑖𝑖 𝑖𝑖2
𝑚𝑚 =
𝑛𝑛𝑖𝑖𝑖 + 𝑛𝑛𝑖𝑖2
cuyas componentes serán:
𝑖𝑖1 𝑖𝑖2
𝑛𝑛 𝑚𝑚
𝑖𝑖𝑖 𝑙𝑙 + 𝑛𝑛 𝑚𝑚
𝑖𝑖2 𝑙𝑙
𝑚𝑚𝑙𝑙𝑖𝑖 = , para 𝑙𝑙 = 1, … , 𝑛𝑛
𝑛𝑛𝑖𝑖𝑖 + 𝑛𝑛𝑖𝑖2
(A, E) B (C, D)
(A, E) 0
B 312.5 0
(C, D) 531.25 156.25 0
(A, E) (B, C, D)
(A, E) 0
(B, C, D) 423.62 0
el método del
375
centroide - 9 300
Distancias
225
Elementos
> # Conglomerados
> groups <- cutree(hcluster.result, k = 2)
> Datos$cluster <- groups
Primer conglomerado: 3 (C) con 4 (D) mide 25
> # Valores de medida de los conglomerados
> hcluster.result$height
Segundo conglomerado: 1 (A) con 5 (E) mide 50
[1] 25.0000 50.0000 156.2500 423.6111 Tercer conglomerado: 2 (B) con 34 (CD) mide 156.25
Cuarto conglomerado: 15 (AE) con 234 (BCD) mide 423.6111
> # Secuencia de formación de los conglomerados
> hcluster.result$merge
[,1] [,2] 1 (A), 2 (B), 3 (C), 4 (D), 5 (E)
[1,] -3 -4 Primer conglomerado: 3 (C) con 4 (D)
[2,] -1 -5 Segundo conglomerado: 1 (A) con 5 (E)
[3,] -2 1 Tercer conglomerado: 2 (B) con 34 (CD)
[4,] 2 3 Cuarto conglomerado: 15 (AE) con 234 (BCD)
A E B C D
FIN DE LA PRESENTACIÓN