Analytics 2

ANALYTICS 2
Miguel Mejía Puente

Unidad 1 - Análisis de conglomerados,
clasificación y clusterización
1. Introducción
2. Análisis discriminante lineal
3. Análisis de conglomerados
4. Clasificador K-vecinos más cercanos
5. Máquinas de Vectores de Soporte
6. Clasificador Bayesiano (Naïve Bayes)
22/8/2022 Miguel Mejía Puente 2

Análisis de conglomerados
Gallardo, J. A. (2011). Análisis de Datos Multivariantes. 3a Diplomatura
de Estadística. Curso 2011-12.
Johnson, Richard A.; Wichern, Dean (2014). Applied Multivariate
Statistical Analysis.
Veliz Capuñay, Carlos (2017). Analisis Multivariante.

Análisis de conglomerados (Clustering
Analysis) - 1
El análisis de conglomerados, también conocido como análisis clúster,
comprende una serie de técnicas descriptivas del análisis multivariado.
Tiene por objetivo la clasificación o agrupamiento de individuos u
objetos en clases o conglomerados a partir de mediciones realizadas en
ellos, de tal manera que dentro de los grupos se reúnan los elementos
más homogéneos y que entre los grupos exista la mayor heterogeneidad.
El resultado es la clasificación de entidades a partir de sus atributos en
grupos que no son definidos a priori, sino que son descubiertos por el
análisis.

Analysis) - 2
La clasificación es una herramienta que se aplica para comprender y
abordar los fenómenos de manera diferenciada, de ahí la importancia
de este análisis.
Ejemplos.- Se forman grupos de clientes de un banco con base en su

edad, salario, tipo y número de tarjetas que poseen. Se forman grupos
de usuarios de servicios de salud, teniendo en cuenta la edad, la
presión arterial sistólica, el nivel de colesterol.

Analysis) - 3
Aplicaciones
• En Mercadotecnia, para formar segmentos de clientes que tienen
comportamientos de compra semejantes y así poder diseñar estrategias de
ventas que mejor se adapten a cada segmento formado.
• En Finanzas, se usa para encontrar grupos de acciones que presenten
oportunidades de inversión, basándose en las tasas de retorno, volatilidad,
coeficiente beta.
Hay dos categorías de métodos para formar conglomerados: métodos

jerárquicos y métodos no jerárquicos.

Métodos Jerárquicos (Hierarchical Methods) -
1
Los métodos jerárquicos tienen por objetivo agrupar clústeres para
formar uno nuevo o bien separar alguno ya existente para dar origen a
otros dos, de tal forma que se minimice alguna función distancia o bien
se maximice alguna medida de similitud.
Los métodos jerárquicos se subdividen a su vez en métodos

aglomerativos y métodos divisivos.

2
Los métodos aglomerativos comienzan el análisis con tantos grupos
como individuos haya en el estudio. A partir de ahí se van formando
grupos de forma ascendente, hasta que, al final del proceso, todos los
casos están englobados en un mismo conglomerado.
Los métodos divisivos o disociativos empiezan con un conglomerado

que engloba a todos los individuos. A partir de este grupo inicial se van
formando, a través de sucesivas divisiones, grupos cada vez más
pequeños. Al final del proceso se tienen tantos grupos como individuos
en la muestra estudiada.
3
Independientemente del proceso de agrupamiento, hay diversos
criterios para ir formando los conglomerados; todos estos criterios se
basan en una matriz de distancias o similitudes.
Dentro de los métodos aglomerativos destacan: el método del enlace

simple, el método del enlace completo, el método del enlace
promedio, el método del centroide, el método de la mediana y el
método de Ward.

4
Dentro de los métodos divisivos destacan, además de los anteriores
que siguen siendo validos, el análisis de asociación y el detector
automático de interacción.

Métodos no Jerárquicos (Non Hierarchical
Methods) - 1
Los métodos no jerárquicos, también conocidos como partitivos o de
optimización, tienen por objetivo realizar una sola partición de los
individuos en K grupos. Ello implica que el investigador debe especificar
a priori los grupos que deben ser formados. La asignación de individuos
a los grupos se hace mediante algún proceso que optimice el criterio de
selección.
Usan la matriz de datos original y no precisan su conversión en una

matriz de distancias o similitudes.

Methods) - 2
Los métodos no jerárquicos se agrupan en métodos de reasignación,
métodos de búsqueda de la densidad, métodos directos y métodos de
reducción de dimensiones.

Methods) - 3
Los métodos de reasignación permiten que un individuo asignado a un
grupo en un determinado paso del proceso sea reasignado a otro
grupo en un paso posterior, si ello optimiza el criterio de selección. El
proceso acaba cuando no quedan individuos cuya reasignación permita
optimizar el resultado que se ha conseguido. Dentro de los métodos de
reasignación están: el método K-Medias, el análisis Quick-Clúster, el
método de Forgy y el método de las nubes dinámicas.

Methods) - 4
Los métodos de búsqueda de la densidad comprenden los que
proporcionan una aproximación tipológica y una aproximación
probabilística. En el primer tipo, los grupos se forman buscando las
zonas en las cuales se da una mayor concentración de individuos. Entre
ellos destacan: el análisis modal de Wishart, el método Taxmap y el
método de Fortin. En el segundo tipo se parte del postulado de que las
variables siguen una ley de probabilidad según la cual los parámetros
varían de un grupo a otro. Se trata de encontrar los individuos que
pertenecen a la misma distribución. Entre los métodos de este tipo
destaca el método de las combinaciones de Wolf.
Methods) - 5
Los métodos directos permiten clasificar simultáneamente a los
individuos y a las variables. El algoritmo más conocido dentro de este
grupo es el Block-Clustering.
Los métodos de reducción de dimensiones consisten en la búsqueda de

unos factores en el espacio de los individuos; cada factor corresponde a
un grupo. Se les conoce como Análisis Factorial tipo Q.

Método K-Medias (K-Means Method) - 1
MacQueen, en 1972, emplea el término K-Medias para denotar el
proceso de asignar cada individuo al clúster, de los K prefijados, con el
centroide más próximo. La clave de este procedimiento radica en que
el centroide se calcula a partir de los miembros del clúster tras cada
asignación.

El algoritmo que propuso es el siguiente:
1. Dividir los elementos en K clústeres iniciales.
2. Proceder a través de la lista de elementos, asignando un elemento
al clúster cuyo centroide (media) es más cercano. La distancia
generalmente se calcula utilizando la distancia euclidiana con
observaciones estandarizadas o no estandarizadas. Volver a calcular
el centroide para el clúster que gana el elemento y para el clúster
que pierde el elemento.
3. Repetir el Paso 2 hasta que no se realicen más reasignaciones.

En lugar de comenzar con una partición de todos los elementos en
grupos preliminares K en el Paso 1, podríamos especificar K centroides
iniciales (puntos semilla) y luego continuar con el Paso 2.
La asignación final de elementos a los grupos dependerá, en cierta

medida, de la partición inicial o de la selección inicial de los puntos
semilla. La experiencia sugiere que la mayoría de los cambios
importantes en la asignación ocurren con el primer paso de
reasignación.

Ejemplo de agrupamiento usando el método
K-Medias - 1
Supongamos que medimos dos variables 𝑥𝑥1 y 𝑥𝑥2 para cada uno de los
cuatro elementos A, B, C y D. Los datos se dan en la siguiente tabla:
Observaciones
Elemento 𝒙𝒙𝟏𝟏 𝒙𝒙𝟐𝟐
A 5 3
B -1 1
C 1 -2
D -3 -2

K-Medias - 2
El objetivo es dividir estos elementos en K = 2 grupos de tal manera
que los elementos dentro de un clúster estén más cerca uno del otro
que de los elementos de diferentes grupos. Para implementar el
método K = 2-medias, particionamos (arbitrariamente) los elementos
en dos clústeres, como (AB) y (CD), y calculamos las coordenadas
(𝑥𝑥1̅ , 𝑥𝑥̅2 ) del centroide del clúster (media). Por lo tanto, en el Paso 1,
tenemos: Coordenadas del centroide
Clúster 𝑥𝑥̅1 𝑥𝑥̅2
5 + (−1) 3+1
(AB) =2 =2
2 2
1 + (−3) −2 + (−2)
(CD) = −1 = −2
2 2
22/8/2022 20
K-Medias - 3
En el Paso 2, calculamos la distancia euclidiana al cuadrado de cada
elemento de los centroides del grupo y reasignamos cada elemento al
grupo más cercano. Si un elemento se mueve de la configuración
inicial, los centroides del clúster (medias) deben actualizarse antes de
continuar. La coordenada i-ésima, del centroide se actualiza fácilmente
utilizando las fórmulas:
𝑛𝑛𝑥𝑥̅𝑖𝑖 + 𝑥𝑥𝑗𝑗𝑗𝑗
𝑥𝑥̅𝑖𝑖,𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 = , si el 𝑗𝑗 − é𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 elemento es agregado a un grupo
𝑛𝑛 + 1
𝑛𝑛𝑥𝑥̅𝑖𝑖 − 𝑥𝑥𝑗𝑗𝑗𝑗
𝑥𝑥̅𝑖𝑖,𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 = , si el 𝑗𝑗 − é𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 elemento es separado de un grupo
𝑛𝑛 − 1

K-Medias - 4
Aquí n es el número de elementos en el grupo "antiguo" con centroide
𝑥𝑥̅ ′ = (𝑥𝑥̅1 , 𝑥𝑥̅2 , … 𝑥𝑥̅𝑝𝑝 ).
Considere los grupos iniciales (AB) y (CD). Las coordenadas de los

centroides son (2, 2) y (-1, -2) respectivamente.
Supongamos que el elemento A con coordenadas (5, 3) se mueve al

grupo (CD). Los nuevos grupos son (B) y (ACD) con centroides
actualizados:

K-Medias - 5
𝑛𝑛𝑥𝑥̅ 1 −𝑥𝑥11 2 2 −5 𝑛𝑛𝑥𝑥̅ 2 −𝑥𝑥12 2 2 −3
Grupo (B): 𝑥𝑥̅1,𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 = = = −1 y 𝑥𝑥̅2,𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 = = =1
𝑛𝑛−1 2−1 𝑛𝑛−1 2−1
𝑛𝑛𝑥𝑥̅ 1 +𝑥𝑥11 2 −1 +5 𝑛𝑛𝑥𝑥̅ 2 +𝑥𝑥12 2 −2 +3

Grupo (ACD): 𝑥𝑥̅1,𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 = 𝑛𝑛+1
= 2+1
= 1 y 𝑥𝑥̅2,𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 = 𝑛𝑛+1
= 2+1
=
− 0.333
Volviendo a las agrupaciones iniciales en el Paso 1, calculamos las

distancias euclidianas al cuadrado.

K-Medias - 6
Si A no es movido
𝑑𝑑 2 𝐴𝐴, 𝐴𝐴𝐴𝐴 = (5 − 2)2 +(3 − 2)2 = 10
𝑑𝑑 2 𝐴𝐴, 𝐶𝐶𝐶𝐶 = (5 − (−1))2 +(3 − (−2))2 = 61
Si A es movido al grupo (CD)

𝑑𝑑 2 𝐴𝐴, 𝐵𝐵 = (5 − (−1))2 +(3 − 1)2 = 40
𝑑𝑑 2 𝐴𝐴, 𝐴𝐴𝐴𝐴𝐴𝐴 = (5 − 1)2 +(3 − (−0.333))2 = 27.089
Dado que A está más cerca del centro de (AB) que del centro de (ACD),
no se reasigna.
K-Medias - 7
Continuando, supongamos que el elemento B con coordenadas (-1, 1)
se mueve al grupo (CD). Los nuevos grupos son (A) y (BCD) con
centroides actualizados:
𝑛𝑛𝑥𝑥̅ 1 −𝑥𝑥21 2 2 −(−1) 𝑛𝑛𝑥𝑥̅ 2 −𝑥𝑥22 2 2 −1

Grupo (A): 𝑥𝑥̅1,𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 = = = 5 y 𝑥𝑥̅2,𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 = = =3
𝑛𝑛−1 2−1 𝑛𝑛−1 2−1
𝑛𝑛𝑥𝑥̅ 1 +𝑥𝑥21 2 −1 +(−1) 𝑛𝑛𝑥𝑥̅ 2 +𝑥𝑥22

Grupo (BCD): 𝑥𝑥̅1,𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 = 𝑛𝑛+1
= 2+1
= −1 y 𝑥𝑥̅2,𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 = 𝑛𝑛+1
=
2 −2 +1
2+1
= −1

K-Medias - 8
Volviendo a las agrupaciones iniciales en el Paso 1, calculamos las
Si B no es movido
𝑑𝑑 2 𝐵𝐵, 𝐴𝐴𝐴𝐴 = (−1 − 2)2 +(1 − 2)2 = 10
𝑑𝑑 2 𝐵𝐵, 𝐶𝐶𝐶𝐶 = (−1 − (−1))2 +(1 − (−2))2 = 9
Si B es movido al grupo (CD)

𝑑𝑑 2 𝐵𝐵, 𝐴𝐴 = (−1 − 5)2 +(1 − 3)2 = 40
𝑑𝑑 2 𝐵𝐵, 𝐵𝐵𝐵𝐵𝐵𝐵 = (−1 − (−1))2 +(1 − (−1))2 = 4
K-Medias - 9
Dado que B está más cerca del centro del grupo (BCD) que del centro
del grupo (AB), B se reasigna al grupo (CD). Ahora tenemos los clústeres
(A) y (BCD) con coordenadas de centroide (5, 3) y (-1, -1)
respectivamente.

K-Medias - 10
Continuando, supongamos que el elemento C con coordenadas (1, -2)
se mueve al grupo (A). Los nuevos grupos son (AC) y (BD) con
centroides actualizados:
𝑛𝑛𝑥𝑥̅ 1 +𝑥𝑥31 1 5 +1 𝑛𝑛𝑥𝑥̅ 2 +𝑥𝑥32 1 3 −2

Grupo (AC): 𝑥𝑥1,𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛
̅ = = = 3 y 𝑥𝑥̅2,𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 = = = 0.5
𝑛𝑛+1 1+1 𝑛𝑛+1 1+1
𝑛𝑛𝑥𝑥̅ 1 −𝑥𝑥31 3 −1 −1 𝑛𝑛𝑥𝑥̅ 2 −𝑥𝑥32

Grupo (BD): 𝑥𝑥̅1,𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 = 𝑛𝑛−1
= 3−1
= −2 y 𝑥𝑥̅2,𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 = 𝑛𝑛−1
=
3 −1 −(−2)
3−1
= −0.5

K-Medias - 11
Volviendo a las últimas agrupaciones en el Paso 1, calculamos las
Si C no es movido
𝑑𝑑 2 𝐶𝐶, 𝐴𝐴 = (1 − 5)2 +(−2 − 3)2 = 41
𝑑𝑑 2 𝐶𝐶, 𝐵𝐵𝐵𝐵𝐵𝐵 = (1 − (−1))2 +(−2 − (−1))2 = 5
Si C es movido al grupo (A)

𝑑𝑑 2 𝐶𝐶, 𝐴𝐴𝐴𝐴 = (1 − 3)2 +(−2 − 0.5)2 = 10.25
𝑑𝑑 2 𝐶𝐶, 𝐵𝐵𝐵𝐵 = (1 − (−2))2 +(−2 − (−0.5))2 = 11.25
K-Medias - 12
Dado que C está más cerca del centro del grupo (BCD) que del centro
del grupo (AC), C no se mueve. Continuando de esta manera,
encontramos que no se producen más reasignaciones y los K = 2 grupos
finales son (A) y (BCD).
Para los grupos finales, tenemos:

K-Medias - 13
Distancias al cuadrado a los
centroides del grupo
Elementos
A B C D
Clúster
(5, 3) (-1, 1) (1, -2) (-3, -2)
A
0 40 41 89
(5, 3)
(BCD)
52 4 5 5
(-1, -1)
La suma de cuadrados dentro del clúster (suma de distancias al

cuadrado al centroide) es: Clúster A = 0 y Clúster (BCD) = 4 + 5 + 5 = 14

Usando R
> # Crear el marco de datos
> X1 <- c(5, -1, 1, -3)
> X2 <- c(3, 1, -2, -2)
> Datos <- data.frame(X1, X2)
> # Ejecutar la función kmeans()

> kmeans.result <- kmeans(Datos, 2)
> # Conglomerados
> kmeans.result$cluster
[1] 2 1 1 1

Medidas de similitud
Johnson, Richard A.; Wichern, Dean (2014). Applied
Multivariate Statistical Analysis.
Medidas de similitud (Similarity Measures) - 1
La mayoría de los esfuerzos para producir una estructura de grupo
bastante simple a partir de un conjunto de datos complejo requieren
una medida de "cercanía" o "similitud". A menudo hay una gran
cantidad de subjetividad involucrada en la elección de una medida de
similitud. Las consideraciones importantes incluyen la naturaleza de las
variables (discretas, continuas, binarias), las escalas de medición
(nominal, ordinal, intervalo, relación) y el conocimiento de la materia.

Medidas de similitud (Similarity Measures) - 2
Cuando los elementos (unidades o casos) se agrupan, la proximidad
generalmente se indica por algún tipo de distancia. Por el contrario, las
variables generalmente se agrupan sobre la base de coeficientes de
correlación o medidas similares de asociación.

Distancias y coeficientes de similitud para
pares de elementos
La distancia de Minkowski (en línea recta) entre dos observaciones p-
dimensionales (elementos) 𝑥𝑥 ′ = 𝑥𝑥1 , 𝑥𝑥2 , … , 𝑥𝑥𝑝𝑝 y 𝑦𝑦 ′ = 𝑦𝑦1 , 𝑦𝑦2 , … , 𝑦𝑦𝑝𝑝
es,
1�
𝑝𝑝 𝑚𝑚
𝑑𝑑 𝑥𝑥, 𝑦𝑦 = � 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖 𝑚𝑚
𝑖𝑖=1
Para m = 1, tenemos la distancia Manhattan o city block.

Para m = 2, tenemos la distancia euclidiana.

Medidas de similitud para variables binarias - 1
Cuando los elementos no pueden ser representados por mediciones p-

dimensionales significativas, los pares de elementos a menudo se
comparan sobre la base de la presencia o ausencia de ciertas
características. Elementos similares tienen más características en
común que los elementos diferentes. La presencia o ausencia de una
característica se puede describir matemáticamente introduciendo una
variable binaria, que asume el valor 1 si la característica está presente y
el valor 0 si la característica está ausente. Para p = 5 variables binarias,
por ejemplo, las "puntuaciones" para dos elementos i y k podrían
organizarse de la siguiente manera:
Variables
1 2 3 4 5
Elemento i 1 0 0 1 1
Elemento k 1 1 0 1 0
En este caso, hay dos coincidencias 1-1, una coincidencia 0-0 y dos
discrepancias.
Sea 𝑥𝑥𝑖𝑖𝑖𝑖 el puntaje (1 o 0) de la j-ésima variable binaria en el i-ésimo

elemento y 𝑥𝑥𝑗𝑗𝑗𝑗 el puntaje (de nuevo, 1 o 0) de la j-ésima variable en el
k-ésimo elemento. Donde j = 1, 2, …, p.

En consecuencia,
2 0 𝑆𝑆𝑆𝑆 𝑥𝑥𝑖𝑖𝑖𝑖 = 𝑥𝑥𝑘𝑘𝑘𝑘 = 1 𝑜𝑜 𝑥𝑥𝑖𝑖𝑖𝑖 = 𝑥𝑥𝑘𝑘𝑘𝑘 = 0
𝑥𝑥𝑖𝑖𝑖𝑖 − 𝑥𝑥𝑘𝑘𝑘𝑘 =�
1 𝑆𝑆𝑆𝑆 𝑥𝑥𝑖𝑖𝑖𝑖 ≠ 𝑥𝑥𝑘𝑘𝑘𝑘
2
y la distancia euclidiana al cuadrado, ∑𝑝𝑝𝑗𝑗=1
𝑥𝑥𝑖𝑖𝑖𝑖 − 𝑥𝑥𝑘𝑘𝑘𝑘 , proporciona un
recuento del número de no coincidencias. Una gran distancia
corresponde a muchas no coincidencias, es decir, elementos disímiles.
De la tabla anterior, el cuadrado de la distancia entre los elementos i y
k sería,
2
∑5𝑗𝑗=1 𝑥𝑥𝑖𝑖𝑖𝑖 − 𝑥𝑥𝑘𝑘𝑘𝑘 = 1−1 2
+ 0−1 2
+ 0−0 2
+ 1−1 2
+ 1−0 2
=2
Aunque se puede usar la distancia euclidiana al cuadrado para medir la

similitud, esta adolece de ponderación para las coincidencias 1-1 y 0-0.
En algunos casos, una coincidencia 1-1 es una indicación más fuerte de

similitud que una coincidencia 0-0. Ejemplo.- al agrupar personas, la
evidencia de que dos personas leen griego antiguo es una evidencia
más fuerte de similitud que la ausencia de esta habilidad.

Por lo tanto, podría ser razonable descontar las coincidencias 0-0 o

incluso descartarlas por completo. Para permitir un tratamiento
diferenciado de las coincidencias 1-1 y las coincidencias 0-0, se han
sugerido varios esquemas para definir los coeficientes de similitud.
Para introducir estos esquemas, organicemos las frecuencias de

coincidencias y desajustes para los ítems i y k en forma de tabla de
contingencia.

Elemento k
1 0 Totales
1 a b a+b
Elemento i
0 c d c+d
Totales a+c b+d p=a+b+c+d
En esta tabla, a representa la frecuencia de coincidencias 1-1, b es la

frecuencia de no coincidencias 1-0, c es la frecuencia de no
coincidencias 0-1 y d es la frecuencia de coincidencias 1-1.

Dados los cinco pares de resultados binarios mostrados, tenemos a = 2,

b = 1, c = 1, d = 1.
Elemento k
Variables 1 0 Totales
1 2 3 4 5 1 2 1 3
Elemento i
Elemento i 1 0 0 1 1 0 1 1 2
Elemento k 1 1 0 1 0 Totales 3 2 5
La Tabla 1 enumera los coeficientes de similitud comunes definidos en

términos de las frecuencias.
Tabla 1. Coeficientes de similitud para elementos de agrupación
Coeficiente Razón fundamental
𝑎𝑎+𝑑𝑑
1. 𝑝𝑝
Pesos iguales para coincidencias 1-1 y coincidencias 0-0.
2(𝑎𝑎+𝑑𝑑)
2. 2 𝑎𝑎+𝑑𝑑 +𝑏𝑏+𝑐𝑐
Peso doble para coincidencias 1-1 y coincidencias 0-0.
𝑎𝑎+𝑑𝑑
3. 𝑎𝑎+𝑑𝑑+2(𝑏𝑏+𝑐𝑐) Peso doble para pares sin coincidencias.
𝑎𝑎
4. 𝑝𝑝
No hay coincidencias 0-0 en el numerador.
No hay coincidencias 0–0 en el numerador o el
𝑎𝑎
5. 𝑎𝑎+𝑏𝑏+𝑐𝑐 denominador (Los coincidencias 0-0 se tratan como
irrelevantes).
2𝑎𝑎 No hay coincidencias 0–0 en el numerador o el
6. 2𝑎𝑎+𝑏𝑏+𝑐𝑐
denominador. Peso doble para coincidencias 1–1.
𝑎𝑎 No hay coincidencias 0–0 en el numerador o el
7. 𝑎𝑎+2(𝑏𝑏+𝑐𝑐)
denominador. Doble peso para pares sin coincidencia.
𝑎𝑎 Ratio coincidencias / no coincidencias. Coincidencias 0-0
8. 𝑏𝑏+𝑐𝑐
excluidas.
22/8/2022 44
Ejemplo de personas con diversas características - 1
Color de Color de
Persona Altura Peso Lateralidad Sexo
ojos pelo
1 1.72 m 63.5 k Verde Negro Derecha Femenino
2 1.85 m 83.9 k Marrón Marrón Derecha Masculino
3 1.70 m 74.8 k Azul Negro Derecha Masculino
4 1.63 m 54.4 k Marrón Marrón Derecha Femenino
5 1.93 m 95.3 k Marrón Marrón Izquierda Masculino
Definimos seis variables binarias 𝑥𝑥1 , 𝑥𝑥2 , 𝑥𝑥3 , 𝑥𝑥4 , 𝑥𝑥5 , 𝑥𝑥6 como:
1 𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 ≥ 1.80 𝑚𝑚 1 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 ≥ 68 𝑘𝑘 1 𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚
𝑥𝑥1 = � 𝑥𝑥2 = � 𝑥𝑥3 = �
0 𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 < 1.80 𝑚𝑚 0 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 < 68 𝑘𝑘 0 𝑑𝑑𝑑𝑑 𝑙𝑙𝑙𝑙 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐
1 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 1 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 1 𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓

𝑥𝑥4 = � 𝑥𝑥5 = � 𝑥𝑥6 = �
0 𝑑𝑑𝑑𝑑 𝑙𝑙𝑙𝑙 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 0 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖 0 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚

Las puntuaciones de las personas 1 y 2 en las p = 6 variables binarias son:

𝑥𝑥1 𝑥𝑥2 𝑥𝑥3 𝑥𝑥4 𝑥𝑥5 𝑥𝑥6
Persona 1 0 0 0 1 1 1
Persona 2 1 1 1 0 1 0
y el número de coincidencias y no coincidencias se indica en la matriz bidireccional

Persona 2
1 0 Totales
1 1 2 3
Persona 1
0 3 0 3
Totales 4 2 6

Empleando el coeficiente de similitud 1 (Tabla 1), que otorga el mismo peso a las
coincidencias, se obtiene
𝑎𝑎+𝑑𝑑 1+0
𝑝𝑝
= 6
= 0.167
Continuando con el coeficiente de similitud 1, calculamos los números de similitud
restantes para pares de individuos. Estos se muestran en la matriz simétrica.
Persona 1 Persona 2 Persona 3 Persona 4 Persona 5
Persona 1 1
Persona 2 0.167 1
Persona 3 0.667 0.5 1
Persona 4 0.667 0.5 0.333 1
Persona 5 0 0.833 0.333 0.333 1

Persona 1 Persona 2 Persona 3 Persona 4 Persona 5
Persona 1 1
Persona 2 0.167 1
Persona 3 0.667 0.5 1
Persona 4 0.667 0.5 0.333 1
Persona 5 0 0.833 0.333 0.333 1
Con base en las magnitudes del coeficiente de similitud, debemos concluir que los
individuos 2 y 5 son los más similares y los individuos 1 y 5 son los menos similares.
Otros pares caen entre estos extremos. Si tuviéramos que dividir a los individuos en
dos subgrupos relativamente homogéneos sobre la base de los números de
similitud, podríamos formar los subgrupos (1 3 4) y (2 5).

Tenga en cuenta que 𝑥𝑥3 = 0 implica la ausencia de ojos marrones, por lo que dos
personas, una con ojos negros y otra con ojos verdes, darán una coincidencia de 0-
0. En consecuencia, puede ser inapropiado usar el coeficiente de similitud 1, 2 o 3
porque estos coeficientes otorgan el mismo peso a las coincidencias 1-1 y 0-0.

Semejanzas y medidas de asociación para
pares de variables - 1
En algunas aplicaciones, son las variables, en lugar de los elementos, las que
deben agruparse. Las medidas de similitud de las variables a menudo
adoptan la forma de coeficientes de correlación muestral. Además, en
algunas aplicaciones de agrupamiento, las correlaciones negativas se
reemplazan por sus valores absolutos.
Cuando las variables son binarias, los datos pueden ordenarse nuevamente
en forma de una tabla de contingencia. Esta vez, sin embargo, las variables,
en lugar de los elementos, delimitan las categorías. Para cada par de
variables, hay n elementos categorizados en la tabla. Con la codificación
habitual 0 y 1, la tabla queda de la siguiente manera:
Variable k
1 0 Totales
1 a b a+b
Variable i
0 c d c+d
Totales a+c b+d n=a+b+c+d
Ejemplo.- la variable i es igual a 1 y la variable k es igual a 0 para b de

los n elementos.
La fórmula usual de correlación del producto-momento (Coeficiente de

Pearson) aplicada a las variables binarias en la tabla de contingencia da,

𝑎𝑎𝑎𝑎 − 𝑏𝑏𝑏𝑏
𝑟𝑟 = 1�
(𝑎𝑎 + 𝑏𝑏)(𝑐𝑐 + 𝑑𝑑)(𝑎𝑎 + 𝑐𝑐)(𝑏𝑏 + 𝑑𝑑) 2
Este número se puede tomar como una medida de la similitud entre las
dos variables.

Métodos de Agrupamiento
Jerárquico
Johnson, Richard A.; Wichern, Dean (2014). Applied
Multivariate Statistical Analysis.
Métodos de Agrupamiento Jerárquico
(Hierarchical Clustering Methods) - 1
Las técnicas de agrupación jerárquica proceden de una serie de
fusiones sucesivas o de una serie de divisiones sucesivas.
Los Métodos Jerárquicos Aglomerativos (Agglomerative Hierarchical

Methods) comienzan con los objetos individuales. Por lo tanto,
inicialmente hay tantos clústeres como objetos. Los objetos más
similares se agrupan primero, y estos grupos iniciales se fusionan de
acuerdo con sus similitudes. Eventualmente, a medida que la similitud
disminuye, todos los subgrupos se fusionan en un solo grupo.

Los Métodos Jerárquicos Divisivos (Divisive Hierarchical Methods)
funcionan en la dirección opuesta. Un solo grupo inicial de objetos se
divide en dos subgrupos de tal manera que los objetos de un subgrupo
están "lejos" de los objetos del otro. Estos subgrupos se dividen en
subgrupos disímiles; el proceso continúa hasta que hay tantos
subgrupos como objetos, es decir, hasta que cada objeto forma un
grupo.

Los resultados de los métodos aglomerativos y divisivos pueden
mostrarse en forma de un diagrama bidimensional conocido como
dendrograma.
El dendrograma ilustra las fusiones o escisiones que se han realizado en

niveles sucesivos.

Métodos de Enlace (Linkage Methods) - 1
Los Métodos de Enlace son parte de los Métodos Jerárquicos
Aglomerativos.
Los Métodos de Enlace son adecuados para agrupar elementos, así

como variables. Esto no es cierto para todos los procedimientos de
aglomeración jerárquica. Veremos tres métodos, Enlace Simple (Single
Linkage), Enlace Completo (Complete Linkage), y Centroide (Centroid).

Los siguientes son los pasos del algoritmo general de agrupamiento
jerárquico aglomerativo para agrupar N objetos (elementos o
variables):
1. Comience con N clústeres, cada uno con una sola entidad y una
matriz simétrica N x N de distancias (o similitudes) 𝑫𝑫 = 𝑑𝑑𝑖𝑖𝑖𝑖 .
2. Busque en la matriz de distancia el par de grupos más cercano (más
similar). Sea la distancia entre los clústeres "más similares" U y V
igual a 𝑑𝑑𝑈𝑈𝑈𝑈 .

3. Fusionar los clústeres U y V. Etiquete el grupo recién formado (UV).
Actualice las entradas de la matriz de distancias (a) eliminando las
filas y columnas correspondientes a los clústeres U y V y (b)
agregando una fila y una columna que indiquen las distancias entre
el clúster (UV) y los clústeres restantes.
4. Repita los pasos 2 y 3 un total de N-1 veces. (Todos los objetos
estarán en un clúster único después de que finalice el algoritmo).
Registre la identidad de los clústeres que se fusionan y los niveles
(distancias o similitudes) en los que tienen lugar las fusiones.

Enlace Simple (Single Linkage) - 1
Las entradas para el algoritmo de enlace simple pueden ser distancias o
similitudes entre pares de objetos. Los grupos se forman a partir de las
entidades individuales mediante la fusión de vecinos más cercanos,
donde el término vecino más cercano connota la distancia más
pequeña o la similitud más grande.
Inicialmente, debemos encontrar la distancia más pequeña y fusionar

los objetos correspondientes, digamos, U y V, para obtener el clúster.
Para el paso 3 del algoritmo general, las distancias entre y cualquier
(UV) otro clúster W se calculan por 𝑑𝑑 𝑈𝑈𝑈𝑈 𝑊𝑊 = 𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑𝑈𝑈𝑈𝑈 , 𝑑𝑑𝑉𝑉𝑉𝑉
Enlace Simple (Single Linkage) - 2
Aquí las cantidades 𝑑𝑑𝑈𝑈𝑈𝑈 y 𝑑𝑑𝑉𝑉𝑉𝑉 son las distancias entre los vecinos más
cercanos de los clústeres U y W y los clústeres V y W, respectivamente.
Los resultados de la agrupación de enlaces únicos se pueden mostrar

gráficamente en forma de dendrograma o diagrama de árbol. Las ramas
del árbol representan racimos. Las ramas se unen (fusionan) en nodos
cuyas posiciones a lo largo de un eje de distancia (o similitud) indican el
nivel en el que se producen las fusiones.

Ejemplo de un conglomerado usando enlace
simple - 1
Para ilustrar el algoritmo de enlace simple, consideramos las distancias hipotéticas
entre pares de cinco objetos de la siguiente manera:
1 2 3 4 5
1 0
2 9 0
𝑫𝑫 = 𝑑𝑑𝑖𝑖𝑖𝑖 = 3 3 7 0
4 6 5 9 0
5 11 10 2 8 0
Al tratar cada objeto como un grupo, comenzamos a agrupar fusionando los dos
elementos menos distantes (más similares). Ya que min 𝑑𝑑𝑖𝑖𝑖𝑖 = 𝑑𝑑53 = 2
𝑖𝑖,𝑘𝑘

simple - 2
los objetos 5 y 3 se fusionan para formar el grupo (35). Para implementar el
siguiente nivel de agrupación, necesitamos las distancias entre el grupo (35) y los
objetos restantes, 1, 2 y 4. Las distancias del vecino más cercano son
𝑑𝑑 35 1 = 𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑31 , 𝑑𝑑51 = 𝑚𝑚𝑚𝑚𝑚𝑚 3, 11 = 3

Eliminando las filas y columnas de 𝑫𝑫 correspondientes a los objetos 3 y 5, y

agregando fila y columna para el conglomerado (35), obtenemos la nueva matriz de
distancia para el siguiente nivel de agrupamiento

simple - 3
(35) 1 2 4
(35) 0
1 3 0
2 7 9 0
4 8 6 5 0
La distancia mínima entre vecinos más cercanos de pares de grupos es 𝑑𝑑 35 1 = 3 y

fusionamos el objeto 1 con el grupo (35) para obtener el grupo (135). Calculando
𝑑𝑑 135 2 = 𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑 35 2 , 𝑑𝑑12 = 𝑚𝑚𝑚𝑚𝑚𝑚 7, 9 = 7

𝑑𝑑 135 4 = 𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑 35 4 , 𝑑𝑑14 = 𝑚𝑚𝑚𝑚𝑚𝑚 8, 6 = 6

simple - 4
encontramos que la matriz de distancia para el siguiente nivel de agrupamiento es
(135) 2 4
(135) 0
2 7 0
4 6 5 0
La distancia mínima entre vecinos más cercanos de pares de grupos es 𝑑𝑑42 = 5 y

fusionamos los objetos 4 y 2 para obtener el grupo (24).
En este punto tenemos dos grupos distintos, (135) y (24). La distancia de su vecino
más cercano es

simple - 5
𝑑𝑑 135 (24) = 𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑 135 2 , 𝑑𝑑 135 4 = 𝑚𝑚𝑚𝑚𝑚𝑚 7, 6 = 6
La matriz de distancia final se convierte en

(135) (24)
(135) 0
(24) 6 0
En consecuencia, los grupos (135) y (24) se fusionan para formar un solo grupo de
los cinco objetos (12345), cuando la distancia del vecino más cercano llega a 6.

Ejemplo de un 6
conglomerado usando 5
enlace simple - 6 4
Distancias
3
El dendrograma que representa el

2
agrupamiento jerárquico recién
concluido se muestra en la figura. Las
1
agrupaciones y los niveles de distancia
en los que ocurren están claramente 0
ilustrados por el dendrograma. 1 3 5 2 4
Objetos

simple resuelto usando R - 1
Supongamos que medimos dos variables para cada uno de los diez
elementos. Los datos se dan en la siguiente tabla:
Observaciones Observaciones
Elemento 𝒙𝒙𝟏𝟏 𝒙𝒙𝟐𝟐 Elemento 𝒙𝒙𝟏𝟏 𝒙𝒙𝟐𝟐
1 2 4 6 23 26
2 3 8 7 44 9
3 10 23 8 45 5
4 22 25 9 48 8
5 21 25 10 49 6

> X1 <- c(2, 3, 10, 22, 21, 23, 44, 45, 48, 49)
> X2 <- c(4, 8, 23, 25, 25, 26, 9, 5, 8, 6)
> # Matriz de similitud

> ms <- dist(Datos, method = "euclidean")^2
> ms
1 2 3 4 5 6 7 8 9
2 17
3 425 274
4 841 650 148
5 802 613 125 1
6 925 724 178 2 5
7 1789 1682 1352 740 785 730
8 1850 1773 1549 929 976 925 17
9 2132 2025 1669 965 1018 949 17 18
10 2213 2120 1810 1090 1145 1076 34 17 5
> # Ejecutar la función hclust() con el método del enlace simple
> hcluster.result <- hclust(ms, method = "single")
> # Valores de medida de los conglomerados

> hcluster.result$height
[1] 1 2 5 17 17 17 125 274 730
> # Secuencia de formación de los conglomerados

> hcluster.result$merge
[,1] [,2]
Primer conglomerado: 4 con 5 mide 1
[1,] -4 -5 Segundo conglomerado: 4-5 con 6 mide 2
[2,] -6 1 Tercer conglomerado: 9 con 10 mide 5
[3,] -9 -10 Cuarto conglomerado: 1 con 2 mide 17
[4,] -1 -2 Quinto conglomerado: 7 con 8 mide 17
[5,] -7 -8 Sexto conglomerado: 9-10 con 7-8 mide 17
[6,] 3 5 Séptimo conglomerado: 3 con 4-5-6 mide 125
[7,] -3 2
Octavo conglomerado: 1-2 con 3-4-5-6 mide 274
[8,] 4 7
[9,] 6 8
Noveno conglomerado: 7-8-9-10 con 1-2-3-4-5-6 mide 730
70
> # Grafico del dendrograma
> plot(hcluster.result, cex = 0.6, hang = -1, main = "Dendrograma", xlab =
"Elementos", ylab = "Distancia")
> # Cortar el árbol en tres conglomerados
> rect.hclust(hcluster.result, k = 3)
71
Enlace Completo (Complete Linkage) - 1
El agrupamiento de enlace completo procede de la misma manera que
los agrupamientos de enlace simple, con una excepción importante: en
cada etapa, la distancia (similitud) entre los clústeres está determinada
por la distancia (similitud) entre los dos elementos, uno de cada clúster,
que son más distantes. Por lo tanto, la vinculación completa garantiza
que todos los elementos de un grupo estén dentro de una distancia
máxima (o similitud mínima) entre sí.

Enlace Completo (Complete Linkage) - 2
El algoritmo general nuevamente comienza encontrando la entrada
mínima 𝑫𝑫 = 𝑑𝑑𝑖𝑖𝑖𝑖 y fusionando los objetos correspondientes, como U
y V, para obtener el clúster (UV). Para el paso 3 del algoritmo general,
las distancias entre (UV) y cualquier otro grupo W se calculan mediante
𝑑𝑑 𝑈𝑈𝑈𝑈 𝑊𝑊 = 𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑𝑈𝑈𝑈𝑈 , 𝑑𝑑𝑉𝑉𝑉𝑉
Aquí las cantidades 𝑑𝑑𝑈𝑈𝑈𝑈 y 𝑑𝑑𝑉𝑉𝑉𝑉 son las distancias entre los vecinos más
distantes de los clústeres U y W y los clústeres V y W, respectivamente.

completo - 1
Para ilustrar el algoritmo de enlace completo, consideramos las distancias
hipotéticas entre pares de cinco objetos de la siguiente manera:
1 2 3 4 5
1 0
2 9 0
𝑫𝑫 = 𝑑𝑑𝑖𝑖𝑖𝑖 = 3 3 7 0
4 6 5 9 0
5 11 10 2 8 0
Al tratar cada objeto como un grupo, comenzamos a agrupar fusionando los dos
elementos más similares (menos distantes). Ya que min 𝑑𝑑𝑖𝑖𝑖𝑖 = 𝑑𝑑53 = 2
𝑖𝑖,𝑘𝑘

completo - 2
los objetos 5 y 3 se fusionan para formar el grupo (35). Para implementar el
siguiente nivel de agrupación, necesitamos las distancias entre el grupo (35) y los
objetos restantes, 1, 2 y 4. Las distancias del vecino más cercano son
𝑑𝑑 35 1 = 𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑31 , 𝑑𝑑51 = 𝑚𝑚𝑎𝑎𝑎𝑎 3, 11 = 11

Eliminando las filas y columnas de 𝑫𝑫 correspondientes a los objetos 3 y 5, y

agregando fila y columna para el conglomerado (35), obtenemos la nueva matriz de
distancia para el siguiente nivel de agrupamiento

completo - 3
(35) 1 2 4
(35) 0
1 11 0
2 10 9 0
4 9 6 5 0
La distancia mínima entre vecinos más lejanos de pares de grupos es 𝑑𝑑24 = 5 y

fusionamos el objeto 2 con el objeto 4 para obtener el grupo (24). Calculando
𝑑𝑑 24 (35) = 𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑2(35) , 𝑑𝑑4(35) = 𝑚𝑚𝑎𝑎𝑎𝑎 10, 9 = 10


completo - 4
encontramos que la matriz de distancia para el siguiente nivel de agrupamiento es
(35) (24) 1
(35) 0
(24) 10 0
1 11 9 0
La distancia mínima entre vecinos más lejanos de pares de grupos es 𝑑𝑑1(24) = 9 y

fusionamos el objeto 1 y el grupo (24) para obtener el grupo (124).
En este punto tenemos dos grupos, (124) y (35). La distancia de su vecino más
lejano es

completo - 5
𝑑𝑑 124 (35) = 𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑1 35 , 𝑑𝑑(24) 35 = 𝑚𝑚𝑎𝑎𝑎𝑎 11, 10 = 11
La matriz de distancia final se convierte en

(35) (124)
(35) 0
(124) 11 0
En consecuencia, los grupos (124) y (35) se fusionan para formar un solo grupo de
los cinco objetos (12345), cuando la distancia del vecino más lejano llega a 11.

Ejemplo de un 11
conglomerado usando
10
enlace completo - 6 8
Distancias
6
El dendrograma que representa el

5
agrupamiento jerárquico recién 4
concluido se muestra en la figura. 3
0
1 2 4 3 5
Objetos

completo resuelto usando R - 1
Supongamos que medimos dos variables para cada uno de los diez
elementos. Los datos se dan en la siguiente tabla:
Observaciones Observaciones
Elemento 𝒙𝒙𝟏𝟏 𝒙𝒙𝟐𝟐 Elemento 𝒙𝒙𝟏𝟏 𝒙𝒙𝟐𝟐
1 2 4 6 23 26
2 3 8 7 44 9
3 10 23 8 45 5
4 22 25 9 48 8
5 21 25 10 49 6

> X1 <- c(2, 3, 10, 22, 21, 23, 44, 45, 48, 49)
> X2 <- c(4, 8, 23, 25, 25, 26, 9, 5, 8, 6)

> ms
1 2 3 4 5 6 7 8 9
2 17
3 425 274
4 841 650 148
5 802 613 125 1
6 925 724 178 2 5
7 1789 1682 1352 740 785 730
8 1850 1773 1549 929 976 925 17
9 2132 2025 1669 965 1018 949 17 18
10 2213 2120 1810 1090 1145 1076 34 17 5
> # Ejecutar la función hclust() con el método del enlace completo
> hcluster.result <- hclust(ms, method = "complete")

[1] 1 5 5 17 17 34 178 925 2213

[,1] [,2] Primer conglomerado: 4 con 5 mide 1
[1,] -4 -5 Segundo conglomerado: 4-5 con 6 mide 5
[2,] -6 1 Tercer conglomerado: 9 con 10 mide 5
[3,] -9 -10 Cuarto conglomerado: 1 con 2 mide 17
[4,] -1 -2 Quinto conglomerado: 7 con 8 mide 17
[5,] -7 -8 Sexto conglomerado: 9-10 con 7-8 mide 34
[6,] 3 5
Séptimo conglomerado: 3 con 4-5-6 mide 178
[7,] -3 2
[8,] 4 7
Octavo conglomerado: 1-2 con 3-4-5-6 mide 925
[9,] 6 8 Noveno conglomerado: 7-8-9-10 con 1-2-3-4-5-6 mide 2213
83
84
Método del Centroide
Gutiérrez, R.; González, A.; Torres, F.; Gallardo, J. A. (1994).
Métodos Jerárquicos de Análisis Clúster.
Método del Centroide (Centroid Method) - 1
En este método, la semejanza entre dos clústeres viene dada por la
semejanza entre sus centroides, esto es, los vectores de medias de las
variables medidas sobre los individuos del clúster. Además, los tamaños
de los clústeres son considerados a la hora de efectuar los cálculos.
El método de centroide se basa en la distancia euclidiana al cuadrado.

Supongamos que pretendemos medir la distancia entre los clústeres 𝐶𝐶𝑗𝑗 ,
compuesto por 𝑛𝑛𝑗𝑗 elementos, y 𝐶𝐶𝑖𝑖 , formado a su vez por dos clústeres,
𝐶𝐶𝑖𝑖𝑖 y 𝐶𝐶𝑖𝑖𝑖 , con 𝑛𝑛𝑖𝑖𝑖 y 𝑛𝑛𝑖𝑖2 elementos, respectivamente.

Sean 𝑚𝑚𝑗𝑗 , 𝑚𝑚𝑖𝑖𝑖 y 𝑚𝑚𝑖𝑖𝑖 los centroides de los clústeres anteriormente
citados (estos centroides son vectores n dimensionales).
Así, el centroide del clúster 𝐶𝐶𝑖𝑖 vendrá dado en notación vectorial por:
𝑛𝑛 𝑚𝑚 𝑖𝑖𝑖 + 𝑛𝑛 𝑚𝑚𝑖𝑖2
𝑖𝑖 𝑖𝑖𝑖 𝑖𝑖2
𝑚𝑚 =
𝑛𝑛𝑖𝑖𝑖 + 𝑛𝑛𝑖𝑖2
cuyas componentes serán:
𝑖𝑖1 𝑖𝑖2
𝑛𝑛 𝑚𝑚
𝑖𝑖𝑖 𝑙𝑙 + 𝑛𝑛 𝑚𝑚
𝑖𝑖2 𝑙𝑙
𝑚𝑚𝑙𝑙𝑖𝑖 = , para 𝑙𝑙 = 1, … , 𝑛𝑛
𝑛𝑛𝑖𝑖𝑖 + 𝑛𝑛𝑖𝑖2

Con ello, la distancia euclidiana al cuadrado entre los clústeres 𝐶𝐶𝑖𝑖 y 𝐶𝐶𝑗𝑗
vendrá dada por:
𝑛𝑛𝑖𝑖𝑖 𝑛𝑛𝑖𝑖2 𝑛𝑛𝑖𝑖1 𝑛𝑛𝑖𝑖𝑖
𝑑𝑑2 𝐶𝐶𝑗𝑗 , 𝐶𝐶𝑖𝑖 = 2
𝑑𝑑 𝐶𝐶𝑖𝑖𝑖 , 𝐶𝐶𝑗𝑗 + 2
𝑑𝑑 𝐶𝐶𝑖𝑖2 , 𝐶𝐶𝑗𝑗 − 2
𝑑𝑑 2 𝐶𝐶 , 𝐶𝐶
𝑖𝑖1 𝑖𝑖𝑖
𝑛𝑛𝑖𝑖𝑖 + 𝑛𝑛𝑖𝑖𝑖 𝑛𝑛𝑖𝑖𝑖 + 𝑛𝑛𝑖𝑖𝑖 𝑛𝑛𝑖𝑖𝑖 + 𝑛𝑛𝑖𝑖𝑖

Ejemplo de un conglomerado usando el
método del centroide - 1
Supongamos que medimos dos variables y para cada uno de los cinco elementos A,
B, C, D y E. Los datos se dan en la siguiente tabla:
Observaciones
Elemento 𝒙𝒙𝟏𝟏 𝒙𝒙𝟐𝟐
A 10 5
B 20 20
C 30 10
D 30 15
E 5 10

La distancia euclidiana al cuadrado se calcula con la expresión
𝑝𝑝 2
𝑑𝑑 𝑥𝑥, 𝑦𝑦 = ∑𝑖𝑖=1 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖
La matriz inicial de distancias euclidianas al cuadrado es

A B C D E
A 0
B 325 0
𝑫𝑫 = C 425 200 0
D 500 125 25 0
E 50 325 625 650 0

Al tratar cada objeto como un clúster, comenzamos a agrupar los elementos de 2
en 2. Ya que min 𝑑𝑑𝑈𝑈𝑈𝑈 = 𝑑𝑑𝐷𝐷𝐷𝐷 = 25, el centroide del clúster 𝐶𝐶6 = (𝐶𝐶, 𝐷𝐷) es
𝑈𝑈,𝑉𝑉
6 𝑛𝑛61 𝑚𝑚61 +𝑛𝑛62 𝑚𝑚62 1(30, 10)+1(30, 15)
𝑚𝑚 = 𝑛𝑛61 +𝑛𝑛62
= 1+1
= (30, 12.5)
La matriz de distancias para A, B, (C, D) y E es

A B (C, D) E
A 0
B 325 0
(C, D) 456.25 156.25 0
E 50 325 631.25 0

𝑛𝑛61 𝑛𝑛62 𝑛𝑛61 𝑛𝑛62
𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷: 𝑑𝑑 2 𝐶𝐶1 , 𝐶𝐶6 = 𝑑𝑑 2 𝐶𝐶61 , 𝐶𝐶1 + 𝑑𝑑 2 𝐶𝐶62 , 𝐶𝐶1 − 𝑑𝑑 2 𝐶𝐶 , 𝐶𝐶
61 62
𝑛𝑛61 + 𝑛𝑛62 𝑛𝑛61 + 𝑛𝑛62 𝑛𝑛61 + 𝑛𝑛62 2
Y, como: 𝐶𝐶1 = 𝐴𝐴, 𝐶𝐶61 = 𝐶𝐶, 𝐶𝐶62 = 𝐷𝐷, 𝐶𝐶6 = 𝐶𝐶, 𝐷𝐷
2 𝐴𝐴, (𝐶𝐶, 𝐷𝐷) =
1 2
1 2
(1)(1) 2
𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸: 𝑑𝑑 𝑑𝑑 𝐶𝐶, 𝐴𝐴 + 𝑑𝑑 𝐷𝐷, 𝐴𝐴 − 𝑑𝑑 𝐶𝐶, 𝐷𝐷 = 212.5 + 250 − 6.25 = 456.25
1+1 1+1 1+1 2
61 62
𝑛𝑛61 + 𝑛𝑛62 𝑛𝑛61 + 𝑛𝑛62 𝑛𝑛61 + 𝑛𝑛62 2
Y, como: 𝐶𝐶2 = 𝐵𝐵, 𝐶𝐶61 = 𝐶𝐶, 𝐶𝐶62 = 𝐷𝐷, 𝐶𝐶6 = 𝐶𝐶, 𝐷𝐷
2 𝐵𝐵, (𝐶𝐶, 𝐷𝐷) =
1 2
1 2
(1)(1) 2
𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸: 𝑑𝑑 𝑑𝑑 𝐶𝐶, 𝐵𝐵 + 𝑑𝑑 𝐷𝐷, 𝐵𝐵 − 𝑑𝑑 𝐶𝐶, 𝐷𝐷 = 100 + 62.5 − 6.25 = 156.25
1+1 1+1 1+1 2

61 62
𝑛𝑛61 + 𝑛𝑛62 𝑛𝑛61 + 𝑛𝑛62 𝑛𝑛61 + 𝑛𝑛62 2
Y, como: 𝐶𝐶5 = 𝐸𝐸, 𝐶𝐶61 = 𝐶𝐶, 𝐶𝐶62 = 𝐷𝐷, 𝐶𝐶6 = 𝐶𝐶, 𝐷𝐷
2 𝐸𝐸, (𝐶𝐶, 𝐷𝐷) =
1 2
1 2
(1)(1) 2
𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸: 𝑑𝑑 𝑑𝑑 𝐶𝐶, 𝐸𝐸 + 𝑑𝑑 𝐷𝐷, 𝐸𝐸 − 𝑑𝑑 𝐶𝐶, 𝐷𝐷 = 312.5 + 325 − 6.25 = 631.25
1+1 1+1 1+1 2
Ya que min 𝑑𝑑𝑈𝑈𝑈𝑈 = 𝑑𝑑𝐸𝐸𝐸𝐸 = 50, el centroide del clúster 𝐶𝐶7 = (𝐴𝐴, 𝐸𝐸) es
𝑈𝑈,𝑉𝑉
7 𝑛𝑛71 𝑚𝑚71 +𝑛𝑛72 𝑚𝑚72 1(10,5)+1(5,10)
= 1+1
= (7.5, 7.5)
La matriz de distancias para (A, E), B y (C, D) es
(A, E) B (C, D)
(A, E) 0
B 312.5 0
(C, D) 531.25 156.25 0

𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷: 𝑑𝑑 2 𝐶𝐶2 , 𝐶𝐶7 = 𝑛𝑛 𝑑𝑑 2 𝐶𝐶71 , 𝐶𝐶2 + 𝑛𝑛 𝑑𝑑 2 𝐶𝐶72 , 𝐶𝐶2 − 2 𝑑𝑑 2 𝐶𝐶71 , 𝐶𝐶72
71 +𝑛𝑛72 71 +𝑛𝑛72 𝑛𝑛71 +𝑛𝑛72
Y, como: 𝐶𝐶2 = 𝐵𝐵, 𝐶𝐶71 = 𝐴𝐴, 𝐶𝐶72 = 𝐸𝐸, 𝐶𝐶7 = 𝐴𝐴, 𝐸𝐸
2 𝐵𝐵, (𝐴𝐴, 𝐸𝐸) =
1 2
1 2
(1)(1) 2
𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸: 𝑑𝑑 𝑑𝑑 𝐴𝐴, 𝐵𝐵 + 𝑑𝑑 𝐸𝐸, 𝐵𝐵 − 𝑑𝑑 𝐴𝐴, 𝐸𝐸 = 162.5 + 162.5 − 12.5
1+1 1+1 1+1 2
= 312.15
71 +𝑛𝑛72 71 +𝑛𝑛72 𝑛𝑛71 +𝑛𝑛72
Y, como: 𝐶𝐶6 = (𝐶𝐶, 𝐷𝐷), 𝐶𝐶71 = 𝐴𝐴, 𝐶𝐶72 = 𝐸𝐸, 𝐶𝐶7 = 𝐴𝐴, 𝐸𝐸
1 1 1 1
𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸: 𝑑𝑑 2 (𝐶𝐶, 𝐷𝐷), (𝐴𝐴, 𝐸𝐸) = 𝑑𝑑 2 𝐴𝐴, (𝐶𝐶, 𝐷𝐷) + 𝑑𝑑 2 𝐸𝐸, (𝐶𝐶, 𝐷𝐷) − 2 𝑑𝑑
2
𝐴𝐴, 𝐸𝐸 = 228.125
1+1 1+1 1+1
+315.625 − 12.5 = 531.25

Ya que min 𝑑𝑑𝑈𝑈𝑈𝑈 = 𝑑𝑑𝐵𝐵(𝐶𝐶,𝐷𝐷) = 156.25, el centroide del clúster 𝐶𝐶8 = (𝐵𝐵, 𝐶𝐶, 𝐷𝐷) es
𝑈𝑈,𝑉𝑉
8 𝑛𝑛81 𝑚𝑚81 +𝑛𝑛82 𝑚𝑚82 1(20,20)+2(30,12.5)
= 1+2
= (26.67, 15)
La matriz de distancias para (A, E) y (B, C, D) es
(A, E) (B, C, D)
(A, E) 0
(B, C, D) 423.62 0

81 +𝑛𝑛82 81 +𝑛𝑛82 𝑛𝑛81 +𝑛𝑛82
Y, como: 𝐶𝐶7 = 𝐴𝐴, 𝐸𝐸 , 𝐶𝐶81 = 𝐵𝐵, 𝐶𝐶82 = (𝐶𝐶, 𝐷𝐷), 𝐶𝐶8 = 𝐵𝐵, 𝐶𝐶, 𝐷𝐷
2
1 2
2 2
(1)(2) 2
𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸: 𝑑𝑑 (𝐴𝐴, 𝐸𝐸), (𝐵𝐵, 𝐶𝐶, 𝐷𝐷) = 𝑑𝑑 𝐵𝐵, (𝐴𝐴, 𝐸𝐸) + 𝑑𝑑 (𝐶𝐶, 𝐷𝐷), (𝐴𝐴, 𝐸𝐸) − 𝑑𝑑 𝐵𝐵, (𝐶𝐶, 𝐷𝐷)
1+2 1+2 1+2 2
= 104.17 + 354.17 − 34.72 = 423.62
Ya que min 𝑑𝑑𝑈𝑈𝑈𝑈 = 𝑑𝑑(𝐴𝐴,𝐸𝐸)(𝐵𝐵,𝐶𝐶,𝐷𝐷) = 423.62, el centroide del clúster 𝐶𝐶9 =

𝑈𝑈,𝑉𝑉
(𝐴𝐴, 𝐵𝐵, 𝐶𝐶, 𝐷𝐷, 𝐸𝐸) es
𝑛𝑛91 𝑚𝑚91+𝑛𝑛92 𝑚𝑚92 2(7.5, 7.5)+3(26.67, 15)
𝑚𝑚9 = = = (19, 12)
𝑛𝑛91+𝑛𝑛92 2+3
Y con esto se completa la jerarquía.

Ejemplo de un 450
conglomerado usando 423.62
el método del
375
centroide - 9 300
Distancias
225
El dendrograma que representa el 156.25
agrupamiento jerárquico recién

150
concluido se muestra en la figura. 75

50
25
0
A E C D B
Elementos

Usando R - 1
> X1 <- c(10, 20, 30, 30, 5)
> X2 <- c(5, 20, 10, 15, 10)

> ms
1 2 3 4 A (1) B (2) C (3) D (4) E (5)
2 325
A (1) 0
3 425 200
4 500 125 25 B (2) 325 0
5 50 325 625 650
𝑫𝑫 = C (3) 425 200 0
D (4) 500 125 25 0
E (5) 50 325 625 650 0

Usando R - 2
> # Ejecutar la función hclust() con el método del centroide
> hcluster.result <- hclust(ms, method = "centroid")
> # Conglomerados
> groups <- cutree(hcluster.result, k = 2)
> Datos$cluster <- groups
Primer conglomerado: 3 (C) con 4 (D) mide 25
Segundo conglomerado: 1 (A) con 5 (E) mide 50
[1] 25.0000 50.0000 156.2500 423.6111 Tercer conglomerado: 2 (B) con 34 (CD) mide 156.25
Cuarto conglomerado: 15 (AE) con 234 (BCD) mide 423.6111
[,1] [,2] 1 (A), 2 (B), 3 (C), 4 (D), 5 (E)
[1,] -3 -4 Primer conglomerado: 3 (C) con 4 (D)
[2,] -1 -5 Segundo conglomerado: 1 (A) con 5 (E)
[3,] -2 1 Tercer conglomerado: 2 (B) con 34 (CD)
[4,] 2 3 Cuarto conglomerado: 15 (AE) con 234 (BCD)

Usando R - 3


Usando R - 4
A E B C D

ANALYTICS 2
FIN DE LA PRESENTACIÓN

Analytics 2 - Semana 2

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Analytics 2 - Semana 2

Cargado por

Copyright:

Formatos disponibles

Miguel Mejía Puente

22/8/2022 Miguel Mejía Puente 2

22/8/2022 Miguel Mejía Puente 3

22/8/2022 Miguel Mejía Puente 4

Ejemplos.- Se forman grupos de clientes de un banco con base en su

22/8/2022 Miguel Mejía Puente 5

Hay dos categorías de métodos para formar conglomerados: métodos

22/8/2022 Miguel Mejía Puente 6

Los métodos jerárquicos se subdividen a su vez en métodos

22/8/2022 Miguel Mejía Puente 7

Los métodos divisivos o disociativos empiezan con un conglomerado

Dentro de los métodos aglomerativos destacan: el método del enlace

22/8/2022 Miguel Mejía Puente 9

22/8/2022 Miguel Mejía Puente 10

Usan la matriz de datos original y no precisan su conversión en una

22/8/2022 Miguel Mejía Puente 11

22/8/2022 Miguel Mejía Puente 12

22/8/2022 Miguel Mejía Puente 13

Los métodos de reducción de dimensiones consisten en la búsqueda de

22/8/2022 Miguel Mejía Puente 15

22/8/2022 Miguel Mejía Puente 16

22/8/2022 Miguel Mejía Puente 17

La asignación final de elementos a los grupos dependerá, en cierta

22/8/2022 Miguel Mejía Puente 18

22/8/2022 Miguel Mejía Puente 19

22/8/2022 Miguel Mejía Puente 21

Considere los grupos iniciales (AB) y (CD). Las coordenadas de los

Supongamos que el elemento A con coordenadas (5, 3) se mueve al

22/8/2022 Miguel Mejía Puente 22

𝑛𝑛𝑥𝑥̅ 1 +𝑥𝑥11 2 −1 +5 𝑛𝑛𝑥𝑥̅ 2 +𝑥𝑥12 2 −2 +3

Volviendo a las agrupaciones iniciales en el Paso 1, calculamos las

22/8/2022 Miguel Mejía Puente 23

Si A es movido al grupo (CD)

𝑛𝑛𝑥𝑥̅ 1 −𝑥𝑥21 2 2 −(−1) 𝑛𝑛𝑥𝑥̅ 2 −𝑥𝑥22 2 2 −1

𝑛𝑛𝑥𝑥̅ 1 +𝑥𝑥21 2 −1 +(−1) 𝑛𝑛𝑥𝑥̅ 2 +𝑥𝑥22

22/8/2022 Miguel Mejía Puente 25

Si B es movido al grupo (CD)

22/8/2022 Miguel Mejía Puente 27

𝑛𝑛𝑥𝑥̅ 1 +𝑥𝑥31 1 5 +1 𝑛𝑛𝑥𝑥̅ 2 +𝑥𝑥32 1 3 −2

𝑛𝑛𝑥𝑥̅ 1 −𝑥𝑥31 3 −1 −1 𝑛𝑛𝑥𝑥̅ 2 −𝑥𝑥32

22/8/2022 Miguel Mejía Puente 28

Si C es movido al grupo (A)

Para los grupos finales, tenemos:

22/8/2022 Miguel Mejía Puente 30

La suma de cuadrados dentro del clúster (suma de distancias al

22/8/2022 Miguel Mejía Puente 31

> # Ejecutar la función kmeans()

22/8/2022 Miguel Mejía Puente 32

22/8/2022 Miguel Mejía Puente 34

22/8/2022 Miguel Mejía Puente 35

Para m = 1, tenemos la distancia Manhattan o city block.

22/8/2022 Miguel Mejía Puente 36

Cuando los elementos no pueden ser representados por mediciones p-

Sea 𝑥𝑥𝑖𝑖𝑖𝑖 el puntaje (1 o 0) de la j-ésima variable binaria en el i-ésimo

22/8/2022 Miguel Mejía Puente 38

Aunque se puede usar la distancia euclidiana al cuadrado para medir la

En algunos casos, una coincidencia 1-1 es una indicación más fuerte de

22/8/2022 Miguel Mejía Puente 40

Por lo tanto, podría ser razonable descontar las coincidencias 0-0 o

Para introducir estos esquemas, organicemos las frecuencias de

22/8/2022 Miguel Mejía Puente 41

En esta tabla, a representa la frecuencia de coincidencias 1-1, b es la

22/8/2022 Miguel Mejía Puente 42