Spec Clasi

De la sesión Cluster
Programa: Especialización en
Estadı́stica
Tercera Semana: Análisis de
Clasificación
Carlos Eduardo Alonso-Malaver
16 de junio de 2023
CEAM Multivariate
Table of contents
1 De la sesión
2 Métodos de Clasificación
Aplicaciones
Rudimentos
CEAM Multivariate
To err is human, to forgive divine, but to include errors in your

design is statistical.
Leslie Kish
CEAM Multivariate
De la sesión
CEAM Multivariate
Temas a Trabajar
Modelo de Regresión
Componentes Principales
Análisis de Correspondencias
Análisis Discriminante Lineal
Métodos de Clasificación - Cluster Analysis
CEAM Multivariate
De la sesión Cluster Aplica Rudimentos
Métodos de Clasificación - Cluster Analysis
CEAM Multivariate
Comentario
En la naturaleza NO existen las agrupaciones, en especial
cuando las caracterı́sticas (variables) observadas son de tipo
continuo.
Ası́ el agrupamiento (Clasificación) es un mecanismo artificial
impuesto virtualmente sobre la naturaleza, cuya gran utilidad
se centra en que nos permite simplificar el ecosistema con el
propósito de mejorar nuestro entendimiento.
CEAM Multivariate
Volviendo a la Técnica
Objetivo: Agrupar n individuos observados en k grupos.
{I1 , I2 , . . . , In } → {G1 , G2 , . . . , Gk }
Rumiando: Si vuelves al ACP, debes pensar ahora: se tiene

una variable no observable Categórica, Y , que puede tomar en
la población k categorı́as disyuntas, {G1 , G2 , . . . , Gk }
Ejemplo: Y : Estrato Socio-económico en Colombia
CEAM Multivariate
Ejemplo
CEAM Multivariate
Temas a Trabajar
Trabajo en Excel:a
Cluster por Aglomeración
Cluster por División
a
Base Deptos
CEAM Multivariate
Clasificación
Métodos
✠ k-Means
✠ Cluster Jerárquico.
✠ PAM - Partitioning Around Medoids.
✠ CLARA - Clustering Large Applications.
CEAM Multivariate
Aplicación
Arrestos en USA - Aprendizaje No Supervisadoa

a
000 CEAM Third Week SurCo - No Super Junio
CEAM Multivariate
Aplicación
Iris data- - Aprendizaje Supervisado a
a
001 CEAM Third Week SurCo - CPA Iris Jun-16
CEAM Multivariate
Contenido
1 Distancias.
2 Aplicación:
Clasificación ⇒ PCA.
PCA ⇒ Clasificación.
3 Rudimentos: Conceptos y Desarrollos Básicos.
CEAM Multivariate
Rudimentos
Rudimentos - Distancias
CEAM Multivariate
Distancias - Definición
Trabajando en un conjunto H (análogo a R) una función
D : H × H → R+ se dice que es una distancia si satisface las
siguientes condiciones
1 D(x, y) ≥ 0 para todo x, y ∈ H
2 D(x, x) = 0 para todo x ∈ H
3 D(x, y) = D(y, x) para todo x, y ∈ H
4 (Desigualdad Triangular) D(x, y) ≤ D(y, z) + D(z, x) para
todo x, y, z ∈ H
CEAM Multivariate
Medida de Dissimilaridad
Medida de Dis-similaridad
Análogo a la definición de Distancia, trabajando en un conjunto
H (análogo a R) una función D : H × H → R se dice que es una
medida de dis-similarida si cumple los tres primeros enunciados
de una distancia y NO satisface la Desigualdad Triangular.
CEAM Multivariate
Distancias
Distancia Euclidiana
Dados dos vectores en Rk , esto es x = (x1 , x2 , . . . , xk ) y
y = (y1 , y2 , . . . , yk ), la distancia Euclidiana DE , se define como
v
u k
uX
DE (x, y) := t (xj − yj )2
j=1
CEAM Multivariate
Distancias
Distancia de Manhattan
y = (y1 , y2 , . . . , yk ), la distancia de Manhattan DM , se define
como
Xk
DM (x, y) := |xj − yj |
j=1
Donde | · | indica valor absoluto.
CEAM Multivariate
Distancias
Distancia a Partir de Coeficiente de Correlación de

Pearson
y = (y1 , y2 , . . . , yk ), la distancia del Coeficiente Pearson DP , se
define como
SXY
DP (x, y) := 1 − q
SX2 SY2
Con
k
X k
X
2
SXY := (xj − x)(yj − y) y SX := (xj − x)2 .
j=1 j=1
CEAM Multivariate
Distancias
Distancia a Partir de Coeficiente de Correlación de

Spearman
y = (y1 , y2 , . . . , yk ), la distancia del Coeficiente Spearman DS ,
se define como
DS (x, y) := 1 − ϱXY
Donde ϱXY es el coeficiente de correlación de Spearman.
CEAM Multivariate
Distancias
Distancia a partir del Coseno de Eiseen

y = (y1 , y2 , . . . , yk ), la distancia del Coseno de Eiseen DEi , se
define como
k
P
x j yj

j=1
DEi (x, y) := 1 − s .
k k
x2j yj2
P P
j=1 j=1
Aquı́ | · | indica valor absoluto.
CEAM Multivariate
Ecologı́a
Indices para comparar la riqueza y abundancia de dos
Ecosistemas
Indice de Jaccard: Dados dos Ecosistemas S1 y S2 , el
ı́ndice de Sorensen se define como:
2 × |S1 ∪ S2 |
IS =
|S1 | + |S2 |
Aquı́ | · |: cuenta el número de especies en cada ecosistema.

No tiene encuenta la abundancia (ausencia - presencia)
CEAM Multivariate
Ecologı́a
Indices para comparar la riqueza y abundancia de dos
Ecosistemas
Indice de Sorensen: Dados dos Ecosistemas S1 y S2 , el
ı́ndice de Sorensen se define como:
2 × |S1 ∪ S2 |
IS =
|S1 | + |S2 |
Aquı́ | · |: cuenta el número de especies y su abundancia en

cada ecosistema.
CEAM Multivariate
Aplicación
Trabajo en Ecologı́aa
a
002 CEAM Third W Surco - Soren Junio
CEAM Multivariate
K-means
CEAM Multivariate
Sobre K-means
Es quizá el método de aprendizaje de máquinas no
supervisado más utilizado (no tengo un conjunto de
respuestas que me permitan validar el método).
Los individuos u objetos en el mismo cluster (grupo)
tienden a ser similares mientras que individuos u objetos de
distintos cluster tienden a ser muy distintos (dis-similares).
Cada cluster es representado por su centro (centroide), que
es igual a la media (vector de medias) del grupo.
CEAM Multivariate
Del método K-means

El objetivo del K-means es minimizar la variabilidad interna de
cada cluster y de todos los cluster (within-cluster variation).
Se tienen varios algoritmos para realizar k-means,
El método stándar es aquel que busca minimizar las

distancias euclidianas de los puntos en cluster con respecto
a su centroide, i.e.
X
W (Cj ) = (xi − µj )2
xi ∈Cj
De donde la total within-cluster variation está dada por:

X
T W CI = W (Cj ).
j
Hartigan-Wong(1979)
CEAM Multivariate
K-means - Algoritmo
Insumo inicial número de clusters, k.

Paso 1. El algoritmo inicia seleccionando k objetos de los datos de forma
aleatoria que sirven como centroides iniciales.
Paso 2. A cada objeto del conjunto de objetos restantes son asignados a
su centroide más cercano, en términos de distancia Euclidiana.
Paso 3. Una vez un objeto es asignado a un grupo, se recalcula el
centroide del grupo.
Paso 4. Una vez actualizado el centroide se verifica si cada objeto está en
el cluster adecuado. Re-asignando los que no.
Paso 5. Los Pasos 3. y 4. Se realizan iterativamente hasta que no hay
cambios.
CEAM Multivariate
K-means
Ventajas y Des-ventajas
Asume un conocimiento previo, el número de cluster
Es sensible a los centroides seleccionados al inicio del
proceso.
Es sensible a datos atı́picos (outliers).
Cambiar el ordenamiento de los datos puede llevar a
cambios en los agrupamients realizados.
CEAM Multivariate
Cluster Jerárquico
CEAM Multivariate
Cluster Jerárquico - Clases

Aglomerativo: Inicio pensando que todas las
observaciones son grupos distintos y empiezo a unir por
similaridad - AGNES (Agglomerative Nesting).
Divisivo: Inicio pensando que todas las observaciones son
un solo grupo y empiezo a dividir por dis-similaridad -
DIANA (Divise Analysis).
CEAM Multivariate
La agrupación jerárquica es un enfoque alternativo a la
agrupación de k-means para crear grupos en un conjunto
de datos.
No nos exige que especifiquemos previamente la cantidad
de clusters.
Tiene una ventaja añadida sobre el agrupamiento de
k-means en el sentido de que permite llegar a una
representación basada en el árbol de las observaciones,
denominada dendrograma.
CEAM Multivariate
Algoritmos
Maximum or complete linkage clustering:
Calcula todas las disimilitudes por pares entre los elementos
del grupo Gi y los elementos del grupo Gj .
considera el valor más grande (es decir, el valor máximo) de
estas diferencias como la distancia entre los dos grupos
Tiende a producir clusters más compactosa .
a
Explicación Gráfica
CEAM Multivariate
Maximum or complete linkage clustering

Sean x1 , x2 , . . . xn los objetos que pertenecen al grupo Gu ,
y sean y1 , y2 , . . . ym los objetos que pertenecen al grupo Gs .
La distancia entre los grupos Gu y Gs , usando maximum
linkage está dada por:
d(Gu , Gs ) = máx d(xi , yj )

i,j
CEAM Multivariate
Algoritmos
Minimum or single linkage clustering:
Calcula todas las diferencias entre pares de observaciones
del grupo i y entre pares de observaciones del grupo j.
Considera la menor de estas diferencias como un criterio de
vinculación.
Tiende a producir grupos ”alejados”, lo que es bueno.
CEAM Multivariate
Minimum or single linkage clustering

La distancia entre los grupos Gu y Gs , usando single
d(Gu , Gs ) = mı́n d(xi , yj )

i,j
CEAM Multivariate
Algoritmos
Mean or average linkage clustering:
Calcula todas las diferencias de pares entre los elementos en
el grupo Gi y los elementos en el grupo Gj .
Considera el promedio de estas diferencias como la distancia
entre los dos grupos.
CEAM Multivariate
Mean or average linkage clustering

La distancia entre los grupos Gu y Gs , usando average
linkage clustering está dada por:
1 XX
d(Gu , Gs ) = d(xi , yj )
n×m
i j
CEAM Multivariate
Algoritmos
Centroid linkage clustering:
Calcula todas las diferencias entre los centroides de los
grupos Gu y Gs .
Considera la menor de estas diferencias como un criterio de
vinculación.
CEAM Multivariate
Centroid linkage clustering

La distancia entre los grupos Gu y Gs , usando maximum
d(Gu , Gs ) = d(x, y)
La distancia entre grupos es igual a la distancia entre

centroides.
CEAM Multivariate
Algoritmos
Ward minimum variance method:
Minimiza la varianza total dentro del cluster.
En cada paso, se combinan los pares de grupos con una
distancia mı́nima entre grupos.
CEAM Multivariate
PAM
Partitioning Around Medoids
CEAM Multivariate
PAM
k-mediods Algorithm
El k-medoids algorithm es procedimiento de agrupamiento
cercano a k-means cuyo objetivo es particionar un conjunto
de datos en k grupos o clusters.
En éste algoritmo cada cluster es representado por uno de
los puntos del mismo cluster. Éste punto es llamado
mediod del cluster (medoide?).
La palabra medoid hace referencia a un elemento dentro
del cluster cuya disimilaridad media entre él y todos los
demás elementos del cluster es mı́nima.
Lo anterior equivale al elemento de mayor centralidad
dentro del cluster. Mediod=Representante de Cluster.
El método más común de k-medoids es PAM.
CEAM Multivariate
PAM
Algoritmo PAM
1 Seleccione k puntos en el conjunto de datos, estos pueden
ser dados por el usuario, y úselos como medoids.
2 Del conjunto de puntos restante, asigne cada punto al
grupo cuyo medoid sea el más cercano.
3 Actualice el mediod.
4 Para cada cluster identifique el elemento de menor
disimilaridad promedio, éste elemento es el mediod del
grupo
5 Si al menos un medoid ha cambiado vuelva a (2), en otro
caso finaliza.
CEAM Multivariate
Trabajo en Aplicadoa
a
003 CEAM Third Week Surco - PAM Junio
CEAM Multivariate
CEAM Multivariate

Spec Clasi

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Spec Clasi

Cargado por

Copyright:

Formatos disponibles

De la sesión Cluster

Carlos Eduardo Alonso-Malaver

To err is human, to forgive divine, but to include errors in your

Análisis Discriminante Lineal

Métodos de Clasificación - Cluster Analysis

Métodos de Clasificación - Cluster Analysis

Rumiando: Si vuelves al ACP, debes pensar ahora: se tiene

Ejemplo: Y : Estrato Socio-económico en Colombia

Arrestos en USA - Aprendizaje No Supervisadoa

Iris data- - Aprendizaje Supervisado a

Donde | · | indica valor absoluto.

Distancia a Partir de Coeficiente de Correlación de

Distancia a Partir de Coeficiente de Correlación de

Distancia a partir del Coseno de Eiseen

Aquı́ | · | indica valor absoluto.

Aquı́ | · |: cuenta el número de especies en cada ecosistema.

Aquı́ | · |: cuenta el número de especies y su abundancia en

Del método K-means

El método stándar es aquel que busca minimizar las

De donde la total within-cluster variation está dada por:

Insumo inicial número de clusters, k.

Cluster Jerárquico - Clases

Maximum or complete linkage clustering

d(Gu , Gs ) = máx d(xi , yj )

Minimum or single linkage clustering

d(Gu , Gs ) = mı́n d(xi , yj )

Mean or average linkage clustering

Centroid linkage clustering

La distancia entre grupos es igual a la distancia entre

También podría gustarte