Está en la página 1de 47

De la sesión Cluster

Programa: Especialización en
Estadı́stica
Tercera Semana: Análisis de
Clasificación

Carlos Eduardo Alonso-Malaver

16 de junio de 2023

CEAM Multivariate
De la sesión Cluster

Table of contents

1 De la sesión

2 Métodos de Clasificación
Aplicaciones
Rudimentos

CEAM Multivariate
De la sesión Cluster

To err is human, to forgive divine, but to include errors in your


design is statistical.
Leslie Kish

CEAM Multivariate
De la sesión Cluster

De la sesión

CEAM Multivariate
De la sesión Cluster

Temas a Trabajar

Modelo de Regresión

Componentes Principales

Análisis de Correspondencias

Análisis Discriminante Lineal

Métodos de Clasificación - Cluster Analysis

CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

Métodos de Clasificación - Cluster Analysis

CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

Comentario
En la naturaleza NO existen las agrupaciones, en especial
cuando las caracterı́sticas (variables) observadas son de tipo
continuo.
Ası́ el agrupamiento (Clasificación) es un mecanismo artificial
impuesto virtualmente sobre la naturaleza, cuya gran utilidad
se centra en que nos permite simplificar el ecosistema con el
propósito de mejorar nuestro entendimiento.

CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

Volviendo a la Técnica
Objetivo: Agrupar n individuos observados en k grupos.

{I1 , I2 , . . . , In } → {G1 , G2 , . . . , Gk }

Rumiando: Si vuelves al ACP, debes pensar ahora: se tiene


una variable no observable Categórica, Y , que puede tomar en
la población k categorı́as disyuntas, {G1 , G2 , . . . , Gk }

Ejemplo: Y : Estrato Socio-económico en Colombia

CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

Ejemplo

CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

Temas a Trabajar

Trabajo en Excel:a
Cluster por Aglomeración
Cluster por División
a
Base Deptos

CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

Clasificación

Métodos
✠ k-Means
✠ Cluster Jerárquico.
✠ PAM - Partitioning Around Medoids.
✠ CLARA - Clustering Large Applications.

CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

Aplicación

Arrestos en USA - Aprendizaje No Supervisadoa


a
000 CEAM Third Week SurCo - No Super Junio

CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

Aplicación

Iris data- - Aprendizaje Supervisado a

a
001 CEAM Third Week SurCo - CPA Iris Jun-16

CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

Contenido

1 Distancias.
2 Aplicación:
Clasificación ⇒ PCA.
PCA ⇒ Clasificación.
3 Rudimentos: Conceptos y Desarrollos Básicos.

CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

Rudimentos

Rudimentos - Distancias

CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

Distancias - Definición
Trabajando en un conjunto H (análogo a R) una función
D : H × H → R+ se dice que es una distancia si satisface las
siguientes condiciones
1 D(x, y) ≥ 0 para todo x, y ∈ H
2 D(x, x) = 0 para todo x ∈ H
3 D(x, y) = D(y, x) para todo x, y ∈ H
4 (Desigualdad Triangular) D(x, y) ≤ D(y, z) + D(z, x) para
todo x, y, z ∈ H

CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

Medida de Dissimilaridad

Medida de Dis-similaridad
Análogo a la definición de Distancia, trabajando en un conjunto
H (análogo a R) una función D : H × H → R se dice que es una
medida de dis-similarida si cumple los tres primeros enunciados
de una distancia y NO satisface la Desigualdad Triangular.

CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

Distancias

Distancia Euclidiana
Dados dos vectores en Rk , esto es x = (x1 , x2 , . . . , xk ) y
y = (y1 , y2 , . . . , yk ), la distancia Euclidiana DE , se define como
v
u k
uX
DE (x, y) := t (xj − yj )2
j=1

CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

Distancias

Distancia de Manhattan
Dados dos vectores en Rk , esto es x = (x1 , x2 , . . . , xk ) y
y = (y1 , y2 , . . . , yk ), la distancia de Manhattan DM , se define
como
Xk
DM (x, y) := |xj − yj |
j=1

Donde | · | indica valor absoluto.

CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

Distancias

Distancia a Partir de Coeficiente de Correlación de


Pearson
Dados dos vectores en Rk , esto es x = (x1 , x2 , . . . , xk ) y
y = (y1 , y2 , . . . , yk ), la distancia del Coeficiente Pearson DP , se
define como
SXY
DP (x, y) := 1 − q
SX2 SY2

Con
k
X k
X
2
SXY := (xj − x)(yj − y) y SX := (xj − x)2 .
j=1 j=1

CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

Distancias

Distancia a Partir de Coeficiente de Correlación de


Spearman
Dados dos vectores en Rk , esto es x = (x1 , x2 , . . . , xk ) y
y = (y1 , y2 , . . . , yk ), la distancia del Coeficiente Spearman DS ,
se define como
DS (x, y) := 1 − ϱXY
Donde ϱXY es el coeficiente de correlación de Spearman.

CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

Distancias

Distancia a partir del Coseno de Eiseen


Dados dos vectores en Rk , esto es x = (x1 , x2 , . . . , xk ) y
y = (y1 , y2 , . . . , yk ), la distancia del Coseno de Eiseen DEi , se
define como

k
P
x j yj


j=1
DEi (x, y) := 1 − s .
k k
x2j yj2
P P
j=1 j=1

Aquı́ | · | indica valor absoluto.

CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

Ecologı́a
Indices para comparar la riqueza y abundancia de dos
Ecosistemas
Indice de Jaccard: Dados dos Ecosistemas S1 y S2 , el
ı́ndice de Sorensen se define como:
2 × |S1 ∪ S2 |
IS =
|S1 | + |S2 |

Aquı́ | · |: cuenta el número de especies en cada ecosistema.


No tiene encuenta la abundancia (ausencia - presencia)

CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

Ecologı́a
Indices para comparar la riqueza y abundancia de dos
Ecosistemas
Indice de Sorensen: Dados dos Ecosistemas S1 y S2 , el
ı́ndice de Sorensen se define como:
2 × |S1 ∪ S2 |
IS =
|S1 | + |S2 |

Aquı́ | · |: cuenta el número de especies y su abundancia en


cada ecosistema.

CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

Aplicación

Trabajo en Ecologı́aa
a
002 CEAM Third W Surco - Soren Junio

CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

K-means

CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

Sobre K-means
Es quizá el método de aprendizaje de máquinas no
supervisado más utilizado (no tengo un conjunto de
respuestas que me permitan validar el método).
Los individuos u objetos en el mismo cluster (grupo)
tienden a ser similares mientras que individuos u objetos de
distintos cluster tienden a ser muy distintos (dis-similares).
Cada cluster es representado por su centro (centroide), que
es igual a la media (vector de medias) del grupo.

CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

Del método K-means


El objetivo del K-means es minimizar la variabilidad interna de
cada cluster y de todos los cluster (within-cluster variation).
Se tienen varios algoritmos para realizar k-means,

El método stándar es aquel que busca minimizar las


distancias euclidianas de los puntos en cluster con respecto
a su centroide, i.e.
X
W (Cj ) = (xi − µj )2
xi ∈Cj

De donde la total within-cluster variation está dada por:


X
T W CI = W (Cj ).
j

Hartigan-Wong(1979)
CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

K-means - Algoritmo

Insumo inicial número de clusters, k.


Paso 1. El algoritmo inicia seleccionando k objetos de los datos de forma
aleatoria que sirven como centroides iniciales.
Paso 2. A cada objeto del conjunto de objetos restantes son asignados a
su centroide más cercano, en términos de distancia Euclidiana.
Paso 3. Una vez un objeto es asignado a un grupo, se recalcula el
centroide del grupo.
Paso 4. Una vez actualizado el centroide se verifica si cada objeto está en
el cluster adecuado. Re-asignando los que no.
Paso 5. Los Pasos 3. y 4. Se realizan iterativamente hasta que no hay
cambios.

CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

K-means

Ventajas y Des-ventajas
Asume un conocimiento previo, el número de cluster
Es sensible a los centroides seleccionados al inicio del
proceso.
Es sensible a datos atı́picos (outliers).
Cambiar el ordenamiento de los datos puede llevar a
cambios en los agrupamients realizados.

CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

Cluster Jerárquico

CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

Cluster Jerárquico - Clases


Aglomerativo: Inicio pensando que todas las
observaciones son grupos distintos y empiezo a unir por
similaridad - AGNES (Agglomerative Nesting).
Divisivo: Inicio pensando que todas las observaciones son
un solo grupo y empiezo a dividir por dis-similaridad -
DIANA (Divise Analysis).

CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

Cluster Jerárquico
La agrupación jerárquica es un enfoque alternativo a la
agrupación de k-means para crear grupos en un conjunto
de datos.
No nos exige que especifiquemos previamente la cantidad
de clusters.
Tiene una ventaja añadida sobre el agrupamiento de
k-means en el sentido de que permite llegar a una
representación basada en el árbol de las observaciones,
denominada dendrograma.

CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

Cluster Jerárquico

Algoritmos
Maximum or complete linkage clustering:
Calcula todas las disimilitudes por pares entre los elementos
del grupo Gi y los elementos del grupo Gj .
considera el valor más grande (es decir, el valor máximo) de
estas diferencias como la distancia entre los dos grupos
Tiende a producir clusters más compactosa .
a
Explicación Gráfica

CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

Maximum or complete linkage clustering


Sean x1 , x2 , . . . xn los objetos que pertenecen al grupo Gu ,
y sean y1 , y2 , . . . ym los objetos que pertenecen al grupo Gs .
La distancia entre los grupos Gu y Gs , usando maximum
linkage está dada por:

d(Gu , Gs ) = máx d(xi , yj )


i,j

CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

Cluster Jerárquico

Algoritmos
Minimum or single linkage clustering:
Calcula todas las diferencias entre pares de observaciones
del grupo i y entre pares de observaciones del grupo j.
Considera la menor de estas diferencias como un criterio de
vinculación.
Tiende a producir grupos ”alejados”, lo que es bueno.

CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

Minimum or single linkage clustering


Sean x1 , x2 , . . . xn los objetos que pertenecen al grupo Gu ,
y sean y1 , y2 , . . . ym los objetos que pertenecen al grupo Gs .
La distancia entre los grupos Gu y Gs , usando single
linkage está dada por:

d(Gu , Gs ) = mı́n d(xi , yj )


i,j

CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

Cluster Jerárquico

Algoritmos
Mean or average linkage clustering:
Calcula todas las diferencias de pares entre los elementos en
el grupo Gi y los elementos en el grupo Gj .
Considera el promedio de estas diferencias como la distancia
entre los dos grupos.

CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

Mean or average linkage clustering


Sean x1 , x2 , . . . xn los objetos que pertenecen al grupo Gu ,
y sean y1 , y2 , . . . ym los objetos que pertenecen al grupo Gs .
La distancia entre los grupos Gu y Gs , usando average
linkage clustering está dada por:
1 XX
d(Gu , Gs ) = d(xi , yj )
n×m
i j

CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

Cluster Jerárquico

Algoritmos
Centroid linkage clustering:
Calcula todas las diferencias entre los centroides de los
grupos Gu y Gs .
Considera la menor de estas diferencias como un criterio de
vinculación.

CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

Centroid linkage clustering


Sean x1 , x2 , . . . xn los objetos que pertenecen al grupo Gu ,
y sean y1 , y2 , . . . ym los objetos que pertenecen al grupo Gs .
La distancia entre los grupos Gu y Gs , usando maximum
linkage está dada por:

d(Gu , Gs ) = d(x, y)

La distancia entre grupos es igual a la distancia entre


centroides.

CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

Cluster Jerárquico

Algoritmos
Ward minimum variance method:
Minimiza la varianza total dentro del cluster.
En cada paso, se combinan los pares de grupos con una
distancia mı́nima entre grupos.

CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

PAM
Partitioning Around Medoids

CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

PAM

k-mediods Algorithm
El k-medoids algorithm es procedimiento de agrupamiento
cercano a k-means cuyo objetivo es particionar un conjunto
de datos en k grupos o clusters.
En éste algoritmo cada cluster es representado por uno de
los puntos del mismo cluster. Éste punto es llamado
mediod del cluster (medoide?).
La palabra medoid hace referencia a un elemento dentro
del cluster cuya disimilaridad media entre él y todos los
demás elementos del cluster es mı́nima.
Lo anterior equivale al elemento de mayor centralidad
dentro del cluster. Mediod=Representante de Cluster.
El método más común de k-medoids es PAM.

CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

PAM

Algoritmo PAM
1 Seleccione k puntos en el conjunto de datos, estos pueden
ser dados por el usuario, y úselos como medoids.
2 Del conjunto de puntos restante, asigne cada punto al
grupo cuyo medoid sea el más cercano.
3 Actualice el mediod.
4 Para cada cluster identifique el elemento de menor
disimilaridad promedio, éste elemento es el mediod del
grupo
5 Si al menos un medoid ha cambiado vuelva a (2), en otro
caso finaliza.

CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

Trabajo en Aplicadoa
a
003 CEAM Third Week Surco - PAM Junio

CEAM Multivariate
De la sesión Cluster Aplica Rudimentos

CEAM Multivariate

También podría gustarte