AD10 11 Cluster PDF

TEMA TEMA 2: 2: TEMA TEMA 2: 2:
TCNICAS DE ANLISIS TCNICAS DE ANLISIS

MULTIVARIANTE PARA MULTIVARIANTE PARA MULTIVARIANTE PARA MULTIVARIANTE PARA
AGRUPACIN AGRUPACIN
Mtodos Mtodos cluster cluster
i d i i d i Tcnicas de segmentacin Tcnicas de segmentacin
Clasificacin no supervisada Clasificacin no supervisada
Ana Ana Justel Justel Ana Ana Justel Justel
1
Tcnicas de anlisis multivariante para agrupacin
Motivacin
Mtodos para construir clusters Mtodos para construir clusters
Clasificacin con el algoritmo de k-medias
Clasificacin con mtodos jerrquicos
Dendrograma
Distancias/disimilitud entre individuos /
Criterios de proximidad entre grupos
Determinacin del nmero de grupos
2
El problema de clasificacin/asignacin/agrupacin
Se trata de clasificar en dos o ms grupos a individuos en los que
h b d i i bl
El problema de clasificacin/asignacin/agrupacin
hemos observado varias variables.
CLASIFICACIN CLASIFICACIN NO NO SUPERVISADA SUPERVISADA: Identificar grupos de
CLASIFICACIN CLASIFICACIN
individuos con caractersticas comunes a partir de la observacin
de varias variables en cada uno de ellos
Utilizaremos
Mtodos basados en particiones
CLASIFICACIN CLASIFICACIN
SUPERVISADA SUPERVISADA:
identificar grupos
de individuos con
p
Mtodos jerrquicos
caractersticas
comunes a partir
de la observacin
de varias
variables en cada
uno de ellos y con
Todos son mtodos exploratorios de datos,
Para cada conjunto de datos podemos tener
diferentes agrupaciones dependiendo del mtodo
la informacin de
una muestra de
entrenamiento
diferentes agrupaciones, dependiendo del mtodo.
Lo importante es identificar una solucin que nos
ensee cosas relevantes de los datos.
3
Ejemplo: Ejemplo: Sostenibilidad municipal
Disponemos de datos de
consumo per cpita en
103 municipios de la p
Comunidad de Madrid
durante 20 aos
Nos interesa identificar si hay grupos de municipios con una tendencia
similar en el consumo de agua para identificar buenas prcticas para
la sostenibilidad y zonas problemticas por alto consumo
4
y p p
Ejemplo Ejemplo: : Mamferos
Queremos agrupar 25 especies de mamferos en clusters, en los
que las especies tengan en comn una cierta homogeneidad en las
caractersticas de su leche
5
Las tcnicas de anlisis cluster han sido tradicionalmente
utilizadas en muchas disciplinas, por ejemplo utilizadas en muchas disciplinas, por ejemplo
Astronoma. Astronoma. Cluster = galaxias, super galaxias, etc.
Marketing. Marketing. Segmentacin de mercados.
Biologa Biologa. . Taxonoma. Microarrays.
Ciencias Ambientales Ciencias Ambientales. . Clasificacin de
ros para establecer tipologas segn la
calidad de las aguas (directiva marco calidad de las aguas (directiva marco
europea)
6
Un CLUSTER CLUSTER es un grupo de individuos que cuando la dimensin
QU es un CLUSTER? QU es un CLUSTER?
Un CLUSTER CLUSTER es un grupo de individuos que, cuando la dimensin
lo permite, el ojo humano identifica como homogneos entre s y
separados de los individuos de los otros clusters. p
7
I l d di i i t l t
QU es un CLUSTER? QU es un CLUSTER?
Incluso en dos dimensiones no siempre est claro cuntos
cluster hay y cmo se agrupan los individuos.
8
Ejemplo: Ejemplo: Lirios (iris.txt)
En un estudio del estadstico y genetista Sir Ronald A. Fisher se utilizaron
cuatro caractersticas de los spalos y ptalos para identificar 150 lirios de las
especies iris setosa iris versicolor e iris virginica especies iris setosa, iris versicolor e iris virginica.
9
Motivacin
10
Tcnicas para encontrar clusters
Cuando conocemos cuntos grupos hay: Cuando conocemos cuntos grupos hay:
CLUSTER CLUSTER POR POR PARTICIONES PARTICIONES.. Producen una particin de
los objetos en un nmero especificado de grupos siguiendo los objetos en un nmero especificado de grupos siguiendo
un criterio de optimizacin
CLUSTER CLUSTER JERRQUICO JERRQUICO.. Producen una secuencia de
Cuando no conocemos cuntos grupos hay:
particiones, juntando o separando clusters. En cada paso se
juntan o separan dos clusters siguiendo algn criterio
especificado
11
especificado
Ejemplo: Ejemplo: Agrupacin jerrquica y por particiones de un conjunto de Ejemplo: Ejemplo: Agrupacin jerrquica y por particiones de un conjunto de
datos
No jerrquica Jerrquica
12
j q q
En general, se busca HOMOGENEIDAD dentro de los grupos y
HETEROGENEIDAD entre grupos
Los criterios para identificar los clusters se basan siempre en
HETEROGENEIDAD entre grupos
MEDIDAS de SIMILITUD o de DISCREPANCIA entre todos los
pares de datos. Algunos procedimientos cluster se pueden
ejecutar conociendo slo la MATRIZ de DISCREPANCIAS ejecutar conociendo slo la MATRIZ de DISCREPANCIAS
13
Decisiones que hay que tomar para hacer un cluster
1. Elegir el mtodo cluster que se va a emplear
2. Decidir sobre si trabajar con los datos segn se miden o
estandarizados
3. Seleccionar la forma de medir la
DISTANCIA/DISIMILITUD ENTRE INDIVIDUOS,,
dependiendo de si los datos son cuantitativos o cualitativos
4 Clusters por particiones: Elegir un criterio de OPTIMALIDAD 4. Clusters por particiones: Elegir un criterio de OPTIMALIDAD
Clusters jerrquicos: Elegir un criterio para unir grupos,
DISTANCIA ENTRE GRUPOS
5. Decidir el nmero de clusters
14
Estandarizacin de los datos
La mayora de los mtodos cluster son muy sensibles al hecho La mayora de los mtodos cluster son muy sensibles al hecho
de que las variables no estn todas medidas en las mismas
unidades y que la variabilidad sea muy diferente.
SOLUCIN: Si queremos que todas las variables tengan la
misma importancia en el anlisis, podemos estandarizar los misma importancia en el anlisis, podemos estandarizar los
datos variable por variable de varias maneras:
-- Puntuaciones Z: Puntuaciones Z: restar la media y dividir por la desviacin tpica.
-- Rango Rango - -1 a 1: 1 a 1: dividir por el rango.
-- Rango 0 a 1: Rango 0 a 1: restar el mnimo y dividir por el rango Rango 0 a 1: Rango 0 a 1: restar el mnimo y dividir por el rango.
-- Magnitud mxima de 1: Magnitud mxima de 1: dividir por el mximo valor.
-- Media de 1: Media de 1: dividir por la media.
-- Desviacin tpica 1: Desviacin tpica 1: dividir por la desviacin tpica.
15
Permite comparar las variables que vienen expresadas en distintas
unidades o tienen diferentes magnitudes.
Las puntuaciones Z son las estandarizaciones habituales de Las puntuaciones Z son las estandarizaciones habituales de
los datos los datos univariantes univariantes
j ij
ij
s
x x
z

=
La transformacin se aplica a cada
elemento de la matriz de datos,
restando la media y dividiendo por la
j
s
restando la media y dividiendo por la
desviacin tpica, por variables
( columnas)
Propiedades:
El vector de medias de los datos estandarizados es un vector de ceros.
L t i d i d l d t t d i d l t i d La matriz de covarianzas de los datos estandarizados es la matriz de
correlaciones de los datos.
16
Datos: Datos: xx
P t i Z P t i Z
Ejemplo de puntuacion Ejemplo de puntuaciones es Z: Z:
Datos: Datos: xx
Puntuaciones Z: Puntuaciones Z: yy
17
Motivacin
18
Clusters Clusters por particiones por particiones
Existen distintos mtodos que difieren en alguna caracterstica
K MEDIAS Es el que se usa ms habitualmente Fcil de
D i i h t h l t
K-MEDIAS.. Es el que se usa ms habitualmente. Fcil de
programar y da resultados razonables
estandarizados estandarizados
DISTANCIA/DISIMILITUD ENTRE INDIVIDUOS DISTANCIA/DISIMILITUD ENTRE INDIVIDUOS,,
4. Clusters por particiones: Elegir un criterio de OPTIMALIDAD
5 D idi l d l t 5. Decidir el nmero de clusters
19
Al it d k di (KMEDIAS KMEANS)
KMEDIAS KMEDIAS tiene por objetivo separar las observaciones en k
Algoritmo de k-medias (KMEDIAS KMEANS)
KMEDIAS KMEDIAS tiene por objetivo separar las observaciones en k
clusters, de manera que cada dato pertenezca a un grupo y
slo a uno
El algoritmo de K-MEDIAS busca con un mtodo iterativo:
- Los centroides (medias, medianas,) de los k clusters.
- Asignar cada individuo a un cluster.
C1 C2
El objetivo de OPTIMALIDAD
C3
C4
que se persigue es maximizar
la homogeneidad dentro de los
grupos grupos
20
Algoritmo de k-medias
U f d tifi l it i d ti lid d
g
(KMEDIAS KMEANS)
Una forma de cuantificar el criterio de optimalidad es:
- Minimizar la media ponderada (por el tamao del grupo) de las
varianzas dentro de cada grupo para todas las variables

|
|
|
K p
SSW
2
O d h l b

= =
|
|
.
\
=
k j
k j k
s n SSW
1 1
2
,
O dicho con otras palabras
- Minimizar la suma de los cuadrados de las diferencias entre
K
n
k
2
cada dato y la media de su grupo
= =
=
k i
k k
i
k
x x SSW
1 1
2
21
P d l Al it d k di
Partiendo de un conjunto inicial de k centroides
Pasos del Algoritmo de k-medias
Partiendo de un conjunto inicial de k centroides,
m
1
(1),,m
k
(1), que se pueden elegir al azar para evitar sesgos o
por cualquier otro procedimiento, el algoritmo va alternando los
dos siguientes pasos:
PASO DE ASIGNACIN Cada observacin se asigna al PASO DE ASIGNACIN. Cada observacin se asigna al
cluster con el centroide ms prximo (siguiendo el criterio
de optimalidad), con la distancia euclidea.
PASO DE CENTRALIZACIN. Para los clusters modificados
se calculan los nuevos centroides. se calculan los nuevos centroides.
El algoritmo se considera que ha alcanzado la convergencia
cuando en una iteracin no se produce ningn cambio, o se
cumple un criterio de parada.
22
P d l Al it d k di Pasos del Algoritmo de k-medias
23
Ejemplo: Ejemplo: Proceso iterativo partiendo de centroides arbitrarios.
3
Iteration 1
3
Iteration 2
3
Iteration 3
1.5
2
2.5
y
1.5
2
2.5
y
1.5
2
2.5
y
0
0.5
1
0
0.5
1
0
0.5
1
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
x
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
x
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
x
3
Iteration 4
3
Iteration 5
3
Iteration 6
1.5
2
2.5
1.5
2
2.5
1.5
2
2.5
0
0.5
1
y
0
0.5
1
y
0
0.5
1
y
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
x
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
x
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
x
Tan, Steinbach, Kumar. Introduction to Data Mining
24
P d l Al it d k di Pasos del Algoritmo de k-medias
Reglas de parada del SPSS: Reglas de parada del SPSS:
C it i d i El l it d t d i Criterio de convergencia: El algoritmo se detendr si en una
iteracin completa ninguno de los centros se desplaza una
distancia superior a un porcentaje previamente especificado porcentaje previamente especificado de la
distancia ms corta entre cualquiera de los centros iniciales.
Mximo numero de iteraciones: Para evitar que el algoritmo
entre en un bucle infinito, se detendr despus de un nmero de nmero de
iteraciones pre iteraciones pre--determinado determinado aunque el criterio de convergencia iteraciones pre iteraciones pre determinado determinado, aunque el criterio de convergencia
no se cumpla.
25
Ejemplo: Ejemplo: Tortugas
Buscamos con KMEANS dos clusters (machos y hembras) en
cuatro tortugas pintadas (trachemys scripta). En cada tortuga cuatro tortugas pintadas (trachemys scripta). En cada tortuga
se midi la longitud, el ancho y la altura del caparazn.
Id Longitud Ancho Alto Id. Longitud Ancho Alto
m1 120 89 40
m2 119 93 41 m2 119 93 41
f1 159 118 63
f2 155 115 63
1. Inicialmente, asignamos al azar la mitad de los datos
a cada grupo y calculamos los dos centroides con las
medias de los datos que hay en cada grupo.
En este caso ha salido m1 y f1 en el primer grupo y m2 y En este caso ha salido m1 y f1 en el primer grupo y m2 y
f2 en el segundo
26
Ejemplo: Ejemplo: Tortugas
Revisamos la asignacin de cada dato y recalculamos
las medias de cada cluster cuando hay cambios las medias de cada cluster cuando hay cambios
Id. Grupo
inicial
Dist. a
media g1
Dist. a
Media g2
Grupo
final
Nueva media g1 Nueva media g2
g g
m1 1 26,8 25,7 2 [159 118,0 63] [131,3 99 48,0]
m2 2 52 15,4 2 [159 118,0 63] [131,3 99 48,0]
f1 1 0 36,8 1 [159 118,0 63] [131,3 99 48,0]
f2 2 5 32,3 1 [157 116,5 63] [119,5 91 40,5]
Repetimos hasta que no hay ningn cambio
Id. Grupo
i i i l
Dist. a
di 1
Dist. a
M di 2
Grupo
fi l
Nueva media
1
Nueva media g2
inicial media g1 Media g2 final g1
m1 2 51,5 2,1 2 [157 116,5 63] [119,5 91 40,5]
m2 2 49,8 2,1 2 [157 116,5 63] [119,5 91 40,5] m2 2 49,8 2,1 2 [157 116,5 63] [119,5 91 40,5]
f1 1 2,5 52,9 1 [157 116,5 63] [119,5 91 40,5]
f2 1 2,5 48,4 1 [157 116,5 63] [119,5 91 40,5]
27
Ejemplo: Ejemplo: Contaminacin atmosfrica en ciudades de USA
Los datos incluyen una variable de contaminacin atmosfrica, cuatro
variables climticas y dos indicadores de ecologa humana en 41
ciudades de Estados Unidos.
SO2 contenido de SO2 en aire, en mg/m
3
TEMP Temperatura media anual, en F
MANUF Nmero de empresas manufactureras con 20 empleados o ms
POP Tamao de la poblacin, en miles WIND Velocidad media del viento, en millas por hora
PRECI Precipitacin media anual en pulgadas DAYS Nmero medio de das con precipitacin al ao
28
PRECI Precipitacin media anual, en pulgadas DAYS Nmero medio de das con precipitacin al ao
El objetivo del anlisis cluster es agrupar optimamente las
ciudades en cuatro cluster en funcin de las variables climticas y
ecolgicas.
Se emplea el algoritmo de
k medias con k igual a
Localizacin espacial de los clusters
k-medias, con k igual a
cuatro.
Como las variables se
miden en distintas
unidades, los datos se
estandarizan previamente
para que tengan para que tengan
desviacin tpica 1.
29
G1 (Sureste de USA) Clima
hmedo: Abundante precipitacin y
altas temperaturas.
G2 (N d t d USA) Cli
G2 (Nordeste de USA) Clima
hmedo, frio y ventoso: Alto
nmero de das con precipitacin,
baja tempe at a ientos f e tes baja temperatura y vientos fuertes.
G3 (Oeste de USA) Clima seco:
Baja precipitacin.
G4 Densidad alta de poblacin: G4 Densidad alta de poblacin:
Valores altos de los indicadores de
ecologa humana (Chicago,
Filadelfia etc )
Medias de cada variable en cada grupo
Filadelfia, etc.)
SO2 no se usa para hacer el cluster pero se incluye para validar el inters de las agrupaciones
Los clusters estn relacionados con los niveles de SO2. Por tanto, las variables
d l h li b di t d l lid d d l i
30
de ecologa humana y clima son buenos predictores de la calidad del aire.
Una limitacin de KMEDIAS es que se espera que los grupos
Comentarios sobre el algoritmo de k-medias
sean separables, con forma esfrica y de tamao similar.
Ej l Ej l Li i Ejemplo: Ejemplo: Lirios
KMEANS falla a menudo cuando trata de separar las tres especies. p p
Con k = 2, se identifican los dos clusters visibles (uno conteniendo
dos especies), mientras que con k = 3 uno de los dos clusters se
divide en dos partes iguales
31
divide en dos partes iguales.
No est garantizado que KMEDIAS llegue siempre a la solucin
ptima debido a que el resultado final va a depender de los
centroides iniciales.
32
Ejemplo: Ejemplo: Proceso iterativo partiendo de centroides arbitrarios.
3
Iteration 1
3
Iteration 2
1.5
2
2.5
y
1.5
2
2.5
y
0
0.5
1
y
0
0.5
1
y
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
x
3
Iteration 5
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
x
3
Iteration 3
3
Iteration 4
1.5
2
2.5
y
1.5
2
2.5
y
1.5
2
2.5
y
0
0.5
1
y
0
0.5
1
0
0.5
1
Tan, Steinbach, Kumar. Introduction to Data Mining
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
x
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
x
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
x
33
No est garantizado que KMEDIAS llegue siempre a la solucin
ptima debido a que el resultado final va a depender de los
centroides iniciales.
Como el algoritmo suele ser muy rpido, se suele ejecutar
varias veces con distintos centroides iniciales. varias veces con distintos centroides iniciales.
El nmero k de clusters es un input, por tanto, una eleccin
inapropiada de k puede conducir a un mal resultado inapropiada de k puede conducir a un mal resultado.
Cuando usamos KMEDIAS es importante chequear distintas
i d t i l d ibl l t opciones para determinar el nmero de posibles clusters que
hay en el conjunto de datos.
34
Decidir el nmero de clusters
1. Una regla empirica para seleccionar el nmero de clusters es
introducir un nuevo cluster (pasar de K a K+1) cuando
10
) 1 (
) 1 ( ) (
>
+
+
=
K SSW
K SSW K SSW
F
1
) 1 (

+
K n
K SSW
2 Chequear con herramientas como el ANOVA si los grupos son 2. Chequear con herramientas como el ANOVA si los grupos son
significativamente distintos (cmo de validos son los
grupos?) g p )
35
Motivacin
Dendrograma
36
Clusters jerrquicos Clusters jerrquicos
Los divisivos requieren muchos
clculos, casi no se usan
MTODOS DIVISIVOS. Parten de un nico cluster con todos los
datos que se va dividiendo paso a paso, hasta obtener tantos q p p ,
clusters como datos.
MTODOS AGLOMERATIVOS Parten de tantos clusters como MTODOS AGLOMERATIVOS.. Parten de tantos clusters como
datos tiene la muestra y en cada paso se van juntando dos
clusters siguiendo algn criterio especificado hasta obtener un
nico cluster con todos los datos.
Cada mtodo se diferencia por la estrategia de fusin en cada Cada mtodo se diferencia por la estrategia de fusin en cada
etapa. Y todos tienen en comn que la primera unin es entre los
individuos ms similares.
La eleccin de la estrategia de fusin depender de los objetivos
de la investigacin.
37
estandarizados
DISTANCIA/DISIMILITUD ENTRE INDIVIDUOS,, / ,,
MTODOS AGLOMERATIVOS.. Parten de tantos clusters como
4. Clusters jerrquicos: Elegir un criterio para unir grupos,
datos tiene la muestra y en cada paso se van juntando dos cluster.
j q g p g p ,
38
Motivacin
Dendrograma
39
DENDROGRAMA DENDROGRAMA
Es una representacin grfica en forma de rbol.
Los clusters estn representados mediante trazos horizontales
(verticales) y las etapas de fusin mediante trazos verticales
(h l ) (horizontales).
La separacin entre las etapas de fusin es proporcional a la
di t i l t l f d t distancia a la que estn los grupos que se funden en esa etapa.
40
DENDROGRAMA
Genetic diversity of viruses in an Antarctic lake 103 municipios de la Comunidad de Madrid
DENDROGRAMA
A. Lpez-Bueno et al., Science 326, 858-861 (2009)
A. Justel, et al. (2004)
Published by AAAS
, ( )
DENDROGRAMA DENDROGRAMA
El SPSS representa las distancias entre grupos rescaladas, por
tanto son difciles de interpretar, nos fijaremos slo en la forma.
Para ms informacin nos fijamos en el Historial de
l conglomeracin.
Cuando se combinan dos clusters, el SPSS asigna al
nuevo cluster la etiqueta menor entre las que tienen los
cluster que se combinan.
Los coeficientes son una medida de distancia/similitud
l
42
entre clusters.
Motivacin
Dendrograma
43
Distancias entre datos continuos (en SPSS)
Distancia Distancia eucldea eucldea.. Raz cuadrada de la suma de cuadrados de las
diferencias entre los valores. Es la medida por defecto para datos
Distancias entre datos continuos (en SPSS)
p p
de intervalo
Distancia Distancia eucldea eucldea al cuadrado. al cuadrado. Suma de cuadrados de las
diferencias entre los valores diferencias entre los valores
Correlacin de Correlacin de Pearson Pearson.. Correlacin producto-momento entre dos
vectores de valores
Coseno. Coseno. Coseno del ngulo entre dos vectores de valores
Chebychev Chebychev.. Diferencia absoluta mxima entre los valores yy
Bloque. Bloque. Suma de las diferencias absolutas entre los valores.
Tambin se conoce como distancia de Manhattan
Minkowski Minkowski. Raz p-sima de la suma de las diferencias absolutas
elevada a la potencia p-sima entre los valores
Personalizada Personalizada Raz r sima de la suma de las diferencias absolutas Personalizada. Personalizada. Raz r-sima de la suma de las diferencias absolutas
elevada a la potencia p-sima entre los valores de los elementos
Mahalanobis Mahalanobis distance distance..
44
Mahalanobis Mahalanobis distance distance..
Distancias entre datos continuos
Distancia Distancia Eucldea Eucldea
Distancias entre datos continuos
Distancia Distancia Eucldea Eucldea
Distancia Distancia Eucldea Eucldea estandarizada, o estandarizada, o Eucldea Eucldea entre datos entre datos
estandarizados estandarizados estandarizados estandarizados
Distancia de Mahalanobis Distancia de Mahalanobis
45
Similitudes entre datos cualitativos binarios
Para calcular la similitud entre dos individuos para los que se
observan p variables binarias tipo presencia/ausencia se calculan observan p variables binarias tipo presencia/ausencia se calculan
todas las situaciones posibles
Individuo x
1
x
2
x
3
x
p
Individuo x
1
x
2
x
3
x
p
i 1 1 0 0
j 1 0 0 1
a: Nmero de veces en las p variables que ambas observaciones
son 1
j
son 1.
b: Nmero de veces en las p variables que una observacin es 1 y
la otra 0 la otra 0.
c: Nmero de veces en las p variables que una observacin es 0
y la otra 1 y la otra 1.
d: Nmero de veces en las p variables que ambas observaciones
son 0 son 0.
46
Similitudes entre datos cualitativos binarios
Individuo x
1
x
2
x
3
x
p
i 1 1 0 0
j 1 0 0 1
Individuo i Individuo i
d
u
o

j
1 0 Total
1 a b a+b
Concordancia simple Concordancia simple
I
n
d
i
v
i
d
1 a b a+b
0 c d c+d
Total a+c b+d p=a+b+c+d
Coeficiente de Jaccard Coeficiente de Jaccard
Total a+c b+d p a+b+c+d
Coeficientes menos usados: Coeficientes menos usados:
Sokal Sokal y y Sneath Sneath:: Czekanowski Czekanowski y y Sorensen Sorensen::
Coeficientes menos usados: Coeficientes menos usados:
47
Ejemplo: Ejemplo: Presencia/ausencia de tres especies
Presencia (1) o ausencia (0) de tres especies (A, B, C) en 15 parcelas.
Coeficiente de concordancia Coeficiente de concordancia
simple simple
Coeficiente de Coeficiente de Jaccard Jaccard
La ausencia no sabemos si es
porque no existe la especie o
porque no la hemos observado
48
Utilizando el coeficiente de concordancia simple, Briza media es ms
parecida a Cynosurus cristatus que a Agrostis tenuis
parecida a Cynosurus cristatus que a Agrostis tenuis
C
Coeficiente de concordancia simple
Caso
1 2 3
1: Agrostis tenuis 1,000 ,600 ,333
2 B i di 600 1 000 733
Utilizando el coeficiente de Jaccard Agrostis tenuis es ms parecida
2: Briza media ,600 1,000 ,733
3: Cynosurus cristatus ,333 ,733 1,000
Utilizando el coeficiente de Jaccard, Agrostis tenuis es ms parecida
a Briza media que a Cynosurus cristatus.
C fi i t d J d
Caso
Coeficiente de Jaccard
1 2 3
1: Agrostis tenuis 1 000 500 167 1: Agrostis tenuis 1,000 ,500 ,167
2: Briza media ,500 1,000 ,333
49
Similitudes entre datos categricos g
Para variables cualitativas con ms de dos categoras la medida de
similitud ms utilizada es una generalizacin del coeficiente de similitud ms utilizada es una generalizacin del coeficiente de
concordancia simple
a
1
: es el nmero de veces que ambas observaciones son 1.
a
2
: es el nmero de veces que ambas observaciones son 2.

a
k
: es el nmero de veces que ambas observaciones son k.
d: es el nmero de veces que ambas observaciones son 0.
50
Ejemplo: Ejemplo: Presencia/ausencia de cinco especies
Presencia (1) o ausencia (0) de cinco especies en 15 parcelas
Caso
1 2 3 4 5
Caso
1 2 3 4 5
1: Agrostis tenuis 1,000 ,500 ,167 ,600 ,857
2: Briza media ,500 1,000 ,333 ,500 ,429 2: Briza media ,500 1,000 ,333 ,500 ,429
3: Cynosurus cristatus ,167 ,333 1,000 ,167 ,143
4. Dactylis glomerata ,600 ,500 ,167 1,000 ,733
5. Festuca rubra ,857 ,429 ,143 ,733 1,000
51
1. Empezamos con 5 clusters (cada individuo en uno) y buscamos
los dos ms similares en la matriz:
Caso
1 2 3 4 5
los dos ms similares en la matriz:
1 2 3 4 5
1: Agrostis tenuis 1,000 ,500 ,167 ,600 ,857
2: Briza media ,500 1,000 ,333 ,500 ,429
5 Festuca rubra 857 429 143 733 1 000 5. Festuca rubra ,857 ,429 ,143 ,733 1,000
2. Creamos el nuevo cluster y actualizamos la matriz de similaridad.
Caso
1+5 2 3 4
1+5 1,000 ??? ??? ???
2: Briza media ??? 1,000 ,333 ,500
3: Cynosurus cristatus ??? ,333 1,000 ,167
4 Dactylis glomerata ??? 500 167 1 000
52
4. Dactylis glomerata ??? ,500 ,167 1,000
estandarizados
DISTANCIA/DISIMILITUD ENTRE INDIVIDUOS,, / ,,
MTODOS AGLOMERATIVOS.. Parten de tantos clusters como
4. Clusters jerrquicos: Elegir un criterio para unir grupos,
datos tiene la muestra y en cada paso se van juntando dos cluster.
j q g p g p ,
53
Motivacin
Dendrograma
54
Criterios para unir grupos en mtodos jerrquicos mtodos jerrquicos p g p j q j q
Los mtodos de enlace (linkage) utilizan la proximidad entre pares
de individuos para unir grupos de individuos.
1. 1. Enlace Enlace sencillo sencillo (SINGLE (SINGLE LINKAGE) LINKAGE): utiliza la mnima
distancia/disimilitud entre dos individuos de cada grupo (til
p g p
distancia/disimilitud entre dos individuos de cada grupo (til
para identificar atpicos)
22 Enlace Enlace completo completo (COMPLETE (COMPLETE LINKAGE) LINKAGE): utiliza la mxima 2. 2. Enlace Enlace completo completo (COMPLETE (COMPLETE LINKAGE) LINKAGE): utiliza la mxima
distancia/disimilitud entre dos individuos de cada grupo.
3. 3. Enlace Enlace promedio promedio (AVERAGE (AVERAGE LINKAGE) LINKAGE): utiliza la media 3. 3. Enlace Enlace promedio promedio (AVERAGE (AVERAGE LINKAGE) LINKAGE): utiliza la media
(mediana) de las distancias/disimilitud entre todos los
individuos de los dos grupos.
4. 4. Enlace Enlace de de centroides centroides (CENTROID (CENTROID LINKAGE) LINKAGE): utiliza la
distancia/disimilitud entre los centros de los grupos.
5. 5. Mtodo Mtodo de de Ward Ward (WARD (WARD LINKAGE) LINKAGE): utiliza la suma de las
distancias al cuadrado a los centros de los grupos.
55
Criterios para unir grupos en mtodos jerrquicos mtodos jerrquicos p g p j q j q
ll Enlace Enlace
sencillo sencillo
Enlace Enlace
completo completo
Enlace Enlace
medio medio
Enlace Enlace
centroide centroide
C t id d t tit ti l di d i bl Centroide para datos cuantitativos: la media para cada variable
de todos los individuos del grupo
Medioide para datos categricos: el individuo con la menor
disimilitud media con el resto de los miembros del grupo
56
Enlace simple: La similitud entre dos clusters es igual a la mxima
similitud entre dos individuos de cada cluster (individuos ms
Caso
similitud entre dos individuos de cada cluster (individuos ms
cercanos)
Caso
1 2 3 4 5
1: Agrostis tenuis 1,000 ,500 ,167 ,600 ,857
2: Briza media ,500 1,000 ,333 ,500 ,429 2: Briza media ,500 1,000 ,333 ,500 ,429
5. Festuca rubra ,857 ,429 ,143 ,733 1,000
La nueva matriz
de similitudes es:
57
3. Repetir los pasos 1 y 2
Caso
1+5 2 3 4
1+5 1 000 500 167 733 1+5 1,000 ,500 ,167 ,733
2: Briza media ,500 1,000 ,333 ,500
3: Cynosurus cristatus ,167 ,333 1,000 ,167
4. Dactylis glomerata ,733 ,500 ,167 1,000
Caso
1+5+4 2 3
1+5+4 1,000 ??? ???
2: Briza media ??? 1,000 ,333
3: Cynosurus cristatus ??? ,333 1,000
58
Repetir los pasos 1 y 2
Caso
1+5+4 2 3
1+5+4 1,000 ,500 ,167
2: Briza media ,500 1,000 ,333
Caso
1+5+4+2 3
1+5+4+2 1 000 ??? 1+5+4+2 1,000 ???
3: Cynosurus cristatus ??? 1,000
Caso
Caso
1+5+4+2 3
1+5+4+2 1,000 ,333
3: Cynosurus cristatus 333 1 000
59
3: Cynosurus cristatus ,333 1,000
Ejemplo: Ejemplo: Presencia/ausencia de cinco especies Ejemplo: Ejemplo: Presencia/ausencia de cinco especies
Diferentes criterios dan lugar a diferentes agrupaciones
Enlace Enlace sencillo sencillo
Enlace centroide Enlace centroide
Enlace Enlace sencillo sencillo
Enlace centroide Enlace centroide
60
Comentarios sobre el cluster jerrquico
Hacer las jerarquas en conjuntos de datos grandes es
problemtico ya que un rbol con ms de 50 individuos es difcil de
Comentarios sobre el cluster jerrquico
problemtico ya que un rbol con ms de 50 individuos es difcil de
representar e interpretar.
Una desventaja general es la imposibilidad de reasignar los
individuos a los clusters en los casos en que la clasificacin haya
sido dudosa en las primeras etapas del anlisis.
Debido a q e el anlisis cl ste implica la eleccin ent e dife entes Debido a que el anlisis cluster implica la eleccin entre diferentes
medidas y procedimientos, con frecuencia es difcil juzgar la
veracidad de los resultados. A veces, hacer cluster se considera
ms un arte que una ciencia. Cuidado con los "abusos!
Se recomienda comparar los resultados con diferentes mtodos
de hacer el cluster Soluciones similares generalmente indican de hacer el cluster. Soluciones similares generalmente indican
la existencia de una estructura en los datos. Soluciones muy
diferentes probablemente indican una estructura pobre.
En ultimo caso, la validez de los clusters se juzga mediante
una interpretacin cualitativa que puede ser subjetiva.
61
Motivacin
Dendrograma
Determinacin del nmero de grupos
62
El nmero de cluster en un mtodo jerrquico depende de por El nmero de cluster en un mtodo jerrquico depende de por
dnde cortemos el dendrograma
Cuntos cluster hay?
Test formales
Conocimiento del
problema (intuicin)
Es conveniente elegir un nmero de clusters que sepamos g q p
interpretar.
Para interpretar los cluster podemos utilizar: Para interpretar los cluster podemos utilizar:
ANOVA
ANLISIS FACTORIAL
ANLISIS DISCRIMINANTE
SENTIDO SENTIDO COMN COMN SENTIDO SENTIDO COMN COMN

63
Queremos agrupar 25 especies de mamferos en clusters, en los
que las especies tengan en comn una cierta homogeneidad en las
caractersticas de su leche
64
G1 G1 - - Alto contenido en agua y Alto contenido en agua y
lllactosa lactosa
G2 G2 Niveles intermedios Niveles intermedios
entre G1 y G3 entre G1 y G3
G4 G4 Alto o te ido e Alto o te ido e
G3 G3 - - Similar al G4, menos grasa y ms ceniza Similar al G4, menos grasa y ms ceniza
G4 G4 -- Alto contenido en grasas Alto contenido en grasas
Ficha Tcnica: Variables estandarizadas desviacin tpica 1.
Distancia eucldea. Enlace promedio
65
Datos de consumo per cpita en 103 municipios de la
Comunidad de Madrid en 20
aos
Ficha Tcnica: Variables originales. Distancia eucldea. Enlace simple
Fuente: A. Justel, 2004
66
67
Para interpretar los clusters, se utiliza una variable auxiliar que no se
ha empleado en la construccin de los clusters: Porcentaje de
segundas viviendas segundas viviendas.
(Los habitantes consumen recursos pero no estn empadronados y su
consume se asigna a los residentes)
Volumen
medio
Existen diferencias significativas entre los porcentajes de segunda
vivienda (ANOVA p valor<0 0001) En particular las comparaciones vivienda (ANOVA p-valor<0,0001). En particular, las comparaciones
mltiples muestran diferencias entre el cluster de mayor porcentaje de
segundas viviendas, Actividad econmica rural y el resto, excepto el
l t P i l i i l d i i (t di ) cluster Prximos a las principales vas de comunicacin (tamao medio)
69
Densidad de poblacin
p
70
Ejemplo Ejemplo: : Gastos de las familias por provincias
71
Ficha Tcnica Ficha Tcnica: Variables originales. Distancia eucldea.
Enlace con Mtodo de Ward
72
Ficha Tcnica Ficha Tcnica: Variables originales. Distancia eucldea.
Enlace con Mtodo de Ward
G2 G2
G1 G1
G3 G3
73
G1 G1
**
G3 G3
Clusters con k-medias
G2 G2
G2 G2
**
G1 G1
**
G3 G3
**
**
**
**
Enlace con Mtodo de Ward Enlace con Mtodo de Ward
74

AD10 11 Cluster PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

AD10 11 Cluster PDF

Cargado por

Copyright:

Formatos disponibles

TEMA TEMA 2: 2: TEMA TEMA 2: 2:

TCNICAS DE ANLISIS TCNICAS DE ANLISIS

SENTIDO SENTIDO COMN COMN SENTIDO SENTIDO COMN COMN

También podría gustarte