Documentos de Académico
Documentos de Profesional
Documentos de Cultura
|
K p
SSW
2
O d h l b
= =
|
|
.
\
=
k j
k j k
s n SSW
1 1
2
,
O dicho con otras palabras
- Minimizar la suma de los cuadrados de las diferencias entre
K
n
k
2
cada dato y la media de su grupo
= =
=
k i
k k
i
k
x x SSW
1 1
2
21
P d l Al it d k di
Partiendo de un conjunto inicial de k centroides
Pasos del Algoritmo de k-medias
Partiendo de un conjunto inicial de k centroides,
m
1
(1),,m
k
(1), que se pueden elegir al azar para evitar sesgos o
por cualquier otro procedimiento, el algoritmo va alternando los
dos siguientes pasos:
PASO DE ASIGNACIN Cada observacin se asigna al PASO DE ASIGNACIN. Cada observacin se asigna al
cluster con el centroide ms prximo (siguiendo el criterio
de optimalidad), con la distancia euclidea.
PASO DE CENTRALIZACIN. Para los clusters modificados
se calculan los nuevos centroides. se calculan los nuevos centroides.
El algoritmo se considera que ha alcanzado la convergencia
cuando en una iteracin no se produce ningn cambio, o se
cumple un criterio de parada.
22
P d l Al it d k di Pasos del Algoritmo de k-medias
23
Ejemplo: Ejemplo: Proceso iterativo partiendo de centroides arbitrarios.
3
Iteration 1
3
Iteration 2
3
Iteration 3
1.5
2
2.5
y
1.5
2
2.5
y
1.5
2
2.5
y
0
0.5
1
0
0.5
1
0
0.5
1
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
x
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
x
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
x
3
Iteration 4
3
Iteration 5
3
Iteration 6
1.5
2
2.5
1.5
2
2.5
1.5
2
2.5
0
0.5
1
y
0
0.5
1
y
0
0.5
1
y
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
x
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
x
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
x
Tan, Steinbach, Kumar. Introduction to Data Mining
24
P d l Al it d k di Pasos del Algoritmo de k-medias
Reglas de parada del SPSS: Reglas de parada del SPSS:
C it i d i El l it d t d i Criterio de convergencia: El algoritmo se detendr si en una
iteracin completa ninguno de los centros se desplaza una
distancia superior a un porcentaje previamente especificado porcentaje previamente especificado de la
distancia ms corta entre cualquiera de los centros iniciales.
Mximo numero de iteraciones: Para evitar que el algoritmo
entre en un bucle infinito, se detendr despus de un nmero de nmero de
iteraciones pre iteraciones pre--determinado determinado aunque el criterio de convergencia iteraciones pre iteraciones pre determinado determinado, aunque el criterio de convergencia
no se cumpla.
25
Ejemplo: Ejemplo: Tortugas
Buscamos con KMEANS dos clusters (machos y hembras) en
cuatro tortugas pintadas (trachemys scripta). En cada tortuga cuatro tortugas pintadas (trachemys scripta). En cada tortuga
se midi la longitud, el ancho y la altura del caparazn.
Id Longitud Ancho Alto Id. Longitud Ancho Alto
m1 120 89 40
m2 119 93 41 m2 119 93 41
f1 159 118 63
f2 155 115 63
1. Inicialmente, asignamos al azar la mitad de los datos
a cada grupo y calculamos los dos centroides con las
medias de los datos que hay en cada grupo.
En este caso ha salido m1 y f1 en el primer grupo y m2 y En este caso ha salido m1 y f1 en el primer grupo y m2 y
f2 en el segundo
26
Ejemplo: Ejemplo: Tortugas
Revisamos la asignacin de cada dato y recalculamos
las medias de cada cluster cuando hay cambios las medias de cada cluster cuando hay cambios
Id. Grupo
inicial
Dist. a
media g1
Dist. a
Media g2
Grupo
final
Nueva media g1 Nueva media g2
g g
m1 1 26,8 25,7 2 [159 118,0 63] [131,3 99 48,0]
m2 2 52 15,4 2 [159 118,0 63] [131,3 99 48,0]
f1 1 0 36,8 1 [159 118,0 63] [131,3 99 48,0]
f2 2 5 32,3 1 [157 116,5 63] [119,5 91 40,5]
Repetimos hasta que no hay ningn cambio
Id. Grupo
i i i l
Dist. a
di 1
Dist. a
M di 2
Grupo
fi l
Nueva media
1
Nueva media g2
inicial media g1 Media g2 final g1
m1 2 51,5 2,1 2 [157 116,5 63] [119,5 91 40,5]
m2 2 49,8 2,1 2 [157 116,5 63] [119,5 91 40,5] m2 2 49,8 2,1 2 [157 116,5 63] [119,5 91 40,5]
f1 1 2,5 52,9 1 [157 116,5 63] [119,5 91 40,5]
f2 1 2,5 48,4 1 [157 116,5 63] [119,5 91 40,5]
27
Ejemplo: Ejemplo: Contaminacin atmosfrica en ciudades de USA
Los datos incluyen una variable de contaminacin atmosfrica, cuatro
variables climticas y dos indicadores de ecologa humana en 41
ciudades de Estados Unidos.
SO2 contenido de SO2 en aire, en mg/m
3
TEMP Temperatura media anual, en F
MANUF Nmero de empresas manufactureras con 20 empleados o ms
POP Tamao de la poblacin, en miles WIND Velocidad media del viento, en millas por hora
PRECI Precipitacin media anual en pulgadas DAYS Nmero medio de das con precipitacin al ao
28
PRECI Precipitacin media anual, en pulgadas DAYS Nmero medio de das con precipitacin al ao
Ejemplo: Ejemplo: Contaminacin atmosfrica en ciudades de USA
El objetivo del anlisis cluster es agrupar optimamente las
ciudades en cuatro cluster en funcin de las variables climticas y
ecolgicas.
Se emplea el algoritmo de
k medias con k igual a
Localizacin espacial de los clusters
k-medias, con k igual a
cuatro.
Localizacin espacial de los clusters
Como las variables se
miden en distintas
unidades, los datos se
estandarizan previamente
para que tengan para que tengan
desviacin tpica 1.
29
Ejemplo: Ejemplo: Contaminacin atmosfrica en ciudades de USA
G1 (Sureste de USA) Clima
hmedo: Abundante precipitacin y
altas temperaturas.
G2 (N d t d USA) Cli
Localizacin espacial de los clusters
G2 (Nordeste de USA) Clima
hmedo, frio y ventoso: Alto
nmero de das con precipitacin,
baja tempe at a ientos f e tes baja temperatura y vientos fuertes.
G3 (Oeste de USA) Clima seco:
Baja precipitacin.
G4 Densidad alta de poblacin: G4 Densidad alta de poblacin:
Valores altos de los indicadores de
ecologa humana (Chicago,
Filadelfia etc )
Medias de cada variable en cada grupo
Filadelfia, etc.)
SO2 no se usa para hacer el cluster pero se incluye para validar el inters de las agrupaciones
Los clusters estn relacionados con los niveles de SO2. Por tanto, las variables
d l h li b di t d l lid d d l i
30
de ecologa humana y clima son buenos predictores de la calidad del aire.
Una limitacin de KMEDIAS es que se espera que los grupos
Comentarios sobre el algoritmo de k-medias
Una limitacin de KMEDIAS es que se espera que los grupos
sean separables, con forma esfrica y de tamao similar.
Ej l Ej l Li i Ejemplo: Ejemplo: Lirios
KMEANS falla a menudo cuando trata de separar las tres especies. p p
Con k = 2, se identifican los dos clusters visibles (uno conteniendo
dos especies), mientras que con k = 3 uno de los dos clusters se
divide en dos partes iguales
31
divide en dos partes iguales.
Una limitacin de KMEDIAS es que se espera que los grupos
Comentarios sobre el algoritmo de k-medias
Una limitacin de KMEDIAS es que se espera que los grupos
sean separables, con forma esfrica y de tamao similar.
No est garantizado que KMEDIAS llegue siempre a la solucin
ptima debido a que el resultado final va a depender de los
centroides iniciales.
32
Ejemplo: Ejemplo: Proceso iterativo partiendo de centroides arbitrarios.
3
Iteration 1
3
Iteration 2
1.5
2
2.5
y
1.5
2
2.5
y
0
0.5
1
y
0
0.5
1
y
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
x
3
Iteration 5
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
x
3
Iteration 3
3
Iteration 4
1.5
2
2.5
y
1.5
2
2.5
y
1.5
2
2.5
y
0
0.5
1
y
0
0.5
1
0
0.5
1
Tan, Steinbach, Kumar. Introduction to Data Mining
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
x
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
x
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
x
33
Una limitacin de KMEDIAS es que se espera que los grupos
Comentarios sobre el algoritmo de k-medias
Una limitacin de KMEDIAS es que se espera que los grupos
sean separables, con forma esfrica y de tamao similar.
No est garantizado que KMEDIAS llegue siempre a la solucin
ptima debido a que el resultado final va a depender de los
centroides iniciales.
Como el algoritmo suele ser muy rpido, se suele ejecutar
varias veces con distintos centroides iniciales. varias veces con distintos centroides iniciales.
El nmero k de clusters es un input, por tanto, una eleccin
inapropiada de k puede conducir a un mal resultado inapropiada de k puede conducir a un mal resultado.
Cuando usamos KMEDIAS es importante chequear distintas
i d t i l d ibl l t opciones para determinar el nmero de posibles clusters que
hay en el conjunto de datos.
34
Decidir el nmero de clusters
1. Una regla empirica para seleccionar el nmero de clusters es
introducir un nuevo cluster (pasar de K a K+1) cuando
10
) 1 (
) 1 ( ) (
>
+
+
=
K SSW
K SSW K SSW
F
1
) 1 (
+
K n
K SSW
2 Chequear con herramientas como el ANOVA si los grupos son 2. Chequear con herramientas como el ANOVA si los grupos son
significativamente distintos (cmo de validos son los
grupos?) g p )
35
Tcnicas de anlisis multivariante para agrupacin
Motivacin
Mtodos para construir clusters Mtodos para construir clusters
Clasificacin con el algoritmo de k-medias
Clasificacin con mtodos jerrquicos
Dendrograma
Distancias/disimilitud entre individuos /
Criterios de proximidad entre grupos
36
Clusters jerrquicos Clusters jerrquicos
Los divisivos requieren muchos
clculos, casi no se usan
MTODOS DIVISIVOS. Parten de un nico cluster con todos los
datos que se va dividiendo paso a paso, hasta obtener tantos q p p ,
clusters como datos.
MTODOS AGLOMERATIVOS Parten de tantos clusters como MTODOS AGLOMERATIVOS.. Parten de tantos clusters como
datos tiene la muestra y en cada paso se van juntando dos
clusters siguiendo algn criterio especificado hasta obtener un
nico cluster con todos los datos.
Cada mtodo se diferencia por la estrategia de fusin en cada Cada mtodo se diferencia por la estrategia de fusin en cada
etapa. Y todos tienen en comn que la primera unin es entre los
individuos ms similares.
La eleccin de la estrategia de fusin depender de los objetivos
de la investigacin.
37
Decisiones que hay que tomar para hacer un cluster
1. Elegir el mtodo cluster que se va a emplear
2. Decidir sobre si trabajar con los datos segn se miden o
estandarizados
3. Seleccionar la forma de medir la
DISTANCIA/DISIMILITUD ENTRE INDIVIDUOS,, / ,,
dependiendo de si los datos son cuantitativos o cualitativos
MTODOS AGLOMERATIVOS.. Parten de tantos clusters como
4. Clusters jerrquicos: Elegir un criterio para unir grupos,
datos tiene la muestra y en cada paso se van juntando dos cluster.
j q g p g p ,
DISTANCIA ENTRE GRUPOS
38
Tcnicas de anlisis multivariante para agrupacin
Motivacin
Mtodos para construir clusters Mtodos para construir clusters
Clasificacin con el algoritmo de k-medias
Clasificacin con mtodos jerrquicos
Dendrograma
39
DENDROGRAMA DENDROGRAMA
Es una representacin grfica en forma de rbol.
Los clusters estn representados mediante trazos horizontales
(verticales) y las etapas de fusin mediante trazos verticales
(h l ) (horizontales).
La separacin entre las etapas de fusin es proporcional a la
di t i l t l f d t distancia a la que estn los grupos que se funden en esa etapa.
40
DENDROGRAMA
Genetic diversity of viruses in an Antarctic lake 103 municipios de la Comunidad de Madrid
DENDROGRAMA
A. Lpez-Bueno et al., Science 326, 858-861 (2009)
A. Justel, et al. (2004)
Published by AAAS
, ( )
DENDROGRAMA DENDROGRAMA
El SPSS representa las distancias entre grupos rescaladas, por
tanto son difciles de interpretar, nos fijaremos slo en la forma.
Para ms informacin nos fijamos en el Historial de
l conglomeracin.
Cuando se combinan dos clusters, el SPSS asigna al
nuevo cluster la etiqueta menor entre las que tienen los
cluster que se combinan.
Los coeficientes son una medida de distancia/similitud
l
42
entre clusters.
Tcnicas de anlisis multivariante para agrupacin
Motivacin
Mtodos para construir clusters Mtodos para construir clusters
Clasificacin con el algoritmo de k-medias
Clasificacin con mtodos jerrquicos
Dendrograma
Distancias/disimilitud entre individuos /
43
Distancias entre datos continuos (en SPSS)
Distancia Distancia eucldea eucldea.. Raz cuadrada de la suma de cuadrados de las
diferencias entre los valores. Es la medida por defecto para datos
Distancias entre datos continuos (en SPSS)
p p
de intervalo
Distancia Distancia eucldea eucldea al cuadrado. al cuadrado. Suma de cuadrados de las
diferencias entre los valores diferencias entre los valores
Correlacin de Correlacin de Pearson Pearson.. Correlacin producto-momento entre dos
vectores de valores
Coseno. Coseno. Coseno del ngulo entre dos vectores de valores
Chebychev Chebychev.. Diferencia absoluta mxima entre los valores yy
Bloque. Bloque. Suma de las diferencias absolutas entre los valores.
Tambin se conoce como distancia de Manhattan
Minkowski Minkowski. Raz p-sima de la suma de las diferencias absolutas
elevada a la potencia p-sima entre los valores
Personalizada Personalizada Raz r sima de la suma de las diferencias absolutas Personalizada. Personalizada. Raz r-sima de la suma de las diferencias absolutas
elevada a la potencia p-sima entre los valores de los elementos
Mahalanobis Mahalanobis distance distance..
44
Mahalanobis Mahalanobis distance distance..
Distancias entre datos continuos
Distancia Distancia Eucldea Eucldea
Distancias entre datos continuos
Distancia Distancia Eucldea Eucldea
Distancia Distancia Eucldea Eucldea estandarizada, o estandarizada, o Eucldea Eucldea entre datos entre datos
estandarizados estandarizados estandarizados estandarizados
Distancia de Mahalanobis Distancia de Mahalanobis
45
Similitudes entre datos cualitativos binarios
Para calcular la similitud entre dos individuos para los que se
observan p variables binarias tipo presencia/ausencia se calculan observan p variables binarias tipo presencia/ausencia se calculan
todas las situaciones posibles
Individuo x
1
x
2
x
3
x
p
Individuo x
1
x
2
x
3
x
p
i 1 1 0 0
j 1 0 0 1
a: Nmero de veces en las p variables que ambas observaciones
son 1
j
son 1.
b: Nmero de veces en las p variables que una observacin es 1 y
la otra 0 la otra 0.
c: Nmero de veces en las p variables que una observacin es 0
y la otra 1 y la otra 1.
d: Nmero de veces en las p variables que ambas observaciones
son 0 son 0.
46
Similitudes entre datos cualitativos binarios
Individuo x
1
x
2
x
3
x
p
i 1 1 0 0
j 1 0 0 1
Individuo i Individuo i
d
u
o
j
1 0 Total
1 a b a+b
Concordancia simple Concordancia simple
I
n
d
i
v
i
d
1 a b a+b
0 c d c+d
Total a+c b+d p=a+b+c+d
Coeficiente de Jaccard Coeficiente de Jaccard
Total a+c b+d p a+b+c+d
Coeficientes menos usados: Coeficientes menos usados:
Sokal Sokal y y Sneath Sneath:: Czekanowski Czekanowski y y Sorensen Sorensen::
Coeficientes menos usados: Coeficientes menos usados:
47
Ejemplo: Ejemplo: Presencia/ausencia de tres especies
Presencia (1) o ausencia (0) de tres especies (A, B, C) en 15 parcelas.
Ejemplo: Ejemplo: Presencia/ausencia de tres especies
Coeficiente de concordancia Coeficiente de concordancia
simple simple
Coeficiente de Coeficiente de Jaccard Jaccard
La ausencia no sabemos si es
porque no existe la especie o
porque no la hemos observado
48
Ejemplo: Ejemplo: Presencia/ausencia de tres especies
Utilizando el coeficiente de concordancia simple, Briza media es ms
parecida a Cynosurus cristatus que a Agrostis tenuis
Ejemplo: Ejemplo: Presencia/ausencia de tres especies
parecida a Cynosurus cristatus que a Agrostis tenuis
C
Coeficiente de concordancia simple
Caso
1 2 3
1: Agrostis tenuis 1,000 ,600 ,333
2 B i di 600 1 000 733
Utilizando el coeficiente de Jaccard Agrostis tenuis es ms parecida
2: Briza media ,600 1,000 ,733
3: Cynosurus cristatus ,333 ,733 1,000
Utilizando el coeficiente de Jaccard, Agrostis tenuis es ms parecida
a Briza media que a Cynosurus cristatus.
C fi i t d J d
Caso
Coeficiente de Jaccard
1 2 3
1: Agrostis tenuis 1 000 500 167 1: Agrostis tenuis 1,000 ,500 ,167
2: Briza media ,500 1,000 ,333
3: Cynosurus cristatus ,167 ,333 1,000
49
Similitudes entre datos categricos g
Para variables cualitativas con ms de dos categoras la medida de
similitud ms utilizada es una generalizacin del coeficiente de similitud ms utilizada es una generalizacin del coeficiente de
concordancia simple
a
1
: es el nmero de veces que ambas observaciones son 1.
a
2
: es el nmero de veces que ambas observaciones son 2.
a
k
: es el nmero de veces que ambas observaciones son k.
d: es el nmero de veces que ambas observaciones son 0.
50
Ejemplo: Ejemplo: Presencia/ausencia de cinco especies
Presencia (1) o ausencia (0) de cinco especies en 15 parcelas
Ejemplo: Ejemplo: Presencia/ausencia de cinco especies
Caso
Coeficiente de Jaccard
1 2 3 4 5
Caso
1 2 3 4 5
1: Agrostis tenuis 1,000 ,500 ,167 ,600 ,857
2: Briza media ,500 1,000 ,333 ,500 ,429 2: Briza media ,500 1,000 ,333 ,500 ,429
3: Cynosurus cristatus ,167 ,333 1,000 ,167 ,143
4. Dactylis glomerata ,600 ,500 ,167 1,000 ,733
5. Festuca rubra ,857 ,429 ,143 ,733 1,000
51
Ejemplo: Ejemplo: Presencia/ausencia de cinco especies
1. Empezamos con 5 clusters (cada individuo en uno) y buscamos
los dos ms similares en la matriz:
Ejemplo: Ejemplo: Presencia/ausencia de cinco especies
Caso
Coeficiente de Jaccard
1 2 3 4 5
los dos ms similares en la matriz:
1 2 3 4 5
1: Agrostis tenuis 1,000 ,500 ,167 ,600 ,857
2: Briza media ,500 1,000 ,333 ,500 ,429
3: Cynosurus cristatus ,167 ,333 1,000 ,167 ,143
4. Dactylis glomerata ,600 ,500 ,167 1,000 ,733
5 Festuca rubra 857 429 143 733 1 000 5. Festuca rubra ,857 ,429 ,143 ,733 1,000
2. Creamos el nuevo cluster y actualizamos la matriz de similaridad.
Coeficiente de Jaccard
Caso
Coeficiente de Jaccard
1+5 2 3 4
1+5 1,000 ??? ??? ???
2: Briza media ??? 1,000 ,333 ,500
3: Cynosurus cristatus ??? ,333 1,000 ,167
4 Dactylis glomerata ??? 500 167 1 000
52
4. Dactylis glomerata ??? ,500 ,167 1,000
Decisiones que hay que tomar para hacer un cluster
1. Elegir el mtodo cluster que se va a emplear
2. Decidir sobre si trabajar con los datos segn se miden o
estandarizados
3. Seleccionar la forma de medir la
DISTANCIA/DISIMILITUD ENTRE INDIVIDUOS,, / ,,
dependiendo de si los datos son cuantitativos o cualitativos
MTODOS AGLOMERATIVOS.. Parten de tantos clusters como
4. Clusters jerrquicos: Elegir un criterio para unir grupos,
datos tiene la muestra y en cada paso se van juntando dos cluster.
j q g p g p ,
DISTANCIA ENTRE GRUPOS
53
Tcnicas de anlisis multivariante para agrupacin
Motivacin
Mtodos para construir clusters Mtodos para construir clusters
Clasificacin con el algoritmo de k-medias
Clasificacin con mtodos jerrquicos
Dendrograma
Distancias/disimilitud entre individuos /
Criterios de proximidad entre grupos
54
Criterios para unir grupos en mtodos jerrquicos mtodos jerrquicos p g p j q j q
Los mtodos de enlace (linkage) utilizan la proximidad entre pares
de individuos para unir grupos de individuos.
1. 1. Enlace Enlace sencillo sencillo (SINGLE (SINGLE LINKAGE) LINKAGE): utiliza la mnima
distancia/disimilitud entre dos individuos de cada grupo (til
p g p
distancia/disimilitud entre dos individuos de cada grupo (til
para identificar atpicos)
22 Enlace Enlace completo completo (COMPLETE (COMPLETE LINKAGE) LINKAGE): utiliza la mxima 2. 2. Enlace Enlace completo completo (COMPLETE (COMPLETE LINKAGE) LINKAGE): utiliza la mxima
distancia/disimilitud entre dos individuos de cada grupo.
3. 3. Enlace Enlace promedio promedio (AVERAGE (AVERAGE LINKAGE) LINKAGE): utiliza la media 3. 3. Enlace Enlace promedio promedio (AVERAGE (AVERAGE LINKAGE) LINKAGE): utiliza la media
(mediana) de las distancias/disimilitud entre todos los
individuos de los dos grupos.
4. 4. Enlace Enlace de de centroides centroides (CENTROID (CENTROID LINKAGE) LINKAGE): utiliza la
distancia/disimilitud entre los centros de los grupos.
5. 5. Mtodo Mtodo de de Ward Ward (WARD (WARD LINKAGE) LINKAGE): utiliza la suma de las
distancias al cuadrado a los centros de los grupos.
55
Criterios para unir grupos en mtodos jerrquicos mtodos jerrquicos p g p j q j q
ll Enlace Enlace
sencillo sencillo
Enlace Enlace
completo completo
Enlace Enlace
medio medio
Enlace Enlace
centroide centroide
C t id d t tit ti l di d i bl Centroide para datos cuantitativos: la media para cada variable
de todos los individuos del grupo
Medioide para datos categricos: el individuo con la menor
disimilitud media con el resto de los miembros del grupo
56
Ejemplo: Ejemplo: Presencia/ausencia de cinco especies
Enlace simple: La similitud entre dos clusters es igual a la mxima
similitud entre dos individuos de cada cluster (individuos ms
Ejemplo: Ejemplo: Presencia/ausencia de cinco especies
Caso
Coeficiente de Jaccard
similitud entre dos individuos de cada cluster (individuos ms
cercanos)
Caso
1 2 3 4 5
1: Agrostis tenuis 1,000 ,500 ,167 ,600 ,857
2: Briza media ,500 1,000 ,333 ,500 ,429 2: Briza media ,500 1,000 ,333 ,500 ,429
3: Cynosurus cristatus ,167 ,333 1,000 ,167 ,143
4. Dactylis glomerata ,600 ,500 ,167 1,000 ,733
5. Festuca rubra ,857 ,429 ,143 ,733 1,000
La nueva matriz
de similitudes es:
57
Ejemplo: Ejemplo: Presencia/ausencia de cinco especies
3. Repetir los pasos 1 y 2
Ejemplo: Ejemplo: Presencia/ausencia de cinco especies
Caso
Coeficiente de Jaccard
1+5 2 3 4
1+5 1 000 500 167 733 1+5 1,000 ,500 ,167 ,733
2: Briza media ,500 1,000 ,333 ,500
3: Cynosurus cristatus ,167 ,333 1,000 ,167
4. Dactylis glomerata ,733 ,500 ,167 1,000
Coeficiente de Jaccard
Caso
Coeficiente de Jaccard
1+5+4 2 3
1+5+4 1,000 ??? ???
2: Briza media ??? 1,000 ,333
3: Cynosurus cristatus ??? ,333 1,000
58
Ejemplo: Ejemplo: Presencia/ausencia de cinco especies
Coeficiente de Jaccard
Repetir los pasos 1 y 2
Ejemplo: Ejemplo: Presencia/ausencia de cinco especies
Caso
1+5+4 2 3
1+5+4 1,000 ,500 ,167
2: Briza media ,500 1,000 ,333
3: Cynosurus cristatus ,167 ,333 1,000
Caso
Coeficiente de Jaccard
1+5+4+2 3
1+5+4+2 1 000 ??? 1+5+4+2 1,000 ???
3: Cynosurus cristatus ??? 1,000
Caso
Coeficiente de Jaccard
Caso
1+5+4+2 3
1+5+4+2 1,000 ,333
3: Cynosurus cristatus 333 1 000
59
3: Cynosurus cristatus ,333 1,000
Ejemplo: Ejemplo: Presencia/ausencia de cinco especies Ejemplo: Ejemplo: Presencia/ausencia de cinco especies
Diferentes criterios dan lugar a diferentes agrupaciones
Enlace Enlace sencillo sencillo
Enlace centroide Enlace centroide
Enlace Enlace sencillo sencillo
Enlace centroide Enlace centroide
60
Comentarios sobre el cluster jerrquico
Hacer las jerarquas en conjuntos de datos grandes es
problemtico ya que un rbol con ms de 50 individuos es difcil de
Comentarios sobre el cluster jerrquico
problemtico ya que un rbol con ms de 50 individuos es difcil de
representar e interpretar.
Una desventaja general es la imposibilidad de reasignar los
individuos a los clusters en los casos en que la clasificacin haya
sido dudosa en las primeras etapas del anlisis.
Debido a q e el anlisis cl ste implica la eleccin ent e dife entes Debido a que el anlisis cluster implica la eleccin entre diferentes
medidas y procedimientos, con frecuencia es difcil juzgar la
veracidad de los resultados. A veces, hacer cluster se considera
ms un arte que una ciencia. Cuidado con los "abusos!
Se recomienda comparar los resultados con diferentes mtodos
de hacer el cluster Soluciones similares generalmente indican de hacer el cluster. Soluciones similares generalmente indican
la existencia de una estructura en los datos. Soluciones muy
diferentes probablemente indican una estructura pobre.
En ultimo caso, la validez de los clusters se juzga mediante
una interpretacin cualitativa que puede ser subjetiva.
61
Tcnicas de anlisis multivariante para agrupacin
Motivacin
Mtodos para construir clusters Mtodos para construir clusters
Clasificacin con el algoritmo de k-medias
Clasificacin con mtodos jerrquicos
Dendrograma
Distancias/disimilitud entre individuos /
Criterios de proximidad entre grupos
Determinacin del nmero de grupos
62
El nmero de cluster en un mtodo jerrquico depende de por El nmero de cluster en un mtodo jerrquico depende de por
dnde cortemos el dendrograma
Cuntos cluster hay?
Test formales
Conocimiento del
problema (intuicin)
Es conveniente elegir un nmero de clusters que sepamos g q p
interpretar.
Para interpretar los cluster podemos utilizar: Para interpretar los cluster podemos utilizar:
ANOVA
ANLISIS FACTORIAL
ANLISIS DISCRIMINANTE