Está en la página 1de 72

ANLISIS DE CONGLOMERADOS

Prof. Esperanza Ayuga Tllez

CONGLOMERADOS

ANLISIS MULTIVARIANTE

Tiene Tiene por por objeto objeto agrupar agrupar elementos elementos en en grupos grupos homogneos homogneos en en funcin funcin de de las las similitudes similitudes entre entre ellos. ellos. Detecta Detecta grupos grupos internamente internamente homogneos homogneos (y (y heterogneos heterogneos entre entre s) s)
Tambin Tambin conocido conocido como: como: clasificacin clasificacin automtica, automtica, clasificacin clasificacin no no supervisada, supervisada, reconocimiento reconocimiento de de patrones patrones sin sinsupervisin supervisin p.e. Agrupar tipos de semillas por efectos de germinacin o agrupar clientes por pautas de consumo.

CONGLOMERADOS

ANLISIS MULTIVARIANTE

Estudia tres tipos de problemas:


1. Particin de los datos: disponemos de observaciones que pensamos son heterogneas y deseamos dividirlos en un n prefijado de grupos, de tal manera que todo elemento quede clasificado y pertenezca a un solo grupo y los grupos sean internamente homogneos. 2. Construccin de jerarquas: deseamos estructurar los elementos de un conjunto de forma jerrquica por su similitud ordenar en niveles. 3. Clasificacin de variables: en problemas con muchas variables es interesante hacer una divisin en grupos para luego reducir la dimensin.

CONGLOMERADOS

ANLISIS MULTIVARIANTE

Definicin del problema de cluster Girafas


Longitud cuello (m)

Forma manchas

Cebras

CONGLOMERADOS

ANLISIS MULTIVARIANTE

Definicin del problema

Jerarquizacin lineal de datos T (resolucin)

Longitud cuello (m)

Forma manchas

CONGLOMERADOS

Pero donde est el okapi?

ANLISIS MULTIVARIANTE

Longitud cuello (m)

Forma manchas

CONGLOMERADOS

ANLISIS MULTIVARIANTE

Relacin con otras tcnicas multivariantes:


1. Anlisis discriminante: se trata de otra tcnica destinada a la clasificacin. Se trata de una tcnica confirmatoria que parte de una clasificacin previa de los individuos. Suele realizarse posteriormente al A. de conglomerados 2. Anlisis factorial exploratorio: puede utilizarse para clasificar mediante los coeficientes de los factores. Puede realizarse para confirmar la agrupacin por conglomerados. 3. Escalamiento multidimensional: por su analoga con el A. factorial puede relacionarse con la tcnica de conglomerados.

CONGLOMERADOS

Fases de su aplicacin
DECISIONES PREVIAS
Eleccin de variables

A. MULTIVARIANTE

R E P L A N T E A R

Mtodo de aglomeracin Algoritmo de clasificacin

Medidas de distancia y similaridad

OBTENCIN DE CONGLOMERADOS
Decisin: n adecuado de conglomerados

INTERPRETACIN DE RESULTADOS: ncos y grafcos


Perfil de los conglomerados

VALIDACIN DE RESULTADOS
NEGATIVA Introduccin de modificaciones POSITIVA Conclusin del anlisis

3 4

CONGLOMERADOS

ANLISIS MULTIVARIANTE

ELECCIN DE VARIABLES Elegir variables relevantes: dependiendo del objetivo de la investigacin afecta a los conglomerados, al nmero ptimo de stos y a la presencia de datos atpicos. Estandarizar las variables: dependiendo de su rango si existen pocas diferencias en la magnitud y rango de las variables usadas no es preciso estandarizar.

CONGLOMERADOS

ANLISIS MULTIVARIANTE

MTODOS DE CONGLOMERACIN Mtodos jerrquicos:


Aglomerativos
distancias mnimas distancias mximas promedio entre grupos promedio intra grupos mtodo Ward mtodo del centroide mtodo de la mediana

Mtodos no jerrquicos:
Reasignacin
mtodo K-medias nubes dinmicas

Bsqueda de densidad
aproximacin tipolgica aproximacin probabilstica

Divisivos
mtodo de particin binaria

Mtodos directos
Grupos por bloque de Hartingan

CONGLOMERADOS

ANLISIS MULTIVARIANTE

MTODOS DE CONGLOMERACIN Mtodos jerrquicos:


Se basan en el clculo de una matriz de distancias y se aplican con n<200, ya que los clculos y resultados se complican al aumentar el tamao de la muestra. Se pueden aplicar a variables o a observaciones: Si se agrupan variables se precisan 3 o ms v. numricas. Si se agrupan observaciones se necesita al menos una v. numrica.

CONGLOMERADOS

ANLISIS MULTIVARIANTE

MTODOS JERRQUICOS Dada la matriz, los algoritmos son de dos tipos: 1. De aglomeracin los elementos se van agregando. Requieren menor tiempo y son los ms usados. 2. De divisin parten del conjunto de datos y se van dividiendo. los elementos que se incluyen en un grupo no se pueden reasignar.

CONGLOMERADOS

ANLISIS MULTIVARIANTE

MTODOS JERRQUICOS Mtodos jerrquicos aglomerativos:


Tambin se denominan ascendentes (Manly, 1990). Parten de objetos singulares (cada objeto un conglomerado) para ir construyendo conglomerados cada vez ms complejos hasta concluir en uno slo. Se pueden aplicar a variables o a observaciones: Si se agrupan variables se precisan 3 o ms v. numricas. Si se agrupan observaciones se necesita al menos una v. numrica.

CONGLOMERADOS

ANLISIS MULTIVARIANTE

MTODOS JERRQUICOS
La representacin grfica del resultado de la agrupacin jerrquica es el dendrograma, til si efectivamente los puntos tienen una estructura jerrquica y engaoso en otro caso.
Dendrograma
120 100 Mtodo de Ward (distancia Euclidea)

distancia

80 60 40 20 0
00000000000000011000111111111111111111111111111111

Se recomienda elegir el criterio ms adecuado para los datos a tratar y, en caso de duda, probar con varios y comparar los resultados.

CONGLOMERADOS

ANLISIS MULTIVARIANTE

Cluster jerrquico aglomerativo


A cada paso se junta el par de GRUPOS ms prximos Inicialmente cada punto = cluster
Distancia entre cluster ligados
4 2

5 3 1

Dendrograma

CONGLOMERADOS

ANLISIS MULTIVARIANTE

Algoritmos Algoritmosdefinidos definidospor porla ladistancia distanciaentre entreel el nuevo nuevogrupo grupoy yel elgrupo grupoanterior. anterior.

Claster jerrquico aglomerativo


prximos

Enlace simple: distancia mnima entre grupos. A cada paso se junta el par de GRUPOS ms Enlace simple: distancia mnima entre grupos. Enlace completo mxima grupos. Inicialmente cada punto =entre cluster Enlace completo::distancia distancia mxima entre grupos. Enlace Enlacemedio: medio: distancia distanciamedia mediaentre entretodos todoslos lospares pares o Distancia entre cluster ligados entre odistancia distancia entrecentros centrosde degrupos grupos

5 3 1

El Eldendrograma dendrogramamuestra muestraun unorden ordenlineal lineal de delos losdatos. datos.

Dendrograma

CONGLOMERADOS

ANLISIS MULTIVARIANTE

MTODOS DE AGLOMERACIN Mtodos no jerrquicos:


Tambin conocidos como mtodos de optimizacin. Los mtodos de reasignacin permiten reasignar objetos a distintos conglomerados en cada fase. Los mtodos de bsqueda de densidad agrupan mediante la bsqueda de altas densidades (modas). Los mtodos directos permiten clasificar de forma simultnea individuos y variables

CONGLOMERADOS

ANLISIS MULTIVARIANTE

MTODOS DE CONGLOMERACIN Diferencias bsicas: Mtodos jerrquicos: Mtodos no jerrquicos:

Comienza con las observaciones y no Comienza con una particin inicial de precisa determinar a priori el nmero conglomerados. A priori se determina de conglomerados. el nmero y composicin de los conglomerados La asignacin de objetos es definitiva. Operan con una matriz de similaridades. El procedimiento es iterativo y permite la reasignacin de objetos. Operan con la matriz de datos originales.

CONGLOMERADOS

ANLISIS MULTIVARIANTE

MTODOS DE CONGLOMERACIN Inconvenientes principales Mtodos jerrquicos: Mtodos no jerrquicos:

Si la estructura de la muestra es Dificultad en conocer a priori el nmero desconocida resulta difcil escoger real de los conglomerados existentes en el algoritmo. la muestra. Es difcil operar e interpretar los grficos con ms de 200 datos. Formar todas las particiones posibles para escoger la ptima es muy complejo.

Mayor cantidad de atpicos en esta Mayor complejidad en los anlisis. particin. Una mala particin no puede modificarse. Una mala decisin inicial sobre el n y composicin de los grupos ocasiona una errnea clasificacin.

CONGLOMERADOS

ANLISIS MULTIVARIANTE

ALGORITMOS DE CONGLOMERACIN
De la eleccin del algoritmo de clasificacin dependen el nmero y composicin de los conglomerados obtenidos. El algoritmo es la forma particular de clculo empleado en los mtodos descritos. La eleccin del algoritmo de clasificacin depende de: a) Los objetivos del estudio b) Las caractersticas de los datos: mtrica de las variables y tamao muestral c) El mtodo elegido: jerrquico o no jerrquico d) Los lmites del programa y ordenador que usemos.

CONGLOMERADOS

ANLISIS MULTIVARIANTE

ALGORITMOS DE MTODOS JERRQUICOS


Los algoritmos tienen siempre la misma estructura y slo se diferencian en la forma de calcular las distancias entre grupos. 1. Empezar con tantas clases como elementos, n. 2. Seleccionar los dos datos ms prximos y formar con ellos una clase. 3. Sustituir los dos elementos anteriores por uno slo que representa a la clase. Se calculan las distancias entre ste nuevo elemento y los anteriores. 4. Repetir 2 y 3 hasta agrupar todos los datos en una sola clase

CONGLOMERADOS

ANLISIS MULTIVARIANTE

ALGORITMOS DE MTODOS JERRQUICOS


Parte de una matriz de distancias o similaridades a partir de la que se construye una jerarqua. La distancia ms usada es la eucldea (entre v. estand. univ.) No es conveniente la distancia de Mahalanobis. Para v. binarias se trabaja con similaridades.

d ij = 2(1 sij ) ; simil =

a a+b+c

a=n de coincidencias; b=n de (0,1) y c=n de (1,0)

CONGLOMERADOS

ANLISIS MULTIVARIANTE

ALGORITMOS DE MTODOS JERRQUICOS


Supongamos dos grupos: A y B con nA y nB elementos, la distancia del nuevo grupo (AB) a otro C de nC se calcula con: 1. Encadenamiento simple o vecino ms prximo: tiende a producir grupos alargados que pueden incluir puntos muy distintos en los extremos: d(C;AB)=min(dCA;dCB) 2. Encadenamiento completo o vecino ms alejado: tiende a producir grupos esfricos: d(C;AB)=max(dCA;dCB)

CONGLOMERADOS

ANLISIS MULTIVARIANTE

Enlace simple o vecino ms prximo o distancia mnima


1 2

Objeto 1 2 3 4 5

1 2 6 9

3 4 5

5 4 5 3 8

10 9

Matriz de distancias
5 4

Distancia 0 2 3 4 5

Cluster 1,2,3,4,5 (1, 2), 3, 4, 5 (1, 2), 3, (4, 5) (1, 2), (3, 4, 5) (1, 2, 3, 4, 5)

d (12)3 = min[d13 , d 23 ] = d 23 = 5 d (12)( 45) = min[d14 , d 24 , d15 , d 25 ] = d 25 = 8 d ( 45)3 = min[d 43 , d 53 ] = d 43 = 4

CONGLOMERADOS

ANLISIS MULTIVARIANTE

Enlace completo o vecino ms lejano o distancia mxima


1 2

Objeto 1 2 3 4 5

1 2 6 9

3 4 5

5 4 5 3 8

10 9

Matriz de distancias
5 4

Distancia 0 2 3 5 10

Cluster 1,2,3,4,5 (1, 2), 3, 4, 5 (1, 2), 3, (4, 5) (1, 2), (3, 4, 5) (1, 2, 3, 4, 5)

d (12)3 = max[d13 , d 23 ] = d13 = 6 d (12)( 45) = max[d14 , d 24 , d15 , d 25 ] = d14 = 10 d ( 45)3 = max[d 43 , d 53 ] = d 53 = 5

CONGLOMERADOS

ANLISIS MULTIVARIANTE

ALGORITMOS DE MTODOS JERRQUICOS


3. Media de grupos: media ponderada de las distancias. Como el primer mtodo, es invariante ante transformaciones montonas: nA nB d(C; AB) = d CA + d CB nA + nB nA + nB 4. Mtodo del centroide: slo vlido para variables continuas. Equivale a la distancia eucldea entre sus centros: nA nB nAnB 2 2 2 2 d (C; AB) = d CA + d CB d AB nA + nB nA + nB ( n A + n B )2

CONGLOMERADOS

ANLISIS MULTIVARIANTE

Media de grupos
1 2

Objeto 1 2 3 4 5

1 2 6 9

3 4 5

5 4 5 3 8

10 9

Matriz de distancias
5 4

Distancia 0 2 3 4,5 7,8

Cluster 1,2,3,4,5 (1, 2), 3, 4, 5 (1, 2), 3, (4, 5) (1, 2), (3, 4, 5) (1, 2, 3, 4, 5)

d (12)3 = med[d13 , d 23 ] = (6 + 5) / 2 = 5,5 d (12)( 45) = med[d14 , d 24 , d15 , d 25 ] = 36 / 4 = 9 d ( 45)3 = media [d 43 , d 53 ] = 4,5

CONGLOMERADOS

ANLISIS MULTIVARIANTE

Mtodo del centroide


1 2

Objeto 1 2 3 4 5

1 2 6 9

3 4 5

5 4 5 3 8

10 9

Matriz de distancias
5 4

Distancia 0 2 3 3,75 6

Cluster 1,2,3,4,5 (1, 2), 3, 4, 5 (1, 2), 3, (4, 5) (1, 2), (3, 4, 5) (1, 2, 3, 4, 5)

d (12)3 = d[c12 ,3] = 4 d (12)(45) = d[c12 , c 45 ] = 9 d ( 45)3 = d[c 45 ,3] = 3,75

CONGLOMERADOS

ANLISIS MULTIVARIANTE

ALGORITMOS DE MTODOS JERRQUICOS


Centroide Cluster 1

Simple

Cluster 2 Cluster 3

Completo

CONGLOMERADOS

ANLISIS MULTIVARIANTE

ALGORITMOS DE MTODOS JERRQUICOS


5. Mtodo de Ward: sigue un proceso algo diferente de los anteriores, se
parte de una medida global de la heterogeneidad de una agrupacin: W.

W = (x ig xg )(x ig xg )
G g =1 i =1

ng

Se comienza suponiendo que cada dato forma un grupo (G=n y W=0). A continuacin se unen los elementos que produzcan un incremento mnimo de W (los 2 objetos con mnima distancia), obteniendo n-1 grupos (1 con 2 objetos y el resto con 1).Repetimos hasta unir todos los puntos. El mtodo equivale a unir, en cada etapa, los grupos tales que:
min nanb ( x a x b )(x a x b ) na + nb

CONGLOMERADOS

ANLISIS MULTIVARIANTE

Mtodo de Ward
Ejemplo: Se parte de 3 grupos con 2 variables medidas en cada objeto

Grupo A B C

Tamao 4 10 7

X1

X2

2 6 4

1 4 2

CONGLOMERADOS

ANLISIS MULTIVARIANTE

Mtodo de Ward
Se calcula la expresin anterior entre cada par de grupos A-B A-C B-C [(4.10)/(4+10)]25=71,43 [(4.7)/(4+7)]5=12,73 [(10.7)/(10+7)]8=32,94
Se agrupan A y C, obteniendo un cluster de 11 objetos (AC) y otro de 10 (B)

4 2 6 4 (XA XB ) = = [ 4 3] = 16 + 9 = 25 3 1 4 3

2 4 2 (XA XC ) = = [ 2 1 2 1

2 1] = 4 + 1 = 5 1 2

6 4 2 2 (XB XC ) = [ ] 2 2 = = 4+4 =8 4 2 2

CONGLOMERADOS

ANLISIS MULTIVARIANTE

ALGORITMOS JERRQUICOS CON VARIABLES


Se construye una matriz de similitudes entre variables y se aplica un algoritmo jerrquico de clasificacin. Las distancias entre variables se miden con:
d jh = 1 rjh 2 usa correlaciones slo para v. continuas

2 d jh = 1 usa coef. de contingencia para v. binarias n

Para que las v. no dependan de las unidades deben estandarizarse. Permite disminuir la dimensin del problema desde el punto de vista descriptivo.

CONGLOMERADOS

ANLISIS MULTIVARIANTE

ALGORITMOS DE MTODOS NO JERRQUICOS


Mtodo clsico de las k-medias: queremos clasificar n elementos de p-variables en G grupos prefijados. 1. Seleccionamos G puntos como centros iniciales (aleatoria) 2. Calculamos las distancias de cada punto al centro. Asignamos el punto al grupo de centro ms cercano. Al introducir un nuevo elemento se recalcula el centro. 3. Definir un criterio de optimalidad y comprobar si reasignando alguno de los puntos mejora el criterio. 4. Si no es posible mejorar el criterio de optimalidad, terminar.

CONGLOMERADOS

ANLISIS MULTIVARIANTE

ALGORITMOS DE MTODOS NO JERRQUICOS Criterio de optimalidad


Minimizar la suma de cuadrados dentro de los grupos para todas las variables.

SCDG = (x ijg x jg )
G g =1 j=1 i =1 G ng

ng

min(SCDG) = min tr( W ); W = (x ig xg )(x ig xg )


g =1 i =1

Equivale a minimizar la suma ponderada de las varianzas de las variables en los grupos o minimizar las distancias al cuadrado entre los puntos y sus centros de grupos.

CONGLOMERADOS

ANLISIS MULTIVARIANTE

ALGORITMOS DE MTODOS NO JERRQUICOS El algoritmo de k-medias


Parte de una asignacin inicial, permite mover slo un elemento en cada iteracin y termina al no poder reducir ms la tr(W). Conviene repetir el algoritmo con asignaciones iniciales diferentes. Estandarizar las variables si estn en distintas unidades (ya que el criterio vara con los cambios de escala). Minimizar la distancia eucldea conduce a grupos esfricos y supone que las v. son cuantitativas. Si existen muchas v. atributos mtodos jerrquicos.

CONGLOMERADOS

ANLISIS MULTIVARIANTE

K-medias
supongamos que K=3

CONGLOMERADOS

ANLISIS MULTIVARIANTE

K-medias
Comenzamos con una posicin aleatoria del centroide.

Iteracin = 0

CONGLOMERADOS

ANLISIS MULTIVARIANTE

K-medias
Comenzamos con una posicin aleatoria del centroide. Asignamos cada observacin al centroide ms prximo.

Iteracin = 1

CONGLOMERADOS

ANLISIS MULTIVARIANTE

K-medias
Comenzamos con una posicin aleatoria del centroide. Asignamos cada observacin al centroide ms prximo. Mover el centroide al centro de los puntos asignados

Iteracin = 2

CONGLOMERADOS

ANLISIS MULTIVARIANTE

K-medias
Comenzamos con una posicin aleatoria del centroide. Asignamos cada observacin al centroide ms prximo. Mover el centroide al centro de los puntos asignados Iterar hasta terminar con mnima distancia

Iteracin = 3

CONGLOMERADOS

ANLISIS MULTIVARIANTE

ELECCIN DE MEDIDAS DE DISTANCIA Y SIMILARIDAD


Los criterios para decidir qu objeto se incluye o no en un conglomerado se utilizan matrices de distancias o similaridades entre los pares de objetos. Las ms empleadas para variables cuantitativas son las distancias eucldea, eucldea al cuadrado, city block y la correlacin. Las ms empleadas para variables binarias son la distancia eucldea junto con el coeficiente de Jaccard. La ms empleada para variables cualitativas es la chi-cuadrado.

CONGLOMERADOS

ANLISIS MULTIVARIANTE

ELECCIN DE MEDIDAS DE DISTANCIA Y SIMILARIDAD

Eucldea
2 variable (K=2)
(Xi1,Xi2) |Xi2-Xj2|

d ij =
Donde:
(Xj1,Xj2)

K =1

2 ( X X ) iK jK

d12
|Xi1-Xj1|

dij representa la distancia entre los casos i y j XiK es el valor de la variable XK para el caso i XjK es el valor de la variable XK para el caso j

1 variable (K=1)

CONGLOMERADOS

ANLISIS MULTIVARIANTE

ELECCIN DE MEDIDAS DE DISTANCIA Y SIMILARIDAD

Eucldea al cuadrado
Empleada por defecto para datos de intervalo en especial cuando se agrupan casos Medida recomendada en el algoritmo del centroide y de Ward En la que ms influyen las diferencias en las medidas.

d = (X iK X jK ) 2 ij
K =1

CONGLOMERADOS

ANLISIS MULTIVARIANTE

ELECCIN DE MEDIDAS DE DISTANCIA Y SIMILARIDAD

De Manhattan o city-block


d ij = X iK X jK
K =1 p

Correlacin
Se aplica a v. continuas, y usa correlaciones (Pearson, Spearman o Kendall). Tambin se emplea en mtodos para jerrquizar variables.
d jh = 1 rjh 2

CONGLOMERADOS

ANLISIS MULTIVARIANTE

ELECCIN DE MEDIDAS DE DISTANCIA Y SIMILARIDAD

Coeficiente de Jaccard
Conocido como razn de similaridad, se aplica a v. binarias.
Objeto j 1 0 Objeto i 1 0

a c

b d

a sij = ; a+b+c

d ij = 2(1 sij )

Chi-cuadrado
d jh = 2 usa coef. de contingencia para v. binarias

CONGLOMERADOS

ANLISIS MULTIVARIANTE

OBTENCIN DE CONGLOMERADOS
A la eleccin de mtodos algoritmos y distancias le sigue la obtencin de los conglomerados. Antes de interpretar los resultados hay que decidir el nmero adecuado de stos Si el mtodo es jerrquico: se puede elegir el nmero de conglomerados adecuado posteriormente al anlisis. Si el mtodo es no jerrquico: la eleccin del nmero de conglomerados adecuado es previa a la ejecucin del anlisis.

CONGLOMERADOS

ANLISIS MULTIVARIANTE

OBTENCIN ALGEBRAICA Nmero de grupos


Para seleccionar el nmero de grupos aconsejable se usa el cociente: SCDG(G ) SCDG(G + 1) F= SCDG(G + 1) /( n G 1) El valor obtenido se compara con el de una Fp ; p(n-G-1) para ver si el cociente es significativo. Si lo es se introduce un grupo ms. Una regla emprica es introducir un grupo ms si F>10.

CONGLOMERADOS

ANLISIS MULTIVARIANTE

OBTENCIN ALGEBRAICA Nmero de grupos


Suma de al Sumaaconsejable de Diferencias Diferencias al el Para seleccionar el nmero de grupos se usa Cuadrado entre G+1 grupos Cuadrado entre G grupos cociente: SCDG(G ) SCDG(G + 1) F= SCDG(G + 1) /( n G 1) El valor obtenido se compara con el de una Fp ; p(n-G-1) para ver si el cociente es significativo. Si lo es se introduce un grupo ms. Una regla emprica es introducir un grupo ms si F>10.

CONGLOMERADOS

ANLISIS MULTIVARIANTE

OBTENCIN ALGEBRAICA Nmero de grupos


(Zij Z j ) = 60 + 60 = 120 j=1i =1 p-valor
2 60 2

N de 1 2 3 4 5 6

SCDG(G) 120 34,0656 14,0512 12,0345 3,5424 2,9582

143,789 79,766 9,216 129,452 10,467

1,44428E-7 4,56299E-8 0,00019934 1,220450E-7 0,00007106

CONGLOMERADOS

ANLISIS MULTIVARIANTE

OBTENCIN ALGEBRAICA Nmero de grupos


Para valores estandarizados: N de 1 2 3 4 5 6 SCDG(G) 120 34,0656 14,0512 12,0345 3,5424 2,9582 F

(Zij Z j ) = 60 + 60 = 120 j=1i =1 p-valor


2 60 2

G=1 j=1i=1

(Zijg Zjg ) =
2 2 30 2

=((12,26694+10,75995)+(0,0887619+10,94991)) 143,789 1,44428E-7

79,766 129,452

30 datos de la 9,216 v1 G1

10,467

30 datos de la 0,00019934 v2 G1 30 datos de la 1,220450E-7 v1 G2

4,56299E-8

0,00007106

30 datos de la v2 G2

CONGLOMERADOS

ANLISIS MULTIVARIANTE

OBTENCIN ALGEBRAICA Nmero de grupos


Se pueden utilizar tambin las variaciones entre los coeficientes de aglomeracin (valor nco. que propicia la unin de objetos)
N de Coeficiente Diferencia G de aglomeracin de coeficientes 1 2 3 4 5 6 7 8 9 10 4,9937E-05 5,0261E-05 6,4276E-05 0,00014356 0,00017413 0,00019057 0,00023068 0,00027572 0,00044768 0,00046428 3,244E-07 1,4015E-05 7,9288E-05 3,0562E-05 1,6444E-05 4,0112E-05 0,00004504 0,00017196 1,6596E-05 Cambio porcentual 0,00502614 0,00642759 0,0143564 0,0174126 0,019057 0,0230682 0,0275722 0,0447681 0,0464277

OBTENCIN ALGEBRAICA Nmero de grupos


0,05 0,045 0,04 0,035 0,03 0,025 0,02 0,015 0,01 0,005 0 0 2 4 6 N de conglomerados 8 10 12

coeficiente de Serie1 conglomeracin

CONGLOMERADOS

ANLISIS MULTIVARIANTE

OBTENCIN GRFICA Nmero de grupos


En el grfico de distancias de aglomeracin se elige la distancia para la cual el nmero de conglomerados es el ms adecuado: se determina con el cambio brusco de pendiente
Agglomeration Distance Plot
2 1,6 Nearest Neighbor Method,Squared Euclidean
2 1,6

Dendrogram
Nearest Neighbor Method,Squared Euclidean

Distance

Distance

1,2 0,8 0,4 0 0 10 20 30 40 50

1,2 0,8 0,4 0


N N N N N N N N N N N N N N N F F F F F F F F F F F S F F S F F S S S S S S S S S S S S S PS PS PS PS PS PS PS PS PS PS PS PS PS PS PS

5 GRUPOS

60

Stage

CONGLOMERADOS

ANLISIS MULTIVARIANTE

PRESENTACIN DE RESULTADOS

Mtodos jerrquicos

Historial de agrupacin Grupo de pertenencia

Mtodos no jerrquicos

Centros de grupo ANOVA

CONGLOMERADOS

ANLISIS MULTIVARIANTE

PRESENTACIN DE RESULTADOS
Historial de agrupacin
Conglomerado que se combina Etapa Conglom. 1 Conglom. 2 Coeficientes Etapa en que el conglomerado aparece por primera vez Conglom. 1 Conglom. 2

Prxima etapa

1 2 3

2 2 1

4 3 5

0,963394 3,24342 4,45441

0 1 0
5 4 3 2 1 0 1 5

0 0 0

2 0 0

Nearest Neighbor Method,Squared Euclidean

CONGLOMERADOS

ANLISIS MULTIVARIANTE

PRESENTACIN DE RESULTADOS
Historial de agrupacin
Conglomerado que se combina Etapa Conglom. 1 Conglom. 2 Coeficientes Etapa en que el conglomerado aparece por primera vez Conglom. 1 Conglom. 2

Prxima etapa

1 2 3

2 2 1

4 3 5 Objetos que se combinan en cada etapa

0,963394 3,24342 4,45441 Medida de la distancia entre objetos

0 1 0

0 0 0 Informacin 5 referente al paso 4 anterior, el objeto 2 se 3 2 combin en la etapa 1 y el 3 no 1 haba aparecido


0 1 5 2

2 0 0 Informa de la etapa siguiente, el 2 o el 4 aparecen en etapa 2


3 6

Figuran las etapas del anlis G-1

Nearest Neighbor Method,Squared Euclidean

CONGLOMERADOS

ANLISIS MULTIVARIANTE

PRESENTACIN DE RESULTADOS
Historial de agrupacin
Conglomerado que se combina Etapa Conglom. 1 Conglom. 2 Coeficientes Etapa en que el conglomerado aparece por primera vez Conglom. 1 Conglom. 2

Prxima etapa

1 2 3

2 2 1

4 3 5

0,963394 3,24342 4,45441

0 1 0
5 4 3 2 1 0 1 5

0 0 0

2 0 0

Nearest Neighbor Method,Squared Euclidean

CONGLOMERADOS

ANLISIS MULTIVARIANTE

PRESENTACIN DE RESULTADOS
Grfico de tmpanos y
Nmero de Cluster Distancia: Eucldea cuadrado objeto 1 5 2 4 3 6 3456 X X X XXX XXX XXX XX XX Objeto Cluster --------------------------1 1 2 2 3 2 4 2 5 1 6 3 ----------------------------

Grupo de pertenencia

CONGLOMERADOS

ANLISIS MULTIVARIANTE

PRESENTACIN DE RESULTADOS
Tabla de centroides
G 1 2 3 n obj. 3 2 1 % 50,00 33,33 16,67 ---------------------------

--------------------------Centroides Cluster T 1 2 3 23,0 17,0 14,0 H 29,0 36,5 67,0 V 8,67 27,0 40,7 P 1020,0 1012,0 1014,0

-------------------------------------------------------------

Method of k-Means,Squared Euclidean Cluster 1 2 50 3 40 Centro 30 20 10 80 60 0 40 20 14 18 22 26 30 34 0 H

Cluster Scatterplot

-------------------------------------------------------------

CONGLOMERADOS

ANLISIS MULTIVARIANTE

PRESENTACIN DE RESULTADOS
ANOVA
Con G T P H V Conglomerado Media cuadrtica 39,75 41,6667 544,167 455,871 g.l. 2 2 2 2 56,6667 5,33333 372,833 10,2222 Error Media cuadrtica g.l. 3 3 3 2 0,7 7,81 1,46 44,6 0,5624 0,0646 0,3608 0,0059 F p-valor

Cluster Scatterplot
80 60 40 20 0 0 10 20 30 40 50 Method of k-Means,Squared Euclidean Cluster 1 2 3 Centroids

Valores altos de F indican gran contribucin de la variable a la diferenciacin entre grupos

CONGLOMERADOS

ANLISIS MULTIVARIANTE

ULTIMAS APLICACIONES
Se buscan grupos de pacientes segn el tiempo de estancia y coste de asistencia hospitalaria. Con ms de 7200 enfermos se obtuvieron 25 grupos.

Estudios climticos (2005):


Se intentan caracterizar los inviernos en el Atlntico Norte mediante cuatro grupos de diferente rgimen climtico.

CONGLOMERADOS

ANLISIS MULTIVARIANTE

ULTIMAS APLICACIONES
Prediccin de huracanes (2005) :
Se buscan trayectorias y comportamientos tipo de los huracanes del pacfico, empleando datos de los ltimos 50 aos. Se relacionan los conglomerados encontrados con el fenmeno del Nio, segn se muestra en la figura siguiente, para el NO del Pacfico.

CONGLOMERADOS

ANLISIS MULTIVARIANTE

ULTIMAS APLICACIONES

NTC- Number of Tropical Cyclones

ACE Accumulated Cyclone Energ

Total NTC per year is not significantly orrelated with ENSO (e.g. Wang & Chan, 2002).

Total ACE has a well known relationship with ENSO (Camargo & Sobel, 2005).

CONGLOMERADOS

ANLISIS MULTIVARIANTE

Ejemplo: Se han obtenido 25 observaciones de diferentes variables en cinco lugares distintos. Las variables medidas son concentraciones, por metro cbico de aire, de diferentes agentes contaminantes: benceno, tolueno, ozono, CO, NO2, NOx, SO2, CH4, dos tipos de hidrocarburos y partculas suspendidas. Veamos si se pueden agrupar las variables y las observaciones.

CONGLOMERADOS

ANLISIS MULTIVARIANTE

Ejemplo:
Dendrograma
50 40 vecino ms prximo

Distancia

30 20 10 0 Tolueno partculas SO2 HCNM THC CH4 CO NO2 Benceno NOx O3

CONGLOMERADOS

ANLISIS MULTIVARIANTE

Ejemplo:
41 37 33 Method of k-Means,City-Block Cluster 1 2 Centroids
41 37 33 Method of k-Means,Euclidean

Cluster 1 2 Centroid

O3

O3

29 25 21 17 0 2 4 6 8

29 25 21 17 0 2 4 6 8

Benceno
41 37 33 Method of k-Means,Squared Euclidean Cluster 1 2 Centroids

Benceno

Sin estandarizar
41 37 33 Method of k-Means,Squared Euclidean

Cluster 1 2 Centroi

O3

O3

29 25 21 17 0 2 4 6 8

29 25 21 17 0 2 4 6 8

Benceno

Benceno

CONGLOMERADOS

ANLISIS MULTIVARIANTE

Ejemplo:
41 37 33 29 25 21 17 0 2 4 6 8 Nearest Neighbor Method,Squared Euclidean Cluster 1 2 Centroids 41 37 33 Furthest Neighbor Method,Squared Euclidean

Cluster 1 2 Centroi

O3

O3

29 25 21 17 0 2 4 6 8

Benceno

Benceno

Con el resto de mtodos y distancias (excepto Ward) se obtienen estos mismos grupos

CONGLOMERADOS

ANLISIS MULTIVARIANTE

Ejemplo:
Estandarizados
41 37 33 29 25 21 17 0 2 4 6 8 Ward's Method,Squared Euclidean 41 Cluster 1 2 37 Centroids 33

Sin estandarizar
Ward's Method,City-Block

Cluster 1 2 Centroid

O3

O3

29 25 21 17 0 2 4 6 8

Benceno

Benceno

CONGLOMERADOS

ANLISIS MULTIVARIANTE

Ejemplo:
Sin embargo dos grupos pueden no ser adecuados. Para determinar el nmero de grupos calculamos la suma de distancias cuadradas: N grupos Tamao 2 3 4 5 10; 15 10; 7; 8 10; 7; 7; 1 2; 7; 7; 8; 1 SCDG 852,82 442,83 371,59 167,65 19,4 3,8 23,11 F DISMINUCIN IMPORTANTE (F>10)

CONGLOMERADOS

ANLISIS MULTIVARIANTE

Ejemplo:
En el ordenador, nos ayudamos con el grfico de distancias:
Grfico de Distancia de Aglomeracin Dendrograma
30 30 25 25 Mtodo MtodoWard,Ciudad-Bloque Ward,Ciudad-Bloque

20 20 15 15 10 10 5 5 0 0
1 3 6 5 16 7 19 15 11 8 2 9 12 17 18 23 25 4 21 13 20 10 14 22 24

El instante en que la curva da un suave salto, indica el n de grupos


0 4 8 12 16 20 24

Distancia Distancia

Fase

CONGLOMERADOS

ANLISIS MULTIVARIANTE

Ejemplo:
Mtodo Ward,Ciudad-Bloque

Benceno

6 4 2 0 17 21 25 29 33 37 41

Cluster 1 2 3 Centroi

O3