C07 Analisis Cluster

ANÁLISIS CLUSTER
PROBLEMA:
SOLUCIÓN: Formar grupos de objetos homogéneos
Objetos: individuos, animales, plantas, regiones, lagunas, bosques
Agrupa individuos en conglomerados. Individuos de un conglomerado son más parecidos

entre sí que a individuos de otros conglomerados.
Se trata de maximizar la homogeneidad dentro del conglomerado, maximizando la

heterogeneidad entre conglomerados
Muy útil cuando un investigador desea desarrollar las hipótesis concernientes a la

naturaleza de los datos o para examinar las hipótesis previamente establecidas.
Por ejemplo, un investigador puede creer que la actitud o predisposición hacia el consumo
de tallos en lugar de frutos podría utilizarse para separar los individuos en grupos. La
técnica puede clasificar individuos por sus actitudes hacia los tallos frente a los frutos, y los
conglomerados resultantes, si los hay, pueden perfilarse mediante diferencias y similitudes
demográficas
Ejemplos de aplicación, desde la taxonomía en biología para la agrupación de los

organismos vivientes, hasta clasificaciones psicológicas basadas en la personalidad y otros
rasgos personales, pasando por los análisis de segmentación de mercados, determinación de
estructuras de mercados y productos, análisis de similitudes y diferencias entre productos
nuevos y evaluación del rendimiento de empresas para orientaciones estratégicas
Algunos inconvenientes, el análisis cluster puede caracterizarse como descriptivo, ateórico

y no inferencial.
Trataremos la naturaleza y propósito del análisis cluster, la selección y uso de los diversos
enfoques del mismo
BIOESTADÍSTICA 1
La naturaleza del análisis cluster
Suponga una reducida muestra de 7 individuos, en quienes se mide dos variables: V1 y V2.
Los datos se presentan en la tabla siguiente junto a un diagrama de dispersión:
Variables Individuos
A B C D E F G
V1 3 4 4 2 6 7 6
V2 2 5 7 7 6 7 4
El objetivo es colocar los individuos más parecidos en grupos. Se deben resolver tres
cuestiones:
1. Cómo medir la similitud
2. Cómo formar los conglomerados
3. Cuántos grupos formar
Con cualquier “estrategia” o “regla” lo fundamental es evaluar la similitud media dentro de

los conglomerados de manera que a medida que la media aumenta, el conglomerado se
hace menos similar
Punto de equilibrio, tendiendo hacia la parsimonia, menor número de conglomerados sin

que la homogeneidad disminuya demasiado
BIOESTADÍSTICA 2
Medición de la similitud
Distancia Euclidiana, entre cada par de observaciones
Matriz de proximidad de distancias euclidianas entre observaciones
Observación
Observación A B C D E F G
A -
B 3.162 -
C 5.099 2.000 -
D 5.099 2.828 2.000 -
E 5.000 2.236 2.236 4.123 -
F 6.403 3.606 3.000 5.000 1.414 -
G 3.606 2.236 3.606 5.000 2.000 3.162 -
Se observa que las observaciones E y F son las más parecidas (1.414) mientras que A y F
son las más diferentes (6.403)
Formación de conglomerados
Hay muchos métodos.
El más simple: identificar las dos observaciones más parecidas (cercanas) que no están en
el mismo conglomerado y combinarlas. Aplicando la regla repetidas veces, comenzando
con cada observación en su propio conglomerado y combinando dos conglomerados al
mismo tiempo hasta que todas las observaciones estén en un único conglomerado. Este es
denominado procedimiento jerárquico.
Proceso de cluster jerárquico:
Proceso de aglomeración Solución cluster

Distancia mínima Par de Número de Medida
entre observacione observaciones Pertenencia al conglomerado conglomera de
Paso dos similitud
Solución inicial (A) (B) (C) (D) (E) (F) (G) 7 0
1 1.414 E-F (A) (B) (C) (D) (E-F) (G) 6 1.414
2 2.000 E-G (A) (B) (C) (D) (E-F-G) 5 2.192
3 2.000 C-D (A) (B) (C-D) (E-F-G) 4 2.144
4 2.000 B-C (A) (B-C-D) (E-F-G) 3 2.234
5 2.236 B-E (A) (B-C-D-E-F-G) 2 2.896
6 3.162 A-B (A-B-C-D-E-F-G) 1 3.420
BIOESTADÍSTICA 3
Representaciones gráficas del proceso aglomerativo jerárquico
BIOESTADÍSTICA 4
El dendograma
Forma más frecuente de representar gráficamente el proceso jerárquico de aglomeración.
Gráfico con forma de árbol. Un eje representa el coeficiente de aglomeración, en este caso,
la distancia utilizada.
Útil en la identificación de valores atípicos. También representa el tamaño relativo de los
conglomerados.
Determinación de número de conglomerados

Un método jerárquico produce un número de soluciones cluster que, este caso van de una
solución de un conglomerado a una solución de seis conglomerados.
¿cuál elegir?
A medida que nos alejamos de los conglomerados de un único miembro, la homogeneidad
disminuye.
El investigador debe ver cada solución cluster
Solución inicial: siete conglomerados, medida de similitud conjunta es 0 (ninguna
observación está emparejada con otra).
Solución de seis conglomerados, la similitud conjunta es la distancia entre las dos
observaciones (1,414) unidas en el paso 1.
El paso 2 forma un conglomerado de tres miembros (E, F y G), de tal forma que la medida
de similitud total es la media de las distancias entre E y F (1,414), E y G (2,000), y F y G
(3,162), para una media de 2,192.
En el paso 3, se forma un nuevo conglomerado de dos miembros con una distancia de
2,000, que provoca que la media conjunta caiga ligeramente hasta 2,144.
Podemos proceder a formar nuevos conglomerados de esta forma, hasta formar una
solución de conglomerado único (paso 6), en el que la media de todas las distancias de la
matriz de distancias es 3,420.
¿Cómo utilizar esta medida conjunta de similitud para seleccionar una solución cluster?
Estamos intentando conseguir la estructura más simple posible que represente agrupaciones
homogéneas.
Si controlamos la medida de similitud conjunta a medida que disminuye el número de
conglomerados, grandes aumentos en la medida conjunta indican que dos conglomerados
no eran tan similares.
En el ejemplo, la medida conjunta aumenta cuando en primer lugar juntamos dos
observaciones (paso 1) y a continuación lo hacemos de nuevo cuando construimos nuestro
primer conglomerado de tres miembros (paso 2).
En los dos pasos siguientes (3 y 4), la medida conjunta no cambia substancialmente. Esto
indica que estamos formando otros conglomerados prácticamente con la misma
homogeneidad de los conglomerados existentes.
BIOESTADÍSTICA 5
En el paso 5, que combina los dos conglomerados de tres miembros, observamos un gran
aumento. Esto indica que al unir estos dos conglomerados obtenemos un único
conglomerado marcadamente menos homogéneo. Consideramos la solución cluster del
paso 4 mucho mejor que la del paso 5.
También se ve que en el paso 6, la medida conjunta de nuevo aumenta ligeramente
indicando que, incluso aunque la última observación permanezca separada hasta el último
paso, cuando se une cambia la homogeneidad del conglomerado.
Por tanto, cuando se revisa el rango de las soluciones cluster, la solución de tres
conglomerados del paso 4 parece la más apropiada para una solución cluster definitiva, con
dos conglomerados de igual tamaño y una única observación atípica.
Como ya habrá quedado claro, en 1a selección de la solución cluster definitiva se deja al
juicio del observador y es considerado por muchos como un proceso muy subjetivo. Incluso
aunque se han desarrollado métodos más sofisticados para ayudar en la evaluación de las
soluciones cluster, sigue recayendo en el investigador la decisión final del número de
conglomerados aceptados en la solución final.
Detección de atípicos
El análisis cluster es muy sensible a los atípicos. Como se sabe éstos pueden representar
tanto (1) observaciones verdaderamente discrepantes, “aberrantes” nada representativas de
la población en general, o (2) una muestra tan reducida del grupo (o grupos) de la población
que provoca una mala representación del grupo (o grupos) de la muestra.
En ambos casos, los atípicos distorsionan la verdadera estructura de la población y hacen
que los conglomerados encontrados no representen la verdadera estructura de la población.
Una forma de identificar, representar atípicos: gráfico de perfil, entre otros.
Medidas de Similitud
La similitud entre objetos puede medirse de diversas formas. Tres métodos dominan las
aplicaciones del análisis cluster. Medida de correlación, de distancia y de asociación. Cada
una ofrece una perspectiva particular, dependiendo de los objetivos como de los tipos de
datos. Los dos primeros exigen datos métricos.
Datos no estandarizados
Uso de datos no estandarizados implican inconsistencias entre las soluciones. Por ejemplo
datos en porcentaje y datos con unidades. Debería emplearse la estandarización de variables
siempre que conceptualmente posible.
Una medida de distancia euclidiana que incorpora directamente un procedimiento de
estandarización es la Distancia de Mahalanobis (D2)
BIOESTADÍSTICA 6
Determinación de número de conglomerados
Un método jerárquico produce un número de soluciones cluster que, este caso van de una
solución de un conglomerado a una solución de seis conglomerados. Pero ¿cuál deberíamos
elegir?
A medida que nos alejamos de los conglomerados de un único miembro, la homogeneidad
disminuye. Así que, ¿por qué no quedamos con los siete conglomerados, que son los más
homogéneos posible?
El problema es que no hemos definido ninguna estructura con siete conglomerados. Así que
el investigador debe ver cada solución cluster a partir de la descripción de su estructura
compensada con la homogeneidad de los conglomerados. En este ejemplo, uti1izamos una
medida muy simple de homogeneidad: las distancias medias de todas las observaciones
dentro de los conglomerados.
En la solución inicial con siete conglomerados, nuestra medida de similitud conjunta es 0
(ninguna observación está emparejada con otra). Para la solución de seis conglomerados, la
similitud conjunta es la distancia entre las dos observaciones (1,414) unidas en el paso 1. El
paso 2 forma un conglomerado de tres miembros (E, F y G), de tal forma que la medida de
similitud total es la media de las distancias entre E y F (1,414), E y G (2,000), y F y G
(3,162), para una media de 2,192. En el paso 3, se forma un nuevo conglomerado de dos
miembros con una distancia de 2,000, que provoca que la media conjunta caiga
ligera1nente hasta 2, 144. Podemos proceder a formar nuevos conglomerados de esta forma
hasta formar una solución de conglomerado único (paso 6), en el que la media de todas las
distancias de la matriz de distancias es 3,420.
Ahora bien, ¿cómo utilizamos esta medida conjunta de similitud para seleccionar una
solución cluster? Recordemos que estamos intentando conseguir la estructura más simple
posible que represente agrupaciones homogéneas. Si controlamos la medida de similitud
conjunta a medida que disminuye el número de conglomerados, grandes aumentos en la
medida conjunta indican que dos conglomerados no eran tan similares. En nuestro ejemplo,
la medida conjunta aumenta cuando en primer lugar juntamos dos observaciones (paso 1) y
a continuación lo hacemos de nuevo cuando construimos nuestro primer conglomerado de
tres miembros (paso 2). Pero en los dos pasos siguientes (3 y 4), la medida conjunta no
cambia substancialmente. Esto indica que estamos formando otros conglomerados
prácticamente con la misma homogeneidad de los conglomerados existentes.
Pero cuando alcanzamos el paso 5, que combina los dos conglomerados de tres miembros,
observamos un gran aumento. Esto indica que al unir estos dos conglomerados obtenemos
un único conglomerado marcadamente menos homogéneo. Consideramos la solución
cluster del paso 4 mucho mejor que la del paso 5.
Podemos también ver que en el paso 6 la medida conjunta de nuevo aumenta ligeramente
indicando que, incluso aunque la última observación permanezca separada hasta el último
paso, cuando se une cambia la homogeneidad del conglomerado. Sin embargo, dado el
perfil bastante aislado de la observación A comparada con el resto, puede ser mejor
designar como miembro del grupo de entropía, aquellas observaciones que son atípicas e
independientes de los conglomerados existentes. Por tanto, cuando se revisa el rango de las
soluciones cluster, la solución de tres conglomerados del paso 4 parece la más apropiada
BIOESTADÍSTICA 7
para una solución cluster definitiva, con dos conglomerados de igual tamaño y una única
observación atípica.
Como ya habrá quedado claro, en 1a selección de la solución cluster definitiva se deja al
juicio del observador y es considerado por muchos como un proceso muy subjetivo. Incluso
aunque se han desarrollado métodos más sofisticados para ayudar en la evaluación de las
soluciones cluster, sigue recayendo en el investigador la decisión final del número de
conglomerados aceptados en la solución final.
BIOESTADÍSTICA 8

C07 Analisis Cluster

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

C07 Analisis Cluster

Cargado por

Copyright:

Formatos disponibles

ANÁLISIS CLUSTER

SOLUCIÓN: Formar grupos de objetos homogéneos

Objetos: individuos, animales, plantas, regiones, lagunas, bosques

Agrupa individuos en conglomerados. Individuos de un conglomerado son más parecidos

Se trata de maximizar la homogeneidad dentro del conglomerado, maximizando la

Muy útil cuando un investigador desea desarrollar las hipótesis concernientes a la

Ejemplos de aplicación, desde la taxonomía en biología para la agrupación de los

Algunos inconvenientes, el análisis cluster puede caracterizarse como descriptivo, ateórico

Con cualquier “estrategia” o “regla” lo fundamental es evaluar la similitud media dentro de

Punto de equilibrio, tendiendo hacia la parsimonia, menor número de conglomerados sin

Distancia Euclidiana, entre cada par de observaciones

Matriz de proximidad de distancias euclidianas entre observaciones

Proceso de cluster jerárquico:

Proceso de aglomeración Solución cluster

Determinación de número de conglomerados

También podría gustarte