Documentos de Académico
Documentos de Profesional
Documentos de Cultura
PROBLEMA:
Por ejemplo, un investigador puede creer que la actitud o predisposición hacia el consumo
de tallos en lugar de frutos podría utilizarse para separar los individuos en grupos. La
técnica puede clasificar individuos por sus actitudes hacia los tallos frente a los frutos, y los
conglomerados resultantes, si los hay, pueden perfilarse mediante diferencias y similitudes
demográficas
Trataremos la naturaleza y propósito del análisis cluster, la selección y uso de los diversos
enfoques del mismo
BIOESTADÍSTICA 1
La naturaleza del análisis cluster
Suponga una reducida muestra de 7 individuos, en quienes se mide dos variables: V1 y V2.
Los datos se presentan en la tabla siguiente junto a un diagrama de dispersión:
Variables Individuos
A B C D E F G
V1 3 4 4 2 6 7 6
V2 2 5 7 7 6 7 4
El objetivo es colocar los individuos más parecidos en grupos. Se deben resolver tres
cuestiones:
1. Cómo medir la similitud
2. Cómo formar los conglomerados
3. Cuántos grupos formar
BIOESTADÍSTICA 2
Medición de la similitud
Observación
Observación A B C D E F G
A -
B 3.162 -
C 5.099 2.000 -
D 5.099 2.828 2.000 -
E 5.000 2.236 2.236 4.123 -
F 6.403 3.606 3.000 5.000 1.414 -
G 3.606 2.236 3.606 5.000 2.000 3.162 -
Se observa que las observaciones E y F son las más parecidas (1.414) mientras que A y F
son las más diferentes (6.403)
Formación de conglomerados
Hay muchos métodos.
El más simple: identificar las dos observaciones más parecidas (cercanas) que no están en
el mismo conglomerado y combinarlas. Aplicando la regla repetidas veces, comenzando
con cada observación en su propio conglomerado y combinando dos conglomerados al
mismo tiempo hasta que todas las observaciones estén en un único conglomerado. Este es
denominado procedimiento jerárquico.
BIOESTADÍSTICA 3
Representaciones gráficas del proceso aglomerativo jerárquico
BIOESTADÍSTICA 4
El dendograma
Forma más frecuente de representar gráficamente el proceso jerárquico de aglomeración.
Gráfico con forma de árbol. Un eje representa el coeficiente de aglomeración, en este caso,
la distancia utilizada.
Útil en la identificación de valores atípicos. También representa el tamaño relativo de los
conglomerados.
BIOESTADÍSTICA 5
En el paso 5, que combina los dos conglomerados de tres miembros, observamos un gran
aumento. Esto indica que al unir estos dos conglomerados obtenemos un único
conglomerado marcadamente menos homogéneo. Consideramos la solución cluster del
paso 4 mucho mejor que la del paso 5.
También se ve que en el paso 6, la medida conjunta de nuevo aumenta ligeramente
indicando que, incluso aunque la última observación permanezca separada hasta el último
paso, cuando se une cambia la homogeneidad del conglomerado.
Por tanto, cuando se revisa el rango de las soluciones cluster, la solución de tres
conglomerados del paso 4 parece la más apropiada para una solución cluster definitiva, con
dos conglomerados de igual tamaño y una única observación atípica.
Como ya habrá quedado claro, en 1a selección de la solución cluster definitiva se deja al
juicio del observador y es considerado por muchos como un proceso muy subjetivo. Incluso
aunque se han desarrollado métodos más sofisticados para ayudar en la evaluación de las
soluciones cluster, sigue recayendo en el investigador la decisión final del número de
conglomerados aceptados en la solución final.
Detección de atípicos
El análisis cluster es muy sensible a los atípicos. Como se sabe éstos pueden representar
tanto (1) observaciones verdaderamente discrepantes, “aberrantes” nada representativas de
la población en general, o (2) una muestra tan reducida del grupo (o grupos) de la población
que provoca una mala representación del grupo (o grupos) de la muestra.
En ambos casos, los atípicos distorsionan la verdadera estructura de la población y hacen
que los conglomerados encontrados no representen la verdadera estructura de la población.
Una forma de identificar, representar atípicos: gráfico de perfil, entre otros.
Medidas de Similitud
La similitud entre objetos puede medirse de diversas formas. Tres métodos dominan las
aplicaciones del análisis cluster. Medida de correlación, de distancia y de asociación. Cada
una ofrece una perspectiva particular, dependiendo de los objetivos como de los tipos de
datos. Los dos primeros exigen datos métricos.
Datos no estandarizados
Uso de datos no estandarizados implican inconsistencias entre las soluciones. Por ejemplo
datos en porcentaje y datos con unidades. Debería emplearse la estandarización de variables
siempre que conceptualmente posible.
Una medida de distancia euclidiana que incorpora directamente un procedimiento de
estandarización es la Distancia de Mahalanobis (D2)
BIOESTADÍSTICA 6
Determinación de número de conglomerados
Un método jerárquico produce un número de soluciones cluster que, este caso van de una
solución de un conglomerado a una solución de seis conglomerados. Pero ¿cuál deberíamos
elegir?
A medida que nos alejamos de los conglomerados de un único miembro, la homogeneidad
disminuye. Así que, ¿por qué no quedamos con los siete conglomerados, que son los más
homogéneos posible?
El problema es que no hemos definido ninguna estructura con siete conglomerados. Así que
el investigador debe ver cada solución cluster a partir de la descripción de su estructura
compensada con la homogeneidad de los conglomerados. En este ejemplo, uti1izamos una
medida muy simple de homogeneidad: las distancias medias de todas las observaciones
dentro de los conglomerados.
En la solución inicial con siete conglomerados, nuestra medida de similitud conjunta es 0
(ninguna observación está emparejada con otra). Para la solución de seis conglomerados, la
similitud conjunta es la distancia entre las dos observaciones (1,414) unidas en el paso 1. El
paso 2 forma un conglomerado de tres miembros (E, F y G), de tal forma que la medida de
similitud total es la media de las distancias entre E y F (1,414), E y G (2,000), y F y G
(3,162), para una media de 2,192. En el paso 3, se forma un nuevo conglomerado de dos
miembros con una distancia de 2,000, que provoca que la media conjunta caiga
ligera1nente hasta 2, 144. Podemos proceder a formar nuevos conglomerados de esta forma
hasta formar una solución de conglomerado único (paso 6), en el que la media de todas las
distancias de la matriz de distancias es 3,420.
Ahora bien, ¿cómo utilizamos esta medida conjunta de similitud para seleccionar una
solución cluster? Recordemos que estamos intentando conseguir la estructura más simple
posible que represente agrupaciones homogéneas. Si controlamos la medida de similitud
conjunta a medida que disminuye el número de conglomerados, grandes aumentos en la
medida conjunta indican que dos conglomerados no eran tan similares. En nuestro ejemplo,
la medida conjunta aumenta cuando en primer lugar juntamos dos observaciones (paso 1) y
a continuación lo hacemos de nuevo cuando construimos nuestro primer conglomerado de
tres miembros (paso 2). Pero en los dos pasos siguientes (3 y 4), la medida conjunta no
cambia substancialmente. Esto indica que estamos formando otros conglomerados
prácticamente con la misma homogeneidad de los conglomerados existentes.
Pero cuando alcanzamos el paso 5, que combina los dos conglomerados de tres miembros,
observamos un gran aumento. Esto indica que al unir estos dos conglomerados obtenemos
un único conglomerado marcadamente menos homogéneo. Consideramos la solución
cluster del paso 4 mucho mejor que la del paso 5.
Podemos también ver que en el paso 6 la medida conjunta de nuevo aumenta ligeramente
indicando que, incluso aunque la última observación permanezca separada hasta el último
paso, cuando se une cambia la homogeneidad del conglomerado. Sin embargo, dado el
perfil bastante aislado de la observación A comparada con el resto, puede ser mejor
designar como miembro del grupo de entropía, aquellas observaciones que son atípicas e
independientes de los conglomerados existentes. Por tanto, cuando se revisa el rango de las
soluciones cluster, la solución de tres conglomerados del paso 4 parece la más apropiada
BIOESTADÍSTICA 7
para una solución cluster definitiva, con dos conglomerados de igual tamaño y una única
observación atípica.
Como ya habrá quedado claro, en 1a selección de la solución cluster definitiva se deja al
juicio del observador y es considerado por muchos como un proceso muy subjetivo. Incluso
aunque se han desarrollado métodos más sofisticados para ayudar en la evaluación de las
soluciones cluster, sigue recayendo en el investigador la decisión final del número de
conglomerados aceptados en la solución final.
BIOESTADÍSTICA 8