Está en la página 1de 10

Tema 6 Anlisis cluster a

El anlisis cluster es un conjunto de tcnicas multivariantes cuyo objetivo es agrupar objetos a e o individuos basndose en las caracter a sticas que estos poseen. El Anlisis Cluster clasicar a a a los objetos, de tal forma que cada objeto ser muy parecido a los que hay en su grupo. Los a grupos resultantes deben mostrar mucha homogeneidad entre los elementos del grupo y un alto grado de heterogeneidad entre los diferentes grupos. A partir de ahora a cada uno de estos grupos los denominaremos cluster. Este tipo de anlisis es ampliamente utilizado en la Psicolog Biolog Sociolog Econom a a, a, a, a, Ingenier y negocios y puede recibir diversos nombres segn la ciencia en la que se aplique a u como es el de anlisis Q, anlisis de clasicacin o taxonom numrica. a a o a e El anlisis cluster es una herramienta muy util en diferentes situaciones, por ejemplo, un a investigador que ha recogido datos en un cuestionario puede enfrentarse a un nmero elevado u de observaciones que no tendr sentido a menos que clasique en grupos manejables. Por lo a tanto el Anlisis Cluster ser una tcnica de reduccin de datos mediante la reduccin de la a a e o o poblacin en subgrupos ms manejables. El anlisis cluster es tambin aplicable a, por ejemplo, o a a e la clasicacin psicolgica o rasgos personales o a la segmentacin del mercado. Es un tipo de o o o anlisis muy sencillo y aplicable en muchas situaciones. a Ahora bien, el Anlisis Cluster tiene algunos problemas, como son el no poder realizar ina ferencia estad stica, utilizndose solamente como una tcnica exploratoria. Tambin es impora e e tante destacar que la solucin no es unica y se puede obtener distintas soluciones dependiendo o del procedimiento seleccionado.

6.1.

Introduccin al Anlisis Cluster. o a

Como ya hemos comentado, el anlisis cluster se encargar de formar grupos de tal maa a nera que estos sean los mas homogneos internamente y lo mas heterogneos entre ellos. El e e primer paso ser la seleccin de la variables, y la deteccin de datos at a o o picos. Posteriormente, tendremos que establecer como se mide la relacin entre individuos, para ello tendremos que o utilizar una medida de la similitud o relacin entre los individuos, de tal manera que uniremos o

82

83

Anlisis cluster a

aquellos individuos que ms se parezcan entre si, es decir, la similitud sea mxima. El tercer a a paso ser la eleccin de una tcnica apropiada y nalmente la validacin de los resultados. a o e o

6.1.1.

Eleccin de las variables o

En primer lugar tendremos que estudiar el tipo de variables con la que trabajar. En principio solo nos sern utiles las variables de tipo cuantitativos (numricas); si tenemos variables a e cualitativas, como puede ser el nivel de estudios, tendremos que recodicarlas en numricas. e Otro aspecto muy importante es la eleccin de las variables a utilizar. Evidentemente, sobre o cualquier individuo es posible encontrar un gran nmero de variables, pero esto no siempre u es util, ya que la inclusin de variables irrelevantes no puede ser contrastada por el anlisis o a cluster y adems aumenta la posibilidad de errores en la conclusin nal. Por ello se deben de a o eliminar las variables irrelevantes en base al objetivo de la investigacin. o Tambin es interesante el tipicar las variables. Si las variables estn medidas en diferentes e a unidades o escalas, la comparacin entre unas variables u otras ser dif Por ello se suelen o a cil. tipicar los datos, de tal manera que obtengamos que todas las variables tengan media 0 y desviacin t o pica 1 y adems que no existan unidades entre los valores. a

Anlisis cluster por individuos o variables a Generalmente lo que se pretende agrupar son individuos, pero existe algunas circunstancias en las que es interesante agrupar variables para intentar buscar variables de comportamiento similar. Para ello, la metodolog es la misma que para el anlisis cluster por individuos y a a simplemente tendremos que transponer la matriz de datos y aplicar el mtodo general. e

6.1.2.

Eleccin de una medida de asociacin o o

Para poder unir los individuos en grupos, hemos de seleccionar una medida de similaridad entre individuos, de tal manera que esta nos marque la relacin entre los individuos. Dentro o de estas medidas podemos utilizar dos conceptos, el de distancia o el de similaridad. Cuando se elige una distancia como medida de asociacin los grupos se formarn como o a aquellos ms parecidos, es decir, la distancia sea la m a nima, generalmente es usado en aquellos datos que son medibles. Cuando se elige una medida de similaridad los grupos se formarn maximizando la simia laridad. De tal manera que existirn muchos tipos diferentes de distancias y similaridades y depena diendo de cada circunstancia se elegirn una u otra. Es usado en variables no medibles. a

ANALISIS MULTIVARIANTE PARA SOCIOLOGOS MEDIANTE SPSS.

84

Anlisis cluster a

6.1.3.

Eleccin de la tcnica cluster. Mtodos jerrquicos y no jeo e e a rrquicos a

Existen dos grandes grupos de tcnicas de anlisis cluster, que son los mtodos jerrquicos e a e a y no jerrquicos. a Mtodos jerrquicos: son aquellos que para formar un cluster nuevo une o separa alguno e a ya existente para dar origen a otros dos de forma que se maximice una similaridad o se minimice una distancia. Dentro de estos a su vez se clasican en: 1. Asociativos o aglomerativos: se parte de tantos grupos como individuos y se van agrupando hasta llegar a tener todos los individuos en un solo grupo. 2. Disociativos: se parte de un solo grupo que contenga a todos los individuos y se va separando hasta llegar a formar grupos individuales. Mtodos no jerrquicos: se clasican los individuos en k grupos, estudiando todas las e a particiones de individuos en esos k grupos y eligiendo la mejor particin. o La principal ventaja de los mtodos jerrquicos es que se puede representar el problema en e a forma de arbol o dendograma donde se observa muy bien la solucin nal. o A su vez dentro de cada uno de estos grupos existen muchos mtodos entre los que existen e diferencias dependiendo de la manera de medir las similitudes no entre individuos, sino entre los grupos, por ejemplo si dos individuos forman un primer grupo, qu medida se toma como e representativa de ese grupo, la media, el ms cercano, el ms lejano...? Dependiendo de esto a a surgirn muchas posibles tcnicas concretas que estudiaremos en el apartado de aplicacin. El a e o problema est en que no existe una tcnica able para determinar cual de estos mtodos es a e e mejor. Otro problema ser el nmero de conglomerados a decidir. Tampoco existe un procedia u miento able para determinar el nmero de grupos. Existen algunas tcnicas como estudiar u e las distancias a las que se van uniendo los grupos y parar cuando la distancia llegue a un valor determinado. Generalmente se estudia la solucin y nos quedaremos con un nmero de cluster o u interesante a nuestro anlisis. a

6.2.

Interpretacin de los resultados o

Una vez determinados los grupos, corresponder al investigador de cada campo, psicolgico, a o socilogo, pedagogo..., investigar los grupos y el por que de su formacin y sacar las conclusiones o o relevantes de este, as como las caracter sticas en las que se diferencian cada conglomerado.

6.3.

Aplicacin mediante SPSS o

Como aplicacin vamos a realizar un Anlisis Cluster al chero de datos cluster. Este o a chero contiene los datos de veinte variables (nombradas V2,V3,...,V21) de cohesin social de o ANALISIS MULTIVARIANTE PARA SOCIOLOGOS MEDIANTE SPSS.

85

Anlisis cluster a

10 pa europeos. El objetivo es realizar un Anlisis Cluster que agrupe los pa europeos ses a ses segn su comportamiento en trminos de su cohesin social. u e o En primer lugar hemos de observar el chero. Como en cualquier procedimiento estad stico, necesitaremos un anlisis descriptivo previo de los datos para observar que no existan datos a anmalos. Observamos que adems de las 20 variables econmicas, disponemos de una variable o a o indicadora del pa (V1) que no entrar en el anlisis. Los datos estn directamente sacados s a a a del EUROSTAT (Instituto de Estad stica Europeo) y por lo tanto vamos a suponer que no existirn datos anmalos procedentes de la introduccin o manipulacin de los datos y que a o o o si existe algn dato at u pico, este ser una observacin real. Si utilizamos el men Explorar a o u (ver seccin 2.4.1) observaremos que en algunas variables existen datos extremos, por ejemplo, o Alemania tiene valores extremos superiores para las variables V3 y V5, Italia para las variables V9 y V10 o la V20 tiene un dato extremo superior y otro inferior. Pero como hemos dicho, estos datos son reales y provienen de las distintas econom de cada pa y es adems segn as s a u esos factores por los que querremos agrupar. Una vez estudiados los posibles datos anmalos, no plantear o amos el Anlisis Cluster, para a ello seleccionaremos los mens: u Analizar Clasicar Conglomerados jerrquicos a Obteniendo el siguiente Cuadro: Figura 6.1: Cuadro cluster

Las opciones disponibles son Estad sticos, Grcos, Mtodo y Guardar que pasaremos a a e describir a continuacin. o

6.3.1.

Botn Mtodo o e

Antes de realizar el Anlisis Cluster, hay que decidir que mtodo vamos a utilizar en el a e anlisis. Las opciones posibles son: a Mtodo de conglomeracin. Ser la metodolog utilizada para calcular las distancias e o a a entre clusters. Como vimos, la distancia entre individuos estar basada en medidas a matemticas. El problema estar en como calcular las distancias entre un individuo a a ANALISIS MULTIVARIANTE PARA SOCIOLOGOS MEDIANTE SPSS.

86

Anlisis cluster a y un cluster o entre varios cluster. Dependiendo de como se realicen estas, se obtiene unas metodolog u otras. Las que proporciona SPSS son: vinculacin inter-grupos, vinas o culacin intra-grupos, vecino ms prximo, vecino ms lejano, agrupacin de centroides, o a o a o agrupacin de medianas y mtodo de Ward. Generalmente, las ms utilizadas son la o e a vinculacin inter-grupos, el vecino ms prximo y el mtodo de Ward. o a o e Medida. Permite especicar la medida de distancia o similaridad que ser empleada en a la aglomeracin. Dependiendo del tipo de dato que tengamos usaremos una u otra. Los o tipos de medidas son: 1. Datos de intervalo: distancia eucl dea y distancia eucl dea al cuadrado (las ms a comunes), coseno, correlacin de Pearson, Chebychev, bloque, Minkowski y persono alizada. 2. Datos de frecuencias: medida de la chi-cuadrado y medida de la phi-cuadrado. 3. Datos binarios: Distancia eucl dea, distancia eucl dea al cuadrado, diferencia de tamao, diferencia de conguracin, varianza, dispersin, forma, concordancia simn o o ple, correlacin phi de 4 puntos, Lambda, D de Anderberg, Dice, Hamann, Jaccard, o Kulczynski 1 y 2, Lance y Williams, Ochiai, Rogers y Tanimoto, Russel y Rao, Sokal y Sneath 1, 2,3, 4 y5, Y de Yule y Q de Yule. Nota: En la ayuda del programa explica las caracter sticas de cada medida. Figura 6.2: Botn Mtodo o e

Transformar valores. Permite estandarizar los valores de los datos por casos o por variables, antes de calcular las proximidades. Los mtodos disponibles de estandarizacin son: e o puntuaciones z, rango -1 a 1, rango 0 a 1, magnitud mxima de 1, media de 1 y desviacin a o t pica 1. En nuestros estudios utilizaremos la opcin de Puntuaciones Z, siempre que los o datos no tenga la misma escala o unidad. Transformar medidas. Permite transformar los valores generados por la medida de distancia. Se aplican despus de calcular la medida de distancia. Las opciones disponibles e son: valores absolutos, cambiar el signo y cambiar la escala al rango 01. Aplicacin o Antes de empezar el anlisis cluster, es necesario decidir que el mtodo que se va a utilizar, a e la distancia y si es necesario tipicar los datos.

ANALISIS MULTIVARIANTE PARA SOCIOLOGOS MEDIANTE SPSS.

87

Anlisis cluster a

Con respecto al mtodo, al ser el anlisis cluster un mtodo claramente experimental, es e a e conveniente utilizar varios mtodos distintos y comparar los resultados nales, ya que no existe e un procedimiento para decidir cul de los mtodos es mejor. Para esta cuestin estimaremos a e o varios mtodos y nos quedaremos con el ms interesante. e a Para determinar la distancia, en nuestro caso estamos con datos de tipo intervalo y usaremos la distancia eucl dea al cuadrado, que es la ms utilizada. a En este ejemplo, los datos estn tomados en diferentes escalas de medida, por lo que dea cidimos transformar los valores en las puntuaciones Z para los casos. Con esta opcin SPSS o calcula la media y desviacin de cada variable y tipica todos los datos (les resta la media y o los divide entre la desviacin t o pica ).

6.3.2.

Botn Estad o sticos

Con este botn podremos obtener: o Historial de conglomeracin. Muestra los conglomerados en cada etapa, las distancias o entre los conglomerados que se combinan, as como el ultimo nivel del proceso de aglo meracin en el que cada caso se uni a su conglomerado correspondiente. o o Matriz de distancias. Proporciona las distancias o similaridades entre los elementos. Conglomerado de pertenencia. Muestra el conglomerado al cual se asigna cada caso en una o varias etapas de la combinacin de los conglomerados. A su vez las opciones disponibles o son Solucin unica y Rango de soluciones. o

Figura 6.3: Botn Estad o sticos

Aplicacin o Vamos a seleccionar las tres opciones que nos permite SPSS. En la opcin conglomerados o de pertenencia elegimos solucin unica para tres conglomerados. o Para realizar el anlisis, en la parte de Variables, hemos de indicar todas las variables segn a u las cuales clasicaremos (V2-V21) y en Etiquetar los casos la variable con las etiquetas de los ANALISIS MULTIVARIANTE PARA SOCIOLOGOS MEDIANTE SPSS.

88

Anlisis cluster a

pa ses (V1). Evidentemente, como queremos agrupar los pa ses, que son individuos o casos, mantenemos la opcin de Conglomerar por Casos. o Los resultados que obtenemos son: La matriz de distancias. Esta matriz seala las distancias entre los individuos segn la n u distancia eucl dea al cuadrado. Esta matriz es simtrica y si la observamos veremos que el e primer cluster estar formado por aquellos individuos ms cercanos (con menor distancia a a entre ellos) que son Francia y Blgica. e Figura 6.4: Matriz de distancias

Historial de la conglomeracin. Nos va indicando el orden de las uniones y la distancia o a la que lo hacen. Por ejemplo, los Francia y Blgica son los primeros que se unen a e una distancia de 6.281 formando el cluster 1, luego lo hacen Austria y Finlandia a 6.93 (cluster 2). Posteriormente Espaa y Portugal (cluster 3), luego el cluster 1 ya formado n con el cluster 3 (forma el cluster 4). Posteriormente este cluster 4 se le une Alemania. Despus al grupo formado por Espaa y Portugal se les une Grecia y luego Italia y e n as hasta el nal. Figura 6.5: Historial

Conglomerado de pertenencia. Si indicamos el nmero de cluster nal que queremos u obtener, por ejemplo 3 en este caso, nos indica los cluster nales. Por ejemplo, existe un grupo formado por Blgica, Alemania, Francia, Austria y Finlandia, otro grupo con e Grecia, Espaa, Italia y Portugal y un tercer grupo con Bulgaria. n ANALISIS MULTIVARIANTE PARA SOCIOLOGOS MEDIANTE SPSS.

89

Anlisis cluster a

Figura 6.6: Conglomerado de pertenencia

6.3.3.

Botn Grcos o a

Dentro de la opcin Grcos aparece la ms interesante del anlisis cluster, que es el o a a a dendograma. El dendograma es la representacin grca de la formacin de los cluster. Es una o a o representacin muy intuitiva y que resumen toda la informacin del anlisis que son los cluster o o a que se forman y la distancia a la que lo hacen. Aplicacin o Si seleccionamos la opcin Dendograma y lo analizamos: o Figura 6.7: Dendograma

podemos observar que los grupos que se forma son los siguientes: cluster1 cluster2 cluster3 Belgica Bulgaria Espaa n Francia Portugal Austria Grecia Finlandia Italia Alemania Por lo que tendr amos los pa ses europeos clasicados en tres grupos segn su comporu tamiento en trminos de cohesin social. El objetivos a partir de aqu ser utilizar otros mtoe o a e dos de conglomerado (no de distancia) y vericar si se forman los mismos grupos o al menos similares. ANALISIS MULTIVARIANTE PARA SOCIOLOGOS MEDIANTE SPSS.

90

Anlisis cluster a

6.3.4.

Conclusiones

Antes de determinar los subgrupos nales vamos a utilizar otros mtodos de conglomerados e para ver las diferentes clasicaciones. 1. Mtodo de vinculacin intra-grupos: e o cluster1 cluster2 cluster3 Belgica Bulgaria Espaa n Francia Portugal Austria Grecia Finlandia Alemania Italia 2. Mtodo del vecino ms prximo, mtodo del vecino ms lejano, mtodo de agrupacin e a o e a e o de centroides, agrupacin de medianas y mtodo de Ward: o e cluster1 cluster2 cluster3 Belgica Espaa Bulgaria n Francia Portugal Austria Grecia Finlandia Italia Alemania Por lo tanto, por casi todos los mtodos obtenemos los mismos resultados, por lo que e asumiremos que estos pa segn los datos referentes a la cohesin social un grupo lo formar ses u o an Blgica, Francia, Austria, Alemania y Finlandia; otro grupo con Espaa, Portugal, Grecia e e n Italia y Bulgaria que no se agrupar con ningn otro pa a u s.

6.4.
6.4.1.

Ejercicios obligatorios
Ejercicio primero

El chero Cluster2 contiene los datos de 11 variables de tipo macroeconmico de 24 pa o ses europeos. Se quiere encontrar grupos de comportamiento similares segn un anlisis cluster, u a utilizando la distancia eucl dea al cuadrado con 5 subgrupos y usando las viculaciones intragrupos e inter-grupos.

6.4.2.

Ejercicio segundo

Se desea realizar un estudio de mercado, para ello se selecciona una muestra de 50 individuos a los que se les estudian 7 variables sobre un determinado producto. El objetivo es encontrar patrones de comportamiento en estos individuos para segmentar la poblacin. Para ello se o decide realizar un anlisis cluster sobre el chero Cluster3, de tal manera que clasiquemos a ANALISIS MULTIVARIANTE PARA SOCIOLOGOS MEDIANTE SPSS.

91

Anlisis cluster a

a los individuos en grupos segn su comportamiento; realizar este anlisis cluster mediante los u a mtodos del vecino ms cercano y ms lejano y con la distancia eucl e a a dea al cuadrado. Indicar en cuantos grupos puede ser segmentado la poblacin. o

ANALISIS MULTIVARIANTE PARA SOCIOLOGOS MEDIANTE SPSS.

También podría gustarte