Está en la página 1de 13

Una prctica con Cluster Analysis

Ernesto Torres Anguiano

Mucho se ha escuchado a lo largo del tiempo sobre el anlisis cluster, sus


distintos mtodos y formas de aplicarlo.

Pero, Cmo empez todo? Desde siempre; El hombre siempre se ha


caracterizado por tratar de buscar, identificar y clasificar de distintas maneras a los
distintos animales, elementos, eventos o fenmenos con los que convive en el
universo.

Hay muchos ejemplos de esto; Desde que en los antiguos tiempos se


calificaban/clasificaban a las personas de acuerdo a sus creencias (paganos o
fieles a la ley), o en la forma en que hoy en da las amas de casa catalogan de
acuerdo a su percepcin a las distintas marcas de leche que hay en el mercado
(Nutritivas, Caras, Baratas, Para Grandes, Para Nios, etc.).

Esas agrupaciones que se pretenden identificar, deben buscar que en el interior


de cada grupo o clasificacin existan elementos que sean muy parecidos entre si,
y que difieran lo ms posible en relacin a los elementos de otro grupo; y parte de
stas clasificaciones las podemos encontrar hoy dentro de un conjunto de tcnicas
que conocemos como cluster anlisis.

Dentro de nuestro ramo, podramos mencionar algunas aplicaciones que tenemos


de ste anlisis, tales como: Segmentacin y Posicionamiento, Estudio de Perfiles,
Comportamiento del consumidor, Seleccin de mercados de prueba, Deteccin de
problemas o Desarrollo de Nuevos Productos.

En esencia, el anlisis cluster (Tambin conocido en otras ramas como


taxonoma numrica, anlisis tipolgico, o clasificacin
automticai) es un mtodo de anlisis que clasifica objetos o elementos, en
grupos bien definidos llamados conglomerados/clusters; Donde cada uno de
ellos (Clusters) debe tener a elementos que sean muy similares entre si (A lo que
conocemos como Homogeneidad) y estos deben ser diferentes a los objetos de
los otros grupos (Heterogeneidad) con respecto a algn criterio de seleccin
predeterminado.

Es decir, revela agrupaciones naturales dentro de un conjunto de datos que son


muy tiles para obtener un conocimiento ms profundo sobre los elementos o
individuos que existen en una poblacin determinada; y en base a esto poder
tomar decisiones, establecer estrategias y planes de accin que nos ayuden a
plantear objetivos o, en el caso de estar ya planteados, alcanzarlos o superarlos.

El cluster anlisis tiene distintos mtodos de realizacin, destacando por su uso


los Mtodos Jerrquicos o Exploratorios (Que se caracterizan por la Anidacin de
acuerdo a la importancia de similaridad de los elementos) y Mtodos No

1
Jerrquicos (Que desarrollan los conglomerados cuando el investigador ha
definido de manera anticipada su nmero).

A lo largo de la realizacin de un anlisis cluster debemos tomar distintas


decisiones para poder realizarlo de una manera adecuada, decisiones como lo
son la seleccin de variables que incluiremos o el nmero de
clusters/conglomerados que queremos conservar en el anlisis; Decisiones que
analizaremos mediante la aplicacin de el siguiente caso.

Supongamos que un Museo realiza encuestas a un grupo de nios al terminar el


recorrido; dicha encuesta sta diseada con distintas preguntas generales y
algunas que pueden ayudarnos a identificar grupos y disear estrategias que
vayan acorde con los nios que estn ms interesados en asistir a un museo.

Algunas de las preguntas que encontramos en sta encuesta son las siguientes:

Sexo
Edad
A Es divertido ir al museo?* divertid
B Siempre que voy al museo le pido a mis papas que me compren algo de lo que venden
adentro? * pidocomp
*
C Puedo aprender en la escuela lo mismo que en el museo? aprendom
D Prefiero ir al museo en excursiones con la escuela? * excur
E Ir al museo en mi tiempo libre me quita tiempo para jugar? * quitatie
F No me interesa en lo mas mnimo asistir al museo? * nomeint
Te gust tu visita al museo? (Si/No) gustovis
*
De Totalmente en desacuerdo a Totalmente de acuerdo en escala de 7 puntos.

Suponiendo que las preguntas de la seccin denominada como Opiniones


generales que tengo en relacin al museo son con las que el equipo pretende
agrupar a los 25 nios que respondieron la encuesta, se tendran que hacer
primero 2 consideraciones:

1. Que para identificar los grupos de nios, las preguntas que se elijan deben
de estar en la misma escala de medicin. (En caso de que esto no sea
posible, se deben de estandarizar los valores)

2. Justificar la aplicacin del cluster anlisis, lo cual podemos hacer


demostrando que existe fuerte asociacin entre las variables que van a
configurarlo.

2
Tras aplicar la encuesta obtenemos las siguientes respuestas por parte de los 25
nios:
caso sexo edad divertid pidocomp aprendom excur quitatie nomeint gustovis
1 1 9 6 7 3 3 4 2 1
2 1 10 2 1 4 4 3 5 0
3 0 9 7 6 3 4 2 1 1
4 0 9 4 4 6 5 6 3 1
5 0 9 1 2 4 2 3 6 0
6 0 10 6 6 4 3 4 3 1
7 0 10 5 6 4 3 3 3 1
8 0 10 7 7 4 4 3 1 1
9 1 9 2 3 3 3 4 6 0
10 1 9 3 3 6 6 5 4 0
11 0 10 1 2 3 3 3 5 1
12 0 9 5 5 4 4 4 2 1
13 0 9 2 1 4 5 2 4 1
14 0 9 4 4 7 6 6 4 1
15 0 8 6 4 4 2 5 1 1
16 0 9 3 4 7 6 5 4 0
17 1 9 4 7 5 2 4 2 0
18 0 9 3 2 3 6 7 4 1
19 0 9 4 3 7 7 6 2 1
20 1 9 2 2 2 4 3 7 0
21 0 9 5 6 5 4 4 3 1
22 1 9 5 7 5 4 3 3 1
23 1 9 4 2 7 7 7 1 1
24 1 10 3 3 5 7 4 4 0
25 1 10 1 2 3 3 2 4 0

Y a partir de sta base de datos nosotros empezaramos a trabajar para poder


identificar a nios que tienen caractersticas similares en relacin a sus opiniones
de un museo.

Nuestro siguiente paso es escoger las variables que podramos nosotros utilizar
para identificar a los grupos (recordamos que estas variables deben de estar en la
misma escala de medicin, o en su defecto, deben tener estandarizados los
valores).

Entonces tenemos que para esta agrupacin podemos utilizar las siguientes
preguntas:

A Es divertido ir al museo?* divertid


B Siempre que voy al museo le pido a mis papas que me compren algo de lo que venden
adentro? * pidocomp
*
C Puedo aprender en la escuela lo mismo que en el museo? aprendom
D Prefiero ir al museo en excursiones con la escuela? * excur
E Ir al museo en mi tiempo libre me quita tiempo para jugar? * quitatie
F No me interesa en lo mas mnimo asistir al museo? * nomeint

3
(Medidas en escalas de 7 puntos de Totalmente en desacuerdo a Totalmente de
Acuerdo)

Ya que hemos elegido a las variables que consideramos que podemos utilizar para
nuestro anlisis, debemos demostrar su aplicabilidad mediante la demostracin de
la existencia de una fuerte asociacin entre las variables que van a configurarlo, lo
cual podemos hacer con el siguiente anlisis de correlacin.
Tabla de Correlaciones Bivariadas

Pido a mis Puedo Prefiero ir al Ir al museo No me


papas que aprender en museo en en mi tiempo interesa en lo
me compren la escuela lo excursiones libre me mas mnimo
Es divertido algo dentro mismo que con la quita tiempo asistir al
ir al museo del museo en el museo escuela para jugar museo
Es divertido ir al museo Correlacin de Pearson ** **
Cuando voy al museo Correlacin de Pearson .818** **
le pido a mis papas
Sig. (bilateral)
que me compren algo .000
de los materiales que
venden adentro N
25

Puedo aprender en la Correlacin de Pearson .099 .034 ** **


escuela lo mismo que
Sig. (bilateral) .638 .870
en el museo
N
25 25

Prefiero ir al museo en Correlacin de Pearson -.066 -.318 .631** **


excursiones con la
Sig. (bilateral) .755 .121 .001
escuela
N 25 25 25
Ir al museo en mi Correlacin de Pearson .099 -.111 .616** .577**
tiempo libre me quita Sig. (bilateral) .636 .599 .001 .003
tiempo para jugar N 25 25 25 25
No me interesa en lo Correlacin de Pearson -.816** -.591** -.296 -.071 -.218
mas mnimo asistir al Sig. (bilateral) .000 .002 .152 .735 .295
museo N 25 25 25 25 25
**. La correlacin es significativa al nivel 0,01 (bilateral).

Entonces podemos identificar la existencia de fuertes correlaciones entre distintas


variables (tanto positivas como negativas), mismas que nos dan la pauta para
continuar con la aplicacin de nuestro anlisis.

Si no se observaran fuertes correlaciones entre las variables que sern parte del
Anlisis Cluster se puede concluir que no tiene sentido realizarlo.

Ya que hemos demostrado la existencia de fuertes correlaciones entre las


variables que sujetaremos a la formacin de grupos, debemos de seleccionar el
procedimiento por el cual vamos nosotros a llevar a cabo dicha agrupacin.

De los dos mtodos que hemos descrito con anterioridad es recomendable


siempre empezar por los mtodos Jerrquicos (Tambin conocidos cmo
exploratorios), ya que stos nos presentan distintos diagramas (como el
Dendrograma o la Grfica de Tmpanos) que nos ayudan a estudiar/decidir en
cuntos clusters podemos dividir a los elementos.

4
Una vez que hemos realizado la agrupacin por un mtodo Jerrquico, podemos
realizarla tambin por un mtodo no jerrquico para validar o confirmar de alguna
forma los datos obtenidos en un principio. (De ah que los mtodos no jerrquicos
se conozcan tambin como mtodos confirmatorios)

As pues, mediante la ayuda de un paquete estadstico procedemos a elaborar el


anlisis jerrquico que incluya a las 6 variables antes mencionadas.

Donde un paso muy importante es la seleccin de la distancia por la cual se


calcular el grado de similaridad de los elementos. (una de las distancias ms
utilizadas es la distancia euclidiana cuadrada).

sta distancia es muy importante porque es la que empieza a agrupar a los


elementos ms similares entre s (de ah el nombre de jerrquico) y los grfica en
una grfica llamada dendrograma que por motivos prcticos, la mayora de las
veces reescala las distancias reales entre los elementos a valores entre 0 y 25.

El dendrograma es muy importante porque nos ayuda a identificar cuantos grupos


podramos utilizar, en ste caso de nuestro anlisis, el dendrograma se muestra
as:
* * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * *
Dendrogram using Average Linkage (Between Groups)
Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+

20
21
18
19
25
23
24
22
2
5
9
Poca distancia 10
entre los casos 3
de cada cluster 4
6
1
8
7
11
15
13
16
14
17
12
5
Mucha distancia
entre los clusters (3)
En sta grfica podemos notar la existencia de distintos grupos de alumnos
(clusters), donde nuestra principal tarea en stos momentos es poder definir con
cuantos grupos quedarnos, opciones que podran ir desde los dos hasta que cada
alumno represente su propio cluster (es decir, 25 clusters), pero debemos tomar
en cuenta la practicidad del manejo de la informacin, y que tampoco podemos
considerar como un cluster o conglomerado a 1 slo elemento.

As que de manera grfica podemos optar por la opcin de tres clusters, donde
existe poca distancia entre los elementos de cada cluster (la observamos por las
lneas horizontales) y mucha distancia entre los distintos clusters (la observamos
de la misma manera), donde cada conglomerado estara conformado por los
siguientes nios/elementos:

Conglomerado 1: Nios 20,21,18,19,25,23, 24 y 22 (8 nios)


Conglomerado 2: Nios 2,5,9,10,3,4,6,1,8 y 7 (10 nios)
Conglomerado 3: Nios 11,15,13,16,14,17 y 12 (7 nios)

Es muy importante que al ejecutar un anlisis cluster indiquemos al paquete que


nos guarde el conglomerado de pertenencia de cada elemento (en el rango de
opciones probables que le indiquemos, P.E. de 2 a 7 conglomerados), para de
esta manera tener ya el conglomerado de pertenencia de cada elemento en
nuestra base de datos y poder estudiar las caractersticas de cada conglomerado.

Tambin podemos justificar nuestra decisin de 3 conglomerados mediante la


creacin de una tabla que (esto slo se puede hacer cuando de manera previa le
hemos indicado al paquete que nos guarde la informacin de pertenencia de cada
caso) nos muestre cuantos elementos estaran en cada conglomerado entre las
opciones que mostramos como probables en un inicio.

2 clusters 3 clusters 4 clusters 5 clusters 6 clusters 7 clusters


Casos Casos Casos Casos Casos Casos
1 18 10 10 9 9 7
2 7 7 7 1 1 2
3 8 7 7 7 1
4 1 7 5 7
5 1 1 5
6 2 1
7 2

De sta manera podemos analizar que si tuviramos 2 clusters, uno tendra 18


casos y el otro 7, pero si tuviramos 4 clusters tendramos uno con 10 nios, otro
con 7, otro con 7 y otro con 1, de modo que la opcin mas viable o equilibrada
sera la que tomamos de manera visual de 3 clusters; No debemos olvidar que

6
adems de prcticos y homogneos, los clusters deben aportar informacin
razonable y fcil de comprender a la investigacin.

Una vez que hemos determinado el nmero de los clusters, podemos proceder a
estudiarlos y compararlos; una buena opcin podra ser desarrollar grficas que
nos apoyen en su estudio, y de acuerdo a las caractersticas de los clusters
podramos tambin otorgarles un nombre con el cual podamos identificarlos ms
fcilmente.

Totalm ente 7
de Acue rdo

Totalm e nte 2
en Interesados Desinteresados
desacue rdo Ldicos
1

De acuerdo a esto, desarrollamos una grfica donde mostramos los promedios


obtenidos por cada conglomerado en las diferentes preguntas, donde
encontramos cosas interesantes para nuestra investigacin:

Cluster 1: Formado por 8 alumnos, nos muestra valores altos en las preguntas de
diversin y de consumo, adems nos presenta un muy bajo promedio en la
pregunta de no me interesa en lo ms mnimo ir al museo, es decir, se
encuentran muy interesados en ir al museo, se divierten mucho ah, y adems les
piden a sus papas que les compren cosas dentro, entonces de una forma simple
podramos identificar a ste cluster como Interesado.

Cluster 2: Formado por 10 alumnos, nos muestra valores muy altos en las
preguntas de Aprendo lo mismo en la escuela que en el museo, prefiero ir al
museo en excursiones con la escuela e Ir al museo en mi tiempo libre me quita
tiempo para jugar, nos dan a entender que es un segmento que gusta de ir al

7
museo en el tiempo de la escuela y no en el tiempo libre (Quiz para perder
tiempo de clases), lo cual nos permitira identificar a ste cluster como un grupo
ldico.

Cluster 3: Formado por 7 alumnos, nos muestra valores muy bajos en la mayora
de los reactivos, pero tambin nos muestra un promedio muy alto en la pregunta
No me interesa en lo ms mnimo ir al museo, y al ser un segmento
completamente aptico, podramos identificarlo como un segmento
completamente Desinteresado.

Una vez definidas las etiquetas de cada cluster, podemos tambin continuar en la
investigacin de las caractersticas de cada grupo, tales como el sexo o si es que
gustaron de su visita al museo.
Distribucin del sexo por cluster

Cluster

Total 1(Interesado) 2 (Desinteresado) 3 (Ldico)


Base N 25 10 7 8
% 100.0% 100.0% 100.0% 100.0%
Sexo Femenino n 15 7 3 5
% 60.0% 70.0% 42.9% 62.5%
Masculino n 10 3 4 3
% 40.0% 30.0% 57.1% 37.5%
Enero 2005

Donde al estudiar las Sexo por Segmento


caractersticas de cada
Cluster Analysis
cluster en cuanto al sexo,
8
podemos observar que las
mujeres forman parte en su
mayora del segmento que se 7
encuentra interesado (70%) y
en segundo lugar con el 6
segmento ldico (62.5%);
# Casos

mientras que los hombres


5
forman parte en mayor
nmero del segmento que no 4
se encuentra interesado con 4

nada que tenga que ver con


un museo. 3 3 3 Femenino

2 Masc ulino
Interesados Desinteres ados Ldicos

8
Tambin podemos estudiar la opinin de cada cluster en relacin a su visita al
museo, es decir, si gustaron de ella o no, a lo que podemos ver lo siguiente:

Recuento
Te gust tu visita al
museo?
No Si Total
Interesados 1 9 10
Cluster Desinteresados 5 2 7
Ldicos 3 5 8
Total 9 16 25

Donde obviamente la mayora Gusto de la visita al museo por segmento


de los nios interesados Cluster Analysis
gustaron de la visita al museo 10
(9), slo dos casos del
segmento desinteresado lo 9
hicieron, y en lo que respecta 8
a los nios catalogados como
ldicos 5 gustaron de su visita
al museo. 6
# Casos

5 5
4

3
2
2
No
1
0 Si
Interesados Desinteresados Ldicos

Ya hemos estudiado las caractersticas principales de cada cluster, y ya podemos


decir que los conocemos, ahora en cuanto a manera de justificacin de las
agrupaciones podemos tambin hacerlo mediante la demostracin de que existen
diferencias significativas entre cada uno de los clusters.

stas diferencias resultan ser obvias desde cierto punto de vista, y son utilizadas
solo para propsitos meramente descriptivos, ya que uno de los objetivos del
anlisis de conglomerados es precisamente maximizar las diferencias entre los
grupos de casos.

9
Las diferencias significativas entre stos grupos de casos las mostramos en la
siguiente tabla.

ANOVA
Suma de Media
cuadrados gl cuadrtica F Sig.
Es divertido ir al museo Inter-grupos 67.886 2 33.943 61.642 .000
Intra-grupos 12.114 22 .551
Total 80.000 24
Cuando voy al museo le pido a Inter-grupos 82.328 2 41.164 54.449 .000
mis papas que me compren
algo de lo venden adentro Intra-grupos 16.632 22 .756
Total 98.960 24
Puedo aprender en la escuela Inter-grupos 29.911 2 14.956 14.736 .000
lo mismo que en el museo
Intra-grupos 22.329 22 1.015
Total
52.240 24

Prefiero ir al museo en Inter-grupos 45.726 2 22.863 32.844 .000


excursiones con la escuela
Intra-grupos 15.314 22 .696
Total 61.040 24
Ir al museo en mi tiempo libre Inter-grupos 35.083 2 17.541 23.030 .000
me quita tiempo para jugar
Intra-grupos 16.757 22 .762
Total 51.840 24
No me interesa en lo mas Inter-grupos 41.931 2 20.966 19.357 .000
mnimo asistir al museo
Intra-grupos 23.829 22 1.083
Total 65.760 24

En sta tabla podemos tambin identificar cules son las variables que
contribuyen ms al proceso de agrupamiento, esto podemos hacerlo mediante los
valores F, entonces podemos concluir que las variables que contribuyen ms al
agrupamiento son: Es divertido ir al museo, y Cuando voy al museo le pido a mis
papas que me compren algo adentro.

En relacin a los mtodos no jerrquicos o confirmatorios (Como el mtodo de K-


Medias), es necesario indicar con anticipacin el nmero de clusters en los que se
quiere dividir la base (Adems, no debemos olvidar que cada una de las variables
implicadas en el anlisis deben estar en la misma escala de medicin, o en caso
de no serlo, estar estandarizadas); por esto es necesario realizar una fase previa

10
de un anlisis jerrquico que nos oriente y permita identificar de manera visual en
cuantos grupos se pueden dividir la base.

Cuando contamos con una base base de datos extensa, resulta hasta cierto punto
difcil poder interpretar el dendrograma (debido a su extensin), as que
podramos realizar el anlisis de K-medias pidindole a la mquina soluciones
mltiples (podramos hacerlo con ste ejercicio, con una solucin de 3 a 7
clusters), pidindole tambin a la mquina que nos guarden los conglomerados de
pertenencia para cada individuo.

Posteriormente, podramos crear una tabla idntica a la que mostramos


anteriormente en la cual nos indiquen cuantos casos existiran para cada cluster,
y as tomar la decisin de cuantos clusters conservar.

Invitamos al lector a realizar la prctica mediante los conglomerados jerrquicos y


no jerrquicos con sta base de datos para comparar los resultados.

Otra forma mediante la que podramos comprobar/validar nuestra clasificaciones


es de manera grfica, para esto realizamos un diagrama de dispersin por medio
de un anlisis discriminante.

Funciones Discriminantes Cannicas

Cluster

Centroides de grupo

Ldicos

Desinteresados

Interesados

11
Poca
distancia
entre los
casos
de cada

a
Resultados de la clasificacin
Grupo de pertenencia pronosticado
Average Linkage Desintere
(Betw een Groups) Interesados sados Ldicos Total
Original Recuento Interesados 10 0 0 10
Desinteresados 0 7 0 7
Ldicos 0 0 8 8
% Interesados 100.0 .0 .0 100.0
Desinteresados .0 100.0 .0 100.0
Ldicos .0 .0 100.0 100.0

a. Clasificados correctamente el 100.0% de los casos agrupados originales.

En dicho diagrama de dispersin y en la tabla que muestra los resultados de


clasificacin podemos observar que tenemos una muy buena clasificacin (Esta
clasificacin tan alta no se logra siempre, vara muchas veces tanto del nmero de
casos como de la forma en que se distribuyen, en sta ocasin tuvimos la fortuna
de que los casos muestren una agrupacin natural perfectamente delimitada),
donde de manera grfica podemos observar que los tres grupos se diferencian
muy bien, encontrndose cada uno en regiones muy independientes.

Una de las principales aplicaciones de ste anlisis es el poder identificar a los


grupos dentro de una poblacin y poder orientar estrategias a cada uno de llos
para que nosotros podamos alcanzar los objetivos ms fcilmente y de la manera
ms ptima, as que si usted fuera de las personas del museo, y estuviera
planeando invitar a distintos nios a una nueva exposicin, A quines les
mandara la carta de invitacin?

12
i
Csar Lpez, Tcnicas Estadsticas con SPSS, 2001

También podría gustarte