Está en la página 1de 13

Una práctica con Cluster Analysis

Ernesto Torres Anguiano

Mucho se ha escuchado a lo largo del tiempo sobre el análisis cluster, sus


distintos métodos y formas de aplicarlo.

Pero, ¿Cómo empezó todo? Desde siempre; El hombre siempre se ha


caracterizado por tratar de buscar, identificar y clasificar de distintas maneras a los
distintos animales, elementos, eventos o fenómenos con los que convive en el
universo.

Hay muchos ejemplos de esto; Desde que en los antiguos tiempos se


calificaban/clasificaban a las personas de acuerdo a sus creencias (paganos o
fieles a la ley), o en la forma en que hoy en día las amas de casa catalogan de
acuerdo a su percepción a las distintas marcas de leche que hay en el mercado
(Nutritivas, Caras, Baratas, Para Grandes, Para Niños, etc.).

Esas agrupaciones que se pretenden identificar, deben buscar que en el interior


de cada grupo o clasificación existan elementos que sean muy parecidos entre si,
y que difieran lo más posible en relación a los elementos de otro grupo; y parte de
éstas clasificaciones las podemos encontrar hoy dentro de un conjunto de técnicas
que conocemos como cluster análisis.

Dentro de nuestro ramo, podríamos mencionar algunas aplicaciones que tenemos


de éste análisis, tales como: Segmentación y Posicionamiento, Estudio de Perfiles,
Comportamiento del consumidor, Selección de mercados de prueba, Detección de
problemas o Desarrollo de Nuevos Productos.

En esencia, el análisis cluster (También conocido en otras ramas como


taxonomía numérica, análisis tipológico, o clasificación
automáticai) es un método de análisis que clasifica objetos o elementos, en
grupos bien definidos llamados conglomerados/clusters; Donde cada uno de
ellos (Clusters) debe tener a elementos que sean muy similares entre si (A lo que
conocemos como Homogeneidad) y estos deben ser diferentes a los objetos de
los otros grupos (Heterogeneidad) con respecto a algún criterio de selección
predeterminado.

Es decir, revela agrupaciones naturales dentro de un conjunto de datos que son


muy útiles para obtener un conocimiento más profundo sobre los elementos o
individuos que existen en una población determinada; y en base a esto poder
tomar decisiones, establecer estrategias y planes de acción que nos ayuden a
plantear objetivos o, en el caso de estar ya planteados, alcanzarlos o superarlos.

El cluster análisis tiene distintos métodos de realización, destacando por su uso


los Métodos Jerárquicos o Exploratorios (Que se caracterizan por la Anidación de
acuerdo a la importancia de similaridad de los elementos) y Métodos No

1
Jerárquicos (Que desarrollan los conglomerados cuando el investigador ha
definido de manera anticipada su número).

A lo largo de la realización de un análisis cluster debemos tomar distintas


decisiones para poder realizarlo de una manera adecuada, decisiones como lo
son la selección de variables que incluiremos o el número de
clusters/conglomerados que queremos conservar en el análisis; Decisiones que
analizaremos mediante la aplicación de el siguiente caso.

Supongamos que un Museo realiza encuestas a un grupo de niños al terminar el


recorrido; dicha encuesta ésta diseñada con distintas preguntas generales y
algunas que pueden ayudarnos a identificar grupos y diseñar estrategias que
vayan acorde con los niños que están más interesados en asistir a un museo.

Algunas de las preguntas que encontramos en ésta encuesta son las siguientes:

Sexo
Edad
A ¿Es divertido ir al museo?* divertid
B ¿Siempre que voy al museo le pido a mis papas que me compren algo de lo que venden
adentro? * pidocomp
*
C ¿Puedo aprender en la escuela lo mismo que en el museo? aprendom
D ¿Prefiero ir al museo en excursiones con la escuela? * excur
E ¿Ir al museo en mi tiempo libre me quita tiempo para jugar? * quitatie
F ¿No me interesa en lo mas mínimo asistir al museo? * nomeint
¿Te gustó tu visita al museo? (Si/No) gustovis
*
De Totalmente en desacuerdo a Totalmente de acuerdo en escala de 7 puntos.

Suponiendo que las preguntas de la sección denominada como “Opiniones


generales que tengo en relación al museo” son con las que el equipo pretende
agrupar a los 25 niños que respondieron la encuesta, se tendrían que hacer
primero 2 consideraciones:

1. Que para identificar los grupos de niños, las preguntas que se elijan deben
de estar en la misma escala de medición. (En caso de que esto no sea
posible, se deben de estandarizar los valores)

2. Justificar la aplicación del cluster análisis, lo cual podemos hacer


demostrando que existe fuerte asociación entre las variables que van a
configurarlo.

2
Tras aplicar la encuesta obtenemos las siguientes respuestas por parte de los 25
niños:
caso sexo edad divertid pidocomp aprendom excur quitatie nomeint gustovis
1 1 9 6 7 3 3 4 2 1
2 1 10 2 1 4 4 3 5 0
3 0 9 7 6 3 4 2 1 1
4 0 9 4 4 6 5 6 3 1
5 0 9 1 2 4 2 3 6 0
6 0 10 6 6 4 3 4 3 1
7 0 10 5 6 4 3 3 3 1
8 0 10 7 7 4 4 3 1 1
9 1 9 2 3 3 3 4 6 0
10 1 9 3 3 6 6 5 4 0
11 0 10 1 2 3 3 3 5 1
12 0 9 5 5 4 4 4 2 1
13 0 9 2 1 4 5 2 4 1
14 0 9 4 4 7 6 6 4 1
15 0 8 6 4 4 2 5 1 1
16 0 9 3 4 7 6 5 4 0
17 1 9 4 7 5 2 4 2 0
18 0 9 3 2 3 6 7 4 1
19 0 9 4 3 7 7 6 2 1
20 1 9 2 2 2 4 3 7 0
21 0 9 5 6 5 4 4 3 1
22 1 9 5 7 5 4 3 3 1
23 1 9 4 2 7 7 7 1 1
24 1 10 3 3 5 7 4 4 0
25 1 10 1 2 3 3 2 4 0

Y a partir de ésta base de datos nosotros empezaríamos a trabajar para poder


identificar a niños que tienen características similares en relación a sus opiniones
de un museo.

Nuestro siguiente paso es escoger las variables que podríamos nosotros utilizar
para identificar a los grupos (recordamos que estas variables deben de estar en la
misma escala de medición, o en su defecto, deben tener estandarizados los
valores).

Entonces tenemos que para esta agrupación podemos utilizar las siguientes
preguntas:

A ¿Es divertido ir al museo?* divertid


B ¿Siempre que voy al museo le pido a mis papas que me compren algo de lo que venden
adentro? * pidocomp
*
C ¿Puedo aprender en la escuela lo mismo que en el museo? aprendom
D ¿Prefiero ir al museo en excursiones con la escuela? * excur
E ¿Ir al museo en mi tiempo libre me quita tiempo para jugar? * quitatie
F ¿No me interesa en lo mas mínimo asistir al museo? * nomeint

3
(Medidas en escalas de 7 puntos – de Totalmente en desacuerdo a Totalmente de
Acuerdo)

Ya que hemos elegido a las variables que consideramos que podemos utilizar para
nuestro análisis, debemos demostrar su aplicabilidad mediante la demostración de
la existencia de una fuerte asociación entre las variables que van a configurarlo, lo
cual podemos hacer con el siguiente análisis de correlación.
Tabla de Correlaciones Bivariadas

Pido a mis Puedo Prefiero ir al Ir al museo No me


papas que aprender en museo en en mi tiempo interesa en lo
me compren la escuela lo excursiones libre me mas mínimo
Es divertido algo dentro mismo que con la quita tiempo asistir al
ir al museo del museo en el museo escuela para jugar museo
Es divertido ir al museo Correlación de Pearson ** **
Cuando voy al museo Correlación de Pearson .818** **
le pido a mis papas
Sig. (bilateral)
que me compren algo .000
de los materiales que
venden adentro N
25

Puedo aprender en la Correlación de Pearson .099 .034 ** **


escuela lo mismo que
Sig. (bilateral) .638 .870
en el museo
N
25 25

Prefiero ir al museo en Correlación de Pearson -.066 -.318 .631** **


excursiones con la
Sig. (bilateral) .755 .121 .001
escuela
N 25 25 25
Ir al museo en mi Correlación de Pearson .099 -.111 .616** .577**
tiempo libre me quita Sig. (bilateral) .636 .599 .001 .003
tiempo para jugar N 25 25 25 25
No me interesa en lo Correlación de Pearson -.816** -.591** -.296 -.071 -.218
mas mínimo asistir al Sig. (bilateral) .000 .002 .152 .735 .295
museo N 25 25 25 25 25
**. La correlación es significativa al nivel 0,01 (bilateral).

Entonces podemos identificar la existencia de fuertes correlaciones entre distintas


variables (tanto positivas como negativas), mismas que nos dan la pauta para
continuar con la aplicación de nuestro análisis.

Si no se observaran fuertes correlaciones entre las variables que serán parte del
Análisis Cluster se puede concluir que no tiene sentido realizarlo.

Ya que hemos demostrado la existencia de fuertes correlaciones entre las


variables que sujetaremos a la formación de grupos, debemos de seleccionar el
procedimiento por el cual vamos nosotros a llevar a cabo dicha agrupación.

De los dos métodos que hemos descrito con anterioridad es recomendable


siempre empezar por los métodos Jerárquicos (También conocidos cómo
exploratorios), ya que éstos nos presentan distintos diagramas (como el
Dendrograma o la Gráfica de Témpanos) que nos ayudan a estudiar/decidir en
cuántos clusters podemos dividir a los elementos.

4
Una vez que hemos realizado la agrupación por un método Jerárquico, podemos
realizarla también por un método no jerárquico para validar o confirmar de alguna
forma los datos obtenidos en un principio. (De ahí que los métodos no jerárquicos
se conozcan también como métodos confirmatorios)

Así pues, mediante la ayuda de un paquete estadístico procedemos a elaborar el


análisis jerárquico que incluya a las 6 variables antes mencionadas.

Donde un paso muy importante es la selección de la distancia por la cual se


calculará el grado de similaridad de los elementos. (una de las distancias más
utilizadas es la distancia euclidiana cuadrada).

Ésta distancia es muy importante porque es la que empieza a agrupar a los


elementos más similares entre sí (de ahí el nombre de jerárquico) y los gráfica en
una gráfica llamada dendrograma que por motivos prácticos, la mayoría de las
veces reescala las distancias reales entre los elementos a valores entre 0 y 25.

El dendrograma es muy importante porque nos ayuda a identificar cuantos grupos


podríamos utilizar, en éste caso de nuestro análisis, el dendrograma se muestra
así:
* * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * *
Dendrogram using Average Linkage (Between Groups)
Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+

20  
21  
18   
19   
25   
23   
24   
22   
2   
5   
9    
Poca distancia 10     
entre los casos 3      
de cada cluster 4       
6      
1     
8    
7   
11   
15  
13   
16   
14   
17  
12  
5
Mucha distancia
entre los clusters (3)
En ésta gráfica podemos notar la existencia de distintos grupos de alumnos
(clusters), donde nuestra principal tarea en éstos momentos es poder definir con
cuantos grupos quedarnos, opciones que podrían ir desde los dos hasta que cada
alumno represente su propio cluster (es decir, 25 clusters), pero debemos tomar
en cuenta la practicidad del manejo de la información, y que tampoco podemos
considerar como un cluster o conglomerado a 1 sólo elemento.

Así que de manera gráfica podemos optar por la opción de tres clusters, donde
existe poca distancia entre los elementos de cada cluster (la observamos por las
líneas horizontales) y mucha distancia entre los distintos clusters (la observamos
de la misma manera), donde cada conglomerado estaría conformado por los
siguientes niños/elementos:

Conglomerado 1: Niños 20,21,18,19,25,23, 24 y 22 (8 niños)


Conglomerado 2: Niños 2,5,9,10,3,4,6,1,8 y 7 (10 niños)
Conglomerado 3: Niños 11,15,13,16,14,17 y 12 (7 niños)

Es muy importante que al ejecutar un análisis cluster indiquemos al paquete que


nos guarde el conglomerado de pertenencia de cada elemento (en el rango de
opciones probables que le indiquemos, P.E. de 2 a 7 conglomerados), para de
esta manera tener ya el conglomerado de pertenencia de cada elemento en
nuestra base de datos y poder estudiar las características de cada conglomerado.

También podemos justificar nuestra decisión de 3 conglomerados mediante la


creación de una tabla que (esto sólo se puede hacer cuando de manera previa le
hemos indicado al paquete que nos guarde la información de pertenencia de cada
caso) nos muestre cuantos elementos estarían en cada conglomerado entre las
opciones que mostramos como probables en un inicio.

2 clusters 3 clusters 4 clusters 5 clusters 6 clusters 7 clusters


Casos Casos Casos Casos Casos Casos
1 18 10 10 9 9 7
2 7 7 7 1 1 2
3 8 7 7 7 1
4 1 7 5 7
5 1 1 5
6 2 1
7 2

De ésta manera podemos analizar que si tuviéramos 2 clusters, uno tendría 18


casos y el otro 7, pero si tuviéramos 4 clusters tendríamos uno con 10 niños, otro
con 7, otro con 7 y otro con 1, de modo que la opción mas “viable” o “equilibrada”
sería la que tomamos de manera visual de 3 clusters; No debemos olvidar que

6
además de prácticos y homogéneos, los clusters deben aportar información
razonable y fácil de comprender a la investigación.

Una vez que hemos determinado el número de los clusters, podemos proceder a
estudiarlos y compararlos; una buena opción podría ser desarrollar gráficas que
nos apoyen en su estudio, y de acuerdo a las características de los clusters
podríamos también otorgarles un nombre con el cual podamos identificarlos más
fácilmente.

Totalm ente 7
de Acue rdo

Totalm e nte 2
en Interesados Desinteresados
desacue rdo Lúdicos
1

e quita
0
que m e com pren algo

lo m ás m ínim o ir al
Pre fie ro ir al m use o
Cuando voy al m useo

No m e inte res a e n
la lo m ism o
papas

Ir al m us eo en m i

tie m po para jugar


que e n el m use o
ir al m us eo
Es divertido

m tiempo

me interesa en
ir al museo

museo
s
Puedo aprender en l
l

con la e scuela
Apre ndo en la
al museo

ione

No useo
en mi
Prefiero ir al
adentro
voyis

en excurs

libre
Es divertido

am

al museo
Cuando

m
escue

tiemIrpo
le pido

De acuerdo a esto, desarrollamos una gráfica donde mostramos los promedios


obtenidos por cada conglomerado en las diferentes preguntas, donde
encontramos cosas interesantes para nuestra investigación:

Cluster 1: Formado por 8 alumnos, nos muestra valores altos en las preguntas de
diversión y de consumo, además nos presenta un muy bajo promedio en la
pregunta de “no me interesa en lo más mínimo ir al museo”, es decir, se
encuentran muy interesados en ir al museo, se divierten mucho ahí, y además les
piden a sus papas que les compren cosas dentro, entonces de una forma simple
podríamos identificar a éste cluster como Interesado.

Cluster 2: Formado por 10 alumnos, nos muestra valores muy altos en las
preguntas de “Aprendo lo mismo en la escuela que en el museo”, “prefiero ir al
museo en excursiones con la escuela” e “Ir al museo en mi tiempo libre me quita
tiempo para jugar”, nos dan a entender que es un segmento que gusta de ir al

7
museo en el tiempo de la escuela y no en el tiempo libre (Quizá para perder
tiempo de clases), lo cual nos permitiría identificar a éste cluster como un grupo
lúdico.

Cluster 3: Formado por 7 alumnos, nos muestra valores muy bajos en la mayoría
de los reactivos, pero también nos muestra un promedio muy alto en la pregunta
“No me interesa en lo más mínimo ir al museo”, y al ser un segmento
completamente apático, podríamos identificarlo como un segmento
completamente Desinteresado.

Una vez definidas las etiquetas de cada cluster, podemos también continuar en la
investigación de las características de cada grupo, tales como el sexo o si es que
gustaron de su visita al museo.
Distribución del sexo por cluster

Cluster

Total 1(Interesado) 2 (Desinteresado) 3 (Lúdico)


Base N 25 10 7 8
% 100.0% 100.0% 100.0% 100.0%
Sexo Femenino n 15 7 3 5
% 60.0% 70.0% 42.9% 62.5%
Masculino n 10 3 4 3
% 40.0% 30.0% 57.1% 37.5%
Enero 2005

Donde al estudiar las Sexo por Segmento


características de cada
Cluster Analysis
cluster en cuanto al sexo,
8
podemos observar que las
mujeres forman parte en su
mayoría del segmento que se 7
encuentra interesado (70%) y
en segundo lugar con el 6
segmento lúdico (62.5%);
# Casos

mientras que los hombres


5
forman parte en mayor
número del segmento que no 4
se encuentra interesado con 4

nada que tenga que ver con


un museo. 3 3 3 Femenino

2 Masc ulino
Interesados Desinteres ados Lúdicos

8
También podemos estudiar la opinión de cada cluster en relación a su visita al
museo, es decir, si gustaron de ella o no, a lo que podemos ver lo siguiente:

Recuento
¿Te gustó tu visita al
museo?
No Si Total
Interesados 1 9 10
Cluster Desinteresados 5 2 7
Lúdicos 3 5 8
Total 9 16 25

Donde obviamente la mayoría Gusto de la visita al museo por segmento


de los niños interesados Cluster Analysis
gustaron de la visita al museo 10
(9), sólo dos casos del
segmento desinteresado lo 9
hicieron, y en lo que respecta 8
a los niños catalogados como
lúdicos 5 gustaron de su visita
al museo. 6
# Casos

5 5
4

3
2
2
No
1
0 Si
Interesados Desinteresados Lúdicos

Ya hemos estudiado las características principales de cada cluster, y ya podemos


decir que los conocemos, ahora en cuanto a manera de “justificación” de las
agrupaciones podemos también hacerlo mediante la demostración de que existen
diferencias significativas entre cada uno de los clusters.

Éstas diferencias resultan ser obvias desde cierto punto de vista, y son utilizadas
solo para propósitos meramente descriptivos, ya que uno de los objetivos del
análisis de conglomerados es precisamente maximizar las diferencias entre los
grupos de casos.

9
Las diferencias significativas entre éstos grupos de casos las mostramos en la
siguiente tabla.

ANOVA
Suma de Media
cuadrados gl cuadrática F Sig.
Es divertido ir al museo Inter-grupos 67.886 2 33.943 61.642 .000
Intra-grupos 12.114 22 .551
Total 80.000 24
Cuando voy al museo le pido a Inter-grupos 82.328 2 41.164 54.449 .000
mis papas que me compren
algo de lo venden adentro Intra-grupos 16.632 22 .756
Total 98.960 24
Puedo aprender en la escuela Inter-grupos 29.911 2 14.956 14.736 .000
lo mismo que en el museo
Intra-grupos 22.329 22 1.015
Total
52.240 24

Prefiero ir al museo en Inter-grupos 45.726 2 22.863 32.844 .000


excursiones con la escuela
Intra-grupos 15.314 22 .696
Total 61.040 24
Ir al museo en mi tiempo libre Inter-grupos 35.083 2 17.541 23.030 .000
me quita tiempo para jugar
Intra-grupos 16.757 22 .762
Total 51.840 24
No me interesa en lo mas Inter-grupos 41.931 2 20.966 19.357 .000
mínimo asistir al museo
Intra-grupos 23.829 22 1.083
Total 65.760 24

En ésta tabla podemos también identificar cuáles son las variables que
contribuyen más al proceso de agrupamiento, esto podemos hacerlo mediante los
valores F, entonces podemos concluir que las variables que contribuyen más al
agrupamiento son: Es divertido ir al museo, y Cuando voy al museo le pido a mis
papas que me compren algo adentro.

En relación a los métodos no jerárquicos o confirmatorios (Como el método de K-


Medias), es necesario indicar con anticipación el número de clusters en los que se
quiere dividir la base (Además, no debemos olvidar que cada una de las variables
implicadas en el análisis deben estar en la misma escala de medición, o en caso
de no serlo, estar estandarizadas); por esto es necesario realizar una fase previa

10
de un análisis jerárquico que nos oriente y permita identificar de manera visual en
cuantos grupos se pueden dividir la base.

Cuando contamos con una base base de datos extensa, resulta hasta cierto punto
difícil poder interpretar el dendrograma (debido a su extensión), así que
podríamos realizar el análisis de K-medias pidiéndole a la máquina soluciones
múltiples (podríamos hacerlo con éste ejercicio, con una solución de 3 a 7
clusters), pidiéndole también a la máquina que nos guarden los conglomerados de
pertenencia para cada individuo.

Posteriormente, podríamos crear una tabla idéntica a la que mostramos


anteriormente en la cual nos indiquen cuantos casos existirían para cada cluster,
y así tomar la decisión de cuantos clusters conservar.

Invitamos al lector a realizar la práctica mediante los conglomerados jerárquicos y


no jerárquicos con ésta base de datos para comparar los resultados.

Otra forma mediante la que podríamos comprobar/validar nuestra clasificaciones


es de manera gráfica, para esto realizamos un diagrama de dispersión por medio
de un análisis discriminante.

Funciones Discriminantes Canónicas

Cluster

Centroides de grupo

Lúdicos

Desinteresados

Interesados

11
Poca
distancia
entre los
casos
de cada

a
Resultados de la clasificación
Grupo de pertenencia pronosticado
Average Linkage Desintere
(Between Groups) Interesados sados Lúdicos Total
Original Recuento Interesados 10 0 0 10
Desinteresados 0 7 0 7
Lúdicos 0 0 8 8
% Interesados 100.0 .0 .0 100.0
Desinteresados .0 100.0 .0 100.0
Lúdicos .0 .0 100.0 100.0

a. Clasificados correctamente el 100.0% de los casos agrupados originales.

En dicho diagrama de dispersión y en la tabla que muestra los resultados de


clasificación podemos observar que tenemos una muy buena clasificación (Esta
clasificación tan alta no se logra siempre, varía muchas veces tanto del número de
casos como de la forma en que se distribuyen, en ésta ocasión tuvimos la fortuna
de que los casos muestren una agrupación natural perfectamente delimitada),
donde de manera gráfica podemos observar que los tres grupos se diferencian
muy bien, encontrándose cada uno en regiones muy independientes.

Una de las principales aplicaciones de éste análisis es el poder identificar a los


grupos dentro de una población y poder orientar estrategias a cada uno de llos
para que nosotros podamos alcanzar los objetivos más fácilmente y de la manera
más óptima, así que si usted fuera de las personas del museo, y estuviera
planeando invitar a distintos niños a una nueva exposición,… ¿A quiénes les
mandaría la carta de invitación?

12
i
César López, Técnicas Estadísticas con SPSS, 2001

También podría gustarte