Documentos de Académico
Documentos de Profesional
Documentos de Cultura
El análisis de grupo (cluster) como sugiere Santesmases Mestre (2009), es un conjunto técnicas
estadísticas que se utilizan para identificar o determinar grupos que son internamente homogéneos,
pero diferentes entre sí. Estas técnicas permiten clasificar individuos u objetos teniendo en cuenta todas
las variables de análisis.
Por su parte Valderrey Sanz (2010) destaca que el análisis cluster es una técnica de Data Mining, que
permite la clasificación automática de los datos. Este tipo de análisis busca determinar concentraciones
de en los datos para agruparlos de una manera eficiente en cluster o conglomerados dependiendo de su
homogeneidad.
Ambos autores mencionan que este análisis es un método descriptivo de segmentación y a su vez tiene
un enfoque de segmentación post hoc (los grupos se clasifican derivado del análisis, contrario al ad hoc
que los grupos ya existen previamente)
Para encontrar segmentos de mercado también conocido en el mundo estadístico como cluster o
conglomerados, existen distintos tipos de análisis estadísticos que se pueden trabajar con SPSS (SPSS Inc,
2010) entre los más comunes están: el análisis jerárquico de clusters cuando no se ha definido todavía el
número de cluster y el método de las K-Medias que se utiliza cuando el número de cluster (segmentos)
ya están definidos, pero estos análisis no son excluyentes ya que el jerárquico revela información para
usar el método de las K-Medias.
Es muy importante, a la hora de crear la base de datos, clasificar correctamente las variables
según si son Nominales, Ordinales o de Escala (razón e intervalo) aunque esto no parezca
relevante, pueden crearse errores en los análisis cuando no se ha clasificado de la manera
adecuada, es más hay algunos análisis que no se pueden llevar acabo con ciertas variables si
estas no se clasificaron correctamente.
Revisión completa de la base de datos, hay que hacer el debido filtro de información, revisar
casos particulares que presenten incongruencia, por ejemplo si las respuestas son de una escala
de 1 al 10 y existen casos con respuesta como 11 o 100, estos habrán que revisarlos para ver si
fue un error de digitación, si no es ese el caso lo mejor es ponerlo como datos nulo o perdido, el
cual por lo general antes de realizar análisis pueden sustituirse después con la media de dicha
variable.
Aquellos casos que no estén completos y falte información relevante habrá que eliminarlos, es
mejor tener una base con un número menor de muestra pero que sea fiable que contar con
muchos casos y que estos no estén completos ya que el efecto que tendrá sobre los resultados
serán negativos y erróneos.
Para poder llevar acabo el análisis estadístico de grupos, es necesario saber que variables serán
las que se utilizarán para clasificar los segmentos, la elección de estas variables dependerá de
los objetivos del estudio y de los criterios de los investigadores.
Para darse cuenta de si existen estos problemas en la base de datos se utilizan los estadísticos
básicos descriptivos y frecuencias y se piden medias, valores máximos y mínimos, total de casos
válidos, total de casos perdidos, principalmente.
Este tipo de análisis busca identificar grupos relativamente homogéneos de casos (o de variables)
basándose en las características seleccionadas, mediante un algoritmo que comienza con cada caso (o
cada variable) en un conglomerado diferente y combina los conglomerados hasta que sólo queda uno.
(SPSS Inc, 2010)
Dentro de las principales características de este análisis que se presentan en el manual de estadística de
SPSS 19 (SPSS Inc, 2010) están:
Estadísticas: En este grupo de opciones se puede seleccionar rangos de soluciones que permitan valorar
cual es el número de segmento idóneo, por lo general el rango va de 2 a 10 grupos. En este caso he
utilizado una solución única con 10.
Gráficos: En la parte del gráfico es importante seleccionar el dendrograma ya que ese nos muestra cómo
se fueron formando los grupos y ayudará a identificar donde es el corte de los grupos.
Método: en esta ventana, a menos que se pida uno en específico, todo queda igual.
Guardar: esto es muy importante seleccionarlo ya que con esto se guardara una nueva variable con la
clasificación de los conglomerados la cual se utilizara para los siguientes pasos.
Después de haber seleccionado las distintas opciones, se da aceptar en la ventana principal para que
arroje los resultados, de ahí se deben fijar en el dendrograma.
Se debe regresar a la base de datos donde se encontrará la nueva variable que tiene la clasificación de
los conglomerados. A esta nueva variable hay que sacarles los datos de frecuencias para poder conocer
el número de grupos.
Resultados de Ejemplo 1:
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
En la figura anterior, están los resultados del análisis de frecuencia, con ellos se han delimitado que hay
tres segmentos importantes por su tamaño, como se pueden ver en los cuadros que están enmarcados,
los grupos 1, 5 y 6 son los más representativos, el grupo 1 con un 38%, el grupo 5 con un en esta caso al
sumar los porcentajes reúnen el 76% del total. Esta selección de segmentos se puede identificar en el
dendrograma de la siguiente forma:
Resultados de Ejemplo 2:
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
En el segundo ejemplo se destacan 4 grupos con porcentajes importantes, de los cuales dos de ellos son
los más relevantes, en este caso son los grupos del 1 al 4, en donde tienen el 90% del total. Esta
selección de grupos se puede identificar en el dendrograma de la siguiente forma:
Es importante destacar que al final el número de segmentos con los que se trabajara es a criterio del
investigador, como en el casos del Ejemplo 1 se pudo haber seleccionado los grupos 1 y 5 y del ejemplo
2, bien se pudo haber seleccionado únicamente los grupos 1 y 3 ya que son los que tienen mayor
tamaño.
El siguiente paso es redistribuir los casos restantes en el número de segmentos seleccionados y como
ahora si se conoce el número especifico se utilizará el método de las K-Medias.
Como menciona Santesmases Mestre (2009), el método de las K-media se diferencia de otros métodos
(como el jerárquico) principalmente en que la selección de los grupos no se realiza de forma sistemática
por el programa, sino que el investigador o usuario del programa debe especificar ese número.
Las características de este método que se encuentran en el manual estadístico de SPSS 19 (SPSS Inc,
2010) están:
Para comenzar con el análisis en la ventana de SPSS hay que dirigirse a Analizar ► Clasificar ►
Conglomerados de K medias.
Resultados de Ejemplo 1:
Los resultados para el primer ejemplo del análisis muestran el número de caso que forman cada
segmento, estos datos están en una nueva variable que se creó en la base de datos, con esta información
se puede realizar un gráfico de sectores también conocido como pastel. Como se observa el grupo 1
tiene un tamaño de 12 casos que representa el 12%, el grupo 2 un tamaña de 41 casos que representa el
41% y el 3 grupo un tamaño de 47 caso que representan el 47%, ya que en esta ejemplo el total de casos
eran 100.
Conglomerado 1 12,000
2 41,000
3 47,000
Válidos 100,000
Perdidos ,000
Resultados de Ejemplo 2:
En el caso del segundo ejemplo, si recuerdan resultaban 4 grupos, que con el análisis
Conglomerado 1 8,000
2 4,000
3 82,000
4 66,000
Válidos 160,000
Perdidos ,000
Ahora lo que queda después de obtener los tamaños finales de los segmentos, es encontrar el perfil de
estos segmentos, con las variables demográficas, en este caso se utilizarán edad y sexo.
Para este proceso simplemente se debe creer una tabla cruzada con la nueva variable que contiene la
clasificación de grupos creados con el análisis de K media y cada una de las variables de categorías, en
este caso Sexo y Edad.
Antes de realizar la tabla es importante revisar si las etiquetas de las variables de Edad y Sexo están
correctas y también se recomiendo poner etiquetas a los valores de la variable nueva como por ejemplo
al valor 1 denominarlo “Grupo 1”, al valor 2 denominarlo “Grupo 2” y así sucesivamente dependiendo
del total de segmentos que se hallan encontrado.
Resultados de Ejemplo 1:
Con la información correspondiente al cruce entre la variable nueva de clasificación de los grupos y las
variables de Edad y Sexo se crean los perfiles de segmento identificando cuales son los grupos más
relevantes.
Los datos de la tabla siguiente corresponden al Grupo 1, en donde se puede observar que no existen
diferencia entre el sexo (50% y 50%), en donde si existe diferencia es en los rangos de edades ya que los
hombres están entre los 35 y 45 años (66.7%) y las mujeres entre los 46 y 55 años (100%).
Grupo 1
Sexo
Hombre Mujer
% de la % del N de % de la % del N de
Recuento fila la columna Recuento fila la columna
Los datos de la tabla siguiente muestran los resultados del Grupo 2, en este grupo si existen diferencia
de sexos siendo más hombres que mujeres (53.7% y 46.3% respectivamente), dentro de los rangos de
edades para los hombres, el más representativo es de 18 a 35 años (36.4%), pero también se pueden
juntas los dos primeros rangos de edades (36.4% y 18.2) y mencionar como rango inferior 18 y rango
superior 45 años. Esta agrupación es totalmente a criterio del investigador.
Grupo 2
Sexo
Hombre Mujer
% de la % del N de % de la % del N de
Recuento fila la columna Recuento fila la columna
Para el Grupo 3, los resultados en la tabla siguiente muestran que en este caso también la mayoría son
los hombres con un 66% y dentro de este grupo el rango más grande de edades es de 18 a 35 años con
un 41.9%.
En este caso también se podría unir los dos primeros rangos de edades (de 18 a 35 años y de 36 a 45
años), pero debido que el primero tiene más de 40% se puede trabajar con este para el perfil. Pero una
vez más destacar que esto es a criterio del investigador.
Grupo 3
Sexo
Hombre Mujer
% de la % del N de % de la % del N de
Recuento fila la columna Recuento fila la columna
La información anterior sirve para crear los perfiles de cada segmento a manera de ejemplo y de forma
resumida se muestra como:
Todos Mayores
•En este segmento no hay discrepancia entre hombres y mujeres, pero en lo
que respecta a la edad los hombes en su mayoria rondan entran los 36 y 45
años y las mujeres entre 46 y 55 años.
Jovenes Adultos
•En este grupo esta formado principalmente por hombres jovenes menores de
35 años, aunque también existe una parte importante que son mayores de 35
pero menores de 45 años
Jovenes
•Este grupo también esta formado mayoritariamente por hombres jovenes
entre edades que oscilan desde los 18 a 35 años.
Resultados de Ejemplo 2:
Para el segundo ejemplo resultaban 4 grupos, en este caso la tabla siguiente muestra los resultados del
Grupo 1, la mayoría son hombres (75%) y dentro del rango de edades los de 45 años o menores forman
un 66.6%.
Grupo 1
SEXO
Hombre Mujer
% del N de la % del N de la
Recuento % de la fila columna Recuento % de la fila columna
EDAD De 18 a 35 años 2 100,0% 33,3% 0 ,0% ,0%
Los datos de la tabla siguiente corresponden al Grupo 2, en donde se puede observar que no existen
diferencia entre el sexo (50% y 50%), en donde si existe diferencia es en los rangos de edades ya que los
hombres están entre los 18 y 35 años (100%) y las mujeres son mayores de 55 (100%).
Grupo 2
SEXO
Hombre Mujer
% del N de la % del N de la
Recuento % de la fila columna Recuento % de la fila columna
Con lo que respecta al Grupo 3, en la tabla siguiente se observa que está formado mayoritariamente por
mujeres (56.1%) de las cuales dentro del rango de edades se encuentran entre 18 a 45 años (60.8%). En
esta caso también se podría suprimir solo los mayores de 55 y decir, que el grupo está formado por un
92.3% personas menores de 55 años, pero estas agrupaciones o divisiones son únicamente a criterio del
investigador.
Grupo 3
SEXO
Hombre Mujer
% del N de la % del N de la
Recuento % de la fila columna Recuento % de la fila columna
Y del último, el Grupo 4, la tabla siguiente muestra el grupo está formado principalmente por hombres
(66.7%) y los rangos de edades representativos van de 18 a 45 años (54.5%)
Grupo 4
SEXO
Hombre Mujer
% del N de la % del N de la
Recuento % de la fila columna Recuento % de la fila columna
Con esta información se describen los siguientes perfiles para cada uno de los grupos:
Todos
•Este grupo es un poco diverso ya que no hay diferencias
importante en lo que respecta al sexo, pero en edades los
hombres soy jovenes entre 18 y 35 años y las mujeres
mayores de 55 años
E Jovenes
Grupo formado mayoritariamente por hombres en edades
entre 18 y 35 años.
Está claro que entre más se cuente con variables categóricas o de clasificación ya sean el geográfico,
demográfico, psicográficos o conductuales (ciudad, país, edad, sexo, religión, ingresos, nivel educativo,
profesión, hábitos, hábitos de compra, frecuencias etc) mejor será la creación de los perfiles.
Referencias Bibliográficas.
Santesmases Mestre, M. (2009). DYANE versión 4: Diseño y análisis de encuestas en investigación social y
de mercados. Madrid: Ediciones Pirámide.
Valderrey Sanz, P. (2010). SPSS 17. extracción del conocimiento a partir del análisis de datos. Madrid: RA-