Cluster

La segmentación de la demanda a través del análisis cluster
d
Fases para ejecutar un análisis cluster Agrupar
1. Especificación y validación del método -> requisitos previos Segmentar
de
• Casos >50 es muestra representativa los casos en
funcion
rables
• Variables métricas y homogéneas
2. Obtención del número de segmentos o subgrupos -> Técnicas jerárquicas
¿Cuántos cluster debemos tomar? = dendograma
• Distancia euclídea al cuad5rado
• Método de Ward
• El dendograma nos orienta que debemos coger 2 o 5 grupos.
3. Caracterización de los segmentos o subgrupos-> técnicas no jerárquicas (k medias)
1- Historial de iteraciones
2- 2-Centro de los clusteres finales
3- Tabla ANOVA
4- Nºcasos en cada cluster
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7589629
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
TEMA 3- LA SEGMENTACIÓN DE LA DEMANDA A TRAVÉS DEL ANÁLISIS CLUSTER: CIS 3182
SEXISMO
A menudo se nos olvida, que las diferencias entre hombres y mujeres no son diferencias
innatas, y resulta difícil creer que los niños y las niñas no nacen con papeles sociales
establecidos, sino que son educados de acuerdo con unos roles culturales que también,
respecto al sexo, están en muchos casos estereotipados, reforzando, a veces sin querer y otras
queriéndolo, atributos a un grupo o categoría social, que indudablemente facilitan mucho el
funcionamiento y el "entendimiento” de las cosas, pero también mantienen el reparto
desigual de los espacios y papeles en la vida, que sin duda necesita de análisis y revisión. La
asignación de estos atributos, en muchos casos negativos, pero no siempre, es uno de los
mecanismos sobre los que hay que actuar, en el caso de la discriminación sexual aún vigente,
que tiene como sabemos profundas raíces históricas en la estructura de nuestra actual
sociedad, y por supuesto, en los mecanismos de reproducción social e ideológica. El estudio
3182 del CIS (Percepción social de la violencia sexual) se incluye, en la pregunta 3*, una escala
que permite valorar el grado de sexismo de la población. Se le pide que basándose en la
información suministrada por la misma:
1. Clasifique a los españoles según su grado de rechazo al sexismo.
2. ¿Existe asociación entre presentar un mayor rechazo al sexismo y ser mujer? ¿Es cierto que
los jóvenes* presentan un mayor rechazo al sexismo? Y, por último, ¿existe asociación entre
la clase social del individuo y su rechazo al sexismo?
*Edad (p23): Crear tres tramos de edad de 16-34; de 35 a 59 y más de 60 años. Lo dice
el
*Se trata de una escala psicométrica validada a nivel internacional. Consta de todos los items
que forman la pregunta 3 del cuestionario salvo el ítem 3.4 (“Para no parecer sexistas, muchos enunciado
hombres se inclinan a sobreproteger a las mujeres”)
Fases para ejecutar un análisis cluster
1-Especificación y validación del método -> requisitos previos

• Casos >50 es muestra representativa- SE CUMPLE
• Variables métricas y homogéneas- SE CUMPLE
si lees esto me debes un besito

2-Obtención del número de segmentos o subgrupos -> Técnicas jerárquicas
• Distancia euclídea al cuadrado
• Método de Ward
•
El dendograma nos orienta que debemos coger 2 o 5 grupos.
PASOS: analizar-clasificar-clúster jerárquico
• QUITAR PERDIDOS 8 Y 9
• Metemos todas las variables menos la 4 (lo dice el enunciado) y la 7 tmpoco porque no
existe en las encuestas.
• En gráfico ponemos dendograma
• En método: cambiamos a método de Ward
• Cuando salga el dendograma pinchamos dos veces y ponemos 400 y 500 quitando
marcado la casilla.
Cogemos 2 o 5 porque las flechas tienen la misma distancia (cortamos en 2 o 3

normalmente)

DESPUÉS:
PASO 3: Caracterización de los segmentos o subgrupos-> técnicas no jerárquicas (k medias)
▪ Historial de iteraciones
▪ Centro de los clusteres finales
▪ Tabla ANOVA
▪ Nºcasos en cada cluster
PASOS: Analizar-clasificar-kmedias
• Metemos todas menos la 4= (01,02,03,05 y 06)

• En iterar ponemos 50.
• En guardar : clúster de pertenencia
• En opciones ponemos centro de clusteres y tabla anova
La primera tabla NUNCA SE COGE “centros de clústeres iniciales”
En la tabla de historial de iteraciones: vemos que ya en la etapa 8 se ha llegado a la

convergencia en la etapa 8, es decir, a 0.
Después, vamos a la tabla de “centros de clúster finales” copiamos las preguntas y dicha
tabla.

Las personas del clúster 1, están medianamente en
desacuerdo en que “es díficil trabajar para un jefe que sea
mujer”, están algo más de acuerdo pero no mucho en que
las “mujeres se ofenden muy fácilmente”, y “es raro ver a
mujeres tratadas de manera sexista en la televisión” y “las
mujeres a menudo pierden buenos empleos debido a la
discriminación sexual. Por otro lado, están bastante de
acuerdo en “en el fondo, las mujeres feministas pretenden
que las mujeres tengan más poder que los hombres”
• Cluster 1: personas que toleran el sexismo (ni

aceptan ni rechazan)
En el clúster 2, están bastante de acuerdo con “las

mujeres a menudo pierden buenos empleos debido a la
discriminación sexual”, mientras que en las otras están
bastante desacuerdo.
• Cluster 2: personas que rechazan el sexismo
En el SPSS, en la columna de valores, nos vamos a la última variable que antes hemos
creado y ponemos las dos etiquetas:
Ahora comentamos la tabla ANOVA:
gr
8
Podemos ver que la variable “En el fondo, las mujeres feministas…” (color
azul),es la que más peso ha tenido a la hora de asignar los dos grupos ya que es la que
representa el valor estadístico de prueba F mayor (1757,451).
Por otro lado, la variable con menor peso es “las mujeres a menudo pierden…”
(color lila), con el menor valor estadístico F (75,298).
Luego se comenta la última tabla:

↳e degros
->
gers
El clúster 1, está formado por 887 personas, mientras que el clúster 2, por 1074
t
personas.
Hay que tener en cuenta que los perdidos son altos, llegan a 504.
2. ¿Existe asociación entre presentar un mayor rechazo al sexismo y ser mujer? Sí ¿Es cierto
que los jóvenes* presentan un mayor rechazo al sexismo? Y, por último, ¿existe asociación
entre la clase social del individuo y su rechazo al sexismo?
EE
USOS POSTERIORES
Clúster con el género (no métrica) y clúster edad.
1-Test de la chi-cuadrado
E Ho: las variables son independientes
p-valor: rechazar Ho , las variables están asociadas
2-Tabla de contingencia (residuos tipificados corregidos y RTC)
PASOS: Analizar-Análisis descriptivo-tabla cruzada
• En columna: nºcasos cluster qcl_1

• En fila: sexo
• Estadístico: chi-cuadrado
• En casillas: % columna, estandarizadas corregidos
HIPÓTESIS
• Ho: las variables son independientes (SI SE ACEPTA SE PARA AQUÍ)

• H1: las variables no son independientes

Como p-valor es 0,001<0,05 podemos afirmar que se rechaza Ho, las variables no son
independientes y están asociadas. CONTINUAMOS CON EL ANÁLISIS
-
• SOBREREPRESENTADAS= COLOR AZUL
• INFRAREPRESENTADAS= COLOR LILA
Los hombres están sobrerrepresentados en el clúster 1 “personas que toleran el

sexismo” e infrarrepresentados en el clúster 2 “personas que rechazan el sexismo”.
Las mujeres están infrarrepresentadas en el clúster 1 y sobrerrepresentadas en el 2.
AHORA CON LA EDAD:
Transformar-Recodificar en distintas variables
• 16-34 -> 1
• 35 a 59 -> 2
• Hight 60-> 3
Nombre y etiqueta: edad_recodificada
En el SPSS, vamos a la ultima variable creada y ponemos las etiquetas de antes también.

Luego le damos al botón rápido y a tablas cruzadas (quitamos P22 y ponemos la recodificada
que aparece al final del todo, y aceptamos)
Como p-valor es 0,001<0,05 podemos afirmar que se rechaza Ho, las variables no son
independientes y están asociadas. CONTINUAMOS CON EL ANÁLISIS.
• SOBREREPRESENTADAS= COLOR AZUL

• INFRAREPRESENTADAS= COLOR LILA
Las personas más jóvenes están infrarrepresentadas en el clúster 1 y

sobrerrepresentadas en el clúster 2. Las personas mayores están sobrerrepresentadas
en el clúster 1 e infrarrepresentadas en el clúster 2.
I
SIMULACRO DE EXM: TRÁFICO

Se debe subir al CV: -El archivo de resultados de SPSS: archivo con extensión “.spv” - Archivo
pdf con el procedimiento, tablas y conclusiones
Dentro de la campaña de sensibilización en salud cardiovascular impulsada por el Instituto
Puleva de Nutrición se han detectado importantes carencias en la dieta de los españoles. Esta
iniciativa denominada "Movimiento Corazones Contentos" ha incluido la elaboración de un
test sobre los hábitos de los españoles en el que han participado más de 125.000 personas.
Un proyecto que ha servido para identificar algunas carencias esenciales en su alimentación.
Según los resultados tan sólo un 2,5% de los españoles mantiene una dieta variada con las
cantidades adecuadas de pescado azul, verduras, frutas, legumbres y frutos secos que
aconsejan organismos internacionales como la Organización Mundial de la Salud (OMS) o la
Autoridad Europea de Seguridad Alimentaria (EFSA). Destaca el escaso consumo de pescado,
principal fuente de ácidos grasos Omega 3, que contribuyen al funcionamiento normal del
corazón. Los expertos recomiendan tomar unas tres raciones de este alimento a la semana por
su alto contenido en estos ácidos grasos que constituyen un seguro de vida tanto para nuestro
corazón. Los datos muestran que ocho de cada diez personas no toman el pescado suficiente,
de hecho, un 43% reconoce que consume dos o menos raciones a la semana.
1. Basándose en los datos proporcionados por la pregunta 15, incluida en el barómetro de

marzo de 2017, ¿podría decirnos cómo se agrupan los alimentos en función de la frecuencia
de consumo manifestada por los encuestados? ¿De los grupos de alimentos resultantes del
análisis podría decir cuál de ellos tienen la mayor y menor frecuencia de consumo
respectivamente? Análisis factorial porque se agrupan variables
2. Basándose en los datos proporcionados por la pregunta 15, incluida en el barómetro de

marzo de 2017, ¿podría agrupar a los ciudadanos en base a su dieta? ¿Podría afirmarse que
los grupos encontrados presentan características diferentes en cuanto a sexo (p30) y a estado
civil (p36)? Análisis clúster porque se agrupan casos
1. Especificación y validación del método -> requisitos previos

• Casos >50 es muestra representativa
• Variables métricas y homogéneas
2. Obtención del número de segmentos o subgrupos -> Técnicas jerárquicas
• Distancia euclídea al cuad5rado
• Método de Ward
• El dendograma nos orienta que debemos coger 2 o 5 grupos.

(Análisis clúster en el exm vale 6 o 7 puntos.)
Primero quitamos perdidos “8” y “9” en la P15
PASOS: analizar-clasificar-clúster jerárquico
• Metemos todas las variables

• En gráfico ponemos dendograma
• En método: cambiamos a método de Ward
• Cuando salga el dendograma pinchamos dos veces y ponemos 400 y 500 quitando
marcado la casilla.
• Probamos a realizar el corte a 3 y 4.
DESPUÉS:

PASO 3: Caracterización de los segmentos o subgrupos-> técnicas no jerárquicas (k medias)
▪ Historial de iteraciones (que se llegue a la convergentcia = 0)

▪ Centro de los clusteres finales (IMPORTANTÍSIMO)
▪ Tabla ANOVA
▪ Nºcasos en cada cluster
En el examen, aunque nos doga que se clasifica en dos grupos tenemosque hacer el
dendograma y decir que también podría hacerse con 3 o 4.
Ahora vamos a realizarlo con dos grupos en lugar de 3.
PASOS: Analizar-clasificar-kmedias
• En iterar ponemos 40 por ejemplo.

• En guardar : clúster de pertenencia
• En opciones ponemos centro de clusteres y tabla anova
La primera tabla NUNCA SE COGE “centros de clústeres iniciales”
En la tabla de historial de iteraciones: vemos que ya en la etapa 6 se ha llegado a la

convergencia en la etapa 6, es decir, a 0.
AHORA PONEMOS CAPTURA DE LA PREGUNTA:

Cluster 1: individuos más golosos
Las personas del cluster 1 consumen a diario leche y derivados y cereales, además,
consumen varias veces a la semana carnes, pescados, huevos, verduras y hortalizas, frutas
frescas y dulces y pastelería.
Cluster 2: individuos más sanos
Las personas que pertenecen al cluster 2 consumen varias veces a la semana carnes,
pescados, leches y derivados, verduras y hortalizas, frutas frescas y cereales. Además,
consumen una vez a la semana huevos y los dulces y pastelería menos de una vez a la semana.
RESPECTO A LA TABLA ANOVA
ge
o
La variable que más peso ha tenido a la hora de generar los grupos ha sido la de dulces,
y la variable que menos peso ha tenido a sido la de pescados, ya que presenta un estadístico F
menor.
El clúster 1 está formado por 1396 individuos, mientras que el clúster dos está formado por 1043
individuos.
Los perdidos no toman un valor muy alto.
USOS POSTERIORES
• Primero pasamos el Test de la chi-cuadrado → H0: las variables son independientes //

p-valor < 0,05 rechazo H0, las variables están asociadas.
• Después, la Tabla de contingencia → Residuos tipificados corregidos
¿Podría afirmarse que los grupos encontrados presentan características diferentes en cuanto
a sexo (p30) y a estado civil (p36)?
• Describir a los segmentos encontrados en base al género y al estado civil

• Primero cruzar el clúster de pertenencia X sexo P30
• QUITAR PERDIDOS
PASOS: Analizar-Análisis descriptivo-tabla cruzada
• En columna: nºcasos cluster qcl_1

• En fila: sexo
• Estadístico: chi-cuadrado
• En casillas: % columna, estandarizadas corregidos

Respecto a la Tabla Cruzada
00
sobrerrepresentados en individuos sanos.

fog
Los hombres están infrarrepresentados en el cluster 1 “individuos golosos” y
Las mujeres están sobrerrepresentadas en inidviduos golosos e infrarrepresentadas.

Podemos decir que las mujeres son más golosas
Los hombres tienden a pertenecer en mayor medida… las mujeres tienden a consumir
más hidratos de carbono.
resentados
Después: Cruzar el clúster de pertenencia X estado civil p36
En
alto
e
Erpost
-
Los solteros tienden a ser más golosos, están sobrerrepresentados en el clúster 1, en

cambio, los casados y los viudos están sobrerrepresentados en el clúster 2, individuos sanos.

Cluster

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Cluster

Cargado por

Copyright:

Formatos disponibles

La segmentación de la demanda a través del análisis cluster

1. Clasifique a los españoles según su grado de rechazo al sexismo.

hombres se inclinan a sobreproteger a las mujeres”)

Fases para ejecutar un análisis cluster

1-Especificación y validación del método -> requisitos previos

si lees esto me debes un besito

PASOS: analizar-clasificar-clúster jerárquico

Cogemos 2 o 5 porque las flechas tienen la misma distancia (cortamos en 2 o 3

si lees esto me debes un besito

PASO 3: Caracterización de los segmentos o subgrupos-> técnicas no jerárquicas (k medias)

• Metemos todas menos la 4= (01,02,03,05 y 06)

La primera tabla NUNCA SE COGE “centros de clústeres iniciales”

En la tabla de historial de iteraciones: vemos que ya en la etapa 8 se ha llegado a la

si lees esto me debes un besito

• Cluster 1: personas que toleran el sexismo (ni

En el clúster 2, están bastante de acuerdo con “las

• Cluster 2: personas que rechazan el sexismo

si lees esto me debes un besito

Clúster con el género (no métrica) y clúster edad.

E Ho: las variables son independientes

p-valor: rechazar Ho , las variables están asociadas

2-Tabla de contingencia (residuos tipificados corregidos y RTC)

PASOS: Analizar-Análisis descriptivo-tabla cruzada

• En columna: nºcasos cluster qcl_1

• Ho: las variables son independientes (SI SE ACEPTA SE PARA AQUÍ)

si lees esto me debes un besito

Los hombres están sobrerrepresentados en el clúster 1 “personas que toleran el

Las mujeres están infrarrepresentadas en el clúster 1 y sobrerrepresentadas en el 2.

AHORA CON LA EDAD:

Transformar-Recodificar en distintas variables

Nombre y etiqueta: edad_recodificada

si lees esto me debes un besito

• SOBREREPRESENTADAS= COLOR AZUL

Las personas más jóvenes están infrarrepresentadas en el clúster 1 y

SIMULACRO DE EXM: TRÁFICO

1. Basándose en los datos proporcionados por la pregunta 15, incluida en el barómetro de

2. Basándose en los datos proporcionados por la pregunta 15, incluida en el barómetro de

1. Especificación y validación del método -> requisitos previos

si lees esto me debes un besito

Primero quitamos perdidos “8” y “9” en la P15

PASOS: analizar-clasificar-clúster jerárquico

• Metemos todas las variables

si lees esto me debes un besito

▪ Historial de iteraciones (que se llegue a la convergentcia = 0)

Ahora vamos a realizarlo con dos grupos en lugar de 3.

• En iterar ponemos 40 por ejemplo.

La primera tabla NUNCA SE COGE “centros de clústeres iniciales”

En la tabla de historial de iteraciones: vemos que ya en la etapa 6 se ha llegado a la

AHORA PONEMOS CAPTURA DE LA PREGUNTA:

si lees esto me debes un besito

Cluster 2: individuos más sanos

RESPECTO A LA TABLA ANOVA

Los perdidos no toman un valor muy alto.

• Primero pasamos el Test de la chi-cuadrado → H0: las variables son independientes //

• Describir a los segmentos encontrados en base al género y al estado civil

PASOS: Analizar-Análisis descriptivo-tabla cruzada

• En columna: nºcasos cluster qcl_1

si lees esto me debes un besito

sobrerrepresentados en individuos sanos.

Las mujeres están sobrerrepresentadas en inidviduos golosos e infrarrepresentadas.

Los solteros tienden a ser más golosos, están sobrerrepresentados en el clúster 1, en

si lees esto me debes un besito

También podría gustarte