Está en la página 1de 15

La segmentación de la demanda a través del análisis cluster

d
Fases para ejecutar un análisis cluster Agrupar
1. Especificación y validación del método -> requisitos previos Segmentar
de
• Casos >50 es muestra representativa los casos en
funcion

rables
• Variables métricas y homogéneas
2. Obtención del número de segmentos o subgrupos -> Técnicas jerárquicas
¿Cuántos cluster debemos tomar? = dendograma
• Distancia euclídea al cuad5rado
• Método de Ward
• El dendograma nos orienta que debemos coger 2 o 5 grupos.
3. Caracterización de los segmentos o subgrupos-> técnicas no jerárquicas (k medias)
1- Historial de iteraciones
2- 2-Centro de los clusteres finales
3- Tabla ANOVA
4- Nºcasos en cada cluster

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7589629

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
TEMA 3- LA SEGMENTACIÓN DE LA DEMANDA A TRAVÉS DEL ANÁLISIS CLUSTER: CIS 3182

SEXISMO

A menudo se nos olvida, que las diferencias entre hombres y mujeres no son diferencias
innatas, y resulta difícil creer que los niños y las niñas no nacen con papeles sociales
establecidos, sino que son educados de acuerdo con unos roles culturales que también,

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
respecto al sexo, están en muchos casos estereotipados, reforzando, a veces sin querer y otras
queriéndolo, atributos a un grupo o categoría social, que indudablemente facilitan mucho el
funcionamiento y el "entendimiento” de las cosas, pero también mantienen el reparto
desigual de los espacios y papeles en la vida, que sin duda necesita de análisis y revisión. La
asignación de estos atributos, en muchos casos negativos, pero no siempre, es uno de los
mecanismos sobre los que hay que actuar, en el caso de la discriminación sexual aún vigente,
que tiene como sabemos profundas raíces históricas en la estructura de nuestra actual
sociedad, y por supuesto, en los mecanismos de reproducción social e ideológica. El estudio
3182 del CIS (Percepción social de la violencia sexual) se incluye, en la pregunta 3*, una escala
que permite valorar el grado de sexismo de la población. Se le pide que basándose en la
información suministrada por la misma:

1. Clasifique a los españoles según su grado de rechazo al sexismo.

2. ¿Existe asociación entre presentar un mayor rechazo al sexismo y ser mujer? ¿Es cierto que
los jóvenes* presentan un mayor rechazo al sexismo? Y, por último, ¿existe asociación entre
la clase social del individuo y su rechazo al sexismo?

*Edad (p23): Crear tres tramos de edad de 16-34; de 35 a 59 y más de 60 años. Lo dice
el
*Se trata de una escala psicométrica validada a nivel internacional. Consta de todos los items
que forman la pregunta 3 del cuestionario salvo el ítem 3.4 (“Para no parecer sexistas, muchos enunciado

hombres se inclinan a sobreproteger a las mujeres”)

Fases para ejecutar un análisis cluster

1-Especificación y validación del método -> requisitos previos


• Casos >50 es muestra representativa- SE CUMPLE
• Variables métricas y homogéneas- SE CUMPLE

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7589629

si lees esto me debes un besito


2-Obtención del número de segmentos o subgrupos -> Técnicas jerárquicas
¿Cuántos cluster debemos tomar? = dendograma
• Distancia euclídea al cuadrado
• Método de Ward

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
El dendograma nos orienta que debemos coger 2 o 5 grupos.

PASOS: analizar-clasificar-clúster jerárquico

• QUITAR PERDIDOS 8 Y 9
• Metemos todas las variables menos la 4 (lo dice el enunciado) y la 7 tmpoco porque no
existe en las encuestas.
• En gráfico ponemos dendograma
• En método: cambiamos a método de Ward
• Cuando salga el dendograma pinchamos dos veces y ponemos 400 y 500 quitando
marcado la casilla.

Cogemos 2 o 5 porque las flechas tienen la misma distancia (cortamos en 2 o 3


normalmente)

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7589629

si lees esto me debes un besito


DESPUÉS:

PASO 3: Caracterización de los segmentos o subgrupos-> técnicas no jerárquicas (k medias)

▪ Historial de iteraciones
▪ Centro de los clusteres finales

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
▪ Tabla ANOVA
▪ Nºcasos en cada cluster

PASOS: Analizar-clasificar-kmedias

• Metemos todas menos la 4= (01,02,03,05 y 06)


• En iterar ponemos 50.
• En guardar : clúster de pertenencia
• En opciones ponemos centro de clusteres y tabla anova

La primera tabla NUNCA SE COGE “centros de clústeres iniciales”

En la tabla de historial de iteraciones: vemos que ya en la etapa 8 se ha llegado a la


convergencia en la etapa 8, es decir, a 0.

Después, vamos a la tabla de “centros de clúster finales” copiamos las preguntas y dicha
tabla.

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7589629

si lees esto me debes un besito


Las personas del clúster 1, están medianamente en
desacuerdo en que “es díficil trabajar para un jefe que sea
mujer”, están algo más de acuerdo pero no mucho en que
las “mujeres se ofenden muy fácilmente”, y “es raro ver a
mujeres tratadas de manera sexista en la televisión” y “las
mujeres a menudo pierden buenos empleos debido a la
discriminación sexual. Por otro lado, están bastante de
acuerdo en “en el fondo, las mujeres feministas pretenden
que las mujeres tengan más poder que los hombres”

• Cluster 1: personas que toleran el sexismo (ni


aceptan ni rechazan)

En el clúster 2, están bastante de acuerdo con “las


mujeres a menudo pierden buenos empleos debido a la
discriminación sexual”, mientras que en las otras están
bastante desacuerdo.

• Cluster 2: personas que rechazan el sexismo

En el SPSS, en la columna de valores, nos vamos a la última variable que antes hemos
creado y ponemos las dos etiquetas:

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7589629

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Ahora comentamos la tabla ANOVA:

gr
8
Podemos ver que la variable “En el fondo, las mujeres feministas…” (color
azul),es la que más peso ha tenido a la hora de asignar los dos grupos ya que es la que
representa el valor estadístico de prueba F mayor (1757,451).
Por otro lado, la variable con menor peso es “las mujeres a menudo pierden…”
(color lila), con el menor valor estadístico F (75,298).
Luego se comenta la última tabla:

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7589629

si lees esto me debes un besito


↳e degros
->
gers

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
El clúster 1, está formado por 887 personas, mientras que el clúster 2, por 1074

t
personas.
Hay que tener en cuenta que los perdidos son altos, llegan a 504.

2. ¿Existe asociación entre presentar un mayor rechazo al sexismo y ser mujer? Sí ¿Es cierto
que los jóvenes* presentan un mayor rechazo al sexismo? Y, por último, ¿existe asociación
entre la clase social del individuo y su rechazo al sexismo?

EE
USOS POSTERIORES

Clúster con el género (no métrica) y clúster edad.

1-Test de la chi-cuadrado

E Ho: las variables son independientes

p-valor: rechazar Ho , las variables están asociadas

2-Tabla de contingencia (residuos tipificados corregidos y RTC)

PASOS: Analizar-Análisis descriptivo-tabla cruzada

• En columna: nºcasos cluster qcl_1


• En fila: sexo
• Estadístico: chi-cuadrado
• En casillas: % columna, estandarizadas corregidos

HIPÓTESIS

• Ho: las variables son independientes (SI SE ACEPTA SE PARA AQUÍ)


• H1: las variables no son independientes

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7589629

si lees esto me debes un besito


Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Como p-valor es 0,001<0,05 podemos afirmar que se rechaza Ho, las variables no son
independientes y están asociadas. CONTINUAMOS CON EL ANÁLISIS

-
• SOBREREPRESENTADAS= COLOR AZUL
• INFRAREPRESENTADAS= COLOR LILA

Los hombres están sobrerrepresentados en el clúster 1 “personas que toleran el


sexismo” e infrarrepresentados en el clúster 2 “personas que rechazan el sexismo”.

Las mujeres están infrarrepresentadas en el clúster 1 y sobrerrepresentadas en el 2.

AHORA CON LA EDAD:

Transformar-Recodificar en distintas variables

• 16-34 -> 1
• 35 a 59 -> 2
• Hight 60-> 3

Nombre y etiqueta: edad_recodificada

En el SPSS, vamos a la ultima variable creada y ponemos las etiquetas de antes también.

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7589629

si lees esto me debes un besito


Luego le damos al botón rápido y a tablas cruzadas (quitamos P22 y ponemos la recodificada
que aparece al final del todo, y aceptamos)

Como p-valor es 0,001<0,05 podemos afirmar que se rechaza Ho, las variables no son
independientes y están asociadas. CONTINUAMOS CON EL ANÁLISIS.

• SOBREREPRESENTADAS= COLOR AZUL


• INFRAREPRESENTADAS= COLOR LILA

Las personas más jóvenes están infrarrepresentadas en el clúster 1 y


sobrerrepresentadas en el clúster 2. Las personas mayores están sobrerrepresentadas
en el clúster 1 e infrarrepresentadas en el clúster 2.

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7589629

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
I

SIMULACRO DE EXM: TRÁFICO


Se debe subir al CV: -El archivo de resultados de SPSS: archivo con extensión “.spv” - Archivo
pdf con el procedimiento, tablas y conclusiones

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Dentro de la campaña de sensibilización en salud cardiovascular impulsada por el Instituto
Puleva de Nutrición se han detectado importantes carencias en la dieta de los españoles. Esta
iniciativa denominada "Movimiento Corazones Contentos" ha incluido la elaboración de un
test sobre los hábitos de los españoles en el que han participado más de 125.000 personas.
Un proyecto que ha servido para identificar algunas carencias esenciales en su alimentación.
Según los resultados tan sólo un 2,5% de los españoles mantiene una dieta variada con las
cantidades adecuadas de pescado azul, verduras, frutas, legumbres y frutos secos que
aconsejan organismos internacionales como la Organización Mundial de la Salud (OMS) o la
Autoridad Europea de Seguridad Alimentaria (EFSA). Destaca el escaso consumo de pescado,
principal fuente de ácidos grasos Omega 3, que contribuyen al funcionamiento normal del
corazón. Los expertos recomiendan tomar unas tres raciones de este alimento a la semana por
su alto contenido en estos ácidos grasos que constituyen un seguro de vida tanto para nuestro
corazón. Los datos muestran que ocho de cada diez personas no toman el pescado suficiente,
de hecho, un 43% reconoce que consume dos o menos raciones a la semana.

1. Basándose en los datos proporcionados por la pregunta 15, incluida en el barómetro de


marzo de 2017, ¿podría decirnos cómo se agrupan los alimentos en función de la frecuencia
de consumo manifestada por los encuestados? ¿De los grupos de alimentos resultantes del
análisis podría decir cuál de ellos tienen la mayor y menor frecuencia de consumo
respectivamente? Análisis factorial porque se agrupan variables

2. Basándose en los datos proporcionados por la pregunta 15, incluida en el barómetro de


marzo de 2017, ¿podría agrupar a los ciudadanos en base a su dieta? ¿Podría afirmarse que
los grupos encontrados presentan características diferentes en cuanto a sexo (p30) y a estado
civil (p36)? Análisis clúster porque se agrupan casos

1. Especificación y validación del método -> requisitos previos


• Casos >50 es muestra representativa
• Variables métricas y homogéneas
2. Obtención del número de segmentos o subgrupos -> Técnicas jerárquicas
¿Cuántos cluster debemos tomar? = dendograma
• Distancia euclídea al cuad5rado
• Método de Ward
• El dendograma nos orienta que debemos coger 2 o 5 grupos.

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7589629

si lees esto me debes un besito


Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
(Análisis clúster en el exm vale 6 o 7 puntos.)

Primero quitamos perdidos “8” y “9” en la P15

PASOS: analizar-clasificar-clúster jerárquico

• Metemos todas las variables


• En gráfico ponemos dendograma
• En método: cambiamos a método de Ward
• Cuando salga el dendograma pinchamos dos veces y ponemos 400 y 500 quitando
marcado la casilla.
• Probamos a realizar el corte a 3 y 4.

DESPUÉS:

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7589629

si lees esto me debes un besito


PASO 3: Caracterización de los segmentos o subgrupos-> técnicas no jerárquicas (k medias)

▪ Historial de iteraciones (que se llegue a la convergentcia = 0)


▪ Centro de los clusteres finales (IMPORTANTÍSIMO)
▪ Tabla ANOVA

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
▪ Nºcasos en cada cluster

En el examen, aunque nos doga que se clasifica en dos grupos tenemosque hacer el
dendograma y decir que también podría hacerse con 3 o 4.

Ahora vamos a realizarlo con dos grupos en lugar de 3.

PASOS: Analizar-clasificar-kmedias

• En iterar ponemos 40 por ejemplo.


• En guardar : clúster de pertenencia
• En opciones ponemos centro de clusteres y tabla anova

La primera tabla NUNCA SE COGE “centros de clústeres iniciales”

En la tabla de historial de iteraciones: vemos que ya en la etapa 6 se ha llegado a la


convergencia en la etapa 6, es decir, a 0.

AHORA PONEMOS CAPTURA DE LA PREGUNTA:

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7589629

si lees esto me debes un besito


Cluster 1: individuos más golosos

Las personas del cluster 1 consumen a diario leche y derivados y cereales, además,
consumen varias veces a la semana carnes, pescados, huevos, verduras y hortalizas, frutas
frescas y dulces y pastelería.

Cluster 2: individuos más sanos

Las personas que pertenecen al cluster 2 consumen varias veces a la semana carnes,
pescados, leches y derivados, verduras y hortalizas, frutas frescas y cereales. Además,
consumen una vez a la semana huevos y los dulces y pastelería menos de una vez a la semana.

RESPECTO A LA TABLA ANOVA

ge
o
La variable que más peso ha tenido a la hora de generar los grupos ha sido la de dulces,
y la variable que menos peso ha tenido a sido la de pescados, ya que presenta un estadístico F
menor.

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7589629

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
El clúster 1 está formado por 1396 individuos, mientras que el clúster dos está formado por 1043
individuos.

Los perdidos no toman un valor muy alto.

USOS POSTERIORES

• Primero pasamos el Test de la chi-cuadrado → H0: las variables son independientes //


p-valor < 0,05 rechazo H0, las variables están asociadas.
• Después, la Tabla de contingencia → Residuos tipificados corregidos

¿Podría afirmarse que los grupos encontrados presentan características diferentes en cuanto
a sexo (p30) y a estado civil (p36)?

• Describir a los segmentos encontrados en base al género y al estado civil


• Primero cruzar el clúster de pertenencia X sexo P30
• QUITAR PERDIDOS

PASOS: Analizar-Análisis descriptivo-tabla cruzada

• En columna: nºcasos cluster qcl_1


• En fila: sexo
• Estadístico: chi-cuadrado
• En casillas: % columna, estandarizadas corregidos

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7589629

si lees esto me debes un besito


Respecto a la Tabla Cruzada

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
00

sobrerrepresentados en individuos sanos.


fog
Los hombres están infrarrepresentados en el cluster 1 “individuos golosos” y

Las mujeres están sobrerrepresentadas en inidviduos golosos e infrarrepresentadas.


Podemos decir que las mujeres son más golosas

Los hombres tienden a pertenecer en mayor medida… las mujeres tienden a consumir
más hidratos de carbono.

resentados
Después: Cruzar el clúster de pertenencia X estado civil p36

En
alto
e

Erpost
-

Los solteros tienden a ser más golosos, están sobrerrepresentados en el clúster 1, en


cambio, los casados y los viudos están sobrerrepresentados en el clúster 2, individuos sanos.

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7589629

si lees esto me debes un besito

También podría gustarte