Conglomerados

Análisis de Clusters o Conglomerados
- Clasificación de casos, que poseen las mismas características o variables, en

grupos llamados Clusters
- No hay un orden de variable dependiente e independiente → ve desde un mismo
plano las variables y luego agrupa/ conglomera
- grupos diferentes
- casos dentro de los grupos → iguales
- no es un analisis de reducción de VARIABLES
- es un análisis de reducción de CASOS.
- No es una reducción de variables, es una reducción de casos
● Dos Técnicas:
○ Jerárquicas:
- Agrupar los casos de forma jerárquica calculando mediante medidas
de distancia o medidas de muestreo más pequeñas
- más objetiva, más utilizada para inv. de mercados.
- no hay teoría ni clasificación previa por ello los algoritmos son más
precisos con un software
→ Tecnica de Ward
- Perfiles de consumidor
- La distancia se minimiza a la medida del conglomerado creando
grupos homogéneos y con tamaños similares.
- procedimiento de varianza en el que la D.E ^2 se minimiza a la
medida del conglomerado.
- Genera conglomerados muy similares
- es la más utilizada y tiene un desempeño más homogéneo
→ Distancia euclidiana: algoritmo utilizado en el método de ward

- Distancia entre los casos
- Distancia más pequeña = mayor similitud y viceversa.
- Raíz cuadrada de la suma de diferencias elevadas al cuadrado
○ K-Means (no jerárquico):

- cuándo tamaño muestral es grande y se sabe cuántos clusters se
utilizarán.
- menos objetiva
● Estandarizar variables - las variables no pueden ser de diferentes tipos (métrica,

categórica, cuali, cuanti … etc)
- se puede trabajar con cualquier tipo de variable PERO se escoge un tipo
variable y todas deben ser iguales (si son métricas, todas métricas, si son
categorías, todas categóricas n shit).
- En spss → analizar→ descriptivos → guardar variables estandarizadas
○ Centrar y Reducir → homogeneizar las variables deben ser de una misma
naturaleza
- Centrar= restar su media a cada valor inicial de cada variable
- Reducir = dividir todos sus valores por la desviación estándar.
○ Una variable centrada reducida tiene:
- media = 0
- Desviación = 1 típicamente
→ Debemos tener datos independientes de la unidad o escala de medida y variables con una
misma dispersión y media
OJO: se pueden incluir clusters en las regresiones siempre y cuando sean solo dos
clusters y se pueda hacer variables ficticias
OJO: Siempre fijarnos en la naturaleza de las variables antes de hacer cualquier cosa
- si ya están en una misma medida entonces no hacemos la estandarización
EN SPSS
Si hubiera que estandarizar:
● Estandarizar: Analizar → estadísticos descriptivos → descriptivos → guardar variables
estandarizados como variables
Se hacen dos corridas:

● Exploratoria: se usa para clasificar los casos,
● Confirmatoria: confirmarle al análisis cuantos casos o grupos o clusters vamos a
tener
Fase Exploratoria
● Clusters (jerárquico): Analizar → Clasificar → Clusters Jerárquicos (en el caso de no conocer
los clusters ni conocimiento previo) - marcar: clusters (casos), visualización (ambos)
○ Estadísticos: historial de conglomeración, matriz de proximidades y cluster
de pertenencia (ninguna)
○ Gráficos: dendrograma, todos los clusters, orientación vertical
○ Método (hay muchos métodos): Método de Ward, intervalo→ Distancia Euclídea al
cuadrado, se puede estandarizar ahí mismo si es necesario “estandarizar:
puntuaciones Z”.
○ Guardar : ninguna
→ sale un cuadro HUGE
OUTPUTS
● Matriz de Proximidades: Relaciona numéricamente las características
(variables)
- Menor número (distancia), mayor parecido entre variables.
● Historial de conglomeración
- Como se van formando los clusters
- Muestra los niveles de fusión, cuales son los casos que se agruparon
y formaron un cluster para luego formar el dendrograma
- Se hace en base a etapas:
- pasa a la siguiente etapa el menor valor
- ej: 23-24 → pasa a la siguiente 23// 5-23 → pasa a la siguiente 5
● Dendrograma
- Muestra cómo se van formando los clusters y las distancias
gráficamente entre ellos. Ayuda a establecer rangos de cuantos
clusters hay.
- La línea de arriba representa la distancia
- eje y son los casos
- lo que se busca es poder ver los organismos que menos se parecen
- la ayuda es verlo desde afuera hacia adentro
● Gráfico de témpanos:
○ se divide también en número de clusters
○ se van acabando las líneas a medida qué se van agrupando los
casos
○ estos grupos se ven más a profundidad en el dendograma
○ las columnas blancas significan qué ya no hay agrupacion
Como saber el número de clusters:

● En la tabla del historial de conglomeraciones → Ver la diferencia entre los coeficientes de
una etapa y la etapa anterior y sacar 2-3 opciones y pasar a la fase confirmatoria
● cuando empieza a disminuir la diferencia entonces deja de hacer clusters
Fase Confirmatoria
● Clusters (jerárquico): Analizar → Clasificar → Clusters Jerárquicos → Estadísticos (poner los
rangos de soluciones) → Guardar → rango de soluciones con los clusters previamente
identificados
○ te salen en el SPSS columnas adicionales pero necesitamos saber cuántas
observaciones hay dentro como están distribuidos
● Tabla de frecuencias
- Luego de tener los rangos de clusters que podrían ser (ej: 4 o 5 clusters no
estamos seguros) se hace un análisis de frecuencias para ver cómo están
distribuidas cada cluster. Se debe elegir la opción de número de clusters que
tenga mayor (homogeneidad) en frecuencias (%).
● Regresas al SPSS para borrar la columna que corresponde a la cantidad de clusters
qué no vas a usar
Para cuando pidan nombrar o analizar cada Clusters

● Tablas Cruzadas → usar variables originales (no Z)
- Para ver cómo está conformado cada cluster qué casos están dentro de cada
cluster y poder nombrarlo si lo piden.
● Estadísticos de grupo (Anova ( 3+ clusters), T Independiente (2 clusters))
- Para comparar las medias de cada variable para clusters y nombrarlos.
Ejemplo con variables de diferentes categorías: Estandarización

● A mano en Excel
○ copiar la variable en Excel
○ Analizar descriptivos porque necesitamos la media y la DE
○ en otra columna : (observación- media)/ desviación estándar
● SPSS
○ analizar → estadísticos descriptivos → descriptivos → poner las variables
○ Guardar → guardar valores estandarizados

Conglomerados

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Conglomerados

Cargado por

Copyright:

Formatos disponibles

Análisis de Clusters o Conglomerados

- Clasificación de casos, que poseen las mismas características o variables, en

→ Distancia euclidiana: algoritmo utilizado en el método de ward

○ K-Means (no jerárquico):

● Estandarizar variables - las variables no pueden ser de diferentes tipos (métrica,

Se hacen dos corridas:

Como saber el número de clusters:

Para cuando pidan nombrar o analizar cada Clusters

Ejemplo con variables de diferentes categorías: Estandarización

También podría gustarte