TIF Intro - Analisis Por Conglomerados

“AÑO DE LA UNIDAD, LA PAZ Y EL DESARROLLO”
UNIVERSIDAD NACIONAL DE SAN AGUSTÍN
FACULTAD DE PRODUCCIÓN Y SERVICIOS
ESCUELA PROFESIONAL DE INGENIERÍA INDUSTRIAL
CURSO: INTRODUCCIÓN A LA METODOLOGÍA

DE LA INVESTIGACIÓN CIENTÍFICA
DOCENTE: ING. MARTHA POSTIGO ZUÑIGA
GRUPO 2: JOURNALITOS
INTEGRANTES:
● Alfaro Buiza, Arturo Adolfo
● Cahuapaza Sanca, Héctor Aníbal
● Cuayla Marca, Alberth Renzo
● Mayta Bustamante Luis Fernando
● Soto Laura Yamilet Lucero
AREQUIPA - PERÚ
2023
TABLA DE CONTENIDOS
1. DEFINICIÓN........................................................................................................................ 2
2. FASES DE APLICACIÓN.................................................................................................... 2
2.1 Elección de Variables................................................................................................... 2
2.2 Métodos de Aglomeración............................................................................................2
2.3 Algoritmos de Clasificación.......................................................................................... 3
2.3.1. ALGORITMOS DE CONGLOMERACIÓN......................................................... 3
2.4 Elección de Medidas de Distancias..............................................................................3
2.5 Obtención de conglomerados...................................................................................... 3
2.6 Interpretación y presentación de resultados................................................................ 4
3. Caso de Aplicación............................................................................................................ 5
Planteamiento del problema
Se registraban las opiniones de las personas sobre ir de compras. Había seis variables
de actitud, cada una de ellas calificada en una escala del 1 al 7, donde el 1 significaba
"Estar en total desacuerdo" y el 7 significaba "Estar totalmente de acuerdo"................... 5
Determinar el número de conglomerados.......................................................................... 6
4. Conclusiones y Recomendaciones................................................................................23
5. Bibliografía....................................................................................................................... 24
1
1. DEFINICIÓN
El análisis por conglomerados es una técnica estadística utilizada en la minería de datos y

la estadística multivariada que agrupa objetos o individuos similares en conjuntos o
clústeres basados en similitudes o diferencias en sus características observadas. Esta
técnica busca identificar patrones y estructuras inherentes a los datos, permitiendo la
exploración y clasificación de datos no etiquetados. Se utiliza en diversos campos, como la
biología, la psicología, la economía y la ingeniería, para segmentar datos en grupos
homogéneos y comprender la estructura subyacente de los datos, lo que facilita el análisis y
la toma de decisiones informadas.
Tiene por objeto agrupar elementos en grupos homogéneos en función de las similitudes
entre ellos. Detecta grupos internamente homogéneos( y heterogéneos entre sí
También conocido como: clasificación automática, clasificación no supervisada,
reconocimiento de patrones sin supervisión.
2. FASES DE APLICACIÓN
2.1 Elección de Variables
La elección adecuada de variables es una etapa fundamental en el análisis por

conglomerados, ya que determina en gran medida la calidad y utilidad de los resultados
obtenidos. Las variables seleccionadas deben ser relevantes para el problema de
investigación y capturar las características esenciales de los elementos analizados.
En el caso de la elección de variables, se deben considerar aspectos como la naturaleza de

las variables (categóricas o continuas), la escala de medición, la disponibilidad de datos y la
relevancia teórica. Es importante destacar que el software SPSS ofrece diversas opciones
para manejar diferentes tipos de variables y realizar análisis de conglomerados en función
de las necesidades específicas del estudio.
Para llevar a cabo la elección de variables, es recomendable realizar un análisis exploratorio

de los datos previo al análisis de conglomerados. Esto implica examinar la distribución de
las variables, identificar posibles valores atípicos y evaluar la correlación entre las variables.
Estos pasos ayudarán a seleccionar las variables más adecuadas y descartar aquellas que
2
no aporten información significativa.
En resumen, la elección de variables en la fase de aplicación del análisis por

conglomerados es un proceso crítico que requiere considerar cuidadosamente las
características de los datos y los objetivos de investigación. La utilización del software
SPSS facilita esta tarea al ofrecer herramientas y funciones específicas para la selección y
manipulación de variables, lo que contribuye a obtener resultados precisos y confiables en
el análisis de conglomerados.
2.2 Métodos de Aglomeración

Una vez que se ha realizado la elección de variables en el análisis por conglomerados, es
necesario seleccionar el método de aglomeración adecuado. Los métodos de aglomeración
se dividen en dos categorías principales: métodos jerárquicos y métodos no jerárquicos.
Los métodos jerárquicos son aquellos que construyen una estructura de clusters en forma
de árbol o dendrograma, lo que permite visualizar la relación entre los elementos y los
clusters en diferentes niveles de agregación. Estos métodos se basan en la similitud o
distancia entre los elementos para determinar la agrupación. Algunos ejemplos de métodos
jerárquicos incluyen:
Método de Ward: Este método minimiza la varianza dentro de cada cluster. En cada paso,
se fusionan los clusters que minimizan el incremento total de la suma de cuadrados dentro
de los clusters resultantes.
Método del vecino más cercano: En este método, se calcula la distancia entre cada par de
elementos y se fusionan los elementos más cercanos en cada paso hasta formar los
clusters.
Por otro lado, los métodos no jerárquicos, también conocidos como métodos particionales,
buscan asignar directamente cada elemento a un único cluster, sin construir una estructura
jerárquica. Estos métodos se basan en criterios de optimización para determinar la
asignación de elementos a clusters. Algunos ejemplos de métodos no jerárquicos son:
3
K-means: Este método busca formar k clusters, donde k es un número predefinido.
Comienza asignando aleatoriamente k centroides y luego asigna cada elemento al centroide
más cercano. A continuación, actualiza los centroides y repite el proceso hasta converger a
una solución estable.
Análisis de densidad basado en clustering (DBSCAN): DBSCAN agrupa elementos en

función de la densidad de puntos en el espacio de características. Identifica puntos
centrales que tienen un número mínimo de vecinos dentro de una distancia específica y
expande clusters a partir de estos puntos.
2.3 Algoritmos de Clasificación
2.3.1. ALGORITMOS DE CONGLOMERACIÓN

De la elección del algoritmo de clasificación dependen el número y composición de
los conglomerados obtenidos. El algoritmo es la forma particular de cálculo
empleado en los métodos descritos.
● Algoritmos métodos jerárquicos
Los métodos jerárquicos van generando grupos en cada una de las fases del
proceso buscando el número de clúster que haga una agrupación óptima.
● Algoritmos de métodos no jerárquicos
Los métodos no jerárquicos categorizan los elementos según un número de clúster
dado. Necesitan que el número de particiones esté fijado a priori.
2.4 Elección de Medidas de Distancias

Los criterios para decidir qué objeto se incluye o no en un conglomerado se utilizan matrices
de distancias o similaridades entre los pares de objetos.
● Las más empleadas para variables cuantitativas son las distancias euclídea,
euclídea al cuadrado, “city block” y la correlación.
● Las más empleadas para variables binarias son la distancia euclídea junto con el
coeficiente de Jaccard.
● La más empleada para variables cualitativas es la chi-cuadrado.
4
2.5 Obtención de conglomerados
Antes de interpretar los resultados hay que decidir el número adecuado de éstos
- Si el método es jerárquico: se puede elegir el número de conglomerados adecuado
posteriormente al análisis.
- Si el método es no jerárquico: la elección del número de conglomerados adecuado
es previa a la ejecución del análisis.
En algunos casos, es necesario especificar previamente el número de conglomerados
deseados. En otros casos, los algoritmos pueden determinar automáticamente el número
óptimo de conglomerados.
2.6 Interpretación y presentación de resultados

- Examinar las características comunes dentro de cada conglomerado y las
diferencias entre los conglomerados. Se pueden utilizar diversas técnicas de
análisis, como la revisión de perfiles de características, la identificación de las
características más discriminantes o la comparación de estadísticas descriptivas
entre conglomerados.
- Determinar la calidad y significado de los conglomerados obtenidos. Esto puede
implicar medidas de validación internas o externas.
Se pueden presentar los resultados de las siguientes maneras:
- Métodos jerárquicos:
a) Historial de agrupación
b) Grupo de pertenencia
- Métodos no jerárquicos:
1. Centros de grupo
2. ANOVA
5
3. Caso de Aplicación
Planteamiento del problema

Se registraban las opiniones de las personas sobre ir de compras. Había seis
variables de actitud, cada una de ellas calificada en una escala del 1 al 7, donde el 1
significaba "Estar en total desacuerdo" y el 7 significaba "Estar totalmente de
acuerdo".
Las variables eran las siguientes:
● "Ir de compras es divertido."

● "Ir de compras es malo para su presupuesto."
● "Cuando voy de compras aprovecho para comer fuera."
● "Cuando voy de compras busco las mejores ofertas."
● "No me interesa ir de compras."
● "Puede ahorrar mucho dinero si compara precios."
El objetivo era analizar esta base de datos y encontrar patrones en las respuestas de
las personas. Para lograrlo, se decidió realizar un análisis por conglomerados, una
técnica que agrupa a las personas en clusters según la similitud de sus respuestas.
Tabla 1 - Base de Datos

n v1 v2 v3 v4 v5 v6 v7
1 6,00 4,00 7,00 3,00 2,00 3,00 20,00
2 2,00 3,00 1,00 4,00 5,00 4,00 23,00
3 7,00 2,00 6,00 4,00 1,00 3,00 21,00
4 4,00 6,00 4,00 5,00 3,00 6,00 25,00
5 1,00 3,00 2,00 2,00 6,00 4,00 22,00
6 6,00 4,00 6,00 3,00 3,00 4,00 19,00
7 5,00 3,00 6,00 3,00 3,00 4,00 19,00
8 7,00 3,00 7,00 4,00 1,00 4,00 20,00
9 2,00 4,00 3,00 3,00 6,00 3,00 23,00
10 3,00 5,00 3,00 6,00 4,00 6,00 26,00
11 1,00 3,00 2,00 3,00 5,00 3,00 24,00
12 5,00 4,00 5,00 4,00 2,00 4,00 22,00
13 2,00 2,00 1,00 5,00 4,00 4,00 25,00
14 4,00 6,00 4,00 6,00 4,00 7,00 26,00
15 6,00 5,00 4,00 2,00 1,00 4,00 21,00
16 3,00 5,00 4,00 6,00 4,00 7,00 25,00
17 4,00 4,00 7,00 2,00 2,00 5,00 20,00
18 3,00 7,00 2,00 6,00 4,00 3,00 24,00
19 4,00 6,00 3,00 7,00 2,00 7,00 27,00
20 2,00 3,00 2,00 4,00 7,00 2,00 23,00
Elaboración Propia
6
Determinar el número de conglomerados
Paso 1: Analizar → Clasificar → Clúster Jerárquico
Imagen 1 - captura de programa paso 1
Fuente: Elaboración propia
Paso 2: Designamos desde “v1” a “v6” como variables y en la sección “Etiquetar los
casos mediante” colocamos a “n”
7
Paso 3: En la pestaña “Estadísticos” marcamos las opciones “Historial de
conglomeración”, “Matriz de proximidades” y “Ninguna”
Paso 4: En la pestaña “Gráficos” marcamos las opciones “Dendograma” y

“Ninguna”
Paso 5: En la pestaña “Método” seleccionamos el “Método de Ward” para la

agrupación en clúster, así mismo nos aseguramos que en la sección “Medida” la
opción “Intervalo” esté marcada y seleccionamos “Distancia euclídea al cuadrado”.
Finalmente el la sección “Transformar valores” seleccionamos “Ninguna”
8
Tablas y Gráficos obtenidos
Tabla 2 - Resumen de procesamiento de casos
Tabla 3 - Matriz de proximidades
9
Tabla 4 - Historial de conglomeración
Diagrama 1 - Dendograma
10
Descripción de los clúster
Paso 6: Analizar → Clasificar → Clúster Jerárquico
Paso 7: En la pestaña “Guardar” seleccionamos la opción “Solución única” e

indicamos de será 3 el “Número de Clústeres”
Como resultado de lo antes realizado se creará una nueva variable (columna) en

nuestra base de datos denominada “CLU3_1”
11
Imagen 8 - captura de programa base de datos
Paso 8: Analizar → Comparar medias → Medias
Paso 9: En la sección “Lista de dependientes” colocamos las variables “v1” a “v6”.

La variable “Ward Method” la colocamos en la sección “Lista de independientes”
12
Paso 10: En la pestaña “Medias” seleccionamos la opción “Opciones” y

seleccionamos de dentro de “Estadísticos”, “Media” y pulsamos “Continuar” y luego
“Aceptar”.
Tabla 5 - Resumen de procesamiento de casos
13
14
Tabla 6 - Informe de Medias
Validación de los clúster
Paso 11: Analizar → Comparar medias → ANOVA de un factor
Paso 12: Seleccionamos la Columna v7 en la Lista de Dependientes y pulsamos

“Aceptar”
15
Tabla 7 - Tabla ANOVA
Gráfico de Cluster - Factores
Paso 13: Analizar → Reducción de dimensiones → Factor
Paso 14: Agregamos nuestras variables a la Lista de Variables y pulsamos

“Descriptivos”
16
Paso 15: Dentro de la pestaña “Descriptivos” Seleccionamos las opciones de
“Solución inicial” y “KMO y prueba de esfericidad de Bartlett”
Paso 16: En la pestaña de Análisis Factorial, pulsamos el botón “Extracción” dentro

de la pestaña “Extracción” seleccionamos las opciones: “Matriz de correlaciones”,
“Solución factorial sin rotar” y “Número fijo de factores” en donde colocamos a 2
como los Factores que extraer.
17
Paso 17: En la pestaña de Análisis Factorial, pulsamos el botón “Rotación” dentro de
la pestaña “Rotación” seleccionamos las opciones: “Ninguno” y “Gráficos de cargas”.
Paso 18: En la pestaña de Análisis Factorial, pulsamos el botón “Puntuaciones

factoriales” dentro de la pestaña “Puntuaciones factoriales” seleccionamos las
opciones: “Guardar como variables”, seleccionando como Método “Regresión”. Y le
damos a Aceptar en la pestaña de Análisis Factorial para generar las tablas y
gráficos.
18
Tabla 8 - Prueba de KMO y Bartlett
Tabla 9 - Tabla de Comunalidades
Tabla 10 - Tabla de Varianzas Totales
19
Tabla 11 - Matriz de Componentes
Diagrama 2 - Gráfica de Distribución de Componentes
20
Gráfico de Dispersión
Paso 19: En nuestros datos, seleccionamos las columnas anteriormente generadas

para la generación de nuestra Gráfica de Distribución de Componentes
Paso 20: Gráficos → Generador de Gráficos
21
Paso 21: En la sección “Galería” pulsamos sobre la opción “Dispersión/Puntos” y ,
seleccionamos el primer gráfico.
Paso 22: Con lo anterior se habilitará la sección “La vista previa del gráfico", en ella
debemos identificar los componentes vertical y horizontal del gráfico para ello la
variable “REG factor score 1 for analysis 1” será nuestro eje X y “REG factor score 2
for analysis 1” nuestro eje Y, en el apartado “Establecer color” colocamos a la
variable “Ward Method” y pulsamos sobre el botón “Aceptar”
Como resultado obtenemos el siguiente gráfico
Diagrama 3 - Resumen de procesamiento de casos
22
Diagrama 4 - Resumen de procesamiento de casos
23
4. Conclusiones y Recomendaciones
● Mediante el análisis por conglomerados, se identificaron diferentes perfiles de

actitudes hacia ir de compras. Esto indica que las personas tienen opiniones y
comportamientos diversos en relación con esta actividad.
● Los clusters generados permiten comprender mejor las preferencias y actitudes de
las personas hacia las compras. Esto proporciona información valiosa para la toma
de decisiones de marketing y diseño de estrategias dirigidas a grupos específicos de
clientes.
● Se observaron diferencias significativas en las respuestas de las personas en cuanto
a la diversión, el impacto en el presupuesto, la búsqueda de ofertas y el interés
general por ir de compras. Esto sugiere que estas variables desempeñan un papel
importante en la formación de los diferentes clusters.
● Utilizar los resultados del análisis por conglomerados para adaptar las estrategias de
marketing y publicidad de la tienda en línea. Al comprender los diferentes perfiles de
actitudes hacia las compras, se pueden diseñar campañas más efectivas y
personalizadas para cada segmento de clientes.
● Realizar investigaciones adicionales para comprender más a fondo los factores que
influyen en las actitudes hacia las compras. Se pueden realizar encuestas
complementarias o análisis cualitativos para obtener una visión más detallada de las
motivaciones y preferencias de cada grupo identificado.
● Implementar programas de fidelización y promociones específicas para cada cluster.
Al conocer las características y comportamientos de cada grupo, se pueden diseñar
programas de lealtad y descuentos personalizados para aumentar la retención de
clientes y fomentar las compras repetidas.
● Monitorear de forma continua las actitudes y comportamientos de los clientes en
relación con las compras. El análisis por conglomerados proporciona una
instantánea en un momento determinado, pero es importante tener en cuenta que
las preferencias pueden cambiar con el tiempo. Realizar seguimientos periódicos
permitirá ajustar las estrategias de manera oportuna.
24
5. Bibliografía
● Hair, J. F., Anderson, R. E., Tatham, R. L., & Black, W. C. (1998). Análisis de datos
multivariantes. Prentice Hall.
● Melián, J. L., & García-Bertrand, J. C. (2007). Análisis de conglomerados: métodos y
aplicaciones. Thomson Paraninfo.
● Cao, R., & Rodrigues-Alvarez, M. X. (2012). Estadística multivariante: Inferencia y
métodos. Pirámide.
● Rolly Vasquez, (2019). SPSS ANALISIS DE CONGLOMERADOS JERÁRQUICOS,
recuperado de: https://youtu.be/A-7c-7tW9Y8
● Ayuga Tellez, Esperanza (2018).Análisis de Conglomerados. Análisis Multivariante
http://ocw.upm.es/pluginfile.php/1284/mod_label/intro/anal_mult_2.pdf
● Concepto de presentación de resultados de análisis de conglomerados (2023)
https://www.google.com/search?rlz=1C1ONGR_esPE1001PE1001&q=concepto+de+
presentacion+de+resultados+de+analisis+de+conglomerados&tbm=vid&sa=X&ved=
2ahUKEwiF_4_Q5Nj_AhWJKLkGHVLICwsQ0pQJegQICBAB&biw=767&bih=736&dp
r=1.25
25

TIF Intro - Analisis Por Conglomerados

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

TIF Intro - Analisis Por Conglomerados

Cargado por

Copyright:

Formatos disponibles

“AÑO DE LA UNIDAD, LA PAZ Y EL DESARROLLO”

UNIVERSIDAD NACIONAL DE SAN AGUSTÍN

FACULTAD DE PRODUCCIÓN Y SERVICIOS

ESCUELA PROFESIONAL DE INGENIERÍA INDUSTRIAL

CURSO: INTRODUCCIÓN A LA METODOLOGÍA

DOCENTE: ING. MARTHA POSTIGO ZUÑIGA

● Alfaro Buiza, Arturo Adolfo

● Cahuapaza Sanca, Héctor Aníbal

● Cuayla Marca, Alberth Renzo

● Mayta Bustamante Luis Fernando

● Soto Laura Yamilet Lucero

El análisis por conglomerados es una técnica estadística utilizada en la minería de datos y

2.1 Elección de Variables

La elección adecuada de variables es una etapa fundamental en el análisis por

En el caso de la elección de variables, se deben considerar aspectos como la naturaleza de

Para llevar a cabo la elección de variables, es recomendable realizar un análisis exploratorio

En resumen, la elección de variables en la fase de aplicación del análisis por

2.2 Métodos de Aglomeración

Análisis de densidad basado en clustering (DBSCAN): DBSCAN agrupa elementos en

2.3 Algoritmos de Clasificación

2.3.1. ALGORITMOS DE CONGLOMERACIÓN

2.4 Elección de Medidas de Distancias

2.6 Interpretación y presentación de resultados

Planteamiento del problema

Las variables eran las siguientes:

● "Ir de compras es divertido."

Tabla 1 - Base de Datos

Paso 1: Analizar → Clasificar → Clúster Jerárquico

Imagen 1 - captura de programa paso 1

Fuente: Elaboración propia

Imagen 2 - captura de programa paso 2

Fuente: Elaboración propia

Imagen 3 - captura de programa paso 3

Fuente: Elaboración propia

Paso 4: En la pestaña “Gráficos” marcamos las opciones “Dendograma” y

Imagen 4 - captura de programa paso 4

Fuente: Elaboración propia

Paso 5: En la pestaña “Método” seleccionamos el “Método de Ward” para la

Fuente: Elaboración propia

Tablas y Gráficos obtenidos

Tabla 2 - Resumen de procesamiento de casos

Fuente: Elaboración propia

Tabla 3 - Matriz de proximidades

Fuente: Elaboración propia

Fuente: Elaboración propia

Fuente: Elaboración propia

Paso 6: Analizar → Clasificar → Clúster Jerárquico

Imagen 6 - captura de programa paso 6

Fuente: Elaboración propia

Paso 7: En la pestaña “Guardar” seleccionamos la opción “Solución única” e

Imagen 7 - captura de programa paso 7

Fuente: Elaboración propia

Como resultado de lo antes realizado se creará una nueva variable (columna) en

Fuente: Elaboración propia

Paso 8: Analizar → Comparar medias → Medias

Imagen 9 - captura de programa paso 9

Fuente: Elaboración propia

Paso 9: En la sección “Lista de dependientes” colocamos las variables “v1” a “v6”.

Fuente: Elaboración propia

Paso 10: En la pestaña “Medias” seleccionamos la opción “Opciones” y

Imagen 11 - captura de programa paso 11

Fuente: Elaboración propia

Tablas y Gráficos obtenidos

Tabla 5 - Resumen de procesamiento de casos