Está en la página 1de 26

“AÑO DE LA UNIDAD, LA PAZ Y EL DESARROLLO”

UNIVERSIDAD NACIONAL DE SAN AGUSTÍN

FACULTAD DE PRODUCCIÓN Y SERVICIOS

ESCUELA PROFESIONAL DE INGENIERÍA INDUSTRIAL

CURSO: INTRODUCCIÓN A LA METODOLOGÍA


DE LA INVESTIGACIÓN CIENTÍFICA

DOCENTE: ING. MARTHA POSTIGO ZUÑIGA

GRUPO 2: JOURNALITOS

INTEGRANTES:

● Alfaro Buiza, Arturo Adolfo

● Cahuapaza Sanca, Héctor Aníbal

● Cuayla Marca, Alberth Renzo

● Mayta Bustamante Luis Fernando

● Soto Laura Yamilet Lucero

AREQUIPA - PERÚ

2023
TABLA DE CONTENIDOS

1. DEFINICIÓN........................................................................................................................ 2
2. FASES DE APLICACIÓN.................................................................................................... 2
2.1 Elección de Variables................................................................................................... 2
2.2 Métodos de Aglomeración............................................................................................2
2.3 Algoritmos de Clasificación.......................................................................................... 3
2.3.1. ALGORITMOS DE CONGLOMERACIÓN......................................................... 3
2.4 Elección de Medidas de Distancias..............................................................................3
2.5 Obtención de conglomerados...................................................................................... 3
2.6 Interpretación y presentación de resultados................................................................ 4
3. Caso de Aplicación............................................................................................................ 5
Planteamiento del problema
Se registraban las opiniones de las personas sobre ir de compras. Había seis variables
de actitud, cada una de ellas calificada en una escala del 1 al 7, donde el 1 significaba
"Estar en total desacuerdo" y el 7 significaba "Estar totalmente de acuerdo"................... 5
Determinar el número de conglomerados.......................................................................... 6
4. Conclusiones y Recomendaciones................................................................................23
5. Bibliografía....................................................................................................................... 24

1
1. DEFINICIÓN

El análisis por conglomerados es una técnica estadística utilizada en la minería de datos y


la estadística multivariada que agrupa objetos o individuos similares en conjuntos o
clústeres basados en similitudes o diferencias en sus características observadas. Esta
técnica busca identificar patrones y estructuras inherentes a los datos, permitiendo la
exploración y clasificación de datos no etiquetados. Se utiliza en diversos campos, como la
biología, la psicología, la economía y la ingeniería, para segmentar datos en grupos
homogéneos y comprender la estructura subyacente de los datos, lo que facilita el análisis y
la toma de decisiones informadas.
Tiene por objeto agrupar elementos en grupos homogéneos en función de las similitudes
entre ellos. Detecta grupos internamente homogéneos( y heterogéneos entre sí
También conocido como: clasificación automática, clasificación no supervisada,
reconocimiento de patrones sin supervisión.

2. FASES DE APLICACIÓN

2.1 Elección de Variables

La elección adecuada de variables es una etapa fundamental en el análisis por


conglomerados, ya que determina en gran medida la calidad y utilidad de los resultados
obtenidos. Las variables seleccionadas deben ser relevantes para el problema de
investigación y capturar las características esenciales de los elementos analizados.

En el caso de la elección de variables, se deben considerar aspectos como la naturaleza de


las variables (categóricas o continuas), la escala de medición, la disponibilidad de datos y la
relevancia teórica. Es importante destacar que el software SPSS ofrece diversas opciones
para manejar diferentes tipos de variables y realizar análisis de conglomerados en función
de las necesidades específicas del estudio.

Para llevar a cabo la elección de variables, es recomendable realizar un análisis exploratorio


de los datos previo al análisis de conglomerados. Esto implica examinar la distribución de
las variables, identificar posibles valores atípicos y evaluar la correlación entre las variables.
Estos pasos ayudarán a seleccionar las variables más adecuadas y descartar aquellas que

2
no aporten información significativa.

En resumen, la elección de variables en la fase de aplicación del análisis por


conglomerados es un proceso crítico que requiere considerar cuidadosamente las
características de los datos y los objetivos de investigación. La utilización del software
SPSS facilita esta tarea al ofrecer herramientas y funciones específicas para la selección y
manipulación de variables, lo que contribuye a obtener resultados precisos y confiables en
el análisis de conglomerados.

2.2 Métodos de Aglomeración


Una vez que se ha realizado la elección de variables en el análisis por conglomerados, es
necesario seleccionar el método de aglomeración adecuado. Los métodos de aglomeración
se dividen en dos categorías principales: métodos jerárquicos y métodos no jerárquicos.

Los métodos jerárquicos son aquellos que construyen una estructura de clusters en forma
de árbol o dendrograma, lo que permite visualizar la relación entre los elementos y los
clusters en diferentes niveles de agregación. Estos métodos se basan en la similitud o
distancia entre los elementos para determinar la agrupación. Algunos ejemplos de métodos
jerárquicos incluyen:

Método de Ward: Este método minimiza la varianza dentro de cada cluster. En cada paso,
se fusionan los clusters que minimizan el incremento total de la suma de cuadrados dentro
de los clusters resultantes.

Método del vecino más cercano: En este método, se calcula la distancia entre cada par de
elementos y se fusionan los elementos más cercanos en cada paso hasta formar los
clusters.

Por otro lado, los métodos no jerárquicos, también conocidos como métodos particionales,
buscan asignar directamente cada elemento a un único cluster, sin construir una estructura
jerárquica. Estos métodos se basan en criterios de optimización para determinar la
asignación de elementos a clusters. Algunos ejemplos de métodos no jerárquicos son:

3
K-means: Este método busca formar k clusters, donde k es un número predefinido.
Comienza asignando aleatoriamente k centroides y luego asigna cada elemento al centroide
más cercano. A continuación, actualiza los centroides y repite el proceso hasta converger a
una solución estable.

Análisis de densidad basado en clustering (DBSCAN): DBSCAN agrupa elementos en


función de la densidad de puntos en el espacio de características. Identifica puntos
centrales que tienen un número mínimo de vecinos dentro de una distancia específica y
expande clusters a partir de estos puntos.

2.3 Algoritmos de Clasificación

2.3.1. ALGORITMOS DE CONGLOMERACIÓN


De la elección del algoritmo de clasificación dependen el número y composición de
los conglomerados obtenidos. El algoritmo es la forma particular de cálculo
empleado en los métodos descritos.
● Algoritmos métodos jerárquicos
Los métodos jerárquicos van generando grupos en cada una de las fases del
proceso buscando el número de clúster que haga una agrupación óptima.
● Algoritmos de métodos no jerárquicos
Los métodos no jerárquicos categorizan los elementos según un número de clúster
dado. Necesitan que el número de particiones esté fijado a priori.

2.4 Elección de Medidas de Distancias


Los criterios para decidir qué objeto se incluye o no en un conglomerado se utilizan matrices
de distancias o similaridades entre los pares de objetos.
● Las más empleadas para variables cuantitativas son las distancias euclídea,
euclídea al cuadrado, “city block” y la correlación.
● Las más empleadas para variables binarias son la distancia euclídea junto con el
coeficiente de Jaccard.
● La más empleada para variables cualitativas es la chi-cuadrado.

4
2.5 Obtención de conglomerados
Antes de interpretar los resultados hay que decidir el número adecuado de éstos
- Si el método es jerárquico: se puede elegir el número de conglomerados adecuado
posteriormente al análisis.
- Si el método es no jerárquico: la elección del número de conglomerados adecuado
es previa a la ejecución del análisis.
En algunos casos, es necesario especificar previamente el número de conglomerados
deseados. En otros casos, los algoritmos pueden determinar automáticamente el número
óptimo de conglomerados.

2.6 Interpretación y presentación de resultados


- Examinar las características comunes dentro de cada conglomerado y las
diferencias entre los conglomerados. Se pueden utilizar diversas técnicas de
análisis, como la revisión de perfiles de características, la identificación de las
características más discriminantes o la comparación de estadísticas descriptivas
entre conglomerados.
- Determinar la calidad y significado de los conglomerados obtenidos. Esto puede
implicar medidas de validación internas o externas.
Se pueden presentar los resultados de las siguientes maneras:
- Métodos jerárquicos:
a) Historial de agrupación
b) Grupo de pertenencia
- Métodos no jerárquicos:
1. Centros de grupo
2. ANOVA

5
3. Caso de Aplicación

Planteamiento del problema


Se registraban las opiniones de las personas sobre ir de compras. Había seis
variables de actitud, cada una de ellas calificada en una escala del 1 al 7, donde el 1
significaba "Estar en total desacuerdo" y el 7 significaba "Estar totalmente de
acuerdo".

Las variables eran las siguientes:

● "Ir de compras es divertido."


● "Ir de compras es malo para su presupuesto."
● "Cuando voy de compras aprovecho para comer fuera."
● "Cuando voy de compras busco las mejores ofertas."
● "No me interesa ir de compras."
● "Puede ahorrar mucho dinero si compara precios."

El objetivo era analizar esta base de datos y encontrar patrones en las respuestas de
las personas. Para lograrlo, se decidió realizar un análisis por conglomerados, una
técnica que agrupa a las personas en clusters según la similitud de sus respuestas.

Tabla 1 - Base de Datos


n v1 v2 v3 v4 v5 v6 v7
1 6,00 4,00 7,00 3,00 2,00 3,00 20,00
2 2,00 3,00 1,00 4,00 5,00 4,00 23,00
3 7,00 2,00 6,00 4,00 1,00 3,00 21,00
4 4,00 6,00 4,00 5,00 3,00 6,00 25,00
5 1,00 3,00 2,00 2,00 6,00 4,00 22,00
6 6,00 4,00 6,00 3,00 3,00 4,00 19,00
7 5,00 3,00 6,00 3,00 3,00 4,00 19,00
8 7,00 3,00 7,00 4,00 1,00 4,00 20,00
9 2,00 4,00 3,00 3,00 6,00 3,00 23,00
10 3,00 5,00 3,00 6,00 4,00 6,00 26,00
11 1,00 3,00 2,00 3,00 5,00 3,00 24,00
12 5,00 4,00 5,00 4,00 2,00 4,00 22,00
13 2,00 2,00 1,00 5,00 4,00 4,00 25,00
14 4,00 6,00 4,00 6,00 4,00 7,00 26,00
15 6,00 5,00 4,00 2,00 1,00 4,00 21,00
16 3,00 5,00 4,00 6,00 4,00 7,00 25,00
17 4,00 4,00 7,00 2,00 2,00 5,00 20,00
18 3,00 7,00 2,00 6,00 4,00 3,00 24,00
19 4,00 6,00 3,00 7,00 2,00 7,00 27,00
20 2,00 3,00 2,00 4,00 7,00 2,00 23,00
Elaboración Propia

6
Determinar el número de conglomerados

Paso 1: Analizar → Clasificar → Clúster Jerárquico

Imagen 1 - captura de programa paso 1

Fuente: Elaboración propia

Paso 2: Designamos desde “v1” a “v6” como variables y en la sección “Etiquetar los
casos mediante” colocamos a “n”

Imagen 2 - captura de programa paso 2

Fuente: Elaboración propia

7
Paso 3: En la pestaña “Estadísticos” marcamos las opciones “Historial de
conglomeración”, “Matriz de proximidades” y “Ninguna”

Imagen 3 - captura de programa paso 3

Fuente: Elaboración propia

Paso 4: En la pestaña “Gráficos” marcamos las opciones “Dendograma” y


“Ninguna”

Imagen 4 - captura de programa paso 4

Fuente: Elaboración propia

Paso 5: En la pestaña “Método” seleccionamos el “Método de Ward” para la


agrupación en clúster, así mismo nos aseguramos que en la sección “Medida” la
opción “Intervalo” esté marcada y seleccionamos “Distancia euclídea al cuadrado”.
Finalmente el la sección “Transformar valores” seleccionamos “Ninguna”

8
Imagen 5 - captura de programa paso 5

Fuente: Elaboración propia

Tablas y Gráficos obtenidos

Tabla 2 - Resumen de procesamiento de casos

Fuente: Elaboración propia

Tabla 3 - Matriz de proximidades

Fuente: Elaboración propia

9
Tabla 4 - Historial de conglomeración

Fuente: Elaboración propia

Diagrama 1 - Dendograma

Fuente: Elaboración propia

10
Descripción de los clúster

Paso 6: Analizar → Clasificar → Clúster Jerárquico

Imagen 6 - captura de programa paso 6

Fuente: Elaboración propia

Paso 7: En la pestaña “Guardar” seleccionamos la opción “Solución única” e


indicamos de será 3 el “Número de Clústeres”

Imagen 7 - captura de programa paso 7

Fuente: Elaboración propia

Como resultado de lo antes realizado se creará una nueva variable (columna) en


nuestra base de datos denominada “CLU3_1”

11
Imagen 8 - captura de programa base de datos

Fuente: Elaboración propia

Paso 8: Analizar → Comparar medias → Medias

Imagen 9 - captura de programa paso 9

Fuente: Elaboración propia

Paso 9: En la sección “Lista de dependientes” colocamos las variables “v1” a “v6”.


La variable “Ward Method” la colocamos en la sección “Lista de independientes”

12
Imagen 10 - captura de programa paso 10

Fuente: Elaboración propia

Paso 10: En la pestaña “Medias” seleccionamos la opción “Opciones” y


seleccionamos de dentro de “Estadísticos”, “Media” y pulsamos “Continuar” y luego
“Aceptar”.

Imagen 11 - captura de programa paso 11

Fuente: Elaboración propia

Tablas y Gráficos obtenidos

Tabla 5 - Resumen de procesamiento de casos

13
Fuente: Elaboración propia

14
Tabla 6 - Informe de Medias

Fuente: Elaboración propia

Validación de los clúster

Paso 11: Analizar → Comparar medias → ANOVA de un factor

Imagen 12 - captura de programa paso 11

Fuente: Elaboración propia

Paso 12: Seleccionamos la Columna v7 en la Lista de Dependientes y pulsamos


“Aceptar”

Imagen 13 - captura de programa paso 12

Fuente: Elaboración propia

15
Tablas y Gráficos obtenidos

Tabla 7 - Tabla ANOVA

Fuente: Elaboración propia

Gráfico de Cluster - Factores

Paso 13: Analizar → Reducción de dimensiones → Factor

Imagen 14 - captura de programa paso 13

Fuente: Elaboración propia

Paso 14: Agregamos nuestras variables a la Lista de Variables y pulsamos


“Descriptivos”

Imagen 15 - captura de programa paso 14

Fuente: Elaboración propia

16
Paso 15: Dentro de la pestaña “Descriptivos” Seleccionamos las opciones de
“Solución inicial” y “KMO y prueba de esfericidad de Bartlett”

Imagen 16 - captura de programa paso 15

Fuente: Elaboración propia

Paso 16: En la pestaña de Análisis Factorial, pulsamos el botón “Extracción” dentro


de la pestaña “Extracción” seleccionamos las opciones: “Matriz de correlaciones”,
“Solución factorial sin rotar” y “Número fijo de factores” en donde colocamos a 2
como los Factores que extraer.

Imagen 17 - captura de programa paso 16

Fuente: Elaboración propia

17
Paso 17: En la pestaña de Análisis Factorial, pulsamos el botón “Rotación” dentro de
la pestaña “Rotación” seleccionamos las opciones: “Ninguno” y “Gráficos de cargas”.

Imagen 18 - captura de programa paso 17

Fuente: Elaboración propia

Paso 18: En la pestaña de Análisis Factorial, pulsamos el botón “Puntuaciones


factoriales” dentro de la pestaña “Puntuaciones factoriales” seleccionamos las
opciones: “Guardar como variables”, seleccionando como Método “Regresión”. Y le
damos a Aceptar en la pestaña de Análisis Factorial para generar las tablas y
gráficos.

Imagen 19 - captura de programa paso 18

Fuente: Elaboración propia

18
Tablas y Gráficos obtenidos

Tabla 8 - Prueba de KMO y Bartlett

Fuente: Elaboración propia

Tabla 9 - Tabla de Comunalidades

Fuente: Elaboración propia

Tabla 10 - Tabla de Varianzas Totales

Fuente: Elaboración propia

19
Tabla 11 - Matriz de Componentes

Fuente: Elaboración propia

Diagrama 2 - Gráfica de Distribución de Componentes

Fuente: Elaboración propia

20
Gráfico de Dispersión

Paso 19: En nuestros datos, seleccionamos las columnas anteriormente generadas


para la generación de nuestra Gráfica de Distribución de Componentes

Imagen 20 - captura de programa paso 19

Fuente: Elaboración propia

Paso 20: Gráficos → Generador de Gráficos

Imagen 21 - captura de programa paso 20

Fuente: Elaboración propia

21
Paso 21: En la sección “Galería” pulsamos sobre la opción “Dispersión/Puntos” y ,
seleccionamos el primer gráfico.

Imagen 22 - captura de programa paso 21

Fuente: Elaboración propia

Paso 22: Con lo anterior se habilitará la sección “La vista previa del gráfico", en ella
debemos identificar los componentes vertical y horizontal del gráfico para ello la
variable “REG factor score 1 for analysis 1” será nuestro eje X y “REG factor score 2
for analysis 1” nuestro eje Y, en el apartado “Establecer color” colocamos a la
variable “Ward Method” y pulsamos sobre el botón “Aceptar”

Imagen 23 - captura de programa paso 22

Fuente: Elaboración propia

Como resultado obtenemos el siguiente gráfico

Diagrama 3 - Resumen de procesamiento de casos

22
Fuente: Elaboración propia

Diagrama 4 - Resumen de procesamiento de casos

Fuente: Elaboración propia

23
4. Conclusiones y Recomendaciones

● Mediante el análisis por conglomerados, se identificaron diferentes perfiles de


actitudes hacia ir de compras. Esto indica que las personas tienen opiniones y
comportamientos diversos en relación con esta actividad.
● Los clusters generados permiten comprender mejor las preferencias y actitudes de
las personas hacia las compras. Esto proporciona información valiosa para la toma
de decisiones de marketing y diseño de estrategias dirigidas a grupos específicos de
clientes.
● Se observaron diferencias significativas en las respuestas de las personas en cuanto
a la diversión, el impacto en el presupuesto, la búsqueda de ofertas y el interés
general por ir de compras. Esto sugiere que estas variables desempeñan un papel
importante en la formación de los diferentes clusters.
● Utilizar los resultados del análisis por conglomerados para adaptar las estrategias de
marketing y publicidad de la tienda en línea. Al comprender los diferentes perfiles de
actitudes hacia las compras, se pueden diseñar campañas más efectivas y
personalizadas para cada segmento de clientes.
● Realizar investigaciones adicionales para comprender más a fondo los factores que
influyen en las actitudes hacia las compras. Se pueden realizar encuestas
complementarias o análisis cualitativos para obtener una visión más detallada de las
motivaciones y preferencias de cada grupo identificado.
● Implementar programas de fidelización y promociones específicas para cada cluster.
Al conocer las características y comportamientos de cada grupo, se pueden diseñar
programas de lealtad y descuentos personalizados para aumentar la retención de
clientes y fomentar las compras repetidas.
● Monitorear de forma continua las actitudes y comportamientos de los clientes en
relación con las compras. El análisis por conglomerados proporciona una
instantánea en un momento determinado, pero es importante tener en cuenta que
las preferencias pueden cambiar con el tiempo. Realizar seguimientos periódicos
permitirá ajustar las estrategias de manera oportuna.

24
5. Bibliografía

● Hair, J. F., Anderson, R. E., Tatham, R. L., & Black, W. C. (1998). Análisis de datos
multivariantes. Prentice Hall.
● Melián, J. L., & García-Bertrand, J. C. (2007). Análisis de conglomerados: métodos y
aplicaciones. Thomson Paraninfo.
● Cao, R., & Rodrigues-Alvarez, M. X. (2012). Estadística multivariante: Inferencia y
métodos. Pirámide.
● Rolly Vasquez, (2019). SPSS ANALISIS DE CONGLOMERADOS JERÁRQUICOS,
recuperado de: https://youtu.be/A-7c-7tW9Y8
● Ayuga Tellez, Esperanza (2018).Análisis de Conglomerados. Análisis Multivariante
http://ocw.upm.es/pluginfile.php/1284/mod_label/intro/anal_mult_2.pdf
● Concepto de presentación de resultados de análisis de conglomerados (2023)
https://www.google.com/search?rlz=1C1ONGR_esPE1001PE1001&q=concepto+de+
presentacion+de+resultados+de+analisis+de+conglomerados&tbm=vid&sa=X&ved=
2ahUKEwiF_4_Q5Nj_AhWJKLkGHVLICwsQ0pQJegQICBAB&biw=767&bih=736&dp
r=1.25

25

También podría gustarte