Está en la página 1de 34

Análisis de

Conglomerados
LOGRO ESPERADO
Resuelve problemas utilizando la técnica de análisis de conglomerados en problemas
de contexto profesional/científico.

INDICADORES DE LOGRO

• Aplica los métodos de agrupación jerárquicos estudiados.


• Explica el significado de las medidas de similaridad.
• Explica el significado del dendograma
INTRODUCCIÓN
El análisis de conglomerados es una técnica cuya idea básica es agrupar un
conjunto de observaciones en un número de conglomerados o grupos. Los
conglomerados se establecen de forma que las observaciones que están dentro de
un mismo grupo son similares entre si y distintas a las observaciones de otros
grupos.
Este agrupamiento se basa en la idea de distancia o similitud entre las
observaciones. La obtención de dichos conglomerados depende del criterio o
distancia que se consideren.
PASOS PARA REALIZAR EL ANÁLISIS DE
CONGLOMERADOS
Los pasos para realizar el análisis de conglomerados son los siguientes:
1. Seleccionar una muestra de tamaño n
2. Establecer una medida que permita determinar que tan parecidas son cada par
de observaciones entre si.
3. Crear grupos
4. Describir y comparar los grupos
MEDIDAS DE SIMILARIDAD: INTRODUCCIÓN
A continuación se presenta la calificación obtenida en una prueba y el tiempo de
preparación (en horas), correspondiente a un grupo de estudiantes:
N° de tiempo de
estudiante Calificación preparación
1 18 30
2 17 28
3 19 25
4 15 10
5 14 12
6 16 11
7 9 22
8 8 23
9 10 24
10 4 8
11 5 10
12 6 9

¿Los estudiantes pueden agruparse en función a la calificación obtenida teniendo


en cuenta el tiempo de preparación?
El siguiente diagrama de dispersión puede ayudar a responder la pregunta anterior.

¿Se pueden formar grupos analíticamente?


MEDIDAS DE SIMILARIDAD
Para agrupar se tiene que definir y cuantificar la similitud entre las observaciones.
La similitud entre las observaciones se cuantifica utilizando el concepto de
distancia.
Las medidas de similaridad permiten identificar aquellas observaciones que se
encuentren menos alejadas en comparación con otras. Entre otras, se tienen las
siguientes medidas de similaridad:
• Distancia Euclídea
• Distancia Euclídea al cuadrado
• Distancia de Minkowski
• Distancia de Manhattan

En el presente curso, se trabajara con la distancia euclídea.


DISTANCIA EUCLÍDEA
La distancia euclídea entre 2 puntos se define como la longitud del segmento que une
ambos puntos. La distancia euclídea 𝐷𝑖𝑗 entre las observaciones i y j en un espacio de
dimensión k (cada observación tiene k componentes), se define de la siguiente manera:

𝑘
2
𝐷𝑖𝑗 = 𝑋𝑖𝑝 − 𝑋𝑗𝑝
𝑝=1

donde:
𝑋𝑖𝑝 = Valor de la variable 𝑝 correspondiente a la observación 𝑖
𝑋𝑗𝑝 = Valor de la variable 𝑝 correspondiente a la observación 𝑗
Ejemplo
Calcule la distancia entre el estudiante 1 y el estudiante 2 en el ejemplo de introducción.
𝐷12 = (18 − 17)2 +(30 − 28)2 = 5
DISTANCIA DE MINKOWSKI
La distancia de Minkowski 𝐷𝑖𝑗 entre las observaciones i y j se define de la siguiente
manera: 1
𝑘 𝑛
2
𝐷𝑖𝑗 = 𝑋𝑖𝑝 − 𝑋𝑗𝑝
𝑝=1
donde:
𝑋𝑖𝑝 = Valor de la variable 𝑝 correspondiente a la observación 𝑖
𝑋𝑗𝑝 = Valor de la variable 𝑝 correspondiente a la observación 𝑗
𝑛 = Tamaño de la muestra
Ejemplo
Calcule la distancia entre el estudiante 1 y el estudiante 2 en el ejemplo de introducción.
𝐷12 = (18 − 17)2 +(30 − 28)2 = 5
2 2 1 12 1
𝐷12 = 18 − 17 + 30 − 28 = 5 12
VARIABLES TIPIFICADAS
Para realizar el análisis de conglomerados se trabajará con las variables tipificadas o
estandarizadas, de esta manera se evitará problemas derivados de escala. Las
variables tipificadas o estandarizadas se obtienen al restarle la media a los datos, y
luego dividir tal diferencia entre la desviación estándar.
Escalar y centrar las variables de tal manera que todas tengan media 0 y desviación
estándar 1 antes de calcular la matriz de distancias asegura que todas las variables
tengan el mismo peso cuando se formen los conglomerados.
MATRIZ DE DISTANCIAS
La matriz de distancias D presenta las distancias entre cada par de observaciones.

0 𝐷12 ⋯ 𝐷1𝑛
𝐷21 0 ⋯ 𝐷2𝑛
𝐷=
⋮ ⋮ ⋯ ⋮
𝐷𝑛1 𝐷𝑛2 ⋯ 0
FORMACIÓN DE GRUPOS
Una vez obtenida la matriz de distancias, es necesario formar los grupos, lo que
implica seleccionar el algoritmo de agrupación y determinar el número de grupos.
En la actualidad existen muchos algoritmos de agrupación, se recomienda utilizar
diferentes procedimientos y compararlos. Si estos procedimientos proporcionan
resultados similares, será razonable pensar que existe una agrupación natural, en
caso contario, se recomienda revisar otros trabajos que ayuden a elegir el
resultado mas razonable. Se tienen 2 métodos de agrupación: Jerárquicos y no
jerárquicos.
MÉTODOS DE AGRUPACIÓN JERÁRQUICOS
Al principio, cada individuo es un grupo por si mismo. De esta manera, se tienen
tantos conglomerados como individuos. Luego se van agrupando, de modo que los
primeros en hacerlo son los grupos más similares y al final, todos los subgrupos se
unen en un único conglomerado. Entre estos métodos, se tienen:
1. Método del centroide
2. Método del vecino más cercano
3. Método del vecino más lejano
4. Método de Ward
Nosotros trabajaremos con el método del centroide y el método de Ward.
MÉTODO DEL CENTROIDE
El método empieza uniendo las 2 observaciones más cercanas (se forma un grupo),
en seguida el grupo es sustituido por una observación en que las variables toman
el promedio de las observaciones correspondientes a cada una de ellas (centroide).
Luego, se recalcula la matriz de distancias, y se repite el proceso. Esto termina
cuando todas las observaciones pertenecen a un solo grupo.
Ejemplo
Calcule el centroide de las observaciones correspondientes a los estudiantes 1 y 2.

18 + 17 30 + 28
, = (17.5, 29)
2 2
MÉTODO DE WARD
El objetivo del método de Ward es maximizar la homogeneidad dentro de cada
grupo. Para esto se obtienen todas las posibles combinaciones entre las
observaciones para el número de grupos considerados en cada etapa. Este método
tiende a formar grupos compactos de tamaño similar.
DENDOGRAMA
El dendograma es una representación gráfica en forma de árbol que resume el
proceso de agrupación en un análisis de conglomerados. El dendograma es de
mucha ayuda para determinar el número de conglomerados a elegir.
MEDIDAS PARA DETERMINAR EL NÚMERO DE
CONGLOMERADOS
Estas medidas facilitan la determinación del número de conglomerados que deben
retenerse. Entre otras medidas, se tienen:
1. Raíz cuadrada de la media de las desviaciones típicas (RMSSTD)
2. R cuadrado (R Squared)
RMSSTD
RMSSTD es una medida de heterogeneidad entre los conglomerados. Los valores
grandes de RMSSTD indican que los conglomerados son heterogéneos.
R SQUARED
El estadístico RS indica en que medida los conglomerados que se han obtenido son
distintos uno del otro. RS se define como la ratio entre la heterogeneidad de los
conglomerados y la heterogeneidad total.
Valores de RS cercanos a uno, indican que los conglomerados a fusionar son
heterogéneos entre si.
MÉTODOS DE AGRUPACIÓN NO JERÁRQUICOS
Los métodos no jerárquicos tienen por objetivo realizar una sola partición de los
individuos en k grupos. Esto quiere decir que se debe especificar a priori la
cantidad de grupos que deben ser formados. La asignación de las observaciones a
los conglomerados se realiza de manera que la dispersión dentro de cada grupo
formado sea la menor posible.
EJEMPLO DE APLICACIÓN 1

Realice el análisis de conglomerados con los datos presentados en la introducción.


SOLUCIÓN

Matriz de distancias
0 2.2361 5.099 20.2237 18.4391 19.105 12.0416 12.2066 10 26.0768 23.8537 24.1868
2.2361 0 3.6056 18.1108 16.2788 17.0294 10 10.2956 8.0623 23.8537 21.6333 21.9545
5.099 3.6056 0 15.5242 13.9284 14.3178 10.4403 11.1803 9.0554 22.6716 20.5183 20.6155
20.2237 18.1108 15.5242 0 2.2361 1.4142 13.4164 14.7648 14.8661 11.1803 10 9.0554
18.4391 16.2788 13.9284 2.2361 0 2.2361 11.1803 12.53 12.6491 10.7703 9.2195 8.544
D= 19.105 17.0294 14.3178 1.4142 2.2361 0 13.0384 14.4222 14.3178 12.3693 11.0454 10.198
12.0416 10 10.4403 13.4164 11.1803 13.0384 0 1.4142 2.2361 14.8661 12.6491 13.3417
12.2066 10.2956 11.1803 14.7648 12.53 14.4222 1.4142 0 2.2361 15.5242 13.3417 14.1421
10 8.0623 9.0554 14.8661 12.6491 14.3178 2.2361 2.2361 0 17.088 14.8661 15.5242
26.0768 23.8537 22.6716 11.1803 10.7703 12.3693 14.8661 15.5242 17.088 0 2.2361 2.2361
23.8537 21.6333 20.5183 10 9.2195 11.0454 12.6491 13.3417 14.8661 2.2361 0 1.4142
24.1868 21.9545 20.6155 9.0554 8.544 10.198 13.3417 14.1421 15.5242 2.2361 1.4142 0
Análisis de observaciones de conglomerado: Calificación; Tiempo de
preparación
Distancia euclediana, Enlace de centroides
Pasos de amalgamación

Nivel de
Número de semejanza/si Nivel de Conglomerados Nuevo Número de obs. en el
Paso conglomerados militud distancia incorporados conglomerado conglomerado nuevo
1 11 94.5767 1.4142 11 12 11 2
2 10 94.5767 1.4142 7 8 7 2
3 9 94.5767 1.4142 4 6 4 2
4 8 92.7809 1.8825 10 11 10 3
5 7 92.7809 1.8825 7 9 7 3
6 6 92.7809 1.8825 4 5 4 3
7 5 91.4251 2.2361 1 2 1 2
8 4 85.4535 3.7933 1 3 1 3
9 3 67.4231 8.495 1 7 1 6
10 2 65.6529 8.9566 4 10 4 6
11 1 57.7546 11.0163 1 4 1 12
Un cambio abrupto en el nivel de semejanza entre los pasos puede representar un punto de corte adecuado para la
partición final. El nivel de semejanza disminuye bruscamente en el paso 9 (67.4231), cuando el número de
conglomerados cambia de 4 a 3. Estos resultados indican que 4 conglomerados pueden ser apropiados para la
partición final.
Si se realiza un corte horizontal a una determinada altura del dendrograma, el número de intersecciones
corresponde con el número de conglomerados. Se puede hacer un corte a la altura de 71.84 y se obtienen 4
conglomerados. Luego, analice los conglomerados incluidos en la agrupación final para determinar si la agrupación
es adecuada para la aplicación específica.
Los conglomerados son los siguientes:
Conglomerado 1: 1, 2 y 3
Conglomerado 2: 7, 8 y 9
Conglomerado 3: 4, 5 y 6
Conglomerado 4: 10, 11 y 12
Partición final
Número de conglomerados: 4

Dentro de la Distancia
suma de promedio Distancia
Número de cuadrados del desde el máxima desde
observaciones conglomerado centroide centroide
Conglomerado1 3 14.6667 2.07848 2.84800
Conglomerado2 3 4.0000 1.13807 1.41421
Conglomerado3 3 4.0000 1.13807 1.41421
Conglomerado4 3 4.0000 1.13807 1.41421
Centroides de grupo

Centroide
Variable Conglomerado1 Conglomerado2 Conglomerado3 Conglomerado4 principal
Calificación 18.0000 15 9 5 11.7500
Tiempo de preparación 27.6667 11 23 9 17.6667

Las distancias entre los centroides de conglomerados

Conglomerado1 Conglomerado2 Conglomerado3 Conglomerado4


Conglomerado1 0.0000 16.9345 10.1379 22.7474
Conglomerado2 16.9345 0.0000 13.4164 10.1980
Conglomerado3 10.1379 13.4164 0.0000 14.5602
Conglomerado4 22.7474 10.1980 14.5602 0.0000
EJEMPLO DE APLICACIÓN 2
El set de datos USArrests información sobre el número de delitos (asaltos, asesinatos y secuestros) junto con el porcentaje de
población urbana para 9 estados de USA.

Estado Número de asesinatos Número de asaltos Número de secuestros Porcentaje de la población urbana
Alabama 13.2 236 58 21.2
Alaska 10 263 48 44.5
Arizona 8.1 294 80 31
Arkansas 8.8 190 50 19.5
California 9 276 91 40.6
Colorado 7.9 204 78 38.7
Connectitud 3.3 110 77 11.1
Delaware 5.9 238 72 15.8
Florida 15.4 335 80 31.9
0 2.29741 2.37529 1.51395 3.04929 2.52612 3.68662 2.2799 2.37383

2.29741 0 2.5283 2.41293 2.91809 2.32884 4.54107 3.14595 3.02917

2.37529 2.5283 0 2.74354 1.15642 1.52452 3.53562 1.74228 2.12281

D= 1.51395 2.41293 2.74354 0 3.52583 2.50031 2.75512 1.85776 3.65684

3.04929 2.91809 1.15642 3.52583 0 1.44232 3.99833 2.66086 2.24713

2.52612 2.32884 1.52452 2.50031 1.44232 0 3.01977 2.11594 2.94452

3.68662 4.54107 3.53562 2.75512 3.99833 3.01977 0 2.14349 5.1157

2.2799 3.14595 1.74228 1.85776 2.66086 2.11594 2.14349 0 3.35863

2.37383 3.02917 2.12281 3.65684 2.24713 2.94452 5.1157 3.35863 0


Análisis de observaciones de conglomerado: Número de as;
Número de as; Número de se; ...
Variables estandarizadas, Distancia euclediana, Enlace de Ward
Pasos de amalgamación

Número de obs.
en el
Número de Nivel de Nivel de Conglomerados Nuevo conglomerado
Paso conglomerados semejanza/similitud distancia incorporados conglomerado nuevo
1 8 77.3947 1.15642 3 5 3 2
2 7 70.4058 1.51395 1 4 1 2
3 6 68.8718 1.59242 3 6 3 3
4 5 58.0997 2.14349 7 8 7 2
5 4 48.4806 2.63557 1 2 1 3
6 3 41.9431 2.97002 3 9 3 4
7 2 14.7592 4.36066 1 7 1 5
8 1 -2.0739 5.22179 1 3 1 9

El nivel de semejanza disminuye bruscamente en el paso 6 (14.7592), cuando el número de conglomerados cambia
de 3 a 2. Estos resultados indican que 3 conglomerados pueden ser apropiados para la partición final.
Se puede hacer un corte a la altura de 31.95 y se obtienen 3 conglomerados.
Los conglomerados son los siguientes:

Conglomerado 1 Conglomerado 2 Conglomerado 3


Alabama Connectitud Arizona
Alaska Delaware California
Arkansas Colorado
Florida
METACOGNICIÓN

• ¿Que aspectos le han parecido interesantes?


• ¿Que contenido considera más importante del tema trabajado?
• ¿Qué competencias del tema podría aplicar en su vida diaria?
PARA REFORZAR LO APRENDIDO

RESUELVA LOS PROBLEMAS PROPUESTOS

También podría gustarte