Está en la página 1de 8

Tema-3-ANALISIS-MULTIVARIANTE.

pdf

Anónimo

Análisis Multivariante

2º Grado en Estadística

Facultad de Ciencias
Universidad de Salamanca

Reservados todos los derechos.


No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
1

Tema 3: Análisis de conglomerados

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
INTRODUCCIÓN
- Análisis de clusters o análisis de conglomerados: Técnica de análisis exploratorio de datos
para resolver problemas de clasificación. Consiste en ordenar objetos en grupos de forma
que el grado de asociación o similitud entre miembros del mismo cluster sea mas fuerte
que el grado de asociación o similitud entre miembros de diferentes clusters.
o Ejemplos:
▪ Taxonomía: Clasificación de seres vivos
▪ Producción vegetal: Búsqueda de grupos de variedades con características
similares.
▪ Genética: Agrupación de pacientes de perfiles imilares de acuerdo con sus
carácterísticas genéticas.
o Tipos:
▪ Jerárquicos: La clasificación resultante tiene un número creciente de clases

Reservados todos los derechos.


anidadas.
▪ No jerárquicos: No presenta clases anidadas.
▪ Aglomerativos: Se parte de tantas clases como objeto tengamos que
clasificar y en pasos sucesivos vamos agrupando por parejas obteniendo
clases de objetos similares.
1. Decidir qué datos tomamos para cada uno de los casos:
Generalmente tomaremos varias variables, todas del mismo tipo ya
que suele ser difícil mezclar tipos distintos.
2. Elegimos una medida de la distancia entre los objetos a clasificar, que
serán los clusters o clases iniciales.
3. Buscamos qué clusters son más similares.
- Medidas calculadas a partir de la matriz de datos brutos
o Medidas de distancia para datos cuantitativos:
▪ Diferencia de medias
▪ Distancia euclídea (pitagórica)
▪ Distancia media
▪ Distancia de Minkowsky
▪ Métrica de Canberra
▪ Coeficiente de divergencia
▪ Coeficiente de concordancia racial de Pearson
o Medidas de similtud para datos binarios: Para datos binarios es posible construir una
tabla de contingencia para cada par de individuos donde se cuentan las
presencias y asusencias comunes de cada uno de los caracteres estudiados.

2º GRADO EN ESTADÍSTICA | ANÁLISIS MULTIVARIANTE

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-1618236
2

o Medidas de distancia para datos binarios:


▪ Coeficiente de Jacard (Sneath)
▪ Coeficiente de Dice y Sorensen
▪ Coeficiente de Sokal y Michener
▪ Coeficiente de Rogers y Tanimoto
▪ Coeficiente de Yule
▪ Coeficiente de Hamann
- Datos mixtos:
o Coeficiente general de similaridad de Gower: Se asigna a cada par de individuos
una puntuacuón 0 ≤ 𝑠𝑖𝑗𝑘 ≤ 1 y una ponderación 𝑤𝑖𝑗𝑘 sobre el carácter 𝑘. La
ponderación 𝑤𝑖𝑗𝑘 es 1 cuando se considera que la comporación es válida para el

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
carácter 𝑘 y vale 0 cuando el valor del estado del carácter 𝑘 es desconocido para
uno o los dos individuos.
𝑝
∑ 𝑤𝑖𝑗𝑘 𝑠𝑖𝑗𝑘
▪ 𝑆𝐺 = 𝑘=1
𝑝
∑ 𝑤𝑖𝑗𝑘
𝑘=1
▪ CARACTERES BINARIOS: 𝑠𝑖𝑗𝑘 = 1 para coincidencias y 𝑠𝑖𝑗𝑘 = 0 para
divergencias. 𝑤𝑖𝑗𝑘 = 0 para dobles ausencias.
▪ CARACTERES MULTIESTADO: 𝑠𝑖𝑗𝑘 = 1 para coincidencias y 𝑠𝑖𝑗𝑘 = 0 para
divergencias sin tener en cuenta el número de categorías. Las
ponderaciones son siempre 1 salvo para datos perdidos.
|𝑥𝑖𝑘 −𝑥𝑗𝑘 |

Reservados todos los derechos.


▪ CARACTERES BINARIOS: 𝑠𝑖𝑗𝑘 = 1 − donde 𝑅𝑘 es el rango del carácter k-
𝑅𝑘
ésimo sobre toda la población conocida.

DENDROGRAMA
- Es una representación gráfica en forma de árbol que resume
el proceso de agrupación. Los objetos similares se conectan
mediante enlaces cuya posición en el diagrama está
determinada por el nivel de similtud o disimilitud entre los
objetos.
- Ejemplo: Considerando 5 objetos y 2 variables.

2º GRADO EN ESTADÍSTICA | ANÁLISIS MULTIVARIANTE

Abre tu cuenta N26 y llévate 10 € en 10 minutos ¡Clic aquí!


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-1618236
3

o Medimos las distancias en línea recta entre dos puntos y creamos la matriz de
distancias euclídeas. Buscamos la distancia más pequeña:

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
o Representamos las distancias frente a los objetos
en ejes cartesianos
o Creamos el centroide: tenemos un nuevo punto
de coordenadas que representa al cluster A. el
número de clusters se ha reducido en 1.
Sustituimos los dos puntos que formaban el cluster
A por su centroide. El cluster A está representado
por este punto. Calculamos la nueva matriz de
distancias euclideas, y buscamos de nuevo la

Reservados todos los derechos.


distancia más pequeña.
o Hacemos el dendrograma y repetimos el proceso
tantas veces como sea necesario:

2º GRADO EN ESTADÍSTICA | ANÁLISIS MULTIVARIANTE

¿Qué música o podcast han marcado tu 2022? ¡Descúbrelo en Spotify!


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-1618236
4

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
CORRELACIÓN COFENÉTICA
- Correlación entre las distancias observadas y las estimadas en el gráfico.

Reservados todos los derechos.


NÚMERO DE CLUSTERS
- Como ayuda a la decisión sobre el número de clusters se suelen representar los distintos
pasos del algoritmo y la distancia a la que se produce la fusión.
- En los primeros pasos el salto en las distancias será pequeño, mientras que en los últimos el
salto entre pasos será mayor. El punto de corte será aquel en el que comienzan a
producirse saltos bruscos.

2º GRADO EN ESTADÍSTICA | ANÁLISIS MULTIVARIANTE

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-1618236
5

- Métodos:
o Método de la media (average linkage): En el método de
la media, la distancia entre clusters se calcula como la
distancia media entre pares de observaciones, una de
cada cluster.
▪ Proporciona clusters ni demasiado grandes ni
demasiado pequeños.
▪ Pueden utilizarse medidas de la similitud o de la
disimilitud.
▪ No es invariante por transformaciones monótonas
de las distancias.

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
▪ Tiende a fusionar clusters con varianzas pequeñas y tiende a proporcionar
clusters con la misma varianza
o Método del vecino más próximo: En el método del
vecino más próximo la distancia entre dos clusters es el
mínimo de las distancias entre un objeto de un cluster y
un objeto del otro.
▪ No es muy útil para resumir datos
▪ Útil para detectar outliers (estarán entre los
últimos en unirse a la jerarquía)
▪ Pueden usarse medidas de la similitud o de la
disimilitud

Reservados todos los derechos.


▪ Tiende a construir clusters demasiado grandes y
sin sentido
▪ Invariante bajo transformaciones monótonas de la matriz de distancias
o Método del vecino más lejano (complete linkage): En
el método del vecino más lejano la distancia entre dos
clusters es el máximo de las distancias entre un objeto
de un cluster y un objeto del otro.
▪ Útil para detectar outliers
▪ Pueden usarse medidas de la similitud o de la
disimilitud
▪ Tiende a construir clusters pequeños y
compactos
▪ Invariante bajo transformaionaes monótonas de la matriz de distancias
o Método de Ward (varianza mínima): Se realiza la agrupación que hace máxima la
varianza de las distancias entre grupos en relación a la varianza de las distancias
dentro de los grupos.
▪ El método suele ser muy eficiente
▪ Tiende a crear clusters de pequeño tamaño
▪ Se puede usar la matriz de distancias así como una tabla de contingencia
▪ Invariante bajo transformaciones monótonas de la matriz de distancias

OTRA CARACTERIZACIÓN
Si dos objetos o grupos P y Q se han agrupado, la distancia de los grupos con otro objeto R
puede calcularse como una función de las distancias entre los tres objetos o grupos de la forma
siguiente:
𝒅(𝑹, 𝑷 + 𝑸) = 𝜹𝟏𝒅(𝑹, 𝑷) + 𝜹𝟐𝒅(𝑹, 𝑸) + 𝜹𝟑𝒅(𝑷, 𝑸) + 𝜹𝟒 |𝒅(𝑹, 𝑷) − 𝒅(𝑹, 𝑸)|

2º GRADO EN ESTADÍSTICA | ANÁLISIS MULTIVARIANTE

¿El resumen de tu año en Spotify? ¡Clic aquí para más!


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-1618236
6

donde 𝛿𝑗 son constantes de ponderación. Los distintos métodos dependen de los valores que
demos a las ponderaciones. En la tabla siguiente se muestran los pesos para algunos de los
métodos más comunes:

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Reservados todos los derechos.
MÉTODOS NO JERÁRQUICOS: K-MEDIAS
Dado un conjunto de observaciones (𝑥1 , 𝑥2 . . . , 𝑥𝑛), dónde cada observación es un vector p
dimensional, el método k-medias trata de buscar una partición de las n observaciones en k
grupos o clusters (𝑘 < 𝑛) 𝑆 = {𝑆1 , 𝑆2 , . . . , 𝑆𝑘 } de forma que la suma de cuadrados de las distancias
dentro de los grupos sea mínima.

- Algoritmo:
1. Se seleccionan tantos puntos al azar como número de clusters (en este caso k=3). Los
puntos seleccionados son los centroide iniciales.
2. Se determinan los grupos asociando cada observación al centroide más próximo.
3. Se re calculan los centroide mediante las medias de los clusters construidos en el
apartado anterior.
4. Se repiten los pasos 2 y 3 hasta que se alcanza la convergencia, es decir, hasta que los
centroide y las asignaciones no cambian.

- Se trata de un algoritmo heurístico que no garantiza a la convergencia a un mínimo global


- Depende de la selección inicial de los centroide
- Como converge rápidamente, es conveniente probar varias soluciones iniciales
- El número de clusters (k) es un parámetro definido a priori por lo que debe elegirse
cuidadosamente.

2º GRADO EN ESTADÍSTICA | ANÁLISIS MULTIVARIANTE

Llévate 1 año de WUOLAH PRO con BBVA. ¿Cómo? ¡+Info aquí!


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-1618236

También podría gustarte