Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Anónimo
Análisis Multivariante
2º Grado en Estadística
Facultad de Ciencias
Universidad de Salamanca
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
INTRODUCCIÓN
- Análisis de clusters o análisis de conglomerados: Técnica de análisis exploratorio de datos
para resolver problemas de clasificación. Consiste en ordenar objetos en grupos de forma
que el grado de asociación o similitud entre miembros del mismo cluster sea mas fuerte
que el grado de asociación o similitud entre miembros de diferentes clusters.
o Ejemplos:
▪ Taxonomía: Clasificación de seres vivos
▪ Producción vegetal: Búsqueda de grupos de variedades con características
similares.
▪ Genética: Agrupación de pacientes de perfiles imilares de acuerdo con sus
carácterísticas genéticas.
o Tipos:
▪ Jerárquicos: La clasificación resultante tiene un número creciente de clases
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-1618236
2
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
carácter 𝑘 y vale 0 cuando el valor del estado del carácter 𝑘 es desconocido para
uno o los dos individuos.
𝑝
∑ 𝑤𝑖𝑗𝑘 𝑠𝑖𝑗𝑘
▪ 𝑆𝐺 = 𝑘=1
𝑝
∑ 𝑤𝑖𝑗𝑘
𝑘=1
▪ CARACTERES BINARIOS: 𝑠𝑖𝑗𝑘 = 1 para coincidencias y 𝑠𝑖𝑗𝑘 = 0 para
divergencias. 𝑤𝑖𝑗𝑘 = 0 para dobles ausencias.
▪ CARACTERES MULTIESTADO: 𝑠𝑖𝑗𝑘 = 1 para coincidencias y 𝑠𝑖𝑗𝑘 = 0 para
divergencias sin tener en cuenta el número de categorías. Las
ponderaciones son siempre 1 salvo para datos perdidos.
|𝑥𝑖𝑘 −𝑥𝑗𝑘 |
DENDROGRAMA
- Es una representación gráfica en forma de árbol que resume
el proceso de agrupación. Los objetos similares se conectan
mediante enlaces cuya posición en el diagrama está
determinada por el nivel de similtud o disimilitud entre los
objetos.
- Ejemplo: Considerando 5 objetos y 2 variables.
o Medimos las distancias en línea recta entre dos puntos y creamos la matriz de
distancias euclídeas. Buscamos la distancia más pequeña:
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
o Representamos las distancias frente a los objetos
en ejes cartesianos
o Creamos el centroide: tenemos un nuevo punto
de coordenadas que representa al cluster A. el
número de clusters se ha reducido en 1.
Sustituimos los dos puntos que formaban el cluster
A por su centroide. El cluster A está representado
por este punto. Calculamos la nueva matriz de
distancias euclideas, y buscamos de nuevo la
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
CORRELACIÓN COFENÉTICA
- Correlación entre las distancias observadas y las estimadas en el gráfico.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-1618236
5
- Métodos:
o Método de la media (average linkage): En el método de
la media, la distancia entre clusters se calcula como la
distancia media entre pares de observaciones, una de
cada cluster.
▪ Proporciona clusters ni demasiado grandes ni
demasiado pequeños.
▪ Pueden utilizarse medidas de la similitud o de la
disimilitud.
▪ No es invariante por transformaciones monótonas
de las distancias.
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
▪ Tiende a fusionar clusters con varianzas pequeñas y tiende a proporcionar
clusters con la misma varianza
o Método del vecino más próximo: En el método del
vecino más próximo la distancia entre dos clusters es el
mínimo de las distancias entre un objeto de un cluster y
un objeto del otro.
▪ No es muy útil para resumir datos
▪ Útil para detectar outliers (estarán entre los
últimos en unirse a la jerarquía)
▪ Pueden usarse medidas de la similitud o de la
disimilitud
OTRA CARACTERIZACIÓN
Si dos objetos o grupos P y Q se han agrupado, la distancia de los grupos con otro objeto R
puede calcularse como una función de las distancias entre los tres objetos o grupos de la forma
siguiente:
𝒅(𝑹, 𝑷 + 𝑸) = 𝜹𝟏𝒅(𝑹, 𝑷) + 𝜹𝟐𝒅(𝑹, 𝑸) + 𝜹𝟑𝒅(𝑷, 𝑸) + 𝜹𝟒 |𝒅(𝑹, 𝑷) − 𝒅(𝑹, 𝑸)|
donde 𝛿𝑗 son constantes de ponderación. Los distintos métodos dependen de los valores que
demos a las ponderaciones. En la tabla siguiente se muestran los pesos para algunos de los
métodos más comunes:
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Reservados todos los derechos.
MÉTODOS NO JERÁRQUICOS: K-MEDIAS
Dado un conjunto de observaciones (𝑥1 , 𝑥2 . . . , 𝑥𝑛), dónde cada observación es un vector p
dimensional, el método k-medias trata de buscar una partición de las n observaciones en k
grupos o clusters (𝑘 < 𝑛) 𝑆 = {𝑆1 , 𝑆2 , . . . , 𝑆𝑘 } de forma que la suma de cuadrados de las distancias
dentro de los grupos sea mínima.
- Algoritmo:
1. Se seleccionan tantos puntos al azar como número de clusters (en este caso k=3). Los
puntos seleccionados son los centroide iniciales.
2. Se determinan los grupos asociando cada observación al centroide más próximo.
3. Se re calculan los centroide mediante las medias de los clusters construidos en el
apartado anterior.
4. Se repiten los pasos 2 y 3 hasta que se alcanza la convergencia, es decir, hasta que los
centroide y las asignaciones no cambian.