Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Se quiere generar una jerarquía los individuos del conjunto, que se basa en los valores observados
de las variables en una muestra multivariada que definen el perfil del individuo
Criterio del vecino más cercano: Si la matriz de muestreo tiene p variables y n mediciones
entonces la matriz de muestreo es dada por
[ ]
x11 x 12 . . x1 p
x 21 x 22 . . x2 p
X= . . . . .
. . . . .
x n1 xn 2 . . x np
Cada fila representa el perfil de un individuo, por lo tanto hay n perfiles o mediciones, además,
p
cada medición se encuentra en IR . Por ejemplo consideremos las dos primeras filas que
corresponden a los perfiles de los dos primeros individuos, entonces la distancia es
distancia(entre los dos individuos)= √( x 11−x21 )2+( x12−x22 )2+. ..+(x1 p−x 2 p )2
Observación: Si las variables se miden en escalas muy distintas, es conveniente normalizar los
datos para que tengan el mismo orden de magnitud de tal forma que ninguna domine de manera
clara en la expresión de la distancia
La distancia euclidiana es válida para las variables continuas, pero si alguna de ellas es dicotómica
el término correspondiente tendrá en general menos peso que las variables continuas aunque
estas estén normalizadas. Para conseguir una mayor homogeneidad en la importancia de cada
variable a la hora de medir lo alejado que estén dos individuos se introduce el concepto de
similaridad
Matriz de distancia: Se calculan las distancias entre todos individuos del conjunto y se ubican en
una matriz simétrica, claramente en la diagonal las entradas deben ser nulas
Algoritmo:
ii) Las dos clases más cercanas forman una superclase que las contiene
iii) El algoritmo se detiene cuando todos los individuos están en una sola clase
d(AB,C)=min(d(A,C),d(B,C))
d(AB,C)=max(d(A,C),d(B,C))
Nota: Las jerarquías que resultan del proceso no tienen por qué ser iguales
[ ]
0.3 0.6
X = 0.35 0.4
0.7 0.8
0. 8 0.5
[ ]
0 0.21 0.45 0.51
0.21 0 0.53 0.46
D=
0. 45 0.53 0 0.32
por la matriz
0.51 0.46 0.32 0
C=
Luego la configuración en el tercer nivel queda con dos clases 3 {w1 w2 w 3 , w 4 } y la última
C 4 ={ w1 w 2 w3 w 4 }
configuración tiene solo una clase
w 2 y w 3 ⇒ C1 ={ w 2 w 3 , w 1 , w 4 }
b) La mayor distancia es entre los individuos
calculamos la distancia entre las 3 clases con el criterio del vecino más lejano
C3 = { w1 w2 w 3 , w 4 } C 4 ={ w1 w 2 w3 w 4 }
configuración es igual a finalmente
Variables dicotómicas: Las variables solo toman valores 1 o 0. En éste contexto se construye
A(i , h)+D(i ,h )
s (i, h )=
a) Proporción de coincidencias A (i ,h )+B(i, h )+C(i , h)+D(i , h)
A(i , h)
s(i, h )=
b) Proporción de apariciones A (i ,h )+B(i, h )+C(i , h)
S 1 1 1 1 0 0 0 1 0 0 1 1 0 0 1 0 0 1
C 0 1 0 0 0 0 1 1 0 1 0 0 0 0 1 1 1 1
E 0 0 1 0 0 1 1 0 1 0 1 0 1 0 1 0 1 1
A 1 0 1 0 1 1 0 0 0 1 0 0 0 0 1 0 0 1
[ ]
1 0 .5 6 /16 10/18
S= 0 . 5 1 8 /17 0 .5
6 /16 8/17 1 9/17
la matriz de similaridad es
10/18 0 .5 9/17 1 y por lo tanto la matriz de
[ ]
0 1 1.11803 0 .942809
D= 1 0 1.02899 1
1. 11803 1 .02899 0 0 .970143
distancia es igual a
0.942809 1 0 .970143 0
Si las variables son de tipo continuo entonces para la j-ésima variable se define una función de
similaridade ntre dos perfiles o filas por
|x(i , j)−x (h , j )|
s j (i, h)=1− rang( x j )=max { x (i, j )/i=1,2,3 ,. ... , n }−min { x (i, j )/i=1,2,3 ,. .. . , n }
rango( x j )
p
∑ w jih s j (i , h)
s (i, h )= j =1 p
∑ wijh w jih son pesos
Definición: Coeficientes de similaridad global j =1 donde
binarios
Nota:
w jih =1 si la comparación entre las filas i y h tiene sentido y 0 si no lo tiene
p
∑ s j (i , h)
s(i, h )= j=1
en particular si todas las variables son comparables p
[ ]
3 6 7
2 1 9
X=
1 2 6
Ejemplo: Consideremos la matriz de muestreo
4 4 8
Solución:
s 1 (i , j)+s2 (i , j )+s 3 (i , j)
s (i, j)=
3
s 1 (1,2 )=2/3 s 1 (1,3)=1/3 s 1 (1,4 )=2/3 s 1 (2,3 )=2/3 s 1 (2,4 )=1 /3 s1 (3,4 )=0
s 2 (1,2 )=0 s 2 (1,3 )=1/5 s 2 (1,4 )=3 /5 s2 (2,3)=4 /5 s 2 (2,4 )=2/5 s 2 (3,4 )=3/5
s 3 (1,2 )=1/3 s 3 (1,3 )=2/3 s 3 (1,4 )=2/3 s3 (2,3)=0 s 3 (2,4 )=2/3 s3 (3,4 )=1/3 ⇒
s(1,2)=1/3 s(1,3 )=0 . 4 s(1,4 )=0. 6444 s(2,3 )=0 . 4888 s(2,4 )=0 . 4666 s(3,4 )=0. 3111
[ ] [ ]
1 1 /3 0 .4 0 . 6444 0 1. 1547 1 .0954 0 .8433
S= 1/3 1 0 .4888 0 . 4666 ⇒ D= 1 .1547 0 1 .0111 1 .0328
0.4 0 .4888 1 0 .3111 1.0954 1. 0111 0 1 .1738
0.6444 0 .4666 0.3111 1 0 .8433 1. 0328 1 .1738 0
C 1= {w1 , w2 , w 3 , w 4 }⇒ C2 ={ w1 w 4 , w2 , w 3 }
[ ]
3 2 1 4
t
X=6 1 2 4
7 9 6 8 se debe calcular s(1,2),s(1,3) s(2,3 )
Todas las variables son comparables luego los pesos son iguales a uno por lo tanto
[ ] [ ]
1 0.73125 0 .03125 0 0. 7371 1 . 39194
S= 0.73125 1 0. 2375 ⇒ D= 0.7371 0 1.111
0.03125 0.2375 1 1 .39194 1 .111 0
En términos de clases
C1 ={ x 1 , x 2 , x3 } ⇒C 2= { x 1 x2 , x 3 }⇒ C3 = { x1 x 2 x 3 }
, es decir, con criterio de vecino más
x x y x2
cercano la variable 3 es menos similar que las variables 1