Está en la página 1de 6

Máster en Técnicas Estadísticas

Análisis Multivariante. Año 2008  2009. Profesor: César Sánchez Sellero.

Tema 7. Escalamiento multidimensional

7.1. Introducción.

El Escalamiento Multidimensional es una técnica de análisis multivariante que, partiendo de


una matriz de distancias (o bien de similitudes) entre individuos, produce una representación
de los individuos en una escala euclidea ordinaria de modo que las distancias en dicha escala se
aproximen lo mejor posible a las distancias de partida.
Se trata, pues, de construir unas pocas variables (dos es lo más común, por ser representables en
papel), y otorgar puntuaciones a los individuos de manera que las distancias entre puntuaciones
representen las distancias dadas en el enunciado del problema. En la literatura es frecuente
denominar a estas puntuaciones, coordenadas principales, y por este motivo, también se conoce
al escalamiento multidimensional como análisis de coordenadas principales.
En ocasiones la información disponible es una medida de distancia o de discrepancia o diferencia
entre individuos, mientras que en otras se dispone de una medida de similitud entre individuos.
Se va a proporcionar una solución común tanto si los datos de partida son distancias como si son
similitudes, pues de hecho será posible transformar una medida de similitud en una medida de
distancia. Para empezar el tema, vamos a establecer los conceptos de distancia y de similitud.

7.2. Distancia y similitud.

Denición Sean P y Q dos objetos, que pueden contener mediciones de variables x e y. Una
función real que atribuye un número d(P, Q) a cada par de objetos, es una función distancia si
cumple las siguientes condiciones razonables:

(I) Simetría: d(P, Q) = d(Q, P )

(II) No negativa: d(P, Q) ≥ 0

(III) Identicación del objeto: d(P, P ) = 0

Si además de las anteriores, cumple las siguientes propiedades, entonces se dice que d es una
distancia métrica:

(IV) Denida positiva: d(P, Q) = 0 si y sólo si P = Q

(V) Desigualdad triangular: d(P, Q) ≤ d(P, R) + d(R, Q)

Como ejemplos de distancias, merecen mención especial las siguientes:

71
72 Máster en Técnicas Estadísticas

Distancia euclídea Si x = (x1 , . . . , xp )0 e y = (y1 , . . . , yp )0 son dos observaciones de dimensión


p, la distancia euclídea entre ellas se dene como
v
u p
uX p
d(x, y) = t (xk − yk )2 = (x − y)0 (x − y)
k=1

Distancia de Mahalanobis Si x = (x1 , . . . , xp )0 e y = (y1 , . . . , yp )0 son dos observaciones de


dimensión p, y Σ es una matriz de covarianzas, se dene la distancia de Mahalanobis como
p
d(x, y) = (x − y)0 Σ−1 (x − y)
En muchas ocasiones usaremos la notación d2 (x, y) = (x − y)0 (x − y) para la distancia al
cuadrado, lo cual evita el uso de raíces cuadradas.

Aunque la distancia de Mahalanobis se dene para una matriz de covarianzas relacionada con
el problema que se esté tratando, realmente se puede denir una distancia a partir de cualquier
matriz simétrica y semidenida positiva. Es más, la distancia obtenida será denida positiva si
y sólo si lo es la matriz que se ha utilizado.
Pasamos a denir una medida de similitud, también en este caso mediante propiedades razonables
que debe cumplir una medida de este tipo.

Denición Una medida de similitud entre dos objetos P y Q, s(P, Q), debe cumplir la siguientes
propiedades:

(I) Simetría: s(P, Q) = s(Q, P )


(II) No negativa: s(P, Q) ≥ 0
(III) Identicación del objeto: s(P, Q) ≤ s(P, P )

Nótese hay una analogía casi perfecta con las tres propiedades que denen una medida de dis-
tancia. Sin embargo, la propiedad (III) está denida de manera más dicultosa para la similitud.
Realmente distancia y similitud pretenden medir un mismo concepto, siendo la idea de similitud
opuesta a la idea de distancia. Sin embargo, en las Matemáticas se emplean mucho más las me-
didas de distancia, porque es más sencillo formular la propiedad (III) para ellas, pues simplica
mucho el poder atribuir un valor de referencia cero para denir la distancia de un individuo a
sí mismo. La similitud carece de este valor de referencia, siendo posible que la similitud de un
individuo a sí mismo sea diferente de unos a otros. A pesar de esta dicultad, es cierto que las
medidas de similitud surgen de modo natural en muchos problemas de análisis multivariante.
Podemos destacar los problemas relacionados con valoraciones subjetivas de similitud. También
es frecuente denir una medida de similitud en base a la coincidencia de caracteres semejantes
entre individuos.

7.3. Solución clásica.

La solución clásica es un procedimiento de obtención de puntuaciones a partir de una matriz de


distancias. Se basa en ciertas propiedades que cumple una matriz de distancias euclídeas entre
Análisis Multivariante 73

cierto conjunto de puntos. En primer lugar denimos dicha matriz, para después establecer en
un teorema una caracterización, que da pie al algoritmo de cálculo de las puntuaciones.

Denición Una matriz de distancias D (n × n) se dice Euclídea si existe un conjunto de n


puntos en algún espacio euclídeo cuyas distancias entre puntos vienen dadas por D. Dicho de otro
modo, si para alguna dimensión p, existen n puntos en el espacio de dimensión p, x1 , . . . , xn ∈ Rp
tales que
d2rs = (xr − xs )0 (xr − xs )

El teorema siguiente nos permite decir si una matriz D es euclídea, y en tal caso, cómo se puede
obtener el conjunto de puntos correspondiente. Empezamos considerando las siguientes matrices
1
A = (ars ) ars = − d2rs
2
y
B = HAH
siendo H = In − n−1 110 la matriz que centra una muestra de datos. Si se multiplica la matriz
H por la izquierda, el resultado será una matriz cuyas columnas estén centradas (tengan media
cero). Si se multiplica H por la derecha, se consigue que las las estén centradas. Al multiplicar
a ambos lados de la matriz A, se obtiene la matriz B , que tiene tanto las las como las columnas
centradas.

Teorema 7.1 Sea D una matriz de distancias y construyamos B como se acaba de indicar.
Entonces
D es Euclídea si y sólo si B es semidenida positiva.
En concreto, esta caracterización se puede descomponer en los siguientes resultados:

(a) Si D es la matriz de distancias euclídeas de los puntos Z = (z1 , . . . , zn )0 , entonces

brs = (zr − z̄)0 (zs − z̄) ∀r, s ∈ {1, . . . , n}

La expresión anterior se puede escribir en forma matricial así: B = (HZ)(HZ)0 , lo cual


prueba que B es semidenida positiva. Nótese que B se puede interpretar como la matriz
de productos interiores centrados entre las las de Z .
(b) Recíprocamente, si B es semidenida positiva de rango p, entonces se puede construir un con-
junto de puntos para B de la siguiente manera. Sean λ1 ≥ · · · ≥ λp > 0 los autovalores pos-
itivos de B , cuyos autovectores asociados se encuentran en la matriz X = (x(1) , . . . , x(p) ),
y están normalizados de manera que

x0(i) x(i) = λi ∀i ∈ {1, . . . , p}

Entonces los puntos con coordenadas xr = (xr1 , . . . , xrp )0 (xr es la la r-ésima de X ) tienen
distancias dadas por D. Además, este conjunto de puntos tiene centro de gravedad en el origen,
x̄ = 0, y B constituye la matriz de productos interiores de estos puntos.
74 Máster en Técnicas Estadísticas

Demostración. La demostración de este teorema se puede encontrar en Mardia y otros (1979),


páginas 397 a 399.
En base al teorema anterior, el algoritmo clásico de escalamiento multidimensional consta de los
siguientes pasos:

1. A partir de la matriz de distancias, se construye la matriz A = (− 21 d2rs ).


2. Se calcula la matriz B , de la siguiente manera brs = ars − ār• − ā•s + ā•• .
3. Se toman k autovalores positivos de B , λ1 ≥ · · · ≥ λk > 0, con autovectores asociados
X = (x(1) , . . . , x(k) ), normalizados de manera que x0(i) x(i) = λi ∀i ∈ {1, . . . , k}.

4. Las coordenadas principales de cada individuo estarán en cada la de X .

A la vista de este algoritmo cabe preguntarse qué ocurre si la matriz de distancias no es euclídea.
La respuesta es que en ese caso la matriz B no será semidenida positiva, y en consecuencia
tendrá autovalores negativos. Por supuesto sólo se tomarán para las coordenadas principales los
autovalores positivos, pero además se ha de procurar que los autovalores escogidos contengan
una proporción alta de la suma total de autovalores, incluyendo los autovalores negativos (en
valor absoluto o al cuadrado, para evitar cancelaciones debidas al signo). Así, como criterio se
puede considerar
k k
λ2i
P P
|λi |
Pk
(1)
= Pi=1
n o bien Pk
(2)
= Pi=1
n 2
i=1 |λi | i=1 λi

Sobre el número adecuado de autovalores se pueden aplicar las mismas consideraciones ya estu-
diadas en el tema de Análisis de Componentes Principales, en la sección 5.4, teniendo presente
en este caso que el objetivo es obtener un conjunto de puntos cuyas distancias euclídeas sean
parecidas (lo más posible) a las distancias contenidas en la matriz D, dadas en el enunciado de
cada problema.

Ejemplo 7.1 Aplicaremos la solución clásica de escalamiento multidimensional para aproximar


la matriz de distancias de cinco datos de dimensión tres, y después de cinco datos de dimensión
dos. Podremos observar que en el primer caso la aproximación presenta un error, mientras que
en el segundo es exacta.

El código en lenguaje R para el ejemplo anterior es el siguiente:

x=matrix(rnorm(15),nrow=5) # Matriz de cinco observaciones simuladas de dimensión tres


dist(x) # Matriz de distancias euclídeas entre los cinco datos
ms=cmdscale(dist(x)) # Solución clásica de escalamiento multidimensional
dist(ms) # Matriz de distancias de la solución
Análisis Multivariante 75

x=matrix(rnorm(10),nrow=5) # Lo mismo con dimensión dos, en lugar de tres


dist(x)
ms=cmdscale(dist(x))
dist(ms)

Ejemplo 7.2 Obtendremos una representación de 21 ciudades europeas aplicando la solución


clásica de escalamiento multidimensional, en base a sus distancias por carretera, en kilómetros.
Los datos están disponibles en el paquete básico de R bajo la denominación "eurodist".

7.4. Similitudes.

En esta sección vamos a ver cómo se puede tratar una matriz de similitudes, de manera que se
llegue a una solución en coordenadas principales que representen dichas similitudes. Empezamos
deniendo lo que vamos a entender por una matriz de similitudes.

Denición Una matriz C (n × n) se dice que es una matriz de similitudes si es simétrica,


crs ≥ 0∀r, s y crs ≤ crr ∀r, s.

Realmente esta denición no es más que las propiedades (I), (II) y (III) que denen una simil-
itud. La idea es aplicar la misma técnica descrita en la sección anterior, para lo cual es preciso
transformar las similitudes en distancias. Emplearemos la transformación estándar, que se dene
a continuación:

Denición La transformación estándar de una matriz de similitud C , es la que produce la


matriz de distancias D, de la siguiente manera:

drs = crr − 2crs + css

Nótese que la propiedad (III) de la similitud garantiza que la cantidad bajo la raíz cuadrada es
no negativa. Por lo demás, es fácil comprobar que D es una matriz de distancia.
El teorema siguiente resuelve el problema que teníamos planteado.

Teorema 7.2 Si la matriz de similitudes C es semidenida positiva, entonces la matriz de dis-


tancias D, obtenida a partir de C mediante la transformación estándar, es euclídea, y su matriz
de productos interiores coincide con B = HCH .

Demostración. La demostración de este teorema se puede encontrar en Mardia y otros (1979),


páginas 402 y 403.
Como consecuencia de este teorema, se puede aplicar la solución clásica de escalamiento multi-
dimensional, sin más que aplicar los pasos 3 y 4 del algoritmo a la matriz B = HCH .
76 Máster en Técnicas Estadísticas

Ejemplo 7.3 Realizaremos una representación de los códigos en lenguaje Morse de los diez
dígitos, en base a la tabla de similitudes que gura en la página 395 de Mardia y otros (1979).
Los datos se encuentran en el chero "ejemplo7.3.R"

Bibliografía.

Everitt, B. (2005). An R and S-Plus companion to multivariate analysis. Springer.


Mardia, K.V., Kent, J.T. y Bibby, J.M. (1979). Multivariate analysis. Academic Press.

También podría gustarte