Documentos de Académico
Documentos de Profesional
Documentos de Cultura
7.1. Introducción.
Denición Sean P y Q dos objetos, que pueden contener mediciones de variables x e y. Una
función real que atribuye un número d(P, Q) a cada par de objetos, es una función distancia si
cumple las siguientes condiciones razonables:
Si además de las anteriores, cumple las siguientes propiedades, entonces se dice que d es una
distancia métrica:
71
72 Máster en Técnicas Estadísticas
Aunque la distancia de Mahalanobis se dene para una matriz de covarianzas relacionada con
el problema que se esté tratando, realmente se puede denir una distancia a partir de cualquier
matriz simétrica y semidenida positiva. Es más, la distancia obtenida será denida positiva si
y sólo si lo es la matriz que se ha utilizado.
Pasamos a denir una medida de similitud, también en este caso mediante propiedades razonables
que debe cumplir una medida de este tipo.
Denición Una medida de similitud entre dos objetos P y Q, s(P, Q), debe cumplir la siguientes
propiedades:
Nótese hay una analogía casi perfecta con las tres propiedades que denen una medida de dis-
tancia. Sin embargo, la propiedad (III) está denida de manera más dicultosa para la similitud.
Realmente distancia y similitud pretenden medir un mismo concepto, siendo la idea de similitud
opuesta a la idea de distancia. Sin embargo, en las Matemáticas se emplean mucho más las me-
didas de distancia, porque es más sencillo formular la propiedad (III) para ellas, pues simplica
mucho el poder atribuir un valor de referencia cero para denir la distancia de un individuo a
sí mismo. La similitud carece de este valor de referencia, siendo posible que la similitud de un
individuo a sí mismo sea diferente de unos a otros. A pesar de esta dicultad, es cierto que las
medidas de similitud surgen de modo natural en muchos problemas de análisis multivariante.
Podemos destacar los problemas relacionados con valoraciones subjetivas de similitud. También
es frecuente denir una medida de similitud en base a la coincidencia de caracteres semejantes
entre individuos.
cierto conjunto de puntos. En primer lugar denimos dicha matriz, para después establecer en
un teorema una caracterización, que da pie al algoritmo de cálculo de las puntuaciones.
El teorema siguiente nos permite decir si una matriz D es euclídea, y en tal caso, cómo se puede
obtener el conjunto de puntos correspondiente. Empezamos considerando las siguientes matrices
1
A = (ars ) ars = − d2rs
2
y
B = HAH
siendo H = In − n−1 110 la matriz que centra una muestra de datos. Si se multiplica la matriz
H por la izquierda, el resultado será una matriz cuyas columnas estén centradas (tengan media
cero). Si se multiplica H por la derecha, se consigue que las las estén centradas. Al multiplicar
a ambos lados de la matriz A, se obtiene la matriz B , que tiene tanto las las como las columnas
centradas.
Teorema 7.1 Sea D una matriz de distancias y construyamos B como se acaba de indicar.
Entonces
D es Euclídea si y sólo si B es semidenida positiva.
En concreto, esta caracterización se puede descomponer en los siguientes resultados:
Entonces los puntos con coordenadas xr = (xr1 , . . . , xrp )0 (xr es la la r-ésima de X ) tienen
distancias dadas por D. Además, este conjunto de puntos tiene centro de gravedad en el origen,
x̄ = 0, y B constituye la matriz de productos interiores de estos puntos.
74 Máster en Técnicas Estadísticas
A la vista de este algoritmo cabe preguntarse qué ocurre si la matriz de distancias no es euclídea.
La respuesta es que en ese caso la matriz B no será semidenida positiva, y en consecuencia
tendrá autovalores negativos. Por supuesto sólo se tomarán para las coordenadas principales los
autovalores positivos, pero además se ha de procurar que los autovalores escogidos contengan
una proporción alta de la suma total de autovalores, incluyendo los autovalores negativos (en
valor absoluto o al cuadrado, para evitar cancelaciones debidas al signo). Así, como criterio se
puede considerar
k k
λ2i
P P
|λi |
Pk
(1)
= Pi=1
n o bien Pk
(2)
= Pi=1
n 2
i=1 |λi | i=1 λi
Sobre el número adecuado de autovalores se pueden aplicar las mismas consideraciones ya estu-
diadas en el tema de Análisis de Componentes Principales, en la sección 5.4, teniendo presente
en este caso que el objetivo es obtener un conjunto de puntos cuyas distancias euclídeas sean
parecidas (lo más posible) a las distancias contenidas en la matriz D, dadas en el enunciado de
cada problema.
7.4. Similitudes.
En esta sección vamos a ver cómo se puede tratar una matriz de similitudes, de manera que se
llegue a una solución en coordenadas principales que representen dichas similitudes. Empezamos
deniendo lo que vamos a entender por una matriz de similitudes.
Realmente esta denición no es más que las propiedades (I), (II) y (III) que denen una simil-
itud. La idea es aplicar la misma técnica descrita en la sección anterior, para lo cual es preciso
transformar las similitudes en distancias. Emplearemos la transformación estándar, que se dene
a continuación:
Nótese que la propiedad (III) de la similitud garantiza que la cantidad bajo la raíz cuadrada es
no negativa. Por lo demás, es fácil comprobar que D es una matriz de distancia.
El teorema siguiente resuelve el problema que teníamos planteado.
Ejemplo 7.3 Realizaremos una representación de los códigos en lenguaje Morse de los diez
dígitos, en base a la tabla de similitudes que gura en la página 395 de Mardia y otros (1979).
Los datos se encuentran en el chero "ejemplo7.3.R"
Bibliografía.