Medidas de Distancia
Miguel Cárdenas-Montes
La aplicación de métricas de distancia diferentes de la distancia euclidea
puede suponer una importante mejora en el rendimiento de algoritmos
evolutivos y en algoritmos de minería de datos.
Objetivos:
Conocer algunas medidas de distancia especialmente aquellas dife-
rentes de la distancia euclídea.
Este documento puede contener impre-
cisiones o errores. Por favor no lo utilice
para citarlo como una fuente fiable.
1 Definición Formal de Distancia
Una definición formal de distancia D ( ~
X1 , ~
X2 )
No negativo:
D(~
X1 , ~
X2 ) ≥ 0 ∀ ~
X1 , ~
X2 ∈ X
Simetría:
D(~
X1 , ~
X2 ) = D ( ~
X2 , ~
X1 ) ∀ ~
X1 , ~
X2 ∈ X
Desigualdad triangular:
D(~X1 , ~
X2 ) ≤ D ( ~
X1 , ~
X3 ) + D ( ~
X3 , ~
X2 ) ∀ ~
X1 , ~
X2 , ~
X3 ∈ X
Muchas medidas de distancia no son me-
Axioma de coincidencia o identidad de indiscernibles: didas porque no cumplen los requisi-
tos. Por ejemplo, las pseudométricas no
D(~
X1 , ~
X2 ) = 0, si y solo si ~
X1 = ~
X2 cumplen las condiciones: distancias no
negativas ni la identidad de indiscer-
nibles. Las quasimétricas no cumplen la
condición de simetría, y por último las
semimétricas no cumplen la desigual-
2 Distancia Euclídea dad triangular.
La distancia euclídea entre dos punto se define en la ecuación 1.
s
n
D(~
X1 , ~
X2 ) = ∑ (x1i − x2i )2 (1)
i =1
Además hay que tener cuidado si tiene atributos con rangos muy
grandes (por ejemplo, ingresos de la persona que pide la hipoteca) y
otros con rangos pequeños (por ejemplo atributo edad de la persona
que pide la hipoteca), ya que unos enmascarará a los otros. La solución
es normalizar adecuadamente todos los atributos (ecuación 2).
v − vmin
v′ = (2)
vmax − vmin
2 m
m
3 Distancia Manhattan
En esta métrica, la distancia entre dos puntos es la suma de las
diferencias absolutas entre sus coordenadas (ecuación 3).
n
D(~
X1 , ~
X2 ) = || X1 − X2 || = ∑ |X1i − X2i | (3)
i =1
4 Distancia Chebyshev
Figura 1: Distancia Manhattan contra También se denomina métrica máxima o métrica L∞ . La distancia
distancia Euclideana: Las líneas roja, de Chebyshev entre dos vectores es la mayor diferencia en cualquiera
azul y amarilla tienen la misma longitud
(12) en las geometrías Euclideana y taxi- de las coordenadas del espacio (ecuación 4).
cab. En la geometría Euclideana,
√ la línea
verde tiene longitud 6 2 ≈ 8,48, y es el
único camino más corto. En la geometría
D(~
X1 , ~
X2 ) = max (| X1i − X2i |) (4)
taxicab, la línea verde tiene longitud 12,
por lo que no es más corta que los otros
caminos.
Wikipedia: Geometría del taxista
5 Distancia del Coseno
La distancia del coseno no es propiamente una distancia sino una
medida de similaridad entre dos vectores en un espacio que tiene defi-
nido un producto interior. En el espacio euclídeo este producto interior
es el producto escalar, ecuación 5. La similaridad coseno no debe ser
considerada como una métrica debido a que no cumple la desigualdad
triangular.
~X1 · ~X2 = || X1 || || X2 || cos(θ ) (5)
En el ajedrez, la distancia entre cuadra-
dos en el tablero para las torres se mide
en distancia Manhattan; reyes y reinas ~X1 · ~X2
usan la distancia Chebyshev, y los alfiles similaridad = cos(θ ) = (6)
usan la distancia Manhattan (entre cua-
|| X1 || || X2 ||
drados del mismo color) en el tablero ro- Para que la medida de similaridad esté en el rango (0,1), se puede
tado en 45 grados, es decir, con sus dia- arccos(similaridad)
gonales como ejes coordenados. Para ir calcular a través de la fórmular 1 − π .
de un cuadrado a otro, solo los reyes re- En minería de datos se suele emplear como un indicador de cohe-
quieren tantos movimientos como el va-
sión de clusteres de textos.
lor de la distancia; torres, reinas y alfiles
requieren uno o dos movimientos (en un
tablero vacío, y asumiendo que el movi-
miento es posible en el caso del alfil). 6 Distancia Hamming
Wikipedia: Geometría del taxista
Si los atributos son categóricos, entonces la distancia Hamming pro-
pone una distancia entre dos cadenas: la distancia es 1 por cada ele-
mento diferente y 0 por cada elemento idéntico en la cadena.
La distancia de toned a roses es 3.
La distancia de 1011101 a 1001001 es 2.
m e d i d a s d e d i s t a n
i a 3
La distancia de 2173896 a 2233796 es 3.
Dicho de otra forma, define el mínimo número de sustituciones para
convertir una cadena en otra. Solo es válida si ambas sequencias tienen
la misma longitud.
7 Distancia Levenshtein
La distancia de Levenshtein es también llamada distancia de edi-
ción o distancia entre palabras. Esta distancia mide el número mínimo
de operaciones para transformar una cadena de caracteres en otra ca-
dena de caracteres. Las operaciones válidas para esta medida son la
inserción, la eliminación y la sustitución de un carácter.
La distancia de Levenshtein es una generalización de la distancia de
Hamming. En la distancia de Hamming ambas cadenas tienen que te-
ner la misma longitud, y por lo tanto, solo admite la operación de sus-
titución. Existen otras generalizaciones de la distancia de Hamming,
por ejemplo la distancia de Damerau-Levenshtein.
8 Distancia Damerau-Levenshtein
A diferencia de la distancia de Levenshtein, la distancia de Damerau-
Levenshtein incluye transposición de dos caracteres. Por lo tanto, ade-
más de las operaciones de inserción, eliminación y sustitución de un
carácter, incorpora la transposición de dos caracteres.
9 Distancia Mahalanobis
La distancia de Mahalanobis mide la distancia de un conjunto de
puntos a un punto común. Es un valor sin unidades. Fue introducida
por Mahalanobis en 1936. Esta distancia difiere de la distancia euclí-
dea, Manhattan y otras en que tiene en cuenta las correlaciones del
conjunto de datos. La distancia de Mahalanobis es invariante de esca-
la. La invariancia de escala es una propie-
dad de objetos o leyes en los que no hay
s
2 2 cambios si la escala de tamaño (o la esca-
( x11 − x12 ) ( x21 − x22 )
la de energía) son multiplicadas por un
D(~
X1 , ~
X2 ) = + (7) factor común.
σ1 σ2
Wikipedia: Invariancia de escala
q
D(~
X1 , ~
X2 ) = (~x1 − ~x2 )S−1 (~x1 − ~x2 ) (8)
donde S es una matriz diagonal cuyos elementos en la diagonal sij = σi
Se puede imaginar un caso en el cual las dos variables de las ecua-
ciones anteriores no sean independientes. Es decir, que cuando una
variable aumenta, es más probable que la otra variable se comporte
4 m
m
de igual manera, o de forma opuesta (disminuye), pero correlaciona-
das. Para incorporar la dependencia entre las dos variables, se puede
sustituir la matriz diagonal S por la matriz de covarianza Σ:
q
D(~
X1 , ~
X2 ) = (~x1 − ~x2 )Σ−1 (~x1 − ~x2 ) (9)
Si se sustituye la matriz de covarianza Σ, por la matriz identidad,
entonces la distancia de mahalanobis se transforma en la distancia eu-
clidea.