Está en la página 1de 4

Medidas de Distancia

Miguel Cárdenas-Montes

La aplicación de métricas de distancia diferentes de la distancia euclidea


puede suponer una importante mejora en el rendimiento de algoritmos
evolutivos y en algoritmos de minería de datos.

Objetivos:

Conocer algunas medidas de distancia especialmente aquellas dife-


rentes de la distancia euclídea.
Este documento puede contener impre-
cisiones o errores. Por favor no lo utilice
para citarlo como una fuente fiable.
1 Definición Formal de Distancia

Una definición formal de distancia D ( ~


X1 , ~
X2 )

No negativo:
D(~
X1 , ~
X2 ) ≥ 0 ∀ ~
X1 , ~
X2 ∈ X

Simetría:
D(~
X1 , ~
X2 ) = D ( ~
X2 , ~
X1 ) ∀ ~
X1 , ~
X2 ∈ X

Desigualdad triangular:
D(~X1 , ~
X2 ) ≤ D ( ~
X1 , ~
X3 ) + D ( ~
X3 , ~
X2 ) ∀ ~
X1 , ~
X2 , ~
X3 ∈ X
Muchas medidas de distancia no son me-
Axioma de coincidencia o identidad de indiscernibles: didas porque no cumplen los requisi-
tos. Por ejemplo, las pseudométricas no
D(~
X1 , ~
X2 ) = 0, si y solo si ~
X1 = ~
X2 cumplen las condiciones: distancias no
negativas ni la identidad de indiscer-
nibles. Las quasimétricas no cumplen la
condición de simetría, y por último las
semimétricas no cumplen la desigual-
2 Distancia Euclídea dad triangular.

La distancia euclídea entre dos punto se define en la ecuación 1.


s
n
D(~
X1 , ~
X2 ) = ∑ (x1i − x2i )2 (1)
i =1

Además hay que tener cuidado si tiene atributos con rangos muy
grandes (por ejemplo, ingresos de la persona que pide la hipoteca) y
otros con rangos pequeños (por ejemplo atributo edad de la persona
que pide la hipoteca), ya que unos enmascarará a los otros. La solución
es normalizar adecuadamente todos los atributos (ecuación 2).

v − vmin
v′ = (2)
vmax − vmin
2 m m

3 Distancia Manhattan

En esta métrica, la distancia entre dos puntos es la suma de las


diferencias absolutas entre sus coordenadas (ecuación 3).

n
D(~
X1 , ~
X2 ) = || X1 − X2 || = ∑ |X1i − X2i | (3)
i =1

4 Distancia Chebyshev

Figura 1: Distancia Manhattan contra También se denomina métrica máxima o métrica L∞ . La distancia
distancia Euclideana: Las líneas roja, de Chebyshev entre dos vectores es la mayor diferencia en cualquiera
azul y amarilla tienen la misma longitud
(12) en las geometrías Euclideana y taxi- de las coordenadas del espacio (ecuación 4).
cab. En la geometría Euclideana,
√ la línea
verde tiene longitud 6 2 ≈ 8,48, y es el
único camino más corto. En la geometría
D(~
X1 , ~
X2 ) = max (| X1i − X2i |) (4)
taxicab, la línea verde tiene longitud 12,
por lo que no es más corta que los otros
caminos.
Wikipedia: Geometría del taxista
5 Distancia del Coseno

La distancia del coseno no es propiamente una distancia sino una


medida de similaridad entre dos vectores en un espacio que tiene defi-
nido un producto interior. En el espacio euclídeo este producto interior
es el producto escalar, ecuación 5. La similaridad coseno no debe ser
considerada como una métrica debido a que no cumple la desigualdad
triangular.

~X1 · ~X2 = || X1 || || X2 || cos(θ ) (5)


En el ajedrez, la distancia entre cuadra-
dos en el tablero para las torres se mide
en distancia Manhattan; reyes y reinas ~X1 · ~X2
usan la distancia Chebyshev, y los alfiles similaridad = cos(θ ) = (6)
usan la distancia Manhattan (entre cua-
|| X1 || || X2 ||
drados del mismo color) en el tablero ro- Para que la medida de similaridad esté en el rango (0,1), se puede
tado en 45 grados, es decir, con sus dia- arccos(similaridad)
gonales como ejes coordenados. Para ir calcular a través de la fórmular 1 − π .
de un cuadrado a otro, solo los reyes re- En minería de datos se suele emplear como un indicador de cohe-
quieren tantos movimientos como el va-
sión de clusteres de textos.
lor de la distancia; torres, reinas y alfiles
requieren uno o dos movimientos (en un
tablero vacío, y asumiendo que el movi-
miento es posible en el caso del alfil). 6 Distancia Hamming
Wikipedia: Geometría del taxista
Si los atributos son categóricos, entonces la distancia Hamming pro-
pone una distancia entre dos cadenas: la distancia es 1 por cada ele-
mento diferente y 0 por cada elemento idéntico en la cadena.

La distancia de toned a roses es 3.

La distancia de 1011101 a 1001001 es 2.


m e d i d a s d e d i s t a n i a 3

La distancia de 2173896 a 2233796 es 3.

Dicho de otra forma, define el mínimo número de sustituciones para


convertir una cadena en otra. Solo es válida si ambas sequencias tienen
la misma longitud.

7 Distancia Levenshtein

La distancia de Levenshtein es también llamada distancia de edi-


ción o distancia entre palabras. Esta distancia mide el número mínimo
de operaciones para transformar una cadena de caracteres en otra ca-
dena de caracteres. Las operaciones válidas para esta medida son la
inserción, la eliminación y la sustitución de un carácter.
La distancia de Levenshtein es una generalización de la distancia de
Hamming. En la distancia de Hamming ambas cadenas tienen que te-
ner la misma longitud, y por lo tanto, solo admite la operación de sus-
titución. Existen otras generalizaciones de la distancia de Hamming,
por ejemplo la distancia de Damerau-Levenshtein.

8 Distancia Damerau-Levenshtein

A diferencia de la distancia de Levenshtein, la distancia de Damerau-


Levenshtein incluye transposición de dos caracteres. Por lo tanto, ade-
más de las operaciones de inserción, eliminación y sustitución de un
carácter, incorpora la transposición de dos caracteres.

9 Distancia Mahalanobis

La distancia de Mahalanobis mide la distancia de un conjunto de


puntos a un punto común. Es un valor sin unidades. Fue introducida
por Mahalanobis en 1936. Esta distancia difiere de la distancia euclí-
dea, Manhattan y otras en que tiene en cuenta las correlaciones del
conjunto de datos. La distancia de Mahalanobis es invariante de esca-
la. La invariancia de escala es una propie-
dad de objetos o leyes en los que no hay
s
2 2 cambios si la escala de tamaño (o la esca-
( x11 − x12 ) ( x21 − x22 )
 
la de energía) son multiplicadas por un
D(~
X1 , ~
X2 ) = + (7) factor común.
σ1 σ2
Wikipedia: Invariancia de escala
q
D(~
X1 , ~
X2 ) = (~x1 − ~x2 )S−1 (~x1 − ~x2 ) (8)

donde S es una matriz diagonal cuyos elementos en la diagonal sij = σi


Se puede imaginar un caso en el cual las dos variables de las ecua-
ciones anteriores no sean independientes. Es decir, que cuando una
variable aumenta, es más probable que la otra variable se comporte
4 m m

de igual manera, o de forma opuesta (disminuye), pero correlaciona-


das. Para incorporar la dependencia entre las dos variables, se puede
sustituir la matriz diagonal S por la matriz de covarianza Σ:
q
D(~
X1 , ~
X2 ) = (~x1 − ~x2 )Σ−1 (~x1 − ~x2 ) (9)

Si se sustituye la matriz de covarianza Σ, por la matriz identidad,


entonces la distancia de mahalanobis se transforma en la distancia eu-
clidea.

También podría gustarte