MedidasdeDistancia PDF

Medidas de Distancia
Miguel Cárdenas-Montes
La aplicación de métricas de distancia diferentes de la distancia euclidea

puede suponer una importante mejora en el rendimiento de algoritmos
evolutivos y en algoritmos de minería de datos.
Objetivos:
Conocer algunas medidas de distancia especialmente aquellas dife-

rentes de la distancia euclídea.
Este documento puede contener impre-
cisiones o errores. Por favor no lo utilice
para citarlo como una fuente fiable.
1 Definición Formal de Distancia
Una definición formal de distancia D ( ~

X1 , ~
X2 )
No negativo:
D(~
X1 , ~
X2 ) ≥ 0 ∀ ~
X1 , ~
X2 ∈ X
Simetría:
D(~
X1 , ~
X2 ) = D ( ~
X2 , ~
X1 ) ∀ ~
X1 , ~
X2 ∈ X
Desigualdad triangular:
D(~X1 , ~
X2 ) ≤ D ( ~
X1 , ~
X3 ) + D ( ~
X3 , ~
X2 ) ∀ ~
X1 , ~
X2 , ~
X3 ∈ X
Muchas medidas de distancia no son me-
Axioma de coincidencia o identidad de indiscernibles: didas porque no cumplen los requisi-
tos. Por ejemplo, las pseudométricas no
D(~
X1 , ~
X2 ) = 0, si y solo si ~
X1 = ~
X2 cumplen las condiciones: distancias no
negativas ni la identidad de indiscer-
nibles. Las quasimétricas no cumplen la
condición de simetría, y por último las
semimétricas no cumplen la desigual-
2 Distancia Euclídea dad triangular.
La distancia euclídea entre dos punto se define en la ecuación 1.

s
n
D(~
X1 , ~
X2 ) = ∑ (x1i − x2i )2 (1)
i =1
Además hay que tener cuidado si tiene atributos con rangos muy
grandes (por ejemplo, ingresos de la persona que pide la hipoteca) y
otros con rangos pequeños (por ejemplo atributo edad de la persona
que pide la hipoteca), ya que unos enmascarará a los otros. La solución
es normalizar adecuadamente todos los atributos (ecuación 2).
v − vmin
v′ = (2)
vmax − vmin
2 m m
3 Distancia Manhattan
En esta métrica, la distancia entre dos puntos es la suma de las

diferencias absolutas entre sus coordenadas (ecuación 3).
n
D(~
X1 , ~
X2 ) = || X1 − X2 || = ∑ |X1i − X2i | (3)
i =1
4 Distancia Chebyshev
Figura 1: Distancia Manhattan contra También se denomina métrica máxima o métrica L∞ . La distancia
distancia Euclideana: Las líneas roja, de Chebyshev entre dos vectores es la mayor diferencia en cualquiera
azul y amarilla tienen la misma longitud
(12) en las geometrías Euclideana y taxi- de las coordenadas del espacio (ecuación 4).
cab. En la geometría Euclideana,
√ la línea
verde tiene longitud 6 2 ≈ 8,48, y es el
único camino más corto. En la geometría
D(~
X1 , ~
X2 ) = max (| X1i − X2i |) (4)
taxicab, la línea verde tiene longitud 12,
por lo que no es más corta que los otros
caminos.
Wikipedia: Geometría del taxista
5 Distancia del Coseno
La distancia del coseno no es propiamente una distancia sino una

medida de similaridad entre dos vectores en un espacio que tiene defi-
nido un producto interior. En el espacio euclídeo este producto interior
es el producto escalar, ecuación 5. La similaridad coseno no debe ser
considerada como una métrica debido a que no cumple la desigualdad
triangular.
~X1 · ~X2 = || X1 || || X2 || cos(θ ) (5)

En el ajedrez, la distancia entre cuadra-
dos en el tablero para las torres se mide
en distancia Manhattan; reyes y reinas ~X1 · ~X2
usan la distancia Chebyshev, y los alfiles similaridad = cos(θ ) = (6)
usan la distancia Manhattan (entre cua-
|| X1 || || X2 ||
drados del mismo color) en el tablero ro- Para que la medida de similaridad esté en el rango (0,1), se puede
tado en 45 grados, es decir, con sus dia- arccos(similaridad)
gonales como ejes coordenados. Para ir calcular a través de la fórmular 1 − π .
de un cuadrado a otro, solo los reyes re- En minería de datos se suele emplear como un indicador de cohe-
quieren tantos movimientos como el va-
sión de clusteres de textos.
lor de la distancia; torres, reinas y alfiles
requieren uno o dos movimientos (en un
tablero vacío, y asumiendo que el movi-
miento es posible en el caso del alfil). 6 Distancia Hamming
Wikipedia: Geometría del taxista
Si los atributos son categóricos, entonces la distancia Hamming pro-
pone una distancia entre dos cadenas: la distancia es 1 por cada ele-
mento diferente y 0 por cada elemento idéntico en la cadena.
La distancia de toned a roses es 3.
La distancia de 1011101 a 1001001 es 2.

m e d i d a s d e d i s t a n i a 3
La distancia de 2173896 a 2233796 es 3.
Dicho de otra forma, define el mínimo número de sustituciones para

convertir una cadena en otra. Solo es válida si ambas sequencias tienen
la misma longitud.
7 Distancia Levenshtein
La distancia de Levenshtein es también llamada distancia de edi-

ción o distancia entre palabras. Esta distancia mide el número mínimo
de operaciones para transformar una cadena de caracteres en otra ca-
dena de caracteres. Las operaciones válidas para esta medida son la
inserción, la eliminación y la sustitución de un carácter.
La distancia de Levenshtein es una generalización de la distancia de
Hamming. En la distancia de Hamming ambas cadenas tienen que te-
ner la misma longitud, y por lo tanto, solo admite la operación de sus-
titución. Existen otras generalizaciones de la distancia de Hamming,
por ejemplo la distancia de Damerau-Levenshtein.
8 Distancia Damerau-Levenshtein
A diferencia de la distancia de Levenshtein, la distancia de Damerau-

Levenshtein incluye transposición de dos caracteres. Por lo tanto, ade-
más de las operaciones de inserción, eliminación y sustitución de un
carácter, incorpora la transposición de dos caracteres.
9 Distancia Mahalanobis
La distancia de Mahalanobis mide la distancia de un conjunto de

puntos a un punto común. Es un valor sin unidades. Fue introducida
por Mahalanobis en 1936. Esta distancia difiere de la distancia euclí-
dea, Manhattan y otras en que tiene en cuenta las correlaciones del
conjunto de datos. La distancia de Mahalanobis es invariante de esca-
la. La invariancia de escala es una propie-
dad de objetos o leyes en los que no hay
s
2 2 cambios si la escala de tamaño (o la esca-
( x11 − x12 ) ( x21 − x22 )

la de energía) son multiplicadas por un
D(~
X1 , ~
X2 ) = + (7) factor común.
σ1 σ2
Wikipedia: Invariancia de escala
q
D(~
X1 , ~
X2 ) = (~x1 − ~x2 )S−1 (~x1 − ~x2 ) (8)
donde S es una matriz diagonal cuyos elementos en la diagonal sij = σi

Se puede imaginar un caso en el cual las dos variables de las ecua-
ciones anteriores no sean independientes. Es decir, que cuando una
variable aumenta, es más probable que la otra variable se comporte
4 m m
de igual manera, o de forma opuesta (disminuye), pero correlaciona-

das. Para incorporar la dependencia entre las dos variables, se puede
sustituir la matriz diagonal S por la matriz de covarianza Σ:
q
D(~
X1 , ~
X2 ) = (~x1 − ~x2 )Σ−1 (~x1 − ~x2 ) (9)
Si se sustituye la matriz de covarianza Σ, por la matriz identidad,

entonces la distancia de mahalanobis se transforma en la distancia eu-
clidea.

MedidasdeDistancia PDF

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

MedidasdeDistancia PDF

Cargado por

Copyright:

Formatos disponibles

Medidas de Distancia

La aplicación de métricas de distancia diferentes de la distancia euclidea

Conocer algunas medidas de distancia especialmente aquellas dife-

Una definición formal de distancia D ( ~

La distancia euclídea entre dos punto se define en la ecuación 1.

En esta métrica, la distancia entre dos puntos es la suma de las

La distancia del coseno no es propiamente una distancia sino una

~X1 · ~X2 = || X1 || || X2 || cos(θ ) (5)

La distancia de toned a roses es 3.

La distancia de 1011101 a 1001001 es 2.

La distancia de 2173896 a 2233796 es 3.

Dicho de otra forma, define el mínimo número de sustituciones para

La distancia de Levenshtein es también llamada distancia de edi-

A diferencia de la distancia de Levenshtein, la distancia de Damerau-

La distancia de Mahalanobis mide la distancia de un conjunto de

donde S es una matriz diagonal cuyos elementos en la diagonal sij = σi

de igual manera, o de forma opuesta (disminuye), pero correlaciona-

Si se sustituye la matriz de covarianza Σ, por la matriz identidad,

También podría gustarte