Está en la página 1de 18

ESCUELA SUPERIOR POLITÉCNICA AGROPECUARIA DE MANABÍ

MANUEL FÉLIX LÓPEZ

CARRERA DE COMPUTACIÓN

SEMESTRE SÉPTIMO PERÍODO ABR.-SEP. /2018

INTELIGENCIA ARTIFICIAL II

TEMA:
MÉTRICAS DE DISTANCIAS

AUTORA:

MARÍA D. PÁRRAGA RÍOS

FACILITADOR:
JORGE A. PÁRRAGA ÁLAVA Ph.D.

CALCETA, ABRIL 2018


I. INTRODUCCIÓN

En el campo de la inteligencia artificial una métrica es una función que calcula la


distancia entre dos elementos y que por tanto se utiliza para medir cuán
diferentes son, son muchas las alternativas de distancia/similitud existentes para
medir la similaridad entre objetos, por lo tanto cada una de ellas corresponde a
una lógica diferente, en esta ocasión las que se convirtieron en objeto de estudio
fueron las distancias Euclídea, Manhattan, Hamming, Levenshtein y la distancia
de similitud de Pearson.
II. CONTENIDO

2.1. MÉTRICAS Y MEDIDAS DE SIMILITUD

Una métrica es una función que calcula la distancia entre dos elementos y que
por tanto se utiliza para medir cuán diferentes son. Existen varias formas de
medir la distancia entre dos elementos, y elegir la métrica adecuada para cada
problema es un paso crucial para obtener buenos resultados en cualquier
aplicación de minería de datos. (Benítez, 2018).

DISTANCIA HAMMING

La distancia de Hamming entre dos palabras de código corresponde al número


de símbolos en que ambas difieren. La distancia mínima de un código, dmin, es
la mínima distancia entre dos palabras del código.

Como ejemplo, si se tienen las palabras de código c1 = [0 1 1 1 0] y c2 = [0 1 0


0 0], ambas difieren en el tercer y cuarto símbolo; por lo tanto, la distancia
Hamming entre ambas palabras es d (c1, c2) = 2. Notar que la distancia de
Hamming es una métrica y, por consiguiente, cumple las propiedades
respectivas (no-negatividad, simetría y desigualdad triangular).(Troncoso, 2012).

Si los atributos son categóricos, entonces la distancia Hamming propone una


distancia entre dos cadenas: la distancia es 1 por cada elemento diferente y 0
por cada elemento idéntico en la cadena. Dicho de otra forma, define el mínimo
número de sustituciones para convertir una cadena en otra. Solo es válida si
ambas secuencias tienen la misma longitud. (Cárdenas, 2016).

Es la efectividad de los códigos de bloque y depende de la diferencia entre una


palabra de código válida y otra. Cuanto mayor sea esta diferencia, menor es la
posibilidad de que un código válido se transforme en otro código válido por una
serie de errores. (García, 2014).
DISTANCIA EUCLÍDEA

Mide el parecido entre unidades de análisis que han sido evaluadas en un


conjunto de variables métricas (cuantitativas). La distancia euclídea para dos
sujetos viene dada por la formula siguiente: (López, 2009).

Fig. 1. Ecuación Euclidiana (López, 2009).

La distancia euclidiana es la métrica más utilizada para medir la distancia entre


dos puntos en un espacio euclídeo. En un espacio de dos dimensiones, la
distancia euclidiana coincide con la longitud del segmento que une ambos
puntos, y es deducible a partir del Teorema de Pitágoras. (Román, 2017).

La distancia en línea recta entre dos puntos. Es la distancia más usual, pero no
necesariamente la mejor en todos los casos; en particular, si los elementos de x
e y tienen unidades diferentes (García, 2014).

DISTANCIA MANHATTAN

La métrica de Manhattan fue creada por Hermann Minkowski en el siglo XIX, y


su nombre alude al diseño en cuadrícula de la mayoría de las calles de la isla de
Manhattan. La distancia de Manhattan entre dos puntos de una ciudad coincide
con el camino más corto que un automóvil puede tomar entre dichos dos puntos.
El automóvil solo puede avanzar en una dirección (o dimensión) al mismo tiempo,
siguiendo el sentido de las calles (Román, 2017).
Es una forma de geometría en la cual la métrica de la distancia entre dos puntos
es la suma de las diferencias (absolutas) de sus coordenadas. (García, 2014).

Fig. 2. Ecuación Manhattan (García, 2014).

DISTANCIA LEVENSHTEIN

Es también llamada distancia de edición o distancia entre palabras. Esta


distancia mide el número mínimo de operaciones para transformar una cadena
de caracteres en otra cadena de caracteres. Las operaciones válidas para esta
medida son la inserción, la eliminación y la sustitución de un carácter. La
distancia de Levenshtein es una generalización de la distancia de Hamming. En
la distancia de Hamming ambas cadenas tienen que tener la misma longitud, y
por lo tanto, solo admite la operación de sustitución. (Cárdenas, 2016).

Es una técnica matemática desarrollada para determinar el número de


operaciones en que una cadena puede transformarse en otra. Su campo de
aplicación va desde aplicativos de correctores ortográficos, sistemas de
reconocimiento de voz hasta sistemas de detección de plagios. Martel et al.,
2015).

SIMILITUD DE PEARSON

Es una medida de similitud entre dos variables que resuelve los problemas de la
similitud euclídea. Se trata de una medida de cómo las dos variables, una frente
a otra, se organizan en torno a una línea recta (línea de mejor ajuste), tal y como
se puede ver en la figura. Cuanto más similares son las valoraciones de dos
usuarios, más se parecerá su recta a la recta y = x, ya que las valoraciones serán
de la forma (1,1), (3,3), (4,4), etc. El coeficiente de correlación de Pearson sólo
mide relaciones lineales; aunque valga 0, puede haber relaciones no lineales
entre las dos variables (Benítez, 2018).
El coeficiente de correlación de Pearson (en este subapartado, simplemente
correlación) está relacionado con la pendiente de la recta representada en la
figura 1, y puede tomar un valor en el rango [–1,1]. Si su valor es 1 indica que las
dos variables están perfectamente relacionadas; si es 0, no hay relación lineal
entre ellas; si es negativo es que existe una correlación negativa, en este caso
que las valoraciones de un usuario son opuestas a las del otro. (Benítez, 2018).

El cálculo del coeficiente de correlación de Pearson sobre dos muestras de datos


alineados (valoraciones de usuarios, en nuestro caso) xi e yi viene dado por la
fórmula:

Fig. 3. Ecuación de similitud de Pearson (Benítez, 2018).


III. EJEMPLOS

EJEMPLO DE LA DISTANCIA EUCLÍDEA

Ejemplo # 1.
Se esta interesados en agrupar a una muestra de 5 familias en base al número
de hijos, al sueldo en dólares al mes y al tamaño de la casa en metros cuadrados.
La matriz de datos se muestra a continuación. (López, 2009).

Familias Hijos Salario Metros


F1 1,00 723,00 60,00
F2 1,00 900,00 60,00
F3 4, 00 800,00 80,00
F4 0, 00 1205,00 50,00
F5 2, 00 600,00 65,00

Solución: (𝑥, 𝑦) = √∑𝑚


𝑖=1(𝑥1𝑖 − 𝑥2𝑖)
2

(𝑓1, 𝑓2) = √((1 − 1)2 + (723 − 900)2 + (60 − 60)2 ) = 177

(𝑓1, 𝑓3) = √((1 − 4)2 + (723 − 800)2 + (60 − 80)2 ) =79,61

(𝑓1, 𝑓4) = √((1 − 0)2 + (723 − 1.205)2 + (60 − 50)2 ) = 482,10

(𝑓1, 𝑓5) = √((1 − 2)2 + (723 − 600)2 + (60 − 65)2 ) =123,10

(𝑓2, 𝑓3) = √((1 − 4)2 + (900 − 800)2 + (60 − 80)2 ) = 102,02

(𝑓2, 𝑓4) = √((1 − 0)2 + (900 − 1.205)2 + (60 − 50)2 ) = 305,16

(𝑓2, 𝑓5) = √((1 − 2)2 + (900 − 600)2 + (60 − 65)2 ) =300,04


(𝑓3, 𝑓4) = √((4 − 0)2 + (800 − 1205)2 + (80 − 50)2 ) = 406,12

(𝑓3, 𝑓5) = √((4 − 2)2 + (800 − 600)2 + (80 − 65)2 ) = 200,57

(𝑓4, 𝑓5) = √((0 − 2)2 + (1205 − 600)2 + (50 − 65)2 ) = 605,18

La matriz con los resultados se muestra acontinuación.

Familias F1 F2 F3 F4 F5
F1 0 177 79,61 482,10 123,10
F2 0 102,02 305,16 300,04
F3 0 406,12 200,57
F4 0 605,18
F5 0
EJEMPLO DE LA DISTANCIA MANHATTAN

Ejemplo #1.
Un constructor de viviendas a nivel nacional desea comparar los precios por
1000 pies de madera de armazones de calidad estándar o mejor. Al azar
selecciona cuatro proveedores en cada uno de los cuatro Cantones: Calceta,
Junín, Chone, y Quevedo. Los precios se dan en la siguiente tabla. Se requiere
medir la distancia de los proveedores a través de la métrica Manhattan.

Proveedores Calceta Junín Chone Quevedo


P1 $241 $216 $230 $245
P2 235 220 225 250
P3 238 205 235 238
P4 247 213 228 255

Solución: 𝐷(𝑥1, 𝑥2) = ∑𝑚


𝑖=1|𝑥1𝑖 − 𝑥2𝑖|

𝐷(𝑝1, 𝑝2) = |241 − 235| + |216 − 220| + |230 − 225| + |245 − 250|

= |6| + |−4| + |5| + |−5|

= |6| + |4| + |5| + |5|=20

𝐷(𝑝1, 𝑝3) = |241 − 238| + |216 − 205| + |230 − 235| + |245 − 238|

= |3| + |11| + |−5| + |7|

= |3| + |11| + |5| + |7|=26


𝐷(𝑝1, 𝑝4) = |241 − 247| + |216 − 213| + |230 − 228| + |245 − 255|

= |−6| + |3| + |2| + |−10|

= |6| + |3| + |2| + |10|=21

𝐷(𝑝2, 𝑝3) = |235 − 238| + |220 − 205| + |225 − 235| + |250 − 238|

= |−3| + |15| + |−10| + |12|

= |3| + |15| + |10| + |12|=40

𝐷(𝑝2, 𝑝4) = |235 − 247| + |220 − 213| + |225 − 228| + |250 − 255|

= |−12| + |7| + |−3| + |−5|

= |12| + |7| + |3| + |5|= 27

(𝑝3, 𝑝4) = |238 − 247| + |205 − 213| + |235 − 228| + |238 − 255|

= |−9| + |−8| + |7| + |−17|

= |9| + |8| + |7| + |17|= 41

Proveedores P1 P2 P3 P4
P1 0 20 26 21
P2 0 40 27
P3 0 41
P4 0
EJEMPLO DE LA DISTANCIA HAMMING

Ejemplo # 1.

Nombre del proyecto: Aplicación de la distancia de Hamming en la evaluación


de la composición de equipos de proyectos informáticos.

Este proyecto tiene como propósito realizar una evaluación de la composición de


equipos de proyectos informáticos usando técnicas basadas en la comparación
con un candidato ideal. Como parte de la investigación se realiza un análisis de
la aplicación de esta técnica en la gestión de recursos humanos. Se presenta un
modelo de evaluación de la composición de equipos de proyectos informáticos,
qué usa como medida de comparación la Distancia de Hamming y como
candidatos ideales el “Modelo de Referencia de Equipo de Proyectos
Informáticos”. (Rodríguez, 2014).

Ejemplo # 2.
Un desarrollador web desea implementar un sistema de lado del servidor y está
buscando que lenguaje de programación utilizar. A continuación, se han medido
las siguientes variables binarias:

X1= ¿Es multiplataforma?

X2= ¿Funciona correctamente en todos los navegadores?

X3= ¿Es un software Libre?

X4= ¿Diferencia mayúsculas y minúsculas?

Lenguajes X1 X2 X3 X4
PHP Si Si Si No
PERL No No Si No
PYTHON No Si Si No
RUBY Si Si Si Si
Solución: En primera instancia se convierten las variables a binarias.

Lenguajes X1 X2 X3 X4
PHP 1 1 1 0
PERL 0 0 1 0
PYTHON 0 1 1 0
RUBY 1 1 1 1

Seguidamente se realiza el cálculo de la distancia correspondiente.

Lenguajes X1 X2 X3 X4
X1 0 2 1 1
X2 0 1 3
X3 0 2
X4 0
EJEMPLO DE LA DISTANCIA LEVENSHTEIN

Ejemplo # 1.

Nombre del proyecto: Determinación de niveles de agresividad en comentarios


de la red social Facebook por medio de Minería de Texto.

Este proyecto se trata de la utilización de técnicas de Text Mining para análisis


de comentarios realizados por los usuarios de la red social Facebook. Además,
se utilizan diccionarios, conjunto de palabras ofensivas con pesos asignados, y
algoritmos como el de Levenshtein que permiten encontrar la similitud entre dos
palabras, en la mencionada investigación se utiliza la distancia Levenshtein para
comparar cada palabra de un comentario con un diccionario definido en una base
de datos (Martel et al., 2015).

A continuación, se expone un ejemplo del algoritmo de Levenshtein: La distancia


entre “Hola” y “Brola” es:

X=Hola

Y=Brola

Solución:

Rola (sustitución de la letra H por una R)

Brola (inserción de la letra B).

D(x, y)= 2.
EJEMPLO DE SIMILITUD DE PEARSON

Ejemplo #1.
Considerando uno de los índices de Desarrollo Democrático en Latinoamérica.
Se estimará qué distancia existe entre dos casos (en este ejemplo países). Para
ello, operaremos con los valores que poseen las cuatro variables diferentes
(realmente son dimensiones que sintetizan diferentes indicadores).

 Dimensión I: “Democracia de los ciudadanos”. Evalúa el respeto de los


derechos políticos y las libertades civiles.
 Dimensión II: “Democracia de las instituciones”. Mide la calidad
institucional y la eficiencia del sistema político.
 Dimensión III. “Democracia social y humana”. Analiza la capacidad del
sistema democrático para generar políticas que aseguren bienestar y
desarrollo humano.
 Dimensión IV. “Democracia económica” (Alaminos et al., 2015).

País Dimensión I Dimensión II Dimensión III Dimensión IV


Uruguay 8 9,5 0,7 1,3
Costa Rica 7,43 6,7 2,3 0,1
Chile 7,2 5,3 2,4 1,7
Argentina 6,5 3,1 2,6 0,7

Solución.

Para dar solución a la problemática propuesta se utiliza la siguiente fórmula.


(19,5)(16,53)
124,83 −
𝜌(𝑥, 𝑦) = 4 = 0,92
2
(19,5)2 (16,53)
√[(156,43) − ] [(105,39) − ]
4 4

País Uruguay Costa Rica Chile Argentina


Uruguay 0 0.92
Costa Rica 0
Chile 0
Argentina 0
IV. CONCLUSIONES

Las métricas de distancias son importantes porque permiten determinar la


distancia más corta entre dos cadenas es decir las más parecidas posible, por
ejemplo, en Levenshtein si la distancia es 0 quiere decir que las dos cadenas
son exactamente idénticas. Cabe hacer la aclaración que el concepto de
distancia expresa en qué medida son diferentes dos objetos, el concepto de
similaridad mide el grado de proximidad entre ellos. En ese sentido, para dos
casos que sean muy parecidos, la medida de distancia debería de ser pequeña
mientras que, por el contrario, la medida de similaridad debería de ser elevada
por ejemplo en el caso de similitud de Pearson cuando el valor de correlación es
muy elevado indica que las dos variables son muy parecidas.

La distancia euclídea es una métrica útil en numerosas aplicaciones, en especial


si las magnitudes son lineales y su escala es uniforme; además, es sencilla y
rápida de calcular.
BIBLIOGRAFÍA

Alaminos et al.; 2015. Análisis multivariante para las ciencias sociales I. Índices
de distancia, conglomerados y análisis factorial. Editorial Don Bosco-Centro
Gráfico Salesiano S.A. Ecuador.

Benítez R. 2012. Inteligencia artificial avanzada. Métricas y medidas de similitud.


(En línea). Consultado el 26 de abril, de 2018. Formato PDF. Disponible
https://www.exabyteinformatica.com/uoc/Inteligencia_artificial/Inteligencia
_artificial_avanzada/Inteligencia_artificial_avanzada_(Modulo_1).pdf

Cárdenas M. 2016. Medidas de Distancia. (En línea). Consultado el 26 de abril,


de 2018. Formato PDF. Disponible http://studylib.es/doc/4622569/medidas-
de-distancia

García S. 2014. Distancias geométricas entre píxeles. Distancia Manhattan. En


línea). Consultado el 26 de abril, de 2018. Formato PDF. Disponible
https://porprofesionalmic.files.wordpress.com/2015/09/control-de-lectura-
distancias-geometricas.pdf

López A. 2009. Análisis de Conglomerados (Cluster Analysis). (En línea).


Consultado el 26 de abril, de 2018. Formato PDF. Disponible
http://personal.us.es/analopez/ac.pdf

Martel W, Carranco D, Cevallos D. 2015. Determinación de niveles de


agresividad en comentarios de la red social Facebook por medio de Minería de
Texto. Revista” GEEKS”-DECC-Report. Vol. 6, No1. QUI-ECU.

Rodríguez S. 2014. Aplicación de la distancia de Hamming en la evaluación de


la composición de equipos de proyectos informáticos. Iberoamerican
Journal of Project Management. Vol. 5, Nº 1.
Román A. 2017. Implementación de pruebas para una hipótesis sobre la
aplicación de distancia Euclidiana para realizar agrupamientos en espacios
Multidimensionales. (En línea). Consultado el 26 de abril, de 2018. Formato
PDF. Disponible
http://ridaa.unicen.edu.ar/xmlui/bitstream/handle/123456789/1564/Trabajo
_Final_Roman_Y_Zubeldia.pdf?sequence=1&isAllowed=y

Troncoso F. 2012. Evaluación y aplicación de estrategias para control de errores


en canales satelitales mediante codificación algebraica. Memoria para
optar al título de Ingeniero civil electricista. Santiago de Chile.