Está en la página 1de 3

Distancias con N-gramas La medida de similaridad puede establecerse mediante la frmula definida como:

la cual se conoce como el coeficiente de Dice. Donde: N = Nmero de gramas utilizados. C = Nmero de gramas nicos que comparten las hileras. Ax= Nmero de gramas nicos de una hilera.

Entre ms cerca de cero ms diferentes son las hileras. Los valores estn en el intervalo [0,1]. Ejemplo Dos hileras: colaboracin y colaborador, y haciendo N = 2: Colaborador: co ol la ab bo or ra ad do or bigramas nicos: co ol la ab bo or ra ad do Colaboracin: co ol la ab bo or ra ac ci i n bigramas nicos: co ol la ab bo or ra ac ci i n La hilera colaborador tiene 10 bigramas, de los cules 9 son nicos; y la hilera colaboracin tiene 11 bigramas, todos nicos. Comparten 7 bigramas: co ol la ab bo or ra. Aplicando la frmula:

N=2 nmeros de bigramas U=7unicos de bigramas N1=9 unicos bigramas de la primera palabra N2=11 unicos bigramas de la segunda palabra

Distancia con Bigramas Tomar cada par de caracteres juntos, contando la cantidad total de pares. Por palabra se cuentan solo los bigramas nicos. Ejemplo: casaca Bigramas = ca as sa ac ca = 5 Bigramas nicos = ca as sa ac = 4 Se cuentan bigramas comunes entre palabras (para medir distancia). D(A,B) = 2 * bigramas comunes / (bigramas nicos A + bigramas nicos B). Si D(A,B) =1 => palabras iguales.

Ejemplo #1 h1= escuela = es sc cu ue el la = 6 h2= escuela = es sc cu ue el la = 6 Bigramas nicos de A= 6 Bigramas nicos de B= 6 Bigramas comunes = 6 2 * 6 / (6 + 6) = 1 BiD(h1,h2) = 1

Ejemplo #2 h1= escuela = es sc cu ue el la = 6 h2= comidas = co om mi id da as = 6 Bigramas nicos de A= 6 Bigramas nicos de B= 6

Bigramas comunes = 0 2 * 0 / (6 + 6) = 0 BiD(h1,h2) = 0

Prctica Sean: s1= perro, s2= perros, s3= pescado. Calcular las distancias d(s1,s2) y d(s1,s3) empleando N-gramas (con N = 2, o sea, Bigramas).

También podría gustarte