Está en la página 1de 40

Descubrimiento Automático de

Hiperónimos en
Texto no Estructurado
Tomado de
Rosa María Ortega Mendoza,
Tesis de Maestría, INAOE

Laboratorio de Tecnologías del Lenguaje


Instituto Nacional de Astrofísica, Óptica y Electrónica

1
Introducción
Recursos lingüísticos Relaciones semánticas:
 Sinonimia, antonimia,
construcción meronimia, hiperonimia, etc.

Manual Automática Hiperónimo: Palabra cuyo


•Ejemplo: WordNet •Orientación a un significado incluye el de
dominio específico.
•Gran esfuerzo otra(s).
•Menos esfuerzo
•Tiempo  animal – gato
•Menor precisión
•General  color – azul
•Un sólo idioma  país – México

2
Introducción
Ejemplo del uso / Clasificación de textos  Un paso hacia la
construcción automática
deportes de ontologías
 Independiente del uso de
recursos lingüísticos
externos
fútbol tenis Atletismo
----- ----- -----  Independencia del idioma
----- ----- -----
 Aprovechar información
léxica

3
Estado del Arte
Trabajo Propósito Entrada Boot- Evaluación Recursos
strapping de patrones Externos
(Denicia et al.,  Respuesta a Semillas No No No
2006) preguntas de
definición
(Pasca, 2004)  Relaciones Patrones Si No Etiquetador
is-a léxico-
Sintácticos

(Ravichandran  Respuesta a Semillas Si Si No


y Hovi 2002) Preguntas

(Ravichandran  Relaciones Patrones Si ? Etiquetador


et al., 2004) is-a léxico-
sintácticos

4
Objetivos
 Objetivo General: Desarrollar un método para extraer
automáticamente hiperónimos a partir de textos no
estructurados tomados automáticamente la Web.

 Objetivos Específicos:
 Definir y aplicar un método de minería de texto que permita
obtener patrones léxicos de extracción para la relación de
hiperonimia.
 Especificar y desarrollar un método incremental para enriquecer
el conjunto de patrones de extracción.
 Proponer y aplicar un método de selección de tuplas usando
algoritmos de ordenamiento basados en grafos.

5
Método propuesto

6
Método propuesto
 Paso 1: Extraer patrones léxicos a través de la Web.
 Paso 2: Aplicar los patrones léxicos para extraer
tuplas asociadas al dominio específico.
 Paso 3: Pesar los patrones léxicos con base en un
método de recomendación.
 Paso 4: Pesar las tuplas (idem).
 Paso 5: Repetir todos los pasos anteriores, eligiendo
las tuplas más confiables como nuevas semillas.

7
Pesado patrones/tuplas
 Peso de la tupla:
 Mientras más patrones extraigan la misma tupla
tenemos más evidencia de que es correcta.
•Peso del patrón
•Número de repeticiones
•Número de patrones activados

 Peso del patrón:


 Mientras más tuplas correctas extraiga un patrón
tenemos más evidencia de que es relevante.

8
Pesado patrones/tuplas
 Método de recomendación basado en grafos
 Ejemplo:

Tuplas(P1)  Tuplas(P2)
Tuplas(P2)  Tuplas(P3)
País – Turquía
P2 País – Turquía
País – Francia País – costa P4

w 12
País – Francia

w23
P1 Tuplas(P3)  Tuplas(P4)
P3 w34 País – Egipto

Tuplas(P1)  Tuplas(P3) w13
País – Turquía
País – caballo
País – México

9
Evaluación
 El catálogo es muy grande por lo que su
evaluación manual es prácticamente imposible.
 La evaluación será a través de un método
estadístico
 Tomar una muestra aleatoria proporcional al tamaño
del catálogo
 Con un nivel de confianza definido
 Medir la precisión del catálogo
 No. de instancias correctas/ No. total de instancias

10
1er Intento
 Experimento: probar un método semi-
supervisado para seleccionar tuplas correctas
 Minería de texto para obtener patrones léxicos
 Se utilizó el algoritmo Expectation- Maximization:
 Entrena un clasificador usando los datos etiquetados
disponibles y probabilísticamente etiqueta los datos no
etiquetados.

 Colección de noticias EFE de 1994 y 1995


 457 mil documentos ( ~1 Gb ).

11
Resultados Preliminares
A través de un No Patrón Léxico No Patrón Léxico
conjunto de 17 1 <INSTANCIA>. <CLASE> 18 <INSTANCIA>, <CLASE> Para

semillas se 2 <CLASE>. <INSTANCIA> 19 la <INSTANCIA>, <CLASE>

descubrieron 34 3 <CLASE> - <INSTANCIA> 20 <INSTANCIA>, <CLASE> del

patrones léxicos 4 <CLASE> (<INSTANCIA>, 21 <INSTANCIA>, <CLASE> y


5 : <INSTANCIA>, <CLASE> 22 la <CLASE> de <INSTANCIA>
6 <INSTANCIA> y otros <CLASE> 23 <INSTANCIA> ( <CLASE> )
Instancia Clase
7 - <INSTANCIA> - <CLASE> 24 la <INSTANCIA> como <CLASE>
amor sentimiento
girasol planta 8 <INSTANCIA> - <CLASE> - 25 <CLASE> GNU / <INSTANCIA>
oro metal 9 los <CLASE> del <INSTANCIA> 26 el <INSTANCIA> es un <CLASE>
pino árbol 10 <INSTANCIA>: <CLASE> 27 el <INSTANCIA> es el <CLASE>
linux sistema
11 , <INSTANCIA>, <CLASE> 28 <INSTANCIA> es un <CLASE> muy
operativo
fútbol deporte 12 de <INSTANCIA>, <CLASE> 29 <INSTANCIA> es un <CLASE> que
manzana fruta 13 <INSTANCIA>, <CLASE> de 30 el <INSTANCIA> es una <CLASE>
tierra planeta 14 el <INSTANCIA> - <CLASE> 31 un <INSTANCIA> es una <CLASE>
agua líquido 15 el <INSTANCIA>, <CLASE> 32 , la <INSTANCIA> es una <CLASE>
: : 16 <INSTANCIA> - <CLASE>. 33 la <INSTANCIA> es el tercer <CLASE>
17 <CLASE>: <INSTANCIA> de 34 <INSTANCIA> es una <CLASE> limitada12por
Resultados Preliminares
 Se caracterizaron las tuplas en función de los patrones

Instancia P1 P2 P3 P4 … P33 P34 clase


pais_Japon 0 0 0 2 … 0 0 1
pais_Guinea 1 0 0 0 … 0 0 1
pais_Moscu 0 0 1 0 … 0 0 1
. . . . . … . . .
. . . . . . . .
. . . . . . . .

13
Resultados Preliminares
 Entrenamiento: 500 tuplas (218 positivas y 282 negativas)
etiquetadas manualmente
 Prueba: 16,450 tuplas
 Después de 8 iteraciones EM convergió.

Concepto Correctas Incorrectas Concepto Correctas Incorrectas


Animal 2 0 Total 626 75
Equipo 76 18 Precisión 89.30% 10.7%
Organismo 27 16 Catálogo Completo: Clasificación EM +
clasificación manual
País 84 16
Países 0 0
Presidente 219 25
Total 408 75
Precisión 84.47% 15.53%
Clasificación EM
14
2do Intento
 Experimento: proponer un método basado en el
pesado de semillas y patrones
 Minería de texto para obtener patrones léxicos
 Se utilizó la Web para obtener los patrones utilizando
semillas
 Se utilizó la Web para recuperar tuplas usando los
patrones descubiertos

15
Encontrando patrones léxicos
1 Seleccionar Semillas (instancia-concepto) 4 Aplicar y Filtrar SFM’s
Se observó que las semillas deberían: 


Aplicar SFM’s.
Recuperar únicamente aquellas secuencias que contengan ambas etiquetas <instancia> y
<concepto>
 Pertenecer a varios dominios 

Se obtuvieron 4 conjuntos de SFM´s. El umbral de soporte utilizado para cada conjunto fue:
instancia(singular)/concepto(singular):
instancia(singular)/concepto(plural):
Incluir semillas en género masculino y

  instancia(plural)/concepto(singular):

femenino.
 instancia(plural)/concepto(plural):

 Reunir los 4 conjuntos de SFM’s en un solo conjunto.


 Contemplar instancias y conceptos en
forma plural y en singular.
10
2 Reunir Ejemplos 10
5
 Se utilizó el motor de búsqueda Google.
5
 Se bajaron 500 ejemplos de uso
(snippets) para cada semilla.

3 Etiquetar Ejemplos
 Todos los ejemplos son normalizados con
etiquetas <instancia> <concepto>

Resultado de esta Fase: Una lista compuesta de 184/156 patrones 16


léxicos
Análisis de los patrones léxicos
 Análisis de los patrones léxicos obtenidos.
# Patrón  Lo anterior puede tratarse de la sig. forma:
1 <concepto>, <instancia>, 1. Filtrar los patrones, eligiendo solo aquellos
2 , <instancia>, <concepto> y que no contienen signos de puntuación.
3 la <instancia> es un <concepto>
2. Filtrar los patrones, recuperando aquellos
4 <instancia>, el <concepto> de
que contienen por lo menos una frontera
5 <concepto> ( <instancia> )
(izquierda o derecha).
6 : <concepto> : <instancia>
• •
• •
• •
18
las <concepto> de <instancia>
4
 Algunos patrones son muy generales, # Patrón
pues carecen de alguna frontera. 1 las <instancia> son <concepto>
 Varios patrones contienen signos de 2 los <concepto> de <instancia>
puntuación. Sin embargo, Google no 3 del <concepto> de <instancia>
reconoce signos de puntuación en sus 4 de las <instancia> como <concepto>
búsquedas. 5 <concepto> de <instancia> y
6 las <instancia> son <concepto>
• •
• •
• •
59 64 las <concepto> de <instancia>
17
Aplicación los patrones léxicos.
 En esta fase, los patrones son aplicados sobre la Web,
con la finalidad de obtener un conjunto de tuplas,
asociadas a un dominio específico.
 Una tupla se encuentra constituída por:
 (hipónimo, hiperónimo)

 Experimento 1: Mostrar la utilidad de los patrones


obtenidos, así como, comprobar que la Web puede ser
utilizada como un corpus de texto para extraer
hipónimos.
 Se buscarán conceptos (hiperónimos) para las palabras
(instancias) del vocabulario.

18
Experimento 1
1 Fijar los patrones 3 Casar patrones fijos con la colección
Vocabulario Todos los patrones son fijados  El conjunto de snippets recolectados,
java con cada una de las palabras del representa la colección sobre la cual se
México
petróleo
vocabulario. se aplican los patrones.
Euro  El matching se realiza casando 1 sola
Patrones p/ Patrones p/
java Euro palabra.
Lista de Lista de
El * de java El * de
..
.

conceptos conceptos
El java es Euro
p/java p/Euro

..
.
un * que :
:
Isla que .
La moneda
..
lenguaje
:
2 Lanzar los patrones fijados a la Web 4 Aplicar y Filtrar SFM’s
 Se bajaron 100 ejemplos de uso  Se aplicó SFM’s a caada lista de conceptos
(snippets) para cada patrón fijado. (existe una para cada palabra del
vocabulario).
Patrones p/ Patrones p/
 Como resultado obtuvimos un catálogo de
java Euro conceptos para cada instancia (del
snippet 1 snippet1 vocabulario).
..
.

.. :
..
. .
19
Experimento 1
Palabra del java México Petróleo Euro
Vocabulario
Ejemplo de las isla ciudad gas centimos
primeras SFM’s applets estado barril moneda
applet golfo precio billetes
lenguaje paises yacimientos monedas
xml los barriles
Recurso
Número de 23 palabras 11 palabras 17 palabras 14 palabras
palabras en el
catálogo con
Soporte >=10
Precisión 21.73%_ 63.63% 11.7% 28.57%

 Análisis de resultados del experimento 1


 Se obtuvo un catálogo de palabras relacionadas pero no
necesariamente relaciones is-a.
 Se piensa que con un número mayor de patrones la precisión mejoraría
20
Experimento 2
 Objetivo: Obtener tuplas con el nombre completo del(a) concepto/instancia
cuando se forman de más de una palabra.
 1: Seleccionar un vocabulario y fijarlos como instancias y como conceptos.
Vocabulario 46 patrones*8 palabras del vocabulario = 368 patrones fijos
banco novela
doctor profesión para obtener instancias
diccionario rocas
felino vino

 2: Lanzar los patrones fijos a la Web. Se recolectaron 100 snippets por cada patrón fijo. Como
resultado obtenemos una colección, sobre la cual aplicamos los patrones convertidos en expresiones
regulares. El “matching” es realizado de la siguiente forma:
Matching Ejemplo de Instancia extraída Ejemplo:
A: Normal tigre de bengala
Patrón: el <instancia> es un felino que
B: Una sola palabra tigre Snippet: El tigre de bengala es un felino
Limitado por que siempre le ha fascinado al
C: tigre
palabras vacías hombre
D: Completo El tigre de bengala es un felino que

 3: Aplicar SFM’s
21
Resultados Experimento 2
Opción A Opción B
Buscando conceptos Buscando instancias Buscando conceptos Buscando instancias
 Banco  Banco

billetes tornillo desarrollo germoplasma institucion cajero pruebas germoplasma


banco sistema pruebas credito billetes directorio desarrollo credito
cuenta cuentas mexico inversion presidente gerente mexico inversion
institución gobernador españa tejidos tornillo prestamo sangre imagenes
Presidente cajero sangre bancos gobernador tarjeta españa pichincha
Tamaño del Catálogo = 37 Tamaño del Catálogo 47 Tamaño del Catálogo =31 Tamaño del Catálogo = 15
Precisión= 4/37=10.81% Precisión=5/47=10.63% Precisión= 4/31=12.90% Precisión= 2/15=13.33%
● Diccionario ● Diccionario

terminos filosofia forma enciclopedia lunfardo autoridades


definiciones diccionario
diccionario de la lengua ataques especie lengua filosofia
definicion proyecto
ingles española proyecto definiciones sinonimos ingles
ayuda significado
autoridades español herramienta uso terminos fisica
especie texto La Real Academia la RAE definicion obra datos escritores
herramienta palabra Española Palabras Tamaño del Catálogo =12 Tamaño del Catálogo = 14
Tamaño del Catálogo = 33 Tamaño del Catálogo = 21 Precisión=3/14 =
Precisión:4/33 =12.21% Precisión:4/21= 19.04% Precisión= 1/12=8.33%
21.42%

22
Fase 2: Experimento 2
Opción C Opción D
Buscando conceptos Buscando instancias Buscando conceptos Buscando instancias
 Banco  Banco

[34] billetes [14] gobernador [38] pruebas [24] inversion [98] de banco o
[28] banco,de,desarrollo
[29] institucion [12] cuentas [37] mexico [24] credito [89] banco como
[21] banco,de,datos.
[21] cuenta [11] tornillo [37] desarrollo [19] nacion [74] de banco
[18] un,banco,de,datos
[20] presidente [11] directorio [36] sangre [19] banco [48] el banco y las
[16] banco,de,mexico
[19] banco [11] cajero [31] germoplasma [18] pichincha [44] el banco es la
[16] banco,de,inversiones
[15]cajero
Tamaño del Catálogo = 16 Tamaño del Catálogo = 36 Tamaño del Catálogo = 39 Tamaño del Catálogo = 45
Precisión= 2/16=12.5% Precisión= 4/36=11.11%
Precisión= 4/39=10.25% Precisión= 15/45=33.33%
● Diccionario
● Diccionario
[20] autoridades
[22] especie [15] ayuda [55] sinonimos
[19] filosofia En forma de diccionario banco,que
[22] definicion [14] diccionario [31] terminos
[16] ingles Del diccionario como banco,de,inversion
[20] herramienta [14] definiciones [27] diccionario
[17] forma [13] seccion [27] datos
[14] Real Enciclopedia banco,de,españa,y
Academia Una obra el,banco,del,pichincha
[16] ataques [13] proyecto [24] RAE
Española Concepto el,banco,del,estado

Tamaño del Catálogo = 16 Tamaño del Catálogo = 14


Tamaño del Catálogo = 21 Tamaño del Catálogo = 31
Precisión= 3/16=18.75% Precisión= 4/14=28.57% Precisión= 2/21=9.52% Precisión= 14/31=45.16%

23
Fase 4 y 5: Esquema general
Vocabulario
enfermedad
diccionario
felino Patrones fijando Web
Lista de patrones Patrones pesados
..
rocas
..
<concepto>
Snippet1
el-<instancia>-y- el-*-es-un- el-felino-es-un- snippet2
las-<concepto> Fijar felino-de Pesar *-de = 17
.. .. Matching ..
. patrones .. patrones . .
.

Felino Felino
Pantera….16.5 Pantera
NOTA: Repetir el proceso Fuego….....0.1 Pesar Fuego
fijando <instancias> para Matching
Enfemedad
.. las tuplas Enfemedad
..
encontrar <conceptos> . .

24
Fase 4 y 5:Esquema General
 Fijar los patrones con las palabras del vocabulario buscando que los patrones
resultantes sean completamente cerrados. Ejemplo:
Fijar cada palabra del 25 patrones fueron
Patrón
vocabulario como: fijados con instancias
31 patrones fueron
el <instancia> es una <concepto> → Concepto fijados con conceptos
<instancia> es un <concepto> muy → Instancia
el <instancia> es un <concepto> que → Ambos

 Pesar los patrones: Definir una medida que evalúe la confiabilidad de cada patrón.
 Realizar el matching de los patrones fijos con la Web
 Se bajaron en promedio 600 ejemplos (snippets) por cada uno de los 46 patrones fijados.
 Matching a la colección de snippets
 Los patrones fueron convertidos a expresiones regulares para permitir extraer parejas
(hiperónimo-hiponimo)
 Pesar las Tluplas: Definir una medida que evalúe la confiabilidad de cada tupla.

25
Fase 4 y 5: Experimento 3
 Hipótesis: Un patrón es más confiable si proviene de varias semillas.
 Eliminar aquellos patrones cuyo peso <= 1/74 ya que son muy
específicos.
Peso = Patrón. • De los 59 patrones se eliminaron 13 por tener pesos
17/74 = de <instancia> y <concepto> <= 1/74.
16/74 = <instancia> y <concepto> de
3/74 = del <concepto> del <instancia> • Finalmente se trabajó con 46 patrones.
3/74 = el <instancia> es uno de los <concepto> mas
..
.
1/74 = las <instancia> marinas son <concepto>

Parámetros del Experimento Una de las conclusiones es


W(p) Inicial W(I) que tenemos mucha
n información
W ( P )j
Donde
n= |Patrones|
W ( pi ) 
| semillas que generan pi |
W (Ii )  j 1 •Una lista de palabras
n
| semillas | relacionadas
W ( Pj )
Si Pj no generó
esa tupla
j 1 W(Pj)=min[W(Pj)]

26
Fase 4 y 5: Experimento 4
 Hipótesis: Un patrón es más confiable si proviene de varias Eliminar
aquellos patrones cuyo peso <= 1 ya que son muy específicos. 13
patrones fueron eliminados, por lo tanto se trabajó con 46.
 Únicamente extraer instancias que son generadas por 2 o más
patrones.

Parámetros del Experimento


W(p) Inicial W(I)
n Donde

W ( pi ) 
# de semillas que generan pi
Total de semillas
W ( I i )   W ( Pj ) n= |Patrones|

j 1 Si Pj no generó
esa tupla
W(Pj)=min[W(Pj)]

27
Fase 4 y 5: Conclusiones de los
experimentos 3 y 4
 Buscando Conceptos
Experimento 8 Experimento 9 Experimento 8 Experimento9
Banco Rocas
SUCURSAL 1.13E-54 SUCURSAL 1.50E-43 MINERALES 4.37E-55 MINERALES 5.62E-44
CAJERO 5.72E-55 CAJERO 7.49E-44 CAIDA 3.88E-55 CAIDA 5.00E-44
TARJETAS 1.98E-55 TARJETAS 2.50E-44 ACANTILADOS 1.51E-55 ACANTILADOS 1.87E-44
GERENTE 1.80E-55 GERENTE 1.87E-44 SUELOS 1.51E-55 SUELOS 1.87E-44
CUENTAS 1.34E-55 CUENTAS 1.67E-44 SECUENCIAS 1.34E-55 SECUENCIAS 1.67E-44
NUMERO 1.19E-55 NUMERO 1.43E-44 FORMACIONES 1.34E-55 FORMACIONES 1.67E-44
CUENTA 9.38E-56 CUENTA 9.37E-45 MECANICA 1.02E-55 MECANICA 1.25E-44
BILLETE 6.25E-56 BILLETE 6.25E-45 CAIDAS 6.82E-56 CAIDAS 8.33E-45
SERVICIOS 5.21E-56 SUCURSAL 1.50E-43 GRIETAS 6.82E-56 HENDIDURAS 8.33E-45
Enfermedad Diccionario
RIESGO 1.64E-53 RIESGO 2.40E-42 DICCIONARIO 2.81E-54 DICCIONARIO 4.00E-43
TRATAMIENTO 4.29E-54 TRATAMIENTO 6.00E-43 INSTRUMENTO 9.62E-56 INSTRUMENTO 1.00E-44
CAUSA 1.01E-54 CAUSA 1.12E-43 DEFINICIONES 6.82E-56 BASE 8.33E-45
PROCESO 5.63E-55 SINTOMA 6.25E-44 BASE 6.82E-56 DEFINICIONES 8.33E-45
SINTOMA 5.63E-55 PROCESO 6.25E-44 PROYECTO 6.25E-56 PROYECTO 6.25E-45
FORMA 2.69E-55 FORMA 2.81E-44 TERMINOS 5.21E-56 TERMINOS 6.25E-45
FENOMENO 7.59E-56 FENOMENO 8.92E-45 RECURSO 4.55E-56 RECURSO 5.35E-45

28
Fase 4 y 5: Conclusiones de los
experimentos 3 y 4
 Buscando Instancias
Experimento8 Experimento9 Experimento8 Experimento9
Banco Rocas
CREDITO 3.50E-53 CREDITO 3.93E-53 PORFIDOS 1.40E-53 PORFIDOS 1.45E-53
DATOS 8.18E-54 DATOS 8.73E-54 HIELO 4.19E-54 HIELO 4.36E-54
DESARROLLO 6.21E-54 DESARROLLO 6.55E-54 GRANITO 2.46E-54 GRANITO 2.42E-54
BANCOS 4.78E-54 BANCOS 4.85E-54 GRANITOS 1.73E-54 BASALTOS 1.62E-54
OCCIDENTE 2.12E-54 OCCIDENTE 2.18E-54 BASALTOS 1.73E-54 GRANITOS 1.62E-54
COSTA RICA 7.69E-55 COSTA RICA 7.27E-55 ARENISCAS 1.01E-54 ARENISCAS 9.70E-55
GALICIA 7.69E-55 GALICIA 7.27E-55 CALIZA 7.42E-55 CALIZA 6.42E-55
RESERVA 7.42E-55 RESERVA 6.42E-55 ESQUISTOS 6.99E-55 ESQUISTOS 6.23E-55
BBVA 7.10E-55 BBVA 6.23E-55 MINERALES 2.56E-55 ALZHEIMER 5.13E-55
Enfermedad Novela
CANCER 7.12E-52 CANCER 8.08E-52 HISTORIA 3.50E-54 HISTORIA 3.12E-54
EPILEPSIA 2.16E-54 GUMBORO 2.18E-54 INTRIGA 2.12E-54 TERROR 2.18E-54
ALCOHOLISMO 2.13E-54 EPILEPSIA 1.87E-54 FICCION 2.12E-54 INTRIGA 2.18E-54
GUMBORO 2.12E-54 ALCOHOLISMO 1.87E-54 TERROR 2.12E-54 FICCION 2.18E-54
TUBERCULOSIS 1.28E-54 TUBERCULOSIS 1.04E-54 AMOR 7.69E-55 AMOR 7.27E-55
CARIES 1.06E-54 ASMA 8.31E-55 NOVELA 7.44E-55 NOVELA 6.23E-55
ASMA 1.01E-54 CARIES 8.31E-55 RELATO 3.72E-55 RELATO 3.12E-55

29
Fase 4 y 5: Resultados de los
experimentos 3 y 4
 Estadísticas

Buscando instancias
Exp 3 Exp 4
Vocabulario
No. de
Precisión No. de tuplas Precisión
tuplas
Banco 1/20= 5% 3116 1/20= 5% 178
Diccionario 1/20= 5% 1062 1/20= 5% 76
Enfermedad 15/20= 75% 3203 15/20= 75% 256
Felino 5/20= 25% 236 4/8=50% 8
Profesión 10/20= 50% 2543 10/20=50% 198
Rocas 8/20= 40% 1718 9/20=45% 114

30
Fase 3 y 4: Experimento 10
 Hipótesis: Un patrón es más confiable si proviene de varias semillas.
 El peso de los patrones no esta normalizado con la finalidad de evitar
cantidades muy pequeñas al momento de multiplicarlos.
 Eliminar aquellos patrones cuyo peso <= 1 ya que son muy
específicos.
 Únicamente extraer tuplas que son generadas por 2 o más patrones.

Parámetros del Experimento


W(P) Inicial W(I) W(P) a través de I
nt
Donde
n n= |Patrones|  Patrones que generan I j *W ( I j )

W ( I i )   W ( Pj )
j 1
W ( pi )  | semillas que generan pi | W ( Pi ) 
nt
Si Pj no generó
j 1 esa tupla
Donde nt= Num. de tuplas que genera un
determinado patrón
W(Pj)=min[W(Pj)]

31
Fase 3 y 4: Experimento 12
 Hipótesis: Un patrón ideal tendría alto recuerdo y alta precisión
 F-measure da un promedio entre precisión y recuerdo
(1   2 ) pr
F  1
2pr
| semillas extraídas |
 Precisión p
| tuplas extraídas por el patrón |
| semillas extraídas por el patrón |
 Recuerdo r
| semillas |

 Únicamente extraer tuplas que son generadas por 2 o más patrones

Parámetros del Experimento


W(P) Inicial W(I) W(P) a través de I
Donde nt
n n= |Patrones|  Patrones que generan I *W ( I j )
W ( I i )   W ( Pj )
j
F j 1
W ( pi )  donde   0.01 W ( Pi ) 
Max( F ) *  nt
j 1 Donde nt= |tuplas que genera un patrón
Si Pj no generó esa tupla W(Pj)=min[W(Pj)] específico|
32
Fase 3 y 4:Experimento 14
 Información mutua. Pantel y Pennacchiotti (2006) utilizan una medida
basada en Información Mutua (pmi) para evaluar la fuerza de
asociación entre una instancia y un patrón.

 Ellos estiman la información mutua entre una tupla i y un patron p con:


W (i )

Parámetros del Experimento


W(P) inicial W(I) W(P) a través de I
nt

F  Patrones que generan I j *W ( I j )


W ( pi )  donde   0.01 W ( Pi )  j 1
Max( F ) *  nt
W (i )
Donde nt= Num. De tuplas que genera un
Determinado patrón

33
Fase 3 y 4: Comparación de
Resultados
BUSCANDO INSTANCIAS
Exp. 10 Exp 12 Exp14 1ra
BANCO
CREDITO CREDITO BID BANCO MUNDIAL BID BID
Iteración
DATOS DESARROLLO CUAL BHU BANCO MUNDIAL BANCO MUNDIAL
DESARROLLO DATOS CITIBANK BBVA BHU BHU
BANCOS BANCOS HSBC RESULTADO CUAL HSBC
OCCIDENTE BBVA BBVA FMI NO CITIBANK BANCO DEL ESTADO
COSTA RICA
GALICIA
ADN
BID
BANCO DEL ESTADO
BANCO MUNDIAL
BNDES
PROGRAMA
BBVA
BANCO DEL ESTADO
NACION
CUAL
2da
RESERVA OCCIDENTE BHU FNDR HSBC BSCH Iteración
BBVA RESERVA CREDITO PERU CREDITO BBVA
ADN CITIBANK BANCOS BANCO SANTANDER ADN REPUBLICA
CEREBROS COSTA RICA NACION BANHVI BANCOS CITIBANK
PREVISION SOCIAL GALICIA KFW BANCO KFW FMI NO
LOS TRABAJADORES CUAL REPUBLICA BICE NACION BNDES
INGLATERRA BANCO MUNDIAL PROGRAMA SISTEMA PROGRAMA RESULTADO
CHILE BHU FIDUCIARIO ENTIDAD REPUBLICA ENTIDAD
CORNEAS PROGRAMA ADN NACION ARGENTINA BSCH NACION ARGENTINA
COMERCIO DEPOSITOS GALICIA FIRA FMI NO KFW
INFORMACION PRESTAMO BSCH BANSEFI BNDES ADN
ROCAS
PORFIDOS PORFIDOS PORFIDOS ARENISCAS GRANITO GRANITO
HIELO HIELO BASALTOS ARENA MARMOL BASALTOS
GRANITO GRANITO GRANITOS PIEDRAS BASALTOS MARMOL
BASALTOS BASALTOS MARMOL CHOCOLATE GRANITOS GRANITOS
GRANITOS GRANITOS GRANITO YACIMIENTOS PORFIDOS PORFIDOS
CUARZO ARENISCAS LAVAS ANDESITA CALIZA CUARZO
ARENISCAS ESQUISTOS MINERALES LOS ACANTILADOS LAVAS LAVAS
CALIZA CALIZA SEDIMENTOS LOS CERROS CUARZO CALIZA
ESQUISTOS CUARZO CALIZA DESMONTE LOS GRANITOIDES LOS GRANITOIDES
MINERALES CORALES HIELO ESCOMBROS OCEANO BASALTO
SEDIMENTOS MATERIALES CUARZO NIEVE FONDO LAVA
ARENA MINERALES CORALES LOS MINERALES PAISAJE ECLOGITAS
PIEDRAS SEDIMENTOS MATERIALES PLANTAS BASALTO PIZARRAS
MARMOL MARMOL SUELO VEGETACION LAVA LOS GRANITOS
ORIGEN VOLCANICO ARENA FONDO COLINAS HIELO TOBAS
FALLA PIEDRAS PAISAJE TIERRAS ECLOGITAS OCEANO
CORALES LAVAS OCEANO CANTOS RODADOS PIZARRAS FONDO
MATERIALES ORIGEN VOLCANICO CORAL TIERRA LOS GRANITOS PAISAJE

34
Fase 3 y 4: Comparación de
Resultados
Buscando instancias
Exp 10 Exp 12 Exp. 14
Vocabulario
Precisión Precisi Precisió Precisión Precisión
Tuplas (30) Tuplas Tuplas
(20) ón (30) n (20) (20) (30)
Banco 5% 6% 45% 46.6% 55% 46.6%
Diccionario 5% 3.3% 15% 10% 15% 10%
Enfermedad 75% 8% 95% 96.6% 100% 96.6%
Felino 57.1% 57.1% 57.1% 57.1% 57.1% 57.1%
Profesión 60% 50% 70% 66.66% 60% 63.3%
Rocas 40% 30% 35% 36.6% 65% 50%
Buscando Conceptos
Banco 15% 10% 20% 16.6% 5% 3%
Diccionario 20% 16% 30% 20% 20% 23.3%
Enfermedad 30% 23% 30% 26% 10% 10%
Felino 16.6% 16.6% 18.1% 18.1% 18.1% 18.1%
Profesión 15% 10% 15% 10% 10% 10%
Rocas 30% 20% 25% 20% 10% 13.3%

35
Fase 3 y 4: Comparación de
Resultados
 Buscando Instancias
120%

100%

80%
Exp 10
60% Exp 12

40% Exp 14

20%

0%
Banco Diccionario Enfermedad Felino Profesión Rocas

 Buscando Conceptos
35.00%
30.00%
25.00%
Exp10
20.00%
Exp12
15.00%
Exp14
10.00%
5.00%
0.00%
Banco Diccionario Enfermedad Felino Profesión Rocas 36
Patrones
# Patrón # Patrón
1 <concepto>, <instancia>, 22 del <concepto> del <instancia>
2 , <instancia>, <concepto> y 23 <instancia> como <concepto>.
3 la <instancia> es un <concepto> 24 la <instancia> una <concepto>
4 <instancia>, el <concepto> de 25 tecas / <instancia> por 260 euros <concepto>.
5 las <concepto> de <instancia> 26 <instancia> y otros <concepto>,
6 <instancia> de la facultad de <concepto> 27 peces, <instancia>, <concepto>
7 , <instancia>, <concepto>, etc 28 , <instancia> y otros <concepto>
8 de <instancia> y <concepto> 29 <instancia>, <concepto> natural
9 marmol, <instancia>, <concepto> 30 el <instancia>, <concepto> que
10 el <instancia> es el <concepto> que 31 anorexia y <instancia>, <concepto>
11 <instancia>, <concepto> en 32 perros, <instancia>, peces y pequeños
12 <concepto> griego <instancia> <concepto>.
13 las <instancia> marinas son <concepto> 33 ecobosques 12 tecas / <instancia> por 260 euros
14 la <instancia> es la <concepto> <concepto>
15 <concepto> de <instancia> y 34 licenciado en <concepto> de la actividad
16 los <instancia> y otros <concepto> <instancia> y del deporte
17 <instancia>, las <concepto> 35 anorexia y <instancia>, <concepto>
18 <instancia> e historia de las <concepto> 36 en <concepto> de <instancia>
19 <concepto> ( <instancia> ) 37 . <instancia>. <concepto>
20 la <instancia> y otros <concepto> 38 la <instancia> es el <concepto> de
21 el <instancia> es un <concepto> de 39 de las <instancia> como <concepto>
37
Patrones
# Patrón # Patrón
40 <instancia> es un <concepto> muy 58 <instancia>, <concepto> o
41 de la <instancia>, <concepto> 59 los <concepto>, las <instancia>
42 <instancia> ; <concepto> 60 <concepto> / <instancia>
43 , <instancia> y <concepto> 61 , pintura, <instancia>, <concepto>
44 <instancia>. los <concepto> 62 <concepto> como la <instancia>
45 el <instancia> es el unico <concepto> 63 de los <concepto> de <instancia>
46 <instancia> y <concepto>. 64 la <instancia> ( <concepto>
47 hojuelas o copos de <instancia> ); <concepto> 65 > <concepto> > <instancia>
66 . el <instancia> es el <concepto>
48 <instancia> es una <concepto>. 67 de <concepto> como <instancia> y
49 <concepto>, la <instancia> 68 la <instancia> como una <concepto>
50 de la <concepto> de <instancia> 69 el <instancia>, un <concepto>
51 el <instancia>, la luna y las <concepto> 70 del <concepto> de <instancia>
52 las <instancia> son <concepto> que 71 el <instancia> es un <concepto> que
53 de los <instancia> y <concepto> 72 <concepto> eran <instancia>
54 <concepto> aplicadas de la <instancia> 73 <instancia>, <concepto> aplicadas
55 de <concepto> ( <instancia> 74 <instancia> es una <concepto> de
56 . <instancia>, materiales para la contruccion, 75 de accesorios y alimentacion para perros,
marmoles, <concepto> naturales, natural´marbles, <instancia>,
granite and stones aves, reptiles, peces y pequeños <concepto>.
57 : <instancia>, <concepto>
38
Patrones
# Patrón # Patrón
76 <instancia> y <concepto>, una <concepto> de <instancia>
77 en <concepto> ( <instancia> de <instancia> ( <concepto>
78 <instancia>. la <concepto> la <instancia>, el <concepto>
79 la <instancia>, <concepto> de de <instancia> o <concepto>
80 : <concepto> : <instancia> de <instancia>, <concepto> y
81 ( <instancia>, <concepto> , <instancia>, <concepto>.
82 lunas, <instancia>, <concepto> los <instancia>, <concepto>
83 de <instancia> como <concepto> de de <instancia> y otros <concepto>
84 <instancia> y <concepto> y la <instancia>. <concepto>
85 en <instancia>, <concepto> el <instancia>, <concepto> de
86 , <concepto> y <instancia> las <instancia> son <concepto>,
87 el <instancia> es la <concepto> <instancia> : <concepto>
88 de <instancia>, <concepto> de <instancia> en estado <concepto>
89 el <instancia> y las <concepto> <instancia>, <concepto> griego
0 los <instancia> son <concepto> el uso de la <instancia> como <concepto>
las <instancia> son una <concepto> de los <instancia> y los <concepto>
las <concepto> son <instancia> <instancia> u otros <concepto>
facultad de <concepto> de la actividad <instancia> <instancia>, la <concepto>
y aparte de segregar por el abdomen la <instancia>
el <instancia> es el <concepto> de mayor con la que fabrica las <concepto> de araña.
longevidad
39
Patrones
# Patrón # Patrón
<instancia> - <concepto> de <instancia>. <concepto>
<instancia> y <concepto> naturales la <instancia> es una <concepto> que
que la <instancia> es una <concepto> el <concepto> de la <instancia>
la <instancia> es el unico <concepto> natural <instancia> ( <concepto> de
<instancia>. el <concepto> <instancia> ( <concepto> )
, <instancia>, <concepto> de la <instancia>, <concepto> graficas,
el <instancia>, el <concepto> <concepto>. <instancia>
al <instancia>, <concepto> el <instancia> es el <concepto> interno mas
<instancia> / <concepto> del <instancia>, <concepto>
<concepto> de los <instancia> de la <instancia> como <concepto> de
<concepto> del grupo de las <instancia> 156 <instancia> y <concepto> de
<instancia>, el <concepto> mas
<instancia>, <concepto> caliza
, <instancia>, <concepto> graficas
del <instancia> como <concepto>
de <concepto> de <instancia>.
. <instancia>, <concepto>
<concepto> de la actividad <instancia> y el
deporte
<instancia>, <concepto> del

40

También podría gustarte