Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Intro01
Intro01
Componentes de la Tecnologa
TEXTO
VOZ
ENTRADA
IMAGEN
RECURSOS LINGSTICOS
Reconocer y Validar
Analizar y Comprender
Aplicar
Generar
TEXTO
VOZ SALIDA
IMAGEN
Tcnicas utilizadas
Identificacin del hablante. Verificacin Reconocimiento del habla Reconocimiento de caracteres e imgenes Comprensin de la lengua Generacin de lenguaje Sistemas basados en dilogos Sntesis del habla
4
Problemas:
Hablante desconocido Ruido (en el entorno o en el medio de transmisin) Cambios temporales en el hablante
Discurso discreto vs continuo Adquisicin y uso de modelos estadsticos de los fonemas y palabras Reconocimiento de cualquier locutor (sin necesidad de entrenamiento) Ruido Acento, dialectos, agramaticalidades
PLN Introduccin Ingeniera Lingstica 6
Comprensin de la lengua
Comprensin completa o parcial Anlisis incremental:
Anlisis parcial y/o superficial localizacin de focos de inters Anlisis ms detallados de dichos focos
Generacin de lenguaje
Representacin semntica del texto Qu decir y Cmo decirlo (what to say, how to say) Planificacin del contenido y de la forma Elementos retricos
Alto nivel de comprensin Calidad del dilogo Deteccin del contenido ilocutivo de las intervenciones del interlocutor humano Acciones primitivas locutivas y no locutivas
comunicaciones, rdenes, peticiones, preguntas, etc...
Contenido Forma: intensidad, entonacin, duracin Generacin a partir de piezas pregrabadas. Concatenacin
11
Recursos
Lexicones generales Diccionarios Lexicones especializados Ontologas Gramticas Corpus textuales Internet como fuente de informacin
12
Lexicones generales
Repositorios de palabras
lemarios, formarios, listas de palabras, ...
Diccionarios
MRDs tipos: generales, normativos, de uso, de aprendizaje, mono/bilinges... tamao, contenido, organizacin
entrada, acepcin, relaciones, ...
Lexicones especializados
Nombres propios Bases de datos terminolgicas Gazetteers Diccionarios de locuciones, lexas,... Wordnets Siglas, jergas Detectores de fechas, nmeros, frmulas,...
15
16
AskMSR (Microsoft)
Brill, 2002
17
Gramticas
Ontologas
Ontologas lxicas vs conceptuales Ontologas generales vs de dominio Ontologas de tareas, metaontologas Contenido, granularidad, relaciones Interlinguas: KIF, PIF CYC, Frame-Ontology, WordNet, EuroWordNet, GUM, MikroKosmos
19
Corpus
Textuales vs orales Gran tamao (1Mw - 1Gw) Poco (o nada) estructurados Informacin no disponible en forma ms tratable:
colocaciones, estructura argumental, contexto de aparicin, induccin gramatical, relaciones lxicas, restricciones selectivas, lexas, ejemplos de utilizacin,...
20
Corpus
Corpus 3 ejemplos
Brown Corpus ACL/DCI (Wall Street Journal, Hansard, ...) ACL/ECI (European Corpus Initiative) USA-LDC (Linguistic Data Consortium) LOB (ICAME, International Computer Archive of Modern English) BNC (British National Corpus) SEC (Lancaster Spoken English Corpus) TOSCA Collins-Cobuild PAROLE IBM/Lancaster treebank Penn Treebank Susanne SemCor Trsor de la Langue Franaise (TLF)
22
Corpus 4 ejemplos
Instituto Cervantes. Observatorio Espaol de Industrias de la Lengua "http://www.cervantes.es/oeil/Oeil0.htm CREA, recopilado por la RAE. 200 Mw. etiquetado y lematizado CRATER, (esp, ing, fran), U.A.Madrid. 5.5Mw. alineado, anotado morfosintcticamente ALBAYZIN. Corpus oral, frases aisladas, consultas a BD geogrfica. UPC (TSC), UGr, UPMad, UPVal, UABar LEXESP, 5Mw, anotado morfosintcticamente, lematizado, UBar, UPC IEC en el marco del DCC (cataln)
PLN Introduccin Ingeniera Lingstica 23
24
Heterognea
contenido, lengua (70% ingls), formatos
25
Limitaciones
dificultad de consumir (por las aplicaciones) texto marcado (generalmente mal) HTML dificultad de construccin (y mantenimiento!) de los wrappers
PLN Introduccin Ingeniera Lingstica 26
Extraccin de Informacin Integracin de Informacin Construccin (y reestructuracin) de Web sites Agentes (crawlers, spiders, softbots, infobots ...)
27
Semi-estructuradas
Exhiben cierta regularidad No suelen emplear LN no restringido Elementos extraos que pueden ayudar (marcas HTML, XML) o confundir (applets, propaganda, ...) Una alta proporcin de recursos actuales en Internet son fuentes semiestructuradas => tiles Semantic Web
Libres
texto no restringido
PLN Introduccin Ingeniera Lingstica 28
29
30
Aplicaciones
Aplicaciones genricas
(ayuda a la) traduccin automtica gestin de la informacin (multilinge) authoring (multilinge) interfaz persona/mquina (multilinge, multimodal) Obtencin de recursos
Aplicaciones especficas
31
Aplicaciones
traduccin automtica
TA con intervencin humana, TH. asistida entornos de ayuda a la TH Adquisicin automtica de recursos para la TA (corpus alineados, modelos de traduccin, memorias de traduccin, ...)
32
Aplicaciones
gestin de la informacin
productores de resmenes, indiciadores, {recuperacin, extraccin, formateo, filtrado, encaminado} de informacin, minera de informacin textual, buscadores conceptuales, alineadores de textos, guessers sistemas de bsqueda de la respuesta
PLN Introduccin Ingeniera Lingstica 33
Aplicaciones
authoring
correctores lxicos, gramaticales, estilsticos, consulta online de diccionarios, tesauros, ontologas, facilidades para la estructuracin e integracin de documentos
34
Aplicaciones
35
Aplicaciones
gestin de la informacin
productores de resmenes, indiciadores, {recuperacin, extraccin, formateo, filtrado, encaminado} de informacin, buscadores conceptuales, alineadores de textos, guessers
authoring
correctores lxicos, gramaticales, estilsticos, consulta online de diccionarios, tesauros, ontologas, facilidades para la estructuracin e integracin de documentos
36
planes nacionales de investigacin y desarrollo tecnolgico 5 Programa Marco de I+D de la Unin Europea (1998-2002)
9 reas cientfico-tecnolgicas
rea de las Tecnologas de la Informacin y las Comunicaciones
12 reas sectoriales
rea de la Sociedad de la Informacin
Ingeniera Lingstica
Direccin General XIII
38
39
Cuntos grupos
Unos 30 grupos
SEPLN (1997) I.Cervantes
Almansa et al, 1998 Llisterri, Garrido, 1998
75% en Universidades y C. Investigacin Equilibrio texto/habla/recursos reas, aplicaciones Especial inters en Recursos
40