Tema 1

Máster en Lenguajes y Sistemas Informáticos
ETSI Informática (LSI-UNED)
Descubrimiento de
información en textos
Tema 1: Introducción
1. Definiciones preliminares.
2. Interés y aplicaciones.
Introducción 2
Definicciones preliminares
La minería de datos engloba un conjunto de técnicas
orientadas a la extracción de "conocimiento" procesable
implícito y tradicionalmente almacenado en bases de
datos.
El descubrimento de información en textos supone
una particularización de la minería de datos sobre
información desestructurada, como la contenida en
ficheros de texto, Internet, etc. y se conoce como
minería de textos.
Introducción 3
La minería de textos es un área multidisciplinar que
engloba fundamentalmente las siguientes tareas:
clustering, clasificación automática y recuperación
de información
En minería de textos se utilizan principalmente técnicas

estadísticas, aprendizaje automático, así como
tecnologías de la lengua
Introducción 4
El ámbito de aplicación de la minería de textos es la
información textual no estructurada y escrita en
lenguaje natural
La información textual normalmente conforma documentos
que pueden agruparse en colecciones y en corpus
Las colecciones y los corpus a menudo pueden contener
anotaciones y metadatos
Introducción 5
Un corpus lingüístico es un conjunto, normalmente muy
amplio, de ejemplos reales de uso de una o varias
lenguas.
Una anotación es una información adicional asociada con
un punto particular de un documento.
Los metadatos son datos sobre otros datos. Suelen
utilizarse para facilitar la comprensión, el uso y el
manejo de los datos.
Introducción 6
Interés y aplicaciones
Entre las aplicaciones y tareas asociadas a la minería de
textos se pueden destacar:
 Recuperación de información (Information
Retrieval): consiste en buscar documentos, buscar
información dentro de los documentos y en buscar
metadatos que describan los documentos. También
abarca la búsqueda en bases de datos, tanto aisladas
como conectadas en red y con hipertexto, como World
Wide Web.
Introducción 7
 Extracción de información (Information Extraction):
problema de recuperación de información cuyo objetivo
es extraer automáticamente información estructurada,
es decir datos de un cierto dominio bien definidos y
clasificados, a partir de documentos de texto plano.
 Búsqueda de respuesta (Question Answering): es un
problema de recuperación de información, en el que
dada una colección de documentos, el sistema debe ser
capaz de extraer respuestas a consultas formuladas en
lenguaje natural. Introducción 8
 Categorización de documentos (Text Categorization):
consiste en asignar a un documento una o más
categorias en función de su contenido. Las categorías
con las que se hace la clasificación están definidas
previamente.
 Agrupamiento de documentos (Document
Clustering), es una forma de organización de
documentos en grupos en la que ni la naturaleza de los
grupos, ni en ocasiones su número están definidos de
antemano. Introducción 9
 Generación Automática de resúmenes (Text
Summarization): transformación abreviada de uno
o varios textos origen a un texto resumido a través de
la reducción del contenido mediante selección y/o
generalización sobre lo que es importante.
Introducción 10

Tema 1

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 1

Cargado por

Copyright:

Formatos disponibles

Máster en Lenguajes y Sistemas Informáticos

ETSI Informática (LSI-UNED)

En minería de textos se utilizan principalmente técnicas

También podría gustarte