Está en la página 1de 10

Máster en Lenguajes y Sistemas Informáticos

ETSI Informática (LSI-UNED)

Descubrimiento de
información en textos
Tema 1: Introducción

1. Definiciones preliminares.

2. Interés y aplicaciones.

Introducción 2
Definicciones preliminares
La minería de datos engloba un conjunto de técnicas
orientadas a la extracción de "conocimiento" procesable
implícito y tradicionalmente almacenado en bases de
datos.
El descubrimento de información en textos supone
una particularización de la minería de datos sobre
información desestructurada, como la contenida en
ficheros de texto, Internet, etc. y se conoce como
minería de textos.
Introducción 3
Definicciones preliminares
La minería de textos es un área multidisciplinar que
engloba fundamentalmente las siguientes tareas:
clustering, clasificación automática y recuperación
de información

En minería de textos se utilizan principalmente técnicas


estadísticas, aprendizaje automático, así como
tecnologías de la lengua

Introducción 4
Definicciones preliminares
El ámbito de aplicación de la minería de textos es la
información textual no estructurada y escrita en
lenguaje natural
La información textual normalmente conforma documentos
que pueden agruparse en colecciones y en corpus
Las colecciones y los corpus a menudo pueden contener
anotaciones y metadatos

Introducción 5
Definicciones preliminares
Un corpus lingüístico es un conjunto, normalmente muy
amplio, de ejemplos reales de uso de una o varias
lenguas.
Una anotación es una información adicional asociada con
un punto particular de un documento.
Los metadatos son datos sobre otros datos. Suelen
utilizarse para facilitar la comprensión, el uso y el
manejo de los datos.

Introducción 6
Interés y aplicaciones
Entre las aplicaciones y tareas asociadas a la minería de
textos se pueden destacar:
 Recuperación de información (Information
Retrieval): consiste en buscar documentos, buscar
información dentro de los documentos y en buscar
metadatos que describan los documentos. También
abarca la búsqueda en bases de datos, tanto aisladas
como conectadas en red y con hipertexto, como World
Wide Web.
Introducción 7
Interés y aplicaciones
 Extracción de información (Information Extraction):
problema de recuperación de información cuyo objetivo
es extraer automáticamente información estructurada,
es decir datos de un cierto dominio bien definidos y
clasificados, a partir de documentos de texto plano.
 Búsqueda de respuesta (Question Answering): es un
problema de recuperación de información, en el que
dada una colección de documentos, el sistema debe ser
capaz de extraer respuestas a consultas formuladas en
lenguaje natural. Introducción 8
Interés y aplicaciones
 Categorización de documentos (Text Categorization):
consiste en asignar a un documento una o más
categorias en función de su contenido. Las categorías
con las que se hace la clasificación están definidas
previamente.
 Agrupamiento de documentos (Document
Clustering), es una forma de organización de
documentos en grupos en la que ni la naturaleza de los
grupos, ni en ocasiones su número están definidos de
antemano. Introducción 9
Interés y aplicaciones
 Generación Automática de resúmenes (Text
Summarization): transformación abreviada de uno
o varios textos origen a un texto resumido a través de
la reducción del contenido mediante selección y/o
generalización sobre lo que es importante.

Introducción 10

También podría gustarte