Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Textmining
Tópicos de Textmining
AGENDA
- Introducción
- Recuperación de Información (IR)
- Sistemas de Recuperación de Información
- Modelo Booleano
- Indice Invertido
- Análisis de Sentimientos
- Normalización
- Ejercicios prácticos
Introducción
Nociones Básicas
Minería de texto o textmining consiste en encontrar, verificar y descubrir información en
texto mediante técnicas de aprendizaje automático.
Áreas vinculadas
Sentiment Analysis: la
Information Retrieval: interpretación y clasificación de
Recuperación Recuperar documentos que emociones, positivas o
Análisis de
de los usuarios consideren Sentimientos negativas, dentro de un texto
Información
relevantes mediante el uso de técnicas de
análisis de texto.
Recuperación de
Información (IR)
Definiciones
Según Manning, D., Prabhakar, R., Schütze, H. la definición de la recuperación de información o
information retrieval puede llegar a ser muy amplia.
El simple hecho de sacar su tarjeta de crédito de la billetera de tal forma que se puede tipear el número
de tarjeta es una forma de information retrieval.
La recuperación de información (IR) puede ser entendida como encontrar material (usualmente
documentos) no estructurado (usualmente texto) que satisface una necesidad de información dentro de
largas colecciones de textos (usualmente almacenadas en computadoras).
Por ejemplo, la tarea de agrupar documentos en base a su contenido, es similar a organizar los libros de
un estante en concordancia con su tema.
Dado un conjunto de temas, y una necesidad de información u otras categorías, la clasificación consistiría
en determinar a qué categoría pertenece cada grupo de documentos.
Sistemas
Recuperación de
Información (IR)
Sistemas de Recuperación de Información IR
Los sistemas de recuperación de información pueden ser caracterizados por la
escala en la cual operan.
Los programas de email usualmente no incorporan búsquedas de texto pero si clasificación de texto, para aplicar
filtros y clasificar los emails en base a su contenido además del filtro de spam.
Modelo
Booleano
Definiciones
IR es encontrar textos que satisfagan una necesidad de
información contenida en grandes colecciones de texto.
Buscador devuelve todos los documentos que satisfagan la una expresión booleana (una expresión
que devuelva un valor de verdad)
Es
necesario
Figura 1.1 A term-document incidence matrix. Matrix element (t, d) is 1 if the
play in column d contains the word in row t, and is 0 otherwise.
- Procesar largas colecciones de documentos rápidamente.
- Permitir que las operaciones de macheo sean flexibles.
- Permitir un ranqueo de recuperación información.
La figura de la izquierda muestra una matriz de incidencia de término documento que indica si el término (unidad de
indexación, usualmente palabras) aparece o no en cada uno de los textos de la colección.
Terminología
Modelo
Booleano
Terminología Modelo Booleano
Query: es lo que el usuario transmite a la computadora con el objetivo de indicar la necesidad de
información.
Documento Relevante: Documento percibido por el usuario como un documento que contiene
información de valor con respecto a la necesidad de información.
Precision: Indica qué fracción de los Recall: Indica qué fracción de los
resultados recuperados son relevantes a la documentos relevantes en la colección fueron
necesidad de la información. retornados por el sistema de recuperación.
Precisión y Recall
Buscamos 100 documentos de los cuales 80 de ellos no son relevantes en
base a la necesidad de información que definimos, mientras que 20 de ellos
sí son relevantes.
Diccionario Posting
de términos list
Se puede ver claramente que los términos Brutus y Caesar aparecen en,
Qué pasa con Brutus y Caesar al menos tres documentos iguales, los que tienen los ids 1,2 y 4.
Características
Para que los beneficios del indexamiento se vean reflejados en términos
de tiempos de recuperación de información se debe crear el índice con
anticipación. Pasos:
Preprocesamiento Índice
Recopilar Tokenizar lingüístico Invertido
docID Usualmente un id
secuencial
Machine Translation
Chatbots
Web Search
Voice Assistant
Análisis de Sentimientos
Recuperar sentimiento de los textos usando técnicas de text mining y NPL
2. Sistemas de Recuperación de
Información
Buscador devuelve todos los documentos que
3. Modelo Booleano satisfagan la una expresión booleana
4. Indice Invertido Mapea las partes del documento donde el término fue
encontrado, consta del diccionario de términos y el posting list
Objetivo:
- Realizar un análisis exploratorio de datos
- Aplicar técnicas de normalización de datos
Herramienta a usar: Python – Google Colab
Referencias
Manning, D., Prabhakar, R., Schütze, H. (2009). An
Introduction to Information Retrieval (Cambridge University).
Recuperado de
https://ds.echhost.com/jspui/bitstream/123456789/2452/1/
00776216.pdf