Modulo 4

Tópicos de
Textmining
Tópicos de Textmining
AGENDA
- Introducción
- Recuperación de Información (IR)
- Sistemas de Recuperación de Información
- Modelo Booleano
- Indice Invertido
- Análisis de Sentimientos
- Normalización
- Ejercicios prácticos
Introducción
Nociones Básicas
Minería de texto o textmining consiste en encontrar, verificar y descubrir información en
texto mediante técnicas de aprendizaje automático.
También se lo puede definir como el aprendizaje de patrones en texto mediante el

procesamiento de lenguaje natural.
Áreas vinculadas
Sentiment Analysis: la
Information Retrieval: interpretación y clasificación de
Recuperación Recuperar documentos que emociones, positivas o
Análisis de
de los usuarios consideren Sentimientos negativas, dentro de un texto
Información
relevantes mediante el uso de técnicas de
análisis de texto.
Recuperación de
Información (IR)
Definiciones
Según Manning, D., Prabhakar, R., Schütze, H. la definición de la recuperación de información o
information retrieval puede llegar a ser muy amplia.
El simple hecho de sacar su tarjeta de crédito de la billetera de tal forma que se puede tipear el número
de tarjeta es una forma de information retrieval.
La recuperación de información (IR) puede ser entendida como encontrar material (usualmente
documentos) no estructurado (usualmente texto) que satisface una necesidad de información dentro de
largas colecciones de textos (usualmente almacenadas en computadoras).
IR es usado también para facilitar búsquedas semiestructuradas.
Encontrar un documento donde el título contenga java y el cuerpo contenga enhebrar.

Definiciones
El IR también se encarga de apoyar al usuario en navegar o filtrar colecciones de documentos o procesar un
conjunto de documentos recuperados.
Por ejemplo, la tarea de agrupar documentos en base a su contenido, es similar a organizar los libros de
un estante en concordancia con su tema.
Dado un conjunto de temas, y una necesidad de información u otras categorías, la clasificación consistiría
en determinar a qué categoría pertenece cada grupo de documentos.
Sistemas
Recuperación de
Información (IR)
Sistemas de Recuperación de Información IR
Los sistemas de recuperación de información pueden ser caracterizados por la
escala en la cual operan.
En una búsqueda web (web search) el sistema La recuperación de información personal

tiene que realizar búsquedas sobre billones de (personal information retrieval), en los últimos
documentos almacenados en millones de años algunos sistemas operativos han incorporado
computadoras. information retrieval (tal es el caso de Spotlight
para Mac OS.
Los programas de email usualmente no incorporan búsquedas de texto pero si clasificación de texto, para aplicar
filtros y clasificar los emails en base a su contenido además del filtro de spam.
Modelo
Booleano
Definiciones
IR es encontrar textos que satisfagan una necesidad de
información contenida en grandes colecciones de texto.
El modelo booleano es el sistema de information retrieval más

simple.
Buscador devuelve todos los documentos que satisfagan la una expresión booleana (una expresión
que devuelva un valor de verdad)
En otras palabras es un modelo basado en teoría de conjuntos.

Incidencia Término Documento
Supongamos que contamos con una colección de textos de

Shakespeare y necesitamos determinar cuál de ellos contiene
las palabras Brutus y Caesar y no contiene la palabra Calpurnia.
Es
necesario
Figura 1.1 A term-document incidence matrix. Matrix element (t, d) is 1 if the
play in column d contains the word in row t, and is 0 otherwise.
- Procesar largas colecciones de documentos rápidamente.
- Permitir que las operaciones de macheo sean flexibles.
- Permitir un ranqueo de recuperación información.
La figura de la izquierda muestra una matriz de incidencia de término documento que indica si el término (unidad de
indexación, usualmente palabras) aparece o no en cada uno de los textos de la colección.
Terminología
Modelo
Booleano
Terminología Modelo Booleano
Query: es lo que el usuario transmite a la computadora con el objetivo de indicar la necesidad de
información.
Documento Relevante: Documento percibido por el usuario como un documento que contiene
información de valor con respecto a la necesidad de información.
Efectividad: Se entiende por la calidad de los resultados de la búsqueda, se puede expresar en

términos de precision y recall.
Precision: Indica qué fracción de los Recall: Indica qué fracción de los
resultados recuperados son relevantes a la documentos relevantes en la colección fueron
necesidad de la información. retornados por el sistema de recuperación.
Precisión y Recall
Buscamos 100 documentos de los cuales 80 de ellos no son relevantes en
base a la necesidad de información que definimos, mientras que 20 de ellos
sí son relevantes.
El 33% de los documentos recuperados son Se recuperaron el 25% de los documentos

relevantes a la necesidad de informaciòn. relevantes.
Indice Invertido
Terminología Modelo Booleano
Índice Invertido (Inverted Index or Inverted File)
Mapea las partes del documento donde el término fue encontrado, consta de dos componentes:
Diccionario Posting
de términos list
El diccionario Postings list

de términos guarda el id del
almacena el listado documento en donde
de todos los cada término fue
términos distintos. encontrado.
Se puede ver claramente que los términos Brutus y Caesar aparecen en,
Qué pasa con Brutus y Caesar al menos tres documentos iguales, los que tienen los ids 1,2 y 4.
Características
Para que los beneficios del indexamiento se vean reflejados en términos
de tiempos de recuperación de información se debe crear el índice con
anticipación. Pasos:
Preprocesamiento Índice
Recopilar Tokenizar lingüístico Invertido
Recopilar Convertir Generar una lista

documentos a cada de tokens
ser indexados documento en normalizados donde
una lista de estarán los términos a
tokens. indexar.
Características
En una colección de documentos, cada documento debe tener:
docID Usualmente un id
secuencial
Lista normalizada de tokens Equivalente a una lista de

pares de término
documento.
El resultado de este proceso permite construir el diccionario y el

posting list
Características
La cantidad de documentos que
document contienen un término determinado.
frecuency
Mismo que mejora la eficiencia del tiempo de consulta query time

del motor de búsqueda
Es una estadística que se suele usar después en la etapa de

ranqueo de modelos de recuperación.
Finalmente, los posting list en cada término son ordenados por el

docID. Tal es el caso del término “brutus” que aparece dos veces y en
la columna de posting lists vemos que aparece en los documentos con
id 1 y 2.
Análisis de
Sentimientos
Textmining
Obtener información relevante a partir de textos no estructurados
Raking: Es un número. Facilmente interpretable por las computadoras. Datos estructurados

Comentario: Es texto que necesita ser preprocesado antes de que pueda ser usado por las
computadoras. Datos no estructurados
Natural Language Processing (NLP)
Su objetivo es permitir que las máquinas puedan entender el lenguaje humano
Machine Translation
Chatbots
Web Search
Voice Assistant
Análisis de Sentimientos
Recuperar sentimiento de los textos usando técnicas de text mining y NPL
Recuperado de: https://www.linkedin.com/pulse/chile-central-bank-increase-international-reserves-usd-ricaurte-b-/

Normalización
Normalización de Texto
Consiste en reducir la aleatoriedad en una porción de texto en particular.
no
normalizado
@AILearning es super divertido aprender NLP!!!

@AILearning a mi me gusta aprender NLP. Es excelente.
Texto
Aprender NLP es muy divertido con @AILearning.

Normalizado
es super divertido aprender npl

a mi me gusta aprender npl es excelente
aprender npl es muy divertido
Pasos para la normalización de texto
Limpieza Tokenización Stemming

Limpieza
Consiste en eliminar o reemplazar todos los items que no proveen información adicional.
no
normalizado
RT @AILearning: es super divertido aprender NLP!!! :)

https://www.linkedin.com/in/eduardo-montero-713979a9/ #NLP
Texto
Normalizado
es super divertido aprender NLP!emoji NLP

Limpieza
no
normalizado
Estoooooy muy CONTENTO ! No puedo parar de estudiar !!!!!

Texto
Normalizado
estoy muy contento! No puedo parar de estudiar!

Tokenización
Es una forma de separar texto en pequeños grupos
Entienden lo que significa esto? dusprichstdeutsch usted habla alemán
du sprichstdeu tsch usted habla alemán

Al igual que los
humanos las computadoras
dusprichst deu tsch
crean oraciones
combinando palabras
du sprichst deutsch du sprichst deutsch
Tokenización
Permite hacer una selección de los items que no necesitamos conservar.
Signos de Stop Números

Puntuación words
Hola mundo!!!!! Yo estoy feliz Gané 50$ estoy super contento

Gané 1M$, estoy muy enojado
Stemming
Es el proceso de reducir palabras a su forma raíz. Proceso basado en reglas
Manag Manag Manag
Manager Management Managing
Over-sampling universal university universe

Síntesis
Ideas principales. Encontrar material no estructurado que satisface una
1. Recuperación de Información necesidad de información dentro de largas colecciones de
textos
2. Sistemas de Recuperación de
Información
Buscador devuelve todos los documentos que
3. Modelo Booleano satisfagan la una expresión booleana
4. Indice Invertido Mapea las partes del documento donde el término fue
encontrado, consta del diccionario de términos y el posting list
5. Análisis de Sentimientos Recuperar sentimiento de los textos usando técnicas de

text mining y NPL
6. Normalización Consiste en reducir la aleatoriedad en una porción de texto.

Ejercicios
Prácticos
Análisis de Sentimientos
Objetivo:
- Realizar un análisis exploratorio de datos
- Aplicar técnicas de normalización de datos
Herramienta a usar: Python – Google Colab
Referencias
Manning, D., Prabhakar, R., Schütze, H. (2009). An
Introduction to Information Retrieval (Cambridge University).
Recuperado de
https://ds.echhost.com/jspui/bitstream/123456789/2452/1/
00776216.pdf
Elaboración Propia. Eduardo Montero. 2020

Modulo 4

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Modulo 4

Cargado por

Copyright:

Formatos disponibles

Tópicos de

También se lo puede definir como el aprendizaje de patrones en texto mediante el

IR es usado también para facilitar búsquedas semiestructuradas.

Encontrar un documento donde el título contenga java y el cuerpo contenga enhebrar.

En una búsqueda web (web search) el sistema La recuperación de información personal

El modelo booleano es el sistema de information retrieval más

En otras palabras es un modelo basado en teoría de conjuntos.

Supongamos que contamos con una colección de textos de

Efectividad: Se entiende por la calidad de los resultados de la búsqueda, se puede expresar en

El 33% de los documentos recuperados son Se recuperaron el 25% de los documentos

El diccionario Postings list

Recopilar Convertir Generar una lista

Lista normalizada de tokens Equivalente a una lista de

El resultado de este proceso permite construir el diccionario y el

Mismo que mejora la eficiencia del tiempo de consulta query time

Es una estadística que se suele usar después en la etapa de

Finalmente, los posting list en cada término son ordenados por el

Raking: Es un número. Facilmente interpretable por las computadoras. Datos estructurados

Recuperado de: https://www.linkedin.com/pulse/chile-central-bank-increase-international-reserves-usd-ricaurte-b-/

@AILearning es super divertido aprender NLP!!!

Aprender NLP es muy divertido con @AILearning.

es super divertido aprender npl

Limpieza Tokenización Stemming

RT @AILearning: es super divertido aprender NLP!!! :)

es super divertido aprender NLP!emoji NLP

Estoooooy muy CONTENTO ! No puedo parar de estudiar !!!!!

estoy muy contento! No puedo parar de estudiar!

Entienden lo que significa esto? dusprichstdeutsch usted habla alemán

du sprichstdeu tsch usted habla alemán

Signos de Stop Números

Hola mundo!!!!! Yo estoy feliz Gané 50$ estoy super contento

Manag Manag Manag

Manager Management Managing

Over-sampling universal university universe

5. Análisis de Sentimientos Recuperar sentimiento de los textos usando técnicas de

6. Normalización Consiste en reducir la aleatoriedad en una porción de texto.

Elaboración Propia. Eduardo Montero. 2020

También podría gustarte