Está en la página 1de 38

Tópicos de

Textmining
Tópicos de Textmining
AGENDA
- Introducción
- Recuperación de Información (IR)
- Sistemas de Recuperación de Información
- Modelo Booleano
- Indice Invertido
- Análisis de Sentimientos
- Normalización
- Ejercicios prácticos
Introducción
Nociones Básicas
Minería de texto o textmining consiste en encontrar, verificar y descubrir información en
texto mediante técnicas de aprendizaje automático.

También se lo puede definir como el aprendizaje de patrones en texto mediante el


procesamiento de lenguaje natural.

Áreas vinculadas

Sentiment Analysis: la
Information Retrieval: interpretación y clasificación de
Recuperación Recuperar documentos que emociones, positivas o
Análisis de
de los usuarios consideren Sentimientos negativas, dentro de un texto
Información
relevantes mediante el uso de técnicas de
análisis de texto.
Recuperación de
Información (IR)
Definiciones
Según Manning, D., Prabhakar, R., Schütze, H. la definición de la recuperación de información o
information retrieval puede llegar a ser muy amplia.

El simple hecho de sacar su tarjeta de crédito de la billetera de tal forma que se puede tipear el número
de tarjeta es una forma de information retrieval.

La recuperación de información (IR) puede ser entendida como encontrar material (usualmente
documentos) no estructurado (usualmente texto) que satisface una necesidad de información dentro de
largas colecciones de textos (usualmente almacenadas en computadoras).

IR es usado también para facilitar búsquedas semiestructuradas.

Encontrar un documento donde el título contenga java y el cuerpo contenga enhebrar.


Definiciones
El IR también se encarga de apoyar al usuario en navegar o filtrar colecciones de documentos o procesar un
conjunto de documentos recuperados.

Por ejemplo, la tarea de agrupar documentos en base a su contenido, es similar a organizar los libros de
un estante en concordancia con su tema.

Dado un conjunto de temas, y una necesidad de información u otras categorías, la clasificación consistiría
en determinar a qué categoría pertenece cada grupo de documentos.
Sistemas
Recuperación de
Información (IR)
Sistemas de Recuperación de Información IR
Los sistemas de recuperación de información pueden ser caracterizados por la
escala en la cual operan.

En una búsqueda web (web search) el sistema La recuperación de información personal


tiene que realizar búsquedas sobre billones de (personal information retrieval), en los últimos
documentos almacenados en millones de años algunos sistemas operativos han incorporado
computadoras. information retrieval (tal es el caso de Spotlight
para Mac OS.

Los programas de email usualmente no incorporan búsquedas de texto pero si clasificación de texto, para aplicar
filtros y clasificar los emails en base a su contenido además del filtro de spam.
Modelo
Booleano
Definiciones
IR es encontrar textos que satisfagan una necesidad de
información contenida en grandes colecciones de texto.

El modelo booleano es el sistema de information retrieval más


simple.

Buscador devuelve todos los documentos que satisfagan la una expresión booleana (una expresión
que devuelva un valor de verdad)

En otras palabras es un modelo basado en teoría de conjuntos.


Incidencia Término Documento

Supongamos que contamos con una colección de textos de


Shakespeare y necesitamos determinar cuál de ellos contiene
las palabras Brutus y Caesar y no contiene la palabra Calpurnia.

Es
necesario
Figura 1.1 A term-document incidence matrix. Matrix element (t, d) is 1 if the
play in column d contains the word in row t, and is 0 otherwise.
- Procesar largas colecciones de documentos rápidamente.
- Permitir que las operaciones de macheo sean flexibles.
- Permitir un ranqueo de recuperación información.

La figura de la izquierda muestra una matriz de incidencia de término documento que indica si el término (unidad de
indexación, usualmente palabras) aparece o no en cada uno de los textos de la colección.
Terminología
Modelo
Booleano
Terminología Modelo Booleano
Query: es lo que el usuario transmite a la computadora con el objetivo de indicar la necesidad de
información.

Documento Relevante: Documento percibido por el usuario como un documento que contiene
información de valor con respecto a la necesidad de información.

Efectividad: Se entiende por la calidad de los resultados de la búsqueda, se puede expresar en


términos de precision y recall.

Precision: Indica qué fracción de los Recall: Indica qué fracción de los
resultados recuperados son relevantes a la documentos relevantes en la colección fueron
necesidad de la información. retornados por el sistema de recuperación.
Precisión y Recall
Buscamos 100 documentos de los cuales 80 de ellos no son relevantes en
base a la necesidad de información que definimos, mientras que 20 de ellos
sí son relevantes.

El 33% de los documentos recuperados son Se recuperaron el 25% de los documentos


relevantes a la necesidad de informaciòn. relevantes.
Indice Invertido
Terminología Modelo Booleano
Índice Invertido (Inverted Index or Inverted File)
Mapea las partes del documento donde el término fue encontrado, consta de dos componentes:

Diccionario Posting
de términos list

El diccionario Postings list


de términos guarda el id del
almacena el listado documento en donde
de todos los cada término fue
términos distintos. encontrado.

Se puede ver claramente que los términos Brutus y Caesar aparecen en,
Qué pasa con Brutus y Caesar al menos tres documentos iguales, los que tienen los ids 1,2 y 4.
Características
Para que los beneficios del indexamiento se vean reflejados en términos
de tiempos de recuperación de información se debe crear el índice con
anticipación. Pasos:

Preprocesamiento Índice
Recopilar Tokenizar lingüístico Invertido

Recopilar Convertir Generar una lista


documentos a cada de tokens
ser indexados documento en normalizados donde
una lista de estarán los términos a
tokens. indexar.
Características
En una colección de documentos, cada documento debe tener:

docID Usualmente un id
secuencial

Lista normalizada de tokens Equivalente a una lista de


pares de término
documento.

El resultado de este proceso permite construir el diccionario y el


posting list
Características
La cantidad de documentos que
document contienen un término determinado.
frecuency

Mismo que mejora la eficiencia del tiempo de consulta query time


del motor de búsqueda

Es una estadística que se suele usar después en la etapa de


ranqueo de modelos de recuperación.

Finalmente, los posting list en cada término son ordenados por el


docID. Tal es el caso del término “brutus” que aparece dos veces y en
la columna de posting lists vemos que aparece en los documentos con
id 1 y 2.
Análisis de
Sentimientos
Textmining
Obtener información relevante a partir de textos no estructurados

Raking: Es un número. Facilmente interpretable por las computadoras. Datos estructurados


Comentario: Es texto que necesita ser preprocesado antes de que pueda ser usado por las
computadoras. Datos no estructurados
Natural Language Processing (NLP)
Su objetivo es permitir que las máquinas puedan entender el lenguaje humano

Machine Translation

Chatbots

Web Search
Voice Assistant
Análisis de Sentimientos
Recuperar sentimiento de los textos usando técnicas de text mining y NPL

Recuperado de: https://www.linkedin.com/pulse/chile-central-bank-increase-international-reserves-usd-ricaurte-b-/


Normalización
Normalización de Texto
Consiste en reducir la aleatoriedad en una porción de texto en particular.
no
normalizado

@AILearning es super divertido aprender NLP!!!


@AILearning a mi me gusta aprender NLP. Es excelente.
Texto

Aprender NLP es muy divertido con @AILearning.


Normalizado

es super divertido aprender npl


a mi me gusta aprender npl es excelente
aprender npl es muy divertido
Pasos para la normalización de texto

Limpieza Tokenización Stemming


Limpieza
Consiste en eliminar o reemplazar todos los items que no proveen información adicional.
no
normalizado

RT @AILearning: es super divertido aprender NLP!!! :)


https://www.linkedin.com/in/eduardo-montero-713979a9/ #NLP
Texto
Normalizado

es super divertido aprender NLP!emoji NLP


Limpieza
no
normalizado

Estoooooy muy CONTENTO ! No puedo parar de estudiar !!!!!


Texto
Normalizado

estoy muy contento! No puedo parar de estudiar!


Tokenización
Es una forma de separar texto en pequeños grupos

Entienden lo que significa esto? dusprichstdeutsch usted habla alemán

du sprichstdeu tsch usted habla alemán


Al igual que los
humanos las computadoras
dusprichst deu tsch
crean oraciones
combinando palabras
du sprichst deutsch du sprichst deutsch
Tokenización
Permite hacer una selección de los items que no necesitamos conservar.

Signos de Stop Números


Puntuación words

Hola mundo!!!!! Yo estoy feliz Gané 50$ estoy super contento


Gané 1M$, estoy muy enojado
Stemming
Es el proceso de reducir palabras a su forma raíz. Proceso basado en reglas

Manag Manag Manag

Manager Management Managing

Over-sampling universal university universe


Síntesis
Ideas principales. Encontrar material no estructurado que satisface una
1. Recuperación de Información necesidad de información dentro de largas colecciones de
textos

2. Sistemas de Recuperación de
Información
Buscador devuelve todos los documentos que
3. Modelo Booleano satisfagan la una expresión booleana

4. Indice Invertido Mapea las partes del documento donde el término fue
encontrado, consta del diccionario de términos y el posting list

5. Análisis de Sentimientos Recuperar sentimiento de los textos usando técnicas de


text mining y NPL

6. Normalización Consiste en reducir la aleatoriedad en una porción de texto.


Ejercicios
Prácticos
Análisis de Sentimientos

Objetivo:
- Realizar un análisis exploratorio de datos
- Aplicar técnicas de normalización de datos
Herramienta a usar: Python – Google Colab
Referencias
Manning, D., Prabhakar, R., Schütze, H. (2009). An
Introduction to Information Retrieval (Cambridge University).
Recuperado de
https://ds.echhost.com/jspui/bitstream/123456789/2452/1/
00776216.pdf

Elaboración Propia. Eduardo Montero. 2020

También podría gustarte