Documentos de Académico
Documentos de Profesional
Documentos de Cultura
https://stephanievazquezg.com/
Objetivo
2
Contenido
■ ¿Qué es el análisis de texto?
■ Análisis de texto VS Minería de texto VS Text analytics
■ ¿Por qué es importante el análisis de texto?
■ Métodos y técnicas de análisis de textos
– Clasificación de texto
■ Análisis de sentimientos
■ Análisis de tópicos
■ Detección de intención
– Extracción de texto
■ Extracción de palabras clave
■ Reconocimiento de entidades
– Frecuencia de palabra
– Colocación
3
Contenido
– Concordancia
– Desambiguación del sentido de las palabras
– Agrupación (clustering)
■ ¿Cómo funciona el análisis de texto?
■ Cómo analizar datos de texto
– Recopilación de datos
– Preparación de datos
■ Tokenización, etiquetado de parte del discurso y parseo
■ Lematización y Stemming
■ Eliminación de palabras vacías (stop words)
■ Analizando datos de texto
– Clasificación de texto
■ Sistemas basados en reglas
■ Sistemas basados en aprendizaje automático
4
Contenido
■ Sistemas híbridos
■ Evaluación
– Extracción de texto
■ Expresiones regulares
■ Campos aleatorios condicionales (CRF)
■ Evaluación
■ Aplicaciones y ejemplos de análisis de texto
■ Aplicación del procesamiento del lenguaje natural en la ciencia actuarial
■ Ejemplos de seguros
5
¿QUÉ ES EL ANÁLISIS
DE TEXTO?
6
¿Qué es el análisis de texto?
7
Análisis de texto
8
Análisis de texto VS Minería de texto VS Text
analytics
■ Los términos a menudo se usan indistintamente para explicar el mismo proceso de
obtención de datos a través del aprendizaje de patrones estadísticos.
■ El análisis de texto ofrece resultados cualitativos y el text analytics ofrece resultados
cuantitativos. Si una máquina realiza un análisis de texto, identifica información
importante dentro del propio texto, pero si realiza text analytics, revela patrones en
miles de textos, lo que da como resultado gráficos, informes, tablas, etc.
■ Supongamos que un gerente de atención al cliente quiere saber cuántos tickets de
soporte resolvieron los miembros individuales del equipo. En este caso, usarían text
analytics para crear un gráfico que visualice las tasas de resolución de tickets
individuales.
9
Análisis de texto VS Minería de texto VS
Text analytics
■ Sin embargo, es probable que el gerente también quiera saber qué proporción de
tickets resultó en un resultado positivo o negativo.
■ Al analizar el texto dentro de cada ticket y los intercambios posteriores, los gerentes
de atención al cliente pueden ver cómo cada agente manejó los tickets y si los
clientes estaban satisfechos con el resultado.
■ Básicamente, el desafío en el análisis de texto es decodificar la ambigüedad del
lenguaje humano, mientras que en el text analytics es detectar patrones y
tendencias a partir de los resultados numéricos.
10
¿Por qué es importante el análisis de
texto?
■ Cuando pone a las máquinas a trabajar para organizar y analizar sus datos de texto, la información y los
beneficios son enormes.
■ Echemos un vistazo a algunas de las ventajas del análisis de texto, a continuación.
■ El análisis de texto es escalable
– Las herramientas de análisis de texto permiten a las empresas estructurar grandes cantidades de
información, como correos electrónicos, chats, redes sociales, tickets de soporte, documentos, etc., en
segundos en lugar de días, para que pueda redirigir recursos adicionales a tareas comerciales más
importantes.
■ Podemos analizar texto en tiempo real
– El análisis de texto cambia las reglas del juego cuando se trata de detectar asuntos urgentes,
dondequiera que aparezcan, las 24 horas del día, los 7 días de la semana y en tiempo real. Al entrenar
modelos de análisis de texto para detectar expresiones y sentimientos que implican negatividad o
urgencia, las empresas pueden marcar automáticamente tweets, reseñas, videos, tickets y similares, y
tomar medidas más temprano que tarde.
11
¿Por qué es importante el análisis de
texto?
■ El análisis de texto basado en AI ofrece criterios consistentes
– Los humanos cometemos errores. Hecho. Y cuanto más tediosa y lenta es una tarea, más errores
cometen. Al entrenar los modelos de análisis de texto según sus necesidades y criterios, los algoritmos
pueden analizar, comprender y clasificar los datos con mucha más precisión que los humanos.
12
MÉTODOS Y TÉCNICAS
DE ANÁLISIS DE TEXTO
13
Métodos y técnicas de análisis de texto
■ Existen técnicas de análisis de texto básicas y más avanzadas, cada una utilizada
para diferentes propósitos. Primero, aprenderemos sobre las técnicas de análisis de
texto más simples y ejemplos de cuándo podría usar cada una.
– Clasificación de texto
– Extracción de texto
– Frecuencia de palabra
– Colocación
– Concordancia
– Desambiguación del sentido de las palabras
– Agrupación (clustering)
14
Clasificación de texto
15
Análisis de sentimientos
16
Análisis de tópicos
17
Detección de intención
■ Los clasificadores de texto también se pueden usar para detectar la intención de un
texto.
■ La detección de intenciones o la clasificación de intenciones se usa a menudo para
comprender automáticamente el motivo detrás de los comentarios de los clientes.
¿Es una queja? ¿O es un cliente que escribe con la intención de comprar un
producto?
■ El aprendizaje automático puede leer conversaciones de chatbot o correos
electrónicos y enrutarlos automáticamente al departamento o empleado adecuado.
18
Extracción de texto
19
Extracción de palabras clave
■ Las palabras clave son los términos más utilizados y más relevantes dentro de un
texto, palabras y frases que resumen el contenido del texto. Se puede usar para
indexar datos que se van a buscar y generar nubes de palabras (una representación
visual de datos de texto).
20
Reconocimiento de entidades
21
Frecuencia de palabra
■ La frecuencia de palabras es una técnica de análisis de texto que mide las palabras
o conceptos que aparecen con mayor frecuencia en un texto determinado utilizando
la estadística numérica TF-IDF (frecuencia de término-frecuencia de documento
inversa).Puede aplicar esta técnica para analizar las palabras o expresiones que los
clientes usan con más frecuencia en las conversaciones de soporte. Por ejemplo, si
la palabra "entrega" aparece con mayor frecuencia en un conjunto de tickets de
soporte negativos, esto podría sugerir que los clientes no están satisfechos con su
servicio de entrega.
22
Colocación
■ La colocación ayuda a identificar palabras que comúnmente se encuentran juntas.
Por ejemplo, en las reseñas de los clientes en un sitio web de reservas de hotel, es
más probable que las palabras "aire" y "acondicionado" aparezcan juntas en lugar
de aparecer individualmente. Los bigramas (dos palabras adyacentes, por ejemplo,
'aire acondicionado' o ‘primeros auxilios') y los trigramas (tres palabras adyacentes,
por ejemplo, 'fuera del trabajo' o ‘ciencia de datos') son los tipos de colocación más
comunes que deberá tener en cuenta .
■ La colocación puede ser útil para identificar estructuras semánticas ocultas y
mejorar la granularidad de las ideas al contar bigramas y trigramas como una sola
palabra.
23
Concordancia
24
Concordancia
■ En este caso, la concordancia de la palabra "simple" puede darnos una idea rápida
de cómo los revisores usan esta palabra. También se puede utilizar para decodificar
la ambigüedad del lenguaje humano hasta cierto punto, al observar cómo se usan
las palabras en diferentes contextos, además de poder analizar frases más
complejas.
25
Desambiguación del sentido de las
palabras
■ Es muy común que una palabra tenga más de un significado, razón por la cual la
desambiguación del sentido de las palabras es un gran desafío para el
procesamiento del lenguaje natural. Tome la palabra ‘light' por ejemplo. ¿El texto se
refiere al peso, al color o a un aparato eléctrico? El análisis de texto inteligente con
desambiguación de sentido de palabra puede diferenciar palabras que tienen más
de un significado, pero solo después de entrenar modelos para hacerlo.
26
Agrupación (Clustering)
27
¿CÓMO FUNCIONA EL
ANÁLISIS DE TEXTO?
28
¿Cómo funciona el análisis de texto?
29
¿Cómo funciona el análisis de texto?
■ Es muy similar a la forma en que los humanos aprenden a diferenciar entre temas,
objetos y emociones. Digamos que tenemos problemas urgentes y de baja prioridad
que tratar. No sabemos instintivamente la diferencia entre ellos, aprendemos
gradualmente asociando la urgencia con ciertas expresiones.
■ Por ejemplo, cuando queremos identificar problemas urgentes, buscamos
expresiones como '¡por favor, ayúdenme lo antes posible!' o 'urgente: no puedo
entrar a la plataforma, ¡¡el sistema está CAÍDO!!’.
■ Por otro lado, para identificar problemas de baja prioridad, buscaríamos
expresiones más positivas como '¡gracias por la ayuda! Realmente lo aprecio' o 'la
nueva característica funciona como un sueño'.
30
CÓMO ANALIZAR DATOS
DE TEXTO
31
Cómo analizar datos de texto
■ El análisis de texto puede aplicar la IA a través de una variedad de textos según los
resultados que desee. Se puede aplicar a:
– Documentos completos: obtiene información de un documento o párrafo
completo: por ejemplo, el sentimiento general de una reseña de un cliente.
– Oraciones individuales: obtiene información de oraciones específicas: por
ejemplo, sentimientos más detallados de cada oración de una reseña de un
cliente.
– Sub-frases: obtiene información de las sub-expresiones dentro de una oración:
por ejemplo, los sentimientos subyacentes de cada unidad de opinión de una
reseña de un cliente.
32
Recopilación de datos
33
Preparación de datos
34
Tokenización, etiquetado de parte del
discurso y parseo.
■ Tokenización:
(Incorrecto): Analyzing text is not that hard. = [“Analyz”, “ing text”, “is n”, “ot that”,
“hard.”]
(Correcto): Analyzing text is not that hard. = [“Analyzing”, “text”, “is”, “not”, “that”,
“hard”, “.”]
■ Etiquetado POS:
“Analyzing”: VERBO, “text”: SUST, “is”: VERBO, “not”: ADV, “that”: ADV,
“hard”: ADJ, “.”: PUNCT
■ Parseo: Proceso de determinar la estructura sintáctica de un texto. Para
hacer esto, el algoritmo de análisis hace uso de una gramática del idioma
en el que se ha escrito el texto.
35
Tokenización, etiquetado de parte del
discurso y parseo.
36
Tokenización, etiquetado de parte del
discurso y parseo
37
Lematización y Stemming
38
Eliminación de palabras vacías (stop words)
39
ANALIZANDO DATOS DE
TEXTO
40
Analizando datos de texto
41
Clasificación de texto
42
Sistemas basados en reglas
(HDD|RAM|SSD|Memoria) → Hardware
■ En este caso, el sistema asignará la etiqueta Hardware a aquellos textos que contengan
las palabras HDD, RAM, SSD o Memoria.
43
Sistemas basados en aprendizaje
automático
■ Los sistemas basados en aprendizaje automático pueden hacer predicciones
basadas en lo que aprenden de observaciones anteriores. Estos sistemas necesitan
recibir múltiples ejemplos de textos y las predicciones esperadas (etiquetas) para
cada uno.
■ Cuando se entrena un clasificador basado en aprendizaje automático, los datos de
entrenamiento deben transformarse en algo que una máquina pueda entender, es
decir, vectores (listas de números que codifican información).
■ Mediante el uso de vectores, el sistema puede extraer características relevantes
(piezas de información) que lo ayudarán a aprender de los datos existentes y hacer
predicciones sobre los textos venideros.
44
Sistemas basados en aprendizaje
automático
■ Hay varias formas de hacer esto, pero una de las más utilizadas se llama
vectorización de bolsa de palabras.
45
Sistemas basados en aprendizaje
automático
■ El modelo entrenado transformará el texto no visto en un vector, extraerá sus
características relevantes y hará una predicción:
46
Sistemas Híbridos
47
Evaluación
■ El rendimiento del clasificador generalmente se evalúa a través de métricas
estándar utilizadas en el campo del aprendizaje automático: exactitud (accuracy),
precisión (presicion), recuperación (recall) y puntaje F1 (F1 score).
■ La validación cruzada se usa con bastante frecuencia para evaluar el rendimiento
de los clasificadores de texto. En primer lugar, el conjunto de datos de
entrenamiento se divide aleatoriamente en varios subconjuntos de igual longitud
(por ejemplo, 4 subconjuntos con el 25 % de los datos originales cada uno). Luego,
todos los subconjuntos excepto uno se usan para entrenar un clasificador (en este
caso, 3 subconjuntos con el 75% de los datos originales) y este clasificador se usa
para predecir los textos en el subconjunto restante. A continuación, se calculan
todas las métricas de rendimiento (es decir, exactitud, precisión, recuperación, F1,
etc.). Finalmente, el proceso se repite con un nuevo pliegue de prueba hasta que
todos los lotes se hayan utilizado para propósitos de prueba.
■ Una vez que se han utilizado todos los subconjuntos, se calculan las métricas de
rendimiento promedio y finaliza el proceso de evaluación.
48
Extracción de texto
49
Expresiones regulares
50
Campos aleatorios condicionales
■ Los campos aleatorios condicionales (CRF) son un enfoque estadístico que se usa a
menudo en la extracción de texto basada en el aprendizaje automático. Este
enfoque aprende los patrones que se extraerán al sopesar un conjunto de
características de las secuencias de palabras que aparecen en un texto.
■ Los campos aleatorios condicionales son un modelo discriminativo, utilizado para
predecir secuencias. Utilizan información contextual de etiquetas anteriores, lo que
aumenta la cantidad de información que el modelo tiene para hacer una buena
predicción.
51
Evaluación
52
APLICACIONES Y
EJEMPLOS DE ANÁLISIS
DE TEXTO
53
Aplicaciones y ejemplos de análisis de
texto
■ ¿Sabían que el 80% de los datos comerciales son texto? El texto está presente en
todos los procesos comerciales importantes, desde tickets de soporte hasta
comentarios sobre productos e interacciones en línea con los clientes.
■ El análisis de texto automatizado en tiempo real puede ayudar a controlar todos
esos datos con una amplia gama de aplicaciones comerciales y casos de uso.
■ Maximizar la eficiencia y reduzca las tareas repetitivas que a menudo tienen un alto
impacto en la rotación. Comprender mejor los requerimientos de los clientes sin
tener que revisar millones de publicaciones en redes sociales, reseñas en línea y
respuestas a encuestas.
54
Aplicaciones y ejemplos de análisis de
texto
■ Monitoreo de redes sociales Tickets Urgentes
■ Monitoreo de marca ■ Voz del cliente (VoC) y comentarios del
cliente
■ Servicio al Cliente
– Análisis de las respuestas de NPS (Net
– Etiquetado de tickets Promoter Score)
– Enrutamiento y triaje de tickets: – Análisis de encuestas de clientes
encuentre a la persona adecuada para
el trabajo ■ Inteligencia de Negocio
– Análisis de tickets: aprenda más de ■ Ventas y marketing
sus clientes
■ Análisis de productos
– Detección de Urgencias: Priorizar
55
Aplicación del procesamiento del
lenguaje natural en la ciencia actuarial
■ Las compañías de seguros tienen un largo historial de recopilación y
almacenamiento de terabytes de datos, pero aún no han desbloqueado por
completo los beneficios potenciales de las abundantes reservas de datos de texto.
■ Según diversos estudios, tenemos más datos de texto que datos numéricos
estructurados.
■ El PLN juega un papel fundamental en la extracción de datos estructurados,
semiestructurados y no estructurados de documentos de texto en formatos
utilizables para su posterior análisis.
56
Aplicación del procesamiento del
lenguaje natural en la ciencia actuarial
■ Liao et al. analizó la información de las llamadas de los clientes utilizando
metodologías tradicionales de minería de texto y técnicas de clasificación para
clasificar las llamadas y procesarlas de manera más eficiente, lo que finalmente
ahorró tiempo, recursos y dinero a la aseguradora.
■ Lee et al. introdujo un marco para incorporar datos textuales en el modelado de
reclamos de seguros y consideró sus aplicaciones en los procesos de gestión de
reclamos. Exploraron el uso de similitudes de palabras como una herramienta
incorporada en un análisis de regresión tradicional para modelar reclamaciones de
seguros y mitigar los riesgos de seguros.
57
Ejemplos de seguros
■ Entonces, ¿cómo puede el PNL impulsar el desempeño del mercado de seguros? Pasemos
de la teoría a la práctica y echemos un vistazo a algunas implementaciones de la vida real:
■ Lemonade. Probablemente han oído hablar de esta startup, que opera solo en línea y
fundada por personas del mundo de TI sin experiencia en seguros. Según la declaración de
Lemonade, puede obtener una nueva póliza en 3 minutos y recibir un pago 1,5 minutos
después de la presentación de un reclamo (su bot tiene un registro de 3 segundos dedicados
a revisar y pagar la pérdida).
■ ReacFin. Esta consultora con sede en Bélgica con raíces actuariales usó NLP para desarrollar
una herramienta para la francesa CCR Re, que transforma datos digitales y de imágenes de
tratados de reaseguro no estructurados en un conjunto de datos estructurados (límites,
referencias de Lloyds, exclusiones, etc.).
■ Gamalon. Una plataforma de IA de lenguaje natural enfocada en la comunicación
automatizada con los clientes, el análisis de sus tickets de soporte y los comentarios de las
encuestas abiertas.
58
Ejemplos de seguros
59
Ejemplos de seguros
60