2 Análisis de Textos

ANÁLISIS DE TEXTOS
https://stephanievazquezg.com/
Objetivo
■ Conocer qué es el análisis de textos, sus diferentes métodos y técnicas y la

aplicación de cada una de ellas en el ámbito profesional de la actuaría.
2
Contenido
■ ¿Qué es el análisis de texto?
■ Análisis de texto VS Minería de texto VS Text analytics
■ ¿Por qué es importante el análisis de texto?
■ Métodos y técnicas de análisis de textos
– Clasificación de texto
■ Análisis de sentimientos
■ Análisis de tópicos
■ Detección de intención
– Extracción de texto
■ Extracción de palabras clave
■ Reconocimiento de entidades
– Frecuencia de palabra
– Colocación
3
Contenido
– Concordancia
– Desambiguación del sentido de las palabras
– Agrupación (clustering)
■ ¿Cómo funciona el análisis de texto?
■ Cómo analizar datos de texto
– Recopilación de datos
– Preparación de datos
■ Tokenización, etiquetado de parte del discurso y parseo
■ Lematización y Stemming
■ Eliminación de palabras vacías (stop words)
■ Analizando datos de texto
■ Sistemas basados en reglas
■ Sistemas basados en aprendizaje automático
4
Contenido
■ Sistemas híbridos
■ Evaluación
■ Expresiones regulares
■ Campos aleatorios condicionales (CRF)
■ Evaluación
■ Aplicaciones y ejemplos de análisis de texto
■ Aplicación del procesamiento del lenguaje natural en la ciencia actuarial
■ Ejemplos de seguros
5
¿QUÉ ES EL ANÁLISIS
DE TEXTO?
6
¿Qué es el análisis de texto?
■ El análisis de texto es una técnica de aprendizaje automático que se utiliza para

extraer automáticamente información valiosa de datos de texto no estructurados.
Las empresas utilizan herramientas de análisis de texto para digerir rápidamente
los datos y documentos en línea y transformarlos en información procesable.
■ Puede usar el análisis de texto para extraer información específica, como palabras
clave, nombres o información de la empresa de miles de correos electrónicos, o
categorizar las respuestas de la encuesta por sentimiento y tema.
7
Análisis de texto
8
Análisis de texto VS Minería de texto VS Text
analytics
■ Los términos a menudo se usan indistintamente para explicar el mismo proceso de
obtención de datos a través del aprendizaje de patrones estadísticos.
■ El análisis de texto ofrece resultados cualitativos y el text analytics ofrece resultados
cuantitativos. Si una máquina realiza un análisis de texto, identifica información
importante dentro del propio texto, pero si realiza text analytics, revela patrones en
miles de textos, lo que da como resultado gráficos, informes, tablas, etc.
■ Supongamos que un gerente de atención al cliente quiere saber cuántos tickets de
soporte resolvieron los miembros individuales del equipo. En este caso, usarían text
analytics para crear un gráfico que visualice las tasas de resolución de tickets
individuales.
9
Análisis de texto VS Minería de texto VS
Text analytics
■ Sin embargo, es probable que el gerente también quiera saber qué proporción de
tickets resultó en un resultado positivo o negativo.
■ Al analizar el texto dentro de cada ticket y los intercambios posteriores, los gerentes
de atención al cliente pueden ver cómo cada agente manejó los tickets y si los
clientes estaban satisfechos con el resultado.
■ Básicamente, el desafío en el análisis de texto es decodificar la ambigüedad del
lenguaje humano, mientras que en el text analytics es detectar patrones y
tendencias a partir de los resultados numéricos.
10
¿Por qué es importante el análisis de
texto?
■ Cuando pone a las máquinas a trabajar para organizar y analizar sus datos de texto, la información y los
beneficios son enormes.
■ Echemos un vistazo a algunas de las ventajas del análisis de texto, a continuación.
■ El análisis de texto es escalable
– Las herramientas de análisis de texto permiten a las empresas estructurar grandes cantidades de
información, como correos electrónicos, chats, redes sociales, tickets de soporte, documentos, etc., en
segundos en lugar de días, para que pueda redirigir recursos adicionales a tareas comerciales más
importantes.
■ Podemos analizar texto en tiempo real
– El análisis de texto cambia las reglas del juego cuando se trata de detectar asuntos urgentes,
dondequiera que aparezcan, las 24 horas del día, los 7 días de la semana y en tiempo real. Al entrenar
modelos de análisis de texto para detectar expresiones y sentimientos que implican negatividad o
urgencia, las empresas pueden marcar automáticamente tweets, reseñas, videos, tickets y similares, y
tomar medidas más temprano que tarde.
11
¿Por qué es importante el análisis de
texto?
■ El análisis de texto basado en AI ofrece criterios consistentes
– Los humanos cometemos errores. Hecho. Y cuanto más tediosa y lenta es una tarea, más errores
cometen. Al entrenar los modelos de análisis de texto según sus necesidades y criterios, los algoritmos
pueden analizar, comprender y clasificar los datos con mucha más precisión que los humanos.
12
MÉTODOS Y TÉCNICAS
DE ANÁLISIS DE TEXTO
13
Métodos y técnicas de análisis de texto
■ Existen técnicas de análisis de texto básicas y más avanzadas, cada una utilizada
para diferentes propósitos. Primero, aprenderemos sobre las técnicas de análisis de
texto más simples y ejemplos de cuándo podría usar cada una.
– Frecuencia de palabra
– Colocación
– Concordancia
– Desambiguación del sentido de las palabras
– Agrupación (clustering)
14
Clasificación de texto
■ La clasificación de texto es el proceso de asignar etiquetas o categorías

predefinidas a texto no estructurado.
■ El procesamiento del lenguaje natural (NLP) es una técnica de aprendizaje
automático que permite a las computadoras desglosar y comprender el texto como
lo haría un humano.
■ A continuación, nos centraremos en algunas de las tareas de clasificación de texto
más comunes, que incluyen el análisis de sentimientos, el modelado de tópicos, la
detección de idiomas y la detección de intenciones.
15
Análisis de sentimientos
■ El análisis de sentimientos utiliza potentes algoritmos de aprendizaje automático

para leer y clasificar automáticamente según la polaridad de opinión (positiva,
negativa, neutral) y más allá, en los sentimientos y emociones del escritor, incluso el
contexto y el sarcasmo.
■ Por ejemplo, al utilizar el análisis de sentimientos, las empresas pueden señalar
quejas o solicitudes urgentes, para que puedan ser atendidas de inmediato, incluso
evitar una crisis de relaciones públicas en las redes sociales.
■ Los clasificadores de opinión pueden evaluar la reputación de la marca, realizar
estudios de mercado y ayudar a mejorar los productos con los comentarios de los
clientes.
16
Análisis de tópicos
■ Otro ejemplo común de clasificación de texto es el análisis de tópicos (o modelado

de tópicos) que organiza automáticamente el texto por asunto o tema. Por ejemplo:
“La aplicación es realmente simple y fácil de usar”
■ Si usamos categorías de temas, como Precios, Atención al cliente y Facilidad de
uso, los comentarios de este producto se clasificarían como Facilidad de uso.
17
Detección de intención
■ Los clasificadores de texto también se pueden usar para detectar la intención de un
texto.
■ La detección de intenciones o la clasificación de intenciones se usa a menudo para
comprender automáticamente el motivo detrás de los comentarios de los clientes.
¿Es una queja? ¿O es un cliente que escribe con la intención de comprar un
producto?
■ El aprendizaje automático puede leer conversaciones de chatbot o correos
electrónicos y enrutarlos automáticamente al departamento o empleado adecuado.
18
Extracción de texto
■ La extracción de texto es otra técnica de análisis de texto ampliamente utilizada que

extrae piezas de datos que ya existen dentro de un texto determinado.
■ Puede extraer cosas como palabras clave, precios, nombres de empresas y
especificaciones de productos de informes de noticias, reseñas de productos y más.
■ Puede llenar hojas de cálculo automáticamente con estos datos o realizar la
extracción junto con otras técnicas de análisis de texto para categorizar y extraer
datos al mismo tiempo.
19
Extracción de palabras clave
■ Las palabras clave son los términos más utilizados y más relevantes dentro de un
texto, palabras y frases que resumen el contenido del texto. Se puede usar para
indexar datos que se van a buscar y generar nubes de palabras (una representación
visual de datos de texto).
20
Reconocimiento de entidades
■ Un extractor de reconocimiento de entidades con nombre (NER) encuentra

entidades, que pueden ser personas, empresas o ubicaciones y existen dentro de
los datos de texto. Los resultados se muestran etiquetados con la etiqueta de
entidad correspondiente.
21
Frecuencia de palabra
■ La frecuencia de palabras es una técnica de análisis de texto que mide las palabras
o conceptos que aparecen con mayor frecuencia en un texto determinado utilizando
la estadística numérica TF-IDF (frecuencia de término-frecuencia de documento
inversa).Puede aplicar esta técnica para analizar las palabras o expresiones que los
clientes usan con más frecuencia en las conversaciones de soporte. Por ejemplo, si
la palabra "entrega" aparece con mayor frecuencia en un conjunto de tickets de
soporte negativos, esto podría sugerir que los clientes no están satisfechos con su
servicio de entrega.
22
Colocación
■ La colocación ayuda a identificar palabras que comúnmente se encuentran juntas.
Por ejemplo, en las reseñas de los clientes en un sitio web de reservas de hotel, es
más probable que las palabras "aire" y "acondicionado" aparezcan juntas en lugar
de aparecer individualmente. Los bigramas (dos palabras adyacentes, por ejemplo,
'aire acondicionado' o ‘primeros auxilios') y los trigramas (tres palabras adyacentes,
por ejemplo, 'fuera del trabajo' o ‘ciencia de datos') son los tipos de colocación más
comunes que deberá tener en cuenta .
■ La colocación puede ser útil para identificar estructuras semánticas ocultas y
mejorar la granularidad de las ideas al contar bigramas y trigramas como una sola
palabra.
23
Concordancia
■ La concordancia ayuda a identificar el contexto y las instancias de palabras o un

conjunto de palabras. Por ejemplo, la siguiente es la concordancia de la palabra
“simple” en un conjunto de reseñas de aplicaciones:
24
Concordancia
■ En este caso, la concordancia de la palabra "simple" puede darnos una idea rápida
de cómo los revisores usan esta palabra. También se puede utilizar para decodificar
la ambigüedad del lenguaje humano hasta cierto punto, al observar cómo se usan
las palabras en diferentes contextos, además de poder analizar frases más
complejas.
25
Desambiguación del sentido de las
palabras
■ Es muy común que una palabra tenga más de un significado, razón por la cual la
desambiguación del sentido de las palabras es un gran desafío para el
procesamiento del lenguaje natural. Tome la palabra ‘light' por ejemplo. ¿El texto se
refiere al peso, al color o a un aparato eléctrico? El análisis de texto inteligente con
desambiguación de sentido de palabra puede diferenciar palabras que tienen más
de un significado, pero solo después de entrenar modelos para hacerlo.
26
Agrupación (Clustering)
■ Los clústeres de texto pueden comprender y agrupar grandes cantidades de datos

no estructurados. Aunque son menos precisos que los algoritmos de clasificación,
los algoritmos de agrupamiento son más rápidos de implementar porque no es
necesario etiquetar ejemplos para entrenar modelos.
■ Google es un gran ejemplo de cómo funciona la agrupación. Cuando buscamos un
término en Google, ¿alguna vez se han preguntado cómo tarda solo unos segundos
en obtener resultados relevantes? El algoritmo de Google descompone los datos no
estructurados de las páginas web y agrupa las páginas en grupos en torno a un
conjunto de palabras o n-gramas similares (todas las combinaciones posibles de
palabras o letras adyacentes en un texto).
27
¿CÓMO FUNCIONA EL
ANÁLISIS DE TEXTO?
28
¿Cómo funciona el análisis de texto?
■ Para comprender cómo funciona el análisis de texto automatizado, debe

comprender los conceptos básicos del aprendizaje automático. Comencemos con
esta definición de Machine Learning de Tom Mitchell:
"Se dice que un programa de computadora aprende a realizar una tarea T a partir
de la experiencia E".
■ En otras palabras, si queremos que el software de análisis de texto realice las
tareas deseadas, debemos enseñar a los algoritmos de aprendizaje automático
cómo analizar, comprender y derivar el significado del texto. ¿Pero cómo?
■ La respuesta simple es etiquetando ejemplos de texto.
29
¿Cómo funciona el análisis de texto?
■ Es muy similar a la forma en que los humanos aprenden a diferenciar entre temas,
objetos y emociones. Digamos que tenemos problemas urgentes y de baja prioridad
que tratar. No sabemos instintivamente la diferencia entre ellos, aprendemos
gradualmente asociando la urgencia con ciertas expresiones.
■ Por ejemplo, cuando queremos identificar problemas urgentes, buscamos
expresiones como '¡por favor, ayúdenme lo antes posible!' o 'urgente: no puedo
entrar a la plataforma, ¡¡el sistema está CAÍDO!!’.
■ Por otro lado, para identificar problemas de baja prioridad, buscaríamos
expresiones más positivas como '¡gracias por la ayuda! Realmente lo aprecio' o 'la
nueva característica funciona como un sueño'.
30
CÓMO ANALIZAR DATOS
DE TEXTO
31
Cómo analizar datos de texto
■ El análisis de texto puede aplicar la IA a través de una variedad de textos según los
resultados que desee. Se puede aplicar a:
– Documentos completos: obtiene información de un documento o párrafo
completo: por ejemplo, el sentimiento general de una reseña de un cliente.
– Oraciones individuales: obtiene información de oraciones específicas: por
ejemplo, sentimientos más detallados de cada oración de una reseña de un
cliente.
– Sub-frases: obtiene información de las sub-expresiones dentro de una oración:
por ejemplo, los sentimientos subyacentes de cada unidad de opinión de una
reseña de un cliente.
32
Recopilación de datos
■ Puede recopilar datos sobre su marca, producto o servicio de fuentes internas y

externas:
– Datos internos: Estos son los datos que se generan todos los días, desde
correos electrónicos y chats, hasta encuestas, consultas de clientes y tickets
de atención al cliente. Solo se necesita exportarlo desde su software o
plataforma como un archivo CSV o Excel, o conectar una API para recuperarlo
directamente.
– Datos externos: Estos son datos de texto sobre una marca o productos de toda
la web. Puede usar herramientas de recuperación en web, API y conjuntos de
datos abiertos para recopilar datos externos de redes sociales, informes de
noticias, reseñas en línea, foros y más, y analizarlos con modelos de
aprendizaje automático.
33
Preparación de datos
■ Para analizar automáticamente el texto con el aprendizaje automático, se deberá

organizar los datos. La mayor parte de esto se hace automáticamente, y ni siquiera
se notará que está sucediendo. Sin embargo, es importante comprender que el
análisis automático de texto utiliza una serie de técnicas de procesamiento del
lenguaje natural (PNL) como las siguientes.
– Tokenización, etiquetado de parte del discurso y parseo.
– Lematización y Stemming
– Eliminación de palabras vacías (stop words)
34
Tokenización, etiquetado de parte del
discurso y parseo.
■ Tokenización:
(Incorrecto): Analyzing text is not that hard. = [“Analyz”, “ing text”, “is n”, “ot that”,
“hard.”]
(Correcto): Analyzing text is not that hard. = [“Analyzing”, “text”, “is”, “not”, “that”,
“hard”, “.”]
■ Etiquetado POS:
“Analyzing”: VERBO, “text”: SUST, “is”: VERBO, “not”: ADV, “that”: ADV,
“hard”: ADJ, “.”: PUNCT
■ Parseo: Proceso de determinar la estructura sintáctica de un texto. Para
hacer esto, el algoritmo de análisis hace uso de una gramática del idioma
en el que se ha escrito el texto.
35
discurso y parseo.
36
discurso y parseo
37
Lematización y Stemming
■ Tanto la lematización como el stemming se refieren al proceso de eliminar todos los

afijos (es decir, sufijos, prefijos, etc.) adjuntos a una palabra para mantener su base
léxica, también conocida como raíz o tallo o su forma de diccionario o lema.
■ La principal diferencia entre estos dos procesos es que el stemming suele basarse
en reglas que recortan los principios y finales de las palabras (y, en ocasiones,
conducen a resultados un tanto extraños), mientras que la lematización utiliza
diccionarios y un análisis morfológico mucho más complejo.
38
Eliminación de palabras vacías (stop words)
■ Para proporcionar un análisis automatizado más preciso del texto, debemos

eliminar las palabras que brindan muy poca información semántica o ningún
significado. Estas palabras también se conocen como palabras vacías: un, y, o, el,
etc.
■ Es posible que desee realizar algún tipo de análisis léxico del dominio del que
provienen sus textos para determinar las palabras que deben agregarse a la lista de
palabras vacías.
39
ANALIZANDO DATOS DE
TEXTO
40
Analizando datos de texto
■ Ahora que se ha aprendido cómo extraer datos de texto no estructurados y los

conceptos básicos de la preparación de datos, ¿cómo analiza todo este texto?
■ El análisis del texto no estructurado no es sencillo. Existen innumerables métodos
de análisis de texto, pero dos de las tareas principales son la clasificación de texto y
la extracción de texto.
41
Clasificación de texto
■ La clasificación de texto (también conocida como categorización de texto o

etiquetado de texto) se refiere al proceso de asignación de etiquetas a textos en
función de su contenido.
■ En el pasado, la clasificación de texto se realizaba manualmente, lo que requería
mucho tiempo, era ineficiente e impreciso. Pero los modelos de análisis de texto de
aprendizaje automático a menudo funcionan en solo segundos con una precisión
insuperable.
■ Las tareas de clasificación de texto más populares incluyen análisis de
sentimientos, análisis de tópicos y detección de intenciones, entre otras, pero hay
muchísimas más aplicaciones que son interesantes.
■ A continuación revisaremos los principales métodos para clasificación de textos.
42
Sistemas basados en reglas
■ En la clasificación de texto, una regla es esencialmente una asociación hecha por

humanos entre un patrón lingüístico que se puede encontrar en un texto y una etiqueta.
Las reglas suelen consistir en referencias a patrones morfológicos, léxicos o sintácticos,
pero también pueden contener referencias a otros componentes del lenguaje, como la
semántica o la fonología.
■ Aquí hay un ejemplo de una regla simple para clasificar las descripciones de productos
según el tipo de producto descrito en el texto:
(HDD|RAM|SSD|Memoria) → Hardware
■ En este caso, el sistema asignará la etiqueta Hardware a aquellos textos que contengan
las palabras HDD, RAM, SSD o Memoria.
43
Sistemas basados en aprendizaje
automático
■ Los sistemas basados en aprendizaje automático pueden hacer predicciones
basadas en lo que aprenden de observaciones anteriores. Estos sistemas necesitan
recibir múltiples ejemplos de textos y las predicciones esperadas (etiquetas) para
cada uno.
■ Cuando se entrena un clasificador basado en aprendizaje automático, los datos de
entrenamiento deben transformarse en algo que una máquina pueda entender, es
decir, vectores (listas de números que codifican información).
■ Mediante el uso de vectores, el sistema puede extraer características relevantes
(piezas de información) que lo ayudarán a aprender de los datos existentes y hacer
predicciones sobre los textos venideros.
44
automático
■ Hay varias formas de hacer esto, pero una de las más utilizadas se llama
vectorización de bolsa de palabras.
45
automático
■ El modelo entrenado transformará el texto no visto en un vector, extraerá sus
características relevantes y hará una predicción:
■ Hay muchos algoritmos de aprendizaje automático que se utilizan en la clasificación de

texto. Los más utilizados son la familia de algoritmos Naive Bayes (NB), Support Vector
Machines (SVM) y algoritmos de aprendizaje profundo.
46
Sistemas Híbridos
■ Los sistemas híbridos suelen contener sistemas basados en aprendizaje automático

en su núcleo y sistemas basados en reglas para mejorar las predicciones.
47
Evaluación
■ El rendimiento del clasificador generalmente se evalúa a través de métricas
estándar utilizadas en el campo del aprendizaje automático: exactitud (accuracy),
precisión (presicion), recuperación (recall) y puntaje F1 (F1 score).
■ La validación cruzada se usa con bastante frecuencia para evaluar el rendimiento
de los clasificadores de texto. En primer lugar, el conjunto de datos de
entrenamiento se divide aleatoriamente en varios subconjuntos de igual longitud
(por ejemplo, 4 subconjuntos con el 25 % de los datos originales cada uno). Luego,
todos los subconjuntos excepto uno se usan para entrenar un clasificador (en este
caso, 3 subconjuntos con el 75% de los datos originales) y este clasificador se usa
para predecir los textos en el subconjunto restante. A continuación, se calculan
todas las métricas de rendimiento (es decir, exactitud, precisión, recuperación, F1,
etc.). Finalmente, el proceso se repite con un nuevo pliegue de prueba hasta que
todos los lotes se hayan utilizado para propósitos de prueba.
■ Una vez que se han utilizado todos los subconjuntos, se calculan las métricas de
rendimiento promedio y finaliza el proceso de evaluación.
48
Extracción de texto
■ La extracción de texto se refiere al proceso de reconocer piezas estructuradas de

información a partir de texto no estructurado.
■ Por ejemplo, puede ser útil para detectar automáticamente las palabras clave más
relevantes de un texto, identificar nombres de empresas en un artículo de noticias,
detectar arrendadores y arrendatarios en un contrato financiero o identificar precios
en descripciones de productos.
■ A continuación revisaremos dos métodos para extracción de texto.
49
Expresiones regulares
■ Las expresiones regulares (también conocidas como regex) funcionan como el

equivalente de las reglas definidas en las tareas de clasificación. En este caso, una
expresión regular define un patrón de caracteres que se asociará con una etiqueta.
■ Por ejemplo, el siguiente patrón detectará la mayoría de las direcciones de correo
electrónico en un texto si van precedidas y seguidas de espacios:
(?i)\b(?:[a-zA-Z0-9_-.]+)@(?:(?:[[0-9]{1,3}.[0-9]{1,3 }.[0-9]{1,3}.)|(?:(?:[a-zA-Z0-9-
]+.)+))(?:[a-zA-Z]{2, 4}|[0-9]{1,3})(?:]?)\b
50
Campos aleatorios condicionales
■ Los campos aleatorios condicionales (CRF) son un enfoque estadístico que se usa a
menudo en la extracción de texto basada en el aprendizaje automático. Este
enfoque aprende los patrones que se extraerán al sopesar un conjunto de
características de las secuencias de palabras que aparecen en un texto.
■ Los campos aleatorios condicionales son un modelo discriminativo, utilizado para
predecir secuencias. Utilizan información contextual de etiquetas anteriores, lo que
aumenta la cantidad de información que el modelo tiene para hacer una buena
predicción.
51
Evaluación
■ Los extractores a veces se evalúan calculando las mismas métricas de rendimiento

estándar que hemos explicado anteriormente para la clasificación de texto, a saber,
exactitud (accuracy), precisión (presicion), recuperación (recall) y puntaje F1 (F1
score).
■ Sin embargo, estas métricas no tienen en cuenta las coincidencias parciales de
patrones. Para que un segmento extraído sea un verdadero positivo para una
etiqueta, tiene que ser una combinación perfecta con el segmento que se suponía
que debía extraerse.
52
APLICACIONES Y
EJEMPLOS DE ANÁLISIS
DE TEXTO
53
Aplicaciones y ejemplos de análisis de
texto
■ ¿Sabían que el 80% de los datos comerciales son texto? El texto está presente en
todos los procesos comerciales importantes, desde tickets de soporte hasta
comentarios sobre productos e interacciones en línea con los clientes.
■ El análisis de texto automatizado en tiempo real puede ayudar a controlar todos
esos datos con una amplia gama de aplicaciones comerciales y casos de uso.
■ Maximizar la eficiencia y reduzca las tareas repetitivas que a menudo tienen un alto
impacto en la rotación. Comprender mejor los requerimientos de los clientes sin
tener que revisar millones de publicaciones en redes sociales, reseñas en línea y
respuestas a encuestas.
54
Aplicaciones y ejemplos de análisis de
texto
■ Monitoreo de redes sociales Tickets Urgentes
■ Monitoreo de marca ■ Voz del cliente (VoC) y comentarios del
cliente
■ Servicio al Cliente
– Análisis de las respuestas de NPS (Net
– Etiquetado de tickets Promoter Score)
– Enrutamiento y triaje de tickets: – Análisis de encuestas de clientes
encuentre a la persona adecuada para
el trabajo ■ Inteligencia de Negocio
– Análisis de tickets: aprenda más de ■ Ventas y marketing
sus clientes
■ Análisis de productos
– Detección de Urgencias: Priorizar
55
Aplicación del procesamiento del
lenguaje natural en la ciencia actuarial
■ Las compañías de seguros tienen un largo historial de recopilación y
almacenamiento de terabytes de datos, pero aún no han desbloqueado por
completo los beneficios potenciales de las abundantes reservas de datos de texto.
■ Según diversos estudios, tenemos más datos de texto que datos numéricos
estructurados.
■ El PLN juega un papel fundamental en la extracción de datos estructurados,
semiestructurados y no estructurados de documentos de texto en formatos
utilizables para su posterior análisis.
56
Aplicación del procesamiento del
lenguaje natural en la ciencia actuarial
■ Liao et al. analizó la información de las llamadas de los clientes utilizando
metodologías tradicionales de minería de texto y técnicas de clasificación para
clasificar las llamadas y procesarlas de manera más eficiente, lo que finalmente
ahorró tiempo, recursos y dinero a la aseguradora.
■ Lee et al. introdujo un marco para incorporar datos textuales en el modelado de
reclamos de seguros y consideró sus aplicaciones en los procesos de gestión de
reclamos. Exploraron el uso de similitudes de palabras como una herramienta
incorporada en un análisis de regresión tradicional para modelar reclamaciones de
seguros y mitigar los riesgos de seguros.
57
Ejemplos de seguros
■ Entonces, ¿cómo puede el PNL impulsar el desempeño del mercado de seguros? Pasemos
de la teoría a la práctica y echemos un vistazo a algunas implementaciones de la vida real:
■ Lemonade. Probablemente han oído hablar de esta startup, que opera solo en línea y
fundada por personas del mundo de TI sin experiencia en seguros. Según la declaración de
Lemonade, puede obtener una nueva póliza en 3 minutos y recibir un pago 1,5 minutos
después de la presentación de un reclamo (su bot tiene un registro de 3 segundos dedicados
a revisar y pagar la pérdida).
■ ReacFin. Esta consultora con sede en Bélgica con raíces actuariales usó NLP para desarrollar
una herramienta para la francesa CCR Re, que transforma datos digitales y de imágenes de
tratados de reaseguro no estructurados en un conjunto de datos estructurados (límites,
referencias de Lloyds, exclusiones, etc.).
■ Gamalon. Una plataforma de IA de lenguaje natural enfocada en la comunicación
automatizada con los clientes, el análisis de sus tickets de soporte y los comentarios de las
encuestas abiertas.
58
Ejemplos de seguros
■ Health Fidelity. Produce herramientas de ajuste de riesgos para aseguradoras, entrenadas

con miles de documentos médicos y reclamos de seguros de salud. Estos últimos tienen una
bandera que muestra si un reclamo fue fraudulento o no, lo que ayuda a las aseguradoras a
determinar el fraude entre sus propios clientes.
■ Accenture. Esta consultoría desarrolló un producto de software llamado Machine Learning
Text Analyzer (MALTA). Promete profundizar en todo el texto entrante que recibe una
aseguradora a través de varios canales (correos electrónicos, chats, tickets de recursos
humanos, formularios de soporte, etc.), analizarlo, clasificarlo y desencadenar procesos
específicos configurados para un tema en particular o dirigir el flujo de datos a el agente
correcto.
59
Ejemplos de seguros
■ Taiger. Creó un asistente virtual para encargarse de la incorporación de clientes

(incluida la elección de políticas y el reconocimiento de documentos cargados) y el
manejo de reclamos (incluido el reconocimiento de formularios de solicitud de
reclamos y la extracción de información importante de ellos). La compañía afirma
que se logró una reducción del 75% de los costos totales después de la
implementación de su herramienta en "uno de los proveedores de seguros más
grandes de Europa".
■ El NLP puede ser de ayuda en la detección de siniestros potencialmente
susceptibles de subrogación, el análisis de redes sociales para obtener información
temprana sobre los siniestros de la cartera de la compañía (especialmente útil para
seguros corporativos) y muchas otras tareas que involucran varias formas de texto
como objeto de análisis.
60

2 Análisis de Textos

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

2 Análisis de Textos

Cargado por

Copyright:

Formatos disponibles

ANÁLISIS DE TEXTOS

■ Conocer qué es el análisis de textos, sus diferentes métodos y técnicas y la

■ El análisis de texto es una técnica de aprendizaje automático que se utiliza para

■ La clasificación de texto es el proceso de asignar etiquetas o categorías

■ El análisis de sentimientos utiliza potentes algoritmos de aprendizaje automático

■ Otro ejemplo común de clasificación de texto es el análisis de tópicos (o modelado

■ La extracción de texto es otra técnica de análisis de texto ampliamente utilizada que

■ Un extractor de reconocimiento de entidades con nombre (NER) encuentra

■ La concordancia ayuda a identificar el contexto y las instancias de palabras o un

■ Los clústeres de texto pueden comprender y agrupar grandes cantidades de datos

■ Para comprender cómo funciona el análisis de texto automatizado, debe

■ Puede recopilar datos sobre su marca, producto o servicio de fuentes internas y

■ Para analizar automáticamente el texto con el aprendizaje automático, se deberá

■ Tanto la lematización como el stemming se refieren al proceso de eliminar todos los

■ Para proporcionar un análisis automatizado más preciso del texto, debemos

■ Ahora que se ha aprendido cómo extraer datos de texto no estructurados y los

■ La clasificación de texto (también conocida como categorización de texto o

■ En la clasificación de texto, una regla es esencialmente una asociación hecha por

■ Hay muchos algoritmos de aprendizaje automático que se utilizan en la clasificación de

■ Los sistemas híbridos suelen contener sistemas basados en aprendizaje automático

■ La extracción de texto se refiere al proceso de reconocer piezas estructuradas de

■ Las expresiones regulares (también conocidas como regex) funcionan como el

■ Los extractores a veces se evalúan calculando las mismas métricas de rendimiento

■ Health Fidelity. Produce herramientas de ajuste de riesgos para aseguradoras, entrenadas

■ Taiger. Creó un asistente virtual para encargarse de la incorporación de clientes

También podría gustarte