Minería de Datos, Textos, Sentimientos y Su Aplicación

Instituto
Tecnológico de
Orizaba
Minería de datos, minería de textos, minería de
sentimientos y su aplicación.
Raúl García Mc
4-6-2023
Instituto Tecnológico de Orizaba | Raúl Alejandro García Macarty
Índice
Contenido
Índice ................................................................................................................................................... 1
Minería de datos, textos, sentimientos y su aplicación. ..................................................................... 2
RESUMEN ........................................................................................................................................ 2
INTRODUCCIÓN ............................................................................................................................... 2
MINERÍA DE DATOS ......................................................................................................................... 3
¿Qué es y qué no es minería de datos? ...................................................................................... 3
¿Por qué la Minería de Datos? .................................................................................................... 7
¿Cómo extraer los datos?............................................................................................................ 8
MINERÍA DE TEXTOS ...................................................................................................................... 10
Definición de minería de texto .................................................................................................. 10
¿Datos estructurados o no estructurados? ............................................................................... 11
¿Qué tipos de problemas se pueden resolver?......................................................................... 12
Extracción de información ........................................................................................................ 13
Minería de Sentimientos ............................................................................................................... 13
¿Qué es la minería de sentimientos? ........................................................................................ 13
Aplicaciones de análisis de sentimiento.................................................................................... 14
Métodos de análisis de sentimiento ......................................................................................... 15
CONCLUSIONES. ............................................................................................................................ 17
AGRADECIMIENTOS....................................................................................................................... 18
REFERENCIAS. ................................................................................................................................ 20
1
Minería de datos, textos, sentimientos y su aplicación.
RESUMEN
La Minería de Datos es como un detective digital que busca pistas en enormes
conjuntos de información. Su objetivo es encontrar patrones ocultos y
conocimientos valiosos en los datos. Por otro lado, la Minería de Textos se enfoca
en entender qué dicen realmente todos esos documentos que tenemos
almacenados. Es como tener un lector experto que puede resumir libros en
segundos.
Y luego tenemos la Minería de Sentimientos, que es un poco como leer entre líneas.
Se dedica a descubrir cómo se sienten las personas en base a lo que escriben en
internet. Puede decirnos si están felices, enojadas, o simplemente indiferentes, lo
cual es súper útil para entender lo que la gente piensa.
La Minería de Datos puede ayudar a las empresas a descubrir qué productos son
más populares y por qué. Es como tener una bola de cristal para tomar decisiones
más acertadas.
La Minería de Textos puede hacer que las quejas y elogios de los clientes sean
mucho más comprensibles. Si tienes cientos de reseñas y correos electrónicos, esta
herramienta puede resumir todo eso en tendencias claras para que sepas qué
mejorar.
Y la Minería de Sentimientos es como tener un radar de emociones en internet. Las
empresas pueden saber en tiempo real si su última campaña está emocionando o
decepcionando a la gente, y eso es oro en la era de las redes sociales.
Así que, en definitiva, estas técnicas son como un equipo de superpoderes para la
administración. Ayudan a las empresas a entender a sus clientes, tomar decisiones
más inteligentes y mantenerse en sintonía con lo que la gente está pensando y
sintiendo.
INTRODUCCIÓN
La Minería de Datos se adentra en un mundo lleno de información para encontrar
gemas ocultas. Los datos son como piezas de un rompecabezas gigante, y la
Minería de Datos es la herramienta que nos ayuda a ensamblarlas. En esencia, esta
disciplina utiliza métodos avanzados para explorar conjuntos masivos de datos con
el objetivo de descubrir patrones, relaciones y conocimientos que a simple vista
podrían pasar desapercibidos. Estos descubrimientos pueden revelar tendencias
del mercado, preferencias de los clientes e indicadores de ventas, brindando a las
2
empresas una ventaja estratégica al tomar decisiones informadas y bien

fundamentadas.
En un mundo inundado de palabras, la Minería de Textos actúa como un intérprete
inteligente. Cada artículo, libro o correo electrónico es un cofre de palabras, y la
Minería de Textos es la llave que desbloquea su significado. Esta rama se vale de
algoritmos lingüísticos y análisis de contenido para extraer información valiosa de
textos escritos. Puede resumir extensos documentos, identificar temas dominantes,
clasificar documentos según su contenido y mucho más. En el ámbito empresarial,
la Minería de Textos desempeña un papel fundamental al ayudar a comprender la
opinión de los clientes, evaluar retroalimentación y ajustar estrategias en función de
las narrativas detectadas.
La Minería de Sentimientos se sumerge en el vasto océano de interacciones en
línea para desentrañar cómo se sienten las personas. En una era donde las redes
sociales, las reseñas de productos y los comentarios en línea son una parte integral
de la comunicación. A través del análisis de lenguaje natural y técnicas de
aprendizaje automático, puede identificar si un comentario transmite positividad,
negatividad o neutralidad. Este tipo de análisis es inmensamente valioso para las
empresas, ya que les permite entender en tiempo real cómo reacciona la gente a
sus productos, servicios o campañas de marketing. La Minería de Sentimientos
brinda una ventana hacia la percepción pública, permitiendo una adaptación más
ágil y una gestión proactiva de la imagen en línea.
Estas tres disciplinas, Minería de Datos, Minería de Textos y Minería de
Sentimientos, actúan como modernos exploradores de la información, revelando los
secretos que yacen en los datos, las palabras y las emociones digitales. Cada una
contribuye con un conjunto único de habilidades que ayuda a las empresas a tomar
decisiones más precisas y a navegar con éxito por el vasto universo de la
información en la era digital.
MINERÍA DE DATOS
¿Qué es y qué no es minería de datos?
El objetivo de la minería de datos es dar sentido a grandes cantidades de datos en
su mayoría no supervisados, en algún dominio [1].
En la definición previa, el término primordial es "dar sentido", el cual posee diversos
significados en función de la experiencia del usuario. Con el propósito de dar
sentido, imaginamos que este nuevo conocimiento debería mostrar una serie de
atributos esenciales: debe ser comprensible, válido, innovador y útil. Posiblemente,
el requisito más crucial es que el nuevo conocimiento descubierto debe resultar
inteligible para los dueños de los datos que desean emplearlo en su beneficio.
3
Otro término fundamental dentro de la definición es "grandes cantidades de datos".

La minería de datos no se enfoca en analizar conjuntos de datos pequeños que
puedan ser tratados de manera sencilla mediante diversas técnicas convencionales,
ni siquiera con intervención manual. Para brindar una perspectiva sobre la escala
de los datos que se están recopilando y que resultan idóneos para la minería de
datos, consideremos los ejemplos siguientes. AT&T, por ejemplo, gestiona más de
300 millones de llamadas al día para servir a unos 100 millones de clientes y
almacena toda esa información en una base de datos de varios terabytes. Wal-Mart,
en su totalidad de tiendas, maneja aproximadamente 21 millones de transacciones
diarias y guarda esos detalles en una base de datos de alrededor de una docena de
terabytes. Por su parte, la NASA genera varios gigabytes de datos por hora a través
de su Sistema de Observación de la Tierra. Compañías petroleras como Mobil Oil
almacenan cientos de terabytes de datos referentes a diversos aspectos de la
exploración de petróleo. En otro ámbito, el proyecto Sloan Digital Sky Survey
recopilará datos observacionales que alcanzan los 40 terabytes. En campos
modernos como la biología, proyectos como el genoma humano y el proteoma
generan datos medidos en terabytes y petabytes. Aunque no existen datos públicos
disponibles, el Departamento de Seguridad Nacional de los Estados Unidos está
acumulando petabytes de información acerca de sus propios ciudadanos y los de
otras naciones.
Resulta evidente que ninguna de las bases de datos previamente mencionadas
puede ser analizada de forma manual ni siquiera por los algoritmos más avanzados
en términos de velocidad y requerimientos de memoria. Esas enormes cantidades
de datos requieren necesariamente el empleo de técnicas de minería de datos para
reducir tanto su cantidad como su dimensionalidad.
La tercera palabra clave en la definición anterior es "datos en su mayoría no
supervisados". Es mucho más sencillo y económico recolectar datos no
supervisados que datos supervisados. La razón radica en que, con datos
supervisados, necesitamos tener entradas conocidas que correspondan a salidas
conocidas, según lo determinen los expertos en el campo. En nuestro ejemplo, las
imágenes de "entrada" se relacionan con el diagnóstico de "salida" de enfermedad
de las arterias coronarias (determinado por cardiólogos, un proceso costoso y
propenso a errores).
Entonces, ¿qué podemos hacer si solo se recopilan datos no supervisados? Para
enfrentar este desafío, uno de los más complejos en la minería de datos,
necesitamos utilizar algoritmos capaces de encontrar agrupaciones "naturales",
relaciones y asociaciones en los datos (ver Capítulos 9 y 10). Por ejemplo, si
podemos identificar agrupaciones, es posible que los expertos en el campo puedan
asignarles etiquetas. Si logramos ambos aspectos, nuestros datos no supervisados
4
pasan a ser supervisados, lo que simplifica considerablemente el problema. Sin

embargo, descubrir agrupaciones o relaciones naturales en los datos resulta
sumamente desafiante y sigue siendo un problema de investigación sin resolver. La
tarea de agrupamiento se complica aún más debido a que la mayoría de los
algoritmos de agrupamiento requieren que el usuario especifique de antemano (a
modo de estimación) el número de agrupaciones en los datos. De manera similar,
los algoritmos de minería de reglas de asociación demandan que el usuario
especifique parámetros para generar un número adecuado de asociaciones de alta
calidad.
La última palabra clave en la definición es "dominio". El éxito de los proyectos de
minería de datos depende en gran medida del acceso al conocimiento específico
del campo, por lo que es fundamental que los profesionales de la minería de datos
trabajen estrechamente con expertos en el área y propietarios de los datos.
Descubrir nuevos conocimientos a partir de los datos es un proceso que involucra
una interacción intensa y es iterativo. No podemos simplemente tomar un sistema
exitoso de minería de datos diseñado para cierto campo y aplicarlo a otro,
esperando obtener buenos resultados.
Desde la década de 1990, la noción de minería de datos, generalmente vista como
el proceso de "minar" los datos, ha surgido en muchos entornos, desde el ámbito
académico hasta el empresarial o actividades médicas, en particular. Como un área
de investigación con una historia no tan larga, y, por lo tanto, sin exceder la etapa
de "adolescencia" todavía, la minería de datos aún está en disputa por algunos
campos científicos. La minería de datos, también conocida como "descubrimiento
de conocimiento en bases de datos" (KDD), tiene tres raíces genéricas de las cuales
ha tomado prestadas las técnicas y la terminología. [2].
La necesidad de extraer información de los datos puede resumirse considerando
áreas de la vida cotidiana que requieren técnicas de investigación específicas:
• Economía (negocios y finanzas): Existe una gran cantidad de datos

recopilados en áreas como datos web, comercio electrónico, transacciones
financieras y bancarias, entre otros. Estos datos están listos para ser
analizados y tomar decisiones óptimas.
• Cuidado de la salud: En el ámbito médico y farmacéutico, hay varias bases
de datos que solo han sido analizadas parcialmente, principalmente con
herramientas médicas específicas. Estos recursos contienen mucha
información aún por explorar.
• Investigación científica: En campos como astronomía, meteorología, biología
y lingüística, se han acumulado grandes bases de datos a lo largo de los
5
años. Sin embargo, no se pueden explorar eficientemente utilizando métodos

tradicionales.
Dado que, por un lado, aún hay una gran cantidad de datos sin explorar de manera
sistemática y, por otro lado, tanto la potencia de cálculo como la ciencia de la
computación han experimentado un crecimiento asombroso, ha aumentado la
necesidad de utilizar nuevos métodos para desentrañar información que permanece
"escondida" en los datos. Es relevante mencionar que los datos albergan una
riqueza de información que es prácticamente imposible de descubrir mediante
enfoques tradicionales y confiando únicamente en la capacidad analítica de las
personas.
Hablando metafóricamente, por minería de datos entendemos el proverbial
"encontrar la aguja en un pajar", utilizando un detector de metales solo para acelerar
la búsqueda, "automatizando" el proceso correspondiente [2].
Hemos visto anteriormente lo que significa la minería de datos. En este contexto, es
interesante ver lo que la minería de datos no es. A continuación, presentamos cuatro
situaciones concretas diferentes que ilustran de manera elocuente lo que no es la
minería de datos en comparación con lo que podría ser [2].
• Lo que no es minería de datos: Buscar información específica en Internet

(por ejemplo, sobre cocina en Google). Lo que podría ser la minería de
datos: Agrupar información similar en un cierto contexto (por ejemplo, sobre
cocina francesa, cocina italiana, etc., encontrada en Google).
• Lo que no es minería de datos: Un médico buscando un registro médico
para analizar el historial de un paciente con una enfermedad específica. Lo
que podría ser la minería de datos: Investigadores médicos encontrando
una forma de agrupar a los pacientes con la misma enfermedad, basándose
en un número específico de síntomas particulares.
• Lo que no es minería de datos: Buscar spa resorts en una lista de nombres
de lugares. Lo que podría ser la minería de datos: Agrupar spa resorts que
son más relevantes para tratar ciertas enfermedades (gastrointestinales,
urológicas, etc.).
• Lo que no es minería de datos: El análisis de cifras en un informe financiero
de una empresa comercial. Lo que podría ser la minería de datos: Utilizar
la base de datos de la empresa comercial en relación con las ventas, para
identificar los perfiles principales de los clientes.[2]
Como hemos visto en los ejemplos anteriores, no podemos comparar una búsqueda
específica de un objeto individual con la investigación en minería de datos. En este
último caso, la investigación no se enfoca en objetos individuales, sino en conjuntos
6
de objetos que pueden ser agrupados de acuerdo a ciertos criterios, de alguna

manera.
A continuación, vamos a mencionar dos metas de la minería de datos para aclarar
mejor en qué áreas se aplica:
1. Objetivos Predictivos: Estos objetivos incluyen tareas como clasificación,
regresión y detección de anomalías o valores inusuales. Se logran utilizando
ciertas variables para predecir una o más de las otras variables en el conjunto
de datos.
2. Objetivos Descriptivos: En este caso, se trata de tareas como la agrupación
de datos, el descubrimiento de reglas de asociación y el hallazgo de patrones
secuenciales. Estas metas se alcanzan al identificar patrones que ayudan a
describir los datos y que pueden ser fácilmente comprendidos por los
usuarios.
¿Por qué la Minería de Datos?
La minería de datos surgió como respuesta a los avances tecnológicos en diversas
áreas. Por ejemplo, a lo largo del tiempo, la ingeniería informática contribuyó de
manera importante al desarrollo de computadoras más potentes en términos de
velocidad y capacidad de memoria. A su vez, la informática y las matemáticas
continuaron mejorando las arquitecturas de bases de datos y los algoritmos de
búsqueda, y esta combinación de disciplinas fue fundamental para crear la World
Wide Web (WWW).
Hemos visto notables avances en las técnicas para recolectar, almacenar y
transferir grandes cantidades de datos, aplicándolas en campos como el
procesamiento de imágenes, el procesamiento de señales digitales, el
procesamiento de texto y el manejo de diversos tipos de datos heterogéneos. Sin
embargo, este crecimiento exponencial en la cantidad de datos almacenados trajo
consigo la necesidad de encontrar formas mejores, más rápidas y más económicas
de gestionarlos. En resumen, todos los datos del mundo carecen de valor si no
disponemos de mecanismos eficientes y efectivos para extraer información y
conocimiento de ellos. Pioneros en este campo, como U. Fayyad, H. Mannila, G.
Piatetsky-Shapiro, G. Djorgovski, W. Frawley, P. Smith, entre otros, reconocieron
esta urgente necesidad, lo que dio origen al campo de la minería de datos.
La minería de datos no es simplemente un término "paraguas" acuñado con el
propósito de dar sentido a los datos. La característica distintiva principal de la
minería de datos es que está impulsada por los datos, en contraste con otros
métodos que a menudo están impulsados por modelos. En estadísticas, los
investigadores a menudo se enfrentan al problema de encontrar el tamaño de datos
más pequeño que proporciona estimaciones lo suficientemente confiables. En la
7
minería de datos, nos enfrentamos al problema opuesto, es decir, el tamaño de los

datos es grande y estamos interesados en construir un modelo de datos que sea
pequeño (no demasiado complejo) pero que aún describa bien los datos [1].
La minería de datos va más allá de ser simplemente un término general utilizado
para comprender datos. Su característica más destacada es que se basa en los
datos, a diferencia de otros métodos que a menudo se centran en modelos. En
estadísticas, los investigadores a menudo se preocupan por encontrar el tamaño de
datos más pequeño que ofrezca estimaciones lo suficientemente precisas. En
cambio, en la minería de datos, nos enfrentamos al desafío opuesto: tenemos
grandes volúmenes de datos y buscamos crear un modelo de datos que sea conciso
(sin ser excesivamente complejo) pero que aún capture eficazmente la esencia de
los datos.
Al considerar una amplia gama de aplicaciones, desde pronósticos de marketing
para grandes empresas multinacionales hasta el análisis de tendencias en el
comercio de acciones en las principales bolsas de valores, la identificación de
perfiles de clientes leales, la modelación de la demanda de productos
farmacéuticos, la automatización del diagnóstico de cáncer, la detección de fraudes
bancarios, el seguimiento de huracanes, la clasificación de estrellas y galaxias,
entre otros, queda claro que las técnicas de minería de datos se utilizan de manera
efectiva en diversas áreas. Esto proporciona una respuesta clara a la pregunta:
"¿Por qué la Minería de Datos?"
¿Cómo extraer los datos?
Antes de intentar extraer conocimiento útil de los datos, es importante comprender
el enfoque general. Simplemente conocer muchos algoritmos utilizados para el
análisis de datos no es suficiente para llevar a cabo con éxito un proyecto de minería
de datos [1].
Ahora, vamos a entender en qué consiste el proceso de "minar" los datos. De
manera simplificada, podemos identificar tres pasos clave en este proceso de
minería de datos:
1. Exploración de datos, que incluye la preparación de datos, la transformación
de datos, la reducción de dimensiones y la selección de características.
2. Creación y validación del modelo, que implica analizar varios modelos y elegir
el que mejor pronostique el rendimiento mediante una evaluación
competitiva.
3. Aplicación del modelo a nuevos datos para generar pronósticos precisos para
los problemas en estudio.
8
Antes de utilizar técnicas de minería de datos, es esencial preparar los datos en

bruto. Esto implica abordar problemas de calidad, como ruido, valores atípicos,
datos faltantes y duplicados. Para resolver estos problemas, se aplican diferentes
métodos, como filtrado para el ruido, eliminación o ajuste de valores atípicos, y
manejo de datos faltantes mediante estimación o sustitución. También es
importante lidiar con datos duplicados, considerando su eliminación. La preparación
de datos es una etapa crítica en la minería de datos antes de realizar análisis y
modelado.
El segundo paso en la minería de datos es definir el estudio o investigación, que
sigue a la preparación de los datos. Este proceso implica elegir qué datos se
analizarán y cómo se muestrearán, ya que generalmente no se trabaja con toda la
base de datos. Además, es esencial determinar el propósito del análisis de datos.
En el análisis de datos, se utilizan dos enfoques principales: el aprendizaje
supervisado, que implica predecir resultados basados en datos de entrenamiento
previos, y el aprendizaje no supervisado, que se enfoca en agrupar datos similares
o identificar excepciones. La elección de la metodología influirá en toda la
investigación. En resumen, definir el estudio es un paso crucial en la minería de
datos, donde se establece el objetivo y se decide cómo abordar los datos
seleccionados.
Entender el modelo se refiere al momento en que, después de examinar y analizar
la base de datos, se ha creado un modelo de minería de datos que puede
proporcionar información valiosa sobre esos datos. En resumen, en este momento,
independientemente del modelo elegido, deben considerarse los siguientes
elementos:
• Resumir el modelo implica crear un informe breve pero informativo que

destaque los aspectos clave, como frecuencias, ponderaciones y
correlaciones, entre otros.
• La información específica proporcionada por un modelo se refiere a los
factores causales importantes en contraposición a los que no tienen
relevancia. Por ejemplo, si queremos determinar qué tipo de clientes en un
supermercado visitan la sección de cosméticos, el género del cliente es un
factor relevante, mientras que la ocupación profesional no lo es tanto.
• La distribución de datos es crucial, al igual que en Estadísticas, ya que se
necesita una cantidad adecuada de datos representativos para lograr un
enfoque preciso en la minería de datos.
• La diferenciación se refiere a la capacidad de una variable predictiva para
distinguir de manera significativa entre dos resultados del modelo. Por
ejemplo, si a los jóvenes les gusta tanto la música folklórica como el rock, no
9
hay una diferenciación clara entre los géneros musicales en ese grupo de
edad.
• La validación consiste en evaluar la precisión de las predicciones del modelo,
lo cual es un paso crucial en la construcción del modelo.
• La capacidad de predicción de un modelo se relaciona con su habilidad para
predecir resultados precisos basados en los datos de entrada. Cuanto más
cercanas sean las predicciones a la realidad, mejor será el modelo. Ejemplos
clásicos de predicciones incluyen el pronóstico del tiempo basado en
observaciones meteorológicas complejas y el diagnóstico médico basado en
datos del paciente.
El proceso central de la minería de datos implica construir un modelo específico
para representar el conjunto de datos que se "mina" con el fin de resolver problemas
concretos de la vida real [2].
Aplicación de la minería de datos
La minería de datos es muy importante para muchas cosas, como el análisis de
opiniones, la optimización de precios, el marketing de bases de datos, la gestión del
riesgo crediticio, la capacitación y el soporte, la detección de fraudes, los
diagnósticos médicos y de salud, la evaluación de riesgos, los sistemas de
recomendación y mucho más. Puede ser útil en casi cualquier industria, como el
comercio minorista, la distribución mayorista, las industrias de servicios, las
telecomunicaciones, las comunicaciones, los seguros, la educación, la fabricación,
la atención médica, la banca, la ciencia, la ingeniería y el marketing en línea o las
redes sociales.
Por ejemplo, las empresas que diseñan o fabrican productos pueden usar la minería
de datos para analizar patrones de compra y datos económicos y demográficos para
mejorar sus productos. Los fabricantes pueden usarla para realizar un seguimiento
de las tendencias de calidad y los datos de reparación para identificar problemas de
producción. En los sectores de servicios, pueden usarla para mejorar sus productos
al analizar las opiniones de los clientes. Al final, todos estos hallazgos pueden
ayudar a toda la organización a estar mejor preparada para explotar nuevas
oportunidades.
MINERÍA DE TEXTOS
Definición de minería de texto
El concepto de texto implica información no estructurada compuesta por secuencias
de palabras. Aunque estas secuencias pueden considerarse como texto en un
10
sentido amplio, es necesario entender los significados individuales de las palabras

y cómo se combinan siguiendo reglas gramaticales para crear un texto coherente.
En este contexto, restringimos la noción de texto a artículos compuestos por
párrafos escritos en un lenguaje natural. Definimos un párrafo como un conjunto
organizado de oraciones, y un texto como una colección ordenada de párrafos. Es
importante destacar que excluimos del ámbito del texto cualquier contenido que
conste de palabras en un lenguaje artificial, como código fuente o ecuaciones
matemáticas.
La minería de texto se considera una forma especializada de minería de datos, y
para comprenderla, es esencial explorar conceptualmente el campo más amplio de
la minería de datos. La minería de datos se refiere al proceso de extraer
conocimiento implícito de diversos tipos de datos en un sentido general, aunque en
la minería de datos tradicional, el enfoque se limita principalmente a datos
relacionales.
Los métodos de minería de datos aprenden a partir de muestras de experiencias
pasadas. Si hablamos con especialistas en minería de datos predictiva, sus datos
estarán en forma numérica. Estas personas son los "expertos en números". Los
"mineros de texto", por otro lado, no esperan una serie ordenada de números. Están
dispuestos a examinar colecciones de documentos donde el contenido es legible y
su significado es evidente [3].
Aquí, establecemos nuestra primera distinción entre la minería de datos y la minería
de texto: números frente a contenido escrito. Sin embargo, es importante destacar
que esto no implica que sean dos conceptos completamente independientes. En
ambos casos, se basan en muestras de ejemplos pasados. Aunque la naturaleza
de los ejemplos es bastante diferente, compartimos muchos métodos de
aprendizaje similares. Esto se debe a que, en el caso del texto, se someterá a un
proceso de transformación para convertirlo en una representación numérica
adecuada para su análisis.
¿Datos estructurados o no estructurados?
Superficialmente, vemos números o texto en nuestros datos. El texto suele ser una
colección de documentos no estructurados sin requisitos especiales para componer
los documentos. Como se señaló anteriormente, la mayoría de las aplicaciones de
minería de datos asimilan solo información estructurada [3].
En este contexto, consideramos que una palabra es la unidad más elemental del
texto. A pesar de que una sola palabra está formada por varios caracteres, optamos
por definir la palabra como unidad básica debido a que un carácter individual carece
de significado por sí solo, mientras que una palabra tiene su propio significado. Es
11
importante destacar que una palabra es una unidad básica con significado, a
diferencia de las secuencias de caracteres arbitrarias que carecen de significado.
Además, hacemos hincapié en que las palabras gramaticales, conocidas como
palabras de parada, que se utilizan exclusivamente con fines gramaticales, como
"un" o "el", no tienen significado y suelen ser excluidas durante el proceso de
preparación del texto.
Es fundamental que los datos se encuentren organizados de manera meticulosa.
Normalmente, utilizamos un formato de hoja de cálculo en el que las etiquetas de
las columnas se adaptan al ámbito específico y permanecen inalterables. Siguiendo
este diseño, recopilamos datos mediante la adición de filas, es decir, ejemplos, en
los cuales cada uno se evalúa utilizando los mismos atributos. Agregar una nueva
fila resulta ser una tarea relativamente sencilla desde una perspectiva mecánica. No
obstante, la incorporación de un nuevo atributo, o sea, una nueva columna, es más
compleja, ya que requiere una revisión de todos los ejemplos previos y la medición
del nuevo valor para cada uno de ellos. Una vez que disponemos de datos
organizados de esta manera, podemos realizar cálculos matemáticos de manera
convencional. Una sola fila o columna se considera un vector, y la hoja de cálculo
completa o la tabla de la base de datos se convierte en una matriz.
Un texto se considera como un artículo, como un artículo de noticias, un artículo de
revista, una patente o una carta, y está compuesto por un solo párrafo, un solo grupo
de párrafos y varios grupos de estos. Un resumen de un artículo técnico o un artículo
de noticias que contiene solo texto existe como un texto breve. Un texto que consta
de un solo grupo de párrafos, denominado sección, se podría considerar de tamaño
mediano. Un texto con múltiples grupos de párrafos, como un artículo con varias
secciones, se considera un texto extenso [4].
¿Qué tipos de problemas se pueden resolver?
Nos enfocamos principalmente en clasificación y predicción, dos áreas
fundamentales en minería de datos. Estas implican encontrar respuestas correctas
para nuevos ejemplos basados en experiencias pasadas. También abordamos
problemas como la categorización de textos. La clasificación se extiende a datos sin
etiquetas, donde organizamos los datos para asignar etiquetas futuras, conocido
como agrupamiento.
Aunque la similitud entre documentos es crucial para organizarlos, medirla es un
aspecto importante por sí mismo, especialmente en la recuperación de información.
Nuestras aplicaciones se centran en relaciones estadísticas y asociativas en lugar
de análisis lingüístico. A pesar de que una comprensión semántica más profunda
podría ser beneficiosa en el futuro, los enfoques estadísticos prevalecen debido al
aumento de recursos informáticos y la disponibilidad de datos digitales, como
12
bibliotecas de documentos en formato digital, listas para el análisis mediante minería

de texto.
Extracción de información
Nuestra forma de trabajar con datos se centra en el uso de palabras como unidades
de información. Aunque esta aproximación parece simple, sorprendentemente,
funciona bien en muchas aplicaciones. En comparación con los enfoques
tradicionales de minería de datos que utilizan datos numéricos, nuestras mediciones
son más superficiales, ya que se limitan a verificar la presencia o ausencia de
palabras clave.
Por otro lado, las representaciones de minería de datos pueden ser más complejas,
incluyendo variables numéricas reales o códigos específicos. Estos atributos deben
ser definidos y almacenados por alguien en una base de datos.
La diferencia fundamental aquí es que la minería de datos se enfoca en datos
altamente estructurados, mientras que el texto es inherentemente no estructurado.
Para hacer que el texto sea más estructurado, utilizamos una representación
sencilla que se basa en la aparición de palabras clave. Además, existe un subcampo
llamado extracción de información que busca hacer que el procesamiento de texto
sea más compatible con la minería de datos estructurados.
En resumen, cuando trabajamos con bases de datos, estas suelen estar
organizadas en campos o tablas, lo que las hace estructuradas. Sin embargo,
cuando lidiarnos con información no estructurada, como en una colección de
documentos de texto, necesitamos un proceso adicional para convertir esos datos
en algo estructurado y utilizable.
Minería de Sentimientos
¿Qué es la minería de sentimientos?
El análisis de sentimientos, también conocido como minería de opiniones, es un
campo de estudio que se dedica a examinar las opiniones, emociones,
evaluaciones, actitudes y percepciones de las personas hacia una variedad de
cosas, como productos, servicios, organizaciones, individuos, temas, eventos y sus
características. Este ámbito de investigación abarca una amplia gama de enfoques
y, a veces, se le denomina de diferentes maneras, como análisis de sentimientos,
extracción de opiniones y análisis de subjetividad, entre otros términos. A pesar de
estas variaciones terminológicas, todos estos conceptos convergen en la misma
área de estudio: comprender cómo las personas sienten y opinan sobre distintos
aspectos. En el ámbito industrial, es más común utilizar el término "análisis de
sentimientos", mientras que en el ámbito académico se recurre tanto al "análisis de
sentimientos" como a la "minería de opiniones" de manera frecuente.
13
Como área de estudio, está fuertemente vinculada (o se puede ver como una
extensión de) la lingüística computacional, el procesamiento del lenguaje natural y
la minería de texto. A partir del análisis de emociones (psicología) y la evaluación
(teoría de la valoración), su objetivo principal es abordar las interrogantes que han
sido objeto de investigación en otros campos del discurso durante mucho tiempo,
empleando las nuevas herramientas que nos brindan la minería de datos y la
lingüística computacional.
Este campo generalmente se enfoca en analizar los elementos subjetivos, que se
definen como "expresiones lingüísticas de estados específicos en un contexto".
Estas expresiones suelen manifestarse a través de palabras individuales, frases o
incluso oraciones. A veces, se examinan documentos completos como una unidad
de sentimiento, pero existe un consenso general de que el sentimiento se encuentra
en unidades lingüísticas más pequeñas.
El análisis de sentimientos se enfoca en la polaridad de las expresiones en textos,
que suelen ser positivas o negativas, aunque también pueden variar en intensidad.
Además, se considera tanto la polaridad como la fuerza del sentimiento. Es
importante identificar el objeto o tema al que se refieren las opiniones en el texto,
como productos o características específicas. La extracción de estas características
ha sido ampliamente estudiada, y las menciones pueden ser explícitas o implícitas
en el texto.
Aplicaciones de análisis de sentimiento
Las opiniones son fundamentales en casi todas las actividades humanas porque
son influencias clave en nuestro comportamiento. Siempre que necesitamos tomar
una decisión, queremos conocer las opiniones de los demás [5].
Siempre que enfrentamos una decisión, deseamos conocer las perspectivas de
otros. En la realidad, tanto empresas como individuos buscan conocer las opiniones
de consumidores o el público en relación con productos y servicios. Los
consumidores también buscan la experiencia de otros usuarios antes de adquirir un
producto, y las opiniones sobre candidatos políticos antes de votar en elecciones.
En el pasado, solíamos preguntar a amigos y familiares cuando necesitábamos
consejos, mientras que las organizaciones realizaban encuestas y grupos de
enfoque para obtener opiniones públicas. Sin embargo, con la proliferación de las
redes sociales en línea, las personas y organizaciones cada vez más utilizan el
contenido de estas plataformas para tomar decisiones.
Actualmente, para comprar un producto, ya no es necesario limitarse a preguntar a
conocidos, ya que existen numerosas reseñas y discusiones en línea disponibles.
Del mismo modo, las organizaciones pueden acceder a una gran cantidad de
opiniones públicas sin necesidad de llevar a cabo encuestas o grupos de enfoque.
14
Encontrar y comprender opiniones en línea sigue siendo un desafío debido a la gran

cantidad de sitios web con diversa información. Cada sitio suele contener mucho
texto de opinión, lo que dificulta su análisis manual. Por lo tanto, se requieren
sistemas automatizados de análisis de sentimientos.
En los últimos años, las opiniones en las redes sociales han tenido un gran impacto
en negocios y en la opinión pública, influyendo en sistemas sociales y políticos. Esto
ha llevado a la necesidad de recopilar y estudiar opiniones en línea. Además,
muchas organizaciones también tienen datos internos de opiniones, como
comentarios de clientes y resultados de encuestas.
Métodos de análisis de sentimiento
Los investigadores han estudiado el análisis de sentimientos en tres niveles
principales: documentos, oraciones y niveles de aspecto.
• Clasificación de Sentimiento en Documentos:
La clasificación del sentimiento de documentos implica etiquetar documentos

de opinión, como reseñas de productos, como positivos o negativos, sin
analizar el contenido específico del documento. Esto se conoce como
clasificación de sentimiento a nivel de documento. Por lo general, se aborda
como un problema de aprendizaje supervisado con dos categorías (positivo
y negativo) o calificaciones numéricas.
Existen enfoques supervisados que emplean métodos como la clasificación

bayesiana y las máquinas de vectores de soporte. También hay enfoques no
supervisados que se basan en palabras de sentimiento y patrones
lingüísticos. Las palabras de sentimiento, como "bueno" o "malo",
desempeñan un papel importante en esta clasificación.
Un desafío común es que la clasificación de sentimientos puede variar según

el dominio (por ejemplo, productos electrónicos vs. alimentos), y las palabras
pueden tener diferentes connotaciones en contextos distintos. Se han
desarrollado técnicas de adaptación de dominio para abordar este problema.
Además, se ha investigado la clasificación de sentimientos en varios idiomas,

utilizando recursos en inglés y traducciones automáticas para construir
clasificadores en otros idiomas con recursos limitados [6].
En resumen, la clasificación de sentimientos analiza documentos de opinión

para determinar si son positivos o negativos. Se emplean enfoques
15
supervisados y no supervisados, y es importante considerar las diferencias

de dominio y los desafíos en diferentes idiomas.
• Clasificación de Sentimiento en Oraciones:
La tarea a este nivel se centra en las oraciones y determina si cada oración

expresó una opinión positiva, negativa o neutral [5].
La clasificación del sentimiento en oraciones es similar a la clasificación en

documentos, pero más desafiante, ya que las oraciones contienen menos
información que los documentos completos. Además, debe considerar la
neutralidad, ya que algunas oraciones en documentos de opinión no
expresan sentimientos positivos o negativos. Se pueden utilizar métodos de
clasificación de documentos y también enfoques específicos para oraciones,
como modelos de aprendizaje jerárquico y técnicas de aprendizaje profundo.
Las oraciones condicionales, que describen situaciones hipotéticas y sus

resultados, presentan desafíos únicos en la clasificación del sentimiento, ya
que la relación entre las cláusulas condicionales y consecuentes puede
cambiar el tono de la oración. Las oraciones sarcásticas también son
complicadas de manejar, ya que implican decir lo contrario de lo que se
quiere expresar.
Otro aspecto importante en la clasificación de sentimientos es distinguir entre

oraciones subjetivas, que contienen opiniones, y oraciones objetivas, que
presentan hechos. Sin embargo, incluso las oraciones objetivas pueden
transmitir sentimientos positivos o negativos dependiendo de la naturaleza
de los hechos que presentan.
La clasificación de sentimientos en oraciones es una tarea compleja que

implica identificar sentimientos positivos, negativos o neutrales en oraciones
individuales, considerando diferentes tipos de oraciones y sus desafíos
específicos.
• Clasificación de Sentimiento en Aspectos:
Tanto el análisis a nivel de documento como el análisis a nivel de oración no

nos dicen exactamente qué les gustó o no a las personas. El análisis a nivel
de aspecto, en cambio, es más detallado. En lugar de enfocarse en las
estructuras del lenguaje, como documentos, párrafos, oraciones, cláusulas o
frases, el análisis a nivel de aspecto se enfoca directamente en la opinión en
16
sí. La idea principal es que una opinión está compuesta por un sentimiento
(positivo o negativo) y un objetivo (aquello sobre lo que se opina). Identificar
el objetivo de una opinión es esencial, ya que una opinión sin un objetivo
claro tiene un valor limitado. Reconocer la importancia de los objetivos de las
opiniones también mejora nuestra comprensión del análisis de sentimientos
en general.
Por ejemplo, consideremos la frase "aunque el servicio no es tan bueno,

todavía me encanta este restaurante". A primera vista, parece una opinión
positiva, pero si profundizamos, vemos que es positiva respecto al
restaurante en general, pero negativa sobre el servicio en particular. Esto
resalta la necesidad de identificar los objetivos de las opiniones. En muchas
aplicaciones, estos objetivos son entidades y sus diferentes aspectos.
El análisis a nivel de aspecto se centra en descubrir los sentimientos

relacionados con entidades y sus aspectos específicos. Esto permite crear
un resumen estructurado de opiniones sobre entidades y sus aspectos, lo
que convierte el texto no estructurado en datos organizados que se pueden
utilizar para una variedad de análisis cualitativos y cuantitativos.
CONCLUSIONES.
La minería de datos, textos y sentimientos desempeña un papel crucial en la gestión
contemporánea, ya que proporciona valiosas percepciones a partir del vasto
conjunto de datos no estructurados disponibles en el mundo digital. Algunas
conclusiones fundamentales sobre su importancia son las siguientes:
• Toma de Decisiones Informadas: La minería de datos y textos permite a las

organizaciones tomar decisiones más fundamentadas al analizar y
comprender las opiniones, tendencias y patrones latentes en los datos. Esto
resulta esencial para tomar decisiones estratégicas y operativas en diversos
sectores.
• Mejora de la Experiencia del Cliente: Al analizar las opiniones de los clientes
y las interacciones en línea, las empresas pueden mejorar la experiencia del
cliente, personalizar sus productos y servicios según las necesidades del
mercado y abordar preocupaciones de manera proactiva.
• Detección de Problemas y Oportunidades: La minería de textos y
sentimientos habilita a las organizaciones a identificar problemas emergentes
o tendencias promisorias antes de que se conviertan en problemas
significativos o se pasen por alto oportunidades valiosas.
17
• Gestión de la Reputación: Es esencial que las empresas y figuras públicas

gestionen su reputación en línea. La minería de sentimientos ayuda a
monitorear las opiniones en línea y a tomar medidas para proteger o mejorar
la reputación.
• Personalización y Recomendaciones: En sectores como el comercio
electrónico y el entretenimiento, la minería de datos y sentimientos se utiliza
para personalizar recomendaciones y ofertas para los usuarios, lo que mejora
la satisfacción del cliente y aumenta las ventas.
• Análisis de Opiniones Políticas: En la política, el análisis de sentimientos
puede ayudar a los candidatos a evaluar la recepción de sus propuestas y
mensajes, así como a medir la opinión pública y adaptar sus estrategias de
campaña.
• Investigación y Desarrollo: La minería de datos y textos también es valiosa
en la investigación y desarrollo, donde puede ayudar a identificar tendencias
en la investigación científica, opiniones de usuarios sobre productos y
servicios, y mucho más.
La administración de minería de datos, textos y sentimientos se ha convertido en

una herramienta esencial en el entorno empresarial moderno. Proporciona
información valiosa que impulsa la toma de decisiones estratégicas, mejora la
satisfacción del cliente, ayuda a gestionar la reputación y abre nuevas
oportunidades de innovación y mejora. La comprensión y aplicación adecuadas de
estas técnicas son fundamentales para el éxito en un mundo cada vez más
orientado a los datos y a la satisfacción del cliente.
AGRADECIMIENTOS.
Estimados miembros del Instituto Tecnológico de Orizaba y equipo de la Maestría
en Ingeniería Administrativa. Quiero expresar mi más sincero agradecimiento por
brindarme la increíble oportunidad de formar parte de este programa. El simple
hecho de haber sido aceptado ya representa un logro que valoro enormemente.
Quiero reconocer el arduo trabajo y la dedicación de todos ustedes, ya que son
quienes hacen posible que estudiantes como yo podamos expandir nuestros
horizontes y conocimientos. Esta maestría no solo me permitirá crecer
académicamente, sino que también me brindará herramientas para aplicar en mi
entorno laboral.
Estoy entusiasmado por sumergirme en esta experiencia, aprender de los
profesores y compañeros, y llevar todo lo aprendido a mi día a día profesional.
18
Agradezco profundamente la oportunidad que me han brindado y me comprometo

a esforzarme al máximo para honrarla.
Con gratitud,
Raúl Alejandro García Macarty
19
REFERENCIAS.
[1] K. J. Cios, W. Pedrycz, R. W. Swiniarski, y L. A. Kurgan, Data Mining A
Knowledge Discovery Approach. Springer, 2007.
[2] F. Gorunescu, Data Mining: Concepts, Models and Techniques, vol. Volume
12. Springer, 2011.
[3] S. M. Weiss, N. Indurkhya, T. Zhang, y F. J. Damerau, Text mining : predictive
methods for analyzing unstructured information. Springer, 2005.
[4] T. Jo, Text Mining Concepts, Implementation, and Big Data Challenge.
Springer, 2019. doi: https://doi.org/10.1007/978-3-319-91815-0.
[5] B. Liu, Sentiment Analysis and Opinion Mining. Morgan & Claypool Publishers,
2012.
[6] C. Sammut y G. I. Webb, Encyclopedia of Machine Learning and Data Mining,
Segunda edición. Springer US, 2017. doi: 10.1007/978-1-4899-7687-1
20

Minería de Datos, Textos, Sentimientos y Su Aplicación

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Minería de Datos, Textos, Sentimientos y Su Aplicación

Cargado por

Copyright:

Formatos disponibles

Instituto

Minería de datos, textos, sentimientos y su aplicación.

empresas una ventaja estratégica al tomar decisiones informadas y bien

Otro término fundamental dentro de la definición es "grandes cantidades de datos".

pasan a ser supervisados, lo que simplifica considerablemente el problema. Sin

• Economía (negocios y finanzas): Existe una gran cantidad de datos

años. Sin embargo, no se pueden explorar eficientemente utilizando métodos

• Lo que no es minería de datos: Buscar información específica en Internet

de objetos que pueden ser agrupados de acuerdo a ciertos criterios, de alguna

minería de datos, nos enfrentamos al problema opuesto, es decir, el tamaño de los

Antes de utilizar técnicas de minería de datos, es esencial preparar los datos en

• Resumir el modelo implica crear un informe breve pero informativo que

sentido amplio, es necesario entender los significados individuales de las palabras

bibliotecas de documentos en formato digital, listas para el análisis mediante minería

Encontrar y comprender opiniones en línea sigue siendo un desafío debido a la gran

• Clasificación de Sentimiento en Documentos:

La clasificación del sentimiento de documentos implica etiquetar documentos

Existen enfoques supervisados que emplean métodos como la clasificación

Un desafío común es que la clasificación de sentimientos puede variar según

Además, se ha investigado la clasificación de sentimientos en varios idiomas,

En resumen, la clasificación de sentimientos analiza documentos de opinión

supervisados y no supervisados, y es importante considerar las diferencias

• Clasificación de Sentimiento en Oraciones:

La tarea a este nivel se centra en las oraciones y determina si cada oración

La clasificación del sentimiento en oraciones es similar a la clasificación en

Las oraciones condicionales, que describen situaciones hipotéticas y sus

Otro aspecto importante en la clasificación de sentimientos es distinguir entre

La clasificación de sentimientos en oraciones es una tarea compleja que

• Clasificación de Sentimiento en Aspectos:

Tanto el análisis a nivel de documento como el análisis a nivel de oración no

Por ejemplo, consideremos la frase "aunque el servicio no es tan bueno,

El análisis a nivel de aspecto se centra en descubrir los sentimientos

• Toma de Decisiones Informadas: La minería de datos y textos permite a las

• Gestión de la Reputación: Es esencial que las empresas y figuras públicas

La administración de minería de datos, textos y sentimientos se ha convertido en

Agradezco profundamente la oportunidad que me han brindado y me comprometo

También podría gustarte