Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Tecnológico de
Orizaba
Minería de datos, minería de textos, minería de
sentimientos y su aplicación.
Raúl García Mc
4-6-2023
Instituto Tecnológico de Orizaba | Raúl Alejandro García Macarty
Índice
Contenido
Índice ................................................................................................................................................... 1
Minería de datos, textos, sentimientos y su aplicación. ..................................................................... 2
RESUMEN ........................................................................................................................................ 2
INTRODUCCIÓN ............................................................................................................................... 2
MINERÍA DE DATOS ......................................................................................................................... 3
¿Qué es y qué no es minería de datos? ...................................................................................... 3
¿Por qué la Minería de Datos? .................................................................................................... 7
¿Cómo extraer los datos?............................................................................................................ 8
MINERÍA DE TEXTOS ...................................................................................................................... 10
Definición de minería de texto .................................................................................................. 10
¿Datos estructurados o no estructurados? ............................................................................... 11
¿Qué tipos de problemas se pueden resolver?......................................................................... 12
Extracción de información ........................................................................................................ 13
Minería de Sentimientos ............................................................................................................... 13
¿Qué es la minería de sentimientos? ........................................................................................ 13
Aplicaciones de análisis de sentimiento.................................................................................... 14
Métodos de análisis de sentimiento ......................................................................................... 15
CONCLUSIONES. ............................................................................................................................ 17
AGRADECIMIENTOS....................................................................................................................... 18
REFERENCIAS. ................................................................................................................................ 20
1
Instituto Tecnológico de Orizaba | Raúl Alejandro García Macarty
RESUMEN
La Minería de Datos es como un detective digital que busca pistas en enormes
conjuntos de información. Su objetivo es encontrar patrones ocultos y
conocimientos valiosos en los datos. Por otro lado, la Minería de Textos se enfoca
en entender qué dicen realmente todos esos documentos que tenemos
almacenados. Es como tener un lector experto que puede resumir libros en
segundos.
Y luego tenemos la Minería de Sentimientos, que es un poco como leer entre líneas.
Se dedica a descubrir cómo se sienten las personas en base a lo que escriben en
internet. Puede decirnos si están felices, enojadas, o simplemente indiferentes, lo
cual es súper útil para entender lo que la gente piensa.
La Minería de Datos puede ayudar a las empresas a descubrir qué productos son
más populares y por qué. Es como tener una bola de cristal para tomar decisiones
más acertadas.
La Minería de Textos puede hacer que las quejas y elogios de los clientes sean
mucho más comprensibles. Si tienes cientos de reseñas y correos electrónicos, esta
herramienta puede resumir todo eso en tendencias claras para que sepas qué
mejorar.
Y la Minería de Sentimientos es como tener un radar de emociones en internet. Las
empresas pueden saber en tiempo real si su última campaña está emocionando o
decepcionando a la gente, y eso es oro en la era de las redes sociales.
Así que, en definitiva, estas técnicas son como un equipo de superpoderes para la
administración. Ayudan a las empresas a entender a sus clientes, tomar decisiones
más inteligentes y mantenerse en sintonía con lo que la gente está pensando y
sintiendo.
INTRODUCCIÓN
La Minería de Datos se adentra en un mundo lleno de información para encontrar
gemas ocultas. Los datos son como piezas de un rompecabezas gigante, y la
Minería de Datos es la herramienta que nos ayuda a ensamblarlas. En esencia, esta
disciplina utiliza métodos avanzados para explorar conjuntos masivos de datos con
el objetivo de descubrir patrones, relaciones y conocimientos que a simple vista
podrían pasar desapercibidos. Estos descubrimientos pueden revelar tendencias
del mercado, preferencias de los clientes e indicadores de ventas, brindando a las
2
Instituto Tecnológico de Orizaba | Raúl Alejandro García Macarty
MINERÍA DE DATOS
¿Qué es y qué no es minería de datos?
El objetivo de la minería de datos es dar sentido a grandes cantidades de datos en
su mayoría no supervisados, en algún dominio [1].
En la definición previa, el término primordial es "dar sentido", el cual posee diversos
significados en función de la experiencia del usuario. Con el propósito de dar
sentido, imaginamos que este nuevo conocimiento debería mostrar una serie de
atributos esenciales: debe ser comprensible, válido, innovador y útil. Posiblemente,
el requisito más crucial es que el nuevo conocimiento descubierto debe resultar
inteligible para los dueños de los datos que desean emplearlo en su beneficio.
3
Instituto Tecnológico de Orizaba | Raúl Alejandro García Macarty
4
Instituto Tecnológico de Orizaba | Raúl Alejandro García Macarty
5
Instituto Tecnológico de Orizaba | Raúl Alejandro García Macarty
6
Instituto Tecnológico de Orizaba | Raúl Alejandro García Macarty
7
Instituto Tecnológico de Orizaba | Raúl Alejandro García Macarty
8
Instituto Tecnológico de Orizaba | Raúl Alejandro García Macarty
9
Instituto Tecnológico de Orizaba | Raúl Alejandro García Macarty
hay una diferenciación clara entre los géneros musicales en ese grupo de
edad.
• La validación consiste en evaluar la precisión de las predicciones del modelo,
lo cual es un paso crucial en la construcción del modelo.
• La capacidad de predicción de un modelo se relaciona con su habilidad para
predecir resultados precisos basados en los datos de entrada. Cuanto más
cercanas sean las predicciones a la realidad, mejor será el modelo. Ejemplos
clásicos de predicciones incluyen el pronóstico del tiempo basado en
observaciones meteorológicas complejas y el diagnóstico médico basado en
datos del paciente.
El proceso central de la minería de datos implica construir un modelo específico
para representar el conjunto de datos que se "mina" con el fin de resolver problemas
concretos de la vida real [2].
Aplicación de la minería de datos
La minería de datos es muy importante para muchas cosas, como el análisis de
opiniones, la optimización de precios, el marketing de bases de datos, la gestión del
riesgo crediticio, la capacitación y el soporte, la detección de fraudes, los
diagnósticos médicos y de salud, la evaluación de riesgos, los sistemas de
recomendación y mucho más. Puede ser útil en casi cualquier industria, como el
comercio minorista, la distribución mayorista, las industrias de servicios, las
telecomunicaciones, las comunicaciones, los seguros, la educación, la fabricación,
la atención médica, la banca, la ciencia, la ingeniería y el marketing en línea o las
redes sociales.
Por ejemplo, las empresas que diseñan o fabrican productos pueden usar la minería
de datos para analizar patrones de compra y datos económicos y demográficos para
mejorar sus productos. Los fabricantes pueden usarla para realizar un seguimiento
de las tendencias de calidad y los datos de reparación para identificar problemas de
producción. En los sectores de servicios, pueden usarla para mejorar sus productos
al analizar las opiniones de los clientes. Al final, todos estos hallazgos pueden
ayudar a toda la organización a estar mejor preparada para explotar nuevas
oportunidades.
MINERÍA DE TEXTOS
Definición de minería de texto
El concepto de texto implica información no estructurada compuesta por secuencias
de palabras. Aunque estas secuencias pueden considerarse como texto en un
10
Instituto Tecnológico de Orizaba | Raúl Alejandro García Macarty
11
Instituto Tecnológico de Orizaba | Raúl Alejandro García Macarty
importante destacar que una palabra es una unidad básica con significado, a
diferencia de las secuencias de caracteres arbitrarias que carecen de significado.
Además, hacemos hincapié en que las palabras gramaticales, conocidas como
palabras de parada, que se utilizan exclusivamente con fines gramaticales, como
"un" o "el", no tienen significado y suelen ser excluidas durante el proceso de
preparación del texto.
Es fundamental que los datos se encuentren organizados de manera meticulosa.
Normalmente, utilizamos un formato de hoja de cálculo en el que las etiquetas de
las columnas se adaptan al ámbito específico y permanecen inalterables. Siguiendo
este diseño, recopilamos datos mediante la adición de filas, es decir, ejemplos, en
los cuales cada uno se evalúa utilizando los mismos atributos. Agregar una nueva
fila resulta ser una tarea relativamente sencilla desde una perspectiva mecánica. No
obstante, la incorporación de un nuevo atributo, o sea, una nueva columna, es más
compleja, ya que requiere una revisión de todos los ejemplos previos y la medición
del nuevo valor para cada uno de ellos. Una vez que disponemos de datos
organizados de esta manera, podemos realizar cálculos matemáticos de manera
convencional. Una sola fila o columna se considera un vector, y la hoja de cálculo
completa o la tabla de la base de datos se convierte en una matriz.
Un texto se considera como un artículo, como un artículo de noticias, un artículo de
revista, una patente o una carta, y está compuesto por un solo párrafo, un solo grupo
de párrafos y varios grupos de estos. Un resumen de un artículo técnico o un artículo
de noticias que contiene solo texto existe como un texto breve. Un texto que consta
de un solo grupo de párrafos, denominado sección, se podría considerar de tamaño
mediano. Un texto con múltiples grupos de párrafos, como un artículo con varias
secciones, se considera un texto extenso [4].
¿Qué tipos de problemas se pueden resolver?
Nos enfocamos principalmente en clasificación y predicción, dos áreas
fundamentales en minería de datos. Estas implican encontrar respuestas correctas
para nuevos ejemplos basados en experiencias pasadas. También abordamos
problemas como la categorización de textos. La clasificación se extiende a datos sin
etiquetas, donde organizamos los datos para asignar etiquetas futuras, conocido
como agrupamiento.
Aunque la similitud entre documentos es crucial para organizarlos, medirla es un
aspecto importante por sí mismo, especialmente en la recuperación de información.
Nuestras aplicaciones se centran en relaciones estadísticas y asociativas en lugar
de análisis lingüístico. A pesar de que una comprensión semántica más profunda
podría ser beneficiosa en el futuro, los enfoques estadísticos prevalecen debido al
aumento de recursos informáticos y la disponibilidad de datos digitales, como
12
Instituto Tecnológico de Orizaba | Raúl Alejandro García Macarty
Minería de Sentimientos
¿Qué es la minería de sentimientos?
El análisis de sentimientos, también conocido como minería de opiniones, es un
campo de estudio que se dedica a examinar las opiniones, emociones,
evaluaciones, actitudes y percepciones de las personas hacia una variedad de
cosas, como productos, servicios, organizaciones, individuos, temas, eventos y sus
características. Este ámbito de investigación abarca una amplia gama de enfoques
y, a veces, se le denomina de diferentes maneras, como análisis de sentimientos,
extracción de opiniones y análisis de subjetividad, entre otros términos. A pesar de
estas variaciones terminológicas, todos estos conceptos convergen en la misma
área de estudio: comprender cómo las personas sienten y opinan sobre distintos
aspectos. En el ámbito industrial, es más común utilizar el término "análisis de
sentimientos", mientras que en el ámbito académico se recurre tanto al "análisis de
sentimientos" como a la "minería de opiniones" de manera frecuente.
13
Instituto Tecnológico de Orizaba | Raúl Alejandro García Macarty
Como área de estudio, está fuertemente vinculada (o se puede ver como una
extensión de) la lingüística computacional, el procesamiento del lenguaje natural y
la minería de texto. A partir del análisis de emociones (psicología) y la evaluación
(teoría de la valoración), su objetivo principal es abordar las interrogantes que han
sido objeto de investigación en otros campos del discurso durante mucho tiempo,
empleando las nuevas herramientas que nos brindan la minería de datos y la
lingüística computacional.
Este campo generalmente se enfoca en analizar los elementos subjetivos, que se
definen como "expresiones lingüísticas de estados específicos en un contexto".
Estas expresiones suelen manifestarse a través de palabras individuales, frases o
incluso oraciones. A veces, se examinan documentos completos como una unidad
de sentimiento, pero existe un consenso general de que el sentimiento se encuentra
en unidades lingüísticas más pequeñas.
El análisis de sentimientos se enfoca en la polaridad de las expresiones en textos,
que suelen ser positivas o negativas, aunque también pueden variar en intensidad.
Además, se considera tanto la polaridad como la fuerza del sentimiento. Es
importante identificar el objeto o tema al que se refieren las opiniones en el texto,
como productos o características específicas. La extracción de estas características
ha sido ampliamente estudiada, y las menciones pueden ser explícitas o implícitas
en el texto.
Aplicaciones de análisis de sentimiento
Las opiniones son fundamentales en casi todas las actividades humanas porque
son influencias clave en nuestro comportamiento. Siempre que necesitamos tomar
una decisión, queremos conocer las opiniones de los demás [5].
Siempre que enfrentamos una decisión, deseamos conocer las perspectivas de
otros. En la realidad, tanto empresas como individuos buscan conocer las opiniones
de consumidores o el público en relación con productos y servicios. Los
consumidores también buscan la experiencia de otros usuarios antes de adquirir un
producto, y las opiniones sobre candidatos políticos antes de votar en elecciones.
En el pasado, solíamos preguntar a amigos y familiares cuando necesitábamos
consejos, mientras que las organizaciones realizaban encuestas y grupos de
enfoque para obtener opiniones públicas. Sin embargo, con la proliferación de las
redes sociales en línea, las personas y organizaciones cada vez más utilizan el
contenido de estas plataformas para tomar decisiones.
Actualmente, para comprar un producto, ya no es necesario limitarse a preguntar a
conocidos, ya que existen numerosas reseñas y discusiones en línea disponibles.
Del mismo modo, las organizaciones pueden acceder a una gran cantidad de
opiniones públicas sin necesidad de llevar a cabo encuestas o grupos de enfoque.
14
Instituto Tecnológico de Orizaba | Raúl Alejandro García Macarty
15
Instituto Tecnológico de Orizaba | Raúl Alejandro García Macarty
16
Instituto Tecnológico de Orizaba | Raúl Alejandro García Macarty
sí. La idea principal es que una opinión está compuesta por un sentimiento
(positivo o negativo) y un objetivo (aquello sobre lo que se opina). Identificar
el objetivo de una opinión es esencial, ya que una opinión sin un objetivo
claro tiene un valor limitado. Reconocer la importancia de los objetivos de las
opiniones también mejora nuestra comprensión del análisis de sentimientos
en general.
CONCLUSIONES.
La minería de datos, textos y sentimientos desempeña un papel crucial en la gestión
contemporánea, ya que proporciona valiosas percepciones a partir del vasto
conjunto de datos no estructurados disponibles en el mundo digital. Algunas
conclusiones fundamentales sobre su importancia son las siguientes:
17
Instituto Tecnológico de Orizaba | Raúl Alejandro García Macarty
AGRADECIMIENTOS.
Estimados miembros del Instituto Tecnológico de Orizaba y equipo de la Maestría
en Ingeniería Administrativa. Quiero expresar mi más sincero agradecimiento por
brindarme la increíble oportunidad de formar parte de este programa. El simple
hecho de haber sido aceptado ya representa un logro que valoro enormemente.
Quiero reconocer el arduo trabajo y la dedicación de todos ustedes, ya que son
quienes hacen posible que estudiantes como yo podamos expandir nuestros
horizontes y conocimientos. Esta maestría no solo me permitirá crecer
académicamente, sino que también me brindará herramientas para aplicar en mi
entorno laboral.
Estoy entusiasmado por sumergirme en esta experiencia, aprender de los
profesores y compañeros, y llevar todo lo aprendido a mi día a día profesional.
18
Instituto Tecnológico de Orizaba | Raúl Alejandro García Macarty
19
Instituto Tecnológico de Orizaba | Raúl Alejandro García Macarty
REFERENCIAS.
[1] K. J. Cios, W. Pedrycz, R. W. Swiniarski, y L. A. Kurgan, Data Mining A
Knowledge Discovery Approach. Springer, 2007.
[2] F. Gorunescu, Data Mining: Concepts, Models and Techniques, vol. Volume
12. Springer, 2011.
[3] S. M. Weiss, N. Indurkhya, T. Zhang, y F. J. Damerau, Text mining : predictive
methods for analyzing unstructured information. Springer, 2005.
[4] T. Jo, Text Mining Concepts, Implementation, and Big Data Challenge.
Springer, 2019. doi: https://doi.org/10.1007/978-3-319-91815-0.
[5] B. Liu, Sentiment Analysis and Opinion Mining. Morgan & Claypool Publishers,
2012.
[6] C. Sammut y G. I. Webb, Encyclopedia of Machine Learning and Data Mining,
Segunda edición. Springer US, 2017. doi: 10.1007/978-1-4899-7687-1
20