SENTIMIENTO NEURAL NETWORK FOR SENTIMENT ANALYSIS Adolfo Díaz-Zegarra, Christian Mergoza-Cortez, Diego Villar-Reyes, Jhon Carhuas Romero, Telesforo-Mallma Facultad de Ingeniería Industrial y de Sistemas, Universidad Nacional de Ingeniería, Lima, Perú
Palabras Clave: redes neuronales, sentimiento, minería de textos, análisis.
ABSTRACT
In this article
Keywords: networks, neural, sentiment, text mining, analysis.
I. INTRODUCCIÓN
El crecimiento de una empresa no depende
solo del aumento de las ventas o de mayores COVID-19, ha causado la migración de muchas utilidades, una parte vital de la empresa son empresas a la venta por medio de las redes sus clientes. En este sentido, el análisis de sociales, a esto se le conoce como e- sentimiento es una herramienta que permite commerce. El Perú no es ajeno a esto, muchas conocer de mejor manera a un público empresas han ampliado sus horizontes y objetivo a través de las opiniones o ahora hacen uso de las redes sociales. Otras comentarios que estos brindan. El análisis de empresas más grandes, como Falabella, han sentimiento se basa en la interpretación de los creado páginas webs para ofertar textos y determina si estos tienen una sus productos. connotación positiva o negativa. Así, una Un estudio realizado en Rusia muestra cómo a empresa puede tomar acción para conocer a través del uso de redes neuronales han sus clientes o a un público objetivo, lanzando descubierto que los comentarios que dejan lo campañas de marketing más precisas y clientes acerca de un producto, que eficientes. La dificultad para desarrollar esta previamente compraron, pueden influenciar inteligencia artificial es la diferencia de hasta en un 75.45% de las preferencias para los interpretaciones que se puede dar a un potenciales compradores de los productos de determinado comentario; un ejemplo podría una gran tienda de e-commerce ruso [1]. Sin ser un mensaje escrito con un evidente embargo, el análisis de sentimiento no solo es sarcasmo que solo es distinguible por un usado por las empresas, grandes inversores humano, además de que la mayoría de los pagan millones de dólares para conseguir comentarios que son divulgados por las redes información precisa y rápida acerca de las sociales son de habla coloquial de los clientes, acciones en la bolsa de valores. Si bien es en los que abundan la mala gramática y las cierto, que el precio de las acciones depende abreviaciones usadas por jóvenes. de muchos factores (información financiera En el contexto actual del avance de tecnología de la empresa, trending, noticias de impacto, y la reciente pandemia del información interna de la empresa, especulación, etc.), la obtención de información de estos factores es vital para realizar una inversión exitosa. Es aquí donde el análisis de sentimiento aplicado a las noticias acerca de una determinada empresa o acción puede marcar la diferencia entre comprar y vender miles de acciones [2].
II. REDES NEURONALES
Las redes neuronales son un pilar de la
inteligencia artificial. Son un modelo de creación cuyo sistema se basa en el funcionamiento del cerebro humano. Están C. APRENDIZAJE formadas por diferentes nodos que funcionan La función de aprendizaje establece una tarea a como neuronas, y que transmiten señales e resolver y las funciones que establecerán el información entre sí. Estas redes reciben conjunto de observaciones que permitirán resolver diferente información de entrada, la procesan la actividad en cuestión. Dentro de esta función, en conjunto y generan una salida con las hay tres grandes paradigmas de aprendizaje: el predicciones establecidas en función de lo que supervisado, el no supervisado y el aprendizaje por se haya programado. Su finalidad es la de refuerzo.[5] encontrar soluciones a determinados “problemas”.[3] El aprendizaje supervisado resuelve las tareas en base a un conocimiento previo para realizarlo. El A. MODELO DE LAS REDES no supervisado, al contrario, establece diferentes NEURONALES parámetros y plantea una solución en base a los mismos. Por último, en el aprendizaje de refuerzo Una red neuronal artificial es un esquema de no se dan los datos, pero se genera una respuesta computación distribuida inspirada en la en base a la relación de un agente con el medio estructura del sistema nervioso de los seres ambiente. humanos. La arquitectura de una red neuronal es formada conectando múltiples procesadores elementales, siendo éste un III. MÉTODO sistema adaptativo que posee un algoritmo Deep Learning - Long Short Term Memory para ajustar sus pesos (parámetros libres) para (LSTM) alcanzar los requerimientos de desempeño del problema basado en muestras 3.1 Origen representativas.[4] Según el estudio de Yu et al. En 2019, las técnicas de aprendizaje profundo se han B. MODELOS Y FUNCIONES DE LAS desarrollado y adoptado para extraer REDES NEURONALES información de diversos tipos de datos. Los modelos de las redes neuronales Las redes neuronales recurrentes estándar artificiales están basados principalmente en satisfacen la necesidad que se tiene de modelos matemáticos definidos por la función procesar datos secuenciales como texto, f: X→Y o una distribución más X o ambos X e Y; video, etc. Lo cual posibilita la actualización de aunque a veces los modelos también se la arquitectura en estados pasados y entradas asocian a algoritmos de aprendizaje.[5] actuales, pero hay un problema cuando la brecha entre datos de entrada relevantes es C. FUNCIÓN DE RED grande, la cual se denomina la desaparición y la explosión de gradiente. Esta función está basada en las Yang et al. en su investigación fue solucionado interconexiones de las neuronas biológicas y mediante la introducción de redes LSTM[6] en sus diferentes procesos de capas. La primera capa funciona como un sistema de 3.2 Arquitectura entrada que recibe los datos y los envía a la Antes de describir la red LSTM, vamos a segunda y tercera capa.[5] describir la topología de una red neuronal recurrente estándar simple. Segun Perez Sanjuan, una red recurrente es aquella que está conformada por neuronas recurrentes, presentan un bucle de retroalimentación, de modo que en cada instante de tiempo esta neurona recibe la entrada perteneciente a dicho instante x t y su salida o estado oculto en un instante de tiempo anterior st −1, de modo que la Donde W f ,U f , W i ,U i , W c ,U c , W o , U o son información adquiere carácter persistente lo matrices de pesos y b i , b f , bc ,b o vectores de hace propicio a este tipo de arquitectura sesgos. procesar secuencias. Procedemos a describir la LSTM, a diferencia El proceso interno que se realiza en estas unidades de tener como unidades neuronas recurrentes es el siguiente: estándar cuenta con las denominadas celdas LSTM. A continuación, la Figura 2 presenta su a. La unidad decide la información que será estructura y se detalla el proceso interno.[6] olvidada o descartada, para ello calcula f t . Esto produce que se cree un número entre 0 y 1. Para cada número en el estado de la celda C t−1 , donde 1 significa “mantener completamente” y 0, “olvidar completamente”. b. Posteriormente, la celda decide qué información debe almacenar en su memoria, para ello utiliza Ĉ t y i t . c. Luego, la unidad actualiza el estado antiguo C t−1 con el nuevo C t , para ello computa la expresión de C t . d. Finalmente, se determina la salida ht en función de una versión filtrada del estado de la celda.
Por cada instante de tiempo t, las celdas LSTM
procesan un conjunto de vectores: IV. VENTAJAS Y DESVENTAJAS
1. Por cada instante de tiempo t, las celdas LSTM A. VENTAJAS
procesan un conjunto de vectores: Las LSTM permiten un mayor análisis del f t=σ (W f . x t + U f . ht −1 +b f ) contexto que las redes neuronales recurrentes . 2. Se calculan los valores para la puerta de El uso de redes neuronales es tolerante a entrada y el valor candidato para los estados fallos, es decir, si parte de la red no trabaja de la capa LSTM en un tiempo t. Donde 𝑖𝑡 es el como debería ser. Solo dejará de funcionar la valor de la puerta de entrada en un tiempo t parte para la cual dicha neurona es y 𝜎 es la función de activación. significativa, con lo que el resto de neuronas tendrá un comportamiento normal. i t =σ (W i . x t +U i . ht−1 +bi ) B. DESVENTAJAS 3. Un vector de nuevos candidatos para el estado El uso de redes neuronales para el análisis de de la unidad: sentimientos necesitan un amplio procesamiento de datos para justamente poder definir un patrón, requiriendo así de Ĉ t=tan h ¿) altas capacidades de recursos computacionales. 4. Una puerta de salida: obtener el valor de sus puertas de salida y, como consecuencia, la El problema de las LSTM se abordó con las salida final ht de la capa LSTM BiLSTM, que constan de dos capas que se ejecutan o t=σ (W o . x t +U o . ht −1+ bo ) en ambos sentidos para considerar tanto el orden 5. La memoria de la unidad: secuencial de inicio a fin como el de fin a inicio, C t=i t . Ĉ t +f t .C t −1 sin embargo, si el costo computacional de las 6. Donde 𝑜𝑡 es el valor de la puerta de salida de la LSTM red LSTM y 𝜎 es la función de activación ya era alto, se hace aún mayor si utilizamos las BiLSTM. Es por esto, que en este estudio se ht =ot . tan h(C t ) Ĉt decidió utilizar las LSTM frente a las Bi-LSTM, si bien las últimas darían mejores resultados, los obtenidos por las LSTM ya son lo suficientemente representativos con 0.85 de precisión.[6]
4.ANÁLISIS DE RESULTADOS CONCLUSIONES AGRADECIMIENTOS
REFERENCIAS
[1] S- Smetanin, M. Komarov. (2019) Análisis de
sentimiento de reseñas de productos en Rusia utilizando Redes neuronales Convolucionales. XXI Conferencia IEEE sobre Informática Empresarial (CBI), 482-486. Disponible: https://ieeexplore.ieee.org/document/8807792 [2] P- Uhr, J. Zenkert, M. Fathi. (2014) Análisis de sentimiento en los mercados financieros. Un marco para utilizar la capacidad humana de asociación de palabras para analizar informes de noticias del mercado de valores. Conferencia IEEE sobre Sistemas, hombre y cibernética (SMC), 2014, 912-917. Disponible: https://ieeexplore.ieee.org/document/6974028 [3]https://blog.facialix.com/curso-de-redes- neuronales-en-python-aprendizaje-profundo-para- principiantes/ [4]https://ocw.ehu.eus/pluginfile.php/40137/ mod_resource/content/1/redes_neuro/contenidos/pdf/ libro-del-curso.pdf [5]https://www.threepoints.com/blog/redes- neuronales-definici%C3%B3n-caracter%C3%ADsticas [6]file:///C:/Users/Usuario/Downloads/75816%20(1).pdf