Sentiment Analysis For Mobile SNS Data - En.es

50 Int'l Conf.
Los avances en el análisis del Big Datos | ABDA'14 |
Sentiment Analysis for Mobile Data SNS
SeonHwan Kim Il-Kyu Ha, Bong-Hyun Ahn Atrás y Byoungchul

Departamento de Ingeniería Informática, Universidad Yeungnam, Gyeongsan, Gyeongbuk, Corea
datos del documento [1]. Con el fin de extraer información significativa de un

Abstracto - Todos los días una gran cantidad de diversos datos se han generado todos
número de datos no estructurados en SNS, se necesita el proceso de datos no
los días con respecto a las opiniones individuales y las preferencias sobre los
estructurados. Varias tecnologías para el procesamiento de los datos no
contenidos de servicios de redes sociales (SNS). Estos datos podrían afectar en gran
estructurados se estudian centrando en el análisis morfológico. Sin embargo,
medida a diversos campos de nuestra sociedad como la política, la opinión pública, la
podrían existir barreras para el análisis de datos tales como palabra símbolo y
economía, los servicios y entretenimientos. Es necesario extraer nueva información a
nueva palabra de moda de los jóvenes. Por esta razón, gran procesamiento y
partir de datos del SNS y para comprender la verdadera intención de los usuarios o
análisis de datos sensibles utilizando la computadora se ha vuelto más difícil.
clientes. Para extraer la información importante, se requiere varias técnicas para
analizar una gran cantidad de datos SNS, extraer datos significativos de ellos, y
generar nueva información. En este trabajo se presenta un método eficaz que puede
procesar varios datos no estructurados grandes en las redes sociales, y el extracto
Por lo tanto, investiga en la información extracto de minería de texto en los
datos de texto semi-estructuradas o atípicos basados en las técnicas de
procesamiento de lenguaje natural se han desarrollado [57]. Están utilizando
la información para el sentimiento y generan preferencias de
algoritmo estadístico, periódicos basados en aprendizaje automático para extraer
los usuarios de confianza información. los
información significativa y para purificar la información de los datos de texto de la
método propuesto muestra el tiempo de O (n) de procesamiento como el número de datos
masa. Además, la investigación sobre la minería opinión para determinar la
aumenta.
evaluación de la preferencia positivo, negativo, neutral en el texto también se ha
llevado a cabo [8-9].
palabras clave: Big data, SNS, sentimiento
En la actualidad, una variedad de proyectos de código abierto para el

1. Introducción
procesamiento de grandes volúmenes de datos están en curso nombrando
Servicio de Red Social (SNS) es ampliamente atendida por los teléfonos ecosistema de Hadoop (sistema ECO Hadoop) [10]. Base de datos que se utiliza para
inteligentes y sus usuarios se aumentó muy rápidamente en los últimos años. procesar los datos grandes, utilice NoSQL (No-Only SQL) para el almacenamiento y
Además, una gran cantidad de datos para una variedad de opiniones e intereses recuperación de datos utilizando el modelo de consistencia menos restrictivas que las
personales se generan de forma exponencial. Parte de la información crítica de los bases de datos relacionales tradicionales [11]. Como bases de datos relacionales
datos SNS podría generar un gran impacto a la formación de la opinión pública en como RDBMS, NoSQL utiliza una base de datos en función de la situación. Muchos
diversos campos como la política, economía, servicio y entretenimiento. Es estudios sobre la base de datos NoSQL está en marcha en el mundo académico y la
necesario desarrollar métodos o algoritmos que extraen y información significativa industria actual. Típicamente, Google BigTable, Amazon DynamoDB, Apache HBase
proceso de una gran cantidad de datos generados por el SNS. También se de proyectos de código abierto, Cassandra, MongoDB son representativos [10] [12]
requiere para capturar opiniones en tiempo real y utilizar esta información para [13] [14] [16]. En particular, MongoDB que se utilizan en este estudio se clasifica a una
diversos campos de aplicación y representarlos con la visualización. base de datos de tipo de CP con la tolerancia de partición y consistencia basado en la
teoría (consistencia, disponibilidad, tolerancia partición) de CAP.
Proponemos un método de procesamiento de grandes volúmenes de datos que puede

manejar de manera eficiente diversos datos no estructurados que se obtiene de una gran
cantidad de datos SNS. Además, sugerimos algoritmos de análisis de sentimiento, que puede El sentimiento es la emoción que sentimos en mente y sucede que
extraer el sentimiento algunas obras o fenómenos [16]. Sentiment Analysis es un proceso que
información y preferencias clasificar y cambios de los clientes sobre una serie de cuestiones descubre y extrae la información subjetiva de los datos originales mediante la
particulares a medida que pasa el tiempo. utilización de lingüística computacional, procesamiento del lenguaje natural y
análisis de texto [16]. Los estudios que analizan el sentimiento de grandes
volúmenes de datos se han desarrollado [17-19]. De trabajo para analizar el tipo
de sentimiento y clasificación, se puede dividir en tres etapas de manera
2. Trabajo relacionado
significativa. En el primer paso, la frase en la que se incluye información de
La mayoría de los datos generados en el servicio al SNS son datos no estructurados sensibilidad para expresar pensamientos y sentimientos subjetivos se extrae. En
ya que los datos no han sido estandarizados y su estructura y forma son tan complejos el siguiente paso, la polaridad de la sentencia o documento se clasifica como
diferencia de los datos de imagen de vídeo y positiva,
Int'l Conf. Los avances en el análisis del Big Datos | ABDA'14 | 51
negativa o neutral. En el paso final, una clasificación de la intensidad determina la

3.3 Funciones de MapReduce
fuerza subjetividad de documentos de texto [20-21].
MapReduce es un marco de software desarrollado por Google para
apoyar la computación distribuida y la programación paralela utilizando el
Análisis 3 El sentimiento de no estructurados
concepto de función llamada mapa. En este trabajo, se clasifica en cuatro
Los datos SNS funciones especiales mapa. Ellos
realizar positivo / negativo contexto análisis,
Modelo 3.1 Sistema análisis morfológico, análisis de contador, el análisis de palabras prohibitivo
respectivamente. La Tabla 2 muestra 4 funciones propuestas y sus operaciones.
Proponemos un gran sistema de procesamiento de datos que puede manejar
de manera eficiente diversos datos del SNS no estructurados. El sistema propuesto
se compone de HDFS paralelo (Hadoop Distributed File System) y MapReduce.
Tabla 2. Diversión cciones del enviado propuesta Operaciones de funciones análisis de
HDFS paralelas que se basa en el ecosistema de Hadoop se utiliza para recoger y
sentimientos de análisis iment
diccionario de
guardar datos de forma fiable a partir de una variedad de datos SNS grande. Y
referencia
MapReduce [22] se utiliza para analizar grandes cantidades de datos no
función de análisis análisis de contexto usando frase
estructurados para el sentimiento del usuario de manera efectiva. Configuración del Diccionario contexto
positivo / negativo coincidencia de patrones
sistema propuesto se muestra en la Figura 1. positivo / negativo
contexto
eliminación de elementos
función de análisis diccionario de palabras
innecesarios,
morfológico positivo / negativo
cálculo del recuento resultado
función de análisis de creación de fichas

Token cálculo del recuento resultado “
palabras prohibidas diccionario de palabras

función de análisis cálculo de de
puntuación lo la
prohibido
palabra prohibidas
En primer lugar, se realiza una función positiva / negativa análisis

contextual. Se examina el contexto de cada oración para mejorar la
precisión y se somete a coincidencia de patrón con el diccionario contexto
negativo o el diccionario contexto positivo. Y se cuenta el número de
contexto positivo y negativo, si el número de la palabra positiva es igual al
número de palabras negativas, la sentencia se considera como positiva y se
Figura 1. El sistema propuesto
transfiere al análisis morfológico si el análisis contextual no clasifica
contexto. Algoritmo para el análisis contextual se muestra como la Figura 2.
3.2 Composición de HDFS
HDFS es un sistema de procesamiento de archivos que tiene la estructura de

procesamiento distribuido. Se ha configurado como un servidor paralelo se muestra en la
Figura 1. El sistema está conectado en paralelo usando cuatro servidores basados en En segundo lugar, se realiza una función de análisis morfológico. Esta
Linux y cada nodo trozo para almacenar datos se establece en 64 MB. Se duplica el función elimina un componente innecesario tales como símbolos especiales
servidor de nombres utilizando el NFS para la recuperación de desastres. Funciones de los en el análisis utilizando el analizador morfológico. Y cuenta mediante la
servidores propuestos se describen en la Tabla 1. comparación de la sentencia a los diccionarios cláusula positivos y
negativos. Si el valor del contador positivo es igual a la del contador
negativo, la frase es tratado como positivo. Si el analizador morfológico no
Tabla 1. Servidores HDFS clasifica a la polaridad, la sentencia se pasa al análisis simbólico.
Servidor componentes funciones

servidor principal de forma paralela
NameNode,
nodo de distribución proceso Nombre
PrimaryServer DataNode
(control de otros servidores) nodo de En tercer lugar, se realiza el análisis del token. Después de separar las
(Nodo Maestro) MapReduce,
datos, datos de carga fichas por el espacio de la frase de origen, la función de conteo de palabras
orugas
positivas y negativas palabra mediante la comparación de los diccionarios
Secondary servidor de copia de seguridad de
SecondaryServer (nodo negativos y positivos. Si el valor del contador positivo es igual a la del contador
NameNode servidor principal
esclavo 1) negativo, la frase es tratado como positivo. Si el análisis token no clasificar a la
DataNode nodo de datos, carga de datos
polaridad, la sentencia se pasa a la palabra prohibición análisis.
DataServer1 (nodo
esclavo 2)
DataServer2 (nodo En cuarto lugar, se realiza un análisis prohibitivo. Se calcula la puntuación

esclavo 3) prohibición basada en el diccionario de prohibición. Algoritmo
52 Int'l Conf. Los avances en el análisis del Big Datos | ABDA'14 |
para el análisis morfológico, análisis de análisis y palabra prohibición de contadores se Tabla 3. Diccionarios para el análisis de opiniones
describe como Figura 3.
Diccionario Papel solicitud
// Análisis del contexto Contexto calcular el número de contexto positivo en la

// palabra clave de entrada, fuente positivo frase de origen / conjunto de patrones de Análisis del contexto
// palabra clave: palabra objetivo para la toma de la fuente de positivo o negativo sentimiento //: datos de Diccionario contexto positivos
origen de formato de texto que es procesado por HDFS
palabra clave de entrada y la fuente Inicializar resultado // un criterio para la Contexto calcular el número de contexto negativo en la
decisión sentimiento // pre-procesamiento negativo frase de origen / conjunto de patrones de “
Diccionario contexto negativos
Cambiar la palabra clave para minúscula cambiar la fuente a
minúsculas Elimina los caracteres innecesarios en el texto Palabra calcular el número de palabra positiva en
Morfológico / A
fuente Inicializar positive_count y negative_count positivo oración fuente / conjunto de patrones de
Análisis ken
Diccionario palabras positivas
// Análisis del contexto
Obtener la unidad sentencia mínima de la fuente Palabra calcular el número de palabra negativa en la frase
// Cálculo de la positive_count y negative_count negativo de origen / conjunto de patrones de palabras “

si (unidad mínima frase == positivo) entonces si positive_count ++ (unidad mínima Diccionario negativas
frase == negativo), entonces negative_count ++ Repita este paso hasta que no haya
Prohibido calcular el número de palabras prohibidas en la
unidad mínima condena Prohibido Palabra
// Cálculo del resultado por positive_count y negative_count Palabra frase de origen / conjunto de palabras prohibidas
Análisis
si (positive_count == 0 y == negative_count 0), entonces Diccionario
resultado = 0 // indecidible
si (positive_count == negative_count) entonces
resultado = 1 // positivo
resultado otra cosa = positive_count - negative_count
4 Experimento y Resultados
Figura función de análisis 2. Contexto 4.1 Recogida de datos y Medio Ambiente Experimental
3.4 Diccionarios para Sentiment Analysis

La recogida de datos de rendimiento del sistema propuesto se analiza a través
Los diccionarios propuestos utilizan cinco funciones de MapReduce. Se trata de del Twitter y Topsy. Topsy analiza la actividad de los usuarios en los servicios del SNS
un diccionario positivo contexto, un diccionario contexto negativo, un diccionario de la como Google Plus y Twitter. Topsy proporciona los datos analizados mediante el
palabra positiva, un diccionario de palabras negativo y un diccionario de palabras análisis de cerca de 500 millones de datos por día. Después de la adquisición de los
prohibidas. En el diccionario de la palabra prohibición, que se compone de la polaridad y datos históricos, Twitter4J se utiliza para recopilar datos para los datos continuos
la puntuación. El papel de cada diccionario se muestra como la Tabla 3. incrementales. Twitter ofrece sólo un dato de la semana y la clave que se pueden
utilizar para consultar 450 durante 15 minutos. En este estudio, un módulo de recogida
de datos es ejecutar cada 4 horas usando el rastreador.
//Análisis morfológico - si (resultado == 0) en la etapa anterior

Fuente de entrada Inicializar resultado-s // un criterio para la decisión sentimiento
// fuente de pre-procesamiento
ambiente experimental del sistema propuesto para análisis de rendimiento

Eliminar los caracteres innecesarios en el texto fuente
positive_count_s y negative_count_s Inicializar se describe en la Tabla 4. El sistema propuesto se compone de cuatro servidores
// Cálculo de los positive_count_s y negative_count_s utilizando // el diccionario la paralelos basados en Hadoop y utiliza los 6,3 CentOS x64 como un sistema
palabra positiva / negativa
Calcular positive_count_s, negative_count_s Repita este paso hasta
operativo.
que no hay una unidad de morfemas
si (positive_count_s == 0 y negative_count_s == 0), entonces el resultado-s = 0 si
(positive_count_s == negative_count_s) entonces
Tabla 4. Entorno Experimental
Resultados-s = positive_count_s demás
componentes Roles
Resultados-s = positive_count_s - negative_count_s
// Análisis simbólico - si (resultado-s == 0) en la etapa anterior
crear fichas Utilizar de Hadoop para el almacenamiento distribuido Apoyo entorno Java
Inicializar positive_count_s y negative_count_s OS, RE para procesar algo de lógica de negocios
// Cálculo de los positive_count_s y negative_count_s utilizando // el diccionario la
palabra positiva / negativa
Calcular positive_count_s, negative_count_s Repita este Rastreador, Capa Cadenas: La recopilación de los datos de origen de diversos SNS HDFS: Sistema de
paso hasta que no hay un token HDFS archivos de distribución, el almacenamiento de datos
si (positive_count_s == 0 y negative_count_s == 0), entonces el resultado-s = 0 si
(positive_count_s == negative_count_s) entonces
Resultados-s = positive_count_s demás
MapReduce
Análisis frase, minería de textos, Sentiment Analysis
capa
Resultados-s = positive_count_s - negative_count_s
// Análisis de palabras prohibidas - si (resultado-s == 0) en la etapa anterior
// Cálculo de los positive_count_s y negative_count_s utilizando // el diccionario de MongoDB Almacenamiento de resultados analizados por MapReduce en MongoDB
palabras prohibidas
Calcular positive_count_s, negative_count_s resultado-s =
positive_count_s - negative_count_s WAS, Servidor
Soporte de aplicaciones Web utilizando los resultados analizados
Web
Figura 3. Análisis de morfológica, palabra token y prohibido

de recursos mediante la distribución de la carga de los datos. El nodo maestro utiliza más
4.2 Análisis y Evaluación
recursos de memoria que los nodos esclavos.
Las cuatro pruebas siguientes se han llevado a cabo para analizar el
rendimiento del sistema propuesto. En primer lugar, se trata de un experimento del
rendimiento del sistema de acuerdo a la cantidad de datos. La prueba del tiempo de
carga del sistema y la adquisición se realiza con siete conjuntos de datos de Twitter en
la Tabla 5. Cada dato se recopila usando la API de Topsy.
Mesa 5. Los conjuntos de datos fo r experimentar una análisis d

número de período de
Número de datos API
conjunto de datos extracción (días)
1 2106 1 Topsys API
2 11.672 6 “
3 20000 10 “
4 40788 20 “
Figura 5. Uso de la memoria de datos de rastreo y HDFS Cargando
5 79080 36 “
6 90014 44 “
7 100497 52 “ En la Figura 6, esclavo SN1 nodo y espectáculo SN2 nodo esclavo que los
usos de la CPU son de máximo 2,8% a 0,0% mínimo. Pero el SN3 nodo
esclavo muestra el uso de la CPU es de mínimo 0,0% hasta 11,4%. La razón
La Figura 4 muestra una comparación de tiempo de carga HDFS y el tiempo de es que el nodo esclavo SN3 carga datos en el procesamiento paralelo y
rastreo para cada conjunto de datos. Figura 5 y 6 muestra la carga carga de la CPU y la distribuido. El nodo maestro muestra el uso de la CPU es de 5,0% hasta
memoria de cada nodo en HDFS cuando cada conjunto de datos ha apilado y se arrastró.
En el caso de 2106 conjunto de datos, tiempo de rastreo es de 6 segundos y el tiempo 7,9%. Por lo tanto, el sistema propuesto proporciona un entorno estable
HDFS de carga es de 1 segundo. En el caso de 100.497 conjunto de datos, tiempo de cuando se recoge y carga datos.
rastreo es de 70 segundos y el tiempo HDFS de carga es de 10 segundos como se muestra
en la Figura 4. El tiempo de procesamiento se incrementa en HDFS tiempo de carga y
rastreo tiempo en proporción al número de datos. Por lo tanto, la carga de la red y la carga
del sistema mediante la recopilación y apilar datos muestran muy cerca del sistema
propuesto, la colección de datos estable y la carga de datos se procesan en unos pocos
segundos.
Figura 6. Uso de la CPU para los datos de rastreo y HDFS Loading
Figura 4. Tiempo de arrastre y HDFS tiempo de carga El uso de la
memoria de esclavo SN1 nodo a esclavo SN3 nodo ha utilizado máximo
3,93% y mínimo 0,03%. El nodo maestro M, ha utilizado desde el máximo
7,31% al mínimo
0,6% como se muestra en la Figura 5. Los nodos esclavos utilizan memoria pequeña Figura 7. Tiempo de Procesamiento MapReduce y Sentiment Analysis
54 Int'l Conf. Los avances en el análisis del Big Datos | ABDA'14 |
tiempo de análisis sentimiento y la carga del sistema se prueban mediante el aumento

del número de datos. El experimento se ejecuta en el grado del tiempo de carga y el análisis
del sistema para el análisis de sentimiento. La Figura 7 muestra la comparación del tiempo de
análisis de los sentimientos para cada conjunto de datos. La figura 8 y 9 muestran la carga de
memoria y carga de la CPU para cada nodo. El tiempo de análisis sentimiento lleva desde 68
segundos a 35 segundos para cada 7 conjuntos de datos. El tiempo de análisis aumenta
linealmente con el número de datos como se muestra en la Figura 7.
En la Figura 8, el nodo maestro no procesa análisis real pero gestionar

nodos esclavos. Su uso de la CPU es baja cuando los nodos esclavos utilizan la
mayor parte de los recursos de la CPU. Cuando el número de conjunto de datos es
menor que 40000, cada uno procesa datos nodo esclavo en paralelo. Cuando el
número de conjunto de datos es mayor que 40.000, todos los nodos esclavos Figura 9. consumo de memoria de procesamiento MapReduce y Sentiment
utilizan para maximizar los recursos de la CPU de acuerdo a la cantidad de datos. Analysis
Por lo tanto, el sistema propuesto se lleva a cabo de manera estable a medida que
aumenta el número de datos. Esto es porque el sistema propuesto se acopla en
modo paralelo si se aumentan las cargas de CPU. En la Figura 9, el uso de
memoria del nodo maestro es baja, pero la carga del uso de la memoria de nodos
esclavos se distribuye a cada nodo esclavo y todos los esclavos haber equilibrado
para el análisis. Por lo tanto el sistema propuesto distribuye la carga de trabajo
para los nodos esclavos por igual y mantiene el equilibrio de carga. norte) Tiempo de
procesamiento. Proporciona un entorno de análisis distribuido estable sin
procesamiento por un solo nodo.
Figura 10. Comparación entre los resultados de las funciones propuestas y los
resultados de la clasificación manual
5. Conclusiones
Se propone un sistema de procesamiento de grandes volúmenes de datos y
algoritmos para analizar el sentimiento de los usuarios de las grandes cantidades de
datos no estructurados generados por el SNS. El sistema propuesto se compone de un
sistema HDFS paralelo basado Hadoop ecosistemas y cuatro funciones especiales
primarios para el MapReduce. Además, utiliza los cinco tipos de diccionario de datos
para el análisis de opiniones. El sistema propuesto procesa los datos con el tiempo de
carga pequeña como el número de datos aumenta. Los trabajos que analizan no son
Figura 8. consumo de CPU de Procesamiento de MapReduce y Sentiment procesadas por un nodo, pero distribuyen a todos los nodos para el equilibrio de carga.
Analysis Cuando las funciones de análisis sentimiento propuestos han procesado los datos, la
carga del sistema se distribuye a todos los nodos esclavos por igual. Los resultados de
La precisión del análisis de los sentimientos se mide. palabra "feliz" se utiliza análisis de emociones del sistema propuesto son muy cercanos a los de los trabajos
para analizar el sentimiento. La Figura 10 muestra los resultados de comparación del manuales. Por lo tanto el sistema propuesto distribuye la carga de trabajo para los
sistema propuesto y los trabajos manuales. En la Figura 10, la relación de error de nodos esclavos por igual y mantiene el equilibrio de carga. Por favor, dirija cualquier
sentimiento neutral es relativamente alta y la tasa de error para el sentimiento positivo y pregunta de este documento para Byoungchul Ahn por correo electrónico
negativo es relativamente pequeño. Los resultados de análisis de emociones del (b.ahn@yu.ac.kr).
sistema propuesto son muy cercanos a los de los trabajos manuales.

[13] S. Sivasubramanian, “Amazon DynamoDB: un servicio de base de datos no

6 Reconocimiento
relacionales perfectamente escalable”, Proc. 2012 de la ACM SIGMOD'12,
Este trabajo (Subvenciones Nº C0146250) fue apoyada por Business for I + D pp.729-730, 2012
Cooperativa entre la industria, la academia, y el Instituto de Investigación financiado
Corea Administración de Pequeñas y Medianas Empresas en el año 2013. [14] Lars George, “HBase: The Definitive Guide”,
O'Reilly, 2011
[15] Kristina Chodorow, “MongoDB: La guía definitiva 2ª Edición”,

7. Referencias O'Reilly, 2013
[16] B. Pang,, L. Lee, "Opinión Minería y Sentiment Analysis," Fundamentos y

[1] McKinsey, 2011, “Big Data: la próxima frontera para la innovación, la Tendencias en la Recuperación de Información: Vol.2, no.1-2, pp.1-135 de 2008
competencia, y Productividad”, [En línea.
McKinsey & Company, http://www.mckinsey.com/ [2]
[17] S. Mukherjee, P. Bhattacharyya, “Análisis El sentimiento en Twitter
Chang-Shing Lee, Mei-Hui Wang, “Automatizado
con ligero Análisis del Discurso”, Proc. COLING de 2012, pp.1847-1864,
la construcción de ontologías para documentos de texto estructurado”, Datos y
2012 [18] N. Godbole, S. Skiena, “Sentiment Analysis a gran escala
la ingeniería del conocimiento, vol.60, Iss.3, pp.547-566, 2007 [3] B. Lee, J.
para Noticias y Blogs”, Proc. del ICWSM'2007 de 2007
Lim, J. Yoo,“Utilización de Análisis Social Media utilizando big Data”, Jour. de
los Contenidos Corea Asociación, Vol.13, No.2, pp.211-219, 2013
[19] A. Pak, P. Paroubek, “Twitter como un corpus de Análisis y Opinión El

[4] M. Song, S. Kim, “Un estudio de la mejora de la predicción del modelo mediante sentimiento de Minería”, Proc. del LREC'2010 de 2010
el análisis de los datos método grande”, El Diario de Política Digital y Gestión,
Vol.11, No. 6, pp.103-112, 2013
[20] H. Tang, S. Tan, X. Cheng, "Un estudio sobre la detección de emociones de

[5] Ah Tan, “Minería de textos: El estado de la técnica y los desafíos”, comentarios," Expert Systems with Applications, Vol.36, pp.10760-10773 de 2009
Proc. del PAKDD 1999, 1999
[6] P. Mei, C. Xhai, “El descubrimiento de patrones temáticos evolutivos de texto: una [21] Seth Gilbert, Nancy Lynch, la conjetura de Brewer y la viabilidad de los
exploración de la minería de texto temporal”, Proc. de la 11ª Conferencia servicios web, de partición, tolerante disponibles consistentes, ACM SIGACT
Internacional ACM SIGKDD el descubrimiento de conocimiento en la minería de Nueva 33 (2), pp. 51-59, 2002.
datos, pp.198-207, 2005 [7] K. Park, K. Hwang, “Un sistema de minería de Bio-Texto
[22] J. Dean, S. Ghemawat, “MapReduce; Simplificado de Proceso de Datos en
basado en el procesamiento del lenguaje natural”, Jour. KISS: prácticas de
grandes racimos”, Communications of the ACM, Vol.51, No.1, pp.107-113, 2008
computación, Vol.17, No.4, pp.205-213, 2011
[8] B. Pang, L. Lee, “Opinión Minería y Sentiment Analysis”, Fundamentos y

Tendencias en la Recuperación de Información, Vol.2, no.1-2, pp.1-135 de
2008
[9] B. Kang, M. Song, “Un estudio sobre el dictamen de Minería de periódicos
Textos basado en Tema Modelado”, Jour. de la Biblioteca de Corea y Sociedad
de la Información Ciencia, vol.47, n ° 4, pp.315-334, 2013 [10]
http://hadoop.apache.org/
[11] Jing Han, Kian Du, “Encuesta sobre la base de datos NoSQL”, Proc. de la 6ª
Conferencia Internacional sobre Pervasive Computing y Aplicaciones (ICPCA),
pp.363-366, 2011
[12] Fay Chang, RE Gruber, “Bigtable: un sistema distribuido de almacenamiento

para datos estructurados”, ACM transations en el sistema informático, Vol.26, Iss.2
de 2008

Sentiment Analysis For Mobile SNS Data - En.es

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Sentiment Analysis For Mobile SNS Data - En.es

Cargado por

Copyright:

Formatos disponibles

50 Int'l Conf.

Los avances en el análisis del Big Datos | ABDA'14 |

Sentiment Analysis for Mobile Data SNS

SeonHwan Kim Il-Kyu Ha, Bong-Hyun Ahn Atrás y Byoungchul

datos del documento [1]. Con el fin de extraer información significativa de un

En la actualidad, una variedad de proyectos de código abierto para el

Proponemos un método de procesamiento de grandes volúmenes de datos que puede

negativa o neutral. En el paso final, una clasificación de la intensidad determina la

función de análisis de creación de fichas

palabras prohibidas diccionario de palabras

En primer lugar, se realiza una función positiva / negativa análisis

HDFS es un sistema de procesamiento de archivos que tiene la estructura de

Servidor componentes funciones

DataServer2 (nodo En cuarto lugar, se realiza un análisis prohibitivo. Se calcula la puntuación

// Análisis del contexto Contexto calcular el número de contexto positivo en la

// Cálculo de la positive_count y negative_count negativo de origen / conjunto de patrones de palabras “

3.4 Diccionarios para Sentiment Analysis

//Análisis morfológico - si (resultado == 0) en la etapa anterior

ambiente experimental del sistema propuesto para análisis de rendimiento

Figura 3. Análisis de morfológica, palabra token y prohibido

Mesa 5. Los conjuntos de datos fo r experimentar una análisis d

1 2106 1 Topsys API

Figura 6. Uso de la CPU para los datos de rastreo y HDFS Loading

Figura 4. Tiempo de arrastre y HDFS tiempo de carga El uso de la

memoria de esclavo SN1 nodo a esclavo SN3 nodo ha utilizado máximo

3,93% y mínimo 0,03%. El nodo maestro M, ha utilizado desde el máximo

tiempo de análisis sentimiento y la carga del sistema se prueban mediante el aumento

En la Figura 8, el nodo maestro no procesa análisis real pero gestionar

negativo es relativamente pequeño. Los resultados de análisis de emociones del (b.ahn@yu.ac.kr).

sistema propuesto son muy cercanos a los de los trabajos manuales.

[13] S. Sivasubramanian, “Amazon DynamoDB: un servicio de base de datos no

[15] Kristina Chodorow, “MongoDB: La guía definitiva 2ª Edición”,

[16] B. Pang,, L. Lee, "Opinión Minería y Sentiment Analysis," Fundamentos y

los Contenidos Corea Asociación, Vol.13, No.2, pp.211-219, 2013

[19] A. Pak, P. Paroubek, “Twitter como un corpus de Análisis y Opinión El

[20] H. Tang, S. Tan, X. Cheng, "Un estudio sobre la detección de emociones de

[8] B. Pang, L. Lee, “Opinión Minería y Sentiment Analysis”, Fundamentos y

[9] B. Kang, M. Song, “Un estudio sobre el dictamen de Minería de periódicos

Textos basado en Tema Modelado”, Jour. de la Biblioteca de Corea y Sociedad

de la Información Ciencia, vol.47, n ° 4, pp.315-334, 2013 [10]

[12] Fay Chang, RE Gruber, “Bigtable: un sistema distribuido de almacenamiento

También podría gustarte