Documentos de Académico
Documentos de Profesional
Documentos de Cultura
eliminación de elementos
función de análisis diccionario de palabras
innecesarios,
morfológico positivo / negativo
cálculo del recuento resultado
para el análisis morfológico, análisis de análisis y palabra prohibición de contadores se Tabla 3. Diccionarios para el análisis de opiniones
describe como Figura 3.
Diccionario Papel solicitud
Figura función de análisis 2. Contexto 4.1 Recogida de datos y Medio Ambiente Experimental
componentes Roles
Resultados-s = positive_count_s - negative_count_s
// Análisis simbólico - si (resultado-s == 0) en la etapa anterior
crear fichas Utilizar de Hadoop para el almacenamiento distribuido Apoyo entorno Java
Inicializar positive_count_s y negative_count_s OS, RE para procesar algo de lógica de negocios
// Cálculo de los positive_count_s y negative_count_s utilizando // el diccionario la
palabra positiva / negativa
Calcular positive_count_s, negative_count_s Repita este Rastreador, Capa Cadenas: La recopilación de los datos de origen de diversos SNS HDFS: Sistema de
paso hasta que no hay un token HDFS archivos de distribución, el almacenamiento de datos
si (positive_count_s == 0 y negative_count_s == 0), entonces el resultado-s = 0 si
(positive_count_s == negative_count_s) entonces
Resultados-s = positive_count_s demás
MapReduce
Análisis frase, minería de textos, Sentiment Analysis
capa
Resultados-s = positive_count_s - negative_count_s
// Análisis de palabras prohibidas - si (resultado-s == 0) en la etapa anterior
// Cálculo de los positive_count_s y negative_count_s utilizando // el diccionario de MongoDB Almacenamiento de resultados analizados por MapReduce en MongoDB
palabras prohibidas
Calcular positive_count_s, negative_count_s resultado-s =
positive_count_s - negative_count_s WAS, Servidor
Soporte de aplicaciones Web utilizando los resultados analizados
Web
de recursos mediante la distribución de la carga de los datos. El nodo maestro utiliza más
4.2 Análisis y Evaluación
recursos de memoria que los nodos esclavos.
Las cuatro pruebas siguientes se han llevado a cabo para analizar el
rendimiento del sistema propuesto. En primer lugar, se trata de un experimento del
rendimiento del sistema de acuerdo a la cantidad de datos. La prueba del tiempo de
carga del sistema y la adquisición se realiza con siete conjuntos de datos de Twitter en
la Tabla 5. Cada dato se recopila usando la API de Topsy.
2 11.672 6 “
3 20000 10 “
4 40788 20 “
Figura 5. Uso de la memoria de datos de rastreo y HDFS Cargando
5 79080 36 “
6 90014 44 “
7 100497 52 “ En la Figura 6, esclavo SN1 nodo y espectáculo SN2 nodo esclavo que los
usos de la CPU son de máximo 2,8% a 0,0% mínimo. Pero el SN3 nodo
esclavo muestra el uso de la CPU es de mínimo 0,0% hasta 11,4%. La razón
La Figura 4 muestra una comparación de tiempo de carga HDFS y el tiempo de es que el nodo esclavo SN3 carga datos en el procesamiento paralelo y
rastreo para cada conjunto de datos. Figura 5 y 6 muestra la carga carga de la CPU y la distribuido. El nodo maestro muestra el uso de la CPU es de 5,0% hasta
memoria de cada nodo en HDFS cuando cada conjunto de datos ha apilado y se arrastró.
En el caso de 2106 conjunto de datos, tiempo de rastreo es de 6 segundos y el tiempo 7,9%. Por lo tanto, el sistema propuesto proporciona un entorno estable
HDFS de carga es de 1 segundo. En el caso de 100.497 conjunto de datos, tiempo de cuando se recoge y carga datos.
rastreo es de 70 segundos y el tiempo HDFS de carga es de 10 segundos como se muestra
en la Figura 4. El tiempo de procesamiento se incrementa en HDFS tiempo de carga y
rastreo tiempo en proporción al número de datos. Por lo tanto, la carga de la red y la carga
del sistema mediante la recopilación y apilar datos muestran muy cerca del sistema
propuesto, la colección de datos estable y la carga de datos se procesan en unos pocos
segundos.
7,31% al mínimo
0,6% como se muestra en la Figura 5. Los nodos esclavos utilizan memoria pequeña Figura 7. Tiempo de Procesamiento MapReduce y Sentiment Analysis
54 Int'l Conf. Los avances en el análisis del Big Datos | ABDA'14 |
Figura 10. Comparación entre los resultados de las funciones propuestas y los
resultados de la clasificación manual
5. Conclusiones
Se propone un sistema de procesamiento de grandes volúmenes de datos y
algoritmos para analizar el sentimiento de los usuarios de las grandes cantidades de
datos no estructurados generados por el SNS. El sistema propuesto se compone de un
sistema HDFS paralelo basado Hadoop ecosistemas y cuatro funciones especiales
primarios para el MapReduce. Además, utiliza los cinco tipos de diccionario de datos
para el análisis de opiniones. El sistema propuesto procesa los datos con el tiempo de
carga pequeña como el número de datos aumenta. Los trabajos que analizan no son
Figura 8. consumo de CPU de Procesamiento de MapReduce y Sentiment procesadas por un nodo, pero distribuyen a todos los nodos para el equilibrio de carga.
Analysis Cuando las funciones de análisis sentimiento propuestos han procesado los datos, la
carga del sistema se distribuye a todos los nodos esclavos por igual. Los resultados de
La precisión del análisis de los sentimientos se mide. palabra "feliz" se utiliza análisis de emociones del sistema propuesto son muy cercanos a los de los trabajos
para analizar el sentimiento. La Figura 10 muestra los resultados de comparación del manuales. Por lo tanto el sistema propuesto distribuye la carga de trabajo para los
sistema propuesto y los trabajos manuales. En la Figura 10, la relación de error de nodos esclavos por igual y mantiene el equilibrio de carga. Por favor, dirija cualquier
sentimiento neutral es relativamente alta y la tasa de error para el sentimiento positivo y pregunta de este documento para Byoungchul Ahn por correo electrónico
[6] P. Mei, C. Xhai, “El descubrimiento de patrones temáticos evolutivos de texto: una [21] Seth Gilbert, Nancy Lynch, la conjetura de Brewer y la viabilidad de los
exploración de la minería de texto temporal”, Proc. de la 11ª Conferencia servicios web, de partición, tolerante disponibles consistentes, ACM SIGACT
Internacional ACM SIGKDD el descubrimiento de conocimiento en la minería de Nueva 33 (2), pp. 51-59, 2002.
datos, pp.198-207, 2005 [7] K. Park, K. Hwang, “Un sistema de minería de Bio-Texto
[22] J. Dean, S. Ghemawat, “MapReduce; Simplificado de Proceso de Datos en
basado en el procesamiento del lenguaje natural”, Jour. KISS: prácticas de
grandes racimos”, Communications of the ACM, Vol.51, No.1, pp.107-113, 2008
computación, Vol.17, No.4, pp.205-213, 2011
http://hadoop.apache.org/
[11] Jing Han, Kian Du, “Encuesta sobre la base de datos NoSQL”, Proc. de la 6ª
Conferencia Internacional sobre Pervasive Computing y Aplicaciones (ICPCA),
pp.363-366, 2011