Entregable Modulo 2. Procesamiento Distribuido

Pontificia Universidad Javeriana Cali
Maestría en Ciencias de Datos | Gestión de Datos | Modulo 2. Procesamiento Distribuido

Reinoso. J, Solis. J, Sierra. E, Roman. O.
 Requerimiento del problema

Partiendo de lo planteado previamente, imagina que un profesional está realizando una investigación
sobre determinado tema y quiere saber cuántas veces aparecen determinadas palabras en una publicación
de carácter científico que piensa utilizar a modo de referencia bibliográfica en su propio trabajo
investigativo. Teniendo en cuenta que el artículo puede llegar a tener entre 15 y 20 páginas sería
complicado para el investigador contar por sí mismo las palabras por lo que desea usar una herramienta
que le permita procesar el texto y realizar el conteo en un menor tiempo.
Para resolver este problema debes tener en cuenta las dos herramientas que se estudian en esta Unidad.
Recuerda que cada herramienta utiliza un método de procesamiento distinto por lo que debes analizar
cómo realizar el conteo de palabras y seleccionar la herramienta que más se ajuste a tu hipótesis.
 Enfoque de desarrollo
Para el desarrollo de este requerimiento se hará el conteo de palabras del articulo “Machine Learning in
Materials Science” utilizando el método de Map reduce aprendido en este módulo. Para cumplir con este
propósito se utilizará la herramienta de Big Data Apache Hadoop, por otro lado, el código para el
procesamiento distribuido será construido en un entorno de trabajo en Visual Studio utilizando el lenguaje
de programación Python.
 Desarrollo del proyecto

Step 1. Preparación del articulo articulo “Machine Learning in Materials Science”, este
archive se convirtió a formato csv para poder ser leído.
Step 2. Creación de código Map Reduce en Python:
Step 3. Cargue del codigo Python y el arituclo en formato csv a Apache Hadoop
Step 4. Desde el CMD, se ingresa al sistema operativo de la maquina virtual y se

descargar los archivos del código Python y el articulo csv de forma local.
Step 5. Luego de configurar e instalar las versiones correctas de Python y mrjob, se

ejecuta el código el codigo Python con el procesamiento distribudo de Hadoop para el
archivo csv el cual contiene el articulo a analizar:
 Outputs & Resultados
Luego de correr el código desde el CMD, este ejecuta los pasos de map reduce y entrega el
conteo de cada palabra en el archivo:
Extrayendo el output arrojado en el cmd y ordenado los resultados por de mayor a menor
frecuencia, las palabras que con mayor número de veces aparecen en el articulo son las
siguientes:
of 392 used 49 A 23 Readcube 21 S, 18 methods 15 accuracy 12

and 300 al. 45 Copyright 23 See 21 and\" 18 set 15 compounds 12
to 183 Online 43 In 23 Terms 21 or 18 vector 15 not 12
\\"" 155 Wiley 43 into 23 [07/11/2022]. 21 B. 17 via 15 output 12
a 152 Library 42 rules 23 articles 21 M, 17 G, 14 structure 12
in 133 can 39 training 23 governed 21 feature 17 Phys 14 AL. 11
is 113 be 36 Commons 22 input 21 learning. 17 applied 14 DFT 11
learning 108 deep 35 Creative 22 25673165, 20 Deep 16 discovery 14 L, 11
on 95 which 34 been 22 ET 20 J 16 models 14 Mater. 11
data 83 an 32 (Labtiva 21 Figure 20 \of" 16 B, 13 Wang 11
are 82 | 32 (https://onlinelibrary.wiley.com/terms-and-conditions)
design 20 convolutional 16 D, 13 \FIGURE" 11
machine 77 of\" 29 21 it 20 layer 16 classification 13 learning, 11
by 74 A, 28 2019, 21 J, 19 method 16 computational 13
from 62 has 26 3, 21 properties 19 this 16 development 13
The 58 the\" 26 Conditions 21 such 19 Chem 15 high 13
with 56 based 25 Downloaded 21 Machine 18 \the" 15 quantum 13
materials 51 molecular 25 License\" 21 R, 18 each 15 Nature. 12
De parte del equipo de trabajo se establece u marco para continuar trabajando en el proyecto enfocados en
la limpieza de las palabras identificadas en por el mapper, sería de mucho valor que el mapper tuviera un
diccionario de referencia al momento de seleccionar una palabra con el fin de obtener palabras reales y
que el output no s vea afectado por caracteres especiales o demás contenido que no es de interés.

Entregable Modulo 2. Procesamiento Distribuido

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Entregable Modulo 2. Procesamiento Distribuido

Cargado por

Copyright:

Formatos disponibles

Pontificia Universidad Javeriana Cali

Maestría en Ciencias de Datos | Gestión de Datos | Modulo 2. Procesamiento Distribuido

 Requerimiento del problema

 Desarrollo del proyecto

Step 4. Desde el CMD, se ingresa al sistema operativo de la maquina virtual y se

Step 5. Luego de configurar e instalar las versiones correctas de Python y mrjob, se

 Outputs & Resultados

of 392 used 49 A 23 Readcube 21 S, 18 methods 15 accuracy 12

También podría gustarte