Está en la página 1de 5

Pontificia Universidad Javeriana Cali

Maestría en Ciencias de Datos | Gestión de Datos | Modulo 2. Procesamiento Distribuido


Reinoso. J, Solis. J, Sierra. E, Roman. O.

 Requerimiento del problema


Partiendo de lo planteado previamente, imagina que un profesional está realizando una investigación
sobre determinado tema y quiere saber cuántas veces aparecen determinadas palabras en una publicación
de carácter científico que piensa utilizar a modo de referencia bibliográfica en su propio trabajo
investigativo. Teniendo en cuenta que el artículo puede llegar a tener entre 15 y 20 páginas sería
complicado para el investigador contar por sí mismo las palabras por lo que desea usar una herramienta
que le permita procesar el texto y realizar el conteo en un menor tiempo.
Para resolver este problema debes tener en cuenta las dos herramientas que se estudian en esta Unidad.
Recuerda que cada herramienta utiliza un método de procesamiento distinto por lo que debes analizar
cómo realizar el conteo de palabras y seleccionar la herramienta que más se ajuste a tu hipótesis.

 Enfoque de desarrollo
Para el desarrollo de este requerimiento se hará el conteo de palabras del articulo “Machine Learning in
Materials Science” utilizando el método de Map reduce aprendido en este módulo. Para cumplir con este
propósito se utilizará la herramienta de Big Data Apache Hadoop, por otro lado, el código para el
procesamiento distribuido será construido en un entorno de trabajo en Visual Studio utilizando el lenguaje
de programación Python.

 Desarrollo del proyecto


Step 1. Preparación del articulo articulo “Machine Learning in Materials Science”, este
archive se convirtió a formato csv para poder ser leído.
Step 2. Creación de código Map Reduce en Python:
Pontificia Universidad Javeriana Cali
Maestría en Ciencias de Datos | Gestión de Datos | Modulo 2. Procesamiento Distribuido
Reinoso. J, Solis. J, Sierra. E, Roman. O.

Step 3. Cargue del codigo Python y el arituclo en formato csv a Apache Hadoop

Step 4. Desde el CMD, se ingresa al sistema operativo de la maquina virtual y se


descargar los archivos del código Python y el articulo csv de forma local.

Step 5. Luego de configurar e instalar las versiones correctas de Python y mrjob, se


ejecuta el código el codigo Python con el procesamiento distribudo de Hadoop para el
archivo csv el cual contiene el articulo a analizar:
Pontificia Universidad Javeriana Cali
Maestría en Ciencias de Datos | Gestión de Datos | Modulo 2. Procesamiento Distribuido
Reinoso. J, Solis. J, Sierra. E, Roman. O.

 Outputs & Resultados

Luego de correr el código desde el CMD, este ejecuta los pasos de map reduce y entrega el
conteo de cada palabra en el archivo:
Pontificia Universidad Javeriana Cali
Maestría en Ciencias de Datos | Gestión de Datos | Modulo 2. Procesamiento Distribuido
Reinoso. J, Solis. J, Sierra. E, Roman. O.

Extrayendo el output arrojado en el cmd y ordenado los resultados por de mayor a menor
frecuencia, las palabras que con mayor número de veces aparecen en el articulo son las
siguientes:

of 392 used 49 A 23 Readcube 21 S, 18 methods 15 accuracy 12


and 300 al. 45 Copyright 23 See 21 and\" 18 set 15 compounds 12
to 183 Online 43 In 23 Terms 21 or 18 vector 15 not 12
\\"" 155 Wiley 43 into 23 [07/11/2022]. 21 B. 17 via 15 output 12
a 152 Library 42 rules 23 articles 21 M, 17 G, 14 structure 12
in 133 can 39 training 23 governed 21 feature 17 Phys 14 AL. 11
is 113 be 36 Commons 22 input 21 learning. 17 applied 14 DFT 11
learning 108 deep 35 Creative 22 25673165, 20 Deep 16 discovery 14 L, 11
on 95 which 34 been 22 ET 20 J 16 models 14 Mater. 11
data 83 an 32 (Labtiva 21 Figure 20 \of" 16 B, 13 Wang 11
are 82 | 32 (https://onlinelibrary.wiley.com/terms-and-conditions)
design 20 convolutional 16 D, 13 \FIGURE" 11
machine 77 of\" 29 21 it 20 layer 16 classification 13 learning, 11
by 74 A, 28 2019, 21 J, 19 method 16 computational 13
from 62 has 26 3, 21 properties 19 this 16 development 13
The 58 the\" 26 Conditions 21 such 19 Chem 15 high 13
with 56 based 25 Downloaded 21 Machine 18 \the" 15 quantum 13
materials 51 molecular 25 License\" 21 R, 18 each 15 Nature. 12

De parte del equipo de trabajo se establece u marco para continuar trabajando en el proyecto enfocados en
la limpieza de las palabras identificadas en por el mapper, sería de mucho valor que el mapper tuviera un
diccionario de referencia al momento de seleccionar una palabra con el fin de obtener palabras reales y
que el output no s vea afectado por caracteres especiales o demás contenido que no es de interés.
Pontificia Universidad Javeriana Cali
Maestría en Ciencias de Datos | Gestión de Datos | Modulo 2. Procesamiento Distribuido
Reinoso. J, Solis. J, Sierra. E, Roman. O.

También podría gustarte