Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Enfoque de desarrollo
Para el desarrollo de este requerimiento se hará el conteo de palabras del articulo “Machine Learning in
Materials Science” utilizando el método de Map reduce aprendido en este módulo. Para cumplir con este
propósito se utilizará la herramienta de Big Data Apache Hadoop, por otro lado, el código para el
procesamiento distribuido será construido en un entorno de trabajo en Visual Studio utilizando el lenguaje
de programación Python.
Step 3. Cargue del codigo Python y el arituclo en formato csv a Apache Hadoop
Luego de correr el código desde el CMD, este ejecuta los pasos de map reduce y entrega el
conteo de cada palabra en el archivo:
Pontificia Universidad Javeriana Cali
Maestría en Ciencias de Datos | Gestión de Datos | Modulo 2. Procesamiento Distribuido
Reinoso. J, Solis. J, Sierra. E, Roman. O.
Extrayendo el output arrojado en el cmd y ordenado los resultados por de mayor a menor
frecuencia, las palabras que con mayor número de veces aparecen en el articulo son las
siguientes:
De parte del equipo de trabajo se establece u marco para continuar trabajando en el proyecto enfocados en
la limpieza de las palabras identificadas en por el mapper, sería de mucho valor que el mapper tuviera un
diccionario de referencia al momento de seleccionar una palabra con el fin de obtener palabras reales y
que el output no s vea afectado por caracteres especiales o demás contenido que no es de interés.
Pontificia Universidad Javeriana Cali
Maestría en Ciencias de Datos | Gestión de Datos | Modulo 2. Procesamiento Distribuido
Reinoso. J, Solis. J, Sierra. E, Roman. O.