Contador de Palabras con Spark y MapReduce

Este documento presenta los objetivos, metodología y resultados de una práctica sobre Spark y MapReduce. El objetivo general fue estudiar estos conceptos para crear aplicaciones paralelas. Se implementó específicamente un contador de palabras en paralelo usando Spark y MapReduce. La metodología incluyó instalar Docker, Spark y probar un programa sencillo de conteo de palabras en un archivo de texto. Las conclusiones fueron que estos frameworks facilitan la creación de sistemas distribuidos y el procesamiento de grandes datos.

Cargado por

Lextux

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

144 vistas8 páginas

Contador de Palabras con Spark y MapReduce

Cargado por

Lextux

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Asignatura: Computación Paralela y Grupo Nº: 3

Distribuida
Carrera: Computación Integrantes: Carlos Cadena, Esteban Perugachi,
Nivel y paralelo: 6 – A Jonathan Sánchez
Fecha de práctica: 21/01/2021
Fecha presentación informe: 28/01/2021
Nº Práctica: 3 Informe Nº: 3

TÍTULO DE LA PRÁCTICA: Spark y MapReduce

1. OBJETIVOS:

General: Estudiar los conceptos de Spark y Mapreduce con el fin de poder crear aplicaciones
con los mismos.
Específico: Crear un contador de palabras en paralelo, implementando Spark y MapReduce

2. INTRODUCCIÓN:

Spark

Apache Spark es un framework de programación para procesamiento de datos distribuidos diseñado

para ser rápido y de propósito general. Como su propio nombre indica, ha sido desarrollada en el
marco del proyecto Apache, lo que garantiza su licencia Open Source.
Además, podremos contar con que su mantenimiento y evolución se llevarán a cabo por grupos de
trabajo de gran prestigio, y existirá una gran flexibilidad e interconexión con otros módulos de
Apache como Hadoop, Hive o Kafka.
Parte de la esencia de Spark es su carácter generalista. Consta de diferentes APIs y módulos que
permiten que sea utilizado por una gran variedad de profesionales en todas las etapas del ciclo de
vida del dato.
Dichas etapas pueden incluir desde soporte para análisis interactivo de datos con SQL a la creación
de complejos pipelines de machine learning y procesamiento en streaming, todo usando el mismo
motor de procesamiento y las mismas APIs.

MapReduce

es un modelo de programación para dar soporte a la computación paralela sobre grandes

colecciones de datos en grupos de computadoras y al commodity computing. El nombre del
framework está inspirado en los nombres de dos importantes métodos, macros o funciones en
programación funcional: Map y Reduce. MapReduce ha sido adoptado mundialmente, ya que existe
una implementación OpenSource denominada Hadoop.
MapReduce se emplea en la resolución práctica de algunos algoritmos susceptibles de ser
paralelizados.No obstante MapReduce no es la solución para cualquier problema, de la misma
forma que cualquier problema no puede ser resuelto eficientemente por MapReduce.Por regla
general se abordan problemas con datasets de gran tamaño, alcanzando los petabytes de tamaño.
Es por esta razón por la que este framework suele ejecutarse en sistema de archivos distribuidos
(HDFS).

3. METODOLOGÍA:

 Descargamos Docker Desktop desde la página oficial de Docker.

 La instalación se comenzará a realizar automáticamente.

 En PoweShell procedemos a comprobar que estén habilitadas las características para poder
trabajar con Linux en Windows.

 Una vez que se haya terminado de instalar Docker nos mostrará la siguiente interfaz con un
comando que lo utilizaremos más adelante.

 Comprobamos en el cmd que se encuentren instaladas las distribuciones de Linux y con el

comando wsl.entramos en el modo root.
 Con el comando cd dowloads entramos a la carpeta de descargas en donde se encuentra el
archivo Docker-compose y seguido escribimos el comando docker-compose up.

 Escribimos el comando Docker ps para comprobar que se haya instalado la imagen de spark.
 Escribimos el comando: docker exec -it downloads_spark_1 bash

 En el navegador escribimos la dirección: localhost:8080, donde encontraremos la página de

Spark Master

 Escribimos el commando: spark-shell --master spark://155165e0ba11:7077 que una vez que

se haya terminado de ejecutar nos mostrará la imagen de spark y su versión en el cmd

 Una vez q se inicializa Spark declaramos la variable val con el nombre texFile lugar donde se
almacenará nuestro archivo de texto.
 line.split dividirá las frases en palabras.
 Con (“ ”)Dividirá una línea por espacio
 La función collect convertirá el archivo en un Array.

 El programa se ejecutará imprimiendo y contando las palabras que se encuentran en el

archivo de texto.
DISCUSIONES:
 Spark es un framework de programación para procesamiento de datos distribuidos diseñado
para ser rápido y de propósito general. MapReduce es un modelo de programación para dar
soporte a la computación paralela sobre grandes colecciones de datos en grupos, en esta
aplicación pudimos comprobar al aplicar Spark con MapReduce conseguimos leer un archivo
de texto de manera rápida reduciendo el tiempo de ejecución y el tiempo de desarrollo.
 Spark y MapReduce facilitan la creación de sistemas distribuidos si comparamos con la
práctica N°1 en donde también creamos una aplicación para leer archivos de texto podemos
notar que con Spark y MapReduce fue mucho más sencillo realizarlo y se ejecuta en menor
tiempo.

4. CONCLUSIONES:

 La utilización de frameworks como Spark facilita la creación de sistemas distribuidos

 MapReduce facilita el procesamiento y manejo de grandes cantidades de datos.
 Se implementó un sistema de contador de palabras de un archivo de texto implementando
Spark y MapReduce.
5. RECOMENDACIONES:
 Comprobar que se tengan habilitadas las distribuciones de Linux para poder trabajar en
Windows.
 Utilizar los comandos correctamente en el cmd.

6. BIBLIOGRAFÍA:

 Apache Spark: Introducción, qué es y cómo funciona | ESIC. (s. f.). Spark. Recuperado 29 de
enero de 2021, de https://www.esic.edu/rethink/tecnologia/apache-spark-introduccion-que-es-
y-como-funciona.
 colaboradores de Wikipedia. (2020, 5 noviembre). MapReduce. Wikipedia, la enciclopedia
libre. https://es.wikipedia.org/wiki/MapReduce.

7. AUTOEVALUACIÓN:

Nombre Evaluación Justificación

Carlos Cadena 100% Trabajó de buena manera
investigando el tema,
recopilando información de
diferentes fuentes y apoyó en
la instalación de Spark.
Esteban Perugachi 100% Estuvo pendiente del informe
de la práctica, recopiló
información de ayuda para
comprender mejor el tema y
ayudó con los comandos para
la instalación de Docker.
Jonathan Sánchez 100% Como jefe de grupo repartí las
diferentes actividades a mis
compañeros y traté de
organizar de la mejor manera
posible la exposición y de
ordenar la información para
realizar la práctica y el
contador de palabras.

También podría gustarte

TallerUnidad4 BigData
Aún no hay calificaciones
TallerUnidad4 BigData
11 páginas
Introducción a Apache Spark
Aún no hay calificaciones
Introducción a Apache Spark
66 páginas
Manual Curso AGVD
Aún no hay calificaciones
Manual Curso AGVD
16 páginas
Introducción a Apache Spark
0% (1)
Introducción a Apache Spark
23 páginas
Hadoop Vs Spark
Aún no hay calificaciones
Hadoop Vs Spark
21 páginas
Introducción a Hadoop y MapReduce
Aún no hay calificaciones
Introducción a Hadoop y MapReduce
19 páginas
Big Data y Apache Spark: Procesamiento Eficiente
Aún no hay calificaciones
Big Data y Apache Spark: Procesamiento Eficiente
31 páginas
Spark para Dummies
Aún no hay calificaciones
Spark para Dummies
6 páginas
Spark: Computación en Clúster Eficiente
Aún no hay calificaciones
Spark: Computación en Clúster Eficiente
7 páginas
Guía Completa de Hadoop y MapReduce
Aún no hay calificaciones
Guía Completa de Hadoop y MapReduce
31 páginas
MapReduce y Big Data: Fundamentos Esenciales
Aún no hay calificaciones
MapReduce y Big Data: Fundamentos Esenciales
14 páginas
Investigación sobre Hadoop en Zacatepec
Aún no hay calificaciones
Investigación sobre Hadoop en Zacatepec
6 páginas
Taller sobre MapReduce y su Implementación
Aún no hay calificaciones
Taller sobre MapReduce y su Implementación
8 páginas
Guía sobre Apache Spark y su uso
Aún no hay calificaciones
Guía sobre Apache Spark y su uso
9 páginas
MapReduce en Python para Big Data
Aún no hay calificaciones
MapReduce en Python para Big Data
143 páginas
Seminario Avanzado en Ciencia de Datos
Aún no hay calificaciones
Seminario Avanzado en Ciencia de Datos
29 páginas
Framework Hadoop-mini para MapReduce
Aún no hay calificaciones
Framework Hadoop-mini para MapReduce
4 páginas
Big Data: Tecnologías y Procesamiento
Aún no hay calificaciones
Big Data: Tecnologías y Procesamiento
10 páginas
Introducción a Spark y Big Data
Aún no hay calificaciones
Introducción a Spark y Big Data
14 páginas
Módulo 4. Manejo de Datos Con Spark SQL: Introducción
Aún no hay calificaciones
Módulo 4. Manejo de Datos Con Spark SQL: Introducción
29 páginas
Hadoop
Aún no hay calificaciones
Hadoop
36 páginas
Apache Spark: Guía Completa para Ingeniería Informática
Aún no hay calificaciones
Apache Spark: Guía Completa para Ingeniería Informática
9 páginas
Análisis de Procesado Streaming Big Data
Aún no hay calificaciones
Análisis de Procesado Streaming Big Data
96 páginas
Fundamentos del Big Data y Hadoop
Aún no hay calificaciones
Fundamentos del Big Data y Hadoop
12 páginas
Modulo 3 Actividad de Proyecto Spark en Docker
Aún no hay calificaciones
Modulo 3 Actividad de Proyecto Spark en Docker
6 páginas
Guia 8 Map Reduceclienteservidor
Aún no hay calificaciones
Guia 8 Map Reduceclienteservidor
4 páginas
Investigación
Aún no hay calificaciones
Investigación
31 páginas
Introducción a Apache Hadoop
Aún no hay calificaciones
Introducción a Apache Hadoop
1 página
Práctica de de Unidad 4
Aún no hay calificaciones
Práctica de de Unidad 4
12 páginas
00 Presentación 2
Aún no hay calificaciones
00 Presentación 2
33 páginas
Introducción a Apache Hadoop y MapReduce
Aún no hay calificaciones
Introducción a Apache Hadoop y MapReduce
6 páginas
Apache Spark
Aún no hay calificaciones
Apache Spark
11 páginas
(14-1) Topicos en Base de Datos - Clase
Aún no hay calificaciones
(14-1) Topicos en Base de Datos - Clase
24 páginas
Introducción a Hadoop y su uso
Aún no hay calificaciones
Introducción a Hadoop y su uso
15 páginas
Fundamentos de Apache Spark en Ciencia de Datos
Aún no hay calificaciones
Fundamentos de Apache Spark en Ciencia de Datos
23 páginas
Introduction To Spark - ES - Introduccion A Spark
Aún no hay calificaciones
Introduction To Spark - ES - Introduccion A Spark
53 páginas
Big Data Tecnicas Herramientas y Aplicac-4
Aún no hay calificaciones
Big Data Tecnicas Herramientas y Aplicac-4
9 páginas
Recomendaciones en Redes Sociales con Spark
Aún no hay calificaciones
Recomendaciones en Redes Sociales con Spark
117 páginas
Significado y uso de Spark y RDD
Aún no hay calificaciones
Significado y uso de Spark y RDD
2 páginas
Curso Big Data (Tema 1)
Aún no hay calificaciones
Curso Big Data (Tema 1)
32 páginas
SCALA
Aún no hay calificaciones
SCALA
6 páginas
2025 Infraestructura Software para El Procesamiento de Big Data
Aún no hay calificaciones
2025 Infraestructura Software para El Procesamiento de Big Data
4 páginas
1 - Hadoop v2
Aún no hay calificaciones
1 - Hadoop v2
41 páginas
Introducción a Big Data y Hadoop
Aún no hay calificaciones
Introducción a Big Data y Hadoop
5 páginas
Introducción a Spark y PySpark en Python
Aún no hay calificaciones
Introducción a Spark y PySpark en Python
32 páginas
Introducción a Apache Spark y sus Componentes
Aún no hay calificaciones
Introducción a Apache Spark y sus Componentes
25 páginas
Presentación Meetup Python
Aún no hay calificaciones
Presentación Meetup Python
39 páginas
Big Data
Aún no hay calificaciones
Big Data
2 páginas
Sesión 8 - Introducción A Apache Spark
Aún no hay calificaciones
Sesión 8 - Introducción A Apache Spark
39 páginas
Practico ETL David
Aún no hay calificaciones
Practico ETL David
14 páginas
Algoritmo de Aprendizaje en Apache Spark
Aún no hay calificaciones
Algoritmo de Aprendizaje en Apache Spark
65 páginas
Introducción al Ecosistema Hadoop
Aún no hay calificaciones
Introducción al Ecosistema Hadoop
14 páginas
Practica MapReduce
Aún no hay calificaciones
Practica MapReduce
8 páginas
Introducción a Apache Spark y sus Ventajas
Aún no hay calificaciones
Introducción a Apache Spark y sus Ventajas
10 páginas
Herramientas Clave de Ciencia de Datos
Aún no hay calificaciones
Herramientas Clave de Ciencia de Datos
2 páginas
Ensayo Mapreduce
Aún no hay calificaciones
Ensayo Mapreduce
10 páginas
Apache Hadoop
0% (1)
Apache Hadoop
14 páginas
Big Data Con Spark 01 - Intro y Primeros Pasos
Aún no hay calificaciones
Big Data Con Spark 01 - Intro y Primeros Pasos
53 páginas
Comparativa entre Hadoop y Spark
Aún no hay calificaciones
Comparativa entre Hadoop y Spark
4 páginas
Historia de Usuario
Aún no hay calificaciones
Historia de Usuario
4 páginas
Asana
Aún no hay calificaciones
Asana
7 páginas
Formato Carta para Trabajos INACAP
Aún no hay calificaciones
Formato Carta para Trabajos INACAP
1 página
Aplicaciones Informáticas en RRHH
Aún no hay calificaciones
Aplicaciones Informáticas en RRHH
19 páginas
UI-UX Nuevo 2025
Aún no hay calificaciones
UI-UX Nuevo 2025
11 páginas
Introducción a CAD y CAM
Aún no hay calificaciones
Introducción a CAD y CAM
4 páginas
Casaideas Home Page
Aún no hay calificaciones
Casaideas Home Page
1 página
Práctica de Word
100% (1)
Práctica de Word
5 páginas
Instalación Emule Morphxt 12
Aún no hay calificaciones
Instalación Emule Morphxt 12
9 páginas
Laboratorio Oracle APEX: Creación de Tablas
Aún no hay calificaciones
Laboratorio Oracle APEX: Creación de Tablas
17 páginas
Propiedades y Métodos en VBA Excel
Aún no hay calificaciones
Propiedades y Métodos en VBA Excel
50 páginas
Enterprise NVR As 4000 Datasheet A4 Spanish
Aún no hay calificaciones
Enterprise NVR As 4000 Datasheet A4 Spanish
2 páginas
Análisis de Tráfico de Red con Wireshark
Aún no hay calificaciones
Análisis de Tráfico de Red con Wireshark
6 páginas
Gráficos de Mapa de Bits en Photoshop
Aún no hay calificaciones
Gráficos de Mapa de Bits en Photoshop
1 página
Guía Básica de Hardware y Software
Aún no hay calificaciones
Guía Básica de Hardware y Software
3 páginas
Reloj Digital: Proyecto de Programación C
Aún no hay calificaciones
Reloj Digital: Proyecto de Programación C
19 páginas
Ejercicios de Arrays en Programación
0% (1)
Ejercicios de Arrays en Programación
2 páginas
Arquitectura
Aún no hay calificaciones
Arquitectura
19 páginas
Interfaz de Usuario en Android
Aún no hay calificaciones
Interfaz de Usuario en Android
10 páginas
Modelación y Simulación de Sistemas
Aún no hay calificaciones
Modelación y Simulación de Sistemas
6 páginas
Base de Datos - MP
Aún no hay calificaciones
Base de Datos - MP
9 páginas
Manual Excel Avanzado
Aún no hay calificaciones
Manual Excel Avanzado
79 páginas
Libros Si Prestados A Cbba. Sta Cruz 222
Aún no hay calificaciones
Libros Si Prestados A Cbba. Sta Cruz 222
8 páginas
Cuadro Comparativo de Los Frameworks
Aún no hay calificaciones
Cuadro Comparativo de Los Frameworks
2 páginas
Informática PNP: Aplicativos y Uso
Aún no hay calificaciones
Informática PNP: Aplicativos y Uso
91 páginas
Análisis de Datos del Caso Berka
Aún no hay calificaciones
Análisis de Datos del Caso Berka
16 páginas
Ruta de Estudios A2 Master
Aún no hay calificaciones
Ruta de Estudios A2 Master
8 páginas
Guía de Formato de Celdas Excel
Aún no hay calificaciones
Guía de Formato de Celdas Excel
10 páginas
Ejercicio Excel: Tablas y Operaciones
Aún no hay calificaciones
Ejercicio Excel: Tablas y Operaciones
4 páginas
Comparativa de Racks y Procesadores en CPD
Aún no hay calificaciones
Comparativa de Racks y Procesadores en CPD
5 páginas