Está en la página 1de 2

NUCLEO DE HADOOP

El proyecto central de hadoop consiste en una forma de almacenar datos conocidos como el
sistema de archivos distribuido de hadoop o HDFS. Y una forma de procesar datos con
MapReduce. El concepto clave es dividimos los datos y los almacenamos en la colección de
máquinas conocida como clúster. Luego, cuando queremos procesar los datos, los procesamos
donde realmente estan almacenados.

en lugar de recuperar los datos de una servidor central, los datos ya estan en el clúster por lo que
podemos procesarlos en el lugar. Puede agregar maquinas al clúster a medida que crecen la
cantidad de datos que estan almacenados. Y de hecho, muchas personas comienzan con solo unas
pocas maquinas agregan más a medida que las necesitan. Las maquinas en su clúster no necesitan
será nada particularmente de alto nivel. Aunque la mayoría de los clústeres se constituyen con
servidores montados en crack, por lo general son servidores de gama media, en lugar de equipos
de gama alta.

MapReduce
Hadoop MapReduce es un paradigma de procesamiento de datos caracterizado por dividirse
en dos fases o pasos diferenciados: Map y Reduce.

Qué es MapReduce
MapReduce es un framework, un modelo de programación que Google lanzó en el
año 2004. Lo realmente innovador en este caso es que permite realizar
computación en paralelo. Explicado de forma sencilla, en lugar de realizar el
procesamiento desde una única máquina, distribuye las enormes cantidades de
datos entre varios servidores que los procesan al unísono.
Para ello, por cada cluster existente, MapReduce cuenta con:
Un servidor principal, el maestro, el que distribuye los datos que recibe.
Varios servidores secundarios, los esclavos, los que procesan esos datos a la vez,
siguiendo las órdenes del servidor maestro.
Este sistema reduce exponencialmente el tiempo en el que se desarrolla el
procesamiento de datos. Es el equivalente a tener a una sola persona
desempeñando una labor o tener un equipo de trabajo, con un jefe que recibe las
tareas y las distribuye entre sus subordinados.
en este archivo se incluyen los ejemplos siguientes:

Muestra Descripción
aggregatewordcount Cuenta las palabras de los archivos de entrada.
aggregatewordhist Calcula el histograma de las palabras de los archivos de entrada.
bbp Usa una fórmula Bailey-Borwein-Plouffe para calcular los dígitos exactos de Pi.
dbcount Cuenta los registros de vistas de página almacenados en una base de datos.
distbbp Usa una fórmula de tipo BBP para calcular los bits exactos de Pi.
grep Cuenta las coincidencias de una expresión regular en la entrada.
join Realiza una unión de conjuntos de datos ordenados con particiones equiparables.
multifilewc Cuenta las palabras de varios archivos.
pentomino Programa para la colocación de mosaicos con el fin de encontrar soluciones a problemas de
pentominó.
pi Calcula Pi mediante un método cuasi Monte Carlo.
randomtextwriter Escribe 10 GB de datos de texto aleatorios por nodo.
randomwriter Escribe 10 GB de datos aleatorios por nodo.
secondarysort Define una ordenación secundaria para la fase de reducción.
sort Ordena los datos escritos por el escritor aleatorio.
sudoku Un solucionador de sudokus.
teragen Genera datos para la ordenación de terabytes (terasort).
terasort Ejecuta la ordenación de terabytes (terasort).
Tera valídate Comprueba los resultados de la ordenación de terabytes (terasort).
wordcount Cuenta las palabras de los archivos de entrada.
wordmean Cuenta la longitud media de las palabras de los archivos de entrada.
wordmedian Cuenta la mediana de las palabras de los archivos de entrada.
wordstandarddeviation Cuenta la desviación estándar de la longitud de las palabras de los archivos de entrada.

También podría gustarte