Whitepaper Hadoop

Qué es Hadoop y
cómo se utiliza
Hadoop es un marco de software de HDFS es un sistema de ficheros diseñado
código abierto utilizado para desarrollar para funcionar muy bien en la lectura
aplicaciones de procesamiento de datos secuencial de los datos, y el hecho de
que se ejecutan en un entorno ser un sistema distribuido tiene ventajas
informático distribuido. Proporciona adicionales a la de poder almacenar una
almacenamiento masivo para cualquier cantidad potencialmente ilimitada de
tipo de datos, una gran potencia de datos: proporciona escalabilidad, ya que
procesamiento y tiene la capacidad basta con añadir un nodo al clúster para
teórica de procesar tareas concurrentes aumentar la capacidad de
virtualmente ilimitada. almacenamiento. Además, proporciona
redundancia, lo que hace a Hadoop un
En Hadoop, los datos residen en un sistema tolerante a fallos.
sistema de archivos distribuido
denominado Hadoop Distributed File
System —HDFS—, un sistema que tiene
capacidad para almacenar los archivos
en un clúster de varias máquinas, lo
que es esencial para poder almacenar
enormes cantidades de datos
—hablamos de petabytes—.
La importancia de la topología de
red en Hadoop
Para un sistema distribuido como Hadoop, la Hadoop es una arquitectura perfecta para
topología de red afecta directamente a su procesamiento de Big Data, y por eso su
rendimiento cuando la red de nodos crece. adopción es cada vez mayor. Sus principales
Además, si se desea que el sistema sea características, como su potencia de
tolerante a fallos y tenga una alta procesamiento, tolerancia a fallos y su
disponibilidad, la manera en que se capacidad de almacenamiento ilimitada, así
organizan los nodos es vital. como el bajo coste de implementación son,
sin duda, responsables de su éxito.
En Hadoop, la red se representa como un
árbol en el que la distancia entre nodos es
igual a la suma de su distancia a su ancestro
común más cercano.
Características principales
de Hadoop
1. Tiene la capacidad de almacenar y 4. Es un sistema flexible. Los datos que se
procesar enormes cantidades de cualquier almacenan no son procesados previamente,
tipo de datos, de manera inmediata. Esto, lo que agiliza esta parte del trabajo. Esta es
para escenarios Big Data —con enormes gran una diferencia con respecto a los
volúmenes de datos en constante sistemas de bases de datos relacionales, ya
crecimiento, y con la variedad de fuentes de que permite almacenar datos no
las que se adquieren datos— es una estructurados —texto, imágenes, vídeos—,
característica muy valorada. una de las características principales del Big
2. Potencia de procesamiento. Al ser un Data.
sistema de computación distribuido, Hadoop 5. Es una estructura de bajo coste, al ser
puede trabajar con los datos a gran gratuita y de código abierto.
velocidad, algo que, además, puede
incrementarse fácilmente ampliando los
6. Es un sistema escalable, ya que tan solo
es necesario añadir nuevos nodos para
nodos dedicados a estas tareas. almacenar y almacenar más datos. Además,
3. Es un sistema tolerante a fallos. En este necesita de poca administración.
modelo distribuido, un fallo en un nodo
implica que los trabajos se redistribuyen
entre el resto de los nodos. La redundancia
de los datos es vital para que todo funcione
de manera transparente para el usuario.
Componentes
de Hadoop
El proyecto Hadoop es bien conocido, sobre • Hive: una infraestructura de
todo, por dos de sus componentes almacenamiento de datos construida
principales: MapReduce y HDFS. sobre Hadoop para proporcionar
agrupación, consulta, y análisis de datos
Hadoop MapReduce es un modelo
computacional y un marco de software para • Hbase: una base de datos distribuida
escribir aplicaciones que se ejecutan en no relacional de código abierto
Hadoop, y que son capaces de procesar
enormes datos en paralelo en grandes grupos • Mahout: para producir
de nodos de cómputo. implementaciones gratuitas de
algoritmos de aprendizaje automático
Por otro lado, ya hablamos de HDFS, el distribuidos o escalables enfocados
sistema de archivos distribuido de Hadoop. principalmente en las áreas de filtrado
HDFS se encarga de la parte de colaborativo, agrupación y clasificación
almacenamiento de las aplicaciones de
Hadoop, de forma que las aplicaciones • Sqoop: una aplicación con interfaz de
MapReduce consumen datos de HDFS. Al línea de comando para transferir datos
tratarse de un sistema de archivos distribuido entre bases de datos relacionales y
es posible realizar cálculos fiables y Hadoop.
extremadamente rápidos.
• Flume: un servicio distribuido, fiable,
Otros componentes populares de Hadoop y altamente disponible para recopilar,
son, en realidad, proyectos relacionados agregar, y mover eficientemente grandes
concebidos para la computación distribuida y cantidades de datos.
el procesamiento de datos a gran escala.
Algunos de ellos son: • ZooKeeper: que ofrece un servicio
para la coordinación de procesos
distribuido y altamente confiable que da
soluciones a varios problemas de
coordinación para grandes sistemas
distribuidos.
www.arsys.es
www.facebook.com/arsys.es
twitter.com/arsys
www.linkedin.com/company/arsys-internet/

Whitepaper Hadoop

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Whitepaper Hadoop

Cargado por

Copyright:

Formatos disponibles

Qué es Hadoop y

También podría gustarte