Está en la página 1de 10

Big Data con Hadoop

Apache Hadoop es un framework de código abierto que


permite el almacenamiento distribuido y el procesamiento de
grandes conjuntos de datos en base a un hardware
comercial. En otras palabras, Hadoop hace posible a las
organizaciones obtener conocimiento rápidamente a partir de
cantidades masivas de datos, estructurados y no
estructurados, posicionándolas al nivel de las exigencias
actuales de los mercados en términos de dinamismo y
capacidad.

El
ecosistema Hadoop cuenta con soluciones de todo tipo para
cubrir cualquier necesidad que pueda presentarse al negocio
en materia de:

1. Gestión de datos.

2. Acceso a los datos.


3. Gobernabilidad e integración de datos.

4. Seguridad de la información.

5. Operaciones.

Son precisamente estas funcionalidades las que mejor


definen qué es el Apache Hadoop aunque, para conocer
realmente las posibilidades de esta herramienta y el secreto
de su versatilidad, hay que comprender el origen de los
beneficios que aporta; los que impulsan a muchas
corporaciones a decantarse por esta alternativa para sus
proyectos big data. Todas las ventajas de Hadoop se basan
en algunas de sus principales cualidades:

Escalabilidad: esta herramienta permite almacenar y


distribuir conjuntos de datos inmensos en sus cientos de
servidores que operan en paralelo, permitiendo olvidarse de
los límites que otras alternativas imponen.

Velocidad: garantiza una eficiencia de procesamiento que


nadie puede igualar, ¿de qué otra forma se pueden procesar
terabytes de información en pocos minutos?

Efectividad en costes: el almacenamiento de datos se


convierte en una realidad para las empresas ya que la
inversión necesaria pasa de ser decenas de miles de Euros
por terabyte a quedarse reducida a cientos de Euros por
terabyte.

Flexibilidad: ¿nuevas fuentes de datos? no hay problema,


¿nuevos tipos de datos? por supuesto... Apache Hadoop se
adapta a las necesidades del negocio y le acompaña en su
expansión, aportando soluciones reales para cualquier
iniciativa que surja.

Resistencia al fracaso: su tolerancia a errores es uno de sus


atributos mejor valorados por los usuarios ya que toda la
información contenida en cada nodo tiene su réplica en otros
nodos del cluster. En caso de producirse un fallo siempre
existirá una copia lista para ser usada.

Qué es el Apache Hadoop: soluciones para el


negocio
Todo problema requiere de una solución y, por eso,
aproximarse a descubrir qué es el Apache Hadoop implica
adentrarse en los proyectos de Apache Software Foundation.
Cada uno de ellos ha sido desarrollado para ofrecer una
función explícita y, por eso, cada uno cuenta con su propia
comunidad de desarrolladores, así como ciclos de
lanzamiento individuales. Desplegar, integrar y trabajar con
Hadoop tiene que ver con:
1. Gestión de datos: el objetivo es almacenar y procesar
grandes cantidades de datos en una capa de
almacenamiento de escalabilidad horizontal y, para lograrlo
surge Hadoop Distributed File System (HDFS). Esta
tecnología, que trabaja a través de hardware de bajo coste,
sienta las bases para la escala eficiente desde la capa de
almacenamiento. También se apoya en Apache Hadoop
HILO, que proporciona la gestión de recursos y arquitectura
conectable para permitir una amplia variedad de métodos de
acceso a datos, haciendo posible operar en los datos
almacenados en Hadoop con los niveles de rendimiento y de
servicio deseados. Por último Apache Tez, que obra la magia,
procesamiento big data casi en tiempo real, gracias a su
generalización del paradigma MapReduce que gana en
eficacia.

2. Acceso a datos: no se puede contar con la perspectiva


necesaria para responder a la cuestión qué es el Apache
Hadoop sin conocer que uno de sus puntos fuertes es la
accesibilidad que garantiza, al permitir interactuar con los
datos en una amplia variedad de formas y en tiempo real.
Las aplicaciones que lo consiguen son:

Apache Hive: la tecnología de acceso de datos más


ampliamente adoptada.

MapReduce: que permite crear aplicaciones que procesan


grandes cantidades de datos estructurados y no
estructurados en paralelo.
Apache Pig: una plataforma para el procesamiento y el
análisis de grandes conjuntos de datos.

Apache HCatalog: que proporciona una forma centralizada


para los sistemas de procesamiento de datos que hace
posible comprender la estructura y la ubicación de los datos
almacenados en Apache Hadoop.

Apache Hive: almacén de datos que permite un fácil resumen


y el lanzamiento de consultas ad-hoc a través de una interfaz
similar a SQL para grandes conjuntos de datos almacenados
en HDFS.

Apache HBase: sistema de almacenamiento de datos


orientada a columnas NoSQL que proporciona acceso a la
lectura o escritura big data en tiempo real para cualquier
aplicación.

Apache Storm: añade capacidades fiables de procesamiento


de datos en tiempo real.

Apache Kafka: es un sistema de mensajería rápida y


escalable de publicación-suscripción que se utiliza a menudo
en lugar de los corredores de mensajes tradicionales, debido
a su alto rendimiento, replicación y tolerancia a fallos.
Apache Mahout: proporciona algoritmos de aprendizaje
automático escalables para Hadoop que sirven de gran apoyo
a los data Scientist en sus tareas de agrupamiento,
clasificación y filtrado.

Apache Accumulo: dispositivo de almacenamiento de datos


de alto rendimiento que incluye sistemas de recuperación.

3. Gobernabilidad e integración de datos: hace posible la


carga de datos rápida y eficiente en base a la intervención de:

Apache Falcon: es un marco de gestión de datos que


simplifica la gestión del ciclo de vida de datos y su
procesamiento, permitiendo a los usuarios configurar,
administrar y orquestar el movimiento de datos, su
procesamiento en paralelo, la recuperación de errores y la
retención de datos; en base a políticas para la gobernabilidad.

Apache Flume: permite mover, de manera agregada y


eficiente, grandes cantidades de datos de registro de muchas
fuentes diferentes a Hadoop.

Apache Sqoop: agiliza y facilita el movimiento de datos


dentro y fuera de Hadoop.
4. Seguridad: Apache Knox es el encargado de proporcionar
un único punto de autenticación y acceso a los servicios de
Apache Hadoop en un clúster. De esta forma se asegura la
simplicidad en materia de seguridad, tanto para los usuarios
que acceden a los datos del cluster, como para los
operadores que se encargan de la administración del cluster y
controlan su acceso.

6. Operaciones: Apache Ambari ofrece la interfaz y las API


necesarias para la provisión, gestión y monitorización
de racimos de Hadoop y la integración con otros
software de la consola de gestión. Apache Zookeeper
coordina procesos distribuidos, permitiendo a las
aplicaciones distribuidas el almacenamiento y
mediación de cambios a la información de configuración
importante. Por último, Apache Oozie se encarga de
garantizar la lógica de trabajo en las tareas de
programación.
¿Cómo se relacionan Big Data y Hadoop?

La historia de Big Data y Hadoop está necesariamente unida


a la de Google. De hecho, podría decirse que Hadoop nace
en el momento en que Google precisa urgentemente de una
solución que le permita continuar procesando datos al ritmo
que necesita, en una proporción que repentinamente ha
crecido de forma exponencial.

Big Data y Hadoop: historia y Business Drivers que impulsan


su aparición
Google se ve incapaz de poder indexar la web al nivel que
exige el mercado y por ello decide buscar una solución, que
se basa en un sistema de archivos distribuidos, haciendo
suyo el lema “divide y vencerás”.

Esta solución, que posteriormente se denominará Hadoop, se


basa en un gran número de pequeños ordenadores, cada uno
de los cuales se encarga de procesar una porción de
información. La grandiosidad del sistema es que, a pesar de
que cada uno de ellos funciona de forma independiente y
autónoma, todos actúan en conjunto, como si fueran un solo
ordenador de dimensiones increíbles.
En 2006, Google publica todos los detalles acerca de su
nuevo descubrimiento, compartiendo su conocimiento y
experiencia con todos los usuarios que anhelaban acceder a
esta información. Entre el conjunto de beneficiarios, destaca
el interés de la comunidad Open Source que, apasionados
por la idea y el nuevo horizonte que se abre frente a ellos,
explotan sus posibilidades desarrollando una implementación
a la que denominan Hadoop.

A partir de ese momento, es Yahoo quien toma el relevo


impulsando su expansión, para lograr alcanzar a grandes e
icónicas empresas en el mundo de la informática, como
Facebook, que empiezan a incorporarlo a sus rutinas, a
disfrutar de su uso y a participar en su desarrollo, junto con la
comunidad Open Source.

¿Qué es Hadoop?
Hadoop es un sistema de código abierto que se utiliza para
almacenar, procesar y analizar grandes volúmenes de datos.
Sus ventajas son muchas:

Aísla a los desarrolladores de todas las dificultades presentes


en la programación paralela.
Cuenta con un ecosistema que sirve de gran ayuda al
usuario, ya que permite distribuir el fichero en nodos, que no
son otra cosa que ordenadores con commodity-hardware.
Es capaz de ejecutar procesos en paralelo en todo momento.
Dispone de módulos de control para la monitorización de los
datos.
Presenta una opción que permite realizar consultas.
También potencia la aparición de distintos add- ons, que
facilitan el trabajo, manipulación y seguimiento de toda la
información que en él se almacena.

También podría gustarte