Está en la página 1de 15

Mejoras en la programación de Hadoop

• Trabajar directamente con las Api de java es algo complejo.


• Hadoop ofrece dos soluciones que son Pig y Hive.
Pig

• Desarrollada por Yahoo para analizar grandes


volúmenes de datos.
• Se construyen programas MapReduce en
menos tiempo.
• Pig latín maneja cualquier tipo de dato.
• Es muy similar a Java con la aplicación y JVM.
• Para un modelo de consultas de alto nivel usa
SQl y para el de bajo nivel MapReduce
• Transforma los datos de entrada para producir
salidas.
• Grandes volúmenes de datos.
Hive

• Hadoop es un data warehouse y HDFS.


• Consultar datos con una sintaxis similar a
SQL es HQL.
• Desarrollada por el equipo de Facebook.
• Utiliza el concepto de base de datos
relacionales y utiliza todos los tipos
primitivos.
• Admite DDL y DML
• Grandes volúmenes de datos.
JAQL

• Donado por IBM a la comunidad de software libre.


• Lenguaje funcional y declarativo para procesar archivos JSON, CSV y XML.
• El motor de Jaql transforma las consultas en procesos MapReduce.

• Grandes volúmenes de datos


Zokeeper

• Proyecto de Apache de código


abierto, permite la sincronización
de procesos en un cluster.
• Crea un archivo en memoria en los
servidores un Znode.
• Znode es actualizada en cualquier
nodo de un cluster y registrado
para recibir información de los
cambios efectuados.
Hbase

• Base de datos columnar, ejecutado


en HDFS.
• No soporta SQL.
• Las tablas contienen filas y
columnas, una columna es una
familia.
• Las familias son guardadas por
aparte.
• Utilizado por Facebook desde el
2010.
Lucene

• Proyecto de Apache realiza


búsquedas sobre textos.
• Provee librerías para indexación y
búsqueda de texto.
• Se utiliza principalmente en motores
de búsqueda.
• No tiene función de crawling y HTML
incorporada.
• Los documento se dividen en
campos de textos y los campos se les
asocia un índice.
Oozie

• Proyecto de código abierto.


• Permite la coordinación
entre cada uno de los
procesos de flujos de trabajo.
• Permite definir acciones y
dependencias para las
acciones previamente
definidas.
Avro

• Proyecto de Apache.
• Cuando se guardan datos en
un archivo, el esquema que
define ese archivo es
guardado dentro de el.
• Para las aplicaciones es más
fácil leer estos archivos.
Cassandra

• Es una base de datos no


relacional.
• Modelo de almacenamiento
clave-valor desarrollada en
Java.
• Grandes volúmenes de datos
en forma distribuida.
• Utilizado por Twitter.
Chukwa

• Diseñado para la colección


análisis de datos a gran
escala de logs.
• Toolkit de un análisis y
monitoreo.
Flume

• Define los datos desde una


fuente a otra
localidad(Hadoop).
• Source cualquier fuente de
datos.
• Sink el destino de una
operación en especifico.
• Decorator una operación de
transformación en el flujo de
datos.

También podría gustarte