Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Se habla en trminos de
petabytes y exabytes de datos
Componente
Hadoop MapReduce
Hadoop Common
Hadoop Common Components son un conjunto de libreras que soportan
varios subproyectos de Hadoop.
Existen otros proyectos relacionados los cuales son definidos a
continuacin
Avro
Es un proyecto de Apache que provee servicios de serializacin.
Cuando se guardan datos en un archivo, el esquema que define ese archivo
es guardado dentro del mismo; de este modo es ms sencillo para cualquier
aplicacin leerlo posteriormente puesto que el esquema esta definido dentro
del archivo
https://avro.apache.org/docs/1.7.7/gettingstartedjava.html
Cassandra
http://cassandra.apache.org/
Chukwa
Diseado para la coleccin y anlisis a gran escala de "logs". Incluye un
toolkit para desplegar los resultados del anlisis y monitoreo.
https://chukwa.apache.org/docs/r0.3.0/design.html
Flume
Su tarea principal es dirigir los datos de una fuente hacia alguna otra
localidad, en este caso hacia el ambiente de Hadoop.
Existen tres entidades principales: sources, decorators y sinks.
Unsource : es bsicamente cualquier fuente de datos.
Sink : es el destino de una operacin en especfico.
Undecorator : es una operacin dentro del flujo de datos que transforma
esa informacin de alguna manera, como por ejemplo comprimir o
descomprimir los datos o alguna otra operacin en particular sobre los
mismos.
https://flume.apache.org/
HBase
Hive
https://hive.apache.org/
Jaql
Fue donado por IBM a la comunidad de software libre.
Query Language for Javascript Object Notation (JSON) es un lenguaje
funcional y declarativo que permite la explotacin de datos en formato
JSON diseado para procesar grandes volmenes de informacin.
http://www.ibm.com/developerworks/ssa/local/im/utilizando-jaqlpara-analizar-big-data/index.html
Lucene
https://lucene.apache.org/core/
Oozie
Como pudo haber notado, existen varios procesos que son ejecutados en
distintos momentos los cuales necesitan ser orquestados para satisfacer
las necesidades de tan complejo anlisis de informacin.
Oozie es un proyecto de cdigo abierto que simplifica los flujos de
trabajo y la coordinacin entre cada uno de los procesos. Permite
que el usuario pueda definir acciones y las dependencias entre dichas
acciones
http://oozie.apache.org/
Pig
Inicialmente desarrollado por Yahoo para permitir a los usuarios de
Hadoop enfocarse ms en analizar todos los conjuntos de datos y
dedicar menos tiempo en construir los programas MapReduce.
Tal como su nombre lo indica al igual que cualquier cerdo que come
cualquier cosa, el lenguaje PigLatin fue diseado para manejar
cualquier tipo de dato y Pig es el ambiente de ejecucin donde estos
programas son ejecutados, de manera muy similar a la relacin entre la
mquina virtual de Java (JVM) y una aplicacin Java.
https://pig.apache.org/
ZooKeeper
https://zookeeper.apache.org/
In-Genius
Bigmemory
El manejo de grandes conjuntos de
datos siempre ha sido una
preocupacin para los usuarios.
Una vez que el tamao del conjunto de
datos llega por encima del 50% de la
RAM, se considera "masiva" y,
literalmente, puede llegar a ser imposible
trabajar con una mquina estndar.
Bigmemory es un enfoque de software y
hardware que facilita el almacenamiento
/ recuperacin / procesamiento de
grandes conjuntos de datos (terabytes y
ms altos).
Herramientas
BigMemory 4.0 de Terracotta
Con Big Memory 4.0. es
posible trasladar toda la
informacin desde las
tradicionales y
lentas unidades de disco a
memoria RAM de forma
extremadamente rpida,
permitiendo realizar anlisis
de cientos de terabytes de
datos en arrays de
memoria.
BigMemory 4.0 tambin
ofrece compatibilidad
con Hadoop
Herramientas
Apache Lucene
Es til para cualquier aplicacin que requiera indexado y bsqueda a texto
completo. Lucene ha sido ampliamente usado por su utilidad en la
implementacin de motores de bsquedas
Zoie es el sistema de indexado y bsqueda en tiempo real de Linkedin.
Linkedin lo don como proyecto Open Source en 2008 y su sitio web sigue
utilizando, gestionando millones de bsquedas diariamente. Se trata de una
modificacin de Lucene adaptndola a los requisitos de Linkedin sin incluir
funcionalidades como sharding, tolerancia a fallos, etc. que sera necesario
aadir.
Katta
Katta es una librera, no demasiado conocida, basada en Hadoop y Lucene.
Bsicamente realiza sharding sobre los ndices de Lucene sirviendo de este
modo un nico ndice repartido entre mltiples servidores. Tiene licencia
Apache y ofrece acceso en tiempo real a los ndices adems de encargarse
automticamente del sharding y la tolerancia a fallos.
El Sharding es una tcnica que consiste
en particionar los datos de tu base de
datos horizontalmente agrupndolos de
algn modo que tenga sentido y que
permita un direccionamiento ms rpido
Solandra
Solandra es un motor de bsqueda en tiempo real basado
en Solr y Cassandra. Cassandra es una base de datos distribuida
desarrollada por Facebook y que sigue el paradigma NoSQL. Su
arquitectura, tal y como comentan en su wiki, se basa en el modelo de
datos de BigTable (Google) y la arquitectura y modelo distribuido de
Dynamo (Amazon)