Documentos de Académico
Documentos de Profesional
Documentos de Cultura
TRABAJO DE INVESTIGACIN DE
BASE DE DATOS I
Integrantes:
Piza Michell
Armas Jonathan
Ortiz Martin
Parrales Abel
CURSO: ISI-S-MA-4-3
DOCENTE: Ing. Gary Reyes Zambrano
AO LECTIVO
2017-2C
FRAMEWORK HADDOP Y BASES DE DATOS QUE UTILIZA
Qu es Hadoop?
HISTORIA DE HADOOP
A medida que la World Wide Web creci a fines de la dcada de 1900 y principios
de la de 2000, los motores de bsqueda y los ndices se crearon para ayudar a
localizar informacin relevante en medio del contenido basado en texto. En los
primeros aos, los resultados de bsqueda fueron devueltos por humanos. Pero a
medida que la web creci de docenas a millones de pginas, se necesitaba
automatizacin. Se crearon rastreadores web, muchos como proyectos de
1
investigacin dirigidos por universidades y arrancaron los motores de bsqueda
(Yahoo, AltaVista, etc.).
Uno de esos proyectos fue un motor de bsqueda web de cdigo abierto llamado
Nutch, una creacin de Doug Cutting y Mike Cafarella. Queran devolver
resultados de bsqueda web ms rpido distribuyendo datos y clculos entre
diferentes computadoras para que se pudieran realizar mltiples tareas
simultneamente. Durante este tiempo, otro proyecto de motor de bsqueda
llamado Google estaba en progreso. Se basaba en el mismo concepto: almacenar y
procesar datos de forma distribuida y automatizada para que los resultados de
bsqueda web relevantes pudieran devolverse ms rpidamente.
IMPORTANCIA
2
Poder de procesamiento. El modelo de computacin distribuida de Hadoop
procesa rpidamente Big Data. Cuantos ms nodos de computacin se utilizan,
ms poder de procesamiento tendrs.
3
proveedores de las distribuciones compiten para poner la tecnologa relacional
SQL encima de Hadoop. Es mucho ms fcil encontrar programadores con
habilidades de SQL que con habilidades de MapReduce. Y la administracin de
Hadoop parece parte arte y parte ciencia, requiriendo un bajo nivel de
conocimiento de los sistemas operativos, el Hardware y la configuracin del
kernel de Hadoop.
4
organizacin a operar de manera ms eficiente, descubrir nuevas oportunidades
y obtener ventajas competitivas. El enfoque sandbox o de entorno de pruebas
ofrece una oportunidad para innovar con una inversin mnima.
Data lake. Los data lake permiten almacenar datos en su formato original o
exacto, tanto estructurados como sin estructurar, y sin ningn tipo de
procesamiento, con el objetivo de ofrecer una visin sin modificar o sin refinar
de los datos a los analistas de datos para que puedan utilizarlos para descubrir y
analizar. Les ayuda a hacer preguntas nuevas o difciles sin restricciones. Los
data lake no son un reemplazo de los almacenes de datos. De hecho el cmo
asegurar y gobernar data lakes es un tema enorme para IT.
5
Hadoop Common : las bibliotecas y utilidades utilizadas por otros
mdulos de Hadoop.
Sistema de archivos distribuidos Hadoop (HDFS) : el sistema escalable
basado en Java que almacena datos en varias mquinas sin organizacin
previa.
YARN - (Sin embargo, otro negociador de recursos) proporciona
administracin de recursos para los procesos que se ejecutan en Hadoop.
MapReduce : un marco de software de procesamiento paralelo. Est
compuesto de dos pasos. Map step es un nodo maestro que toma entradas y
las divide en subproblemas ms pequeos y luego los distribuye a nodos de
trabajadores. Despus de que el paso del mapa ha tenido lugar, el nodo
maestro toma las respuestas a todos los subproblemas y los combina para
producir resultados.
Ambari Una interfaz web para administrar, configurar y probar los servicios y
componentes de Hadoop.
Cassandra Un sistema de base de datos distribuida.
Canal Software que recopila, agrega y mueve grandes cantidades de datos de
artificial transmisin en HDFS.
HBase Una base de datos distribuida no relacional que se ejecuta en la parte superior
de Hadoop. Las tablas HBase pueden servir como entrada y salida para
trabajos de MapReduce.
HCatalog Una tabla y capa de administracin de almacenamiento que ayuda a los
usuarios a compartir y acceder a los datos.
Colmena Un almacenamiento de datos y un lenguaje de consulta similar a SQL que
presenta datos en forma de tablas. La programacin de Hive es similar a la
programacin de bases de datos.
Oozie Un programador de trabajos de Hadoop.
6
Cerdo Una plataforma para manipular datos almacenados en HDFS que incluye un
compilador para los programas MapReduce y un lenguaje de alto nivel
llamado Pig Latin. Proporciona una forma de realizar extracciones de datos,
transformaciones y carga, y anlisis bsico sin tener que escribir programas de
MapReduce.
Solr Una herramienta de bsqueda escalable que incluye indexacin, confiabilidad,
configuracin central, failover y recuperacin.
Chispa Un marco informtico de clster de cdigo abierto con anlisis en memoria.
Sqoop Un mecanismo de conexin y transferencia que mueve datos entre Hadoop y
las bases de datos relacionales.
Zookeeper Una aplicacin que coordina el procesamiento distribuido.
NameNode: Slo hay uno en el cluster. Regula el acceso a los ficheros por
parte de los clientes. Mantiene en memoria la metadata del sistema de
ficheros y control de los bloques de fichero que tiene cada DataNode.
7
El modelo de MapReduce simplifica el
procesamiento en paralelo,
abstrayndonos de la complejidad que hay
en los sistemas distribuidos. Bsicamente
las funciones Map transforman un
conjunto de datos a un nmero de
pares key/value. Cada uno de estos
elementos se encontrar ordenado por su
clave, y la funcin reduce es usada para combinar los valores (con la misma clave)
en un mismo resultado.
EL ESCOSISTEMA DE HADOOP
En Hadoop tenemos un
ecosistema muy diverso,
que crece da tras da,
por lo que es difcil
saber de todos los
proyectos que
interactan con Hadoop de alguna forma
Chukwa (http://incubator.apache.org/chukwa/)
8
Apache Flume (http://flume.apache.org/)
Apache Flume es
un sistema
distribuido para
capturar de forma
eficiente, agregar y
mover grandes
cuantidades de datos
log de diferentes
orgenes (diferentes
servidores) a un repositorio central, simplificando el proceso de recolectar estos
datos para almacenarlos en Hadoop y poder analizarlos. Flume y Chukwa son
proyectos parecidos, la principal diferencia es que Chukwa est pensado para ser
usado en Batch.
Hive (http://hive.apache.org/)
9
Apache HBase (http://hbase.apache.org/)
Genera clases Java que permiten interactuar con los datos importados.
10
Apache ZooKeeper (http://zookeeper.apache.org/)
Zookeeper es un
proyecto de Apache que
proporciona una
infraestructura
centralizada y de servicios
que permiten la
sincronizacin del cluster.
ZooKeeper mantiene
objetos comunes que se
necesiten en grandes
entornos de cluster. Algunos ejemplos de estos objetos son informacin de la
configuracin, jerarqua de nombres
Lucene, se trata de una librera escrita en Java, para buscar textos. Lucene permite
indexar cualquier texto que deseemos, permitindonos despus encontrarlos
basados en cualquier criterio de bsqueda. Aunque Lucene slo funciona en texto
plano, hay plugins que permite la indexacin y bsqueda de contenido en
documentos Word, Pdf, XML o pginas HTML.
11
Jaql (https://code.google.com/p/jaql/)
12
BIBLIOGRAFA
ABDULLAH, IBRAHIM BIN. 2010. Incremental pagerank for twitter data using
hadoop. Diss. Masters thesis. Edinburgh : s.n., 2010.
BORTHAKUR, D., et al. 2011. Apache Hadoop goes realtime at Facebook. [ed.] ACM.
s.l. : Proceedings of the 2011 ACM SIGMOD International Conference on Management
of data, 2011. pp. 1071-1080.
SARKAR, DEBARCHAN. 2013. Microsoft SQL Server 2012 with Hadoop. s.l. : Packt
Publishing Ltd, 2013.
GHEMAWAT, SANJAY, HOWARD, GOBIOFF AND SHUN-TAK, LEUNG.
2003. The Google file system. s.l. : ACM SIGOPS Operating Systems Review, 2003. Vol.
37.
DITTRICH, J. AND QUIAN-RUIZ, J. A. 2012. Efficient big data processing in Hadoop
MapReduce. s.l. : VLDB, 2012.
GHEMAWAT, SANJAY, HOWARD, GOBIOFF AND SHUN-TAK, LEUNG.
2003. The Google file system. s.l. : ACM SIGOPS Operating Systems Review, 2003. Vol.
37.
LEE, K., et al. 2012. Parallel data processing with MapReduce: a survey. s.l. : AcM
sIGMoD Record, 2012. pp. 11-20.
13