Está en la página 1de 3

QUE ES HADOOP?

Hadoop es una plataforma que nos permite desarrollar aplicaciones que tengan que tratar con grandes cantidades de datos, hasta Petabytes. as , Si no tienes muchos datos de entrada, buscate otro framework. Analiza tantos datos que no te caben en una sola mquina. Si los datos te caben en una sola mquina te ests equivocando de Framework. Permite manejar escalabilidad de los datos, reduce los costos de hardware, es flexible en cuanto al tipo de datos y tolerante a fallos por sus archivos replicado Por que Hadoop? Apache Hadoop al ser un proyecto de software libre es adaptable a cualquier necesidad. Hadoop presenta una escalabilidad prcticamente horizontal, por lo que basta duplicar el nmero de nodos para duplicar la capacidad de clculo y almacenamiento. Hadoop no necesita un hardware especial y se adapta como un guante a las plataformas de Cloud Computing (Amazon Web Services) adems est preparado para correr en mquinas "baratas Hadoop puede ser adaptado para importar/exportar los datos desde bases de datos relacionales y NoSQL, ndices y cualquier otra estructura de datos. Si sabemos que el hardware se va a estropear durante la ejecucin, tranquilo Hadoop esta preparado para soportarlo. Los puntos fuertes de hadoop: Fcil a utilizar: facilidad de uso de la libreria MapReduce para la resolucin de problemas bsicos. Escalabilidad: conectar un nodo (cluster), Arrancar los mdulos y ya esta en funcionamiento. Robusto: Si un nodo de calculo cae, sus tareas son automticamente repartidas a otros nodos, los bloques de datos tambin son replicados. Creado especialmente para grandes volmenes de datos. Facebook para el anlisis de logs, Google para el anlisis de peticiones de bsquedas, etc..

COMPONENTES HADOOP? Hadoop se asienta en un sistema de ficheros distribuido (HDFS) capaz de almacenar terabytes y petabytes de informacin. Esta informacin es consumida y procesada mediante trabajos implementados en MapReduce, que son capaces de aprovechar la potencia de clculo de un cluster de mquinas la arquitectura que forma un cluster de Hadoop. HDFS Sistema de almacenamiento distribuido Reparticion de bloques: Archivos divididos en blocks grandes, se distribuyen a travs del clster Verifica fallos en el cluster: Los blocks son replicados (copiados) para manejo de fallo de hardware Motor de replicacion: HDFS reparte la carga de trabajo segn la utilizacion de discos y rede, Fcil ubicacin de los datos, el paso de un servidor a otro es transparente para el cliente MapReduce Es un framework java para la creation de programmas de calculo distribuido. Tareas de usuario son reducidas en Mapeos y reducciones Map: el nodo padre descompone un problema en varios subproblemas y los distribuye hacia los nodos hijo, un nodo hijo a su vez puede convertirse en padre y descomponer su tarea. Reduce: Los nodos padre reuperan les resultados de los nodos hijo afin de agregr los resultados.

Que ES Hive? La principal incomodidad que tiene Hadoop es que para hacer una simple consulta de datos hay que escribir un programa completo en Java, y esto, no es rpido Ah donde entra en juego Hive Hive es una infraestructura de data warehousing encima de Hadoop, que permite la consulta de datos Y esto que significa? pues bsicamente se trata de crear unos metadatos encima de los directorios de HDFS describiendo el formato de los ficheros, asi pues se crea una estructura tabular virtual encima de Hadoop. Hive tambin tiene un intrprete de comandas sql, por lo tanto se podra escribir una consulta sql de toda la vida en la command line, luego hive coge el sql, lo convierte automticamente en jobs Map/Reduce y estos son ejecutados de forma transparente en el clster como jobs normales. Hive permite la creacin de un datawarehouse sobre tecnologa Hadoop, mediante el almacenamiento de grandes cantidades de datos y su anlisis a travs de una interfaz SQL. Hive es compatible con diversas herramientas de generacin de informes e inteligencia de negocio, como MicroStrategy o Pentaho. Los costes de mantener un datawarehouse en la nube con Hive son muy bajos comparados con los datawarehouses tradicionales. Hive es una herramienta que me permite consultar, almacenar y procesar datos mediante un lenguaje de consultas parecido al L denominado ive L con sus siglas L u uso esta orientado a reali ar ata are ousing para informacion de empresas.