Big Data es el trmino que se emplea hoy en da para describir el conjunto de
procesos, tecnologas y modelos de negocio que estn basados en datos y en capturar el valor que los propios datos encierran. Esto se puede lograr tanto a travs de una mejora en la eficiencia gracias al anlisis de los datos (una visin ms tradicional), como mediante la aparicin de nuevos modelos de negocio que supongan un motor de crecimiento. Se habla mucho del aspecto tecnolgico, pero hay que tener presente que es crtico encontrar la forma de dar valor a los datos para crear nuevos modelos de negocio o de ayudar a los existentes. Caractersticas: A Big Data le caracterizan las tres "V": volumen, variedad y velocidad: Volumen Actualmente vemos el crecimiento exponencial en el almacenamiento de datos como los datos son ahora ms que datos de texto. Podemos encontrar los datos en el formato de los vdeos, msicas y las grandes imgenes en nuestros canales de medios sociales. Es muy comn tener terabytes y petabytes del sistema de almacenamiento para empresas. A medida que la base de datos crece de las aplicaciones y la arquitectura construidas para soportar los datos necesita ser reevaluado con bastante frecuencia. Velocidad El crecimiento de los datos y la explosin de los medios sociales han cambiado la forma en que miramos a los datos. El movimiento de datos es ahora casi en tiempo real y la ventana de actualizacin se ha reducido a fracciones de los segundos. Estos datos de alta velocidad representan Big Data. Variedad Los datos pueden almacenarse en formato mltiple, la necesidad de la organizacin para arreglarlo y hacerlo significativo. El mundo real tiene datos en muchos formatos diferentes y que es el reto que tenemos que superar con el Big Data. Esta variedad de los datos de IMDb para representar a los grandes datos. HADOOP: Apache Hadoop es un framework que permite el procesamiento de grandes volmenes de datos a travs de clusters, usando un modelo simple de programacin. Adems su diseo permite pasar de pocos nodos a miles de nodos de forma gil. Hadoop es un sistema distribuido usando una arquitectura Master-Slave, usando para almacenar su Hadoop Distributed File System (HDFS) y algoritmos deMapReduce para hacer clculos. Por qu es bueno Hadoop? En en el entorno tecnolgico que actualmente se mueven todas las organizaciones, donde los sistemas no slo son capaces de generar e ingestar los datos rpidamente sobre formatos estructurados (SQL), tambin, cada vez ms, se generan datos que no son estructurados (NoSQL). Hadoop es capaz de almacenar toda clase de datos: estructurados, no estructurados, semiestructurados; archivos de registro, imgenes, video, audio, comunicacin, etc Por otra parte Hadoop tambin destaca por tener una arquitectura con capacidad de asegurar una alta disponibilidad y recuperacin de los datos que ingesta. Algunos conceptos clave sobre Hadoop Replication La alta disponibilidad de los datos en Hadoop es posible debido a que lleva implcita la replicacin de datos en un clster Hadoop. Un bloque de archivo se replica en varios nodos de datos en funcin del factor de replicacin del clster Hadoop, que podra ser 1, 2, 3 Un factor de replicacin de 1 indica que un bloque de archivo residir en un slo nodo de datos. Un factor de replicacin de 2 indica que un bloque de archivo residir en dos nodos de datos, ya sea dentro del mismo rack o en uno que est fsicamente a miles de kilmetros de distancia; etc, etc. Arquitectura Hadoop se basa en una arquitectura Master/Slave (Maestro/Esclavo) con tipos de nodos: nodo mster (maestro) y los nodos slave (esclavos). Un clster Hadoop tiene un slo nodo mster y varios nodos slave. Nodo Mster Es el encargado de almacenar el metadato asociado a sus nodos slave dentro del rack del que forma parte. El nodo mster es el responsable de mantener el estatus de sus nodos slave, estableciendo uno de ellos como nodo pasivo, que se convertir en nodo mster, si por cualquier motivo ste se quedara bloqueado. Uno de los problemas que tiene Hadoop es que a veces elnodo pasivo no est sincronizado con el nodo mster original, al asumir las funciones de ste dentro del proceso. Nodo slave Es el nodo encargado de almacenar la informacin que se est procesando por el nodo mster en un momento concreto. Rack En Hadoop se denomina rack a la combinacin de nodos de datos. Un rack puede tener mximo de 40 nodos mster. Cada rack tiene un switch que le permite comunicarse con los distintos racks del ecosistema, sus nodos y procesos cliente. Proceso cliente Un proceso cliente es un proceso que se lanza a peticin de un nodo mster, ya sea para almacenamiento de archivo nuevo o recuperacin de un archivo en el clster Hadoop. El nodo mster se comunica directamente con el proceso cliente y acta segn el tipo de peticin que este le realiza.
NO SQL: Es una amplia clase de sistemas de gestin de bases de datos que difieren del modelo clsico del sistema de gestin de bases de datos relacionales (RDBMS) en aspectos importantes, el ms destacado que no usan SQL como el principal lenguaje de consultas. Los datos almacenados no requieren estructuras fijas como tablas, normalmente no soportan operaciones JOIN, ni garantizan completamente ACID (atomicidad, coherencia, aislamiento y durabilidad), y habitualmente escalan bien horizontalmente. Por lo general, los investigadores acadmicos se refieren a este tipo de bases de datos como almacenamiento estructurado, trmino que abarca tambin las bases de datos relacionales clsicas. A menudo, las bases de datos NoSQL se clasifican segn su forma de almacenar los datos, y comprenden categoras como clave-valor, las implementaciones de BigTable, bases de datos documentales, y Bases de datos orientadas a grafos.