Está en la página 1de 4

BigData:

Big Data es el trmino que se emplea hoy en da para describir el conjunto de


procesos, tecnologas y modelos de negocio que estn basados en datos y en capturar
el valor que los propios datos encierran. Esto se puede lograr tanto a travs de una
mejora en la eficiencia gracias al anlisis de los datos (una visin ms tradicional),
como mediante la aparicin de nuevos modelos de negocio que supongan un motor de
crecimiento. Se habla mucho del aspecto tecnolgico, pero hay que tener presente que
es crtico encontrar la forma de dar valor a los datos para crear nuevos modelos de
negocio o de ayudar a los existentes.
Caractersticas: A Big Data le caracterizan las tres "V": volumen, variedad y
velocidad:
Volumen
Actualmente vemos el crecimiento exponencial en el almacenamiento de datos como
los datos son ahora ms que datos de texto. Podemos encontrar los datos en el
formato de los vdeos, msicas y las grandes imgenes en nuestros canales de medios
sociales. Es muy comn tener terabytes y petabytes del sistema de almacenamiento
para empresas. A medida que la base de datos crece de las aplicaciones y la
arquitectura construidas para soportar los datos necesita ser reevaluado con
bastante frecuencia.
Velocidad
El crecimiento de los datos y la explosin de los medios sociales han cambiado la
forma en que miramos a los datos. El movimiento de datos es ahora casi en tiempo real
y la ventana de actualizacin se ha reducido a fracciones de los segundos. Estos datos
de alta velocidad representan Big Data.
Variedad
Los datos pueden almacenarse en formato mltiple, la necesidad de la organizacin
para arreglarlo y hacerlo significativo. El mundo real tiene datos en muchos formatos
diferentes y que es el reto que tenemos que superar con el Big Data. Esta variedad de
los datos de IMDb para representar a los grandes datos.
HADOOP:
Apache Hadoop es un framework que permite el procesamiento de grandes volmenes
de datos a travs de clusters, usando un modelo simple de programacin. Adems su
diseo permite pasar de pocos nodos a miles de nodos de forma gil.
Hadoop es un sistema distribuido usando una arquitectura Master-Slave, usando para
almacenar su Hadoop Distributed File System (HDFS) y algoritmos deMapReduce para
hacer clculos.
Por qu es bueno Hadoop?
En en el entorno tecnolgico que actualmente se mueven todas las organizaciones,
donde los sistemas no slo son capaces de generar e ingestar los datos rpidamente
sobre formatos estructurados (SQL), tambin, cada vez ms, se generan datos que no
son estructurados (NoSQL).
Hadoop es capaz de almacenar toda clase de datos: estructurados, no estructurados,
semiestructurados; archivos de registro, imgenes, video, audio, comunicacin, etc
Por otra parte Hadoop tambin destaca por tener una arquitectura con capacidad de
asegurar una alta disponibilidad y recuperacin de los datos que ingesta.
Algunos conceptos clave sobre Hadoop
Replication
La alta disponibilidad de los datos en Hadoop es posible debido a que lleva implcita la
replicacin de datos en un clster Hadoop. Un bloque de archivo se replica en varios
nodos de datos en funcin del factor de replicacin del clster Hadoop, que podra
ser 1, 2, 3
Un factor de replicacin de 1 indica que un bloque de archivo residir en un slo nodo
de datos. Un factor de replicacin de 2 indica que un bloque de archivo residir en
dos nodos de datos, ya sea dentro del mismo rack o en uno que est fsicamente a
miles de kilmetros de distancia; etc, etc.
Arquitectura
Hadoop se basa en una arquitectura Master/Slave (Maestro/Esclavo) con tipos de
nodos: nodo mster (maestro) y los nodos slave (esclavos). Un clster Hadoop tiene un
slo nodo mster y varios nodos slave.
Nodo Mster
Es el encargado de almacenar el metadato asociado a sus nodos slave dentro
del rack del que forma parte.
El nodo mster es el responsable de mantener el estatus de sus nodos slave,
estableciendo uno de ellos como nodo pasivo, que se convertir en nodo mster, si por
cualquier motivo ste se quedara bloqueado. Uno de los problemas que tiene Hadoop es
que a veces elnodo pasivo no est sincronizado con el nodo mster original, al asumir
las funciones de ste dentro del proceso.
Nodo slave
Es el nodo encargado de almacenar la informacin que se est procesando por el nodo
mster en un momento concreto.
Rack
En Hadoop se denomina rack a la combinacin de nodos de datos. Un rack puede
tener mximo de 40 nodos mster. Cada rack tiene un switch que le permite
comunicarse con los distintos racks del ecosistema, sus nodos y procesos cliente.
Proceso cliente
Un proceso cliente es un proceso que se lanza a peticin de un nodo mster, ya sea
para almacenamiento de archivo nuevo o recuperacin de un archivo en el clster
Hadoop. El nodo mster se comunica directamente con el proceso cliente y acta
segn el tipo de peticin que este le realiza.

NO SQL:
Es una amplia clase de sistemas de gestin de bases de datos que difieren del modelo
clsico del sistema de gestin de bases de datos relacionales (RDBMS) en aspectos
importantes, el ms destacado que no usan SQL como el principal lenguaje de
consultas. Los datos almacenados no requieren estructuras fijas como tablas,
normalmente no soportan operaciones JOIN, ni garantizan
completamente ACID (atomicidad, coherencia, aislamiento y durabilidad), y
habitualmente escalan bien horizontalmente.
Por lo general, los investigadores acadmicos se refieren a este tipo de bases de
datos como almacenamiento estructurado, trmino que abarca tambin las bases de
datos relacionales clsicas. A menudo, las bases de datos NoSQL se clasifican segn
su forma de almacenar los datos, y comprenden categoras como clave-valor, las
implementaciones de BigTable, bases de datos documentales, y Bases de datos
orientadas a grafos.

También podría gustarte