Está en la página 1de 4

CRONOLOGÍA DE LAS

TECNOLOGÍAS
CONCEPTOS BÁSICOS DEL BIG DATA
Introducción a Big Data
CRONOLOGÍA DE LAS TECNOLOGÍAS

CRONOLOGÍA DE LAS TECNOLOGÍAS


En este documento veremos de una forma gráfica además de explicativa cómo ha ido evolucionando
la tecnología en el siglo XXI.
En el año 2002, Doug Cutting trabajaba en el desarrollo de un buscador Nutch a gran escala. El
proyecto tenía problemas de escalabilidad ya que el sistema no era capaz de procesar todos los datos.
Para que lo entendamos, únicamente podía procesar el 15% de las webs y no podía pasar de ese
tanto por ciento.
En los años 2003 y 2004, Jeff Dean y su equipo de investigación de Google publican dos artículos que
resultan clave para la solución del problema de Doug Cutting.
Uno describía el sistema de archivos distribuidos de Google, denominado Google File System; y el
otro describía un nuevo paradigma basado en fases Map/Reduce.
En 2004, Doug Cutting lee estos artículos y desarrolla NDFS (Nutch Distributed File System), una
manera económica de implementar el sistema de archivos distribuidos de Google, que solucionaba
gran parte de los problemas de escalabilidad que tenía.
Ya en 2006, Yahoo contrata a Doug y crea un proyecto en Apache llamado Hadoop, una
implementación del paradigma Map/Reduce.
El proyecto NDFS pasa a denominarse HDFS (Hadoop Distributed File System); nombre por el que se
le conoce hoy. De este modo se crea la versión 1.0 de Hadoop.
Así, Yahoo usando Hadoop pudo ordenar 1,8 Terabytes en 47,9 horas, algo increíble para las
tecnologías existentes en 2006.
Al año siguiente, en 2007, Yahoo Labs crean Pig, un sistema que permite acceder y transformar los
datos ocultando la complejidad del paradigma Map/Reduce basándose en el lenguaje de scripts.
En 2008, Facebook crea Hive, un sistema que permite acceder y transformar los datos ocultando la
complejidad del sistema basado en SQL. Su principal función era migrar los programas en SQL al
nuevo paradigma.
También en 2008 se crea Cloudera, empresa con vocación de software libre creada por ingenieros
que trabajaban en Google, Yahoo y Facebook, enfocada a comercializar Hadoop.
Continuando, al año siguiente, en 2009, Yahoo ya consigue ordenar 1 Terabyte de información ¡en
62 segundos! ¿Te imaginas? Ese mismo año, nuestro Doug Cutting se une a Cloudera.
Vayamos a 2010. Matei Zaharia, realiza su tesis doctoral en la Universidad de Berkeley, enfocada en
proporcionar una mejor alternativa para procesar datos masivos en determinados casos en los que
Map/Reduce no era del todo eficiente. Su tesis se basa en el uso de la memoria en lugar de usar el
disco HDFS para el tratamiento masivo de datos. Nace Spark.

1
INTRODUCCIÓN A BIG DATA
CRONOLOGÍA DE LAS TECNOLOGÍAS

Ya en 2013, el proyecto es donado a Apache Foundation y nace Databricks, una plataforma enfocada
a comercializar distribuciones basadas en Spark.
En 2015, Google libera sus librerías para aprendizaje profundo, TensorFlow, para uso mediante
licencia Open Source.
Al año siguiente, en 2016, la startup DataTorrent lidera el proyecto Apache Apex, que permite el
tratamiento por lotes y en tiempo real.
Como último hito a destacar en esta cronología, en 2017, se acepta en Apache Foundation el conjunto
de librerías MXNet que usa Amazon para el aprendizaje profundo.
Y por si fuera poco, todas estas tecnologías son de licencia abierta, es decir, cualquiera puede usarlas
sin coste alguno.
Bueno, ¡no está mal el recorrido! Repasa la cronología en el siguiente esquema. ¡Hasta pronto!

2002 2003 2004 2006 2007 2008

Doug Cutting Artículos de Doug Cutting •Yahoo ficha •Se crea


a Doug Yahoo crea Cloudera
trabaja en Google GFS incorpora DFS
Cutting Pig
Nutch Map/Reduce en Nutch •Facebook
•Hadoop crea Hive
Proyecto
Apache
Foundation

2009 2010 2013 2015 2016 2017


Google libera Apache,
bajo licencia proyecto
Matei MXNet Amazon
•Yahoo! open source liderado por
Zaharia Tesis Se crea Aprendizaje
Ordena un tensor flow la empresa
Spark Databrick profundo
terabyte en para DataTorrent
Databrick aceptado en fase
62 segundos aprendizaje unifica el
•Doug profundo tratamiento de incubadora en
Cutting se en lotes y en Apache
une a tiempo real Foundation.
Cloudera

2
INTRODUCCIÓN A BIG DATA
CRONOLOGÍA DE LAS TECNOLOGÍAS

INTRODUCCIÓN AL BIG DATA

3
INTRODUCCIÓN A BIG DATA

También podría gustarte