Documentos de Académico
Documentos de Profesional
Documentos de Cultura
https://es.linkedin.com/in/anllogui
https://twitter.com/anllogui
Esta charla
Qu es BigData
Ecosistema Hadoop
Distribuciones Hadoop
Arquitecturas de referencia
Recomendaciones y consideraciones
Qu es BigData?
(Volumen)
DW vs BigData
Qu es BigData
Ecosistema Hadoop
Distribuciones Hadoop
Arquitecturas de referencia
Recomendaciones y consideraciones
Hadoop ecosystem
Qu es Hadoop?
Principales productos del ecosistema Hadoop
Stack tecnolgico
Qu es Hadoop?
Hadoop es un framework que permite el proceso distribuido de grandes volmenes
de datos entre clusters de computacin.
Est diseado para escalar desde un solo servidor a miles de mquinas, cada una
ofreciendo capacidad de clculo y de almacenamiento.
Tolerante a fallos
Incluye:
Hadoop Commons
Hadoop Distributed File System (HDFS)
Hadoop YARN (yet another resource negotiator)
Hadoop MapReduce
Yahoo: 4500 nodos (2*4cpu boxes w 4*1TB disk & 16GB RAM)
Stack Tecnolgico
MapReduce 2
YARN
HDFS
General Purpose
Execution Engines
Storage managers
HDFS
Cascading
Mahout
Giraph
Sqoop
Hive
Pig
MapReduce 2
YARN
HBase
HDFS
Qu no es:
No es una BBDD SQL
No es relacional
No soporta Joins
Sin un motor de consultas sofisticado
No es transaccional por defecto
No es un sustituto a una RDBMS
Entonces, para qu sirve? e.g.: para almacenar y procesar logs
HBase
Hive
SQL-Like HiveSQL
Reduce el tiempo de desarrollo.
Se ejecuta sobre Mapreduce, Spark o Tez.
Orientado a batch. En progreso modo interactivo Stinger Initiative
Spark Streaming
Spark SQL
Cascading
BlinkDB
Mahout
GraphX
Giraph
Sqoop
MLib
Hive
Pig
MapReduce 2 Spark
YARN
HBase
HDFS / MapR-FS / HBase
Amazon EC2
Apache Mesos
Hadoop YARN
Spark Streaming
Spark SQL
Cascading
Cascading
BlinkDB
Mahout
GraphX
Giraph
Sqoop
MLib
Hive
Hive
Pig
Pig
MapReduce 2 Spark
YARN
HBase
HDFS / MapR-FS / HBase
Spark Streaming
Spark SQL
Cascading
Cascading
BlinkDB
Mahout
GraphX
Giraph
Sqoop
MLib
Hive
Hive
Pig
Pig
MapReduce 2 Spark
Impala
Storm
Flume
Hawq
Kafka
YARN
HBase
HDFS / MapR-FS / HBase
Spark Streaming
Spark SQL
Cascading
Cascading
BlinkDB
Mahout
GraphX
Giraph
Sqoop
MLib
Hive
Hive
Pig
Pig
MapReduce 2 Spark
Impala
Storm
Flume
Hawq
Kafka
YARN
HBase
HDFS / MapR-FS / HBase
Qu es BigData
Ecosistema Hadoop
Distribuciones Hadoop
Arquitecturas de referencia
Recomendaciones y consideraciones
Distribuciones Hadoop
Qu es BigData
Ecosistema Hadoop
Distribuciones Hadoop
Arquitecturas de referencia
Recomendaciones y consideraciones
Conceptual Architecture
Data Lake
Qu es BigData
Ecosistema Hadoop
Distribuciones Hadoop
Arquitecturas de referencia
Recomendaciones y consideraciones
Recomendaciones
Para los proyectos de Big Data, no hay que "obsesionarse" con la tecnologa.
Cloudera y MapR
consideradas plataformas
de DW
http://www.gartner.com/technology/reprints.do?id=1-2A7BNGD&ct=150219&st=sb
Forrester Wave Big Data Hadoop Solutions
2014 2016
https://www.cloudera.com/content/dam/www/static/documents/analyst-reports/forrester-wave-big-data-hadoop-distributions.pdf
Q&A
Sesin Prctica
http://certification.cloudera.com/prep/dsc1sk/intro.html
www.capgemini.com