Está en la página 1de 33

Introducción a Big Data

www.consultec.es  
Quiénes somos?

Gorka  Armen+a   Iñaki  Elcoro  


Developer   Developer  
garmen+a@consultec.es   ielcoro@consultec.es  
@joruus   @iceoverflow  

www.consultec.es  
Índice

1.  Introducción
2.  ¿Qué no es Big Data?
3.  ¿Qué es Big Data?
4.  Utilidades
5.  Ejemplo real: Walmart
6.  Características Técnicas
7.  Markets de Datos
8.  Hadoop
9.  Microsoft HDInsight
10. Demo
Introducción
“Big Data” es desde hacer un par de años una de las grandes
tendencias dentro del mundo de la tecnología y del marketing, uno
de esos “buzzwords” que en un momento dado empiezan a
propagarse y aparecer por todo internet, las grandes empresas se
interesan por ello, se crea una industria alrededor y, de repente, todo
el mundo sabe lo que es Big Data. O no …

BIG DATA
www.consultec.es  
¿Qué no es Big Data?
Antes de empezar, lo primero es desengañarnos.

•  Big Data no es una base de datos enorme

•  Big Data no es un data warehouse enorme

•  Big Data no es una nueva forma de Business Intelligence

•  Big Data no es llevar las base de datos a la nube

www.consultec.es  
¿Qué es Big Data? - Situación actual
Información  
generada  por  
eMails   apps  móviles   GPS  

Bases  de  
Datos  
Redes  Sociales  
Relacionales  
Archivos  
Información  
(XML,  
generada  por  
Logs,  …)  
máquinas  
RFID  

Big  Data  
ERP/CRM   APIs  
Bases  de   Y  mucho  más.    
Datos    
Sensores   Y  lo  que  está  
Analí+cas  
(Data   por  venir  …  
Warehouse)  
Base  de  
Datos  NoSQL   Internet  de  
las  Cosas  

www.consultec.es  
¿Qué es Big Data? - Definiciones
Definiciones encontradas en internet

•  Información que tiene un orden de magnitud más grande de lo que


estamos acostumbrados.

•  Información que es muy grande y no se ajusta a las estructuras de las


bases de datos actuales.

•  Es un conjunto de datos cuyo tamaño está más allá de la capacidad de la


mayoría de los software utilizados para capturar, gestionar y procesar la
información dentro de un lapso tolerable de tiempo.

www.consultec.es  
¿Qué es Big Data? - Las 3 Vs

Volume: grandes volúmenes de información

•  Se está pasando de hablar en Gigabytes o Terabytes a tamaños de datos de


Petabytes, Exabytes o Zettabytes. Volúmenes que se nos escapan.

www.consultec.es  
¿Qué es Big Data? - Las 3 Vs

Variety: información de tipos muy diversos

•  Ya no solo tenemos información estructurada en Bases de Datos o Archivos.


Ahora empezamos a tener información con tipos diferentes y totalmente
desestructurada.

www.consultec.es  
¿Qué es Big Data? - Las 3 Vs

Velocity: velocidad con la que se genera la información

•  La velocidad a la que se genera esta información hace imposible gestionarla


con sistemas de base de datos convencionales. Las empresas y las personas
ya no quieren estar al día, quieren “estar al segundo”.

www.consultec.es  
¿Qué es Big Data? – Retos actuales
•  Dar sentido al gran volumen de datos

•  Necesitamos las herramientas adecuadas para dar sentido de la abrumadora


cantidad de datos generados por la disminución de los costos de hardware y de las
fuentes de datos “complejas”.

•  La comprensión de una variedad cada vez mayor de datos

•  Debemos poder analizar datos tanto relacionales como no relacionales. Más del 85%
de los datos capturados son desestructurados.

•  Habilitación de análisis en tiempo real de los datos

•  Los nuevos grandes generadores de datos (Twitter, Facebook, …) están produciendo


volúmenes de datos sin precedentes y en tiempo real, lo que no se puede analizar
eficazmente mediante procesos por lotes normales.

www.consultec.es  
¿Qué es Big Data? - Entendimiento: de los datos a la
sabiduría
Experiencia  
Sabiduría   Contexto  

Conocimiento  

Información  

Datos  

www.consultec.es  
Utilidades

Toma de decisiones

El valor del Big Data no es la información, sino la nueva forma de toma de


decisiones basada en evidencias y datos empíricos.

Tomar decisiones en base a datos empíricos y tendencias

Tomar decisiones en base a corazonadas, instinto o


experiencias pasadas

www.consultec.es  
Utilidades

Transparencia

Compartir y hacer accesible grandes volúmenes de datos a las partes interesadas


y de manera oportuna puede crear un enorme valor y aumentar la eficiencia.

www.consultec.es  
Utilidades

Experimentación

Una vez recopilados los datos que nos


interesan, la experimentación y la
exploración de los mismos puede
mostrarnos información que a primera vista
nunca hubiésemos encontrado o que nunca
se nos hubiese ocurrido buscar.

www.consultec.es  
Utilidades

Innovación

Permite crear nuevos productos y servicios, mejorar los existentes e, incluso, crear
nuevos modelos de negocio.

www.consultec.es  
Ejemplo real: Walmart
•  Walmart es una multinacional
de grandes almacenes

•  Es la segunda mayor empresa


del mundo por ingresos

www.consultec.es  
Ejemplo real: Walmart
•  Algunos datos:

•  200 millones de clientes a la semana

•  10700 tiendas

•  27 países

•  2 millones de trabajadores

•  1,5 millones de transacciones por hora

•  Varios Terabytes de información generada en tiempo real

•  Base de datos de 3 Petabytes

www.consultec.es  
Ejemplo real: Walmart
Guardando todas las compras de todos los clientes se dieron cuenta que
en época de huracanes los Walmart de las zonas afectadas vendían más
cajas de Pop-Tarts que en otras épocas.

Se indicó a los gerentes de las tiendas que en esas épocas pusiesen los
Pop-Tarts en la entrada de las tiendas.

Resultado: Aumento extraordinario de las ventas

¿A quién se le hubiese ocurrido cruzar los


datos de ventas con los datos meteorológicos
o con los calendarios de huracanes?

www.consultec.es  
Ejemplo real: Walmart
Hanna twitea:

“I love Salt!”.

En unos segundos el Tweet llega a los sistemas de Walmart, se analiza y


unos minutos más tarde le llega a una amiga suya el siguiente email:

“Buenos días!

Nos pediste que te avisásemos cuando fuese el cumpleaños


de Hanna. Pues ya está aquí y acaba de tweetear algo
bueno sobre la película “Salt” de Angelina Jolie.

¿Quieres regalarle algo relacionado con ello?


Tenemos algunas sugerencias que hacerte …”

www.consultec.es  
Ejemplo real: Walmart
Social Genome

Base de conocimiento que captura entidades y relaciones del mundo


social.

Obtiene entidades de su base


de datos, de otros datos tanto
públicos como privados y de
redes sociales.

www.consultec.es  
Ejemplo real: Walmart
Social Genome

Se identifican las entidades “interesantes” y las relacionan entre sí,


consiguiendo toda la información de la que son capaces.

Es un sistema vivo, en constante evolución.

•  Una persona interesada en un tema

•  Una persona que asiste a un evento

•  Un evento sobre un tema


•  Una asociación entre empresa y producto

www.consultec.es  
Ejemplo real: Walmart
Resumiendo

www.consultec.es  
Características Técnicas

Arquitectura

•  Alta escalabilidad

•  Procesamiento paralelo

•  Baja latencia

•  Datos no estructurados y estructurados

•  NoSQL

•  By-pass de datos

www.consultec.es  
Características Técnicas

Key-Value Pair

•  La forma más sencilla de almacenamiento de datos en un entorno de


Big Data y NoSQL

•  Los datos no están controlados por el sistema, por lo tanto los


desarrolladores deberán pensar muy bien donde y como almacenan
los datos

www.consultec.es  
Markets de Datos
Además de las fuentes de datos que tengamos en nuestra
organización: bases de datos, emails, logs, documentos, etc …
Podemos acceder a grandes volúmenes de datos (Data Sets) en los
markets.

Hay gratuitos y de pago.

www.consultec.es  
Hadoop
Es una plataforma diseñada para almacenar y analizar grandes
volúmenes de datos de diferentes tipos. Basada en Google Map/
Reduce y Google Filesystem.

•  Map/Reduce:

•  Map: trabajos desarrollados por nosotros. Se


distribuyen las tareas en diferentes nodos y se ejecutan
en paralelo. Esto genera una información intermedia.

•  Reduce: fusiona la información intermedia y se la


ofrece al usuario.

•  HDFS (Hadoop Distributed File System):

•  Sistema de archivos distribuidos, con replicación


automática y optimizado para lectura. Cada fichero se
partición y se distribuye en todos los servidores.

www.consultec.es  
Hadoop
Otros proyectos alrededor de Hadoop

•  Hive: Data Warehouse sobre Hadoop con lenguaje HiveQL (“SQL”).

•  Pig: Lenguaje de script para consulta y análisis de la información.


Desarrollado por Yahoo!.

•  Sqoop: Framework para la integración de bases de datos relacionales.

•  Flume: Servicio para recolectar, agregar y mover grandes volúmenes de


datos de eventos/logs.

•  …

www.consultec.es  
Microsoft HDInsight
•  Servicio basado en Hadoop.

•  Dos versiones:
•  Windows Azure HDInsight (on-demand)
•  HDInsight Server (on-premise)

www.consultec.es  
Microsoft HDInsight
•  Acceso a todo tipo de usuarios, incluidos desarrolladores y
profesionales IT. Fácil instalación, administración y configuración.

•  Integración con herramientas conocidas como Excel, PowerPivot,


PowerView, SQL Server Analysis Services o Reporting Services.

•  .NET SDK para Hadoop (a través e NuGet):


•  Map/Reduce
•  LINQ to Hive
•  WebHDFS Client

www.consultec.es  
DEMO
www.consultec.es  
Gracias!

www.consultec.es  
¿Dudas?

Gorka  Armen+a   Iñaki  Elcoro  


Developer   Developer  
garmen+a@consultec.es   ielcoro@consultec.es  
@joruus   @iceoverflow  

www.consultec.es  

También podría gustarte