Está en la página 1de 26

El valor de la información: el reto del “Big Data”

Una introducción al Big Data


y su impacto en la sociedad
Francisco Herrera
Grupo de Investigación
“Soft Computing y Sistemas de Información Inteligentes”

Dpto. Ciencias de la Computación e I.A.


Universidad de Granada
herrera@decsai.ugr.es
http://sci2s.ugr.es
Nuestro mundo gira en torno a los datos

Ciencia
Medicina
Ciencias Sociales y Humanidades
Negocio, Comercio e Industria
Entretenimiento y Ocio
La explosión de los datos

Exabytes: 1018 bytes.


La explosión de los datos
Zettabyes: 1021 bytes.
¿Qué hacemos con estos datos?

El progreso y la innovación ya no se ven


obstaculizados por la capacidad de recopilar datos,
sino por la capacidad de

Extraer el valor de los datos

Convertir datos en conocimiento


El valor de la información: el
reto del “Big Data”

 ¿Por qué Big Data? Tecnologías para Big Data y


Big Data Analytics. Ciencia de Datos

 El poder de los datos y su impacto en la sociedad


El valor de la información: el
reto del “Big Data”

 ¿Por qué Big Data? Tecnologías para Big Data


y Big Data Analytics. Ciencia de Datos

 El poder de los datos y su impacto en la sociedad


¿Por qué Big Data?
Terabyte: 1012 bytes

• Problema: Escalabilidad de grandes cantidades de datos


• Ejemplo:
– Exploración 100 TB en 1 nodo @ 50 MB/sec = 23 días
• Solución  Divide-Y-Vencerás
– Exploración en un clúster de 1000 nodos = 33 minutos

¿Cómo podemos procesar 1000 TB (1 PB) ó 10000 TB?


Propuesta de Google 2004:
Fragmentación Datos
Paradigma MapReduce Procesamiento Paralelo
(aproximación más popular a big data) Fusión de Modelos
Big Data

Big Data en 3 V’s

Volumen

Big
Data
Variedad Velocidad
Doug Laney, Gartner Feb. 6, 2001
3-D Data Management: Controlling Data Volume, Velocity and Variety.
¿Qué es Big Data? 3 V’s de Big Data

Some Make it 4V’s: Veracity

“Big Data” son datos cuyo volumen,


diversidad y complejidad requieren
nueva arquitectura, técnicas,
algoritmos y análisis para gestionar y
extraer valor y conocimiento oculto en
ellos ...
Big Data: Tecnología
2001-2010
2010-2015 y Cronología

2001
3V’s Gartner
Doug Laney
2009-2013 Flink 2010-2015:
2004
TU Berlin MapReduce
Flink Apache (Dec. Google Big Data
2014) Volker
Markl
Big Jeffrey Dean
Analytics:
Mahout, MLLib, …

Data Hadoop
Ecosystem
2010 Spark 2008
U Berckeley Hadoop Aplicaciones
Apache Spark Yahoo!
Feb. 2014 Nuevas
Doug Cutting Tecnologías
Matei Zaharia
11
Big Data Analytics Potentiales escenarios

Real Time Analytics/


Classification Big Data Streams
Clustering

Social Media Mining


Recommendation Social Big Data
Association
Systems
Ciencia de Datos
Ámbito del conocimiento que engloba las habilidades
asociadas al análisis inteligente de datos, incluyendo Big Data

Científico de datos
El valor de la información: el
reto del “Big Data”

 ¿Por qué Big Data? Tecnologías para Big Data y Big


Data Analytics. Ciencia de Datos

 El poder de los datos y su impacto en la sociedad


Análisis de transacciones El poder de los datos
Amazon: Sistema de recomendación

Los datos incrementaron Críticos y editores literarios


tremendamente las ventas La voz de Amazon (1995)
Ahora más de 1/3 de las ventas son
gracias a las recomendaciones

Dilema: ¿Lo que los


clics decían o lo que
opinaban los
críticos?

Greg Linde (1997) propuso un


sistema de recomendaciones,
filtrado colaborativo
“artículo a artículo”
Fuente: Big Data. La revolución de los datos masivos. Pag. 69. The power of habit, Charles Duhigg. Feb. 2012
El poder de los datos
Análisis de transacciones

Modelo de predicción de
Disculpas Empresa. clientes embarazadas por
Disculpas del padre, medio de sus patrones de
confirmación del compra.
embarazo de la hija

Enfado de un padre: Su Hija v


recibe publicidad de
productos para embarazadas

Descubrimiento: Cremas
Acción: Envío de sin perfume al tercer mes.
cupones para cada Dos docenas de productos
fase del embarazo
Predicción de fecha parto
Fuente: Big Data. La revolución de los datos masivos. Pag. 77
Análisis de transacciones: El poder de los datos

Un chivo expiatorio
Target (cadena de grandes almacenes) que utiliza el
análisis de transacciones y asociaciones.

Unos días después el director llamó al padre para


disculparse.
Respuesta conciliadora del padre:
“He estado hablando con mi hija –dijo el padre–
Resulta que en mi casa han tenido lugar ciertas
actividades de las que yo no estaba del todo
informado. Mi hija sale de cuentas en agosto. Soy
yo el que les debe una disculpa”.

Fuente: Big Data. La revolución de los datos masivos. Pag. 77.


Analizando Twitter para medir la
Salud Pública You Are What You Tweet

Un sistema de filtrado de datos de Twitter puede inferir


aspectos de salud analizando 144M de tuits (2011-2013)

Se obtienen 13 grupos coherentes de mensajes correlacionados


- Gripe estacional (r= 0.689) y alergias (r = 0.810)
- Ejercicio y obesidad relacionados con datos geográficos, ..
Discovering Health Topics in Social Media Using Topic Models
Michael J. Paul, Mark Dredze, Johns Hopkins University, Plos One 9(8) e103408, 2014
doi:10.1371/journal.pone.0103408
Banca: Identificación de personas con
las compras de tarjetas de crédito
http://elpais.com/elpais/2015/01/29/ciencia/1422520042_066660.html

http://www.sciencemag.org/content/347/6221/536
Banca: Identificación de personas con
las compras de tarjetas de crédito

Identificación por el género

Identificación por el número de compras


Identificación por el
poder adquisitivo
Impacto en la sociedad
Salud
Redes sociales como fuente de datos
Industria, comercio, banca, …
Ocio y cultural (Ej. Recomendaciones)
Política
Bien social (Social good)
Big Data: Gran Impacto en la Sociedad y
presencia en los medios de comunicación

http://www.elmundo.es/elmundo/2013/09/03/navegante/1378243782.html
Impacto Económico

La demanda de profesionales
formados en Ciencia de Datos
y Big Data es enorme.

Se estima que la conversión de


datos en información útil generó
un mercado de 132.000 millones
de dólares en 2015 y que se crearán
más de 4.4 millones de empleos.

España necesitaba para 2015 más


de 60.000 profesionales con
formación en Ciencia de Datos y Big
Data. http://economia.elpais.com/economia/2013/09/27/actualidad/1380
283725_938376.html
http://www.revistacloudcomputing.com/2013/10/espana-necesitara-60-000-profesionales-de-big-data-hasta-
2015/?goback=.gde_4377072_member_5811011886832984067#!
El valor de la información: el
reto del “Big Data”

2 Lecturas rápidas: Sobre la tecnología y


sobre el poder de los datos

Capítulo 3.
http://issuu.com/secacult_uja/docs/libro_francisco_herrera.indd
Comentarios Finales

Nube de datos (Noviembre 2014)


¡Gracias!

También podría gustarte