Está en la página 1de 132

BIG DATA

A NÁ LI SI S Y V I SUA L I Z A CI Ó N DE DATO S PA RA L A TO M A
DE DE CI SI O NE S
Perfil Profesional

Master en Ciencia de Datos*


Master en TIC’s
Ing. Fabián Moreano A. Msc.
Ingeniero de Sistemas
www.linkedin.com/in/fabianmoreano
+18 años de experiencia en
fabian.moreano@hotmail.com TIC’s

Consultor de Tecnologías de la
Información
Big Data
• Conceptos
• Historia
• Las “V” de Big Data
• Ecosistema
• Arquitectura (Ejercicio BBVA)
• Bases de datos estructuradas y no estructuradas
• Redes Sociales y el Big Data
• Casos de Uso
Conceptos
¿Qué es Big Data?

"Big data" es un término aplicado a


conjuntos de datos que superan la
capacidad del software habitual para ser
capturados, gestionados y procesados
en un tiempo razonable.
¿Qué es Big Data?

“Big Data” hace referencia al conjunto


de información que es demasiado
compleja como para ser procesada
mediante TI tradicionales de manera
aceptable
Historia
Un poco de historia…
Un poco de historia…
Estadísticas IDC
• Para el 2013 habían 4.4 zettabytes de datos digitales en todo el
mundo, pero para el 2020 se estiman 44 zettabytes o lo que es lo
mismo 44 trillones de gigabytes.
• Para hacernos aproximadamente una idea de lo que es 1 zettabyte sin
términos informáticos podemos decir que 1 gigabyte puede
almacenar 960 minutos de música, por lo que técnicamente un
zettabyte podría almacenar más de 2 billones de años de música.
Estadísticas IDC
• Menos del 0,5% de la data producida del mundo está siendo
analizada.
• El crecimiento esperado de los datos generados en el 2020 es 15
veces mayor al 2012 llegando a 42 ZB.
• En 2020 existirán aproximadamente 5,247 GB de datos por cada
hombre, mujer y niño.
• “En el año 2020, cada ser humano creará 1,7 MB de información
cada segundo”.
Estadísticas IDC
• Para el año 2025 cerca del 20% de los datos globales serán críticos
para nuestras vidas diarias, y revela que a nivel mundial, la persona
conectada interactuará con dispositivos conectados en un
promedio cercano a los 4.800 veces diarias.
Estadísticas IDC
• La era de la inteligencia artificial y cognitiva ya ha llegado; según IDC,
en 2020 el 85% de las interacciones con clientes serán gestionadas
con inteligencia artificial.
Estadísticas
• Gartner predice que en 2020 los asistentes virtuales serán
responsables de una creación de valor anual de más de 8 billones
dólares.
• De acuerdo a estudios realizados por Accenture, más del 50% de los
responsables de tecnología reconocen que los asistentes
conversacionales impactarán disruptivamente en sus industrias y un
85% de los mismos reconoce que invertirá intensivamente en
transformar sus negocios a través de la IA en los próximos tres años.
Estadísticas IDC
Estadísticas IDC
Cloud Computing
Cloud Computing

La computación en la nube (del inglés cloud


computing), conocida también como servicios
en la nube, informática en la nube, nube de
cómputo, nube de conceptos o simplemente
"la nube", es un paradigma que permite
ofrecer servicios de computación a través de
una red, que usualmente es Internet.
Cloud Computing
MICROSOFT AZURE
Ejercicio Plataforma AZURE

H TT PS : / /A Z U RE .MI CRO SOF T. C OM/ ES-ES/ F REE/

H TT PS : / /P OR TA L.A Z UR E.CO M/# HO ME


MICROSOFT AZURE

• https://www.youtube.com/watch?v=VLiaibbZMQk
GOOGLE CLOUD
GOOGLE CLOUD

• https://www.youtube.com/watch?v=jSbehm2M1pg
AMAZON WEB SERVICES
AMAZON WEB SERVICES

https://www.youtube.com/watch?v=3ILMaRB-QT0
Las “V” del Big Data
Big Data – Cambio de Paradigma
Big Data – Cambio de Paradigma
Fases de la Big Data
• Adquisición de datos
• Almacenamiento
• Análisis
• Resultados

Nota: En la fase de resultados, éstos se pueden representar con


cuadros de mandos o incluso enlazar a entornos BI
Entornos de la Big Data
• Procesamiento por lotes (Bach Processing)
• Análisis en tiempo real (Real Time)

La información puede ser muy diversa, desde datos estructurados


(BDDR), semiestructurados (Web Services) o no estructurados (logs de
maquinas, multimedia, etc)
Valor del Big Data - ¿Dónde está el valor?
¿Qué es Big Data?
Cultura Data Driven

El adjetivo ”Data Driven” significa que


el progreso en una actividad está
obligado por los datos , en lugar de
la intuición o por la experiencia
personal
Cultura Data Driven
Cultura basada en Datos, que se refiere a que la organización tenga
implementado en su cultura que las decisiones se toman en base a
datos.

Es necesario entender como funciona este proceso de toma de


decisiones (incluyendo la recopilación de datos, su análisis y su
visualización), y como llevar a una Organización hacia la cultura Data
Driven, donde los datos son el motor de las decisiones clave.
Ecosistema
Apache Hadoop

Es un framework de software que


soporta aplicaciones distribuidas bajo una licencia
libre. Permite a las aplicaciones trabajar con miles
de nodos y petabytes de datos. Hadoop se inspiró en
los documentos Google para MapReduce y Google
File System (GFS).
Hadoop es un proyecto de alto nivel Apache que
está siendo construido y usado por una comunidad
global de contribuyentes, mediante el lenguaje de
programación Java.
Apache Hadoop

Económico: Está diseñado para ejecutarse en equipos de bajo coste formando


clústeres. Estos clústeres pueden llevarnos a pensar en miles de nodos de
procesamiento disponibles para el procesado de información.
Escalable: Si se necesita más poder de procesamiento o capacidad de
almacenamiento solo hay que añadir más nodos al clúster de forma sencilla.
Eficiente: Hadoop distribuye los datos y los procesa en paralelo en los nodos donde
los datos se encuentran localizados.
Confiable: Es capaz de mantener múltiples copias de los datos y automáticamente
hacer un redespliegue de las tareas. El aspecto clave de Hadoop es que en lugar de
mover los datos hacia donde se hace el procesamiento, Hadoop mueve el
procesamiento a donde están los datos.
Apache Hadoop
• Hadoop common: utilidades comunes que dan soporte al resto de los
módulos de Hadoop
• Hadoop Distributed File System (HDFS): sistema de ficheros
distribuido.
• Hadoop YARN: sistema para la planificación de trabajos y gestión de
recursos del cluster
• Hadoop MapReduce: sistema basado en YARN para procesamiento
paralelo de grandes volúmenes de datos
Hadoop - HDFS
Hadoop - Map/Reduce

Modelo de programación diseñado para escalabilidad y tolerancia


a fallos en grandes sistemas de commodity hardware.
Basado en la combinación de operaciones Map y Reduce:

• La función Map transforma un conjunto de datos a un número


de pares key/value. Cada uno de estos elementos se encontrará
ordenado por su clave.

• La función Reduce es usada para combinar los valores (con la


misma clave) en un mismo resultado.
Hadoop - Map/Reduce
Hadoop - Map/Reduce
Shuffle
Split Map & Reduce
Sort

,4

,2 ,4
,2
,4
,4 ,3

,3

ass n s
i gn
s si g
as
Master
¿Quién usa Hadoop?
• Adobe
• EBay
• Facebook
• Last.fm
• LinkedIn
• Spotify
• Twitter
ARQUITECTURA - Ejercicio BBVA
Bases de datos estructuradas y
no estructuradas
Bases de Datos

Una base de datos es un conjunto de datos


pertenecientes a un mismo contexto y
almacenados sistemáticamente para su
posterior uso.
Concepto
• Las bases de datos tradicionales se diseñaron para albergar y
trabajar con datos estructurados, resultan inadecuados para
asumir un crecimiento masivo no estructurado. Son, en
definitiva, una herramienta que no puede dar respuesta a los
datos masivos heterogéneos que se engloban bajo el término de
Big Data.
• A este respecto, NoSQL, Hadoop y su rico ecosistema se han
revelado como soluciones especialmente útiles por ser
escalable, su bajo coste, eficiencia y fiabilidad, y lo mismo cabe
decir de los recursos y servicios ofrecidos en el marco del cloud
computing.
Características
• Volumen y crecimiento: el volumen de datos y la tasa de
crecimiento de los datos no estructurados es muy superior al de los
datos estructurados. Por ejemplo, twitter genera 12 Terabytes de
información cada día. De acuerdo con Gartner (informe 2012).
• Orígenes de datos: El origen de los datos es muy diverso: datos
generados en redes sociales, datos generados en foros, e-mails,
datos extraídos de la web empleando técnicas de web semántica,
documentos internos de la compañía (word, pdf, ppt).
Características
• Almacenamiento: Debido a su estructura no podemos emplear
arquitectura relacional, siendo necesario trabajar con herramientas
‘Big Data’, siendo crítico en estas arquitecturas los aspectos
relacionados con la escalabilidad y paralelismo.
• Según el tipo de dato se impone el almacenamiento
cloud. Monitorizar la frecuencia de uso y la detección de datos
inactivos son aspectos críticos de cara a reducir costes de
almacenamiento.
Características
• Terminología e idiomas: La terminología es una cuestión crítica
tratando datos no estructurados de tipo texto. Es habitual llamar a
lo mismo de diferentes formas, de tal modo que es necesario una
racionalización de la terminología. Otra cuestión es el idioma en el
que se he generado la información tratada.
• Seguridad: Hay que considerar que algunos datos no estructurados
de tipo texto, pueden no ser seguros. Por otra parte el control de
accesos a los mismos es complejo debido a cuestiones de
confidencialidad y la difícil clasificación del dato.
Tratamiento de datos no estructurados
• Crear una plataforma escalable (infraestructura y procesos) que
permita tratar grandes cantidades de datos. Las tecnologías
RDBMS son insuficientes para tratar información no
estructurada. Es necesaria una capacidad de almacenamiento y una
capacidad de proceso escalable. Teniendo en cuenta que el coste
económico de mantener plataformas escalables, hay que considerar
la opción cloud.
Tratamiento de datos no estructurados

• Añadir información/estructura complementaria a los datos no


estructurados. Es importante añadir algún tipo de estructura a los
datos no estructurados que ayude a su tratamiento. Por ejemplo, en
una colección de tweets de redes sociales puede ser interesante
añadir campos tales como el idioma, la localización geográfica para
su posterior procesado.
Tratamiento de datos no estructurados
• Desarrollo de algoritmos. Hay diferentes tipos de aproximación
hacia la información no estructurada. Por ejemplo, para procesos de
text mining, puede utilizarse language natural combinado con redes
neuronales. Otras técnicas como redes bayesianas permiten
descubrir patrones sobre múltiples dimensiones. Son importantes
también las técnicas de visualización de datos.
• Procesos de depuración/limpiado de datos. Dado el ingente
volumen de datos, se convierte en crítico la correcta gestión del
histórico de datos. Detección de datos no usados o de frecuencia de
consulta muy baja con objeto de limpiar información y liberar
espacio.
Ejemplo sencillo tratamiento datos no
estructurados (redes sociales)

Dada la variada naturaleza de los datos no estructurados, hay


infinidad de posibles procesos relacionados con ellos.
• El objetivo del ejemplo para análisis de datos es conocer la
percepción que existe sobre el precio de determinado producto en
twitter.
• Extracción: Se sugiere añadir a los campos disponibles
calificaciones del tipo: idioma, localización geográfica.
Ejemplo sencillo tratamiento datos no
estructurados (redes sociales)

• Transformación: Filtramos todos aquellos tuits que contengan el


nombre del producto. Refinamos el filtro introduciendo campos del
tipo (“precio” ) + (“barato”, “caro”, “económico”, etc..) , teniendo en
cuenta el idioma en el que se generan lo tuits. Valorar la opción en
base al volumen de obtener una muestra representativa de los
datos extraídos y filtrados.
• Volcado a BBDD : Insertamos en una tabla el registro del tuit con la
calificación identificada (idioma, localización geográfica)
• Informes: Creamos informe que permita realizar análisis por tiempo
y campos de calificación. Hay que considerar que este informe
puede ser actualizado en tiempo real.
No-SQL

• NoSQL (Not-Only-SQL): nuevo sistema de gestión de datos no relacional cuyas


principales características son:
• no hay relación entre tablas
• no hay un esquema fijo
• no garantizan ACID (atomicidad, consistencia, aislamiento y durabilidad)
• no hay restricciones, triggers, claves foráneas, …
Tipologías No-SQL
Tipologías No-SQL - Clave/Valor
Son las bases de datos más simples por su uso, guardan tuplas que contienen una clave y
su valor. Cuándo se quiere recuperar un dato, simplemente se busca por su clave y se
recupera el valor.
Tipologías No-SQL - Columnas

Funcionan de forma parecida a las bases de datos relacionales, pero almacenando columnas de
datos en lugar de registros.
Tipologías No-SQL - Documentos

Trabajan con datos estructurados o semi-estructurados, es decir con Documentos. Estos datos son
almacenados en algún formato estándar como puede ser XML, YAML, JSON o BSON.
Tipologías No-SQL - Grafos
Estas bases de datos almacenan los datos en forma de grafo. Esto permite darle importancia no
solo a los datos, sino a las relaciones entre ellos.
Las relaciones pueden tener atributos y se pueden realizar consultas sobre ellas directamente. La
navegación entre relaciones es mucho más eficiente que en un modelo relacional.
RDBMS vs No-SQL vs Hadoop
Ejercicio – BDD SQL
Ejercicio – BDD Excel
Ejercicio – BDD MongoDB
Redes Sociales y el Big Data
Redes Sociales y el Big Data
Redes Sociales y el Big Data

• Las Empresas que no aprendan a nadar en el mar de


información de Redes Sociales se ahogarán!!!
Redes Sociales y el Big Data

• Social Big Data consiste en analizar la información


que se produce a gran velocidad, con gran volumen
y gran variedad en las redes sociales para la toma de
decisiones de las empresas.
Facebook la gran Base de datos
• Cambridge Analytica, la compañía habría utilizado
los datos de 50 millones de personas para influir en
las elecciones presidenciales de Estados Unidos a
favor de Donald Trum
• Cada vez que interactúas con un me gusta, el
famoso algoritmo lo recoge y lo asimila dentro de
su gran paquete de datos, que establecen si estás
más interesado en páginas de venta de ropa o en
webs que ofrecen horóscopos o en otras varias.
Redes Sociales y el Big Data
• Google: más de 3.7 millones de búsquedas por minuto.
• Facebook: más de 977.000 artículos y 34.000 «Me gusta» por minuto.
• YouTube: más de 4.3 millones de videos vistos en un minuto.
• Twitter: más de 481.000 tuits por minuto.
• WhatsApp: más de 38 millones de mensajes enviados en un minuto.
• Correos electrónicos: más de 187 millones emails enviados por
minuto.
• NetFlix: más de 266.000 de horas de video vistas en un minuto.
Redes Sociales y el Big Data
• El Social Big Data es un concepto que se vuelve cada día más
relevante para el marketing debido a que permite:
• Conocer el comportamiento del consumidor

• Ajustar la comunicación con el cliente

• Ventaja competitiva

• Planificar y Anticipar

• Realizar innovación

• Mejorar el servicio al cliente


Herramientas
https://www.smartbeemo.com/

CATEGORÍAS Análisis Clientes, Concursos Redes Sociales, Gestor


Contenidos, Herramientas Gestión Redes Sociales, Marketing e
Investigación de Mercados, Publicidad Redes Sociales

ÁREA DE USO Gestión de redes sociales, marketing en redes sociales, marketing de


contenidos
FABRICANTE SmartBeemo
PAÍS DE ORIGEN Estados Unidos de América

INSTALACIÓN Plug&Play

MODELO Cloud
SEGMENTO Agencia de marketing, Freelance, Gran empresa, PYME

PRECIO MEDIO

PRUEBA GRATUITA NO

IDIOMA Inglés
SOPORTE EN NO
ESPAÑOL
Herramientas
https://sysomos.com/

• Sysomos es una CATEGORÍAS Concursos Redes Sociales, Gestor Contenidos, Herramientas


plataforma de Gestión Redes Sociales, Publicidad Redes Sociales

análisis social que


ofrece varias ÁREA DE USO Análisis de redes sociales, monitorización de redes sociales,
Facebook, Instagram, marketing de contenido, marketing en
herramientas redes sociales
para medir el FABRICANTE Sysomos Inc.
éxito de las PAÍS DE ORIGEN Canadá
marcas en las
redes sociales. INSTALACIÓN Plug&Play
Gracias a la
información que MODELO Cloud
ofrece, las SEGMENTO Agencia de marketing, Freelance, Gran empresa, PYME
empresas pueden
tomar PRECIO MEDIO
decisiones intelig
entes basadas en PRUEBA SÍ
datos y todo en GRATUITA
tiempo real. IDIOMA Inglés
SOPORTE EN NO
ESPAÑOL
Herramientas

• Radian6 es una plataforma nacida en 2006, que administra, analiza


e identifica la actividad de una marca en las distintas redes
sociales. La labor de esta consola es, por tanto, monitorizar
tendencias o conversaciones, con el fin de optimizar la presencia en el
social media y vigilar la reputación online, para dar una respuesta
adecuada a los clientes reales y potenciales.
• Radian6 – o Social Studio –, es una herramienta de monitorización
social que te permite conocer lo que se está diciendo sobre una marca
a través del alcance y captura de conversaciones de forma constante
(y con una alta sensibilidad) de redes sociales como Facebook,
Twitter, WordPress, YouTube, Instagram, etc.
Herramientas

Hootsuite:
• Es un tipo de aplicación web y móvil que sirve para
gestionar redes sociales por parte de personas u
organizaciones, HootSuite permite gestionar, por
ejemplo, las siguientes redes sociales: Facebook,
Twitter.
Redes Sociales y el Big Data
• Ejercicio Facebook Ads
Big Data – Casos de Uso
Casos de Usos
https://www.youtube.com/watch?v=S2JATwChnhg

https://www.youtube.com/watch?v=FNJsRT2HWxA
LUCA y UNICEF: Big Data para el bien social en Colombia

https://www.youtube.com/playlist?list=PLs2
P45xWEWDXYogX0K3V6KBASzMdyKHiN
De la catástrofe a la acción: cómo
Twitter puede salvar vidas

1._Lectura_De_la_catastrofe_a_la_accion
Aplicaciones Big Data
Aplicaciones Big Data
Aplicaciones Big Data
Aplicaciones Big Data
Aplicaciones Big Data
Aplicaciones Big Data
Aplicaciones Big Data
Aplicaciones Big Data
• Big Data ayudará a tomar las decisiones del futuro basadas en
datos, ayudará a predecir el futuro basado en el poder de los
algoritmos pero lo más importante nos ayudará a comprender
mejor nuestro mundo como un todo y quedará en nosotros
aplicarlo de forma correcta.
• Una frase que resume todo lo anterior es: “Big Data nos ayuda a
ver de nuevas formas, nos ayuda a ver mejor, nos ayuda a ver
diferente”. Big Data jugará un rol de gran importancia en la
sociedad, en el sector empresarial y en los gobiernos.
Aplicaciones Big Data

• Desde carros auto-manejados hasta drones que entregan


paquetes a la puerta de nuestra casa, son solo el comienzo de
las aplicaciones de Big Data
• La revolución de Big Data no solo se refiere al exponencial
crecimiento del crecimiento de los datos, también recae en el
mejoramiento de los métodos estadísticos y computacionales.
La capacidad de cómputo se dobla cada 18 meses según la Ley
de Moore, pero eso es nada a comparación de un algoritmo con
una serie de reglas que puede ser usado para resolver un
problema miles de veces más rápido que un método
computacional convencional
Aplicaciones Big Data
• En marketing algunos usos familiares son “sistemas de
recomendación” que compañías como Facebook, Amazon, Netflix
usan para recomendarnos o sugerirnos algún producto basado en
intereses anteriores propios y de otros millones o billones de
clientes.
• El Institute for Quantitative Social Science de Harvard tiene por
propósito ayudar a resolver problemas sociales a través de datos,
como el que se aplicó en México, donde se detectó que 4 millones
de familias se arruinaron al año por no tener un seguro de médico.
Así surgió el Seguro Popular (Harvard, 2014)
SEGUROS Y SALUD
• La monitorización de las constantes vitales del usuario puede no sólo
mejorar su salud, también su bolsillo. El mejor ejemplo es el anunciado
por John Hancock Financial, que ofrecerá descuentos a los asegurados
que lleven puestos sistemas para monitorizar su forma física. Con cada
nuevo seguro de vida, la compañía ofrece una pulsera Fitbit que
recoge la actividad física del usuario. Cuanto más ejercicio haga, más
se ahorra (hasta un 15%). El fundador y director del Centro para la
Salud Conectada de la Escuela Médica de Harvard, Joseph Kvedar, ha
bautizado este fenómeno como «el poder del internet de las
(saludables) cosas». En este caso, además de «abrirnos la oportunidad
para aprender sobre nosotros mismos», permite un ahorro económico
a la vez que genera una ventaja competitiva a la aseguradora.
PREDECIR PRECIOS
• El Big Data no sólo permite obtener conocimiento, sino hacer
predicciones y cambiar comportamientos. Chris Meyer explica en el
informe cómo una cadena de restaurantes de marisco de Estados
Unidos descubrió hace 15 años que los satélites del golfo de México
transmitían datos sobre la temperatura del mar. La compañía utilizó
este parámetro, que es un indicador de la fertilidad de las gambas,
para predecir los precios y el mejor momento para comprarlas. Con los
actuales sensores, «ahora podemos controlar el comportamiento de
los animales de manera más directa y precisa». Pero estas predicciones
también se producen en la esfera humana, como en la política. Un uso
que también se repite en la política. En el libro The Victory Lab, el
analista Sasha Issenberg explica cómo el Partido Demócrata
«sustituyó el instinto de los sabios asesores por un nuevo paradigma
estratégico basado en datos» en las campañas electorales en 2008 y
2012.
AHORRO DE COMBUSTIBLE
• La apertura de los datos se presenta como un requisito para buscar
soluciones colectivas usando la inteligencia de la masa mediante el
crowdsourcing y la innovación abierta. Es el caso de General Electric
(GE) en un trabajo conjunto con Alaska Airlines, que se proponía
economizar el gasto de combustible de la aerolínia. «Decidimos
recopilar todos los datos, subirlos a internet y abrir el problema a
todos los científicos de datos del mundo, de modo que cualquiera
pudiera analizar y crear su propio escenario», relata el director de
software en la división de Investigación Global de GE, Stefan Bungart.
El resultado: los ganadores del GE Flight Quest lograron reducir 2,5
minutos de tiempo en cada vuelo, una cifra que supone un ahorro
anual de combustible y personal de 26 millones de dólares.
GANAR LA LIGA
• Analizar patrones de juego o conocer las jugadas más optimas son algunas de las
utilidades del Big Data aplicadas al deporte. Pablo Rodríguez, director de
Telefónica I+D, está inmerso en un proyecto de datos «pionero» en el mundo én
colaboración con el Fútbol Club Barcelona. Los directivos del Barça, según explica
Rodríguez en el estudio, se dieron cuenta de que lo importante no es mantener la
estructura y el rol de cada jugador, sino conservar la pelota cuando se tiene y
recuperarla cuando no. La ciencia computacional puede ayudar en este asunto
desde una concepción del juego «no como un conjunto de individuos, sino como
una red cuyo desempeño es óptimo cuanto mejor es la conexión (los pases) de los
puntos que la componen (los deportistas)». Por tanto, se podrían definir nuevas
estrategias para el campo de juego combinando el análisis de datos y la teoría de
redes. «No se trata sólo de saber dónde están o deben estar los jugadores, sino
dónde pueden estar», explica el director de Telefónica I+D. Los entrenadores, que
hasta ahora se guiaban por la intuición, ahora pueden «anticiparse en la
estrategia» gracias al Big data y al modelaje computacional a partir de
estadísticas.
CONTRA EL CRIMEN
• Los expertos del Future Trends Forum de la Fundación Innovación Bankinter
resaltan la necesidad de contar con una especie de brigada Big Data contra el
crimen. Piden unidades de análisis de datos que integran a científicos de la
materia en los cuerpos de policía. «En Nueva York, de 49.000 policías sólo hay 880
entrenados en datos. ¡Necesitan muchos más!», exige uno de los miembros del
think tank. «Cada vez es más urgente una respuesta automática y ágil contra
ciberdelincuentes y criminales y, si no cuentan con personal capacitado para ello,
no podrán hacerlo», concluye. Y es que, casi diariamente, aparecen nuevas y
creativas formas delictivas en internet. Una que se está volviendo muy popular es
el secuestro de datos, que consiste en cifrar archivos como fotos, vídeos o
documentos valiosos. Ransomware, por ejemplo, se encarga de hacerlo
automáticamente y de pedir el rescate de los datos por la vía digital. «La
vulnerabilidad aumenta en el caso de los dispositivos móviles».
CONOCER EL ESTADO ANÍMICO

• Un estudio de la revista científica Computers in Human Behavior


demostraba a finales de 2014 que se puede conocer el estado anímico
de los usuarios de Facebook con un 83% de precisión. Con este
objetivo, un equipo de investigadores de la Universidad Autónoma de
Madrid ha desarrollado la aplicación SentBunk. El sistema, que une el
análisis semántico al aprendizaje computacional automático, clasifica
al usuario en función de variables como la polaridad de sus mensajes
(previamente analizados), de los cambios emocionales detectados o
de las reacciones a las emociones de sus amigos.
DEPORTES

• La empresa española Cartoconsiguió durante la final de la Champion


League de 2014 en Lisboa entre el Real Madrid y el Atlético de Madrid.
La compañía ayudó a los responsables de marketing del club
merengue a conocer su impacto en Twitter durante el partido. Lo hizo
a través de un mapa interactivo donde se veían todos los tuits
geolocalizados en cada país y región, con la posibilidad de elegir el
nivel de detalle sólo con hacer zoom.|
PRIVACIDAD VS. SEGURIDAD
• La combinación de los sistemas de videovigilancia y de reconocimiento facial con
la minería de datos introduce un nuevo debate sobre la privacidad versus la
seguridad. Reino Unido anunció el verano pasado que la policía del condado de
Leicestershire iba a empezar a usar un nuevo software de reconocimiento facial
llamado neoFace. El programa compara las imágenes de las caras captadas con las
92.000 de la base de datos de la policía en la región «con una elevada tasa de
éxito». ¿De dónde proceden esas imágenes? De las cámaras de videovigilancia
instaladas ya en «numerosos» rincones de las ciudades. Su presencia ha
ocasionado acalorados debates sobre el derecho a la intimidad y a la anonimidad
de los ciudadanos. También entra en juego el concepto de propiedad. «¿A quién
pertenecen los datos que los gobiernos o empresas recogen de las personas?»,
plantea el informe de Future Trends Forum. Esteban Moro afirma que «este valor
es tan grande que la sociedad se tiene que neficiar de ello». «Naciones Unidas ya
cuenta con iniciativas que hacen a las compñías compartir datos en casos de
emergencia», comenta.
NUEVA LEGISLACIÓN
• Taryn Sullivan, COO de Dexter Industries, está convencida de que
cuando los nativos digitales lleguen al poder, en 2020, desarrollarán
todo tipo de medidas contra las barreras del Big Data, A pesar de ello,
afirma, un acto masivo de pirateo terrorista tirará abajo la web en ese
año. La desconfianza frente al uso de los datos recuperará una
mentalidad conservadora caracterizada por la creación de células
asiladas de datos y conectividad, vaticina uno de los expertos de
Bankinter. Miguel Arias coincide en ello, aunque atrasa este apocalipsis
hasta 2025. «Una campaña global orquestada por supercriminales
destruirá internet y tendremos que remodelar completamente la
legislación», dice. La nueva regulación se centraría en el fraude y el
robo de identidad.
Entendiendo y optimizando los procesos
de negocio
• El big data se está utilizando cada vez más para optimizar los procesos de negocio
en las empresas. En el sector de retail los negocios están optimizando su stock
basándose en predicciones generadas gracias a datos de redes sociales,
tendencias de búsquedas en la web y predicciones meteorológicas. Un proceso
que se está transformando particularmente gracias al big data es el de la cadena
de suministro y la optimización de rutas de reparto. Gracias al posicionamiento
geográfico y sensores de identificación por radiofrecuencia se puede realizar un
seguimiento de las mercancías y vehículos de reparto, optimizando las rutas,
integrando datos de tráfico en tiempo real. Los procesos de recursos humanos
también están siendo mejorados gracias al análisis del big data. Desde la
detección y adquisición de talento, hasta la medición de la cultura empresarial y
la involucración de la plantilla gracias a herramientas de big data.
Cuantificación y optimización de
rendimiento personal
• El big data no sólo es para empresas y para instituciones públicas o grandes
organizaciones. Todos podemos beneficiarnos de los datos generados
de dispositivos wearables como smart watches o pulseras. Estos dispositivos
registran automáticamente datos de consumos de calorías (Fitbit), niveles de
actividad y condición física (Google Fit, Apple Watch), o patrones de sueño.
Aunque a nivel particular ya nos desvelan información interesante, el verdadero
valor reside en analizar el conjunto de datos de todo el colectivo. Una de estas
empresas, Jawbone, recoge en torno a 60 años de datos de sueño cada noche.
Analizando estos volúmenes de datos desvelarán insights que beneficiarán a todos
los usuarios.
• Otro ejemplo donde la gente se beneficia del análisis del big data es para buscar a
cupido. A la hora de encontrar a la mejor pareja compatible hacerlo sin la ayuda de
algoritmos y técnicas de big data sería prácticamente imposible.
Mejorando la Salud Pública
• Otra área de uso de datos masivos colectivos es el de la codificación de material
genético. Cuantos más usuarios participan más beneficios se obtienen, bien para
saber más sobre nuestros ancestros, qué dieta o alimentos son más adecuados
para nuestro genotipo, o para descubrir cómo o porqué se activan determinados
genes que pueden derivar en enfermedades crónicas. La capacidad de
procesamiento de plataformas de análisis de big data nos permite ya descodificar
cadenas enteras de ADN en cuestión de minutos y permitirá encontrar nuevos
tratamientos y comprender mejor las enfermedades, sus desencadenantes y los
patrones de propagación. Piense qué sucederá cuando todos los dispositivos y
sensores que llevamos encima (y cada vez llevaremos más) con marcadores de
nuestro cuerpo se apliquen a millones de otras personas. Los ensayos clínicos del
futuro no tendrán que estar limitados a muestras pequeñas sino que todo el
mundo podrá formar parte.
Mejorando la Salud Pública II
• Las técnicas de big data ya están empleando por ejemplo para monitorizar
bebés en la unidad de neonatos de un hospital en Toronto. Grabando y analizando
latidos y el patrón de respiración de cada bebé, la unidad ha desarrollado unos
algoritmos que pueden predecir infecciones 24 horas antes de que los primeros
síntomas aparezcan. De esta manera, el equipo médico puede intervenir y salvar
vidas en un entorno en el que cada hora cuenta.
• El análisis de datos masivos también se utiliza a la hora de controlar y predecir la
evolución de las epidemias y brotes de enfermedades. Integrando datos de
historiales clínicos con análisis de datos de redes sociales pueden detectar brotes
de gripe en tiempo real simplemente escuchando lo que la gente publica en sus
perfiles públicos.
• Otras aplicaciones científicas prácticas llevan más tiempo: reconocimiento del
habla, procesamiento imágenes en el cerebro para ciegos,… pero es con el big
data cuando los resultados están consiguiendo avances significativos.
Mejorando la Ciencia y la Investigación

• El CERN (laboratorio suizo de física nuclear con su gran colisionador de


hadrones), uno de los mayores generadores de datos, intenta
descubrir los secretos del universo gracias a los datos del acelerador de
partículas. Aunque el centro de datos del CERN cuenta con 65.000
procesadores para analizar los 30 petabytes de datos, no es suficiente.
Por ello distribuyen la capacidad de computación entre miles de
ordenadores repartidos entre otros 150 centros de datos por todo el
mundo para analizar los datos. Esta capacidad de computación
distribuida que de otra manera sería imposible de procesar también se
emplea en muchas otras áreas de la ciencia.
Optimizando el rendimiento de máquinas
y dispositivos
• El análisis de big data está ayudando a máquinas y dispositivos a
ser más inteligentes y autónomos. Un ejemplo que ya es una realidad,
el coche autopilotado de Google.
• Los coches que usan para el proyecto están equipados con cámaras,
GPS, conexión a internet, y un abanico de computadoras y sensores
que permiten al vehículo circular de forma segura por la vía pública sin
necesidad de intervención humana.
• También se usan herramientas de análisis de big data para optimizar
las redes de energía a partir de datos de los medidores inteligentes.
podemos también aprovechar estas tecnologías para optimizar el
rendimiento de servidores y datawarehouses.
Mejorando la seguridad y el cumplimiento
de la ley
• El análisis de big data se está empleando de forma intensiva en la
mejora de la seguridad y en los cuerpos de aplicación de la ley. La
noticia que se filtró via Wikileaks de que la NSA ha estado espiando en
todas las comunicaciones de todos los ciudadanos. El objetivo es la
protección de ataques terroristas.
• Otros usos de tecnología big data lo encontramos a la hora de detectar
y prevenir ciberataques. El sistema de IA creado en el MIT predice el
85% de los ciberataques. Otros ejemplos: Las fuerzas policiales están
empezando a utilizar herramientas de big data para dar con criminales
e incluso prevenir actividades criminales.Otro ejemplo que lleva años
empleándose es en la detección de transacciones fraudulentas con
tarjetas de crédito.
Trading financiero

• La aplicación del big data en los mercados de capitales con


actividades relacionadas con High-Frequency Trading (HFT) es donde
se da el mayor uso del big data. Una serie de algoritmos para realizar
decisiones de compra venta de valores por millones en fracciones de
segundo, teniendo en cuenta además de las señales tradicionales que
tienen en cuenta los traders humanos como análisis
técnicos, comportamientos de materias primas, resultados de
empresas, sectores, índices, … se le añaden noticias en tiempo real,
mensajes de redes sociales, foros, declaraciones públicas de
personalidades, etc. Es decir un nuevo tipo de datos (estructurados y
no estructurados) que anteriormente al big data eran imposible de
manejar.
CONCLUSIONES
• En plena era del conocimiento, el Dato se ha convertido en el
activo más importante para las empresas. De su correcta gestión y
aplicación de los procesos analíticos oportunos, dependerá el éxito
de la mayoría de las empresas dentro de la nueva economía digital.
• Aplicar inteligencia artificial en la gestión eficiente del dato y
automatizar el mayor número de tareas posibles conducirán a
alcanzar la competitividad digital que las empresas deben afrontar
dentro de sus procesos de transformación digital para poder
satisfacer las necesidades de la nueva sociedad. Así pues, dotar a
los sistemas de datos empresariales de inteligencia se convierte en
una necesidad imperativa para continuar siendo competitivos en el
mercado.

También podría gustarte