Documentos de Académico
Documentos de Profesional
Documentos de Cultura
al Big Data
Parte 1. Introducción a Big Data
mercados
• 1.2.1. Infraestructuras
• 1.2.2. Mercados
• 2.1.1. Volumen
• 2.1.2. Variedad
12 de 155
1. Introducción a Big Data
No todos los datos que recibimos se pueden clasificar sencillamente y, por ello,
era necesario dar un salto en la capacidad para su manejo. Los videos o las fotos,
por ejemplo, que forman parte de este continuo flujo, son difíciles de encasillar en
categorías pues, normalmente, pertenecen a muchas de ellas y, además, por ser
datos binarios son complicados de clasificar de forma tradicional. La aparición de
los datos desestructurados para manejar toda esta información provoca una
revolución entre los datos que se pueden recopilar y almacenar para su análisis.
13 de 155
1. Introducción a Big Data
Podemos definir Big Data como un conjunto de nuevas tecnologías que permiten
extraer valor de un juego de datos que, dado el volumen, variedad o velocidad con
que se generan no han sido previamente explotados.
Big Data es posible desde hace relativamente poco tiempo. Hay que tener en
cuenta que actualmente la Humanidad produce en 3 años más información que en
los primeros 50 años del siglo pasado. Toda esta información tiene que ser
almacenada y es ahora cuando se cuenta con medios para ello, así como
capacidad de procesamiento y memoria en los modernos sistemas informáticos.
Con Big Data ya no importa tanto la causa que ha producido un evento sino el
evento en sí mismo. Por ejemplo, Google utilizó en 2009 Big Data para predecir en
Estados Unidos el crecimiento y evolución de la enfermedad conocida como Gripe
aviar. Mientras que el Gobierno tenía que hacer llegar los informes de los médicos
de cabecera hasta el CDC (Centro de Control y Prevención de Enfermedades en
USA) para establecer un patrón de contagio, lo que podía tardar hasta dos
semanas, Google utilizó sus cientos de millones de preguntas al día para detectar
patrones que permitiesen reconocer en su motor de búsqueda cadenas de texto
relacionadas con los síntomas de la enfermedad. No importaba por qué se
expandía la enfermedad, sino la expansión en sí y los datos que se iban
introduciendo por parte de los usuarios.
Big Data también se puede definir como cualquier tipo de origen de datos que
comparte las siguientes características:
Big Data también se puede definir como cualquier tipo de origen de datos que
comparte las siguientes características:
14 de 155
1. Introducción a Big Data
1.2.1. Infraestructuras
Las infraestructuras del entorno Big Data se pueden dividir entre entorno físico o
hardware y el entorno lógico.
Entorno físico
El entorno físico, como no puede ser de otra forma, se especifica como de alta
disponibilidad y rendimiento. La velocidad de la red que engloba todos los
15 de 155
1. Introducción a Big Data
Coste. Hay que saber cuál es el coste máximo que estamos dispuestos a
asumir para mantener la infraestructura que hemos determinado según los
puntos anteriores. Hay que tener en cuenta que todos ellos, en parte o
totalmente, se pueden apoyar en soluciones en la nube y pagar por
solamente lo que se usa.
Entorno lógico
16 de 155
1. Introducción a Big Data
Función Map
Aplica una función a cada elemento, expresada con un par clave + valor, de una
lista y devuelve una nueva lista. Toda esta operativa se hace sin modificar los
datos originales, datos valiosos que, con toda probabilidad, se quieren volver a
reutilizar más adelante, creando una nueva estructura como resultado de la
operativa ejecutada. Además, también muy importante, es la propia función Map,
quien se encarga de administrar y manejar los orígenes de los datos, evitando al
programador lidiar con el movimiento de éstos a través de la infraestructura
distribuida.
Finalmente, el orden de las operaciones sobre los datos no está prescrito, es decir,
no genera resultados distintos, por lo que la ventaja en la ejecución en paralelo es
17 de 155
1. Introducción a Big Data
evidente. Es lo mismo que si hubiésemos dicho que la operativa sobre los datos es
conmutativa.
Función Reduce
La función Reduce toma la salida de una función Map y aplica el filtro especificado
por el programador, reduciendo el conjunto de datos a la salida del mismo. Al
finalizar la operación, en cada uno de los nodos distribuidos se agrupan los
resultados y se devuelve un resultado por parte de Reduce, obteniendo una lista
modificada por las operaciones aplicadas.
Función Shuffle.
Junto con el proceso Map, los pasos se pueden plasmar en la siguiente secuencia:
18 de 155
1. Introducción a Big Data
cada uno de ellos hasta haber completado la transacción. En este momento cada
nodo cambiaría a Reduce y este se ejecutaría hasta finalizar. El resultado se
obtendría en la salida del sistema, combinando todos los resultados obtenidos en
cada uno de los puntos, tal y como ocurriría si lo ejecutásemos en un único equipo.
Lo bueno de este planteamiento es que Map puede obtener los datos de fuentes
muy heterogéneas, internas y externas, y todo el trabajo asociado al divide y
vencerás se hace de forma transparente al usuario, repartiendo la carga entre los
distintos nodos de la red.
1.2.2. Mercados
Big Data ha democratizado el acceso a los datos y la minería de los mismos para
empresas que antes no podían, por coste, permitirse infraestructuras tan
19 de 155
1. Introducción a Big Data
El informe de IDC también aporta que, por países, el que más invierte es Estados
Unidos, ya que él solo aportará en 2017 unos 78.800 millones. Le sigue Europa
Occidental con 34.100 millones y Asia-Pacífico, sin contar Japón, con 13.600
millones.
20 de 155
1. Introducción a Big Data
Google,
Esto se puede interpretar como un error, ya que el 90% de los usuarios móviles
mantienen sus dispositivos a menos de un metro de distancia durante 24 horas al
día, por lo que es un mercado de primer orden.
Especialistas en datos
Trabajan con los datos de la compañía sobre sus clientes u otros recursos y
les da valor. Estos especialistas en recolección de datos ayudan a la
empresa a establecer mejores estrategias en función de sus necesidades,
ofrecer soluciones en los puntos flacos y reforzar los fuertes.
Especialistas en videojuegos
La alta aceptación por parte de los usuarios a las campañas que van
asociadas con juegos, prácticamente todos ellos en dispositivos móviles,
21 de 155
1. Introducción a Big Data
hace que este tipo de profesional sea muy demandado. La fidelización del
cliente es un punto muy importante en su tarea así como conseguir un gran
impacto en todo tipo de objetivos.
Las últimas tendencias en Big Data se pueden resumir en los siguientes puntos:
Análisis facial
Visualización de datos
Prevención de delitos
22 de 155
2. Conocer los datos
2.1.1. Volumen
Según Qmee, en 2013, Google procesó más de 24 petabytes al día; Facebook, una
compañía que se fundó en 2004, recibe más de 10 millones de fotos por hora de
sus usuarios, que también harán un clic o escribirán algún comentario más de
3.000 millones de veces, generando un flujo de datos que la compañía puede
explotar para conocer los gustos expuestos de sus usuarios. Twitter almacena
más de 400 millones de mensajes diarios, y se sube a YouTube más de una hora
de vídeo cada segundo que pasa. Todos estos datos son valiosos en sí mismos y
es ahora, con Big Data, cuando se les puede empezar a dar el uso adecuado,
explotando su valor intrínseco para poder tomar decisiones valiosas para las
empresas.
Uno de los grandes retos de las compañías es encontrar una fuente de datos para
poder utilizarlo en sus procesos de análisis. Tal y como su nombre indica, uno de
los aspectos más interesantes de Big Data es que necesita grandes cantidades de
registros para empezar a considerarse que, efectivamente, es suficientemente
grande.
25 de 155
2. Conocer los datos
Con tantos datos, pero con tan poca capacidad de operar sobre ellos, se demostró
que tomando una muestra aleatoria de los que se tenían a disposición se podían
obtener resultados muy próximos a la realidad. En efecto, una muestra aleatoria
de 1.100 observaciones en una cuestión de sí o no es suficientemente
representativa de toda la población, con tan solo un 3% de margen de error.
26 de 155
2. Conocer los datos
Los datos recogidos para las muestras podían ser obtenidos a un coste bajo,
comparado con recuperar todos y cada uno de ellos, y aun así se podían utilizar
para obtener soluciones a los problemas como si hubiésemos usado todos.
La toma de muestras aleatorias es, tal y como hemos explicado, un buen sistema
que produce buenos resultados, pero que en realidad no es más que una mera
aproximación a lo que está ocurriendo en la población objetivo de un problema
cualquiera. Lo que está ocurriendo son todos y cada uno de los datos que genera
el sistema, no solamente una parte. Es importante señalar que una mala muestra
puede obtener resultados totalmente desastrosos para la resolución del problema
que estamos planteando. En algunos casos no hay más remedio que seguir con la
toma de muestras para poder resolver complejos problemas, pero en muchos
otros, en muchas áreas, como la económica, el censo, etc., el cambio no solamente
es posible sino que se está llevando a cabo a toda prisa pues los resultados
obtenidos son más precisos y arrojan una mayor claridad sobre las cuestiones
planteadas.
2.1.2. Variedad
Los datos de los que nos vamos a nutrir en un entorno Big Data no son solamente
aquellos que podemos encontrar en una base de datos relacional (tradicional), a la
que podemos preguntarle cuántos de nuestros empleados viven en Madrid o
cuáles tienen coche propio. Los datos que vamos a utilizar para Big Data son
27 de 155
2. Conocer los datos
también aquellos que, en principio, no se consideran como tales: son los datos
desestructurados.
Los datos desestructurados tienen en la actualidad tanto valor, o más, que los que
almacenamos en bases de datos relacionales. Provienen del flujo continuo de los
clics que hacen los clientes en la página web corporativa, son las fotos que se
suben por parte de los usuarios de los foros, son los emoticones que se ponen en
los mensajes cortos que se dejan en la mensajería instantánea, en definitiva, todo
aquello que es difícil de clasificar y etiquetar.
Estos datos nos pueden ayudar a comprender mejor cuál es la tendencia de venta
de nuestros productos que se venden en Internet. Así podremos conocer no solo
los que mejor se venden gracias a las gráficas de ventas, sino también, debido a
los comentarios de nuestros usuarios, los que son más valorados, los que
producen más rechazo o aquellos de los que se habla con ironía. Todo ello nos
puede ayudar a mejorar la experiencia del usuario o del cliente con nuestra
empresa y, por lo tanto, a la fidelización o captación.
Cuesta entre 5 o 6 veces más captar un nuevo cliente que mantener los que ya se
tienen. Por ello, las grandes compañías utilizan este tipo de técnicas y de otro tipo
para saber dónde están más descontentos sus usuarios y poder mejorar esas
áreas. También sirven para averiguar más sobre los clientes de la competencia y
reforzar sus puntos clave para hacerlos más atractivos. Estos métodos se están
empleando actualmente a escala global.
28 de 155
2. Conocer los datos
29 de 155
2. Conocer los datos
cómo poder influir mejor en la toma de decisiones sobre presencia del candidato,
reparto de mailing, etc. Un claro ejemplo de Big Data.
En 2012 se decidió mejorar y ampliar el uso que se daba de los datos que ya
tenían, incorporando hasta 60 especialistas en bases de datos al grupo que nutría
de información a los distintos departamentos. Estos especialistas se marcaron
enseguida distintos retos: utilizar los datos existentes, volver a cotejarlos para
actualizarlos y, como novedad, dirigirse a grupos específicos de individuos a los
que poder convencer para cambiar sus preferencias de votos.
30 de 155
2. Conocer los datos
Este reciclaje de los datos, obtenidos cuatro años antes, permitió a Obama
conseguir votos en nichos tradicionales de los republicanos, enviando publicidad
personalizada a las casas, tanto por correo como por televisión, y por franja
horaria y según edad y sexo. Esta publicidad explicaba a la gente justamente
aquello que más les interesaba en materia de inmigración, salud y trabajo y, por
supuesto, resaltando los puntos negativos de su competidor en la carrera por
llegar a la Casa Blanca.
Está claro que los datos precisos son útiles para los entornos donde se requiere
exactitud para operar o trabajar. Un cohete que tiene que llegar a la Luna no pide
cálculos que solamente aporten grandes posibilidades, sino exactitudes. Un
puente construido tiene que estar milimetrado para que no se caiga durante el
ensamblaje. Un contable tiene que saber cuáles son las cantidades exactas de
dinero que está manejando para llevar las cuentas correctamente, cuadrarlas y
efectuar los pagos.
31 de 155
2. Conocer los datos
vasto que los errores apenas sí aportan valor al resultado final. Pongamos un
ejemplo:
Si tenemos una fábrica con una sala de cubas pero solamente un sensor para toda
la sala, querremos que este sensor sea lo más preciso posible en su medición para
que nos ayude a tomar las decisiones correctas según los valores que nos dé. Pero
si en lugar de tener un único sensor, tenemos muchos, pongamos uno por cuba, y
además varios en el techo y paredes, entonces el valor de un solo sensor no nos
aporta una visión global de lo qué está ocurriendo en esta sala, sino que no es más
que un granito de arena en la información total sobre el estado de las cubas. Si uno
de los sensores se estropea puede ocurrir que nos quedemos parcialmente ciegos
sobre lo que pasa en esa región de nuestra sala, pero mientras el resto de sensores
sigue enviando información fidedigna al centro de control, con lo que seguimos
obteniendo una visión clara sobre los procesos que están teniendo en nuestra sala
de cubas.
32 de 155
2. Conocer los datos
Con Big Data la precisión de los datos ha dejado de ser tan importante, ya no tiene
el peso que tenía antes, ahora es mucho más interesante contar con un gran
volumen de datos sobre los temas que queremos tratar antes que muy precisos,
porque el GLOBAL de los datos, y aquí está la gran diferencia, nos va a dar, al final,
una visión mucho más acertada de la realidad y, a menudo, mucho más compleja.
Datos erróneos. Cuando por un motivo fortuito por parte de los usuarios
se introducen errores en las solicitudes de datos.
Como paso previo a analizar los datos debemos intentar limpiarlos. Existen
soluciones muy buenas, muchas de ellas basadas en inteligencia artificial, que
encuentran errores o anomalías para que podamos limpiar los datos antes de
alimentar nuestra infraestructura de Big Data. Estas soluciones suelen aportar un
extra de mejoría ya que nos garantizan una gran capacidad de procesamiento a un
precio muy competitivo.
33 de 155
2. Conocer los datos
Los datos de Big Data no se limitan a aquellos que tenemos disponibles de forma
inmediata, con relaciones fuertes entre ellos, sino a todos los que podamos
aportar a la hora de buscar las respuestas correctas a los problemas que tenemos.
Hay que recordar que, cuando hablamos de Big Data, se pierde el foco en el por
qué ocurren las cosas para ponerlo en el cómo o la evolución de las mismas.
Es importante saber dónde pueden obtener las empresas estos datos como parte
de sus procesos de análisis. No es tarea fácil, puesto que tenemos que llevar a
cabo una ardua tarea de investigación para encontrar los que realmente nos
pueden ser útiles. Puede ser que solo tengamos que alimentar a la plataforma de
Big Data con ellos o que, por el contrario, haya que filtrarlos previamente. La tarea
de filtrado puede ser muy costosa pero es importante para poder obtener
resultados apropiados. Si previamente no los hemos filtrado correctamente y no
los hemos preparado para que la plataforma pueda leerlos, entonces, no
podremos trabajar con ellos.
Algunos de los datos más obvios son aquellos que se generan máquina a máquina
o los relativos al usuario: transacciones electrónicas, visitas a webs, log de
aplicaciones, etc. Cuanto más, mejor.
34 de 155
2. Conocer los datos
¿Podríamos haber mejorado este porcentaje? La teoría dice que sí. La muestra
utilizada para llevar a cabo el estudio es de 265 pacientes, pero, ¿qué pasaría si
alimentásemos a nuestro software con más datos? Con mucha probabilidad
aumentaríamos también el ratio de aciertos tal y como vimos en ejemplos
anteriores. Esta es la grandeza del Big Data, los datos están ahí, solamente hay
que salir a recogerlos y usarlos adecuadamente. A veces no podemos, por
problemas de tiempo, de alcance, de diseño del problema, etc., pero con una labor
concienzuda podemos sacarle mucho rendimiento.
Un ejemplo de lo que puede ocurrir cuando dejamos que los datos nos alimenten y
nos guíen lo tenemos en la inteligencia artificial (AI) de la compañía Invacio: Jean.
35 de 155
2. Conocer los datos
Debido a la forma en la que Jean aprende necesita cada vez más datos, y llegó el
momento que se le dio acceso libre a Internet para aprender y mejorar sus
capacidades de establecer correlaciones. Esto, en algún momento, le llevó a
aprender técnicas de hacking que pudo encontrar navegando libremente.
36 de 155