Introducción Al Big Data

Introducción
al Big Data
Parte 1. Introducción a Big Data
• 1.1. Origen y definición de Big Data
• 1.1.1. Origen de Big Data
• 1.1.2. Definiciones de Big Data 1.2. Infraestructuras y
mercados
• 1.2.1. Infraestructuras
• 1.2.2. Mercados
Parte 2. Conocer los datos
• 2.1. Volumen y variedad de datos
• 2.1.1. Volumen
• 2.1.2. Variedad
• 2.2. Variabilidad de los datos
• 2.3. Veracidad de los datos
• 2.4. Dónde se encuentran los datos

1. Introducción a Big Data
1.1.1. Origen de Big Data
Un estudio de IBM estima que actualmente se producen aproximadamente 25

petabytes de información cada minuto, se generan 72 horas de vídeo, casi
300.000 mensajes cortos y más de 200 millones de emails. Esto significa que, en
los dos últimos años, la Humanidad ha generado más del 90% de la cantidad de
datos que existe en todo el mundo.
Big Data surge como la necesidad de manejar esta ingente cantidad de

información que las compañías van generando y almacenando. Información que
proviene de fuentes muy heterogéneas y de diferentes tipos de datos:
estructurados (base de datos relacional tradicional), no estructurados (página
administrarla, sino también encontrarle un valor que redunde en beneficio de la

compañía y, por qué no, también monetizarlo.
Hasta ahora, la tecnología no podía procesar esta información de una forma

adecuada, es decir, en un tiempo que permitiese sacarle rendimiento. Además, el
almacenamiento de todos estos datos era costoso y difícil de mantener. El hecho
de estar constreñidos por el paradigma de los datos estructurados, limitaba,
notablemente, la capacidad para procesar todo aquello que no cabe en esta
definición.
Hoy, las mejoras del almacenamiento masivo y de la capacidad de cálculo

permiten que estas cantidades de información puedan procesarse en un espacio
12 de 155
de tiempo muy corto, pero es que, además, posibilitan el siguiente paso: la

distribución de la carga de procesamiento, haciendo que las tareas puedan ser
distribuidas entre un número indefinido de máquinas.
La aparición de la nube es el elemento que más ha impulsado esta tecnología de

forma definitiva, facilitando el acceso a la horizontalidad en la distribución de
procesos y almacenamiento.
No todos los datos que recibimos se pueden clasificar sencillamente y, por ello,
era necesario dar un salto en la capacidad para su manejo. Los videos o las fotos,
por ejemplo, que forman parte de este continuo flujo, son difíciles de encasillar en
categorías pues, normalmente, pertenecen a muchas de ellas y, además, por ser
datos binarios son complicados de clasificar de forma tradicional. La aparición de
los datos desestructurados para manejar toda esta información provoca una
revolución entre los datos que se pueden recopilar y almacenar para su análisis.
El primero, o de los primeros, en hacer uso de la gran cantidad de datos

almacenados que tenía sobre sus clientes y sacarles rendimiento fue Walmart, la
cadena de supermercados estadounidense.
Walmart consiguió que todos los datos sobre sus

clientes y sus tendencias de compra, recogidos a
través de las tarjetas de crédito y fidelización,
tuviesen valor por sí mismos y generasen riqueza
para la empresa. Como ejemplo, el análisis de los
datos reflejaba que cuando había aviso de huracán
los clientes tendían a comprar cierta golosina muy
popular en EEUU para hacer acopio en los refugios.
Basándose en esta tendencia, cuando había aviso
de huracán, Walmart ponía en los paneles frontales
la golosina aumentando drásticamente sus ventas.
La analítica de datos en Big Data se centra en las relaciones y probabilidades.

Actualmente a las empresas les interesa no solamente los clientes que ya tiene
sino aquellos que no tiene. Quiere saber por qué no adquieren sus productos y
cuáles son sus tendencias y hábitos de compra para, de esta forma, poder
entenderlos y atraerlos hacia sus productos o servicios.
13 de 155
1.1.2. Definiciones de Big Data
Podemos definir Big Data como un conjunto de nuevas tecnologías que permiten
extraer valor de un juego de datos que, dado el volumen, variedad o velocidad con
que se generan no han sido previamente explotados.
Big Data es posible desde hace relativamente poco tiempo. Hay que tener en
cuenta que actualmente la Humanidad produce en 3 años más información que en
los primeros 50 años del siglo pasado. Toda esta información tiene que ser
almacenada y es ahora cuando se cuenta con medios para ello, así como
capacidad de procesamiento y memoria en los modernos sistemas informáticos.
Con Big Data ya no importa tanto la causa que ha producido un evento sino el
evento en sí mismo. Por ejemplo, Google utilizó en 2009 Big Data para predecir en
Estados Unidos el crecimiento y evolución de la enfermedad conocida como Gripe
aviar. Mientras que el Gobierno tenía que hacer llegar los informes de los médicos
de cabecera hasta el CDC (Centro de Control y Prevención de Enfermedades en
USA) para establecer un patrón de contagio, lo que podía tardar hasta dos
semanas, Google utilizó sus cientos de millones de preguntas al día para detectar
patrones que permitiesen reconocer en su motor de búsqueda cadenas de texto
relacionadas con los síntomas de la enfermedad. No importaba por qué se
expandía la enfermedad, sino la expansión en sí y los datos que se iban
introduciendo por parte de los usuarios.
Big Data también se puede definir como cualquier tipo de origen de datos que
comparte las siguientes características:
Big Data también se puede definir como cualquier tipo de origen de datos que
comparte las siguientes características:
 Volúmenes de datos extremadamente grandes.
 Datos a gran velocidad.
 Gran variedad de datos.
 Veracidad en los datos.
 Valor de los datos.
hay quienes consideran solo las tres primeras:
14 de 155
 Volumen (Volume). Por grandes volúmenes se entiende a partir de los 500

millones de ítems. Choca frontalmente con el modelo tradicional en el que
un subconjunto de muestras se toma como representativo del global del
conjunto a estudiar, lo que se conoce como muestra.
 Velocidad (Velocity). Gran velocidad se refiere a que se pueda ejecutar en

un tiempo mínimo, e incluso en tiempo real.
 Variedad (Variety). La variedad de los datos tiene que ver con la

heterogeneidad. Ahora los datos utilizados en Big Data ya no son
solamente aquellos que cumplen el modelo relacional tradicional, son todas
las fuentes, incluso aquellos datos que se consideran desestructurados:
videos, fotos, flujo de clics en una web, etc.
 Veracidad (Veracity): A diferencia del modelo tradicional de muestras, en

Big Data los datos no tienen que ser tan precisos, aunque sí veraces, ya que
no se busca una solución única a un problema, sino tendencias a preguntas
o comportamientos. Es mucho mejor obtener una gran cantidad de datos
que poca cantidad pero muy precisos. Con mayor cantidad de datos la
posibilidad de encontrar una tendencia es mucho mayor.
 Valor (Value). Se refiere a la calidad de los datos que vamos a suministrar a

nuestra plataforma. Datos que hemos filtrado previamente para que sean
de cierta calidad y fiabilidad. Si los datos no son veraces nos
encontraremos con el problema de que las soluciones aportadas, o la toma
de decisiones basadas en los resultados, no se ajustarán a la realidad de
nuestro negocio.
1.2.1. Infraestructuras
Las infraestructuras del entorno Big Data se pueden dividir entre entorno físico o
hardware y el entorno lógico.
Entorno físico
El entorno físico, como no puede ser de otra forma, se especifica como de alta
disponibilidad y rendimiento. La velocidad de la red que engloba todos los
15 de 155
componentes no puede formar un cuello de botella cuando estos deben compartir

información. Asimismo, el espacio dedicado a cualquier proyecto de Big Data tiene
que ser grande, adecuado para guardar millones de registros. Por último, la
capacidad de proceso debe estar a la altura de los procesos que vamos a generar,
cuantos más datos a procesar más intensidad.
En cualquier caso, nuestra infraestructura, desplegada en la nube de forma

parcial, totalmente o nada en absoluto, debe de apoyarse en los siguientes
conceptos para evitar los cuellos de botella anteriormente mencionados:
 Rendimiento. Tiene que ver con la capacidad de respuesta del sistema

cuando se le exige el resultado del procesamiento de una única transacción.
 Disponibilidad. El sistema debe estar 100% del tiempo disponible y no

podemos permitirnos la caída del mismo ni un momento. Incrementa
mucho el coste por la redundancia de dispositivos.
 Flexibilidad. Se entiende por flexibilidad la capacidad de agregar nuevos

elementos a nuestra infraestructura para adaptarnos a las necesidades o en
caso de fallo. Es decir, la capacidad de adaptar la infraestructura de IT a los
requerimientos de la plataforma, agregando nuevos componentes sin que
el trabajo en ejecución se resienta. Los sistemas de este estilo son muy
costosos.
 Coste. Hay que saber cuál es el coste máximo que estamos dispuestos a
asumir para mantener la infraestructura que hemos determinado según los
puntos anteriores. Hay que tener en cuenta que todos ellos, en parte o
totalmente, se pueden apoyar en soluciones en la nube y pagar por
solamente lo que se usa.
Entorno lógico
La distribución de tareas en infraestructuras para su resolución es la clave para

abordar problemas en el mundo Big Data. Para mejorar la distribución de las
tareas y escalarlas adecuadamente hace falta un desarrollo tecnológico que nos
dé este soporte. Por ejemplo, MapReduce. MapReduce es un entorno software que
permite a los programadores escribir código que puede distribuir y procesar
ingentes cantidades de datos, estructurados o no, entre distintos nodos en una red
abierta.
16 de 155
MapReduce fue desarrollado en Google al principio de los 2000 como respuesta a

la creciente demanda de cálculo para resolver problemas. Los ingenieros
determinaron que distribuyendo la carga en un clúster de nodos se podría llevar a
cabo la tarea de forma eficiente a través de una red, no importa si local, WAN o
una mezcla de ambas. Se llamó MapReduce a este entorno de desarrollo porque
usaba dos funcionalidades de los lenguajes de programación: Map y Reduce. La
sencillez de la solución en sí misma y la capacidad de adaptarla para la resolución
de distintos problemas le convirtieron en el estándar de facto.
La popularidad del método trajo consigo la aparición, más tarde, de otras

implementaciones de MapReduce, tanto en proyectos Open Source como
propietarios.
Función Map
Aplica una función a cada elemento, expresada con un par clave + valor, de una
lista y devuelve una nueva lista. Toda esta operativa se hace sin modificar los
datos originales, datos valiosos que, con toda probabilidad, se quieren volver a
reutilizar más adelante, creando una nueva estructura como resultado de la
operativa ejecutada. Además, también muy importante, es la propia función Map,
quien se encarga de administrar y manejar los orígenes de los datos, evitando al
programador lidiar con el movimiento de éstos a través de la infraestructura
distribuida.
Finalmente, el orden de las operaciones sobre los datos no está prescrito, es decir,
no genera resultados distintos, por lo que la ventaja en la ejecución en paralelo es
17 de 155
evidente. Es lo mismo que si hubiésemos dicho que la operativa sobre los datos es
conmutativa.
Función Reduce
La función Reduce toma la salida de una función Map y aplica el filtro especificado
por el programador, reduciendo el conjunto de datos a la salida del mismo. Al
finalizar la operación, en cada uno de los nodos distribuidos se agrupan los
resultados y se devuelve un resultado por parte de Reduce, obteniendo una lista
modificada por las operaciones aplicadas.
Función Shuffle.
Es un proceso intermedio entre Map y Reduce. Su función es recopilar los datos

generados por Map y ordenarlos para distribuirlos entre los nodos que van a
ejecutar Reduce. Los nodos de Map y Reduce son los mismos, cuando se termina
una operativa se ejecuta la siguiente.
Junto con el proceso Map, los pasos se pueden plasmar en la siguiente secuencia:
Seleccionar gran cantidad de datos a procesar.
 Map se ejecuta sobre los datos anteriores proporcionando una salida.

 Organizar la salida del proceso o procesos Map.
 Aplicar el proceso o procesos Reduce para generar resultados de interés.
 Obtener los resultados de Reduce.
Lo interesante de los procesos Map y Reduce es que, combinados, pueden llegar a

ser realmente sorprendentes a la hora de procesar grandísimas cantidades de
datos. Para ello abordaríamos el problema como un clásico problema de divide y
vencerás , generando tantos procesos Map como nodo tuviésemos y, tras
procesarlo, se aplicaría la misma operativa para el proceso Reduce. Así, en relativo
poco tiempo, podemos procesar lo que, de otra manera, serían costosísimos
equipos de gran capacidad y complejidad para poder ejecutar estos procesos.
Supongamos un caso clásico de MapReduce con millones de registros. Estos se

dividirían en paquetes que son distribuidos a lo largo de la plataforma para cada
uno de los nodos de forma equivalente. Los nodos ejecutarían el proceso Map en
18 de 155
cada uno de ellos hasta haber completado la transacción. En este momento cada
nodo cambiaría a Reduce y este se ejecutaría hasta finalizar. El resultado se
obtendría en la salida del sistema, combinando todos los resultados obtenidos en
cada uno de los puntos, tal y como ocurriría si lo ejecutásemos en un único equipo.
Lo bueno de este planteamiento es que Map puede obtener los datos de fuentes
muy heterogéneas, internas y externas, y todo el trabajo asociado al divide y
vencerás se hace de forma transparente al usuario, repartiendo la carga entre los
distintos nodos de la red.
El entorno MapReduce está diseñado siguiendo el principio de alta disponibilidad,

de tal forma que si se cae un nodo el resto puede seguir operando con casi total
normalidad, siendo la tarea asignada a dicho nodo transferida al primero que
termine de forma automática.
1.2.2. Mercados
Big Data y Cloud son, prácticamente, indisociables. El primero necesita al segundo

y el segundo se apoya en el primero para crecer. Y es que la elasticidad, la
capacidad de poner más capacidad de cálculo en los picos de demanda y la
velocidad de procesamiento son indispensable para dar una rápida respuesta a las
demandas del usuario.
Big Data ha democratizado el acceso a los datos y la minería de los mismos para
empresas que antes no podían, por coste, permitirse infraestructuras tan
19 de 155
complejas. La tendencia -donde Big Data lleva ya tiempo implantado- es la de

utilizar entornos híbridos con la nube. Hay datos que no se pueden, deben o
quieren compartir con servicios ajenos o por el simple concepto de seguridad,
pero la nube dota de una flexibilidad hasta ahora impensable.
2017 está previsto

que las soluciones de analítica de grandes datos consigan ingresos por valor de
150.800 millones de dólares. Esto supone un incremento del 12,4% respecto a la
y sigue:
De momento, las industrias y entidades que más invierten son la banca, la

fabricación discreta, la fabricación de procesos, el Gobierno y los servicios
profesionales.
El informe de IDC también aporta que, por países, el que más invierte es Estados
Unidos, ya que él solo aportará en 2017 unos 78.800 millones. Le sigue Europa
Occidental con 34.100 millones y Asia-Pacífico, sin contar Japón, con 13.600
millones.
En España la inversión está liderada por la banca. A la cabeza está el Santander,

con 2.500 millones de euros en el corto plazo, seguido de BBVA que posee su
propio departamento, y muy cerca Caixa Bank. Según Fuencisla Clemares, de
20 de 155
Google,
Esto se puede interpretar como un error, ya que el 90% de los usuarios móviles
mantienen sus dispositivos a menos de un metro de distancia durante 24 horas al
día, por lo que es un mercado de primer orden.
En este momento uno de los perfiles profesionales más demandados y valorados

en el mercado es aquel que tiene que ver con Big Data. Según la compañía de
marketing
 Especialistas en datos
Trabajan con los datos de la compañía sobre sus clientes u otros recursos y
les da valor. Estos especialistas en recolección de datos ayudan a la
empresa a establecer mejores estrategias en función de sus necesidades,
ofrecer soluciones en los puntos flacos y reforzar los fuertes.
 Especialistas en marketing online
Estos profesionales son de vital importancia para los poderosos mercados

online. El cometido de un profesional de esta rama es atraer más clientes al
competitivo mundo de las compras a través de Internet; generar interés por
la compañía en la red de redes, creando impacto y novedades sobre sus
productos o servicios; y cruzar los datos obtenidos de las campañas para
mejorar dinámicamente el contacto con los clientes. Todo ello crucial en el
mundo de Big Data.
 Especialistas en marketing móvil
Son profesionales capaces de adaptar el contenido web a los dispositivos

móviles -especialmente teléfonos inteligentes y tabletas- que puedan
generar más tráfico y, por tanto, valor para la compañía. Su actividad no
tiene necesariamente que ver con Big Data, pero remodelan la información
aportada por el Departamento de marketing.
 Especialistas en videojuegos
La alta aceptación por parte de los usuarios a las campañas que van
asociadas con juegos, prácticamente todos ellos en dispositivos móviles,
21 de 155
hace que este tipo de profesional sea muy demandado. La fidelización del
cliente es un punto muy importante en su tarea así como conseguir un gran
impacto en todo tipo de objetivos.
Las últimas tendencias en Big Data se pueden resumir en los siguientes puntos:
 Integración de las áreas de marketing con arquitecturas Big Data.
Esto supone analizar el mercado en tiempo real para conocer la respuesta

al lanzamiento de campañas, de manera que se pueda seleccionar objetivos
más precisos mediante la personalización. Con ello se tendrá asimismo la
posibilidad de adaptar rápidamente las acciones para obtener mejores
resultados.
 Análisis facial
Las técnicas de deep learning (aprendizaje profundo) permitirán reconocer

no solamente las caras de la gente, que ya se aplica desde hace mucho
tiempo, sino los gestos y emociones. Esto abre el camino para anticipar y
rastrear las huellas digitales. Estas técnicas, cada vez más demandadas,
sirven para conocer tanto al cliente de la compañía como al de la
competencia.
 Visualización de datos
La realidad virtual nos aportará un nuevo concepto en la visualización de

datos y la interacción con estos. La capacidad de interpretar la información
desde nuevos puntos de vista, en el que los datos ya no se representan
solamente sobre el papel o gráficos limitados a una pantalla de ordenador,
será de gran utilidad para evaluar correctamente todos los niveles de
interacción entre ellos.
 Prevención de delitos
Las técnicas de Big Data permiten detectar patrones de ataques y delitos

relacionados con la seguridad informática, con lo que se convierten en una
excelente arma de prevención. Siendo capaces de analizar grandes
cantidades de información en tiempo real se podrá mejorar enormemente
la seguridad cibernética.
22 de 155
2. Conocer los datos
2.1.1. Volumen
Según Qmee, en 2013, Google procesó más de 24 petabytes al día; Facebook, una
compañía que se fundó en 2004, recibe más de 10 millones de fotos por hora de
sus usuarios, que también harán un clic o escribirán algún comentario más de
3.000 millones de veces, generando un flujo de datos que la compañía puede
explotar para conocer los gustos expuestos de sus usuarios. Twitter almacena
más de 400 millones de mensajes diarios, y se sube a YouTube más de una hora
de vídeo cada segundo que pasa. Todos estos datos son valiosos en sí mismos y
es ahora, con Big Data, cuando se les puede empezar a dar el uso adecuado,
explotando su valor intrínseco para poder tomar decisiones valiosas para las
empresas.
Uno de los grandes retos de las compañías es encontrar una fuente de datos para
poder utilizarlo en sus procesos de análisis. Tal y como su nombre indica, uno de
los aspectos más interesantes de Big Data es que necesita grandes cantidades de
registros para empezar a considerarse que, efectivamente, es suficientemente
grande.
Se considera que entramos en el entorno de Big Data cuando tenemos más de

500 millones de registros para procesar y manipular de tal forma que, haciendo
las operaciones correctas, podamos encontrar respuestas a las preguntas que nos
hacemos, incluyendo también las tendencias.
25 de 155
Pongamos por ejemplo el caso de proyectos de inteligencia artificial. IBM Watson

es un sistema informático de inteligencia artificial, desarrollado a lo largo de
muchos años, que es capaz de responder a preguntas formuladas en lenguaje
natural. Se le dio acceso a 200 millones de páginas de contenido, estructurado y
no estructurado, que consumió 4 terabytes de almacenamiento en disco,
incluyendo el texto completo de la Wikipedia en inglés.
Veamos otro claro ejemplo del buen uso de grandes

cantidades de datos. En el año 2008, en EEUU, un país
con 230 millones de electores, un hombre, el
matemático Nate Silver (en la foto), predijo el partido
político ganador en 40 de los 50 de los Estados del país
con una exactitud sin precedentes. Silver, sin apenas
conocimientos políticos, utilizó un modelo estadístico
basado en grandes recolecciones de datos sobre los
ciudadanos, datos que están al alcance de todo el
mundo.
El problema al que se suelen enfrentar las compañías que generan intención de

votos es que utilizan muestras, ya que no pueden trabajar con la totalidad del
conjunto de ciudadanos porque es imposible preguntarles a todos sus
preferencias políticas, es decir, se enfrentan a un volumen intratable de datos
informáticos. Silver, sin embargo, supo aprovechar todos los datos a su
disposición para predecir los resultados, mostrando el camino a seguir.
Hasta hace relativamente poco todos nuestros instrumentos estaban basados en

la exactitud. Esta forma de pensar estaba dictada por la limitada capacidad de
recopilar datos sobre nuestro entorno, sobre nuestro problema objetivo. Con tan
pocos datos debíamos cuantificarlos de forma tan precisa como pudiésemos. La
exactitud era la premisa sobre la que se trabajaba y los datos debían de ser
precisos para aportar soluciones a los problemas.
Con tantos datos, pero con tan poca capacidad de operar sobre ellos, se demostró
que tomando una muestra aleatoria de los que se tenían a disposición se podían
obtener resultados muy próximos a la realidad. En efecto, una muestra aleatoria
de 1.100 observaciones en una cuestión de sí o no es suficientemente
representativa de toda la población, con tan solo un 3% de margen de error.
26 de 155
Los datos recogidos para las muestras podían ser obtenidos a un coste bajo,
comparado con recuperar todos y cada uno de ellos, y aun así se podían utilizar
para obtener soluciones a los problemas como si hubiésemos usado todos.
La toma de muestras aleatorias es, tal y como hemos explicado, un buen sistema
que produce buenos resultados, pero que en realidad no es más que una mera
aproximación a lo que está ocurriendo en la población objetivo de un problema
cualquiera. Lo que está ocurriendo son todos y cada uno de los datos que genera
el sistema, no solamente una parte. Es importante señalar que una mala muestra
puede obtener resultados totalmente desastrosos para la resolución del problema
que estamos planteando. En algunos casos no hay más remedio que seguir con la
toma de muestras para poder resolver complejos problemas, pero en muchos
otros, en muchas áreas, como la económica, el censo, etc., el cambio no solamente
es posible sino que se está llevando a cabo a toda prisa pues los resultados
obtenidos son más precisos y arrojan una mayor claridad sobre las cuestiones
planteadas.
Big Data no es solamente muchos datos sino la posibilidad de utilizarlos para

obtener resultados más precisos en la resolución de problemas.
2.1.2. Variedad
Los datos de los que nos vamos a nutrir en un entorno Big Data no son solamente
aquellos que podemos encontrar en una base de datos relacional (tradicional), a la
que podemos preguntarle cuántos de nuestros empleados viven en Madrid o
cuáles tienen coche propio. Los datos que vamos a utilizar para Big Data son
27 de 155
también aquellos que, en principio, no se consideran como tales: son los datos
desestructurados.
Los datos desestructurados tienen en la actualidad tanto valor, o más, que los que
almacenamos en bases de datos relacionales. Provienen del flujo continuo de los
clics que hacen los clientes en la página web corporativa, son las fotos que se
suben por parte de los usuarios de los foros, son los emoticones que se ponen en
los mensajes cortos que se dejan en la mensajería instantánea, en definitiva, todo
aquello que es difícil de clasificar y etiquetar.
Estos datos nos pueden ayudar a comprender mejor cuál es la tendencia de venta
de nuestros productos que se venden en Internet. Así podremos conocer no solo
los que mejor se venden gracias a las gráficas de ventas, sino también, debido a
los comentarios de nuestros usuarios, los que son más valorados, los que
producen más rechazo o aquellos de los que se habla con ironía. Todo ello nos
puede ayudar a mejorar la experiencia del usuario o del cliente con nuestra
empresa y, por lo tanto, a la fidelización o captación.
Cuesta entre 5 o 6 veces más captar un nuevo cliente que mantener los que ya se
tienen. Por ello, las grandes compañías utilizan este tipo de técnicas y de otro tipo
para saber dónde están más descontentos sus usuarios y poder mejorar esas
áreas. También sirven para averiguar más sobre los clientes de la competencia y
reforzar sus puntos clave para hacerlos más atractivos. Estos métodos se están
empleando actualmente a escala global.
La variabilidad de los datos hace referencia a

que éstos no permanecen estáticos a lo largo
de su histórico, es decir, no forman una línea
perfecta que nos indica su tendencia. Los
datos son una amalgama de información a la
que se le da forma para que podamos ver
cómo evoluciona a lo largo del tiempo, es
decir, si describe una curva o forma una
28 de 155
recta. A este proceso se le llama normalizar, y la diferencia entre la normal y el

dato es la varianza. Los datos ajustados a una normal siempre tienen un valor de
varianza que puede ser mayor o menor y que, en Big Data, tienen mucha menos
importancia que la que tienen en los cálculos clásicos que cuentan con muestras
para evaluar sus tendencias. En Big Data es mucho más sencillo evaluar una
tendencia ya que no contamos con subconjuntos sino con el todo.
Pongamos como ejemplo el uso de la varianza y la normalización en el cálculo

financiero. En el cálculo financiero es tremendamente importante conocer los
datos con los que estamos trabajando, puesto que nos indican el valor en el que se
encuentran las acciones con las que operamos. Pero este valor en sí mismo no es
importante, lo es teniendo en cuenta una normalización de los datos del histórico
más inmediato, es lo que llamamos la varianza. Explicamos esta aparente
dicotomía:
La varianza es la diferencia entre el valor que obtenemos de muestra en un

momento dado y la normalización del mismo con respecto a la recta que
representa el histórico inmediato. El dato en sí no es realmente importante, lo es
con respecto al conjunto que representa.
La velocidad a la que se suceden las variaciones de los valores con respecto a la

norma en una gráfica financiera podría impedirnos, si nos fijamos en ellos como
absolutos, ver la tendencia del
mercado para los productos que nos
interesan.
Otro ejemplo de cómo los datos

pueden variar a lo largo del tiempo y
establecer relaciones difusas, pero
muy interesantes, es lo que ocurrió
durante la campaña de elección de
presidente en EEUU que ganó Barak
Obama en 2012. Ya en la campaña de
2008 el equipo de análisis de Obama
jugó un gran papel a la hora de
decidir dónde invertir los recursos
publicitarios para captar más votos y
29 de 155
cómo poder influir mejor en la toma de decisiones sobre presencia del candidato,
reparto de mailing, etc. Un claro ejemplo de Big Data.
En 2012 se decidió mejorar y ampliar el uso que se daba de los datos que ya
tenían, incorporando hasta 60 especialistas en bases de datos al grupo que nutría
de información a los distintos departamentos. Estos especialistas se marcaron
enseguida distintos retos: utilizar los datos existentes, volver a cotejarlos para
actualizarlos y, como novedad, dirigirse a grupos específicos de individuos a los
que poder convencer para cambiar sus preferencias de votos.
Aunque pueda parecer lo contrario, tras numerosos cruces de encuestas tanto

telefónicas como presenciales, los más predispuestos a cambiar de bando a la
hora de las votaciones no fueron aquellos que se consideraban en el espectro
centrista y que, lógicamente, podrían ser los más fáciles de convencer. Los más
dispuestos a cambiar el sentido de voto de las anteriores elecciones eran aquellos
con un apego republicano más bajo o cuyo descontento, aun habiendo votado
republicano, era más alto por cuestiones que caían mejor en el espectro
demócrata.
El equipo de análisis contaba

con el dato de las televisiones
de cable, en cuyos informes
se especificaba algo tan vago
como edad y sexo para saber
quiénes habían visto los
distintos programas que las
corporaciones emitían. En su
opinión, e trataba de
entender lo que las mujeres
mayores de 35 años veían en
la televisión, se trataba de encontrar, de entre las mujeres que eran candidatas a
Un de las
jefas de proyecto consiguió datos anónimos de las cadenas de cable y los cruzó
con una base de datos externa que contenía una lista de votantes persuasibles.
Cuando se encontraban coincidencias se obtenía un claro identificador, por hogar,
aunque con datos personales no disponibles.
30 de 155
Este reciclaje de los datos, obtenidos cuatro años antes, permitió a Obama
conseguir votos en nichos tradicionales de los republicanos, enviando publicidad
personalizada a las casas, tanto por correo como por televisión, y por franja
horaria y según edad y sexo. Esta publicidad explicaba a la gente justamente
aquello que más les interesaba en materia de inmigración, salud y trabajo y, por
supuesto, resaltando los puntos negativos de su competidor en la carrera por
llegar a la Casa Blanca.
Ésta técnica de reciclaje de datos

cruzados con nueva información y
obtención de datos permitió a
Obama, en las elecciones de 2012,
sacar una gran ventaja mediática a
Romney, su competidor. Obama
realizó 1710 anuncios en las
compañías de cable
norteamericanas mientras que
Romney no publicó ninguno.
Muchos de ellos fueron en sitios en
los que el voto republicano se daba
por seguro.
Está claro que los datos precisos son útiles para los entornos donde se requiere
exactitud para operar o trabajar. Un cohete que tiene que llegar a la Luna no pide
cálculos que solamente aporten grandes posibilidades, sino exactitudes. Un
puente construido tiene que estar milimetrado para que no se caiga durante el
ensamblaje. Un contable tiene que saber cuáles son las cantidades exactas de
dinero que está manejando para llevar las cuentas correctamente, cuadrarlas y
efectuar los pagos.
Pero no siempre la exactitud prima sobre el resultado. En muchas ocasiones

podemos permitirnos recopilar datos que no tengan el valor correcto. ¿Y esto
cuándo? Cuando el número de datos que tenemos para procesar es tan grande y
31 de 155
vasto que los errores apenas sí aportan valor al resultado final. Pongamos un
ejemplo:
Si tenemos una fábrica con una sala de cubas pero solamente un sensor para toda
la sala, querremos que este sensor sea lo más preciso posible en su medición para
que nos ayude a tomar las decisiones correctas según los valores que nos dé. Pero
si en lugar de tener un único sensor, tenemos muchos, pongamos uno por cuba, y
además varios en el techo y paredes, entonces el valor de un solo sensor no nos
aporta una visión global de lo qué está ocurriendo en esta sala, sino que no es más
que un granito de arena en la información total sobre el estado de las cubas. Si uno
de los sensores se estropea puede ocurrir que nos quedemos parcialmente ciegos
sobre lo que pasa en esa región de nuestra sala, pero mientras el resto de sensores
sigue enviando información fidedigna al centro de control, con lo que seguimos
obteniendo una visión clara sobre los procesos que están teniendo en nuestra sala
de cubas.
Tal y como hemos comentado anteriormente,

antes de Big Data las limitaciones para
procesar todos los datos disponibles hizo que
los científicos aprendiesen a sacar muestras
representativas de los conjuntos que estaban
usando. Muestras que, en ocasiones, podrían
llegar a ser muy costosas de obtener y que,
además, había que verificar varias veces.
Esto hacía que el procedimiento de obtención

de datos para las muestras con las que se iba a
trabajar fuese casi tan importante como el
propio método científico empleado para
obtener los resultados, es decir, para obtener
respuestas a las preguntas formuladas.
Respuestas que requerían ser exactas y precisas, dando a entender que solamente
existía una única visión de la realidad, realidad que podía ser desde el flujo de caja
de una empresa hasta el número de compras realizadas con tarjeta en unos
grandes almacenes.
32 de 155
Con Big Data la precisión de los datos ha dejado de ser tan importante, ya no tiene
el peso que tenía antes, ahora es mucho más interesante contar con un gran
volumen de datos sobre los temas que queremos tratar antes que muy precisos,
porque el GLOBAL de los datos, y aquí está la gran diferencia, nos va a dar, al final,
una visión mucho más acertada de la realidad y, a menudo, mucho más compleja.
¿Qué hacemos cuando tenemos enormes bases de datos con información de

potenciales clientes pero con datos incorrectos, es decir, sucios? Los datos
pueden no ser correctos por alguno de los siguientes motivos:
 Datos erróneos. Cuando por un motivo fortuito por parte de los usuarios
se introducen errores en las solicitudes de datos.
 Datos incorrectos. El error se introduce en el sistema de forma

intencionada.
 Intención de los clientes por ocultar su identidad. Por ejemplo, para

evitar entrar en las campañas de la empresa.
Como paso previo a analizar los datos debemos intentar limpiarlos. Existen
soluciones muy buenas, muchas de ellas basadas en inteligencia artificial, que
encuentran errores o anomalías para que podamos limpiar los datos antes de
alimentar nuestra infraestructura de Big Data. Estas soluciones suelen aportar un
extra de mejoría ya que nos garantizan una gran capacidad de procesamiento a un
precio muy competitivo.
Pongamos un ejemplo. Desde hace tiempo se incorpora en los

procesadores de texto, como Microsoft Word, una cierta
inteligencia artificial que permite a los usuarios realizar
correcciones sintácticas o gramaticales, sinónimos, antónimos,
etc. En el 2000, Michele Banko y Eric Brill, de Microsoft,
demostraron que los algoritmos utilizados en la detección de
estos errores mejoraban drásticamente su rendimiento cuando
los alimentaban con cientos de millones de textos, pero no solamente con aquellos
que contenían un lenguaje mejor estructurado y más académico sino con todo tipo
de textos. El algoritmo que peor se comportaba, al alimentarlo con 1000 millones
de palabras, pasó del 75% de acierto a un sorprendente 95%, mientras que el que
33 de 155
mejor lo hacía con menos palabras, aunque también mejoró su rendimiento, lo

hizo por debajo del 95%.
Los datos de Big Data no se limitan a aquellos que tenemos disponibles de forma
inmediata, con relaciones fuertes entre ellos, sino a todos los que podamos
aportar a la hora de buscar las respuestas correctas a los problemas que tenemos.
Hay que recordar que, cuando hablamos de Big Data, se pierde el foco en el por
qué ocurren las cosas para ponerlo en el cómo o la evolución de las mismas.
Es importante saber dónde pueden obtener las empresas estos datos como parte
de sus procesos de análisis. No es tarea fácil, puesto que tenemos que llevar a
cabo una ardua tarea de investigación para encontrar los que realmente nos
pueden ser útiles. Puede ser que solo tengamos que alimentar a la plataforma de
Big Data con ellos o que, por el contrario, haya que filtrarlos previamente. La tarea
de filtrado puede ser muy costosa pero es importante para poder obtener
resultados apropiados. Si previamente no los hemos filtrado correctamente y no
los hemos preparado para que la plataforma pueda leerlos, entonces, no
podremos trabajar con ellos.
Algunos de los datos más obvios son aquellos que se generan máquina a máquina
o los relativos al usuario: transacciones electrónicas, visitas a webs, log de
aplicaciones, etc. Cuanto más, mejor.
Es importante saber definir cuál va a ser el

objetivo del proyecto en el que vamos a
involucrarnos, y Big Data no es distinto en
este punto. El objetivo sobre el que
queremos obtener información o
resultados es el que marcará el tipo de
datos que necesitamos.
Un buen ejemplo de trabajo con Big Data e

inteligencia artificial es el realizado por un
grupo multidisciplinar de investigadores
de la Universidad de Oviedo, el Instituto
34 de 155
Universitario Oncológico del Principado de Asturias (IUOPA) y el Departamento

de Hematología del Hospital Universitario Central de Asturias (HUCA). Trabajando
con distintos marcadores de 265 pacientes del Hospital de Cabueñes (Gijón) han
desarrollado un algoritmo matemático que predice en un 90% el desarrollo de
enfermedades autoinmunes y llega hasta el 80% de aciertos en recomendar la
aplicación de una terapia basada en quimioterapia. El bajo resultado en el caso de
la recomendación de terapia se justifica porque normalmente no solo se aplican
marcadores biológicos para poder recomendarla, sino que se valoran otros
parámetros, como el estado del paciente.
Tal y como vemos, el 80% de acierto en los casos de recomendación de

quimioterapia para los pacientes no se considera suficientemente bueno.
¿Podríamos haber mejorado este porcentaje? La teoría dice que sí. La muestra
utilizada para llevar a cabo el estudio es de 265 pacientes, pero, ¿qué pasaría si
alimentásemos a nuestro software con más datos? Con mucha probabilidad
aumentaríamos también el ratio de aciertos tal y como vimos en ejemplos
anteriores. Esta es la grandeza del Big Data, los datos están ahí, solamente hay
que salir a recogerlos y usarlos adecuadamente. A veces no podemos, por
problemas de tiempo, de alcance, de diseño del problema, etc., pero con una labor
concienzuda podemos sacarle mucho rendimiento.
Un ejemplo de lo que puede ocurrir cuando dejamos que los datos nos alimenten y
nos guíen lo tenemos en la inteligencia artificial (AI) de la compañía Invacio: Jean.
Jean es una AI en la que ha estado trabajando Invacio durante 5 años. Fue

diseñada para que aprendiese a hacer uso de todos los datos que estuviesen a su
alcance, no importaba el propósito: previsión financiera, marketing, etc. Jean
35 de 155
aprende a mejorarse a sí misma mediante prueba y error. Efectúa una hipótesis en

base a los datos que tiene y, al resolverlo, comprueba lo próxima que estuvo a
resolverlo. A cada ciclo que se ejecuta, evidentemente, se mejora a sí misma,
descartando las soluciones inválidas e incorporando las acertadas.
Debido a la forma en la que Jean aprende necesita cada vez más datos, y llegó el
momento que se le dio acceso libre a Internet para aprender y mejorar sus
capacidades de establecer correlaciones. Esto, en algún momento, le llevó a
aprender técnicas de hacking que pudo encontrar navegando libremente.
Llegado un momento encontró sitios cerrados, bloqueados, a los que no podía

acceder libremente pero, como consideró que eran suficientemente interesantes,
se fabricó una entrada utilizando las poco ortodoxas técnicas aprendidas. Después
del incidente con una organización gubernamental importante, Invacio tuvo que
incorporar en la AI rutinas que impidiesen que entrase en los sitios donde no
contaba con autorización.
Como vemos, los datos se encuentran en todas partes y, con correctas

correlaciones, se pueden obtener resultados sorprendentes.
36 de 155

Introducción Al Big Data

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Introducción Al Big Data

Cargado por

Copyright:

Formatos disponibles

Introducción

• 1.1. Origen y definición de Big Data

• 1.1.1. Origen de Big Data

• 1.1.2. Definiciones de Big Data 1.2. Infraestructuras y

Parte 2. Conocer los datos

• 2.1. Volumen y variedad de datos

• 2.2. Variabilidad de los datos

• 2.3. Veracidad de los datos

• 2.4. Dónde se encuentran los datos

1.1.1. Origen de Big Data

Un estudio de IBM estima que actualmente se producen aproximadamente 25

Big Data surge como la necesidad de manejar esta ingente cantidad de

administrarla, sino también encontrarle un valor que redunde en beneficio de la

Hasta ahora, la tecnología no podía procesar esta información de una forma

Hoy, las mejoras del almacenamiento masivo y de la capacidad de cálculo

de tiempo muy corto, pero es que, además, posibilitan el siguiente paso: la

La aparición de la nube es el elemento que más ha impulsado esta tecnología de

El primero, o de los primeros, en hacer uso de la gran cantidad de datos

Walmart consiguió que todos los datos sobre sus

La analítica de datos en Big Data se centra en las relaciones y probabilidades.

1.1.2. Definiciones de Big Data

 Volúmenes de datos extremadamente grandes.

 Datos a gran velocidad.

 Gran variedad de datos.

 Veracidad en los datos.

 Valor de los datos.

hay quienes consideran solo las tres primeras:

 Volumen (Volume). Por grandes volúmenes se entiende a partir de los 500

 Velocidad (Velocity). Gran velocidad se refiere a que se pueda ejecutar en

 Variedad (Variety). La variedad de los datos tiene que ver con la

 Veracidad (Veracity): A diferencia del modelo tradicional de muestras, en

 Valor (Value). Se refiere a la calidad de los datos que vamos a suministrar a

componentes no puede formar un cuello de botella cuando estos deben compartir

En cualquier caso, nuestra infraestructura, desplegada en la nube de forma

 Rendimiento. Tiene que ver con la capacidad de respuesta del sistema

 Disponibilidad. El sistema debe estar 100% del tiempo disponible y no

 Flexibilidad. Se entiende por flexibilidad la capacidad de agregar nuevos

La distribución de tareas en infraestructuras para su resolución es la clave para

MapReduce fue desarrollado en Google al principio de los 2000 como respuesta a

La popularidad del método trajo consigo la aparición, más tarde, de otras

Es un proceso intermedio entre Map y Reduce. Su función es recopilar los datos

Seleccionar gran cantidad de datos a procesar.

 Map se ejecuta sobre los datos anteriores proporcionando una salida.

 Aplicar el proceso o procesos Reduce para generar resultados de interés.

 Obtener los resultados de Reduce.

Lo interesante de los procesos Map y Reduce es que, combinados, pueden llegar a

Supongamos un caso clásico de MapReduce con millones de registros. Estos se

El entorno MapReduce está diseñado siguiendo el principio de alta disponibilidad,

Big Data y Cloud son, prácticamente, indisociables. El primero necesita al segundo

complejas. La tendencia -donde Big Data lleva ya tiempo implantado- es la de

2017 está previsto

De momento, las industrias y entidades que más invierten son la banca, la

En España la inversión está liderada por la banca. A la cabeza está el Santander,

En este momento uno de los perfiles profesionales más demandados y valorados

 Especialistas en marketing online

Estos profesionales son de vital importancia para los poderosos mercados

 Especialistas en marketing móvil

Son profesionales capaces de adaptar el contenido web a los dispositivos

 Integración de las áreas de marketing con arquitecturas Big Data.

Esto supone analizar el mercado en tiempo real para conocer la respuesta

Las técnicas de deep learning (aprendizaje profundo) permitirán reconocer

La realidad virtual nos aportará un nuevo concepto en la visualización de