Big Data Sin Misterios - Modulo 1

Apunte del Curso
Big Data Sin Misterio
Palombo Carlos Pascual

24/07/2019
1. Introducción a Big Data
1.1.1 Texto en pantalla: Descripción y objetivos del módulo
¡Te damos la bienvenida al módulo 1!
En este módulo, aprenderás qué es Big Data y qué está impulsando, actualmente, su adopción en
las organizaciones. Te explicaremos qué es lo que caracteriza un "problema Big Data", conociendo
las “V del Big Data”, las diferencias con la analítica de datos tradicional, los nuevos roles y perfiles
que requiere el desarrollo de iniciativas Big Data y cómo contribuye Big Data a la transformación de
los modelos de negocio de las organizaciones. ¡No te lo pierdas!
Al final de este módulo serás capaz de:
A. Identificar las características de Big Data, su evolución, adopción e impactos en las

organizaciones.
B. Reconocer los cambios y desafíos que impone la adopción de Big Data a las organizaciones.
C. Identificar las características de Big Data, su evolución, adopción e impactos en las

organizaciones.
D. Reconocer y caracterizar los cambios y desafíos que impone la adopción de Big Data a las
organizaciones
Esto se va a cumplir a través de:
Videos y lecturas que presentan contenido teórico y casos reales asociados al contenido teórico.
¡Un concurso! No te lo pierdas en la actividad "1.2.16 Concurso: Comparte y vota noticias de

periódicos de actualidad sobre Big Data".
La evaluación de este módulo se realizará a través de:
Cuestionarios a lo largo del módulo para que compruebes tus conocimientos sobre el tema.
Para más información sobre la estructura del módulo, consulta el Guía del participante (página 6).
Completar todas las actividades del módulo te llevará aproximadamente entre 6 y 7 horas.
1
1.1.2 Video: Introducción a Big Data: definición y contexto
En este video, Álvaro Capell, Global Head of Big Data Consulting en LUCA Consulting & Analytics
(Telefónica Data Unit), te presentará cuál es el paradigma de procesamientos de datos Big Data y
su utilidad, realizando una definición de Big Data y el contexto en el que surge.
Los nuevos hábitos digitales de los consumidores conllevan un mayor grado de interacción del
ser humano con las máquinas, generando grandes volúmenes de datos y de muy diversos tipos.
Estos hábitos plantean un nuevo reto de almacenamiento, procesamiento y tratamiento de datos;

al que Big Data da respuesta.
En este primer tema, nuestro principal objetivo va a ser clarificar el concepto de Big Data y asentar
el contexto en el que surge. Big Data es un término omnipresente al día de hoy. Constantemente
surgen nuevas publicaciones, comentando disruptivas aplicaciones y los cambios que viene
provocando en múltiples sectores.
2
Sin embargo, también existe mucha confusión acerca de su significado. Si consultamos dos de las
principales fuentes de información, que probablemente ya hayáis consultado previamente hasta
formación, como podrían ser Wikipedia y el diccionario de Oxford, podemos ver dos definiciones
diferentes, ¿no?
En la Wikipedia se define Big Data como un concepto que hace referencia a la acumulación de
grandes cantidades de datos y a los procedimientos usados para encontrar patrones repetitivos
dentro de esos datos.
En el Diccionario de Oxford, por el contrario, se define como conjuntos de datos extremadamente

grandes, que pueden ser analizados computacionalmente para revelar patrones.
En ese sentido, podéis ver que las dos definiciones tienen dos conceptos en común. Estamos
hablando de conjuntos de datos de un volumen muy grande y estamos hablando del análisis de los
mismos para detectar patrones. Al final, entonces, nos quedan dos preguntas, ¿no?
3
De qué conjunto masivo de datos estamos hablando y qué entendemos por detectar patrones.
Para contestar la primera pregunta, basta con observar cómo era realizar un viaje hace 10 años y
cómo es ahora. Hace 10 años nada más llegar a nuestro destino llamaríamos por teléfono para
indicar que hemos llegado correctamente.
Al día de hoy, mandaríamos un WhatsApp y a nadie se le ocurriría hacer una llamada; una llamada
de teléfono directamente. Hace 10 años lo normal al llegar al aeropuerto y hacer el check-in es que
nos entregasen un billete impreso.
Al día de hoy, lo normal es que hagamos el check-in en nuestra casa y vayamos con el billete en
una aplicación de nuestro smartphone. Hace 10 años podía ser más habitual llevar un libro para
amenizar esas esperas en el aeropuerto en los distintos puntos del trayecto.
Al día de hoy lo normal es que cualquier aeropuerto disponga de una WiFi gratuita, podamos
conectarnos y navegar por Internet.
Hace 10 años, lo normal sería hacer fotos seleccionadas y volver de un viaje con 20, 30, 50 fotos
seleccionadas.
Al día de hoy, lo normal es volver de un viaje con 2.000 fotografías y que sea absolutamente
imposible volver a verlas todas, porque vamos a continuar haciendo viajes y sacando otras 2.000
fotografías.
4
Cómo podéis ver, el denominador común de esas cuatro etapas es el uso del teléfono.
Estamos centralizando toda esa generación de información y toda esa recopilación de información
acerca nuestra vida en nuestro smartphone y como podéis ver en la siguiente diapositiva, pues hay
ciertos indicadores que muestran ese grado de adopción del smartphone en nuestras vidas.
Existe un 20%, un 19% de personas que se conectan a Internet utilizando más de 5 dispositivos, por
ejemplo. Seis de cada diez personas compran por el móvil y no acceden nunca la página web de las
tiendas, por ejemplo.
Tres de cada diez checkean el móvil cada menos de 10 minutos y un 70% de las personas prefieren
perder la cartera con toda la documentación que el teléfono, por ejemplo.
5
Eso os da una idea del grado de omnipresencia que tiene el smartphone en la vida de la gente al
día de hoy.
En la siguiente imagen podéis ver cifras que muestran la cantidad de información que se genera
cada 60 segundos en Internet. Podéis ver nuevos contactos que se crean en WhatsApp, podéis ver
minutos de conversación generados en Skype, horas de vídeos subidos a YouTube cada 60
segundos, números de cuentas de Android registradas, una cantidad de información enorme y que,
al final, pues salvo por el uso de tecnologías Big Data; sería imposible aparcar y procesar.
6
Y esto es la punta del iceberg, en el sentido de que estamos hablando solamente de interacciones
entre personas y la nueva tendencia es la comunicación entre las máquinas. De ahora en adelante,
la mayoría de nuestros dispositivos y aparatos en el hogar tendrán una tarjeta. Esa tarjeta se va a
comunicar entre máquinas, por ejemplo, para enviar información y se estima que para 2024 existan
miles de millones de dispositivos enviando información a Internet y comunicándose entre ellos de
forma autónoma, sin intervención de los seres humanos. Todo esto os hace ver por qué estamos
hablando de Big Data.
Los volúmenes de información son inmensos y hace falta una nueva tipología de tecnología para
poder abarcar incluso toda esta información. Bueno, como has podido comprobar, hemos hablado
de datos generados por las personas, datos generados por las máquinas y hemos puesto órdenes
de magnitud a los volúmenes de información.
Estamos hablando de enormes cantidades de información y ese es el motivo porque estamos

hablando de Big Data. En los siguientes bloques de la formación iremos detallando con mayor
profundidad distintos aspectos e iremos avanzando y profundizando en todo lo que tiene que ver
con Big Data.
7
1.1.3 Vídeo: Utilidad del Big Data
¿Cómo ayuda Big Data a una organización?
Descúbrelo en este vídeo, donde Álvaro Capell, Global Head of Big Data Consulting en LUCA
Consulting & Analytics (Telefónica Data Unit), continúa explicando cuál es el objetivo fundamental
del Big Data: detectar patrones (tendencias, relaciones, sentimientos, etc.) que guíen en la toma
de decisiones para materializar los beneficios del análisis de datos.
Una de las principales iniciativas Big Data que generan valor en las organizaciones es el
desarrollo de casos de uso, lo que Álvaro te introducirá también en este vídeo.
El objetivo principal de este video es introducir a la utilidad que tiene procesar grandes cantidades
de datos sus posibles aplicaciones prácticas.
Uno de los objetivos del procesamiento masivo de datos es la detección de patrones, relaciones y
asociaciones. Ahora bien, ¿con qué finalidad? ¿Para qué nos sirve?
De forma muy resumida, podemos concluir que la finalidad es doble: por un lado, se busca
aumentar el conocimiento que tienen las organizaciones sobre sus proyectos y sobre su operativa;
permitiendo a las empresas o instituciones tomar decisiones de forma más fundamentada y con
mejores resultados que fiándose únicamente de la intuición.
Por otro lado, se busca ser capaces de elaborar predicciones que permitan lanzar acciones que se
anticipen a circunstancias concretas de los usuarios.
8
Por ejemplo, si un cliente va a abandonar la compañía, es mejor que realicemos una acción de
retención antes de que el cliente inicie el proceso de baja. O si se prevén grandes retenciones de
tráfico en una ciudad, el ayuntamiento podrían lanzar medidas de mitigación antes de que se
produzcan.
En definitiva, estos dos objetivos permiten monetizar los resultados u optimizar los servicios, y
obtener así una justificación económica para que las empresas e instituciones dediquen parte de su
presupuesto a realizar iniciativas de Big Data.
Podemos clasificar las iniciativas de Big Data en las grandes organizaciones en tres bloques, en
función del beneficio que permiten obtener cuando se activan acciones de negocio guiadas por los
resultados obtenidos.
El primer gran bloque sería la eficiencia operativa, es decir, aquellas iniciativas que permiten a las
organizaciones llevar a cabo su actividad de forma más eficaz y, por lo tanto, reducir sus costes de
operación.
Un ejemplo de este tipo de análisis podría ser la optimización de rutas de transporte, por ejemplo
reconfigurando las estaciones de autobús para satisfacer la demanda de los ciudadanos de forma
más óptima.
Otro gran bloque de casos de uso podría ser la generación de nuevos ingresos, que son acciones
orientadas a ayudar a la organización a aumentar sus ingresos. Como por ejemplo, en este grupo
de casos de uso podríamos hablar del cálculo de una propensión a la compra; permitiendo estimar
cuál es la probabilidad de que un cliente compre un producto e incrementar la eficacia de los
agentes comerciales.
9
El tercer grupo de beneficios que comentábamos es la reducción de riesgos, que son aquellas
iniciativas que permiten a la organización reducir el riesgo en su operación.
Por ejemplo, el cálculo en la probabilidad de fraude de un potencial cliente. Si estimamos la

probabilidad de que un potencial cliente que ha solicitado, por ejemplo, un préstamo; vaya a
generar un impago durante el proceso comercial.
En el ámbito del sector público, el cálculo de la probabilidad de fraude es también aplicable en la

detección de fraude administrativo en la gestión tributaria.
La forma más eficiente y ágil de plantear soluciones es definir de forma precisa un objetivo
concreto de negocio que se quiera lograr, lo que se conoce también como "casos de uso".
Cada uno de los ejemplos que os he ido mencionando en los distintos grupos sería un caso de uso
y, a continuación, vamos a hablar de forma más detallada de algunos.
Ya lo hemos mencionado con anterioridad, pero un caso de uso de gran impacto y muy extendido
en diferentes sectores es el cálculo de la propensión a la compra de un determinado producto.
En este tipo de proyecto, se analiza toda la información sobre el cliente de la que dispone la
compañía y se filtra la de aquellos clientes que han comprado un producto de una tipología similar.
A continuación, se amplía este análisis a la base total de los clientes, buscando aquéllos que son
semejantes a los que en algún momento realizaron una compra. Luego, se cuantifica esta
similaridad en un porcentaje, que es la propensión a la compra.
10
Este resultado es de mucha utilidad para ayudar a la fuerza comercial de las compañías a ofrecer a
sus clientes productos que les resulten más relevantes y, por lo tanto, a mejorar las ventas y, así,
incrementar los ingresos.
Otro ejemplo de caso de uso sería la “dataficación” de oficinas. Este caso de uso podría ayudar a
mejorar la eficiencia operativa de una empresa, ya que las tiendas físicas se encuentran en cierta
desventaja frente a los canales online, porque los clientes que las visitan dejan muy poca
información de su experiencia.
El objetivo de este caso es entender cómo se relacionan los clientes con los empleados de una
oficina física y buscar puntos fuertes y de mejora que permitan a la compañía mejorar el servicio.
En este caso, se combinarían no solo tecnologías Big Data de análisis, sino también de Internet de
las cosas y de sensorización; precisamente para poder generar esa información necesaria para
analizar.
Entre los principales potenciales factores de análisis, podríamos señalar las imágenes del propio
establecimiento de las cámaras, por ejemplo, con el fin de estudiar cómo se mueven los clientes en
el interior de la tienda, si hay zonas que despiertan un mayor interés, si las filas se gestionan de
forma eficiente o no.
Podríamos también estudiar si los clientes miran los escaparates o las pantallas de información, así
como la navegación de los clientes que las utilizan.
11
Existen múltiples posibilidades, dependiendo del tipo de sensorización y también depende mucho
del sector para el que se esté orientando este caso de uso.
Otro ejemplo de caso de uso, en este caso relativo a las administraciones públicas, sería la
elaboración de un Centro de inteligencia turístico. Las administraciones públicas necesitan grandes
cantidades de información para poder tomar decisiones de gestión eficaces.
Un caso de uso a plantear en este tipo de contexto podría ser utilizar las grandes capacidades de
tratamiento de información de estas tecnologías para agregar todos los datos relativos a los turistas
que visitan una determinada zona y, con toda esa información, generar un cuadro de mandos.
Este cuadro de mandos permitiría a los gestores tomar decisiones para fomentar el turismo o, por
ejemplo, para detectar tendencias negativas cuando están comenzando a producirse y lanzar
acciones para prevenirlas.
12
Un caso de uso bastante sorprendente es el ejemplo de Analytics para analizar el desempeño y el
nivel de esfuerzo de un equipo deportivo.
Los deportistas de un equipo llevan diferentes sensores de ritmo cardíaco, de actividad, de nivel de
esfuerzo.
Esta información se puede analizar para detectar, por ejemplo, cuando uno de los miembros está
por encima de su umbral de esfuerzo y va a sufrir una caída en su rendimiento; o, para mejorar los
planes de nutrición y entrenamiento a nivel individual.
13
El Big Data como uno de los detonantes
de la 4ª Revolución Industrial
El objetivo de esta lectura es entender la relevancia de Big Data en el ámbito

industrial. Gracias a las tecnologías que nos permiten extraer valor de Big Data,
somos capaces de llevar a cabo mantenimiento predictivo de máquinas y
optimización de procesos, garantizando así mayor eficiencia dentro de la industria.
Estos cambios pueden alterar el mercado laboral, y plantean la necesidad de
contar con nuevas habilidades profesionales, impensables hace una década.
1
Ha pasado mucho tiempo desde que la máquina de vapor cambió el curso de la
historia de nuestra civilización con la mecanización de la producción en la llamada
Primera Revolución Industrial. Los avances científicos desarrollados a finales del siglo
XIX permitieron generar una Segunda Revolución Industrial, con el descubrimiento de
la electricidad y ésta sería la base para la producción en masa. Posteriormente, en
pleno siglo XX, se desarrolló una tercera; gracias al poder de la informática y la
electrónica que permitieron la automatización de procesos de producción.
Hoy, se está gestando ante nuestros ojos una Cuarta Revolución Industrial,
producto de la fusión de una serie de tecnologías destacadas, como el Big Data,
la inteligencia artificial, el Internet de las cosas (“IoT”, por sus siglas en inglés),
la manufactura aditiva (impresión 3D), la realidad aumentada, etc.; que están
difuminando las barreras entre lo físico y lo digital. Las grandes corporaciones se
están movilizando ya para adaptarse a los cambios, así como nosotros hemos
cambiado nuestros hábitos de consumo a partir del surgimiento de estas nuevas
tecnologías.
Esta revolución industrial ha sido propiciada en primer lugar por la aparición de

Internet, que amplió el espectro de comunicación a niveles nunca vistos, también
porque las tecnologías han permitido multiplicar las capacidades de procesamiento y
almacenamiento de la información de manera exponencial con el paso de los años
hasta el día de hoy, y porque a raíz de estos dos hitos tecnológicos ha surgido una
nueva economía de datos donde absolutamente todos estamos inmersos. Como
consecuencia directa de la aparición de estas tecnologías, nuestros hábitos de
consumo también se han modificado considerablemente; ahora el consumidor está
habituado a la personalización de productos, así como su consumo en línea, lo que
ha propiciado a su vez un aumento de su propia exigencia, tanto de producto como
en tiempo.
Esto deriva en que las organizaciones del sector industrial, para continuar siendo
competitivas, necesiten conocer mejor a los consumidores, de manera que puedan
personalizar los productos a través de experiencias nuevas y diferenciadas y, con ello,
fortalecer el compromiso de los consumidores. Por ejemplo, la posibilidad que ofrecen
2
hoy las tecnologías que nos permiten extraer valor de Big Data de recibir información
en tiempo real de sus consumidores y estudiar esos datos, les permite a las
organizaciones conocerlos mejor y satisfacer sus nuevas exigencias.
Es decir, a raíz del desarrollo de las nuevas tecnologías, se ha conseguido generar

información sobre los consumidores; lo que se ha convertido en un activo fundamental
para las organizaciones industriales, que han podido usar dicho conocimiento para
realizar la personificación en masa de los productos. Es por eso por lo que este cambio
tecnológico se considera el principal catalizador de la Cuarta Revolución Industrial,
pues obliga a las organizaciones a seguir impulsando el desarrollo de tecnologías que
permiten extraer valor de Big Data para permitir adaptarse y conocer mejor a sus
clientes, manteniéndose competitivas.
Cambio en el consumo y en el proceso de fabricación
Como hemos visto, el cambio tecnológico ha propiciado un cambio en el consumo, lo

que supone que para el propio consumidor ya no sea suficiente con que el producto
sea lo más barato posible, sino que además el producto debe adaptarse a todo lo que
necesitamos como consumidores y lo que demandamos según nuestros gustos
(personalización en masa del producto). Y es esto justamente el gran cambio que ha
obligado a las empresas a buscar soluciones más ágiles y rápidas que den respuesta
a sus clientes, ahora hiperconectados.
Pero, ¿cuál ha sido el factor que más ha influido en este cambio? En los últimos
tiempos los productos y servicios han evolucionado muy rápidamente y las fuentes de
información en las que se publicitan han aumentado considerablemente: redes
sociales, Internet, foros, etc. Es por ello que el factor principal que ha provocado que
los consumidores aumenten sus expectativas de la calidad de sus productos o
servicios es la gran cantidad de información a la que tienen acceso.
Desde el punto de vista de la industria, el cambio no solo consiste en la eterna

búsqueda de ahorrar costes de producción, sino que ahora además debe responder
de forma rápida y personalizada a sus consumidores. La solución se encuentra en la
digitalización y en la creación de redes inteligentes, desde el diseño a la
3
manufactura. En esta línea, la Cuarta Revolución Industrial surge gracias a un gran
avance tecnológico que posibilita la aparición de nuevos hábitos de consumo, que
permiten a su vez la creación de nuevas oportunidades y modelos de negocio tanto
para el sector público como para el privado.
La digitalización supone conectar todos los elementos: se genera una cantidad infinita
de datos que son de gran utilidad para conocer más y mejor tanto la cadena de
producción como al cliente; impactando no sólo en la mejora de la eficiencia operativa,
sino también en la generación de nueva oferta y nuevos ingresos.
Por ejemplo, hasta ahora, si se presentaba algún problema en pleno proceso de

fabricación, toda la cadena de producción debía detenerse y era necesario evaluar
dónde estaba el fallo y arreglarlo para ponerla en marcha nuevamente. Esto suponía
pérdidas económicas cuantiosas por cada minuto en que la producción se mantenía
detenida. Lo mismo ocurría cuando se debía hacer mantenimiento de las máquinas,
siempre con fechas fijadas y sin tener en cuenta si realmente era necesario o no.
En la nueva industria 4.0, la conectividad mejora la eficiencia de los procesos.

Gracias a las tecnologías que nos permiten extraer valor de Big Data y a la obtención
de información en tiempo real, somos capaces de modificar acciones, predecir fallos
antes de que se produzcan y, evitar que se detenga la producción. Imagina que tienes
una fábrica de chocolate y que las máquinas de tu fábrica cuentan con sensores que
recogen información todo el tiempo sobre su estado y funcionamiento; para que luego
sea analizada permanentemente por un programa de computador. El programa puede
darte alertas y avisarte si alguna de tus máquinas, por ejemplo, está funcionando más
lento de lo normal o si está presentando algún fallo. Esto te permite detectar con
precisión situaciones que pueden transformarse en un problema a futuro, atenderlas
a la brevedad y gestionar soluciones precisas para ellas; que no impliquen la
detención completa de toda tu cadena de producción.
De esta manera, las expectativas finales del consumidor no se verán afectadas, pues
el producto será fabricado a tiempo, no habrá desvíos en el stock por falta de producto
y, finalmente, éste le será enviado y entregado oportunamente.
4
Gracias a las tecnologías que nos permiten extraer valor de Big Data somos capaces
de llevar a cabo mantenimiento predictivo de máquinas y optimización de procesos,
garantizando así mayor eficiencia dentro de la industria.
Sin embargo, estos cambios suponen también cambios significativos en el mercado

laboral. Según el estudio “World Bank Development Report (World Bank Group,
2016)”, las máquinas podrían reemplazar el 57% de los puestos de trabajo de media
jornada en los países de la OCDE, el 69% en India y hasta el 77% en China. Otro
estudio “The Future of Employment (Benedikt Frey & Osborne, 2013)” de 2013 nos da
ejemplos de los puestos que más riesgo corren: un teleoperador tiene un 99% de
probabilidades de ser reemplazado por la automatización, un cajero de supermercado
un 98%, un asistente legal un 94%, un taxista un 89% y un cocinero de una cadena
de comida rápida un 81%.
La otra cara de la moneda es que surgen nuevos perfiles profesionales impensables

hace una década, como el de community manager, profesional de marketing digital
responsable de la gestión y desarrollo de la comunidad online de una empresa en el
mundo digital; o el de data scientist o científico de datos, cuyo papel resulta
fundamental a la hora de extraer el valor de los datos y poder así conocer mejor el
negocio de una organización (se profundizará sobre este perfil más adelante).
Seguro que en un futuro no tan lejano hablaremos de abogados especializados en

drones y ciberseguridad o de diseñadores de órganos. Primarán las habilidades
humanas sobre el conocimiento de algo en concreto: se valorarán más, por ejemplo,
los dotes de liderazgo, la capacidad de gestión o la creatividad que los conocimientos
específicos en un tema (que, además de ir cambiando a gran velocidad, serán
fácilmente accesibles). En resumen, los tiempos están cambiando y tendremos que
prepararnos para adaptarnos.
5
Conclusiones
Big Data está propiciando la innovación en las empresas industriales, que ven la
necesidad de llevar a cabo un mantenimiento predictivo en sus máquinas y
optimización de procesos, que les permita entregar su producto de forma rápida y
personalizada a sus consumidores. Estos avances tecnológicos están provocando
cambios en el mercado de trabajo, reduciendo fuerza de trabajo en procesos
mecánicos y requiriendo especialización de profesiones con nuevas competencias
Referencias
Benedikt Frey, C., & Osborne, M. A. (2013). The Future of Employment, Universidad
de Oxford. Recuperado de:
https://pdfs.semanticscholar.org/0822/f0b701e0b798c670d23c3e85b5f4ec31bd22.pd
f
World Bank Group. (2016). World Bank Development Report. Recuperado de:
http://www.worldbank.org/en/publication/wdr2016
Esta obra está sujeta a la Licencia Reconocimiento-NoComercial-SinObraDerivada 3.0 España de Creative Commons. Para ver una copia
de esta licencia, visite http://creativecommons.org/licenses/by-nc-nd/3.0/es/ o envíe una carta Creative Commons, PO Box 1866, Mountain
View, CA 94042, USA.
6
1.1.5 Video: ¿Qué impulsa la adopción del Big Data?
¿Por qué se habla cada vez más de Big Data y éste adquiere más importancia? ¿Cuál es el nivel
de adopción de Big Data en los diferentes ámbitos?
En este vídeo, Álvaro Capell, Global Head of Big Data Consulting en LUCA Consulting & Analytics
(Telefónica Data Unit), te presenta el contexto económico de las iniciativas Big Data en los
sectores público y privado, indicando las cifras dedicadas en inversiones para este tipo de
proyectos, así como las tipologías de los negocios con mayor grado de madurez.
En este video hablaremos sobre el grado de adopción de Big Data a nivel global.
Para ello, nos centraremos en proporcionarte un contexto económico de las iniciativas en los
sectores público y privado, hablaremos de las cifras dedicadas en inversiones para este tipo de
proyectos, así como las tipologías de los negocios con mayor grado de madurez.
Big Data ya no es una moda experimental de laboratorios tecnológicos, sino una realidad que
podemos ver aplicada en proyectos reales realizados en organizaciones tanto privadas como
públicas.
Estos proyectos están proporcionando buenos resultados en empresas e instituciones de múltiples

sectores. Un vistazo a las cifras de inversión en Big Data a nivel mundial en las empresas confirma
la relevancia y el protagonismo que esta tecnología está tomando en la estrategia de las empresas
para crecer.
16
Esto apuntala la percepción de la solidez de estas tecnologías, ya que, en definitiva, las compañías
no invierten de forma sostenida en proyectos sin un retorno de la inversión claro.
Como podemos ver, en 2016 se realizaron proyectos relacionados con Big Data por una cuantía de
130.1 billones de dólares a nivel mundial, ascendiendo a $150.8 en 2017, lo que implica un
crecimiento del 15%.
A partir del 2017, el crecimiento continúa, manteniéndose en dos cifras anualmente, existiendo
proyecciones para el año 2020 de 203 billones, lo que nos deja entrever que en los próximos años
Big Data se irá asentando progresivamente.
Si entramos en más detalle y analizamos la inversión por sectores, vemos cómo entre los actores
que más invirtieron históricamente en esta tecnología está el sector Bancario y Financiero, el sector
Tecnológico y el de las Telecomunicaciones.
Esto no resulta llamativo, ya que estos tres sectores son los que históricamente han trabajado con
sistemas de información que generaban enormes cantidades de datos y los que han dedicado
mayor cantidad de recursos económicos a la transformación digital.
Por este motivo, estos sectores también han sido las principales pioneros en la incorporación de
estas nuevas tecnologías para el tratamiento y explotación de los datos.
17
En el sector de la distribución y el retail se está experimentando también un gran auge, debido
sobre todo al estrecho contacto con el cliente que tienen este tipo de compañías, particularmente
aquellas centradas en el mercado minorista.
El reto en este sector es ser capaz de analizar al cliente de la tienda física de forma semejante a
como se hace con el cliente on-line, y para ello es necesario realizar inversiones.
El sector industrial, energético y de servicios públicos históricamente han sido tremendamente

proactivos en el uso de sensores en sus operaciones, y en el análisis de los datos generados por
dichos sensores, para garantizar el correcto funcionamiento de las instalaciones o sus servicios.
Por este motivo, su incorporación a proyectos apoyados por tecnologías Big Data se ha producido
de forma gradual, motivado por la necesidad de garantizar las operaciones y evitar cualquier riesgo
que pudiese generar paradas en la producción o en la provisión del servicio.
A pesar de esta progresividad, en los datos de 2018 el sector industrial y de energía es uno de los
que más crece en cuanto a inversión en tecnologías Big Data. A priori, se podría pensar que este
tipo de proyectos de tratamiento de grandes volúmenes de datos están solamente restringido a
grandes corporaciones y empresas.
Efectivamente, las grandes compañías son las que han liderado la adopción del Big data
inicialmente (hay un 80% de grandes compañías que ya han llevado a cabo algún proyecto
sustentado sobre tecnologías Big Data), pero también se puede observar que existe un 63% de
pequeñas y medianas empresas que han realizado en algún momento alguna iniciativa de este tipo.
18
Esta diferencia también se puede apreciar en lo que a las partidas presupuestarias se refiere, con
un 60% de grandes compañías dedicando partidas presupuestarias a iniciativas de análisis de datos
basadas en tecnologías Big Data, y un porcentaje importante del 40% de las pequeñas y medianas
empresas contemplando iniciativas en este sentido.
En el sector público se va integrando poco a poco la adopción del Big Data ya que puede ayudar a
gobiernos a mejorar el diseño de políticas y la prestación de servicios y aumentar su eficiencia,
efectividad y transparencia.
Por ejemplo, estudios del McKinsey Global Institute indican que la adopción de nuevas tecnologías
analíticas en el sector público en Europa puede potencialmente reducir entre un 15 y un 20% el
coste de sus actividades administrativas, creando valor entre 150 y 300 mil millones de euros y
acelerando el crecimiento anual hasta un 0.5% en los próximos 10 años.
Pero para el sector público Big Data también supone nuevos desafíos (nuevas infraestructuras
tecnológicas, nuevos perfiles, nuevos procedimientos…), lo que está ralentizando su apropiación.
A pesar de ello, se ha observado un aumento del interés de las instituciones en adoptar este nuevo
paradigma por la enorme oportunidad de eficiencia que supone para un sector que en 2012
representó el 50% del PBI para los países de la Unión Europea.
Cada vez más, instituciones públicas nacionales, regionales o municipales están incluyendo
proyectos de Big data para solucionar problemas como la detección del fraude en tributos, la
optimización de la distribución del transporte público, la sanidad predictiva para mejora de la
atención al ciudadano, el análisis de la movilidad de los turistas para optimizar los servicios, o
aplicaciones en el medio ambiente como pueden ser la predicción de los incendios forestales o de
la calidad del aire para aplicación de medidas preventivas.
En conclusión, en este módulo has podido comprobar que los proyectos y las iniciativas en
tecnologías Big Data adquieren cada vez más importancia en las organizaciones, con un
crecimiento sostenido y un número cada vez mayor de instituciones y empresas de todos los
tamaños incrementando su nivel de madurez.
19
1.1.6 Video: El auge de tecnologías para el Big Data
(Telefónica Data Unit), explica dos de los factores que han favorecido el auge de las tecnologías
que nos permiten extraer valor de Big Data; desde un punto de vista interno de las
organizaciones, tanto las del sector privado como las del sector público.
Estos factores son la reducción de los costos de la infraestructura tecnológica o la posibilidad de
gestionar el pago por su uso, en lugar de realizar grandes inversiones para su adquisición.
El objetivo del presente video es explicar los factores que han favorecido el auge de las tecnologías
Big Data desde un punto de vista interno de las organizaciones, tanto las del sector privado como
las del sector público.
Estos factores son, entre otros, la reducción de los costos de la infraestructura tecnológica o la
posibilidad de gestionar el pago por su uso, en lugar de realizar grandes inversiones para su
adquisición.
Por un lado, desde el origen de las tecnologías de computación se ha venido produciendo una
tendencia de reducción de los costos de adquisición de la tecnología. Esta tendencia se ha
acelerado de forma muy marcada en las últimas dos décadas, implicando que los costos de
adquisición de grandes capacidades de procesamiento y almacenamiento de datos son mucho
menores en la actualidad, suponiendo de esta forma una barrera de entrada mucho menos
restrictiva. Por otro lado, diferentes compañías de servicios digitales se vieron obligadas a dotarse
de capacidades tecnológicas suficientes para abastecer las fluctuaciones de demanda en su
operación (por ejemplo, servidores suficientes para dar servicio a una tienda online).
20
Esto generó que, en tiempos de baja demanda, hubiera un excedente de infraestructuras, es decir,
capacidades tecnológicas que quedaban infrautilizadas la mayor parte del tiempo; generando
muchas veces un perjuicio en los balances económicos de estas compañías de servicios.
Para evitarlo, estas empresas vieron la oportunidad de alquilar estas infraestructuras ociosas Para
evitarlo, estas empresas vieron la oportunidad de alquilar estas infraestructuras ociosas durante los
periodos de baja carga a otras empresas, originando un nuevo modelo de negocio: las
infraestructuras en la nube o cloud.
Al mismo tiempo, otras empresas no dedicadas a servicios tecnológicos, así como instituciones del
sector público, comenzaron a ver poco práctico y muy costoso el tener que dotarse de
capacidades tecnológicas como servidores y comenzaron a rentar estas infraestructuras ofrecidas
por compañías de servicios tecnológicos.
Era conveniente, pues en vez gastar recursos en adquirir toda la infraestructura, solo alquilaban y
pagaban costes de operación a las compañías de servicios tecnológicos; permitiéndoles ahorrar
recursos.
Así, este modelo cloud ha democratizado el acceso a las infraestructuras para multitud de
organizaciones que originalmente no podían permitirse la adquisición de tecnología u otras a las
que les resultaba muy costoso.
Profundizando en el descenso de los costes que comentábamos antes, se puede comparar el coste
de almacenar 1 GB de información en el año 1992 y el 2017.
En 25 años, el coste ha pasado de 600 euros a 3 céntimos, reduciéndose 20.000 veces.
Esta reducción es fundamental, puesto que las personas y las organizaciones han venido
generando una cantidad de datos incrementalmente mayor.
Pero si estos datos no pueden almacenarse en un soporte que permita su consulta no estaríamos
alcanzando ningún tipo de ventaja. Lo mismo ha sucedido con el coste de procesamiento. De nada
21
sirve almacenar la información si no disponemos de la capacidad de procesamiento necesaria para
tratarla.
En las diferentes gráficas pueden observar la evolución del coste de procesamiento y se ve

claramente la tendencia linealmente descendente. Otra métrica interesante en este contexto es la
reducción de los costes de lanzamiento de una startup relacionada con la tecnología.
En el año 2.000, era necesario invertir 5 millones de dólares para lanzar una compañía y 10 años
después este coste se ha reducido hasta los 5.000 dólares.
La disponibilidad de infraestructura cloud, los precios más económicos de la tecnología y los costes
reducidos de lanzamiento de las compañías han ampliado enormemente el espacio para la
innovación y la creación de nuevos productos y servicios. Cualquier persona con una idea puede
lanzar una empresa con un capital muy inferior al necesario de antaño, como en el año 2.000, y sin
necesidad de preocuparse de inversiones costosas en infraestructura tecnológica de inicio.
Desde el sector público se han lanzado múltiples iniciativas para fomentar la creación de empresas
que se aprovechan de estos bajos costes de lanzamiento para proponer modelos innovadores, que
posteriormente pueden ser aprovechados también por el sector público para una gestión más
eficiente de los recursos. Las asociaciones público-privadas en este ámbito son básicas para
aprovechar toda esta innovación y aplicarla al sector público.
22
Además, estamos en el contexto histórico en que hay una necesidad continua de diferenciación
entre los agentes del mercado para agradar a los clientes y para ser más rentable, y así subsistir en
un mercado en el que continuamente entran las empresas. También, por parte de las
organizaciones públicas, que tienen el deber impuesto por los ciudadanos de hacer una gestión
eficiente y eficaz de los recursos.
¿Qué acciones se deben tomar para conseguir esos objetivos?
Esta pregunta implica llevar a cabo análisis más detallados y profundos y contemplar cualquier
ayuda que permita orientar en la toma de decisiones para poner en acción la más rentable.
En este contexto en el que se generan tantos datos, el análisis de los datos y la toma de decisiones
en base a sus resultados es un arma muy potente a explorar; que ha probado ser de utilidad para
muchas organizaciones; poniéndolos en valor en forma de detección anticipada de fallos, aumento
de ventas y ahorro de costes.
Es lo que se denomina la cultura data driven: una filosofía que predica no tomar decisiones en base
a la experiencia, si no aportar el contraste obtenido a partir del análisis de los datos.
El Big Data permite analizar los distintos tipos de datos y en cantidades masivas, permitiendo
obtener medidas de rendimiento y de efectividad de las que antes no se disponía; obteniendo
análisis cuyos resultados son respaldados por muchos datos lo que les otorga un nivel de
confiabilidad alto sobre el que los directivos tanto de áreas como de empresas pueden orientar
con mejor criterio la toma de decisiones.
Como hemos podido ver, los dos principales factores que han favorecido el auge de Big Data
son, por un lado, la reducción de los costos de almacenamiento y procesamiento, y por otro lado,
la posibilidad de alquilar las infraestructuras como un servicio, habilitando el desarrollo de
proyectos sin llevar a cabo grandes inversiones.
23
1.1.7 Video: Las V del Big Data: parte 1
¿Qué caracteriza un "problema Big Data"?
(Telefónica Data Unit), te presenta las características principales del Big Data, resumidas en lo
que se conoce como “las V del Big Data”: velocidad, variedad, volumen, veracidad y valor.
En concreto, en este vídeo, se indican los aspectos de velocidad, variedad y volumen;

explicando los retos que suponen para las organizaciones actuales.
El objetivo principal de este módulo es presentar y explicar las características principales del Big
Data, resumidas en lo que se conoce como “las V del Big Data”.
Seguramente habrán escuchado o leído en prensa que se hace referencia a las tres “V” del Big
Data. Esto corresponde a “Volumen”, “Variedad” y “Velocidad”; tres adjetivos que representan
cuáles son las características fundamentales de los proyectos clasificados como Big Data.
Se puede encontrar también una cuarta “V”, correspondiente a “Veracidad”; e, incluso, una quinta:
“Valor”.
En este video nos centraremos en las tres primeras. Pero antes de pasar a “las 3 V”, veamos un
poco de contexto. Big Data ha surgido por el enorme crecimiento en la cantidad de datos
generados por diferentes dispositivos y sistemas y, particularmente, por nuestros smartphones y
los sensores y dispositivos conectados (el internet de las cosas o IoT, es decir, los datos que
generan y envían las propias máquinas). Además, han surgido nuevos tipos de información mucho
24
más accesibles; como pueden ser la geoespacial (como mapas, puntos de interés, coordenadas,
etc.).
Por ejemplo, podemos hablar de: Datos de una empresa u organización, como usuarios, productos,
incidencias, compras, ventas, stock, personal, parqueo de vehículos, oficinas, tiendas, facturas.
Datos ofrecidos por otras organizaciones; como meteorología, demográficos y macroeconómicos

de regiones geográficas, polución ambiental, puntos de interés.
Datos generados por máquinas: como información de sensores, fotos y videos de cámaras de
seguridad, identificación por chips de radio frecuencia. Datos generados por personas, como
reseñas, fotos, videos, likes, comentarios.
Volviendo, ahora sí, a “las 3 V”; hablamos de “Volumen” porque la combinación de todas las
fuentes de datos mencionadas genera conjuntos o sets de datos del orden de gigabytes o
terabytes; lo cual supone un reto desde un punto de vista tecnológico para su almacenamiento y
procesamiento.
Además, hemos visto que existe una enorme cantidad de fuentes de información.
Esto conlleva, irremediablemente, una cantidad igualmente grande de tipologías de datos, formatos,
codificaciones y estructuras diferentes.
“Variedad” se refiere precisamente a esta diversidad. Tradicionalmente las bases de datos han
trabajado con datos estructurados en tablas, con un formato definido de antemano y rígido,
mientras que en la actualidad existe una enorme cantidad de datos generados en ficheros
25
semi-estructurados, como pueden ser los registros de funcionamiento de máquinas o sensores de
Internet de las cosas.
Adicionalmente, tenemos los datos no estructurados, en forma de documentos, vídeo, texto libre,
que corresponden a la mayoría de los datos generados en la actualidad. Esta enorme variedad de
datos presenta un enorme reto a la hora de tratar la información.
¿Cómo puedo utilizar dentro de un mismo análisis datos con forma estructurada, incorporar
información procedente de un log, y combinarlo con datos de imágenes de, por ejemplo, cámaras
de vigilancia?
Esta enorme complejidad no se puede resolver de forma sencilla, pero mediante el almacenamiento
distribuido característico de las tecnologías Big Data podemos, al menos, disponer de un repositorio
de datos común, compatible con estos formatos de datos diversos, y la posibilidad de tratarlos
dentro de una misma plataforma, simplificando enormemente el análisis.
26
La característica restante es la “Velocidad” y se refiere al hecho de que los datos se generan a día
de hoy a una enorme velocidad (por ejemplo, las transacciones que se realizan en un banco, los
tweets que se generan cada segundo o el número de reclamos a un call center de una compañía
multinacional); y es crítico procesarlos de forma que puedan estar disponibles para el análisis
incluso a tiempo real, para que sean de utilidad.
Esta necesidad de inmediatez también supone un tremendo reto tecnológico y, para ello, es
necesario un nuevo enfoque tecnológico basado en la escalabilidad de las plataformas.
Por ejemplo, la demanda de los servicios no sigue un patrón fijo, sino que hay horas donde se
producen muchas más peticiones que otras. En estas horas de alta demanda, los sistemas
tecnológicos deben ser capaces de asimilar y gestionar estas peticiones sin perjudicar los tiempos
de respuesta.
Esto es especialmente crítico, por ejemplo, en el sector bancario; al implementar un sistema que
detecte transacciones fraudulentas de tarjetas de crédito y avisar inmediatamente al cliente
afectado a través de un mensaje de texto o de un app.
Esta aplicación tiene que contar con un procesamiento a tiempo real, ya que, si tardo más de unos
segundos en avisar al cliente, probablemente ya la respuesta no tenga valor porque el daño esté
consumado.
Estos requerimientos de velocidad no son siempre tan rígidos. En un banco, por ejemplo, el estudio
de los saldos de las cuentas de los clientes para predecir cuáles van a estar en riesgo de impago de
27
deuda en un futuro próximo, no requiere tanta inmediatez y sería válido hacerlo de manera diaria,
semanal o mensual.
Como conclusión, recuerda que las 3 V del Big Data son “Volumen”, “Variedad” y “Velocidad”; que
corresponden a tres adjetivos que representan cuáles son las características fundamentales de los
proyectos clasificados como Big Data.
Volumen se refiere a la gran cantidad de datos que existen hoy, Variedad a todos los diferentes
tipos de datos y Velocidad al procesamiento rápido que debe hacerse de ellos para sacarles
provecho. Es importante tener estos conceptos presentes en un contexto de Big Data.
28
1.1.8 Video: Las V del Big Data: parte 2
¿Qué caracteriza un "problema Big Data"?
(Telefónica Data Unit) continúa explicándote “las V del Big Data”, desarrollando los aspectos de
veracidad y valor.
El objetivo de este video es profundizar en dos V del Big Data, “veracidad” y “valor”, para
complementar las tres V principales ya discutidas.
Estas tres uves, recordad, eran volumen, variedad y velocidad como una descripción referida
principalmente al tratamiento de grandes volúmenes de datos, de formatos y estructuras de datos
variadas, y de una velocidad de generación de datos exponencial; que son las principales
características de Big Data.
Sin embargo, disponer de conjuntos enormes de información no garantiza que ésta sea
directamente de utilidad. Es necesario introducir un nuevo concepto para contemplar esta
casuística.
Y este concepto es la “veracidad”. Si la información que tratamos no es veraz, cualquier conclusión

que extraigamos de su análisis va a ser necesariamente incorrecta. Es decir, la calidad de una
decisión va a estar determinada por la calidad de los datos en el mundo del análisis de los datos,
esta relación se conoce como “garbage in, garbage out”).
29
Los resultados incorrectos llevan necesariamente a la toma de decisiones incorrectas, y a un
perjuicio para las organizaciones que puede variar desde los malos resultados hasta dañar de
manera importante la imagen de esa organización.
Por ejemplo, si no se comprobara la veracidad de los datos que llegan de una encuesta de hogares,
al idear un nuevo sistema de ayudas familiares, se podrían asignar erróneamente las ayudas, lo que
afectaría a las familias que se han quedado sin ayuda y que calificaban para recibirla, pero también
a la institución, pudiendo ser percibida como injusta o incluso corrupta.
Como puedes ver, el garantizar que la información a tratar es correcta es un punto crítico y, para
ello, es importante que los datos de las organizaciones dispongan de una trazabilidad clara.
estando claro su origen, así como cualquier transformación o cambio que se haya realizado sobre
ellos.
30
Ahora bien, tampoco es suficiente con generar, recolectar y almacenar los datos. Poseer tanta
cantidad de datos sin ningún fin no tiene tampoco sentido si no es para extraer “Valor” de ellos, es
decir, que podamos extraer información de ellos que beneficie el negocio u objetivos de la
organización.
Si no se genera valor, no tiene sentido dedicar recursos de la organización, tanto humanos como
financieros, a implementar una estrategia Big Data. El valor debe ser medible.
Y para medirlo, se pueden utilizar parámetros como la mejora de la eficiencia operativa, la

reducción de riesgos del negocio o la generación de nuevas fuentes de monetización.
Es ahí donde está la “V” de valor.
Las organizaciones pueden utilizar los datos de sus clientes o ciudadanos para obtener beneficios y
generar valor en, por ejemplo: Mejorar el conocimiento acerca de los clientes o usuarios.
Optimizar y reducir los costes operativos aumentando la eficiencia.
Ofrecer servicios más personalizados.
Predecir potenciales averías en instalaciones o máquinas.
O mejorar la atención al cliente o usuario del servicio analizado analizando los datos de reclamos.
Por ejemplo: en el área de salud, a raíz del análisis de grandes conjuntos de datos, así como el uso
de la inteligencia artificial para analizarlos, en el consultorio médico los dermatólogos están
distinguiendo de manera muy eficiente entre manchas inofensivas y crecimientos cancerígenos.
31
Esto, por un lado, disminuye los costes del diagnóstico para el consultorio médico, pero por otro y
aún más importante, ayuda a dar tratamiento más rápido y, por lo tanto, salvar más vidas.
En este video hemos visto que, además de las tres grandes “V” del Big Data (volumen, variedad
y velocidad), que lo caracterizan; existen otras dos que también son relevantes: “veracidad”,
referida a que los datos utilizados en Big Data sean de calidad para que, por consiguiente, las
decisiones tomadas en base a ellos también lo sean; y “valor”, referida a que la información
obtenida de los datos debe representar una ventaja para el negocio u objetivos de la
organización.
32
1.1.9 Video: Resumen
No te pierdas, a continuación, este resumen de lo que has aprendido hasta ahora en el módulo:
qué es Big Data, qué propicia su adopción y las cinco "V" que caracterizan al Big Data. ¡Adelante!
Como habéis podido comprobar, en este módulo hemos tratado principalmente tres conceptos
claves:
¿Qué es Big Data?
Definiéndolo como grandes cantidades de información empleando tecnologías novedosas de

almacenamiento y de procesamiento distribuido.
¿Qué propicia la adopción del Big Data en las empresas? señalando como la democratización de la
tecnología y la adopción de cultura Data Driven en las empresas y organizaciones, y luego entender
el significado de las cinco “V” que seguramente hayas podido encontrar cuando habéis buscando
Big Data en distintos buscadores o distintas fuentes.
Volumen: porque estamos hablando de conjuntos de datos extremadamente grandes.
Variedad: porque son datos con estructuras muy diferentes, no es lo mismo una información de un
post en Twitter que una información que envía una máquina con un registro de un valor completo.
Velocidad: porque estamos hablando de información a tiempo real.
Todo el mundo está conectado permantemente generando información y contenido.
Veracidad: porque cuando precisamente hay tanta información tan cambiante y tan rápida, pues lo
complicado es ser capaces de discriminar cuál es correcta y cuál no.
Y luego valor: porque al final puede estar muy bien ser capaces de analizar estos volúmenes de
información pero si no somos capaces de extraer el valor de ella, pues no tiene ningún sentido.
Más allá de estas características hay que destacar que todo esto se origina tanto por la
digitalización de las personas como de las cosas, como vimos en la introducción, y ese origen
heterogéneo y amplísimo pues hace que genere esta diversidad, esta velocidad y este volumen.
Es un poco como conclusión de las cinco "V".
33
1.2 Pero, ¿qué cambios supone Big Data?
1.2.1 Texto en pantalla: Retos introducidos por el Big Data

¿Te has preguntado cuáles son los aspectos de cambio que implica el uso de las tecnologías que
nos permiten extraer valor de Big Data dentro de las organizaciones?
Te los detallamos a continuación.
Primero, es importante tener en cuenta las nuevas arquitecturas tecnológicas que una organización
necesita para aplicar Big Data. Con arquitectura tecnológica, nos referimos a dónde almacenar la
información, los datos; y cómo procesarlos para sacarles provecho. Big Data y las nuevas
herramientas existentes han cambiado las posibilidades en este aspecto.
También, vamos a ver los aspectos a tener en cuenta para dimensionar esta arquitectura
tecnológica (como volumen, tipo de datos, seguridad, etc.). También, hay que poder utilizar la
analítica avanzada, que es una manera de usar los datos para definir estrategias y tomar mejores
decisiones en relación con los objetivos de una organización. Aprenderás el concepto de “Business
Intelligence”, “BI” o “Inteligencia de negocios”, un enfoque tradicional de analítica de datos que
busca crear conocimiento sobre lo que ha sucedido en el pasado con la organización; y cómo este
enfoque tradicional se diferencia de un enfoque Big Data, centrado en analizar datos para saber
“qué podría pasar a futuro” con la organización.
Otro tema importante a tener en cuenta son los nuevos perfiles y habilidades del capital humano
que tiene que tener la organización para poder desarrollar Big Data dentro de una organización: el
consultor Big Data, el arquitecto Big Data, el científico de datos, el ingeniero de datos, el
visualizador, el “chief analytics officer” (en español, “Jefe de análisis”) y el “chief data officer” (en
español, “Jefe de datos”). Durante el curso, veremos por qué hacen falta estos nuevos roles y
perfiles; y cuál es su rol en el desarrollo de proyectos Big Data.
Es igualmente importante que la organización aborde la aplicación de “normativas” que tiene que
tener una organización para la administración y gestión de los datos; y por qué son necesarias.
Asimismo, para poder sacar adelante estos proyectos, las organizaciones deben aplicar
“metodologías ágiles de desarrollo”. Por eso en este curso te vamos a explicar qué son y por qué
se emplean en proyectos Big Data.
Otro punto que se debe abordar es para poder poner en marcha un proyecto de Big Data es la
“cultura data driven” en la organización o, en español, “cultura basada en datos”; que se refiere a
que la organización tenga implementado en su cultura que las decisiones se toman en base a
datos. Es necesario entender cómo funciona este proceso de toma de decisiones (incluyendo la
recopilación de los datos, su análisis y su visualización); y cómo llevar a una organización hacia la
cultura data driven, donde los datos son el motor de las decisiones claves.
34
También, las organizaciones deben hacer una priorización de los “casos de uso”. Un “caso de uso”
es “un marco para desarrollar una solución técnica para una situación o problema que pueda tener
una organización”. Este concepto es clave cuando hablamos de Big Data y va a ser un concepto
muy mencionado en este curso.
Además, otro concepto importante es la transformación de los modelos de negocio. Para ello, hay
que conocer qué es la transformación digital y por qué es importante; y cómo se estructura esta
transformación digital (incluyendo las nuevas estrategias, productos, tecnologías y diseños que
implica) y sus beneficios (como la eficiencia operativa de una organización, ventajas competitivas,
etc.). Como ves, los proyectos de Big Data comportan un cambio importante en la cultura
organización. No te preocupes si parece mucha información. Poco a poco, iremos tratando en el
curso cada uno de estos componentes más en profundidad.
35
1.2.2 Video: Nuevas arquitecturas tecnológicas
(Telefónica Data Unit), te introduce los aspectos tecnológicos que implican los proyectos de Big
Data, que se traducen en nuevas arquitecturas que permitan el procesamiento distribuido de
datos.
Para la implementación de estas arquitecturas, podrás encontrar un amplio abanico de herramientas

y deberás tener en cuenta aspectos como el tipo de datos, la disponibilidad y el volumen de
información, entre otros aspectos, en su dimensionamiento. ¡Quédate a conocer los detalles!
En este vídeo introduciremos cómo deben afrontar las organizaciones los retos que plantean las
nuevas arquitecturas tecnológicas y la enorme variedad de tecnologías disponibles a la hora de
implementar proyectos Big Data.
Para ello analizaremos primero la evolución de las mismas, para concluir dando las claves para una
selección de las más adecuadas en el contexto de las organizaciones. Tradicionalmente, las
empresas utilizaban una base de datos centralizada, almacenando toda la información en un único
punto.
Esta base de datos tenía una capacidad limitada; si el volumen de información aumentaba, la
empresa se veía obligada a comprar otra base de datos con más capacidad de almacenamiento.
36
Del mismo modo, si esta base de datos centralizada fallaba, corría el riesgo de perderse la
información que contenía. Este enfoque limitaba en un primer lugar la posibilidad de poder
almacenar y analizar un conjunto de datos muy grande.
Para poder gestionar y explotar grandes volúmenes, era necesario un enfoque tecnológico
diferente:
por una parte, era necesario un tipo de tecnología que utilice bases de datos distribuidas que
repartan la información en diferentes máquinas.
Por otro lado, era necesario encontrar una tecnología que permitiera tratar la información para
analizarla, aunque estuviese físicamente repartida entre diferentes máquinas.
Este nuevo escenario se resuelve con las tecnologías que impulsan el Big Data, que permiten
superar todas las limitaciones que las tecnologías más tradicionales presentaban.
La principal solución que aparece como referente Dentro de este ecosistema, se encuentra Map
Reduce, un framework de trabajo que permite procesar la información distribuida en diferentes
máquinas de forma simultánea, y posteriormente agregar los resultados.
37
Más allá de Hadoop, actualmente existen una gran cantidad de tecnologías complementarias en el
mercado, El conjunto de soluciones tecnológicas que actualmente ofrece el mercado es cada vez
más grande.
En 2017 había más de 900 proveedores que ofrecen diferentes herramientas y soluciones
tecnológicas Big Data.
Esta diversidad de oferta puede clasificarse según la funcionalidad o aplicación de la herramienta.

Así, encontramos principalmente soluciones de:
Por un lado infraestructura: donde se incluyen los diferentes proveedores que ofrecen soluciones
de infraestructura, bases de datos para información de toda tipología, así como componentes para
la gestión, tratamiento y almacenamiento de grandes volúmenes de datos.
De analítica: donde se incluyen diferentes opciones de plataformas y herramientas que facilitan el

tratamiento, análisis y explotación de grandes volúmenes de datos, según el tipo de análisis que se
quiera llevar a cabo.
Del mismo modo, encontramos agentes del mercado que ofrecen bases de datos específicas por
industria para que otras organizaciones accedan a ella y la incorporen en su analítica.
Conocer las diferentes opciones que ofrece el mercado es crucial para poder elegir la solución más
adecuada o acorde a nuestras necesidades, tal y como veremos a continuación. A la hora de llevar
38
a cabo un proyecto Big Data, será necesario hacerse un conjunto de preguntas para poder
seleccionar las soluciones o herramientas más acordes a nuestras necesidades.
De este modo, será necesario preguntarse
¿Para qué finalidad voy a necesitar una arquitectura Big Data?
¿Qué volumen de información voy a manejar?
¿Con qué tipo de datos voy a trabajar? ¿Estructurados, semi-estructurados o no estructurados?
¿Qué tipo de datos voy a tratar? Numéricos, personales…
¿cómo de sensibles son estos datos y qué herramientas son mejores para garantizar su seguridad?
¿Dónde están almacenados y a quién pertenecen los datos con los que voy a trabajar? Esta
información nos ayudará a entender qué leyes aplican.
¿Durante cuánto tiempo voy a necesitar la información? ¿Necesito la información al momento, a

tiempo real, o únicamente de forma periódica?
La respuesta a todas estas preguntas, entre otras, nos servirá de guía para decidir qué solución
tecnológica de todas las disponibles en el mercado, es la más adecuada para nuestro proyecto.
En conclusión, como hemos podido comprobar en este bloque, las tecnologías catalizadoras del Big
Data han evolucionado a lo largo de los últimos años hasta generarse un enorme mercado de
soluciones y herramientas.
Esta gran cantidad de herramientas implica riesgos para las organizaciones que quieren desarrollar
proyectos Big Data.
Para enfrentarse a estos riesgos las organizaciones deben usar un proceso de análisis y de
reflexión donde se deben estudiar cuidadosamente la finalidad del proyecto así como los datos
disponibles o los requerimientos legales entre otros factores, lo que ayudará a establecer qué
tecnología, infraestructura y análisis son los más adecuados para cada proyecto
39
1.2.3 Video: Aplicar analítica avanzada: con el BI no basta:
parte 1
¿Por qué lo que existía hasta la aparición de Big Data no era suficiente?
En este vídeo, conocerás de la mano de Álvaro Capell, Global Head of Big Data Consulting en
LUCA Consulting & Analytics (Telefónica Data Unit), que los proyectos Big Data requieren de una
analítica más avanzada que el tradicional Business Inteligence o BI. Para ello, te detallará qué es
BI; y cuáles son sus características y sus limitaciones. ¡Descúbrelo!
En este vídeo introduciremos cuales son los principales retos analíticos que encuentran las
empresas a la hora de implementar proyectos a través de herramientas de Business Intelligence y
que en definitiva han terminado propiciando el desarrollo de las tecnologías Big Data.
Para poder analizar el estado de su negocio y de sus operaciones, las empresas utilizan lo que se
conoce como herramientas de “inteligencia de negocio” o Business Intelligence (BI).
El proceso que siguen los datos desde que se generan hasta que se analizan es el siguiente:
Las empresas recogen y almacenan todos los datos generados por la actividad de su negocio,
conocido como datos “operacionales”.
Toda esta información se almacena, posteriormente, en el data warehouse o repositorio de datos.

Sobre esta información, las organizaciones utilizan las herramientas de Business Intelligence para
obtener informes que les permitan medir el rendimiento de la organización y resolver dudas sobre
qué está sucediendo en su negocio u otras preguntas estratégicas.
40
¿Cuáles son las características que definen este tipo de analítica?
● Se focaliza, principalmente, en analizar informes de resultados, indicadores de rendimiento y

tendencias en el tiempo.
● Realiza una analítica retrospectiva y descriptiva. Es decir, se observan qué acciones se han
tomado en un pasado y se analizan los resultados obtenidos y el impacto que éstos tuvieron
para la empresa o el negocio.
● Cada área de la compañía se focaliza en su negocio y se encarga de realizar su propia
analítica.
Este proceso de análisis se repite en el tiempo, comparándose los resultados obtenidos en distintos
periodos de tiempo.
Esto permite indicar la evolución de la empresa en el tiempo, para poder tomar decisiones según el
pasado. Con el paso del tiempo esta dinámica con la que las organizaciones están acostumbradas a
funcionar ha resultado insuficiente a la hora de responder con las exigencias del mercado y de los
clientes. Estas limitaciones podemos encontrarlas en tres aspectos principalmente: analítica, datos y
tecnología.
41
Desde un punto de vista analítico:
Tal y como se ha explicado antes, cada área de una organización trabaja con la información
generada por su negocio; no hay un espacio en el que se almacene toda la información y se
comparta con toda la empresa.
Esto genera silos de información dentro de la organización. Estos silos de información limitan la
información con la que trabajan las diferentes áreas: si no se tiene acceso a toda la información, es
posible que los análisis que se realicen estén sesgados o sean incompletos.
Desde la perspectiva de los datos, también se han experimentado limitaciones.
Mucha de la información generada por el negocio no se analiza porque no se dispone de la

tecnología compatible que permita almacenarla y procesarla.
También puede darse el caso de que en el propio proceso operativo no se contempla la captación
de información. Esto provoca que haya una gran cantidad de información potencial que no se
puede aprovechar.
Los datos con los que cuentan las empresas para realizar sus análisis son mayormente internos.
Tampoco se podía acceder a otras fuentes de datos distintas a la generadas por su negocio debido
a la incompatibilidad tecnológica y a diferentes limitaciones.
Por último, desde el punto de vista tecnológico:
Los datos se encuentran almacenados en un espacio centralizado.
Al haber un único punto de acceso a la información, afecta directamente el rendimiento del sistema.
Esta situación se traduce en un aumento de los tiempos a la hora de tratar los datos y analizarlos.
Estas limitaciones en la analítica, los datos y la tecnología, pueden superarse utilizando Big Data.
El Big Data permite a través del empleo de sistemas tecnológicos de procesamiento distribuido y un
programa de gobierno del dato efectivo suprimir los silos de información y permitir su explotación
efectiva por todas las áreas de la organización.
De este modo, Big Data permite no solamente resolver las limitaciones del Business Intelligence,
sino que, como veremos, permite ir más allá y abrir la puerta a nuevas preguntas estratégicas en
nuestra organización.
Como conclusión, hemos podido repasar cuales son las principales características de los análisis
empleando herramientas de Business Intelligence, así como las principales limitaciones que
presentan y que han propiciado el desarrollo de las tecnologías Big Data.
42
1.2.4 Video: Aplicar analítica avanzada: con el BI no basta:
parte 2
Continuamos dando respuesta a la pregunta: "¿Por qué lo que existía hasta la aparición de Big
Data no era suficiente?".
(Telefónica Data Unit), continuará explicándote cómo la ciencia del dato complementa el trabajo
realizado por el tradicional BI, supliendo sus limitaciones y permitiendo dar respuesta a muchas
de las preguntas que se integran en el ciclo de negocio de las organizaciones. ¡Entra y
descúbrelo!
En este video, expondremos las principales diferencias entre Business Intelligence y la ciencia de
datos, puntualizando los beneficios que podemos obtener con esta última. Mediante las
herramientas de Business Intelligence las organizaciones ha realizado tradicionalmente análisis de
datos, para entender qué ha sucedido en el pasado o qué está sucediendo con la compañía en el
presente.
Este tipo de herramientas de análisis presenta ciertas limitaciones, tanto a la hora de analizar un
volumen de información elevado, como al tratar fuentes de información de formatos diversos que
pueden resolverse potencialmente, mediante el uso de tecnologías Big Data. Por otra parte, existe
una demanda en las organizaciones para aprovechar este potencial para ir un paso más allá en los
análisis, no limitando el estudio a hechos sucedidos, sino también al desarrollo de predicciones,
estimando lo que podría pasar en el futuro.
La ciencia de datos ahora o data science busca aplicar técnicas estadísticas y matemáticas
sofisticadas para satisfacer esta demanda en las organizaciones. Estas nuevas técnicas permiten a
43
la compañía dotarse de nuevas herramientas y un mayor apoyo a la hora de tomar decisiones,
disponiendo de mucha más información que garantice una mayor probabilidad de acierto a la hora
de establecer estrategias a futuro.
A continuación, retomamos las características principales de la inteligencia de negocio para

compararlas con las características de la ciencia de datos. Ahora ya no hablamos de reportes e
informes, sino que aplicamos técnicas y modelos, como clusterizaciones o regresiones más
complejas, con los que obtener patrones o correlaciones en los datos.
Este proceso analítico, que se sigue ya no es estático y recurrente en el tiempo. Para obtener
patrones o correlaciones es necesario hacer distintos ejercicios de exploración de forma recurrente,
cruzando distintos datos de fuentes de datos, hasta acercarnos a la solución que mejor encaje con
el contexto.
Para obtener realmente valor con este nuevo modelo, es necesario explorar los distintos tipos de
fuentes de datos más allá de las fuentes internas o estructuradas tradicionales. Según el objetivo,
se incluirán más o menos fuentes, pudiendo ser, en este caso, datos no estructurados.
Por último y como hemos comentado en apartados anteriores, el análisis que ofrece esta nueva
ciencia va más allá.
Estas nuevas técnicas permiten anticiparse y obtener información sobre qué podría pasar en el
futuro o las probabilidades de que algo ocurra.
44
Veamos un ejemplo práctico de lo que acabamos de explicar en los apartados anteriores, aplicado
al campo de una nueva operadora de telefonía móvil.
Tradicionalmente, con la inteligencia de negocio en este tipo de compañías se podía conocer y

analizar quiénes eran sus usuarios o clientes, perfilándose por medio del uso de información
sociodemográfica, qué tipo de productos o servicios tenían contratados, que tipo de uso hacían de
los productos y servicios contratados.
En cambio, utilizando tecnologías Big Data y aplicando la ciencia de datos, la compañía puede tratar
información que antes no podía manejar y, con ello, ampliar el campo de estudio.
Por ejemplo, ahora es posible analizar la información generada por los usuarios al navegar por la
web o al utilizar diferentes aplicaciones móviles para entender qué les motiva y conocer, así, el
porqué se comportan de una determinada manera; analizar la información generada por los
clientes, los diferentes canales para conocer cómo interactúan con la empresa; estudiar el
contenido del centro de atención telefónica para entender cómo se sientes los clientes y poder
predecir qué harán en un futuro; analizar los datos generados por los móviles al conectarse a las
antenas para conocer dónde han estado los clientes durante el pasado, para poder entender qué
movimientos es más probable que hagan y dónde es más probable que estén en un futuro.
45
Como síntesis, podríamos decir que la inteligencia de negocio permite obtener información
descriptiva y comportamental, que permite responder a cuestiones “como” quién ha hecho qué
acción determinada; mientras que la ciencia del dato amplía el campo de análisis y ofrece
información actitudinal, hasta el punto incluso de poder predecir lo “que harán” en un futuro. Esto
permite responder a cuestiones como: “por qué” realizan las acciones estudiadas, cómo las han
realizado o qué método, canal y forma; para, finalmente, poder entender qué harán
próximamente.
46
1.2.5 Video: Nuevos roles y perfiles
¿Qué perfiles se requieren para llevar a cabo proyectos de Big Data?
En este vídeo, Paula Alamán, Industry Business Expert en LUCA Consulting & Analytics
(Telefónica Data Unit) te da a conocer los nuevos perfiles profesionales que intervienen en la
ejecución de proyectos Big Data; indicando las diferencias entre ellos y la importancia que
cobran en las organizaciones que se encuentran inmersas en procesos de transformación digital.
¡Quédate a descubrirlos!
El siguiente vídeo consiste en presentar a alto nivel los principales perfiles profesionales que
intervienen en la ejecución de proyectos Big Data, con el objetivo de identificar las diferencias más
significativas entre los mismos y la importancia que cobran en las compañías y organizaciones que
se encuentran inmersas en procesos de transformación digital.
Como veremos a continuación, se tratan de nuevos perfiles, con habilidades muy concretas,
capaces de cubrir todo el ciclo de vida de un proyecto teniendo en cuenta desde la visión de
negocio hasta las tareas más técnicas. Como se trata de perfiles muy especializados, con
habilidades muy concretas; es un desafío significativo para las organizaciones encontrar e
incorporar este tipo de profesionales. De hecho, según las encuestas hechas por IDF acerca de las
principales causas de fracaso de iniciativas Big Data, la carencia de perfiles con habilidades para
operar con dichas tecnologías o con capacidades y conocimiento de técnicas de analítica avanzada,
se encuentra entre las principales causas de fracaso en este tipo de proyectos.
Otras causas incluyen las limitaciones de presupuesto, problemas de seguridad y calidad de los
datos o de integración con sistemas que siguen estando en uso y que están quedando obsoletos o
anticuados, como pueden ser los sistemas “legacy”.
47
Es importante entender cuál es el ciclo de vida, o las fases principales, de las iniciativas Big Data, así
como el papel de los diferentes roles dentro de las mismas, para entender las habilidades que
deben tener estos perfiles y la carencia de los mismos en las organizaciones. Se trata de personas
con especialización en tecnologías y ciencias muy novedosas, por lo que no abundan en el
mercado laboral.
Como ya hemos comentado, estos perfiles cubrirán el despliegue completo de las iniciativas Big
Data. Una forma de explicar las fases o etapas por las que pasan las organizaciones que se
enfrentan a procesos de transformación digital es a través de la pirámide de valor del dato. La
implementación se debe abordar desde varios puntos de vista, cubriendo todas las fases de “la
pirámide de valor del dato” desde diferentes perspectivas.
Esta pirámide es una forma de visualizar las partes más importantes que debe tener un proyecto
Big Data y cuenta con cuatro principales fases:
En primer lugar, en la “base de la pirámide de valor del dato”, encontramos el despliegue de la

“infraestructura y la arquitectura Big Data”. Es importante tener en cuenta el tipo de plataforma más
adecuado en función de las características de la organización, así como los recursos o perfiles con
los que cuenta para el despliegue y mantenimiento de la misma.
Si la organización cuenta con arquitectos Big Data, un perfil especializado capaz de instalar y
mantener la infraestructura Big Data (como servidores propios de la compañía, por ejemplo),
entonces puede tener infraestructura propia (en lenguaje técnico, esto se llama tener un “modelo
on premise”). Sin embargo, si la organización no cuenta con este perfil profesional, entonces es
mejor contratar esta infraestructura de forma externalizada (lo que en lenguaje técnico se suele
48
llamar “modelo en la nube o Cloud", pues estos servicios requieren menos esfuerzo tanto en el
despliegue como el mantenimiento de la infraestructura.
En el segundo escalón de la pirámide se sitúa la “fase de ingeniería de datos”, en la que se

establece cómo se deben cargar los datos en la plataforma y qué procesos se les debe aplicar
para que éstos se encuentren almacenados de forma óptima para su posterior explotación. En esta
fase cobra una especial importancia el papel de los ingenieros Big Data, ya que se encargan del
diseño e implementación del flujo de aprovisionamiento de datos. Éste comprende desde las
diferentes transformaciones que deben sufrir los datos antes de ser almacenados, en términos de
calidad o enriquecimiento de la información entre otros; hasta el despliegue de los componentes y
conectores para llevar a cabo la ingesta.
En tercer lugar, se encuentra la “etapa de Data Science o Analítica Avanzada”. Una vez que los
datos y la plataforma Big Data están disponibles, los data scientists o científicos de datos pueden
empezar a trabajar en los modelos analíticos a través de los cuales se implementarán los diferentes
casos de uso, en otras palabras, modelos o una solución técnica que permitirán analizar los datos
para encontrar información que sea de utilidad a la organización .
Por último en la cúspide de la pirámide, se sitúa la visión más estratégica de negocio, es decir, los
casos de uso, a través de los cuales se pretende extraer el máximo valor posible a los datos. Para
que la estrategia Data Driven o estrategia orientada hacia los datos tenga éxito en la
organización, es importante que los casos de uso Big Data están ligados a la estrategia de negocio
de la compañía. Para ello, a través de equipos en los que tienen fuerte presencia los consultores de
negocio Big Data, se deberán identificar y diseñar los casos de uso que puedan tener mayor
impacto tanto en las diferentes áreas de la organización como en la estrategia de negocio global de
la misma.
Esta fase, además de ser el objetivo del desarrollo de las anteriores, también es su hilo conductor,
es imprescindible que la compañía tenga una estrategia en torno a la cartera de proyectos de
desarrollo de los casos de uso, ya que esta será el hilo conductor para el despliegue de la
plataforma, la estrategia de aprovisionamiento y los modelos analíticos que se desarrollen.
49
Como conclusión debemos quedarnos con la idea de que uno de los pilares más importantes
dentro de la transformación digital a través del Big Data de las organizaciones son los profesionales
que lideran las iniciativas relacionadas con dichos procesos.
Como hemos visto, los perfiles especializados en este ámbito son un bien muy preciado y escaso,
por esto en muchas ocasiones las organizaciones optan por externalizar los servicios profesionales
con el fin de acelerar su transformación digital, mientras van formando a sus equipos en las
diferentes disciplinas relacionadas con Big Data.
Espero que este video haya servido para entender de forma general cuáles son las principales
iniciativas Big Data a través de la pirámide de valor del dato y la importancia de los perfiles
especializados en este tipo de proyectos en cada fase de la misma.
50
1.2.6 Video: El consultor de negocio, el arquitecto Big Data y
el ingeniero Big Data
(Telefónica Data Unit); profundiza en los perfiles de consultor de negocio, arquitecto Big Data e
ingeniero Big Data.
Paula te contará cuál es su función en los proyectos y qué requisitos deben cumplir las personas
que ocupan estos roles, en lo referente a características, responsabilidades y habilidades.
¡Veámoslas!
En este video profundizaremos en algunos de los principales perfiles profesionales que intervienen
en los diferentes proyectos Big Data que se realizan en las organizaciones. El objetivo es entender
cuál es su función en los proyectos y qué requisitos, características, responsabilidades y habilidades
deben cumplir las personas que se ocupan de estos roles.
Los perfiles que veremos son: “Consultor de negocio Big Data”, “arquitecto Big Data” e
“ingeniero Big Data”. Todos ellos tienen un papel fundamental en las distintas fases del desarrollo
de proyectos o iniciativas Big Data.
Comencemos con el consultor de negocios Big Data.
51
Este es el perfil: responsable de la alineación de la estrategia de la organización con las iniciativas
Big Data. Su rol consiste en identificar las necesidades de negocios susceptibles de ser satisfechas
a través de proyectos de analítica avanzada así como diseñar, priorizar los casos de uso que darán
respuesta a dichas necesidades. Por lo tanto, su rol es primordial en la fase de proyecto de
comprensión de negocio.
Adicionalmente, se encarga de definir la estrategia de implementación de las diferentes iniciativas

Big Data desde la hoja de ruta o route map de despliegue de diferentes componentes tecnológicos
de la plataforma Big Data hasta la estrategia de aprovisionamiento de la información en el data lake
que “es la zona de la plataforma Big Data donde se almacena toda la información de la
organización de cara a su posible uso”.
El consultor de negocio es el perfil más transversal dentro de los que intervienen en los proyectos
Big Data ya que debe tener conocimiento funcional de todas las disciplinas tecnológicas y analíticas
que tienen lugar en este tipo de proyectos. Además, debe tener una visión estratégica más ligada
con el negocio de la organización.
Este tipo de perfiles pueden ser cubiertos con personas con licenciaturas diversas, por ejemplo:
ingenierías, administración de empresas o economía, entre otros.
Una de las características fundamentales de este tipo de perfiles es la capacidad de adaptación a

un entorno en constante evolución, tanto en cuanto a tendencias como en aplicaciones. Además
estos perfiles deben tener un amplio conocimiento del sector del negocio en el que se esté
trabajando así como habilidades de negociación y comunicación muy desarrolladas y experiencia
en gestión de proyectos y elaboración de casos de negocio.
Otro perfil es el arquitecto Big Data. El arquitecto es el responsable del diseño y la implementación
del ciclo de vida de la plataforma tecnológica Big Data en una organización incluyendo
requerimientos analíticos, selección de infraestructura, diseño técnico de la arquitectura, definición
y desarrollo de aplicaciones o pruebas de implementación.
El arquitecto Big Data será el responsable de definir qué componentes son los más adecuados de
acuerdo a las necesidades de la organización o de los casos de uso que se vayan a llevar a cabo.
Además de ser el responsable del diseño de la arquitectura e infraestructura también es el
responsable de la selección e integración de los componentes tecnológicos y las aplicaciones para
el correcto funcionamiento de las mismas. Así como el despliegue de dichos componentes análisis
y definición de los mismos en la arquitectura para proyectos que requieran el uso de las plataformas
del Big Data.
El arquitecto también deberá resolver las incidencias en la plataforma así como la definición e
implementación de la estrategia de puesta en marcha de la plataforma Big Data. La mejora continua
de la arquitectura y la selección de las tecnologías necesarias para dar soporte a los equipos de
desarrollo garantizando el correcto funcionamiento de la plataforma en todo momento.
52
Las habilidades que se requieren para un arquitecto Big Data incluyen conocimiento de diferentes
tipos de bases de datos conocimiento del ecosistema Hadoop que es el sistema de código abierto
sobre el que se soportan las soluciones Big Data así como conocimientos de infraestructura,
experiencia en desarrollo con lenguajes de programación como R, Python, SQL, entre otros y
experiencia en sistemas operativos.
Se debe tener en cuenta que las plataformas Big Data se basan en tecnologías que se encuentran
en constante evolución en las que intervienen diversos componentes que responden a
necesidades de ingesta, almacenamiento, procesamiento y explotación o visualización de
resultados, por lo que el arquitecto deberá estar al día de los nuevos componentes tecnológicos
que vayan surgiendo en el mercado.
Por último, los ingenieros de datos adoptan el modelo de datos a las políticas y metodologías
definidas en el framework o marco de gobernanza, es decir, la definición de políticas,
procedimientos y roles que faciliten la gestión efectiva del ciclo de vida del dato. Además, define los
planes de despliegue necesarios para implementar las estrategias relacionadas con el ciclo de vida
del dato y el linaje.
Entre las responsabilidades de los ingenieros de datos se encuentran las siguientes:
En primer lugar, implementar los procesos y reglas de calidad o seguridad, así como los de
metadatos definidos en las políticas de gobernanza del dato de la compañía. Implementar los
procesos de movimiento y transformación de los datos entre diferentes bases de datos llamados
ITL o en castellano extraer, transformar y cargar mediante el uso de lenguajes de programación
proveyendo a los usuarios conjuntos de datos más simplificados.
En segundo lugar, participar en el desarrollo de los procesos de industrialización de ingestas de

datos de modelos analíticos, DTL o desarrollos de las herramientas necesarias para permitir el
despliegue de las actividades analíticas y de gobierno.
Para desarrollar estas actividades los ingenieros deben ser capaces de automatizar y planificar
procesos de gestión de datos o data management. En la plataforma Big Data que tenga la
organización incluyendo modelado, transformación, y carga de datos, entre otros. Así como
monitorizar los procesos y evaluar su rendimiento para decretar áreas de mejora mediante el
conocimiento de bases de datos así como experiencias en proyectos relacionadas con la gestión
de metadatos y en la implementación de procesos de data management en ecosistemas Hadoop.
53
Como conclusión destacamos los conceptos más importantes:
En primer lugar, los consultores de negocios Big Data actúan como nexo entre las áreas de
negocio y los perfiles más técnicos que intervienen en los proyectos Big Data actuando como
traductores de los requisitos de los primeros para que los segundos puedan implementarlos de la
mejor manera.
En segundo lugar, aunque se tiende a confundir los perfiles de arquitecto Big Data con los
ingenieros de datos es importante tener en cuenta que los arquitectos realizan principalmente
tareas relacionadas con la plataforma Big Data, su despliegue o su mantenimiento, entre otras.
Mientras que los ingenieros Big Data se dedican a la preparación de los datos y la optimización
de procesos relacionados con estos.
Espero que este video te haya servido para clarificar y entender las diferencias principales entre
estos perfiles profesionales Big Data.
54
1.2.7 Video: El científico de datos y el especialista en
visualización de datos
(Telefónica Data Unit); profundizará en los perfiles del Data Scientist o científico de datos y el
Data Visualization Specialist o especialista en visualización de datos: dos perfiles
fundamentales en el desarrollo de iniciativas Big Data. ¡Quédate a conocer sus características y
funciones!
En el vídeo que sigue a continuación explicaremos las principales características, responsabilidades

y habilidades de dos de los perfiles más importantes dentro de las iniciativas Big Data.
Son los perfiles encargados de extraer el máximo valor a los datos y presentarlos de forma que la
organización sea capaz de tomar decisiones en función de los resultados de los diferentes modelos
analíticos. El objetivo en este caso es entender en qué consiste el trabajo del Data Scientist o en
español, “científico de datos” y del Data Visualization Expert o “especialista encargado en
visualización”. Antes de entrar en el detalle de cada uno de ellos, es fundamental tener en cuenta
que ambos perfiles deben trabajar en total sintonía dentro de los proyectos de analítica avanzada
desde el planteamiento de los mismos, para que la presentación de resultados sea la más
adecuada al modelo analítico y viceversa.
En primer lugar, el científico de datos es el encargado de extraer conocimiento y valor de los datos.
Su trabajo es descubrir relaciones ocultas y patrones entre los datos a partir del desarrollo de
modelos analíticos y la explotación de herramientas de analítica avanzada para el análisis de estos
datos.
Las principales tareas y responsabilidades del Data Scientist son:
Análisis de la información contenida en las fuentes de datos internas de la organización (como

datos de las operaciones de la organización, información sobre usuarios, ingresos, entre otras), y en
fuentes externas (como pueden ser sitios web, redes sociales, bases de datos abiertos, entre
otras). También se encargarán del desarrollo de modelos analíticos de carácter descriptivo o lo que
es lo mismo, analizar lo que ha pasado; de carácter predictivo, o analizar lo que podría pasar; así
como de carácter prescriptivo que son los modelos basados en probabilidades de que algo ocurra
según las decisiones que se van tomando.
Cada uno de estos modelos resolverá diferentes necesidades de negocio de la organización.

También pueden realizar tareas de reporte de los principales insights de negocio o resultados para
el negocio, obtenidos de la ejecución de modelos analíticos desarrollados de forma que los perfiles
más funcionales de la organización, sean capaces de comprender dichos resultados y definir
acciones de negocio a partir de estos. Además, desarrollan los trabajos de descubrimiento de
fuentes externas de información que favorezcan el enriquecimiento de los datos internos de la
55
organización y, por ende, los casos de uso analíticos, así como la evaluación de modelos analíticos
desarrollados y la comunicación de los resultados obtenidos a las áreas de negocio.
Para ello, este tipo de perfiles debería tener una sólida formación que garantice el enfoque
matemático avanzado, en estadística y matemática, conceptos de programación en diferentes
entornos de desarrollo, capacidades para entender el valor de los datos y conocimientos relativos a
los procesos de transformación de los mismos. También, es importante que disponga de cierta
habilidad para entender las métricas asociadas al análisis de datos y puntos de vista de negocio.
Por otro lado, el data visualization expert es el responsable del diseño e implementación de las
técnicas de visualización interactivas. Tiene en cuenta el modelo de datos, con el objetivo de que
los usuarios finales sean capaces de extraer el conocimiento con mayor valor para el negocio.
Las tareas y responsabilidades de este perfil son:
En primer lugar, comprender las necesidades y requerimientos de negocio así poder elegir las
técnicas de visualización más adecuadas.
Por ejemplo, si el objetivo de la organización es optimizar las campañas de marketing en una

geografía concreta visualizaciones como geolocalización de potenciales clientes a partir de una
segmentación previa pueden ser de gran ayuda.
Por otro lado, deberán Incorporar técnicas de visualización innovadoras para facilitar la
comprensión de los resultados y la explotación autónoma de los datos por parte de los usuarios
finales de negocio. Además, deben mantenerse a la vanguardia de las técnicas y tecnologías de
visualización de datos para poder asesorar y supervisar la suite de herramientas y componentes de
visualización integradas en la arquitectura Big Data.
En definitiva, son los responsables últimos de la presentación de datos, diseño de dashboards o

tableros interactivos, informes o reportes, todos ellos adaptados a las necesidades del negocio.
Las capacidades que se le atribuyen a priori a un data visualization expert son: conocimientos de
arquitecturas web, desarrollo de las API ( o “Interfaces de programación de aplicaciones”
conocimiento de Front, es decir, la parte de un software que recolecta los datos de los usuarios y
de Back, o, en otras palabras, la parte de software que procesa los datos recolectados. Además,
debe conocer bases de datos y herramientas comerciales de visualización así como tener cierta
sensibilidad en cuanto al diseño gráfico para la presentación de resultados.
Como conclusión de este vídeo cabe resaltar la importancia de ambos perfiles en la extracción
del valor de los datos, cada uno de ellos en su campo de actuación.
Por un lado, el Data Scientist se centra en la elaboración de los modelos analíticos óptimos para
cada caso de uso y, por otro, los data visualization expert hacen que los resultados sean
“legibles” de forma sencilla a los usuarios que necesiten tomar las decisiones en base a estos
datos.
56
1.2.8 Video: El Chief Data Officer y el Chief Analytics Officer
Además de los perfiles especializados en disciplinas Big Data encargados del desarrollo de
iniciativas, es fundamental la presencia de roles estratégicos en la organización que lideren la
estrategia desde un nivel directivo.
(Telefónica Data Unit), te presenta dos de estos perfiles, el Chief Data Officer y el Chief Analytics
Officer; identificando sus responsabilidades y el ámbito de su actuación.
En el siguiente vídeo vamos a presentar dos de los roles más estratégicos a la hora de llevar a cabo
un proceso de transformación digital en una compañía. Además de las personas especializadas en
disciplinas relacionadas con Big Data, encargadas del desarrollo de las diferentes iniciativas; es
fundamental que dentro de la organización se definan ciertos perfiles que lideren la estrategia
desde un nivel directivo.
El objetivo de este video es definir dos de estos perfiles. Por un lado, el Chief Data Officer y por otro
lado, el Chief Analytics Officer, así como, identificar sus responsabilidades y ámbitos de actuación.
En primer lugar, al Chief Data Officer, o CDO, responsable de los datos de la organización, se le
atribuyen funciones y responsabilidades orientadas a coordinar los criterios y metodologías para
definir los principios de gobernanza del dato, asegurando la calidad, trazabilidad y accesibilidad de
estos en la organización, como elemento clave en la extracción de valor de los mismos.
57
Esto sirve para identificar los casos de éxito internos o externos de la compañía, aplicable a todos
los negocios y áreas corporativas, asegurando la transferencia de mejores prácticas, así como
analizar las pruebas de concepto que se lleven a cabo en la compañía con el fin de potenciar los
aprendizajes derivados de éstas, tanto si finalizan con buenos o malos resultados.
Como ya sabéis, uno de los principales pilares dentro de los procesos de la transformación digital
de las empresas es orientar la organización hacia la toma de decisiones basadas en datos,
convirtiéndola así en una organización “Data-Driven”. En este contexto, es fundamental el papel de
CDO como responsable último de que el dato se perciba realmente como un activo valioso dentro
de la organización, posicionándolo en el centro de la estrategia corporativa o institucional.
También es el encargado de eliminar los silos de información que se suelen dar dentro de las
grandes compañías o instituciones, velando porque los datos estén disponibles siempre para todas
las áreas, cumpliendo los requisitos de gobierno y seguridad de acceso a los mismos.
La persona que ocupe este puesto dentro de la compañía debe ser un perfil con importantes dotes
de liderazgo y profundo conocimiento del negocio, así como de la información y conceptos con los
que trabajan las áreas de negocio.
A diferencia de lo que se puede llegar a pensar en un principio, no se trata de un rol técnico, sino
más bien todo lo contrario, se trata de un perfil con visión estratégica, capaz de identificar nuevas
oportunidades de negocio a través de iniciativas ligadas a la información de la que dispone la
compañía.
Por otro lado, el Chief Analytics Oficer, o CAO,responsable de analítica en la organización,es el

perfil encargado de generar valor estratégico a partir de los datos, a través de las iniciativas de
analítica que se lleven a cabo en la compañía.
Entre sus responsabilidades se encuentran liderar los diferentes casos de uso analítico que tengan
lugar en la organización, desde la priorización estratégica de los mismos hasta la gestión de los
equipos analíticos, siempre velando porque se cumplan las buenas prácticas metodológicas
definidas para este tipo de proyectos. Además, deberá orquestar y supervisar todas las iniciativas
analíticas que se lleven a cabo en los diferentes departamentos de la empresa, actuando como
coordinador e interlocutor entre las áreas de negocio y los equipos analíticos.
El perfil que cubra este rol dentro de la organización deberá contar, como ocurre con el caso del
CDO, con un profundo conocimiento del negocio, así como conocimientos de analítica de datos.
Por otro lado, deberá desarrollar cierto liderazgo y actuar como evangelizador en cuanto al valor de
los datos y las iniciativas de analítica avanzada en las áreas de negocio. Como conclusión es
importante que quede claro que tanto CDO como CAO son perfiles extremadamente estratégicos
dentro del proceso de transformación digital, cada uno de ellos en su propio ámbito, CDO como
líder de las iniciativas en torno al dato y CAO como responsable de las iniciativas analíticas que se
lleven a cabo en la compañía.
58
De todas formas, dependiendo de la casuística de la organización, es posible que las
responsabilidades de CAO recaigan en un único perfil: en tal caso, sería un CDO que aglutinaría la
totalidad del liderazgo y responsabilidades de la estrategia “Data-Driven”, incluyendo todas las
iniciativas relativas a los datos y a la analítica.
Espero que este video haya resultado esclarecedor en la definición e importancia de los perfiles
más estratégicos dentro de las compañías para poner en valor el dato dentro de las mismas.
Como hemos visto estos dos perfiles son los esenciales para darle valor al dato dentro de la
compañía: asegurar que existe acceso al mismo; y asegurar su uso de forma estratégica y
orientada a los objetivos de negocio.
59
1.2.9 Video: Metodologías y gobernanza del dato
En el siguiente vídeo, Paula Alamán, Industry Business Expert en LUCA Consulting & Analytics
(Telefónica Data Unit); realizará un barrido por las principales metodologías ágiles que suelen
utilizarse en el desarrollo de proyectos Big Data, así como por los principios de gobernanza del
dato que deben tenerse en cuenta para el éxito de los mismos.
Con este vídeo, te aproximarás a las metodologías de trabajo de las iniciativas analíticas en Big
Data y a los estándares de gobernanza del dato que deben cumplirse para que la información
con la que se desarrollan estas iniciativas se encuentre de forma óptima para su explotación.
¡Adelante!
En el siguiente vídeo se realizará un barrido por las principales metodologías ágiles que suelen
utilizarse en el desarrollo de proyectos Big Data, así como los principios de gobernanza del dato
que deben tenerse en cuenta para el éxito de los mismos.
El objetivo consiste en aproximarse tanto a las metodologías de trabajo de las iniciativas analíticas
en Big Data como a los estándares de gobernanza del dato que deben cumplirse para que la
información con la que se desarrollan estas iniciativas se encuentre de forma óptima para su
explotación.
En primer lugar, la gobernanza del dato en Big Data establece un marco de referencia, necesario
para la maximización del valor de la información disponible dentro de una organización, a través de
la definición de políticas, procedimientos y roles que faciliten la gestión efectiva del ciclo de vida del
dato.
Dicho gobierno debe estar alineado con las necesidades de cada organización, ya que la
morfología, tamaño y grado de madurez de la misma condicionarán mucho al diseño del marco
corporativo en el que se deberán apoyar las diferentes iniciativas de este ámbito.
Por ejemplo, en términos de roles y funciones, en empresas de menor tamaño se tiende a

concentrar las responsabilidades y funciones en un número de roles más reducido que en una
empresa de mayor tamaño, ya que ni la carga de trabajo relevante al despliegue de casos de uso ni
el volumen de fuentes de información serán los mismos.
En este sentido, en este vídeo daremos una visión general de todos los pilares que deben constituir
un marco de referencia de gobierno del dato, como son la estrategia, los roles, funciones y
responsabilidades que deben desplegarse para llevarla a cabo así como las herramientas o
artefactos que la articulan.
60
A continuación, se describen cada uno de los pilares comentados:
En primer lugar, es importante definir una estrategia para coordinar la misión, objetivos, principios y
políticas, que regirán las disciplinas tecnológicas que soportan el Gobierno Big Data a través de la
definición de estándares, reglas y prácticas de Gobernanza del Dato.
Principalmente, la Gobernanza del Dato se sustenta en 4 disciplinas:
Seguridad, Calidad del Dato, Metadatos y Ciclo de vida del dato; que explicaremos más adelante en
este mismo video.
Los roles, funciones y responsabilidades que se necesitan para implementar y ejecutar de forma
eficiente la estrategia de gobernanza del dato. Y las herramientas o artefactos que proveen el
soporte tecnológico necesario para el correcto desempeño de las tareas y la ejecución de los
procedimientos de la gobernanza del Dato.
Nos vamos a centrar ahora en la estrategia, que es el primer pilar del marco de referencia de
gobierno del dato que hemos mencionado. Es importante entender que la estrategia definida debe
ser soportada por las denominadas disciplinas tecnológicas de la Gobernanza Big Data, que son
procedimientos y métodos aplicados en todas las fases de un proyecto de big data. Estas
disciplinas tecnológicas son la seguridad de los datos, calidad de los mismos, los metadatos y el
ciclo de vida del dato.
61
A continuación, profundizaremos un poco más en cada una de estas disciplinas tecnológicas:
La seguridad es uno de los aspectos más importantes a tener en cuenta para el procesamiento de
la información, además de ser una de las deficiencias que tradicionalmente ha causado más
impacto en tecnologías Big Data.
Por ello, como disciplina, la seguridad se encarga de asegurar el acceso autorizado a la plataforma
Big Data y la información contenida en ella, previniendo accesos no autorizados. La calidad del dato
se define como el grado en el que un conjunto de datos cumple una serie de características que
son: completitud, validez, precisión, unicidad, disponibilidad y consistencia.
En la gobernanza del Big Data, la calidad del dato verifica la información de los datos a partir del
momento en el que se aprovisionan, o se ingesta en la plataforma, de modo que no se evalúa si la
información es válida en los sistemas de origen que la generan.
Así pues, los modelos de control que se deben definir en Big Data se aplicarán en dos momentos:
durante el proceso de ingesta y después de que los datos hayan sufrido alguna transformación una
vez dentro de la plataforma, para verificar que la información se encuentra con la calidad adecuada.
Una vez evaluada la calidad de estos datos se realizarán ciertos procedimientos dentro de la
plataforma con el fin de mejorar dicha calidad.
La administración de metadatos, como disciplina, es la encargada de dotar de contexto al dato, así

como de ayudar a conocer su significado. Permite mantener la coherencia de los datos utilizados
por diferentes grupos, optimizando los criterios de almacenamiento y facilitando su búsqueda.
Los metadatos son datos sobre los datos; por ejemplo: la descripción de un campo, cómo se ha
calculado, cuántos registros tiene una tabla o cuándo se ha cargado por última vez, qué formato se
puede encontrar al consultar una fecha, etc. Es decir, un metadato es cualquier tipo de información
que se disponga de un dato en concreto, por ejemplo su tamaño, la última fecha de modificación o
quién accedió por última vez a ese dato.
En consecuencia, cualquier framework de gobernanza Big Data debe incluir una gestión adecuada
de los metadatos con el objetivo de crear una plataforma de datos corporativa en la que el dato
pueda ser identificado y utilizado de forma rápida. Sólo de esta forma se podrán aprovechar las
ventajas de la información disponible en la organización.
El ciclo de vida del dato comprende el flujo end-to-end de la información albergada en la plataforma
Big Data. Se trata de un componente imprescindible de la gobernanza Big Data, ya que ayuda a
promover la agilidad del negocio definiendo, para cada fase, una serie de tareas enfocadas a
enfrentar los siguientes retos: desarrollar, validar y producir aplicaciones analíticas en el menor
tiempo posible; mantener el rendimiento de la plataforma conforme aumenta el volumen de datos;
proteger los datos sensibles de publicaciones accidentales o intencionales.
62
En definitiva, la gestión del ciclo de vida del dato comprende todos los flujos de trabajo como, por
ejemplo, la solicitud de una nueva ingesta para un caso de uso o la solicitud de acceso a datos por
parte de un analista, definiendo en detalle cada proceso o tarea, así como los roles involucrados en
los mismos.
Es importante que el marco de la gobernanza del dato dentro de la organización tenga unos
cimientos sólidos, ya que el desarrollo de proyectos Big Data suele llevarse a cabo a través de
metodologías ágiles, en las que intervienen equipos multidisciplinares, en general, en iteraciones
cortas; por lo que si las normativas en cuanto a cómo tratar o acceder a los datos no están bien
definidas se pueden encontrar importantes ineficiencias en la gestión de dichos proyectos así
como de las fuentes de información con las que se trabaja.
Para cerrar el vídeo, es importante quedarse con la idea de que para que los proyectos Big Data
tengan éxito al ser puestos en práctica dentro de la organización, ésta debe contar con un marco
de gobernanza del dato sólida, con el fin de que la información con la que se trabaja y la forma
en la que los diferentes participantes acceden a ella sean óptimas.
63
1.2.10 Video: Metodologías frecuentes en proyectos Big Data
En este vídeo, te adentrarás con Paula Alamán, Industry Business Expert en LUCA Consulting &
Analytics (Telefónica Data Unit), en el detalle de algunos de los tipos de metodologías ágiles más
usados a la hora de desarrollar proyectos Big Data. Con este vídeo entenderás en qué consisten
este tipo de metodologías y cuál es la dinámica de trabajo en cada una de ellas. ¡Entra y
descúbrelo!
Durante el próximo vídeo nos adentraremos en detalle en algunos de los tipos de metodologías
ágiles más usados a la hora de desarrollar proyectos Big Data.
El objetivo es entender en qué consisten este tipo de metodologías y cuál es la dinámica de trabajo
en cada una de ellas.
Las iniciativas de Big Data son complejas, tanto por el conjunto de actividades que se llevan a cabo
como por el nivel de incertidumbre de obtener resultados imposibles de prever antes del
desarrollo.
Las metodologías ágiles ayudan a limitar la incertidumbre inherente al análisis de datos, ya que
incluso la calidad de los datos puede determinar a medio camino la inviabilidad de un proyecto.
Por lo tanto, una planificación iterativa del análisis puede anticipar una situación adversa
permitiendo detener el desarrollo y cambiar el foco del proyecto.
Todas las metodologías englobadas dentro del concepto “agile” se caracterizan especialmente por
ser dinámicas y flexibles, cada una tiene además sus características especiales que las hacen más
apropiadas para un tipo de proyecto u otro, o incluso se pueden llegar a combinar, como ocurre con
las metodologías que explicaremos a continuación.
En este caso, vamos a definir con mayor profundidad dos de estas metodologías, las dos que
probablemente son más usadas dentro de los proyectos Big Data e incluso pueden llegar a
combinarse entre ambas: se trata de las metodologías Kanban y Scrum.
64
En primer lugar, la metodología Kanban, concepto japonés cuyo significado es “tarjetas visuales”, es
una técnica que consiste en un sistema de tarjetas que controlan qué tareas se están desarrollando
en cada momento o fase del proyecto.
Esta metodología fue creada por Toyota y es considerado un subsistema del JIT "Just In Time”,
sistema de organización de la producción de fábricas de origen japonés, precisamente conocido
como “método Toyota”.
Esta metodología es especialmente útil para visualizar de manera sencilla todo el proceso de
trabajo del proyecto.
Para ello se debe investigar cuáles son los flujos de trabajo, desde el diseño del caso de uso, es
decir, el diseño de interacción del sistema con el usuario, hasta su puesta en producción.
Una vez analizados los flujos, se deben visualizar en el tablero Kanban. El flujo más básico que se
suele plantear es el clásico “To do – doing – done”, en español “Pendiente-En marcha-Finalizado”,
aunque para cada proyecto se definirán los flujos más adecuados en función de su tipología.
Adicionalmente, se definirán políticas para pasar de un estado a otro, es decir, qué necesitamos
para considerar que una tarea está realizada correctamente y pasa al tablero como finalizada.
Igualmente hay que definir quién será el responsable encargado de validar que dicha tarea se ha
culminado con éxito.
65
Es importante tener en cuenta que para reducir los tiempos de espera y el plazo de entregas se
debe limitar el trabajo en progreso o WIP (work in progress), es decir, las personas que están
trabajando en esa etapa concreta del flujo. Además, hay que evitar caer en el error de usar esta
metodología como herramienta de gestión de personas, ya que está pensada única y
exclusivamente para gestionar el flujo de trabajo. Serán las personas que participen en el proyecto
las que se organicen para que el trabajo fluya.
En segundo lugar, tenemos la metodología Scrum que surgió como un modelo para el desarrollo de
productos tecnológicos.
Es una metodología utilizada en entornos que requieren flexibilidad y rapidez. Esta metodología se
caracteriza por dividir la implementación del producto en ciclos cortos iterativos o Sprints, en los
cuales se va incluyendo funcionalidades hasta alcanzar la totalidad de las especificaciones
marcadas en el inicio, es decir, el proyecto se “trocea o divide” en pequeñas partes que tienen que
completarse y entregarse en pocas semanas hasta completar el proceso general.
La base de esta metodología son por lo tanto los Sprints, también llamados iteraciones o ciclos que
se repiten, que transforman la cascada de trabajo convencional con un único principio y fin en un
ciclo de vida repetitivo, que llamamos en cascada continua o incremental.
Esta metodología está enfocada en equipos multidisciplinares que trabajan con un objetivo común.
El objetivo de este sistema de trabajo es conseguir prototipos rápidos a través de los cuales validar
el enfoque del proyecto, teniendo margen de maniobra para realizar modificaciones sin poner en
riesgo el resultado final del mismo y permitiendo mayor adaptación.
66
En esta línea, este tipo de metodología facilita feedbacks rápidos y da lugar a un mayor espectro de
innovación. También suelen mejorarse los tiempos de producción, ya que habiéndose validado los
prototipos reiteradas veces el producto final no suele incluir errores. Dentro de la metodología
Scrum, es importante definir los diferentes roles que intervienen en el flujo de trabajo.
Por un lado, el Product Owner o dueño del proyecto, es una persona con visión muy clara del
producto final que se debe desarrollar y es capaz de transmitir esa visión al equipo de desarrollo.
Esta persona es la responsable en definir los objetivos del producto o proyecto y representa a
todos los interlocutores interesados en los resultados. En definitiva, es el encargado último de
incluir los requerimientos del proyecto para que el resultado final se adecue a los mismos.
Para conseguir todo esto el Product Owner debe tener claridad de la visión de qué se quiere
conseguir como producto final, alineación con la estrategia de la organización, comprensión del
proceso de desarrollo y la capacidad de comunicarse con una amplia variedad de partes
interesadas en todos los niveles, tanto dentro como fuera de la organización.
Por su lado, el Scrum Master o facilitador, es la persona experta en Scrum que se encarga de
orientar al equipo y al Product Owner. Los Scrum Masters están a servicio del equipo y son los
encargados de quitar obstáculos, facilitar la comunicación del equipo, mediar las discusiones dentro
del equipo y negociar con personas externas al equipo.
Vela por los valores y principios ágiles y colabora para eliminar impedimentos que el equipo puede
encontrar de cara a conseguir el objetivo de cada iteración y así poder finalizar el proyecto con
67
éxito. También dirige al equipo y colabora con el mismo para planificar cada iteración con el fin de
conseguir dichos resultados y maximizar la productividad.
Por último, el equipo es el encargado de llevar a cabo cada una de las tareas definidas en el Sprint.
El tamaño óptimo de un equipo ágil está definido entre 3 y 9 personas, que es el tamaño óptimo
para disponer de los perfiles necesarios para cada proyecto y permite fluidez de comunicación y
colaboración entre todos los miembros.
Es importante que la participación de todos los perfiles involucrados en este tipo de proyectos sea
activa para conseguir la máxima productividad y eficacia, así como un trabajo con la mayor calidad
posible.
En estos equipos ágiles se busca la colaboración, entendimiento y apoyo entre sus miembros, de
forma que es el equipo en su conjunto el responsable del resultado último. Además, al tratarse de
equipos auto-organizados, es decir, equipos en los que los integrantes de los mismos tienen
independencia para planificar sus tareas, administrar los recursos y repartir las responsabilidades,
es fundamental que fluya la comunicación a través de perfiles que se complementen y que sean
flexibles.
Como conclusión del vídeo es importante que se reflexione sobre los beneficios de este tipo de
metodologías para las organizaciones:
En primer lugar; facilitan la flexibilidad, el trabajo colaborativo en equipos multidisciplinares y la

simplificación de proyectos complejos en tareas más sencillas; lo que es fundamental para
proyectos Big Data.
68
Pero es importante también que se tenga en cuenta que deben definirse unas políticas de trabajo
con el fin de que el flujo de trabajo fluya de forma natural y se facilite la autogestión de los equipos,
algo que no es siempre fácil en organizaciones funcionales o muy verticales.
Como hemos visto tanto la metodología Kanban, basada en la organización de las tareas en el
flujo de trabajo, como la Scrum, que apoya a la organización de los diferentes actores del flujo
de trabajo en los ciclos cortos e iterativos de revisión de prototipos, ayudan a las
organizaciones a manejar proyectos de Big Data de una forma más organizada, ágil, productiva y
eficaz.
69
1.2.11 Video: Cultura Data Driven
(Telefónica Data Unit); aborda uno de los pilares más importantes dentro de la transformación
digital de las compañías o de instituciones públicas y, también, uno de sus mayores retos: el
cambio cultural hacia una cultura Data Driven (o cultura basada en datos).
Con este vídeo, entenderás cuáles son los fundamentos de la cultura Data Driven y de qué forma
impacta en la forma de trabajar o tomar decisiones dentro de una compañía. ¡Veamos!
En el siguiente vídeo abordaremos uno de los pilares más importantes dentro de la transformación
digital de las compañías o de instituciones públicas, es decir, el cambio cultural hacia una cultura
Data Driven (o cultura basada en datos).
Como veremos a continuación, en este tipo de proyectos de transformación, cambio cultural suele
presentarse como uno de los grandes retos dentro de la organización, ya que las personas tienden
a mostrarse reticentes a cambiar su forma de trabajar.
El objetivo de este vídeo es entender cuáles son los fundamentos de la cultura Data Driven y de
qué forma impacta en la forma de trabajar o tomar decisiones dentro de una compañía.
Históricamente, la toma de decisiones en las organizaciones referentes a gestión de proyectos, el

propio negocio, las áreas o definición de nuevos productos; se ha apoyado principalmente en la
experiencia, delegándose en perfiles con dilatada trayectoria profesional y basándose en su
intuición o recorrido personal.
Sin embargo, cuando incorporamos tecnología Big Data en una organización, el escenario cambia.
En este caso, la clave para la toma de decisiones son los datos, es decir la evidencia empírica,
posicionándolos en el centro de la estrategia de negocio de la organización y desplegando todo el
potencial de los mismos a través de análisis muy elaborados.
70
Este cambio de paradigma es el más importante a la hora de transformar una compañía tradicional
en una compañía basada en datos o “Data Driven”.
Como hemos comentado anteriormente, en la mayoría de las ocasiones; los perfiles directivos no
lideran esta transformación dentro de la organización y suelen mostrarse reacios al cambio,
teniendo una percepción de pérdida de valor de su experiencia en cuanto a la toma de decisiones
importantes. Sin embargo, nada más lejos de la realidad.
Como explicaremos a continuación, es fundamental que los casos de uso Big Data que se realicen
en la compañía, a partir de los cuales se tomarán las decisiones posteriormente, estén
perfectamente alineados con el negocio. Para ello, es fundamental la incorporación del
conocimiento y de la experiencia de los perfiles con mayor trayectoria profesional.
En primer lugar, es necesario que los directivos de la compañía o las personas que toman las
decisiones entre las mismas abanderen el cambio cultural para que posteriormente difundan esta
filosofía al resto de la organización.
Sin embargo, también es importante entender de qué forma deben trabajar o qué aspectos se
deben fomentar en el día a día de los equipos, con el fin de culminar dicha transformación.
Por un lado, es imprescindible que se tome consciencia de la importancia de la recopilación de

datos, cualquier dato relacionado con los diferentes procesos de la organización o del negocio
puede tener un altísimo potencial en futuros casos de uso.
La recopilación y análisis de datos debe responder por supuesto a preguntas estratégicas de

negocio de la organización. Por otro lado, es relevante fomentar el uso de herramientas que
faciliten análisis avanzado de toda la información de la que disponga la compañía.
71
Por último, también se requiere el desarrollo y explotación de visualizaciones que faciliten la lectura
de los resultados de los modelos analíticos, todo ello con el fin de virar hacia una toma de
decisiones más informada, o como hemos dicho antes, basada en datos.
72
Otro aspecto fundamental, una vez la compañía o institución ha interiorizado la importancia que
tienen los datos dentro de la estrategia de la misma, es definir el plan de iniciativas Big Data o
“Roadmap de casos de uso”, en otras palabras, definir un camino o mapa a seguir que indique en
qué casos, situaciones, sectores, etc., dentro de la organización se va a aplicar Big Data.
Este roadmap no es más que los diferentes proyectos dentro de la organización en los que se
aplicará Big Data, todos ordenados en el tiempo según unos criterios de priorización, como pueden
ser impacto dentro del negocio, retorno, complejidad, entre otros.
Estos criterios se definirán según las necesidades de cada organización. Con el fin de elaborar este
plan (que deberá ser compartido con toda la organización, ya que no se trata de proyectos aislados
en cada una de las áreas si no todo lo contrario), se deben evaluar los objetivos estratégicos de la
compañía, así como las necesidades de cada una de las áreas; con el fin de identificar los
principales casos de uso Big Data a llevar a cabo en un corto / mediano plazo.
Una vez claros los objetivos, se definirán los potenciales casos de uso, realizando un diseño a alto
nivel, teniendo en cuenta, por ejemplo, las fuentes de datos necesarias , modelos analíticos,
tecnología o forma de explotación, con el fin de realizar posteriormente la priorización de los
mismos.
Este ejercicio de priorización es un punto de inflexión dentro del proceso de transformación digital
y de la adopción de la cultura Data Driven en la compañía.
73
Además, sirve como estrategia para el desarrollo de las diferentes iniciativas Big Data en la
organización, ya que permite planificar tanto el despliegue como la evolución de la arquitectura Big
Data en la compañía, así como la estrategia de aprovisionamiento de datos, que estará
directamente relacionada con las necesidades del despliegue de los diferentes casos de uso.
Como conclusión, debemos tener en cuenta que el cambio cultural dentro de una empresa no es
una tarea fácil, pero es imprescindible para que ésta evolucione hacia una compañía con una
cultura Data Driven. Para ello, es imprescindible que todos los miembros de la organización sean
conscientes de la importancia de la información dentro de la estrategia de la misma y se fomente
el trabajo con datos a través de la priorización de casos de uso Big Data.
74
1.2.12 Video: Entrevista: Promover la cultura Data Driven y
cómo priorizar casos de uso
¿Es necesario establecer un orden en la implementación de iniciativas Big Data? ¿Cómo
priorizamos los casos de uso en una organización?
En este vídeo, entenderás cómo es el proceso de priorización de casos de uso y cuáles son sus
aspectos fundamentales. ¡Descúbrelos!
Hola a todos.
Hoy entrevistamos a Paula Alamán que nos va a hablar de la importancia de priorizar los casos de
uso en las organizaciones
Paula, ¿por qué es importante priorizar los casos de uso?
Al final los recursos que tienen las organizaciones son limitados, importante tener un orden de
despliegue de esos casos de uso en función del impacto que vaya a tener dentro de la
organización. No podemos desplegar todos los casos de uso que nos gustaría a la vez porque
probablemente ni tenemos los recursos humanos ni tenemos la potencia tecnológica como para
poder realizarlo, por lo tanto, es fundamental realizar esa priorización previa al despliegue de los
casos de uso.
¿Y cómo es el proceso de priorización, Paula? ¿Dónde empieza? ¿Dónde termina?
Como comentábamos, Jesús, es importante que todas las áreas de la organización hagan una
reflexión interna sobre qué casos de uso sería interesante que pudieran realizar y luego ponerlos
en común con el resto de las áreas para evaluar impactos, tanto a nivel interno como externo y
también analizar si son viables o no, técnicamente si se dispone de esos datos dentro de la
organización para poder después llegar a un consenso de ese roadmap que se va a ir desplegando
a posteriori.
Y ahora que hemos visto el proceso, ¿puedes contarnos cuáles son los criterios más relevantes a
la hora de realizar la priorización de los casos de uso?
Sí, como hemos comentado, es fundamental de qué datos dispone la organización y con qué datos
se tendría que hacer de forma externa, es decir, no solo nos tenemos que centrar en qué datos
tengo internamente sino que también tenemos que saber qué capacidades hay en el exterior en
cuanto a disponibilizar otro tipo de datos. Tenemos que analizar también cuáles son las
necesidades tecnológicas para el despliegue de esos casos de uso, en la mayoría de esos casos lo
que hacemos es empezar por casos de uso más factibles conforme la organización vaya cogiendo
tracción en este tipo de tecnologías se van desarrollando casos de uso más complejos y también es
fundamental, como comentábamos, analizar qué impacto van a tener esos casos en la organización.
75
La mayoría de los casos lo que se hace es priorizar en primer lugar casos de uso factibles con un
amplio impacto, ya sea a nivel de optimización de procesos, de generación de nuevos ingresos o
que cumplan con algunos de los objetivos que se está planteando la organización a nivel compañía
en ese momento y luego ir atacando a casos de uso que sean más complejos, que tengan unas
necesidades tecnológicas diferentes y que, por lo que sea, no tengan, quizás, tanto impacto a nivel
corto o medio plazo pero que sí que puedan tener más impacto a largo plazo.
Pues muchas gracias Paula por responder a nuestras preguntas y continuamos adelante con el
curso.
76
1.2.13 Video: Transformación de los modelos de negocio
¿Cómo impacta Big Data en el negocio dentro de un proceso de transformación digital?
La adopción de Big Data en una compañía no sólo transforma la manera de trabajar y la
organización de la misma, sino que además puede llegar a transformar el propio modelo de
negocio de la empresa o institución.
¡No te pierdas el siguiente video para saber más!
En el siguiente vídeo veremos cómo la adopción de Big Data en una compañía no sólo transforma la
manera de trabajar y la organización de la misma, sino que además puede llegar a transformar el
propio modelo de negocio de la empresa o institución.
El objetivo es entender cómo impacta Big Data en el negocio dentro de un proceso de

transformación digital. Como ya sabemos, nos encontramos en un entorno en que las tecnologías
están en continua evolución y en consecuencia tanto las organizaciones que las están adoptando
como la propia sociedad también se encuentran en un proceso de transformación disruptivo.
La conectividad se ha convertido en parte de nuestro día a día, tanto en el ámbito personal como en
el profesional, todos los procesos industriales y empresariales cada vez están más digitalizados.
Todo ello hace que la generación de nuevas fuentes de datos esté en constante crecimiento.
De alguna manera, prácticamente la totalidad de nuestras acciones están generando información,

ya sea a través de nuestros dispositivos móviles como a través de los productos cotidianos, esta
información es muy valiosa para las compañías que quieren conocernos como clientes o
77
potenciales clientes o para que las instituciones públicas generen mejores políticas y den un mejor
servicio al ciudadano.
También, la forma en la que interactuamos con nuestro entorno ha cambiado, lo inmediato se da

por supuesto y esto sólo ha sido posible a través de las nuevas tecnologías que tenemos a golpe
de “click” en la palma de la mano, dando lugar a un cliente mucho más exigente en cuanto a
servicio y experiencia.
Todos estos aspectos han generado que las organizaciones tengan que cambiar de forma
considerable muchos de sus procesos, así como su estrategia de marketing o de interacción con
los clientes o ciudadanos.
En el sector privado una de las grandes preocupaciones de las compañías es conocer en

profundidad a su cliente para poder ofrecerle un producto o servicio que responda a sus
expectativas.
Para ello, deben repensar su estrategia digital, de manera que todas las áreas o departamentos de
la organización se sumen al cambio; un cambio que viene dado por la incorporación de nuevas
tecnologías que faciliten la reinvención de los procesos que se llevan a cabo en las compañías, en
este caso incorporar Big Data no sólo nos permite optimizar muchos de los procesos internos sino
que además nos permite analizar grandes volúmenes de información y nuevas fuentes de datos con
el fin de conocer mejor a nuestro cliente, así como el desempeño de nuestro negocio con el fin de
optimizar el proceso de diseño de sus productos y servicios e incluso evaluar con anterioridad si
tendrá éxito o no en el mercado.
78
Por último, gracias al uso de estas tecnologías también crece la posibilidad de identificación y
generación de nuevos productos y servicios, de cara a satisfacer a un consumidor en constante
cambio y, como hemos comentado, cada vez más exigente.
En el sector público ocurre lo mismo. Muchos países están lanzando agendas o estrategias
digitales, donde el Big data es clave para el proceso de toma de decisiones. Big Data puede ser
una gran oportunidad para transformar las maneras de gobernar y ayudar a mejorar el diseño, el
monitoreo y la evaluación de las políticas públicas.
Por lo tanto, la implementación de Big Data es una de las palancas más relevantes dentro de los
procesos de transformación digital, ya que incorpora nuevas tecnologías en la organización, pero
sobre todo nuevas lógicas para que el negocio sea más eficiente y esto pueda traducirse en nuevas
oportunidades. Como ya sabemos, el cambio cultural hacia organizaciones Data Driven, viene dado
por la fundamentación de toma de decisiones a partir de datos; esta “toma de decisiones
informada” genera importantes beneficios a la organización,
como la identificación y generación de nuevas experiencias al cliente, nuevas fuentes de ingresos

derivadas de nuevos productos o servicios y mejora de la eficiencia operativa, es decir, la
capacidad de respuesta rápida ante los cambios en el mercado, impulso de la innovación dentro de
la organización, mejora de la colaboración interna, entre otras.
Esta transformación digital hacia organizaciones Data Driven se está produciendo en todos los
sectores de actividad. No hay ninguno de los sectores económicos principales en los que los
grandes actores no tengan ya en sus roadmaps o guías internas de desarrollo de iniciativas de Big
Data.
79
Aquellos en los que la adopción de la tecnología Big Data al día de hoy es mayor son el sector
bancario, las telecomunicaciones y la industria. También en el sector público y transportes están
empezando a realizar proyectos de este tipo.
En todos los casos, los objetivos que se persiguen se pueden resumir en tres grandes bloques:
aumentar los ingresos o tener una gestión más eficiente de los recursos, mejorar la eficiencia
operativa de los servicios o reducir los riesgos.
Así, por poner algunos ejemplos, podemos mencionar casos de propensión a la compra de
productos, identificación de clientes de alto valor, planificación de rutas, prevención del fraude
fiscal, segmentación de clientes en base a comportamientos en lugar de a datos
sociodemográficos, planeamiento urbanístico en base a los movimientos de los ciudadanos y así,
hasta completar una lista cada vez más extensa de potenciales aplicaciones de la explotación
masiva de datos.
Y en todo este contexto es totalmente necesario hablar de algunos ejemplos de empresas que son
nativas en el uso de estas tecnologías. Es decir, empresas que no han necesitado atravesar un
proceso de transformación digital porque ya han nacido como tales. Compañías como Facebook,
Google, Twitter, Fitbit son empresas cuyo verdadero negocio es la explotación de los datos y, para
ello, están orientadas a la recopilación de la máxima cantidad de datos posibles.
80
Así, Facebook conoce prácticamente todos nuestros gustos, nuestras amistades y nuestros hábitos
de comunicación. Google sabe perfectamente qué recorrido hacemos cada día de camino o vuelta
del trabajo; Fitbit conoce nuestro nivel de actividad física y cuánto tiempo pasamos sentados frente
al ordenador; Linkedin recopila todos nuestros datos profesionales y los datos de todas las ofertas
de trabajo de grandes compañías a nivel mundial y aquí, de nuevo, podríamos seguir dando
ejemplos de muchas otras compañías (Apple, Twitter, Spotify, etc.).
Y dentro de esta misma línea, podemos destacar algunas compañías que, gracias a su concepción
Data-Driven han logrado disrumpir en sus respectivos sectores de actividad.
Uno de los ejemplos más conocidos es el de Airbnb. Una empresa que no posee ni una sola plaza
de alojamiento pero que se ha convertido en el mayor gestor de alojamientos del mundo.
En el mismo sentido, pero en el sector del transporte, encontramos a Uber, que tampoco posee un
sólo vehículo pero que es la aplicación de transportes más conocida a nivel mundial y que está
amenazando seriamente a servicios tradicionales como el taxi.
En otros sectores de actividad encontramos a Netflix que ha sabido reinventarse desde su

concepción original, en la que enviaba películas por correo, a convertirse en uno de los mayores
proveedores de contenido online y que ha producido series de éxito mundial, basadas en los
gustos de sus clientes.
Por último, podemos hablar de Amazon, una compañía que comenzó vendiendo libros
descatalogados y que, gracias al análisis de datos, hoy es uno de los marketplaces o portales de
venta más grandes del mundo y, en consecuencia, una de las compañías más valiosas en bolsa.
81
Un dato que nos puede ayudar a reforzar el poder de la digitalización es la comparación del ratio de
empleados por clientes en distintas compañías. Uno de los casos más extremos es el de Whatsapp
que tiene más de 17 millones de usuarios por cada empleado.
Estas cifras son absolutamente imposibles de reproducir en empresas tradicionales y sobre todo,
en cuanto a la velocidad de su consecuencia. Así, mientras algunas compañías tardaron décadas en
lograr cifras de 100 millones de usuarios, servicios 100% digitales como Pokemon Go lo lograron en
menos de 30 días.
En el sector público el uso del Big Data también está comenzando a dar buenos resultados. Por
ejemplo, en Rosario, Argentina, el gobierno encargó la introducción de GPS a bicicletas públicas y
privadas y gracias al análisis de sus desplazamientos, y datos de accidentes se determinó dónde se
requería construir o mejorar la infraestructura de ciclovías, disminuyendo los accidentes y
mejorando la seguridad vial.
En Colombia, el sistema Agricultura Específica por Sitio o AEPS, permitió determinar las condiciones
favorables y desfavorables para las plantaciones dependiendo de su etapa de crecimiento a través
de técnicas de análisis de Machine Learning (ML) y utilizando datos de cosechas comerciales y
clima.
Con esta información, se aconsejó a los agricultores las fechas óptimas de siembra y cosecha
dependiendo del tipo de plantación, mejorando los ingresos y compensando el conocimiento ya
obsoleto debido a la variación del clima.
Por supuesto en este punto debemos hablar brevemente de cómo tanto las empresas como el
sector público deben tener en cuenta los aspectos éticos ligados a los datos. En la actualidad
surge la necesidad de la aplicación de normas éticas en la recolección, gestión y uso que hacen las
organizaciones de los datos.
Como está ocurriendo en la actualidad las compañías y los gobiernos deben establecer
mecanismos que incorporen pautas éticas y de privacidad de los datos.
En conclusión, hemos visto en este video el potencial que la digitalización ofrece a los nuevos
negocios y a las organizaciones tanto públicas como privadas así como la necesidad absoluta de
que las mismas adopten los nuevos paradigmas si quieren sobrevivir en esta nueva era digital.
82
1.2.14 Video: Entrevista: transformación de los modelos de
negocio
El Big Data está transformando la manera de trabajar de las personas, pero, ¿sabías que también
puede llegar a transformar el modelo de negocio de una organización?
Mira este video y aprende más sobre esta interesante temática.
Hola a todos, hoy entrevistamos a Álvaro Capell que nos va a hablar del papel de Big Data en la
transformación de los modelos de negocio. Álvaro, vivimos en un ambiente de continua disrupción
tecnológica en el que aparecen constantemente nuevas tecnologías.
¿Puedes contarnos un poco cuál es la postura que están tomando las organizaciones en este
ambiente de disrupción y qué papel juega Big Data en todo este ambiente?
Pues en definitiva es un papel de tremenda complejidad. Las organizaciones están pasando de una
forma de trabajar basada en toma de decisiones en base a hechos pasados, en base al análisis del
comportamiento en pasado a una situación en la que tanto los consumidores como los ciudadanos
demandan una mayor personalización de los servicios y demandan, pues, una mayor calidad de los
mismos, entonces ese modo de funcionamiento como se ha venido haciendo hasta ahora ya no es
válido y es necesario que las organizaciones hagan un giro hacia una toma de decisiones más
predictiva, ¿no?
Y en ese sentido, pues, también existe una serie de limitaciones desde un punto de vista
tecnológico, las herramientas que existían hasta ahora no permiten este cambio y pues, eso genera
una gran tensión en las organizaciones, y es un cambio tanto tecnológico como desde un punto de
vista de cultura en las organizaciones bastante complejo.
El papel que está tomando Big Data en todo ello será el catalizador de este cambio, está
habilitando que esas decisiones se puedan tomar de forma más predictiva, está habilitando que se
puedan personalizar los servicios o se puedan optimizar los servicios de forma que el coste para los
ciudadanos, por ejemplo, no aumente pero la calidad de los servicios sí. Con lo cual podríamos
decir que el papel de Big Data en toda esta transformación está siendo pues fundamental, ¿no?
Pero antes ya se hacía analítica de datos, ¿no? ¿Qué diferencia hay entre la analítica de datos
que se hacía antes y la que se hace con Big Data?
Efectivamente, las técnica de análisis de datos son bastante antiguas se ha venido haciendo análisis
de datos desde mucho tiempo atrás y bueno, siempre se ha pretendido pues explotar la
información que generan las compañías.
Lo que cambia es, precisamente, el enfoque, antes lo que se intentaba era explicar cuál había sido
el comportamiento a pasado de las distintas decisiones o de los distintos planes adoptados por las
83
compañías o las organizaciones y ahora lo que se pretende pues es dar un paso más en esa
predicción.
Adicionalmente además, lo que está cambiando es que el número de fuentes de datos y el volumen
de los datos generados entre las organizaciones está creciendo exponencialmente. De forma que
todas las personas, pues, llevan encima un smartphone existen multitud de equipos sensorizados
que están generando logs de su funcionamiento en todo momento y desde un punto de vista de la
navegación de una persona por, por ejemplo, la web se genera una gran cantidad de información,
entonces al final lo que ocurre es que existe un volumen de información brutal que no se puede
explotar de la forma estructurada o con las tecnologías de bases de datos estructuradas que
existían anteriormente, ¿no? y estas nuevas tecnologías Big Data lo que permiten es, precisamente,
poder explotar o atacar un volumen de datos mucho mayor y poder precisamente extraer valor, no
tanto ya explicando el comportamiento pasado sino siendo capaces de hacer predicciones.
En definitiva, ¿qué valor aporta Big Data a las organizaciones?
Bueno, el valor sobre todo de ser capaz de eficienciar los procesos. El valor de ser capaces de
predecir o evitar el fraude, por ejemplo, en determinados tipos de casuística y, sobre todo, el valor
de ser capaz de personalizar mucho más al consumidor o al ciudadano los servicios o los productos
que se puedan generar.
En ese sentido, el ser capaces de recopilar toda esta información y ser capaces un poco de
procesarla para elaborar estas predicciones lo que ayuda es precisamente dentro de estos tres
principales ejes, ¿no?, que además son tres ejes en los cuales se suelen enmarcar este tipo de
iniciativas que son, efectivamente, la generación de nuevos servicios o mejora la eficiencia
operativa en servicios existentes o el tema de predicción del frauda o prevención del fraude en
cualquier tipo, pues, de aplicación, en este caso pues, evidentemente, dependiendo del sector del
que hablemos pues, unos tipos de casos de uso van a tener mayor peso que los otros en
administraciones públicas, por ejemplo, la prevención del fraude es un tema que puede tener un
impacto mucho mayor que por ejemplo en otros sectores donde ese fraude sea más reducido, ¿no?
desde el punto de vista de la personalización de los servicios al cliente pues una compañía de retail
o de marketing pues puede tener un peso mucho mayor ese tipo de casos de uso que, por ejemplo,
la prevención del fraude o del mismo modo que en el sector industrial, por ejemplo, el caso de uso
preponderante va a ser la mejora de la eficiencia operativa, ¿no?
Pero bueno, siempre entorno a esos tres ejes en todos los sectores existe la manera de generar
valor a través de Big Data mediante casos de uso. Pues muchas gracias Álvaro por respondernos a
las preguntas y continuamos con el curso.
84
1.2.15 Video: Principales lecciones de la segunda parte del
Módulo 1
Has llegado al final del primer módulo del curso, ¡felicitaciones!
A lo largo del módulo, hemos visto las definiciones y conceptos fundamentales cuando hablamos
de Big Data y los principales retos que deben abordarse al impulsar iniciativas Big Data.
Mira este breve vídeo, en el que resumimos los contenidos del módulo y continúa aprendiendo
sobre los aspectos fundamentales en el desarrollo de iniciativas Big Data.
Como hemos podido ver a lo largo de este módulo se han tratado los principales retos a los que se
enfrentan las organizaciones a la hora de embarcarse en un proceso de transformación digital.
En el vídeo que sigue a continuación repasaremos cuáles son estos retos y haremos un breve
resumen de los puntos más importantes a destacar en cada uno de ellos.
En primer lugar, las empresas se enfrentan a un cambio de paradigma en cuanto a arquitecturas

tecnológicas, incorporando nuevos sistemas de procesamiento de datos distribuidos. Es importante
que las compañías evalúen todos los aspectos a tener en cuenta en el diseño y dimensionamiento
de este tipo de plataformas, como son el volumen y tipo de datos, requisitos de seguridad y
gobierno entre otros, y que tengan en cuenta el amplio abanico de herramientas en constante
cambio.
También debe quedar clara la diferencia entre Business Intelligence, que responde a cuestiones
descriptivas de eventos pasados, y la analítica avanzada, que abarca además análisis predictivo.
Todo ello sin olvidar la importancia de la incorporación de nuevos perfiles que sean capaces de
llevar a cabo y liderar este tipo de iniciativas, así como aplicar las normativas de gestión de datos y
metodologías ágiles en el desarrollo de las mismas.
Por último, para que este tipo de proyectos tenga éxito es fundamental que se predique
internamente la Cultura Data Driven, de forma que el dato se convierta en un activo estratégico
reconocido por toda la organización y así sean capaces de transformar sus modelos de negocio,
como ya han hecho las compañías que hemos visto en el último apartado del módulo.
Con este vídeo concluimos el módulo que nos ocupa y seguimos con otros aspectos relacionados
con la implementación de proyectos Big Data en las compañías.
85

Big Data Sin Misterios - Modulo 1

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Big Data Sin Misterios - Modulo 1

Cargado por

Copyright:

Formatos disponibles

Apunte del Curso

Big Data Sin Misterio

Palombo Carlos Pascual

Al final de este módulo serás capaz de:

A. Identificar las características de Big Data, su evolución, adopción e impactos en las

C. Identificar las características de Big Data, su evolución, adopción e impactos en las

Esto se va a cumplir a través de:

¡Un concurso! No te lo pierdas en la actividad "1.2.16 Concurso: Comparte y vota noticias de

La evaluación de este módulo se realizará a través de:

Estos hábitos plantean un nuevo reto de almacenamiento, procesamiento y tratamiento de datos;

En el Diccionario de Oxford, por el contrario, se define como conjuntos de datos extremadamente

Estamos hablando de enormes cantidades de información y ese es el motivo porque estamos

Por ejemplo, el cálculo en la probabilidad de fraude de un potencial cliente. Si estimamos la

En el ámbito del sector público, el cálculo de la probabilidad de fraude es también aplicable en la

El objetivo de esta lectura es entender la relevancia de Big Data en el ámbito

Esta revolución industrial ha sido propiciada en primer lugar por la aparición de

Es decir, a raíz del desarrollo de las nuevas tecnologías, se ha conseguido generar

Cambio en el consumo y en el proceso de fabricación

Como hemos visto, el cambio tecnológico ha propiciado un cambio en el consumo, lo

Desde el punto de vista de la industria, el cambio no solo consiste en la eterna

Por ejemplo, hasta ahora, si se presentaba algún problema en pleno proceso de

En la nueva industria 4.0, la conectividad mejora la eficiencia de los procesos.

Sin embargo, estos cambios suponen también cambios significativos en el mercado

La otra cara de la moneda es que surgen nuevos perfiles profesionales impensables

Seguro que en un futuro no tan lejano hablaremos de abogados especializados en

Estos proyectos están proporcionando buenos resultados en empresas e instituciones de múltiples

El sector industrial, energético y de servicios públicos históricamente han sido tremendamente

En 25 años, el coste ha pasado de 600 euros a 3 céntimos, reduciéndose 20.000 veces.

En las diferentes gráficas pueden observar la evolución del coste de procesamiento y se ve

¿Qué acciones se deben tomar para conseguir esos objetivos?

En concreto, en este vídeo, se indican los aspectos de velocidad, variedad y volumen;

Datos ofrecidos por otras organizaciones; como meteorología, demográficos y macroeconómicos

¿Qué caracteriza un "problema Big Data"?

Y este concepto es la “veracidad”. Si la información que tratamos no es veraz, cualquier conclusión

Y para medirlo, se pueden utilizar parámetros como la mejora de la eficiencia operativa, la

Es ahí donde está la “V” de valor.

Optimizar y reducir los costes operativos aumentando la eficiencia.

Ofrecer servicios más personalizados.

Predecir potenciales averías en instalaciones o máquinas.

¿Qué es Big Data?

Definiéndolo como grandes cantidades de información empleando tecnologías novedosas de

Volumen: porque estamos hablando de conjuntos de datos extremadamente grandes.

Velocidad: porque estamos hablando de información a tiempo real.

Todo el mundo está conectado permantemente generando información y contenido.

Es un poco como conclusión de las cinco "V".

1.2.1 Texto en pantalla: Retos introducidos por el Big Data

Te los detallamos a continuación.

Para la implementación de estas arquitecturas, podrás encontrar un amplio abanico de herramientas

Esta diversidad de oferta puede clasificarse según la funcionalidad o aplicación de la herramienta.

De analítica: donde se incluyen diferentes opciones de plataformas y herramientas que facilitan el

De este modo, será necesario preguntarse

¿Para qué finalidad voy a necesitar una arquitectura Big Data?

¿Qué volumen de información voy a manejar?

¿Con qué tipo de datos voy a trabajar? ​¿Estructurados, semi-estructurados o no estructurados?

¿Qué tipo de datos voy a tratar? ​Numéricos, personales…

¿Durante cuánto tiempo voy a necesitar la información? ​¿Necesito la información al momento, a

Toda esta información se almacena, posteriormente, en el ​data warehouse o ​repositorio de datos.

● Se focaliza, principalmente, en analizar informes de resultados, indicadores de rendimiento y

Desde la perspectiva de los datos, también se han experimentado limitaciones.

Mucha de la información generada por el negocio no se analiza porque no se dispone de la

Por último, desde el punto de vista tecnológico:

Los datos se encuentran almacenados en un espacio centralizado.

A continuación, retomamos las características principales de la inteligencia de negocio para

Tradicionalmente, con la inteligencia de negocio en este tipo de compañías se podía conocer y

¿Con qué tipo de datos voy a trabajar? ¿Estructurados, semi-estructurados o no estructurados?

¿Qué tipo de datos voy a tratar? Numéricos, personales…

¿Durante cuánto tiempo voy a necesitar la información? ¿Necesito la información al momento, a

Toda esta información se almacena, posteriormente, en el data warehouse o repositorio de datos.

En el segundo escalón de la pirámide se sitúa la “fase de ingeniería de datos”, en la que se

Comencemos con el consultor de negocios Big Data.