306019

MD.PlantillaTexto(03)Esp.
dot
INTRODUCCIÓN A LA CIENCIA DE DATOS:

BIG DATA
UD014129_V(01)
INTRODUCCIÓN A LA CIENCIA DE DATOS: BIG DATA
ÍNDICE
TU RETO EN ESTA UNIDAD ........................................................................ 3

1. LA ERA DEL DATO .................................................................................. 5
2. ¿QUÉ ES EL BIG DATA? ........................................................................ 10
3. CIENCIA DE DATOS.............................................................................. 16
3.1. ¿QUÉ ES LA CIENCIA DE DATOS? ................................................................ 16
3.2. ORÍGENES DE LA CIENCIA DE DATOS ......................................................... 18
3.3. EL CIENTÍFICO DE DATOS ............................................................................ 18
3.4. PROCESOS DE LA CIENCIA DE DATOS ....................................................... 20
3.5. ADQUISICIÓN Y PREPARACIÓN DE DATOS ................................................ 22
3.6. MODELOS ...................................................................................................... 24
3.7. COMUNICACIÓN ........................................................................................... 25
4. EJEMPLOS DE PROYECTOS DE CIENCIA DE DATOS Y BIG DATA........ 28
¿QUÉ HAS APRENDIDO? .......................................................................... 31
AUTOCOMPROBACIÓN............................................................................ 33
SOLUCIONARIO ....................................................................................... 37
BIBLIOGRAFÍA ......................................................................................... 39
1
TU RETO EN ESTA UNIDAD
En los últimos años se ha producido una gran burbuja alrededor del Big Data.
Sin embargo, no es fácil explicar en qué consiste exactamente esta nueva revo-
lución. El psicólogo y economista Dan Ariely ha descrito la confusión propia de
los inicios de estas tecnologías de la siguiente manera:
“El Big Data es como el sexo en la adolescencia: todo el mundo habla continuamente de ello,
nadie sabe realmente cómo hacerlo, pero como todos piensan que los demás ya lo están
haciendo, todo el mundo dice que lo hace”
En esta unidad queremos que obtengas una visión general de qué es el Big Data
y la Ciencia de Datos, de los problemas que resuelve y de cómo los resuelve.
3
1. LA ERA DEL DATO

Desde los años noventa del siglo XX, con la irrupción de Internet y el uso masivo
de las tecnologías de la información y la comunicación (TIC), la cantidad de datos
almacenados por la humanidad no para de crecer a ritmo exponencial.
La siguiente imagen muestra un esbozo de lo que ocurría en un minuto en In-

ternet en el año 2019:
5
Resumiendo, y a modo de ejemplo, en cada minuto se realizan:
 3,8 millones de consultas de búsqueda en Google.
 188 millones de correos electrónicos enviados.
 1.000.000 entradas en Facebook.
 694.444 horas vistas en Netflix.
 2,1 millones fotos compartidas en Snapchat.
 390.030 descargas de aplicaciones en App Store y Google Play.
 180 envíos de voz a dispositivos Amazon.
 87.500 tuiteros en Twitter.
 347.222 desplazamientos Instagram.
 1.000.000 visitas Twitch.
 972.222 Tinder swipes.
 4,5 millones de vistas de vídeo en Youtube.
 41,6 millones de mensajes (WhatsApp).
 895.216 € de compras on-line.
Estos datos crecen exponencialmente año a año, y este volumen de información

es parte de las razones por las que estas mismas empresas estén priorizando la
capacidad de procesar e interpretar grandes volúmenes de datos más que nunca.
Además, esta información se encuentra, en su mayor parte, en forma desestruc-

turada. Esto quiere decir que no está almacenada en bases de datos con una
estructura bien definida, sino en algún otro tipo de estructura de datos. Los
datos no estructurados pueden ser textuales o no textuales. Los primeros son
los que se generan en mensajes de correo electrónico, texto de páginas web,
presentaciones, documentos de texto, software de colaboración o mensajes ins-
tantáneos. La información no estructurada de carácter no textual proviene de
medios como imágenes JPEG, archivos de audio o archivos de vídeo.
6
Fuente: Oracle. ESG Digital Archive Market Forecast
En general, en Internet queda registrado cada:
 Clic.
 Petición a un servidor.
 Mensaje de red.
 Impresión de publicidad.
 Transacción.
 Factura.
 Play, rewind, pause…
En particular, en las redes sociales como Facebook, Instagram, TripAdvisor, Twit-

ter, LinkedIn o YouTube se registran artículos, fotos, likes, favoritos, retweets,
amigos, interacciones, recomendaciones, aplicaciones, etcétera.
Aunque la explosión de datos no solo proviene de Internet, también procede de

otros campos como la ciencia:
 Grandes experimentos, como por ejemplo el Large Hadron Colider (LHC).
 Secuenciación genómica.
 Diseño de fármacos.
7
 Biología/bioquímica computacional.
 Imágenes de satélites.
 Observación astronómica.
Otro campo que genera grandes cantidades de datos es el Internet de las cosas,
que es un concepto que se refiere a la interconexión digital de objetos cotidianos
con Internet.
Imagínate que los libros, los termostatos, los frigorífi-

cos, la paquetería, las lámparas y los botiquines estu-
vieran conectados a Internet y equipados con dispo-
sitivos de identificación.
Seguramente no existirían, en teoría, artículos fuera
de stock o medicinas caducadas, pues sabríamos
exactamente su ubicación y cómo se consumen en el
mundo. De hecho, el extravío sería cosa del pasado y
sabríamos qué aparatos están encendidos o apaga-
dos en todo momento.
Poco a poco crece la cantidad de objetos conectados dentro del marco del In-
ternet de las cosas. Algunos de los sectores en los que se está haciendo cada
vez más popular son:
 La industria de producción en masa: la maquinaria que se encarga

de controlar los procesos de fabricación, robots ensambladores, senso-
res de temperatura, control de producción, etcétera.
 Control de infraestructura urbana: control de semáforos, puentes,

vías de tren, cámaras urbanas. Cada vez más ciudades implementan es-
te tipo de infraestructuras basadas en el Internet de las cosas, que
permiten monitorizar el correcto funcionamiento de sus estructuras,
además de adaptar su funcionamiento de modo más flexible ante nue-
vos eventos.
8
 Control ambiental: es una de las áreas en las que está teniendo más
éxito el Internet de las cosas, pues permite acceder desde práctica-
mente cualquier parte a información de sensores atmosféricos, meteo-
rológicos y sísmicos.
 Sector salud: cada vez más clínicas y hospitales alrededor del mundo
confían en sistemas que permiten al personal de salud monitorizar ac-
tivamente a los pacientes de manera ambulatoria y no invasiva.
9
2. ¿QUÉ ES EL BIG DATA?

La gran cantidad de datos disponible, la variedad de forma y estructura de estos y
la necesidad de analizarlos en tiempo real ha hecho que se hayan desarrollado
las técnicas y tecnologías necesarias para analizarlos y convertirlos en información
y conocimiento. Este es el concepto principal de lo que se denomina Big Data.
Además de Big Data suenan otros conceptos relacionados, que ya se usan des-
de hace muchos años, como:
 Minería de datos (Data Mining).
 Aprendizaje automático (Machine Learning).
 Aprendizaje estadístico.
 Analítica de datos.
 Ciencia de datos.
Podemos utilizar Google Trends para conocer el interés en estas materias en

diferentes lugares de mundo. Si hacemos una consulta para España, obtenemos
un gran interés en el término Big Data, mientras que el interés es más discreto
en otros términos, salvando un incipiente crecimiento en Machine Learning.
10
https://trends.google.es/trends/explore?date=2010-01-01%202017-05-
10&geo=ES&q=data%20science,big%20data,data%20mining,machine%20learning,Data%20Analytics
Sin embargo, si hacemos la búsqueda para Estados Unidos, las tendencias

cambian claramente. El término más buscado actualmente es Machine Learning
y el término Data Science (ciencia de datos) es tan buscado como Big Data.
https://trends.google.es/trends/explore?date=2010-01-01%202017-05-
10&geo=US&q=data%20science,big%20data,data%20mining,machine%20learning,Data%20Analytics
11
Por tanto, hay una serie de términos y conceptos, todos ellos relacionados con
el análisis de datos y la transformación de la información en conocimiento, que
están relacionados entre sí y que algunos tienen muchos años de existencia.
Esto nos plantea algunas preguntas:
 ¿Es todo parte de lo mismo?
 ¿Es el Big Data algo nuevo?
 ¿Solo es interesante analizar datos si son big?
Primero vamos a intentar responder qué es el Big Data y en qué se diferencia

del resto de disciplinas.
Según Samuel Madden (MIT) (IEEE Internet Computing. Volumen: 16 Issue: 3):
podemos considerar Big Data cuando los datos son "muy grandes”, "muy rápi-
dos” o "muy duros" para ser tratados con las herramientas convencionales.
 Por muy grandes nos referirnos a volúmenes del orden de los petaby-
tes (1.000 terabytes 1015 bytes). Sin embargo, la escala debe cambiar
con las capacidades de cálculo y almacenamiento disponibles en cada
momento.
 Muy rápidos porque, además de tener muchos datos, estos deben ser
procesados a gran velocidad. Por ejemplo, la información recibida de
sensores.
 Muy duros es una forma de decir que son datos que no encajan en las
herramientas de procesado tradicionales o que requieren un tipo de
análisis que las herramientas tradicionales no son capaces de realizar.
En ocasiones se debe a la naturaleza desestructurada de los datos.
Según Michael Stonebraker (http://cacm.acm.org/blogs/blog-cacm/155468-

what-does-big-data-mean/fulltext), Big Data puede significar al menos una de
estas cuatro cosas:
 Grandes volúmenes de datos, pero "análisis pequeños": SQL analítico

sobre muchos datos.
 Grandes volúmenes de datos y “análisis grandes”: minería de datos con

muchos datos.
 Gran velocidad: datos en streaming, procesamiento en tiempo real.
 Gran variedad de procesamiento de datos (ETL) con muchas fuentes de

datos.
12
Estás características se resumen a menudo a partir de “las V del Big Data".
Fuente: IBM (http://www.ibmbigdatahub.com/infographic/four-vs-big-data)
13
Originalmente se hablaba de tres v:
 Volumen.
 Velocidad.
 Variedad.
A las que se han añadido dos:
 Veracidad.
 Valor.
En ambientes no expertos en la materia, se confunde el Big Data con la analítica

de datos, el modelado estadístico, la minería de datos o el machine learning.
Hemos visto que por Big Data se entiende una serie de problemas, que debido
a su volumen, velocidad, estructura y cantidad de fuentes de datos requieren
una serie de técnicas y tecnologías especiales.
 Ciencia de datos: nos referiremos de esta manera a la serie de disci-

plinas cuyo objetivo es transformar los datos en conocimiento: engloba
estadística, minería de datos, machine learning, etcétera. Posteriormen-
te definiremos el concepto con más precisión.
 Tecnologías Big Data: el conjunto de técnicas y tecnologías necesarias

para trabajar problemas de Big Data.
Está claro que la explosión de la cantidad de datos disponibles en los últimos

años ha generado una gran burbuja sobre el Big Data. Pero también es cierto que
ha permitido el desarrollo de la tecnología necesaria para analizarlos y obtener
valor de ellos. De forma más concreta, el boom del Big Data ha proporcionado:
 Desarrollo de tecnología software para el cálculo distribuido: Hadoop,

Spark.
 Desarrollo de bases de datos para almacenar y procesar información

no estructurada: NewSQL, No SQL.
 Desarrollo de plataformas de computación: Cloud Computing, High Per-

formance Computing (HPC).
14
 Nuevos análisis que antes no eran posibles, como por ejemplo modelos
orientados al cliente. Una empresa de marketing puede tener tantos
datos asociados a un solo cliente y la capacidad de procesamiento y
cálculo para ajustar modelos individuales a millones de clientes.
 Productos de datos en tiempo real.
 El Internet de las cosas.
Y como extra, como derivada de la burbuja del Big Data se ha producido un re-
novado interés en el análisis de datos, el desarrollo de proyectos analíticos y la
toma de decisiones basada en datos. A raíz de todo lo anterior aparece el con-
cepto de ciencia de datos y la profesión del científico de datos.
15
3. CIENCIA DE DATOS
3.1. ¿QUÉ ES LA CIENCIA DE DATOS?
Como hemos visto en la sección anterior, el boom del Big Data ha creado un in-
terés renovado en los datos, su análisis y la obtención de conocimiento a partir
de ellos. Las técnicas, las herramientas y los procesos necesarios para este pro-
pósito se engloban en un término nuevo que se denomina ciencia de datos.
Al igual que con el Big Data, es difícil delimitar exactamente a qué se refiere la
ciencia de datos. Para empezar, surgen muchas preguntas al respecto:
 ¿Es algo nuevo? ¿O es lo que llevan haciendo durante décadas estadís-

ticos, científicos de la computación, matemáticos e ingenieros?
 ¿Qué tiene que ver la ciencia de datos con el Big Data? ¿Se aplica tam-
bién al small data?
 ¿Es algo que solo se aplica en empresas tecnológicas punteras como

Google o Facebook?
Estas preguntas son causa de discusión continua entre la comunidad de exper-

tos. Te invitamos a buscar en Internet alguna de estas discusiones: no te dará
una definición precisa de ciencia de datos, pero al menos podrás comprobar lo
que otras personas piensan que es o cómo la perciben.
16
Por ejemplo, en Quora (https://www.quora.com/What-is-data-science) hay una

discusión que comenzó en 2010 que se titula “¿Qué es la ciencia de datos?".
Una respuesta interesante nos la da Mike Driscoll, CEO en Metamarket:
“La ciencia de los datos, tal como se practica, es una mezcla de hackeo
impulsada por Red Bull y análisis estadístico inspirado por un café expreso”.
Pero la ciencia de los datos no es simplemente hacking, porque cuando los ha-
ckers terminan de depurar sus programas en Bash o Pig, pocos de ellos se preo-
cupan sobre métricas de distancia no euclídeas.
Y la ciencia de los datos no es simplemente estadística, porque cuando los esta-

dísticos terminan de teorizar el modelo perfecto, pocos son capaces de descar-
gar datos usando una API.
Para Driscoll, “la ciencia de los datos es la ingeniería civil de los datos. Sus acóli-
tos poseen un conocimiento práctico de herramientas y materiales, junto con
una comprensión de lo que es posible desde el punto de vista matemático”.
Driscoll también se refiere al diagrama de Venn de la ciencia de datos.
Fuente: Andrew Conway
17
También menciona un post de Nathan Yau 2009, "Rise of the Data Scientist"
(http://flowingdata.com/2009/06/04/rise-of-the-data-scientist), donde enumera
“las habilidades sexy de los frikis de los datos”, que incluyen:
 Estadística (análisis de datos tradicional).
 Munging de datos (descarga, transformación y formateo de datos).
 Visualización (gráficos, herramientas, etcétera).
3.2. ORÍGENES DE LA CIENCIA DE DATOS
Como decíamos, la ciencia de datos engloba una serie de disciplinas que no son
nuevas, pero que requieren nuevas habilidades en la era de los datos. Veamos
algunos ejemplos:
 Business Intelligence: los sistemas de BI se asocian a dos conceptos:
 El Data Warehouse (repositorio unificado de fuentes de datos).
 Herramientas de reporte y cuadros de mando. Son sistemas muy

rígidos para adaptarse a los requerimientos cambiantes de for-
mato en los datos de hoy en día.
 Estadística: los métodos de la estadística son el núcleo del trabajo de

científico de datos, pero un estadístico tradicional está acostumbrado a
trabajar con datos bien estructurados que pueden procesarse en una
única máquina.
 Machine Learning (aprendizaje automático): al igual que la estadísti-

ca, los algoritmos de aprendizaje automático son claves para la ciencia
de datos. Sin embargo, en la era del Big Data, las tareas de obtención,
preparación y transformación de los datos son casi tan importantes
como los modelos.
3.3. EL CIENTÍFICO DE DATOS
Con la ciencia de datos aparece la profesión del científico de datos. Sus habili-
dades son una mezcla equilibrada de:
 Estadístico/matemático: modelos, test y resultados rigurosos.
18
 Informático/hacker: recopilar, diseccionar, limpiar, transformar, forma-

tear y almacenar datos.
 Consultor: con conocimiento de negocio y capacidades para la presen-

tación y comunicación de resultados.
Si buscamos en portales de empleo puestos de científico de datos (hay muchas

más ofertas buscando el término en inglés), en la mayoría de las descripciones
de trabajo se pide como requisitos ser experto en informática, en estadística, en
comunicación y en visualización de datos, así como tener experiencia en el área
de negocio de la empresa.
Sin embargo, nadie es un experto en todo, por lo que tiene más sentido crear
equipos de personas con diferentes perfiles y experiencias para que, como
equipo, puedan especializarse en todos los campos.
En la siguiente figura te mostramos los datos de una encuesta realizada a los

asistentes de un curso de ciencia de datos y cómo sus habilidades agregadas
mejoran su comportamiento como equipo.
Fuente: Doing Data Science, Rachel Schutt, Cathy O'Neil, O'Reilly Media (2013)
19
~3 https://mathbabe.org/2011/09/25/why-and-how-to-hire-a-data-scientist-for-your-business/ https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
Si quieres saber más sobre esta profesión, te reco-

mendamos que busques por Internet. Si lo prefieres,
puedes hacer clic en los enlaces que te facilitamos.
(Tienes los enlaces en el Campus Virtual).
3.4. PROCESOS DE LA CIENCIA DE DATOS
La mayoría de proyectos de ciencia de datos comparten una serie de procesos

o etapas que podemos resumir según el modelo de Jeff Hammerbacher (Face-
book, cofundador de Cloudera):
 Identificar el problema.
 Instrumentalizar las fuentes de datos.
 Recolectar datos.
 Preparar datos (integrar, transformar, limpiar, filtrar, agregar).
 Construir modelos.
 Evaluar modelos.
 Comunicar resultados.
Fuente: Doing Data Science, Rachel Schutt, Cathy O’Neil, O’Reilly Media (2013)
20
En primer lugar, tenemos el mundo real. Dentro del mundo real hay mucha
gente ocupada en varias actividades. Algunas personas utilizan Twitter, otras
están compitiendo en los Juegos Olímpicos, hay spammers que envían correo
basura, hay gente a la que extraen sangre para analizar, etcétera.
Consideremos que tenemos datos sobre alguna de estas cosas. Comenzaremos

con datos crudos: registros de las Olimpiadas, correo electrónico de los em-
pleados o material genético registrado. Queremos procesar estos datos para
tenerlos limpios y en un formato adecuado para el análisis. Esto es el proceso
de adquisición y preparación de datos. Para ello utilizamos herramientas como
Python, scripts de Shell, R, SQL, o todo lo anterior.
Eventualmente conseguimos tener los datos en un formato agradable, algo dis-

puesto en columnas tipo.
Nombre | Evento | Año | Género | hora del evento
Una vez que tengamos nuestros conjuntos de datos limpios, deberíamos hacer
algún tipo de análisis exploratorio de datos. En el curso de este análisis, po-
demos darnos cuenta de que los datos aún no están limpios del todo debido a
duplicados, valores ausentes, valores absurdos, datos que no se registraron
realmente o que se registraron incorrectamente. Si ese es el caso, puede que
tengamos que volver a recoger más datos, o pasar más tiempo limpiando los
conjuntos de datos.
A continuación, diseñamos nuestros modelos para usar algún algoritmo como

“k-vecinos”, una regresión lineal o un árbol de decisión. El modelo que elegimos
depende del tipo de problema que estamos tratando resolver, lo que podría ser
un problema de clasificación, un problema de predicción o un problema de des-
cripción básica.
Por último, debemos interpretar, visualizar y comunicar nuestros resultados.

Esto podría ser para comunicar los resultados a nuestros clientes, o a nuestro
jefe y compañeros de trabajo, o publicar un artículo académico, o en una web
de acceso público.
21
Alternativamente, nuestro objetivo puede ser construir un prototipo o un pro-

ducto de datos. Por ejemplo, un clasificador de spam o un sistema de reco-
mendación de películas y series. En este punto, encontramos un ejemplo claro
de diferencia entre la ciencia de datos y la estadística tradicional. Este producto
de datos se incorpora al mundo real y los usuarios interactúan con ese produc-
to, que a su vez genera más datos, lo que crea un bucle de retroalimentación.
Esto es muy diferente a, por ejemplo, predecir el tiempo, donde el modelo no

influye en el resultado en absoluto. Se puede predecir que va a llover la próxima
semana y, a menos que tengamos poderes sobrenaturales, no vamos a conse-
guir cambiar el resultado. Pero si en su lugar construimos un sistema de reco-
mendaciones y se observa un número muy elevado de likes en una película, se-
guramente ha sido causado por este bucle de retroalimentación.
Esto es algo que debemos tener en cuenta en los modelos que se incluyen den-
tro de un producto de datos, ya que ellos no solo predicen el futuro, sino que
influyen en él.
Por último, es necesario destacar que el proceso de la ciencia de datos no es

algo completamente novedoso. En realidad, podemos pensar en la ciencia de
datos como una extensión o variación del método científico tradicional, que po-
demos resumir en los siguientes pasos:
 Haz una pregunta.
 Investiga el trabajo previo.
 Construye una hipótesis.
 Contrasta la hipótesis realizando un experimento.
 Analiza los datos y saca conclusiones.
 Comunica los resultados.
3.5. ADQUISICIÓN Y PREPARACIÓN DE DATOS
La primera etapa de un proyecto de ciencia de datos consiste en extraer y pre-

parar los datos. Las técnicas necesarias para ello se denominan ETL (Extract,
Transform, Load).
 Necesitamos extraer los datos de las fuentes.
22
 Necesitamos cargar los datos en los colectores.
 Necesitamos transformar los datos en las fuentes, en los colectores o

en áreas temporales.
Las fuentes pueden ser ficheros de texto, bases de datos, sitios web, logs de
eventos, Hadoop Distributed File System (HDFS), etcétera.
Mientras que los colectores pueden ser programas Python o R, o ficheros,

HDFS, bases de datos relacionales, o NoSQL.
Fuente: Doing Data Science, Rachel Schutt, Cathy O'Neil, O'Reilly Media (2013)
Dentro de este proceso preparatorio podemos incluir el análisis exploratorio de

datos. Antes de hacer inferencias/predicciones, es esencial conocer y examinar
nuestras variables para, entre otras cosas:
 Encontrar errores.
 Encontrar valores anómalos.
 Ver patrones en los datos.
 Generar hipótesis.
 Encontrar violaciones a las suposiciones estadísticas.
23
En ocasiones, tras este análisis debemos volver a refinar nuestros procesos de

ETL para obtener los datos con la calidad necesaria para el análisis.
3.6. MODELOS
Un modelo es un intento de entender y representar a la realidad a través de

una lente particular, donde los detalles superfluos se han eliminado o abstraído.
Los modelos se utilizan en todas las ramas de la ciencia, aunque su naturaleza

puede ser muy diferente. Comparemos un modelo biológico (estructura de una
proteína) con un modelo estadístico:
 Biólogos:
 Capturan estructura de la proteína con visualizaciones tridimen-

sionales de las conexiones entre aminoácidos.
 El modelo sustituye las leyes de la mecánica cuántica por interac-

ciones sencillas entre aminoácidos.
 Estadísticos/científicos de datos:
 Capturan la incertidumbre y la aleatoriedad de los procesos de

generación de datos con funciones matemáticas que expresan la
forma y estructura de los datos en sí.
 Podemos haber excluido de forma equivocada variables clave o

introducido otras irrelevantes.
 O asumido una estructura matemática diferente a la realidad.
Desde el punto de vista de la teoría matemática que hay detrás podemos clasifi-
car los modelos que usamos en ciencia de datos en dos tipos:
 Machine Learning: algoritmos que son capaces de aprender a partir de

los datos sin basarse en reglas preestablecidas.
 Modelado estadístico: modelos basados en la formalización de rela-
ciones entre variables a partir de ecuaciones matemáticas y distribu-
ciones de probabilidad.
24
Desde el punto de vista del problema que queremos resolver, se dividen esen-
cialmente en dos tipos de modelos:
 Modelos de regresión. El objetivo es predecir un valor numérico: ven-

tas, demanda de electricidad o temperatura.
 Modelos de clasificación. Su misión es predecir una categoría: hom-
bre o mujer, correo bueno o correo basura.
Y desde el punto de vista del proceso necesario para el ajuste o entrenamiento

de los modelos podemos hablar de:
 Aprendizaje supervisado. A partir de datos etiquetados, valor de las

ventas o el género (hombre/mujer) construimos un modelo que es ca-
paz de hacer predicciones sobre valores nuevos de las variables predic-
toras: gasto en publicidad o dimensiones de los huesos.
 Aprendizaje no supervisado. Es capaz de descubrir relaciones entre
las observaciones sin un etiquetado previo. Se usan, por ejemplo, para
hacer segmentaciones de clientes por su tipo de consumo.
3.7. COMUNICACIÓN
Tan importante como un buen análisis de datos es la comunicación y difusión

de los resultados. Debemos narrar historias con los datos con el objetivo de:
 Persuadir a los demás.

 Crear una nueva forma de pensar o enfocar un asunto.
Debemos elegir el modo de comunicación más apropiado:
 Presentación.
 Informe.
 Cuadro de mando/dashboard.
 Infografía.
En función del público objetivo:
 Clientes.
 Jefes.
25
 Colaboradores.
 Público especializado.
 Público general.
Y de los canales de comunicación disponibles:
 Presentación oral.
 Comunicación escrita.
 Revista especializada.
 Medio de comunicación.
 Blog.
Debemos emplear las visualizaciones de datos más apropiadas y efectivas para

apoyar nuestros argumentos.
26
Para terminar este apartado te proponemos un ejercicio muy interesante:

busca, investiga y encuentra algún ejemplo de buenas y malas
visualizaciones de datos.
~3 https://www.edwardtufte.com/tufte/minard https://www.youtube.com/watch?v=jbkSRLYSojo https://archive.nytimes.com/www.nytimes.com/interactive/2012/02/13/us/politics/2013-budget-proposal-graphic.html

https://www.nytimes.com/interactive/2016/11/08/us/elections/exit-poll-analysis.html
¿Qué tal ha ido la búsqueda?

Para que puedas comparar lo que has encontrado con
lo que hemos buscado nosotros, te hemos dejado
unos enlaces con buenas visualizaciones de datos.
(Tienes los enlaces en el Campus Virtual).
~3 https://viz.wtf/
También te hemos dejado un enlace a una página

que aglutina malas visualizaciones de datos (des-
graciadamente, hay muchas).
(Tienes el enlace en el Campus Virtual).
27
4. EJEMPLOS DE PROYECTOS DE CIENCIA

DE DATOS Y BIG DATA
Para finalizar te mostramos algunos casos de éxito y ejemplos reales de proyec-

tos de ciencia de datos. Se trata de proyectos aplicados a sectores muy diferen-
tes, que utilizan muy diversas técnicas de modelado y aprendizaje, y cuya explo-
tación final también es muy diversa. Sin embargo, todos comparten un elemen-
to: los datos.
Todos ellos comparten el mismo objetivo de transformar la información conte-

nida en datos en conocimiento explotable para el beneficio de la empresa, los
usuarios o la humanidad en general.
 Compañías de Internet: son los casos más conocidos de productos y

compañías que usan ciencia de datos y análisis Big Data para ofrecer
mejores servicios a sus usuarios y para incrementar sus beneficios, sea
por compras o por difusión de publicidad.
 Google: algoritmos de búsqueda, colocación de publicidad per-
sonalizada, recomendación de lugares o cálculo de tiempo en lle-
gada a casa.
 Amazon: un pionero de los sistemas de recomendación. Otros
usuarios que compraron X se interesaron en Y, Z, etcétera.
 Netflix: otro pionero en los sistemas de recomendación. En los
años noventa, cuando no operaba en Internet, realizaba envíos
automáticos de películas en DVD basados en predicciones de un
sistema de recomendación. En definitiva, era un videoclub que
funcionaba por correo convencional.
 Facebook: análisis de redes (o grafos) para decirte “Personas que
quizás conozcas…”.
28
 Automoción: los coches modernos vienen equipados con sensores que

recolectan gran cantidad de datos. Estos datos están siendo analizados
por compañías como Tesla para prevenir averías o mejorar el manteni-
miento de los vehículos. También se están desarrollando sistemas que a
partir de sensores son capaces de detectar si un conductor se está dur-
miendo al volante. Un paso más allá son los coches sin conductor. Una
de las compañías que más ha invertido en el campo es Google. Los
vehículos autónomos no solo deben interpretar constantemente los da-
tos provenientes de sus sensores, sino que deben estar asistidos por al-
goritmos que aprendan de la experiencia de conducción.
 Reconocimiento de imágenes/reconocimiento del lenguaje: los algo-

ritmos de aprendizaje automático orientados al reconocimiento de imá-
genes o al reconocimiento de voz se han desarrollado muchísimo en los
últimos años. Algunos casos populares son la aplicación Faceapp o el
asistente personal Siri instalado en los productos de la compañía Apple.
 Salud: otro sector que genera enormes cantidades de datos es el de la

salud. Muchos son datos estructurados, como los historiales clínicos de
los pacientes o los resultados de análisis de sangre, pero otra gran can-
tidad son de carácter desestructurado, como los campos textuales de
los historiales clínicos y, sobre todo, los datos provenientes de imáge-
nes médicas (radiografías, escáneres, resonancias magnéticas, mamo-
grafías, etcétera). Algunos ejemplos de aplicaciones son:
 Monitorización remota de pacientes y seguimiento de pacien-

tes crónicos.
 Detección de epidemias: los datos de búsqueda en Google y

posts en redes sociales reducen el tiempo de respuesta en la de-
tección de epidemias.
 Mejoras en los procesos médicos: priorización de atención en

urgencias, detección de consultas innecesarias en atención pri-
maria, protocolos automáticos de atención al paciente, telemedi-
cina, etcétera.
 Mejoras en la interpretación de los diagnósticos de imagen.

El análisis mediante técnicas de aprendizaje automático está re-
sultando más eficaz en la identificación de tumores cancerígenos
que los criterios médicos actuales.
 Investigación genómica: identificación de patrones genómicos

asociados a enfermedades.
29
 Deporte: el mundo del deporte es capaz de recolectar ingentes canti-

dades de datos. Hoy en día se recogen estadísticas detalladas en todos
los deportes con un alto grado de profesionalización: posición de los
jugadores en cada instante del partido, registros jugada a jugada, moni-
torización de variables físicas (pulsaciones, respiración…) de los depor-
tistas durante entrenamientos y competición, etcétera.
Cada vez son más los clubes que contratan equipos de científicos de
datos para analizar estos datos con el objetivo de obtener mejoras en
el rendimiento deportivo y económico. Algunos ejemplos son:
 Predicción de resultados en eventos deportivos.
 Mejora de planes de entrenamiento.
 Prevención de lesiones y enfermedades.
 Análisis del valor de los jugadores y optimización de fichajes. La pelí-
cula Moneyball (2011) ilustra muy bien el proyecto de cómo un equi-
po de béisbol, los Oackland Athletics, crean un equipo competitivo
fichando jugadores con criterios basados en la ciencia de datos.
 No solo se analizan datos deportivos, sino también del compor-
tamiento de los fans dentro del estadio y a través de Internet y
redes sociales: qué productos de merchandising compran, qué y
cuándo comen y beben en el estadio, etcétera.
 Predicción del tiempo: los modelos meteorológicos tradicionales se
han visto complementados con modelos estadísticos y machine lear-
ning, alimentados por datos recogidos por sensores meteorológicos
cada vez más numerosos. La predicción con gran precisión para locali-
zaciones muy concretas (unos cientos de m2) es muy importante para
instalaciones de producción de energía renovable (parques eólicos o
plantas solares) o para la agricultura.
 Política: hoy en día las campañas electorales hacen uso de la ciencia
de datos para optimizar los esfuerzos y los mensajes necesarios para
convencer a aquellos electores más proclives al cambio de voto. Fue
famosa la campaña presidencial de Obama en 2008, en la que se creó
un equipo de más de 100 científicos e ingenieros de datos.
Mientras en el equipo de McCain ejecutaron sus modelos estadísticos
solamente una vez, asignando los votantes a microfocos estáticos a lo
largo de la campaña, los modelos de Obama se ajustaban semanalmen-
te, recalculando probabilidades de forma dinámica en respuesta a nue-
vos eventos, como el colapso de Lehman Brothers y su efecto mediático.
De esta forma se optimizaron los esfuerzos para insistir a los perfiles de
votantes adecuados y en los Estados clave para ganar las elecciones.
30
¿QUÉ HAS APRENDIDO?
¿Recuerdas las palabras de Dan Ariely que citábamos al comienzo de la unidad?
“El Big Data es como el sexo en la adolescencia: todo el mundo

habla continuamente de ello, nadie sabe realmente cómo hacerlo,
pero como todos piensan que los demás ya lo están haciendo,
todo el mundo dice que lo hace”.
Pues bien, ahora ya sabes de forma más precisa qué es esto del Big Data y la
ciencia de datos. Sabes qué tienen en común, en qué se diferencian y qué com-
parten con otras disciplinas más tradicionales como la estadística, el aprendizaje
automático o la inteligencia de negocio.
En realidad, todo es parte del mismo objetivo: transformar la información de los

datos en conocimiento útil. Y para ello no importa si son grandes o pequeños. Sin
embargo, disponer de gran cantidad de datos nos permite obtener un conoci-
miento mucho mayor y realizar cosas impensables antes de la era de los datos.
31
AUTOCOMPROBACIÓN
1. La mayoría de los datos que provienen de Internet:
a) Se almacenan en bases de datos SQL.
b) Son desestructurados.
c) Tienen estructura de tabla.
d) Se destruyen pasado un tiempo.
2. ¿Qué es el Internet de las cosas?
a) Es algo relacionado con grandes infraestructuras científicas.
b) Es lo mismo que la computación en Cloud.
c) Es un campo de trabajo totalmente desconectado del Big Data.
d) Es un concepto que se refiere a la interconexión digital de objetos coti-

dianos con Internet.
3. ¿Cuál de los siguientes conceptos no está relacionado con el Big Data?
a) Minería de datos.
b) Aprendizaje automático.
c) Aprendizaje significativo.
d) Inteligencia de negocio.
33
4. La 3 V originales del Big Data se refieren a:
a) Volumen, velocidad, variedad.
b) Volumen, velocidad, virtualidad.
c) Volumen, vistosidad, variedad.
d) Volumen, veracidad, visualización.
5. ¿Cuál de las siguientes tecnologías no es consecuencia de la revolución

tecnológica creada en torno al Big Data?
a) Hadoop.
b) Spark.
c) Bases de datos NoSQL.
d) R.
6. Un modelo desde el punto de vista de la ciencia de datos es:
a) Un intento de entender y representar a la realidad a través de una lente

particular, donde los detalles superfluos se han eliminado o abstraído.
b) Un arquetipo digno de ser imitado que se toma como pauta a seguir.
c) Una versión a escala reducida o de uso limitado de un programa infor-

mático.
d) Un modo de trabajar que por su perfección se debe seguir e imitar.
7. El aprendizaje automático o machine learning se refiere a:
a) Algoritmos que son ejecutados por máquinas.
b) Modelos basados en la formalización de relaciones entre variables a par-

tir de ecuaciones matemáticas y distribuciones de probabilidad.
c) Algoritmos de optimización.
d) Algoritmos que son capaces de aprender a partir de los datos sin basar-
se en reglas preestablecidas.
34
8. El modelado estadístico se refiere a:
a) Algoritmos que son ejecutados por máquinas.
b) Modelos basados en la formalización de relaciones entre variables a par-

tir de ecuaciones matemáticas y distribuciones de probabilidad.
c) Algoritmos de optimización.
d) Algoritmos que son capaces de aprender a partir de los datos sin basar-
se en reglas preestablecidas.
9. Un modelo de clasificación es:
a) Un modelo cuya misión es predecir la pertenencia de una observación a

una categoría preestablecida.
b) Un modelo cuya misión es predecir el valor numérico futuro a una variable.
c) Un modelo capaz de descubrir relaciones entre las observaciones sin un

etiquetado previo.
d) Todas las respuestas son correctas.
10. Entre las tareas principales de un científico de datos está:
a) Recopilar, diseccionar, limpiar, transformar, formatear y almacenar datos.
b) Diseñar modelos y test estadísticos.
c) Presentar y comunicar los resultados obtenidos de manera eficaz.
d) Todas las respuestas son correctas.
35
SOLUCIONARIO
1. b 2. d 3. c 4. a 5. d
6. a 7. d 8. b 9. a 10. d
37
BIBLIOGRAFÍA
 SCHUTT, R. y O'NEIL, C. Doing Data Science: Straight Talk from the Frontli-
ne. Sebastopol: O'Reilly Media, 2013.
 JAMES, G. D., WITTEN, D., HASTIE, T. y TIBSHIRANI, R. An Introduction to

Statistical Learning, with applications in R. Nueva York: Springer, 2013.
 WARDEN, P. Big Data Glossary. O'Reilly Media, 2011.
 Big Data Now. Sebastopol: O'Reilly Media, 2015.
39

306019

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

306019

Cargado por

Copyright:

Formatos disponibles

MD.PlantillaTexto(03)Esp.

INTRODUCCIÓN A LA CIENCIA DE DATOS:

TU RETO EN ESTA UNIDAD ........................................................................ 3

TU RETO EN ESTA UNIDAD

1. LA ERA DEL DATO

La siguiente imagen muestra un esbozo de lo que ocurría en un minuto en In-

Resumiendo, y a modo de ejemplo, en cada minuto se realizan:

 3,8 millones de consultas de búsqueda en Google.

 188 millones de correos electrónicos enviados.

 1.000.000 entradas en Facebook.

 694.444 horas vistas en Netflix.

 2,1 millones fotos compartidas en Snapchat.

 390.030 descargas de aplicaciones en App Store y Google Play.

 180 envíos de voz a dispositivos Amazon.

 87.500 tuiteros en Twitter.

 347.222 desplazamientos Instagram.

 1.000.000 visitas Twitch.

 972.222 Tinder swipes.

 4,5 millones de vistas de vídeo en Youtube.

 41,6 millones de mensajes (WhatsApp).

 895.216 € de compras on-line.

Estos datos crecen exponencialmente año a año, y este volumen de información

Además, esta información se encuentra, en su mayor parte, en forma desestruc-

Fuente: Oracle. ESG Digital Archive Market Forecast

En general, en Internet queda registrado cada:

 Play, rewind, pause…

En particular, en las redes sociales como Facebook, Instagram, TripAdvisor, Twit-

Aunque la explosión de datos no solo proviene de Internet, también procede de

 Grandes experimentos, como por ejemplo el Large Hadron Colider (LHC).

Imagínate que los libros, los termostatos, los frigorífi-

 La industria de producción en masa: la maquinaria que se encarga

 Control de infraestructura urbana: control de semáforos, puentes,

2. ¿QUÉ ES EL BIG DATA?

 Minería de datos (Data Mining).

 Aprendizaje automático (Machine Learning).

Podemos utilizar Google Trends para conocer el interés en estas materias en

Sin embargo, si hacemos la búsqueda para Estados Unidos, las tendencias

 ¿Es todo parte de lo mismo?

 ¿Es el Big Data algo nuevo?

 ¿Solo es interesante analizar datos si son big?

Primero vamos a intentar responder qué es el Big Data y en qué se diferencia

Según Michael Stonebraker (http://cacm.acm.org/blogs/blog-cacm/155468-

 Grandes volúmenes de datos, pero "análisis pequeños": SQL analítico

 Grandes volúmenes de datos y “análisis grandes”: minería de datos con

 Gran velocidad: datos en streaming, procesamiento en tiempo real.

 Gran variedad de procesamiento de datos (ETL) con muchas fuentes de

Estás características se resumen a menudo a partir de “las V del Big Data".

Fuente: IBM (http://www.ibmbigdatahub.com/infographic/four-vs-big-data)

Originalmente se hablaba de tres v:

A las que se han añadido dos:

En ambientes no expertos en la materia, se confunde el Big Data con la analítica

 Ciencia de datos: nos referiremos de esta manera a la serie de disci-

 Tecnologías Big Data: el conjunto de técnicas y tecnologías necesarias

Está claro que la explosión de la cantidad de datos disponibles en los últimos

 Desarrollo de tecnología software para el cálculo distribuido: Hadoop,

 Desarrollo de bases de datos para almacenar y procesar información

 Desarrollo de plataformas de computación: Cloud Computing, High Per-

 Productos de datos en tiempo real.

 El Internet de las cosas.

 ¿Es algo nuevo? ¿O es lo que llevan haciendo durante décadas estadís-

 ¿Es algo que solo se aplica en empresas tecnológicas punteras como

Estas preguntas son causa de discusión continua entre la comunidad de exper-

Por ejemplo, en Quora (https://www.quora.com/What-is-data-science) hay una

Y la ciencia de los datos no es simplemente estadística, porque cuando los esta-