Documentos de Académico
Documentos de Profesional
Documentos de Cultura
dot
ÍNDICE
1
INTRODUCCIÓN A LA CIENCIA DE DATOS: BIG DATA
En los últimos años se ha producido una gran burbuja alrededor del Big Data.
Sin embargo, no es fácil explicar en qué consiste exactamente esta nueva revo-
lución. El psicólogo y economista Dan Ariely ha descrito la confusión propia de
los inicios de estas tecnologías de la siguiente manera:
“El Big Data es como el sexo en la adolescencia: todo el mundo habla continuamente de ello,
nadie sabe realmente cómo hacerlo, pero como todos piensan que los demás ya lo están
haciendo, todo el mundo dice que lo hace”
En esta unidad queremos que obtengas una visión general de qué es el Big Data
y la Ciencia de Datos, de los problemas que resuelve y de cómo los resuelve.
3
INTRODUCCIÓN A LA CIENCIA DE DATOS: BIG DATA
5
INTRODUCCIÓN A LA CIENCIA DE DATOS: BIG DATA
6
INTRODUCCIÓN A LA CIENCIA DE DATOS: BIG DATA
Clic.
Petición a un servidor.
Mensaje de red.
Impresión de publicidad.
Transacción.
Factura.
Secuenciación genómica.
Diseño de fármacos.
7
INTRODUCCIÓN A LA CIENCIA DE DATOS: BIG DATA
Biología/bioquímica computacional.
Imágenes de satélites.
Observación astronómica.
Otro campo que genera grandes cantidades de datos es el Internet de las cosas,
que es un concepto que se refiere a la interconexión digital de objetos cotidianos
con Internet.
Poco a poco crece la cantidad de objetos conectados dentro del marco del In-
ternet de las cosas. Algunos de los sectores en los que se está haciendo cada
vez más popular son:
8
INTRODUCCIÓN A LA CIENCIA DE DATOS: BIG DATA
Control ambiental: es una de las áreas en las que está teniendo más
éxito el Internet de las cosas, pues permite acceder desde práctica-
mente cualquier parte a información de sensores atmosféricos, meteo-
rológicos y sísmicos.
Sector salud: cada vez más clínicas y hospitales alrededor del mundo
confían en sistemas que permiten al personal de salud monitorizar ac-
tivamente a los pacientes de manera ambulatoria y no invasiva.
9
INTRODUCCIÓN A LA CIENCIA DE DATOS: BIG DATA
Además de Big Data suenan otros conceptos relacionados, que ya se usan des-
de hace muchos años, como:
Aprendizaje estadístico.
Analítica de datos.
Ciencia de datos.
10
INTRODUCCIÓN A LA CIENCIA DE DATOS: BIG DATA
https://trends.google.es/trends/explore?date=2010-01-01%202017-05-
10&geo=ES&q=data%20science,big%20data,data%20mining,machine%20learning,Data%20Analytics
https://trends.google.es/trends/explore?date=2010-01-01%202017-05-
10&geo=US&q=data%20science,big%20data,data%20mining,machine%20learning,Data%20Analytics
11
INTRODUCCIÓN A LA CIENCIA DE DATOS: BIG DATA
Por tanto, hay una serie de términos y conceptos, todos ellos relacionados con
el análisis de datos y la transformación de la información en conocimiento, que
están relacionados entre sí y que algunos tienen muchos años de existencia.
Esto nos plantea algunas preguntas:
Según Samuel Madden (MIT) (IEEE Internet Computing. Volumen: 16 Issue: 3):
podemos considerar Big Data cuando los datos son "muy grandes”, "muy rápi-
dos” o "muy duros" para ser tratados con las herramientas convencionales.
Por muy grandes nos referirnos a volúmenes del orden de los petaby-
tes (1.000 terabytes 1015 bytes). Sin embargo, la escala debe cambiar
con las capacidades de cálculo y almacenamiento disponibles en cada
momento.
Muy rápidos porque, además de tener muchos datos, estos deben ser
procesados a gran velocidad. Por ejemplo, la información recibida de
sensores.
Muy duros es una forma de decir que son datos que no encajan en las
herramientas de procesado tradicionales o que requieren un tipo de
análisis que las herramientas tradicionales no son capaces de realizar.
En ocasiones se debe a la naturaleza desestructurada de los datos.
12
INTRODUCCIÓN A LA CIENCIA DE DATOS: BIG DATA
13
INTRODUCCIÓN A LA CIENCIA DE DATOS: BIG DATA
Volumen.
Velocidad.
Variedad.
Veracidad.
Valor.
14
INTRODUCCIÓN A LA CIENCIA DE DATOS: BIG DATA
Nuevos análisis que antes no eran posibles, como por ejemplo modelos
orientados al cliente. Una empresa de marketing puede tener tantos
datos asociados a un solo cliente y la capacidad de procesamiento y
cálculo para ajustar modelos individuales a millones de clientes.
Y como extra, como derivada de la burbuja del Big Data se ha producido un re-
novado interés en el análisis de datos, el desarrollo de proyectos analíticos y la
toma de decisiones basada en datos. A raíz de todo lo anterior aparece el con-
cepto de ciencia de datos y la profesión del científico de datos.
15
INTRODUCCIÓN A LA CIENCIA DE DATOS: BIG DATA
3. CIENCIA DE DATOS
3.1. ¿QUÉ ES LA CIENCIA DE DATOS?
Como hemos visto en la sección anterior, el boom del Big Data ha creado un in-
terés renovado en los datos, su análisis y la obtención de conocimiento a partir
de ellos. Las técnicas, las herramientas y los procesos necesarios para este pro-
pósito se engloban en un término nuevo que se denomina ciencia de datos.
Al igual que con el Big Data, es difícil delimitar exactamente a qué se refiere la
ciencia de datos. Para empezar, surgen muchas preguntas al respecto:
¿Qué tiene que ver la ciencia de datos con el Big Data? ¿Se aplica tam-
bién al small data?
16
INTRODUCCIÓN A LA CIENCIA DE DATOS: BIG DATA
“La ciencia de los datos, tal como se practica, es una mezcla de hackeo
impulsada por Red Bull y análisis estadístico inspirado por un café expreso”.
Pero la ciencia de los datos no es simplemente hacking, porque cuando los ha-
ckers terminan de depurar sus programas en Bash o Pig, pocos de ellos se preo-
cupan sobre métricas de distancia no euclídeas.
Para Driscoll, “la ciencia de los datos es la ingeniería civil de los datos. Sus acóli-
tos poseen un conocimiento práctico de herramientas y materiales, junto con
una comprensión de lo que es posible desde el punto de vista matemático”.
17
INTRODUCCIÓN A LA CIENCIA DE DATOS: BIG DATA
También menciona un post de Nathan Yau 2009, "Rise of the Data Scientist"
(http://flowingdata.com/2009/06/04/rise-of-the-data-scientist), donde enumera
“las habilidades sexy de los frikis de los datos”, que incluyen:
Como decíamos, la ciencia de datos engloba una serie de disciplinas que no son
nuevas, pero que requieren nuevas habilidades en la era de los datos. Veamos
algunos ejemplos:
Con la ciencia de datos aparece la profesión del científico de datos. Sus habili-
dades son una mezcla equilibrada de:
18
INTRODUCCIÓN A LA CIENCIA DE DATOS: BIG DATA
Sin embargo, nadie es un experto en todo, por lo que tiene más sentido crear
equipos de personas con diferentes perfiles y experiencias para que, como
equipo, puedan especializarse en todos los campos.
Fuente: Doing Data Science, Rachel Schutt, Cathy O'Neil, O'Reilly Media (2013)
19
INTRODUCCIÓN A LA CIENCIA DE DATOS: BIG DATA
~3 https://mathbabe.org/2011/09/25/why-and-how-to-hire-a-data-scientist-for-your-business/ https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
Identificar el problema.
Instrumentalizar las fuentes de datos.
Recolectar datos.
Preparar datos (integrar, transformar, limpiar, filtrar, agregar).
Construir modelos.
Evaluar modelos.
Comunicar resultados.
Fuente: Doing Data Science, Rachel Schutt, Cathy O’Neil, O’Reilly Media (2013)
20
INTRODUCCIÓN A LA CIENCIA DE DATOS: BIG DATA
En primer lugar, tenemos el mundo real. Dentro del mundo real hay mucha
gente ocupada en varias actividades. Algunas personas utilizan Twitter, otras
están compitiendo en los Juegos Olímpicos, hay spammers que envían correo
basura, hay gente a la que extraen sangre para analizar, etcétera.
Una vez que tengamos nuestros conjuntos de datos limpios, deberíamos hacer
algún tipo de análisis exploratorio de datos. En el curso de este análisis, po-
demos darnos cuenta de que los datos aún no están limpios del todo debido a
duplicados, valores ausentes, valores absurdos, datos que no se registraron
realmente o que se registraron incorrectamente. Si ese es el caso, puede que
tengamos que volver a recoger más datos, o pasar más tiempo limpiando los
conjuntos de datos.
21
INTRODUCCIÓN A LA CIENCIA DE DATOS: BIG DATA
Esto es algo que debemos tener en cuenta en los modelos que se incluyen den-
tro de un producto de datos, ya que ellos no solo predicen el futuro, sino que
influyen en él.
22
INTRODUCCIÓN A LA CIENCIA DE DATOS: BIG DATA
Las fuentes pueden ser ficheros de texto, bases de datos, sitios web, logs de
eventos, Hadoop Distributed File System (HDFS), etcétera.
Fuente: Doing Data Science, Rachel Schutt, Cathy O'Neil, O'Reilly Media (2013)
Encontrar errores.
Generar hipótesis.
23
INTRODUCCIÓN A LA CIENCIA DE DATOS: BIG DATA
3.6. MODELOS
Biólogos:
Estadísticos/científicos de datos:
Desde el punto de vista de la teoría matemática que hay detrás podemos clasifi-
car los modelos que usamos en ciencia de datos en dos tipos:
24
INTRODUCCIÓN A LA CIENCIA DE DATOS: BIG DATA
Desde el punto de vista del problema que queremos resolver, se dividen esen-
cialmente en dos tipos de modelos:
3.7. COMUNICACIÓN
Presentación.
Informe.
Cuadro de mando/dashboard.
Infografía.
Clientes.
Jefes.
25
INTRODUCCIÓN A LA CIENCIA DE DATOS: BIG DATA
Colaboradores.
Público especializado.
Público general.
Presentación oral.
Comunicación escrita.
Revista especializada.
Medio de comunicación.
Blog.
26
INTRODUCCIÓN A LA CIENCIA DE DATOS: BIG DATA
~3 https://viz.wtf/
27
INTRODUCCIÓN A LA CIENCIA DE DATOS: BIG DATA
28
INTRODUCCIÓN A LA CIENCIA DE DATOS: BIG DATA
29
INTRODUCCIÓN A LA CIENCIA DE DATOS: BIG DATA
30
INTRODUCCIÓN A LA CIENCIA DE DATOS: BIG DATA
Pues bien, ahora ya sabes de forma más precisa qué es esto del Big Data y la
ciencia de datos. Sabes qué tienen en común, en qué se diferencian y qué com-
parten con otras disciplinas más tradicionales como la estadística, el aprendizaje
automático o la inteligencia de negocio.
31
INTRODUCCIÓN A LA CIENCIA DE DATOS: BIG DATA
AUTOCOMPROBACIÓN
b) Son desestructurados.
a) Minería de datos.
b) Aprendizaje automático.
c) Aprendizaje significativo.
d) Inteligencia de negocio.
33
INTRODUCCIÓN A LA CIENCIA DE DATOS: BIG DATA
a) Hadoop.
b) Spark.
d) R.
c) Algoritmos de optimización.
d) Algoritmos que son capaces de aprender a partir de los datos sin basar-
se en reglas preestablecidas.
34
INTRODUCCIÓN A LA CIENCIA DE DATOS: BIG DATA
c) Algoritmos de optimización.
d) Algoritmos que son capaces de aprender a partir de los datos sin basar-
se en reglas preestablecidas.
35
INTRODUCCIÓN A LA CIENCIA DE DATOS: BIG DATA
SOLUCIONARIO
1. b 2. d 3. c 4. a 5. d
6. a 7. d 8. b 9. a 10. d
37
INTRODUCCIÓN A LA CIENCIA DE DATOS: BIG DATA
BIBLIOGRAFÍA
SCHUTT, R. y O'NEIL, C. Doing Data Science: Straight Talk from the Frontli-
ne. Sebastopol: O'Reilly Media, 2013.
39