Está en la página 1de 1

Introducción

Prefacio
La ciencia de datos es hoy en día la herramienta fundamental para la explotación de
datos y la generación de conocimiento. Entre los objetivos que persigue se encuentra la
búsqueda de modelos que describan patrones y comportamientos a partir de los datos
con el fin de tomar decisiones o hacer predicciones. Es un área que ha experimentado
un enorme crecimiento al extenderse el acceso a grandes volúmenes de datos e incluso
su tratamiento en tiempo real, requiriendo de técnicas sofisticadas que puedan tratar
con los problemas prácticos como escalabilidad, robustez ante errores, adaptabilidad
con modelos dinámicos, etc. Abarca a numerosos grupos de investigación de diferen-
tes áreas (computación, estadística, matemáticas, ingeniería, etc.) que trabajan en la
propuesta de nuevos algoritmos, técnicas de computación e infraestructuras para la
captura, almacenamiento y procesado de datos, etc.
El objetivo del libro es proporcionar una visión general de las principales técnicas de
la ciencia de datos y de las aplicaciones que las implementan, permitiendo compren-
der los conceptos fundamentales sobre los que se basan y los resultados al aplicarlas
a problemas reales. Existen muchos libros que se centran en aspectos teóricos de
técnicas específicas, y otros que mantienen un nivel introductorio omitiendo detalles
para centrarse en las aplicaciones. Este libro busca un equilibrio entre estos extremos:
se lleva a cabo una presentación que permita comprender los fundamentos de cada
familia de técnicas y simultáneamente desarrolla ejemplos de datos reales y el análisis
de resultados con las diferentes técnicas presentadas.
Se parte de las técnicas clásicas basadas en modelos probabilísticos, su aplicación en
los problemas de regresión y clasificación, para presentar después su generalización
mediante la incorporación del aprendizaje automático en diferentes familias de técnicas.
Los últimos capítulos presentan dos áreas de creciente interés por las particularidades
de los datos cuando forman series temporales, como es el caso de sensores en la In-
ternet de las cosas, o datos geolocalizados que permiten hacer regresión espacial. El
libro presenta una estructura combinada en la que se van alternando la presentación
de los fundamentos teóricos con su aplicación en un problema real utilizando la imple-
mentación en el entorno R. Existe actualmente una gran pugna entre varios lenguajes
en los que implementar los algoritmos que manipularán y extraerán la información de
los datos. Sin lugar a dudas, los más destacados con diferencia, son Python y R frente a
alternativas como Julia, C++, Java, Scala o MATLAB. El flujo del proceso típico de análisis
de datos es aplicar una técnica o algoritmo una sola vez. Esto significa que se ha creado
una regla general entre los científicos de datos a la hora de decidir el lenguaje a utilizar.
Para un proceso que se va a ejecutar una sola vez, ¿qué es mejor: utilizar un lenguaje
que puede llevar treinta minutos en desarrollarlo y ejecutarlo en diez segundos o usar
un lenguaje en el que se tarda diez minutos en desarrollar y un minuto en ejecutar?
Éste es el motivo por el que lenguajes de alto rendimiento, como C++, no tienen un

5
E-Books & Papers for Statisticians

También podría gustarte