Está en la página 1de 1

Ciencia de datos

gran uso en este contexto de problemas. La diferencia entre Python y R es más sutil. R
es un lenguaje de dominio específico, es decir, orientado a un uso específico, el análisis
estadístico y, por tanto, su construcción está pensada y dirigida a ese uso. Sin embargo,
Phyton es un lenguaje de propósito general, más rápido y seguro que R, y cualquier
algoritmo que no sea del ámbito del análisis de datos será más fácil de desarrollar. Pero,
para el análisis estadístico y de datos, R es imbatible, ningún lenguaje posee la variedad
de librerías para tratar, analizar y representar datos, ni una comunidad tan activa que
le permite actualizarse para ir incorporando las últimas técnicas del estado del arte en
el análisis y representación de datos.
Se ha intentado centrar la aplicación con un único ejemplo que se desarrolla en la mayor
parte del libro, el análisis de calidad del aire en la ciudad de Madrid. Hay varias razones
que han motivado esta decisión. Hemos querido ilustrar la aplicación de las diferentes
técnicas sobre un conjunto de datos que nadie antes haya utilizado, debido a que se
acerca a la situación real a la que el futuro científico de datos se enfrentará. Tener
que realizar la exploración de cero, sin conocimiento previo de qué se va a encontrar.
Enfrentarse a la tarea de preparar los datos y realizar las exploraciones estadísticas que
permiten atisbar las técnicas que después han de usarse. Aplicar diferentes algoritmos,
algunos no aportarán resultados, otros funcionarán y entonces habrá que ajustar sus
parámetros y analizar y representar los resultados. Ésta será la rutina habitual de un
científico de datos. Habrá algoritmos que, al aplicarlos a estos datos, no arrojarán buenos
resultados. Esto no es un fracaso, entender por qué un algoritmo no es adecuado pue-
de proporcionar una información muy valiosa acerca de la información que contienen
y cuáles deben ser los siguientes pasos de análisis que deben seguirse. Finalmente,
también se quiere poner de manifiesto la utilidad que puede suponer que se liberen
datos al escrutinio público mediante iniciativas open data.
Por último, el libro refleja la actividad docente e investigadora de los autores, miembros
del grupo de investigación GIAA (Grupo de Inteligencia Artificial Aplicada) de la Uni-
versidad Carlos III de Madrid, en las líneas de investigación de aprendizaje automático,
análisis de datos y optimización para el apoyo a la toma de decisiones en entornos
complejos. Esperamos que el texto sea de utilidad para los lectores y alumnos que
se acerquen a la ciencia de datos, y en particular para aquellos que tengan interés en
aplicar los conocimientos teóricos en el campo de la práctica.

Los autores

6
E-Books & Papers for Statisticians

También podría gustarte