Está en la página 1de 28

Doing Data Science

Straight Talk From The Frontline


--------------------------------------------------------------------------

Haciendo ciencia de datos


Charla directa desde la primera línea

Rachel Schutt, Cathy O’Neil


En cariñosa memoria de Kelly Feeney.
Tabla de contenido
Prefacio
1. Introducción: ¿Qué es la ciencia de datos?
Big Data y ciencia de datos inflada
Superando lo inflado
¿Por qué ahora?
Datificación
El panorama actual (con un poco de historia)
Trabajos de ciencia de datos
Un perfil de ciencia de datos
Experimento mental: metadefinición
Bien, entonces, ¿qué es realmente un científico de datos?
En el mundo académico
En la industria
2. Inferencia estadística, análisis exploratorio de datos y ciencia de datos
Proceso
Pensamiento estadístico en la era de Big Data
Inferencia estadística
Poblaciones y Muestras
Poblaciones y Muestras de Big Data
Big Data puede significar grandes suposiciones
Modelado
Análisis exploratorio de datos
Filosofía del análisis exploratorio de datos
Ejercicio: AED
El proceso de ciencia de datos
El papel de un científico de datos en este proceso
Experimento mental: ¿Cómo simularías el caos?
Estudio de caso: RealDirect
¿Cómo gana dinero RealDirect?
Ejercicio: estrategia de datos RealDirect
3. Algoritmos
Algoritmos de aprendizaje automático
Tres algoritmos básicos
Regresión lineal
k-vecinos más cercanos (k-NN)
k-significa
Ejercicio: algoritmos básicos de aprendizaje automático
Soluciones
Resumiendo todo
Experimento mental: estadístico automatizado
4. Filtros de spam, Naive Bayes y disputas
Experimento mental: aprender con el ejemplo
¿Por qué no funciona la regresión lineal para filtrar spam?
¿Qué hay de k-vecinos más cercanos?
bayesiana ingenua
Ley de Bayes
Un filtro de spam para palabras individuales
Un filtro de spam que combina palabras: Naive Bayes
Fancy It Up: suavizado de Laplace
Comparación de Naive Bayes con k-NN
Ejemplo de código en bash
Scraping de la web: API y otras herramientas
Ejercicio de Jake: Naive Bayes para la clasificación de artículos
Ejemplo de código R para tratar con la API del NYT
5. Regresión logística
Experimentos mentales
Clasificadores
tiempo de ejecución

Interpretabilidad
Escalabilidad
Estudio de caso de regresión logística M6D
Haga clic en Modelos
Las matemáticas subyacentes
Estimación de α y β
Método de Newton
Descenso de gradiente estocástico
Implementación
Evaluación
Ejercicio Media 6 Grados
Ejemplo de código R
6. Sellos de tiempo y modelado financiero
Kyle Teague y GetGlue
Marcas de tiempo
Análisis de datos exploratorios (EDA)
Métricas y Nuevas Variables o Características
¿Que sigue?
Cathy O'Neil
Experimento mental
Modelamiento financiero
Dentro de la muestra, fuera de la muestra y causalidad
Preparación de datos financieros
Registro de devoluciones
Ejemplo: el índice S&P
Elaboración de una medida de volatilidad
Reducción de peso exponencial
El ciclo de retroalimentación del modelo financiero
¿Por qué regresión?
Adición de anteriores
un modelo de bebé
Ejercicio: GetGlue y datos de eventos con marca de tiempo
Ejercicio: Datos Financieros
7. Extraer el significado de los datos
Guillermo Cukierski
Antecedentes: Concursos de ciencia de datos
Antecedentes: Colaboración colectiva
El modelo Kaggle
Un solo concursante
Sus clientes
Experimento mental: ¿Cuáles son las implicaciones éticas de una motoniveladora?
Selección de características
Ejemplo: retención de usuarios
filtros
Envoltorios
Métodos integrados: árboles de decisión
entropía
El algoritmo del árbol de decisión
Manejo de variables continuas en árboles de decisión
Bosques aleatorios
Retención de usuarios: Interpretabilidad frente a poder predictivo
David Huffaker: el enfoque híbrido de Google para las redes sociales
Investigación
Pasar de descriptivo a predictivo
Sociales en Google
Privacidad
Experimento mental: ¿Cuál es la mejor manera de disminuir la preocupación y
aumentar la comprensión y el control?
8. Motores de recomendación: creación de un producto de datos orientado al usuario
a escala
Un motor de recomendación del mundo real
Revisión del algoritmo del vecino más cercano
Algunos problemas con los vecinos más cercanos
Más allá del vecino más cercano: aprendizaje automático
Clasificación
El problema de la dimensionalidad
Descomposición de valores singulares (SVD)
Propiedades importantes de SVD
Análisis de componentes principales (PCA)
Mínimos cuadrados alternos
Arregle V y actualice U
Últimos pensamientos sobre estos algoritmos
Experimento mental: burbujas de filtro
Ejercicio: Cree su propio sistema de recomendación
Código de muestra en Python
9. Visualización de datos y detección de fraude
Historial de visualización de datos
gabriel tarde
Experimento mental de Mark
¿Qué es la ciencia de datos, Redux?
Procesando
Franco Moretti
Una muestra de proyectos de visualización de datos
Proyectos de visualización de datos de Mark
Vestíbulo del New York Times: tipos móviles
Project Cascade: vidas en una pantalla
plaza cronkite
Transacciones y libros de eBay
Máquina de Shakespeare de teatro público
Objetivos de estas exhibiciones
Ciencia de datos y riesgo
Acerca de Plaza
El desafío del riesgo
El problema con la estimación del rendimiento
Consejos de construcción de modelos
Visualización de datos en Square
Experimento mental de Ian
Visualización de datos para el resto de nosotros
Ejercicio de visualización de datos
10. Redes Sociales y Periodismo de Datos
Análisis de Redes Sociales en Morning Analytics
Datos de atributos de casos frente a datos de redes sociales
Análisis de redes sociales
Terminología de las Redes Sociales
Medidas de centralidad
La industria de las medidas de centralidad
Experimento mental
Análisis de la mañana
Cómo nos ayudan las visualizaciones a encontrar bancos de peces
Más antecedentes sobre el análisis de redes sociales desde un punto de vista
estadístico
Representaciones de redes y centralidad de valores propios
Un primer ejemplo de grafos aleatorios: el Erdos-Renyi
Modelo
Un segundo ejemplo de gráficas aleatorias: la exponencial
Modelo de gráfico aleatorio
Periodismo de datos
Un poco de historia sobre el periodismo de datos
Redacción de Periodismo Técnico: Consejos de un Experto
11. Causalidad
La correlación no implica causalidad
Hacer preguntas causales
Factores de confusión: un ejemplo de citas
Aceptar el intento de Cupido
El estándar de oro: ensayos clínicos aleatorizados
Pruebas A/B
Segundo Mejor: Estudios Observacionales
La paradoja de Simpson
El modelo causal de Rubin
Visualizando la Causalidad
Definición: El Efecto Causal
Tres consejos
12. Epidemiología
Antecedentes de Madigan
Experimento mental
Estadísticas académicas modernas
Literatura médica y estudios observacionales
La estratificación no resuelve el problema de confusión
¿Qué hace la gente acerca de confundir las cosas en la práctica?
¿Hay una manera mejor?
Experimento de investigación (asociación de resultados médicos observacionales)
Experimento mental de cierre
13. Lecciones aprendidas de los concursos de datos: fuga de datos y evaluación de modelos
Perfil de científico de datos de Claudia
La vida de un científico jefe de datos
Sobre ser una mujer científica de datos
Concursos de Minería de Datos
Cómo ser un buen modelador
Fuga de datos
Predicciones de mercado
Estudio de caso de Amazon: Grandes gastadores
Un problema de muestreo de joyería
Segmentación de clientes de IBM
Detección de cáncer de mama
Predicción de neumonía
Cómo evitar fugas
Evaluación de modelos
Precisión: Meh
Las probabilidades importan, no los 0 y los 1
Elegir un algoritmo
Un último ejemplo
pensamientos de despedida
14. Ingeniería de datos: MapReduce, Pregel y Hadoop
Sobre David Crawshaw
Experimento mental
Mapa reducido
Problema de frecuencia de palabras
Introduzca MapReduce
Otros ejemplos de MapReduce
Lo que MapReduce no puede hacer
Pregel
Acerca de Josh Wills
Experimento mental
Sobre ser un científico de datos
Abundancia de datos frente a escasez de datos
Diseño de modelos
Interludio económico: Hadoop
Una breve introducción a Hadoop
Cloudera
Volver a Josh: flujo de trabajo
Entonces, ¿cómo empezar con Hadoop?
15. Los estudiantes hablan
Pensamiento de proceso
Ya no es ingenuo
Manos amigas
Su experiencia puede ser diferente
Túneles puente
Algunos de nuestros trabajos
16. Científicos de datos de próxima generación, arrogancia y ética
¿Lo que acaba de suceder?
¿Qué es la ciencia de datos (otra vez)?
¿Qué son los científicos de datos de última generación?
Ser solucionadores de problemas
Cultivando habilidades blandas
Ser preguntadores
Ser un científico de datos ético
Orientación profesional
Prefacio
Rachel Schutt

La ciencia de datos es un campo emergente en la industria y, hasta el momento, no está bien


definido como materia académica. Este libro representa una investigación en curso sobre la
pregunta central: "¿Qué es la ciencia de datos?" Se basa en una clase llamada "Introducción a
la ciencia de datos", que diseñé y enseñé en la Universidad de Columbia por primera vez en el
otoño de 2012.

Para entender este libro y sus orígenes, puede que te ayude entender un poco sobre mí y
cuáles fueron mis motivaciones para crear la clase.

Motivación
En resumen, creé un curso que desearía haber existido cuando estaba en la universidad, pero
eso fue en la década de 1990 y no estábamos en medio de una explosión de datos, por lo que
la clase no podría haber existido en ese entonces. Me especialicé en matemáticas cuando era
estudiante universitario, y el camino en el que estaba era teórico y orientado a la corrección. Si
bien me alegro de haber tomado este camino y siento que me entrenó para la resolución
rigurosa de problemas, también me hubiera gustado haber estado expuesto a las formas en
que esas habilidades podrían usarse para resolver problemas del mundo real.

Tomé un camino errante entre la universidad y un programa de doctorado en estadística,


luchando por encontrar mi campo y lugar, un lugar donde pudiera poner en práctica mi amor
por encontrar patrones y resolver acertijos. Menciono esto porque muchos estudiantes
sienten que necesitan saber qué "van a hacer con sus vidas" ahora, y cuando yo era
estudiante, no podía planear trabajar en ciencia de datos porque aún no era un campo. Mi
consejo para los estudiantes (y cualquier otra persona que quiera escuchar): no es necesario
que lo averigüen todo ahora. Está bien tomar un camino errante. ¿Quién sabe lo que podrías
encontrar? Después de obtener mi doctorado, trabajé en Google durante algunos años,
aproximadamente al mismo tiempo que "ciencia de datos" y "científico de datos" se estaban
convirtiendo en términos en Silicon Valley.

El mundo se está abriendo con posibilidades para las personas que tienen una mentalidad
cuantitativa y están interesadas en poner sus cerebros a trabajar para resolver los problemas
del mundo. Considero que mi objetivo es ayudar a estos estudiantes a convertirse en
pensadores críticos, solucionadores creativos de problemas (incluso aquellos que aún no han
sido identificados) y curiosos que hacen preguntas. Si bien es posible que nunca construya un
modelo matemático que sea una parte de la cura para el cáncer, o que identifique el misterio
subyacente del autismo, o que prevenga los ataques terroristas, me gusta pensar que estoy
haciendo mi parte al enseñar a los estudiantes que algún día podrían hacer estas cosas. Y al
escribir este libro, estoy expandiendo mi alcance a una audiencia aún más amplia de científicos
de datos que espero se inspiren con este libro, o aprendan herramientas en él, para hacer que
el mundo sea mejor y no peor.

La construcción de modelos y el trabajo con datos no tienen valor neutral. Usted elige los
problemas en los que trabajará, hace suposiciones en esos modelos, elige métricas y diseña los
algoritmos.
Es posible que las soluciones a todos los problemas del mundo no se encuentren en los datos y
la tecnología; de hecho, la marca de un buen científico de datos es alguien que puede
identificar problemas que se pueden resolver con datos y que conoce bien las herramientas de
modelado y código. Pero sí creo que los equipos interdisciplinarios de personas que incluyen
un experto en datos, una mentalidad cuantitativa y un solucionador de problemas con
conocimientos de codificación (llamemos a esa persona "científico de datos") podrían ser muy
útiles.

Orígenes de la Clase
Propuse la clase en marzo de 2012. En ese momento, había tres razones principales. El primero
tomará más tiempo para explicar.

Razón 1: Quería brindarles a los estudiantes una educación sobre lo que es ser un científico de
datos en la industria y brindarles algunas de las habilidades que tienen los científicos de datos.

Estaba trabajando en el equipo de ciencia de datos de Google+ con un equipo interdisciplinario


de doctores. Estaba yo (un estadístico), un científico social, un ingeniero, un físico y un
científico informático. Éramos parte de un equipo más grande que incluía ingenieros de datos
talentosos que construyeron las canalizaciones de datos, la infraestructura y los tableros, así
como también construyeron la infraestructura experimental (pruebas A/B). Nuestro equipo
tenía una estructura plana. Juntas, nuestras habilidades eran poderosas y pudimos hacer cosas
asombrosas con conjuntos de datos masivos, incluido el modelado predictivo, la creación de
prototipos de algoritmos y el descubrimiento de patrones en los datos que tuvieron un gran
impacto en el producto.

Brindamos a los líderes conocimientos para tomar decisiones basadas en datos, al mismo
tiempo que desarrollamos nuevas metodologías y formas novedosas de comprender la
causalidad. Nuestra capacidad para hacer esto dependía de una ingeniería e infraestructura de
primer nivel. Cada uno de nosotros aportó una combinación sólida de habilidades al equipo,
que en conjunto incluyeron codificación, ingeniería de software, estadísticas, matemáticas,
aprendizaje automático, comunicación, visualización, análisis exploratorio de datos (EDA),
sentido de datos e intuición, así como experiencia en redes sociales y el espacio social.

Para ser claros, ninguno de nosotros sobresalió en todas esas cosas, pero juntos lo hicimos;
reconocimos el valor de todas esas habilidades, y es por eso que prosperamos. Lo que
teníamos en común era la integridad y un interés genuino en resolver problemas interesantes,
siempre con una mezcla saludable de escepticismo y una sensación de entusiasmo por el
descubrimiento científico. Nos preocupamos por lo que estábamos haciendo y amamos
descubrir patrones en los datos.

Vivo en Nueva York y quería llevar mi experiencia en Google a los estudiantes de la


Universidad de Columbia porque creo que esto es algo que necesitan saber y porque disfruto
enseñando. Quería enseñarles lo que había aprendido en el trabajo. Y reconocí que había una
comunidad emergente de científicos de datos en la escena tecnológica de Nueva York, y quería
que los estudiantes también escucharan de ellos.

Un aspecto de la clase fue que tuvimos conferencias invitadas de científicos de datos que
actualmente trabajan en la industria y la academia, cada uno de los cuales tenía una
combinación diferente de habilidades. Escuchamos una diversidad de perspectivas, que
contribuyeron a una comprensión holística de la ciencia de datos.
Razón 2: la ciencia de datos tiene el potencial de ser una disciplina de investigación profunda y
profunda que impacta todos los aspectos de nuestras vidas. La Universidad de Columbia y el
alcalde Bloomberg anunciaron el Instituto de Ciencias e Ingeniería de Datos en julio de 2012.
Este curso creó una oportunidad para desarrollar la teoría de la ciencia de datos y formalizarla
como una ciencia legítima.

Razón 3: Seguí escuchando de los científicos de datos en la industria que no se puede enseñar
ciencia de datos en un salón de clases o en un entorno universitario, y lo tomé como un
desafío. Pensé en mi salón de clases como una incubadora de equipos de ciencia de datos. Los
estudiantes que tuve fueron muy impresionantes y se están convirtiendo en científicos de
datos de primer nivel. Han contribuido con un capítulo a este libro, de hecho.

Orígenes del libro


La clase no se habría convertido en un libro si no hubiera conocido a Cathy O'Neil, una
matemática convertida en científica de datos y bloguera destacada y franca en mathbabe.org,
donde su sección "Acerca de" dice que espera tener algún día una mejor respuesta a la
pregunta: "¿Qué puede hacer un matemático no académico que haga del mundo un lugar
mejor?" Cathy y yo nos conocimos cuando propuse el curso y ella trabajaba como científica de
datos en una startup. Me animó y apoyó mis esfuerzos para crear la clase y se ofreció a venir y
publicarla en el blog. Dado que soy una persona bastante reservada, inicialmente no me sentí
cómodo con esta idea. Pero Cathy me convenció al señalar que esta era una oportunidad para
poner ideas sobre la ciencia de datos en el ámbito público como una voz que va en contra del
marketing y la exageración que está sucediendo en torno a la ciencia de datos.

Cathy asistió a todas las clases y se sentó en la primera fila para hacer preguntas, y también fue
disertante invitada (vea el Capítulo 6). Además de documentar la clase en su blog, realizó
valiosas contribuciones intelectuales al contenido del curso, incluso recordándonos los
componentes éticos del modelaje. Ella también me animó a escribir un blog y, además de
documentar la clase, mantuve un blog para comunicarme directamente con mis alumnos, así
como capturar la experiencia de enseñar ciencia de datos con la esperanza de que fuera útil
para otros profesores. Todas las entradas del blog de Cathy para el curso, y algunas mías, se
convirtieron en la materia prima de este libro. Agregamos material adicional y lo revisamos y
editamos y lo hicimos mucho más sólido que los blogs, por lo que ahora es un libro completo.

Qué esperar de este libro


En este libro, queremos tanto describir como prescribir. Queremos describir el estado actual
de la ciencia de datos mediante la observación de un conjunto de pensadores de primer nivel
que describen sus trabajos y cómo es "hacer ciencia de datos". También queremos prescribir lo
que podría ser la ciencia de datos como disciplina académica.

No espere un libro de texto de aprendizaje automático. En cambio, espere una inmersión total
en los aspectos multifacéticos de la ciencia de datos desde múltiples puntos de vista. Esta es
una encuesta del panorama existente de la ciencia de datos, un intento de mapear este campo
emergente, y como resultado, en algunos casos hay más amplitud que profundidad.

Este libro está escrito con la esperanza de que llegue a manos de alguien —¿usted?— que
sacará más provecho de él de lo que es y resolverá problemas importantes.
Después de que terminó la clase, escuché que se caracterizó como un enfoque holístico y
humanista de la ciencia de datos: no solo nos enfocamos en las herramientas, las matemáticas,
los modelos, los algoritmos y el código, sino también en el lado humano. Me gusta esta
definición de humanista: “una persona que tiene un gran interés o preocupación por el
bienestar, los valores y la dignidad humanos”. Ser humanista en el contexto de la ciencia de
datos significa reconocer el papel que juega su propia humanidad en la construcción de
modelos y algoritmos, pensar en las cualidades que tiene como humano que una computadora
no tiene (lo que incluye la capacidad de tomar decisiones éticas) y pensar en los humanos
cuyas vidas estás impactando cuando liberas un modelo en el mundo.

Cómo está organizado este libro


Este libro está organizado en el mismo orden que la clase. Comenzaremos con material
introductorio sobre la pregunta central: "¿Qué es la ciencia de datos?" e introducir el proceso
de ciencia de datos como un principio organizador. En los capítulos 2 y 3, comenzaremos con
una descripción general del modelado estadístico y los algoritmos de aprendizaje automático
como base para el resto del libro. Luego, en los Capítulos 4–6 y 8, veremos ejemplos
específicos de modelos y algoritmos en contexto. En el Capítulo 7, escucharemos cómo extraer
significado de los datos y crear características para incorporar en los modelos. Los capítulos 9 y
10 involucran dos de las áreas que tradicionalmente no se enseñan (pero esto está cambiando)
en la academia: visualización de datos y redes sociales. Pasaremos de la predicción a la
causalidad en los capítulos 11 y 12. Los capítulos 13 y 14 tratarán sobre la preparación e
ingeniería de datos. El Capítulo 15 nos permite escuchar a los estudiantes que tomaron la clase
sobre cómo fue aprender ciencia de datos, y luego terminaremos contándoles en el Capítulo
16 sobre lo que esperamos para el futuro de la ciencia de datos.

Cómo leer este libro


En términos generales, este libro tendrá más sentido si lo lee de forma lineal porque muchos
de los conceptos se basan unos en otros. También es posible que necesite leer este libro con
material complementario si tiene lagunas en su historial de probabilidad y estadística, o si
nunca antes ha codificado. Hemos tratado de dar sugerencias a lo largo del libro para lecturas
adicionales. Esperamos que cuando no entienda algo en el libro, tal vez debido a lagunas en
sus antecedentes o una explicación inadecuada de nuestra parte, aproveche este momento de
confusión como una oportunidad para investigar más los conceptos.

Cómo se usa el código en este libro


Este no es un manual de instrucciones, por lo que el código se usa para proporcionar ejemplos,
pero en muchos casos, puede requerir que lo implemente usted mismo y juegue con él para
comprenderlo realmente.

Para quien es este libro


Debido a la cobertura de los medios en torno a la ciencia de datos y la caracterización de los
científicos de datos como "estrellas de rock", es posible que sienta que es imposible para usted
ingresar a este ámbito. Si eres el tipo de persona a la que le encanta resolver acertijos y
encontrar patrones, ya sea que te consideres un quant o no, entonces la ciencia de datos es
para ti.
Este libro está destinado a personas que provienen de una amplia variedad de orígenes.
Esperamos y confiamos en que diferentes personas obtengan cosas diferentes según sus
fortalezas y debilidades.

• Los científicos de datos experimentados quizás lleguen a verse y entenderse a sí


mismos y lo que hacen bajo una nueva luz.

• Los estadísticos pueden obtener una apreciación de la relación entre la ciencia de


datos y las estadísticas. O pueden continuar manteniendo la actitud, "eso es solo
estadística", en cuyo caso nos gustaría ver ese argumento claramente articulado.

• Los doctores en matemáticas, física u otras ciencias que están pensando en hacer la
transición a la ciencia de datos o desarrollar sus habilidades en ciencia de datos
obtendrán una perspectiva de lo que eso requeriría o significaría.

• Los estudiantes y los nuevos en la ciencia de datos se verán envueltos en lo más


profundo, así que, si no entiende todo (everything) todo (all) el tiempo, no se
preocupe; eso es parte del proceso.

• Aquellos que nunca antes hayan escrito código en R o Python querrán tener un
manual para aprender R o Python. Recomendamos The Art of R Programming de
Norman Matloff (No Starch Press). Los estudiantes que tomaron el curso también se
beneficiaron de la instrucción experta del instructor de laboratorio, Jared Lander, cuyo
libro R for Everyone: Advanced Analytics and Graphics (Addison-Wesley) se publicará
en noviembre de 2013. También es posible hacer todos los ejercicios usando paquetes
en Python.

• Para aquellos que nunca han codificado antes, se aplica el mismo consejo. También
puede considerar elegir Learning Python de Mark Lutz y David Ascher (O'Reilly) o
Python for Data Analysis de Wes McKinney (también O'Reilly).

Requisitos previos
Asumimos requisitos previos de álgebra lineal, algo de probabilidad y estadística, y algo de
experiencia en codificación en cualquier idioma. Aun así, intentaremos que el libro sea lo más
autónomo posible, teniendo en cuenta que depende de ti hacer una lectura complementaria si
te falta algo de ese trasfondo. Intentaremos señalar lugares a lo largo del libro donde la lectura
complementaria podría ayudarlo a obtener una comprensión más profunda.

Lectura suplementaria
Este libro es una descripción general del panorama de un nuevo campo emergente con raíces
en muchas otras disciplinas: inferencia estadística, algoritmos, modelado estadístico,
aprendizaje automático, diseño experimental, optimización, probabilidad, inteligencia artificial,
visualización de datos y análisis exploratorio de datos. El desafío al escribir este libro ha sido
que cada una de estas disciplinas corresponde a varios cursos académicos o libros por derecho
propio. Puede haber momentos en que las lagunas en el conocimiento previo del lector
requieran una lectura complementaria.

Matemáticas
• Linear Algebra and Its Applications por Gilbert Strang (Cengage Learning)
• Convex Optimization por Stephen Boyd y Lieven Vendenberghe (Cambridge University Press)

• A First Course in Probability (Pearson) e Introduction to Probability Models (Academic Press)


de Sheldon Ross

Codificación
• R in a Nutshell de Joseph Adler (O'Reilly)

• Learning Python por Mark Lutz y David Ascher (O'Reilly)

• R for Everyone: Advanced Analytics and Graphics por Jared Lander (Addison-Wesley)

• The Art of R Programming: A Tour of Statistical Software Design por Norman Matloff (No
Starch Press)

• Python for Data Analysis por Wes McKinney (O'Reilly)

Análisis de Datos e Inferencia Estadística


• Statistical Inference por George Casella y Roger L. Berger (Cengage Learning)

• Bayesian Data Analysis por Andrew Gelman, et al. (Chapman y Salón)

• Data Analysis Using Regression and Multilevel/Hierarchical Models por Andrew Gelman y
Jennifer Hill (Cambridge University Press)

• Advanced Data Analysis from an Elementary Point of View por Cosma Shalizi (bajo contrato
con Cambridge University Press)

• The Elements of Statistical Learning: Data Mining, Inference and Prediction por Trevor Hastie,
Robert Tibshirani y Jerome Friedman (Springer)

Inteligencia artificial y aprendizaje automático


• Pattern Recognition and Machine Learning por Christopher Bishop (Springer)

• Bayesian Reasoning and Machine Learning por David Barber (Cambridge University Press)

• Programming Collective Intelligence por Toby Segaran (O'Reilly)

• Artificial Intelligence: A Modern Approach por Stuart Russell y Peter Norvig (Prentice Hall)

• Foundations of Machine Learning por Mehryar Mohri, Afshin Rostamizadeh y Ameet


Talwalkar (MIT Press)

• Introduction to Machine Learning (Adaptive Computation and Machine Learning) por Ethem
Alpaydim (MIT Press)

Diseño experimental
• Field Experiments por Alan S. Gerber y Donald P. Green (Norton)

• Statistics for Experimenters: Design, Innovation, and Discovery por George E. P. Box, et al.
(Wiley-Interciencia)

Visualización
• The Elements of Graphing Data por William Cleveland (Hobart Press)

• Visualize This: The FlowingData Guide to Design, Visualization, and Statistics por Nathan Yau
(Wiley)

Sobre los colaboradores


El curso no habría sido un éxito sin los muchos profesores invitados que vinieron a hablar a la
clase. Si bien di algunas de las conferencias, la gran mayoría fueron impartidas por invitados de
nuevas empresas y empresas tecnológicas, así como por profesores de la Universidad de
Columbia. La mayoría de los capítulos de este libro se basan en esas conferencias. Si bien, en
términos generales, los colaboradores no escribieron el libro, contribuyeron con muchas de las
ideas y el contenido del libro, revisaron sus capítulos y ofrecieron comentarios, y les estamos
agradecidos. La clase y el libro no habrían existido sin ellos. Los invité a hablar en la clase
porque los presento como modelos a seguir para los aspirantes a científicos de datos.

Las convenciones usadas en este libro


En este libro se utilizan las siguientes convenciones tipográficas:

Itálico

Indica nuevos términos, URL, direcciones de correo electrónico, nombres de archivo y


extensiones de archivo.

Ancho constante

Se utiliza para listas de programas, así como dentro de párrafos para hacer referencia a
elementos de programas como nombres de variables o funciones, bases de datos, tipos de
datos, variables de entorno, declaraciones y palabras clave.

Negrita de ancho constante

Muestra comandos u otro texto que el usuario debe escribir literalmente.

Cursiva de ancho constante

Muestra texto que debe reemplazarse con valores proporcionados por el usuario o por valores
determinados por el contexto.

Este icono representa un consejo, una sugerencia o una nota general.

Este icono indica una advertencia o precaución.

Uso de ejemplos de código


El material complementario (conjuntos de datos, ejercicios, etc.) está disponible para
descargar en https://github.com/oreillymedia/doing_data_science.

Este libro está aquí para ayudarle a hacer su trabajo. En general, si se ofrece un código de
ejemplo con este libro, puede usarlo en sus programas y documentación. No necesita
comunicarse con nosotros para obtener permiso a menos que esté reproduciendo una parte
significativa del código. Por ejemplo, escribir un programa que use varios fragmentos de
código de este libro no requiere permiso. Vender o distribuir un CD-ROM de ejemplos de libros
de O'Reilly requiere permiso. Responder una pregunta citando este libro y citando código de
ejemplo no requiere permiso. La incorporación de una cantidad significativa de código de
ejemplo de este libro en la documentación de su producto requiere permiso.

Apreciamos, pero no requerimos, atribución. Una atribución suele incluir el título, el autor, el
editor y el ISBN. Por ejemplo: “Doing Data Science de Rachel Schutt y Cathy O’Neil (O’Reilly).
Copyright 2014 Rachel Schutt y Cathy O'Neil, 978-1-449-35865-5".

Si cree que su uso de los ejemplos de código está fuera del uso justo o del permiso otorgado
anteriormente, no dude en contactarnos en permisos@oreilly.com.
Agradecimientos
Rachel desea agradecer a sus influencias de Google: David Huffaker, Makoto Uchida, Andrew
Tomkins, Abhijit Bose, Daryl Pregibon, Diane Lambert, Josh Wills, David Crawshaw, David
Gibson, Corinna Cortes, Zach Yeskel y Gueorgi Kossinetts. Del departamento de estadísticas de
Columbia: Andrew Gelman y David Madigan; y el instructor de laboratorio y asistente de
enseñanza del curso, Jared Lander y Ben Reddy.

Rachel agradece el amoroso apoyo de familiares y amigos, especialmente de Eran Goldshtein,


Barbara y Schutt, Becky, Susie y Alex, Nick, Lilah, Belle, Shahed y los Feeney.

Cathy quisiera agradecer a su familia y amigos, incluidos sus maravillosos hijos y su esposo,
que la dejaron salir una vez a la semana para escribir un blog sobre la clase vespertina.

Ambos queremos agradecer:

• El grupo de expertos que se reunió en el apartamento de Cathy: Chris Wiggins, David


Madigan, Mark Hansen, Jake Hofman, Ori Stitelman y Brian Dalessandro.

• Nuestros editores, Courtney Nash y Mike Loukides.

• Los participantes y organizadores de la conferencia de modelado a nivel de usuario


de IMA donde tuvieron lugar algunas conversaciones preliminares.

• ¡Los estudiantes!

• Coppelia, donde Cathy y Rachel se reunían mucho para desayunar.

También nos gustaría agradecer a John Johnson y David Park de Johnson Research Labs por su
generosidad y el tiempo que dedicaron a escribir este libro.
CAPÍTULO 1
Introducción: ¿Qué es la ciencia de datos?

En los últimos años, ha habido mucha publicidad en los medios de comunicación sobre la
"ciencia de datos" y el "Big Data". Una primera reacción razonable a todo esto podría ser una
combinación de escepticismo y confusión; de hecho, nosotros, Cathy y Rachel, tuvimos
exactamente esa reacción.

Y nos entregamos a nuestro desconcierto por un tiempo, primero por separado y luego, una
vez que nos encontramos, juntos en muchos desayunos de los miércoles por la mañana. Pero
no podíamos deshacernos de una sensación persistente de que había algo real allí, tal vez algo
profundo (deep) y significativo (profound) que representaba un cambio de paradigma en
nuestra cultura en torno a los datos. Quizás, consideramos, es incluso un cambio de paradigma
que juega con nuestras fortalezas. En lugar de ignorarlo, decidimos explorarlo más.

Pero antes de entrar en eso, profundicemos primero en lo que nos pareció confuso y vago: tal
vez usted haya tenido inclinaciones similares. Después de eso, explicaremos qué nos hizo
superar nuestras propias preocupaciones, hasta el punto en que Rachel creó un curso sobre
ciencia de datos en la Universidad de Columbia, Cathy publicó el curso en un blog y ahora estás
leyendo un libro basado en él.

Big Data y ciencia de datos inflada (hype)


Quitemos esto del camino de inmediato, porque muchos de ustedes probablemente ya son
escépticos de la ciencia de datos por muchas de las razones por las que nosotros lo somos.
Queremos abordar esto desde el principio para hacerle saber: estamos allí con usted. Si usted
también es escéptico, probablemente signifique que tiene algo útil para contribuir a hacer de
la ciencia de datos un campo más legítimo que tiene el poder de tener un impacto positivo en
la sociedad.

Entonces, ¿qué es lo que sorprende de Big Data y la ciencia de datos? Contemos las formas:

1. Hay una falta de definiciones en torno a la terminología más básica. ¿Qué es "Big
Data" de todos modos? ¿Qué significa “ciencia de datos”? ¿Cuál es la relación entre Big
Data y la ciencia de datos? ¿Es la ciencia de datos la ciencia del Big Data? ¿La ciencia de
datos es solo lo que sucede en empresas como Google y Facebook y empresas
tecnológicas? ¿Por qué muchas personas se refieren a Big Data como disciplinas
cruzadas (astronomía, finanzas, tecnología, etc.) y a la ciencia de datos como algo que
solo tiene lugar en tecnología? ¿Qué tan grande es big? ¿O es solo un término
relativo? Estos términos son tan ambiguos que casi no tienen sentido.

2. Existe una clara falta de respeto por los investigadores en la academia y los
laboratorios industriales que han estado trabajando en este tipo de cosas durante años
y cuyo trabajo se basa en décadas (en algunos casos, siglos) de trabajo de estadísticos,
informáticos, matemáticos, ingenieros y científicos de todo tipo. Por la forma en que
los medios lo describen, los algoritmos de aprendizaje automático se inventaron la
semana pasada y los datos nunca fueron "grandes" hasta que apareció Google. Esto
simplemente no es el caso. Muchos de los métodos y técnicas que estamos usando, y
los desafíos que enfrentamos ahora, son parte de la evolución de todo lo que vino
antes. Esto no significa que no estén sucediendo cosas nuevas y emocionantes, pero
creemos que es importante mostrar un respeto básico por todo lo que sucedió antes.

3. La exageración es una locura: la gente lanza frases cansadas directamente del


apogeo de la era anterior a la crisis financiera como "Masters of the Universe" para
describir a los científicos de datos, y eso no es un buen augurio. En general, la
exageración enmascara la realidad y aumenta la relación ruido-señal. Cuanto más dure
la exageración, más nos rechazará y más difícil será ver qué hay de bueno debajo de
todo, si es que hay algo.

4. Los estadísticos ya sienten que están estudiando y trabajando en la “Ciencia de los


datos”. Ese es su pan y mantequilla. Tal vez usted, querido lector, no sea un estadístico
y no le importe, pero imagine que, para el estadístico, esto se parece un poco a lo que
el robo de identidad podría sentir para usted. Aunque argumentaremos que la ciencia
de datos no es solo un cambio de marca de las estadísticas o el aprendizaje
automático, sino un campo en sí mismo, los medios a menudo describen la ciencia de
datos de una manera que suena como si se tratara simplemente de estadísticas o
aprendizaje automático en el contexto de la industria tecnológica.

5. La gente nos ha dicho: “Cualquier cosa que tenga que llamarse ciencia no lo es”.
Aunque puede haber algo de verdad allí, eso no significa que el término "ciencia de
datos" en sí mismo no represente nada, pero, por supuesto, lo que representa puede
no ser ciencia sino más bien un oficio.

Superando lo inflado
La experiencia de Rachel al pasar de obtener un doctorado en estadística a trabajar en Google
es un gran ejemplo para ilustrar por qué pensamos, a pesar de las razones antes mencionadas
para tener dudas, que podría haber algo de carne en el emparedado de ciencia de datos. En
sus palabras:

Rápidamente me quedó claro que las cosas en las que estaba trabajando en Google
eran diferentes a todo lo que había aprendido en la escuela cuando obtuve mi
doctorado en estadística. Esto no quiere decir que mi título fuera inútil; lejos de eso, lo
que había aprendido en la escuela proporcionó un marco y una forma de pensar en los
que confiaba a diario, y gran parte del contenido real proporcionó una sólida base
teórica y práctica necesaria para hacer mi trabajo.

Pero también tuve que adquirir muchas habilidades en el trabajo en Google que no
había aprendido en la escuela. Por supuesto, mi experiencia es específica para mí en el
sentido de que tenía experiencia en estadísticas y adquirí más habilidades de
computación, codificación y visualización, así como experiencia en el dominio mientras
estaba en Google. Otra persona que entrara como científico informático, científico
social o físico tendría diferentes lagunas y las llenaría en consecuencia. Pero lo
importante aquí es que, como individuos, cada uno de nosotros tenía diferentes
fortalezas y brechas, pero pudimos resolver problemas al unirnos en un equipo de
datos bien preparado para resolver los problemas de datos que se nos presentaron.

Aquí hay una respuesta razonable que podría tener a esta historia. Es una perogrullada general
que, cada vez que vas de la escuela a un trabajo real, te das cuenta de que hay una brecha
entre lo que aprendiste en la escuela y lo que haces en el trabajo. En otras palabras,
simplemente se enfrentaba a la diferencia entre las estadísticas académicas y las estadísticas
de la industria.

Tenemos un par de respuestas a esto:

• Claro, hay una diferencia entre la industria y la academia. Pero ¿realmente tiene que
ser así? ¿Por qué muchos cursos en la escuela tienen que estar tan intrínsecamente
fuera de contacto con la realidad?

• Aun así, la brecha no representa simplemente una diferencia entre las estadísticas de
la industria y las estadísticas académicas. La experiencia general de los científicos de
datos es que, en su trabajo, tienen acceso a un conjunto más amplio de conocimientos
y metodología, así como a un proceso, que ahora definimos como el proceso de ciencia
de datos (detalles en el Capítulo 2), que tiene fundamentos tanto en estadística como
en informática.

Alrededor de todo el bombo, en otras palabras, hay un anillo de verdad: esto es algo nuevo.
Pero al mismo tiempo, es una idea frágil y naciente con un riesgo real de ser rechazada
prematuramente. Por un lado, se está exhibiendo como una varita mágica, generando
expectativas poco realistas que seguramente serán decepcionadas.

Rachel se dio a sí misma la tarea de comprender el fenómeno cultural de la ciencia de datos y


cómo otros lo estaban experimentando. Comenzó a reunirse con personas en Google, en
empresas emergentes y tecnológicas, y en universidades, principalmente de los
departamentos de estadística.

A partir de esas reuniones, comenzó a formarse una imagen más clara de lo nuevo que está
surgiendo. Finalmente, decidió continuar con la investigación dando un curso en Columbia
llamado "Introducción a la ciencia de datos", que Cathy cubrió en su blog. Pensamos que, para
el final del semestre, nosotros, y con suerte los estudiantes, sabríamos lo que todo esto
realmente significaba. Y ahora, con este libro, esperamos hacer lo mismo por muchas más
personas.

¿Por qué ahora?


Tenemos cantidades masivas de datos sobre muchos aspectos de nuestras vidas y, al mismo
tiempo, una gran cantidad de poder de cómputo económico. Comprar, comunicarse, leer
noticias, escuchar música, buscar información, expresar nuestras opiniones: todo esto se
rastrea en línea, como la mayoría de la gente sabe.

Lo que la gente quizás no sepa es que la "datificación" de nuestro comportamiento fuera de


línea también ha comenzado, reflejando la revolución de la recopilación de datos en línea (más
sobre esto más adelante). Ponga los dos juntos, y hay mucho que aprender sobre nuestro
comportamiento y, por extensión, quiénes somos como especie.

Sin embargo, no se trata solo de datos de Internet: son las finanzas, la industria médica, los
productos farmacéuticos, la bioinformática, el bienestar social, el gobierno, la educación, el
comercio minorista y la lista continúa. Hay una influencia creciente de los datos en la mayoría
de los sectores y la mayoría de las industrias. En algunos casos, la cantidad de datos
recopilados puede ser suficiente para considerarse "grande" (más sobre esto en el próximo
capítulo); en otros casos, no lo es.
Pero no es solo la masividad lo que hace que todos estos nuevos datos sean interesantes (o
que planteen desafíos). Es que los datos en sí mismos, a menudo en tiempo real, se convierten
en los componentes básicos de los productos de datos. En Internet, esto significa sistemas de
recomendación de Amazon, recomendaciones de amigos en Facebook, recomendaciones de
películas y música, etc. En finanzas, esto significa calificaciones crediticias, algoritmos
comerciales y modelos. En educación, esto está comenzando a significar un aprendizaje
personalizado dinámico y evaluaciones que surgen de lugares como Knewton y Khan Academy.
En el gobierno, esto significa políticas basadas en datos.

Estamos presenciando el comienzo de un ciclo de retroalimentación masivo y culturalmente


saturado en el que nuestro comportamiento cambia el producto y el producto cambia nuestro
comportamiento. La tecnología lo hace posible: infraestructura para el procesamiento de
datos a gran escala, mayor memoria y ancho de banda, así como una aceptación cultural de la
tecnología en el tejido de nuestras vidas. Esto no era cierto hace una década.

Teniendo en cuenta el impacto de este circuito de retroalimentación, debemos comenzar a


pensar seriamente en cómo se lleva a cabo, junto con las responsabilidades éticas y técnicas
de las personas responsables del proceso. Uno de los objetivos de este libro es una primera
puñalada en esa conversación.

Datificación (datafication)
En la edición de mayo/junio de 2013 de Foreign Affairs, Kenneth Neil Cukier y Viktor Mayer-
Schoenberger escribieron un artículo titulado “El auge de los grandes datos”. En él discuten el
concepto de datificación, y su ejemplo es cómo cuantificamos las amistades con “me gusta”: es
la forma en que todo lo que hacemos, en línea o no, termina registrado para su posterior
examen en las unidades de almacenamiento de datos de alguien. O tal vez varias unidades de
almacenamiento, y tal vez también a la venta.

Definen la datificación como un proceso de “tomar todos los aspectos de la vida y convertirlos
en datos”. Como ejemplos mencionan que “las gafas de realidad aumentada de Google datan
la mirada. Twitter data los pensamientos perdidos. LinkedIn datifica las redes profesionales”.

La datificación es un concepto interesante y nos llevó a considerar su importancia con respecto


a las intenciones de las personas sobre compartir sus propios datos. Estamos siendo
datificados, o mejor dicho, nuestras acciones lo son, y cuando "nos gusta" alguien o algo en
línea, tenemos la intención de ser datificados, o al menos deberíamos esperar que lo sea. Pero
cuando simplemente navegamos por la Web, sin querer, o al menos pasivamente, estamos
siendo informados a través de cookies de las que podemos o no ser conscientes. Y cuando
caminamos por una tienda, o incluso por la calle, estamos siendo datificados de forma
totalmente involuntaria, a través de sensores, cámaras o gafas de Google.

Este espectro de intencionalidad va desde participar alegremente en un experimento en las


redes sociales del que estamos orgullosos, hasta la vigilancia y el acecho absolutos. Pero todo
es datificación. Nuestras intenciones pueden abarcar toda la gama, pero los resultados no.

Siguen su definición en el artículo con una línea que dice mucho sobre su perspectiva:

Una vez que dataficamos las cosas, podemos transformar su propósito y convertir la
información en nuevas formas de valor.
Aquí hay una pregunta importante a la que volveremos a lo largo del libro: ¿quiénes somos
“nosotros” en ese caso? ¿A qué tipo de valores se refieren? En su mayoría, dados sus
ejemplos, el "nosotros" son los modeladores y empresarios que ganan dinero haciendo que la
gente compre cosas, y el "valor" se traduce en algo así como una mayor eficiencia a través de
la automatización.

Si queremos pensar en grande, si queremos que nuestro “nosotros” se refiera a las personas
en general, estaremos nadando contra la corriente.

El panorama actual (con un poco de historia)


Entonces, ¿qué es la ciencia de datos? ¿Es nuevo, o son solo estadísticas o análisis
renombrados? ¿Es real o es pura exageración? Y si es nuevo y si es real, ¿qué significa eso?

Esta es una discusión en curso, pero una forma de comprender lo que está sucediendo en esta
industria es buscar en línea y ver qué discusiones se están llevando a cabo actualmente. Esto
no necesariamente nos dice qué es la ciencia de datos, pero al menos nos dice lo que otras
personas piensan que es, o cómo lo perciben. Por ejemplo, en Quora hay una discusión de
2010 sobre "¿Qué es la ciencia de datos?" y aquí está la respuesta del CEO de Metamarket,
Mike Driscoll:

La ciencia de datos, tal como se practica, es una combinación de piratería impulsada


por Red-Bull y estadísticas inspiradas en el espresso.

Pero la ciencia de datos no es simplemente piratería, porque cuando los piratas


informáticos terminan de depurar sus frases Bash one-liner y Pig scripts, pocos de ellos
se preocupan por las métricas de distancia no euclidianas.

Y la ciencia de datos no es simplemente estadística, porque cuando los estadísticos


terminan de teorizar el modelo perfecto, pocos podrían leer un archivo delimitado por
tabulaciones en R si su trabajo dependiera de ello.

La ciencia de datos es la ingeniería civil de los datos. Sus acólitos poseen un


conocimiento práctico de herramientas y materiales, junto con una comprensión
teórica de lo que es posible.

Driscoll luego se refiere al diagrama de Venn de ciencia de datos de Drew Conway de 2010,
que se muestra en la Figura 1-1.
También menciona las habilidades atractivas de los geeks de datos de la publicación de 2009
de Nathan Yau, "Rise of the Data Scientist", que incluyen:

• Estadísticas (análisis tradicional en el que está acostumbrado a pensar)

• Manipulación (munging) de datos (análisis, raspado y formateo de datos)

• Visualización (gráficos, herramientas, etc.)

Pero espere, ¿la ciencia de datos es solo una bolsa de trucos? ¿O es la extensión lógica de
otros campos como la estadística y el aprendizaje automático?

Para un argumento, vea las publicaciones de Cosma Shalizi aquí (link) y aquí (link), y las
publicaciones de Cathy aquí (link) y aquí (link), que constituyen una discusión en curso sobre la
diferencia entre un estadístico y un científico de datos. Cosma básicamente argumenta que
cualquier departamento de estadística que se precie hace todo lo que él ve en las
descripciones de la ciencia de datos y, por lo tanto, la ciencia de datos es solo un cambio de
marca y una adquisición no deseada de las estadísticas.

Para una perspectiva ligeramente diferente, consulte el artículo de Amstat News de 2011 de la
presidenta de ASA, Nancy Geller, "No evite la palabra 'S'", en el que defiende las estadísticas:

Necesitamos decirle a la gente que los estadísticos son los que dan sentido a la
avalancha de datos que ocurre en la ciencia, la ingeniería y la medicina; que la
estadística proporciona métodos para el análisis de datos en todos los campos, desde
la historia del arte hasta la zoología; que es emocionante ser estadístico en el siglo XXI
debido a los muchos desafíos que plantea la explosión de datos en todos estos
campos.

Aunque entendemos su punto, se supone que la frase "desde la historia del arte hasta la
zoología" representa el concepto de la A a la Z, se está disparando a sí misma con estos
ejemplos porque no corresponden al mundo de la alta tecnología de donde proviene gran
parte de la explosión de datos. Gran parte del desarrollo del campo está ocurriendo en la
industria, no en la academia. Es decir, hay personas con el título de trabajo científico de datos
en las empresas, pero no hay profesores de ciencia de datos en la academia. (Aunque esto
puede estar cambiando).

No hace mucho, DJ Patil describió cómo él y Jeff Hammerbacher (entonces en LinkedIn y


Facebook, respectivamente) acuñaron el término "científico de datos" en 2008. Fue entonces
cuando "científico de datos" surgió como título de trabajo. (Wikipedia finalmente obtuvo una
entrada sobre ciencia de datos en 2012).

Para nosotros, tiene sentido que una vez que el conjunto de habilidades necesario para
prosperar en Google (trabajar con un equipo en problemas que requerían un conjunto híbrido
de habilidades de estadísticas e informática junto con características personales que incluyen
curiosidad y persistencia) se extendiera a otras empresas tecnológicas de Silicon Valley,
requería un nuevo título de trabajo. Una vez que se convirtió en un patrón, mereció un
nombre. Y una vez que obtuvo un nombre, todos y su madre querían ser uno. Empeoró aún
más cuando Harvard Business Review declaró que el científico de datos era el "trabajo más
sexy del siglo XXI".

---
El papel del científico social en la ciencia de datos
Tanto LinkedIn como Facebook son empresas de redes sociales. A menudo, una descripción o
definición de científico de datos incluye estadístico híbrido, ingeniero de software y científico
social. Esto tenía sentido en el contexto de las empresas donde el producto era un producto
social y todavía tiene sentido cuando tratamos con el comportamiento humano o del usuario.
Pero si piensa en el diagrama de Venn de Drew Conway, los problemas de ciencia de datos
cruzan disciplinas, a eso se refiere la experiencia sustantiva.

En otras palabras, depende del contexto de los problemas que está tratando de resolver. Si se
trata de problemas relacionados con las ciencias sociales, como recomendaciones de amigos,
personas que conoce o segmentación de usuarios, entonces, por supuesto, ¡traiga al científico
social! Los científicos sociales también tienden a ser buenos para hacer preguntas y tienen
otras buenas cualidades de investigación, por lo que un científico social que también tiene
habilidades cuantitativas y de programación es un gran científico de datos.

Pero es casi un artefacto "histórico" (histórico está entre comillas porque 2008 no fue hace
tanto tiempo) para limitar su concepción de un científico de datos a alguien que trabaja solo
con datos de comportamiento de usuarios en línea. Hay otro campo emergente llamado
ciencias sociales computacionales, que podría considerarse como un subconjunto de la ciencia
de datos.

---

Pero podemos remontarnos aún más atrás. En 2001, William Cleveland escribió un documento
de posición sobre ciencia de datos llamado "Ciencia de datos: un plan de acción para expandir
el campo de las estadísticas".

Entonces, ¿la ciencia de datos existió antes que los científicos de datos? ¿Es esto semántica o
tiene sentido?

Todo esto plantea algunas preguntas: ¿puede definir la ciencia de datos por lo que hacen los
científicos de datos? ¿Quién llega a definir el campo, de todos modos? Hay mucho alboroto y
exageración: ¿los medios de comunicación pueden definirlo o debemos confiar en los
profesionales, los autodenominados científicos de datos? ¿O hay alguna autoridad real?
Dejemos estas como preguntas abiertas por ahora, aunque volveremos a ellas a lo largo del
libro.

Trabajos de ciencia de datos


Columbia acaba de decidir iniciar un Instituto de Ciencias e Ingeniería de Datos con la ayuda de
Bloomberg. La última vez que verificamos, hay 465 ofertas de trabajo solo en la ciudad de
Nueva York para científicos de datos. Eso es mucho. Entonces, incluso si la ciencia de datos no
es un campo real, tiene trabajos reales.

Y aquí hay una cosa que notamos sobre la mayoría de las descripciones de trabajo: piden a los
científicos de datos que sean expertos en informática, estadísticas, comunicación, visualización
de datos y que tengan una amplia experiencia en el dominio. Nadie es experto en todo, por
eso tiene más sentido crear equipos de personas que tengan diferentes perfiles y diferentes
conocimientos, juntos, como equipo, pueden especializarse en todas esas cosas. Hablaremos
más sobre esto después de ver el conjunto compuesto de habilidades en demanda para los
científicos de datos de hoy.
Un perfil de ciencia de datos
En la clase, Rachel repartió fichas y pidió a todos que se perfilaran a sí mismos (en una escala
relativa en lugar de absoluta) con respecto a sus niveles de habilidad en los siguientes
dominios:

• Ciencias de la Computación

• Matemáticas

• Estadísticas

• Aprendizaje automático

• Experiencia en el campo

• Habilidades de comunicación y presentación

• Visualización de datos

Como ejemplo, la Figura 1-2 muestra el perfil de ciencia de datos de Rachel.

Pegamos las fichas en la pizarra y pudimos ver cómo pensaban los demás sobre sí mismos.
Hubo bastante variación, lo cual es genial: muchas personas en la clase provenían de ciencias
sociales, por ejemplo.

¿Dónde está su perfil de ciencia de datos en este momento y dónde le gustaría que esté en
unos meses o años?

Como mencionamos anteriormente, un equipo de ciencia de datos funciona mejor cuando


diferentes habilidades (perfiles) están representadas en diferentes personas, porque nadie es
bueno en todo. Nos hace preguntarnos si valdría más la pena definir un “equipo de ciencia de
datos”, como se muestra en la Figura 1-3, que definir un científico de datos.
Experimento mental: metadefinición
Cada clase tenía al menos un experimento mental que los estudiantes discutían en grupos. La
mayoría de los experimentos mentales fueron muy abiertos y la intención era provocar un
debate sobre una amplia variedad de temas relacionados con la ciencia de datos. Para la
primera clase, el experimento mental inicial fue: ¿podemos usar la ciencia de datos para
definir la ciencia de datos?

La clase se dividió en pequeños grupos para pensar y discutir esta pregunta. Aquí hay algunas
cosas interesantes que surgieron de esas conversaciones:

Comience con un modelo de minería de texto (text-mining).

Podríamos hacer una búsqueda en Google de "ciencia de datos" y realizar un modelo


de minería de texto. Pero eso dependería de que seamos un usagist más que un
prescriptor con respecto al lenguaje. Un usuario dejaría que las masas definan la
ciencia de datos (donde "las masas" se refiere a lo que sea que encuentre el motor de
búsqueda de Google). ¿Sería mejor ser prescriptor y consultar una autoridad como el
Oxford English Dictionary? Desafortunadamente, es probable que el OED aún no tenga
una entrada y no tenemos tiempo para esperarla. Acordemos que hay un espectro,
que una autoridad no se siente bien y que “las masas” tampoco.

Entonces, ¿qué pasa con un algoritmo de agrupamiento?

¿Qué tal si miramos a los profesionales de la ciencia de datos y vemos cómo describen
lo que hacen (tal vez en una nube de palabras para empezar)? Entonces podemos ver
cómo describen lo que hacen las personas que afirman ser otras cosas, como
estadísticos, físicos o economistas. A partir de ahí, podemos intentar usar un algoritmo
de agrupamiento (que usaremos en el Capítulo 3) o algún otro modelo y ver si, cuando
recibe como entrada "las cosas que alguien hace", da una buena predicción sobre qué
campo la persona está adentro.

Solo a modo de comparación, observe lo que hizo Harlan Harris recientemente en relación con
el campo de la ciencia de datos: realizó una encuesta y usó la agrupación para definir
subcampos de la ciencia de datos, lo que dio lugar a la Figura 1-4.

Bien, entonces, ¿qué es realmente un científico de datos?


Quizás el enfoque más concreto es definir la ciencia de datos por su uso, por ejemplo, por qué
se les paga a los científicos de datos. Con eso como motivación, describiremos lo que hacen los
científicos de datos. Y haremos un poco de trampa al hablar primero de los científicos de datos
en la academia.

En la academia

La realidad es que, actualmente, nadie se llama a sí mismo científico de datos en el mundo


académico, excepto para obtener un título secundario por el hecho de ser parte de un
"instituto de ciencia de datos" en una universidad, o para solicitar una subvención que
proporciona dinero para la investigación en ciencia de datos.

En cambio, hagamos una pregunta relacionada: ¿quién en la academia planea convertirse en


científico de datos? Había 60 estudiantes en la clase de Introducción a la ciencia de datos en
Columbia. Cuando Rachel propuso el curso, asumió que la composición de los estudiantes sería
principalmente estadísticos, matemáticos aplicados e informáticos. En realidad, sin embargo,
terminaron siendo esas personas más sociólogos, periodistas, politólogos, estudiantes de
informática biomédica, estudiantes de agencias gubernamentales de la ciudad de Nueva York y
organizaciones sin fines de lucro relacionadas con el bienestar social, alguien de la escuela de
arquitectura, otros de ingeniería ambiental, matemáticos puros, estudiantes de marketing
comercial y estudiantes que ya trabajaron como científicos de datos. Todos estaban
interesados en descubrir formas de resolver problemas importantes, a menudo de valor social,
con datos.

Para que el término "ciencia de datos" se imponga en la academia a nivel de la facultad, y


como título principal, el área de investigación debe definirse de manera más formal. Tenga en
cuenta que ya existe un rico conjunto de problemas que podrían traducirse en muchas tesis
doctorales.

Aquí hay una muestra de cómo podría ser esto: un científico de datos académico es un
científico, capacitado en cualquier área, desde ciencias sociales hasta biología, que trabaja con
grandes cantidades de datos y debe lidiar con problemas computacionales planteados por la
estructura, tamaño, desorden, y la complejidad y naturaleza de los datos, al mismo tiempo que
resuelve un problema del mundo real.

El caso para articularlo de esta manera es el siguiente: en todas las disciplinas académicas, los
problemas computacionales y de datos profundos tienen importantes puntos en común. Si los
investigadores de todos los departamentos unen sus fuerzas, pueden resolver múltiples
problemas del mundo real de diferentes dominios.

En la industria
¿Cómo son los científicos de datos en la industria? Depende del nivel de antigüedad y de si se
trata de industria en Internet/en línea en particular. El papel del científico de datos no tiene
por qué ser exclusivo del mundo de la tecnología, pero ahí es donde se originó el término; así
que, para los propósitos de la conversación, digamos qué significa allí.

Un científico de datos jefe debe establecer la estrategia de datos de la empresa, que implica
una variedad de cosas: configurar todo, desde la ingeniería y la infraestructura para recopilar
datos y registrar, hasta preocupaciones de privacidad, decidir qué datos estarán orientados al
usuario, cómo los datos se utilizarán para tomar decisiones y cómo se volverán a integrar en el
producto. Debe administrar un equipo de ingenieros, científicos y analistas y debe
comunicarse con los líderes de toda la empresa, incluidos el director ejecutivo, el director de
tecnología y los líderes de productos. También se ocupará de patentar soluciones innovadoras
y establecer objetivos de investigación.

En términos más generales, un científico de datos es alguien que sabe cómo extraer significado
e interpretar datos, lo que requiere herramientas y métodos de estadísticas y aprendizaje
automático, además de ser humano. Pasa mucho tiempo en el proceso de recopilar, limpiar y
borrar datos, porque los datos nunca están limpios. Este proceso requiere persistencia,
estadísticas y habilidades de ingeniería de software, habilidades que también son necesarias
para comprender los sesgos en los datos y para depurar la salida de registro del código.

Una vez que pone los datos en forma, una parte crucial es el análisis exploratorio de datos, que
combina la visualización y el sentido de los datos. Encontrará patrones, creará modelos y
algoritmos, algunos con la intención de comprender el uso del producto y el estado general del
producto, y otros para servir como prototipos que, en última instancia, se integrarán de nuevo
en el producto. Puede diseñar experimentos y ella es una parte fundamental de la toma de
decisiones basada en datos. Se comunicará con los miembros del equipo, los ingenieros y el
liderazgo en un lenguaje claro y con visualizaciones de datos para que, incluso si sus colegas no
están inmersos en los datos, entiendan las implicaciones.

Esa es la imagen de alto nivel, y este libro trata de ayudarlo a comprender la gran mayoría.
Hemos terminado de hablar sobre ciencia de datos; ¡Sigamos adelante y hagamos algo!

También podría gustarte