Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Para entender este libro y sus orígenes, puede que te ayude entender un poco sobre mí y
cuáles fueron mis motivaciones para crear la clase.
Motivación
En resumen, creé un curso que desearía haber existido cuando estaba en la universidad, pero
eso fue en la década de 1990 y no estábamos en medio de una explosión de datos, por lo que
la clase no podría haber existido en ese entonces. Me especialicé en matemáticas cuando era
estudiante universitario, y el camino en el que estaba era teórico y orientado a la corrección. Si
bien me alegro de haber tomado este camino y siento que me entrenó para la resolución
rigurosa de problemas, también me hubiera gustado haber estado expuesto a las formas en
que esas habilidades podrían usarse para resolver problemas del mundo real.
El mundo se está abriendo con posibilidades para las personas que tienen una mentalidad
cuantitativa y están interesadas en poner sus cerebros a trabajar para resolver los problemas
del mundo. Considero que mi objetivo es ayudar a estos estudiantes a convertirse en
pensadores críticos, solucionadores creativos de problemas (incluso aquellos que aún no han
sido identificados) y curiosos que hacen preguntas. Si bien es posible que nunca construya un
modelo matemático que sea una parte de la cura para el cáncer, o que identifique el misterio
subyacente del autismo, o que prevenga los ataques terroristas, me gusta pensar que estoy
haciendo mi parte al enseñar a los estudiantes que algún día podrían hacer estas cosas. Y al
escribir este libro, estoy expandiendo mi alcance a una audiencia aún más amplia de científicos
de datos que espero se inspiren con este libro, o aprendan herramientas en él, para hacer que
el mundo sea mejor y no peor.
La construcción de modelos y el trabajo con datos no tienen valor neutral. Usted elige los
problemas en los que trabajará, hace suposiciones en esos modelos, elige métricas y diseña los
algoritmos.
Es posible que las soluciones a todos los problemas del mundo no se encuentren en los datos y
la tecnología; de hecho, la marca de un buen científico de datos es alguien que puede
identificar problemas que se pueden resolver con datos y que conoce bien las herramientas de
modelado y código. Pero sí creo que los equipos interdisciplinarios de personas que incluyen
un experto en datos, una mentalidad cuantitativa y un solucionador de problemas con
conocimientos de codificación (llamemos a esa persona "científico de datos") podrían ser muy
útiles.
Orígenes de la Clase
Propuse la clase en marzo de 2012. En ese momento, había tres razones principales. El primero
tomará más tiempo para explicar.
Razón 1: Quería brindarles a los estudiantes una educación sobre lo que es ser un científico de
datos en la industria y brindarles algunas de las habilidades que tienen los científicos de datos.
Brindamos a los líderes conocimientos para tomar decisiones basadas en datos, al mismo
tiempo que desarrollamos nuevas metodologías y formas novedosas de comprender la
causalidad. Nuestra capacidad para hacer esto dependía de una ingeniería e infraestructura de
primer nivel. Cada uno de nosotros aportó una combinación sólida de habilidades al equipo,
que en conjunto incluyeron codificación, ingeniería de software, estadísticas, matemáticas,
aprendizaje automático, comunicación, visualización, análisis exploratorio de datos (EDA),
sentido de datos e intuición, así como experiencia en redes sociales y el espacio social.
Para ser claros, ninguno de nosotros sobresalió en todas esas cosas, pero juntos lo hicimos;
reconocimos el valor de todas esas habilidades, y es por eso que prosperamos. Lo que
teníamos en común era la integridad y un interés genuino en resolver problemas interesantes,
siempre con una mezcla saludable de escepticismo y una sensación de entusiasmo por el
descubrimiento científico. Nos preocupamos por lo que estábamos haciendo y amamos
descubrir patrones en los datos.
Un aspecto de la clase fue que tuvimos conferencias invitadas de científicos de datos que
actualmente trabajan en la industria y la academia, cada uno de los cuales tenía una
combinación diferente de habilidades. Escuchamos una diversidad de perspectivas, que
contribuyeron a una comprensión holística de la ciencia de datos.
Razón 2: la ciencia de datos tiene el potencial de ser una disciplina de investigación profunda y
profunda que impacta todos los aspectos de nuestras vidas. La Universidad de Columbia y el
alcalde Bloomberg anunciaron el Instituto de Ciencias e Ingeniería de Datos en julio de 2012.
Este curso creó una oportunidad para desarrollar la teoría de la ciencia de datos y formalizarla
como una ciencia legítima.
Razón 3: Seguí escuchando de los científicos de datos en la industria que no se puede enseñar
ciencia de datos en un salón de clases o en un entorno universitario, y lo tomé como un
desafío. Pensé en mi salón de clases como una incubadora de equipos de ciencia de datos. Los
estudiantes que tuve fueron muy impresionantes y se están convirtiendo en científicos de
datos de primer nivel. Han contribuido con un capítulo a este libro, de hecho.
Cathy asistió a todas las clases y se sentó en la primera fila para hacer preguntas, y también fue
disertante invitada (vea el Capítulo 6). Además de documentar la clase en su blog, realizó
valiosas contribuciones intelectuales al contenido del curso, incluso recordándonos los
componentes éticos del modelaje. Ella también me animó a escribir un blog y, además de
documentar la clase, mantuve un blog para comunicarme directamente con mis alumnos, así
como capturar la experiencia de enseñar ciencia de datos con la esperanza de que fuera útil
para otros profesores. Todas las entradas del blog de Cathy para el curso, y algunas mías, se
convirtieron en la materia prima de este libro. Agregamos material adicional y lo revisamos y
editamos y lo hicimos mucho más sólido que los blogs, por lo que ahora es un libro completo.
No espere un libro de texto de aprendizaje automático. En cambio, espere una inmersión total
en los aspectos multifacéticos de la ciencia de datos desde múltiples puntos de vista. Esta es
una encuesta del panorama existente de la ciencia de datos, un intento de mapear este campo
emergente, y como resultado, en algunos casos hay más amplitud que profundidad.
Este libro está escrito con la esperanza de que llegue a manos de alguien —¿usted?— que
sacará más provecho de él de lo que es y resolverá problemas importantes.
Después de que terminó la clase, escuché que se caracterizó como un enfoque holístico y
humanista de la ciencia de datos: no solo nos enfocamos en las herramientas, las matemáticas,
los modelos, los algoritmos y el código, sino también en el lado humano. Me gusta esta
definición de humanista: “una persona que tiene un gran interés o preocupación por el
bienestar, los valores y la dignidad humanos”. Ser humanista en el contexto de la ciencia de
datos significa reconocer el papel que juega su propia humanidad en la construcción de
modelos y algoritmos, pensar en las cualidades que tiene como humano que una computadora
no tiene (lo que incluye la capacidad de tomar decisiones éticas) y pensar en los humanos
cuyas vidas estás impactando cuando liberas un modelo en el mundo.
• Los doctores en matemáticas, física u otras ciencias que están pensando en hacer la
transición a la ciencia de datos o desarrollar sus habilidades en ciencia de datos
obtendrán una perspectiva de lo que eso requeriría o significaría.
• Aquellos que nunca antes hayan escrito código en R o Python querrán tener un
manual para aprender R o Python. Recomendamos The Art of R Programming de
Norman Matloff (No Starch Press). Los estudiantes que tomaron el curso también se
beneficiaron de la instrucción experta del instructor de laboratorio, Jared Lander, cuyo
libro R for Everyone: Advanced Analytics and Graphics (Addison-Wesley) se publicará
en noviembre de 2013. También es posible hacer todos los ejercicios usando paquetes
en Python.
• Para aquellos que nunca han codificado antes, se aplica el mismo consejo. También
puede considerar elegir Learning Python de Mark Lutz y David Ascher (O'Reilly) o
Python for Data Analysis de Wes McKinney (también O'Reilly).
Requisitos previos
Asumimos requisitos previos de álgebra lineal, algo de probabilidad y estadística, y algo de
experiencia en codificación en cualquier idioma. Aun así, intentaremos que el libro sea lo más
autónomo posible, teniendo en cuenta que depende de ti hacer una lectura complementaria si
te falta algo de ese trasfondo. Intentaremos señalar lugares a lo largo del libro donde la lectura
complementaria podría ayudarlo a obtener una comprensión más profunda.
Lectura suplementaria
Este libro es una descripción general del panorama de un nuevo campo emergente con raíces
en muchas otras disciplinas: inferencia estadística, algoritmos, modelado estadístico,
aprendizaje automático, diseño experimental, optimización, probabilidad, inteligencia artificial,
visualización de datos y análisis exploratorio de datos. El desafío al escribir este libro ha sido
que cada una de estas disciplinas corresponde a varios cursos académicos o libros por derecho
propio. Puede haber momentos en que las lagunas en el conocimiento previo del lector
requieran una lectura complementaria.
Matemáticas
• Linear Algebra and Its Applications por Gilbert Strang (Cengage Learning)
• Convex Optimization por Stephen Boyd y Lieven Vendenberghe (Cambridge University Press)
Codificación
• R in a Nutshell de Joseph Adler (O'Reilly)
• R for Everyone: Advanced Analytics and Graphics por Jared Lander (Addison-Wesley)
• The Art of R Programming: A Tour of Statistical Software Design por Norman Matloff (No
Starch Press)
• Data Analysis Using Regression and Multilevel/Hierarchical Models por Andrew Gelman y
Jennifer Hill (Cambridge University Press)
• Advanced Data Analysis from an Elementary Point of View por Cosma Shalizi (bajo contrato
con Cambridge University Press)
• The Elements of Statistical Learning: Data Mining, Inference and Prediction por Trevor Hastie,
Robert Tibshirani y Jerome Friedman (Springer)
• Bayesian Reasoning and Machine Learning por David Barber (Cambridge University Press)
• Artificial Intelligence: A Modern Approach por Stuart Russell y Peter Norvig (Prentice Hall)
• Introduction to Machine Learning (Adaptive Computation and Machine Learning) por Ethem
Alpaydim (MIT Press)
Diseño experimental
• Field Experiments por Alan S. Gerber y Donald P. Green (Norton)
• Statistics for Experimenters: Design, Innovation, and Discovery por George E. P. Box, et al.
(Wiley-Interciencia)
Visualización
• The Elements of Graphing Data por William Cleveland (Hobart Press)
• Visualize This: The FlowingData Guide to Design, Visualization, and Statistics por Nathan Yau
(Wiley)
Itálico
Ancho constante
Se utiliza para listas de programas, así como dentro de párrafos para hacer referencia a
elementos de programas como nombres de variables o funciones, bases de datos, tipos de
datos, variables de entorno, declaraciones y palabras clave.
Muestra texto que debe reemplazarse con valores proporcionados por el usuario o por valores
determinados por el contexto.
Este libro está aquí para ayudarle a hacer su trabajo. En general, si se ofrece un código de
ejemplo con este libro, puede usarlo en sus programas y documentación. No necesita
comunicarse con nosotros para obtener permiso a menos que esté reproduciendo una parte
significativa del código. Por ejemplo, escribir un programa que use varios fragmentos de
código de este libro no requiere permiso. Vender o distribuir un CD-ROM de ejemplos de libros
de O'Reilly requiere permiso. Responder una pregunta citando este libro y citando código de
ejemplo no requiere permiso. La incorporación de una cantidad significativa de código de
ejemplo de este libro en la documentación de su producto requiere permiso.
Apreciamos, pero no requerimos, atribución. Una atribución suele incluir el título, el autor, el
editor y el ISBN. Por ejemplo: “Doing Data Science de Rachel Schutt y Cathy O’Neil (O’Reilly).
Copyright 2014 Rachel Schutt y Cathy O'Neil, 978-1-449-35865-5".
Si cree que su uso de los ejemplos de código está fuera del uso justo o del permiso otorgado
anteriormente, no dude en contactarnos en permisos@oreilly.com.
Agradecimientos
Rachel desea agradecer a sus influencias de Google: David Huffaker, Makoto Uchida, Andrew
Tomkins, Abhijit Bose, Daryl Pregibon, Diane Lambert, Josh Wills, David Crawshaw, David
Gibson, Corinna Cortes, Zach Yeskel y Gueorgi Kossinetts. Del departamento de estadísticas de
Columbia: Andrew Gelman y David Madigan; y el instructor de laboratorio y asistente de
enseñanza del curso, Jared Lander y Ben Reddy.
Cathy quisiera agradecer a su familia y amigos, incluidos sus maravillosos hijos y su esposo,
que la dejaron salir una vez a la semana para escribir un blog sobre la clase vespertina.
• ¡Los estudiantes!
También nos gustaría agradecer a John Johnson y David Park de Johnson Research Labs por su
generosidad y el tiempo que dedicaron a escribir este libro.
CAPÍTULO 1
Introducción: ¿Qué es la ciencia de datos?
En los últimos años, ha habido mucha publicidad en los medios de comunicación sobre la
"ciencia de datos" y el "Big Data". Una primera reacción razonable a todo esto podría ser una
combinación de escepticismo y confusión; de hecho, nosotros, Cathy y Rachel, tuvimos
exactamente esa reacción.
Y nos entregamos a nuestro desconcierto por un tiempo, primero por separado y luego, una
vez que nos encontramos, juntos en muchos desayunos de los miércoles por la mañana. Pero
no podíamos deshacernos de una sensación persistente de que había algo real allí, tal vez algo
profundo (deep) y significativo (profound) que representaba un cambio de paradigma en
nuestra cultura en torno a los datos. Quizás, consideramos, es incluso un cambio de paradigma
que juega con nuestras fortalezas. En lugar de ignorarlo, decidimos explorarlo más.
Pero antes de entrar en eso, profundicemos primero en lo que nos pareció confuso y vago: tal
vez usted haya tenido inclinaciones similares. Después de eso, explicaremos qué nos hizo
superar nuestras propias preocupaciones, hasta el punto en que Rachel creó un curso sobre
ciencia de datos en la Universidad de Columbia, Cathy publicó el curso en un blog y ahora estás
leyendo un libro basado en él.
Entonces, ¿qué es lo que sorprende de Big Data y la ciencia de datos? Contemos las formas:
1. Hay una falta de definiciones en torno a la terminología más básica. ¿Qué es "Big
Data" de todos modos? ¿Qué significa “ciencia de datos”? ¿Cuál es la relación entre Big
Data y la ciencia de datos? ¿Es la ciencia de datos la ciencia del Big Data? ¿La ciencia de
datos es solo lo que sucede en empresas como Google y Facebook y empresas
tecnológicas? ¿Por qué muchas personas se refieren a Big Data como disciplinas
cruzadas (astronomía, finanzas, tecnología, etc.) y a la ciencia de datos como algo que
solo tiene lugar en tecnología? ¿Qué tan grande es big? ¿O es solo un término
relativo? Estos términos son tan ambiguos que casi no tienen sentido.
2. Existe una clara falta de respeto por los investigadores en la academia y los
laboratorios industriales que han estado trabajando en este tipo de cosas durante años
y cuyo trabajo se basa en décadas (en algunos casos, siglos) de trabajo de estadísticos,
informáticos, matemáticos, ingenieros y científicos de todo tipo. Por la forma en que
los medios lo describen, los algoritmos de aprendizaje automático se inventaron la
semana pasada y los datos nunca fueron "grandes" hasta que apareció Google. Esto
simplemente no es el caso. Muchos de los métodos y técnicas que estamos usando, y
los desafíos que enfrentamos ahora, son parte de la evolución de todo lo que vino
antes. Esto no significa que no estén sucediendo cosas nuevas y emocionantes, pero
creemos que es importante mostrar un respeto básico por todo lo que sucedió antes.
5. La gente nos ha dicho: “Cualquier cosa que tenga que llamarse ciencia no lo es”.
Aunque puede haber algo de verdad allí, eso no significa que el término "ciencia de
datos" en sí mismo no represente nada, pero, por supuesto, lo que representa puede
no ser ciencia sino más bien un oficio.
Superando lo inflado
La experiencia de Rachel al pasar de obtener un doctorado en estadística a trabajar en Google
es un gran ejemplo para ilustrar por qué pensamos, a pesar de las razones antes mencionadas
para tener dudas, que podría haber algo de carne en el emparedado de ciencia de datos. En
sus palabras:
Rápidamente me quedó claro que las cosas en las que estaba trabajando en Google
eran diferentes a todo lo que había aprendido en la escuela cuando obtuve mi
doctorado en estadística. Esto no quiere decir que mi título fuera inútil; lejos de eso, lo
que había aprendido en la escuela proporcionó un marco y una forma de pensar en los
que confiaba a diario, y gran parte del contenido real proporcionó una sólida base
teórica y práctica necesaria para hacer mi trabajo.
Pero también tuve que adquirir muchas habilidades en el trabajo en Google que no
había aprendido en la escuela. Por supuesto, mi experiencia es específica para mí en el
sentido de que tenía experiencia en estadísticas y adquirí más habilidades de
computación, codificación y visualización, así como experiencia en el dominio mientras
estaba en Google. Otra persona que entrara como científico informático, científico
social o físico tendría diferentes lagunas y las llenaría en consecuencia. Pero lo
importante aquí es que, como individuos, cada uno de nosotros tenía diferentes
fortalezas y brechas, pero pudimos resolver problemas al unirnos en un equipo de
datos bien preparado para resolver los problemas de datos que se nos presentaron.
Aquí hay una respuesta razonable que podría tener a esta historia. Es una perogrullada general
que, cada vez que vas de la escuela a un trabajo real, te das cuenta de que hay una brecha
entre lo que aprendiste en la escuela y lo que haces en el trabajo. En otras palabras,
simplemente se enfrentaba a la diferencia entre las estadísticas académicas y las estadísticas
de la industria.
• Claro, hay una diferencia entre la industria y la academia. Pero ¿realmente tiene que
ser así? ¿Por qué muchos cursos en la escuela tienen que estar tan intrínsecamente
fuera de contacto con la realidad?
• Aun así, la brecha no representa simplemente una diferencia entre las estadísticas de
la industria y las estadísticas académicas. La experiencia general de los científicos de
datos es que, en su trabajo, tienen acceso a un conjunto más amplio de conocimientos
y metodología, así como a un proceso, que ahora definimos como el proceso de ciencia
de datos (detalles en el Capítulo 2), que tiene fundamentos tanto en estadística como
en informática.
Alrededor de todo el bombo, en otras palabras, hay un anillo de verdad: esto es algo nuevo.
Pero al mismo tiempo, es una idea frágil y naciente con un riesgo real de ser rechazada
prematuramente. Por un lado, se está exhibiendo como una varita mágica, generando
expectativas poco realistas que seguramente serán decepcionadas.
A partir de esas reuniones, comenzó a formarse una imagen más clara de lo nuevo que está
surgiendo. Finalmente, decidió continuar con la investigación dando un curso en Columbia
llamado "Introducción a la ciencia de datos", que Cathy cubrió en su blog. Pensamos que, para
el final del semestre, nosotros, y con suerte los estudiantes, sabríamos lo que todo esto
realmente significaba. Y ahora, con este libro, esperamos hacer lo mismo por muchas más
personas.
Sin embargo, no se trata solo de datos de Internet: son las finanzas, la industria médica, los
productos farmacéuticos, la bioinformática, el bienestar social, el gobierno, la educación, el
comercio minorista y la lista continúa. Hay una influencia creciente de los datos en la mayoría
de los sectores y la mayoría de las industrias. En algunos casos, la cantidad de datos
recopilados puede ser suficiente para considerarse "grande" (más sobre esto en el próximo
capítulo); en otros casos, no lo es.
Pero no es solo la masividad lo que hace que todos estos nuevos datos sean interesantes (o
que planteen desafíos). Es que los datos en sí mismos, a menudo en tiempo real, se convierten
en los componentes básicos de los productos de datos. En Internet, esto significa sistemas de
recomendación de Amazon, recomendaciones de amigos en Facebook, recomendaciones de
películas y música, etc. En finanzas, esto significa calificaciones crediticias, algoritmos
comerciales y modelos. En educación, esto está comenzando a significar un aprendizaje
personalizado dinámico y evaluaciones que surgen de lugares como Knewton y Khan Academy.
En el gobierno, esto significa políticas basadas en datos.
Datificación (datafication)
En la edición de mayo/junio de 2013 de Foreign Affairs, Kenneth Neil Cukier y Viktor Mayer-
Schoenberger escribieron un artículo titulado “El auge de los grandes datos”. En él discuten el
concepto de datificación, y su ejemplo es cómo cuantificamos las amistades con “me gusta”: es
la forma en que todo lo que hacemos, en línea o no, termina registrado para su posterior
examen en las unidades de almacenamiento de datos de alguien. O tal vez varias unidades de
almacenamiento, y tal vez también a la venta.
Definen la datificación como un proceso de “tomar todos los aspectos de la vida y convertirlos
en datos”. Como ejemplos mencionan que “las gafas de realidad aumentada de Google datan
la mirada. Twitter data los pensamientos perdidos. LinkedIn datifica las redes profesionales”.
Siguen su definición en el artículo con una línea que dice mucho sobre su perspectiva:
Una vez que dataficamos las cosas, podemos transformar su propósito y convertir la
información en nuevas formas de valor.
Aquí hay una pregunta importante a la que volveremos a lo largo del libro: ¿quiénes somos
“nosotros” en ese caso? ¿A qué tipo de valores se refieren? En su mayoría, dados sus
ejemplos, el "nosotros" son los modeladores y empresarios que ganan dinero haciendo que la
gente compre cosas, y el "valor" se traduce en algo así como una mayor eficiencia a través de
la automatización.
Si queremos pensar en grande, si queremos que nuestro “nosotros” se refiera a las personas
en general, estaremos nadando contra la corriente.
Esta es una discusión en curso, pero una forma de comprender lo que está sucediendo en esta
industria es buscar en línea y ver qué discusiones se están llevando a cabo actualmente. Esto
no necesariamente nos dice qué es la ciencia de datos, pero al menos nos dice lo que otras
personas piensan que es, o cómo lo perciben. Por ejemplo, en Quora hay una discusión de
2010 sobre "¿Qué es la ciencia de datos?" y aquí está la respuesta del CEO de Metamarket,
Mike Driscoll:
Driscoll luego se refiere al diagrama de Venn de ciencia de datos de Drew Conway de 2010,
que se muestra en la Figura 1-1.
También menciona las habilidades atractivas de los geeks de datos de la publicación de 2009
de Nathan Yau, "Rise of the Data Scientist", que incluyen:
Pero espere, ¿la ciencia de datos es solo una bolsa de trucos? ¿O es la extensión lógica de
otros campos como la estadística y el aprendizaje automático?
Para un argumento, vea las publicaciones de Cosma Shalizi aquí (link) y aquí (link), y las
publicaciones de Cathy aquí (link) y aquí (link), que constituyen una discusión en curso sobre la
diferencia entre un estadístico y un científico de datos. Cosma básicamente argumenta que
cualquier departamento de estadística que se precie hace todo lo que él ve en las
descripciones de la ciencia de datos y, por lo tanto, la ciencia de datos es solo un cambio de
marca y una adquisición no deseada de las estadísticas.
Para una perspectiva ligeramente diferente, consulte el artículo de Amstat News de 2011 de la
presidenta de ASA, Nancy Geller, "No evite la palabra 'S'", en el que defiende las estadísticas:
Necesitamos decirle a la gente que los estadísticos son los que dan sentido a la
avalancha de datos que ocurre en la ciencia, la ingeniería y la medicina; que la
estadística proporciona métodos para el análisis de datos en todos los campos, desde
la historia del arte hasta la zoología; que es emocionante ser estadístico en el siglo XXI
debido a los muchos desafíos que plantea la explosión de datos en todos estos
campos.
Aunque entendemos su punto, se supone que la frase "desde la historia del arte hasta la
zoología" representa el concepto de la A a la Z, se está disparando a sí misma con estos
ejemplos porque no corresponden al mundo de la alta tecnología de donde proviene gran
parte de la explosión de datos. Gran parte del desarrollo del campo está ocurriendo en la
industria, no en la academia. Es decir, hay personas con el título de trabajo científico de datos
en las empresas, pero no hay profesores de ciencia de datos en la academia. (Aunque esto
puede estar cambiando).
Para nosotros, tiene sentido que una vez que el conjunto de habilidades necesario para
prosperar en Google (trabajar con un equipo en problemas que requerían un conjunto híbrido
de habilidades de estadísticas e informática junto con características personales que incluyen
curiosidad y persistencia) se extendiera a otras empresas tecnológicas de Silicon Valley,
requería un nuevo título de trabajo. Una vez que se convirtió en un patrón, mereció un
nombre. Y una vez que obtuvo un nombre, todos y su madre querían ser uno. Empeoró aún
más cuando Harvard Business Review declaró que el científico de datos era el "trabajo más
sexy del siglo XXI".
---
El papel del científico social en la ciencia de datos
Tanto LinkedIn como Facebook son empresas de redes sociales. A menudo, una descripción o
definición de científico de datos incluye estadístico híbrido, ingeniero de software y científico
social. Esto tenía sentido en el contexto de las empresas donde el producto era un producto
social y todavía tiene sentido cuando tratamos con el comportamiento humano o del usuario.
Pero si piensa en el diagrama de Venn de Drew Conway, los problemas de ciencia de datos
cruzan disciplinas, a eso se refiere la experiencia sustantiva.
En otras palabras, depende del contexto de los problemas que está tratando de resolver. Si se
trata de problemas relacionados con las ciencias sociales, como recomendaciones de amigos,
personas que conoce o segmentación de usuarios, entonces, por supuesto, ¡traiga al científico
social! Los científicos sociales también tienden a ser buenos para hacer preguntas y tienen
otras buenas cualidades de investigación, por lo que un científico social que también tiene
habilidades cuantitativas y de programación es un gran científico de datos.
Pero es casi un artefacto "histórico" (histórico está entre comillas porque 2008 no fue hace
tanto tiempo) para limitar su concepción de un científico de datos a alguien que trabaja solo
con datos de comportamiento de usuarios en línea. Hay otro campo emergente llamado
ciencias sociales computacionales, que podría considerarse como un subconjunto de la ciencia
de datos.
---
Pero podemos remontarnos aún más atrás. En 2001, William Cleveland escribió un documento
de posición sobre ciencia de datos llamado "Ciencia de datos: un plan de acción para expandir
el campo de las estadísticas".
Entonces, ¿la ciencia de datos existió antes que los científicos de datos? ¿Es esto semántica o
tiene sentido?
Todo esto plantea algunas preguntas: ¿puede definir la ciencia de datos por lo que hacen los
científicos de datos? ¿Quién llega a definir el campo, de todos modos? Hay mucho alboroto y
exageración: ¿los medios de comunicación pueden definirlo o debemos confiar en los
profesionales, los autodenominados científicos de datos? ¿O hay alguna autoridad real?
Dejemos estas como preguntas abiertas por ahora, aunque volveremos a ellas a lo largo del
libro.
Y aquí hay una cosa que notamos sobre la mayoría de las descripciones de trabajo: piden a los
científicos de datos que sean expertos en informática, estadísticas, comunicación, visualización
de datos y que tengan una amplia experiencia en el dominio. Nadie es experto en todo, por
eso tiene más sentido crear equipos de personas que tengan diferentes perfiles y diferentes
conocimientos, juntos, como equipo, pueden especializarse en todas esas cosas. Hablaremos
más sobre esto después de ver el conjunto compuesto de habilidades en demanda para los
científicos de datos de hoy.
Un perfil de ciencia de datos
En la clase, Rachel repartió fichas y pidió a todos que se perfilaran a sí mismos (en una escala
relativa en lugar de absoluta) con respecto a sus niveles de habilidad en los siguientes
dominios:
• Ciencias de la Computación
• Matemáticas
• Estadísticas
• Aprendizaje automático
• Experiencia en el campo
• Visualización de datos
Pegamos las fichas en la pizarra y pudimos ver cómo pensaban los demás sobre sí mismos.
Hubo bastante variación, lo cual es genial: muchas personas en la clase provenían de ciencias
sociales, por ejemplo.
¿Dónde está su perfil de ciencia de datos en este momento y dónde le gustaría que esté en
unos meses o años?
La clase se dividió en pequeños grupos para pensar y discutir esta pregunta. Aquí hay algunas
cosas interesantes que surgieron de esas conversaciones:
¿Qué tal si miramos a los profesionales de la ciencia de datos y vemos cómo describen
lo que hacen (tal vez en una nube de palabras para empezar)? Entonces podemos ver
cómo describen lo que hacen las personas que afirman ser otras cosas, como
estadísticos, físicos o economistas. A partir de ahí, podemos intentar usar un algoritmo
de agrupamiento (que usaremos en el Capítulo 3) o algún otro modelo y ver si, cuando
recibe como entrada "las cosas que alguien hace", da una buena predicción sobre qué
campo la persona está adentro.
Solo a modo de comparación, observe lo que hizo Harlan Harris recientemente en relación con
el campo de la ciencia de datos: realizó una encuesta y usó la agrupación para definir
subcampos de la ciencia de datos, lo que dio lugar a la Figura 1-4.
En la academia
Aquí hay una muestra de cómo podría ser esto: un científico de datos académico es un
científico, capacitado en cualquier área, desde ciencias sociales hasta biología, que trabaja con
grandes cantidades de datos y debe lidiar con problemas computacionales planteados por la
estructura, tamaño, desorden, y la complejidad y naturaleza de los datos, al mismo tiempo que
resuelve un problema del mundo real.
El caso para articularlo de esta manera es el siguiente: en todas las disciplinas académicas, los
problemas computacionales y de datos profundos tienen importantes puntos en común. Si los
investigadores de todos los departamentos unen sus fuerzas, pueden resolver múltiples
problemas del mundo real de diferentes dominios.
En la industria
¿Cómo son los científicos de datos en la industria? Depende del nivel de antigüedad y de si se
trata de industria en Internet/en línea en particular. El papel del científico de datos no tiene
por qué ser exclusivo del mundo de la tecnología, pero ahí es donde se originó el término; así
que, para los propósitos de la conversación, digamos qué significa allí.
Un científico de datos jefe debe establecer la estrategia de datos de la empresa, que implica
una variedad de cosas: configurar todo, desde la ingeniería y la infraestructura para recopilar
datos y registrar, hasta preocupaciones de privacidad, decidir qué datos estarán orientados al
usuario, cómo los datos se utilizarán para tomar decisiones y cómo se volverán a integrar en el
producto. Debe administrar un equipo de ingenieros, científicos y analistas y debe
comunicarse con los líderes de toda la empresa, incluidos el director ejecutivo, el director de
tecnología y los líderes de productos. También se ocupará de patentar soluciones innovadoras
y establecer objetivos de investigación.
En términos más generales, un científico de datos es alguien que sabe cómo extraer significado
e interpretar datos, lo que requiere herramientas y métodos de estadísticas y aprendizaje
automático, además de ser humano. Pasa mucho tiempo en el proceso de recopilar, limpiar y
borrar datos, porque los datos nunca están limpios. Este proceso requiere persistencia,
estadísticas y habilidades de ingeniería de software, habilidades que también son necesarias
para comprender los sesgos en los datos y para depurar la salida de registro del código.
Una vez que pone los datos en forma, una parte crucial es el análisis exploratorio de datos, que
combina la visualización y el sentido de los datos. Encontrará patrones, creará modelos y
algoritmos, algunos con la intención de comprender el uso del producto y el estado general del
producto, y otros para servir como prototipos que, en última instancia, se integrarán de nuevo
en el producto. Puede diseñar experimentos y ella es una parte fundamental de la toma de
decisiones basada en datos. Se comunicará con los miembros del equipo, los ingenieros y el
liderazgo en un lenguaje claro y con visualizaciones de datos para que, incluso si sus colegas no
están inmersos en los datos, entiendan las implicaciones.
Esa es la imagen de alto nivel, y este libro trata de ayudarlo a comprender la gran mayoría.
Hemos terminado de hablar sobre ciencia de datos; ¡Sigamos adelante y hagamos algo!