Está en la página 1de 41

50 años de ciencia de datos

David Donoho

18 de septiembre de 2015

Versión 1.00

Resumen

Hace más de 50 años, John Tukey pidió una reforma de las estadísticas académicas. En 'El futuro del
análisis de datos', señaló la existencia de un Ciencias, cuyo tema de interés era aprender de los datos, o
"análisis de datos". Hace diez o veinte años, John Chambers, Bill Cleveland y Leo Breiman, de forma
independiente, una vez más instaron a la estadística académica a expandir sus límites más allá del
dominio clásico de la estadística teórica; Chambers pidió más énfasis en la preparación y presentación de
datos en lugar de modelado estadístico; y Breiman pidió énfasis en la predicción más que en la inferencia.
Cleveland incluso sugirió el nombre pegadizo "Ciencia de datos" para su campo imaginado.

Un fenómeno reciente y creciente es la aparición de programas de "ciencia de datos" en las principales


universidades, incluidas UC Berkeley, NYU, MIT y, más recientemente, la Univ. de Michigan, que el 8 de septiembre de
2015 anunció una “Iniciativa de ciencia de datos” de $ 100 millones que contratará a 35 nuevos profesores. La
enseñanza en estos nuevos programas tiene una superposición significativa en las materias curriculares con los cursos
tradicionales de estadística; en general, sin embargo, las nuevas iniciativas se alejan de una estrecha participación con
los departamentos de estadística académica.
Este artículo revisa algunos ingredientes del “momento de la ciencia de datos” actual, incluidos los comentarios
recientes sobre la ciencia de datos en los medios de comunicación populares, y sobre cómo / si la ciencia de datos es
realmente diferente de la estadística.
El campo ahora contemplado de la ciencia de datos equivale a un superconjunto de los campos de la estadística y el
aprendizaje automático que agrega algo de tecnología para 'escalar' a 'big data'. Este superconjunto elegido está
motivado por desarrollos comerciales más que intelectuales. Si se elige de esta manera, es probable que se pierda el
acontecimiento intelectual realmente importante de los próximos cincuenta años.
Debido a que toda la ciencia en sí misma pronto se convertirá en datos que se pueden extraer, la revolución
inminente en la ciencia de datos no se trata de una mera "ampliación", sino de la aparición de estudios científicos de
análisis de datos en toda la ciencia. En el futuro, podremos predecir cómo una propuesta para cambiar los flujos de
trabajo del análisis de datos afectaría la validez del análisis de datos en toda la ciencia, incluso prediciendo los impactos
campo por campo.
Basándome en el trabajo de Tukey, Cleveland, Chambers y Breiman, presento una visión de la ciencia de datos
basada en las actividades de las personas que están 'aprendiendo de los datos', y describo un campo académico
dedicado a mejorar esa actividad de una manera basada en la evidencia. . Este nuevo campo es una mejor ampliación
académica de las estadísticas y el aprendizaje automático que las iniciativas de ciencia de datos actuales, al tiempo que
puede adaptarse a los mismos objetivos a corto plazo.

Basado en una presentación en el taller Tukey Centennial, Princeton NJ 18 de septiembre de 2015:

1
Contenido
1 El momento actual de la ciencia de datos 4

2 Ciencia de datos 'versus' estadística 4


2.1 El meme 'Big Data'. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2 El meme de las 'habilidades'. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3 El meme 'Trabajos'. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.4 ¿Qué es real aquí? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.5 Un marco mejor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3 El futuro del análisis de datos, 1962 10

4 Los 50 años desde FoDA 12


4.1 Exhortaciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.2 Reificación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

5 de Breiman 'Dos culturas', 2001 15

6 La salsa secreta de la cultura predictiva dieciséis

6.1 El marco de trabajo común. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . dieciséis


6.2 Experiencia con CTF. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
6.3 La salsa secreta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
6.4 Habilidades requeridas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

7 Enseñanza de la ciencia de datos de consenso actual 19

8 El alcance completo de la ciencia de datos 22


8.1 Las seis divisiones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
8.2 Discusión. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
8.3 Enseñanza de GDS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
8.4 Investigación en GDS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
8.4.1 Entornos de programación cuantitativa: R. . . . . . . . . . . . . . . . . . . 27
8.4.2 Reorganización de datos: datos ordenados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
8.4.3 Presentación de la investigación: Knitr. . . . . . . . . . . . . . . . . . . . . . . . . . . . Discusión. . . . . . . . 28
8.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

9 Ciencia sobre ciencia de datos 29


9.1 Metaanálisis de toda la ciencia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
9.2 Análisis de estudios cruzados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
9.3 Análisis de flujo de trabajo cruzado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
9.4 Resumen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

10 Los próximos 50 años de ciencia de datos 32


10.1 La ciencia abierta se hace cargo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
10.2 La ciencia como datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
10.3 Análisis de datos científicos, probado empíricamente. . . . . . . . . . . . . . . . . . . . . . . . 34

2
10.3.1 Mano de DJ (2006). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
10.3.2 Donoho y Jin (2008). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
10.3.3 Zhao, Parmigiani, Huttenhower y Waldron (2014). . . . . . . . . . . . . . . 36
10.4 Ciencia de datos en 2065. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

11 Conclusión 37

Agradecimientos:
Un agradecimiento especial a Edgar Dobriban, Bradley Efron y Victoria Stodden por sus comentarios sobre la ciencia de datos y los
borradores de este manuscrito.
Gracias a John Storey, Amit Singer, Esther Kim y a todos los demás organizadores del Centenario de Tukey en Princeton, el
18 de septiembre de 2015.
Gracias tardíamente a mis profesores universitarios de estadística: Peter Bloomfield, Henry Braun,
TomHettmansperger, Larry Mayer, Don McNeil, Geo ff Watson y John Tukey.
Compatible en parte con NSF DMS-1418362 y DMS-1407813.

Acrónimo Significado
COMO UN Asociación Estadounidense de Estadística
CEO Director ejecutivo
CTF Marco de tareas común
DARPA Agencia de Investigación de Proyectos Avanzados de Defensa
DSI Iniciativa de ciencia de datos
EDA Análisis exploratorio de datos
FoDA El furor del análisis de datos, 1962
GDS Mayor ciencia de datos
HC Mayor crítica
IBM IBM Corp.
SOY S Instituto de Tecnología de la Información
ESO de Estadística Matemática (el campo)
JWT John Wilder Tukey
SUD Ciencia de datos menor
NIH Fundación Nacional de Ciencias de
NSF los Institutos Nacionales de Salud
PoMC El problema de las comparaciones múltiples, 1953
QPE Entorno de programación cuantitativa
R R - un sistema y lenguaje para computar con datos S - un
S sistema y lenguaje para computar con datos
SAS Sistema y lagugage producidos por SAS, Inc.
SPSS Sistema y lagugage producidos por SPSS, Inc.
VCR Resultado computacional verificable

Tabla 1: Siglas frecuentes

3
1 El momento actual de la ciencia de datos

El martes 8 de septiembre de 2015, mientras preparaba estos comentarios, la Universidad de Michigan anunció una
“Iniciativa de ciencia de datos” (DSI) de $ 100 millones, que finalmente contrató a 35 nuevos profesores.
El comunicado de prensa de la universidad contiene pronunciamientos audaces:

"La ciencia de datos se ha convertido en un cuarto enfoque para el descubrimiento científico, además de la
experimentación, el modelado y la computación", dijo la directora Martha Pollack.

El sitio web de DSI nos da una idea de lo que Data Science es:

"Esta combinación de descubrimiento científico y práctica implica la recopilación, gestión,


procesamiento, análisis, visualización e interpretación de grandes cantidades de datos
heterogéneos asociados con una gama diversa de aplicaciones científicas, traslacionales e
interdisciplinarias".

Este anuncio no se realiza en el vacío. Varias iniciativas similares a DSI comenzaron recientemente,
incluyendo

(A) Iniciativas en todo el campus en NYU, Columbia, MIT, ...

(B) Nuevos programas de maestría en ciencia de datos, por ejemplo en Berkeley, NYU, Stanford, ...

Semanalmente hay nuevos anuncios de este tipo de iniciativas. 1

2 Ciencia de datos 'versus' estadística


Muchos de los asistentes al Centenario de Tukey, donde se presentaron estos comentarios, son estadísticos
aplicados y consideran su carrera profesional como una larga serie de ejercicios de los anteriores. "...
recopilación, gestión, procesamiento, análisis, visualización e interpretación de grandes cantidades de datos
heterogéneos asociados con una amplia gama de ... aplicaciones". De hecho, algunas presentaciones en el
Centenario de Tukey fueron narrativas ejemplares de "... recopilación, gestión, procesamiento, análisis,
visualización e interpretación de grandes cantidades de datos heterogéneos asociados con una amplia gama de
... aplicaciones".
Para los estadísticos, el fenómeno DSI puede parecer desconcertante. Los estadísticos ven a los administradores
promocionando, como nuevas, actividades que los estadísticos ya han estado realizando a diario, durante toda su carrera; y
que ya se consideraban estándar cuando esos estadísticos estaban de regreso en la escuela de posgrado.
Los siguientes puntos sobre la U of M DSI serán muy reveladores para estos estadísticos:

• El DSI de la U of M se lleva a cabo en un campus con un Departamento de Estadística grande y muy respetado

• Los líderes identi fi cados de esta iniciativa son profesores del Departamento de Ingeniería Eléctrica
e Informática (Al Hero) y la Facultad de Medicina (Brian Athey).

1 Para obtener un mapa geográfico interactivo actualizado de los programas de grado, consulte http://data-science-university-programs.silk.co

4
• El simposio inagural tiene un orador del departamento de Estadística (Susan Murphy), entre más de
20 oradores.

Aparentemente, las estadísticas están siendo marginadas aquí; el mensaje implícito es que las estadísticas son parte de lo
que sucede en la ciencia de datos, pero no una parte muy importante. Al mismo tiempo, muchas de las descripciones
concretas de lo que hará el DSI realmente hacer A los estadísticos les parecerá que son estadísticas básicas. ¡Estadísticas es
aparentemente la palabra que no se atreve a pronunciar su nombre en relación con tal iniciativa! 2

Al buscar en la web más información sobre el término emergente "Ciencia de datos", encontramos las
siguientes definiciones del "Código de conducta profesional" de la Asociación de ciencia de datos. 3

"Científico de datos" significa un profesional que utiliza métodos científicos para liberar y crear
significado a partir de datos sin procesar.

Para un estadístico, esto suena muy parecido a lo que hacen los estadísticos aplicados: utilizar la metodología para hacer
inferencias a partir de los datos. Continuo:

"Estadística" significa la práctica o ciencia de recopilar y analizar datos numéricos en


grandes cantidades.

Para un estadístico, esta definición de estadística ya parece abarcar todo lo que podría abarcar la definición de
científico de datos, pero la definición de estadístico parece limitante, ya que gran parte del trabajo estadístico trata
explícitamente de inferencias que se deben hacer a partir de muestras muy pequeñas, esto ha sido cierto durante
cientos de años, de verdad. De hecho, los estadísticos manejan los datos como sea que lleguen, grandes o pequeños.

La profesión de la estadística está atrapada en un momento confuso: las actividades que la han preocupado
durante siglos ahora están en el centro de atención, pero se dice que esas actividades son nuevas y brillantes y que las
llevan a cabo (aunque en realidad no las inventan) advenedizos y extraños. Varias organizaciones profesionales de
estadística están reaccionando:

• No son nosotros ¿Ciencia de los datos?

Columna de la presidenta de ASA, Marie Davidian, en AmStat News, julio de 2013 4

• Un gran debate: ¿la ciencia de datos es solo un 'cambio de marca' de las estadísticas?
Martin Goodson, coorganizador de la reunión de la Royal Statistical Society del 11 de mayo de 2015 sobre la relación
entre la estadística y la ciencia de datos, en publicaciones en Internet que promocionan ese evento.

• Dejar nosotros propia ciencia de datos.

Dirección presidencial de IMS de Bin Yu, reimpreso en el boletín de IMS de octubre de 2014 5

2 Al mismo tiempo, los dos grupos más grandes de profesores que participan en esta iniciativa son de EECS y Estadística. Muchos de
los profesores de EECS publican con avidez en revistas académicas de estadística; puedo mencionar al propio Al Hero, Raj Rao
Nadakaduti y otros. El diseño subyacente de la iniciativa es muy sólido y se basa en investigadores con sólidas habilidades estadísticas.
Pero todo eso está escondido bajo el capó.
3 http://www.datascienceassn.org/code-of-conduct.html

4 http://magazine.amstat.org/blog/2013/07/01/datascience/

5 http://bulletin.imstat.org/2014/10/ims-presidential-address-let-us-own-data-science/

5
No es necesario mirar muy lejos para ver que el cebo de clics capitaliza el desconcierto sobre este nuevo
estado de: aires:

• ¿Por qué necesitamos ciencia de datos cuando hemos tenido estadísticas durante siglos?
Irving Wladawsky-Berger
Wall Street Journal, informe del CIO, 2 de mayo de 2014

• Ciencia de los datos es Estadísticas.


Cuando los físicos hacen matemáticas, no dicen que están haciendo ciencia de números. Están haciendo matemáticas.
Si está analizando datos, está haciendo estadísticas. Puedes llamarlo ciencia de datos
o informática o analítica o lo que sea, pero sigue siendo estadística. ... Puede que no le guste lo que hacen algunos
estadísticos. Puede sentir que no comparten sus valores. Pueden avergonzarte. Pero eso no debería llevarnos a
abandonar el término "estadísticas".

Karl Broman, Univ. Wisconsin 6

Por otro lado, podemos encontrar comentarios puntuales sobre la (casi) irrelevancia de las estadísticas:

• La ciencia de datos sin estadísticas es posible, incluso deseable.


Vincent Granville, en el blog de Data Science Central 7

• La estadística es la parte menos importante de la ciencia de datos.


Andrew Gelman, Universidad de Columbia 8

Claramente, hay muchas visiones de la ciencia de datos y su relación con las estadísticas. En las discusiones uno
reconoce ciertos 'memes' recurrentes. Ahora nos ocupamos de los principales por turno.

2.1 El meme de los 'Big Data'


Considere el comunicado de prensa que anuncia la Iniciativa de ciencia de datos de la Universidad de Michigan con la que
comenzó este artículo. El presidente de la Universidad de Michigan, Mark Schlissel, usa el término 'big data' repetidamente,
promocionando su importancia para todos los campos y afirmando la necesidad de la ciencia de datos para manejar dichos
datos. Los ejemplos de esta tendencia son casi omnipresentes.
Podemos rechazar inmediatamente los 'macrodatos' como criterio para establecer una distinción significativa entre estadística y
ciencia de datos. 9.

• Historia. El mismo término "estadísticas" se acuñó al comienzo de los esfuerzos modernos para compilar
datos censales, es decir, datos completos sobre todos los habitantes de un país, por ejemplo, Francia o los
Estados Unidos. Los datos del censo tienen aproximadamente la escala de los grandes datos de hoy; ¡Pero
han existido por más de 200 años! Un estadístico, Hollerith, inventó el primer gran avance en

6 https://kbroman.wordpress.com/2013/04/05/data-science-is-statistics/

7 http://www.datasciencecentral.com/profiles/blogs/data-science-without-statistics-is-possible-even-desirable

8 http://andrewgelman.com/2013/11/14/statistics-least-important-part-data-science/

9 A veces, también se encuentra la afirmación de que las estadísticas se tratan de 'pequeños conjuntos de datos, mientras que la ciencia de datos se trata de' grandes

conjuntos de datos. Los libros de texto de estadística más antiguos a menudo usaban conjuntos de datos bastante pequeños para permitir a los estudiantes hacer

cálculos manuales.

6
Big Data: el lector de tarjetas perforado para permitir la compilación eficiente de un censo exhaustivo de EE. UU. 10
Este avance condujo a la formación de la corporación IBM, que finalmente se convirtió en una fuerza que impulsaba la
informática y los datos a escalas cada vez mayores. Los estadísticos se han sentido cómodos con grandes conjuntos de
datos durante mucho tiempo y han estado celebrando conferencias que reúnen a expertos en 'grandes conjuntos de
datos' durante varias décadas, incluso como de fi nición de grande siempre se estaba expandiendo. 11

• Ciencias. Los investigadores de estadística matemática han buscado la comprensión científica de grandes
conjuntos de datos durante décadas. Se han centrado en lo que sucede cuando una base de datos tiene un gran
número de individuos o un gran número de mediciones o ambos. Es simplemente incorrecto imaginar que no
están pensando en tales cosas, de manera contundente y obsesiva.

Entre los principales descubrimientos de la estadística como campo se encuentran el muestreo y la suficiencia, que permiten tratar con
conjuntos de datos muy grandes de manera extremadamente eficiente. Estas ideas se descubrieron precisamente porque los
estadísticos se preocupan por los grandes conjuntos de datos.

El marco de data-science = 'big data' no está llegando a nada muy intrínseco sobre los respectivos campos.
12

2.2 El meme de las 'habilidades'

Los científicos informáticos parecen haberse decidido por los siguientes puntos de conversación:

(a) La ciencia de datos se ocupa de datos realmente grandes, que los recursos informáticos tradicionales no podían
acomodar

(B) Los aprendices de ciencia de datos tienen las habilidades necesarias para hacer frente a conjuntos de datos tan grandes.

Por lo tanto, los evangelistas de CS están duplicando el meme de los 'Big Data' 13, colocando un 'meme de habilidades de Big Data'
en la parte superior.
¿Cuáles son esas habilidades? Muchos citarían el dominio de Hadoop, una variante de Map / Reduce para
usar con conjuntos de datos distribuidos en un grupo de computadoras. Consultar la referencia estándar Hadoop:
la guía definitiva. Almacenamiento y análisis a escala de Internet, cuarta edición por Tom White. Allí aprendemos
extensamente cómo particionar un único conjunto de datos abstracto en una gran cantidad de procesadores.
Luego, aprendemos a calcular el máximo de todos los números en una sola columna de este enorme conjunto
de datos. Esto implica calcular el máximo sobre la base de datos secundaria ubicada en cada procesador,
seguido de la combinación de los máximos individuales por procesador en todos los procesadores para obtener
un máximo general. Aunque el funcional que se calcula en este ejemplo es muy simple, se necesitan bastantes
habilidades para implementar el ejemplo a escala.

10 http://bulletin.imstat.org/2014/10/ims-presidential-address-let-us-own-data-science/

11 Durante el taller del Centenario, un participante señaló que la definición de "Big Data" de John Tukey era: "cualquier cosa que no encaje en
un dispositivo". En la época de John, el dispositivo era una unidad de cinta, pero el punto más importante es cierto hoy en día, donde dispositivo
ahora significa "servidor de archivos básico".
12 Puede ser llegar a algo real sobre los programas de maestría o sobre las actividades de investigación de las personas que serán
contratadas bajo la nueva serie de DSI.
13 ... que acabamos de descartar!

7
Perdido en el alboroto sobre tales habilidades está el hecho vergonzoso de que una vez, uno podía hacer tales
tareas de computación, e incluso otras mucho más ambiciosas, ¡mucho más fácilmente que en este nuevo y elegante
escenario! Un conjunto de datos podría caber en un solo procesador, y el máximo global de la matriz ' X 'podría
calcularse con el fragmento de código de seis caracteres' max (x) 'en, digamos, Matlab o R. Las tareas más ambiciosas,
como la optimización a gran escala de una función convexa, eran fáciles de configurar y usar. En esos tiempos menos
publicitados, las habilidades que se promocionan hoy eran innecesarias. En cambio, los científicos desarrollaron
habilidades para resolver el problema que realmente les interesaba, usando matemáticas elegantes y poderosos
entornos de programación cuantitativa modelados en esa matemática. Esos entornos fueron el resultado de 50 años o
más de perfeccionamiento continuo, acercándose cada vez más al ideal de permitir la traducción inmediata del
pensamiento abstracto claro a resultados computacionales.
La nuevo Las habilidades que atraen tanta atención de los medios no son habilidades para resolver mejor el problema. verdadero
problema de inferencia a partir de datos; son habilidades de afrontamiento para lidiar con los artefactos organizacionales de la
computación en clúster a gran escala. Las nuevas habilidades hacen frente a las nuevas y severas limitaciones de los
algoritmos planteadas por el mundo multiprocesador / en red. En este mundo tan restringido, la gama de algoritmos
fácilmente construibles se reduce drásticamente en comparación con el modelo de un solo procesador, por lo que
inevitablemente se tiende a adoptar enfoques inferenciales que se habrían considerado rudimentarios o incluso inapropiados
en la antigüedad. Tal afrontamiento consume nuestro tiempo y energía, deforma nuestros juicios sobre lo que es apropiado y
nos retiene de las estrategias de análisis de datos que de otro modo perseguiríamos con entusiasmo.
Sin embargo, las porristas en escala están gritando a todo pulmón que usar más datos merece un gran
reconocimiento.

2.3 El meme de los trabajos

El entusiasmo por los macrodatos se nutre de los notables éxitos obtenidos en la última década por empresas de tecnología
de la información (TI) de renombre mundial, como Google y Amazon, éxitos actualmente reconocidos por inversores y
directores ejecutivos. En los últimos 5 años se ha producido un aumento en las contrataciones, en el que los ingenieros con
habilidades tanto en bases de datos como en estadísticas tenían una gran demanda. En 'La cultura de Big Data' [ 1], Mike
Barlow resume la situación.

Según Gartner, en 2014 se crearán 4,4 millones de puestos de trabajo de big data y solo se
completará un tercio de ellos. La predicción de Gartner evoca imágenes de "fiebre del oro" para el talento
de big data, con legiones de incondicionales que convierten sus títulos avanzados en lucrativos acuerdos
laborales.

Mientras que Barlow sugiere que alguna grado cuantitativo avanzado será suficiente en este entorno, las iniciativas de
ciencia de datos de hoy per se implican que los títulos tradicionales de estadística no son suficientes para conseguir puestos
de trabajo en esta área - énfasis formal sobre habilidades informáticas y de bases de datos debe ser parte de la
mezcla. 14

Realmente no lo sabemos. El folleto 'Análisis de los analizadores: una encuesta introspectiva de


científicos de datos y su trabajo' [ 20] señala que

A pesar del entusiasmo en torno a la "ciencia de datos", "big data" y "análisis", la ambigüedad de
estos términos ha provocado una mala comunicación entre los científicos de datos y aquellos que buscan
su ayuda.

14 Por supuesto, los títulos de estadística requieren un uso extensivo de computadoras, pero a menudo omiten la capacitación en desarrollo de software

formal y teoría formal de bases de datos.

8
Blog de Yanir Seroussi 15 opina que "Hay pocos puestos de ciencia de datos verdaderos para personas sin experiencia
laboral".

Un científico de datos exitoso necesita poder convertirse en uno con los datos explorándolos y
aplicando un análisis estadístico riguroso ... Pero los buenos científicos de datos también
entienden lo que se necesita para implementar sistemas de producción y están listos para
ensuciarse las manos escribiendo código que limpia los datos
o realiza la funcionalidad del sistema central ... Adquirir todas estas habilidades lleva tiempo [en el
trabajo].

Barlow implica que los posibles científicos de datos pueden enfrentar años de mayor desarrollo de habilidades
post maestría, antes de que puedan agregar valor a la organización de su empleador. En un existente organización de
big data, la infraestructura de procesamiento de datos de producción ya está escrita en piedra. Es poco probable que
las bases de datos, el software y la gestión del flujo de trabajo que se enseñan en un programa de maestría en ciencia
de datos sean los mismos que los utilizados por un empleador específico. Las organizaciones contratantes
establecieron varios compromisos y limitaciones y, para un nuevo empleado, contribuir a esas organizaciones consiste
en aprender a hacer frente a esas limitaciones y aún así lograr algo.
Los programas de grado en Data Science no saben realmente cómo satisfacer la demanda supuestamente voraz de graduados.
Como mostramos a continuación, la contribución especial de un título en ciencia de datos sobre un título en estadística es la
capacitación adicional en tecnología de la información. Sin embargo, las organizaciones de contratación enfrentan dificultades para
hacer uso de las habilidades específicas de tecnología de la información que se enseñan en los programas de grado. Por el contrario, el
análisis de datos y las estadísticas son habilidades de amplia aplicación que se pueden transferir de una organización a otra.

2.4 ¿Qué es real aquí?


Hemos visto que los tropos populares de los medios de comunicación actuales sobre la ciencia de datos no resisten ni siquiera un
escrutinio básico. Esto es bastante comprensible: los escritores y administradores son conmocionados fuera de su ingenio.
Todo el mundo cree que nos enfrentamos a una discontinuidad de orden cero en los aires humanos.
Si estudiaste una guía turística en 2010, te habrían dicho que la vida en las aldeas de la India (por ejemplo)
no había cambiado en miles de años. Si fueras a esas aldeas en 2015, verías que muchas personas allí ahora
tienen teléfonos móviles y algunas tienen teléfonos inteligentes. Este es, por supuesto, el cambio fundamental
de vanguardia. Pronto, 8 mil millones de personas estarán conectadas a la red y, por lo tanto, serán fuentes de
datos, generando una amplia gama de datos sobre sus actividades y preferencias.
La transición a la conectividad universal es muy llamativa; de hecho, generará grandes cantidades de datos
comerciales. La explotación de esos datos parece ser una de las principales preocupaciones de la vida comercial en las
próximas décadas.

2.5 Un mejor marco


Sin embargo, una ciencia no surge simplemente porque una avalancha de datos pronto llenará los servidores de
telecomunicaciones y porque algunos administradores creen que pueden percibir las tendencias resultantes en la contratación
y la financiación del gobierno.

15 http://yanirseroussi.com/2014/10/23/what-is-data-science/

9
Afortunadamente, hay es un caso sólido para alguna entidad llamada 'Ciencia de Datos', que sería una
verdadera ciencia: afrontar cuestiones esenciales de carácter duradero y utilizar técnicas científicamente
rigurosas para atacar esas cuestiones.
Los estadísticos perspicaces llevan al menos 50 años sentando las bases para construir esa entidad potencial como una
ampliación de las estadísticas académicas tradicionales. Esta posible noción de ciencia de datos no es la misma que la ciencia
de datos que se promociona hoy en día, aunque existe una superposición significativa. La noción potencial responde a un
conjunto diferente de tendencias urgentes: intelectuales más que comerciales. Hacer frente a las tendencias intelectuales
requiere muchas de las mismas habilidades que afrontar las comerciales y parece igualmente probable que coincida con la
demanda futura de formación de los estudiantes y las futuras tendencias de financiación de la investigación.

La noción aspirante toma a la ciencia de datos como la ciencia de aprender a partir de los datos, con todo lo que
esto conlleva. Se corresponde con los avances científicos más importantes que surgirán en los próximos 50 años. A
medida que la ciencia misma se convierte en un cuerpo de datos que podemos analizar y estudiar, existen
asombrosamente grandes oportunidades para mejorar la precisión y validez de la ciencia, a través del estudio científico
del análisis de datos.
La comprensión de estos temas brinda a los Decanos y Presidentes la oportunidad de reorientar la energía y el
entusiasmo detrás del movimiento actual de ciencia de datos hacia programas excelentes y duraderos que canonizan
una nueva disciplina científica.
En este artículo, organizo las ideas que se han publicado a lo largo de los años sobre este nuevo campo de la
ciencia de datos y presento un marco para comprender sus preguntas y procedimientos básicos. Este marco
tiene implicaciones tanto para la enseñanza de la asignatura como para la realización de investigaciones
científicas sobre cómo se realiza y podría mejorarse la ciencia de datos.

3 El futuro del análisis de datos, 1962

Este documento fue preparado para el centenario de John Tukey. Hace más de 50 años, John profetizó que
llegaría algo como el momento actual de la ciencia de datos. En "El futuro del análisis de datos" [42], John
sorprendió profundamente a sus lectores (estadísticos académicos) con los siguientes párrafos introductorios: dieciséis

Durante mucho tiempo pensé que era un estadístico, interesado en inferencias de lo particular
a lo general. Pero a medida que he observado la evolución de las estadísticas matemáticas, he
tenido motivos para preguntarme y dudar. ... En general, he llegado a sentir que mi interés central
es el análisis de datos, que considero que incluye, entre otras cosas: procedimientos para analizar
datos, técnicas para interpretar los resultados de dichos procedimientos, formas de planificar la
recopilación de datos. datos para hacer su análisis más fácil, más preciso o más exacto, y toda la
maquinaria y los resultados de las estadísticas (matemáticas) que se aplican al análisis de datos

Este artículo fue publicado en 1962 en "The Annals of Mathematical Statistics", el lugar central para la
investigación estadística matemáticamente avanzada de la época. Otros artículos que aparecen en esa revista

dieciséis ¡Uno se pregunta por qué la revista incluso permitió que se publicara esto! En parte, uno debe recordar que John era profesor
de matemáticas en Princeton, ¡lo que le dio mucha autoridad! Sir Martin Rees, el famoso astrónomo / cosmólogo, dijo una vez que
“Dios inventó el espacio para que no todo suceda en Princeton”. JL Hodges Jr. de UC Berkeley fue editor entrante de Annals of
Mathematical Statistics y merece crédito por publicar un artículo tan visionario pero profundamente controvertido.

10
en ese momento eran matemáticamente precisos y presentaban de fi niciones, teoremas y demostraciones. En cambio, el
artículo de John era una especie de confesión pública, que explicaba por qué pensaba que tal investigación tenía un enfoque
demasiado estrecho, posiblemente inútil o dañino, y el alcance de la investigación de las estadísticas debía ampliarse y
reorientarse drásticamente.
Peter Huber, cuyos avances científicos en estimación robusta aparecerían pronto en la misma revista,
comentó recientemente sobre FoDA:

Hace medio siglo, Tukey, en un artículo enormemente influyente redefinió nuestro tema ... [El
artículo] introdujo el término "análisis de datos" como un nombre para lo que hacen los estadísticos
aplicados, diferenciando este término de la inferencia estadística formal. Pero en realidad, como
admitió Tukey, "extendió el término más allá de su filología" hasta tal punto que abarcó todas las
estadísticas.
Peter Huber (2010)

Entonces, la visión de Tukey incrustó las estadísticas en una entidad más grande. La afirmación central de Tukey era que esta
nueva entidad, a la que llamó 'Análisis de datos', era una nueva Ciencias, en lugar de una rama de las matemáticas:

Hay diversos puntos de vista sobre lo que constituye una ciencia, pero la mayoría considerará tres
componentes esenciales, a saber:

(a1) contenido intelectual,


(a2) organización en una forma comprensible,
(a3) confianza en la prueba de la experiencia como el último estándar de validez.

Según estas pruebas, las matemáticas no son una ciencia, ya que su última norma de validez es
un tipo acordado de consistencia lógica y demostrabilidad.

A mi modo de ver, el análisis de datos pasa las tres pruebas, y lo consideraría una ciencia,
definida por un problema ubicuo más que por un tema concreto. El análisis de datos y las partes de
la estadística que se adhieren a él, deben entonces asumir las características de una ciencia en
lugar de las de las matemáticas, ...

Estos puntos deben tomarse en serio.

Tukey identificó cuatro fuerzas impulsoras en la nueva ciencia:

Actualmente, cuatro influencias principales actúan sobre el análisis de datos:

1. Las teorías formales de la estadística


2. Acelerar la evolución de las computadoras y los dispositivos de visualización
3. El desafío, en muchos campos, de conjuntos de datos cada vez más grandes
4. El énfasis en la cuantificación en una variedad cada vez más amplia de disciplinas

La lista de John de 1962 es sorprendentemente moderna y abarca todos los factores citados hoy en los comunicados de prensa
que promocionan las iniciativas actuales de ciencia de datos. Sorprendente en ese momento fue el ítem n. ° 1, que implicaba que la
teoría estadística era solo una parte (¡fraccional!) De la nueva ciencia.
Tukey y Wilk 1969 compararon esta nueva ciencia con las ciencias establecidas y circunscribieron aún más el papel
de la estadística dentro de ella:

11
. . . el análisis de datos es un campo muy difícil. Debe adaptarse a lo que las personas pueden y
necesitan hacer con los datos. En el sentido de que la biología es más compleja que la física y las
ciencias del comportamiento son más complejas que cualquiera de las dos, es probable que los
problemas generales del análisis de datos sean más complejos que los de los tres. Es demasiado pedir
una guía cercana y efectiva para el análisis de datos de cualquier estructura altamente formalizada, ya
sea ahora o en un futuro cercano.

El análisis de datos puede beneficiarse mucho de las estadísticas formales, pero solo si la conexión se mantiene
adecuadamente suelta.

Por tanto, el análisis de datos no solo es un campo científico, ¡es tan complejo como cualquier campo importante de la ciencia! Y la
estadística teórica solo puede jugar un papel parcial en su progreso.
El título de 1968 de Mosteller y Tukey reiteró este punto: "Análisis de datos, incluidas las estadísticas".

4 Los 50 años desde FoDA


Si bien Tukey pedía un campo estadístico mucho más amplio, no podía desarrollarse de la noche a la mañana, ni siquiera en la
obra científica de un individuo.
PJ Huber escribió que “La influencia del papel de Tukey no fue reconocida de inmediato ... pasaron varios años
hasta que asimilé su importancia ...”. Al observar a Peter de primera mano, diría que 15 años después de FoDA se
sentía visiblemente cómodo con sus lecciones. Al mismo tiempo, la evidencia completa de este efecto en el caso de
Huber llegó incluso mucho más tarde: consulte su libro de 2010 Análisis de datos: qué se puede aprender de los últimos
50 años, que resume los escritos de Peter desde la década de 1980 y apareció 48 años después de FoDA!

4.1 Exhortaciones
Si bien Huber obviamente tomó la decisión de explorar las perspectivas ofrecidas en la visión de Tukey, el campo académico en su
conjunto no lo hizo. Los colegas de Bell Labs de John Tukey, que no se encontraban en departamentos de estadística académica,
adoptaron más fácilmente la visión de John de un campo más grande de lo que las estadísticas académicas podrían ofrecer.

John Chambers, co-desarrollador del lenguaje S para estadísticas y análisis de datos mientras estuvo en Bell Labs,
publicó ya en 1993 el ensayo [6], titulado provocativamente “Estadísticas mayores o menores, una opción para
investigaciones futuras”. Su resumen no tuvo problemas:

La profesión de la estadística se enfrenta a una elección en su investigación futura entre la concentración


continua en temas tradicionales, basada en gran parte en el análisis de datos respaldado por estadísticas
matemáticas, y un punto de vista más amplio, basado en un concepto inclusivo de aprendizaje de datos.
Este último curso presenta desafíos severos así como oportunidades emocionantes. El primero corre el
riesgo de que las estadísticas se vuelvan cada vez más marginales ...

Un llamado a la acción, de un estadístico que siente que 'el tren está saliendo de la estación'. Al igual que el artículo de Tukey,
propone que podríamos estar realizando una investigación que abarque un dominio mucho más amplio que la investigación
estadística que hacemos hoy; dicha investigación se centraría en las oportunidades que brindan los nuevos tipos de datos y los nuevos
tipos de presentación. Chambers declara explícitamente que el campo ampliado sería más grande incluso que el análisis de datos. Específicamente,
es más grande que la visión de 1962 de Tukey.

12
William S. Cleveland desarrolló muchos métodos estadísticos valiosos y presentaciones de datos mientras estaba
en Bell Labs, y se desempeñó como coeditor de las obras recopiladas de Tukey. Su artículo de 2001 [8], titulado "Ciencia
de datos: un plan de acción para ampliar las áreas técnicas del campo de la estadística" 17 se dirigió a los departamentos
de estadística académica y propuso un plan para reorientar su trabajo. Su resumen decía:

Un plan de acción para ampliar las áreas técnicas de la estadística se centra en el analista de datos. El
plan establece seis áreas técnicas de trabajo para un departamento universitario y aboga por una
asignación específica de recursos dedicados a la investigación en cada área y a los cursos en cada área. El
valor del trabajo técnico se juzga por la medida en que beneficia al analista de datos, ya sea directa o
indirectamente. El plan también es aplicable a laboratorios de investigación gubernamentales y
organizaciones de investigación corporativas.

En la introducción del artículo, Cleveland escribe que 18 19

. . . [los resultados en] la ciencia de datos deben juzgarse por la medida en que permiten al analista
aprender de los datos ... Las herramientas que utiliza el analista de datos son de beneficio directo. Las
teorías que sirven de base para desarrollar herramientas son de beneficio indirecto.

Cleveland propuso 6 focos de actividad, incluso sugiriendo asignaciones de esfuerzo.

(*) Investigaciones multidisciplinarias (25%)


(*) Modelos y métodos de datos (20%) (*)
Computación con datos (15%)
(*) Pedagogía (15%)
(*) Evaluación de herramientas
(5%) (*) Teoría (20%)

Varios departamentos de estadística académica que conozco bien podían, en el momento de la publicación de
Cleveland, encajar el 100% de su actividad en el 20% permitido por Cleveland para Teoría. El artículo de Cleveland se
volvió a publicar en 2014. No puedo pensar en un departamento académico que dedique hoy el 15% de su esfuerzo a la
pedagogía o el 15% a la informática con datos. Puedo pensar en varios departamentos de estadística académica que
continúan encajando esencialmente toda su actividad en la última categoría, Teoría.
En breve, Los estadísticos académicos fueron exhortados repetidamente a lo largo de los años, por John Tukey y
algunos de sus colegas de Bell Labs, a cambiar de rumbo, hacia una definición mucho más amplia de su campo.
Tales exhortaciones tuvieron relativamente poco efecto aparente antes de 2000.

17 Este puede ser el primer uso del término Ciencia de datos en el que está absolutamente claro que el escritor lo dice exactamente
en el sentido moderno. Un uso incluso anterior de Je ff Wu propone que los estadísticos cambien el nombre de su profesión a ciencia
de datos porque gran parte de lo que hacemos implica la limpieza y preparación de datos.
18 Esto se hace eco de las declaraciones que John Tukey también hizo en FoDA, como estoy seguro de que Bill Cleveland estaría orgulloso de

reconocer.
19 Los geofísicos hacen una distinción entre los geofísicos matemáticos que 'se preocupan por la tierra' y los que 'se preocupan por
las matemáticas'. Probablemente los biólogos hacen la misma distinción en biología cuantitativa. Aquí Cleveland lo presenta como una
prueba de fuego en relación con los teóricos estadísticos: ¿se "preocupan por el analista de datos" o no?

13
4.2 Reificación
Un obstáculo al que se enfrentaron las primeras exhortaciones fue que muchos de los exhortados no podían ver de qué se
trataba todo el alboroto. En última instancia, hacer que la actividad denominada 'Análisis de datos' sea más concreta y visible
fue impulsada por código, no por palabras.
Durante los últimos 50 años, muchos estadísticos y analistas de datos participaron en la invención y el desarrollo
de entornos computacionales para el análisis de datos. Dichos entornos incluían los primeros paquetes estadísticos
BMDP, SPSS, SAS y Minitab, todos los cuales tenían sus raíces en la computación mainframe de finales de la década de
1960, y más recientemente paquetes como S, ISP, STATA y R, con raíces en la minicomputadora. / era de la
computadora personal. Este fue un esfuerzo enorme realizado por muchas personas talentosas, demasiadas para
acreditar aquí adecuadamente. 20.
Para cuantificar la importancia de estos paquetes, intente utilizar el visor N -grams de Google 21 trazar
la frecuencia de las palabras SPSS, SAS, Minitab, en libros en idioma inglés de 1970 a 2000; y para
comparar, grafique también la frecuencia de los bigramas 'Análisis de datos' y 'Análisis estadístico'. Resulta
que SAS y SPSS son términos más comunes en el idioma inglés durante este período que 'Análisis de datos'
o 'Análisis estadístico'; de hecho, aproximadamente el doble de comunes.
John Chambers y su colega Rick Becker en Bell Labs desarrollaron el entorno de computación cuantitativa 'S' a
partir de mediados de la década de 1970; proporcionó un lenguaje para describir cálculos y muchas herramientas
estadísticas y de visualización básicas. En la década de 1990, Gentleman e Ihaka crearon el sistema 'R' similar al trabajo,
como un proyecto de código abierto que se extendió rápidamente. R es hoy el entorno de programación cuantitativa
dominante utilizado en estadística académica, con un seguimiento en línea muy impresionante.

Los entornos de programación cuantitativa ejecutan 'scripts' que codifican con precisión los pasos de un cálculo,
describiéndolos a un nivel mucho más alto y abstracto que en los lenguajes informáticos tradicionales como C ++. Estos scripts
a menudo se denominan hoy fl ujos de trabajo. Cuando un QPE dado se vuelve dominante en alguna comunidad de
investigación, como R se ha convertido en Estadística académica 22, Los flujos de trabajo pueden compartirse ampliamente
dentro de la comunidad y volver a ejecutarse, ya sea en los datos originales (si también se compartieron) o en los datos
nuevos. Este es un cambio de juego. Lo que antes era algo nebuloso, digamos la descripción en prosa de algunos análisis de
datos en un artículo científico, se vuelve en cambio tangible y útil, ya que uno puede descargar y ejecutar código
inmediatamente. También se pueden modificar fácilmente los scripts para reflejar los matices de los datos, por ejemplo,
cambiando un estimador de matriz de covarianza estándar en el script original por un estimador de matriz de covarianza
robusto. Se pueden documentar las mejoras de rendimiento provocadas por la realización de cambios en un script de línea de
base. Ahora tiene sentido hablar de un enfoque científico para mejorar un análisis de datos, mediante la medición del
rendimiento seguida de ajustes en el guión. La afirmación de Tukey de que el estudio del análisis de datos podría ser una
ciencia ahora se vuelve evidente. Uno podría estar de acuerdo o en desacuerdo con los llamados a la acción de Chambers y
Cleveland; pero todo el mundo podría estar de acuerdo con Cleveland en 2001 en que podría ser un campo como 'Ciencia de
datos'.

20 Se puede ilustrar la intensidad de la actividad de desarrollo señalando varios ejemplos estrictamente relevantes para el Centenario
de Tukey en Princeton. Usé tres 'paquetes de estadísticas' mientras estudiaba en Princeton. P-STAT era un paquete de mainframe
similar a SPSS que utilicé en el mainframe IBM 360/91 de Princeton; ISP era un paquete de miniordenadores UNIX en el que trabajé
como co-desarrollador para el Departamento de Estadística de Princeton; y mi maestro Don McNeil había desarrollado software para
un libro propio sobre análisis de datos explícitos; esto finalmente se convirtió en SPIDA después de que se mudó a la Universidad
Macquarie.
21
https://books.google.com/ngrams/graph?content=SPSS%2CSAS%2CMinitab%2CData+Analysis%2CStatistical+Analysis&year start = 1970 & year end = 2000 & corpus = 15 & smoothing = 3 ...

22 o Matlab en procesamiento de señales

14
5 de Breiman 'Dos culturas', 2001
Leo Breiman, un estadístico de UC Berkeley que volvió a ingresar a la academia después de años como consultor
estadístico para una variedad de organizaciones, incluida la Agencia de Protección Ambiental, trajo un nuevo
hilo importante a la discusión con su artículo de 2001 en Ciencia estadística. Bajo el título 'Modelado estadístico:
las dos culturas', Breiman describió dos perspectivas culturales sobre la extracción de valor de los datos.

Las estadísticas comienzan con los datos. Piense en los datos como generados por una caja
negra en la que un vector de variables de entrada x (variables independientes) van en un lado y en
el otro lado salen las variables de respuesta y. Dentro de la caja negra, la naturaleza funciona para
asociar las variables predictoras con las variables de respuesta ...
Hay dos objetivos al analizar los datos:

• Predicción. Ser capaz de predecir cuáles serán las respuestas a futuras variables de
entrada;
• [Inferencia]. 23 Para [inferir] cómo la naturaleza asocia las variables de respuesta a las variables de
entrada.

Breiman dice que los usuarios de datos se dividen en dos culturas, en función de su lealtad principal a uno u
otro de estos objetivos.
El 'modelado generativo' 24 La cultura busca desarrollar modelos estocásticos que se ajusten a los datos y luego
hacer inferencias sobre el mecanismo de generación de datos basándose en la estructura de esos modelos. Implícita
en su punto de vista está la noción de que existe un verdadero modelo que genera los datos y, a menudo, una
verdadera "mejor" forma de analizar los datos. Breiman pensaba que esta cultura abarcaba al 98% de todos los
estadísticos académicos.
La cultura del 'modelado predictivo' 25 prioriza predicción y Breiman estima que engloba al 2% de los
estadísticos académicos, incluido Breiman, pero también a muchos informáticos y, como muestra la discusión de
su artículo, a importantes estadísticos industriales. El modelado predictivo es efectivamente silencioso sobre el
mecanismo subyacente que genera los datos y permite muchos algoritmos predictivos diferentes, prefiriendo
discutir solo la precisión de la predicción hecha por diferentes algoritmos en varios conjuntos de datos. Breiman
identifica la disciplina relativamente reciente del aprendizaje automático, que a menudo se encuentra dentro de
los departamentos de informática, como el epicentro de la cultura del modelado predictivo.
El resumen de Breiman dice, en parte

La comunidad estadística se ha comprometido con el uso casi exclusivo de modelos [generativos]. Este
compromiso ha llevado a una teoría irrelevante, a conclusiones cuestionables y ha impedido que los estadísticos
trabajen en una amplia gama de problemas actuales interesantes. El modelado [predictivo], tanto en la teoría
como en la práctica, se ha desarrollado rápidamente en campos ajenos a la estadística. Se puede utilizar tanto
en grandes conjuntos de datos complejos como en una forma más precisa y

23 Cambié ligeramente las palabras de Breiman aquí; el original tiene "Información" en lugar de [Inferencia] y "extraer información
sobre" en lugar de [inferir]
24 Breiman llamó a esto 'Modelado de datos', pero el 'Modelado generativo' pone en primer plano el supuesto clave: que un modelo
estocástico podría generar esos datos. Así que volvemos a cambiar ligeramente la terminología de Breiman.
25 Breiman usó 'algorítmico' en lugar de 'predictivo'

15
alternativa informativa al modelado de datos en conjuntos de datos más pequeños. Si nuestro objetivo como
campo es usar datos para resolver problemas, entonces debemos alejarnos de la dependencia exclusiva de
modelos [generativos] ...

Nuevamente, la disciplina estadística está llamada a ampliar su alcance.


En la discusión del artículo de Breiman, los estimados estadísticos Sir David Cox de Oxford y Bradley
Efron de Stanford objetaron de diversas maneras el énfasis que Breiman estaba haciendo.

• Cox afirma que, en su opinión, 'el éxito predictivo ... no es la base principal para la elección del modelo'
y eso "Los métodos formales de elección de modelos que no tienen en cuenta los objetivos más amplios son
sospechosos ...".

• Efron afirma que ' La predicción es sin duda un tema interesante, pero el artículo de Leo exagera tanto su papel
como la falta de interés de nuestra profesión en él ”.

En la misma discusión, Bruce Hoadley, un estadístico de la empresa de calificación crediticia Fair, Isaac se involucra
con entusiasmo con los comentarios de Breiman:

El artículo del profesor Breiman es importante para que lo lean los estadísticos. Él y la Ciencia
Estadística deben ser aplaudidos ... Sus conclusiones son consistentes con la forma en que a menudo se
practica la estadística en los negocios.

Fair, el negocio principal de Isaac es respaldar los miles de millones de transacciones diarias con tarjeta de crédito
mediante la emisión en tiempo real (cuánto asciende a) predicciones de que una transacción solicitada será
reembolsada o no. Fair, Isaac no solo crea modelos predictivos, sino que debe usarlos para brindar su negocio principal
y debe justificar su precisión ante bancos, compañías de tarjetas de crédito y organismos reguladores. La relevancia de
la cultura predictiva de Breiman para su negocio es clara y directa.

6 La salsa secreta de la cultura predictiva


Breiman tenía razón al exhortar a los estadísticos a comprender mejor la cultura del modelado predictivo, pero su
artículo no reveló claramente la "salsa secreta" de la cultura.

6.1 El marco de trabajo común


En mi opinión, la metodología crucial pero poco apreciada que impulsa el éxito del modelado predictivo es lo
que el lingüista computacional Marc Liberman (Liberman, 2009) ha llamado el Marco de tareas común
(CTF). Una instancia del CTF tiene estos ingredientes:

(a) Un conjunto de datos de entrenamiento disponible públicamente que incluye, para cada observación, una lista de (posiblemente muchas)
mediciones de características y una etiqueta de clase para esa observación.

(B) Un conjunto de competidores inscritos cuya tarea común es inferir una regla de predicción de clase a partir de la
datos de entrenamiento.

(C) Un árbitro de puntuación, al que los competidores pueden enviar su regla de predicción. El árbitro ejecuta el
regla de predicción contra un conjunto de datos de prueba que está secuestrado detrás de un muro chino. El
árbitro informa objetiva y automáticamente el puntaje (precisión de la predicción) logrado por la regla
presentada.

dieciséis
Todos los competidores comparten el Tarea común de entrenar una regla de predicción que recibirá una buena
puntuación; de ahí la fase marco de trabajo común.
Un ejemplo reciente famoso es el Desafío Net fl ix, donde la tarea común era predecir las selecciones de películas
de los usuarios de Net fl ix. El equipo ganador (que incluía al estadístico de ATT Bob Bell) ganó $ 1 millón. El conjunto de
datos utilizó datos de historial de clientes patentados de Net fl ix. Sin embargo, hay muchos otros ejemplos, a menudo
con recompensas mucho mayores (implícitamente) en juego.

6.2 Experiencia con CTF


La génesis del paradigma CTF tiene una conexión interesante con nuestra historia. En el relato de Marc
Liberman, comienza con JR Pierce, un colega de Tukey en Bell Labs. Pierce había inventado la palabra "transistor"
y supervisado el desarrollo del primer satélite de comunicaciones, y formó parte del Comité Asesor Científico
Presidencial con Tukey a principios y mediados de los sesenta. Al mismo tiempo que Tukey estaba evaluando
problemas emergentes causados por el uso excesivo de pesticidas, se le pidió a Pierce que evaluara la ya
extensa inversión en investigación de traducción automática. De la misma manera que a Tukey no le gustaba
mucho de lo que consideraba investigación estadística en la década de 1960, a Pierce no le gustaba mucho lo
que consideraba investigación de traducción automática de la década de 1960.
Ahora seguimos de cerca a Marc Liberman 26. Al juzgar que el campo estaba plagado de susceptibilidad al 'glamour
y el engaño', Pierce logró paralizar todo el esfuerzo de investigación en traducción automática de EE. UU.
- enviándolo esencialmente a cero durante décadas.
Como ejemplos de glamour y engaño, Pierce se refirió a enfoques teóricos de la traducción que se derivan, por
ejemplo, de las llamadas teorías del lenguaje de Chomsky; Mientras que muchos investigadores del lenguaje en ese
momento aparentemente estaban asombrados por el carisma que conllevaban tales teorías, Pierce vio a esos
investigadores como engañados por el glamour de (una posible) teoría, en lugar de su desempeño real en la
traducción.
La investigación de la traducción automática finalmente resurgió décadas más tarde del limbo de
Pierce, pero sólo porque encontró una manera de evitar la susceptibilidad a las acusaciones de glamour y
engaño de Pierce. Un equipo de investigación dirigido por Fred Jelinek en IBM, que incluía a verdaderos
genios como John Cocke, comenzó a hacer un progreso definitivo hacia la traducción automática basada
en una aplicación temprana del marco de tareas comunes. Un recurso clave eran los datos: habían
obtenido una copia digital de los llamados Hansards canadienses, un corpus de documentos
gubernamentales que se habían traducido tanto al inglés como al francés. A fines de la década de 1980,
DARPA estaba convencida de adoptar el CTF como un nuevo paradigma para la investigación de la
traducción automática. NIST fue contratado para producir los datos secuestrados y realizar el arbitraje,

DARPA ya ha aplicado con éxito variantes de CTF en muchos problemas: traducción automática,
identificación de locutor, reconocimiento de huellas dactilares, recuperación de información, OCR,
reconocimiento automático de objetivos, etc.
Liberman resumió la experiencia general con CTF de la siguiente manera:

1. Las tasas de error disminuyen en un porcentaje fijo cada año, a una asíntota según la tarea y los datos.
calidad.

2. El progreso generalmente proviene de muchas pequeñas mejoras; un cambio del 1% puede ser una razón para romper
fuera el champán.

26
https://www.simonsfoundation.org/lecture/reproducible-research-and-the-common-task-method/

17
3. Los datos compartidos juegan un papel crucial y se reutilizan de formas inesperadas.

El éxito final de muchos procesos automáticos que ahora damos por sentado (traductor de Google, identificación táctil de
teléfonos inteligentes, reconocimiento de voz de teléfonos inteligentes) se deriva del paradigma de investigación CTF o, más
específicamente, su efecto acumulativo después de operar durante décadas en campos específicos. Lo más importante para
nuestra historia: Los campos en los que el aprendizaje automático ha obtenido buenos resultados son esencialmente aquellos
en los que se ha aplicado el CTF de forma sistemática.

6.3 La salsa secreta


No es exagerado decir que la combinación de una cultura de modelado predictivo junto con CTF es la
'salsa secreta' del aprendizaje automático.
Cabe destacar la sinergia de minimizar el error de predicción con CTF. Esta combinación conduce directamente a
un enfoque total en la optimización del rendimiento empírico, lo que, como ha señalado Marc Liberman, permite que
un gran número de investigadores compita en cualquier desafío de tarea común y permite una evaluación eficiente y
sin emociones de los ganadores del desafío. También conduce inmediatamente a aplicaciones en una aplicación del
mundo real. En el proceso de ganar una competencia, una regla de predicción necesariamente ha sido probada, por lo
que está esencialmente lista para su implementación inmediata. 27

Muchos 'forasteros' no son conscientes de la naturaleza paradigmática del CTF y su papel central en muchos de los
éxitos del aprendizaje automático. Es posible que esos forasteros hayan oído hablar del desafío Net fl ix, sin apreciar el
papel de CTF en ese desafío. Pueden notar que el 'aprendizaje profundo' se ha convertido en un tema candente en los
medios de alta tecnología, sin saber que el rumor se debe a los éxitos de los defensores del aprendizaje profundo en
múltiples competencias que cumplen con CTF.
Entre los forasteros, aparentemente hay muchos estadísticos académicos de la corriente principal que
parecen tener poco aprecio por el poder del CTF para generar progreso, campo tras campo tecnológico. No
recuerdo haber visto a CTF en una presentación de conferencia importante en una conferencia de estadística
profesional o seminario académico en una importante universidad de investigación.
El autor cree que Common Task Framework es la única idea del aprendizaje automático y la ciencia de
datos que más falta de atención en la formación estadística actual.

6.4 Habilidades requeridas

El Common Task Framework impone numerosas demandas a los trabajadores en un campo:

• Los trabajadores deben entregar modelos predictivos que puedan ser evaluados por el procedimiento de
puntuación CTF en cuestión. Por lo tanto, deben someterse personalmente a la disciplina de tecnología de la
información impuesta por los desarrolladores de CTF.

• Es posible que los trabajadores incluso necesiten implementar un CTF personalizado para su problema; por lo tanto,
ambos deben desarrollar una disciplina de tecnología de la información para la evaluación de las reglas de puntuación
y deben obtener un conjunto de datos que pueda formar la base del recurso de datos compartidos en el corazón del
CTF.

27 Sin embargo, en el caso del Net fl ix Challenge, el algoritmo ganador nunca se implementó.
https://www.techdirt.com/blog/innovation/articles/20120409/03412518422/why-net fl ix-never-implement-algorítmo-que-ganó-net fl ix-1-millionchallenge.shtml

18
En resumen, las habilidades en tecnología de la información están en el centro de las calificaciones necesarias para trabajar en
modelos predictivos. Estas habilidades son análogas a las habilidades de laboratorio que necesita un científico de laboratorio húmedo
para llevar a cabo experimentos. No se requieren matemáticas.
El uso de CTFs realmente se quitó aproximadamente al mismo tiempo que comenzó el movimiento del software de código abierto
y con la consiguiente llegada de entornos de programación cuantitativa que dominaban comunidades de investigación específicas. El
dominio de QPE permitió a los investigadores compartir de manera conveniente scripts en sus comunidades, en particular scripts que
implementan un modelo de predicción de línea de base o un flujo de trabajo de puntuación de línea de base. Entonces, las habilidades
requeridas para trabajar dentro de un CTF se volvieron muy específicas y muy fáciles de enseñar.
- ¿Podemos descargar y modificar de forma productiva un conjunto de scripts?

7 Enseñanza de la ciencia de datos de consenso actual


Puede ser revelador observar lo que se enseña en los programas de ciencia de datos actuales en algunas
de las universidades que los han establecido recientemente. Consideremos el sitio web atractivo e
informativo para la maestría en ciencia de datos de UC Berkeley en datascience.berkeley.edu.
Revisando el plan de estudios en https://datascience.berkeley.edu/academics/curriculum/ encontramos
5 cursos básicos

Diseño de investigación y aplicación para datos y análisis


Exploración y análisis de datos
Almacenamiento y recuperación de datos
Aprendizaje automático aplicado
Visualización y comunicación de datos

Los departamentos tradicionales de Estadística no parecen enseñar claramente a “Almacenar y recuperar datos”; y
un estudio cuidadoso de las palabras revela que el tema menos tradicional entre los demás, los temas reales cubiertos
en "Aprendizaje automático aplicado", le parece a un estadístico muy parecido a lo que un departamento de estadística
podría o debería ofrecer; sin embargo, el uso de 'Machine Aprendizaje 'en el título del curso es una pista de que el
enfoque puede estar fuertemente inclinado hacia el modelado predictivo en lugar de la inferencia.

El aprendizaje automático es un campo en rápido crecimiento en la intersección de la informática y


las estadísticas relacionadas con la búsqueda de patrones en los datos. Es responsable de tremendos
avances en tecnología, desde recomendaciones personalizadas de productos hasta reconocimiento de
voz en teléfonos celulares. Este curso proporciona una amplia introducción a las ideas clave del
aprendizaje automático. El énfasis estará en la intuición y los ejemplos prácticos más que en los
resultados teóricos, aunque será importante algo de experiencia con probabilidad, estadística y álgebra
lineal.

La elección de los temas puede dar solo una idea parcial de lo que ocurre en el curso. En "Herramientas",
encontramos una serie de tecnologías de la información fundamentales.

Bibliotecas de Python para álgebra lineal, trazado, aprendizaje automático: numpy,


matplotlib, sk-learn / Github para enviar el código del proyecto

19
En resumen, los participantes del curso están produciendo y enviando código. El desarrollo de código aún no se
considera completamente de rigor para la enseñanza de estadística, y en muchos cursos de estadística se realizarían
utilizando código en R u otros entornos de programación cuantitativa, que es mucho más 'fácil' para que los
estudiantes lo utilicen para el análisis de datos porque prácticamente todo el análisis de datos moderno ya está
programado. Sin embargo, R tiene la reputación de ser menos escalable que Python para problemas de gran tamaño.
En ese sentido, se podría considerar que una persona que hace su trabajo en Python ha trabajado más duro y ha
mostrado más persistencia y concentración que una que hace el mismo trabajo en R.
Tales pensamientos continúan cuando consideramos los cursos avanzados.

Experimentos e inferencia causal


Regresión aplicada y análisis de series de tiempo
Consideraciones legales, políticas y éticas para científicos de datos Aprendizaje
automático a escala.
¡Ampliar! Realmente grandes datos.

Los dos primeros cursos parecen cursos de estadística convencionales que podrían impartir los departamentos de estadística de
cualquier universidad de investigación. El tercero es menos familiar pero se superpone con los cursos de “Política legal y
consideraciones éticas para investigadores” que han existido en las universidades de investigación durante bastante tiempo.
Los dos últimos cursos abordan el desafío de ampliar los procesos y procedimientos a datos realmente
grandes. Estos son cursos que normalmente no se ofrecerían en un departamento de estadística tradicional.
¿Quiénes son los profesores del programa de ciencia de datos de UC Berkeley? Aparentemente, no son estadísticos
académicos de ascendencia tradicional. En la división del sitio web "Acerca de la facultad de MIDS" el viernes 11 de septiembre
de 2015, pude encontrar biografías en su mayoría breves para los profesores asociados con los cursos en gran parte no
estadísticos (como "¡Escala! Realmente Big Data" o "Aprendizaje automático a escala ”). Para el aproximadamente 50% de los
cursos que cubren temas estadísticos tradicionales, había menos biografías disponibles, y esas parecían indicar diferentes
trayectorias profesionales que los doctorados en Estadística tradicionales: doctorados en sociología o doctorados en ciencias
de la información '. s. El programa en sí está a cargo de la escuela de información. 28

En FoDA, Tukey argumentó que la enseñanza de la estadística como una rama de las matemáticas estaba frenando el
análisis de datos. Vio el aprendizaje con analistas de datos reales y, por lo tanto, los datos reales como la solución:

Todas las ciencias tienen mucho arte en su composición. Además de enseñar hechos y estructuras
bien establecidas, todas las ciencias deben enseñar a sus aprendices cómo pensar sobre las cosas a la
manera de esa ciencia en particular, y cuáles son sus creencias y prácticas actuales. El análisis de datos
debe hacer lo mismo. Inevitablemente, su tarea será más difícil que la de la mayoría de las ciencias.

Los físicos por lo general se han sometido a una exposición prolongada y concentrada a aquellos que ya son
maestros en el campo. Los analistas de datos, incluso si son estadísticos profesionales, habrán tenido mucha menos
exposición a los analistas de datos profesionales durante su formación. Tres razones para esto se mantienen hoy y, en
el mejor de los casos, pueden modificarse lentamente:
(c1) La estadística tiende a enseñarse como parte de las matemáticas.
(c2) En el aprendizaje de las estadísticas per se, se ha prestado poca atención al análisis de datos.

28 No quiero dar a entender en lo anterior que haya algo que me preocupe acerca de la composición de la facultad. Deseo demostrar que esta
es una oportunidad que están aprovechando los no estadísticos. Un elemento importante incluso en la historia de la estadística académica fue el
artículo de Hotelling "La enseñanza de la estadística" (1940) [23], que denunció la enseñanza de la estadística por no matemáticos y motivó la
formación de departamentos de estadística académica. Los nuevos desarrollos pueden estar deshaciendo los muchos años de profesionalización
de la enseñanza de la estadística en la posguerra.

20
(c3) El número de años de contacto íntimo y vigoroso con profesionales es mucho menor para los
doctores en estadística que para los doctores en física o matemáticas.
Así, el análisis de datos y las estadísticas adheridas se enfrentan a un problema inusualmente difícil de comunicar
algunos de sus elementos esenciales, uno que presumiblemente no puede resolverse tan bien como en la mayoría de
los campos mediante el discurso indirecto y el trabajo codo con codo.

El programa de maestría en ciencia de datos de Berkeley presenta un curso final que involucra un proyecto de
análisis de datos con un gran conjunto de datos. La lista de cursos indica en parte que en la clase final

El proyecto final ... proporciona experiencia en la formulación y realización de un curso de


trabajo sostenido, coherente y significativo que da como resultado una
Proyecto de análisis de ciencia de datos con datos del mundo real. ... La piedra angular se completa como
un proyecto de grupo / equipo (3-4 estudiantes), y cada proyecto se centrará en datos secundarios abiertos
y preexistentes.

Este proyecto parece ofrecer algunas de las oportunidades de "aprendizaje" que John Tukey conocía de su trabajo
universitario en Química y que consideraba importantes para el análisis de datos.
Tukey insistió en que el rigor matemático tenía un valor muy limitado en la enseñanza del análisis de datos.
Esta opinión ya era evidente en la cita de FoDA inmediatamente anterior. En otra parte de FoDA Tukey dijo:

La enseñanza del análisis de datos no es fácil y el tiempo permitido siempre está lejos de ser suficiente. Pero estas
dificultades se han visto reforzadas por el punto de vista de que “la evitación de los libros de cocina y el aumento de la
comprensión sólo se obtienen mediante el tratamiento matemático, con énfasis en las demostraciones”.

El problema de los libros de cocina no es exclusivo del análisis de datos. Pero la solución de
concentrarse en las matemáticas y la demostración es.

Tukey veía el análisis de datos como otras ciencias y no como las matemáticas, en el sentido de que existía
conocimiento que necesitaba ser relacionado en lugar de teoremas que necesitaban prueba. Basándose de nuevo en
su experiencia en química, comentó que

El campo de la bioquímica contiene hoy un conocimiento mucho más detallado que el campo
del análisis de datos. El problema general de la enseñanza es más difícil. Sin embargo, los libros de
texto se esfuerzan por contar los hechos con el mayor detalle posible.

También sugirió que los laboratorios experimentales ofrecían una forma para que los estudiantes aprendieran estadística.

Estos hechos son un poco complejos y pueden no resultar infinitamente fáciles de enseñar, pero cualquier
clase puede verificar casi cualquiera de ellos haciendo su propio muestreo experimental.

Se especula que John Tukey podría haber visto la migración de estudiantes de los cursos de estadística
a cursos de ciencia de datos equivalentes como posiblemente no algo malo.
En su artículo 'Modelado estadístico: las dos culturas', Leo Breiman argumentó que enseñar la construcción de modelos
estocásticos y la inferencia hasta la exclusión del modelado predictivo estaba dañando la capacidad de las estadísticas para atacar los
problemas más interesantes que veía en el horizonte. Los problemas que mencionó en ese momento se encuentran entre las
aplicaciones candentes de la ciencia de datos en la actualidad. Así que Breiman podría haber dado la bienvenida

21
programas de enseñanza que invierten el equilibrio entre inferencia y predicción; es decir, programas como la
maestría en ciencia de datos de UC Berkeley.
Aunque mis héroes Tukey, Chambers, Cleveland y Breiman reconocerían las características positivas de
estos programas, es difícil decir si aprobarían su dirección a largo plazo, o si incluso hay una dirección a
largo plazo sobre la que comentar. Considere esta definición sarcástica:

Científico de datos (n.): Persona que es mejor en estadísticas que cualquier ingeniero de
software y mejor en ingeniería de software que cualquier estadístico.

Esta definición se basa de hecho. Los planes de estudio de Data Science Masters son compromisos: sacar algún
material de un programa de maestría en estadística para hacer espacio para la capacitación en bases de datos grandes;
o, igualmente, como sacar algún material de una base de datos maestra en CS e insertar algunas estadísticas y
aprendizaje automático. Tal compromiso ayuda a los administradores a poner en marcha rápidamente un programa de
grado, sin proporcionar ninguna orientación sobre la dirección a largo plazo del programa y sobre la investigación que
llevará a cabo su facultad. ¿Qué orientación a largo plazo podrían haber ofrecido mis héroes?

8 El alcance completo de la ciencia de datos

John Chambers y Bill Cleveland imaginaron cada uno un campo potencial que es considerablemente más grande que el
Data Science Master de consenso que hemos estado discutiendo, pero también más intelectualmente productivo y
duradero.
La visión más amplia coloca a un profesional en una búsqueda para extraer información de los datos, exactamente
como en las definiciones de ciencia de datos que vimos anteriormente. El campo más grande se preocupa por todos y
cada uno de los pasos que debe dar el profesional, desde familiarizarse con los datos hasta obtener resultados
basados en ellos, y extenderse incluso a la revisión continua de la evidencia por parte del profesional sobre las
mejores prácticas de todo el campo. .
Siguiendo a Chambers, llamemos a la colección de actividades mencionadas hasta ahora 'Lesser Data
Science' (LDS) y al campo potencial más grande Mayor ciencia de datos ( GDS). Chambers y Cleveland
analizaron cada uno su tema ampliado en divisiones / temas / subcampos de actividad específicos. Me
parece útil fusionar, volver a etiquetar y generalizar los dos análisis que propusieron. Esta sección
presenta y luego analiza esta clasificación de GDS.

8.1 Las seis divisiones


Las actividades de Greater Data Science se clasifican en 6 divisiones:

1. Exploración y preparación de datos

2. Representación y transformación de datos

3. Computación con datos

4. Modelado de datos

5. Visualización y presentación de datos

6. Ciencia sobre ciencia de datos

Entremos en algunos detalles sobre cada división.

22
GDS1: Exploración y preparación de datos. Algunos dicen que el 80% del esfuerzo dedicado a los datos
la ciencia se gasta por sumergirse en o convirtiéndose en uno con los datos desordenados de uno para aprender los conceptos básicos
de lo que contienen, de modo que los datos puedan estar listos para su posterior explotación. Identificamos dos subactividades:

• Exploración. Desde que John Tukey acuñó el término 'Análisis de datos exploratorios' (EDA), todos estamos de
acuerdo en que todos los científicos de datos dedican mucho tiempo y esfuerzo a explorar los datos para
verificar sus propiedades más básicas y exponer características inesperadas. Este trabajo de detective agrega
conocimientos cruciales a cada esfuerzo basado en datos. 29.

• Preparación. Muchos conjuntos de datos contienen anomalías y artefactos. 30 Cualquier proyecto basado
en datos requiere identificar y abordar estos problemas de manera consciente. Las respuestas van desde
reformatear y recodificar los valores mismos, hasta preprocesamiento más ambicioso, como
agrupamiento, suavizado y subconjunto. A menudo, hoy en día, se habla colorido de limpieza de datos.

GDS2: Representación y transformación de datos. Un científico de datos trabaja con muchos


fuentes de datos durante una carrera. Estos asumen una amplia gama de formatos, a menudo idiosincrásicos, y
el científico de datos tiene que adaptarse fácilmente a todos ellos. Las limitaciones actuales de hardware y
software son parte de la variedad porque el acceso y el procesamiento pueden requerir un despliegue
cuidadoso de recursos distribuidos.

Los científicos de datos encuentran muy a menudo que un paso central en su trabajo es implementar una
transformación apropiada reestructurando los datos dados originalmente en una forma nueva y más reveladora.

Los científicos de datos desarrollan habilidades en dos áreas específicas:

• Bases de datos modernas. El alcance de la representación de datos actual incluye todo, desde archivos de texto y
hojas de cálculo familiares hasta bases de datos SQL y noSQL, bases de datos distribuidas y flujos de datos en
vivo. Los científicos de datos necesitan conocer las estructuras, transformaciones y algoritmos involucrados en el
uso de todas estas diferentes representaciones.

• Representaciones matemáticas. Se trata de estructuras matemáticas interesantes y útiles para representar datos
de tipos especiales, incluidos datos acústicos, de imágenes, de sensores y de red. Por ejemplo, para obtener
características con datos acústicos, a menudo uno se transforma en cepstrum o transformada de Fourier; para
los datos de imágenes y sensores, la transformada wavelet o alguna otra transformada multiescala (por ejemplo,
pirámides en aprendizaje profundo). Los científicos de datos desarrollan facilidad con tales herramientas y un
juicio maduro sobre su implementación.

GDS3: Computación con datos. Todo científico de datos debe conocer y utilizar varios idiomas para
análisis de datos y procesamiento de datos. Estos pueden incluir lenguajes populares como R y Python, pero
también lenguajes específicos para transformar y manipular texto, y para gestionar complejas canalizaciones
computacionales. No es sorprendente estar involucrado en proyectos ambiciosos utilizando media docena de
idiomas en concierto.

29 En el Centenario de Tukey, Rafael Irizarry dio un ejemplo convincente de análisis de datos exploratorios de datos GWAS, estudiando
cómo la media de las filas de datos variaba con la fecha en la que se recopiló cada fila. campo del análisis de la expresión genética para
hacer frente a algunos problemas de datos que paralizaban sus estudios.
30 Peter Huber (2010) recuerda el artículo clásico de Coale y Stephan sobre las viudas adolescentes

23
Más allá del conocimiento básico de los lenguajes, los científicos de datos deben mantenerse al día con los nuevos modismos
para usar de manera eficiente esos lenguajes y deben comprender los problemas más profundos asociados con la eficiencia
computacional.

La computación en clúster y en la nube y la capacidad de ejecutar una gran cantidad de trabajos en dichos clústeres se
ha convertido en un ingrediente abrumadoramente poderoso del panorama computacional moderno. Para aprovechar
esta oportunidad, los científicos de datos desarrollan flujos de trabajo que organizan el trabajo para dividirlo en
muchos trabajos y ejecutarlos secuencialmente o en muchas máquinas.

Los científicos de datos también desarrollan flujos de trabajo que documentan los pasos de un proyecto de investigación o
análisis de datos individual.

Por último, los científicos de datos desarrollan paquetes que abstraen los flujos de trabajo de uso común y los
ponen a disposición para su uso en proyectos futuros.

GDS4: Visualización y presentación de datos. La visualización de datos en un extremo se superpone con


los gráficos muy simples de EDA (histogramas, gráficos de dispersión, gráficos de series de tiempo), pero en la práctica
moderna se puede llevar a extremos mucho más elaborados. Los científicos de datos suelen dedicar mucho tiempo a
decorar gráficos sencillos con colores o símbolos adicionales para incorporar un factor nuevo importante y, a menudo,
cristalizan su comprensión de un conjunto de datos desarrollando un nuevo gráfico que lo codifica. Los científicos de
datos también crean paneles para monitorear las canalizaciones de procesamiento de datos que acceden a la
transmisión o datos ampliamente distribuidos. Finalmente, desarrollan visualizaciones para presentar conclusiones de
un ejercicio de modelado o desafío CTF.

GDS5: Modelado de datos. Cada científico de datos en la práctica utiliza herramientas y puntos de vista de ambas cosas de
Las culturas del modelaje de Leo Breiman:

• Modelado generativo, en el que se propone un modelo estocástico que podría haber generado los
datos y se derivan métodos para inferir propiedades del mecanismo generativo subyacente. Esto, a
grandes rasgos, coincide con las estadísticas académicas tradicionales y sus ventajas. 31

• Modelado predictivo, en el que se construyen métodos que predicen bien sobre algún universo de datos
dado, es decir, un conjunto de datos concreto muy específico. Esto coincide aproximadamente con el
aprendizaje automático moderno y sus brotes industriales. 32

GDS6: Ciencia sobre ciencia de datos. Tukey propuso que existe una 'ciencia del análisis de datos'
y debe reconocerse como una de las ciencias más complicadas. Abogó por el estudio de lo que están haciendo
realmente los analistas de datos 'en la naturaleza' y nos recordó que la verdadera efectividad de una
herramienta está relacionada con la probabilidad de implementación multiplicada por la probabilidad de
resultados efectivos una vez implementada. 33

31 Es sorprendente cómo, cuando reviso una presentación sobre la ciencia de datos actual, en la que a las estadísticas se le da muy poca
atención superficialmente, no puedo evitar notar que las herramientas, ejemplos e ideas subyacentes que se enseñan como ciencia de datos
fueron literalmente inventado por alguien capacitado en Ph.D. estadísticas y, en muchos casos, el software real que se utiliza fue desarrollado
por alguien con una maestría o un doctorado. en estadística. Los esfuerzos acumulados de los estadísticos a lo largo de los siglos son demasiado
abrumadores para disimularlos por completo y no pueden ocultarse en la enseñanza, la investigación y el ejercicio de la ciencia de datos.

32 Leo Breiman (2001) tiene razón al señalar que los departamentos de estadística académica (en ese momento, e incluso desde entonces) han

subestimado la importancia de la cultura predictiva en los cursos y la contratación. Claramente necesita un énfasis adicional.
33 Análisis de los datos per se Es probablemente un término demasiado estrecho, porque pierde todo el procesamiento de datos automatizado que se lleva a cabo

bajo la etiqueta de Ciencia de Datos, sobre el cual también podemos hacer estudios científicos de comportamiento "en la naturaleza".

24
Los científicos de datos están haciendo ciencia sobre ciencia de datos cuando identifican flujos de trabajo de análisis /
procesamiento que ocurren comúnmente, por ejemplo, utilizando datos sobre su frecuencia de ocurrencia en algún
ámbito académico o empresarial; cuando miden la efectividad de los flujos de trabajo estándar en términos del tiempo
humano, el recurso informático, la validez del análisis u otra métrica de desempeño, y cuando descubren fenómenos
emergentes en el análisis de datos, por ejemplo, nuevos patrones que surgen en los flujos de trabajo del análisis de
datos, o perturbadores artefactos en los resultados de análisis publicados.

El alcance aquí también incluye el trabajo fundamental para hacer posible dicha ciencia en el futuro, como la
codificación de la documentación de los análisis individuales y las conclusiones en un formato digital estándar
para la recolección y el metanálisis futuros.

A medida que el análisis de datos y el modelado predictivo se conviertan en una empresa global cada vez más
distribuida, la "Ciencia sobre ciencia de datos" crecerá drásticamente en importancia.

8.2 Discusión
Estas seis categorías de actividad, cuando se analizan en su totalidad, cubren un campo de esfuerzo mucho más amplio que lo
que enseñan o estudian los esfuerzos académicos actuales. 34,35 De hecho, una sola categoría, 'GDS5: Modelado de datos',
domina la representación de la ciencia de datos en los departamentos académicos actuales, ya sea en los departamentos de
estadística y matemáticas a través de la enseñanza e investigación de estadística tradicional, o en los departamentos de
informática a través del aprendizaje automático.
Este análisis refleja varios puntos que hemos estado tratando de hacer antes:

• El problema de la cuña que utilizan los informáticos para separar 'Ciencia de datos' de 'Estadísticas' se
reconoce aquí, mediante la adición de 'GDS3: Computación con datos' y 'GDS2: Representación de datos'
como divisiones principales junto con 'GDS5: Modelado de datos' . 37,38

• La tensión entre el aprendizaje automático y las estadísticas académicas se suprime en la clasificación anterior; gran
parte de ella es irrelevante para lo que hacen los científicos de datos a diario. Como dije anteriormente, los científicos
de datos deberían utilizar modelos tanto generativos como predictivos.

34 La visión de 1993 de John Chambers de 'Estadísticas más amplias' propuso 3 divisiones: preparación de datos, modelado de datos y
presentación de datos. Los incluimos aquí en 'GDS1: Exploración y preparación de datos'; 'GDS5: Modelado de datos' y 'GDS4:
Visualización y presentación de datos', respectivamente.
35 El programa de ciencia de datos de 2001 de Cleveland incluyó varias categorías que pueden mapearse en (subconjuntos) de las
propuestas aquí; por ejemplo:
• Las categorías de Cleveland 'Teoría' y 'Modelos estocásticos y métodos estadísticos' se pueden mapear en GDS ya sea en el
subconjunto 'Modelos generativos' de 'GDS5: Modelado de datos' o en el propio 'Modelado de datos GDS5';
• Su categoría 'Computación con datos' se asigna a un subconjunto de la categoría GDS del mismo nombre; la categoría GDS se
ha expandido para cubrir desarrollos como Hadoop y AWS que aún no eran visibles en 2001.
• La categoría 'Evaluación de herramientas' de Cleveland se puede mapear en un subconjunto de 'GDS6: Ciencia sobre ciencia de datos'

Cleveland también asignó recursos a investigaciones multidisciplinarias y pedagogía. Me parece que estos se pueden asignar a
subconjuntos de nuestras categorías. Por ejemplo, la pedagogía debería ser parte de la ciencia sobre ciencia de datos; podemos
esperar una enseñanza basada en la evidencia. 36

37 En nuestra opinión, los problemas de escalamiento, aunque reales, son en realidad transitorios (porque la tecnología los trivializará
con el tiempo). La actividad más importante incluida en estas divisiones son los muchos esfuerzos ambiciosos e incluso audaces para
reconceptualizar la pila de software estándar de la ciencia de datos actual.
38 En términos prácticos, todo estadístico debe dominar la tecnología de bases de datos en el curso de proyectos aplicados.

25
• El alboroto sobre las bases de datos distribuidas, Map / Reduce y Hadoop es no evidente en la clasificación anterior.
Dichas herramientas son relevantes para 'GDS2: Representación de datos' y 'GDS3: Computación con datos' pero,
aunque se citan mucho en este momento, son simplemente los habilitadores actuales de ciertas actividades más
grandes. Estas actividades estarán disponibles de forma permanente, mientras que el papel de facilitadores como
Hadoop inevitablemente se simplificará.

• Los programas de maestría actuales en ciencia de datos cubren solo una fracción del territorio que se describe
aquí. Los graduados de dichos programas no habrán tenido suficiente exposición a la exploración de datos,
limpieza de datos, disputa de datos, transformación de datos, ciencia sobre ciencia de datos y otros temas en
GDS.

Otras características de este inventario aparecerán a continuación.

8.3 Enseñanza de GDS


El pleno reconocimiento del alcance de GDS requeriría cubrir cada una de sus 6 ramas. Esto exige cambios
importantes en la enseñanza.
'GDS5: Modelado de datos' es la parte fácil de la ciencia de datos de formalizar y enseñar; lo hemos estado haciendo
durante generaciones en los cursos de Estadística; durante una década o más en cursos de aprendizaje automático; y este
patrón continúa en los programas de maestría en ciencia de datos que se están introduciendo a nuestro alrededor, donde
consume la mayor parte del tiempo asignado al trabajo del curso. Sin embargo, este 'material fácil' cubre solo una fracción del
esfuerzo requerido para hacer un uso productivo de los datos.
'GDS1: Exploración y preparación de datos' es más importante que 'GDS5: Modelado de datos', medido utilizando
el tiempo invertido por los profesionales. Pero ha habido pocos esfuerzos para formalizar la exploración y limpieza de
datos y estos temas todavía se descuidan en la enseñanza. Los estudiantes que solo analizan datos precocinados no
tienen la oportunidad de aprender estas habilidades esenciales.
¿Cómo podría la enseñanza abordar un tema así? Sugiero al lector que estudie cuidadosamente dos libros
(juntos).

• El libro [ 41], analiza un conjunto de bases de datos que cubren todos los aspectos del juego estadounidense de las grandes
ligas de béisbol, incluidos todos los juegos jugados en las últimas décadas y todos los jugadores que alguna vez aparecieron en
tales juegos. Este trabajo asombrosamente completo considera una lista casi exhaustiva de preguntas que uno podría tener
sobre el desempeño cuantitativo de diferentes estrategias de béisbol, describe cuidadosamente cómo se pueden responder
tales preguntas usando una base de datos de este tipo, generalmente mediante una prueba estadística de dos muestras (o A /
Prueba B en terminología de marketing en Internet).

• Analizando datos de béisbol con R [ 30] muestra cómo acceder a la impresionante cantidad de datos de béisbol
disponibles a través de Internet y cómo usar R para analizar esos datos de manera perspicaz.

Un estudiante que pudiera mostrar cómo usar sistemáticamente las herramientas y métodos enseñados en el segundo
libro para responder algunas de las preguntas interesantes del primer libro, a mi entender, habría desarrollado una
experiencia real en la división anterior 'GDS1: Exploración y preparación de datos '. Se pueden desarrollar proyectos similares
para todas las demás divisiones "nuevas" de la ciencia de datos. En 'GDS3: Computación con datos', se podría enseñar a los
estudiantes a desarrollar nuevos paquetes de R y nuevos flujos de trabajo de análisis de datos de manera práctica.

Ben Bauman y los coautores revisan las experiencias en [22, 2] en la enseñanza de primeros y segundos cursos en
Ciencia de datos / Estadística que son consistentes con este enfoque.

26
Al lector le preocupará que el gran alcance de GDS sea mucho mayor de lo que estamos acostumbrados a enseñar.
Tukey anticipó tales objeciones al señalar que los libros de texto de bioquímica parecen cubrir mucho más material que
los libros de texto de estadística; pensó que una vez que el campo se comprometa a enseñar de manera más
ambiciosa, simplemente puede "acelerar el ritmo". 39

8.4 Investigación en GDS


Una vez que tenemos la plantilla GDS en mente, podemos reconocer que hoy hay todo tipo de interesantes
- y altamente impactante - 'investigación GDS'. Gran parte de ella aún no tiene un "hogar" natural, pero GDS
proporciona un marco para organizarla y hacerla accesible. Mencionamos algunos ejemplos para estimular el
pensamiento del lector.

8.4.1 Entornos de programación cuantitativa: R

El tema general de 'Computación con datos' puede sonar al principio como si fuera extensible para cubrir gran
parte de la informática académica convencional; lo que sugiere que tal vez no exista una diferencia real entre la
ciencia de datos y la ciencia de la computación. Por el contrario, 'Computación con datos' tiene un núcleo distinto
y una identidad separada de la informática académica. La prueba de fuego es si el trabajo se centra en la
necesidad de analizar datos.
Argumentamos anteriormente que el sistema R transformó la práctica del análisis de datos al crear un lenguaje
estándar que los diferentes analistas pueden usar para comunicarse y compartir algoritmos y flujos de trabajo. Becker
y Chambers (con S) y más tarde Ihaka, Gentleman, y los miembros del equipo R Core (con R) concibieron su trabajo
como investigar cómo organizar mejor los cálculos con datos estadísticos. Yo también clasifico esto como investigación,
abordando la categoría 'GDS 3: Computación con datos'. Tenga en cuenta cuán esencialmente ambicioso fue el
esfuerzo y cuán impactante. Al revisar recientemente muchas presentaciones en línea sobre iniciativas de ciencia de
datos, me sorprendió ver cuánto se confía en R, incluso por parte de los instructores de ciencia de datos que afirman
no estar haciendo estadísticas en absoluto.

8.4.2 Reorganización de datos: datos ordenados

Hadley Wickham es un conocido colaborador del mundo de la computación estadística, como autor de numerosos paquetes
que se están volviendo populares entre los usuarios de R en todo el mundo; éstas incluyen ggplot2, remodelar2,
y plyr; [ 46, 48, 49]. Estos paquetes resumen y atacan ciertos problemas comunes en el subcampo de ciencia de
datos 'GDS 2: Representación y transformación de datos' y también en el subcampo 'GDS 4: Visualización y
presentación de datos', y las herramientas de Wickham han ganado aceptación como indispensables para
muchos.
En [47] Wickham analiza la noción de ordenado datos. Observando (como también lo he hecho anteriormente) la estimación
común de que El 80% del análisis de datos se gasta en el proceso de limpieza y preparación de los datos. Wichkam desarrolla una forma
sistemática de pensar sobre los formatos de datos "desordenados" e introduce un conjunto de herramientas en R que los traducen a
un formato de datos universal "ordenado". Identi fi ca varios formatos de datos desordenados que se encuentran comúnmente en el
análisis de datos y muestra cómo transformar cada uno de estos formatos en un formato ordenado usando sus herramientas. derretir y
emitir. Una vez que los datos se funden, pueden ser muy convenientemente

39 Tukey también sintió que centrarse en la prueba matemática limitaba la cantidad de territorio que podía cubrirse en la enseñanza
universitaria.

27
operado utilizando herramientas de la plyr biblioteca, y luego los datos de salida resultantes se pueden 'convertir' en una
forma final para su uso posterior.
La plyr la biblioteca abstrae ciertos procesos de iteración que son muy comunes en el análisis de datos, de la
forma 'aplicar tal y cual función a cada elemento / columna / fila / sector' de una matriz. La idea general se
remonta a 1962 de Kenneth Iverson. APL 360 lenguaje de programación [27], y el operador reduce allí
formalizado; Los lectores más jóvenes habrán visto el uso de ideas derivadas en conexión con Map / Reduce y
Hadoop, que agregaron el ingrediente de aplicar funciones en muchos procesadores en paralelo. Todavía plyr ofrece
una abstracción muy fructífera para los usuarios de R y, en particular, les enseña bastante a los usuarios de R
sobre el potencial de la forma específica de R de implementar funciones como cierres dentro de los entornos.

Wickham no solo ha desarrollado un paquete R que pone a disposición herramientas de datos ordenadas; ha
escrito un artículo que enseña al usuario de R sobre el potencial de esta forma de operar. Este esfuerzo puede tener
más impacto en la práctica actual del análisis de datos que muchos trabajos estadísticos teóricos de gran prestigio.

8.4.3 Presentación de la investigación: Knitr

Como tercera viñeta, mencionamos el trabajo de Yihui Xie sobre el tejedor paquete en R. Esto ayuda a los
analistas de datos a crear documentos fuente que combinan la ejecución de código R con texto, y luego compilar
esos documentos ejecutando el código R, extrayendo resultados del cálculo en vivo e insertándolos en un
archivo PDF de alta calidad, HTML web página u otro producto de salida.
De hecho, todo el flujo de trabajo de un análisis de datos se entrelaza con la interpretación de los resultados, lo que
ahorra una gran cantidad de operaciones de corte y pegado manuales propensas a errores en las salidas computacionales
móviles y su lugar en el documento.
Dado que el análisis de datos generalmente implica la presentación de conclusiones, no hay duda de que las actividades
de ciencia de datos, en el sentido más amplio de GDS, incluyen la preparación de informes y presentaciones. La investigación
que mejora esos informes y presentaciones de alguna manera fundamental ciertamente está contribuyendo a GDS. En este
caso, podemos verlo como parte de 'GDS3: Computación con datos', porque uno está capturando el flujo de trabajo de un
análisis. Como mostramos más adelante, también permite una investigación importante en 'GDS6: Ciencia sobre ciencia de
datos'.

8.5 Discusión
Se pueden multiplicar los ejemplos anteriores, haciendo que la investigación de GDS sea cada vez más concreta. Dos golpes rápidos:

• Para el subcampo 'GDS 4: Visualización y presentación de datos'. se pueden mencionar varias contribuciones de
investigación ejemplares: el trabajo de Bill Cleveland sobre gráficos estadísticos [9, 7], junto con los libros de
Leland Wilkinson [50] y Hadley Wickham [46] sobre la gramática de los gráficos.

• Para el subcampo 'GDS 1: Exploración y presentación de datos' existe, por supuesto, la investigación original de hace
mucho tiempo de John Tukey sobre EDA [43]; más recientemente, el trabajo de Cook y Swayne sobre gráficos dinámicos
[12].

Nuestros puntos principales sobre toda la investigación mencionada anteriormente:

(a) no es una investigación tradicional en el sentido de las estadísticas matemáticas o incluso el aprendizaje automático;

(B) ha demostrado tener un gran impacto en los científicos de datos en ejercicio;

28
(C) Se pueden y se deben realizar muchas más investigaciones de este tipo.

Sin una clasificación como GDS, sería difícil saber dónde "ponerlo todo" o si un programa de ciencia de
datos dado está adecuadamente equipado para académicos / investigadores en todo el espectro del
campo.

9 Ciencia sobre ciencia de datos


Una amplia colección de actividades técnicas no es una ciencia; podría ser simplemente un oficio como la cocina o un
campo técnico como la ingeniería geotécnica. Para tener derecho a utilizar la palabra "ciencia", debemos tener un
enfoque basado en la evidencia en constante evolución. 'GDS6: Science about Data Science' postula tal enfoque;
revisamos brevemente algunos trabajos que muestran que realmente podemos tener un análisis de datos basado en la
evidencia. También en cada caso señalamos el papel esencial de las habilidades en tecnología de la información, la
medida en que el trabajo "se parece a la ciencia de datos" y la experiencia profesional de los investigadores
involucrados.

9.1 Metanálisis de toda la ciencia


En FoDA 40, Tukey propuso que los estadísticos deberían estudiar cómo las personas analizan los datos en la actualidad.
Al formalizar la noción de comparaciones múltiples [44], Tukey puso en juego la idea de que todo un cuerpo de
conclusiones de análisis puede evaluarse estadísticamente.
La combinación de estas ideas conduce muy pronto al metanálisis, donde estudiamos todos los análisis de datos
que se publican sobre un tema determinado. 41 En 1953, la introducción al artículo de Tukey [44] consideró un ejemplo a
muy pequeña escala con 6 comparaciones diferentes en estudio. En la actualidad, se publican anualmente más de 1
millón de artículos científicos, solo en la investigación médica clínica, y hay muchos estudios repetidos de la misma
intervención. ¡Hay mucho análisis de datos para realizar un metaestudio!
En los últimos diez años, el alcance de dicho metaanálisis ha avanzado espectacularmente; ahora percibimos toda
la literatura científica como un cuerpo de texto que debe recolectarse, procesarse y "rasparse" para eliminar sus datos
numéricos incrustados. Esos datos se analizan en busca de pistas sobre los metaproblemas en la forma en que toda la
ciencia analiza los datos. Puedo citar algunos artículos de John Ioannidis y coautores [24, 26, 4, 32] y para los
estadísticos el artículo 'Una estimación de la tasa de falsos descubrimientos científicos ...' [28] junto con todas su
discusión subsiguiente.
En particular, los metaanalistas han aprendido que una fracción alarmante de las conclusiones de la literatura científica
son simplemente incorrectas (es decir, mucho más del 5%) y que la mayoría de los tamaños de los efectos publicados están
exagerados, que muchos resultados no son reproducibles, etc.
Nuestro gobierno gasta decenas de miles de millones de dólares cada año para producir más de 1 millón de artículos
científicos. Se acerca a la importancia cósmica para saber si la ciencia, tal como se practica realmente, está teniendo éxito o
incluso cómo la ciencia en su conjunto puede mejorar.

40 “Una vez sugerí, en una discusión en una reunión de estadística, que sería bueno que los estadísticos miraran cómo los datos eran
realmente analizados por muchos tipos de personas. Un estadístico muy eminente y de alto nivel se levantó de inmediato para decir que se
trataba de una idea nueva, que podría tener mérito, pero que los estadísticos jóvenes deberían tener cuidado de no entregarse demasiado a
ella, ya que podría distorsionar sus ideas ”. Tukey, FoDA
41 La práctica del metanálisis se remonta al menos a Karl Pearson. No intento sugerir que Tukey haya originado el metanálisis; solo
recordando al lector el trabajo de John para la ocasión del centenario.

29
Gran parte de esta investigación se llevó a cabo en la comunidad de estadísticas aplicadas en general, por
ejemplo, en escuelas de educación, medicina, salud pública, etc. Gran parte del ya asombroso logro depende del
"procesamiento de texto", es decir, extraer datos de resúmenes publicados en bases de datos en línea o
eliminarlos de archivos PDF, etc. En el proceso construimos “Big Data”; por ejemplo, Ioannidis y colaboradores
recientemente recolectaron todos los pag- valores incrustados en todos los resúmenes de Pubmed. Los
participantes en este campo están haciendo ciencia de datos y su objetivo es responder preguntas
fundamentales sobre el método científico que se practica en la actualidad.

9.2 Análisis de estudios cruzados

Debido a que la investigación médica es tan extensa y lo que está en juego es tan alto, a menudo hay múltiples estudios de la
misma intervención clínica básica, cada uno analizado por algún equipo específico a la manera de ese equipo específico. Los
diferentes equipos producen diferentes predicciones del resultado del paciente y diferentes afirmaciones del desempeño de
sus predictores. ¿Cuál, si alguno de los predictores, funciona realmente?
Giovanni Parmigiani, de la Escuela de Salud Pública de Harvard, me explicó un ejercicio de validación de estudios cruzados
[3], en el que él y sus coautores consideraron un conjunto de estudios que desarrollan métodos para predecir la supervivencia
del cáncer de ovario a partir de medidas de expresión génica. A partir de 23 estudios de cáncer de ovario con datos disponibles
públicamente, crearon un conjunto de datos curados combinados que incluían datos de expresión génica y datos de
supervivencia, que incluían 10 conjuntos de datos con 1251 pacientes en total. A partir de 101 artículos candidatos en la
literatura, identificaron 14 modelos de pronóstico diferentes para predecir el resultado del paciente. Estas eran fórmulas para
predecir la supervivencia a partir de la expresión genética observada; las fórmulas se habían ajustado a conjuntos de datos de
estudios individuales por sus analistas originales y, en algunos casos, se habían validado con conjuntos de datos recientes
recopilados por otros estudios.
Parmigiani y sus colegas consideraron el siguiente procedimiento de validación de estudios cruzados: ajustar cada uno de
los 14 modelos a uno de los 10 conjuntos de datos, y luego validarlo en cada uno de los conjuntos de datos restantes, medir la
concordancia del riesgo predicho con el orden de muerte real, produciendo una Matriz de 14 por 10 que permite estudiar los
modelos individuales a través de conjuntos de datos, y también permite estudiar conjuntos de datos individuales a través de
modelos.
Se llegaron a sorprendentes conclusiones de estudios cruzados. En primer lugar, se determinó claramente que el modelo
de un equipo era mejor que todos los demás, a pesar de que en la publicación inicial reportó el desempeño de validación más
intermedio. En segundo lugar, un conjunto de datos fue claramente "más difícil" de predecir bien que los otros, en el sentido
de la tasa de clasificación errónea informada inicialmente, pero es precisamente este conjunto de datos el que arrojó el mejor
modelo general.
Este meta estudio demuestra que al acceder a todos los datos anteriores de un grupo de estudios y al probar todos
los enfoques de modelado anteriores en todos los conjuntos de datos, se puede obtener un mejor resultado y una
comprensión más completa de los problemas y deficiencias de los análisis de datos reales.
El esfuerzo que implica la realización de este estudio es impresionante. Los autores profundizaron en los
detalles de más de 100 artículos científicos y entendieron completamente cómo se realizó la limpieza y el ajuste
de datos en cada caso. Se accedió a todos los datos subyacentes y se reprocesaron en un nuevo formato
comisariado común, y todos los pasos del ajuste de datos se reconstruyeron algorítmicamente para que
pudieran aplicarse a otros conjuntos de datos. Una vez más, la tecnología de la información juega un papel
clave; Gran parte de la programación de este proyecto se llevó a cabo en R. Parmigiani y los colaboradores son
bioestadísticos muy implicados en el desarrollo de paquetes R.

30
Acrónimo Música pop. Tamaño Fuente Intervalo de tiempo Drogas Cond Proc
CCAE 46,5 millones Privado 2003-09 1.03B 1.26B 1.98B
MDCD 20,8 Medicaid 2002-07 360 millones Los 552M los 558M

MDCR 4,6 millones Medicare 2003-09 401M Los 405M los 478M
MSLR 1,2 millones Laboratorio 2003-07 38M 50M 69M
GE 11,2 millones HCE 1996-08 182M Los 66M los 110M

Tabla 2: Conjuntos de datos de OMOP. Las cifras numéricas dan el número de personas u objetos. Así, 46,5 millones en la parte
superior izquierda significa 46,5 millones de personas; mientras que 110M en la parte inferior derecha significa 110 millones de
procedimientos.

9.3 Análisis de flujo de trabajo cruzado

Un componente oculto crucial de la variabilidad en la ciencia es el flujo de trabajo del análisis. Los diferentes estudios de la misma
intervención pueden seguir diferentes flujos de trabajo, lo que puede hacer que los estudios obtengan conclusiones diferentes. Joshua
Carp [5] estudió los flujos de trabajo de análisis en 241 estudios de resonancia magnética funcional. ¡Encontró casi tantos flujos de
trabajo únicos como estudios! En otras palabras, los investigadores están inventando un nuevo flujo de trabajo para prácticamente
todos los estudios.
David Madigan y colaboradores [35, 29] estudiaron el efecto de la flexibilidad del análisis sobre el tamaño del
efecto en estudios observacionales; su colaboración se denominará en adelante OMOP. Como motivación, los
autores de OMOP señalan que en la literatura de investigación clínica existen estudios del mismo conjunto de
datos, y la misma intervención y resultado, pero con diferente flujo de trabajo de análisis, y las conclusiones
publicadas sobre el riesgo de la intervención son invertido. Madigan da el ejemplo explícito de exposición a
pioglitazona y cáncer de vejiga, donde los artículos publicados en BJMP y BMJ llegaron a conclusiones opuestas
en la misma base de datos subyacente.
Los autores de OMOP obtuvieron 5 grandes conjuntos de datos de observación, que cubren juntos un total de más de 200
millones de pacientes-año.
El grupo OMOP consideró 4 resultados diferentes, codificados "Lesión renal aguda", "Lesión hepática aguda",
"Infarto agudo de miocardio", "Sangrado gastrointestinal". Consideraron una amplia gama de posibles intervenciones
para cada medida de resultado, por ejemplo, si los pacientes que tomaron el fármaco X posteriormente sufrieron el
resultado Y. A continuación, "Lesión hepática aguda" significa la asociación "Exposición a X y lesión hepática aguda".

Para cada resultado objetivo, los investigadores identificaron una colección de controles positivos y negativos conocidos,
intervenciones X para las cuales se considera conocida la verdad fundamental de afirmaciones como "La exposición a X está
asociada con una lesión hepática aguda". Usando tales controles, podrían cuantificar la capacidad de un procedimiento de
inferencia para detectar correctamente asociaciones usando la medida del Área Bajo la Curva de Operación (AUC).

OMOP consideró 7 procedimientos diferentes para la inferencia de estudios observacionales, denominados “CC”,
“CM”, “DP”, “ICTPD”, “LGPS”, “OS”, “SCCS”. Por ejemplo, “CC” significa estudios de casos y controles, mientras que SCCS
significa series de casos autocontrolados. En cada caso, el procedimiento de inferencia se puede automatizar por
completo.
En su estudio, OMOP consideró, para cada base de datos, para cada resultado posible, cada uno de los siete
tipos de método de estudio observacional (CC, .., SCCS).
El informe OMOP concluye que los tres métodos denominados autocontrolados superan a los

31
otros métodos en general, siendo SCCS especialmente bueno en general. Así que su estudio revela bastante
sobre la efectividad de varios procedimientos de inferencia, ofreciendo una idea de cómo se ve la inferencia
mejorada y qué tan precisa podría ser.
Este trabajo representa un esfuerzo masivo de OMOP: curar datos, programar algoritmos de inferencia
de una manera unificada y aplicarlos en una serie de situaciones subyacentes. Tratar con big data fue una
parte esencial del proyecto; pero la motivación principal fue comprender que la literatura científica
contiene una fuente de variación, la variación metodológica, cuya influencia en la inferencia futura en este
campo podría entenderse, limitarse o incluso reducirse. Los participantes fueron estadísticos y
bioestadísticos.

9.4 Resumen
Parece haber defectos importantes en la validez de la literatura científica [34, 25, 40, 10]. El siglo pasado ha sido
testigo del desarrollo de una gran colección de metodología estadística y de una vasta empresa que utiliza esa
metodología para respaldar la publicación científica. Existe una comunidad muy grande de usuarios de
metodología expertos y no tan expertos. No sabemos mucho sobre cómo se está utilizando ese cuerpo de
metodología y tampoco sabemos mucho sobre la calidad de los resultados que se están logrando.

Los científicos de datos no pueden producir una metodología a ciegas sin mostrar preocupación por los resultados que se
obtienen en la práctica. Los estudios que hemos clasificado como 'GDS6: Ciencia sobre ciencia de datos' nos ayudan a
comprender cómo el análisis de datos, tal como se practica, está impactando en 'toda la ciencia'.
Ciertamente, las habilidades en tecnología de la información son muy importantes en la investigación que acabamos de cubrir. Sin
embargo, la comprensión científica y el conocimiento estadístico están firmemente en el asiento del conductor.

10 Los próximos 50 años de ciencia de datos


¿Dónde estará la ciencia de datos en 2065? La evidencia presentada hasta ahora contiene pistas importantes,
que ahora reunimos.

10.1 La ciencia abierta se hace cargo

En principio, el propósito de la publicación científica es permitir la reproducibilidad de los resultados de la investigación.


Durante siglos, los resultados computacionales y los análisis de datos se han mencionado en publicaciones científicas, pero
por lo general solo han dado a los lectores una pista de la complejidad total del análisis de datos que se describe. A medida
que los cálculos se han vuelto más ambiciosos, la brecha entre lo que los lectores saben sobre lo que hicieron los autores se ha
vuelto inmensa. Hace veinte años, Jon Buckheit y yo resumimos las lecciones que habíamos aprendido de Jon Claerbout de
Stanford de la siguiente manera:

Un artículo sobre ciencia computacional en una publicación científica no es la beca en sí, es


simplemente publicidad de la beca. La beca real es el entorno completo de desarrollo de
software y el conjunto completo de instrucciones que generaron las cifras.

Para alcanzar el objetivo original de la publicación científica, se debe compartir el código y los datos subyacentes.
Además, existen beneficios para los autores. Trabajar desde el principio con un plan para compartir código y datos
conduce a un trabajo de mayor calidad y asegura que los autores puedan acceder a su propio trabajo anterior, y

32
los de sus coautores, estudiantes y posdoctorados [14]. A lo largo de los años, estas prácticas se han
comprendido mejor [36, 37] y han crecido [38, 16], aunque todavía están lejos de ser universales en la
actualidad. En términos absolutos, la cantidad de investigación esencialmente no reproducible es mucho mayor
que nunca [37].
Actualmente, muchos líderes científicos reconocen que la computación reproducible es un requisito fundamental
para una publicación científica válida. El mensaje anual de 2015 de Ralph Cicerone, presidente de la Academia Nacional
de Ciencias de EE. UU., Destaca este tema; mientras que las agencias de financiación [11] y varias revistas clave [33, 21,
31] han desarrollado una serie de iniciativas de reproducibilidad.
Para trabajar de forma reproducible en el entorno computacional actual, se construyen flujos de trabajo automatizados
que generan todos los cálculos y todos los análisis de un proyecto. Como corolario, uno puede entonces, fácil y naturalmente,
perfeccionar y mejorar el trabajo anterior de forma continua.
Los resultados computacionales deben integrarse en las publicaciones finales. Los métodos tradicionales (ejecutar
trabajos de forma interactiva a mano, reformatear los datos a mano, buscar resultados computacionales y copiar y
pegar en documentos) ahora se consideran irresponsables. Recientemente, varios marcos interesantes que combinan
secuencias de comandos computacionales integradas con la creación de documentos 42 ha sido desarrollado. Al trabajar
dentro de la disciplina que imponen tales sistemas, resulta muy fácil documentar el cálculo completo que conduce a un
resultado específico en un artículo específico. El trabajo de Yihui Xie con el tejedor
paquete, mencionado anteriormente, es uno de esos ejemplos.
La reproducibilidad de los experimentos computacionales es tan importante para la ciencia de datos
industriales como para la publicación científica. Permite un enfoque disciplinado para proponer y evaluar
posibles mejoras del sistema y una fácil transición de las mejoras validadas al uso en producción.
La computación reproducible encaja en nuestra clasificación tanto en 'GDS 4: Presentación de datos' como en 'GDS
6: Ciencia sobre ciencia de datos'. En particular, enseñar a los estudiantes a trabajar de manera reproducible permite
una evaluación más fácil y profunda de su trabajo; hacer que reproduzcan partes de análisis de otros les permite
aprender habilidades como el análisis exploratorio de datos que se practican comúnmente pero que aún no se
enseñan sistemáticamente; y capacitarlos para trabajar de manera reproducible hará que su trabajo de posgrado sea
más confiable.
Las agencias de financiación de la ciencia han incluido durante mucho tiempo en sus políticas de financiación un
requisito teórico de que los investigadores pongan el código y los datos a disposición de otros. Sin embargo, nunca ha
habido cumplimiento, y siempre existió la excusa de que no había una forma estándar de compartir código y datos.
Hoy en día hay muchos esfuerzos de desarrollo en curso para desarrollar herramientas estándar que permitan la
reproducibilidad [38, 16, 39], algunas son parte de proyectos de alto perfil de las fundaciones Moore y Simons.
Podemos predecir con seguridad que en los próximos años la reproducibilidad será una práctica generalizada.

10.2 La ciencia como datos

Conceptualmente adjunta a una publicación científica hay una gran cantidad de información numérica, por ejemplo, PAG-
valores reportados dentro de él. Esa información debería estudiarse como datos. Hoy en día, obtener esos datos es
problemático; puede implicar la lectura de artículos individuales y extracción y compilación manual, o web scraping y
limpieza de datos. Ambas estrategias son propensas a errores y consumen mucho tiempo.

42 Tales esfuerzos se remontan al proyecto Literate Programming de Donald Knuth. Si bien la programación alfabetizada (mezcla de
código y documentación) no parece haberse vuelto muy popular, un pariente cercano (mezclar código ejecutable, datos,
documentación y salidas de ejecución en un solo documento) es justo lo que el médico ordenó para la investigación reproducible en
computación Ciencias.

33
Con la adopción generalizada de la ciencia abierta durante los próximos 50 años, se hace visible un nuevo
horizonte. Los resultados computacionales individuales informados en un documento, y el código y los datos
subyacentes a esos resultados, serán universalmente citables y recuperables mediante programación. Matan Gavish y
yo escribimos algunos artículos [18, 17] que proponían una forma de abrir ese nuevo mundo y que luego exploraban el
futuro de la ciencia en tal mundo.
Esos artículos definieron la noción de resultado computacional verificable (VCR) como un resultado
computacional y metadatos sobre el resultado, asociados de manera inmutable con una URL y, por lo
tanto, permanentemente citable y recuperable mediante programación. Combinando la computación en la
nube y el almacenamiento en la nube, Gavish desarrolló marcos de servidor que implementaron la noción
de VCR, registrando cada resultado clave de forma permanente en el servidor y devolviendo la URL que
cita. También proporcionó bibliotecas del lado del cliente (por ejemplo, para Matlab) que permitieron la
creación de VCR y devolvieron el enlace asociado, y que proporcionaron acceso programático a los datos a
los que hace referencia el enlace. En el lado de la creación de documentos, proporcionó paquetes de
macros que integraban dichos enlaces en documentos TeX publicados. Como resultado,

En un mundo en el que cada resultado numérico de una publicación científica es citable y recuperable, junto con el
algoritmo subyacente que lo produjo, los enfoques actuales del metanálisis son mucho más fáciles de llevar a cabo.
Uno puede extraer fácilmente todos los PAG- valores de un papel compatible con VCR, o extraer todos los puntos de
datos en un gráfico dentro de él, de una manera universal y rigurosamente verificable. En este mundo futuro, la
práctica del metanálisis del tipo del que hablamos en la Sección 9.1, por supuesto, se expandirá. Pero surgen muchas
oportunidades científicas nuevas. Mencionamos dos ejemplos:

• Intercambio de control de estudios cruzados. En este nuevo mundo, se pueden extraer datos de control de estudios
anteriores [45]. Las nuevas oportunidades incluyen: (a) tener conjuntos de control enormemente más grandes en
estudios futuros; (b) cuantificar el impacto de grupos de control específicos y sus diferencias en las conclusiones de los
estudios individuales; y (c) extensos ejercicios de calibración del "mundo real" donde ambos grupos son en realidad
grupos de control.

• Comparaciones de estudios cruzados. Las comparaciones de estudios cruzados de las Secciones 9.2 y 9.3, requirieron
esfuerzos masivos para reconstruir manualmente los análisis en estudios previos de otros autores, y luego curar
manualmente sus datos. Cuando los estudios sean reproducibles computacionalmente y compartan código y datos,
será natural aplicar el algoritmo del artículo A en los datos del artículo B, y así comprender cómo diferentes flujos de
trabajo y diferentes conjuntos de datos provocan variaciones en las conclusiones. Se espera que esto se convierta en la
tendencia dominante en la investigación algorítmica.

Las posibilidades adicionales se discuten en [17].

10.3 Análisis de datos científicos, probado empíricamente


A medida que la ciencia misma se vuelve cada vez más accesible para datos y algoritmos, los enfoques de intercambio de
datos de estudios cruzados y de flujo de trabajo discutidos anteriormente en las secciones 9.2 y 9.3 se difundirán
ampliamente. En los próximos 50 años, se dispondrá de una gran cantidad de datos para medir el rendimiento de los
algoritmos en todo un conjunto de situaciones. Este es un cambio de juego para la metodología estadística. En lugar de
derivar procedimientos óptimos bajo supuestos idealizados dentro de modelos matemáticos, mediremos rigurosamente el
desempeño mediante métodos empíricos, basados en toda la literatura científica o en subconjuntos relevantes de ella.

34
Muchos juicios actuales sobre qué algoritmos son buenos para qué propósitos serán anulados.
Citamos tres referencias sobre el tema central de la clasificación con un poco de detalle.

10.3.1 Mano de DJ (2006)

en [19], DJ Hand resumió el estado de la investigación con clasificadores en 2006. Escribió:

Por tanto, la situación hasta la fecha parece ser una de progreso teórico muy sustancial, lo
que lleva a desarrollos teóricos profundos y a un mayor poder predictivo en aplicaciones
prácticas. Si bien todas estas cosas son ciertas, el argumento de este artículo es que el
impacto práctico de los desarrollos se ha inflado; que aunque se ha avanzado, es posible que
no sea tan grande como se ha sugerido. ...
La esencia del argumento [en este artículo] es que las mejoras atribuidas a los desarrollos más
avanzados y recientes son pequeñas, y que los aspectos de los problemas prácticos reales a menudo
hacen que esas pequeñas diferencias sean irrelevantes, o incluso irreales, de modo que las ganancias
informadas sobre la teoría fundamentos, o comparaciones empíricas de conjuntos de datos simulados o
incluso reales, no se traducen en ventajas reales en la práctica. Es decir, el progreso es mucho menor de
lo que parece. 43

¿Cómo apoyó Hand una afirmación tan audaz? En el aspecto empírico, utilizó "una muestra seleccionada al
azar de diez conjuntos de datos" de la literatura y consideró la tasa de clasificación empírica. Mostró que el
Análisis Discriminante Lineal, que se remonta a Fisher (1936) [15], logró una fracción sustancial (90% o más) de la
mejora alcanzable por encima de una línea de base de adivinación aleatoria. Los métodos de mejor rendimiento
eran mucho más complicados y sofisticados, pero el rendimiento incremental por encima de LDA fue
relativamente pequeño.
El punto teórico de Hand era precisamente isomórfico a un punto que hizo Tukey en FoDA sobre la
optimización teórica: la optimización bajo un modelo teórico estrecho no conduce a mejoras de
rendimiento en la práctica.

10.3.2 Donoho y Jin (2008)

Para hacer el punto de Hand completamente concreto, considere trabajar en la clasificación de altas dimensiones por
mí y Jiashun Jin [13]. 44

Supongamos que tenemos datos X yo, j que consta de 1 ≤ I ≤ norte observaciones sobre pag variables y etiquetas binarias
Y I ∈ {+ 1, - 1}. Buscamos clasi fi cador T (X) que, presentado con un vector de características sin etiquetar, predice la etiqueta Y. Suponemos
que hay muchas características, es decir pag es grande en comparación con norte.

Considere un método muy poco glamoroso: un clasificador lineal C (x) = j∈J+ x (j) - ∑ j ∈ J-x (j) cual
combina las características seleccionadas simplemente con pesos +1 o -1. Este método selecciona características donde
el valor absoluto del univariante t- La puntuación supera un umbral y utiliza como signo del coeficiente de característica
simplemente el signo de la característica de esa característica. t- puntaje. El umbral lo establece una mayor crítica. En el
artículo publicado se llamó HC-clip; es una regla completamente simple, mucho más simple incluso que el análisis
discriminante lineal clásico de Fisher, ya que no hace uso de la matriz de covarianza, y ni siquiera permite

43 Tanto Hand como Tukey señalaron que la teoría de la optimalidad, con su gran carisma, puede engañarnos. JR Pierce hizo un
punto relacionado al rechazar el "glamour" de la traducción automática teórica.
44 No sabíamos sobre el artículo de Hand en ese momento, pero llegamos a una conclusión similar.

35
para coeficientes de diferentes tamaños. La única sutileza está en el uso de la mayor crítica para elegir el umbral. De lo
contrario, HC-clip es un retroceso a una configuración anterior a 1936, es decir, a antes de que Fisher [15] mostrara que
uno "debe" usar la matriz de covarianza en la clasificación. 45

Dettling (2004) desarrolló un marco para comparar clasificadores que eran comunes en el aprendizaje automático
basado en una serie estándar de conjuntos de datos (en el caso de 2 clases, los conjuntos de datos se denominan ALL,
leucemia y próstata, respectivamente). Aplicó estos conjuntos de datos a una variedad de técnicas de clasificador
estándar que son populares en la comunidad de aprendizaje estadístico (árboles de decisión impulsados, bosques
aleatorios, SVM, KNN, PAM y DLDA). Los métodos de aprendizaje automático que Dettling comparó son en su mayoría
"glamorosos", con un gran número de citas actuales y adherentes vocales.
Ampliamos el estudio de Dettling, agregando nuestra regla de recorte completamente simple a la mezcla. Consideramos
el arrepentimiento (es decir, la relación entre el error de clasificación errónea de un método en un conjunto de datos dado y el
mejor error de clasificación errónea entre todos los métodos de ese conjunto de datos específico). Nuestra sencilla propuesta
hizo tan bien en estos conjuntos de datos como en cualquier otro método; incluso tiene el mejor arrepentimiento en el peor de
los casos. Es decir, todos de las técnicas más glamorosas sufre peor arrepentimiento máximo. Boosting, Random Forests, etc.,
son dramáticamente más complejos y, en consecuencia, tienen un mayor carisma en la comunidad de Machine Learning. Pero
frente a una serie de puntos de referencia preexistentes desarrollados en la comunidad de aprendizaje automático, los
métodos carismáticos no superan al más sencillo de los procedimientos.
- Característica de recorte con una cuidadosa selección de características.

En comparación con el trabajo de Hand, nuestro trabajo utilizó una colección preexistente de conjuntos de datos que podrían
parecer menos sujetos a sesgos de selección, ya que los aprendices de máquina ya los usaban en tiroteos de clasificadores múltiples.

10.3.3 Zhao, Parmigiani, Huttenhower y Waldron (2014)

En un proyecto muy interesante [51], Parmigiani y sus coautores discuten lo que ellos llaman el METRO ás-o-Menos
clasificador, un clasificador lineal donde las características pueden tener solo coeficientes que ± 1; esto es muy parecido
al método HC-clip que se acaba de discutir y, de hecho, una de sus variantes incluía solo las características
seleccionadas por HC, es decir, el método de la sección anterior. Volvemos a la configuración anterior a
Fisher-dice-useCovariance-Matrix, anterior a 1936.
En su estudio, Zhao et al. comparó M´ás-o-Menos con clasificadores 'sofisticados' basados en la penalización (por
ejemplo, Lasso, Ridge).
Fundamentalmente, los autores dieron el paso fundamental de comparar el desempeño en un universo de
conjuntos de datos utilizados en investigación médica clínica publicada. Específicamente, seleccionaron una serie de
conjuntos de datos de la literatura sobre el tratamiento del cáncer de vejiga, mama y ovario, y evaluaron el desempeño
de predicción de cada método de clasificación en este universo.

Nosotros ... demostramos en un análisis extenso de estudios reales de expresión génica del cáncer
que [M´ ás-o-Menos] puede lograr un buen rendimiento de discriminación en entornos realistas, incluso en
comparación con la regresión de lazo y cresta. Nuestros resultados proporcionan cierta justificación para
respaldar su uso generalizado en la práctica. Esperamos que nuestro trabajo ayude a cambiar el énfasis de los
esfuerzos de modelado de predicción en curso en genómica desde el desarrollo de modelos complejos a las
cuestiones más importantes del diseño del estudio, la interpretación del modelo y la validación independiente.

45 En la era de las calculadoras de escritorio, una regla que no requería multiplicar sino solo sumar y restar tenía algunas ventajas.

36
El punto implícito es nuevamente que El esfuerzo dedicado a métodos que parecen extravagantes está fuera de lugar en
comparación con otros temas más importantes. Ellos continuaron

Una de las razones por las que Má́s-o-Menos es comparable a métodos más sofisticados como
La regresión penalizada puede ser que a menudo usamos un modelo de predicción entrenado en un conjunto
de pacientes para discriminar entre subgrupos en una muestra independiente, generalmente recolectada de
una población ligeramente diferente y procesada en un laboratorio diferente. Esta variación de estudios
cruzados no se refleja en los análisis teóricos estándar, por lo que los métodos teóricamente óptimos pueden
no funcionar bien en aplicaciones reales. 46

En comparación con los artículos [19, 13] discutidos en subsecciones anteriores, este trabajo, al extraer la literatura
científica, habla directamente a los profesionales de la clasificación en un campo específico, brindando una guía basada
en evidencia sobre lo que habría sido cierto para los estudios hasta la fecha. en ese campo, había gente conocida por
utilizar la técnica recomendada.

10.4 Ciencia de datos en 2065


En el futuro, la metodología científica se validará empíricamente. El intercambio de códigos y de datos
permitirá derivar un gran número de conjuntos de datos y flujos de trabajo de análisis a partir de estudios
de ámbito científico. Estos se conservarán en corpus de datos y de flujos de trabajo. Por tanto, el
rendimiento de los métodos estadísticos y de aprendizaje automático dependerá en última instancia de los
enfoques de flujo de trabajo y estudio cruzado que analizamos en las Secciones 9.2 y 9.3. Esos enfoques
para cuantificar el rendimiento se convertirán en estándares, nuevamente debido al código y al
intercambio de datos. Aparecerán muchos nuevos marcos de tareas comunes; sin embargo, los nuevos no
siempre tendrán precisión de predicción para su métrica de rendimiento. El desempeño también puede
involucrar la validez de las conclusiones alcanzadas o el error empírico de tipo I y II. La investigación se
moverá a un nivel meta, donde la pregunta es:

En 2065, la derivación matemática y la demostración no prevalecerán sobre las conclusiones derivadas del empirismo de
vanguardia. Haciendo eco del punto de Bill Cleveland, la teoría que produce una nueva metodología para su uso en el análisis
de datos o el aprendizaje automático se considerará valiosa, en función de su beneficio cuantificable en los problemas que
ocurren con frecuencia, como se muestra en la prueba empírica. 47

11 Conclusión
Cada noción propuesta de ciencia de datos implica cierta ampliación de las estadísticas académicas y el aprendizaje
automático. La variante 'GDS' discutida específicamente en este artículo se deriva de conocimientos sobre el análisis y
el modelado de datos que se remontan a décadas atrás. En esta variante, la motivación principal para la expansión a la
ciencia de datos es intelectual. En el futuro, puede haber una gran demanda industrial de las habilidades inculcadas
por GDS; sin embargo, las cuestiones centrales que impulsan el campo son científicas, no industriales.

46 Una vez más, esto reivindica el punto de Tukey de 1962 de que la optimización del rendimiento bajo supuestos estrechos es probablemente
una pérdida de esfuerzo, porque en la práctica, los supuestos estrechos no se aplican a situaciones nuevas y, por lo tanto, los supuestos
beneficios de la optimización nunca aparecen.
47 No estoy abogando por una degradación de las matemáticas. Personalmente, creo que las matemáticas ofrecen la única forma de crear

verdaderos avances. El método empírico es simplemente un método para evitar el autoengaño y las apelaciones al glamour.

37
GDS propone que la ciencia de datos es la ciencia de aprender de los datos; estudia los métodos involucrados en el
análisis y procesamiento de datos y propone tecnología para mejorar los métodos de una manera basada en la
evidencia. El alcance y el impacto de esta ciencia se expandirán enormemente en las próximas décadas a medida que
los datos científicos y los datos sobre la ciencia misma estén disponibles en todas partes.
La sociedad ya gasta decenas de miles de millones de dólares al año en investigación científica, y gran parte de esa
investigación se lleva a cabo en universidades. GDS trabaja de manera inherente para comprender y mejorar la validez de las
conclusiones producidas por la investigación universitaria y puede desempeñar un papel clave en todos los campus donde el
análisis de datos y el modelado son actividades importantes.

Referencias
[1] Mike Barlow. La cultura del Big Data. O'Reilly Media, Inc., 2013.

[2] B. Baumer. Un curso de ciencia de datos para estudiantes universitarios: pensar con datos. Impresiones electrónicas ArXiv,
Marzo de 2015.

[3] Christoph Bernau, Markus Riester, Anne-Laure Boulesteix, Giovanni Parmigiani, Curtis Hut-
tenhower, Levi Waldron y Lorenzo Trippa. Validación de estudios cruzados para la evaluación de algoritmos
de predicción. Bioinformática, 30 (12): i105 – i112, 2014.

[4] Katherine S Button, John PA Ioannidis, Claire Mokrysz, Brian A Nosek, Jonathan Flint,
Emma SJ Robinson y Marcus R Munaf`ò. Fallo de energía: por qué el tamaño pequeño de la muestra socava la
confiabilidad de la neurociencia. Nature Reviews Neurociencia, 14 (5): 365–376, 2013.

[5] Joshua Carp. La vida secreta de los experimentos: métodos que informan en la literatura de fMRI. Neu-
roimage 63 (1): 289–300, 2012.

[6] John M. Chambers. Estadísticas mayores o menores: una opción para futuras investigaciones. Estadísticas y
Informática, 3 (4): 182-184, 1993.

[7] William S Cleveland. Visualización de datos. Prensa de Hobart, 1993.

[8] William S Cleveland. Ciencia de datos: un plan de acción para ampliar las áreas técnicas del campo
de estadísticas. Revisión estadística internacional, 69 (1): 21-26, 2001.

[9] William S Cleveland y col. Los elementos de la representación gráfica de datos. Libros avanzados de Wadsworth y
Software Monterey, CA, 1985.

[10] Open Science Collaboration et al. Estimación de la reproducibilidad de la ciencia psicológica. Ciencia
ence, 349 (6251): aac4716, 2015.

[11] Francis Collins y Lawrence A. Tabak. Política: NIH planea mejorar la reproducibilidad. Naturaleza,
505 (7484): 612–613, 2014.

[12] Dianne Cook y Deborah F Swayne. Gráficos interactivos y dinámicos para análisis de datos: con
R y GGobi. Springer Science & Business Media, 2007.

[13] David Donoho y Jiashun Jin. Umbral de crítica más alto: selección óptima de funciones
cuando las características útiles son raras y débiles. Procedimientos de la Academia Nacional de Ciencias,
105 (39): 14790-14795, 2008.

38
[14] David L. Donoho, Arian Maleki, Inam Ur Rahman, Morteza Shahram y Victoria Stodden.
Investigación reproducible en análisis armónico computacional. Computación en Ciencias e
Ingeniería, 11 (1): 8–18, 2009.

[15] Ronald A Fisher. El uso de múltiples mediciones en problemas taxonómicos. Anales de eugenesia,
7 (2): 179–188, 1936.

[16] Juliana Freire, Philippe Bonnet y Dennis Shasha. Reproducibilidad computacional: estado de
el arte, los desafíos y las oportunidades de investigación de bases de datos. En Actas de la Conferencia
Internacional ACM SIGMOD de 2012 sobre Gestión de Datos, SIGMOD '12, páginas 593–596, Nueva York,
NY, EE. UU., 2012. ACM.

[17] Matan Gavish. Tres aplicaciones de sueños de resultados computacionales verificables. Computación en
Ciencia e Ingeniería, 14 (4): 26–31, 2012.

[18] Matan Gavish y David Donoho. Un identificador universal para resultados computacionales. Procedia
Ciencias de la Computación, 4: 637–647, 2011.

[19] David J Hand y col. Tecnología clasi fi cadora y la ilusión del progreso. Ciencia estadística,
21 (1): 1–14, 2006.

[20] Harlan Harris, Sean Murphy y Marck Vaisman. Analizando los analizadores: una introspectiva
Encuesta de científicos de datos y su trabajo. O'Reilly Media, Inc., 2013.

[21] Michael A. Heroux. Editorial: Iniciativa de resultados computacionales replicados de ACM TOMS. ACM
Trans. Matemáticas. Softw., 41 (3): 13: 1–13: 5, junio de 2015.

[22] Nicholas J Horton, Benjamin S Baumer y Hadley Wickham. Preparando el escenario para los datos
ciencia: integración de habilidades de gestión de datos en cursos introductorios y segundos en estadística.
preimpresión arXiv arXiv: 1502.00318, 2015.

[23] Harold Hotelling. La enseñanza de la estadística. Los Anales de Estadística Matemática, 11 (4): 457–
470, 1940.

[24] John PA Ioannidis. Efectos contradictorios e inicialmente más fuertes en investigaciones clínicas muy citadas.
Jama, 294 (2): 218–228, 2005.

[25] John PA Ioannidis. No replicación e inconsistencia en el entorno de asociación de todo el genoma.


Herencia humana, 64 (4): 203–213, 2007.

[26] John PA Ioannidis. Por qué la mayoría de las asociaciones verdaderas descubiertas están infladas. Epidemiología, 19 (5): 640–
648, 2008.

[27] Kenneth E. Iverson. Una visión personal de APL. IBM Systems Journal, 30 (4): 582–593, 1991.

[28] Leah R Jager y Je ff rey T Leek. Una estimación de la tasa de falsos descubrimientos científicos y
aplicación a la mejor literatura médica. Bioestadística, 15 (1): 1–12, 2014.

[29] David Madigan, Paul E Stang, Jesse A Berlin, Martijn Schuemie, J Marc Overhage, Marc A
Suchard, Bill Dumouchel, Abraham G Hartzema y Patrick B Ryan. Un enfoque estadístico sistemático
para evaluar la evidencia de estudios observacionales. Revisión anual de estadísticas y su aplicación, 1:
11–39, 2014.

39
[30] Max Marchi y Jim Albert. Analizando datos de béisbol con R. CRC Press, 2013. [31]

Marcia McNutt. Reproducibilidad. Ciencias, 343 (6168): 229, 2014.

[32] Zhenglun Pan, Thomas A. Trikalinos, Fotini K Kavvoura, Joseph Lau y John PA Ioannidis.
Sesgo de literatura local en epidemiología genética: una evaluación empírica de la literatura china.
PLoS Medicine, 2 (12): 1309, 2005.

[33] Roger D. Peng. Investigación y bioestadística reproducible. Bioestadística, 10 (3): 405–408, 2009.

[34] Florian Prinz, Thomas Schlange y Khusru Asadullah. Lo crea o no: cuánto podemos
¿Se basan en datos publicados sobre posibles dianas farmacológicas? Nature revisa el descubrimiento de fármacos, 10 (9): 712–712,
2011.

[35] Patrick B Ryan, David Madigan, Paul E Stang, J Marc Overhage, Judith A Racoosin y
Abraham G Hartzema. Evaluación empírica de métodos para la identificación de riesgos en datos sanitarios:
resultados de los experimentos de la asociación de resultados médicos observacionales. Estadística en
medicina, 31 (30): 4401–4415, 2012.

[36] Victoria Stodden. Investigación reproducible: herramientas y estrategias para la informática científica. Com-
poniendo en ciencia e ingeniería, 14 (4): 11-12, 2012.

[37] Victoria Stodden, Peixuan Guo y Zhaokun Ma. Hacia una reproducción computacional reproducible
búsqueda: Un análisis empírico de la adopción de políticas de código y datos por parte de las revistas. Más uno,
8 (6): e67111, 06 de 2013.

[38] Victoria Stodden, Friedrich Leisch y Roger D. Peng, editores. Implementando Reproducible
Investigar. Chapman y Hall / CRC, 2014.

[39] Victoria Stodden y Sheila Miguez. Mejores prácticas para la ciencia computacional: software en-
Infraestructura y entornos para la investigación reproducible y extensible. Diario de abierto
Software de investigación, 1 (2): e21, 2014.

[40] Patrick F Sullivan. Asociaciones genéticas espurias. Psiquiatría biológica, 61 (10): 1121–1126, 2007.

[41] Tom M Tango, Mitchel G Lichtman y Andrew E Dolphin. El libro: jugando los porcentajes
en el béisbol. Potomac Books, Inc., 2007.

[42] John W. Tukey. El futuro del análisis de datos. Los Anales de Estadística Matemática, páginas 1–67,
1962.

[43] John W. Tukey. Análisis exploratorio de datos. 1977. [44] John Wilder Tukey. Las obras completas de

John W. Tukey, volumen 1. Taylor y Francis, 1994.

[45] BA Wandell, A. Rokem, LM Perry, G. Schaefer y RF Dougherty. Gestión de datos


para apoyar la investigación reproducible. Impresiones electrónicas ArXiv, Febrero de 2015.

[46] Hadley Wickham. ggplot2. Revisiones interdisciplinarias de Wiley: Estadística computacional, 3 (2): 180–
185, 2011.

40
[47] Hadley Wickham. Datos ordenados. Revista de software estadístico, 59 (10), 2014.

[48] Hadley Wickham y col. Remodelación de datos con el paquete de remodelación. Revista de software estadístico,
21 (12): 1–20, 2007.

[49] Hadley Wickham y col. La estrategia dividir-aplicar-combinar para el análisis de datos. Revista de estadística
Software, 40 (1): 1–29, 2011.

[50] Leland Wilkinson. La gramática de los gráficos. Springer Science & Business Media, 2006.

[51] Sihai Dave Zhao, Giovanni Parmigiani, Curtis Huttenhower y Levi Waldron. Mas o menos:
un método simple de promediado de signos para la discriminación en el análisis de datos genómicos. Bioinformática,
30 (21): 3062–3069, 2014.

41

También podría gustarte