Está en la página 1de 5

Ciencia de datos: un ecosistema artificial

Xiao-Li Meng

Escriba la palabra 'científico' en su navegador favorito y busque imágenes. Lo más probable es


que veas fotos de científicos reales de varios campos. Ahora repita la búsqueda, usando
'científico de datos'. Verá muchas menos fotos, pero muchas figuras animadas de pie o
señalando varias listas de habilidades imprescindibles que se leen como las tareas de los
padres tigre para sus hijos.

A medida que avanzamos más en la era digital, nuestras demandas sociales de científicos de
datos aumentan naturalmente tanto en cantidad como en calidad. La mayoría de nosotros
tenemos algún conocimiento sobre otros tipos de científicos (dado que tal conocimiento
puede ser bastante defectuoso), pero somos mucho menos claros sobre quiénes son los
científicos de datos y qué hacen. De hecho, ¿qué es exactamente la ciencia de datos (DS)?
Como habrás adivinado, la respuesta depende de a quién le preguntes. Algunos dicen que DS
es CS (informática). Otros piensan que DS es simplemente S (estadística). Incluso puede
encontrarse con alguien que declara que DS es solo BS exagerado (y no me refiero a
"estadísticas bayesianas").

La misión central de Harvard Data Science Review es ayudar a definir y dar forma a lo que DS
es o debería ser. El número inaugural de HDSR presenta artículos de destacados investigadores
y educadores de humanidades, ingeniería, ciencias y ciencias sociales, así como de líderes en el
gobierno y la industria. Espero que esté de acuerdo en que todos sus artículos pertenecen
correctamente al ámbito de la ciencia de datos.

Cuando algo es demasiado vasto para enumerarlo, una estrategia matemática efectiva es
describirlo por su complemento, es decir, lo que no es. Ahora enumeraré cinco cosas que DS
no es, aproximadamente en el orden decreciente de su estrechez en la conceptualización de
DS, para abordar algunas fuentes comunes de confusión o incluso conceptos erróneos sobre
DS.

En primer lugar, DS no es solo aprendizaje automático o solo estadísticas. El economista


financiero del MIT Andrew Lo y su equipo logran una escala y precisión sin precedentes en la
predicción de la aprobación de medicamentos debido a una poderosa integración del
aprendizaje automático y la imputación estadística, que permite la extracción de información
válida de muchos más datos que los estudios anteriores utilizando solo el aprendizaje
automático. Del mismo modo, para generar predicciones más confiables sobre la cuestión de
la autoría de canciones en disputa entre John Lennon y Paul McCartney, mi colega de Harvard
Mark Glickman y sus coautores van más allá de los modelos estadísticos tradicionales para
resolver disputas de autoría, y utilizan varias ideas y métodos tanto del aprendizaje automático
como de las estadísticas para lograr su notable éxito.

En segundo lugar, DS no se trata solo de predicción. Aquellos que piensen que es o debería
serlo pueden consultar el artículo del científico jefe de WarnerMedia Applied Analytics, Nathan
Sanders. Su artículo ofrece ideas desde una perspectiva industrial sobre el equilibrio entre la
predicción y la inferencia, y muestra cómo una perspectiva tan equilibrada beneficia la toma
de decisiones empresariales.

En tercer lugar, DS no se trata solo de análisis de datos. El diagrama del ciclo de vida de los
datos de la científica informática de Columbia Jeannette Wing deja claro que el análisis de
datos es solo un proceso en el largo viaje desde la generación de datos hasta la decisión y la
acción. Podría agregar que incluso el proceso de generación de datos en sí puede implicar
varios pasos, como el establecimiento de objetivos, el cuestionario o el diseño experimental, y
las pruebas de campo.

En cuarto lugar, DS no es una disciplina que se encuentra simplemente dentro de los campos
STEM (Ciencia, Tecnología, Ingeniería y Matemáticas). La filósofa de la Universidad de Exeter,
Sabina Leonelli, nos recuerda que el concepto de datos es un tema de investigación filosófica
porque no existen los datos brutos objetivos. Las preguntas sobre qué recopilar, cómo
recopilar y medir, y cómo procesar los datos involucran motivación, juicios y preferencias
humanas; cada una de estas preguntas afecta directamente la recopilación de datos, el análisis
y la interpretación de los resultados. En el otro extremo del ciclo de vida de los datos, la
académica de información de UCLA, Christine Borgman, señala las "vidas futuras" de los datos.
Los datos, especialmente aquellos que son complejos y grandes, a menudo se reutilizan para
abordar nuevos problemas o para hacer un sondeo más profundo. Por lo tanto, es crucial
contar con mecanismos apropiados para almacenar y curar datos, con la procedencia
adecuada para informar a los futuros usuarios e investigadores. Todos estos problemas van
más allá de lo que se enseña tradicionalmente en los campos STEM, y, sin embargo, son vitales
para la validez y aplicabilidad del DS, especialmente en términos de ramificaciones éticas e
impacto a largo plazo.

En quinto lugar, y lo más crítico, el DS no es ni siquiera una sola disciplina por sí misma. Cada
vez más, existe un reconocimiento general de que debido a que el SD ha evolucionado de una
manera tan diversa, no es prudente utilizar una lista de habilidades imprescindibles para
conceptualizarlo como una sola disciplina. Al igual que la ciencia, las ciencias sociales o las
humanidades, el DS se entiende mejor como una colección de disciplinas con fundamentos,
perspectivas, enfoques y objetivos complementarios, pero con una gran misión compartida. Es
decir, utilizar las tecnologías digitales y la información de cualquier tipo para avanzar en la
sociedad humana como un ecosistema armonioso, responsable y vital.

Por lo tanto, es útil tener el término general "científico de datos", al igual que es útil tener
términos como "científico", "científico social" o "humanista", pero estos últimos términos no
vienen con las mismas grandes expectativas que los primeros. No esperamos que un científico
posea conocimiento experto en todos los campos científicos principales, como la astronomía,
la biología, la química, la ciencia ambiental y la física. Tampoco esperamos que un humanista
sepa acerca de todas las civilizaciones y religiones principales, o que lea y escriba en todos los
idiomas principales (¡incluso si conozco a algunos colegas increíbles que lo hacen!).

El dilema de contratación para los científicos de datos descrito por el presidente del
Departamento de Ciencias Estadísticas de la Universidad de Toronto, Radu Craiu, sugiere
complicaciones estructurales que surgen cuando la naturaleza de DS no se enmarca
adecuadamente. Con sus más de 4,500 (sí, con dobles ceros) estudiantes de pregrado, una
cifra intensamente reconfortante para mí como estadístico, el departamento de Craiu está
floreciendo. Al mismo tiempo, esta cifra sin precedentes debería servir como un recordatorio
de advertencia para las universidades que contemplan la creación de un Departamento de
Ciencia de Datos, en lugar de, más sabiamente, una Escuela o una División de Ciencia de Datos,
como se está estableciendo actualmente en la Universidad de California, Berkeley.

Hay buenas razones por las que casi nunca vemos un Departamento de Ciencias o un
Departamento de Humanidades en las principales universidades, sino más bien Escuelas o
Divisiones que llevan estos nombres. La cuestión no es solo crear unidades de contratación
académica suficientemente cohesionadas con experiencia y discursos de investigación
compartidos. También se trata de la calidad educativa y la eficacia pedagógica, así como del
tipo de constructores, líderes y pensadores que nuestros programas educativos ayudan a crear
para la futura fuerza laboral de DS. Así como necesitamos médicos de atención primaria y
especialistas médicos, también necesitamos generalistas y especialistas de DS para abordar de
manera efectiva muchos desafíos y oportunidades únicos para nuestra sociedad digital, desde
medicamentos de precisión hasta ciberseguridad y ciudades inteligentes (todos temas
temáticos para futuros números de HDSR). La capacitación de cualquiera de los dos grupos no
puede realizarse adecuadamente en el contexto de unidades educativas estrechamente
estructuradas, que tienden a tener menos recursos (así como la capacidad de elevarlos) para
hacer frente a los desafíos emergentes o aprovechar nuevas oportunidades.

La naturaleza amplia de DS también es evidente en el informe sobre "Ciencia de datos para


estudiantes universitarios: oportunidades y opciones", publicado por un comité de las
Academias Nacionales de Ciencias, Ingeniería y Medicina (NAS). Como una indicación simple,
los miembros del comité provienen de ciencias de la computación, estadística, ingeniería,
ciencias naturales, ciencias sociales y humanidades. En su entrevista a los copresidentes del
comité, Laura Haas y Alfred Hero, Rob Lue, coeditor de HDSR sobre educación DS, hace
preguntas que invitan a la reflexión, incluyendo cómo usar la naturaleza abarcadora de DS
como un tema general para reimaginar la educación en artes liberales. La entrevista destaca la
naturaleza diversa de la educación de pregrado de DS, pero con un objetivo concreto: ayudar a
los estudiantes a obtener perspicacia para los datos, en contraste con una larga lista de
habilidades no vinculadas a propósitos específicos u objetivos más altos.

El editorial del rector de Harvard Alan Garber aborda una pregunta más amplia: ¿qué necesita
saber un ciudadano educado sobre el síndrome de Down? La lista de Garber es mucho más
selectiva que muchas listas de habilidades antes mencionadas, debido a la pregunta más
amplia que aborda y su profundo conocimiento de los objetivos pedagógicos y la efectividad.
La columna sobre tutoriales cortos, Diving into Data, editada por el eminente estadístico y
escritor David Hand, es parte del esfuerzo de HDSR para responder a la llamada de Garber, con
su primer tutorial dedicado a la comprensión del concepto de modelado estadístico.

Es extremadamente fortuito que este editorial haya sido concebido en mi camino para asistir a
la ceremonia de este año del Premio Turing, otorgado a Yoshua Bengio, Geoffrey Hinton y
Yann LeCun. El premio es muy merecido, porque sus métodos de aprendizaje profundo pueden
extraer patrones del caos de maneras que muchos alguna vez pensaron, y algunos todavía
piensan, inverosímiles. Sin embargo, al igual que el científico informático y estadístico de
Berkeley Michael Jordan cuestiona si es hora de retirar el Test de Turing, el poder
aparentemente mágico del aprendizaje profundo nos recuerda que necesitamos
urgentemente una comprensión profunda y un pensamiento profundo para evitar meternos
en problemas profundos.

El provocativo artículo de Jordan sobre IA hace exactamente eso. Desencadena la reflexión y


las preguntas de 11 pensadores y líderes dentro y fuera de la academia. Estos intercambios,
junto con el relato histórico de la IA de la historiadora de la ciencia de la Universidad de
Pensilvania, Stephanie Dick, dejan en claro que la IA está evolucionando hacia un ecosistema
artificial, en lugar de una sola disciplina con objetivos bien especificados (por ejemplo, crear
máquinas que imiten el cerebro humano). Los ecosistemas naturales son susceptibles a los
desastres naturales. Un ecosistema artificial puede sufrir desastres artificiales, más aún cuando
sus habitantes no tienen una buena comprensión de sus características operativas o principios
internos. El estudio realizado por el filósofo de Oxford Luciano Floridi y su coautor sobre los
principios de la IA para la sociedad demuestra la mayor conciencia del riesgo de tales eventos
destructivos y los esfuerzos para reducir tanto su frecuencia como su gravedad.

Al igual que la IA, DS está evolucionando hacia un ecosistema artificial; el término "artificial"
destaca tanto el hecho de que DS es una construcción humana como que depende
críticamente de los avances informáticos. El alcance de esta dependencia se demuestra "sin
dolor" en el artículo sobre computación masiva para DS del estadístico de Stanford David
Donoho y sus colaboradores de informática y estadística. Reconocer epistemológicamente a
DS como un ecosistema debería ayudar a mejorar la fricción improductiva e impulsada por el
ego entre disciplinas que impulsa los intentos de reclamar la propiedad primaria de la empresa
DS.

De la misma manera que se necesitan los esfuerzos de colaboración de todas las naciones para
mantener el bienestar del mundo, también se necesitarán todos nuestros esfuerzos colectivos
para garantizar la salud y el crecimiento del ecosistema DS. Necesitamos al menos ciencias de
la computación, estadística, ingeniería e investigación operativa, ciencias de la información y la
biblioteca, derecho y filosofía, matemáticas (aplicadas), ciencias sociales y del
comportamiento, historia de la ciencia y visualización de datos, sin mencionar innumerables
áreas de aplicación, desde la astronomía hasta la zoología y de regreso a la agricultura, y la
participación vital de la industria, el gobierno, las ONG y más allá. El paradigma de los
ecosistemas también nos recuerda que hay y habrá cambio climático, para bien o para mal. Lo
que está frío hoy podría estar caliente mañana, y lo que es fresco mañana podría estar tibio
pasado mañana. Por lo tanto, nuestras estructuras educativas, contenido y entregas deben ser
ecológicas y resistentes a la intemperie, no solo impulsadas por la demanda.

Además, no es irrazonable imaginar que el término "ciencia de datos" en sí mismo pueda


evolucionar, porque la noción de "ciencia" ya es inadecuada para transmitir adecuadamente la
amplitud de DS tal como lo es ahora. Por ejemplo, pocos argumentarían que las humanidades
digitales no pertenecen al DS, pero las humanidades digitales no tienen que ver ni con la
ciencia de los datos ni con el uso de datos para avanzar en las ciencias, los dos identificadores
comunes del DS. Sin embargo, si DS significa "estudios de datos", entonces seguramente las
humanidades digitales se tratan de estudios de datos y usan datos para avanzar en los
estudios. Por supuesto, el término "estudios de datos" es mucho menos pegadizo que "ciencia
de datos" y, por lo tanto, es poco probable que se popularice. Sin embargo, siempre debemos
ser conscientes de la naturaleza volátil y compleja de cualquier ecosistema, especialmente
durante sus etapas formativas.

Finalmente, la naturaleza ecosistémica del DS nivela el campo de juego para todos. Requiere
que todos interactuemos y contribuyamos, ya seas una estrella brillante que no necesita
presentación o un principiante brillante que busca cada presentación. Independientemente de
quién seas, estoy encantado de presentarte Harvard Data Science Review, que tiene como
objetivo mantenerte informado, comprometido e intrigado por DS. Sus comentarios, a través
de comentarios en línea, cartas a editores y artículos de perspectiva, ayudarán a HDSR a
cumplir con su lema: Toda la ciencia de datos y la ciencia de datos para todos (Everything Data
Science, and Data Science for Everyone).

Declaración de divulgación y agradecimientos


Las opiniones expresadas en este editorial no son ni de Harvard ni enteramente mías. Me he
beneficiado de discusiones y debates con innumerables estrellas y principiantes de DS,
especialmente con muchos miembros editoriales de HDSR en todo el mundo (por ejemplo, la
noción de DS como "estudios de datos" fue concebida en la cocina y sala de estudio de
Christine Borgman). Profunda gratitud a Radu Craiu y Robin Gong por múltiples rondas de
corrección de mis defectos chinglish y más graves, y a Suzanne Smith por hacerme comenzar
de nuevo justo cuando pensé que podía sentarme a disfrutar de un número de Wine
Economics.

Estoy profundamente agradecido a cientos de personas por sus esfuerzos colectivos, que
permiten que HDSR se lance exactamente un año después de su concepción. Por el lado del
contenido, agradezco a los coeditores, editores asociados, autores y revisores de HDSR por
generar y garantizar la cantidad y diversidad de los artículos en este número y en los próximos
años. Por el lado de la producción, agradezco al MIT Press and Knowledge Futures Group y a la
oficina editorial de HDSR, así como al consejo asesor de HDSR, por su incansable esfuerzo y
planificación estratégica. También agradezco a la oficina del rector de Harvard, a las oficinas
del asesor general de Harvard y MIT, y a muchos amigos de HDSR por su apoyo
multidimensional y continuo. Finalmente, debo un gran agradecimiento a los codirectores de
Harvard Data Science Initiative (HDSI), Francesca Dominici y David Parkes, por respaldar mi
idea espontánea de aprender de los modelos de Harvard Business Review y Harvard Law
Review pero expandiéndolos con un enfoque educativo para crear HDSR, y a la Directora
Ejecutiva de HDSI, Elizabeth Langdon-Gray, por ir más allá para apoyar el lanzamiento de
HDSR.

También podría gustarte