Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Xiao-Li Meng. Data Science An. Artificial Ecosystem
Xiao-Li Meng. Data Science An. Artificial Ecosystem
Xiao-Li Meng
A medida que avanzamos más en la era digital, nuestras demandas sociales de científicos de
datos aumentan naturalmente tanto en cantidad como en calidad. La mayoría de nosotros
tenemos algún conocimiento sobre otros tipos de científicos (dado que tal conocimiento
puede ser bastante defectuoso), pero somos mucho menos claros sobre quiénes son los
científicos de datos y qué hacen. De hecho, ¿qué es exactamente la ciencia de datos (DS)?
Como habrás adivinado, la respuesta depende de a quién le preguntes. Algunos dicen que DS
es CS (informática). Otros piensan que DS es simplemente S (estadística). Incluso puede
encontrarse con alguien que declara que DS es solo BS exagerado (y no me refiero a
"estadísticas bayesianas").
La misión central de Harvard Data Science Review es ayudar a definir y dar forma a lo que DS
es o debería ser. El número inaugural de HDSR presenta artículos de destacados investigadores
y educadores de humanidades, ingeniería, ciencias y ciencias sociales, así como de líderes en el
gobierno y la industria. Espero que esté de acuerdo en que todos sus artículos pertenecen
correctamente al ámbito de la ciencia de datos.
Cuando algo es demasiado vasto para enumerarlo, una estrategia matemática efectiva es
describirlo por su complemento, es decir, lo que no es. Ahora enumeraré cinco cosas que DS
no es, aproximadamente en el orden decreciente de su estrechez en la conceptualización de
DS, para abordar algunas fuentes comunes de confusión o incluso conceptos erróneos sobre
DS.
En segundo lugar, DS no se trata solo de predicción. Aquellos que piensen que es o debería
serlo pueden consultar el artículo del científico jefe de WarnerMedia Applied Analytics, Nathan
Sanders. Su artículo ofrece ideas desde una perspectiva industrial sobre el equilibrio entre la
predicción y la inferencia, y muestra cómo una perspectiva tan equilibrada beneficia la toma
de decisiones empresariales.
En tercer lugar, DS no se trata solo de análisis de datos. El diagrama del ciclo de vida de los
datos de la científica informática de Columbia Jeannette Wing deja claro que el análisis de
datos es solo un proceso en el largo viaje desde la generación de datos hasta la decisión y la
acción. Podría agregar que incluso el proceso de generación de datos en sí puede implicar
varios pasos, como el establecimiento de objetivos, el cuestionario o el diseño experimental, y
las pruebas de campo.
En cuarto lugar, DS no es una disciplina que se encuentra simplemente dentro de los campos
STEM (Ciencia, Tecnología, Ingeniería y Matemáticas). La filósofa de la Universidad de Exeter,
Sabina Leonelli, nos recuerda que el concepto de datos es un tema de investigación filosófica
porque no existen los datos brutos objetivos. Las preguntas sobre qué recopilar, cómo
recopilar y medir, y cómo procesar los datos involucran motivación, juicios y preferencias
humanas; cada una de estas preguntas afecta directamente la recopilación de datos, el análisis
y la interpretación de los resultados. En el otro extremo del ciclo de vida de los datos, la
académica de información de UCLA, Christine Borgman, señala las "vidas futuras" de los datos.
Los datos, especialmente aquellos que son complejos y grandes, a menudo se reutilizan para
abordar nuevos problemas o para hacer un sondeo más profundo. Por lo tanto, es crucial
contar con mecanismos apropiados para almacenar y curar datos, con la procedencia
adecuada para informar a los futuros usuarios e investigadores. Todos estos problemas van
más allá de lo que se enseña tradicionalmente en los campos STEM, y, sin embargo, son vitales
para la validez y aplicabilidad del DS, especialmente en términos de ramificaciones éticas e
impacto a largo plazo.
En quinto lugar, y lo más crítico, el DS no es ni siquiera una sola disciplina por sí misma. Cada
vez más, existe un reconocimiento general de que debido a que el SD ha evolucionado de una
manera tan diversa, no es prudente utilizar una lista de habilidades imprescindibles para
conceptualizarlo como una sola disciplina. Al igual que la ciencia, las ciencias sociales o las
humanidades, el DS se entiende mejor como una colección de disciplinas con fundamentos,
perspectivas, enfoques y objetivos complementarios, pero con una gran misión compartida. Es
decir, utilizar las tecnologías digitales y la información de cualquier tipo para avanzar en la
sociedad humana como un ecosistema armonioso, responsable y vital.
Por lo tanto, es útil tener el término general "científico de datos", al igual que es útil tener
términos como "científico", "científico social" o "humanista", pero estos últimos términos no
vienen con las mismas grandes expectativas que los primeros. No esperamos que un científico
posea conocimiento experto en todos los campos científicos principales, como la astronomía,
la biología, la química, la ciencia ambiental y la física. Tampoco esperamos que un humanista
sepa acerca de todas las civilizaciones y religiones principales, o que lea y escriba en todos los
idiomas principales (¡incluso si conozco a algunos colegas increíbles que lo hacen!).
El dilema de contratación para los científicos de datos descrito por el presidente del
Departamento de Ciencias Estadísticas de la Universidad de Toronto, Radu Craiu, sugiere
complicaciones estructurales que surgen cuando la naturaleza de DS no se enmarca
adecuadamente. Con sus más de 4,500 (sí, con dobles ceros) estudiantes de pregrado, una
cifra intensamente reconfortante para mí como estadístico, el departamento de Craiu está
floreciendo. Al mismo tiempo, esta cifra sin precedentes debería servir como un recordatorio
de advertencia para las universidades que contemplan la creación de un Departamento de
Ciencia de Datos, en lugar de, más sabiamente, una Escuela o una División de Ciencia de Datos,
como se está estableciendo actualmente en la Universidad de California, Berkeley.
Hay buenas razones por las que casi nunca vemos un Departamento de Ciencias o un
Departamento de Humanidades en las principales universidades, sino más bien Escuelas o
Divisiones que llevan estos nombres. La cuestión no es solo crear unidades de contratación
académica suficientemente cohesionadas con experiencia y discursos de investigación
compartidos. También se trata de la calidad educativa y la eficacia pedagógica, así como del
tipo de constructores, líderes y pensadores que nuestros programas educativos ayudan a crear
para la futura fuerza laboral de DS. Así como necesitamos médicos de atención primaria y
especialistas médicos, también necesitamos generalistas y especialistas de DS para abordar de
manera efectiva muchos desafíos y oportunidades únicos para nuestra sociedad digital, desde
medicamentos de precisión hasta ciberseguridad y ciudades inteligentes (todos temas
temáticos para futuros números de HDSR). La capacitación de cualquiera de los dos grupos no
puede realizarse adecuadamente en el contexto de unidades educativas estrechamente
estructuradas, que tienden a tener menos recursos (así como la capacidad de elevarlos) para
hacer frente a los desafíos emergentes o aprovechar nuevas oportunidades.
El editorial del rector de Harvard Alan Garber aborda una pregunta más amplia: ¿qué necesita
saber un ciudadano educado sobre el síndrome de Down? La lista de Garber es mucho más
selectiva que muchas listas de habilidades antes mencionadas, debido a la pregunta más
amplia que aborda y su profundo conocimiento de los objetivos pedagógicos y la efectividad.
La columna sobre tutoriales cortos, Diving into Data, editada por el eminente estadístico y
escritor David Hand, es parte del esfuerzo de HDSR para responder a la llamada de Garber, con
su primer tutorial dedicado a la comprensión del concepto de modelado estadístico.
Es extremadamente fortuito que este editorial haya sido concebido en mi camino para asistir a
la ceremonia de este año del Premio Turing, otorgado a Yoshua Bengio, Geoffrey Hinton y
Yann LeCun. El premio es muy merecido, porque sus métodos de aprendizaje profundo pueden
extraer patrones del caos de maneras que muchos alguna vez pensaron, y algunos todavía
piensan, inverosímiles. Sin embargo, al igual que el científico informático y estadístico de
Berkeley Michael Jordan cuestiona si es hora de retirar el Test de Turing, el poder
aparentemente mágico del aprendizaje profundo nos recuerda que necesitamos
urgentemente una comprensión profunda y un pensamiento profundo para evitar meternos
en problemas profundos.
Al igual que la IA, DS está evolucionando hacia un ecosistema artificial; el término "artificial"
destaca tanto el hecho de que DS es una construcción humana como que depende
críticamente de los avances informáticos. El alcance de esta dependencia se demuestra "sin
dolor" en el artículo sobre computación masiva para DS del estadístico de Stanford David
Donoho y sus colaboradores de informática y estadística. Reconocer epistemológicamente a
DS como un ecosistema debería ayudar a mejorar la fricción improductiva e impulsada por el
ego entre disciplinas que impulsa los intentos de reclamar la propiedad primaria de la empresa
DS.
De la misma manera que se necesitan los esfuerzos de colaboración de todas las naciones para
mantener el bienestar del mundo, también se necesitarán todos nuestros esfuerzos colectivos
para garantizar la salud y el crecimiento del ecosistema DS. Necesitamos al menos ciencias de
la computación, estadística, ingeniería e investigación operativa, ciencias de la información y la
biblioteca, derecho y filosofía, matemáticas (aplicadas), ciencias sociales y del
comportamiento, historia de la ciencia y visualización de datos, sin mencionar innumerables
áreas de aplicación, desde la astronomía hasta la zoología y de regreso a la agricultura, y la
participación vital de la industria, el gobierno, las ONG y más allá. El paradigma de los
ecosistemas también nos recuerda que hay y habrá cambio climático, para bien o para mal. Lo
que está frío hoy podría estar caliente mañana, y lo que es fresco mañana podría estar tibio
pasado mañana. Por lo tanto, nuestras estructuras educativas, contenido y entregas deben ser
ecológicas y resistentes a la intemperie, no solo impulsadas por la demanda.
Finalmente, la naturaleza ecosistémica del DS nivela el campo de juego para todos. Requiere
que todos interactuemos y contribuyamos, ya seas una estrella brillante que no necesita
presentación o un principiante brillante que busca cada presentación. Independientemente de
quién seas, estoy encantado de presentarte Harvard Data Science Review, que tiene como
objetivo mantenerte informado, comprometido e intrigado por DS. Sus comentarios, a través
de comentarios en línea, cartas a editores y artículos de perspectiva, ayudarán a HDSR a
cumplir con su lema: Toda la ciencia de datos y la ciencia de datos para todos (Everything Data
Science, and Data Science for Everyone).
Estoy profundamente agradecido a cientos de personas por sus esfuerzos colectivos, que
permiten que HDSR se lance exactamente un año después de su concepción. Por el lado del
contenido, agradezco a los coeditores, editores asociados, autores y revisores de HDSR por
generar y garantizar la cantidad y diversidad de los artículos en este número y en los próximos
años. Por el lado de la producción, agradezco al MIT Press and Knowledge Futures Group y a la
oficina editorial de HDSR, así como al consejo asesor de HDSR, por su incansable esfuerzo y
planificación estratégica. También agradezco a la oficina del rector de Harvard, a las oficinas
del asesor general de Harvard y MIT, y a muchos amigos de HDSR por su apoyo
multidimensional y continuo. Finalmente, debo un gran agradecimiento a los codirectores de
Harvard Data Science Initiative (HDSI), Francesca Dominici y David Parkes, por respaldar mi
idea espontánea de aprender de los modelos de Harvard Business Review y Harvard Law
Review pero expandiéndolos con un enfoque educativo para crear HDSR, y a la Directora
Ejecutiva de HDSI, Elizabeth Langdon-Gray, por ir más allá para apoyar el lanzamiento de
HDSR.