Está en la página 1de 5

¿Qué es primero, el huevo o la gallina?

Elizabeth Castellanos C.

La pregunta sobre ¿qué fue primero el huevo o la gallina? es bastante obvia al hablar de la estadística y la
ciencia de datos, sin embargo, el propósito de las dos disciplinas se traslapa en la actualidad. Por tal razón
es pertinente volver a preguntarse ¿qué es primero el huevo o la gallina? ¿será que la instrumentalización
de los métodos supera el cuerpo teórico de la estadística? ¿lo complementa? ¿lo facilita? ¿lo sustituye? O
finalmente debemos decir ¿son dos disciplinas diferentes? Tales preguntas son el abrebocas de este dilema
que se desarrollará a continuación.

Según un artículo de opinión de Manuel Martínez (1981) “los practicantes de la estadística, como los de
cualquier otra disciplina científica, tradicionalmente se han agrupado en dos grandes equipos: el de los
teóricos y el de los aplicados, división que paulatinamente tiende a desvanecerse”. El mensaje del autor
puede generar varias interpretaciones, una de ellas es la relación entre la teoría y la aplicación.

Por otra parte, Pedroso (2004) afirma que la ciencia de la información se nutre de los supuestos teóricos
relacionados con el positivismo y el empirismo. De entrada, se puede decir que la ciencia de datos y la
estadística no riñen, al contrario, se complementan; sin embargo, continúa presentándose alguna
conflictividad en el quehacer de estas dos disciplinas como se verá a continuación.

En principio se puede decir que hay algunos aspectos que se mimetizan entre el ejercicio estadístico y el
Data science. Según Carmicher & Marron (2018), la definición de la ciencia de datos es confusa y muchas
veces se ha entendido como un subconjunto de la estadística, pero también se puede entender al revés:
la estadística es un subconjunto de la ciencia de datos. ¿Qué es primero, el huevo o la gallina? los autores
dan a entender que la comunidad en general confunde los dos conceptos, en este sentido ¿Cuáles son las
diferencias que permiten evidenciar clara mente que es qué?

A continuación se distinguen algunos aspectos diferenciales entre los dos conceptos que,
desafortunadamente, no son tan claros. Según el artículo, algunos componentes principales del Data
science representan un espectro entre dos metodologías, una más asociada a la ciencia de datos
(predicción), y la otra más relacionada con las estadística clásica (inferencia) (pág.8 ). Finalmente, el
documento concluye que, si la estadística adopta la idea de un mayor uso de la ciencia de datos, realmente
sería muy difícil diferenciar las dos disciplinas (pág.20).

Por otra parte, los autores describen de manera más concreta que la ciencia de datos se define como la
intersección de tres áreas: matemáticas / estadística, computación y un dominio particular (Conway 2010;
Yu 2014; Blei y Smyth 2017, como se citó en Carmicher & Marron 2018). También se puede definir como la
tecnología que impulsa la disponibilidad de datos, capacidades computacionales y facilidad de
comunicación (Carmicher & Marron, 2018). Por su parte, la estadística se centra en teorías, pruebas de
hipótesis, recolección de datos y análisis de estos (pág.3). En este sentido, la diferencia entre un Data
science y un estadístico es que el primero extrae conocimiento a partir de los datos para responder las
preguntas que le formulen en un campo multidisciplinar, mientras que el estadístico, como ya se dijo,
recolecta los datos y los analiza bajo las premisas teóricas de su disciplina (pág. 7).

Ahora bien, a pesar de las anteriores definiciones, no es clara la sustancial diferencia entre la estadística y
la ciencia de datos; la percepción sigue siendo la misma: Data science es la instrumentalización de la
estadística ¿esto es cierto? ¿se puede interpretar así? Es probable que se entiendan mejor los conceptos si
se delimitan las funciones del científico de datos como tal.

En este sentido, Davenport y Patil (2012) afirman que profesional en ciencia de datos combina la
estadística, las matemáticas, la programación y las habilidades para la solución de problemas con la
captura datos, y es capaz de llevar a cabo las actividades propias de limpieza, preparación e integración de
datos con la intención de localizar patrones en la información analizada. Ahora se entiende un poco más
la diferencia: mientras que en la estadística se requieren datos limpios y preparados para hacer una
inferencia, en data science se trabaja con datos no estructurados de gran volumen para obtener una
predicción.

Otro evidencia que ayuda a comprender el funcionamiento de la ciencia de datos es su composición en


tres áreas: La primera es el Big data, que se emplea para procesar los datos. La segunda es la minería de
datos, cuya finalidad es encontrar patrones, incluso sin que estos fueran antes imaginados. Por último, la
visualización de los datos, cuyo propósito es facilitar la comprensión de la información de manera clara y
propiciar su socialización (Lemus & Perez, 2019). Con las anteriores funciones es totalmente clara la
diferencia y es posible responder ¿Qué es primero, el huevo o la gallina?, pues la respuesta es que la
estadística es uno de los insumos de la Data science, y a su vez, tiene implícito un cuerpo teórico que
sustenta la misma estadística. Pero reitero, tan solo es un insumo.

Por otra parte, tomando en cuenta mi labor profesional basada en la investigación demográfica,
específicamente en el componente demográfico de la migración interna e internacional, es claro que la
labor que desarrollo se parece más a la de un estadístico. En la demografía y los estudios de población las
fuentes primarias son los censos poblacionales y las estadísticas vitales, en este sentido, recopilo la
información de la página web del DANE, evalúo los problemas de calidad y cobertura de las fuentes y aplico
las técnicas demográficas basadas en las teorías demográficas. Por ejemplo, para analizar la dinámica
demográfica se requiere de la tasa neta de migración de un territorio, para ello retomo el censo de
población como fuente idónea de los estudios de migración, proceso la información, analizo los problemas
de cobertura en el territorio con la omisión censal y determino los problemas de contenido con el
comportamiento de los datos. Finalmente, la técnica demográfica que uso es la matriz origen destino de
migración de donde obtengo los marginales que posteriormente arrojan las tasas netas de migración.

El párrafo anterior indica cálculos directos, los cuales se pueden usar para la migración interna. Sin
embargo, la información sobre la migración internacional es deficiente por ello es relevante usar variables
sintomáticas y aplicar métodos indirectos a través de estimaciones basadas en modelos matemáticos o
estadísticos. Por lo general dichos métodos indirectos se desarrollan en los softwares de programación R
o Phyton, los cuales son de especial interés para la comunidad demográfica.

En cuanto al impacto del uso de los anteriores lenguajes de programación en la política pública, puedo
decir que es evidente en el campo demográfico. Las fuentes de información demográfica tienen muchos
problemas de calidad y cobertura en el país, y gracias a los software mencionados se puede disponer en
tiempo récord de estimaciones indirectas útiles para la toma de decisiones de política pública tal es como:
la fecundidad (tasas específicas de fecundidad, tasas globales de fecundidad, tasas netas y brutas de
reproducción, estimación de nacimientos) mortalidad (tasa bruta de mortalidad, tasas específicas por
edad y sexo, tabla de vida, tasa de mortalidad infantil, esperanza de vida, estimaciones de defunciones) y
migración (Tasas de inmigración, emigración nacional y migración neta a nivel internacional por edad y
sexo). Estos indicadores y sus proyecciones se pueden obtener a nivel nacional, departamental y
municipal.

Por otra parte, los componentes de dinámica demográfica mencionados hacen posible la estimación de
las proyecciones de población las cuales son muy importantes en la toma de decisiones de política pública
y determinan varios aspectos:

• Número de vacunas para menores de 5 años


• Esperanza de vida como variable del índice de desarrollo humano y como principal indicador del
régimen de pensiones.
• Tamaño poblacional como variable indispensable en la distribución de transferencias del Sistema
General Participación (Ley 715 de 2001).
• Tamaño poblacional para categorizar los municipios colombianos
• Tamaño poblacional como referente para la distribución de la representación política de los
diversos cuerpos colegiados, Representantes a la Cámara, Diputados y concejales.
• Tamaño poblacional como referente para fijar niveles salariales de alcaldes, funcionarios y otras
autoridades municipales y distritales. (Ley 617 de 2000)
• Tamaño poblacional y estructura por edad y sexo para Identificar, cuantificar y focalizar las
condiciones y necesidades de la población en materia de salud, educación, empleo, vivienda
• Atención en materia de salud a los migrantes venezolanos regulares e irregulares
• Emigrantes en edad productiva y reproductiva hacia otros países y la consecuencia en la
estructura demográfica del país.

Por otro lado, los principales aspectos que destaco de la clase de Inferencia Estadística son, en principio,
el conocimiento del mundo de data science y su importancia, en segundo lugar, la comprensión de R y
RStudio como lenguaje de programación. Finalmente, creo que la formación completa que imparte la
asignatura genera muchas potencialidades en el mercado laboral relacionado con la demografía.

Por otro lado, debo decir que la asignatura de Inferencia estadística se convierte en mi primer
acercamiento al software R, tal situación me permite hacer algunos comentarios en beneficio de los
estudiantes que se encuentran o se encontrarán en las mismas condiciones: es necesario disponer de un
tutorial de fácil consulta sobre el ambiente R en general; en segundo lugar, es pertinente generar un
listado de comandos y paquetes para instalar con su respectiva definición y propósito. Creo que estos
elementos permitirían el acercamiento a la herramienta R de manera más tranquila.

Finalmente, en cuanto a elementos prácticos para abordar en las sesiones, sugiero que los comandos y
paquetes instalados en clase se puedan aplicar en ejercicios cotidianos en la misma sesión. De esta forma,
se entenderá mejor el porqué y el para qué de cada uno de ellos. Por otro lado, también sería bueno
elaborar talleres extra clase donde pudiéramos aplicar lo anteriormente mencionado en ejercicios propios
relacionados con nuestros trabajos. Creo que estos aspectos facilitarían el aprendizaje.

Como conclusión debo decir que gracias a este ensayo logré entender la diferencia entre data science y
estadística, y también valorar las bondades de ambas disciplinas en el manejo de información. Creo que
los profesionales de todas las áreas debemos adentrarnos poco a poco en todo lo referente a la ciencia de
datos porque es el presente y el futuro de la investigación científica en el país y el mundo. Así como la
humanidad tuvo que adaptarse a la revolución tecnológica para sobrevivir, creo que debemos adáptanos
a la ciencia de datos para permanecer.
Bibliografía

Carmichael, I. Marron, J. (2018). Data science vs. statistics: two cultures? Japanese Journal of Statistics and
Data science, 1(1), 117-138. https://doi.org/10.48550/arXiv.1801.00371

Davenport, T. Patil, D (2012). Data scientist. Harvard business review, 90(5), 70-76.
http://blogs.sun.ac.za/open-day/files/2022/03/Data-Scientist-Harvard-review.pdf

Lemus, D. Pérez, R.( 2020). Ciencias de datos y estudios globales: aportaciones y desafíos metodológicos.
Colombia Internacional (102): 41-62. https://doi.org/10.7440/colombiaint102.2020.03

Martínez, M. (1984). La estadística en la investigación científica. Repositorio institucional de la Universidad


Veracruzana
Recuperado de https://cdigital.uv.mx/bitstream/handle/123456789/48064/ExtensionNo25Pag75-
78.pdf?sequence=1&isAllowed=y

Pedroso, E. (2004). Breve historia del desarrollo de la Ciencia de la Información. ACIMED, 12(2), 1.
http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S1024-94352004000200007&lng=es&tlng=es.

También podría gustarte