Está en la página 1de 9

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/354871296

La calidad de los datos estadísticos en la Era del Big Data.

Technical Report · September 2021


DOI: 10.13140/RG.2.2.27930.16323/1

CITATIONS READS

0 367

1 author:

Fernando Ariel Manzano


National Scientific and Technical Research Council
113 PUBLICATIONS   72 CITATIONS   

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Cambios demográficos y planificación económica y social. View project

Análisis interdisciplinarios de los fenómenos sociales View project

All content following this page was uploaded by Fernando Ariel Manzano on 27 September 2021.

The user has requested enhancement of the downloaded file.


La calidad de los datos estadísticos en la Era del Big Data.

Fernando Ariel Manzano1-2

Introducción

A las fuentes y productores más tradicionales de datos e indicadores –como los censos de
los sistemas nacionales de estadísticas oficiales, las encuestas y los registros públicos y
privados–, se han añadido nuevas fuentes, potenciadas por las tecnologías de la
información y de las comunicaciones (TIC). El uso masivo de dispositivos móviles, el
internet de las cosas, y la economía digital, generan grandes volúmenes de datos o
también llamados Big Data (Vásquez Valdivia, 2021). En este contexto, los institutos
nacionales de estadísticas y los sistemas estadísticos de cada país, deben estas más activos
en garantizar el cumplimiento de las buenas prácticas estadísticas y la generación de
estadísticas de calidad para la toma de decisiones3.
En la actualidad prácticamente toda actividad conlleva la generación de datos digitales.
Teniendo en cuenta los constantes avances tecnológicos en los dispositivos que se
conectan entre si e intercambian información continuamente y adicionando el incremento
del número de usuarios con el paso del tiempo, resulta inevitable un aumento del flujo de
datos que se manipulan diariamente. Las tecnologías basadas en Big Data4 brindan la
capacidad de captar, gestionar y procesar los datos masivos provenientes de fuentes
variadas con elevada velocidad (Monleon, 2015; Hernández-Leal et al., 2017). Siendo su
principal objetivo lograr transformar los datos en conocimiento útil para tomar decisiones
(Berry, 2012; Meneses Rocha, 2018). No obstante, el uso de los grandes datos5 es
complejo y requiere la realización de una evaluación de impacto para determinar aspectos

1
Licenciado en Economía (UBA), Licenciado en Sociología (UBA) y Doctor en Demografía (UNC).
Investigador Adjunto CONICET. fernando14979@hotmail.com;
https://www.researchgate.net/profile/Fernando_Ariel_Manzano; https://orcid.org/0000-0002-1513-4891
2
Agradecimiento especial a la Licenciada Daniela Avalos (UBA) por la corrección ortotipográfica.
3
Por ejemplo, el Departamento Administrativo Nacional de Estadística de Colombia (DANE), implementó
un Archivo Nacional de Datos (ANDA). El ANDA es un catálogo para que los usuarios puedan buscar,
comparar y descargar información relacionada con censos, encuestas por muestreo y uso estadístico de
registros administrativos. El archivo está documentado bajo los estándares internacionales DDI y Dublin
Core, que fortalecen la transparencia, comparabilidad y credibilidad de las estadísticas (Reíta Reyes y
Salinas Hernández, 2016).
4
Dentro de las tecnologías que dieron las bases iníciales al ecosistema Big Data se destacan: Hadoop,
MapReduce, HBase, Cassandra, Mahout (Hernández-Leal et al., 2017).
5
No se han incluido dentro de la investigación, temas asociados a los grandes datos tales como la
inteligencia artificial, el aprendizaje automático, el procesamiento del lenguaje natural, entre otros
similares. Cabe destacar, que para que estas técnicas sean efectivas, es necesario que la calidad de los datos
sea buena (Vásquez Valdivia, 2021).

1
como las finalidades de dichos datos, la exposición al riesgo y las medidas de seguridad
que se deben implementar, tanto los plazos de tratamiento como los de conservación,
deben ser muy estrictos (Steta Perea, 2020).
Por otra parte, las crecientes demandas ciudadanas por mayor transparencia, acceso a la
información y mecanismos efectivos de rendición de cuentas a la sociedad, ha llevado a
los gobiernos de la región a avanzar en la generación de datos públicos abiertos6 (u open
data), para ser reutilizados por los usuarios –si bien con diferencias entre los países
(ILDA, 2020)–. Esta mayor necesidad de apertura de datos también es una demanda para
mejorar el diseño de políticas basadas en la evidencia (OMS, 2020). Cabe destacar como
factor principal la calidad de los datos –cumpliendo con los estándares de calidad,
confidencialidad y seguridad–, y la gobernanza de datos en cada país7, para una gestión
pública eficaz de los datos abiertos (Vásquez Valdivia, 2021)

La calidad de los datos en el uso del Big Data.

La implementación del Big Data con fines analíticos, en construcción de modelos


proyectivos y en aplicaciones de visualización (Vásquez Valdivia, 2021). Está generando
cambios en los entornos personales y empresariales8 (Escobar Borja et al., 2019), así
como también ha dado impulso al avance de las ciencias computacionales –se han
generado nuevos campos disciplinarios, como la ciencia de datos9–.
Se debe tener en cuenta que, si la calidad de los datos resulta fundamental en los datos
clásicos estructurados, esta calidad resulta aún de mayor importancia debido a la
complejidad – la información puede ser estructurada o no estructurada10 (Monleon,
2015)–, y diversidad de las fuentes que suele nutrirse una arquitectura de Big Data –redes

6
Se espera que los datos sean de buena calidad, asimismo deberían encontrarse estandarizados y con
metadatos (información asociada) acerca de cómo se han producido (Vásquez Valdivia, 2021)
7
Según la encuesta global de las Naciones Unidas sobre gobierno digital (Naciones Unidas, 2021),
Argentina, Brasil, Chile, Colombia, Costa Rica, México y Uruguay se destacan dentro de la región por sus
altos niveles de publicación de datos abiertos de gobierno (Naser y Rosales, 2016).
8
Las organizaciones aplican Big Data para tener conocimiento del entorno y optimizar su posicionamiento
en el mercado (Camargo et al., 2014)
9
Así como también, las ciencias sociales computacionales e incluso otras iniciativas disciplinarias, como
las humanidades digitales (Berry, 2012).
10
Los datos según cierta tipología pueden diferenciarse en: estructurados (provenientes de bases de datos
relacionales); semi-estructurados (principalmente archivos HTML, XML, y otros formatos similares); y no
estructurados (incluye fotos, videos, audios y textos, entre otros) (Aguilar, 2016). Existe cierto
desconocimiento en la posibilidad de extraer información valida de los datos no estructurados.

2
sociales11, interconexión de objetos M2M, sensores de movilidad, biometría, entre otras
aplicaciones– (Garzón Arredondo, 2015; Aguilar, 2016).
Big Data no está formal ni estructuralmente definido y los modelos existentes no se
verifican en sentido estricto. El verdadero valor del Big Data está en la capacidad de
analizar y generar algoritmos que generen información con valor. Por tanto, unos de los
mayores desafíos es mejorar la calidad de los datos12.
Los datos que poseen baja calidad se reflejan en la pobre usabilidad de los mismos.
Resulta necesario un pre procesamiento para garantizar la calidad de los datos –esta se
refleja en la precisión, integridad, redundancia y consistencia (Hernández-Leal et al.,
2017)–, mediando estrategias para la depuración de datos desconocidos, y la reducción
de los datos “ruidosos”13 (Harrison et al., 2018; Paliott, 2018).
Para algunos autores en el futuro la utilización de Big Data será una base sólida para
encontrar patrones y asegurar buenos resultados del procesamiento analítico de los datos
(Muñoz Expósito, 2018). A partir de los cuales se puedan elaborar modelos útiles y
predicciones en diferentes temáticas, incrementando el entendimiento de lo social
(Meneses Rocha, 2018; Harrison et al., 2018).

La calidad de las estadísticas públicas

Los institutos estadísticos nacionales cuentan con normas y estándares de calidad para
realizar los distintos operativos estadísticos. La documentación utilizada en la producción
estadística oficial tiene entre sus objetivos normar la metodología de control de la
calidad14 –incluye el seguimiento continuo de indicadores de cobertura y calidad en cada

11
Las redes sociales digitales constituyen un complejo entramado tecnológico, económico y político que
les permite transformar la narrativa personal, los gustos y los estados de ánimo en datos, los cuales son su
motor económico y base de su modelo de negocio (Berry, 2012)
12
El concepto “Garbage in, garbage out” utilizado en las ciencias de la información, refiere a que la entrada
de datos sin sentido implica salida de información también sin sentido (Galimany Surio, 2014).
13
Los datos desconocidos no fueron relevados al momento de la obtención de la información. Requiere la
aplicación de métodos estadísticos para su reemplazo. Los datos ruidosos son valores que están
significativamente fuera del rango de valores esperados. Esto puede deberse a errores humanos, a
modificaciones en el sistema, información no disponible en tiempo, entre otros (Harrison et al., 2018). Por
ejemplo, el análisis de datos masivos a partir de mensajes de redes sociales puede estar minado de
información falsa o estar basada en percepciones subjetivas, que son imprecisas y engañosas. Además,
pueden presentar problemas de baja representación (por falta de participación o acceso a las mismas), sobre
representación (cuentas y perfiles personas fallecidas), y de “multiplicidad” (múltiples apariciones del
mismo individuo) (Rodríguez et al., 2017).
14
Según los resultados de la última encuesta sobre el estado de avance de los censos de 2020, la
identificación de las necesidades nacionales, el control de calidad y cobertura es uno de los temas
prioritarios donde los países requerían asistencia técnica. Cabe destacar que el 75 % respondió que realizaría

3
uno de los procesos estadísticos–, detectar defectos y corregirlos (Campos y Zambrano,
2020).
Algunas décadas atrás en las oficinas de Estadística, no brindaban determinada
información, debido a diferentes dificultades, como ser: no poseer la calidad adecuada, la
muestra necesaria, la debida consistencia, entre otras. Esto generaba que ciertos usuarios
recurran a fuentes privadas, obteniendo datos de menor calidad. Desde principio de siglo,
este proceder fue cambiando, existe la convicción que “el peor número es el que no se
conoce”. Prácticamente se suelen brindar respuesta a todos los pedidos, salvo, aquellos
casos que pongan en cuestión el secreto estadístico, e informando cuando corresponda las
eventuales limitaciones de la información brindada (CEPAL, 2000). Existe un concepto
denominado “Calidad Total”, que es utilizado para definir la mejora paulatina pero
constante en los operativos, siguiendo las líneas metodológicas de las principales oficinas
de estadísticas del mundo. Para que el sistema sea comparable internacionalmente, es
necesario que las fuentes disponibles suministren información comparable.
Los sistemas de información y los indicadores más eficaces son aquellos capaces de
armonizar la calidad y rigurosidad técnica con la participación de los usuarios.

Revisión de las Fuentes utilizadas por las estadísticas públicas

Los organismos de estadísticas han de seleccionar la fuente con respecto a la calidad, la


oportunidad, el costo y la carga que le impondrán (Lindenboim, 2011). Los datos para
fines estadísticos pueden obtenerse de todo tipo de fuentes, ya sea encuestas estadísticas
o registros administrativos.
En la etapa preparatoria de un censo o una encuesta pueden acarrearse conceptos no claros
o erróneos. En el inicio del operativo es importante establecer la calidad en términos
cuantitativos, mediante los umbrales o límites que pueden alcanzar los valores para
considerarse correctos. También es necesario considerar la utilidad y alcance de cada
pregunta a incluir, en términos de la satisfacción de los distintos usuarios y sujeto a los
recursos disponibles (CEPAL, 2011).
Los censos de población presentan como ventaja que recogen información hasta los
niveles de mayor desagregación geográfica sin incurrir en riesgos de falta de
representatividad. Así, mediante esta fuente es posible trazar un panorama

cambios en sus controles, debido a que este factor se relaciona a la credibilidad y la confianza de la
organización (CEPAL - CELADE, 2020)

4
sociodemográfico a escalas geográficas pequeñas. Como desventajas, el censo presenta
eventuales errores de omisión, que debilitan su fortaleza de universalidad. La calidad de
la información suele ser deficiente por ser obtenida mediante empadronadores no
especializados. Asimismo, la cantidad de información es limitada –las cédulas censales
poseen pocas consultas y en general poco complejas–, por los enormes costos que implica
este operativo. Sumado al largo período que media entre censo y censo, lo que dificulta
usarlo como instrumento para el seguimiento de políticas con efectos de corto plazo
(CEPAL, 2000).
En el caso de las encuestas de hogares, estas proporcionan información demográfica y
socioeconómica confiable entre períodos intercensales, con base en una muestra
probabilística de hogares. Para ello se requiere que los diseños muéstrales cumplan los
parámetros mínimos de calidad exigibles para que los indicadores obtenidos puedan
considerarse como representativos de los distintos colectivos tomados como objetivo –
cobertura de la encuesta–. Por otra parte, la encuesta se encuentra armonizada
internacionalmente, cuando la metodología empleada en la elaboración de los indicadores
de los distintos países es la misma, o bien contemplan las exigencias de la comparación
internacional en el ámbito considerado.
Luego del relevamiento del censo o encuesta, se procede a la validación, el análisis y
evaluación del resultado del operativo estadístico. En esta etapa, se detectan diferentes
errores que afectan la calidad de la información, como ser: omisiones o duplicaciones de
unidades de relevamiento –sean estas de población, vivienda, hogar–; no respuestas de
preguntas; pérdidas de formularios; registros tardíos; mala declaración de la edad;
inconsistencias entre variables de un mismo registro o entre variables de diferentes
registros pertenecientes a una misma unidad de relevamiento; discrepancias respecto de
información que proveen fuentes de datos externas; equivocaciones en la codificación y
la introducción de datos; errores en la revisión manual o informatizada de los datos;
tabulaciones erróneas de los resultados; entre otros (CEPAL, 2011)

Para el aprovechamiento y utilidad estadística de un registro administrativo es


fundamental conocer el contexto de producción, análisis y utilización del registro.
Teniendo en cuenta los requerimientos estadísticos, los datos administrativos presentan
como principal inconveniente, que su información ha sido diseñada para ser utilizada en
la gestión. Así, la información de interés estadístico puede incurrir en pérdida de calidad
debido a: cambios en las clasificaciones utilizadas, uso de nomenclaturas y variables de

5
clasificación que no permiten relacionar la información con otras fuentes, alteración de
su regularidad por cambios sistemáticos, entre otras (Hermida, 2016). Cabe destacar que,
en la calidad de las estadísticas basadas en registros administrativos, intervienen no solo
técnicas cuantitativas, sino también metodologías de orden cualitativo (Cea D’Ancona
1996; Cook y Reichardt 1986)
Por ejemplo, los registros vitales –los típicamente usados son los relativos a nacimientos,
defunciones y matrimonios–, poseen cobertura universal, no obstante, no permiten
realizar generalizaciones sobre otros temas –solo es posible relacionar hechos vitales
registrados de las personas involucradas–. Adicionalmente, suelen estar afectados por
problemas de omisión, oportunidad y calidad de la información.

Breves reflexiones finales

Los aspectos básicos de la función estadística, como el control y aseguramiento de la


calidad de todo operativo, y las cuestiones relacionadas con la confidencialidad y el
secreto estadístico (Campos y Zambrano, 2020), que anteriormente eran fácilmente
resguardados por la imposibilidad técnica de procesamiento de la información, requieren
especial atención en el marco actual (CEPAL, 2000). Este, como se ha mencionado, se
destaca por la necesidad de la disponibilidad de datos oportunos, fiables y de gran calidad
desglosados por ingresos, sexo, edad, raza, origen étnico, estatus migratorio,
discapacidad, ubicación geográfica y otras características pertinentes en los contextos
nacionales (Naciones Unidas, 2021). Destacándose la relevancia de la calidad de la
información existente, para que el Estado y los distintos tipos de usuarios tomen
decisiones con menores niveles de error (Zurita, 2010).

Referencias

Achille Pierre Paliott (2018). Nuevas profesiones y técnicas de web data mining en Argentina: el
caso del Data Scientist. Revista del Centro de Estudios de Sociología del Trabajo, Nº 10, pp. 95-
112
Aguilar, Luis (2016). Big Data, Análisis de grandes volúmenes de datos en organizaciones.
Primera edición.
Aldana, Harrison. S. M., Rivas, J. D. C., y Hidalgo, J. M. V. (2018). Big Data, el futuro de las
predicciones certeras. Revista Avenir, 2(2), 10-16.
Camargo, J., Camargo, J. y Joyanes, L. (2014). ConociendoBig Data. Revista Facultad de
Ingeniería, Enero-Abril 2015, Vol. 24, No. 38.Revista en Línea.

6
Campos, J. M., y Zambrano, M. Z. (2020). Calidad de los censos tradicionales de población y
vivienda: Evaluación de sus etapas. Matemática, 18(2).
Cea D’Ancona, Ma. A. (1996). Metodología Cuantitativa: estrategias y técnicas
de investigación social. Madrid: Síntesis.
CEPAL - CELADE. (2020). Censos de Población y Vivienda, Informe final de resultados de la
Encuesta sobre estado de avance de los censos de 2020 e identificaciónde las necesidades
nacionales. Recuperado de https://celade.cepal.org/censosinfo/documentos/INFORME CENSOS
RONDA 2020 LAyCARIBE.pdf
CEPAL (2000). Sexto Taller Regional sobre Indicadores sobre el Desarrollo Social. Buenos Aires
15 a17 noviembre 2000. Recuperado de http://hdl.handle.net/11362/20000
CEPAL (2011). Guía para asegurar la calidad de los datos censales. Serie N°74. Recuperado de
https://repositorio.cepal.org/bitstream/handle/11362/5515/S1100929_es.pdf?sequence=1&isAll
owed=y
Cook, T.D. y Reichardt, Ch. T. (1986) “ Hacia una superación del enfrentamiento
entre los métodos cualitativos y los cuantitativos” Cap.1 en Métodos
cualitativos y cuantitativos en la investigación evaluativo. Ed. Morata.
Madrid
Escobar Borja, M., y Mercado Pérez, M. (2019). Big data: un análisis documental de su uso y
aplicación en el contexto de la era digital (Big Data a DocumentaryAnalysis of Its Use and
Application in theContext of the Digital Age). La Propiedad Inmaterial, (28).
Galimany Surio, Aleix (2014). La creación de valor en las empresas a través del Big Data. Grado
de Administración y Dirección de Empresas. Universidad de Barcelona
Garzón Arredondo, A. (2015). Evolución e impacto de Big Sata en empresas grandes de diferentes
industrias del sector corporativo en Antioquia. Departamento de Informática y Sistemas escuela
de Ingeniería. Universidad EAFIT (Medellín).
Hermida, M. (2016). Metodologías para el tratamiento estadístico de los registros administrativos.
In V Encuentro Latinoamericano de Metodología de las Ciencias Sociales (Mendoza, 16 al 18 de
noviembre de 2016).
Hernández-Leal, Emilcy; Duque, Néstory; Moreno, Julián (2017). Big Data: una
exploración de investigaciones, tecnologías y casos de aplicación, TecnoLógicas,
vol. 20, n.° 39, mayo - agosto, 2017.
Lindenboim, Javier (2011). Las estadísticas oficiales en Argentina ¿Herramientas u obstáculos
para las ciencias sociales? Trabajo y Sociedad. Nº 16, vol. XV, V
Meneses Rocha, M. E. (2018). Grandes datos, grandes desafíos para las ciencias sociales. Revista
mexicana de sociología, 80(2), 415-444.
Muñoz Expósito, José Enrique (2018). Análisis de datos y extracción de conocimiento utilizando
Big Data. : Ingeniería de Telecomunicación. Universidad de JAÉN. Escuela Politécnica Superior
de Linares.
Naciones Unidas (2021), “Objetivos de Desarrollo Sostenible”. Recuperado de
https://www.un.org/sustainabledevelopment/es/
Reíta Reyes Jorge Eduardo y Salinas Hernández Héctor Javier (2016). Análisis de la viabilidad
de la implementación de redes Big Data en Colombia. Universidad Distrital FJDC Facultad
Tecnológica
Rodríguez Patricio, Palomino Norma y Mondaca Javier (2017). El uso de datos masivos y sus
técnicas analíticas para el diseño e implementación de políticas públicas en Latinoamérica y el
Caribe. Banco Interamericano de Desarrollo.

7
Vásquez Valdivia, A. (2021)., “Apertura y uso de datos para hacer frente al COVID-19 en
América Latina”, serie Gestión Pública, N° 88 (LC/TS.2021/98), Santiago, Comisión Económica
para América Latina y el Caribe (CEPAL).
Zurita, G. (2010). Probabilidad y Estadística Fundamentos y aplicaciones. Ediciones del Instituto
de Ciencias Matemáticas ESPOL, Guayaquil-Ecuador.

View publication stats

También podría gustarte