Documentos de Académico
Documentos de Profesional
Documentos de Cultura
DATOS INFORMACIÓN
Hechos sin refinar y los utiliza el La salida del dato procesado
sistema de computación como insumo (refinado)
clínica)
ACCESO
CONSISTENCIA
(Coherencia)
PRECISIÓN
(Detalle)
INTEGRIDAD
(Datos completos)
VIGENCIA
(Actualidad)
PRECISIÓN
PERTINENCIA TEMPORAL. expresa cuan útil son los datos para el momento actual.
Es la habilidad del usuario de acceder a datos desde su propio contexto, y que los datos se
encuentren en un formato que permita exploración y análisis.
Se proponen varias dimensiones para caracterizar calidad, especialmente para definir cuan “confiable” es
una fuente:
EJEMPLO: El paciente es notificado para recibir un control de salud, pero al llegar al establecimiento, las fichas
ya están agotadas. El sistema puede corregir este problema, a través de un responsable al interior del
establecimiento, para que unos días antes contacte a las personas que deben volver a consulta, y asegure la
disponibilidad de fichas.
Medir la calidad de los datos
Definir nuevos blancos de calidad de datos
En relación a actividades de datos, tomar en consideración los acápites descritos arriba. Vale la pena describir algunos
casos.
a) Si una tabla relacional tiene baja precisión, y otra fuente representa los mismos objetos y atributos comunes con
más precisión, aplicamos una actividad de “identificación de objetos”, en la matriz fuente, para compararla con la
segunda fuente.
b) Asumir que la base de datos existe para utilizarla principalmente en aplicaciones estadísticas, y se caracteriza por
baja integridad. En este caso, llevamos adelante una actividad de “corrección de errores”, que cambia datos
perdidos por datos válidos, manteniendo la distribución de los valores intacta.
c) Asumir que un cierto flujo de datos es de muy baja calidad, en este caso, llevamos adelante una actividad de
“selección de fuente”, para cambiar la actual fuente. O también, juntar más de una fuente para incrementar la
calidad.
Aplicación de herramientas digitales para
la calidad del dato
En relación a actividades de datos, tomar en consideración los acápites descritos arriba. Vale la pena describir algunos
casos.
a) Si una tabla relacional tiene baja precisión, y otra fuente representa los mismos objetos y atributos comunes con
más precisión, aplicamos una actividad de “identificación de objetos”, en la matriz fuente, para compararla con la
segunda fuente.
b) Asumir que la base de datos existe para utilizarla principalmente en aplicaciones estadísticas, y se caracteriza por
baja integridad. En este caso, llevamos adelante una actividad de “corrección de errores”, que cambia datos
perdidos por datos válidos, manteniendo la distribución de los valores intacta.
c) Asumir que un cierto flujo de datos es de muy baja calidad, en este caso, llevamos adelante una actividad de
“selección de fuente”, para cambiar la actual fuente. O también, juntar más de una fuente para incrementar la
calidad.
SOFTWARE PARA AUTOMATIZAR LA
EVALUACIÓN DE LA CALIDAD DE LOS DATOS
Open Refine: es una poderosa herramienta que sirve para lidiar con bases de datos sucias.
También es capaz de transformar datos de un formato a otro.
Trifacta Wrangles: Herramienta interactiva para limpieza de datos y transformaciones.
incluye menos tiempos de formato, y mayor enfoque en análisis de datos. Ayuda a
estadísticos y analistas a limpiar y preparar bases de datos sucias y diversas de forma
rápida e intuitiva.
Gracias