Está en la página 1de 23

ESTRATEGIA DE SEGUIMIENTO DE LA

CALIDAD DE DATOS EN SALUD

RENE SORIA SAUCEDO


MD, MPH, PHD
CALIDAD DE LA INFORMACIÓN
Y EL COSTO PARA PRODUCIRLA
DATOS VS INFORMACIÓN

 DATOS  INFORMACIÓN
Hechos sin refinar y los utiliza el La salida del dato procesado
sistema de computación como insumo (refinado)

Material crudo que no trae ningún El producto y la agrupación del


significado dato crudo, que colectivamente
transporta significado lógico

Matrices, registros, observaciones


Análisis
ARQUITECTURA DEL MODELO
DOMINIOS DE APLICACIÓN
ESTRATEGIAS PARA MANTENER ALTA
CALIDAD DE DATOS
ESTRUCTURA DE DATOS

 1. Estructurados: Ordenados, fáciles de gestionar, y predecibles (afiliaciones).

 2. Semiestructurados: Nivel medio de estructuración y rigidez organizativa (historia

clínica)

 3. Sin estructura: Representan el 80 % de los datos existentes en cualquier organización. y su manejo


te resulta mucho más dificultoso que en los dos casos anteriores
CALIDAD DE DATOS Y TIPOS DE DATOS.

ACCESO
CONSISTENCIA
(Coherencia)
PRECISIÓN
(Detalle)

INTEGRIDAD
(Datos completos)

VIGENCIA
(Actualidad)
PRECISIÓN

 Se refiere a cuan cercano son dos valores´. Se identifica la precisión de sintaxis, y


la precisión semántica

 Sintaxis: Mide cuantitativamente la falta de precisión. Trata sobre valores


admisibles por columna, y cuanto se alejan del estándar.

 Semántica: “exactitud”, requiere conocer a priori, la observación verdadera.


INTEGRIDAD

Mide profundidad, amplitud, y envergadura de una base de datos.

 1. INTEGRIDAD DE ESQUEMA: Grado en el cual los conceptos y propiedades de la base se


encuentran presentes
 2. INTEGRIDAD DE COLUMNAS: La medición de las observaciones perdidas para una columna
en específico.
 3. INTEGRIDAD POBLACIONAL: Evalúa observaciones perdidas con referencia a la población
Los valores nulos, tienen el significado general de una variable perdida (el valor que existe que por algún
motivo no se encuentra disponible).
 Es importante comprender porque el valor se perdió.
OBSERVACIONES PERDIDAS

ID Nombre Apellido Fecha de nacimiento Email

1 Juan Jiménez 17/3/1974 Jiménez@yahoo.es


2 Ana Guzman 11/5/1980 Perdida (no existe)
3 Ronald Vasquez 1/1/1936 Perdida (existe, pero se desconoce)

4 Lucia Rendon 20/11/1955 Perdida (desconozco si existe o no)

ID 2 = Corresponde al grupo de personas que no usa correo electrónico


ID 3 = Corresponde al grupo de personas que usa correo electrónico
ID 4 = No sabemos si corresponde a usuarios o no usuarios de correo electrónico
CONSISTENCIA

Captura la violación de reglas semánticas definidas a nivel de base de datos,


definidas por restricciones intrarrelacionales, e interrelacionales (entre columnas).

 Restricción intrarrelacional: incluye la integridad de los atributos de una sola columna.

 Restricción interrelacional: Incluye integridad y atributos de más de una columna.


VIGENCIA

Capacidad de cambiar y actualizarse en el tiempo.

 ACTUALIDAD. Velocidad de actualización de la información.

 MEDICIÓN: a través de la metadata de la última actualización.

 VOLATILIDAD. Frecuencia con la cual los datos varían en el tiempo.

 PERTINENCIA TEMPORAL. expresa cuan útil son los datos para el momento actual.

En general, los datos altamente volátiles deben ser actuales.


ACCESIBILIDAD

 Es la habilidad del usuario de acceder a datos desde su propio contexto, y que los datos se
encuentren en un formato que permita exploración y análisis.

 Por ejemplo, poner a disposición de instituciones de investigación y de salud datos crudos


y en formato de base de datos, y no datos agregados previamente de forma arbitraria, y en
un formato que no permita análisis posteriores (pdf).
CALIDAD DE LAS FUENTES DE
INFORMACIÓN

Se proponen varias dimensiones para caracterizar calidad, especialmente para definir cuan “confiable” es
una fuente:

 CREDIBILIDAD: Considera si una fuente puede catalogarse como verdadera, y comunica la


información correcta.

 REPUTACIÓN: Evaluación longitudinal de la veracidad de la fuente. En general, cuanto más tiempo


de reporte tiene, mejor su reputación.

 OBJETIVIDAD: cuando se construye la fuente, la imparcialidad es una característica clave.


MODELOS QUE REPRESENTAN LA
REALIDAD
Evaluar los problemas con los usuarios

1. Enfocarse en servicios: Entrevistas a operativos y usuarios finales

2. Análisis del proceso para encontrar causas.

EJEMPLO: El paciente es notificado para recibir un control de salud, pero al llegar al establecimiento, las fichas
ya están agotadas. El sistema puede corregir este problema, a través de un responsable al interior del
establecimiento, para que unos días antes contacte a las personas que deben volver a consulta, y asegure la
disponibilidad de fichas.
Medir la calidad de los datos
Definir nuevos blancos de calidad de datos

Dimensión de calidad Objetos Objetos que Precisión de Vigencia


/matriz base de datos duplicados coinciden nombres y
direcciones
Registro farmacia 9% -- 77% 60 días
Consulta externa 20% -- 85% 25 días
Hospitalizaciones 1% -- 80% 90 días
Los tres registros juntos 5% 58% -- --
Concebir procesos de mejora de las
actividades

En relación a actividades de datos, tomar en consideración los acápites descritos arriba. Vale la pena describir algunos
casos.

a) Si una tabla relacional tiene baja precisión, y otra fuente representa los mismos objetos y atributos comunes con
más precisión, aplicamos una actividad de “identificación de objetos”, en la matriz fuente, para compararla con la
segunda fuente.
b) Asumir que la base de datos existe para utilizarla principalmente en aplicaciones estadísticas, y se caracteriza por
baja integridad. En este caso, llevamos adelante una actividad de “corrección de errores”, que cambia datos
perdidos por datos válidos, manteniendo la distribución de los valores intacta.
c) Asumir que un cierto flujo de datos es de muy baja calidad, en este caso, llevamos adelante una actividad de
“selección de fuente”, para cambiar la actual fuente. O también, juntar más de una fuente para incrementar la
calidad.
Aplicación de herramientas digitales para
la calidad del dato

En relación a actividades de datos, tomar en consideración los acápites descritos arriba. Vale la pena describir algunos
casos.

a) Si una tabla relacional tiene baja precisión, y otra fuente representa los mismos objetos y atributos comunes con
más precisión, aplicamos una actividad de “identificación de objetos”, en la matriz fuente, para compararla con la
segunda fuente.
b) Asumir que la base de datos existe para utilizarla principalmente en aplicaciones estadísticas, y se caracteriza por
baja integridad. En este caso, llevamos adelante una actividad de “corrección de errores”, que cambia datos
perdidos por datos válidos, manteniendo la distribución de los valores intacta.
c) Asumir que un cierto flujo de datos es de muy baja calidad, en este caso, llevamos adelante una actividad de
“selección de fuente”, para cambiar la actual fuente. O también, juntar más de una fuente para incrementar la
calidad.
SOFTWARE PARA AUTOMATIZAR LA
EVALUACIÓN DE LA CALIDAD DE LOS DATOS

 Open Refine: es una poderosa herramienta que sirve para lidiar con bases de datos sucias.
También es capaz de transformar datos de un formato a otro.
 Trifacta Wrangles: Herramienta interactiva para limpieza de datos y transformaciones.
incluye menos tiempos de formato, y mayor enfoque en análisis de datos. Ayuda a
estadísticos y analistas a limpiar y preparar bases de datos sucias y diversas de forma
rápida e intuitiva.
Gracias

También podría gustarte