Mejora Prometeo Reglas Auto Validacion Mineria Datos Chile

Universidad Técnica Federico Santa María
Departamento de Informática
Magíster en Tecnologías de la Información
–––
Mejoramiento de reglas de autoverificación de resultados de exámenes

clínicos a través del uso de algoritmos de asociación y agrupamiento
Cristián Ruiz Pérez
Exámenes de Laboratorio S.A. Bupa Chile.

Av. Departamental 1455, La Florida, Región Metropolitana
cristian.ruiz@sansano.usm.cl
Resumen: Actualmente las reglas de autoverificación de resultados de exámenes de laboratorio ELSA no

son eficientes, generando una sobrecarga de trabajo del 60% sobre el personal existente y tiempos de entrega
de resultados que no cumplen con los comprometidos con Clínica Bupa Santiago. En este contexto y a fin
de proporcionar una solución al problema, se elaboró un método de análisis descriptivo de datos basado en
algoritmos de asociación y agrupamiento, para que los directivos puedan gestionar las reglas de
autoverificación a través de información confiable y basada en la evidencia de su propia población. La
investigación se realizó bajo la metodología CRISP-DM, la cual demostró ser eficiente en la conducción del
proceso de minería de datos dentro del contexto de laboratorio clínico. Asimismo, se pudo determinar que
las técnicas de minería de datos sí contribuyen al mejoramiento de reglas de autoverificación, puesto que
las correlaciones obtenidas en este trabajo no habían sido consideradas dentro de ninguna regla existente.
Por consiguiente, se espera que este trabajo pueda ser adoptado y extendido por laboratorio ELSA cuando
requiera gestionar las reglas de autoverificación.
Palabras Clave: Minería de datos, algoritmos de asociación, algoritmos de agrupamiento, laboratorio

clínico, exámenes, correlación, autoverificación de resultados.
1 Introducción
1.1 Contexto, motivación y problemática
Exámenes de Laboratorio S.A. (ELSA) es una filial de Integramédica, parte de Bupa Chile, que provee a sus
pacientes, médicos e instituciones, servicios de Laboratorio Clínico con resultados de calidad demostrable, en
forma oportuna y a un precio competitivo, por medio de avanzada tecnología y personal calificado. Es el
establecimiento más grande de su tipo en Chile; cuenta con más de 60 unidades de toma de muestras
ambulatorias en distintas ciudades del país y procesa más de 6,5 millones de exámenes al año, equivalente a
más de 1.375.000 pacientes anuales.
Cuenta con un sistema informático (LIS, por su nombre en inglés “Laboratory Information System”) que
gestiona los procesos propios del laboratorio y un sistema experto, llamado “Prometeo”, que permite
autoverificar resultados de exámenes a través de reglas definidas en conformidad con la guía “AUTO10-A” del
Instituto de Normas Clínicas y de Laboratorio (CLSI, por sus siglas en inglés) y disponer de ellos a pacientes y
médicos sin necesidad de revisión manual por parte del equipo clínico.
A partir de junio de 2018, ELSA toma control del laboratorio clínico de la nueva Clínica Bupa Santiago, la más
grande de Bupa en el mundo y la cuarta con mayor capacidad de Chile con un total de hasta 460 camas, la cual
aumentó la demanda de exámenes provenientes del ámbito hospitalario, pacientes críticos y urgencia; así
también la necesidad de responder a los requerimientos asociados: soportar la demanda con el mismo recurso
humano, garantizar cumplimientos de tiempos de entrega de resultados y asegurar la calidad del resultado.
1
Programa de Magíster en Tecnologías de la Información
Hoy día los algoritmos disponibles en “Prometeo” permiten la autoverificación del 95% de los resultados de
exámenes del ámbito ambulatorio; sin embargo, para el ámbito hospitalario, pacientes críticos y urgencia solo
se alcanza un promedio del 39% impactando negativamente en el “TAT” - por su nombre en inglés “Turn
Around Time” – que dicho en otras palabras significa un aumento del tiempo que transcurre desde que se recibe
la muestra en el laboratorio hasta que se emite el informe de resultados.
En este contexto, es necesario realizar la revisión de las reglas de autoverificación existentes para mejorar
aquellas que presenten deficiencias a fin de aumentar el porcentaje de resultados susceptibles de ser
autoverificados y de esta manera, reducir el “TAT” de los pacientes del ámbito hospitalario, paciente crítico y
urgencia. En definitiva, es imperante que ELSA responda en el menor tiempo posible a las demandas originadas
por la diversificación del segmento de clientes y pueda enfrentar los desafíos derivados de la expansión de la
compañía.
1.2 Definición del Problema
La incorporación de nuevos ámbitos de atención ha demostrado que las reglas de autoverificación existentes en
“Prometeo” no son eficientes en todos los pacientes de Clínica Bupa Santiago. De hecho, hoy en día más del
60% de los resultados de los ámbitos hospitalario, paciente crítico y urgencia no son liberados por el sistema
experto, por lo tanto, deben ser necesariamente verificados de forma manual por los profesionales de laboratorio
quienes, naturalmente, no pueden igualar los tiempos de respuesta del sistema experto. En consecuencia, esto
no solo se traduce en un aumento de la carga de trabajo del recurso humano existente, sino también, en el
cumplimiento del indicador de tiempo de respuesta comprometido y establecido con los departamentos de
Clínica Bupa Santiago. En general, esto no solo afecta al Laboratorio por la necesidad de incorporar mayor
recurso humano a funciones habituales de verificación, sino también, a los pacientes por disminuir la
oportunidad con la que sus médicos tratantes reciben la información que permitiría apoyar un diagnóstico y,
por ende, tomar a tiempo decisiones que vayan en directo beneficio de su estado de salud.
Cabe señalar que el Laboratorio está en constante revisión de las reglas de autoverificación, pero hasta ahora
solo se habían considerado variables para pacientes bajo condiciones sanas como por ejemplo: índices de
estabilidad de las muestras, alarmas de instrumentos analíticos, rangos de referencia, rangos críticos,
variabilidad biológica, variabilidad analítica y ciertas correlaciones de exámenes interdependientes. Esta
evidencia permite determinar que las reglas actuales no consideran la variabilidad de resultados de exámenes
que puedan presentarse en pacientes bajo situaciones patológicas, como son aquellos que provienen de los
nuevos ámbitos de atención, haciendo necesaria la revisión de estos para aumentar el porcentaje de resultados
autoverificados de estas unidades.
Desde la apertura de Clínica Bupa Santiago a la fecha, ELSA ha procesado más de 200.000 exámenes; por
consiguiente, existe la gran oportunidad de comprender el comportamiento de los resultados de sus pacientes a
través de los datos almacenados en su sistema informático. Sin embargo, hoy en día no es posible porque no
cuenta con herramientas adecuadas; tampoco métodos de captura y análisis, que permitan obtener de sus propios
registros información y conocimiento para alimentar y optimizar los algoritmos existentes del sistema experto.
1.3 Propuesta de solución y objetivos planteados
Se propone la elaboración de un método de análisis de datos de laboratorio clínico que permita gestionar con
mayor eficiencia los registros de resultados de los pacientes de Clínica Bupa Santiago. Junto con esto, se
propondrá el diseño de un almacén de datos, transversal e independiente de la estructura de base de datos del
sistema informático, para facilitar la aplicación de algoritmos de minería de datos. Finalmente, se realizará un
análisis descriptivo de los datos mediante el uso de algoritmos de asociación y agrupamiento bajo la
metodología CRISP-DM (“Cross Industry Standard Process for Data Mining”), por ser considerado el modelo
más completo y el más utilizado en el mundo para llevar a cabo proyectos de minería de datos por la
granularidad de sus fases y tareas, y su adaptabilidad pudiendo ser aplicado a cualquier tipo de industria.
2
–––
El desarrollo de esta investigación y la incorporación de un método de análisis de laboratorio clínico permitirán

que los directivos del Laboratorio les den sentido a los datos almacenados en sus sistemas de información, de
manera que con esta información puedan generar conocimiento y adoptar decisiones oportunas; y a su vez,
gestionar las reglas de autoverificación de resultados de exámenes a través de información confiable y basada
en la evidencia de su propia población.
1.4 Hipótesis
La utilización de algoritmos de asociación y agrupamiento facilita la elaboración y mejora la eficiencia que hoy
tienen las reglas de autoverificación de resultados definidos por laboratorio ELSA en el sistema experto.
1.5 Metodología de validación
Se evaluarán los resultados obtenidos luego de la aplicación de los algoritmos de asociación y agrupamiento a
un almacén de datos, y verificará:
 Si para las asociaciones de resultados existen reglas de autoverificación;
 Y el aporte que realizaría al laboratorio la generación o modificación de reglas de autoverificación en base a
los resultados obtenidos por el modelo de minería de datos.
1.6 Estructura del informe
El primer capítulo del informe comienza con la introducción al tema que origina esta investigación, donde se
expone el problema actual que existe con las reglas de autoverificación de laboratorio clínico ELSA; y
posteriormente la hipótesis para la solución junto con la metodología de validación que permitirá confirmar si
la propuesta permite o no mejorar la eficiencia de la autoverificación.
En el siguiente capítulo se revisa el marco teórico y estado del arte de los conceptos claves que se utilizarán
dentro de esta investigación. Luego, en el tercer capítulo, se aborda el desarrollo de las fases del modelo CRISP-
DM iniciando con la comprensión del negocio; luego se explica cómo se prepararon los datos para realizar el
modelo final de análisis y aplicación de algoritmos de asociación y agrupamiento que permiten validar la
hipótesis planteada.
Finalmente, se presenta una conclusión respecto de los resultados obtenidos, proponiendo consideraciones y
próximos pasos a seguir para que Laboratorio pueda continuar optimizando sus reglas de autoverificación.
2 Marco Teórico
En este capítulo, a modo de introducción, se define qué es la minería de datos y cuáles son los algoritmos más
utilizados en el mundo; a su vez, se describen aquellos que realizan búsqueda de reglas de asociación, llamados
algoritmos de asociación, y también aquellos que realizan agrupamiento de vectores, llamados algoritmos de
agrupamiento o clusterización. Así también, para esta investigación es necesario establecer una metodología
de trabajo que permita conducir el diseño y análisis de datos, por tanto, en la siguiente sección se revisarán las
principales metodologías para el desarrollo de proyectos de minería de datos. Finalmente se revisa un conjunto
de trabajos asociados y se establece una conclusión respecto a su aporte para el desarrollo de esta investigación.
3
2.1 Minería de datos
La minería de datos o exploración de datos (es la etapa de análisis de "Knowledge Discovery in Databases" o
KDD) es un campo de la estadística y las ciencias de la computación referido al proceso que intenta descubrir
patrones en grandes volúmenes de conjuntos de datos [1]. Utiliza los métodos de la inteligencia artificial,
aprendizaje automático, estadística y sistemas de bases de datos. El objetivo general del proceso de minería de
datos consiste en extraer información y conocimiento desde un conjunto de datos y transformarla en una
estructura comprensible para su uso posterior. Un proceso típico de minería de datos consta de las siguientes
tareas generales: selección del conjunto de datos, análisis de las propiedades de los datos, transformación del
conjunto de datos de entrada, seleccionar y aplicar la técnica de minería de datos, extracción de conocimiento
y, para terminar, la interpretación, evaluación y validación de los resultados comprobando que las conclusiones
que arroja son coherentes y suficientemente satisfactorias.
2.2 Técnicas de minería de datos
Las técnicas de la minería de datos no son más que algoritmos, más o menos sofisticados, que se aplican sobre
un conjunto de datos para obtener unos resultados. A modo de ejemplo, se presentan 4 de las técnicas más
representativas para realizar tareas de análisis (descriptivo o predictivo) en proyectos de minería de datos.
 Redes neuronales: son un paradigma de aprendizaje y procesamiento automático inspirado en la forma en
que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexión de neuronas en una
red que colabora para producir un estímulo de salida.
 Árboles de decisión: un árbol de decisión es un modelo de predicción utilizado en el ámbito de la
inteligencia artificial y el análisis predictivo; dada una base de datos se construyen estos diagramas de
construcciones lógicas, muy similares a los sistemas de predicción basados en reglas, que sirven para
representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolución de un
problema. Ejemplos de algoritmos: ID3, C4.5.
 Agrupamiento o Clustering: es un procedimiento de agrupamiento de una serie de objetos según criterios
habitualmente de distancia; se tratará de disponer los objetos de entrada de forma que estén más cercanos
aquellos que tengan características comunes. Ejemplos de algoritmos: K-means, K-medoids.
 Reglas de asociación: se utilizan para descubrir hechos que ocurren en común dentro de un determinado
conjunto de datos. Ejemplos de algoritmos: Apriori, FP-Growth, Eclat.
A continuación, se explican dos de estas técnicas y que son las propuestas para el desarrollo de esta
investigación: “Algoritmos de Asociación” y “Algoritmos de agrupamiento o Clustering”
2.3 Reglas de asociación
En minería de datos y aprendizaje automático, los algoritmos de asociación se utilizan para descubrir hechos
que ocurren en común dentro de un determinado conjunto de datos. Se han investigado ampliamente diversos
métodos para aprendizaje de reglas de asociación, que han resultado ser muy interesantes para descubrir
relaciones entre variables en grandes conjuntos de datos como, por ejemplo: Apriori, FP-Growth o Eclat, cuyas
características se describen a continuación.
Algoritmo Apriori
Propuesto por Agrawal et al. [2], es uno de los primeros y más populares algoritmos para la minería de reglas
de asociación. Este algoritmo permite encontrar de forma eficiente "conjuntos de ítems frecuentes" los cuales
sirven de base para generar reglas de asociación. Descubre las reglas de asociación en dos fases, usando como
parámetros valores de soporte y confianza mínimos. Difiere de algoritmos previos en la manera en que los
conjuntos de elementos son considerados frecuentes y el mecanismo por el cual son generados, obteniendo así
un mejor rendimiento en el orden de magnitud para un gran conjunto de datos [3].
4
–––
Algoritmo FP-Growth
Basado en una mejora del algoritmo Apriori propuesto por Han et al.[4], define una primera fase que construye
la estructura jerárquica “Frequent Pattern Tree” (“FP-tree”), la cual es utilizada para compactar la base de
datos almacenando solamente los ítems frecuentes; y una segunda fase en la que se generan las reglas de
asociación de elementos frecuentes encontrados, basado en parámetros de soporte y confianza mínimos. La
principal diferencia con el algoritmo Apriori [2] es la implementación usada, la cual es más eficiente al hacer
uso de un árbol de elementos frecuentes que puede ser procesado más rápidamente que la estructura de datos
usada en Apriori. Este algoritmo supera las limitaciones de Apriori y Eclat. Según varios autores, ésta es la
mejor técnica para la generación de itemsets propuesta hasta el momento [5].
Algoritmo Eclat
El algoritmo Eclat, sigla por su nombre en inglés “Equivalence Class Transformation”, genera una
representación comprimida de la base de datos mediante árboles. Mantiene una tabla cabecera donde para cada
ítem hay una lista enlazando a todos los nodos del gráfico en el cual aparece dicho ítem. Además, el gráfico de
transacciones resume las transacciones en la base de datos junto con el soporte del “itemset” que se forma,
siguiendo el camino desde la raíz del gráfico hasta el nodo en cuestión.
2.4 Agrupamiento o Clustering
Un algoritmo de agrupamiento (en inglés, Clustering) concentra una serie de vectores de acuerdo a un criterio
tal como distancia o similitud. Generalmente, los vectores de un mismo grupo (o cluster) comparten propiedades
comunes [6] y la cercanía se define en base a métricas, como la euclídea o Chebyshev, ambas descritas a modo
de ejemplo en la Tabla 1.
Tabla 1. Métricas de distancia utilizadas en algoritmos de agrupamiento o clustering.
Distancia Descripción Función
Euclidiana Es la distancia en línea recta o la trayectoria más
corta posible entre dos puntos [7].
Chebyshev Es una métrica definida en un espacio vectorial

donde la distancia entre dos vectores es el mayor
de sus diferencias a lo largo de cualquier
dimensión de coordenadas [7].
Así también existen diferentes algoritmos de agrupamiento, como por ejemplo “K-means” y “K-medoids”
cuyas características se describen a continuación.
Algoritmo K-means
Se trata de un algoritmo de particionamiento de conjuntos de datos en k grupos, cuyo valor medio de cada
observación o dato es cercano entre los valores del grupo al que pertenece. El método de las “k-means” [8][9],
es hasta ahora el más utilizado en aplicaciones científicas e industriales. El nombre viene porque representa
cada uno de los “clusters” por la media (o media ponderada) de sus puntos, es decir, por su centroide.
Este método únicamente se puede aplicar a atributos numéricos, y los valores “outliers” le pueden afectar muy
negativamente. Sin embargo, la representación mediante centroides tiene la ventaja de que tiene significados
gráfico y estadísticos inmediatos.
5
La demostración del funcionamiento estándar del algoritmo se puede representar de la siguiente manera:
1) Los k centroides 2) k “clusters” son 3) El centroide de cada 4) Pasos 2 y 3 se repiten

iniciales, representados generados asociándole el uno de los k grupos se hasta que se logre la
en círculos, son para este punto con la media más recalcula convergencia.
caso k=3, los cuales son cercana. La partición aquí
generados aleatoriamente representa el diagrama de
dentro de un conjunto de Voronoi generado por los
datos, representados en centroides.
cuadrados.
Algoritmo “K-medoids”
“K-medoids” es una técnica clásica de particionamiento de “clusters” que divide los datos conformados
por n objetos en k “clusters” (con k conocido de antemano). Tanto “k-medoids” como “k-means” son
algoritmos que trabajan con particiones (dividiendo el conjunto de datos en “clusters”) y ambos intentan
minimizar la distancia entre puntos que se añadirían a un grupo y otro punto designado como el centro de ese
grupo. En contraste con el algoritmo “k-means”, “k-medoids” es más robusto ante el ruido y a partes aisladas
que “k-means”, porque minimiza una suma de diferencias (entre pares de puntos) en vez de una suma de
distancias euclidianas cuadradas.
2.5 Metodologías para proyectos de minería de datos
En esta sección se describen tres de las metodologías más usadas en el mundo para orientar y guiar trabajos de
minería de datos: SEMMA, KDD y CRISP-DM.
SEMMA
SEMMA, creada por el “SAS Institute”, se define como el proceso de selección, exploración y modelado de
grandes volúmenes de datos para descubrir patrones de negocio desconocidos [10]. El nombre de esta
terminología es el acrónimo correspondiente a las cinco fases básicas del proceso: “Sample” (Muestreo),
“Explore” (Exploración), “Modify” (Modificación), “Model” (Modelado) y “Assess” (Valoración). Se
encuentra enfocada especialmente en aspectos técnicos, excluyendo actividades de análisis y comprensión del
problema que se está abordando y fue propuesta especialmente para trabajar con el software de minería de datos
de la compañía SAS [11].
KDD
KDD, por su nombre en inglés “Knowledge Discovery in Databases”, es una metodología propuesta por Fayyad
en 1996 compuesta de 5 fases: Selección de datos, preprocesamiento de datos, transformación, minería de datos
e interpretación y evaluación de los resultados. El KDD es un proceso interactivo e iterativo, centrado en el
usuario, quién participa activamente en la toma de decisiones dentro de cada etapa del proceso. [12]
6
–––
Metodología CRISP-DM
CRISP-DM, sigla de su nombre en inglés “Cross-Industry Standard Process for Data Mining”, es un método
probado para orientar trabajos de minería de datos [13]. Creado por el grupo de empresas SPSS, NCR y Daimer
Chrysler en el año 2000, es actualmente la guía de referencia más utilizada en el desarrollo de proyectos de
minería de datos. CRISP-DM estructura el proceso en seis fases, representadas en la Figura 1, junto con la
descomposición de tareas para cada una de ellas. Es importante señalar que la secuencia de ejecución dentro de
un proyecto no es estricta, pudiendo avanzar y retroceden entre fases y tareas si se considera necesario [14].
Comprensión Comprensión Preparación de

del negocio de los datos los datos
Modelado Evaluación Implementación FASES
Determinar Recopilar Seleccionar Desarrolar

Seleccionar Evaluar
los objetivos datos técnicas de plan de
los datos resultados
del negocio iniciales modelado trabajo
Mantener y
Evaluar la Generar
Describir Limpiar los Revisar el monitorear
situación diseño de
los datos datos proceso el plan de
actual pruebas
trabajo
Determinar
Determinar
metas de Explorar de Construir Construir Generar
minería de los datos los datos modelo
próximos
reporte final TAREAS
pasos
datos
Generar Verificar la
Integrar los Evaluar Revisar el
Plan de calidad de
datos modelo proyecto
Trabajo los datos
Formatear
los datos
Figura 1. Modelo de referencia CRISP-DM. Fuente: CRISP-DM 1.0: Step by Step Data Mining Guide.
2.6 Estado del arte
La primera edición de la guía "AUTO10-A” fue lanzada por el “CLSI” hace más de 10 años atrás, siendo hoy el
marco de referencia más utilizado a nivel mundial para la elaboración de reglas de autoverificación. Ahora bien,
es preciso mencionar que esta guía no intenta proveer de criterios de autoverificación, por el contrario, solo
establece recomendaciones para que los laboratorios puedan diseñar, construir, implementar y validar sus reglas
basándose en las necesidades de su propia población, y dentro de un marco regulatorio nacional e internacional
[15]. Por ello, el desafío de todos los laboratorios del mundo, y sin exclusión, es encontrar el mejor método de
búsqueda de información que permita gestionar eficientemente sus algoritmos responder a los requerimientos
de sus pacientes y la organización.
En este contexto, y luego de efectuar la revisión de la literatura científica a fin de recopilar experiencias y
similitudes con el presente trabajo, es posible mencionar que durante la última década se han llevado a cabo
diversas investigaciones relacionadas con la búsqueda de información y análisis de datos de laboratorio clínico;
semejantes entre sí, salvo por las diferencias encontradas en los métodos que utiliza cada una de ellas. A modo
de ejemplo, la gran mayoría utiliza medidas estadísticas convencionales tales como: desviación estándar o
media móvil [16]; mientras que solo una de ellas utiliza la técnica de aprendizaje automático de “redes
neuronales artificiales” [17], siendo la que más se asemeja a las técnicas propuestas en este trabajo. Asimismo,
cabe señalar que no fue posible encontrar evidencia respecto de la utilización de metodologías de proyectos de
minería de datos así como “CRISP-DM” o algoritmos de asociación o agrupamiento dentro del contexto de
laboratorio clínico.
Respecto a las herramientas para el análisis de datos, no fue posible encontrar evidencia en cuanto a la
utilización de “RapidMiner”, software para análisis y minería propuesto en este trabajo, dentro de estudios
7
relacionados con descripción o predicción de resultados en laboratorio clínicos, aunque si dentro de otros
contextos tales como enfermedades o eventos de interés epidemiológico. En cambio, se identifica el uso del
software estadístico “SPSS” [18] [19]; el middleware “DM2”, gestor de reglas de autoverificación [16]; el
software de minería de datos “Weka” [17], similar a “RapidMiner”, limitado en funcionalidades; el software de
análisis de datos “EpiInfo 3.5.4” [20], y finalmente el software “Microsoft Excel” [21], que también permite
el análisis de datos estructurados. De todas formas, y a pesar de haber utilizado distintas herramientas, todos
los trabajos llegaron a buenos resultados. Es decir, que las reglas de autoverificación obtenidas a partir de
algoritmos de asociación y/o agrupamiento fueron eficientes en reducir las actividades de verificación manual,
y disminuir los tiempos de entrega de resultados, beneficiando así directamente a la salud de los pacientes [16].
Para terminar, es fundamental destacar que el principal elemento diferenciador de este trabajo radica en el
enfoque de la investigación, que al contrario de lo que se puede observar en la literatura disponible, no solo
tiene por objetivo describir sucesos clínicos, sino más bien, validar que a través del uso de una metodología
estándar de proyectos de minería de datos y la aplicación de algoritmos de agrupamiento y asociación, se pueden
descubrir tantos o más aspectos nuevos del negocio que los obtenidos con el uso de métodos estadísticos
convencionales. Por esta razón, se considera que esta investigación tiene la oportunidad de aportar al
conocimiento disponible, ya que independiente del resultado que se obtenga, el objetivo principal es evaluar un
método de análisis de datos de laboratorio clínico que, de ser validado, podría sentar un precedente respecto a
la forma en que se obtiene el conocimiento que alimenta las reglas de autoverificación de resultados.
3 Desarrollo de la solución
En este capítulo se aborda cada una de las fases de la metodología CRISP-DM, comenzando con la comprensión
del negocio para luego continuar con la compresión, preparación y modelado de los datos, para finalizar en el
siguiente capítulo con la evaluación de los resultados y el modelo de minería de datos.
3.1 Comprensión del negocio
Exámenes de Laboratorio S.A. (ELSA) es parte de la red de laboratorios clínicos de Bupa Chile, los cuales
operan bajo un modelo operacional con procesos de negocio con alto grado de estandarización e integrados a
través de dos sistemas de información: “SAP R/3”, para la gestión integral de los procesos administrativos de
la organización; y “DNLAB”, para la gestión integral de los procesos de todos los laboratorios clínicos. La
representación gráfica del sistema de información de Laboratorio ELSA y el organigrama con la estructura
organización están disponibles en los anexos A y B, respectivamente.
Actualmente presta servicios a más de 35 centros médicos ambulatorios de Bupa Chile ubicados a lo largo de
todo el territorio nacional: 27 de ellos dentro de la Región Metropolitana y 8 repartidos entre las provincias de
Copiapó, La Serena, Ovalle, Viña del Mar, Rancagua, Talca, Talcahuano y Concepción. Asimismo, es el
principal centro de derivación de la red de laboratorios, y recibe diariamente más del 20% de las muestras
biológicas de Clínica San José de Arica, Clinica Bupa Antofagasta y Clínica Reñaca; contribuyendo a la
economía de escala de la organización a través de la centralización de la producción de exámenes de alto costo
y complejidad.
Ahora bien, lo mencionado anteriormente no quiere suponer que la gestión de los procesos del laboratorio sea
una tarea fácil. Por ello, cabe señalar que ELSA concentra gran parte de sus esfuerzos en asegurar la calidad de
su actividad y, mediante la aplicación de un sistema de mejora continua basado en la norma NCh 2547- 2003
(ISO 15189-2002) [22], ha conseguido ser el primer laboratorio clínico del país en recibir la acreditación de la
“Superintendencia de Salud” con el 100% de cumplimiento en función del “Estándar General de Acreditación
de Prestadores Institucionales de Laboratorios Clínicos”.
8
–––
Por consiguiente, el objetivo principal que se ha planteado consiste en responder eficientemente a los nuevos
desafíos que deriven de la expansión de la compañía, manteniendo los estándares de calidad, e incluso si esto
significa abrirse al uso de nuevas herramientas que hoy no han sido consideradas dentro de los procesos de
mejora continua.
Situación Actual
A partir del año 2018, Bupa Chile inicia la expansión y diversificación de los servicios de Laboratorio ELSA
brindándole, en primer lugar, la posibilidad de controlar el 100% de la operación del nuevo laboratorio de
Clínica Bupa Santiago; que por cierto, dicho sea de paso, sería la primera vez desde su apertura en 1994 que el
equipo de trabajo enfrenta el desafío de administrar un laboratorio externo y de la complejidad que supone un
centro de atención con unidades de atención abierta, cerrada y de urgencia. De todas maneras, es importante
señalar que, desde su apertura en junio de 2018, ELSA ha respondido eficientemente a los requerimientos de
Clínica Bupa Santiago, sin embargo, esto no significa que el proceso ha estado exento de dificultades. A modo
de ejemplo, es posible advertir que a la fecha no se ha cumplido en un 100% con el tiempo entrega de resultados
comprometido con los servicios de Clínica Bupa Santiago, de manera que todavía existen desafíos por enfrentar,
y es aquí donde este trabajo buscará aportar con información que permita a la organización optimizar aquellos
procesos que aún faltan por madurar.
A modo de ejemplo, se presentan en la Tabla 2 las metas que ELSA ha definido para cada uno de sus procesos
de negocio, con la finalidad asegurar que los resultados de los exámenes estén disponibles para médicos y
pacientes dentro de los plazos exigidos por Clínica Bupa Santiago.
Tabla 2. Tiempos objetivos de duración de cada proceso de laboratorio. Fuente: Elaboración propia.
Subproceso Tiempo
Proceso
Desde Hasta objetivo
Preanalítico Toma de muestra biológica. Recepción de muestra en laboratorio. 10 min.
Analítico Recepción de muestra en laboratorio. Término del proceso de análisis. 20 min.
Post-analítico Término del proceso de análisis. Verificación de los resultados. 10 min.
Tiempo estimado para la entrega de resultados 40 min.
Metas para el modelo de minería de datos
Para los primeros meses de operación en Clínica Bupa Santiago, ELSA consideró aplicar las mismas reglas de
autoverificación que hoy son utilizadas por el laboratorio central. Luego, se evaluaría si ellas eran tan efectivas
autoverificando resultados de ámbitos “hospitalizados”, “unidad de paciente crítico” y “urgencia” como lo son
con aquellos del ámbito “ambulatorio”. En este contexto, el primer objetivo de la minería de datos será describir,
a partir de los datos disponibles en el sistema informático del Laboratorio, si existen resultados de exámenes
que no han sido autoverificados o, dicho de otra manera, que no fueron pesquisados por las reglas actuales y
por tanto tuvieron que ser verificados manualmente por un profesional de laboratorio clínico.
Definición de criterios y alcances de la minería de datos
En primer lugar, se define que las reglas que se propone mejorar son las de “plausibilidad”, correspondientes a
aquellas que evalúan los resultados de dos o más exámenes asociados. Se descartan del proceso las reglas de
“Patología y Aceptabilidad” y de “Deltacheck”, ya que existe suficiente conocimiento disponible y el
Laboratorio ya cuenta con las herramientas para su gestión.
9
Asociación de exámenes frecuentes y agrupamiento de resultados
Antes de interpretar un resultado de examen se debe tener en cuenta que su medición puede ser afectada por
distintas fuentes de variación, entre ellas el coeficiente de variación biológico (CVB) y analítico (CVA). Ahora
bien, para establecer si la variación de dos resultados seriados representan un cambio real en el estado de salud
de un paciente [23], es necesario tomar en cuenta que existe un rango de variación permitida, el cual es calculado
con el “Reference Change Value” o “RCV” del examen. Por ejemplo, si se tuviese que interpretar el resultado
del examen de glucosa “129”, con RCV de “16.65%”, se podría determinar que solo se consideraría que hubo
un cambio real en el estado de salud del paciente si el resultado anterior del mismo estuvo fuera del rango de
variación permitido (108 - 150). Se presenta en la Tabla 3, la información que se debería considerar al momento
de evaluar el resultado de una glucosa 129 respecto de un valor anterior de 145.
Tabla 3. Interpretación de dos resultados de exámenes seriados. Fuente: Elaboración Propia.
Principales fuentes de variación Glucosa
Rango de Rango de
RCV Valor por Variación
# Resultado CVA CVB Referencia Variación
Z (P<0,05) interpretar Permitida
Min Max Min Max
Actual 1.9 6.3 16.65% 129 +/- 21 82 110 108 150
Previo 1.9 6.3 16.65% 145
Aun así, si se lleva esto a las reglas de autoverificación, se podría suponer que un valor glucosa de 129 no sería
autoverificado, ya que una regla de tipo “Patología y Aceptabilidad” determinaría que está fuera del rango de
referencia del examen (82 – 110). No obstante, en una segunda instancia, una regla de “Deltacheck” invertiría
esta decisión y autoverificaría el resultado, considerando que existe una variación “normal” ya que el resultado
anterior está dentro del rango de variación permitido (108 – 150). Por tal motivo, y para agregar un tercer paso
de control al proceso de autoverificación, es necesario que además de interpretar los exámenes por sí mismos,
se puedan correlacionar con otros exámenes asociados, teniendo en cuenta que la variación de dos o más
resultados de exámenes asociados, sí puede ser concluyente en la determinación de un cambio en el estado de
salud de un paciente determinado.
Plan de trabajo
El plan de trabajo considera el uso de la metodología CRISP-DM,

por tanto, se desarrollarán dentro de la investigación cada una de las
fases propuestas por el modelo.
Comprensión Comprensión de
del negocio los datos
Los motivos que llevan a elegir CRISP-DM y no otra metodología:
 Proporciona un ciclo de vida flexible que se puede adaptar a Preparación de
cualquier tipo de investigación. Véase Figura 2. los datos
 Permite aplicar y comprender de mejor manera a la minería de

Implementación
datos y sus resultados basándose en un proceso jerárquico con
Modelado
tareas claramente definidas.
 Es un estándar abierto que entrega independencia en el uso de
herramientas de minería de datos y es transversal a cualquier tipo
de industria.
 Permite dar cumplimiento a los objetivos desde el punto de vista Evaluación
empresarial, dando preferencia a la comprensión del negocio.

 Permite desarrollar proyectos de minería de datos mediante un
proceso estandarizado.
 Minimiza los costos que implicaría el llevar a cabo un
Figura 2. Ciclo de vida de un proyecto CRISP-DM.
proyecto de minería de datos en las empresas.
10
–––
Por tanto, se considera que, a través del uso de la metodología CRISP-DM, sumado a la aplicación de algoritmos
de asociación y agrupamiento, será posible determinar si existen exámenes que aún no se han relacionado entre
sí (asociación), para luego evaluar si los “clusters” de resultados que se identifiquen en ellos (agrupamiento)
poseen algún patrón común de comportamiento (asociación) para, finalmente, mejorar las reglas de
autoverificación mediante la incorporación de esta lógica.
3.2 Comprensión de los datos
Se realiza una revisión de los datos disponibles en el sistema informático, no solo priorizando aquellos que son
relevantes para el estudio, sino también, elaborando un repositorio de datos que permita y facilite el análisis de
la información.
Recopilación inicial de datos
Para comprender los datos disponibles en el LIS se realizó un levantamiento de la estructura de la base de datos
encontrando un modelo complejo y difícil de tratar, propio del diseño del sistema informático realizado por el
fabricante. Por tanto, se definió, junto al Laboratorio, el requerimiento de información que permitirá realizar el
análisis de datos; en base a esto se diseñó el modelo de almacén de datos que se describe en la Tabla 4.
Tabla 4. Requerimiento de información para análisis de datos
Almacén de datos
Proceso Grano de representación Dimensiones Información
Resultados Resultados por ámbito de atención, por Examen, Ámbito, Paciente, Resultados de
de examen, por sexo y edad de paciente, Unidad organizativa, exámenes
laboratorio por fecha, por laboratorio de origen. Usuario verificación.
Finalmente, un almacén de datos es generado como una vista de base de datos dentro del mismo motor que
aloja los sistemas informáticos de Laboratorio. El nombre de la vista es “bupa_mti_resultados” y el diagrama
relacional y las tablas que la componen están disponibles en el anexo C.
Descripción de los datos
La Tabla 5 muestra, a modo de ejemplo, la descripción de uno de los 21 campos disponibles para análisis en el
almacén “bupa_mti_resultados”; el detalle general de estos está disponible el anexo D.
Tabla 5. Descripción de los datos del almacén “bupa_mti_resultados”. Fuente: Elaboración propia.
Nombre de campo Descripción del Tipo de
Tipo de dato Codificación
Descriptivo Técnico campo variable
Nombre del Identificación Cualitativa 50
nombre_examen Alfanumérico
examen descriptiva del examen. nominal caracteres.
Exploración de los datos
En esta sección se presenta, a modo de ejemplo, el detalle de la exploración realizada sobre el campo “Tipo de
Examen”. El detalle completo está disponible en el anexo E.
 Tipos de Examen: dentro de los datos existentes en el almacén se puede encontrar el campo tipo_examen,
que según la exploración realizada puede tomar dos valores, los cuales están descritos en la Tabla 6.
11
Tabla 6. Tipos de examen. Fuente: Elaboración propia.

Valor Descripción Ocurrencias Porcentaje
Examen Padre Simple, posee solo un id_examen, es decir, un registro
0 de resultado. 16.694 53.9%
Examen Padre Múltiple, posee más de un id_examen, es decir, más

1 14.266 46.1%
de un registro de resultado.
Total 30.960 100.0%
Verificación de la calidad de los datos
En esta sección se examinan los datos y se evalúa su completitud, por ejemplo, si existen valores nulos, o bien
si contienen errores y su frecuencia. Finalmente, se presentan los errores detectados y una propuesta de solución
para cada uno de ellos.
 Problema 1
─ Tipo: resultados no numéricos en exámenes cuyo tipo de resultado es numérico. De un total de 14.272
registros de resultado de tipo numérico se encontraron 699 que contenían valores no numéricos, por tanto,
deberán ser filtrados del conjunto de datos ya que estos, de ser considerados, generarán un error al procesar
los datos en los algoritmos de asociación. El detalle está disponible en el anexo F.
─ Solución: las filas serán excluidas del conjunto de datos a través de un filtro que contiene la siguiente
expresión regular “[+-]?([0-9]*[.])?[0-9]+”.
 Problema 2
─ Definición: examen sin tipo de resultado definido. De un total de 15.708 registros de resultados de
exámenes cuyo tipo de examen es simple, solicitable, se encontraron 211 registros nulos, es decir, que su
resultado no posee una categoría definida y parametrizada dentro del sistema informático.
─ Solución: todos los registros de exámenes sin tipo de resultados serán eliminados del conjunto de datos a
través de un filtro “no_missing_attributes” disponible en RapidMiner.
3.3 Preparación de los datos
Selección de los datos
Del almacén de datos se selecciona un conjunto de campos los cuales se han definido, junto con el equipo de
laboratorio, como mínimos para poder ejecutar procesos de asociación y agrupamiento. Así también estos
campos son utilizados en la interpretación de los resultados que se desprendan de procesos donde se apliquen
estos algoritmos. La Tabla 7 representa, a modo de ejemplo, 1 de los 14 campos que fueron seleccionados y el
motivo de su inclusión. El detalle completo de campos está disponible en el anexo G.
Tabla 7. Campo seleccionado de “bupa_mti_resultados”. Fuente: Elaboración propia.
Nombre campo
Motivo Inclusión / Exclusión
Descriptivo Técnico
Tipo de Utilizado para filtrar aquellos registros de resultados de exámenes cuyo tipo
tipo_examen
examen de examen sea “simple”, es decir, que posee 1 componente o 1 resultado.
Limpieza de los datos
El conjunto inicial de datos posee 32.951 registros, correspondientes a todos los registros de resultados cuya
solicitud de exámenes provino de unidades organizativas de Clínica Bupa Santiago. De estos se excluyen los
siguientes, en el mismo orden de presentación:
12
–––
 Fecha de resultado: fueron excluidos del conjunto de datos 1.991 registros cuya fecha de resultado
era inferior a la fecha de apertura del laboratorio de Clínica Bupa Santiago, el 11 de junio de 2018 09:00:00
hrs, o mayor a la fecha de corte que se definió junto a laboratorio, el 15 de octubre de 2018 06:00:00 hrs.
Una vez finalizada la limpieza, la cantidad de registros del conjunto de datos se redujo a 30.960.
 Tipo de examen: fueron excluidos del conjunto de datos 14.266 registros de resultado cuyo tipo de
examen padre es “múltiple”, lo que equivale al 46.1% del total de registros que pasaron el filtro anterior.
Los exámenes múltiples son los que se presentan con menor frecuencia en comparación con el tipo de
examen simple, que posee 16.694 ocurrencias dentro de un total de 30.906 exámenes padre, lo que equivale
al 53.9% del total. Adicionalmente, cabe mencionar que el tratamiento de los exámenes simples es menos
complejo pues su estructura de un resultado. Una vez finalizada la limpieza, la cantidad de registros del
conjunto de datos se redujo a 16.694.
 Examen solicitable: fueron excluidos del conjunto de datos 986 registros de exámenes padre cuyo
tipo solicitable es “NO”, lo que equivale al 5.9% del total de exámenes simples que pasaron el filtro anterior,
dado que son los que se presentan con menor frecuencia en comparación con los exámenes tipo solicitable
“SI”, que posee 15.708 ocurrencias dentro de un total de 16.694, lo que equivale al 94.1% del total de
exámenes padres. Una vez finalizada la limpieza, la cantidad de registros del conjunto de datos se redujo a
15.708.
 Tipo de resultado: fueron excluidos del conjunto de datos 1.436 registros de resultados cuyo tipo de
resultado es “Sigla”, “Árbol Decisional” o “Nulo”, los que sumados equivalen al 9.1% del total de registros
de exámenes simples y solicitables que pasaron el filtro anterior, dado que son los que se presentan con
menor frecuencia en comparación con los exámenes cuyo tipo resultado es “Numérico”, que posee 14.272
ocurrencias dentro de un total de 15.708, lo que equivale al 90.9% del total de registros. Una vez finalizada
la limpieza, la cantidad de registros del conjunto de datos se redujo a 14.272.
 Tipo de valor de referencia: fueron excluidos del conjunto de datos 6.454 registros de resultados
cuyo tipo de valor de referencia es “por sexo”, “por edad”, “por sexo y edad”, “por sexo y semana de
embarazo” o “Nulo”, los que sumados equivalen al 45.1% del total de registros de exámenes simples,
solicitables y con tipo de resultado numérico que pasaron el filtro anterior, dado que son los que se presentan
con menor frecuencia en comparación con los exámenes cuyo tipo de valor de referencia es “constante”,
que posee 7.821 ocurrencias dentro de un total de 14.272, lo que equivale al 54.9% del total de registros.
Una vez finalizada la limpieza, la cantidad de registros del conjunto de datos se redujo a 7.821, equivalente
al 23.7% del total de registros del conjunto inicial de datos.
Construcción de los datos
Para la construcción del conjunto final datos se considera que el Laboratorio necesita optimizar las reglas de
autoverificación de “plausibilidad”, es decir, aquellas que comparan los valores de exámenes relacionados. Por
lo tanto, el proceso de construcción de datos en primer lugar buscará conjuntos de exámenes frecuentes y luego,
generará los grupos de resultados para cada uno de los exámenes que estén dentro de una asociación.
3.3.3.1 Primera tarea: Asociación de exámenes frecuentes
El objetivo de esta tarea es conocer cuáles son los exámenes que se presentan con mayor frecuencia dentro de
una misma solicitud. Como entrada se utiliza el conjunto inicial de datos y como salida se provee uno que
servirá de entrada para la siguiente tarea de construcción.
El algoritmo escogido para este proceso es FP-Growth, ya que, luego de probar otras opciones como Apriori o
Eclat, es el que provee mayor eficiencia al relacionar variables del tipo nominal (nombre de exámenes) y mayor
eficiencia computacional al trabajar niveles de soporte inferiores al 20%. La configuración del algoritmo se
13
estableció con un mínimo de soporte del 10%, un máximo de 5 itemsets y un límite de 2 items (exámenes) para
cada uno de ellos, de manera tal que este trabajo inicial permita evaluar las técnicas de minería de datos con
reglas simples y, posteriormente, dependiendo de los resultados obtenidos, evaluar si se amplía la complejidad
de las asociaciones en un próximo trabajo.
En primer lugar se evaluó la asociación de exámenes frecuentes para cada uno de los ámbitos de atención, y
como resultado se obtuvo que en todos ellos los exámenes que predominan en la lista de asociaciones
corresponden a POTASIO (0303032B) y el SODIO (0302032C). La Tabla 8 presenta el detalle de las
asociaciones que obtuvieron el mayor nivel de soporte dentro de cada uno de los ámbitos.
Tabla 8. Exámenes frecuentes con mayor soporte, por ámbito. Fuente: Elaboración propia.
Asociación de exámenes por ámbito
Tamaño del Nivel de
Ámbito Ítem 1 Ítem 2
itemset Soporte
2 38.5% Ambulatorio E_0302032B_POTASIO E_0302032C_SODIO
2 59.8% Hospitalizados E_0302032B_POTASIO E_0302032C_SODIO
2 63.6% UPCS E_0302032B_POTASIO E_0302032C_SODIO
2 40.5% Urgencia E_0302032C_SODIO E_0302032B_POTASIO
Luego, se determina junto con el equipo de Laboratorio que es conveniente aumentar la cantidad de
asociaciones, ya que una no sería significativa para validar la hipótesis. Por lo tanto, se ejecuta una segunda
iteración modificando el valor del parámetro “número máximo de asociaciones” desde 5 a 100, y el parámetro
“Factor de disminución de requisitos” desde 1 a 0 para obtener incluso aquellas que están bajo el 10% de soporte
requerido. Finalmente, se obtienen más de 100 asociaciones de las cuales se eligen dos: la primera, compuesta
por el examen TSH (303024) y T4 LIBRE (303026) y en el segundo lugar de la lista, con un valor para todos
los ámbitos del 26.3% de soporte, debido a que existe conocimiento disponible que permitiría comparar los
resultados del modelo y validar la hipótesis; y la segunda, compuesta por el examen VITAMINA B12 (302077)
y 25 OH VITAMINA D (302078) en el último lugar de la lista y con un valor para todos los ámbitos del 1.3%
de soporte, debido a que no existe conocimiento disponible y permitiría evaluar si existe nuevo conocimiento
clínicamente significativo para la asociación de los resultados de ambos exámenes.
3.3.3.2 Segunda tarea: Agrupamiento de resultados
El objetivo de esta tarea es generar los “n” grupos de resultados para cada uno de los exámenes que contiene el
conjunto de datos de salida del proceso de asociación de exámenes frecuentes. Para ello, se utiliza el algoritmo
“K-means”, ya que, de acuerdo con literatura disponible, es en la actualidad el más utilizado tanto en la industria
como en investigaciones científicas, gracias a la eficiencia y bajo consumo de recursos computacionales que
necesita para procesar grandes cantidades de datos. Del mismo modo, y aunque presente mayor sensibilidad al
ruido respecto de “K-medoids”, es preciso mencionar que un examen puede tener resultados extremos (outliers)
que no deben ser descartados del proceso de agrupamiento.
La configuración del algoritmo se estableció con la opción de incorporar la columna “cluster” al conjunto de
datos de salida, la que permitirá identificar explícitamente el nombre del cluster al que pertenece el resultado.
Asimismo, se define el tipo de dato a procesar como “numérico” y la métrica de distancia como “Euclidiana”,
ya que, aunque el resultado sea similar a las otras opciones evaluadas (“Chebyshev”, “Euclidiana”, “Manhattan”
y “Camberra”), dentro la literatura disponible existe más evidencia respecto del uso y eficiencia que la métrica
“Euclidiana” proporciona para el procesamiento de datos numéricos.
Finalmente, se define junto a Laboratorio que el valor del parámetro “k” (número de “clusters”) no puede ser
fijo y se debe ajustar hasta que el rango de resultados de al menos un “cluster” esté dentro del rango de
referencia del examen. Por ejemplo, si se ejecuta el algoritmo con un valor “k” igual a dos para el examen
“Potasio” y se obtienen dos “clusters”: el primero con valores entre 2.40 y 4.24, y el segundo con valores entre
14
–––
4.26 y 7.60, ambos fuera del rango de referencia con valores entre 3.5 y 5.0, se deberá aumentar el valor de “k”
hasta que se cumpla la condición establecida por Laboratorio. De acuerdo con esta definición, para el
agrupamiento de los resultados del examen Potasio se llegó a un valor k=3, para Sodio un k=3, para TSH un
k=8, para T4 Libre un k=5, para Vitamina B12 un k=3 y, por último, para Vitamina D un k=3; sin encontrar un
único k que integre el clustering de todos los exámenes.
Como salida se obtendrá un conjunto de datos para cada examen cuya estructura estará compuesta por las
columnas claves “Solicitud”, “Cluster” y “Nombre Examen”. A modo de ejemplo, se presenta en la Tabla 9 los
dos primeros registros del conjunto de datos de salida para el examen Potasio.
Tabla 9. Extracto de cluster de resultados generado para examen Potasio. Fuente: Elaboración propia.
Solicitud Cluster Potasio
24971035 cluster_2 2.4
24961979 cluster_2 2.6
Finalmente, se elabora un último conjunto de datos para cada examen con información complementaria que
contiene los valores de referencia utilizados como base para definir la cantidad de “clusters” de cada examen.
A modo de ejemplo, se presenta en la Tabla 10 el detalle de los “clusters” generados para el examen Potasio.
Adicionalmente, se incorpora la comuna “Dentro del VR” que identifica el “cluster” de resultados que está del
rango de valores de referencia. El detalle de los “clusters” está disponible en el anexo H.
Tabla 10. Clusters de resultados del examen Potasio (k = 3). Fuente: Elaboración propia.
Nombre Cantidad de Porcentaje Centroide Valor Valor VR VR Unidad Dentro
Clúster Resultados del Total del clúster inicial final Min Max Medida del VR
Clúster 0 778 54.4% 4.33 3.96 4.85 3.5 5.0 SI
Clúster 1 524 36.7% 5.38 4.90 7.60 3.5 5.0 mEq/L NO
Clúster 2 127 8.9% 3.59 2.40 3.95 3.5 5.0 NO
Totales 1429 100%
Formateo de los datos
El objetivo de esta tarea es modificar la estructura de los 6 conjuntos de salida obtenidos de la tarea de
construcción “Agrupamiento de resultados”, y proveer como salida la misma cantidad de conjuntos, pero con
un formato distinto que facilite y permita la unión de los conjuntos de datos de los exámenes relacionados.
Para la restructuración de los conjuntos de datos se utilizan distintos operadores disponibles en la herramienta
RapidMiner, tales como: selección de campos (solicitud y cluster), función de agregación “count” sobre el
campo cluster, renombre de campo count(cluster), definición de rol para campo solicitud como ID y
transposición de columnas (“pivot”). Finalmente, se modifica el tipo de dato obtenido por la función “count”
desde numérico a binominal, de tal manera que las ocurrencias con valor “1” asuman el valor “true”, y las no
ocurrencias con valor “0” tomen el valor “false”.
Como resultado se obtiene el conjunto de datos final cuya estructura se compone de la columna principal
“Solicitud”, seguido de las columnas que identifican a cada “cluster” del examen. A modo de ejemplo, se
presentan en la Tabla 11 los dos primeros registros del conjunto de datos generado para el examen Potasio.
Tabla 11. Estructura de nuevo conjunto de datos generado para examen Potasio. Fuente: Elaboración propia.
Solicitud Cluster 0 Cluster 1 Cluster 2
24736862 true false false
24755484 false true false
15
Integración de datos
El objetivo de esta tarea es integrar los 6 conjuntos de salida obtenidos de la tarea de formateo de datos, y
proveer como salida 3 nuevos conjuntos, uno por cada asociación de examen, que en definitiva permitirá
representar cuándo un “examen A – cluster X” está presente en una misma solicitud de exámenes con el
“examen B – cluster Y”.
Antes de avanzar en la integración de los conjuntos los datos es necesario renombrar los campos con nombres
genéricos para que, una vez unidos, se puedan diferenciar entre sí. Una vez concluida esta actividad, ya es
posible realizar la unión de los conjuntos de datos.
A modo de ejemplo, se presenta en la Tabla 12 los nombres que tomaron los “clusters” de los conjuntos de
datos potasio y sodio. El detalle completo de todas las uniones está disponible en el anexo I.
Tabla 12. Elaboración del conjunto final de datos para potasio y sodio. Fuente: Elaboración propia.
Conjunto de datos de entrada
Conjunto final de
Campos MTI_CLUSTER_POTASIO MTI_CLUSTER_SODIO
datos
Nombre de campo Nuevo nombre de campo
Clúster 0 K_Grupo1 NA_Grupo1
Clúster 1 K_Grupo2 NA_Grupo2 MTI_FP_K+NA
La estructura de cada conjunto final quedó compuesta por la columna “solicitud” como valor clave, seguida de
las columnas que identificarán a cada “cluster” de examen con su nuevo nombre de campo. A modo de ejemplo,
la Tabla 13 representa los tres primeros registros del conjunto “MTI_FP_K+NA”.
Tabla 13. Estructura de datos para relacionar resultados de Potasio y Sodio. Fuente: Elaboración propia.
Solicitud K_Grupo1 K_Grupo2 K_Grupo3 NA_Grupo1 NA_Grupo2 NA_Grupo3
24736862 true false false true false false
24755484 false true false true false false
24760845 false true false false true false
3.4 Modelado
Técnica de modelado
La técnica de modelado final utilizada para asociar los resultados de exámenes se basa en el algoritmo FP-
Growth, considerado el más adecuado, ya que, luego de probar otras opciones como Apriori o Eclat, es el que
provee mayor eficiencia al relacionar variables del tipo nominal (nombre de cluster de resultados) y mayor
eficiencia computacional al trabajar niveles de soporte inferiores al 20%.
Diseño de prueba
El diseño inicial del modelo considera como datos de entrada los 3 conjuntos de salida generados en el proceso
de integración, y su contenido es enviado directamente al algoritmo de asociación FP-Growth para
procesamiento y evaluación. Junto con esto, y para seleccionar la mejor configuración del algoritmo, se
probaron las distintas opciones disponibles en cada parámetro, como, por ejemplo: “Formato de entrada” (lista
de itemes en una columna, en columnas separadas o columnas autogeneradas), “Requerimiento mínimo”
(soporte y frecuencia), “número mínimo y máximo de ítems” y “Factor de disminución de requisitos”.
16
–––
Finalmente, como salida se obtiene el “FrequentItemesets”, conjunto de datos que contiene el detalle de las
asociaciones, y un “ExampleSet”, el resumen de los itemes frecuentes y el respectivo soporte para cada uno de
ellos que permite interpretar de mejor manera los resultados del modelo.
Construcción del modelo
En esta sección se lleva a cabo la construcción y configuración del modelo final, que tiene por objetivo
identificar el porcentaje de probabilidad que existe para que un “cluster A” de un “examen X” esté presente en
una solicitud de exámenes junto con un “cluster B” de un “examen Y”.
Se presenta en la Tabla 14 la configuración final del algoritmo, establecida luego de haber evaluado distintas
opciones en el diseño de pruebas.
Tabla 14. Configuración del modelo final, algoritmo “FP-Growth”. Fuente: Elaboración Propia.
Parámetro Valor Comentarios
Frecuencia relativa mínima de la asociación, respecto
Soporte mínimo 10%
del total de asociaciones.
Número mínimo de itemes 2 Solo se buscan asociaciones de dos exámenes.
Número máximo de itemes 2 Solo se buscan asociaciones de dos exámenes.
Número mínimo de conjunto de itemes 5 5 asociaciones, definido por Laboratorio.
Número máximo de conjunto de
Sin límite Todas las asociaciones con 10% o más de soporte.
itemes.
Número máximo de intentos 15 Valor óptimo para la ejecución del algoritmo.
1 = Soporte mínimo | < 1 = Baja el punto de corte del
Factor de disminución de requisitos 1
soporte para llegar a la cantidad mínima de itemes.
4 Evaluación del modelo y resultados
En esta sección se detalla el proceso de evaluación del modelo y resultados que constan de dos iteraciones
donde, junto a un comité de expertos del Laboratorio ELSA, se revisa el conjunto de datos de salida del modelo
y se establecen conclusiones respecto al aporte que estos podrían generar en el mejoramiento de reglas de
autoverificación.
4.1 Primera iteración
Antes de comenzar con la revisión inicial, cabe señalar que el conjunto de datos de salida del modelo no contiene
la información necesaria para que los profesionales del Laboratorio puedan interpretar fácilmente las
asociaciones. En este contexto, antes de comenzar la evaluación se elabora, junto a los expertos, un nuevo
conjunto de datos que simplifique la comprensión de los resultados del modelo.
En primera instancia se etiquetan los “clusters” según la posición del rango de valores de resultados que estos
contengan, respecto al rango de referencia de cada examen. Si está dentro, se considera “normal”; si está por
debajo, se considera “bajo”. En segunda instancia, y solo para aquellos exámenes que posean más de un cluster
“bajo” o “alto”, se añade a la etiqueta un sufijo numérico e incremental, comenzando el primer cluster con el
valor “1” y aumentando sucesivamente de 1 en 1 hasta el último cluster que exista. En el caso de aquellos
exámenes que posean solo un cluster con etiqueta “bajo” o “alto”, se prescindirá del sufijo. El detalle del
proceso de clasificación está disponible en el anexo J.
Finalmente, se define la estructura del conjunto de datos y, a modo de representación, se presenta en la Tabla
15 una asociación de “clusters” entre los exámenes Potasio y Sodio. Los conjuntos de datos para cada una de
las asociaciones están disponibles en el anexo K.
17
Tabla 15. Estructura de conjunto de datos para evaluación de modelo y resultados. Fuente: Elaboración propia.
Tabla para la evaluación del modelo y sus resultados para examen potasio y sodio.
Nivel Examen Potasio Examen Sodio
de VR VR VR VR
Ítem 1 Min Max Ref. Ítem 2 Min Max Ref.
Soporte Min Max Min Max
35.5% K_Grupo1 3.96 4.85 normal 3.5 5.0 NA_Grupo1 137.3 143.7 normal 135.0 145.0
El conjunto de datos está conformado por una columna principal llamada “Nivel de Soporte”, que es transversal
a la asociación, seguida de 12 columnas, 6 por cada examen, cuyos significados son:
 Ítem (n): Identificación del cluster dentro de la asociación.
 Min – Max: Límite inferior y superior de los valores de resultados que contiene el cluster.
 Etiqueta: Clasificación otorgada por el Laboratorio al rango de valores de resultados cada cluster.
 VR Min - VR Max: Límite inferior y superior del rango de referencia de cada examen.
Primera Iteración | Asociación potasio y sodio
Respecto del modelo se puede concluir que los resultados no están conforme a lo esperado, es decir, que el
conjunto de datos contiene solo 3 asociaciones sobre el 10% de soporte, siendo que el mínimo establecido en
la configuración del algoritmo fue de 5 asociaciones. Por lo tanto, y con el fin de ampliar los valores de corte,
se modifica el valor del parámetro “Factor de disminución de requisitos” desde 1 a 0.8, valor que sí permite
obtener las 5 asociaciones esperadas, independiente de si consiguen o no el mínimo de 10% de soporte
requerido. Finalmente, cabe señalar que las 5 asociaciones del conjunto representan un 87.2% de los eventos
presentes, por lo tanto, existe un 12.8% que no son considerados dentro de esta primera iteración. Ahora bien,
al revisar los resultados es posible concluir que solo 1 de las 5 asociaciones es clínicamente significativa, que
por si equivale al 35.5% de los eventos presentes. Para las 4 asociaciones restantes, no se identifica un patrón
de comportamiento que permita establecer una correlación clara entre los resultados. En definitiva, solo es
posible establecer una conclusión cuya descripción se presenta en la Tabla 16.
Tabla 16. Conclusiones de primera iteración para sodio y potasio. Fuente: Elaboración Propia.
# Declaración Soporte Conclusión Etiqueta

SI, resultado.Potasio es >= 3.96 Y <= 4.85 “normal”
1 Con un 35.5%
Entonces, resultado.Sodio es >= 137.7 Y <= 143.7 “normal”
2 Con el restante 51.7% No es posible establecer conclusiones clínicamente significativas.
De todas maneras, es importante señalar que estos resultados confirman lo que ya se sabe y son concordantes
con el conocimiento disponible, siendo un aporte a la validación de la metodología y el uso de técnicas de
minería de datos en el análisis del comportamiento de resultados de exámenes de laboratorio clínico.
Primera Iteración | Asociación TSH – T4L
conjunto de datos solo contiene 3 asociaciones sobre el 10% de soporte, siendo que el mínimo establecido en
la configuración del algoritmo fue de 5 asociaciones. Por lo tanto, y con el fin de ampliar los valores de corte,
llegar a cantidad de 5 ítems frecuentes esperados, independiente de si consiguen o no el mínimo de 10% de
soporte requerido. Finalmente, cabe señalar que las 5 asociaciones del conjunto representan un 80.4% de los
eventos presentes, por lo tanto, existe un 19.6% que no son considerados dentro de esta primera iteración. Ahora
bien, al revisar los resultados se puede concluir que solo 3 de las 5 asociaciones son clínicamente significativas,
de las cuales 2 presentan el mismo comportamiento representando a un 43.8% de los eventos, y la última, que
18
–––
equivale por si misma al 20.1% de los eventos presentes. Para las 2 asociaciones restantes, no se identifica un
patrón de comportamiento que permita establecer una correlación clara entre los resultados. En definitiva, solo
es posible establecer dos conclusiones cuyas descripciones se presentan en la Tabla 17.
Tabla 17. Conclusiones de primera iteración para TSH y T4L. Fuente: Elaboración Propia.

SI, resultado.TSH es >= 0.00 Y <= 1.95 “bajo”
1 Con un 43.8%
Entonces, resultado.T4L es >= 1.25 Y <= 1.88 “normal”
SI, resultado.TSH es >= 1.96 Y <= 3.98 “normal”
2 Con un 20.1%
Entonces, resultado.T4L es >= 1.02 Y <= 1.24 “normal”
3 Con el restante 16.5% No es posible establecer conclusiones clínicamente significativas
De todas maneras, es importante señalar que solo la segunda asociación confirma lo que ya se sabe y es
concordante con el conocimiento disponible. La primera asociación, por el contrario, corresponde a nuevo
conocimiento dado que no existe literatura disponible que refleje la asociación de estos clusters de resultados
en estos dos exámenes.
Primera Iteración | Asociación Vitamina B12 – Vitamina D
conjunto de datos solo contiene 4 itemes frecuentes sobre el 10% de soporte, siendo que el mínimo establecido
en la configuración del algoritmo fue de 5 asociaciones. Por lo tanto, y con el fin de ampliar los valores de corte,
llegar a cantidad de 5 itemes frecuentes esperados, independiente de si consiguen o no el mínimo de 10% de
soporte requerido. Finalmente, cabe señalar que las 5 asociaciones del conjunto representan un 83% de los
eventos presentes, por lo tanto, existe un 17% que no son considerados dentro de esta primera iteración. Ahora
bien, al revisar los resultados se puede concluir que 3 de las 5 asociaciones son clínicamente significativas, de
ellas 2 presentan una relación inversamente proporcional representando un 43.8% de los eventos presentes y.
la última, que equivale al 6.8% de los eventos presentes. Para las 2 asociaciones restantes, no se identifica un
patrón de comportamiento que permita establecer una correlación clara entre los resultados. En definitiva, solo
es posible establecer tres conclusiones cuya descripción se presenta en la Tabla 18.
Tabla 18. Conclusiones de primera iteración para VB12 y VD. Fuente: Elaboración Propia.

SI resultado.VB12 es >= 594 Y <= 1000 “alto”
1 Con un 27.1%
Entonces, resultado.VD es >= 4.2 Y <= 10.8 “bajo”
SI resultado.VB12 es >= 150 Y <= 311 “bajo”
2 Con un 10.2%
Entonces, resultado.VD es >= 19.9 Y <= 29.1 “alto”
SI resultado.VB12 es >= 320 Y <= 533 “normal”
3 Con un 6.8%
Entonces, resultado.VD es >= 12.0 Y <= 19.2 “normal”
4 Con el restante 38.9% No es posible establecer conclusiones clínicamente significativas
De todas maneras, es importante señalar que las tres asociaciones corresponden a nuevo conocimiento y se
convierte en un aporte a la validación de la metodología y el uso de técnicas de minería de datos en el análisis
del comportamiento de resultados de exámenes de laboratorio clínico.
19
4.2 Segunda iteración
Segunda Iteración | Asociación Potasio - Sodio
Se puede identificar que con la configuración actual de algoritmo no se visualiza una relación para el cluster
“K_Grupo2” del potasio, que presenta los valores más elevados (“alto”), mientras que para el sodio existen
ocurrencias para los tres “clusters” disponibles en el conjunto de datos. Por lo tanto, y con el objetivo de
analizar el comportamiento del sodio cuando el potasio presenta resultados “altos”, se modifica el valor del
parámetro “Factor de disminución de requisitos” desde 0.9 a 0.6, valor que sí permite obtener dos relaciones
que incluyen el cluster faltante cuyo detalle se presenta en la Tabla 19.
Tabla 19. Conclusiones de segunda iteración para Potasio y Sodio. Fuente: Elaboración Propia.

SI resultado.Potasio es >= 4.9 Y <= 7.6 “alto”
1 Con un 4.8%
Entonces, resultado.Sodio es >= 137.3 Y <= 143.7 “normal”
SI resultado.Potasio es >= 4.9 Y <= 7.6 “bajo”
2 Con un 3.7%
Entonces, resultado.Sodio es >= 115.0 Y <= 137.2 “bajo”
Finalmente, se puede concluir que cuando el potasio está “alto” respecto a su rango de referencia, el sodio tiene
un comportamiento aleatorio y con muy bajo porcentaje de eventos, siendo estas asociaciones no determinantes,
por ende, no es posible establecer conclusiones respecto de ellas.
Segunda Iteración | Asociación TSH – T4L
Se puede identificar que a pesar de que la TSH posee 6 desviaciones sobre el rango de referencia (desde “alto1”
hasta “alto6”), con la configuración actual del algoritmo no se visualiza una relación para el cluster
“TSH_Grupo7”, que presenta los valores más elevados (“alto6”). De la misma manera, y a pesar de que la T4L
posee 3 desviaciones sobre el rango de referencia (desde “alto1” hasta “alto3”), con la configuración actual del
algoritmo tampoco se visualiza una relación para el cluster T4L_Grupo2, que presenta los valores más elevados
(“alto3”). Por lo tanto, y con el objetivo de analizar el comportamiento de cada examen cuando el otro presenta
los resultados más elevados, se modifica el valor del parámetro “Factor de disminución de requisitos” desde 0.9
a 0.0, valor que sí permite obtener una relación que incluye el cluster faltante de TSH y una que incluye el
cluster faltante de la T4L. En la Tabla 20 se presenta el detalle de las conclusiones respecto a estos hallazgos.
Tabla 20. Conclusiones de segunda iteración para TSH y T4L. Fuente: Elaboración Propia.

SI, resultado.TSH es >= 139.60 Y <= 139.60 “alto6”
1 Con un 0.2%
Entonces, resultado.T4L es >= 0.22 Y <= 1.01 “bajo”
SI, resultado.TSH es >= 0.0 Y <= 1.95 “bajo”
2 Con un 0.2%
Entonces, resultado.T4L es >= 5.75 Y <= 5.75 “alto3”
Finalmente, se puede concluir que ambos exámenes presentan una relación inversamente proporcional sumando
un 0.4% de los eventos presentes; sin embargo, se plantea como un punto a discutir dado que la cantidad de
eventos no es suficientemente significativa como para generar una conclusión determinante. De todas maneras,
es importante señalar que estos resultados confirman lo que ya se sabe y son concordantes con el conocimiento
disponible.
Segunda Iteración | Asociación Vitamina B12 – Vitamina D
En la segunda y última iteración de la tarea de evaluación de resultados, se puede mencionar que los resultados
evaluados en la primera iteración no presentan observaciones de consideración. Sin embargo, y con el objetivo
20
–––
de analizar si se repite el comportamiento de las asociaciones de exámenes cuando el porcentaje de probabilidad

es menor al último registro revisado en la primera iteración, se modifica el valor del parámetro “Factor de
disminución de requisitos” desde 0.9 a 0.0, valor que permite cuatro nuevas asociaciones con al menos un 1%
de los eventos presentes. En la Tabla 21 se presenta el detalle de las conclusiones respecto a estos hallazgos.
Tabla 21. Conclusiones de segunda iteración para VB12 y VD. Fuente: Elaboración Propia.

SI resultado.VB12 es >= 150 Y <= 311 “bajo”
1 Con un 6.8%
2 Con un 5.1%
3 Con un 3.4%
SI resultado.VB12 es >= 594 Y <= 1000 “alto”
4 Con un 1.7%
Finalmente, se puede concluir que estas asociaciones presentan un comportamiento aleatorio y representan un
bajo porcentaje de los eventos presentes, por ende, no es posible establecer conclusiones respecto de ellas.
5 Validación de la hipótesis
La finalidad de esta sección es verificar si los resultados obtenidos por el modelo mejoran la eficiencia de las
reglas de autoverificación de laboratorio y, en consecuencia, confirmar o refutar la hipótesis planteada. En
primer lugar, se verificará si para las asociaciones de exámenes proporcionadas por el modelo existen reglas de
autoverificación dentro del sistema experto. Luego, se analizará si existen similitudes entre las reglas existentes
y las asociaciones de resultados de cada uno de los exámenes asociados y, finalmente, se verificará para cada
una de las asociaciones resultantes del modelo, si los resultados de exámenes contenidos en cada una de ellas
fueron verificados de forma manual o automática.
5.1 Reglas de plausibilidad
Hoy en día existen tres reglas de plausibilidad en “Prometeo”, todas relacionadas a una de las asociaciones
identificadas por el modelo: TSH y T4L; para las otras dos asociaciones solo es posible identificar reglas de
“Patología y Aceptabilidad” que no evalúan resultados de exámenes asociados. Por tanto y como primera
conclusión, es posible indicar que la minería de datos sí permite descubrir nuevo conocimiento aportando una
asociación para los exámenes TSH y T4L y tres asociaciones para los exámenes Vitamina B12 y Vitamina D.
Comparación regla #1
De acuerdo con lo observado en la Tabla 22, es posible señalar que los rangos de resultados obtenidos por la
asociación #1 [0.2%] del modelo, son semejantes a los rangos de resultados de la primera regla existente. Si
bien no existe coincidencia 100% exacta, se podría validar el modelo considerando que los resultados obtenidos
son concordantes con el conocimiento disponible.
21
Tabla 22. Similitud entre regla existente #1 y asociación resultante del modelo. Fuente: Elaboración Propia.
# Tipo de Regla Regla Existente Conclusión

#1 existente en Elimina Aceptabilidad T4L SI, resultado.TSH es > 10 Y <= 150
“Prometeo” por TSH alta. Entonces, resultado.T4L es <= 0.5
1
Resultado #1 TSH-T4L, Segunda SI, resultado.TSH es >= 139.60 Y <= 139.60
Modelo Iteración. Probabilidad 0.2% Entonces, resultado.T4L es >= 0.22 Y <= 1.01
De acuerdo con lo observado en la Tabla 23, es posible señalar que los rangos de resultados obtenidos por la
asociación #2 [0.2%] del modelo, son semejantes a los rangos de resultados de la segunda regla existente. Si
bien no existe coincidencia 100% exacta, se podría validar el modelo considerando que los resultados obtenidos
son concordantes con el conocimiento disponible.

#2 existente en Autoverifica T4L alta por SI, resultado.TSH es < 0.5
“Prometeo” TSH baja. Entonces, resultado.T4L es >= 1.5
2
De acuerdo con lo observado en la Tabla 24Tabla 26, es posible señalar que los rangos de resultados obtenidos
por la asociación #1 [0.2%] del modelo, son semejantes a los rangos de resultados de la tercera regla existente.
Si bien no existe coincidencia 100% exacta, se podría validar el modelo considerando que los resultados
obtenidos son concordantes con el conocimiento disponible.

#3 existente en Autoverifica T4L baja por SI, resultado.TSH es >= 6.0 Y <= 150
“Prometeo” TSH alta. Entonces, resultado.T4L es >= 0.1 Y <= 0.77
3
5.2 Validación de hipótesis
Se busca validar la hipótesis planteada y confirmar si existen reglas de autoverificación susceptibles de ser
mejoradas. En concreto, si todos los resultados de exámenes fueron verificados de forma automática se refutaría
la hipótesis, asumiendo que hoy estos ya son pesquisados por alguna regla existente que no necesita ser
mejorada. Por el contrario, si existiese al menos un resultado de examen que fue verificado de forma manual,
se confirmaría la hipótesis asumiendo que hoy no existe una regla que pesquise estos resultados.
En este contexto, a continuación, se presenta en la Tabla 25 el indicador (KPI) diseñado para obtener el
porcentaje de resultados que presentan verificación manual respecto del total de resultados del conjunto de datos
que esté siendo analizado.
22
–––
Tabla 25. Indicador (KPI) – Porcentaje de resultados con verificación manual.

Indicador (KPI) - % de resultados con verificación manual
cantidad de resultados con validación manual
X 100 = % resultados con validación manual
cantidad total de resultados
Finalmente, es posible determinar que hoy un 21.2% de resultados de exámenes pertenecientes a una asociación
resultante del modelo de minería datos no son autoverificados, lo que permite validar la hipótesis planteada
considerando que si existe la posibilidad de generar o mejorar reglas de autoverificación.
Tabla 26. Cantidad de resultados por asociación, probabilidad, ámbito y tipo de verificación.
Detalle de Asociación Ambulatorio Hospitalizado UPCs Urgencia
Total
Examenes # Soporte A M A M A M A M
Resultados
Potasio-
1/1 35.5% 1028 432 2 63 25 191 181 79 55
Sodio
1/4 43.8% 160 114 16 8 6 5 1 2 8
2/4 20.1% 226 205 1 2 0 10 4 0 4
TSH-T4L
3/4 0.2% 2 0 2 0 0 0 0 0 0
4/4 0.2% 2 1 1 0 0 0 0 0 0
1/3 27.1% 6 4 0 0 0 1 1 0 0
VB12-VD 2/3 10.2% 4 2 0 0 0 0 0 2 0
3/3 6.8% 22 22 0 0 0 0 0 0 0
N
1450 780 22 73 31 207 187 83 67
Total
%
100% 53.8% 1.6% 5.0% 2.1% 14.3% 12.9% 5.7% 4.6%
Total
Descripción de campos:
─ “#” : Número de asociación resultante del modelo de minería de datos.
─ Soporte: Porcentaje de eventos que representa la asociación.
─ Total Res.: Cantidad total de resultados que contiene la asociación.
─ Ambulatorio, Hospitalizado, UPCs y Urgencia: Ámbito donde se registró el resultado.
─ A : Cantidad de resultados que fueron autoverificados.
─ M : Cantidad de resultados que fueron verificados de forma manual.
─ : Porcentaje de resultados verificados manualmente y susceptibles de autoverificar luego de mejorar
las reglas.
6 Próximos pasos
La primera actividad por realizar será poner en producción los resultados obtenidos y luego, al cabo de tres
meses en operación, se volverá a medir el indicador que permitió validar la hipótesis y se evaluará si hay una
disminución del porcentaje de validación manual en comparación con la medición actual (21.1%).
Ahora bien, el haber comprobado que existen otras herramientas que permiten generar conocimiento se abren
nuevas oportunidades para Laboratorio ELSA, y se motiva al equipo de trabajo a extender esta investigación
hacia exámenes o escenarios de mayor complejidad. Por consiguiente, paralelamente se presentarán los
resultados de la investigación a los “sponsors” de Laboratorio, a fin de motivarlos a emprender este nuevo
camino y lograr que se incorpore al menos un proyecto de investigación de minería de datos dentro de la
planificación del próximo año 2020.
23
7 Conclusión
En primer lugar, el modelo de minería de datos procesó 7.821 registros de resultados, equivalentes al 23.7% del
total disponible en el conjunto inicial de datos. A partir de ahí, se encontraron 106 asociaciones de exámenes
frecuentes, tres de ellas escogidas junto al comité de expertos de Laboratorio para el desarrollo de este trabajo.
De ellas, se obtuvieron distintas asociaciones de resultados concluyendo que solo 8 de ellas podrían ser
consideradas clínicamente significativas: una entre “Potasio y Sodio”, cuatro entre “TSH y T4 Libre” y tres
entre “Vitamina B y Vitamina D”. Para el resto de las asociaciones, no se identificó un patrón de
comportamiento que permitiera establecer una correlación clara entre los resultados; por tanto, se excluyeron
de la validación de la hipótesis. Finalmente, se realizó la medición del indicador (KPI) que permite validar la
hipótesis, descubriendo que actualmente solo un 78.8% del conjunto de resultados de las asociaciones son
autoverificados por el sistema experto. Por lo tanto, es posible confirmar la hipótesis concluyendo que, los
algoritmos de asociación y agrupamiento sí pueden contribuir al mejoramiento de reglas de autoverificación de
resultados de laboratorio; ya que, si se incorporase la lógica obtenida por el modelo dentro del sistema experto,
existiría la posibilidad de autoverificar el 21.2% de los resultados que hoy poseen verificación manual.
De todos modos, cabe señalar que este primer acercamiento de ELSA a la minería de datos no tenía por objetivo
mejorar el 100% de las reglas de autoverificación, sino más bien, comparar los resultados de la investigación
con el conocimiento disponible y validar si las técnicas de minería de datos son tan válidas como las técnicas
con las que hoy cuenta Laboratorio. No obstante, y además de confirmar que la minería de datos sí proporciona
resultados clínicamente coherentes, se descubrió nuevo conocimiento que hasta hoy no había sido posible
obtener. En efecto, se validó que solo una de las asociaciones identificadas por el modelo tiene reglas de
autoverificación configuradas dentro del sistema experto: TSH y T4L. Sin embargo, y al contrario de lo que se
podría esperar, llama la atención que las reglas existentes tienen estrecha similitud con dos de las asociaciones
de menor soporte (0.2% y 0.2% respectivamente), y no existe ninguna que se asemeje a las otras dos
asociaciones de mayor soporte (43.8% y 10.1 respectivamente). Ahora bien, esto se podría fundamentar en que
estas dos asociaciones describen principalmente resultados que están dentro de los rangos de referencia de cada
examen, por tanto, sería posible suponer que existe una regla de menor nivel, como el tipo “Patología y
Aceptabilidad”, que autoverificaría estos resultados. Pese a ello, se identificó que un 10% de estos casos no
fueron autoverificados dado uno de ellos presenta una leve variación respecto de su valor de referencia motivo
por el cual se retuvo para la revisión manual del personal de Laboratorio. En definitiva, si se considerasen dentro
del sistema experto las lógicas que proporcionó el modelo de minería de datos, aproximadamente un 50% de
los resultados que cumplan estas condiciones sería susceptible de ser autoverificados.
Por otra parte, se puede considerar que la metodología CRISP-DM resultó ser útil dentro de este proyecto de
investigación, siendo una herramienta eficiente en la conducción de proceso de minería de datos dentro del
contexto de laboratorio clínico.
En el futuro se espera que este trabajo pueda ser extendido a resultados de exámenes que presenten mayor
complejidad, como, por ejemplo, aquellos que cuentan con rangos de referencia basados en edad o sexo, o
aquellos que presentan resultados del tipo alfanumérico. Así también, que, a partir de este trabajo, tanto
laboratorio ELSA como otros laboratorios del país, puedan adoptar este marco de trabajo y los procesos
diseñados en él, cuándo decidan analizar los registros disponibles en sus sistemas informáticos para optimizar
las reglas de autoverificación.
Finalmente, es importante señalar que gracias al “Magister en Tecnologías de la Información” fue posible
conocer el rol que la minería de datos, como campo de la estadística y ciencias de la computación, juega dentro
del sector salud y en la generación de conocimiento que contribuya directamente en una organización como
Bupa, y en los pacientes, al permitir optimizar procesos que están relacionados con actividades que van en
beneficio de su estado de salud.
24
–––
8 Referencias
[1] O. Maimon and L. Rokach, Data Mining and Knowledge Discovery, vol. 26, no. 1. 2010.
[2] R. Agrawal and R. Srikant, “Fast algorithms for mining association rules,” Proc. 20th int. conf. very
large data bases, VLDB, vol. 8, no. 14, pp. 92–108, 1994.
[3] J. Torres and C. L. Abad, “Análisis comparativo de mecanismos de minería de datos para la generación
de reglas de asociación aplicables a caches de Grandes Datos,” Análisis Comp. Mec. minería datos para
la generación reglas Asoc. Apl. a caches Gd. Datos, vol. 28, no. Diciembre, pp. 1–7, 2015.
[4] J. Han, J. Pei, Y. Yin, and R. Mao, “Mining frequent patterns without candidate generation: A frequent-
pattern tree approach,” Data Min. Knowl. Discov., vol. 8, no. 1, pp. 53–87, 2004.
[5] B. Nath, D. K. Bhattacharyya, and A. Ghosh, “Incremental association rule mining: A survey,” Wiley
Interdiscip. Rev. Data Min. Knowl. Discov., vol. 3, no. 3, pp. 157–169, 2013.
[6] L. Kaufman and P. J. Rousseeuw, Finding Groups in Data: An Introduction to Cluster Analysis (Wiley
Series in Probability and Statistics). 1990.
[7] M. A. Rodríguez and I. D. E. L. Proyecto, “Comparación de métricas de distancia en el algoritmo K-
Vecinos Más Cercanos para el problema de Reconocimiento Automático de Dígitos Manuscritos
Comparación de métricas de distancia en el algoritmo K-Vecinos Más Cercanos para el problema de
Reconocimiento,” 2015.
[8] J. A. Hartigan, “Clustering Algorithms,” Inf. Retr. Data Struct. Algorithms, vol. 2, pp. 419–442, 1975.
[9] J. a. Hartigan and M. a. Wong, “A K-Means Clustering Algorithm,” J. R. Stat. Soc., vol. 28, no. 1, pp.
100–108, 1979.
[10] SAS-Institute-Inc., “Data Mining and the Case for Sampling Solving Business Problems\nUsing SAS®
Enterprise MinerTM Software,” Best Practices Report. 1998.
[11] J. Mi. Moine, A. Haedo, and S. Gordillo, “Estudio comparativo de metodologías para minería de datos,”
XIII Work. Investig. en Ciencias la Comput., pp. 278–281, 2011.
[12] U. Fayyad, G. Piatetsky-Shapiro, and P. Smyth, “From data mining to knowledge discovery in
databases,” AI Mag., vol. 17, no. 3, pp. 37–53, 1996.
[13] P. Chapman et al., “Crisp-Dm 1.0,” Cris. Consort., p. 76, 2000.
[14] IBM, “IBM SPSS Modeler CRISP-DM Guide,” IBM Corp, p. 53, 2011.
[15] CLSI, “AUTO10: Autoverification of Clinical Laboratory Test Results, 1st Edition,” no. January, 2017.
[16] J. Li, B. Cheng, H. Ouyang, T. Xiao, J. Hu, and Y. Cai, “Designing and evaluating autoverification
rules for thyroid function profiles and sex hormone tests,” Ann. Clin. Biochem., vol. 55, no. 2, pp. 254–
263, 2018.
[17] F. Demirci, P. Akan, T. Kume, A. R. Sisman, Z. Erbayraktar, and S. Sevinc, “Artificial neural network
approach in laboratory test reporting: Learning algorithms,” Am. J. Clin. Pathol., vol. 146, no. 2, pp.
227–237, 2016.
[18] C. M. Verrusio W1, Magro VM2, Renzi A3, Casciaro B4, Andreozzi P5, “Thyroid hormones, metabolic
syndrome and Vitamin D in middle-aged and older euthyroid subjects: a preliminary study. (2018).
https://doi.org/10.1007/s40520-018-1071-1,” Aging Clin Exp Res, 2018.
[19] J. A. Bartrina, “Serum vitamin D level and its relation to thyroid hormone, blood sugar and lipid profiles
in Iranian sedentary work staff,” vol. 34, pp. 0–1, 2018.
[20] W. Aguirre, G. A. , Falla, A. & Sánchez, “Correlación de los marcadores inflamatorios ( proteina C
reactiva , neutrofilia y leucocitosis ) en las diferentes fases de la apendicitis aguda,” Rev. Colomb.
Cirugía, vol. 29, no. 2, pp. 110–115, 2014.
[21] M. A. Serdar et al., “Analysis of Changes in Parathyroid Hormone and 25 (OH) Vitamin D Levels with
Respect to Age, Gender and Season: A Data Mining Study,” J. Med. Biochem., vol. 36, no. 1, pp. 73–
83, 2017.
[22] H. Richardson, “Medical laboratories--requirements for quality and competence: an ISO perspective.,”
Vox Sang., vol. 83 Suppl 1, pp. 333–335, 2002.
[23] D. Ana María Guzmán, “¿cuándo dos exámenes seriados de laboratorio representan un cambio en el
estado de salud de un paciente?,” Rev. Med. Chil., vol. 138, no. 6, pp. 780–783, 2010.
25
Anexos
A. Sistema de Información Laboratorio Clínico ELSA
B. Organigrama general de laboratorio
Director Técnico
Gerente de
Gerente Técnico Gerente Post-
Administración y Gerente Técnico Gerente de Calidad
Microbiología Analítica
Finanzas
Personal Clínico Personal Clínico Personal Clínico Personal Clínico Personal Clínico
Personal Técnico Personal Técnico Personal Técnico Personal Técnico Personal Técnico
Personal Personal Personal Personal Personal

Administrativo Administrativo Administrativo Administrativo Administrativo
26
–––
C. Recopilación inicial de datos
C.1 Tablas del LIS que fueron utilizadas para la construcción del almacén de datos
Tabla Descripción
Tblrisultatiesami Resultados de exámenes del repositorio diario, aquellos que están en proceso o
verificados dentro del día.
Tblstoricorisultatiesami Resultados de exámenes del repositorio histórico, aquellos que fueron
verificados hace más de 1 día.
Tblconfanalisi Maestro de exámenes y sus atributos principales.
Tblconfinfoansingole Conjunto de atributos de exámenes.
Tblrichieste Solicitudes de exámenes del repositorio diario, aquellas están en proceso o
verificados dentro del día.
Tblstoricorichieste Solicitudes de exámenes del repositorio histórico,
Aquellas que están en proceso o verificadas dentro del día.
Tblanagraficapazienti Datos maestros de pacientes, incluyendo datos demográficos.
Tblconfreparti Maestro de unidades organizativas y sus atributos principales.
Tblconfcaratreparti Conjunto de atributos de las unidades organizativas.
Tblconftipologiereparti Maestro de ámbitos a los que pertenecen las unidades organizativas.
C.2 Esquema estrella del almacén de datos para el proceso de resultados
27
D. Descripción de los datos del almacén “Bupa_mti_resultados”
Nombre
Nombre técnico de Tipo de
descriptivo Descripción del campo Tipo de dato Codificación
campo variable
de campo
Valor que identifica la posición
del examen dentro de la
solicitud, en caso de repetirse
Correlativo Cualitativa
corr_examen un examen dentro de una Numérico 5 dígitos.
del examen nominal
misma solicitud, este campo
permite hacer la distinción
entre ambos.
3 dígitos, desde 0
Cantidad de años del paciente (primer año
calculados a partir de la resta permitido en el
Edad del Cuantitativa
edad_pac entre la fecha del resultado del Numérico estudio) hasta 199
paciente continua.
examen y la fecha de (último año
nacimiento del paciente. permitido en el
estudio).
Puede tomar solo dos valores, 0
(cero) cuando no corresponda a
Examen de un examen reportable a un
Cualitativa
tipo reportable informe clínico, o bien, -1 Numérico 1 caracter.
dicotómica.
reportable (menos uno) cuando si sea del
tipo reportable, es decir, que se
libera a un informe clínico.
Puede tomar solo dos valores, 0
(cero) cuando no corresponda a
Examen de
un examen solicitable a través Cualitativa
tipo solicitable Numérico 1 caracter.
de una orden clínica, o bien, -1 dicotómica.
solicitable
(menos uno) cuando si sea del
tipo solicitable.
Fecha de Tiempo especificado por el día, dd/MM/yyyy, por
Cualitativa
nacimiento fecha_nac mes y año en que tuvo lugar el Fecha ejemplo,
nominal.
del paciente nacimiento del paciente. 11/03/1987
Tiempo especificado por el día,
mes, año, horas, minutos y dd/MM/yyyy
Fecha del segundos en que tuvo lugar un hh24:mi:ss, por
Cualitativa
resultado del fecha_res resultado obtenido a partir del Fecha ejemplo,
nominal
examen procedimiento de análisis 10/08/2018
realizado sobre una muestra 22:32:00.
biológica.
Código de identificación
Identificador unívoco de la unidad
Cualitativa
de la unidad id_uo organizativa en la cual se Alfanumérico. 15 caracteres.
nominal.
organizativa atendió al paciente: centro
médico, clínica, otros.
1 dígito, de 1
(ambulatorio), 2
Identificador unívoco del ámbito de
Cualitativa (hospitalizado), 3
del ámbito de id_ambito atención: ambulatorio, Numérico
nominal (unidad paciente
atención hospitalizado, unidad paciente
crítico), hasta 4
crítico, urgencia
(urgencia).
Identificador Código de identificación
Cualitativa
del examen id_padre unívoco para un examen padre Alfanumérico 15 caracteres.
nominal
padre de laboratorio clínico.
Identificador Cualitativa
id_examen unívoco para un examen de Alfanumérico 15 caracteres.
del examen nominal
10 dígitos, desde
2000000000
(primer correlativo
Identificador Código de identificación Cualitativa
id_paciente Numérico disponible) hasta
del paciente unívoco del paciente. nominal
2999999999
(último correlativo
disponible).
28
–––
Nombre
Nombre técnico de Tipo de
descriptivo Descripción del campo Tipo de dato Codificación
campo variable
de campo
Identificador
del usuario de
unívoco para una cuenta de Cualitativa
verificación id_usuario Alfanumérico 15 caracteres.
usuario del sistema de nominal
del resultado
de examen
Representación descriptiva y
textual de la unidad
Nombre de la organizativa en la cual se
Cualitativa
unidad nombre_uo atendió el paciente: centro Alfanumérico. 50 caracteres.
nominal.
organizativa médico Integramédica Las
Condes, Clínica Bupa Santiago,
otros.
Nombre del textual del ámbito de atención:
Cualitativa
ámbito de ambito ambulatorio, hospitalizado, Alfanumérico 50 caracteres.
nominal
atención unidad paciente crítico,
urgencia.
Nombre del Cualitativa
nombre_examen textual del examen de Alfanumérico 50 caracteres.
examen nominal
Nombre del textual para una cuenta de Cualitativa
usuario_verificacion Alfanumérico 50 caracteres
usuario usuario del sistema de nominal
15 caracteres,
Valor obtenido a partir del
cualquier valor de
Resultado del procedimiento de análisis Cualitativa
resultado Alfanumérico un intervalo real,
examen realizado sobre una muestra nominal
junto o sin
biológica.
caracteres ASCII.
1 caracter, “M”
para masculino, “F”
Sexo del unívoco que refiere a las Cualitativa
sexo Alfanumérico para femenino y
paciente características biológicas y nominal
“N” para “Sin
fisiológicas de un paciente.
Información”.
8 dígitos, desde
20000000 (primer
Código de identificación correlativo
Cualitativa
Solicitud solicitud unívoco de la orden clínica de Numérico disponible) hasta
nominal
exámenes dentro del LIS. 29999999 (último
correlativo
disponible).
1 digito, de 0
Tipo de Cualitativa (examen simple)
tipo_examen unívoco para un tipo examen de Numérico
examen nominal hasta 1 (examen
múltiple)
Tipo de unívoco para un tipo de Cualitativa
tipo_resultado Numérico 1 caracter.
resultado resultado de examen de nominal
textual del tipo de valor de
Tipo de valor referencia de un examen: Cualitativa
tipo_valor_ref Alfanumérico 30 caracteres.
de referencia constante, por edad, por sexo, nominal
por sexo y edad, por sexo y
semana de embarazo.
29
E. Explorando los datos
 Tipo de Examen: dentro de los datos existentes en el almacén se puede encontrar el campo tipo_examen, el
cual, según la exploración realizada, puede tomar dos valores los que están descritos en la tabla a
continuación.
Examen Padre Simple, posee solo un id_examen, es decir, un registro
0 de resultado. Por ejemplo, glucosa, sodio, potasio, cloro, etc. Cuando 16.694 53.9%
esto ocurre, el id_padre es igual al id_examen.
Examen Padre Múltiple, posee más de un id_examen, es decir, más
1 de un registro de resultado. Por ejemplo: Hemograma, que contiene 14.266 46.1%
componentes tales como hemoglobina, hematocrito, etc.
Total 30.960 100.0%
 Examen de tipo solicitable: dentro de los datos existentes en el almacén se puede encontrar el campo
solicitable, el cual, según la exploración realizada y habiendo filtrado los exámenes del tipo simple (0), puede
tomar dos valores los que están descritos en la tabla a continuación.
Examen que puede ser pedido a través de una orden clínica, es decir,
SI está disponible en el catálogo de exámenes para los médicos y para 15.708 94.1%
las cajas de venta ambulatorias.
Examen interno de laboratorio, no está disponible en el catálogo de
NO exámenes para los médicos, tampoco para las cajas de venta 986 5.9%
ambulatoria.
Total 16.694 100.0%
 Tipo de resultado: dentro de los datos existentes en el almacén se puede encontrar el campo tipo_resultado,
el cual, según la exploración realizada y habiendo filtrado los exámenes del tipo “Simple (0)”, “Solicitables
(SI)”, puede tomar cuatro valores los que están descritos en la tabla a continuación.
1 Numérico 14.272 90.9%
3 Sigla 482 3.1%
4 Árbol Decisional 743 4.7%
nulo Resultado sin categoría 211 1.3%
Total 15.708 100.0%
 Tipos de verificación: dentro de los datos existentes en el almacén se puede encontrar campo usuario_val,
este último, según la exploración realizada y habiendo filtrado los exámenes del tipo “Simple (0)”,
“Solicitables (SI)” y “Numérico (1)”, puede tomar 2 valores los cuales que están descritos en la tabla a
continuación.
Automática Resultado de examen autoverificado por el sistema experto. 8.546 59.9%
Manual Resultado de examen verificado por un usuario, personal de
5.726 40.1%
laboratorio.
Total 14.272 100%
30
–––
 Ámbito: dentro de los datos existentes en el almacén se puede encontrar el campo ámbito, el cual, según la
exploración realizada y habiendo filtrado los exámenes del tipo “Simple (0)”, “Solicitables (SI)” y
“Numérico (1)”, puede tomar 4 valores los que están descritos en la tabla a continuación.
UPCS Exámenes de pacientes críticos con estadía variable
que requieren supervisión y monitoreo permanente del 5.393 37.9%
personal de Clínica.
Ambulatorio Exámenes de pacientes sin estadía en Clínica. 4.563 31.9%
Urgencia Exámenes de pacientes que concurren a Clínica por
emergencia, pueden derivar a otro ámbito según 3.075 21.5%
complejidad.
Hospitalizados Exámenes de pacientes corta estadía en Clínica. 1.241 8.7%
Total 14.272 100%
 Tipos de verificación por ámbito: dentro de los datos existentes en el almacén se puede encontrar campo
ámbito y usuario_val, y según la exploración realizada y habiendo filtrado los exámenes del tipo “Simple
(0)”, “Solicitables (SI)” y “Numérico (1)”, estos se relacionan entre sí pudiendo un ámbito pertenecer tanto
al grupo de exámenes verificados de forma “manual” como “automática” tal como muestra la tabla a
continuación.
Ámbito
Ambulatorio Hospitalizados UPCs Urgencia
Tipo
Absoluto % Absoluto % Absoluto % Absoluto %
Verificación
Automática 4.117 90.2% 585 47.1% 2.511 46.6% 1.334 43.4%
Manual 446 9.8% 656 52.9% 2.882 53.4% 1.741 56.6%
Sub Total 4.563 100% 1.241 100% 5.393 100% 3.075 100%
 Tipos de valor de referencia: dentro de los datos existentes en el almacén se puede encontrar campo
tipo_val_ref, y según la exploración realizada y habiendo filtrado los exámenes del tipo “Simple (0)”,
“Solicitables (SI)” y “Numérico (1)”, puede tomar 6 valores los cuales están descritos en la tabla a
continuación.
Valor mínimo y valor máximo no depende de las
constante 7.821 54.9%
condiciones biológicas del paciente.
Valor mínimo y valor máximo depende del sexo y la
por sexo y edad 2.886 20.2%
edad de paciente
Valor mínimo y valor máximo depende de la edad de
por edad 2.882 20.2%
paciente
Valor mínimo y valor máximo depende del sexo de
por sexo 572 4.0%
paciente.
Exámenes cuyo tipo de valor de referencia no ha sido
nulo 63 0.4%
categorizado o definido.
por sexo y semana Valor mínimo y valor máximo depende del sexo y
48 0.3%
de embarazo semanas de embarazo del paciente.
14.272 100%
31
F. Verificando la calidad de los datos
A modo de ejemplo, la tabla a continuación muestra el conjunto de valores pesquisados y la cantidad de

ocurrencias.
Resultado Cantidad Resultado Cantidad Resultado Cantidad

* 80 >156.00 11 MASR 43
- 6 >50.000 3 MSCHK 415
<0 2 >1300.00 1 NCAL 1
<0.30 6 Anula 33 Negativo 69
>7.77 1 IA 26 P 2
Subtotal 95 Subtotal 117 Subtotal 487
G. Selección de datos
Nombre
Nombre técnico de
descriptivo de Incluido Motivo Inclusión / Exclusión
campo
campo
Este campo será utilizado como atributo de agrupamiento dentro del operador de
Correlativo del
corr_examen SI agregación, cuya función “count” contabilizará la cantidad de registros de resultados de
examen
exámenes.
Este campo no será utilizado dentro de los procesos donde se apliquen los algoritmos de
Edad del paciente edad_pac NO
asociación y agrupamiento.
Examen de tipo Este campo será utilizado para filtrar aquellos registros de resultados de exámenes cuyo valor
reportable SI
reportable del campo reportable sea “SI”, es decir, reportable.
Examen de tipo Este campo será utilizado para filtrar aquellos registros de resultados de exámenes cuyo
solicitable SI
solicitable valor del campo solicitable sea “SI”, es decir, solicitable.
Fecha de
Este campo no será utilizado dentro de los procesos donde se apliquen los algoritmos de
nacimiento del fecha_nac NO
paciente
Este campo será utilizado para filtrar aquellos registros de resultados de exámenes cuya fecha
Fecha del resultado
fecha_res SI sea mayor o igual a la fecha del primer registro obtenido en Clínica Bupa Santiago y menor
del examen
o igual a la fecha definida como corte para la inclusión de registros.
Identificador de la Este campo no será utilizado dentro de los procesos donde se apliquen los algoritmos de
id_uo NO
unidad organizativa asociación y agrupamiento.
Este campo no será utilizado dentro del análisis, solo se considera el campo “ambito”, que es
Identificador del
id_ambito NO descriptivo y facilitará la comprensión de los resultados que se desprendan de procesos donde
ámbito de atención
se apliquen los algoritmos de asociación y agrupamiento.
Este campo será utilizado como atributo de agrupamiento dentro del operador de agregación,
cuya función “count” contabilizará la cantidad de registros de resultados de exámenes.
Adicionalmente, será utilizado dentro del operador de concatenación, para unir el
Identificador del “id_examen” al “nombre_examen” así facilitar la comprensión de los resultados que se
id_examen SI
examen desprendan de procesos donde se apliquen los algoritmos de asociación y agrupamiento.
Finalmente, cabe señalar que es pieza fundamental del estudio, y formará parte del conjunto
de campos que se utilizará dentro de los procesos donde se apliquen los algoritmos de
Identificador del Este campo no será utilizado dentro de los procesos donde se apliquen los algoritmos de
id_paciente NO
paciente asociación y agrupamiento.
Identificador del
usuario de Este campo será utilizado para contribuir a la comprensión e interpretación de los resultados
verificación del id_usuario SI que se desprendan de procesos donde se apliquen los algoritmos de asociación y
resultado de agrupamiento.
examen
Este campo no será utilizado dentro de los procesos de análisis, solo se considera el campo
Nombre de la
nombre_uo NO “ambito”, que permite conocer el tipo de unidad organizativa y facilitará la comprensión de
unidad organizativa
los resultados de los procesos de análisis.
Este campo será utilizado para contribuir a la comprensión e interpretación de los resultados
Nombre del ámbito
ambito SI que se desprendan de procesos donde se apliquen los algoritmos de asociación y
de atención
agrupamiento.
Este campo será utilizado como atributo de agrupamiento dentro del operador de
agregación, cuya función “count” contabilizará la cantidad de registros de resultados de
exámenes. Adicionalmente, será utilizado dentro del operador de concatenación, para unir
el “id_examen” al “nombre_examen” así facilitar la comprensión de los resultados que se
Nombre del examen nombre_examen SI
desprendan de procesos donde se apliquen los algoritmos de asociación y agrupamiento.
Finalmente, cabe señalar que es pieza fundamental del estudio, y formará parte del conjunto
de campos que se utilizará dentro de los procesos donde se apliquen los algoritmos de
32
–––
Nombre
Nombre técnico de
descriptivo de Incluido Motivo Inclusión / Exclusión
campo
campo
Este campo será utilizado para contribuir a la comprensión e interpretación de los resultados
Nombre del usuario usuario_verificacion SI que se desprendan de procesos donde se apliquen los algoritmos de asociación y
agrupamiento.
Resultado del Este campo será utilizado para generar los “clusters” de resultados de cada examen, dentro
resultado SI
examen de los procesos donde se aplique el algoritmo de agrupamiento.
Sexo del paciente sexo NO Este campo no será utilizado dentro de los procesos de análisis.
Este campo formará parte del conjunto de campos que se utilizará dentro de los procesos
donde se apliquen los algoritmos de asociación y agrupamiento. Será utilizado para tanto
Solicitud solicitud SI generar el agrupamiento de los resultados de cada examen, como para analizar la asociación
que existe entre ellos. Finalmente, cabe señalar que es pieza fundamental del estudio, ya que
es la clave y elemento diferenciador para poder generar asociaciones y agrupamientos.
Este campo será utilizado para filtrar aquellos registros de resultados de exámenes cuyo tipo
Tipo de examen tipo_examen SI
de examen sea “simple”, es decir, que posee 1 componente o 1 resultado.
Tipo de resultado tipo_resultado SI de resultado sea “numérico”, es decir, que el valor que tome el campo resultado esté dentro
del conjunto de números reales.
Tipo de valor de
tipo_valor_ref SI de valor de referencia sea “constante”, es decir, que su valor mínimo y máximo no varía
referencia
según las condiciones biológicas del paciente.
H. Detalle de “clusters” de resultados por examen
H.1 Agrupamiento de resultados del examen Potasio (k = 3). Fuente: Elaboración propia.

Clúster 0 778 54.4% 4.33 3.96 4.85 3.5 5.0 SI
Clúster 1 524 36.7% 5.38 4.90 7.60 3.5 5.0 mEq/L NO
Clúster 2 127 8.9% 3.59 2.40 3.95 3.5 5.0 NO
Totales 1429 100%
H.2 Agrupamiento de resultados del examen Sodio (k = 3). Fuente: Elaboración propia.

Clúster 0 887 62.1% 140.21 137.3 143.7 135.0 145.0 SI
Clúster 1 406 28.4% 134.36 115.0 137.2 135.0 145.0 mEq/L NO
Clúster 2 136 9.5% 147.20 143.8 158.4 135.0 145.0 NO
Totales 1429 100%
H.3 Agrupamiento de resultados del examen TSH (k = 8). Fuente: Elaboración propia.

Clúster 0 188 34.0% 2.73 1.96 3.98 0.5 5.0 SI
Clúster 1 3 0.5% 49.09 45.22 54.17 0.5 5.0 NO
Clúster 2 1 0.2% 116.42 116.42 116.42 0.5 5.0 NO
Clúster 3 2 0.4% 77.84 72.33 83.36 0.5 5.0 uUl/mL NO
Clúster 4 53 9.6% 5.30 4.03 7.89 0.5 5.0 NO
Clúster 5 298 53.9% 1.19 0.0 1.95 0.5 5.0 NO
Clúster 6 1 0.2% 139.60 139.60 139.60 0.5 5.0 NO
Clúster 7 7 1.3% 15.01 10.45 26.97 0.5 5.0 NO
Totales 553 100%
33
H.4 Agrupamiento de resultados del examen T4L (k = 5). Fuente: Elaboración propia.

Clúster 0 125 22.6% 1.37 1.25 1.88 0.7 1.8 NO
Clúster 1 1 0.2% 5.75 5.75 5.75 0.7 1.8 NO
Clúster 2 120 21.7% 0.91 0.22 1.01 0.7 1.8 ng/dL NO
Clúster 3 304 54.9% 1.12 1.02 1.24 0.7 1.8 SI
Clúster 4 3 0.5% 3.33 2.56 3.92 0.7 1.8 NO
Totales 553 100%
H.5 Agrupamiento de resultados del examen Vitamina B12 (k = 3). Fuente: Elaboración propia.

Clúster 0 22 37.3% 405.2 150 311 193 982 NO
Clúster 1 9 15.2% 767.6 320 533 193 982 pg/mL SI
Clúster 2 28 47.5% 227.0 594 1000 193 982 NO
Totales 59 100%
H.6 Agrupamiento de resultados del examen Vitamina D (k = 3). Fuente: Elaboración propia.

Clúster 0 27 45.8% 15.7 12.0 19.2 10.6 43.4 SI
Clúster 1 23 38.9% 7.6 4.2 10.8 10.6 43.4 ng/mL NO
Clúster 2 9 15.3% 23.7 19.9 29.1 10.6 43.4 SI
Totales 59 100%
I. Integración de los datos
I.1 Elaboración conjunto final de datos para potasio y sodio. Fuente: Elaboración propia.
Conjunto de datos de entrada

Conjunto final de
Campos MTI_CLUSTER_POTASIO MTI_CLUSTER_SODIO
datos
Clúster 1 K_Grupo2 NA_Grupo2 MTI_FP_K+NA
34
–––
I.2 Elaboración conjunto final de datos para TSH y T4L. Fuente: Elaboración propia.
Conjunto inicial de datos inicial

Conjunto final de
Campos MTI_CLUSTER_TSH MTI_CLUSTER_T4L
datos
Clúster 0 TSH_Grupo1 T4L_Grupo1
MTI_FP_TSH+T4L
Clúster 5 TSH_Grupo6 -
I.3 Elaboración conjunto final de datos para VB12 y VD. Fuente: Elaboración propia.
Conjunto inicial de datos inicial

Conjunto final de
Campos MTI_CLUSTER_VB12 MTI_CLUSTER_VD
datos
Clúster 0 VB12_Grupo1 VD_Grupo1
Clúster 1 VB12_Grupo2 VD_Grupo2 MTI_FP_VB12+VD
Clúster 2 VB12_Grupo3 VD_Grupo3
J. Definición de etiquetas
J.1 Etiquetas para “clusters” de resultados del examen Potasio (k = 3). Fuente: Elaboración propia.
Nombre Valor VR VR Dentro Etiqueta

Renombre Valor final
Clúster inicial Min Max del VR
Clúster 0 K_Grupo1 3.96 4.85 3.5 5.0 SI “normal”
Clúster 1 K_Grupo2 4.90 7.60 3.5 5.0 NO “alto”
Clúster 2 K_Grupo3 2.40 3.95 3.5 5.0 NO “bajo”
J.2 Etiquetas para “clusters” de resultados del examen Sodio (k = 3). Fuente: Elaboración propia.
Nombre Valor VR VR Dentro Etiqueta

Renombre Valor final
Clúster inicial Min Max del VR
Clúster 0 NA_Grupo1 137.3 143.7 135.0 145.0 SI “normal”
Clúster 1 NA_Grupo2 115.0 137.2 135.0 145.0 NO “bajo”
Clúster 2 NA_Grupo3 143.8 158.4 135.0 145.0 NO “alto”
35
J.3 Etiquetas para “clusters” de resultados TSH (k = 8). Fuente: Elaboración propia.
Nombre Cantidad de Valor VR VR Dentro Etiqueta

Valor final
Clúster Resultados inicial Min Max del VR
Clúster 0 TSH_Grupo1 1.96 3.98 0.5 5.0 SI “normal”
Clúster 1 TSH_Grupo2 45.22 54.17 0.5 5.0 NO “alto3”
Clúster 5 TSH_Grupo6 0.0 1.95 0.5 5.0 NO “bajo”
J.4 Etiquetas para “clusters” de resultados T4L (k = 5). Fuente: Elaboración propia.

Valor final
Clúster 0 T4L_Grupo1 1.25 1.88 0.7 1.8 NO “alto1”
Clúster 2 T4L_Grupo3 0.22 1.01 0.7 1.8 NO “bajo”
Clúster 3 T4L_Grupo4 1.02 1.24 0.7 1.8 SI “normal”
J.5 Etiquetas para “clusters” de resultados Vitamina B12 (k = 3). Fuente: Elaboración propia.

Valor final
Clúster 0 VB12_Grupo1 150 311 193 982 NO “bajo”
Clúster 1 VB12_Grupo2 320 533 193 982 SI “normal”
Clúster 2 VB12_Grupo3 594 1000 193 982 NO “alto”
J.6 Etiquetas para “clusters” de resultados Vitamina D (k = 3). Fuente: Elaboración propia.

Valor final
Clúster 0 VD_Grupo1 12.0 19.2 10.6 43.4 SI “normal”
Clúster 1 VD_Grupo2 4.2 10.8 10.6 43.4 NO “bajo”
Clúster 2 VD_Grupo3 19.9 29.1 10.6 43.4 SI “alto”
36
–––
K. Conjunto de datos para evaluar el modelo y resultados
K.1 Relación de resultados de exámenes Potasio y Sodio. Fuente: Elaboración propia.
Nivel Examen Potasio Examen Sodio

de VR VR VR VR
Ítem 1 Min Max Ref. Ítem 2 Min Max Ref.
35.5% K_Grupo1 3.96 4.85 normal 3.5 5.0 NA_Grupo1 137.3 143.7 normal 135.0 145.0
21.8% K_Grupo3 2.4 3.95 bajo 3.5 5.0 NA_Grupo1 137.3 143.7 normal 135.0 145.0
15.0% K_Grupo1 3.96 4.85 normal 3.5 5.0 NA_Grupo2 115.0 137.2 bajo 135.0 145.0
9.7% K_Grupo3 2.4 3.95 bajo 3.5 5.0 NA_Grupo2 115.0 137.2 bajo 135.0 145.0
5.2% K_Grupo3 2.4 3.95 bajo 3.5 5.0 NA_Grupo3 143.8 158.4 alto 135.0 145.0
K.2 Relación de resultados de exámenes TSH y T4L. Fuente: Elaboración propia.
Examen TSH Examen T4L

Nivel de
VR VR VR VR
Soporte Ítem Min Max Ref. Ítem 2 Min Max Ref.
Min Max Min Max
29.3% TSH_Grupo6 0.00 1.95 baja 0.5 5.0 T4L_Grupo4 1.02 1.24 normal 0.7 1.8
20.1% TSH_Grupo1 1.96 3.98 normal 0.5 5.0 T4L_Grupo4 1.02 1.24 normal 0.7 1.8
14.5% TSH_Grupo6 0.00 1.95 baja 0.5 5.0 T4L_Grupo1 1.25 1.88 normal 0.7 1.8
9.4% TSH_Grupo6 0.00 1.95 baja 0.5 5.0 T4L_Grupo3 0.22 1.01 baja 0.7 1.8
7.1% TSH_Grupo1 1.96 3.98 normal 0.5 5.0 T4L_Grupo3 0.22 1.01 baja 0.7 1.8
K.3 Relación de resultados de exámenes VB12 y VD Fuente: Elaboración propia.
Nivel Examen Vitamina B Examen Vitamina D

de VR VR VR VR
Ítem Min Max Ref. Ítem 2 Min Max Ref.
27.1% B12_Grupo3 594 1000 alta 193 982 VD_Grupo2 4.2 10.8 baja 10.6 43.4
20.3% B12_Grupo1 150 311 baja 193 982 VD_Grupo1 12 19.2 normal 10.6 43.4
18.6% B12_Grupo3 594 1000 alta 193 982 VD_Grupo1 12 19.2 normal 10.6 43.4
10.2% B12_Grupo1 150 311 baja 193 982 VD_Grupo3 19.9 29.1 alta 10.6 43.4
6.8% B12_Grupo2 320 533 normal 193 982 VD_Grupo1 12 19.2 normal 10.6 43.4
37

Mejora Prometeo Reglas Auto Validacion Mineria Datos Chile

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Mejora Prometeo Reglas Auto Validacion Mineria Datos Chile

Cargado por

Copyright:

Formatos disponibles

Universidad Técnica Federico Santa María

Mejoramiento de reglas de autoverificación de resultados de exámenes

Cristián Ruiz Pérez

Exámenes de Laboratorio S.A. Bupa Chile.

Resumen: Actualmente las reglas de autoverificación de resultados de exámenes de laboratorio ELSA no

Palabras Clave: Minería de datos, algoritmos de asociación, algoritmos de agrupamiento, laboratorio

1.1 Contexto, motivación y problemática

1.2 Definición del Problema

1.3 Propuesta de solución y objetivos planteados

El desarrollo de esta investigación y la incorporación de un método de análisis de laboratorio clínico permitirán

1.5 Metodología de validación

1.6 Estructura del informe

2.1 Minería de datos

2.2 Técnicas de minería de datos

2.3 Reglas de asociación

2.4 Agrupamiento o Clustering

Chebyshev Es una métrica definida en un espacio vectorial

1) Los k centroides 2) k “clusters” son 3) El centroide de cada 4) Pasos 2 y 3 se repiten

2.5 Metodologías para proyectos de minería de datos

Comprensión Comprensión Preparación de

Determinar Recopilar Seleccionar Desarrolar

2.6 Estado del arte

3.1 Comprensión del negocio

Metas para el modelo de minería de datos

Definición de criterios y alcances de la minería de datos

Asociación de exámenes frecuentes y agrupamiento de resultados

El plan de trabajo considera el uso de la metodología CRISP-DM,

 Permite aplicar y comprender de mejor manera a la minería de

empresarial, dando preferencia a la comprensión del negocio.

3.2 Comprensión de los datos

Recopilación inicial de datos

Descripción de los datos

Exploración de los datos

Tabla 6. Tipos de examen. Fuente: Elaboración propia.

Examen Padre Múltiple, posee más de un id_examen, es decir, más

Verificación de la calidad de los datos

3.3 Preparación de los datos

Selección de los datos

Limpieza de los datos

Construcción de los datos

3.3.3.1 Primera tarea: Asociación de exámenes frecuentes

3.3.3.2 Segunda tarea: Agrupamiento de resultados

Formateo de los datos

Construcción del modelo

4 Evaluación del modelo y resultados

4.1 Primera iteración

Primera Iteración | Asociación potasio y sodio

# Declaración Soporte Conclusión Etiqueta

Primera Iteración | Asociación TSH – T4L

# Declaración Soporte Conclusión Etiqueta

Primera Iteración | Asociación Vitamina B12 – Vitamina D

# Declaración Soporte Conclusión Etiqueta

4.2 Segunda iteración

Segunda Iteración | Asociación Potasio - Sodio

# Declaración Soporte Conclusión Etiqueta

Segunda Iteración | Asociación TSH – T4L

# Declaración Soporte Conclusión Etiqueta

Segunda Iteración | Asociación Vitamina B12 – Vitamina D

de analizar si se repite el comportamiento de las asociaciones de exámenes cuando el porcentaje de probabilidad

# Declaración Soporte Conclusión Etiqueta

5.1 Reglas de plausibilidad

# Tipo de Regla Regla Existente Conclusión

# Tipo de Regla Regla Existente Conclusión