Está en la página 1de 85

UNIVERSIDAD AUTNOMA DE SINALOA FACULTAD DE INFORMTICA LICENCIATURA EN INFORMTICA

Implementacin de un Modelo de Base de Datos para el Almacenamiento y Consulta de Electrocardiogramas Digitales TESIS Que como requisito para obtener el grado de LICENCIADO EN INFORMTICA Presenta: Daniel Ernesto Lpez Barrn Dr. Ins Fernando Vega Lpez DIRECTOR

Culiacn, Sinaloa, Mxico. Septiembre de 2011.

AGRADECIMIENTOS
Deseo agradecer a mi familia. Mis hermanas, quienes se tomaron el tiempo para alentarme siempre. Mi madre, quien particip como mi editora extra oficial en el camino.

Agradezco enormemente a la Facultad de Informtica de la Universidad Autnoma de Sinaloa, especialmente al rea de Posgrado, ya que por parte del M.C. Gerardo Beltrn Gutirrez, me proporcionaron equipo de cmputo para realizar las actividades requeridas en esta tesis. Deseo agradecer tambin al Dr. Ins Fernando Vega Lpez, quien fue mi asesor y tutor durante todo el tiempo que tom el desarrollo de este proyecto y siempre tuvo fe en m.

Adems deseo agradecer al apoyo otorgado por el Instituto Nacional de Cardiologa Ignacio Chvez (INCICh), con la asesora del Bilogo Oscar Infante Vzquez. Al igual que todo el personal del rea de Instrumentacin Electromecnica que labora en el INCICh.

Tambin agradezco a la Universidad Autnoma de Sinaloa, ya que este trabajo fue financiado en parte a travs de su Programa de Fomento y Apoyo a Proyectos de Investigacin (PROFAPI), proyecto 2008/181. Asimismo agradezco al Consejo Nacional de Ciencia y Tecnologa (CONACyT) por el apoyo financiero a travs del proyecto 106098.
ii

NDICE DE FIGURAS

Figura 3.1 Un modelo entidad-relacin para el almacenamiento de ECGs digitales. ........................................................................................................ 31 Figura 3.2 La entidad Paciente y sus atributos. ............................................ 33 Figura 3.3 La entidad Consulta y sus atributos ............................................. 34 Figura 3.4 La entidad Electrocardiografa y sus atributos ............................. 36 Figura 3.5 La entidad Sntoma y sus atributos .............................................. 37 Figura 3.6 La entidad Derivacin y sus atributos .......................................... 38 Figura 3.7 La entidad ndice y sus atributos .................................................. 39 Figura 3.8 Diagrama E-R de la base de datos actualizado ........................... 45 Figura 4.1 Esquema de la base de datos ...................................................... 39 Figura 4.2 Algoritmo para la bsqueda de patrones en ECGs digitales ........ 52 Figura 4.3 Trazo de ECG para la base de datos QT. .................................... 60 Figura 4.4 Trazo de ECG de la base de datos Arritmia................................. 61 Figura 4.5 Trazo de ECG para la base de datos PTB. .................................. 63 Figura 4.6 Trazo de ECG para la base de datos INCICh .............................. 64

iii

CONTENIDO
1. 1.1 1.2 1.3 Introduccin ............................................................................................ 1 Descripcin del Problema. .............................................................................. 2 Electrocardiografa. ......................................................................................... 3 Objetivo General. ............................................................................................ 5 Objetivos Especficos. .............................................................................. 6 Hiptesis ................................................................................................... 7

1.3.1 1.3.2 1.4 2. 2.1

Justificacin. ................................................................................................... 7 Marco Referencial................................................................................. 11 Introduccin a las Bases de Datos ................................................................ 13 Modelado de Datos: Modelo Entidad Relacin .................................... 14

2.1.1 2.2

Almacenamiento de Exmenes Biomdicos. ................................................ 17 ECGs Digitales ....................................................................................... 18 Expediente Clnico Electrnico (ECE) .................................................... 20

2.2.1 2.2.2 2.3

Bases de datos mdicas. .............................................................................. 21 Aprovechamiento de Bases de Datos Mdicas ...................................... 22 Experiencia con Bases de Datos Mdicas ............................................. 25 Sistemas Gestores de Base de Datos Relacionales Mdicos ................ 27 Modelo Propuesto ................................................................................ 29

2.3.1 2.3.2 2.3.3 3. 3.1

Descripcin del Modelo de Almacenamiento ................................................ 30 Entidades, Atributos y Relaciones del Modelo ....................................... 32
iv

3.1.1

3.2

Extensin del Modelo Conceptual ................................................................. 39 Consideraciones sobre el ECG Digital. .................................................. 40 Modelo Entidad Relacin Extendido .................................................... 42 Implementacin Del Modelo y Resultados ......................................... 46

3.2.1 3.2.2 4. 4.1

Esquema de la Base de Datos...................................................................... 47 Notacin del Esquema de Base de Datos .............................................. 48 Presentacin del Esquema de Base de Datos ....................................... 49

4.1.1 4.1.2 4.2

Algoritmos ..................................................................................................... 50 Descripcin y Seudocdigo del Algoritmo Desarrollado ......................... 51

4.2.1 4.3

Extensin al SGBD ....................................................................................... 53 Ventajas del SGBD................................................................................. 55 Caractersticas de PostgreSQL .............................................................. 56

4.3.1 4.3.2 4.4

Descripcin de las Bases de Datos .............................................................. 58 Base de Datos QT .................................................................................. 59 Base de Datos Arritmia ........................................................................... 60 Base de datos PTB................................................................................. 62 Base de Datos del Instituto Nacional de Cardiologa Ignacio

4.4.1 4.4.2 4.4.3 4.4.4

Chvez ............................................................................................................... 63 4.5 4.6 5. Experimentos ................................................................................................ 64 Resultados .................................................................................................... 67 Conclusiones y Trabajo Futuro ........................................................... 69
v

REFERENCIAS ....................................................................................................... 5-1

vi

1. INTRODUCCIN

La combinacin de la Informtica con las Ciencias Mdicas ha permitido el desarrollo de proyectos interesantes. Los frutos de esta combinacin han sido ya identificados en distintos pases, propiciando el desarrollo de polticas para apoyar la investigacin e innovacin en el rea mdica. De acuerdo con Hoffman (2009), en lugares como Australia, Europa y Estados Unidos se ha desarrollado el llamado Expediente Clnico Electrnico (ECE); ste expediente permite a los proveedores de servicios mdicos; as como tambin a organizaciones mdicas, almacenar y compartir informacin relacionada con el paciente y su estado de salud (Ebadollahi et l., 2006). Para el caso de Mxico, el Instituto Mexicano del Seguro Social (IMSS) ha manejado su propa versin de ECE, la cual se encuentra en operacin dentro de clnicas y hospitales desde 2003 (Humpage, 2010), tambin se encuentra presente el Sistema de Informacin para Gerencia de Hospitales (SIGHO), desarrollado en Culiacn, Sinaloa del ao 2003 a 2004 y puesto en marcha en el Hospital General de la misma ciudad. SIGHO es utilizado por hospitales de la Secretara de Salud en Mxico (SIGHO, 2011).

Otra prueba de la evolucin de proyectos relacionados con el rea mdica, son los prototipos enfocados al almacenamiento de datos. Entre los cuales se encuentran el desarrollo de bases de datos para la ejecucin de experimentos de descubrimiento de informacin (Jager et l., 2003; Bent y
1

Echeverri, 2005; Monlen, 2005). Existen tambin herramientas para el anlisis de datos mdicos (Infante et l., 1992; Ebadollahi et l., 2006; Ramakrishnan et l., 2010). Estas herramientas hacen posible la extraccin de informacin en datos mdicos. El resultado de combinar las propuestas de almacenamiento y las propuestas de anlisis construyen los cimientos para aplicar diversas tcnicas de exploracin de informacin aprovechando las investigaciones realizadas en el rea mdica.

1.1

DESCRIPCIN DEL PROBLEMA.

El almacenamiento de datos digitalizados puede llegar a ser tan complicado que algunas veces requiere de un esfuerzo conjunto entre expertos de mltiples disciplinas, incluyendo administradores de proyectos, capturistas, ingenieros en sistemas, administradores de sistemas e investigadores (Dailey, 2010). Hoy en da existen esfuerzos de las ciencias de la

computacin en colaboracin con diferentes reas de investigacin (e.g. geografa, medicina y matemticas) en donde se aplican las tecnologas de la informacin para enfrentar los retos de almacenamiento y procesamiento digital de grandes cantidades de datos. Entre las diferentes reas de investigacin se encuentra la medicina. sta presenta una oportunidad importante para la implementacin de tecnologas de la informacin, pues cuenta con un dominio abundante de datos, que ha sido objeto de diversas propuestas, destacando aquellas que se enfocan en el almacenamiento de datos mdicos (Bent et l., 2005; Jager et l., 2003; Laguna et l., 1997;
2

Monlen, 2005; Moody y Mark, 1991; Vega e Infante, 2010). Trabajos como los de Bent et l. (2005) y Monlen (2005), presentan propuestas para el almacenamiento de datos mdicos, sin embargo su enfoque es plenamente administrativo pues trabaja con datos regulares del paciente (e.g. peso, talla y edad). Las propuestas anteriores no consideran datos ms complejos como Radiografas o Electrocardiogramas (ECG); conocidos tambin como exmenes biomdicos a diferencia de la propuesta de Vega e Infante (2010).

De acuerdo con Kugler et l. (2008), es necesario prestar atencin al almacenamiento y procesamiento de exmenes biomdicos, ya que los dispositivos modernos con los que se realizan estos exmenes producen grandes cantidades de informacin, haciendo evidente la falta de mtodos que apoyen la integracin y resguardo de estos datos. Adems, la integracin y anlisis de exmenes biomdicos permite a los especialistas tener a la mano un sustento ms preciso que avala sus diagnsticos, mejorando as la calidad de los mismos.

1.2

ELECTROCARDIOGRAFA.

Los exmenes biomdicos permiten el anlisis y monitoreo de una gran cantidad de rganos del cuerpo humano. En esta diversidad de rganos se encuentra el corazn. Este es uno de los rganos que mayor importancia tiene para un diagnstico mdico, debido a que se encarga de hacer circular la sangre por nuestro cuerpo. Para realizar esta funcin, el corazn maneja
3

un ciclo rtmico de latidos para el bombeo de la sangre por nuestro sistema circulatorio. Este ciclo rtmico de latidos es motivado por cambios de tensin elctrica en las fibras musculares del corazn, provocando que se dilate y se contraiga (Prez y Velasco, 2005). Al registrar estos cambios en la tensin elctrica es posible graficar una variedad de eventos (i.e. ondas y espacios) que reflejan el comportamiento del ciclo elctrico del corazn. Este comportamiento se encuentra en cierta sincrona con el ciclo de latidos de dicho rgano (Cabrera, 1963). El estudio de esta variedad de eventos permite a los especialistas entender un poco ms el comportamiento de este rgano.

Un examen biomdico que facilita el estudio del corazn es el Electrocardiograma (ECG), un examen no invasivo, al no introducir ningn objeto extrao al cuerpo humano. El ECG consiste en una sencilla exploracin que por medio de electrodos colocados en la piel (ubicados en distintas partes del cuerpo), registra los cambios de tensin elctrica provocados por la actividad mecnica del corazn (Prez y Velasco, 2005).

Goldschlager y Goldman (1992), sealan que las diferentes posiciones donde se pueden colocar los electrodos en el cuerpo del paciente son conocidas como derivaciones. Cada derivacin est enfocada a una cierta rea del corazn. Las derivaciones aportan distintos ngulos de apreciacin en la observacin y anlisis del ECG. Es posible que utilizando una particular combinacin de electrodos la calidad en el registro del ECG mejore para
4

algn evento en particular. El anlisis del ECG permite detectar crecimientos de las cavidades cardacas y alteraciones en el ritmo del corazn. Adems, se emplea para el diagnstico inicial de muchas enfermedades cardacas, permite la deteccin inicial del ritmo del paciente, la bsqueda de arritmias, diagnstico de infarto del miocardio y otros cuadros causados por insuficiencia de la circulacin (Prez y Velasco, 2005). Todas estas detecciones se realizan a travs de un anlisis de distintos patrones que se presentan sobre el ECG.

Goldschalger y Goldman (1992) sealan que con los avances de electrocardiografa ha aumentado enormemente la precisin del diagnstico electrocardiogrfico. Sin embargo, ellos indican que el ECG es solamente una prueba de laboratorio y no la nica herramienta del diagnstico de las enfermedades del corazn, ya que un paciente con enfermedad orgnica del corazn puede tener un ECG normal y un individuo perfectamente normal puede presentar anormalidades no especficas en su ECG. Por lo tanto, el ECG debe interpretarse a la par con los datos clnicos del paciente y la opinin de un experto.

1.3

OBJETIVO GENERAL.

La presente tesis tiene como objetivo general presentar un prototipo de base de datos para el almacenamiento estructurado de ECGs digitales. El diseo de esta base de datos est influenciado por un modelo conceptual de
5

referencia. Este modelo fue actualizado incorporando nuevas entidades y relaciones por sugerencia de un grupo de expertos del Instituto Nacional de Cardiologa Ignacio Chvez (INCICh).

Con la finalidad de poblar la base de datos, se utilizan algunos de los diferentes bancos de ECGs digitales disponibles por la comunidad cientfica; considerando que los ECGs de entre las bases de datos varan en caractersticas como frecuencia de muestreo, duracin en tiempo, nmero de derivaciones, nmero de bits para su codificacin, por mencionar algunas.

Adems, gracias al trabajo realizado en la elaboracin de esta tesis se han estrechado los lazos de colaboracin entre el INCICh y la Universidad Autnoma de Sinaloa (UAS), reconociendo la participacin del INCICh como fuente de datos de ECGs digitales.

1.3.1 Objetivos Especficos. Hacer uso de un Sistema Gestor de Base de Datos (SGBD) de cdigo abierto, para facilitar la construccin de una base de datos de ECGs digitales. Almacenar datos provenientes de distintos bancos de datos mdicos; incluyendo aquellos datos provenientes del INCICh.

1.3.2 Hiptesis Es posible extender la funcionalidad de un sistema gestor de bases de datos para incorporar estructuras de almacenamiento y algoritmos de bsqueda sobre seales de electrocardiogramas digitales.

1.4

JUSTIFICACIN.

Norman et l. (1998) destacan beneficios del ECG; el ECG indica cuando la actividad elctrica del corazn se comporta de manera inusual, tambin permite decidir si es necesario utilizar alguna otra tcnica de diagnstico ms compleja (e.g., ultrasonido, imagen de resonancia magntica o medicina nuclear). Otra caracterstica es que el ECG es un examen de rutina para todo paciente que ingrese a quirfano, lo que acenta su importancia en instituciones mdicas.

Realizar la captura de un ECG beneficia a proyectos de investigacin, ya que en el quirfano un paciente puede presentar alteraciones de inters para los expertos en el rea. Recopilar esos ECGs con alteraciones incrementa la coleccin de datos utilizados en las fases de anlisis y pruebas de algoritmos para el estudio del ECGs. Aunque, como lo sugieren Ramakrishnan et l. (2010), en medicina la falta de estndares que codifiquen y almacenen los datos de los equipos mdicos utilizados por las instituciones, presentan el principal obstculo para la automatizacin del anlisis de dichos datos. El

problema se acenta cuando se analizan ECGs provenientes de dispositivos diferentes.

La alternativa planteada para lograr el almacenamiento de ECGs es la creacin de una base de datos. Considerar la manera ptima de lograr este almacenamiento es crucial para asegurar la continuidad de esta base de datos; parte de estas consideraciones involucran los datos a almacenar. Ya que los tipos de datos a almacenar son datos no estructurados (Ebadollahi et l., 2006), fueron tomadas en cuenta alternativas de bases de datos que almacenaran estos tipos de datos; las cuales, de acuerdo con Stonebraker (2010) y Leavitt (2010), tienen grandes ventajas. Sin embargo los autores tambin indican ciertas desventajas fundamentales que hacen incorrecto el uso de este tipo de base de datos. Desventajas como no implementar una estructura relacional, la falta de un lenguaje estndar de consulta y actualizacin (e.g. lenguaje SQL), y la ausencia de herramientas para la administracin de tipo de bases de datos (Leavitt, 2010; Stonebraker, 2010).

Por lo expuesto anteriormente, consideramos viable la construccin de una base de datos; compuesta por relaciones entre los datos, que facilite el almacenamiento de informacin de manera organizada, tomando en cuenta una futura fase de anlisis sobre los datos almacenados. Adems, este tipo de base de datos facilita generar descripciones de los datos almacenados, derivando en una base de datos que almacena ECGs digitales, con registros

bien documentados y organizados, fomentando el desarrollo de algoritmos para el descubrimiento de informacin en estas bases de datos.

Para construir esta base de datos, es necesario contar con un modelo que describa los datos que sern almacenados. Lamentablemente la literatura no presenta ningn modelo estndar para la creacin de una base de datos de ECGs digitales, complicando la tarea y presentando dos situaciones: (1) No existe un camino trazado, tcnica o pasos a seguir para construir tal base de datos y (2) Se cuenta con la libertad de construir a placer la base de datos sin procurarse por errar al seguir los pasos que dicte algn modelo. Por lo que hacemos uso de un trabajo de investigacin presentado por Vega e Infante (2010), que corresponde a un modelo conceptual para el almacenamiento de ECGs digitales, que presenta relaciones y ciertas definiciones significativas (i.e. caractersticas del ECG) entre los datos almacenados, para realizar procesos de anlisis de informacin en la base de datos. Aun as el modelo fue actualizado, incluyendo nuevas entidades y atributos para ampliar el contexto de almacenamiento y aadir ms detalle a los conceptos del modelo.

Con motivo de elaborar el prototipo de base de datos, decidimos implementar el esquema de base de datos; generado en base al modelo, en un SGBD de cdigo abierto. Con la ayuda del SGBD, esta implementacin ser capaz de realizar futuros procesos de bsqueda de informacin sobre los datos contenidos en la base de datos y facilitar a la comunidad cientfica un
9

repositorio de informacin biomdica. Adems, el SGBD hace posible el intercambio e integracin de informacin entre bases de datos con una estructura similar (Vega e Infante, 2010). Permitir el almacenamiento estructurado, adems de utilizar un sistema que facilite y agilice la administracin, anlisis y transferencia de datos biomdicos; entre otras aplicaciones de las tecnologas de la informacin, apoya al sector mdico reduciendo los costos de operacin (Rao et al. 2010).

Por ltimo, consideramos que integrar los bancos de datos de ECGs digitales descritos en la literatura (Laguna et l., 1997; Goldberger et l., 2000); adems de los datos provenientes del INCICh, a la base de datos de ECGs digitales es un objetivo considerable, con el cual intentamos acercar a la comunidad cientfica un acervo de patrones y datos de inters que puedan tomar en cuenta al momento de realizar proyectos de investigacin biomdica.

10

2. MARCO REFERENCIAL

De acuerdo con Ebadollahi et al., (2006), el rea mdica es reconocida por ser un entorno con una abundante cantidad de datos. Sin embargo, dicha abundancia no aporta informacin en tiempo real a los interesados en esta rea (e.g., investigadores, mdicos, alumnos, maestros), debido a que la etapa de anlisis previa a recabar informacin se realiza de manera personal, donde un especialista revisa personalmente los datos asociados al paciente caso por caso. Este proceso de anlisis mdico es poco eficiente debido a la enorme cantidad de datos existentes. Una manera de mejorar este proceso es involucrar las Tecnologas de la Informacin (TIs).

Las TIs facilitan el desarrollo de modelos y herramientas para organizar y analizar datos. Una propuesta vlida es la creacin de una base de datos, ya que en ella se almacenan todos los datos operacionales que cubren las necesidades de informacin de una organizacin.

Existen muchos tipos de organizaciones y cada una presenta ciertas exigencias y complicaciones, en algunos casos se requiere de un nivel ms alto de atencin y sigilo al momento de definir las necesidades de la organizacin, esto a causa de la complejidad de su naturaleza. Como es el caso de las organizaciones mdicas (hospitales y clnicas). De acuerdo con Ebadollahi et l., (2006), estas son reconocidas por poseer un entorno con
11

una abundante cantidad de datos y satisfacer sus necesidades de informacin es una labor complicada. El uso de TIs en organizaciones mdicas es laborioso, Cantrill (2010) menciona que estas no adoptan rpidamente nuevas tecnologas que puedan sustituir la pluma y el papel para mejorar los procesos administrativos y el descubrimiento de informacin clnica. Sin embargo, al revisar el estado del arte en investigacin biomdica, se observa una evolucin en el uso de las bases de datos como tcnicas de administracin de datos.

En la electrocardiografa; un rea mdica en particular, hay evidencia de bases de datos creadas con el propsito de lograr la adquisicin de los datos. Lo anterior, de acuerdo con Kligfield et l. (2007), no ha sido problema, ya que los avances tecnolgicos; en esta rama de estudio, han llegado a un punto donde la captura de la seal se realiza de manera muy sencilla. No obstante, el tipo de almacenamiento de sus datos presenta deficiencias en cuestiones de su administracin, que corre a cargo del administrador del sistema de archivos, que forma parte del sistema operativo (Jager et al., 2003; Laguna et l., 1997; Moody y Mark, 1991).

Ramakrishnan y Gehrke (2003), sealan que el almacenamiento realizado directamente en el sistema de archivos, compromete la integridad de los datos al no existir un mecanismo que proteja a estos de colisiones en el sistema operativo. Adems, no existe un mecanismo que otorgue un nivel de seguridad en cuestin del acceso a los datos de la base de datos. Este
12

mecanismo de acceso debe evitar la intromisin de usuarios no autorizados a la base de datos.

Las bases de datos de Jager et al., (2003), Laguna et l., (1997) y Moody y Mark, (1991), estn compuestos por grupos que contienen diferentes archivos de datos; entre estos se encuentran archivos de seales, archivos de datos del paciente, archivos que contienen caractersticas de un archivo de seal en particular. La nica semejanza entre los grupos es el nombre con el que estn almacenados. Estas bases de datos han enfocado sus esfuerzos en desarrollar algorimtos para el anlisis de los datos, dejando de lado la implementacin de alguna estructura lgica que permita su organizacin.

2.1

INTRODUCCIN A LAS BASES DE DATOS

De acuerdo con Connolly y Begg (2006) y Date (1995), una Base de Datos es un repositorio para la coleccin de registros de datos computarizados, integrados y compartidos y debido a que una base de datos puede ser vista por el usuario como un solo elemento compartido entre todos los usuarios del sistema, satisfaciendo las necesidades de informacin de una organizacin. Donde organizacin es un trmino genrico que converge para cualquier organizacin comercial, cientfica, tcnica o de algn otro tipo. Al hablar de bases de datos, nos referimos al almacenamiento de datos. Donde un dato

13

puede referirse a cualquier cosa que sea significativa para la organizacin (Date, 1995).

Para llegar a una implementacin slida de una base de datos es necesaria una fase donde se definan los requisitos de informacin que la base de datos deber satisfacer. Connolly y Begg (2006), afirman que esta fase de anlisis es para identificar claramente cules son los requerimientos de

almacenamiento en la organizacin. Una vez hecho el anlisis, se contina con el desarrollo de un modelo de datos donde se describa la estructura utilizada para organizar y almacenar los datos.

Los modelos de datos representan los objetos y sucesos que tienen lugar en el mundo real, con el fin de proveer a los interesados en el sistema con una representacin intuitiva sobre la estructura lgica de la base de datos. Aunque la creacin del modelo de datos puede llegar a ser un tanto compleja, es recomendable dedicar tiempo en definir la estructura lgica que organizar a los datos, para despus enfocarse en desarrollar las aplicaciones que consultarn esta estructura y harn uso de dichos datos.

2.1.1 Modelado de Datos: Modelo Entidad Relacin Conolly y Begg(2006) y Date(1995), sugieren que utilizar un modelo de datos permite visualizar la estructura lgica de la base de datos. Evitar lo anterior puede generar un producto que no resuelva las necesidades de informacin
14

de la organizacin, provocando errores al consultar la base de datos en fases futuras de toma de decisiones, con repercusiones serias para la organizacin.

Un modelo de datos es el modelo Entidad Relacin. Este modelo es una tcnica de diseo de base de datos propuesta por Chen en 1976, en donde se realiza la representacin de un objeto singular o grupo de objetos dentro de la organizacin, los cuales deben ser considerados en la base de datos (Conolly y Begg, 2006; Date, 1995).

El modelo Entidad Relacin utiliza los conceptos de entidad, relacin y atributos. En este modelo una entidad es todo objeto importante para la organizacin, as mismo pueden existir entidades dbiles y entidades regulares. La entidad dbil depende de otra entidad para existir. Por su parte, se considera entidad regular a toda entidad que no es dbil (Conolly y Begg, 2006; Date, 1995). Un ejemplo para ilustrar estos tipos de entidades es el siguiente, considere las entidades Paciente y Estudio Clnico, no puede existir un estudio clnico si no hay un paciente que la solicite, de esta manera se identifica a Paciente como entidad regular y a Estudio Clnico como entidad dbil.

Una relacin es un conjunto de asociaciones significativas entre entidades, posee un nombre que describe su funcin y un grado que representa el nmero de entidades participantes en la relacin. Las relaciones presentan
15

multiplicidad, que corresponde al nmero de entidades que pueden ser asociadas en la relacin (i.e. uno-a-uno, uno-a-muchos, muchos-a-muchos) (Conolly y Begg, 2006; Date, 1995). Utilizando de nueva cuenta las entidades Paciente y Estudio Clnico, imaginemos la relacin Posee entre ambas entidades, de forma que un Paciente Posee un Estudio Clnico. La relacin Posee es de grado dos al involucrar Paciente y Estudio Clnico. La multiplicidad de dicha relacin es de uno-a-uno, debido a que un solo paciente posee un solo estudio clnico. En el modelo Entidad Relacin, un atributo es una propiedad que describe algo caracterstico de una entidad o relacin.

Los atributos cuentan con un dominio propio que representa el conjunto de valores permitidos para uno o ms atributos. Existen distintos tipos de atributos y cada uno de estos permite describir ciertas caractersticas (Conolly y Begg, 2006; Date, 1995). Por ejemplo, un atributo simple puede indicar el nombre de la calle en una direccin, otro atributo del mismo tipo representara el nmero exterior de la casa, combinar estos dos atributos presentara un atributo compuesto. Tambin estn los tipos univariado y multivariado; este ltimo es discutido dentro de la Seccin 3.

Esta tesis basa la estructura lgica de la base de datos en un modelo conceptual para almacenar de manera estructurada electrocardiogramas digitales, presentado por Vega e Infante (2010). En dicho modelo se establecen conceptos y relaciones, modelando la situacin del mundo real en
16

cuanto a captura y almacenamiento de ECGs digitales se refiere y se presenta un diagrama entidad relacin ilustrando las ideas de los autores. El trabajo de Vega e Infante (2010) es nuestro modelo de referencia y as ser referido durante el resto del documento. Una descripcin ms detallada de nuestro modelo de referencia se presenta en la Seccin 3.

2.2

ALMACENAMIENTO DE EXMENES BIOMDICOS.

La importancia del dominio de datos mdico ha sido ya reconocida por distintas naciones, derivando en polticas para la creacin de Expedientes Clnicos Electrnicos (ECE) como acciones estratgicas (Hoffman, 2009). En el caso de Mxico, existen la Norma Oficial Mexicana (NOM) NOM-168SSAI-1998 y NOM-024-SSA-2010, las cuales definen las especificaciones tcnicas para realizar la implementacin del ECE (Humpage, 2010).

Adems, con el paso de los aos, el rea mdica se ha beneficiado de los avances de la tecnologa enfocada al estudio de la composicin y funcionamiento del cuerpo humano. De acuerdo con Ebadollahi et. l., (2006), en las instituciones clnicas se producen distintos tipos de datos de actividades como exmenes o consultas mdicas; en donde se producen exmenes biomdicos. Ejemplos de estos exmenes son las radiografas, exmenes de resonancia magntica y el ECG. Los exmenes biomdicos son un componente importante del historial de un paciente debido a que

17

contienen datos que fundamentan fuertemente un diagnstico mdico (Ebadollahi et l., 2006).

Para los expertos de las instituciones clnicas es relevante contar con alternativas para el almacenamiento de exmenes biomdicos. Monlen (2005), indica que al llevar un control de estos datos, es posible generar historiales digitales de los pacientes. Estos estaran compuestos por registros de todas las patologas presentadas por paciente a la fecha, ya sea que hayan sido observadas en consulta o por medio de exmenes biomdicos.

2.2.1 ECGs Digitales Con los avances de la tecnologa, el ECG pas de ser un trazo sobre una hoja a un archivo digital. La comunicacin entre dispositivos de

electrocardiografa y computadoras hizo posible recopilar ECGs altamente descriptivos (Plotnikov et l., 1999). Desde que la posibilidad de digitalizar los ECG ha estado presente, se han realizado proyectos dedicados a su almacenamiento (Jager et al., 2003; Laguna et l., 1997; Moody y Mark, 1991).

La capacidad de almacenar los ECGs digitales, posibilita su anlisis, desarrollando proyectos que permitan aplicar algoritmos para evaluar, clasificar o comprimir el ECG digital (Sevilla, Infante y Loaiza, 2009; Lara y Vega, 2010). En Mxico, lugares como hospitales, clnicas y consultorios
18

donde

se

practican

exmenes

de

ECG,

utilizan

un

proceso

de

almacenamiento que depende completamente del software para capturar el ECG digital, lo que presenta una falta de medidas de almacenamiento estructurado para realizar bsquedas eficientes dentro del contenido del ECG (Vega e Infante, 2010).

En algunos casos, los archivos de datos almacenan caractersticas del ECG como frecuencia de muestreo, nmero de bits utilizados para codificar los valores y el nmero de derivaciones registradas dentro del ECG, los valores del ECG, algunas caractersticas bsicas del paciente (fecha de nacimiento, raza y gnero), adems de informacin de patologas y medicamentos concernientes al paciente. De acuerdo con Norman et l., (1998), los ECGs digitales deben ser almacenados de manera que su codificacin del bit menos significativo represente no ms de 5V. El autor tambin indica que deben de respetarse las recomendaciones para amplitud y frecuencia de los ECGs digitales propuestas por la Asociacin Americana de Salud (American Health Asossiation).

Cada ECG almacenado debe tener un mnimo de 12 derivaciones; ya que 4 de las derivaciones no son independientes, es posible calcularlas a partir de las 8 que si lo son, as mismo, cada derivacin del ECG debe tener una duracin de al menos 10 segundos. Sin embargo consideramos que algunos dispositivos no permiten almacenar una cantidad mayor a dos derivaciones; un ejemplo son los ECGs de tipo Holter que solo registran dos derivaciones.
19

Plotnikov et l., (1999), consideran que el mismo ECG debe contener informacin sobre su clasificacin, bien sea esta normal o algn otro tipo de cardiopata presente. Tambin plantean el separar algunos eventos presentes en el ECG que son fundamentales (e.g. complejo QRS, intervalo QT, posicin del pico en la onda R o S).

2.2.2 Expediente Clnico Electrnico (ECE) Al contar con un modelo que permita registrar el historial de un paciente; es decir, los exmenes que esta persona ha recibido, los diagnsticos con los que ha sido asociado, los tratamientos que ha tenido, etc., los expertos mdicos tendran a su alcance una herramienta de informacin eficiente para el soporte al diagnstico mdico (Monlen, 2005). Una caracterstica con la que este modelo debe contar es que pueda ser compartido, as si el usuario cambia de especialista, no debiese tener problema para que ste revise su expediente (Cantrill, 2010). Adems, lo anterior permite la colaboracin entre especialistas, resultando en segundas opiniones que podran venir de expertos en reas especficas como cardiologa u oncologa (Rao et l, 2010).

Estos expedientes tambin permitiran un enfoque estadstico, en la busca de tendencias dentro de la poblacin, realizando bsquedas que pudieran encontrar principios de alguna epidemia, evaluar el comportamiento de esta
20

o inclusive encontrar la fuente del brote (Vega e Infante, 2010). Como pudo haber sucedido en la propagacin de H1N1 que ocurri en Mxico en el 2009 (OMS, 2009), si hubiera existido un modelo as.

Otros beneficios prcticos del ECE son la reduccin de errores de oficina y soporte para la toma de decisiones asistida por computadora. Existen especificaciones para la coleccin, intercambio y presentacin de

informacin mdica, las cuales varan de sistema a sistema. Aunado al problema de la estandarizacin de protocolos, se encuentra la

estandarizacin de los datos, esto es, definir el modelado de un ECE, donde se identifiquen los datos que agreguen mayor informacin al expediente (Hoffman, 2009).

El ECE pude llegar a ser an ms descriptivo si integrara exmenes biomdicos. Sin embargo, los exmenes biomdicos tienen como resultado un tipo de dato multimedia, donde por la naturaleza de este tipo de dato, su almacenamiento es diferente al almacenamiento de datos convencionales como los nmeros nominales u ordinales (Ebadollahi et. l, 2006).

2.3

BASES DE DATOS MDICAS.

Como lo menciona Kugler et l., (2008), hoy en da las tcnicas de diagnstico en el rea mdica producen una enorme cantidad de datos en muy poco tiempo, provocando la necesidad de mtodos novedosos para el
21

almacenamiento y procesamiento automtico de datos. Es necesario establecer como primera prioridad el almacenamiento de los datos biomdicos y proponer un modelo de bases de datos que integren eficientemente estos datos. El desarrollo de modelos de almacenamiento conduce su implementacin como base de datos, que pueden ser incluidas en proyectos de investigacin enfocados a la exploracin de datos biomdicos (Vega e Infante, 2010).

2.3.1 Aprovechamiento de Bases de Datos Mdicas La integracin de tecnologas de la informacin en medicina mejora aspectos como el almacenamiento y la transferencia de datos mdicos. El trabajo de Rao et al. (2010) demuestra que es posible realizar transferencias de grandes volmenes de datos mdicos utilizando tecnologas de la informacin para encapsular y enviar estos datos por medio de redes de computadoras, ya que los datos estn distribuidos en diferentes equipos y por medio de estas transferencias pueden ser agrupados y analizados.

Otro ejemplo de investigacin fue presentado por Norman et l. (1998), con el uso de la base de datos de Estndares Comunes para la Cuantificacin Electrocardiogrfica (CSE, por sus siglas en ingls); establecida por la Comisin Europea. Con ella se efectu la evaluacin preliminar de programas de interpretacin de ECGs. En este proyecto se reunieron

22

investigadores industriales y acadmicos con el fin de proponer estudios de diagnsticos sobre el ECG.

El sentido comn indicara que combinar los resultados de los distintos trabajos de investigacin derivara en un sistema robusto encargado de almacenar, analizar y administrar los datos clnicos de diversos pacientes en las instalaciones mdicas presentando informacin fidedigna en tiempo real. Pero el gran obstculo para la integracin de estos proyectos es la falta de protocolos en comn, debido a que cada propuesta utiliza un esquema de operacin o algn tipo de estructura diferente y propietaria. Para llegar a solucionar las necesidades anteriores debe disearse y desarrollarse; en una fase previa a la construccin de las aplicaciones, un modelo que apoye y optimice el proceso de almacenamiento de datos mdicos. El diseo de un modelo para el almacn de tipos de datos mdicos depende entre otras cosas de las dimensiones del proyecto y de los sistemas de informacin que utilicen los datos almacenados.

En el modelo propuesto para el almacenamiento, deben implementarse los estndares existentes en el rea mdica. Ejemplos de estos estndares son mencionados por Ramakrishnan, et l. (2010), tal es el caso de Clasificacin Internacional de Enfermedades v9 (CIE-9), que identifica una enfermedad a travs de cdigos formados por caracteres. Tambin se considera un estndar para la terminologa en los procedimientos clnicos conocido como Terminologa de Procedimiento Actual v4 (CPT-4, por sus siglas en ingls).
23

Asimismo estos estndares son actualizados cada que es necesario por los organismos que los propusieron, como en el caso del CIE-10. Esta versin actualizada del CIE cuenta con ms de 150,000 cdigos de clasificacin disponibles, una mejora considerable respecto a la versin anterior, que contaba con alrededor de 21,000 cdigos de clasificacin. El propsito principal de estos cdigos es realizar un estndar para un mejor seguimiento de enfermedades a nivel mundial (OMS, 1990).

Sin embargo, la aplicacin de estos estndares por parte de departamentos cmo administracin o facturacin, es simplemente para aclarar asuntos de planes de seguro mdico. Este uso no aprovecha completamente el potencial de los estndares, en cambio, utilizarlos en un sistema informtico que apoye la toma de decisiones mdicas aprovecha sus capacidades de descripcin. Asimismo es un reto importante que debe afrontarse de manera preparada.

Cantrill (2010) resalta que lograr la implementacin de un sistema de informacin mdica implica lidiar con muchos inconvenientes que deben ser tomados en cuenta, como presentar una interfaz amigable e implementar una estructura robusta logrando extender la funcionalidad del sistema. El sistema de informacin necesita de una base de informacin, donde se encuentren almacenados los datos. Tambin debe estar preparado para soportar los grandes volmenes de datos, Kugler et l., (2008), indica que el almacenamiento de datos mdicos tiene un crecimiento de informacin,
24

medido en dos dimensiones: (1) El nmero de bases de datos disponibles y (2) El tamao de las bases de datos (cantidad de datos). Considerar las observaciones del autor puede ser fundamental para la elaboracin de una base de datos que almacene informacin biomdica.

2.3.2 Experiencia con Bases de Datos Mdicas El uso de sistemas relacionales permite vincular los datos a travs de relaciones, que logran establecer un nivel de referencia ms explcito. Elaborar referencias entre los datos permite su asociacin y con esto el desarrollo de algoritmos que ayuden a descubrir conocimiento en estas bases de datos. No obstante, la revisin de literatura nos deja solo con ejemplos de bases de datos que carecen de una implementacin relacional (Laguna et l., 1997; Kreiseler y Bousseljo, 1995; Moody y Mark, 1991). Utilizar bases de datos relacionales permite beneficios como integrar meta datos, definir polticas de seguridad de acceso a los datos e incluir todo lo anterior dentro de la base de datos.

Establecer un nivel de seguridad delimita quien manipula los datos en la base de datos, asegurando que solo personal autorizado tenga acceso a cierto tipo de informacin. Gretz y Hill (1998) proponen la alternativa de definir grupos, evitando otorgar permisos de manera individual, en cambio, son asignados a una clasificacin, que bien podra ser el rol que el empleado desempea. Un ejemplo de grupos seran: enfermeras, mdicos y tcnicos.
25

Definiendo las restricciones de estos grupos se evita que exista autorizacin en cascada, donde un usuario puede asignar privilegios a otro y este a su vez a otro.

Considerando la parte del contenido de la base de datos, Gretz y Hill (1998), destacan el Problema de Inferencia. En el caso de los sistemas biolgicos; donde existe un alto grado de interrelacin entre los datos, el proceso de normalizacin de dichos datos es una tarea imposible. No es que no se pueda normalizar los datos en un sentido tcnico, pero es imposible eliminar la redundancia por parte de la fisiologa presentada por el paciente; es decir, no se puede cambiar un diagnstico de un pacient e de falla de hgado a falla de rin, sin antes alterar todo el historial del paciente (e.g. todos los exmenes de laboratorio, los exmenes fsicos, y los tratamientos ya aplicados).

La literatura cubre distintos proyectos que presentan una implementacin de una base de datos mdica utilizando diferentes SGBDs (Monlen, 2005; Bent y Echeverri, 2005; Kugler et al., 2008). Sin embargo, las opciones varan entre utilizar alternativas como sistemas de almacenes de datos, implicando complicaciones al integrar sus componentes (e.g. aplicaciones, frameworks, lenguajes de programacin) (Kugler et al., 2008) o utilizar la base de datos en un contexto plenamente administrativo, dejando de lado los retos de administracin de exmenes biomdicos (Monlen, 2005; Bent y Echeverri, 2005).
26

2.3.3 Sistemas Gestores de Base de Datos Relacionales Mdicos Existen trabajos que presentan la implementacin de SGBDs (Kugler et al., 2008; Bent y Echeverri, 2005; Monlen, 2005) enfocados directamente a la problemtica de anlisis de datos biomdicos. En estos trabajos la capacidad de anlisis del gestor es extendida utilizando funciones externas; debido a que el SGBD no cuenta con las herramientas necesarias para analizar datos biomdicos. La falta de herramientas para anlizar o almacenar datos biomdicos est vinculada a la ausencia de estndares de almacenamiento de este tipo de dato. Esto puede ser relacionado a la complejidad de los tipos de los datos biomdicos, conocidos tambin como datos multimedia; clasificados como documentos de texto, imagen y video, al igual que seales biomdicas. Estos datos no estructurados, tienen una mayor complejidad a los tipos manejados convencionalmente por los SGBDs (Ebadollahi et al., 2006).

El estado del rte no reporta algn criterio previo para realizar implementaciones de bases de datos utilizando algn SGBD e incorporando exmenes biomdicos, dejando el camino abierto para el desarrollo de distintas propuesta. Es necesario destacar que los SGBDs relacionales no son las nicas opciones, la literatura menciona una nueva tendencia de bases de datos, de acuerdo con Leavitt (2010) y Stonebraker (2010) un nmero creciente de desarrolladores y usuarios respalda diversos tipos de bases de datos no estructuradas con frecuencia llamadas bases de datos

27

NoSQL. Sin embargo; pese a que estas alternativas poseen un mejor desempeo en el manejo de datos no estructurados (datos multimedia), su enfoque no permite asociar relaciones de manera estructurada, adems no implementan un lenguaje de consulta estndar; como el lenguaje SQL. Las bases de datos NoSQL, no se basan en los principios relacionales necesarios para cumplir con los objetivos de esta tesis.

28

3. MODELO PROPUESTO
Nuestro modelo de referencia; introducido en la Seccin 2.1.1, presenta una estructura para crear una base de datos de ECGs digitales. La estructura fue presentada y revisada en colaboracin con distintos expertos que laboran en el Instituto Nacional de Cardiologa Ignacio Chvez (INCICh).

El uso de protocolos en comn eventualmente genera un estndar. En el trabajo de Hoffman (2009), se menciona que un detalle crucial para encontrar el punto medio entre la diversidad de protocolos es realizar un balance entre estandarizacin; asegurando la interoperabilidad y el intercambio de informacin, y flexibilidad; comunicando a los sistemas y sus diferentes arquitecturas. Como parte de esta tesis, extendemos el modelo de referencia integrando el estndar Internacional para la Clasificacin de Enfermedades en su dcima versin (CIE-10) (OMS, 1990).

El CIE-10 es utilizado actualmente por distintos programas del rea mdica. Un ejemplo son los sistemas de informacin del Instituto Mexicano del Seguro Social (IMSS), donde se implementa esta clasificacin para documentar el ingreso de un paciente, registrando sus sntomas, y las posibles enfermedades con las que pudiese estar contagiado (Humpage, 2010). EL CIE-10 est compuesto por cdigos agrupados por clasificaciones, que a su vez pertenecen a bloques. As mismo, cada bloque en el CIE-10, pertenece a un ttulo que los agrupa de forma ms general.
29

3.1

DESCRIPCIN DEL MODELO DE ALMACENAMIENTO

Es ahora el turno de presentar una alternativa que aporte mecanismos para preservar la integridad de los datos, sin descuidar aspectos de disponibilidad ni mecanismos para la proteccin de dichos datos. La alternativa que este trabajo propone es una base de datos diseada a partir de un modelo conceptual de referencia.

En esta referencia, son descritas las relaciones que describen la estructura lgica de la base de datos, con la finalidad de incorporar los conceptos necesarios que intervienen en el proceso de adquisiscin de ECGs digitales. Una bondad de nuestro modelo de referencia es su postura como alternativa de almacenamiento estructurado de ECGs.

El diagrama que se presenta en la Figura 3.1, pertenece a nuestro modelo de referencia. Aqu se captura, en un modelo lgico, las diferentes entidades que representan la forma de almacenar un ECG digital en una institucin de salud, tomando como ejemplo al INCICh (Figura 3-1).

30

Figura 3.1 Un Modelo Entidad-Relacin para el Almacenamiento de ECGs Digitales.

Las relaciones presentes involucran a las entidades Paciente, Consulta, Sntoma, Electrocardiografa, Derivacin e ndice. Para almacenar un ECG digital, el Paciente acude a una Consulta en donde son capturados sus Sntomas. En la consulta, al paciente se le realiza un estudio de Electrocardiografa, en el cual son capturadas todas las Derivaciones que el examen de electrocardiografa permita. Cada derivacin del ECG puede presentar eventos de inters para el experto, es decir ndices que pudieran aportar informacin en una futura fase de anlisis de datos (Figura 3.1).

31

Ntese que aunque en este caso se hace especfico el estudio (ECG), el modelo de referencia puede ser extendido para anexar cualquier otro tipo de estudio sin que la estructura propuesta para la base de datos sufra modificaciones mayores. Los enfoques de implementacin de bases de datos varan, como tambin varan los SGBDs utilizados para llevar a cabo estas implementaciones.

Lo anterior se ve presente en las bases de datos relacionales, donde los datos son presentados al usuario de manera estructurada como tablas. Proyectos recientes (Kugler et. l., 2008; Ebodallahi et. l, 2006; Bent y Echeverri, 2005; Molen, 2002) hacen uso de este tipo de base de datos logrando organizar la informacin. Sin embargo, antes de empezar la fase de implementacin es necesario realizar el diseo de la base de datos.

3.1.1 Entidades, Atributos y Relaciones del Modelo Como parte de la interpretacin del modelo de referencia, deben describirse los conceptos y atributos que lo integran. As es posible asociar el significado del concepto y del atributo, es decir, lo que representa.

A continuacin se describen los conceptos y sus atributos correspondientes, dentro de nuestro modelo de referencia, tambin es anexado al final de cada lista de atributos una representacin grfica y una breve descripcin de las relaciones ente la entidad descrita y otras pertenecientes al modelo.
32

Paciente. Esta entidad representa al paciente que acude al hospital, clnica o institucin de salud, lo caracteriza los atributos indicados a continuacin y que se ilustran en la Figura 3.2: Fecha de Nacimiento; indica el da, mes y ao de nacimiento del paciente. Lugar de Nacimiento; indica la ciudad, municipio, estado y pas donde el paciente naci. Gnero; indica el gnero del paciente, masculino o femenino. Identificador del Paciente; corresponde a un identificador nico para el paciente.

Figura 3.2 La entidad Paciente y sus atributos.

Cabe mencionar que para mantener un nivel de confidencialidad en la base de datos, el nombre del paciente no se incluye como atributo en el modelo. La entidad Paciente se encuentra vinculada con la entidad Consulta, con una multiplicidad de uno-a-muchos, es decir, un solo paciente puede realizar muchas consultas. Adems un paciente acude a una consulta, por lo tanto,
33

no puede existir una consulta si ningn paciente acude. Esto indica que consulta es una entidad dbil, ya que depende de Paciente.

Consulta. Esta entidad representa cada ocasin en que el paciente acude a consulta a un centro de salud. Sus atributos son descritos enseguida y pueden ser visualizados en la Figura 3.3. Fecha, fecha en la que el paciente asisti a consulta. Peso, peso del paciente para la consulta actual. Talla, talla del paciente para la consulta actual. Signos, signos vitales del paciente para la consulta actual. Diagnstico, diagnstico que fue indicado por el mdico en la consulta actual. Tratamiento, tratamiento que fue indicado por el mdico para la consulta actual.

Figura 3.3 La entidad Consulta y sus atributos

34

Note que todos los atributos son caractersticas que varan con el tiempo, por lo tanto es necesario registrarlas en cada oportunidad y anotarlas con la fecha de registro. Como se ilustra en la Figura 3.1, la entidad Consulta se vincula a la entidad Sntoma, con una multiplicidad de uno-a-muchos, de tal forma que una consulta puede tener muchos sntomas registrados. Sin embargo no puede registrarse un sntoma si no existe una consulta en donde estos se capturen.

Electrocardiografa.

Esta

entidad

representa

un

estudio

de

electrocardiografa realizado al paciente, sus atributos se describen adelante y pueden ser vistos en la Figura 3.4: Tipo de Electrocardiografa; identifica el tipo de ECG realizado. Frecuencia de Muestreo; indica la frecuencia de muestreo con la que el ECG fue registrado. Longitud, representa la longitud del ECG en base al nmero de registros que posee. Ancho de Banda; representa el ancho de banda del ECG registrado, es decir los valores mnimo y mximo que pueden tomar los valores del ECG. Fecha, la fecha de la captura del ECG.

35

Figura 3.4 La entidad Electrocardiografa y sus atributos

La entidad Electrocardiografa est vinculada con la entidad Paciente, con multiplicidad muchos-a-uno, ya que cada examen de ECG pertenece a un paciente en particular, este paciente puede tener muchos exmenes de electrocardiografa; como lo indica el modelo (Figura 3.1).

Sntomas. Esta entidad indica las caractersticas que un paciente puede presentar en una consulta dada. La captura de los sntomas permite al especialista realizar un diagnstico certero. Estos pudieran dar indicios de algn padecimiento, es decir, de algo que no es normal o que no est bien de acuerdo con el especialista. La Figura 3.5 es la representacin grfica de la entidad y sus atributos descritos a continuacin: Descripcin, en este atributo se describen las caractersticas del sntoma que presenta el paciente.

36

Figura 3.5 La entidad Sntoma y sus atributos

Esta entidad est relacionada con la entidad Consulta, con multiplicidad cero o mas-a-uno, donde, dada una consulta, se captura ninguno, uno o ms sntomas que el paciente presente, de manera que cada sntoma capturado fue observado en una consulta en particular (ver Figura 3.1).

Derivacin. Esta entidad modela las seales que componen al ECG. Un ECG estndar est compuesto de 12 derivaciones, sin embargo existen dispositivos que registran una cantidad menor de derivaciones. Tal es el caso del dispositivo Holter, que solamente almacena dos derivaciones. Tomando en cuenta que existen este tipo de dispositivos, el modelo de referencia almacena cada derivacin de manera individual. La Figura 3.6 presenta de forma grfica a la entidad. Los atributos se listan a continuacin: Seal, representa los datos de la derivacin. Ubicacin del Electrodo; ubicacin del electrodo, posicin en la que se encuentran los electrodos.

37

Muestreada; indica si la muestra es generada de manera sinttica o si proviene de un examen real.

Anotaciones; Observaciones del experto

Figura 3.6 La entidad Derivacin y sus atributos

La

entidad

Derivacin

se

encuentra

relacionada

con

la

entidad

Electrocardiografa con multiplicidad muchos-a-uno, ya que una derivacin o un grupo de estas pertenecen a un solo ECG (Figura 3.1).

ndice. En esta entidad se registran caractersticas interesantes que pertenecen a una derivacin. Dichas caractersticas hacen referencia a las mediciones de eventos que son de inters para el experto y que se presentan en el ECG (Figura 3-7): Descripcin, detalles del ndice. Valor, valor del ndice.

38

Figura 3.7 La entidad ndice y sus atributos

Este ndice tiene distintas naturalezas, por eso en necesario registrar su descripcin, as como el valor que tom para dicha medicin o caracterstica. La entidad ndice est relacionada con la entidad Derivacin, con multiplicidad muchos-a-uno, ya que cada derivacin presenta un conjunto de caractersticas que son relevantes y es necesario registrarlas. No puede existir un ndice si no hay una derivacin de donde provenga.

3.2

EXTENSIN DEL MODELO CONCEPTUAL

Basados en la opinion de los expertos que laboran en el INCICh, se extendi el modelo de referencia, agregando entidades y actualizando algunas otras. Una motivacin para renovar el modelo fue integrar el CIE-10; aportando un estndar a la base de datos. Ramakrishnan et. l, (2010) sealan que utilizar el CIE-10 permite el seguimiento de enfermedades a nivel mundial. En la pgina oficial de la OMS se describe el contenido de la clasificacin (OMS, 1990).
39

Asimismo en el proceso de extensin del modelo se cont con asesora directa por parte de los especialistas de INCICh que dieron sus opiniones con respecto a la estructura. El personal del INCICh recomend redefinir atributos de las entidades Consulta y Derivacin. Tambin fue considerado el estado del arte de almacenamiento de ECGs, en donde se rescatan caractersticas fundamentales de este exmen biomdico.

3.2.1 Consideraciones sobre el ECG Digital. Las recomendaciones y consideraciones; que se encuentran en la literatura sobre el ECG digital, estn enfocadas a la definicin y estandarizacin de las caractersticas del ECG y otros datos que deben acompaar su descripcin. Kligfield et al. (2007), destac caractersticas y consideraciones respecto al almacenmaniento de ECGs digitales:

Filtrar el ECG, con un ancho de banda entre 1 y 30 Hz; esto produce una seal que est generalmente libre de ruido. Sin embargo, existen aspectos para propsitos de investigacin que son importantes, utilizar un filtro con un ancho de banda entre 1 y 30 Hz produce una seal con distorsiones entre sus componentes de alta y baja frecuencia.

Frecuencia de muestreo del ECG, sta es fundamental para los ECGs digitales, debido a que a mayor frecuencia de muestreo se encuentre registrado el ECG, los eventos dentro de este se observan con mejor
40

calidad, pero incrementar esta frecuencia tambin incrementa el tamao del ECG. Derivaciones, El uso de las 12 derivaciones en el ECG, adems de ser un estndar, son de gran ayuda para el anlisis de esta seal, ya que agregan perspectivas al monitoreo de los eventos presentes dentro del ECG. Nmero de bits, conocer el nmero de bits utilizados en el registro de la seal, permite el proceso de lectura del ECG digital.

El ECG digital debe tener una codificacin tal que el bit menos significativo represente no ms de 5V, esto de acuerdo con Norman et l. (1998). En el caso del nmero estndar de derivaciones, todos los autores indican que deben almacenarse las 12 derivaciones estndar del ECG digital. Sin embargo aseguran que es posible utilizar ocho derivaciones (I, II, V 1, V2, V3, V4, V5 y V6) y con ellas calcular el resto de las derivaciones que no son independientes (III, aVL, aVF, aVR) (Kligfield et l., 2007; Plotnikov et l., 1999; Norman et l., 1998). An as, aunque se realice un postprocesamiento a la seal, Kligfield et l., recomiendan que es necesario etiquetar los ECGs cuyas derivaciones han sido obtenidas en dicho procesamiento.

Los expertos recomiendan indicar explcitamente el tamao del ECG, ya sea en bytes, en tiempo, o en muestras. Tambin se deben especificar detalles del paciente (datos demogrficos, gnero, fecha de nacimiento e informacin
41

de patologas y medicamentos). Asimismo, la duracin mnima del ECG debe ser de 10 segundos. (Kligfield et l., 2007; Plotnikov et l., 1999; Norman et l., 1998).

3.2.2 Modelo Entidad Relacin Extendido Los expertos del INCICh recomendaron cambios en las entidades de Consulta y Derivacin. En el caso de la entidad Consulta, el atributo diagnstico es considerado como un atributo multivaluado. De acuerdo con Conolly y Begg (2006), estos atributos poseen ms de un valor en cada aparicin del atributo.

En el caso del atributo diagnstico, no puede ser representado con un solo valor, debido a que en una consulta, un paciente puede ser asociado a ms de un solo diagnstico. Lo mismo ocurre en la entidad Derivacin, al tener ms de una anotacin para cada derivacin, las anotaciones del experto evalan la seal de ECG, indicando en qu posicin de tiempo ocurri algn evento de inters, como puede ser un latido, o el inicio de una cardiopata.

A manera complementaria se extiende el modelo agregando el CIE-10; presentado brevemente al inicio de este captulo. Al ser el CIE-10 una lista de claves para los diagnsticos, se consider separar el atributo diagnstico de la entidad Consulta. Implementar un estndar internacional que ayude a la

42

clasificacin de lo que se ha observado en el paciente, habilita a los expertos para compartir sus opiniones con otros expertos alrededor del mundo.

La multiplicidad de las entidades; el nmero de entidades que se pueden llegar a involucrar dada una relacin (Date, 1995), queda igual. La multiplicad es descrita de la forma Smbolo : Smbolo, se utilizan los smbolos N y 1. Donde N representa muchas entidades y 1 solamente una entidad, para relacionar ambos nmeros se utiliza : que representa la cantidad de entidades corresponden en cada parte de la relacin.

De esta forma, un paciente puede recibir muchas consultas, esto equivale a la relacin entre Paciente y Consulta 1:N. Del mismo modo, en una consulta pueden registrarse muchos sntomas; representado como Consulta y Sntoma 1:N. Adems en la misma consulta el especialista puede opinar sobre el caso del paciente y sentenciar un diagnstico. Sin embargo cada consulta puede ser revisada despus por otro especialista y si este al

observar los datos delibera que puede ser otro diagnstico diferente debe indicarlo, de manera que puede existir ms de un diagnstico para una consulta en particular (Figura 3-8). Inclusive; de acuerdo con los expertos en el INCICh, un especialista puede definir ms de un diagnstico para un mismo paciente en una consulta en particular, de aqu que el atributo sea considerado multivaluado.

43

El diagrama que se muestra en la Figura 3-8, contiene la misma descripcin de entidades expuestas dentro de la Seccin 3.1.1, a excepcin del atributo diagnstico y el atributo anotacin. En lo que se refiere al diagnstico, muchos diagnsticos estn asociados con una clasificacin, representada como Diagnstico y Clasificacin_CIE-10 N:1. Esta clasificacin a su vez se relaciona con un bloque que agrupa un nmero de clasificaciones; la multiplicidad entre Clasificacion_CIE-10 y Bloque_CIE-10 es de la forma N:1, ya que es el bloque el que engloba a las clasificaciones. Lo mismo ocurre entre Bloque_CIE-10 y Captulo_CIE-10. Estas relaciones ayudan a modelar la estructura del diagnstico utilizando el CIE-10.

Para el caso del atributo anotacin, presente en la entidad Derivacin (Figura 3-6), se not que este atributo va relacionado con la seal de ECG. Las observaciones se van realizando conforme se revisa el ECG de un paciente, adems, puede darse el caso de que exista ms de una observacin, es decir, el especialista que analiza el ECG se percata de diferentes caractersticas que ocurrieron en el ECG. Un ejemplo de esto es el estudio de los latidos del corazn, en el se identifican el inicio y fin de un latido, llevando un registro del tiempo en donde ocurrieron. Esto sustenta la decisin para tratar al atributo como multivaluado. El modelo extendido resultante puede verse en la Figura 3-8.

44

Figura 3.8 Diagrama E-R de la base de datos actualizado

45

4. IMPLEMENTACIN DEL MODELO Y RESULTADOS


Como parte final de este documento, se describen los resultados y conclusiones obtenidos al haber implementado la metodologa descrita en la Seccin 3, generando un esquema de base de datos que describe nuestra implementacin a un nivel ms detallado que el modelo presentado en la Seccin 3.2.2 (Vase Figura 3.8).

Tambin evaluamos la bondad del gestor utilizado al integrarle nueva funcionalidad, que permite realizar bsquedas por semejanza de patrones de inters. En base a las bsquedas, consideramos que el SGBD es eficiente al ejecutar las bsquedas por semejanza. El algoritmo desarrollado para estas bsquedas se muestra ms adelante.

Asimismo presentamos alternativas de este tipo de bsquedas y discutimos su desempeo en base a su tiempo de ejecucin. Adems comprobamos que es posible realizar la implementacin de una base de datos para almacenar ECGs digitales, partiendo de un modelo conceptual. A su vez es posible implementar tcnicas de minera de datos sobre ella. Por ltimo, establecemos nuevos propsitos que motivan el seguimiento de este proyecto que bien puede ser conjugado con nueva tecnologa para el estudio de ECGs o para la administracin de datos clnicos.

46

4.1

ESQUEMA DE LA BASE DE DATOS

El esquema de una base de datos representa el diseo conceptual de la base de datos (Conolly y Begg, 2006), utilizando una notacin para describir a los elementos que lo integran pude ser deducido del modelo Relacional. Una relacin est compuesta por tuplas (filas); dentro de una relacin no existen tuplas duplicadas. Para asegurar que una tupla sea nica, se utilizan atributos (columnas) que identifiquen a cada tupla en una relacin de forma unvoca. Un atributo representa una propiedad considerada en una relacin. Cada atributo de una relacin est definido sobre un domino que permite a los usuarios definir el origen y significado que los valores de los atributos pueden adoptar, evitando realizar operaciones que son semnticamente incorrectas (Date, 1995).

Otro concepto en el modelo relacional son las claves. Una clave consiste en un atributo que identifica de manera nica a una tupla, pueden dividirse en claves candidatas, claves primarias y claves forneas. Una clave candidata es un subconjunto del conjunto de atributos en una relacin, tal que estos sean nicos para cada tupla. A la clave candidata elegida para representar a la tupla se le conoce como clave primaria.

Por otra parte, la clave fornea de una relacin corresponde a la clave principal de una tupla dentro de alguna relacin. Estas claves se utilizan para ligar dos relaciones (Date, 1995). El uso de claves permite establecer reglas

47

en la base de datos a fin de representar la realidad, estableciendo un nivel de integridad en los datos (Conolly y Begg, 2006; Date, 1995).

4.1.1 Notacin del Esquema de Base de Datos El modelo conceptual de la base de datos fue descrito en la Seccin 3.2.2 y est expresada grficamente en la Figura 3.8. Ahora se presenta en forma de un esquema de la base de datos, donde la notacin utilizada en nuestro esquema es aquella propuesta por Codd, presente en el trabajo de Date (1995), con el formato siguiente:

Nombre_de_la_relacin ( atributo_1, atributo_2, atributo_3, atributo_n )

En caso de que el atributo se encuentre en forma itlica, esto indica que es la clave principal de la relacin. Todo atributo que se encuentre expresado con un formato de texto de la forma subrayada e itlica, indica que se trata de una clave fornea. La notacin para las claves forneas estar dada como:

Nombre_de_la_relacin.atributo

Esta notacin puede separase en dos partes mediante el smbolo .. Donde la primera parte indica la relacin de origen de la clave fornea. La segunda parte indica la clave principal de la relacin de donde proviene la clave fornea.
48

4.1.2 Presentacin del Esquema de Base de Datos El esquema de la base de datos se indica a continuacin en la Figura 4.1. Este diseo aporta nuevos caminos de investigacin, ya que incorpora a la comunidad cientfica una estructura lgica para elaborar una base de datos de ECGs digitales, con la que distintos gremios cientficos pueden realizar proyectos interdisciplinarios para el desarrollo de distintos tipos de anlisis estadsticos para descubrir cul es la asociacin de diversas variables de inters con respecto al ECG.

Paciente ( ID_Paciente, Fecha_Nacimiento, Genero, Lugar_Nacimiento )

Electrocardiografia ( ID_Electrocardiografia, Paciente.ID_Paciente, Tipo_Electrocardiografia, Frecuencia_Muestreo, Longitud, Ancho_Banda, Fecha )

Derivacion ( ID_Derivacion, Electrocardiografia.ID_Electrocardiografia, Seal, Ubicacin_Electrodos, Tipo_Muestra, Anotaciones )

Indice ( ID_Indice, Derivacin.ID_Derivacion, Valor, Descripcion )

Consulta ( ID_Consulta, Paciente.ID_Paciente, Peso, Talla, Diagnostico, Tratamiento )

Sintoma ( ID_Sintoma, Consulta.ID_Consulta, Descripcion )

Consultas_Diagnosticos(Consulta.ID_Consulta, Diagnostico.ID_Diagnostico)

Diagnstico_CIE-10 (ID_Diagnostico, CIE-10_Bloque.ID_Bloque, ID_ClasificacionCIE10, Descripcion )

CIE-10_Capitulo ( ID_Capitulo, Descripcion )

CIE-10_Bloque ( ID_Bloque, CIE-10_Capitulo.ID_Capitulo, Descripcion )

Figura 4.1 Esquema de la base de datos.

49

4.2

ALGORITMOS

Con la gran acumulacin de datos clnicos en bases de datos mdicas resulta imposible para los expertos realizar el proceso de anlisis sin el uso de herramientas que los asistan. En necesario desarrollar modelos de cmputo que permitan la estructuracin, almacenamiento y organizacin de los datos mdicos, para que operaciones de bsqueda de patrones de inters puedan realizarse de manera eficiente. Estas bsquedas son el eje central en el desarrollo de tcnicas de minera de datos que permitan extender la frontera del conocimiento, al asistir en el proceso de extraccin de conocimiento de los datos (Vega, 2011).

Para efectos de evaluar el desempeo de la implementacin del modelo propuesto, se desarroll un algoritmo que realiza bsquedas de semejanza utilizando los ECGs almacenados en la base de datos. Estos algoritmos son muy conocidos por los expertos en la minera de datos para la identificacin de patrones, al ser los algoritmos bsicos en estas tareas de bsqueda de informacin (Thung et l., 2006).

En este trabajo desarrollamos un algoritmo que implementa bsqueda de patrones, con el fin de detectar patrones de comportamiento en las seales biomdicas que permitan explicar los fenmenos bajo estudio. La implementacin del algoritmo consult los ECGs almacenados en la base de datos propuesta y desarrollada en esta tesis.

50

4.2.1 Descripcin y Seudocdigo del Algoritmo Desarrollado La bsqueda por semejanza compara un patrn de bsqueda en particular frente a un conjunto de datos. En este caso, el conjunto de datos representa un subconjunto de todas las seales de electrocardiografa almacenadas en la base de datos. Sea E una base de datos de ECGs digitales y Ei E , una derivacin de ECG de longitud N. Sea T un patrn de referencia de longitud n. El algoritmo compara al patrn T con cada posible subsecuencia en Ei de longitud n. El objetivo es encontrar la posicin en Ei , donde inicia la subsecuencia de Ei con longitud n que ms se asemeje al patrn de referencia T.

El proceso se repite para cada Ei E . El resultado del algoritmo es el valor de i, indicando la derivacin que contiene la subsecuencia ms semejante al patrn T, as como la posicin j en donde esta subsecuencia inicia en la seal Ei . En cada comparacin frente un dato y un patrn, el algoritmo compara cada i-sima posicin del patrn frente a cada i-sima posicin del dato hasta llegar a n posiciones. Es decir, el recorrido se realiza, comparando todas las posiciones del patrn; empezando desde la primera posicin y mientras se cumpla que la posicin actual es menor que la longitud total de la seal de ECG menos n (la longitud establecida para el patrn, vase Figura 4.2).

51

Busqueda_NN_Archivos. Datos de entrada: Lista de todos los blobs, blob de consulta, tamao del patrn. Datos de salida: Mejor patrn INICIO Avance 0 Distancia 0 Mejor_Distancia Mejor_Patron MIENTRAS Datos Tomar siguiente ECG HACER MIENTRAS Avance < Longitud(Datos) Tamao_Patron HACER Distancia Evaluar(Datos[Avance : Avance + Tamao_Patron], Consulta[0 : Tamao_Patron], Tamao_Patron)

SI Distancia < Mejor_Distancia ENTONCES Mejor_Distancia Distancia FIN_SI Avance Avance + 1 FIN_MIENTRAS

SI Mejor_Distancia < Mejor_Patron ENTONCES Mejor_Patron Mejor_Distancia FIN_MIENTRAS DEVOLVER Mejor_Patron FIN
Figura 4.1 Algoritmo para la bsqueda de patrones en ECGs digitales

52

El pseudocdigo utiliza la funcin Evaluar, para calcular la Distancia de Euclides entre la derivacin Ei y el patrn T. Tradicionalmente se ha

considerado a la distancia de Euclides como un buen estimador de la semejanza entre patrones. Se asume que la semejanza es inversamente proporcional a la distancia de Euclides. De manera que el par de patrones con mayor semejanza es aquel separado por la menor distancia de Euclides. La Distancia de Euclides representa la distancia entre seales S y C de tamao n, es la sumatoria del cuadrado de las diferencias de cada elemento

si S y ci C , ilustrado en la Ecuacin 1.

Ecuacin 1

D( S , C )

s
i 1

ci

(1)

4.3

EXTENSIN AL SGBD

Al mencionar el SGBD, es necesario conocer antes un poco del Modelo Relacional. El modelo relacional presenta la base terica del SGBD, que permite tratar con la semntica de los datos y con los problemas de coherencia y redundancia. Este modelo fue propuesto por Codd en 1970, se enfoca en tres partes (Conolly y Begg, 2006; Date, 1995): (1) La estructura de la base de datos; donde implementa relaciones matemticas para
53

visualizar los datos como tablas. (2) La manipulacin de los datos; esta se refiere a las operaciones realizadas sobre las tablas; las cuales producen nuevas tablas. El concepto de tabla solo hace referencia a la estructura lgica utilizada para presentar los datos. (3) La integridad, esto se logra a travs del uso de claves entre las tuplas de las relaciones. Este modelo otorga a los datos un grado de independencia con respecto a su representacin fsica en la base de datos (Conolly y Begg, 2006).

El

modelo

relacional

aporta,

efectivamente,

la

parte

relacional;

estructurada, a la base de datos. Presenta los conceptos de relacin, tupla, atributo, clave. Aunque existen conceptos en comn con el modelo entidadrelacin (Seccin 2.1.1), su significado no es el mismo. Para el modelo relacional, una relacin es la forma de visualizar la informacin acerca de objetos que hay que representar en la base de datos; esto es en forma de tablas.

El SGBD utilizado fue PostgreSQL en su versin 8.4.5. La eleccin de este gestor de cdigo libre se debi a su amplia gama en los argumentos que poseen sus funciones, adems permite el almacenamiento de objetos de gran tamao en su formato binario; de esta forma es posible almacenar el ECG en la base de datos. Asimismo PostgreSQL cuenta con mecanismos para el desarrollo de funciones externas que permiten la creacin de datos tipo tabla como valores de resultado, a diferencia de otros gestores como MySQL (PGDG, 2011).
54

4.3.1 Ventajas del SGBD El SGBD es una capa de software superior que proporciona un escudo a los usuarios de la base de datos, protegindolos de los detalles de la capa de nivel fsico (e.g., estructuras de datos, funciones de acceso a datos del sistema operativo). Los detalles de nivel fsico son considerados cuando el almacenamiento de datos corre por cuenta solamente del administrador de archivos. El SGBD utiliza estrategias de administracin ms elaboradas que aquellas presentes en los trabajos de Jager et al., (2003), Laguna et l., (1997), Moody y Mark, (1991), aportando ventajas como la reduccin de redundancia en los datos, al no duplicar el contenido; a diferencia del almacenamiento basado en archivos (Conolly y Begg, 2006).

Utilizando un SGBD es posible detectar y/o evitar inconsistencia e implementar concurrencia, ya que este cuenta con mecanismos de seguridad para el acceso y manipulacin de los datos. Tambin existen gestores que cuentan con soporte a distintas tecnologas como XML, datos geoespaciales, adems tienen a su disposicin diferentes Interfaces para la Programacin de Aplicaciones (APIs, por sus siglas en ingls), para la comunicacin entre ellos y distintos lenguajes de programacin (PGDG, 2011). El gestor implementa el Lenguaje Estructurado de Consulta (SQL por sus siglas en ingls). SQL es el lenguaje estndar para agregacin,

55

actualizacin, insercin y eliminacin de datos en una base de datos relacional (Date, 1995).

El SGBD permite definir usuarios de la base de datos y aplicar a estos reglas para asignar, mantener y controlar el acceso a los datos (Conolly y Begg, 2006). Es posible integrar al gestor herramientas desarrolladas en diferentes lenguajes de programacin, con la finalidad de implementar operaciones complejas que con SQL no pueden ser realizadas. Estas herramientas son conocidas como funciones externas. Una vez integradas, pueden ser utilizadas en consultas al SGBD utilizando SQL.

4.3.2 Caractersticas de PostgreSQL Se aprovechan las caractersticas del SGBD de integrar nueva funcionalidad que permita el anlisis de los ECGs almacenados. Utilizar un SGBD, permite que la base de datos pueda ser consultada por medio del estndar SQL. Combinar estas dos opciones da como resultado una herramienta que ejecuta consultas sobre datos estructurados, adems estas consultas son elaboradas a travs de un SGBD y pueden utilizar algoritmos integrados al gestor como funciones externas, desarrollados para el anlisis de datos biomdicos.

Las funciones externas implementadas en esta tesis son Funciones Definidas por el Usuario (UDFs por sus siglas en ingls). El gestor cuenta
56

con la implementacin de distintos tipos de UDFs, clasificados a continuacin (PGDG, 2011): Funciones del lenguaje de consulta, son una lista de consultas SQL cuyo resultado es la ltima consulta en dicha lista. Estas funciones son desarrolladas dentro del servidor. Funciones del lenguaje de procedimientos, constan tambin de una lista de comandos SQL, sin embargo estas funciones cuentan con instrucciones de control de flujo que permiten validar si una comando se ejecut correctamente. Son escritas en lenguajes de procedimiento y cargadas en el servidor como mdulos. Funciones internas, son escritas en el lenguaje de programacin ANSI C. Estas funciones son incorporadas a PostgreSQL estticamente al momento de compilar el gestor; este proceso se realiza en la instalacin del SGBD. Funciones del lenguaje C, son funciones que se cargan

dinmicamente, es decir, son colocadas en memoria cuando es necesario y permanecen ah hasta que el SGBD termine su ejecucin.

Las UDFs de PostgreSQL permiten la manipulacin de tablas, ya sea como valor de retorno o como argumento de una UDF. Asimismo el gestor ofrece la posibilidad de crear tablas desde una UDF de tipo Funcin del lenguaje C y presentar esta tabla como resultado de ejecutar dicha funcin. Lo anterior es una ventaja que solo fue vista en PostgreSQL y es una caracterstica muy

57

importante que ser de utilidad al desarrollar futuros algoritmos que tambin integraremos al gestor.

4.4

DESCRIPCIN DE LAS BASES DE DATOS

Para poblar la base de datos, fueron considerados bancos de datos utilizados por la comunidad cientfica en proyectos de anlisis de ECGs. Las Secciones 4.1.1, 4.1.2, 4.1.3 describen estas bases de datos que pertenecen al proyecto PhysioNet (Goldberg et l., 2000). Este proyecto involucra a organizaciones de gran prestigio como el Instituto Tecnolgico de Masacchusets (MIT por sus siglas en ingles) y la Facultad de Medicina de la Universidad de Harvard. En estas bases de datos se encuentran ECGs de dos tipos: (a) aquellos que carecen de anormalidades, clasificando a estos como pacientes sanos y (b) ECGs con diversas cardiopatas, que pertenecen a pacientes clasificados como pacientes no sanos.

PhysioNet, cuenta con el proyecto The ECG Database (ECGDB, 2011), un banco de datos utilizado mundialmente por distintos proyectos de investigacin a nivel mundial. Sus datos provienen de lugares como Alemania (Kreiseler y Bousseljot, 1995) y E.U.A. (Laguna et l., 1997; Moody y Mark, 1991). Sin embargo la procedencia de estos archivos no tiene nada que ver con Mxico. Por tanto no existe una base de datos de ECGs que sea representativa de la poblacin mexicana que exponga los padecimientos tpicos de esta.
58

Una de las motivaciones principales de este proyecto es el aprovechamiento de datos disponibles en Mxico, por eso se decidi incluir datos pertenecientes a una de las instituciones de salud ms reconocidas de Mxico, el Instituto Nacional de Cardiologa Ignacio Chvez (INCICh).

4.4.1 Base de Datos QT Los registros de esta base de datos fueron elegidos por presentar una amplia variedad de morfologas en el ECG, que permitieron evaluar el desempeo de algoritmos para la deteccin de latidos del corazn. La base de datos est formada por 105 ECGs. Cada registro cuenta con dos seales con resolucin de 12 bits que fueron escogidos de otras bases de datos en PhysioNet, adems de ECGs tomados del Centro de Diagnstico Mdico Beth Israel en Boston.

Las seales almacenadas en esta base de datos se obtuvieron con una frecuencia de muestreo de 250 Hz. La duracin de los registros es de 15 minutos. Cada registro en esta base de datos requiere de un espacio de almacenamiento de 0.66 MB. La base de datos tiene un tamao total de 465.6 MB. En la Figura 3.8 se muestra una subsecuencia de 256 valores de una de las seales electrocardiogramas registradas en esta base de datos.

59

Figura 4.2 Trazo de ECG para la base de datos QT.

4.4.2 Base de Datos Arritmia Esta base de datos est formada por 48 registros de electrocardiogramas con duracin de 30 minutos cada uno que fueron extrados de electrocardiogramas ambulatorios. Dichas muestras provienen de 47 diferentes sujetos estudiados por el Laboratorio de Arritmia Hospital Beth Israel entre 1975 y 1979. Cada registro de la base de datos contiene dos seales con una resolucin de 11 bits.

60

Las seales almacenadas en la base de datos se obtuvieron con una frecuencia de muestreo de 360 Hz. Cada registro en esta base de datos requiere de un espacio de almacenamiento de 1.95 MB. La base de datos tiene un tamao total de 89.5 MB. En la Figura 3.4 se muestra una subsecuencia de 256 valores de una de las seales de electrocardiogramas registradas en esta base de datos.

Figura 4.3 Trazo de ECG de la base de datos Arritmia.

61

4.4.3 Base de datos PTB Esta base de datos fue donada por el Instituto Nacional de Metrologa de Alemania (National Metrology Institute of Germany), con la finalidad de generar una comparacin evaluativa de algoritmos y con propsitos de enseanza para los usuarios de PhysioNet. La base de datos est formada por 549 registros de electrocardiogramas provenientes de 290 voluntarios. Los electrocardiogramas dentro de la base de datos provienen de personas saludables y de personas con diferentes enfermedades cardiacas. Cada registro de esta base de datos cuenta con 16 seales con resolucin 16 bits.

Las seales almacenadas en esta base de datos se obtuvieron con una frecuencia de muestreo de 1,000 Hz. La duracin de los registros es de 30 minutos. Cada registro en esta base de datos requiere de un espacio de almacenamiento de 38,400 bytes. La base de datos tiene un tamao total de 1,700 MB. En la Figura 3.21 se muestra una subsecuencia de 256 valores de una de las seales de electrocardiogramas registradas en esta base de datos.

62

Figura 4.4 Trazo de ECG para la base de datos PTB.

4.4.4 Base de Datos del Instituto Nacional de Cardiologa Ignacio Chvez El INCICh, cuenta con un banco de datos de ECGs en creciente expansin. Estos ECGs pertenecen a pacientes que sufren de Insuficiencia Renal Crnica (IRC) y fueron registrados mientras cada paciente reciba una hemodilisis. La hemodilisis consiste en limpiar las impurezas de la sangre, eliminando distintas toxinas y minerales, este filtrado de impurezas es realizado normalmente por el rin. Sin embargo las personas que sufren de IRC, necesitan realizar una hemodilisis tres veces por semana. Este

63

proceso puede causar que el corazn sufra de distintas alteraciones, provocando que el paciente se desmaye en el transcurso de la hemodilisis.

De esta base de datos se utilizaron 191 registros de ECG, con tres seales de datos, y una frecuencia de muestreo de 120 Hz. Cada ECG cuenta con tres seales registradas y cada seal tiene una resolucin de 8 bits y una duracin de entre 20 y 30 minutos. En la Figura 4-4 se muestra una subsecuencia de 512 valores de una de las seales de electrocardiogramas registradas en esta base de datos.

Figura 4.5 Trazo de ECG para la base de datos INCICh

4.5

EXPERIMENTOS

Para demostrar la factibilidad tecnolgica del modelo propuesto, fue necesaria la implementacin de varios programas de computadora. Adems,
64

se requiri extender la funcionalidad del SGBD de cdigo libre con el que fue creada la base de datos. Todo el software utilizado en esta tesis fue instalado y ejecutado en equipo de cmputo del rea de posgrado en la Facultad de Informtica de la Universidad Autnoma de Sinaloa. El equipo de cmputo utilizado tiene como caractersticas de hardware un procesador Intel Pentium D, con frecuencia de reloj de 3.2 GHz. Cuenta con 2GB de memoria RAM y 225 GB de almacenamiento en disco duro. El sistema operativo es de tipo GNU/Linux. La versin utilizada CentOS 5 con el kernel 2.6.18-194.e15.

El algoritmo descrito en la Seccin 4.2, fue desarrollado utilizando el lenguaje de programacin ANSI C, con ayuda del Compilador C de GNU (gcc por sus siglas en ingls) en su versin 4.1.2. ANSI C fue utilizado por contar con una ejecucin eficaz y permitir un manejo de ms bajo nivel de archivos y memoria. Al mismo tiempo, fueron elaboradas rutinas en el sistema utilizando el lenguaje Shell Script, interpretadas por la interfaz de comandos de Linux conocida como Bash; en la versin 3.2.25. Para interactuar con la base de datos y ver los resultados de las consultas realizadas utilizamos psql, este software es parte del SGBD.

Para poblar la base de datos, se utilizaron algunos bancos de datos reportados en la literatura (Laguna et l., 1997; Kreiseler y Bousseljot, 1995; Moody y Mark, 1991) que se encuentran disponibles de manera gratuita en internet (ECGDB, 2011). Asimismo se incluyeron ECGs del Instituto Nacional de Cardiologa Ignacio Chvez.
65

En nuestros experimentos, utilizamos la base de datos QT, descrita en la Seccin 4.4.1. Cada seal de esta base de datos se dividi en dos partes, separando de cada una de las seales en la base de datos sus ltimos 10 segundos y almacenndolos fuera de la estructura que esta tesis plantea. La bsqueda consisti en comparar un conjunto de 210 patrones; tomando solamente los primeros 64 valores del patrn. De acuerdo con Sevilla et l. (2009), esta longitud es suficiente para identificar un patrn de inters en ECGs digitales) Estos patrones se compararon frente a 210 seales en la base de datos. De cada comparacin fueron obtenidos el tiempo de ejecucin, un ndice, un valor que indica la menor distancia encontrada y un identificador del dato ms parecido al patrn correspondiente en la bsqueda.

Se implement el algoritmo descrito en la Figura 4.2, el algoritmo fue adaptado a dos alternativas de almacenamiento de ECGs digitales: 1) una alternativa corresponde al ECG digital preservado como archivo, su relacin con la base de datos es la direccin donde se encuentra. 2) La otra alternativa integra directamente el ECG digital a la base de datos como un Objeto binario de gran tamao (BLOB, Binary Large OBject, por sus siglas en ingls). De acuerdo con Seras et l. (2006), en algunas ocasiones almacenar BLOBs en la base de datos, tiene un mejor resultado que almacenar

66

direcciones de archivos, esto al momento de realizar consultas a la base de datos con motivo de realizar la lectura de este tipo de dato.

El mtodo implementado para realizar esta bsqueda fue una UDF, programada en el lenguaje de programacin ANSI C e integrada a PostgreSQL como Funcin del lenguaje C. Para efectos de evaluar el tiempo completo de bsqueda e ignorar polticas propias del sistema operativo en el manejo de memoria temporal o memoria cache, decidimos borrar esta memoria temporal al inicio de cada experimento, obligando al sistema operativo a buscar los datos indicados directo al disco duro; lo que es considerablemente ms lento respecto a buscar dichos datos en memoria temporal. En cada experimento se obtuvieron los tiempos de ejecucin del algoritmo implementado para cada alternativa.

4.6

RESULTADOS

Fue posible construir la base de datos utilizando el SGBD descrito en la Seccin 4.3. Adems en base a lo expuesto en la seccin anterior, se logr poblar esta base de datos utilizando el banco de datos descritos en la Seccin 4.4.1. Los registros de este almacenamiento se encuentran organizados estructuradamente, esto es una cualidad que aporta el utilizar un SGBD para construir la base de datos.

67

Comprobamos que es posible extraer informacin de una base de datos relacional (como la que fue construida). Al ejecutar el algoritmo descrito en la Seccin 4.2. Adems esta implementacin compar dos alternativas para almacenar los ECGs digitales y evalu los tiempos de ejecucin de las bsquedas para cada uno de los casos. El tiempo promedio registrado fue de 32.70 segundos en el caso de la bsqueda por semejanza que utilizaba las direcciones de archivos y 2085.12 segundos para la consulta de la bsqueda que consultaba los datos en formato binario almacenados en la base de datos.

68

5. CONCLUSIONES Y TRABAJO FUTURO


La construccin de una base de datos de ECGs digitales es posible y adquiere beneficios al momento de realizar consultas o integrar a ella funcionamiento especializado que permite el anlisis preciso de los datos, a un nivel ms profundo que el lenguaje de consulta utilizado por estas bases de datos (SQL) permite.

Una base de datos estructurada es resultado de un modelo que describe de manera general como est formado el proceso de almacenamiento de ECGs digitales. Abstraer este proceso y realizarlo de manera general para cualquier base de datos de ECGs digitales, fue uno de los objetivos de este proyecto de investigacin. Al poblar la base de datos, agregamos ECGs provenientes de fuentes distintas, demostrando que no hay ningn problema al momento de almacenar estos tipos de datos mediante la implementacin de base de datos que proponemos.

Es evidente que el uso de direcciones de archivo es ms eficaz que almacenar el ECG en su formato binario dentro de la base de datos. Atribuimos los resultados a la implementacin del tipo de dato binario en el SGBD. PostgreSQL almacena estos datos dividindolos en pequeos segmentos, almacenando cada segmento en un lugar diferente en la unidad de almacenamiento (PostgreSQL, 2011). En el caso de la otra alternativa,

69

solo sugiere la direccin del archivo, el cual no se encuentra distribuido en diferentes lugares de la unidad de almacenamiento.

Este trabajo de tesis invita a continuar con la recopilacin de ECGs digitales provenientes de diferentes fuentes. Con esto, nuestra intencin es integrar los datos presentes en la literatura; como los casos del almacenamiento se realiza Jager et l., (2003) y aquellas ya mencionadas en la Seccin 4.1, utilizando nuestra propuesta (un contexto estructurado). As, no solo contina poblando la base de datos con ECGs digitales provenientes de distintas fuentes, si no tambin se va enriqueciendo el acervo de patrones que pueden ser encontrados en ella.

Contar con ese acervo de datos, es la base para incorporar algoritmos de descubrimiento de informacin que permitan aplicar diversas tcnicas de clasificacin de datos (Infante et l., 1992) y exploracin de informacin, donde adems de evaluar el contenido de un examen biomdico, tambin se considera la semntica de este (Ramakrishnan et l., 2010; Ebadollahi et l., 2006) haciendo posible la extraccin de informacin sobre los datos mdicos en un ambiente estructurado.

Como ya se describi en la Seccin 4.3.2, est propuesta exitende el SGBD al agregar nueva funcionalidad en forma de UDFs desarrolladas de manera externa al gestor y cuya funcionalidad se enfoca en una problemtica especfica. Esto nos permite atender el anlisis de una variedad muy
70

heterogenea de ECGs. Un ejemplo pueden ser los ECGs con diferentes frecuencias de muestreo. Para este caso pudieran desarrollarse

herramientas capaces de comparar ECGs con distintas frecuencias de muestreo, experimentando con tcnicas de anlisis de seales.

Adems de extender la funcionalidad del anlisis de ECGs, tambin es posible extender el modelo propuesto, incorporando algn otro dato biomdico como reportes en texto libre, imgenes de resonancia magntica o imgenes de rayos X. Actualmente, las instituciones clnicas cuentan con reportes de texto libre, capturados por los especialistas durante la consulta. Desarrollar tcnicas de anlisis del lenguaje natural seran de gran ayuda para revisar dichos reportes que permitira el descubrimiento de informacin entre una gran cantidad de texto.

Eventualmente ser posible predecir tendencias y realizar diversas operaciones estadsticas que concluyan con la formulacin de polticas pblicas pertinentes para el tratamiento de dichas tendencias. Partiendo de un modelo conceptual para estructurar informacin mdica, es posible derivar en el diseo de una base de datos bien estructurada permitiendo incorporar un estndar para la constitucin de bases de datos de estudios clnicos, y as, fomentar la difusin de estos datos para fines de investigacin.

71

Por ltimo, consideramos que es necesario profundizar en el estudio y anlisis de las opciones que posee PostgreSQL para almacenamiento de datos binarios y experimentar cual de las alternativas es ms eficiente en el uso de espacio de almacenamiento y en el tiempo de acceso a los datos, motivados con la idea de generar un esquema estndar para las bases de datos biomdicas e incorporar este esquema al ECE que utiliza el Instituto Mexicano del Seguro Social (IMSS).

72

REFERENCIAS

Armenta Lindoro M. A. Sistema de Informacin para la Gerencia Hospitalaria (SIGHO). (http://www.sigho.gob.mx/antecedentes.htm), visitado en Agosto 2011.

Bent G.A. y Echeverri A.A. Desarrollo de una Base de Datos para el Manejo de Informacin Clnica y Administrativa en Ortopedia y Traumatologa. Revista Colombiana de Ortopedia y Traumatologa 2005.

Cabrera E. Teora y Prctica de la Electrocardiografa 1ra. Edicin. La Prensa Mdica Mexicana. Instituto Nacional de Cardiologa, Mxico 1958.

Cantrill S.V. Computers in Patient Care: The Promisse and the Challenge. COMMUNICATIONS OF THE ACM Vol. 53 No. 9. Septiembre 2010.

Chakrabarti K., Keogh E., Mehrotra S., Pazzani M. Locally Adaptative Dimensionality Reduction for Indexing Large Time Series Databases. In proceedings of ACM SIGMOD Conference on Management of Data. 2002.

Conolly T. M. y Begg C. E. Sistemas de Bases de Datos 4ta Edicin. Addison Wesley 2005.

Date C. J. An Introduction to Database Systems 6th Edition. Addison Wesley 1995.

Dailey Paulson L. Libraries Face The Challenge of Archiving Digital Material. IEEE Society Computer Vol. 43 No. 5. Mayo 2010.

Ebadollahi S., Chang S., Amir A. y Tanenblatt M. Concept-Based Electronic Health Records: Opportunities and Challenges. Proceedings of the 14th ACM International Conference on Multimedia ACM MM'06. Octubre 2006.

Faloutsos C., Ranganathan M., Manolopoulos Y. Fast Subsecuence Matching in Time Series Database. 1994.

Goldberger A.L., Amaral L.A.N., Glass L., Hausdorff J.M., Ivanov P.Ch., Mark R.G., Mietus J.E., Moody G.B., Peng C.K. y Stanley H.E. PhysioBank, PhysioToolkit, and PhysioNet: Components of a New Research Resource for Complex Physiologic Signals. Junio 2000.

Goldschlager N. y Goldman M. J. Principios de Electrocardiografa Clnica 10ma Edicin. El Manual Moderno. Mxico 1992.

Gertz M. y Hill D.B. Medical Database Security. Advanced Database Systems ECS 289F. Noviembre 1998.

Hoffman, L. Implementing Electronic Medical Records. COMMUNICATIONS OF THE ACM Vol. 52. No. 11. Noviembre 2009.

Humpage S.D. Benefits and Costs of Electronical Medical Records: The Experience of Mexicos Social Security Institute. Inter-American Development Bank. Department of Research and Chief Economist. Technical Notes No. IDB-TN-122. Junio 2010.

Infante O., Valenzuela F. y Polo S. Algoritmo que Utiliza la Segunda Derivada para Identificar el Complejo QRS en Tiempo Real. Revista Mexicana de Ingeniera Biomdica Vol 13. 1992.

Jager F., Taddei A., Moody G.B., Emdin M., Antolic G., Dorm R., Smrdel A., Marchesi C. y Mark R.G. Long-Term ST Database: A Reference for the Development and Evaluation of Automated Ischaemia Detectors and for the Study of the Dynamics of Myocardial Ischaemia. IFMBE 2003.

Kugler K., Tejeda M.M., Baumgartner C., Tilg B., Graber A. y Pfeifer B. Bridging Data Managment and Knowledge Discovery in the Life Science. The Open Bioinformatics Journal. 2008.

Kligfield P., Gettes L.S., Bailey J.J., Deal B.L. Hancock W., Herpen G., Kros J.A., Macfarlane P., Mirvis D.M. Pahlm O., Rautaharju P., Wagner G.S. Recomendations for the Standarization and Interpretation of the Electrocardiogram. Part I: The Electrocardiogram and Its Technology. Journal of the American College of Cardiology. Mayo 2007.

Kreiseler D., Bousseljot R. Automatisierte EKG-Auswertung mit Hilfe der EKG-Signaldatenbank CARDIODAT der PTB. Biomedizinische

Technik, Band 40, Ergnzungsband 1. 1995.

Laguna P., Mark R.G., Goldberger A.L. y Moody G.B. A Database for Evaluation of Algorithms for Measurement of QT and Other Waveform Intervals in the ECG. Computers in Cardiology vol. 24. 1997.

Lara Dvora S.L. y Vega Lpez I.F. Evaluacin de Tcnicas de Caracterizacin de Electrocardiogramas en la Deteccin de Patrones de Inters. VII Encuentro Participacin de la Mujer en la Ciencia. Mayo 2010.

Leavitt N. Will NoSQL Databases Live Up to Their Promise?. Computer, IEEE Society Vol. 43 No. 2. Febrero 2010.

Monlen Getino A. Optimizacin de los ensayos clinicos de farmacos mediante simulacin de eventos discretos, su modelizacin,

validacin, verificacin y la mejora de la calidad de sus datos. Universitat de Barcelona. Departament d'Estadstica. 2005.

Moody G.B., Mark R.G. The MIT-BIH Arrhythmia Database on CD-ROM and Software for use with it. IEEE 1991.

Norman J.E., Bailey J.J., Berson A.S., Haisty W.K., Levy D., Macfarlane P.M. y Rautaharju P.M. Preservation and Use of Existing ECG Databases and Development of Future Resources. Utilization of ECG Databases 1998. NHLBI Workshop on the

Organizacin Mundial de la Salud (OMS). Forty-third World Health Assembly. (http://www.who.int/classifications/icd/en/), visitado en Mayo 1990.

Organizacin Mundial de la Salud (OMS). Influenza-like illness in the United States and Mexico Abril 2009. visitado

(http://www.who.int/csr/don/2009_04_24/en/index.html), Agosto 2011.

Prez Nava M. y Velasco Cruz M. C. Electrocardiografa Bsica. Instituto Nacional de Cardiologa, Direccin de Enfermera, Departamento de Enseanza. Mxico 2005.

PhysioNet

Bank

Archive

Index.

The

ECG

Database

(ECGDB). en

(http://www.PhysioNet.org/physiobank/database/#ecg), Agosot 2011.

visitado

Plotnikov V.A., Prilutskii D.A. y Selishchev S.V. The SCP-ECG Standar in Electrocardiographic Sotware Systems. Biomedica Engineering Vol. 33 No. 3. 1999.

Ramakrishnan N., Hanauer D.A. y Keller B.J. Mining Electronic Health Records. Computer IEEE; Octubre 2010.

Rao P. R., Edlavitch S.A., Hackman J.L, Hickman T.P., McNair D.S. y Rao D.S. Towards Large-Scale Sharing of Electronic Health Records of Cancer Patients. ACM IHI 2010.

Sevilla O.V., Infante Vzquez O., Loaiza Brito J.A. Reconocimiento de Arritmias Cardiacas con una Red Neuronal de Retropropagacin Retrgrada Backpropagation. Tecnologa en Desarrollo Puntal en la Evolucin de la Cardiologa. Editorial Prado. Mxico 2009.

Stonebraker M. SQL Databases vs. NoSQL Databases. COMMUNICATION FOR THE ACM Vol. 53 No. 4. April 2010.

The

PostgreSQL

Global

Development

Group

(PGDG).

(http://www.postgresql.org/docs/8.4/interactive/index.html), visited in August 2011.

Thung A., Zhang R., Koudas N., Ooi B.C. Similarity Search: A Matching Based Approach. VLDB06. Sep. 2006.

Vega Lpez I.F. e Infante Vzquez O. Diseo Conceptual de una Base de Datos para el Almacenamiento Estructurado de Electrocardiogramas Digitales en el INCICh. CNIB 2010.

Vega Lpez I.F. Almacenamiento y Minado de Seales Biomdicas. 2009. (http://pcc.uasnet.mx/~ifvega/kdd-ecg.html), visitado en Septiembre de 2011.

También podría gustarte