Está en la página 1de 4

Desarrollo de un Clasificador de Latidos de ECG con Capacidad

de Generalizacin
M Llamedo Soria1,2,3 , JP Martnez Corts1,3
1

Grupo de Tecnologas de las Comunicaciones, Instituto de Investigacin en Ingeniera de Aragn,


Universidad de Zaragoza, {llamedom, jpmart}@unizar.es
2
Universidad Tecnolgica Nacional, Buenos Aires, Argentina
3
CIBER de Bioingeniera, Biomateriales y Nanomedicina (CIBER-BBN)

Resumen
En este trabajo estudiamos el desempeo de modelos de caractersticas seleccionados mediante un algoritmo de bsqueda flotante, cuyo objetivo fue la capacidad de generalizacin. Las caractersticas utilizadas se relacionan con el ritmo cardaco y la
morfologa de cada latido. Los experimentos de clasificacin se
realizaron en bases de datos pblicas, disponibles en Physionet,
siguiendo las recomendaciones AAMI-EC57. El mejor modelo
encontrado consta de 8 caractersticas y fue entrenado y evaluado en conjuntos de datos completamente disjuntos. Los resultados obtenidos fueron: exactitud global de 93 %; para la clase
de latidos normales, sensibilidad (S) 95 %, valor predictivo positivo (P + ) 98 %; para la clase de latidos supraventriculares S
77 %, P + 39 %; para los latidos ventriculares S 81 %, P + 87 %.
Este modelo de clasificacin contiene menos caractersticas y su
rendimiento es mejor que otros mtodos actuales.

1.

Introduccin

Las enfermedades cardiovasculares son en la actualidad la


principal causa aislada de muerte en los pases desarrollados de acuerdo con sus agencias de salud. El anlisis de
la seal electrocardiogrfica (ECG) provee una tcnica de
bajo coste y no invasiva para el estudio de la funcin cardaca. Uno de los anlisis importantes a realizar sobre el
ECG es la clasificacin de latidos, importante en el estudio
de arritmias.
Diversos algoritmos para la clasificacin de latidos fueron
desarrollados en la ltima dcada [14], pero pocos trabajos adoptaron metodologas similares [2, 3], dificultando
as la comparacin de los resultados. Para aliviar este inconveniente, la Association for the Advancement of Medical Instrumentation (AAMI) hizo una serie de recomendaciones respecto a la presentacin de resultados y a la
definicin de clases que ha ido ganando aceptacin hasta la actualidad [5]. La recomendacin AAMI establece 5
clases, que son los latidos Normales y de bloqueo de ramas (N), los ectpicos Ventriculares (V) o Supraventriculares (S), los latidos de Fusin (F) y aquellos dudosos o
que no pueden clasificarse (Q). La mayora de los traba-

jos revisados abord la clasificacin entre las clases N y V,


pero muy pocos han desarrollado clasificadores multiclase [2,3]. Respecto a la divisin de los datos para establecer
los conjuntos de entrenamiento y evaluacin, algunos autores dividieron latido por latido. Esta estrategia, conlleva
el inconveniente de incluir latidos del mismo sujeto tanto
en el entrenamiento como en la evaluacin del clasificador [4]. Este enfoque produce un sesgo optimista en la estimacin del desempeo, siendo ms adecuada la divisin
orientada a sujetos [2].
El objetivo de este trabajo es desarrollar y evaluar un clasificador de latidos que incluya las caractersticas ms relevantes, de manera de obtener el mejor desempeo en distintas bases de datos. Este algoritmo ser completamente
automtico, cumplir con las recomendaciones AAMI, y
estar basado en un clasificador simple, con caractersticas
robustas y con un claro significado fisiolgico. El clasificador desarrollado ser comparado con el mejor clasificador
multiclase publicado [2].

2.
2.1.

Metodologa
Bases de datos de ECG

En este trabajo hemos utilizado la base de datos (BD) MITBIH Arrhythmia (MIT-BIH-AR), tanto para entrenamiento
como para evaluacin del desempeo. Adicionalmente hemos utilizado la BD MIT-BIH Supraventricular Arrhythmia (MIT-BIH-SUP) para propsitos de validacin. Ambas
bases de datos se pueden obtener de manera libre en Physionet [6]. En MIT-BIH-AR se adopt la misma divisin de
entrenamiento (DS1) y evaluacin (DS2) utilizada en [2]
para facilitar la comparacin de resultados. La clase Q ha
sido descartada en este trabajo debido a que se encuentra marginalmente representada en ambas bases de datos.
Una limitacin similar ocurre con la clase F, que est pobremente representada en ambas bases de datos, razn por
la cual se plante un etiquetado alternativo al AAMI (denominado AAMI2 en este trabajo). El mismo consiste en
considerar a las clases de fusin (entre un latido normal y
ventricular) y ventricular como la misma clase ventricular
extendida (V). La divisin de los datos y la presencia de

Conj. de datos
DS1
DS2
MIT-BIH-SUP

MIT-BIH-AR Arrhythmia
prop.
N
S
V
entr.
45673
929
3755
eval.
44053
1833 3202
val.
161902 12083 9897

MIT-BIH-AR registros
101, 106, 108, 109, 112, 114, 115, 116, 118, 119, 122,
124, 201, 203, 205, 207, 208, 209, 215, 220, 223, 230
100, 103, 105, 111, 113, 117, 121, 123, 200, 202, 210,
212, 213, 214, 219, 221, 222, 228, 231, 232, 233, 234

Conj. de datos

F
412
388
193

#Reg.
22
22
78

DS1
DS2

Tabla 1. Esquema de la divisin de las BD MIT-BIH-AR y MIT-BIH-SUP. Los registros con latidos marcapaseados fueron excluidos. Las
clases de latidos son Normales (N), Supraventriculares (S), Ventriculares (V) y de Fusin (F). Tambin se observa en la otra tabla
la presencia de registros en los conjuntos de entrenamiento (DS1) y evaluacin (DS2).

clases en cada BD est resumida en la tabla 1.


2.2.

Procesado de seales

La frecuencia de muestreo de la MIT-BIH-SUP fue primero convertida a 360 Hz para igualarla a la MIT-BIH-AR.
El remuestreo se realiz con un filtro pasa-bajos FIR de
dcimo orden. Todos los registros han sido primero preprocesados para la eliminacin de ruidos segn se describe
en [2]. Algunas de las caractersticas extradas se calculan
de la transformada discreta wavelet (DWT) del ECG. Como funcin prototipo usamos la derivada de una funcin
de suavizado (spline cuadrtica), de esta manera se obtiene
la derivada suavizada del ECG para cada escala analizada
en la DWT. Por este motivo, la DWT contiene en forma de
mximos y cruces por cero la informacin importante del
ECG. Referimos a [7] para los detalles en la implementacin de la DWT para delineacin de ECG. Siguiendo las
conclusiones de [7], el anlisis de la DWT permite un anlisis robusto a las interferencias tpicas presentes en registros de ECG, por lo tanto las caractersticas extradas de la
DWT podran heredar dichas propiedades.
2.3.

Clasificacin de latidos: clasificadores y caractersticas

Bajo la asuncin de caractersticas independientes y normalmente distribuidas, utilizando el criterio de mximo a


posteriori (MAP) obtenemos las conocidas funciones de
clasificacin cuadrticas. La funcin discriminante cuadrtica para un latido representado por un vector de caractersticas x, de la clase i-sima puede escribirse

gi (x)

1 T 1
1
T 1
= xT 1
i x + i i x i i i
2
2
1
log(|i |) + log(P (i )).
(1)
2

La regla de clasificacin asigna x a la clase i que tenga


mxima probabilidad a posteriori gi (x). Siendo i , i y
P (i ) el vector medio, la matriz de covarianza y la probabilidad a priori de la i-sima clase. Los valores de i
y i se calculan como la media y la matriz de covarianza
muestral, mientras que las probabilidades a priori se consideraron iguales para todas las clases. En el caso que la
matriz de covarianza sea la misma para todas las clases
(i = j = , i 6= j), el clasificador discriminante
cuadrtico (QDC) se convierte en lineal en x dando lugar
al LDC. En este caso puede estimarse como la matriz de
covarianza muestral pesada

PC
=

i=1

wi

PMi

m=1 (xi (m) i ).(xi (m)


PC
i=1 wi .Mi

i )T

(2)
La posibilidad de asignar ms relevancia a algunas clases
es de mucha importancia en esta aplicacin dado que la
clase normal por lo general est al menos un orden de magnitud ms representada que el resto. En el resto del trabajo
referiremos al clasificador LDC cuando wi = wj , i 6= j,
en cualquier otra situacin lo denominaremos clasificador
lineal compensado (LDC-C).
Siguiendo las conclusiones de trabajos anteriores [1,2], estudiamos la utilidad de caractersticas de ritmo y morfologa. Como caractersticas de ritmo estudiamos aquellas obtenidas de la secuencia de intervalos RR, como RR[i 1],
RR[i] y RR[i + 1] para describir la evolucin local del
ritmo cardaco. Para estudiar la variacin
P1 local del ritmo,
se defini la caracterstica RRV [i] = j=1 |dRR[i j]|
(siendo dRR[i] = RR[i]RR[i1]) . Tambin incluimos
estimaciones del ritmo local y global mediante el intervalo
medio en los ltimos 1, 5, 10 y 20 minutos (RRP siendo
P {1, 5, 10, 20} el tiempo de promediado ).
Como caractersticas morfolgicas consideramos primeramente la anchura del complejo QRS. A partir del loop del
vectocardiograma (VCG) construido con las dos derivaciones disponibles, calculamos el ngulo y mdulo del mximo vector hallado en el complejo QRS. Otras caractersticas morfolgicas fueron calculadas de la cuarta escala de la
DWT, debido a la buena proyeccin que tiene el complejo
QRS en esta escala (comprende desde 12.25 a 22.5 Hz). A
partir de esta escala, se calcul la secuencia de autocorrelacin para cada derivacin (rx (k) y ry (k)) y la correlacin
cruzada entre ellas (rxy (k)), en una ventana que comienza
130 ms antes y termina 200 ms despus, del punto fiducial. Luego para rxy (k) se extrajeron dos caractersticas,
el mximo absoluto y su posicin, mientras que para rx y
ry el primer cruce por cero, y la posicin y amplitud del
primer mximo de mdulo, como se ilustra en la Figura 1.
Estas caractersticas morfolgicas tienen la particularidad
que estarn sincronizadas en tiempo an en el caso que el
punto fiducial no est localizado con precisin.
El conjunto completo consta de 39 caractersticas relacionadas con el ritmo y la morfologa del complejo QRS. Es
sabido que aquellos modelos con muchas caractersticas
tienden a sobre-ajustarse a los ejemplos presentados durante el entrenamiento, perdiendo capacidad de generalizacin. Por este motivo, utilizaremos un algoritmo secuencial de bsqueda de caractersticas flotante (SFFS) [8] para
encontrar el modelo de caractersticas ms pequeo y con
el mejor desempeo.

Figura 2. La figura muestra un esquema de los experimentos realizados en este trabajo. En el panel a) se resume la
bsqueda de caractersticas, indicando el conjunto de
entrenamiento y validacin, como tambin los parmetros para guiar la bsqueda. En el panel b) se muestra
cmo se obtiene el modelo final entre los obtenidos en
a). Finalmente en c) el mejor modelo es evaluado en el
conjunto de evaluacin.

bremente representada en las BD que utilizamos.

3.
Figura 1. Caractersticas calculadas de las secuencias de autocorrelacin de escala 4 de la DWT del ECG, para un
latido normal y uno ventricular. Se muestran las seales de autocorrelacin para ambas derivaciones (rx y
ry ), como tambin la correlacin cruzada (rxy ) en la
parte inferior. Las caractersticas calculadas de cada
seal se indican con un asterisco.

2.4.

Esquema experimental

En este trabajo nos interesamos en encontrar un modelo


reducido y del mejor rendimiento posible en las BD utilizadas. Podemos describir el experimento en tres pasos:
1) El primer paso consisti en encontrar el mejor modelo
entre el conjunto total de caractersticas utilizando como
entrenamiento DS1 de MIT-BIH-AR y como validacin
MIT-BIH-SUP, como se muestra en la Figura 2a. En cada
iteracin del algoritmo SFFS, el modelo se entrena en DS1
y su desempeo se evala en MIT-BIH-SUP, asegurando
la capacidad de generalizacin del modelo seleccionado.
Se estudiaron varias configuraciones de bsqueda, variando tanto el clasificador utilizado (LDC, LDC-C y QDC),
como el criterio de optimizacin. Los criterios utilizados
han sido los promedios tanto del valor predictivo positivo como de la sensibilidad de cada clase (JP + y JS ). La
compensacin utilizada para el caso del LDC-C ha sido
wN = 1, wS = 10 y wV = 10.
2) El segundo paso ser la eleccin del mejor modelo, entre
aquellos seleccionado por el SFFS para cada configuracin
de bsqueda en el paso anterior. Para ello, se evaluaron
dichos modelos en la unin de los conjuntos de entrenamiento y validacin por medio de una validacin cruzada
con k = 10 registros, como puede verse en la Figura 2b.
3) Finalmente el modelo seleccionado en el paso anterior
se entrena en DS1 y se lo evala en DS2 para la comparacin final con [2], como se muestra en la Figura 2c.
Todos los experimentos descritos en este trabajo tienen como objetivo clasificar automticamente las tres clases de
AAMI2 (N, S, V), dado que la clase F de AAMI est po-

Resultados

Los resultados de los experimentos descriptos en la seccin anterior se presentan en las Tablas 2 y 3. En la tabla 3,
la evaluacin del desempeo balanceada significa que las
filas de la matriz de confusin fueron escaladas de manera
tal que todas sumen lo mismo, es decir cada clase tenga
igual representacin. El mejor modelo encontrado consta
de 8 caractersticas, usando un clasificador LDC-C; dichas
caractersticas son ln(RR[i]), ln(RR[i + 1]), ln(RR1 ),
y
y
x
x
y kM
.
, kZ
, kM
ln(RR20 ), kZ

4.

Discusin y conclusiones

El mejor modelo encontrado consta de 8 caractersticas,


todas ellas mediciones de intervalos temporales. Esto puede explicarse debido a que los registros utilizados en los
experimentos no siempre contienen las mismas derivaciones, y por lo tanto la capacidad de clasificacin de aquellas
caractersticas basadas en amplitudes se ve seriamente disminuida. Las primeras 4 caractersticas del modelo estn
claramente relacionadas a la evolucin del ritmo cardaco,
mientras que las otras cuatro pueden interpretarse como
mediciones alternativas de la anchura del complejo QRS,
y por lo tanto morfolgicas. Como resultado, el modelo
obtenido tiene la ventaja evidente de un menor tamao, lo
que redunda tanto en un ahorro computacional como en
una mejor estimacin de los parmetros del modelo durante el entrenamiento. Como ventaja adicional, este modelo depende exclusivamente de la deteccin de cada latido,
haciendo este clasificador especialmente til en aquellos
casos donde la delineacin de las ondas del ECG no puede
realizarse de manera confiable. En este trabajo hemos prestado especial atencin a la capacidad de generalizacin del
modelo, para ello incluimos en el desarrollo la MIT-BIHSUP [9], disponible en Physionet [6] de manera libre. La
limitacin de no contar con una clase de fusin correctamente representada en ambas BD, fue resuelta por medio
del etiquetado alternativo AAMI2. Este reetiquetado puede justificarse dado que la clase fusin incluye los latidos
ventriculares que suceden al mismo tiempo que los normales, por lo que asumir que se trata de latidos ventriculares

Configuracin de bsqueda
Crit.
Clasificador
Opt.
LDC-C
JP +
QDC
JP +
LDC
JS
QDC
JS
de Chazal et al. [2]

# Caract.
8
7
10
9
48

Normal
S P+
93 98
80 98
92 98
87 98
87 98

Evaluacin del modelo


Suprav.
Ventr.
Total
S P+ S P+ A S P+
78 40 68 70 91 80 70
7
12 89 22 77 59 44
74 37 70 67 89 78 67
43 32 80 33 84 70 55
57 30 63 36 84 69 55

de Chazal et al. [2]


Algoritmo
n
s
N
40718 1863
S
307
1361
V
235
845
Total 41260 4069

Modo de
evaluacin
Desbalanceado
Balanceado

Este trabajo
v
1677
169
2529
4375

Referencia

Referencia

Tabla 2. Resumen de los modelos que tuvieron mejor desempeo separando las 3 clases AAMI2 durante la bsqueda SFFS, segn la Figura
2b. El mejor modelo ha sido resaltado en negrita y se utilizar para la evaluacin final. Los resultados estn en porcentajes.

Total
44258
1837
3609
49704

Clasificador
Este trabajo
de Chazal et al. [2]

# Caract.
8
48

Este trabajo
de Chazal et al. [2]

8
48

N
S
V
Total

Algoritmo
n
s
41950 2002
216
1422
473
222
42639 3646

v
236
197
2911
3344

Total
44188
1835
3606
49629

Normal
S P+
95 98
92 99

Suprav.
S P+
77 39
74 33

Ventr.
S P+
81 87
70 58

A
93
90

Total
S P+
84 75
79 63

95
92

77
74

81
70

84
79

84
79

79
80

88
73

88
84

85
79

Tabla 3. Comparacin del desempeo del modelo sugerido en este trabajo y [2] separando las 3 clases AAMI2 en DS2 de MIT-BIH-AR.
Ambos modelos fueron entrenados en DS1 de MIT-BIH-AR. Arriba se muestran las dos matrices de confusin obtenidas por
ambos modelos, y debajo se resume el desempeo obtenido. El desempeo est en porcentajes para ambos tipos de evaluacin.

puede ser una alternativa razonable.


De los resultados obtenidos de la bsqueda de modelos (Tabla 2), puede verse que varios modelos superan el
desempeo en los conjuntos de entrenamiento y validacin
al clasificador de [2]. El modelo seleccionado en este trabajo, corrobora su desempeo como puede verse en la Tabla 3 y evidencia su capacidad de generalizacin ya que el
conjunto de evaluacin se ha sido utilizado exclusivamente para tal fin. Cabe destacar que el desempeo de ambos
clasificadores comparados en este trabajo durante la fase
de desarrollo (Tabla 3), es inferior para todas las clases
que el obtenido en la fase de evaluacin final (Tabla 3).
Este fenmeno ya fue reportado en [2], sugiriendo que el
desempeo real del clasificador debe corroborarse en otras
BD. A pesar de esta limitacin, el grado de generalizacin
de este modelo debera ser superior al de los trabajos revisados, que solamente consideraron para el desarrollo la
BD MIT-BIH-AR. Finalmente, los resultados presentados
en este trabajo constituyen una mejora respecto al tamao
del modelo y al desempeo obtenido.

Agradecimientos
Este trabajo fue financiado por los proyectos TEC2010-21703C03-02 de CICYT y GTC T-30 de la DGA. El CIBER de Bioingeniera, Biomateriales y Nanomedicina es una iniciativa de ISCIII.

Referencias
[1] Hu YH, Palreddy S, Tompkins W. A patient-adaptable
ecg beat classifier using mixture of experts approach.
IEEE Transactions on Biomedical Engineering 1997;
44:891899.

[2] de Chazal P, ODwyer M, Reilly RB. Automatic


classification of heartbeats using ecg morphology and
heartbeat interval features. IEEE Transactions on Biomedical Engineering 2004;51:11961206.
[3] Park K, Cho B, Lee D, Song S, Lee J. Hierarchical
support vector machine. In Computers in Cardiology
2008, volume 35. IEEE Computer Society Press, 2008;
229232.
[4] Ince T, Kiranyaz S, Gabbouj M. A generic and robust
system for automated patient-specific classification of
ecg signals. IEEE Transactions on Biomedical Engineering 2009;56:14151426.
[5] Testing and reporting performance results of cardiac rhythm and st-segment measurement algorithms.
American National Standard, ANSI/AAMI/ISO EC57,
1998(R)2008.
[6] Goldberger AL, et al. PhysioBank, PhysioToolkit, and
PhysioNet: Components of a new research resource
for complex physiologic signals. Circulation 2000;
101(23):e215e220.
[7] Martnez JP, Almeida R, Olmos S, Rocha A, Laguna
P. A wavelet-based ecg delineator: Evaluation on standard databases. IEEE Transactions on Biomedical Engineering 2004;51:570581.
[8] Pudil P, Novovicova J, Kittler J. Floating search methods in feature selection. Pattern Recognition Letters
1994;15(11):11191125.
[9] Mark R, Moody G, Greenwald S.
Mitbih
supraventricular
arrhythmia
database.
http://www.physionet.org/physiobank/database/svdb/,
1990.