Zaho 2018

Manuscrito Noname No.
(será insertado por el editor)
Análisis de ECG espectro-temporal basado en Kalman utilizando redes

convolucionales profundas para la detección de fibrilación auricular
Zheng Zhao, Simo S¨ ärkk¨ä y Ali Bahrami Rad
Recibido: fecha / Aceptado: fecha

arXiv: 1812.05555v1 [eess.SP] 12 de diciembre de 2018
Abstracto En este artículo, proponemos un nuevo marco de ancho [6]. También se estima que para 2030 solo en la Unión Europea
clasificación de ECG para la detección de la fibrilación auricular (FA) entre 14 y 17 millones de pacientes sufrirán FA [46]. La FA se asocia con
utilizando representación espectro-temporal (es decir, espectro un mayor riesgo de sufrir un accidente cerebrovascular (5 veces),
variable en el tiempo) y redes convolucionales profundas. En el coágulos de sangre, insuficiencia cardíaca, enfermedad de las arterias
primer paso usamos una representación espectro-temporal coronarias o muerte (2 veces; las tasas de muerte se duplican con la FA)
bayesiana basada en la estimación de coeficientes variables en el [6]. Por tanto, el desarrollo de algoritmos automáticos para la detección
tiempo de la serie de Fourier usando un filtro de Kalman y más precoz de la FA es fundamental.
suave. A continuación, derivamos un modelo alternativo basado en Durante la FA, las fibras de los músculos auriculares tienen
una ecuación diferencial de oscilador estocástico para acelerar la una actividad eléctrica caótica que puede emitir impulsos con
estimación de la representación espectro-temporal en señales una frecuencia de 500 lpm al nódulo auriculoventricular (AV),
largas. Finalmente, después de evaluaciones comparativas de desde donde pasan los impulsos al azar. Esto da lugar a una
diferentes arquitecturas convolucionales, proponemos una red respuesta ventricular irregular que es una de las principales
neuronal convolucional profunda eficiente para clasificar los datos características de la FA [39]. Además, la FA tiene las siguientes
de ECG espectro-temporal 2D. características en el electrocardiograma (ECG): 1) intervalos RR
Los datos espectro-temporales del ECG se clasifican en “absolutamente” irregulares; 2) la ausencia de ondas P; y
cuatro clases diferentes: FA, ritmo normal sin FA (Normal), 3) duración variable del ciclo auricular (cuando es visible).
ritmo anormal sin FA (Otro) y segmentos ruidosos El análisis del ECG es el método más común para la detección de FA
(Ruidoso). El rendimiento de los métodos propuestos se y durante los últimos diez años se han desarrollado varios algoritmos
evalúa y puntúa con el conjunto de datos PhysioNet / para la detección automática de FA [1–3,5,9,13,22,42,43]. La mayoría de
Computing in Cardiology (CinC) 2017. Los resultados los algoritmos existentes siguen un proceso tradicional de
experimentales muestran que el método propuesto preprocesamiento, extracción de características y clasificación. Las
alcanza la puntuación global de F1 del 80,2%, que está en recientes técnicas de aprendizaje profundo (DL) [21] también
línea con los algoritmos de última generación. proporcionan un marco prometedor para la clasificación de un extremo
a otro. En contraste con los enfoques tradicionales, una de las ventajas
Palabras clave Análisis de ECG · Fibrilación auricular · aprendizaje
más significativas de usar el aprendizaje profundo para la clasificación
profundo · Filtro de Kalman · estimación de espectrograma
es que las características hechas a mano ya no son necesarias, porque
las redes neuronales profundas tienen la capacidad de aprender las
características inherentes cuando se les proporcionan suficientes datos
1. Introducción de entrenamiento [11 ]. Aunque sorprendentemente, las aplicaciones
del aprendizaje profundo en la FA recién han comenzado en los últimos
La fibrilación auricular (FA) es la arritmia cardíaca más común y años (ver, por ejemplo, [24, 28, 30, 34, 40]).
su prevalencia es de alrededor del 1-2% en todo el mundo.
Para las señales de ECG, se pueden adoptar directamente modelos

Departamento de Ingeniería Eléctrica y Automatización
Universidad Aalto de red convolucionales o recurrentes 1D para la tarea de clasificación.
Rakentajanaukio 2c, Espoo Sin embargo, transformar las señales en el dominio espectral
02150, Finlandia (características espectro-temporales) es una alternativa prometedora.
2 Zheng Zhao, Simo Särkk¨ ä y Ali Bahrami Rad
enfoque nativo sabiendo que las estructuras de redes El El artículo está estructurado de la siguiente manera: En la Sección 2,
neuronales convolucionales profundas (CNN) de última proponer utilizamos métodos espectro-temporales para el análisis de señales de
generación se diseñan típicamente para imágenes 2D. CNN ysis. En ECG. En la Sección 3, aplicamos la estimación propuesta a la detección
profundos como AlexNet [20], Inception-v4 [36] y DenseNet método de FA mediante un procedimiento de promediado.
[16] han demostrado su superioridad en la clasificación de En la Sección 4, comparamos y discutimos los resultados experimentales
imágenes. tanto en datos simulados como en conjuntos de datos de ECG, seguidos de la
Dentro de los estudios anteriores, solo unos pocos han recurrido al conclusión en la Sección 5.
uso de espectro variable en el tiempo para la detección de FA. Las

razones pueden ser las siguientes. Primero, no es fácil seleccionar
2 Métodos de estimación espectro-temporal
características hechas a mano a partir de datos 2D utilizando
clasificadores tradicionales. En segundo lugar, las características
El análisis espectro-temporal de señales es un enfoque eficaz y
temporales del espectrograma suelen ser difíciles de capturar incluso
poderoso que se utiliza en muchos campos que van desde el
en entornos DL. Varios estudios [40,45] han intentado DL para la
análisis de bioseñales [27] y el procesamiento de audio [26] hasta la
detección de AF en el dominio espectral, pero el uso de métodos
previsión meteorológica [8] y la predicción del mercado de valores.
tradicionales de estimación espectral, como la transformada de Fourier
[17]. En el análisis de ECG, la evolución temporal de la
de corta duración (STFT) o la transformada de ondas continuas (CWT),
información espectral se puede capturar en la representación
puede eliminar información trascendental durante la transformación y
de datos espectro-temporales, lo que puede transmitir
producir datos de entrada menos informativos. Por lo tanto, para
información importante sobre el proceso biológico subyacente
desentrañar estos problemas, es beneficioso considerar nuevos
del corazón.
métodos de estimación espectro-temporal que retengan mejor las
En esta sección, desarrollamos nuevos métodos para la
características temporales.
estimación espectrotemporal. En primer lugar, presentamos un
Las contribuciones de este trabajo son: 1) Proponemos dos modelo de la serie de Fourier basado en el método de estimación
modelos extendidos para la estimación espectro-temporal del espectro bayesiano de Qi et al. [25], y coloque los procesos
usando el filtro de Kalman y más suave. Luego, los gaussianos a priori en los coeficientes de Fourier. Luego,
combinamos con redes convolucionales profundas para la adoptando las ideas presentadas en [33], convertimos la serie de
detección de AF. 2) Probamos y comparamos el rendimiento de Fourier en un modelo de oscilador estocástico más flexible y
los enfoques propuestos para la estimación espectro-temporal usamos un filtro / suavizador de Kalman estacionario rápido para
en datos simulados y detección de FA con otros métodos de su estimación. Finalmente, demostramos el desempeño de la
estimación populares y diferentes clasificadores. 3) Para la estimación en datos simulados.
detección de FA, evaluamos las propuestas utilizando el
conjunto de datos PhysioNet / CinC 2017 [7], que se considera
un conjunto de datos desafiante que se asemeja a aplicaciones 2.1 Modelo de la serie de Fourier basado en Kalman
prácticas, y nuestros resultados están en línea con el estado de para la estimación espectro-temporal
la técnica.
Además de los métodos STFT y CWT tradicionales, el análisis
Este documento es una versión ampliada basada en
espectro-temporal también se puede realizar modelando la
nuestro documento de conferencia anterior “Análisis de
señal como un modelo estocástico de espacio de estados y
ECG espectro-temporal para la detección de fibrilación
recurriendo al procedimiento bayesiano (es decir, filtro de
auricular” [44] presentado en el 28º Taller internacional
Kalman y más suave) para su estimación [25, 31] . Las ventajas
IEEE 2018 sobre aprendizaje automático para el
clave de este tipo de enfoques sobre otros métodos
procesamiento de señales. Además de las contribuciones
espectrotemporales son que podemos aplicarlos tanto a
originales en el artículo de la conferencia, en este artículo
señales muestreadas de manera uniforme como desigual [25]
usamos un nuevo modelo de oscilador estocástico y
y no requieren garantías de estacionariedad ni ventanas.
mostramos que la estimación espectro-temporal también
Además, como mostramos aquí, también se pueden combinar
se puede implementar con un filtro de Kalman de estado
con métodos de espacio de estado para procesos gaussianos
estable (estacionario) y más suave, lo que conduce a un
[14, 32].
reducción significativa del consumo de tiempo sin perder
Recuerde que cualquier señal periódica con fundamental
precisión en la estimación. Demostramos esto tanto en
frecuencia F0∑ se puede ampliar a una serie de Fourier
datos simulados como en la clasificación de datos de AF.
Además de los experimentos en el documento de la METRO
conferencia, donde solo mostramos algunas z (t) = a0 + [aj cos (2π jf0t) + bj pecado (2π jf0 t)], (1)
j =1
comparaciones entre los métodos de estimación y
clasificadores, los expandimos a una amplia gama de donde la representación exacta se obtiene con METRO → ∞, pero
estándares y modernos (por ejemplo, para las señales muestreadas (y por lo tanto limitadas en banda) es
Análisis de ECG espectro-temporal basado en Kalman utilizando redes convolucionales profundas para la detección de fibrilación auricular 3
suficiente para considerar series finitas. Este modelo estacionario es el También podemos reescriba el modelo dinámico (5) como
modelo subyacente en el enfoque STFT. STFT aplica una ventana a cada
x k= Ψ x kk- 1 + q,k (8)
segmento de señal y encuentra un ajuste de mínimos cuadrados (a
través de la transformada discreta de Fourier) a la donde Ψ contiene los términos ψa jk
y ψB en eljkdi ag-
k
coe ffi cients {aj, Bj: j = 1,. . . ,METRO}. onal y qk ∼ N (0, Σk) donde Σk contiene los términos
En nuestro enfoque, comenzamos asumiendo que la co- Σajk y Σjk en laB diagonal.
los eficientes dependen del tiempo, y ponemos el proceso gaussiano Si asumimos que en realidad medimos (7) con
previos en ellos: Ruido de medición gaussiano ditivo rk ∼ N (0, R), entonces
aj (t) ∼ G PAG(0, ka(j t, t)),

′ podemos expresar el modelo de medición como
(2)
Bj (t) ∼ G PAG(0, kj B(t, t′)). yk = Hk Xk + rk. (9)
Como se muestra en [14,32], siempre que las funciones de covarianza Las ecuaciones (8) y (9) definen un modelo de espacio de estado
sean estacionarias, podemos expresar los procesos gaussianos lineal en el que podemos realizar una estimación bayesiana exacta
como soluciones a ecuaciones diferenciales estocásticas utilizando un filtro de Kalman y más suave [31]. En el papel original
lineales (SDE). Elegimos las funciones de covarianza para [25], los vectores estatales X1, ..., Xnorte se supone que realizan
tener la forma una caminata aleatoria, pero aquí la idea clave es usar un
proceso gaussiano más general que introduce una constante de
ka(j t, t′) = (sa)2 ex j pag -λaj |t - t ′| , tiempo finita al problema. Aunque aquí hemos optado por utilizar
(( )) (3)
ka(j t, t′) = (sB)2 Exp
j -λB j |t - t ′| , un modelo de proceso gaussiano bastante simple para este
propósito, también sería posible utilizar procesos gaussianos a
donde sa,j sBj> 0 son escala pa rametros y λa, j λBj> 0 priori más generales para los coeficientes tales como
son las inversas de las constantes de tiempo (escalas de longitud) representaciones de espacio de estado de Mat´érn o funciones de
de los procesos. covarianza exponencial al cuadrado [14, 32 ].
Las representaciones de espacio de estado (que son escalares en
El filtro de Kalman para este problema consiste entonces en
este caso) se dan como la siguiente recursividad hacia adelante (para k = 1,. . . ,norte ):
daj = -λa j aj dt + dWa j,
(4) -
metrok = Ψk metrok-1,
dbj = - λBj Bj dt + dWB, j
>
PAG
k - = Ψk PAGk-1 Ψk + Σk,
donde W,jaWB son
j movimientos brownianos con dif- - >
a B
coeficientes de fusión qj, qj. También podemos resolver el equat iones
Sk = Hk PAGk Hk +R,
(10)
en el discr ete pasos de tiempo (s ee, p. ej. , [12]) como K =k P-H> k- k /Sk (,
)
metrok = metrok +Kk yk -Hk metro-,k
aj (t) k = ψjka aj (tk-1) + wajk, wjka ∼ N (0, Σjk a ),
(5)
k P- -K S
P= k K>,
Bj (tk) = ψ Bb ( t k-)1+ wBjk), wBj k∼ N (0, ΣB jk),
kk k
y el RTS suaviza la siguiente sion hacia atrás (para k repetirse-

donde
(jk j = N - 1,. . . , 1):
ψjka = expag λaj (tk - t k- 1), > -] -1,
(- ) G=
k P Ψk +k1 [PAGk +1
ψjkb = Exp - λBj (tk t k- 1 ) , -
(6) metros
k = metrok +GRAMOk [metros k +1 -metrok +1], (11)
Σajk = qja(1 - - -2λaj (tk - t k-)),1
expag(( - >
)) PAG
k s=P +
k G [Ps k k +1 -PAGk +1]GRAMOk.
Σbjk= qjB (1 - Exp -2λB (tj - t -)).
k k1
Las distribuciones posteriores finales se dan como:
Déjanos ahora supongamos que obtenemos una medición ruidosa
s , PAGs
mentos de la serie (1) a veces t1, t2,. . ..
Fourier pag(Xk | y1:N) = NORTE(Xk | metrok k), k = 1,. . . ,NORTE. (12)
Lo que podemos ahora haz es definir un vector de estado x =
> La magnitud de la sinusoidal con frecuencia. Fj =
[a,0 a, ...
1 , a , B1 , B2, . . . , B ]que apila todas las co-
jf en
0 el paso del tiempo k luego se puede calcular extrayendo
METRO METRO
e ffi cientes aj y Bj. De esta forma, podemos escribir Hk =

los elementos correspondientes a a jk) yb̂ (t) desdejk
[1, cos (2πf0tk),. . . , cos (2πM f0 tk), pecado (2πf0tk),. . . ,
el vector medio metrok s:
pecado (2πMf0t],k)∑ lo que lleva a

√
[S]j, k = aj t
2 ( k)
+ ˆB2̂j (tk). (13)
METRO
z (tk) = a0 + [aj cos (2π jf0tk) + Bj pecado (2π jf0 tk)]

De ahora en adelante, matrix S se llama matriz de datos espectro-
j =1
(7) temporales.
= Hk Xk.
2.2 Modelo de oscilador para estimación espectro-temporal En este modelo, el primer componente del estado es un
movimiento browniano de deriva lenta con coeficiente de difusión
En la práctica, el costo computacional de un filtro de Kalman y más cient qB Modelado de la posible media distinta de cero de la
suave puede ser extenso cuando la longitud de la señal es muy señal.
larga. Sin embargo, en lugar del modelo de espacio de estados de El problema de estimación se puede resolver con un filtro de
la serie de Fourier de la sección anterior, también se puede derivar Kalman y un dispositivo más suave. Sin embargo, debido a que el
una representación alternativa utilizando ecuaciones diferenciales modelo es LTI, se sabe que el filtro de Kalman converge en un filtro
de oscilador estocástico. De esta manera, los modelos dinámicos y de Kalman de estado estacionario [18]. El filtro de Kalman de
de medición se vuelven invariantes en el tiempo lineales (LTI) para estado estacionario se puede obtener resolviendo la siguiente
que podamos aprovechar un filtro de Kalman estacionario para ecuación algebraica discreta de Riccati (DARE) para la covarianza
reducir el consumo de tiempo. Este tipo de modelos de oscilador límitePAG-
k→ PAG∞
- :
estocástico también se consideró en [33] y el vínculo con los
modelos de proceso de período gaussiano se investigó en [35].
PAG
∞ - = AP- ∞A> +Q
>
(20)
Un solo oscilador estocástico de cuasiperíodo se puede -AP- H> ∞(HP- H> +R)-1∞HP- ∞UN .
trazada con la siguiente ecuación diferencial sto [chas] tic
mo [de l [35]: Se sabe que existe una solución positiva-semidefinita de la
ecuación siempre que el par [A, H] es detectable [18].
- λ j -2πfj 10
DXj = Xj dt + DW,j
2πfj - λj 01 (14)
j
Así podemos obtener PAG∞- resolviendo DARE en (20),
= F]j X dt + L] DWj.
y el filtro de Kalman estacionario para la media hacia adelante
[ > la propagación es:
donde x j= aj Bj y el movimiento browniano Wj =
[ a b>
Wj W j tiene una matriz de difusión adecuadamente elegida ζj =
m k= Amk- 1 + K (y -Jamón
k k- 1), (21)
qj I [35]. Al resolver el SDE en pasos de tiempo discretos,
tener
donde la ganancia estacionaria es
Xjk = Aj Xj k-1 +
q,j q j∼ N (0, Q j),
(15)
donde ∫Aj y Qj son dada por: K = P- H>∞ (HP- ∞H> +R)-1. (22)
Aj = Exp(Fj ∆t),
∆t Entonces resulta que el suavizante correspondiente también
Qj = Exp(F (∆
j ts))
- Lζj L> (dieciséis) converge a su estado estable, y la propagación hacia atrás para
0 el suavizante de estado estable resultante es:
>
× Exp(Fj (∆t - s)) ds,
s
donde ∆t = t - tk-. k1 k = metrok +G
metros
(mk +1 -Soyk). (23)
Una señal cuasiperiódica general puede ser modificación-
donde la ganancia se calcula como

de la forma anteriorX0)> (X[35]. Si construimosXk =
[eled usando una superposición]
> ion de osciladores estocásticos
>
1)> ·k · · (XMETRO) , entonces el tim resultante mi-
k k G = P∞A> [P- - ∞] 1,
modelo invariante puede estar escrito como:
- - >
(24)
PAG∞ = PAG∞ -PH ∞ (HP∞H- +R) >1 HP∞. - -
Xk = Hachak-1 + qk, qk ∼ N (0, Q),

yk = Hxk + rk, r ∼ N (0, R). (17) De esta manera, la c cálculo del filtro y covari-
no se necesitan pasos en cada paso de tiempo, lo que reduce
donde A, Q y H kestán de fi nidos como:
el costo computacional de manera significativa. La desventaja

1 qB ∆t es que necesitamos resolver el DARE para poder construir el
A1 Q1 filtro estacionario y más suave, lo que también aumenta el

A= ... , Q= ... , costo computacional.

Después de calcular las estimaciones metros k por cada vez
AMETRO]
paso, podemos extraer las estimaciones de aj (tk) yBj (tk)
(18)
[ [ ] QMETRO y use (13) para calcular los datos espectro-temporales
H = 1 H1 ··· HM = 1 1 0 1 0 · · · 1 0. (19) trix.
2.5
1,5
0,5
y (t)
- 0,5
-1
(a) Kalman λ = 0,01, METRO0 = (b) OSC λ = 0,01, METRO0 =
0,METRO50 = 0,5 0,METRO50 = 0,5
- 1,5
-2
- 2,5
0 50 100 150 200 250 300 350 400 450 500
t
Figura 1 Datos sinusoidales simulados.
2.3 Ensayos de estimación sobre datos simulados
(c) Wavelet CWT Morse, (d) STFT, Hann, ancho de ventana

Una evaluación cuantitativa de la propuesta espectro- banda de tiempo 60350, superposición 340
Los métodos temporales para la clasificación del ECG se
describen en las Secciones 4 y 5.2. Sin embargo, en esta
sección inspeccionamos visualmente las representaciones
espectro-temporales propuestas en los datos simulados y las
comparamos con otros enfoques estándar de tiempo-
frecuencia como STFT, CWT y BurgAR.
Para evitar confusiones en la terminología, de ahora en adelante,
nos referiremos a las propuestas de la Sección 2.1 y 2.2 como FourierKS
(e) BurgAR, ventana de Hann
y OscKS, respectivamente. 350, superposición 340
Simulamos una señal multisinusoidal observada por ruido
y (t) como se muestra en (25) y Fig.1 con paso de tiempo Figura 2 La estimación espectro-temporal en líneas punteadas datos. El
rojas simuladas representa la frecuencia de verdad del terreno bandas.
∆t = 0,1 y εk ∼ NORTE(0, 0,12).
y (t k) = εk
FourierKS OscKS CWT STFT BurgAR
pecado (2π 0,01 tk) + pecado (2π 0,3 tk), 1 ≤ tk < 150
∆t = 0,1 3.39 0,18 0,08 0,07 0,36
pecado (2π 0,2 tk) + pecado (2π 0,3 tk), 150 ≤ tk < 250 ∆t = 0,01 9.18 0,95 1,32 0,30 2,58
+ pecado (2π 0,13 tk) + pecado (2π 0,2 tk), 250 ≤ tk < 300.
tabla 1 Costo de tiempo de CPU de cada método de estimación espectro-
pecado (2π 0,2 tk) + pecado (2π 0,43 tk), 300 ≤ tk < 400
temporal. Los tiempos se registran en una computadora portátil
pecado (2π 0,1 tk) + pecado (2π 0,43 tk), 400 ≤ tk < 500 MacBook con CPU Core i5 y Matlab 2017b.
(25)
En la Fig. 2, trazamos los resultados del espectro variable en el

tiempo utilizando FourierKS, OscKS, STFT, CWT y BurgAR. Los
ajustes para la estimación que usamos aquí se describen en los 20 veces y registre los valores medios de su tiempo de CPU.
títulos de las figuras. Probamos con∆t = 0,1 y ∆t = 0.01 para controlar la longitud de
Aunque todos los métodos pueden aproximar los datos la señal. Los resultados de la Tabla 1 muestran claramente que
simulados en buena medida, FourierKS y OscKS tienen una la reducción de tiempo de FourierKS (3,39 s, 9,18 s) a OscKS
resolución de frecuencia más alta con una representación (0,18 s, 0,95 s) es significativa. Para el método OscKS, el tiempo
menos ruidosa que puede ayudarnos a extraer características para resolver DARE es de 0.09 s, lo que representa casi la mitad
más robustas de la representación espectro-temporal. del tiempo total (0.18 s). Para reducir aún más el uso del
Además, los resultados de los métodos de FourierKS y OscKS tiempo, se puede recurrir a mejores solucionadores DARE o
son casi los mismos, aunque tienen diferentes modelos de una resolución más baja en el eje de frecuencia. Para una señal
espacio de estado. más larga (es decir∆t = 0.01), el método OscKS (0.95 s) se
Para verificar la eficiencia computacional de la propuesta vuelve más rápido que CWT (1.32 s), lo que indica una
estacionaria en la Sección 2.2, ejecutamos cada una de las estimaciones eficiencia competente para señales largas.
Ingeniería de características espectro-temporales
Detección QRS Segmentación Estimación espectro-temporal Representación promediada CNN profundos
y1 S(1)
y ‡
S(2) S
y2 Normal
..
(⋅)
.
..
S(I)
.
ECG
yI AF
Otros
metromianorteS∘metroaXS
Ruido
Fig. 3 Esquema de procesamiento general generalizado para el análisis de ECG.
3 Materiales y métodos para la en matrices de características (imagen espectro-temporal) para

clasificación de ECG ritmos normales. Sin embargo, para los ritmos de FA, esperamos el
área borrosa en las imágenes espectro-temporales debido a los
3.1 Conjunto de datos de ECG intervalos RR variables. Para los segmentos ruidosos, no
esperamos ningún área despejada para los complejos QRS, y para
En los experimentos de AF, utilizamos el conjunto de datos de ECG otras clases basadas en la arritmia subyacente, se pueden esperar
proporcionado por PhysioNet / CinC Challenge 2017 [7]. En total, se diferentes patrones en las imágenes espectro-temporales (ver
recopilaron 8528 registros de ECG cortos de una sola derivación Figura 4). Finalmente, la tercera razón para utilizar los pasos de
utilizando dispositivos portátiles AliveCor. Las grabaciones se segmentación y promediado es disminuir el efecto del ruido en los
cargaron automáticamente a través de una aplicación en el registros de ECG. A continuación, discutimos los diferentes pasos
teléfono móvil del usuario. Además, los datos se muestrearon a de la ingeniería de características en detalle.
300 Hz y se filtraron en paso de banda por los dispositivos AliveCor.
En este trabajo, para la detección de QRS, usamos una
La duración de los registros de ECG fue de entre 9 sa 61 s con una
versión modificada del algoritmo Pan-Tompkins. El
mediana de 30 s. La distribución de los registros de ECG entre las
algoritmo original de Pan-Tompkins [23] es sensible al
diferentes clases es la siguiente: Normal (5076 registros), AF (758),
ruido de ráfagas y fácilmente malinterpreta el ruido con R
Otro (2415) y Ruidoso
pico. Para abordar esta limitación, al menos parcialmente,
(279).
modificamos ligeramente el algoritmo original de modo
que verifique iterativamente el número de picos R
3.2 Ingeniería de características espectro-temporales de ECG detectados y, si ese número es menor que un umbral,
ignore los picos R detectados y sus muestras vecinas en la
Nuestro objetivo ahora es encontrar las características espectro- señal de ECG. y nuevamente aplica el algoritmo Pan-
temporales de las señales de ECG de modo que puedan clasificarse Tompkins en el resto de la señal. De esta manera, si hay
mediante redes neuronales convolucionales profundas (CNN). En la Fig. pocos casos con ruido de ráfaga de alta amplitud, nuestros
3 mostramos el esquema propuesto general desde la entrada (ECG) algoritmos pueden manejarlos. Un ejemplo que ilustra esta
hasta la salida (etiqueta de predicción). modificación se muestra en la Fig. 5.
El primer paso es la detección de QRS y la segmentación del ECG en
El siguiente paso es la segmentación en la que los segmentos
la que la señal del ECG sin procesar se divide en segmentos de longitud
de ECG de longitud fija se extraen de la señal original de modo que
fi ja alineados por sus picos R centrales. A continuación, la matriz de
cada segmento cubre potencialmente tres
datos espectro-temporales para cada segmento se calcula usando (13).
Complejos QRS. El proceso de segmentación se describe
A continuación, las matrices de datos se promedian y normalizan para >
generar una matriz de características espectrotemporales de longitud
como sigue: siy = y1 y ∈ Rnorte es el original
fija. En el último paso, la matriz de características 2D (imagen espectro-
Señal de ECG y pagI ∈ 2 {·1,
· ·2,
ynorte
· [· ·, NORTE} es la] posición de
>
temporal) se introduce en una CNN profunda para su clasificación. Ith R pico en y, luego p̄ = pag1 pag2 · · · pagD sostiene el
posiciones de todos los picos R, y D es el número total de picos
La lógica detrás de los pasos de segmentación y promediado en el R en y. Ahora, para extraer D-2 segmentos de ECG que
procedimiento de ingeniería de características (área discontinua en la asociar cada uno pagI, I ∈ {2, · · ·, D-1}, a un segmento de y
Fig. 3) es triple. Primero, puede manejar el problema de los registros de tal que potencialmente cubre tres componentes QRS adyacentes
ECG con diferente longitud y generar matrices de características plexos. Para hacerlo, recopilamosβ muestras antes y después de
espectro-temporales de longitud fija. En segundo lugar, puede capturar cada pagI. Siguiendo este procedimiento, el segmento de ECG
suficiente información de la grabación de ECG para ser clasificada por asociado a IEl pico R se puede extraer de y como
>
las CNN. Por ejemplo, dado que los picos R centrales en cada segmento y (i) = ypag -β · ·I · ypag · · · yp̄I + β I
, y usando la ecuación
están alineados, después de promediar esperamos bordes afilados (13), la matriz de datos espectro-temporales correspondiente a
correspondientes a complejos QRS este segmento de ECG es S(I) ∈ RMETRO× (2β +1) donde METRO
Análisis de ECG espectro-temporal basado en Kalman utilizando redes convolucionales profundas para auriculares Detección de fibrilación 7
y 2β + 1 son pasos de frecuencia y tiempo, respectivamente. 1000 1000
Vale la pena notar que estos dos parámetros (es decir,METRO

500 500
y 2β + 1) determina el tamaño de la matriz S en (13). La

0 0
- 500 - 500
elección del parámetroβ es importante, ya que regula la - 1000 - 1000
duración de la producción y la cantidad que se necesita en - 1500 - 1500
promedio. Generalmente,β debe cubrir al menos tres - 2000 - 2000
complejos QRS para una buena evidencia de los intervalos RR.

- 2500 - 2500
0 500 1000 1500 2000 2500 3000 0 500 1000 1500 2000 2500 3000
La matriz de características espectro-temporales S‡ se obtiene (a) Detección de QRS usando (b) Detección de QRS usando
Pan-Tompkin Pan-Tompkin iterativo
promediando todas las matrices de datos espectro-temporales
y multiplicando con su máxima máscara: Figura 5 Mejora en la detección de QRS
∑ D-1 S(I) ◦
S ‡= yo =2
metro
hacha (26) Algoritmo 1 Representación promedio
D-2 2≤I≤D- S(I). 1
Aporte: Señal y = [y1, y2, ..., yN]>
La razón para agregar una operación máxima en la ecuación Producción: Característica espectro-temporal S‡ ∈ RMETRO× (2β +1)
(26) es que podría, en menos en cierta medida, ayuda a 1: Realice Pan-Tompkins en y y obtener pag
2: D = s≤izepag)
3: Si D δ luego
400
40 4: ȳ=y
200 35 5: ȳI-α: i + α = 0 para todos I ∈ pag
000
30 6: Realice Pan-Tompkins en ȳ, y obtener nuevos pag, D
800
600
25
7: terminara si
20
8: para todos 1 < yo <D en p̄ hacer
Hz
400
200
15
9: Realice una estimación espectro-temporal en y (I) Llegar
S(I)
0
10
- 200
- 400
5
10: final para ∑D-1
S (I)
- 600
0 200 400 600 800 1000 1200 1400 1600 180 20 40 60 80 100 120 140 160 180 200
11: devoluciones‡ = yo =2
D-2
◦ metro 2≤I≤D-1 S(I)
hacha
(a) Rec. 5569 (normal) (b) Rec. 5569 (normal)
200 40
sirviendo detalles intrincados de datos espectro-temporales que

000 35
800
30
600
25
se perdieron potencialmente durante el promedio en todos los
400
20 segmentos y también al normalizar los datos.

Hz
200
0
15
En la Fig. 4 se muestran ejemplos de matrices de
características espectro-temporales de ECG (imágenes) de cuatro
10
- 200
- 400 5
- 600
0 500 1000 1500 2000 2500 3000 20 40 60 80 100 120 140 160 180 200
clases diferentes de señales de ECG, donde utilizamos el método
(c) Rec. 5587 (Auricular Mentira- (d) Rec. 5587 (Auricular Mentira- de estimación espectrotemporal propuesto en la Sección 2.2.
rilación) rilación)
3.3 Clasificación
500 400
400 350
300
300
200
250
100
200
Hz
150
100
100
200
50
300
400
0 200 400 600 800 1000 1200 1400 1600 180 20 40 60 80 100 120 140 160 180 200
(e) Rec. 5586 (otros) (f) Rec. 5586 (Otros)

600 40
400
35
Figura 6 Bloque denso: cada una de las capas convolucionales toma
200
30
todas sus salidas anteriores como entrada.
25
0
20
Hz
200
15
400
10 En los últimos diez años, las técnicas de aprendizaje profundo,
especialmente las redes neuronales convolucionales, han logrado
600
5
800
0 200 400 600 800 1000 1200 1400 1600 180 20 40 60 80 100 120 140 160 180 200
un gran éxito en las tareas de detección y clasificación. En
(gramo) Rec. 5507 (Ruido) (h) Rec. 5507 (ruido)
comparación con los modelos de CNN 1D, el progreso de las CNN
Figura 4 Resultados de promediado de representación (lado derecho) en

para aplicaciones de imágenes 2D es más próspero. El objetivo
cuatro tipos de señales de ECG (lado izquierdo), utilizando el método aquí es aprovechar las CNN avanzadas para la clasificación de AF
espectrotemporal propuesto. Los círculos rojos indican picos R detectados. utilizando el espectro variable en el tiempo (que es una imagen).
Sin embargo, una falla en la mayoría de los modelos de red Capa Nombre Estructura Tamaño de salida
actuales es que la información durante el entrenamiento, Aporte Aporte (50, 50, 1)
principalmente el gradiente, puede desaparecer si la red es
7 × 7 conv
excesivamente profunda (con muchas capas), lo que generalmente Circunvolución (50, 50, 64)
zancada 1]
se denomina “gradiente de desaparición” [10]. En general, este [
1 × 1 conv × 4
problema raíz puede aliviarse de varias formas básicas, por Bloque denso 1 (50, 50, 256)
3 × 3 conv
ejemplo, con entrenamiento previo, conexión residual o con
1 × 1 conv
funciones de activación correctamente seleccionadas (por ejemplo, Transición 1 (25, 25, 128)
× ave piscina
22
no se debe adjuntar ReLu antes de la normalización de lotes). [ ]
1 × 1 conv × 4
Densamente conectado convolucional redes Bloque denso 2
33× conv
(25, 25, 320)
(DenseNet) [16], que ganó el premio al mejor papel de 2017 de
1 × 1 conv
CVPR, proporciona un rendimiento de vanguardia sin Transición 2 (12, 12, 160)
× ave piscina
22
degradación ni sobreajuste incluso cuando se apilan por [ ]
1 × 1 conv × 4
cientos de capas. Las DenseNets pueden verse como versiones Bloque denso 3 (12, 12, 352)
33× conv
refinadas de las redes residuales profundas (ResNets) [15],
11× conv
donde la primera introduce una conexión explícita en cada dos Transición 3 (6, 6, 176)
× ave piscina
22
capas y las precedentes en un bloque denso en lugar de solo [× ]
1 × 1 conv × 4
las capas adyacentes, como se muestra en la Fig. 6. Otra Bloque denso 4 (6, 6, 368)
3 3 conv
adicional ventaja de DenseNet, como se menciona en [ ]
Agrupación ave global
[16], es la función de reutilización. concat (736)
Concatenar máximo global
Considerando unL capas red e imagen aporte
Totalmente conectado
U0, el resultado de l-a capa es]: 4 clases (4)
(Softmax)
U=l HRes (lUl-1) +Ul-1, (27) +
Tabla 2 Estructura de Dense18 en este artículo.
U = H Guarida( UU · · · U -
l l 0 1 l 1). (28)
donde HRes
l y HGuarida son
l operaciones de capa (p. ej. , con-
para cada clase se calcula para resumir el rendimiento
volución, normalización por lotes o activación) de ResNet y
mancia de esa clase específica: Normal (F1NORTE), AF (F1A),
DenseNet respectivamente, y U es la salida
l de lla capa.
Otros (F1O), y ruidosoF1∼). Luego, según lo recomendado por
PhysioNet / CinC 2017, la evaluación general
La DenseNet que implementamos aquí, a la que nos referimos
métrica se utiliza de la siguiente manera:
como Dense18 +, es ligeramente diferente de la propuesta original
[16], donde empleamos la agrupación global máxima y media en la 1
F1general = (F1 + F1 + F1). 3A O (30)
última capa y las concatenamos como se muestra en la Tabla 2. En
norte
nuestra aplicación, debido a el tamaño de la entrada, eliminamos la

Finalmente, el rendimiento detallado se muestra mediante una
capa de agrupación máxima de muestreo descendente inicial. Cada
matriz de confusión de 4 clases cuyas entradas diagonales son las
bloque denso contiene cuatro 3×3 capas convolucionales, con una
clasi fi caciones correctas y las entradas o ff-diagonales son las clasi
tasa de crecimiento de 48 y una tasa de reducción de 0,5.
fi caciones incorrectas. Esta matriz de confusión es el resultado de
apilar 10 matrices de confusión de los datos de prueba en la
validación cruzada de 10 veces.
3.4 Evaluación del modelo y criterios de evaluación
Para evaluar el rendimiento de los métodos propuestos, hemos 4 experimentos

realizado experimentos con el conjunto de datos de ECG descrito
en la Sección 3.1. El rendimiento de clasificación de diferentes En principio, se puede utilizar cualquier método de análisis de
métodos se evaluó utilizando el mecanismo de puntuación tiempo-frecuencia para la clasificación de ECG. Entonces, para
recomendado por PhysioNet / Computing in Cardiology (CinC) mostrar el beneficio de usar el método espectro-temporal
Challenge 2017 [7] sobre todo el conjunto de datos en un esquema propuesto en la Sección 2 sobre otros métodos estándar de análisis
de validación cruzada de 10 veces. Los datos se dividieron de tal de tiempo-frecuencia, hemos realizado experimentos con el
manera que las mismas proporciones de conjunto de datos de ECG. Hemos comparado los resultados del
cada clase está disponible en cada pliegue (validación cruzar- método propuesto con la transformada de Fourier de corta
estratificada). Además, la puntuación F1, duración (STFT), la transformada de ondícula continua (CWT) y el
Precisión · Recuperar método clásico de estimación de densidad espectral de potencia.

F1 = 2 · (29) Para hacerlo, usamos la magnitud de STFT, la magnitud de CWT,
Precision + Recuperar
Espectro-Temporal basado en Kalman Análisis de ECG utilizando redes convolucionales profundas para la detección de fibrilación auricular 9
F1general Bosque aleatorio [4] CNN18 InceptionV3 [37] ResNet18 [15] ResNet34 [15] DenseNet18 [16] Denso18 +
STFT 73,47 72,65 75,66 76,17 76,26 77,39 77,67
CWT 74,91 73,96 76,41 78,57 78,70 78,82 79,63
BurgAR 73.22 71,78 76,45 76,41 76.30 77,58 77,76
FourierKS 75,99 72,74 77,48 78.05 77,99 79,50 80,24
OscKS 76,12 73.07 76,91 77,85 78,19 79,67 80,18
Tabla 3 Validación cruzada de 10 veces F1 Puntuación de los métodos de estimación espectro-temporal utilizando diferentes clasificadores para clasi fi cación.
La mejor puntuación para cada columna y fila se muestra en negrita y cursiva, respectivamente.
Método F1norte F1A F1O F1∼ F1general EstándarF1
(1) STFT + Denso 18 + 88,67 74,49 69,84 53,28 77,67 1,78

(2) CWT + Denso 18 + 89.30 77,76 71,82 51,95 79,63 1,76
(3) BurgAR + Denso18 + 88,35 75,17 69,74 56,49 77,76 1,62
(4) Kalman + Denso18 + 89,29 79.18 72.25 52,50 80,24 1,52
(5) OSC + Denso 18 + 89.09 79,78 71,68 55,86 80,18 1,55
(6) Martín [45] 88,8 76,4 72,6 64,5 79,2 N/A
(6) Zhaohan [41] 87 80 68 N/A 78 N/A
Cuadro 4 Resultados de validación cruzada de 10 veces de total y cuatro etiquetas utilizando diferentes métodos de estimación espectro-temporal en el
clasificador Dense18 +. La mejor puntuación para cada columna se muestra en negrita.
y raíz cuadrada de la densidad espectral de potencia no logarítmica El rendimiento detallado de los cinco métodos (es decir,
utilizando el modelo autorregresivo de Burg (BurgAR) [19] de la señal de FourierKS, OscKS, CWT, STFT y BurgAR) con el clasificador Dense18
ECG para construir las matrices de características. + se informa en cinco matrices de confusión en la figura 7. Cada
matriz de confusión se normaliza por filas. Las entradas diagonales
Además, se examinan varias arquitecturas muestran la recuperación de cada ritmo y las entradas o ff-
convolucionales diferentes y sus resultados se comparan diagonales muestran las tasas de clasificación errónea. Por
con el clasificador de RF estándar. La estructura de redes ejemplo, la primera fila de la primera matriz de confusión muestra
de InceptionV3, ResNet y DenseNet se tomó de sus que el 92,1% de los ritmos normales se clasifican correctamente
artículos originales [15, 16, 37], pero eliminamos la capa de como normales, pero el 0,6%, el 6,3% y el 1,0% se clasifican
submuestreo inicial para una comparación justa con incorrectamente como AF, Otro y Ruidoso.
Dense18 + en la Tabla 2. También construimos una CNN
simple ( CNN18) que tiene la misma configuración de
estructura que Dense18 + pero sin conexión densa. Para el
bosque aleatorio usamos 500 árboles de decisión y una 5 Discusión
selección aleatoria de 50 características (de 2500) en cada
nodo. Además, en cada nodo, el bosque aleatorio minimiza 5.1 Métodos de análisis de frecuencia de tiempo de ECG
la medida de impureza de entropía cruzada. Los ajustes
para la estimación espectro-temporal que elegimos aquí Primero examinamos cómo funcionan los diferentes métodos
son los mismos que se describen en la Sección 5.1.× 50 de estimación espectro-temporal en una señal de ECG a través
para clasificadores. de una inspección visual. Tomamos la 3223a grabación (Rec.
3223) del conjunto de datos de CinC 2017 como ejemplo, que está
etiquetado como AF. Se muestra en la figura 8 (a). Para el método
de FourierKS y OscKS, elegimos un rango de frecuencia diferente (
Con siete clasificadores y cinco métodos de análisis de METRO) y opción de suavizado como se muestra en la Fig. 8 (b), 8
tiempo-frecuencia diferentes, en total tenemos 35 (c) y 8 (d). Establecemos la escala de longitudλ a una constante de
combinaciones diferentes cuyo desempeño se informa en la 10, y use 1 para la varianza del ruido de medición R, e identidad
Tabla 3. Como puede verse en esta tabla, los mejores para la covarianza del ruido del proceso q. En teoria, λ podría ser
resultados (puntajes generales) pertenecen a nuestros diferente para cada frecuencia, lo que podría usarse para mejorar
métodos de representación espectro-temporal propuestos (es el rendimiento. La Fig. 8 (e) presenta los resultados del método
decir, , FourierKS y OscKS) con clasi fi cador Dense18 +. original en [25], que adopta el modelo de movimiento browniano
Además, la Tabla 4 muestra el rendimiento de cada clase de para los coeficientes. Para STFT y BurgAR, aplicamos 11 ventanas
ECG para el clasificador Dense18 + con diferente de Hann superpuestas de longitud 10 para la estimación, como se
representación de frecuencia de tiempo. muestra en la Fig. 8 (f) y 8 (h).
FourierKS + Dense18 + OscKS + Denso 18 + CWT + Denso 18 +
4677 31 318 50 4646 36 351 43 4682 20 326 48

Normal 0,8 Normal 0,8 Normal 0,8
(92,1) (0,6) (6,3) (1,0) (91,5) (0,7) (6,9) (0,8) (92,2) (0,4) (6,4) (0,9)
33 593 115 17 0,6 27 611 106 14 0,6 36 565 140 17 0,6

AF AF AF
(4,4) (78,2) (15,2) (2,2) (3,6) (80,6) (14,0) (1,8) (4,7) (74,5) (18,5) (2,2)
Verdadera etiqueta
Verdadera etiqueta
Verdadera etiqueta
0.4 0.4 0.4
618 107 1644 46 612 116 1634 53 619 102 1650 44
Otro Otro Otro
(25,6) (4,4) (68,1) (1,9) (25,3) (4,8) (67,7) (2,2) (25,6) (4,2) (68,3) (1,8)
0,2 0,2 0,2
72 9 59 139 69 10 50 150 73 8 63 135

Ruidoso Ruidoso Ruidoso
(25,8) (3,2) (21,1) (49,8) (24,7) (3,6) (17,9) (53,8) (26,2) (2,9) (22,6) (48,4)
Normal AF Otro Ruidoso Normal AF Otro Ruidoso Normal AF Otro Ruidoso
Etiqueta prevista Etiqueta prevista Etiqueta prevista
STFT + Denso 18 + BurgAR + Denso18 +
4639 35 349 53 4606 30 395 45

Normal 0,8 Normal 0,8
(91,4) (0,7) (6,9) (1,0) (90,7) (0,6) (7,8) (0,9)
51 549 144 14 0,6 47 545 155 11 0,6

AF AF
(6,7) (72,4) (19,0) (1,8) (6.2) (71,9) (20,4) (1,5)
Verdadera etiqueta
Verdadera etiqueta
0.4 0.4
637 122 1594 62 635 110 1619 51
Otro Otro
(26,4) (5,1) (66,0) (2,6) (26,3) (4,6) (67,0) (2,1)
0,2 0,2
61 10 60 148 62 7 57 153
Ruidoso oisy
(21,9) (3,6) (21,5) (53,0) (22,2) (2,5) (20,4) (54,8)
norte
Normal AF Otro Ruidoso Normal AF Otro Ruidoso
Etiqueta prevista Etiqueta prevista
Figura 7 Matriz de confusión normalizada en diferentes métodos.
40
20 40
800
18 35
35
600
dieciséis
30 30
400 14
25 25
12
200
20
Hz
10 20
Hz
Hz
0
8
15 15
3
200
10 10
4
400 5
5
2
600
0 200 400 600 800 1000 1200 1400 1600 1800 20 40 60 80 100 120 140 160 180 200 20 40 60 80 100 120 140 160 180 200 20 40 60 80 100 120 140 160 180 200
(a) Auricular Fibrilación. (B) FourierKS λ = 10; (C) FourierKS λ= 10; (d) OscKSλ = 10, R =
Rec. 3223 METRO1 = 0, METRO200 = 20 METRO1 = 0,METRO400 = 40 q = 1, qb = 1mi-7; METRO1 =
0,METRO400 = 40
40 40 40
35 35 35
30 30 30
10
25 25 25
Hz
20 20 20
Hz
Hz
Hz
15 15 15
10 10 10
5 5 5
20 40 60 80 100 120 140 160 180 200 20 40 60 80 100 120 140 160 180 20 40 60 80 100 120 140 160 180 200 20 40 60 80 100 120 140 160 180
(e) Propuesta en [25] METRO1 = (f) STFT, Hann, ventana (g) CWT, wavelet morse (h) BurgAR, Hann, win-
0,METRO400 = 40 11, superposición 10 dow 11, superposición 10
Figura 8 Comparación de diferentes métodos de estimación de espectrogramas en Rec. 3223.
Para CWT (Fig. 8 (g)), usamos la ondícula Morse predeterminada 8 (g) respectivamente, inicialmente podemos concluir varias ventajas: el
implementada en Matlab. resultado de FourierKS es más suave y tiene una resolución más alta y
unificada tanto en el tiempo como en la frecuencia. Para STFT y BurgAR,
Primero, observamos que los resultados de la estimación la resolución está limitada por la selección de la ventana, la longitud y la
de FourierKS (Figura 8 (c)) y OscKS (Figura 8 (d)) son casi superposición. CWT desenreda este problema mediante el escalado y la
lo mismo excepto que la frecuencia base a0 coeficiente traducción de la función base de la ondícula, pero debido al principio de
las estimaciones son muy sensibles a qB en el método OscKS. Si incertidumbre del procesamiento de la señal de la ondícula [29], se
comparamos el método de FourierKS con STFT, BurgAR, requiere
y CWT, que se muestran en la Fig.8 (c), 8 (f), 8 (h) y
la resolución en tiempo y frecuencia no se puede alcanzar BurgAR, y tienen una activación más grande en "picos" y
simultáneamente (ver Fig.8 (g)). Nuestros enfoques modelan los detalles de fondo. En comparación con FourierKS y CWT, el
coeficientes de señal de la serie de Fourier que varían en el tiempo en el área de baja frecuencia está mejor preservada y explotada
espacio de estado, que están libres del uso de ventanas u ondas. para el método FourierKS.
Otra ventaja del método de estimación OscKS propuesto es
que puede ser muy eficiente desde el punto de vista computacional
para la implementación cuando necesitamos realizar estimaciones
5.3 Limitaciones
muchas veces y el sistema es fijo (es decir, A, Q
Por lo general, para la detección de FA, necesitamos datos de ECG
permanece inalterable). Por ejemplo, si se adopta la estrategia
de al menos 30 s [6]. Sin embargo, muchos registros de ECG del
de promediado, la estimación del espectro debe realizarse
conjunto de datos tienen una duración inferior a 30 s (consulte la
para cada segmento y registro. Para el método OscKS,
Sección 3.1), lo que limita la importancia médica del estudio actual.
simplemente necesitamos resolver PAG∞ en (20) una vez. Como
Además, el paso de promediado en la ingeniería de características
dijimos en la Sección 2.2, el costo computacional del método OscKS
es sólido solo cuando hay suficientes segmentos espectro-
se reduce sustancialmente al derivar una covarianza estable.
temporales, lo que no es el caso de registros de ECG muy cortos
(consulte la Sección 3.2).
5.2 Clasificación de ECG para la detección de AF

6. Conclusión
Como se mencionó anteriormente, la Tabla 3 muestra que los
mejores resultados pertenecen a nuestros métodos de En este artículo, propusimos una representación espectro-temporal de
representación espectro-temporal propuestos (es decir, FourierKS señales de ECG, basada en modelos de espacio de estado, para su
y OscKS) con el clasificador Dense18 +. La Tabla 3 también muestra aplicación en la detección de fibrilación auricular basada en redes
que, independientemente del método de representación espectro- profundas. Demostramos empíricamente que si colocamos los procesos
temporal, Dense18 + tiene el rendimiento más alto entre todos los gaussianos a priori en los coeficientes de la serie de Fourier, entonces,
clasificadores. En contraste, la CNN simple (CNN18) tiene las al estimar el estado del modelo de espacio de estados lineal
puntuaciones más bajas. Además, RF es generalmente peor que los correspondiente utilizando el filtro / suavizador de Kalman, podemos
clasificadores de redes convolucionales (excepto CNN18) superar a otros métodos de análisis de tiempo-frecuencia, como la
probablemente porque, a diferencia de las redes convolucionales, transformada de Fourier de tiempo corto, continua transformada de
RF no se ha beneficiado de la estructura existente en la ondículas y estimación espectral autorregresiva para la clasificación de
representación espectrotemporal. ECG.
Con respecto a las diferentes representaciones espectro- También aceleramos la estimación de la representación
temporales, STFT y BurgAR tienen los peores resultados, y espectrotemporal de señales mediante el uso de un modelo de
FourierKS y OscKS tienen el mejor desempeño. Además, para ecuación diferencial de oscilador estocástico y un filtro / suavizador
algunos clasificadores, CWT proporciona resultados tan de Kalman estacionario. Esta representación es útil para mejorar la
buenos o incluso mejores que los de FourierKS y OscKS. Sin escalabilidad de la representación espectrotemporal propuesta
embargo, los mejores resultados de FourierKS y OscKS son para registros de ECG largos. Finalmente, hemos encontrado una
más altos que el mejor resultado de CWT. arquitectura convolucional eficiente (es decir, Dense18 +) para la
La Tabla 4 muestra que los métodos de clasificación de detección de FA utilizando las características espectro-temporales
ECG propuestos tienen el mejor resultado para el ritmo normal mediante la evaluación comparativa de múltiples modelos de redes
y el peor resultado para el ruido. El desempeño de AF y Otro neuronales convolucionales.
está entre estos dos, pero típicamente AF tiene un mejor
desempeño que Otro, probablemente porque Otro es un
Referencias
término umberella que cubre muchos ritmos anormales sin AF,
y no tenemos suficientes muestras para cada anormalidad 1. Annavarapu, A., Kora, P .: detección de fibrilación auricular basada
para entrenar adecuadamente a nuestros clasificadores. en ECG utilizando diferentes órdenes de transformada de
Para examinar cómo actúan las diferentes características Hadamard del complejo simétrico conjugado. Revista Internacional
de la Academia Cardiovascular2 (3), 151–154 (2016)
espectro-temporales en el análisis de ECG AF, una forma de nivel
2. Asgari, S., Mehrnia, A., Moussavi, M .: Detección automática de
elemental es investigar el mapa de características y la activación de fibrilación auricular mediante transformada de ondículas
la primera capa convolucional. Sin embargo, este “sondeo” basado estacionarias y máquina de vectores de soporte. Computadoras en
en vóxeles solo produce una explicación limitada [38] y no puede biología y medicina60, 132-142 (2015)
3. Babaeizadeh, S., Gregg, RE, Helfenbein, ED, Lindauer, JM, Zhou,
dar una idea completa. La visualización se muestra en la Fig. 9.
SH: Mejoras en la detección de la fibrilación auricular para la
Podemos ver que el mapa de características de FourierKS y CWT monitorización en tiempo real. Revista de electrocardiología42
son más diversos y activos que STFT y (6), 522–526 (2009)
Figura 9 Visualización de mapa de características (16 columnas a la izquierda) y activación (16 columnas a la derecha) de la primera capa
convolucional en la Rec. 1005 (AF). De arriba a abajo, cada 4 filas son FourierKS, CWT, BurgAR y STFT respectivamente. OscKS no se muestra aquí para
simplicidad, porque tiene un resultado muy similar al de FourierKS.
4. Breiman, L .: Bosques aleatorios. Aprendizaje automático45 (1), 14. Hartikainen, J., Särkk¨ ä, S .: filtrado y suavizado de Kalman
5-32 (2001) soluciones para los modelos de regresión temporal del
5. Bruser, C., Diesel, J., Zink, MD, Winter, S., Schauerte, proceso gaussiano. En: 2010 IEEE International Workshop on
P., Leonhardt, S .: Detección automática de fibrilación auricular Machine Learning for Signal Processing (MLSP), págs. 379– 384
en señales de vibración cardíaca. IEEE Journal of Biomedical (2010)
and Health Informatics17 (1), 162–171 (2013) 15. He, K., Zhang, X., Ren, S., Sun, J .: Aprendizaje residual profundo
6. Camm, AJ, Kirchhof, P., Lip, GY, Schotten, U., Savelieva, I., Ernst, para el reconocimiento de imágenes. En: 2016 IEEE
S., Van Gelder, IC, Al-Attar, N., Hindricks, G., Prendergast, B ., Conference on Computer Vision and Pattern Recognition
et al .: Directrices para el manejo de la fibrilación auricular: el (CVPR), págs. 770–778 (2016)
grupo de trabajo para el manejo de la fibrilación auricular de 16. Huang, G., Liu, Z., van der Maaten, L., Weinberger,
la sociedad europea de cardiología (ESC). European Heart KQ: Redes convolucionales densamente conectadas. En: 2017
Journal31 (19), 2369–2429 (2010) IEEE Conference on Computer Vision and Pattern Recognition
(CVPR), págs. 2261–2269 (2017)
7. Cli ff ord, GD, et al .: Clasificación de FA a partir de un breve 17. Joseph, A., Larraín, M., Turner, C .: características de rentabilidad
registro de ECG de una sola derivación: Physionet / Computing diaria de acciones y previsibilidad. Procedia Ciencias de la
in Cardiology Challenge 2017. 2017 Computing in Cardiology Computación114, 481–490 (2017)
(CinC) 44, 1-4 (2017) 18. Kailath, T., Sayed, AH, Hassibi, B .: Estimación lineal. Prentice
8. Ehrendorfer, M .: Modelos numéricos espectrales de predicción del Hall, Nueva Jersey (2000)
tiempo. Sociedad de Matemáticas Industriales y Aplicadas 19. Kay, SM, Marple, SL: Análisis de espectro: una perspectiva
(2011) moderna. Actas del IEEE69 (11), 1380-1419
9. García, M., Rdenas, J., Alcaraz, R., Rieta, JJ: Aplicación de la (1981)
energía ondícula relativa a la detección independiente de la 20. Krizhevsky, A., Sutskever, I., Hinton, GE: clasificación de ImageNet
frecuencia cardíaca de la fibrilación auricular. Métodos y con redes neuronales convolucionales profundas. En: Avances en
programas informáticos en biomedicina131, 157–168 (2016) los sistemas de procesamiento de información neuronal
10. Glorot, X., Bengio, Y .: Comprensión de la dificultad de entrenar 25, págs. 1097-1105. Curran Associates, Inc. (2012)
redes neuronales de alimentación profunda. En: Actas de la 21. LeCun, Y., Bengio, Y., Hinton, G .: Deep learning. Naturaleza
XIII Conferencia Internacional sobre Inteligencia Arti fi cial y 521 (7553), 436–444 (2015)
Estadística, vol. 9, págs. 249-256 (2010) 22. Mohebbi, M., Ghassemian, H .: Detección de episodios de
11. Goodfellow, I., Bengio, Y., Courville, A., Bengio, Y .: Deep fibrilación auricular mediante SVM. En: 2008 30ª Conferencia
Learning. Prensa del MIT (2016) Internacional Anual de la Sociedad de Ingeniería en Medicina y
12. Grewal, MS, Andrews, AP: Filtrado de Kalman, teoría y práctica Biología del IEEE, págs. 177–180. IEEE (2008)
con MATLAB. Wiley, Nueva York, NY 23. Pan, J., Tompkins, WJ: Un algoritmo de detección de QRS en
(2001) tiempo real. Transacciones IEEE sobre ingeniería biomédica
13. Hagiwara, Y., Fujita, H., Oh, SL, Tan, JH, Tan, RS, Ciaccio, EJ, BME-32 (3), 230-236 (1985)
Acharya, UR: Diagnóstico asistido por computadora de 24. Pourbabaee, B., Roshtkhari, MJ, Khorasani, K .: Redes neuronales
fibrilación auricular basado en señales de ECG: una revisión. convolucionales profundas y características del ECG de aprendizaje para
Ciencias de la información467, 99-114 (2018) la detección de pacientes con fibrilación auricular paroxística. IEEE
Transacciones sobre sistemas, hombre y cibernética: sistemas red neuronal. 2017 Computación en Cardiología (CinC)
48 (12), 2095–2104 (2018) 44, 1-4 (2017)
25. Qi, Y., Minka, TP, Picara, RW: Estimación del espectro bayesiano 42. Yaghouby, F., Ayatollahi, A., Bahramali, R., Yaghouby,
de datos no estacionarios muestreados de manera desigual. M., Alavi, AH: Hacia la detección automática de la fibrilación
En: 2002 IEEE International Conference on Acustics, Speech, auricular: un enfoque computacional híbrido. Computadoras
and Signal Processing (ICASSP), vol. 2, págs. 1473–1476. IEEE en biología y medicina40 (11), 919–930 (2010)
(2002) 43. Zabihi, M., Rad, AB, et al .: Detección de fibrilación auricular en
26. Rad, AB, Virtanen, T .: Predicción del espectro de fase de dispositivos portátiles de ECG utilizando un clasificador forestal
señales de audio. En: 2012 5to Simposio Internacional sobre aleatorio. 2017 Computación en Cardiología (CinC)44, 1-4
Comunicaciones, Control y Procesamiento de Señales, págs. 1– (2017)
5. IEEE (2012) 44. Zhao, Z., Särkk¨ ä, S., Rad, AB: ECG espectro-temporal
27. Rad, AB, et al .: clasificación basada en ECG de los ritmos análisis para detección de fibrilación auricular. En: 2018 IEEE
cardíacos de reanimación para el análisis de datos 28th International Workshop on Machine Learning for Signal
retrospectivos. Transacciones IEEE sobre ingeniería biomédica Processing (MLSP), págs. 1–6. IEEE (2018)
64 (10), 2411–2418 (2017) 45. Zihlmann, M., Perekrestenko, D., Tschannen, M .: Redes neuronales
28. Rajpurkar, P., Hannun, AY, Haghpanahi, M., Bourn, recurrentes convolucionales para la clasificación del
C., Ng, AY: detección de arritmias a nivel de cardiólogo con electrocardiograma. 2017 Computación en Cardiología (CinC)44,
redes neuronales convolucionales. preimpresión arXiv 1-4 (2017)
arXiv: 1707.01836 (2017) 46. Zoni-Berisso, M., Lercari, F., Carazza, T., Domenicucci,
29. Ricaud, B., Torr´ ésani, B .: Una encuesta de principios de incertidumbre S .: Epidemiología de la fibrilación auricular: perspectiva
principios y algunas aplicaciones de procesamiento de señales. europea. Epidemiología clínica6, 213–220 (2014)
Avances en matemáticas computacionales40 (3), 629–650 (2014)
30. Rubin, J., Parvaneh, S., Rahman, A., Conroy, B., Babaeizadeh, S .:
Redes convolucionales densamente conectadas y análisis de la
calidad de la señal para detectar la fibrilación auricular mediante
registros de ECG cortos de una sola derivación. En: 2017
Computación en cardiología (CinC), págs. 1-4 (2017)
31. S¨ärkkä, S .: filtrado y suavizado bayesianos. Bridge Leva-
University Press (2013)
32. S¨ ärkkä, S., Solin, A., Hartikainen, J .: Aprendizaje espacio-temporal a
través del suavizado y suavizado bayesiano de dimensión infinita.
Revista de procesamiento de señales IEEE30 (4), 51 a 61 (2013)
33. S¨ärkkä, S., Solin, A., Nummenmaa, A., Vehtari, A., Auranen, T.,
Vanni, S., Lin, FH: Filtrado dinámico retrospectivo de ruido
fisiológico en BOLD fMRI: DRIFTER. NeuroImage60 (2),
1517-1527 (2012)
34. Shashikumar, SP, Shah, AJ, Li, Q., Cli ff ord, GD, Nemati, S .: Un
enfoque de aprendizaje profundo para monitorear y detectar
la fibrilación auricular utilizando tecnología portátil. En: 2017
IEEE EMBS International Conference on Biomedical Health
Informatics (BHI), págs. 141-144. IEEE (2017)
35. Solin, A., Srkk, S .: Vínculo explícito entre funciones de covarianza
periódica y modelos de espacio de estados. En: S. Kaski,
J. Corander (eds.) Actas de la Decimoséptima Conferencia
Internacional sobre Inteligencia Arti fi cial y Estadística, Actas
de la investigación sobre aprendizaje automático, vol. 33,
págs. 904–912. PMLR, Reykjavik, Islandia (2014)
36. Szegedy, C., Io ff e, S., Vanhoucke, V., Alemi, A .: Inception-v4,
Inception-ResNet y el impacto de las conexiones residuales en
el aprendizaje. En: Proceedings of AAAI on Arti fi cial
Intelligence, págs. 4278–4284 (2017)
37. Szegedy, C., Vanhoucke, V., Io ff e, S., Shlens, J., Wojna,
Z .: Repensar la arquitectura inicial de la visión por
computadora. En: La Conferencia IEEE sobre Visión por
Computador y Reconocimiento de Patrones (CVPR) (2016)
38. Szegedy, C., Zaremba, W., Sutskever, I., Bruna, J., Erhan, D.,
Goodfellow, I., Fergus, R .: Propiedades intrigantes de las
redes neuronales. preimpresión arXiv arXiv: 1312.6199
(2013)
39. Thaler, M .: El único libro de electrocardiogramas que
necesitará. Lippincott Williams y Wilkins (2017)
40. Xia, Y., Wulan, N., Wang, K., Zhang, H .: Detección de la fibrilación
auricular mediante redes neuronales convolucionales profundas.
Computadoras en biología y medicina93, 84–92 (2018)
41. Xiong, Z., Stiles, MK, Zhao, J .: Clasificación robusta de la señal de ECG para
la detección de la fibrilación auricular utilizando un novedoso

Zaho 2018

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Zaho 2018

Cargado por

Copyright:

Formatos disponibles

Manuscrito Noname No.

(será insertado por el editor)

Análisis de ECG espectro-temporal basado en Kalman utilizando redes

Zheng Zhao, Simo S¨ ärkk¨ä y Ali Bahrami Rad

Recibido: fecha / Aceptado: fecha

Para las señales de ECG, se pueden adoptar directamente modelos

uso de espectro variable en el tiempo para la detección de FA. Las

aj (t) ∼ G PAG(0, ka(j t, t)),

y el RTS suaviza la siguiente sion hacia atrás (para k repetirse-

e ﬃ cientes aj y Bj. De esta forma, podemos escribir Hk =

pecado (2πMf0t],k)∑ lo que lleva a

z (tk) = a0 + [aj cos (2π jf0tk) + Bj pecado (2π jf0 tk)]

donde la ganancia se calcula como

Xk = Hachak-1 + qk, qk ∼ N (0, Q),

el costo computacional de manera significativa. La desventaja

Figura 1 Datos sinusoidales simulados.

2.3 Ensayos de estimación sobre datos simulados

(c) Wavelet CWT Morse, (d) STFT, Hann, ancho de ventana

En la Fig. 2, trazamos los resultados del espectro variable en el

Ingeniería de características espectro-temporales

Detección QRS Segmentación Estimación espectro-temporal Representación promediada CNN profundos

Fig. 3 Esquema de procesamiento general generalizado para el análisis de ECG.

3 Materiales y métodos para la en matrices de características (imagen espectro-temporal) para

y 2β + 1 son pasos de frecuencia y tiempo, respectivamente. 1000 1000

Vale la pena notar que estos dos parámetros (es decir,METRO

y 2β + 1) determina el tamaño de la matriz S en (13). La

elección del parámetroβ es importante, ya que regula la - 1000 - 1000

duración de la producción y la cantidad que se necesita en - 1500 - 1500

promedio. Generalmente,β debe cubrir al menos tres - 2000 - 2000

complejos QRS para una buena evidencia de los intervalos RR.

(a) Rec. 5569 (normal) (b) Rec. 5569 (normal)

sirviendo detalles intrincados de datos espectro-temporales que

20 segmentos y también al normalizar los datos.

(e) Rec. 5586 (otros) (f) Rec. 5586 (Otros)

Figura 4 Resultados de promediado de representación (lado derecho) en

nuestra aplicación, debido a el tamaño de la entrada, eliminamos la

Para evaluar el rendimiento de los métodos propuestos, hemos 4 experimentos

Precisión · Recuperar método clásico de estimación de densidad espectral de potencia.

Método F1norte F1A F1O F1∼ F1general EstándarF1

(1) STFT + Denso 18 + 88,67 74,49 69,84 53,28 77,67 1,78

FourierKS + Dense18 + OscKS + Denso 18 + CWT + Denso 18 +

4677 31 318 50 4646 36 351 43 4682 20 326 48

33 593 115 17 0,6 27 611 106 14 0,6 36 565 140 17 0,6

0,2 0,2 0,2

72 9 59 139 69 10 50 150 73 8 63 135

Normal AF Otro Ruidoso Normal AF Otro Ruidoso Normal AF Otro Ruidoso

Etiqueta prevista Etiqueta prevista Etiqueta prevista

STFT + Denso 18 + BurgAR + Denso18 +

4639 35 349 53 4606 30 395 45

51 549 144 14 0,6 47 545 155 11 0,6

Normal AF Otro Ruidoso Normal AF Otro Ruidoso

Etiqueta prevista Etiqueta prevista

Figura 7 Matriz de confusión normalizada en diferentes métodos.

Figura 8 Comparación de diferentes métodos de estimación de espectrogramas en Rec. 3223.

5.2 Clasificación de ECG para la detección de AF

También podría gustarte