Está en la página 1de 13

LA CLASIFICACIÓN DEL MOVIMIENTO ANORMAL DE LA MANO PARA AYUDAR EN EL AUTISMO

DETECCIÓN: ESTUDIO DE APRENDIZAJE AUTOMÁTICO

RESUMEN

Introducción: Un diagnóstico formal de autismo puede ser un proceso ineficaz y prolongado. Las


familias pueden esperar varios meses o más antes de recibir un diagnóstico para su hijo a pesar de
la evidencia de que una intervención más temprana conduce a mejores resultados del
tratamiento. Las tecnologías digitales que detectan la presencia de comportamientos relacionados
con el autismo pueden escalar el acceso a los diagnósticos pediátricos. Un fuerte indicador de la
presencia de autismo son los comportamientos de autoestimulación, como el aleteo de las manos.

Objetivo: Este estudio tiene como objetivo demostrar la viabilidad de las tecnologías de
aprendizaje profundo para la detección del aleteo de manos de videos caseros no estructurados
como un primer paso hacia la validación de si los modelos estadísticos junto con las tecnologías
digitales pueden aprovecharse para ayudar en el análisis automático del comportamiento del
autismo. Para respaldar el intercambio generalizado de tales videos caseros, exploramos
modificaciones para preservar la privacidad en el espacio de entrada a través de la conversión de
cada video a coordenadas de puntos de referencia manuales y medimos el rendimiento de los
clasificadores de series temporales correspondientes.

Métodos: Utilizamos la base de datos de comportamiento de autoestimulación (SSBD) que


contiene 75 videos de aleteo de manos, golpes de cabeza y giros exhibidos por niños. De este
conjunto de datos, extrajimos 100 videos de aleteo de manos y 100 videos de control, cada uno de
entre 2 y 5 segundos de duración. Evaluamos cinco representaciones de características separadas:
cuatro subconjuntos de puntos de referencia de manos con privacidad preservada detectados por
MediaPipe y una representación de características obtenida de la salida de la penúltima capa de un
modelo MobileNetV2 ajustado en la SSBD. Alimentamos estos vectores de características en una
red de memoria a corto plazo que predijo la presencia de aleteo de manos en cada videoclip.

Resultados: El modelo de mayor rendimiento usó MobileNetV2 para extraer características y logró
una puntuación F1 de prueba de 84 (SD 3.7; precisión 89.6, SD 4.3 y recuperación 80.4, SD 6)
usando una validación cruzada de 5 veces para 100 semillas aleatorias en los datos SSBD ( 500
pliegues distintos en total). De los modelos que entrenamos con datos de privacidad preservada, el
modelo entrenado con todos los puntos de referencia manuales alcanzó una puntuación F1 de 66,6
(DE 3,35). Otro modelo de este tipo entrenado con 6 puntos de referencia seleccionados alcanzó
una puntuación F1 de 68,3 (DE 3,6). Un modelo con privacidad preservada entrenado usando un
único punto de referencia en la base de las manos y un modelo entrenado con el promedio de las
ubicaciones de todos los puntos de referencia de las manos alcanzaron una puntuación F1 de 64,9
(SD 6,5) y 64,2 (SD 6,8), respectivamente.

Conclusiones:Creamos cinco redes neuronales livianas que pueden detectar el aleteo de manos en
videos no estructurados. El entrenamiento de una red de memoria a corto plazo con vectores de
características convolucionales superó al entrenamiento con vectores de características de
coordenadas manuales y utilizó casi 900 000 parámetros de modelo menos. Este estudio
proporciona el primer paso hacia el desarrollo de métodos precisos de aprendizaje profundo para
la detección de actividad de comportamientos relacionados con el autismo.

JMIR Biomed Eng 2022;7(1):e33771

doi:10.2196/33771
PALABRAS CLAVE

aprendizaje profundo; aprendizaje automático; reconocimiento de actividad; aprendizaje


automático aplicado; detección de puntos de referencia; autismo; diagnóstico; salud

informática; detección; factibilidad; video; modelo; red neuronal

1. INTRODUCCION

El autismo afecta a casi 1 de cada 44 personas en los Estados Unidos [1] y es el retraso del
desarrollo de más rápido crecimiento en los Estados Unidos [2,3]. Aunque el autismo se puede
identificar con precisión a los 24 meses de edad [4,5], la edad promedio de diagnóstico es
ligeramente inferior a los 4,5 años [6]. Esto es problemático porque una intervención más
temprana conduce a mejores resultados del tratamiento [7]. El diagnóstico y la terapia digitales
móviles pueden ayudar a cerrar esta brecha al proporcionar servicios escalables y accesibles a
las poblaciones desatendidas que carecen de acceso a la atención. El uso de terapias digitales
y móviles para ayudar a los niños con autismo se ha explorado y validado en dispositivos
portátiles [8-15] y teléfonos inteligentes [16-22] mejorados con modelos de aprendizaje
automático para ayudar a automatizar y optimizar el proceso terapéutico. Los esfuerzos de
diagnóstico móvil para el autismo utilizando el aprendizaje automático se han explorado en la
literatura anterior. El autismo se puede clasificar con alto rendimiento utilizando 10 o menos
características de comportamiento [23-28]. Si bien algunos humanos no capacitados pueden
distinguir de manera confiable estas características de comportamiento [25,29-36], un objetivo
final es alejarse de las soluciones de humanos en el circuito hacia soluciones de diagnóstico
automatizadas y que preservan la privacidad [37,38]. Los esfuerzos preliminares en este
espacio han incluido la detección automatizada de comportamientos relacionados con el
autismo, como golpearse la cabeza [39], evocación de emociones [40-42] y mirada fija [43]. El
movimiento restrictivo y repetitivo, como el stimming manual, es una característica
conductual primaria utilizada por los instrumentos de diagnóstico para el autismo [44].
Debido a que actualmente no existen clasificadores de visión por computadora para
movimientos anormales de la mano, al menos en el dominio público, nos esforzamos por crear
un clasificador que pueda detectar esta característica relacionada con el autismo como un
primer paso hacia sistemas de apoyo clínico automatizados para retrasos en el desarrollo
como el autismo. La estimación de poses o posturas y el reconocimiento de actividades se
han explorado como un método para la detección de comportamientos de autoestimulación.
Vyas et al [45] volvieron a entrenar una red neuronal convolucional basada en la región de
máscara 2D (R-CNN) [46] para obtener las coordenadas de 15 puntos de referencia del cuerpo
que luego se transformaron en una representación Pose Motion (PoTion) [47] y se alimentaron
a un modelo de red neuronal convolucional (CNN) para una predicción de movimientos atípicos
relacionados con el autismo. Este enfoque dio como resultado una precisión de clasificación del
72,4 % con una precisión del 72 % y una recuperación del 92 %. Rajagopalan y Goecke [48]
utilizaron la representación Histogram of Dominant Motions (HDM) para entrenar un modelo
para detectar comportamientos de autoestimulación [48]. En el conjunto de datos de
comportamiento de autoestimulación (SSBD) [49], que también usamos en este estudio, los
autores lograron una precisión binaria del 86,6 % al distinguir entre golpearse la cabeza y girar,
y una precisión del 76,3 % en la tarea de 3 vías de distinguir entre golpearse la cabeza, girando
y agitando las manos. Notamos que no entrenaron a un clasificador con una clase de control
ausente de cualquier comportamiento de autoestimulación. Zhao et al [50] usaron el rango de
rotación de la cabeza y las rotaciones por minuto en la guiñada, cabeceo, y las direcciones de
giro como características para los clasificadores de detección de autismo.
Esto alcanzó una precisión de clasificación del 92,11 % con una decisión modelo de árbol que
usó el rango de rotación de la cabeza en la dirección de balanceo y la cantidad de rotaciones
por minuto en la dirección de guiñada como características.

Sobre la base de estos esfuerzos anteriores, desarrollamos una computadora clasificador de


visión para el movimiento anormal de la mano mostrado por niños. A diferencia de los
enfoques anteriores de la tecnología basada en el movimiento detección de autismo, que
utilizan características de actividad extraídas para entrenar un clasificador para detectar el
autismo directamente, nuestro objetivo es detectar comportamientos relacionados con el
autismo que pueden contribuir a un autismo diagnóstico, pero que también puede estar
relacionado con otras conductas síntomas. Entrenamos a nuestro clasificador de movimientos
anormales de la mano en el SSBD, ya que es el único conjunto de datos disponible
públicamente de videos que muestran movimientos anormales de la mano en niños. Nosotros
usamos validación cruzada y logró una puntuación F1 del 84% utilizando características
convolucionales emitidas por cuadro por un ajuste fino Modelo MobileNetV2 alimentado en
una memoria a largo plazo (LSTM). También exploramos la protección de la privacidad
diseñada a mano representaciones de características que pueden apoyar el intercambio
generalizado de videos caseros.

2. METODOS

Descripción general

Comparamos cinco enfoques de entrenamiento separados: cuatro subconjuntos de puntos de


referencia de la mano de MediaPipe alimentados en un LSTM y ajustados a las Características
convolucionales de MobileNetV2 alimentadas a un LSTM. El Los enfoques de puntos de
referencia de la mano proporcionaron una exploración de la actividad. detección en
representaciones de características de privacidad preservada. Porque nos esforzamos por usar
clasificadores de aprendizaje automático en entornos de bajo recurso configuraciones tales
como dispositivos móviles, además apuntamos a hacer nuestros modelos y representaciones
de características son lo más ligeros posible.

BASE DE DATOS

Usamos el SSBD [49] para entrenar y probar nuestros modelos. Hasta donde sabemos, SSBD es
el único público conjunto de datos disponibles de conductas autoestimulantes que contienen

ejemplos de golpes de cabeza, aleteo de manos y giros. SSBD incluye las URL de 75 videos de
YouTube y, para cada video, anotaciones de los períodos de tiempo (por ejemplo, segundo 1 a
segundo 35) cuando se realizó cada conducta de autoestimulación. Los videos contienen
múltiples períodos de tiempo para el mismo comportamiento (p. ej., los segundos 1-3 y 5-9
contienen aleteo de manos), así como comportamientos múltiples (p. ej., los segundos 1-3
muestran golpes en la cabeza y los segundos 5-9 muestran el aleteo de la mano). Solo usamos
las anotaciones de aleteo de las manos.

PREPROCESAMIENTO

Para obtener videos de control sin pantallas de aleteo de manos, primero descargó todos los
videos de YouTube en SSBD que contenían secciones de aleteo de manos. Cada sección en un
video que exhibe Se extrajo el aleteo de la mano para crear un nuevo clip. las partes de
el video sin aleteo de manos (es decir, sin anotaciones) fueron aislado para crear clips de
control. Este proceso de curación de datos es ilustrado en la Figura 1.

Después de extraer todos los clips positivos y de control de los videos descargados, buscamos
maximizar la cantidad de datos de entrenamiento en cada clase. Porque ocurre un evento de
aleteo de manos en un par de segundos, dividimos los clips de más de 2 segundos en clips más
pequeños. Eliminamos manualmente todos los videos que eran cualitativamente inestables o
de baja calidad. En total extrajimos 50 videoclips que muestran aleteo de manos y 50 videos de
control.

Figura 1. Extracción de videos positivos y de control. Las secciones de un video que muestra el
aleteo de las manos se separan para crear videos y segmentos positivos, entre las secciones de
aleteo de manos se utilizan como videos de control.

En Su mayoría contienen niños cuyos puntos de referencia de la mano detectados son más
juntos debido a las manos más pequeñas. Esto podría ser un problema al generalizar a
personas mayores con brechas más amplias entre puntos de referencia de la mano. Para
ayudar al modelo a generalizar más allá de la mano forma, una posible solución es utilizar un
subconjunto curado de puntos de referencia

Para eliminar la forma de la mano por completo, uno podría usar solo una punto de referencia.
Probamos este método utilizando un solo punto de referencia en la base de la mano. Sin
embargo, debido a que los videos en SSBD puede ser inestable, confíe en que MediaPipe
pueda detectar esto El punto de referencia puede haber dado lugar a funciones vacías para
algunos marcos. Uno forma de eludir este problema es tomar la media de todos los (x, y, z)
coordenadas de puntos de referencia detectados y usar el promedio coordenada para cada
mano. Llamamos a este método el "medio enfoque de “punto de referencia”.

Tomamos los primeros 90 cuadros de un video y para cada cuadro, concatenó los vectores de
características y los usó como entrada para cada paso de tiempo de un modelo LSTM (Figura 2).
experimentamos con subconjuntos de puntos de referencia proporcionados por MediaPipe;
intentamos usar los 21 puntos de referencia, 6 puntos de referencia (5 en cada punta de los
dedos y 1 en el base de la mano), y con puntos de referencia únicos. Notamos que el las
coordenadas concatenadas de puntos de referencia siempre formarán un vector que es 6 veces
más grande que el número de puntos de referencia utilizados porque hay 3 coordenadas para
un solo punto de referencia y 2 manecillas para que se puede detectar cada punto de
referencia.

Figura 2. Flujo de trabajo de detección de aleteo de manos. Cada uno de los 90 cuadros
iniciales de un solo video se convierte en un vector de características, que consiste en el
ubicación de las coordenadas detectadas por MediaPipe (representadas aquí) o un vector de
características extraído de las capas convolucionales de un modelo MobileNetV2.

Para todos los métodos de extracción de características, los vectores de características


resultantes se pasan a un LSTM. La salida del LSTM en el paso de tiempo final se alimenta a una
multicapa capa de perceptrón para proporcionar una predicción binaria final. LSTM: memoria
larga a corto plazo.

Arquitectura del modelo

La arquitectura de red neuronal que usamos para todos los experimentos. consistía en una
capa LSTM con una salida de 64 dimensiones. El la salida del LSTM se pasó a una capa
completamente conectada con activación sigmoidea para obtener una predicción binaria. A

minimizar el sobreajuste, también insertamos una capa de abandono entre el LSTM y la capa
densa con una tasa de abandono del 30%. El Los modelos basados en hitos contenían casi 3
millones de parámetros.

(Tabla 1). Tenga en cuenta que el número de parámetros depende de el enfoque de


características; La tabla 1 muestra el número de parámetros basado en nuestro enfoque de
características más pesado de usar los 21 puntos de referencia

Experimentamos con otras arquitecturas modelo antes de seleccionar Este modelo.


Descubrimos que agregar más de un LSTM o completar capa conectada no causó ninguna
diferencia notable en actuación; por lo tanto, eliminamos estas capas para minimizar la
capacidad de sobreajuste del modelo. También experimentamos con la dimensionalidad de
salida del LSTM; probamos 8, 16, 32 y 64. Encontramos que usar 32 y 64 funcionó de manera
similar, con 64 por lo general se desempeña un poco mejor.

Tabla 1. Número de parámetros en las redes neuronales que utilizan puntos de referencia de
manos como características. Los dos modelos de extracción de características contenían
colectivamente 3.133.336 parámetros. Por el contrario, la extracción de características de
MobileNetV2 contenía 2 260 546 parámetros con 2 clases de salida.

Modelo de Entrenamiento

Entrenamos todos los modelos con pérdida de entropía cruzada binaria usando Optimización
de Adam [53]. Probamos tasas de aprendizaje de 0.0005, 0.0001, 0.0005, 0.001 y 0.1, y
encontró que en casi todos los casos 0.01 funcionaron mejor. Todos los modelos y aumentos
fueron escrito usando Keras [54] con una ejecución de back-end de TensorFlow [55] en Jupyter.
No se requirieron GPU ni hardware especializado debido a la representación de características
de baja dimensión y el entrenamiento un solo modelo tardó unos minutos en una CPU con 32
GB de RAM.

Para todos los modelos, entrenamos el modelo hasta que hubo una convergencia para 10 o
más épocas. Esto resultó en 75 épocas. de formación en todos los modelos. Después del
entrenamiento, revertimos los pesos del modelo a sus pesos para los que se desempeñó mejor.
Nosotros usó esta estrategia para todos los enfoques de funciones.

3. RESULTADOS

Descripción general Utilizamos una validación cruzada de 5 pliegues para evaluar la exactitud,
la precisión, la recuperación y la puntuación F1 promedio de cada modelo en todos los
pliegues.

para entrenamiento y pruebas. Sin embargo, debido a nuestro pequeño conjunto de datos,

la disposición particular de los videos en cada pliegue afectó sustancialmente el rendimiento


del modelo. Minimizar este efecto, ejecutamos el procedimiento de validación cruzada de 5
veces 100 veces, cada uno con una semilla aleatoria diferente, dando como resultado un total
de 500 pliegues distintos. Además, nos aseguramos de que cada pliegue fuera completamente
balanceado tanto en el conjunto de entrenamiento como en el de prueba (50% golpearse la
cabeza y 50% no golpearse la cabeza). En todos los pliegues, hay había 10 videos que
mostraban aleteo de manos y 10 videos mostrando golpes en la cabeza.

Informamos la media y la SD de cada métrica en los 500 pliegues así como el área bajo las
características de operación del receptor (AUROC). Para todos los enfoques de características,
también mostramos el promedio curva de características operativas del receptor (ROC) en
todos los pliegues.

Todos los puntos de referencia de la mano

Este enfoque usó los 21 puntos de referencia en ambas manos para un total de 42 hitos únicos.
Mostramos los resultados de este enfoque en la Tabla 2. En la Figura 3, mostramos las curvas
ROC del modelo con y sin aumentos.

Al usar todos los puntos de referencia, usamos la interpolación gráfica para completar las
coordenadas de los puntos de referencia que faltan para ayudar a reducir los efectos de la
inestabilidad de la cámara. Sin embargo, cuando probamos esto, encontramos que a menudo
disminuía la precisión y resultaba en una mayor SD. Por lo tanto, decidimos dejar de utilizar la
interpolación al evaluar los enfoques descritos en la siguiente sección.

Conjeturamos que la incapacidad de MediaPipe para detectar la mano los puntos clave podrían
ser una característica destacada para la detección de aleteo de manos, y esta característica se
ofusca una vez que se identifican los puntos clave. Interpolado

Tabla 2. Modelo de Desempeño para entrenamiento y prueba cuando se usan todos los puntos
de referencia de la mano en la representación de características.

Figura 3. Curva de características operativas del receptor (ROC) en todas las ejecuciones
cuando se utilizan todos los puntos de referencia manuales. Logramos un área bajo operación
del receptor características de 0,748 (DE 0,26).

Punto de referencia de una sola mano

Aquí, describimos los enfoques de la media y de un hito, ambos de los cuales se basó en un
solo punto de referencia en cada mano como la característica representación. Mostramos los
resultados de ambos enfoques, con y sin aumentos, en la Tabla 3. En la Figura 4, mostramos la
curva ROC promedio para ambos enfoques.

Tabla 3. Rendimiento del modelo para representaciones de características de puntos de


referencia únicos versus medios con y sin aumento de datos

Figura 4. Curva ROC promedio para el enfoque de punto de referencia medio (gráfico izquierdo)
y uno (gráfico derecho). El enfoque de hito medio arrojó un área bajo características operativas
del receptor (AUROC) de 0,73 (SD 0,04), y el enfoque de un punto de referencia arrojó un
AUROC de 0,751 (SD 0,03). República de China: receptor características de funcionamiento

Puntos de referencia de seis manos

Usamos los seis puntos de referencia en los bordes de las manos para crear los marcos de
ubicacion. Conseguimos puntuación y clasificación en F1 precisión de alrededor del 72,3%
(Tabla 4). También logramos un AUROC de 0,76 (Figura 5).

De todos los enfoques basados en hitos, los seis hitos enfoque arrojó resultados óptimos.
Todas las métricas de validación fueron más altos con este enfoque que los discutidos
previamente. Tabla 4. Desempeño del modelo en entrenamiento y prueba para
representaciones de características que contienen seis puntos de referencia

Figura 5. Curva de características operativas del receptor (ROC) para el enfoque de seis puntos
de referencia en todas las ejecuciones. Logramos un área bajo las características operativas del
receptor de 0,76 (SD 0,027) con este enfoque.
Modelo MobileNetV2

En los enfoques discutidos hasta ahora, MediaPipe se usó consistentemente como un extractor
de funciones para llevar cada cuadro de video a una representación vectorial de menor
dimensión. Aquí, reemplazamos el extractor de características de MediaPipe con las capas
convolucionales de MobileNetV2 [51] (entrenadas previamente en ImageNet [56] y ajustadas
en SSBD) como extractor de características. Al igual que con los enfoques basados en puntos de
referencia, este vector extraído se introdujo en una red LSTM para obtener una predicción de si
el movimiento de las manos estaba presente en el video. Evaluamos este modelo en los
mismos 100 conjuntos de datos (500 pliegues en total), que usamos para todos los demás
enfoques. La curva ROC de este modelo se muestra en la Figura 6 y las métricas se detallan en
la Tabla 5.

El modelo MobileNetV2 logró una precisión y una puntuación de F1 de alrededor del 85 %,


superando el rendimiento de todos los enfoques basados en hitos. Los modelos MobileNetV2
también tenían una mayor capacidad de sobreajuste, logrando precisiones casi perfectas en el
entrenamiento (>99,999 %), mientras que todos los enfoques basados en puntos de referencia
nunca superaron el 90 % para ninguna de las métricas de entrenamiento. Suponemos que esto
se debe a que el modelo MobileNet V2 ha aprendido tanto la extracción de características
como los pasos discriminativos del proceso de aprendizaje supervisado.

Figura 6. Curva de Características


Operativas del Receptor (ROC) de la
Red Móvil. Con este método, logramos
un área bajo las características
operativas del receptor de 0,85 (SD
0,03).

Tabla 5. Rendimiento del modelo en el entrenamiento y las pruebas cuando se usan capas
convolucionales de MobileNetV2 como extractor de características.
Comparación de resultados

Realizamos una prueba t bilateral para determinar si las diferencias que observamos para cada
enfoque (incluido el método MobileNetV2) eran estadísticamente significativas. Aplicamos la
corrección de Bonferroni en las comparaciones, considerando un valor de p < 0,005 como
estadísticamente significativo. Mostramos los valores P de comparar todos los enfoques entre
sí en las 4 métricas mencionadas en la Tabla 6.

La mayoría de las comparaciones entre enfoques fueron estadísticamente significativas


después de la corrección de Bonferroni. Los dos enfoques de un único punto de referencia (la
media y un punto de referencia) no fueron estadísticamente significativos para ninguna de las
métricas.

Tabla 6. Realizamos una prueba t bilateral para determinar si las diferencias en los resultados
de cada enfoque eran estadísticamente significativas. Mostramos valores P para la exactitud
500, precisión, recuperación y F1

valores.

4. DISCUSION

Resultados principales
Exploramos varias representaciones de características para clasificadores ligeros de aleteo
manual que lograron un rendimiento respetable en el SSBD. El modelo de mayor rendimiento
usó MobileNetV2 para extraer funciones y logró una puntuación F1 de prueba de 84 (SD 3.7).
Un modelo entrenado con todos los puntos de referencia de la mano alcanzó una puntuación
F1 de 66,6 (DE 3,35). Un modelo entrenado con 6 puntos de referencia seleccionados alcanzó
una puntuación F1 de 68,3 (DE 3,6). Un modelo entrenado usando un único punto de
referencia en la base de las manos alcanzó una puntuación F1 de 64,9 (DE 6,5). Un punto de
interés en este estudio es la compensación entre las soluciones de preservación de la
privacidad y el rendimiento en las tareas de aprendizaje automático de diagnóstico. Si bien el
modelo MobileNetV2 superó a todos los clasificadores de MediaPipe, el modelo MobileNetV2
carece de la capacidad de preservar la privacidad de los participantes, ya que las caras de los
participantes finalmente se usaron en los datos necesarios para la clasificación. Esperamos que
esto sea una dificultad para futuras investigaciones en el espacio de diagnóstico conductual.

Limitaciones
La principal limitación de este enfoque es que, sin más etiquetas de clase en una variedad de
conjuntos de datos y actividades relacionadas con la mano, existe una probable falta de
especificidad en este modelo cuando se generaliza a otros conjuntos de datos más allá del
SSBD. Las manos pueden moverse, pero no mostrar aleteo o movimiento de autoestimulación.
Además, el uso estereotipado de las manos puede ocurrir en ausencia de un diagnóstico
formal de autismo. Se requieren modelos de varias clases que puedan distinguir los patrones
de movimiento de la mano para este grado de precisión. Dichos modelos no se pueden
construir sin los conjuntos de datos etiquetados correspondientes y, por lo tanto, destacamos
la necesidad de seleccionar conjuntos de datos que muestren comportamientos relacionados
con la atención médica del desarrollo. Para que este estudio realmente generalice, se requiere
una mayor validación en conjuntos de datos más allá del SSBD. Si bien el SSBD se elaboró
teniendo en cuenta el diagnóstico de autismo, el documento que describe el conjunto de datos
original no incluye necesariamente a niños con diagnósticos de autismo confirmados. Las
terapias móviles existentes que recopilan videos estructurados de niños con autismo [16-
18,40] se pueden usar para adquirir conjuntos de datos para entrenar modelos más avanzados,
y estos modelos actualizados se pueden integrar nuevamente en la terapia digital para
proporcionar retroalimentación en tiempo real y experiencias adaptativas.

Oportunidades de trabajo futuro


Existen innumerables desafíos y oportunidades para el reconocimiento por visión artificial de
comportamientos humanos sociales complejos [57], incluidos los gestos manuales socialmente
motivados. Las perspectivas adicionales para el trabajo futuro incluyen la representación de
características alternativas y la incorporación de arquitecturas modernas como
transformadores y otros modelos basados en la atención. El clasificador de movimiento de la
mano que describimos aquí es uno de un cóctel potencial de clasificadores que podrían usarse
en conjunto no solo para extraer características relevantes para un diagnóstico de autismo
sino también para proporcionar información sobre qué síntomas particulares de autismo está
exhibiendo un niño. El principal beneficio de este enfoque es una mayor explicabilidad en los
diagnósticos médicos y un esfuerzo por lograr la especificidad en los esfuerzos de diagnóstico
automatizados. Comparación con trabajos anteriores Patrones de mirada Los patrones de
mirada a menudo difieren entre los casos de autismo y los controles. Chang et al [58]
encontraron que las personas con autismo pasan más tiempo mirando un juguete que los
distrae que una persona que participa en un comportamiento social en una película en
comparación con aquellos con un desarrollo típico. Esto demostró que los patrones de mirada
y la preferencia por los estímulos sociales son un indicador de autismo. Los patrones de mirada
se han utilizado como una característica en los clasificadores de aprendizaje automático. Jiang
et al [59] crearon un clasificador de bosque aleatorio que utilizó como entrada el desempeño
de un participante en la clasificación de emociones y otras características sobre su mirada y
rostro. Lograron una precisión del 86% para clasificar el autismo con este enfoque. Liaquat et
al [60] utilizaron CNN [61] y LSTM en un conjunto de datos de patrones de mirada y lograron
una precisión del 60 % en la clasificación del autismo. Expresión facial Otra característica del
comportamiento relevante para la detección del autismo es la expresión facial. Los niños con
autismo a menudo evocan emociones de manera diferente que sus compañeros neurotípicos.
Volker et al [62] descubrieron que las ratas con un desarrollo típico tenían más dificultades
para reconocer la tristeza en las expresiones faciales de las personas con autismo que los
controles. Este hallazgo fue confirmado por Manfredonia et al [20], quienes utilizaron un
software de reconocimiento facial automatizado para comparar la facilidad con la que las
personas con autismo y las personas neurotípicas podían expresar una emoción cuando se les
preguntaba. Descubrieron que las personas con autismo tenían más dificultades para producir
la expresión facial correcta cuando se les solicitaba en comparación con los controles. Las
personas con autismo suelen tener menos simetría facial [63]. Li et al [64] lograron una
puntuación F1 del 76 % mediante el uso de una CNN para extraer rasgos de expresiones
faciales en imágenes que luego se usaron para clasificar el autismo. Las CNN, junto con las
redes neuronales recurrentes [65], también se aplicaron en el trabajo de Zunino et al [66]
donde se usaron videos para clasificar el autismo.

Lograron una precisión del 72 % en la clasificación de las personas con autismo y una precisión
del 77 % en la clasificación de los controles con desarrollo típico. Los sistemas y sensores
basados en Smartwatch de On-Body Devices se han utilizado para detectar comportamientos
repetitivos para ayudar a las personas con autismo. Westeyn et al [67] utilizaron un modelo
oculto de Markov para detectar 7 patrones de estimulación diferentes utilizando datos del
acelerómetro. Alcanzaron una precisión del 69% con este enfoque. Albinali et al [68]
intentaron usar acelerómetros en las muñecas y los torsos para detectar el stimming en
personas con autismo. Lograron una precisión del 88,6%. Sarker et al [69] utilizaron un reloj
inteligente disponible comercialmente para recopilar datos de adultos que realizaban
comportamientos estimulantes como golpearse la cabeza, agitar las manos y dejar caer
repetitivamente. Utilizaron 70 funciones de flujos de datos de acelerómetro y giroscopio para
crear un modelo de aumento de gradiente con una precisión del 92,6 % y una puntuación F1
del 88,1 %.

Estimación de la postura
La estimación de la postura y el reconocimiento de actividades también se han utilizado para
detectar comportamientos de autoestimulación. Vyas et al [45] volvieron a entrenar una
máscara 2D R-CNN [46] para obtener las coordenadas de 15 puntos clave que luego se
transformaron en una representación de PoTion [47] y se introdujeron en un modelo CNN para
una predicción del comportamiento relacionado con el autismo. Este enfoque dio como
resultado una precisión de clasificación del 72,4 % con una precisión del 72 % y una
recuperación del 92 %. Notamos que utilizaron 8349 episodios derivados de videos privados de
la compañía Behavior Imaging para entrenar a su modelo. Rajagopalan y Goecke [48] utilizaron
el HDM de un video que proporciona los movimientos dominantes detectados para entrenar
un modelo discriminatorio para detectar comportamientos de autoestimulación. En el SSBD
[49], que también usamos en este estudio, alcanzaron una precisión del 86,6 % al distinguir el
comportamiento de golpearse la cabeza frente al girar y una precisión del 76,3 % al distinguir
el comportamiento de golpearse la cabeza, girar y agitar las manos. Notamos que no
entrenaron un clasificador con una clase de control. Otro esfuerzo buscó determinar si las
personas con autismo asienten o sacuden la cabeza de manera diferente a sus pares
neurotípicos. Utilizaron el rango de rotación de la cabeza y la cantidad de rotaciones por
minuto en las direcciones de guiñada, cabeceo y balanceo como características para los
clasificadores de aprendizaje automático para detectar el autismo [50]. Consiguieron una
precisión del 92,11 % a partir de un modelo de árbol de decisión que utilizó como
características el rango de rotación del cabezal en la dirección de balanceo y la cantidad de
rotaciones por minuto en la dirección de guiñada.

Reconocimientos
El estudio fue apoyado en parte por fondos del DPW de los Institutos Nacionales de Salud
(1R01EB025025-01, 1R01LM013364-01, 1R21HD091500-01, 1R01LM013083); la Fundación
Nacional de Ciencias (Premio 2014232); La Fundación Hartwell; Factura y
Fundación Melinda Gates; Fundación Coulter; Fundación Lucile Packard; Dotación de
auxiliares; El desarrollo islámico Fondo de Transformación del Banco; la Fundación Weston
Havens; y subvenciones del programa de Stanford's Human Centered Artificial Programa de
Inteligencia, Centro de Diagnóstico Integrado y Salud de Precisión, Centro Beckman, Centro
Bio-X, Predictivos y Acelerador de diagnósticos, espectro, programa de chispa en investigación
traslacional, MediaX y el Instituto de Neurociencias Wu Tsai
Neurociencia: Programa de Traducción. También reconocemos el generoso apoyo de David
Orr, Imma Calvo, Bobby Dekesyer y Peter Sullivan. PW desea agradecer el apoyo del Sr.
Schroeder y la Beca Interdisciplinaria Stanford como Schroeder F

También podría gustarte