Está en la página 1de 8

Traducido del inglés al español - www.onlinedoctranslator.

com

Aprendizaje profundo multimodal

Jiquan Ngiam1 jngiam@cs.stanford.edu


Aditya Khosla1 aditya86@cs.stanford.edu
mingyu kim1 minkyu89@cs.stanford.edu
juhan nam1 juhan@ccrma.stanford.edu
Honglak Lee2 honglak@eecs.umich.edu
Andrés Y. Ng1 ang@cs.stanford.edu
1Departamento de Ciencias de la Computación, Universidad de Stanford, Stanford, CA 94305, EE. UU.
2División de Ingeniería y Ciencias de la Computación, Universidad de Michigan, Ann Arbor, MI 48109, EE. UU.

Resumen mación en el lugar de la articulación y los movimientos musculares


(Campo de verano,1992) que a menudo puede ayudar a eliminar la
Las redes profundas se han aplicado con éxito
ambigüedad entre el habla con una acústica similar (por ejemplo,
al aprendizaje de funciones no supervisado
las consonantes sordas/pags/y/k/).
para modalidades únicas (p. ej., texto,
imágenes o audio). En este trabajo, El aprendizaje multimodal implica relacionar información de múltiples
proponemos una aplicación novedosa de fuentes. Por ejemplo, las imágenes y los escaneos de profundidad
redes profundas para aprender funciones en tridimensionales se correlacionan en primer orden, ya que las
múltiples modalidades. Presentamos una discontinuidades de profundidad a menudo se manifiestan como bordes
serie de tareas para el aprendizaje multimodal fuertes en las imágenes. Por el contrario, los datos de audio y visuales para
y mostramos cómo entrenar redes profundas el reconocimiento de voz tienen correlaciones en un "nivel medio", como
que aprenden funciones para abordar estas fonemas y visemas (postura y movimientos de los labios); puede ser difícil
tareas. En particular, demostramos el relacionar píxeles sin procesar con formas de onda de audio o
aprendizaje de características de modalidad espectrogramas.
cruzada, donde se pueden aprender mejores
En este artículo, estamos interesados en modelar relaciones de
características para una modalidad (p. ej.,
"nivel medio", por lo que optamos por utilizar la clasificación del
video) si hay múltiples modalidades (p. ej.,
habla audiovisual para validar nuestros métodos. En particular,
audio y video) presentes en el momento del
nos enfocamos en aprender representaciones para audio de voz
aprendizaje de características. Además,
que se combinan con videos de los labios.
mostramos cómo aprender una
representación compartida entre Consideraremos los entornos de aprendizaje que se muestran en
modalidades y evaluarla en una tarea única, la Figura 1. La tarea general se puede dividir en tres fases
donde el clasificador se entrena con datos – aprendizaje de características, entrenamiento supervisado y pruebas. Se
solo de audio pero se prueba con datos solo utiliza un clasificador lineal simple para el entrenamiento y las pruebas
de video y viceversa. supervisadas para examinar diferentes modelos de aprendizaje de
características con datos multimodales. En particular, consideramos tres
entornos de aprendizaje: fusión multimodal, aprendizaje de modalidad

1. Introducción cruzada y aprendizaje de representación compartida.

En el entorno de fusión multimodal, los datos de todas las modalidades


En el reconocimiento de voz, se sabe que los humanos integran
están disponibles en todas las fases; esto representa la configuración
información audiovisual para comprender el habla. Esto se
típica considerada en la mayoría de los trabajos anteriores en
ejemplificó por primera vez en el efecto McGurk (McGurk y
reconocimiento de voz audiovisual (Potamianos et al.,2004). En el
McDonald,1976) donde una imagen/Georgia/ con una voz/
aprendizaje de modalidad cruzada, los datos de múltiples modalidades
licenciado en Letras/se percibe como/da/por la mayoría de los
están disponibles solo durante el aprendizaje de características;
sujetos. En particular, la modalidad visual proporciona informa-
durante la fase de entrenamiento y prueba supervisada, solo se
Apareciendo enActas del 28elConferencia Internacional proporcionan datos de una sola modalidad. Para esta configuración, el
sobre Aprendizaje Automático, Bellevue, WA, EE. UU., 2011. objetivo es aprender mejores representaciones de modalidad única
Copyright 2011 del autor o propietario. dados datos sin etiquetar de múltiples modalidades. Por último,
Aprendizaje profundo multimodal

Considere un entorno de aprendizaje de representación compartida, Rasgo supervisado


Pruebas
Aprendizaje Capacitación
que es único en el sentido de que se presentan diferentes modalidades
para el entrenamiento y las pruebas supervisadas. Esta configuración Audio Audio Audio
Aprendizaje profundo clásico
nos permite evaluar si las representaciones de características pueden Video Video Video
capturar correlaciones entre diferentes modalidades. Específicamente,
Fusión Multimodal A+V A+V A+V
el estudio de esta configuración nos permite evaluar si las
A+V Video Video
representaciones aprendidas son invariantes de modalidad. Modalidad Cruzada
Aprendizaje A+V Audio Audio
En las siguientes secciones, primero describimos los componentes
básicos de nuestro modelo. Luego presentamos diferentes Representación compartida
A+V Audio Video
modelos de aprendizaje multimodal que conducen a una red Aprendizaje A+V Video Audio
profunda que puede realizar las diversas tareas de aprendizaje
Figura 1: Configuración de aprendizaje multimodal donde A+V
multimodal. Finalmente, reportamos los resultados
se refiere a audio y video.
experimentales y concluimos.

2. Fondo modelo (wyo, j, bj, Ci) usando divergencia contrastiva (


Hinton,2002).
Trabajo reciente sobre aprendizaje profundo (Hinton y
Salakhutdinov,2006;Salakhutdinov y Hinton,2009) ha examinado Para regularizar el modelo por escasez (Lee et al., 2007
cómo se pueden entrenar redes sigmoidales profundas para ), animamos a cada unidad oculta a tener un acto
producir representaciones útiles para dígitos y texto escritos a esperado predeterminado∑ regularización g
ivación usando∑
2
penalización de la formaλ j(ρ -1 k=1MI[hj|vk])) ,
metro

mano. La idea clave es utilizar un entrenamiento codicioso por ( metro

capas con máquinas de Boltzmann restringidas (RBM) seguido de dónde{v1, ...,vmetro}es el conjunto de entrenamiento yρdetermina
un ajuste fino. Usamos una extensión de RBM con escasez (Lee et la escasez de activaciones de unidades ocultas.
al.,2007), que han demostrado aprender funciones significativas
para dígitos e imágenes naturales. En la siguiente sección, 3. Arquitecturas de aprendizaje
revisamos la escasa RBM,
que se utiliza como bloque de construcción por capas para nuestros En esta sección, describimos nuestros modelos para la tarea de
modelos. aprendizaje de características bimodales audiovisuales, donde la
entrada de audio y visual al modelo son cuadros contiguos de
2.1. Máquinas Boltzmann escasas y restringidas audio (espectrograma) y video. Para motivar nuestro profundo
automáticonorte codificador (Hinton y Salakhutdinov,2006) modelo, t
La RBM es una modelo gráfico rectificado con sdescribir varios modelos simples y sus dibujos-
nosotros abeto

variable undi den (h) variables visibles (v) (Figura 2a). espaldas .
y son simétricos conexiones entre lo oculto Wyo, j),
y variables visibles ( pero no hay conexiones dentro uno o f los enfoques más sencillos para presentar
variables ocultas o variables visibles. El modelo define una g es para entrenar un modelo RBMpor separadopara
aprendiendo

distribución de probabilidad sobreh, v (Ecuación1). dio un video aud (Figura 2a,b). Después de aprender el RBM,
Esta configuración particular facilita el cálculo de la el po steriors de las variables ocultas dado el visible
probabilidad condicional.
distribuciones de habilidad, cuandovoh
varía bles (Ecuación 2) se puede utilizar como una nueva representación
sentado ion para los datos. Usamos este modelo como base
es fijo (Ecuación2).
para co metro
Compare los resultados de nuestros modelos multimodales, como s
− Iniciar sesiónPAGS(v,h)∝mi( v,h) = bueno un para el entrenamiento previo de las redes profundas.

1 1 ( )
(1) Para entrenar un modelo multimodal, un enfoque directo es
vTv− CTv + bTh + hTWv
2σ2 σ2 entrenar un RBM sobre el audio y el video concatenados
1 datos (Figura 2c). Si bien este enfoque modela
pags(hj|v) =sigmoideo( (bj + wTjv)) (2) conjuntamente el de los datos de audio y video, se presenta
distribución
σ2
límite como un modelo superficial. En particular, dado que la cor-
Esta formulación modela las variables visibles como unidades de las relaciones entre los datos de audio y video son altamente no
valor real y las variables ocultas como unidades binarias.1 lineales, es difícil para un RBM aprender estas correlaciones y formar
Como es intratable calcular el gradiente del término de representaciones multimodales. En la práctica, encontramos que el
probabilidad logarítmica, aprendemos los parámetros del aprendizaje de una RBM bimodal poco profunda da como resultado
unidades ocultas que tienen fuertes conexiones con las variables de la
1Usamos unidades visibles gaussianas para el RBM que está
conectado a los datos de entrada. Cuando entrenamos las capas más modalidad individual, pero pocas unidades que se conectan a través de
profundas, usamos unidades visibles binarias. las modalidades.
Aprendizaje profundo multimodal
. .
d . es Capa

. ..
Profundo H identificación


. ..
Escondido Delaware
norte Unidades . ..
Escondido Delaware
norte Unidades repr es mi ntatio norte

Cuota
... ...
... ... ... ...
Entrada de audio Entrada de video
... ...
Entrada de audio Entrada de video
Entrada de audio Entrada de video
(a) RBM de audio (b) Vídeo RBM (c) RBM bimodal superficial
(d) DBN bimodal
Figura 2: Modelos de preentrenamiento de RBM. Entrenamos RBM para (a) audio y (b) video por separado como
referencia. El modelo superficial (c) es limitado y encontramos que este modelo no puede capturar correlaciones entre
las modalidades. El modelo bimodal de red de creencias profundas (DBN) (d) se entrena de manera codiciosa por
capas mediante los primeros modelos de entrenamiento (a) y (b). Luego “desenrollamos” lo profundo
modelo (d) para entrenar los modelos de autocodificador profundo presentados en la Figura 3.

. ..
audio R CEo nstruccion ..
Vídeo R CEo nstruccion . ..
audio R CEo nstruccion ..
Vídeo R CEo nstruccion

... ... ... ...

...
Compartido

... Compartido

Representación
Representación

.. ... ...

... ... ...


Entrada de video Entrada de audio Entrada de video

(a) Codificador automático profundo solo de video (b) Codificador automático profundo bimodal

Figura 3: Modelos de Autocodificador profundo. En (a) se muestra un modelo de "solo video", donde el modelo
aprende a reconstruir ambas modalidades con solo video como entrada. Se puede dibujar un modelo similar para la
configuración de "solo audio". Entrenamos el (b) autocodificador profundo bimodal en una eliminación de ruido
moda, utilizando un conjunto de datos aumentado con ejemplos que requieren que la red reconstruya ambas
modalidades dado solo uno. Ambos modelos están preentrenados utilizando RBM dispersos (Figura 2d). Dado que
usamos una función de transferencia sigmoidea en la red profunda, podemos inicializar la red usando las
distribuciones de probabilidad condicionalpags(h|v)ypags(v|h)de la RBM aprendida.

Por lo tanto, consideramos entrenar con avidez un RBM sobre las corbatas; es posible que el modelo encuentre representaciones
capas pre-entrenadas para cada modalidad, como motivado tales que algunas unidades ocultas se sintonicen solo para au-
por métodos de aprendizaje profundo (Figura 2d).2En particular, dio mientras que otros están sintonizados solo para video. En segundo lugar, el
los posteriores (Ecuación2) de las variables ocultas de la primera los modelos son torpes para la uso yo nortea aprendizaje de modalidad cruzada-
capa se utilizan como datos de entrenamiento para el nuevo configuración de ing donde solo una metro la realidad
sobredosis está presente durante
capa. Al representar los datos a través de los aprendidos primero entrenamiento supervisado un y prueba En .gCon
solo un solo
representaciones de capas, puede ser más fácil para el modelo aprender to modalidad presente, uno necesitaría integrar el
correlaciones de orden superior entre modalidades. formalmente, las En- noobservía variables visibles para realizar metroinferencia.
representaciones de la primera capa corresponden to
Jue s, proponemos un autoencod profundo mi r que resuelve
fonemas y visemas y la segunda capa modela el
botros problemas . Primero consideramos el aprendizaje de modalidad cruzada.
relaciones entre ellos. La Figura 4 muestra visualizaciones de
configuración de aprendizaje donde ambas modalidades están presentes
características aprendidas de nuestros modelos, incluidos
durante el aprendizaje de funciones, pero solo se usa una modalidad para
ejemplos de bases visuales correspondientes a visemas.
entrenamiento y pruebas supervisadas. El autocodificador profundo
Sin embargo, todavía hay dos problemas con los modelos (Figura 3a) está capacitado para reconstruir ambas modalidades
multimodales anteriores. Primero, no hay un objetivo explícito para cuando se le dan solo datos de video y, por lo tanto, descubre
que los modelos descubran correlaciones a través de la modalidad. correlaciones entre las modalidades. Análogo aHinton y
Salakhutdinov(2006), inicializamos el autocodificador profundo con
2En cambio, es posible aprender un RBM grande como la primera capa
que se conecta a ambas modalidades. Sin embargo, dado que una RBM de los pesos DBN bimodales (Figura 2d) basados en la Ecuación2,
una sola capa tiende a aprender unidades unimodales, es mucho más desechando los pesos que ya no estén presentes. La capa
eficiente aprender modelos separados para cada modalidad. intermedia se puede utilizar como
Aprendizaje profundo multimodal

4. Experimentos y Resultados
Evaluamos nuestros métodos de clasificación del habla audiovisual
de letras y dígitos aislados. El parámetro de dispersiónρse eligió
mediante validación cruzada, mientras que todos los demás
parámetros (incluido el tamaño de la capa oculta y la
regularización del peso) se mantuvieron fijos.3

4.1. Preprocesamiento de datos


Figura 4: Visualización de representaciones aprendidas.
Estas figuras corresponden a dos unidades ocultas Representamos la señal de audio usando su espectrograma4
profundas, donde visualizamos las características de la con derivados temporales, dando como resultado un vector de 483

primera capa más fuertemente conectadas. Las unidades dimensiones que se redujo a 100 dimensiones con blanqueamiento

se presentan en pares audiovisuales (en general, nos ha PCA. Se utilizaron 10 fotogramas de audio contiguos como entrada

resultado difícil interpretar la conexión entre el par). Las para nuestros modelos.

bases visuales capturaron movimientos y articulaciones de Para el video, preprocesamos los cuadros para
los labios, incluyendo diferentes articulaciones de la boca, extraer solo la región de interés (ROI) que abarca la
apertura y cierre de la boca, exposición de los dientes. boca.5 El ROI de cada boca se reescaló a 60×80
píxeles y reducido aún más a 32 dimensiones,6
Representación de nuevas características. Este modelo puede verse
utilizando el blanqueamiento PCA. También se utilizaron derivados
como una instancia de aprendizaje multitarea (caruana,1997).
temporales sobre el vector reducido. Utilizamos 4 cuadros de
Usamos los modelos de codificador automático profundo (Figura video contiguos para la entrada, ya que tenían aproximadamente
3a) en entornos donde solo una modalidad está presente en el la misma duración que 10 cuadros de audio.
entrenamiento y las pruebas supervisadas. Por otro lado, cuando
Para ambas modalidades, también realizamos la normalización
hay múltiples modalidades disponibles para la tarea (p. ej., fusión
media de características a lo largo del tiempo (Potamianos et al.,
multimodal), es menos claro cómo usar el modelo, ya que sería
2004), similar a eliminar el componente de CC de cada ejemplo.
necesario entrenar un codificador automático profundo para cada
También notamos que agregar derivadas temporales a las
modalidad. Una solución sencilla es entrenar las redes de modo
representaciones se ha utilizado ampliamente en la literatura, ya
que los pesos de decodificación estén vinculados. Sin embargo,
que ayuda a modelar la información dinámica del habla (
este enfoque no escala bien: si tuviéramos que permitir que
Potamianos et al.,2004;Zhao y Barnard,2009). Las derivadas
cualquier combinación de modalidades esté presente o ausente en
temporales se calcularon utilizando una pendiente lineal
el momento de la prueba, necesitaremos entrenar una cantidad
normalizada para que el rango dinámico de las características
exponencial de modelos.
derivadas sea comparable a la señal original.
Inspirado en codificadores automáticos de eliminación de ruido (
4.2. Conjuntos de datos y tareas
Vicente et al., 2008), proponemos entrenar el codificador
automático profundo bimodal (Figura 3b) utilizando un conjunto Dado que solo se requerían datos sin etiquetar para el aprendizaje de
de datos aumentado pero ruidoso con ejemplos adicionales que características no supervisado, combinamos diversos conjuntos de datos
tienen solo una modalidad única como entrada. En la práctica, (como se indica a continuación) para aprender características. AVLetters y
agregamos ejemplos que tienen valores cero para una de las CUAVE se utilizaron además para la clasificación supervisada. Nos
modalidades de entrada (p. ej., video) y valores originales para la aseguramos de que no se usaran datos de prueba para el aprendizaje de
otra modalidad de entrada (p. ej., audio), pero aún requieren que funciones no supervisado. Todos los modelos de codificadores automáticos
la red reconstruya ambas modalidades (audio y video). Por lo profundos se entrenaron con todos los datos de audio y video sin etiquetar
tanto, un tercio de los datos de entrenamiento tiene solo video disponibles.
para la entrada, mientras que otro tercio de los datos tiene solo
3Hicimos una validación cruzadaρsobre{0.01,0.03,0.05,0.07}. Las
audio, y el último tercio de los datos tiene audio y video.
características de la primera capa estaban 4x sobrecompletas para video
(1536 unidades) y 1.5x sobrecompletas para audio (1500 unidades). La
Debido a la inicialización usando RBM escasos, encontramos que las
segunda capa tenía 1,5 veces el tamaño de las primeras capas combinadas
unidades ocultas tienen una activación esperada baja, incluso después
(4554 unidades).
el entrenamiento profundo del autocodificador. Por lo tanto, cuando 4Cada cuadro de espectrograma (161 contenedores de frecuencia) tenía una
una de las modalidades de entrada se establece en cero, las ventana de 20 ms con superposiciones de 10 ms.
representaciones de la primera capa también están cerca de cero. En 5Utilizamos un detector de objetos listo para usar (Dalal y

este caso, esencialmente estamos entrenando una red profunda de Triggs,2005) con mediana filtración en el tiempo para extraer las
regiones de la boca.
codificador automático específica de la modalidad (Figura 3a).
6Similar a (Duchnowski et al.,1994) encontramos que 32
Efectivamente, el método aprende un modelo que es robusto a las
dimensiones eran suficientes y funcionaban bien.
entradas en las que no existe una modalidad.
Aprendizaje profundo multimodal

CUAVE (Patterson et al.,2002). 36 altavoces diciendo los dígitos y audio en comparación con las funciones de aprendizaje con solo
0a9. usamos elnormalparte del conjunto de datos que datos de video (aunque no funcionan tan bien como las de última
contenía altavoces frontales que decían cada dígito 5 veces. generación). En nuestros modelos, elegimos usar un front-end
Evaluamos la clasificación de dígitos en el conjunto de datos muy simple que solo extrae cuadros delimitadores, sin ninguna
CUAVE en un entorno independiente del hablante. Como no corrección de orientación o cambios de perspectiva. Por el
ha habido un protocolo fijo para la evaluación de este contrario, los modelos recientes de AAM (Papandreu et al.,2009)
conjunto de datos, optamos por utilizar altavoces impares están capacitados para rastrear con precisión la cara del hablante
para el conjunto de prueba y altavoces pares para el conjunto y registrar aún más la cara con una plantilla de cara media,
de entrenamiento. cancelando las deformaciones de la forma. La combinación de

AVLetras (Matthews et al.,2002). 10 oradores diciendo las letrasAaZ estos front-end visuales sofisticados con nuestras características

, tres veces cada uno. El conjunto de datos proporcionó regiones tiene el potencial de hacerlo aún mejor.

de labios extraídas previamente de 60×80 píxeles Como el audio


Tabla 1: Rendimiento de clasificación para la clasificación del
sin procesar no estaba disponible para este conjunto de datos, lo
habla visual en (a) AVLetters y (b) CUAVE. Los codificadores
usamos para la evaluación en una tarea de lectura de labios solo
automáticos profundos funcionan mejor y muestran un
visual (Sección 4.3). Reportamos los resultados de latercera prueba
aprendizaje de modalidad cruzada efectivo. Donde se indica, las
ajustes utilizados porZhao y Barnard(2009) yMatthews et al.(2002)
barras de error muestran la variación (±2 sd) debido a la
para comparaciones.
inicialización aleatoria.§Los resultados son sobre el rendimiento
AVLetras2 (Cox et al.,2008). 5 oradores diciendo las letrasAaZ, siete continuo del reconocimiento de voz, aunque observamos que el
veces cada uno. Esta es una nueva versión de alta definición del normal parte de CUAVE tiene altavoces que dicen dígitos
conjunto de datos AVLetters. Usamos este conjunto de datos solo aislados.†Estos modelos utilizan un sistema frontal visual que es
para entrenamiento no supervisado. significativamente más complicado que el nuestro y una división
Conjunto de datos de Stanford.23 voluntarios hablaron los de prueba/entrenamiento diferente.
dígitos0 a9, letrasAaZy oraciones seleccionadas del conjunto Representación de características Precisión
de datos TIMIT. Recopilamos estos datos de manera similar al Video preprocesado de referencia 46,2%
conjunto de datos CUAVE y los usamos solo para Vídeo RBM (Figura 2b) 54,2%±3,3%
entrenamiento no supervisado.
Codificador automático profundo solo de video
64,4%±2,4%
TIEMPO (Fischer et al.,1986). Usamos este conjunto de datos para el (Figura 3a)
entrenamiento previo de funciones de audio sin supervisión. Codificador automático profundo
59,2%
bimodal (Figura 3b)
Observamos que en todos los conjuntos de datos existe variabilidad en
los labios en términos de apariencia, orientación y tamaño. Para cada Análisis espacial multiescala
44,6%
clip de audio y video, las características se extrajeron de secuencias (Matthews et al.,2002)
superpuestas de fotogramas. Dado que los ejemplos tenían duraciones Patrón binario local
58,85%
variables, dividimos cada ejemplo enS rebanadas iguales y realizó una (Zhao y Barnard,2009)
agrupación promedio sobre cada rebanada. Las características de (a) Letras AV
todos los cortes se concatenaron posteriormente. Específicamente,
combinamos características usandoS=1 yS=3 para formar nuestra
Representación de características Precisión
representación de características final para la clasificación con una SVM Video preprocesado de referencia 58,5%
lineal. Vídeo RBM (Figura 2b) 65,4%±0,6%
Codificador automático profundo solo de video
4.3. Aprendizaje de modalidad cruzada
68,7%±1,8%
(Figura 3a)
En los experimentos de aprendizaje de modalidad cruzada, Codificador automático profundo
66,7%
evaluamos si podemos aprender mejores representaciones para bimodal (Figura 3b)
una modalidad (p. ej., video) cuando se dan múltiples modalidades Transformada de coseno
(p. ej., audio y video) durante el aprendizaje de funciones. 64%†§
discreta (Gurban y Thiran,2009)
En el conjunto de datos de AVLetters (Tabla 1a), nuestros modelos profundos Modelo de apariencia activa
75,7%†
de codificador automático muestran una mejora significativa con respecto a (Papandreu et al.,2007)
las funciones diseñadas a mano del trabajo anterior. El codificador Modelo de apariencia activa
68,7%†
automático profundo videoonly fue el que mejor se desempeñó en el (Pitsikalis et al.,2006)
conjunto de datos, obteniendo una precisión de clasificación del 64,4 %, Parche+holístico fusionado
77,08%†
superando los mejores resultados publicados anteriormente. (lucey y sridharan,2006)
AAM visémica
En el conjunto de datos CUAVE (Tabla 1b), hay una mejora 83%†§
(Papandreu et al.,2009)
al aprender funciones de video con ambos videos
(b) Vídeo CUAVE
Aprendizaje profundo multimodal

Tabla 2: Rendimiento de la clasificación de dígitos para la clasificación de voz bimodal en CUAVE, en condiciones limpias y
ruidosas. Agregamos ruido gaussiano blanco a la señal de audio original a 0 dB SNR. Las barras de error reflejan la
variación (±2 sd) de los resultados debido al ruido aleatorio añadido a los datos de audio. Comparamos el rendimiento del
modelo Bimodal Deep Autoencoder con las mejores funciones de audio (Audio RBM) y las mejores funciones de video
(Video-only Deep Autoencoder).

Precisión Precisión
Representación de características (audio limpio) (Audio ruidoso)
(a) RBM de audio (Figura 2a) 95,8% 75,8%±2,0%
(b) Codificador automático profundo solo de video (Figura 3a) 68,7% 68,7%
(c) Codificador automático profundo bimodal (Figura 3b) 90,0% 77,3%±1,4%
(d)RBM bimodal + audio 94,4% 82,2%±1,2%
(e) Deep AE solo de video + Audio-RBM 87,0% 76,6%±0,8%

Estos resultados de clasificación de video muestran que los funciones multimodales que van más allá de simplemente
codificadores automáticos profundos logran un aprendizaje de concatenar las funciones de audio y visuales, proponemos
modalidad cruzada al descubrir mejores representaciones de combinar las funciones de audio con nuestras funciones
video cuando se les brindan datos de audio adicionales. En multimodales (Tabla 2d). Cuando las mejores funciones de
particular, aunque el conjunto de datos de AVLetters no tenía audio se concatenan con las funciones bimodales, supera a las
ningún dato de audio, pudimos mejorar el rendimiento otras combinaciones de funciones. Esto muestra que las
aprendiendo mejores funciones de video usando otros datos de funciones multimodales aprendidas pueden complementar
audio y video adicionales sin etiquetar. mejor las funciones de audio.

Sin embargo, el codificador automático profundo bimodal no funcionó 4.5. Efecto McGurk
tan bien como el codificador automático profundo solo de video:
mientras que el codificador automático solo de video aprende solo Tabla 3: Efecto McGurk
funciones de video (que también son buenas para la reconstrucción de Audio/Visual Predicción del modelo
audio), el codificador automático bimodal aprende solo audio, solo Ajuste /Georgia/ /da/
/licenciado en Letras/

video. y características invariantes. Como tal, el conjunto de funciones Visual/Georgia/, audio/Georgia/ 82,6% 2,2% 15,2%
aprendidas por el codificador automático bimodal podría no ser óptimo Visual/licenciado en Letras/, audio/licenciado en Letras/ 4,4% 89,1% 6,5%
cuando la tarea en cuestión solo tiene entrada visual. Visual/Georgia/, audio/licenciado en Letras/ 28,3% 13,0% 58,7%

También notamos que el aprendizaje de modalidad cruzada para audio


El efecto McGurk (McGurk y McDonald,1976) se refiere a un
no mejoró los resultados de clasificación en comparación con el uso de
fenómeno de percepción audiovisual en el que una/Georgia/
funciones de RBM de audio; Las funciones de audio son altamente
con un audio/licenciado en Letras/se percibe como/da/por la
discriminatorias para la clasificación del habla, por lo que agregar
mayoría de los sujetos. Dado que nuestro modelo aprende
información de video a veces puede afectar el rendimiento.
una representación multimodal, sería interesante observar si
4.4. Resultados de la Fusión Multimodal el modelo es capaz de replicar un efecto similar.

Si bien el uso de información de audio por sí sola funciona Obtuvimos datos de 23 voluntarios hablando 5 repeticiones de/
razonablemente bien para el reconocimiento de voz, la fusión de Georgia/,/licenciado en Letras/y/da/. Las características bimodales
información de audio y video puede mejorar sustancialmente el del autocodificador profundo7se utilizaron para entrenar una SVM
rendimiento, especialmente cuando el audio se degrada con ruido lineal en esta tarea de clasificación de 3 vías. El modelo fue
(Gurban y Thiran,2009;Papandreu et al.,2007;Pitsikalis et al.,2006; probado en tres condiciones que simulan el efecto McGurk.
Papandreu et al.,2009). En particular, es común encontrar que las Cuando los datos visuales y de audio coincidieron en el momento
funciones de audio funcionan bien por sí solas y la concatenación de la prueba, el modelo pudo predecir la clase correcta/licenciado
de funciones de video a veces puede perjudicar el rendimiento. en Letras/ y/Georgia/con una precisión del 82,6% y 89,1%
Por lo tanto, evaluamos nuestros modelos en configuraciones de respectivamente. Por otro lado, cuando una imagen/Georgia/ con
audio limpias y ruidosas. una voz/licenciado en Letras/se mezcló en el momento de la
prueba, era más probable que el modelo predijera/da/, a pesar de/
La modalidad de video complementa la modalidad de audio al
da/ninguno aparece en las entradas visuales ni de audio, de
proporcionar información como el lugar de articulación, que
acuerdo con el efecto McGurk en las personas. No se observó el
puede ayudar a distinguir entre discursos de sonido similar. Sin
mismo efecto con la DBN bimodal (Figura 2d) o con la
embargo, cuando uno simplemente concatena funciones de audio
concatenación de funciones RBM de audio y video.
y visuales (Tabla 2e), a menudo ocurre que el rendimiento es peor
en comparación con el uso de solo funciones de audio (Tabla 2a). 7los/Georgia/,/licenciado en Letras/y/da/los datos no se usaron para
Dado que nuestros modelos son capaces de aprender entrenar el autocodificador profundo bimodal.
Aprendizaje profundo multimodal

4.6. Aprendizaje de representación compartida mejor que probar en video, incluso cuando el modelo fue
entrenado en datos de video. Estos resultados muestran que
Tabla 4: Aprendizaje de representaciones compartidas en CUAVE. La la captura de relaciones entre las modalidades requiere al
probabilidad de rendimiento es del 10%. menos una única etapa no lineal para tener éxito. Cuando se
han aprendido buenas características de ambas modalidades,
Entrenar/Prueba Método Precisión
un modelo lineal puede ser adecuado para capturar las
Raw-CCA 41,9%
relaciones. Sin embargo, es importante tener en cuenta que
Audio Video Características de RBM-CCA 57,3%
CCA, una transformación lineal, no ayuda en otras tareas
AE profundo bimodal 30,7%
como el aprendizaje entre modalidades.
Raw-CCA 42,9%
Audio video Características de RBM-CCA 91,7% Además, utilizamos esta tarea para examinar si las características del
AE profundo bimodal 24,3% codificador automático profundo bimodal capturan correlaciones entre
las modalidades.9Si bien el modelo de codificador automático profundo
supervisado bimodal no funciona tan bien como CCA, los resultados muestran que
Clasificador lineal
Pruebas nuestras representaciones aprendidas son parcialmente invariantes a
la modalidad de entrada.
Compartido Compartido

Representación Representación
4.7. Experimentos de control adicionales

Audio Video Audio Video El codificador automático profundo solo de video tiene audio
como señal de entrenamiento y múltiples capas ocultas (Figura
Capacitación Pruebas
3a). Primero consideramos eliminar el audio como una señal
Figura 5: Configuración de “Oír para ver” (entrenamiento en audio, entrenando un codificador automático profundo similar que no
prueba en video) para evaluar representaciones compartidas. reconstruía los datos de audio; el rendimiento disminuyó un 7,7%
en CUAVE y un 14,3% en AVLetters. A continuación, entrenamos un
codificador automático poco profundo solo de video con una sola
En este experimento, proponemos una configuración novedosa
capa oculta para reconstruir tanto el audio como el video.10; el
que examina si se puede aprender una representación compartida
rendimiento disminuyó un 2,1% en CUAVE y un 5,0% en AVLetters.
sobre datos de voz de audio y video. Durante el entrenamiento
Por lo tanto, tanto el audio como una señal como la profundidad
supervisado, el algoritmo recibe datos únicamente de un
fueron ingredientes importantes para la autoen-
modalidad (por ejemplo, audio) y luego se prueba solo en la otra
codificador para un buen desempeño.
modalidad (por ejemplo, video), como se muestra en la Figura 5.
En esencia, le estamos diciendo al alumno supervisado cómo También comparamos el rendimiento del uso del bi-
dígitos “1”, “2”, etc.sonido, mientras le pide que los DBN modal sin entrenarlo como codificador automático. En los
distinga en función de cómo se hablan visualmente: casos en que solo una modalidad wcomo presente, usamos el
“oír para ver”. Si somos capaces de capturar las correlaciones mismo enfoque que el autocodificador profundo bimodal,
entre las modalidades en nuestra representación compartida, estableciendo la modalidad ausente en cero.11El DBN bimodal se
el modelo realizará bien esta tarea. desempeñó peor en las tareas de representación compartida y de
modalidad cruzada y no mostró la eficiencia de McGurk.
Un enfoque para aprender una representación compartida es
perfecto Se desempeñó de manera comparable en la tarea de fusión
encontrar transformaciones para las modalidades que maximicen
multimodal.12
las correlaciones. En particular,te sugerimos usando canoni-
análisis de correlación cal (CCA) (Hardoon et al.,2004), que 9Para el codificador automático profundo bimodal, establecemos el

encuentra transformaciones lineales de datos de audio y video, valor de la modalidad ausente en cero al calcular la representación
compartida, lo cual es consistente con el aprendizaje de características.
para formar una representación compartida.8 Aprendizaje
fase de ing.
una representación compartida de CCA en datos sin procesar da como
10La única capa oculta toma video como entrada y
resultado un rendimiento sorprendentemente bueno (Tabla 4: Raw- reconstruye tanto el audio como el video.
CCA). Sin embargo, aprender la representación de CCA en las funciones 11También intentamos alternar el muestreo de Gibbs para obtener el
de la primera capa (es decir, funciones de RBM de audio y RBM de posterior, pero los resultados fueron peores.
12Para la configuración de solo video, la DBN bimodal se
video) da como resultado un rendimiento significativamente mejor,
desempeñó un 4,9 % peor en el conjunto de datos CUAVE y un
comparable al uso de las modalidades originales para la clasificación
5,0 % peor en el conjunto de datos AVLetters. Acertó en la
supervisada (Tabla 4: Funciones RBM-CCA). Esto es particularmente tarea “oír para ver” y obtuvo un 28,1% en “ver para oír”.
sorprendente ya que las pruebas en audio funcionan

8Datos de audio dadosay datos de videov,CCA encuentra


matricesPAGSyqtal quePAGSayqvtienen correlaciones
máximas.
Aprendizaje profundo multimodal

5. Trabajo relacionado Base de datos de investigación de reconocimiento de voz de DARPA:


especificación y estado. EnTaller de reconocimiento de voz DARPA,
Si bien presentamos casos especiales de redes neuronales
págs. 249 y 249, 1986.
para el aprendizaje multimodal, observamos que trabajos
Gurban, M. and Thiran, JP Característica teórica de la información
previos sobre reconocimiento de voz audiovisual (
extracción para reconocimiento de voz audiovisual.Trans.
Duchnowski et al.,1994; Yuhas et al.,1989;Meier et al.,1996; IEEE. en Sig. proc., 57(12):4765–4776, 2009.
Bregler y König, 1994) también ha explorado el uso de Hardoon, David R., Szedmak, Sandor R. y Shawe-
redes neuronales. Yuhas et al.(1989) entrenaron una red taylor, John R. Análisis de correlación canónica: una descripción
neuronal para predecir la señal auditiva dada la entrada general con aplicación a los métodos de aprendizaje.
visual. Mostraron un mejor rendimiento en un entorno Computación neuronal, 16:2639–2664, 2004.
ruidoso cuando combinaron la señal auditiva predicha (de Hinton, G. Productos de formación de expertos minimizando
la red usando entrada visual) con una señal auditiva divergencia contrastiva.Computación neuronal, 2002.

ruidosa.Duchnowski et al.(1994) yMeier et al.(1996) Hinton, G. y Salakhutdinov, R. Reduciendo la dimensión-


lidad de los datos con redes neuronales.Ciencias, 313(5786):
entrenaron redes separadas para modelar fonemas y
504–507, 2006.
visemas y combinaron las predicciones en una capa
Lee, H., Ekanadham, C. y Ng, A. Red de creencias profundas dispersas
fonética para predecir el fonema hablado.
modelo para área visual V2. EnPINZAS, 2007.
En contraste con estos enfoques, usamos las unidades ocultas Lucey, P. y Sridharan, S. Representación basada en parches
para construir una nueva representación de los datos. Además, no del habla visual. EnTaller de HCSNet sobre el uso de la
visión en la interacción humano-computadora, 2006.
modelamos fonemas o visemas, que requieren costosos esfuerzos
de etiquetado. Finalmente, construimos representaciones
Matthews, I., Cootes, TF, Bangham, JA y Cox, S.
Extracción de rasgos visuales para lectura de labios.PAMI, 24:
bimodales profundas modelando las correlaciones a través de las
198 –213, 2002.
representaciones superficiales aprendidas.
McGurk, H. y MacDonald, J. Oír los labios y ver
vocesNaturaleza, 264(5588):746–748, 1976.
6. Discusión
Meier, U., Hürst, W. y Duchnowski, P. Adaptive Bi-
Las características específicas de la tarea de ingeniería manual a
Fusión de sensor modal para lectura automática de voz. En
menudo son difíciles y requieren mucho tiempo. Por ejemplo, no está ICASSP, págs. 833–836, 1996.
claro de inmediato cuáles deberían ser las características apropiadas Papandreou, G., Katsamanis, A., Pitsikalis, V. y Mara-
para la lectura de labios (datos solo visuales). Esta dificultad es más gos, P. Fusión multimodal y aprendizaje con características
pronunciada con datos multimodales ya que las características tienen inciertas aplicado al reconocimiento de voz audiovisual. En
que relacionar múltiples fuentes de datos. En este trabajo, mostramos MMSP, págs. 264–267, 2007.
cómo se puede aplicar el aprendizaje profundo a esta desafiante tarea Papandreou, G., Katsamanis, A., Pitsikalis, V. y Mara-
gos, P. Fusión multimodal adaptativa por compensación de
para descubrir características multimodales.
incertidumbre con aplicación al reconocimiento de voz
audiovisual.IEEE TASLP, 17(3):423–435, 2009.
Expresiones de gratitud
Patterson, E., Gurbuz, S., Tufekci, Z. y Gowdy, J.
Agradecemos a la Universidad de Clemson por proporcionar el CUAVE: Una nueva base de datos audiovisual para la investigación
conjunto de datos CUAVE y a la Universidad de Surrey por proporcionar de la interfaz multimodal hombre-ordenador. 2:2017–2020, 2002.
el conjunto de datos AVLetters2. También agradecemos a Quoc Le, Pitsikalis, V., Katsamanis, A., Papandreou, G. y Mara-
Andrew Saxe, Andrew Maas y Adam Coates por sus interesantes gos, P. Fusión multimodal adaptativa por compensación de
debates y a los revisores anónimos por sus útiles comentarios. Este incertidumbre. EnICSLP, págs. 2458–2461, 2006.
trabajo cuenta con el apoyo del programa DARPA Deep Learning bajo
Potamianos, G., Neti, C., Luettin, J. y Matthews,
el número de contrato FA8650-10-C-7020.
I. Reconocimiento automático de voz audiovisual: una visión
general. EnProblemas en el procesamiento del habla visual y
Referencias audiovisual. Prensa del MIT, 2004.
Bregler, C. and Konig, Y. ”Eigenlips” para un discurso robusto Salakhutdinov, R. y Hinton, G. Hashing semántico.Ijar,
reconocimiento. EnICASSP, 1994. 50(7):969–978, 2009.
Caruana, R. Aprendizaje multitarea.Aprendizaje automático, 28(1): Summerfield, Q. Lipreading and audio-visual speech per-
41–75, 1997. cepciónTrans. R. Soc. largo, págs. 71 a 78, 1992.
Cox, S., Harvey, R., Lan, Y. y Newman, J. The chal- Vincent, P., Larochelle, H., Bengio, Y. y Manzagol, PA
el alcance de la lectura de labios con varios hablantes. EnConferencia Extracción y composición de características sólidas con codificadores

Internacional sobre Procesamiento Auditivo-Visual del Habla, 2008. automáticos de eliminación de ruido. EnICML, págs. 1096–1103. ACM, 2008.

Dalal, N. y Triggs, B. Histogramas de gradientes orientados Yuhas, BP, Goldstein, MH y Sejnowski, TJ Inte-
para la Detección Humana. EnCVPR, 2005. Gración de señales acústicas y visuales del habla utilizando
redes neuronales.IEEE Com. Revista, págs. 65 a 71, 1989.
Duchnowski, P., Meier, U. y Waibel, A. Mírame, escucha
yo: Integrando reconocimiento de voz automático y lectura de Zhao, G. and Barnard, M. Lipreading with local spacetem-
labios. EnICSLP, págs. 547–550, 1994. descriptores porales.Transacciones IEEE en multimedia, 11
(7):1254–1265, 2009.
Fisher, W., Doddington, G. y Marshall, Goudie. los

También podría gustarte