Documentos de Académico
Documentos de Profesional
Documentos de Cultura
399 Icmlpaper - En.es
399 Icmlpaper - En.es
com
capas con máquinas de Boltzmann restringidas (RBM) seguido de dónde{v1, ...,vmetro}es el conjunto de entrenamiento yρdetermina
un ajuste fino. Usamos una extensión de RBM con escasez (Lee et la escasez de activaciones de unidades ocultas.
al.,2007), que han demostrado aprender funciones significativas
para dígitos e imágenes naturales. En la siguiente sección, 3. Arquitecturas de aprendizaje
revisamos la escasa RBM,
que se utiliza como bloque de construcción por capas para nuestros En esta sección, describimos nuestros modelos para la tarea de
modelos. aprendizaje de características bimodales audiovisuales, donde la
entrada de audio y visual al modelo son cuadros contiguos de
2.1. Máquinas Boltzmann escasas y restringidas audio (espectrograma) y video. Para motivar nuestro profundo
automáticonorte codificador (Hinton y Salakhutdinov,2006) modelo, t
La RBM es una modelo gráfico rectificado con sdescribir varios modelos simples y sus dibujos-
nosotros abeto
variable undi den (h) variables visibles (v) (Figura 2a). espaldas .
y son simétricos conexiones entre lo oculto Wyo, j),
y variables visibles ( pero no hay conexiones dentro uno o f los enfoques más sencillos para presentar
variables ocultas o variables visibles. El modelo define una g es para entrenar un modelo RBMpor separadopara
aprendiendo
distribución de probabilidad sobreh, v (Ecuación1). dio un video aud (Figura 2a,b). Después de aprender el RBM,
Esta configuración particular facilita el cálculo de la el po steriors de las variables ocultas dado el visible
probabilidad condicional.
distribuciones de habilidad, cuandovoh
varía bles (Ecuación 2) se puede utilizar como una nueva representación
sentado ion para los datos. Usamos este modelo como base
es fijo (Ecuación2).
para co metro
Compare los resultados de nuestros modelos multimodales, como s
− Iniciar sesiónPAGS(v,h)∝mi( v,h) = bueno un para el entrenamiento previo de las redes profundas.
1 1 ( )
(1) Para entrenar un modelo multimodal, un enfoque directo es
vTv− CTv + bTh + hTWv
2σ2 σ2 entrenar un RBM sobre el audio y el video concatenados
1 datos (Figura 2c). Si bien este enfoque modela
pags(hj|v) =sigmoideo( (bj + wTjv)) (2) conjuntamente el de los datos de audio y video, se presenta
distribución
σ2
límite como un modelo superficial. En particular, dado que la cor-
Esta formulación modela las variables visibles como unidades de las relaciones entre los datos de audio y video son altamente no
valor real y las variables ocultas como unidades binarias.1 lineales, es difícil para un RBM aprender estas correlaciones y formar
Como es intratable calcular el gradiente del término de representaciones multimodales. En la práctica, encontramos que el
probabilidad logarítmica, aprendemos los parámetros del aprendizaje de una RBM bimodal poco profunda da como resultado
unidades ocultas que tienen fuertes conexiones con las variables de la
1Usamos unidades visibles gaussianas para el RBM que está
conectado a los datos de entrada. Cuando entrenamos las capas más modalidad individual, pero pocas unidades que se conectan a través de
profundas, usamos unidades visibles binarias. las modalidades.
Aprendizaje profundo multimodal
. .
d . es Capa
. ..
Profundo H identificación
…
. ..
Escondido Delaware
norte Unidades . ..
Escondido Delaware
norte Unidades repr es mi ntatio norte
Cuota
... ...
... ... ... ...
Entrada de audio Entrada de video
... ...
Entrada de audio Entrada de video
Entrada de audio Entrada de video
(a) RBM de audio (b) Vídeo RBM (c) RBM bimodal superficial
(d) DBN bimodal
Figura 2: Modelos de preentrenamiento de RBM. Entrenamos RBM para (a) audio y (b) video por separado como
referencia. El modelo superficial (c) es limitado y encontramos que este modelo no puede capturar correlaciones entre
las modalidades. El modelo bimodal de red de creencias profundas (DBN) (d) se entrena de manera codiciosa por
capas mediante los primeros modelos de entrenamiento (a) y (b). Luego “desenrollamos” lo profundo
modelo (d) para entrenar los modelos de autocodificador profundo presentados en la Figura 3.
. ..
audio R CEo nstruccion ..
Vídeo R CEo nstruccion . ..
audio R CEo nstruccion ..
Vídeo R CEo nstruccion
...
Compartido
... Compartido
Representación
Representación
.. ... ...
(a) Codificador automático profundo solo de video (b) Codificador automático profundo bimodal
Figura 3: Modelos de Autocodificador profundo. En (a) se muestra un modelo de "solo video", donde el modelo
aprende a reconstruir ambas modalidades con solo video como entrada. Se puede dibujar un modelo similar para la
configuración de "solo audio". Entrenamos el (b) autocodificador profundo bimodal en una eliminación de ruido
moda, utilizando un conjunto de datos aumentado con ejemplos que requieren que la red reconstruya ambas
modalidades dado solo uno. Ambos modelos están preentrenados utilizando RBM dispersos (Figura 2d). Dado que
usamos una función de transferencia sigmoidea en la red profunda, podemos inicializar la red usando las
distribuciones de probabilidad condicionalpags(h|v)ypags(v|h)de la RBM aprendida.
Por lo tanto, consideramos entrenar con avidez un RBM sobre las corbatas; es posible que el modelo encuentre representaciones
capas pre-entrenadas para cada modalidad, como motivado tales que algunas unidades ocultas se sintonicen solo para au-
por métodos de aprendizaje profundo (Figura 2d).2En particular, dio mientras que otros están sintonizados solo para video. En segundo lugar, el
los posteriores (Ecuación2) de las variables ocultas de la primera los modelos son torpes para la uso yo nortea aprendizaje de modalidad cruzada-
capa se utilizan como datos de entrenamiento para el nuevo configuración de ing donde solo una metro la realidad
sobredosis está presente durante
capa. Al representar los datos a través de los aprendidos primero entrenamiento supervisado un y prueba En .gCon
solo un solo
representaciones de capas, puede ser más fácil para el modelo aprender to modalidad presente, uno necesitaría integrar el
correlaciones de orden superior entre modalidades. formalmente, las En- noobservía variables visibles para realizar metroinferencia.
representaciones de la primera capa corresponden to
Jue s, proponemos un autoencod profundo mi r que resuelve
fonemas y visemas y la segunda capa modela el
botros problemas . Primero consideramos el aprendizaje de modalidad cruzada.
relaciones entre ellos. La Figura 4 muestra visualizaciones de
configuración de aprendizaje donde ambas modalidades están presentes
características aprendidas de nuestros modelos, incluidos
durante el aprendizaje de funciones, pero solo se usa una modalidad para
ejemplos de bases visuales correspondientes a visemas.
entrenamiento y pruebas supervisadas. El autocodificador profundo
Sin embargo, todavía hay dos problemas con los modelos (Figura 3a) está capacitado para reconstruir ambas modalidades
multimodales anteriores. Primero, no hay un objetivo explícito para cuando se le dan solo datos de video y, por lo tanto, descubre
que los modelos descubran correlaciones a través de la modalidad. correlaciones entre las modalidades. Análogo aHinton y
Salakhutdinov(2006), inicializamos el autocodificador profundo con
2En cambio, es posible aprender un RBM grande como la primera capa
que se conecta a ambas modalidades. Sin embargo, dado que una RBM de los pesos DBN bimodales (Figura 2d) basados en la Ecuación2,
una sola capa tiende a aprender unidades unimodales, es mucho más desechando los pesos que ya no estén presentes. La capa
eficiente aprender modelos separados para cada modalidad. intermedia se puede utilizar como
Aprendizaje profundo multimodal
4. Experimentos y Resultados
Evaluamos nuestros métodos de clasificación del habla audiovisual
de letras y dígitos aislados. El parámetro de dispersiónρse eligió
mediante validación cruzada, mientras que todos los demás
parámetros (incluido el tamaño de la capa oculta y la
regularización del peso) se mantuvieron fijos.3
primera capa más fuertemente conectadas. Las unidades dimensiones que se redujo a 100 dimensiones con blanqueamiento
se presentan en pares audiovisuales (en general, nos ha PCA. Se utilizaron 10 fotogramas de audio contiguos como entrada
resultado difícil interpretar la conexión entre el par). Las para nuestros modelos.
bases visuales capturaron movimientos y articulaciones de Para el video, preprocesamos los cuadros para
los labios, incluyendo diferentes articulaciones de la boca, extraer solo la región de interés (ROI) que abarca la
apertura y cierre de la boca, exposición de los dientes. boca.5 El ROI de cada boca se reescaló a 60×80
píxeles y reducido aún más a 32 dimensiones,6
Representación de nuevas características. Este modelo puede verse
utilizando el blanqueamiento PCA. También se utilizaron derivados
como una instancia de aprendizaje multitarea (caruana,1997).
temporales sobre el vector reducido. Utilizamos 4 cuadros de
Usamos los modelos de codificador automático profundo (Figura video contiguos para la entrada, ya que tenían aproximadamente
3a) en entornos donde solo una modalidad está presente en el la misma duración que 10 cuadros de audio.
entrenamiento y las pruebas supervisadas. Por otro lado, cuando
Para ambas modalidades, también realizamos la normalización
hay múltiples modalidades disponibles para la tarea (p. ej., fusión
media de características a lo largo del tiempo (Potamianos et al.,
multimodal), es menos claro cómo usar el modelo, ya que sería
2004), similar a eliminar el componente de CC de cada ejemplo.
necesario entrenar un codificador automático profundo para cada
También notamos que agregar derivadas temporales a las
modalidad. Una solución sencilla es entrenar las redes de modo
representaciones se ha utilizado ampliamente en la literatura, ya
que los pesos de decodificación estén vinculados. Sin embargo,
que ayuda a modelar la información dinámica del habla (
este enfoque no escala bien: si tuviéramos que permitir que
Potamianos et al.,2004;Zhao y Barnard,2009). Las derivadas
cualquier combinación de modalidades esté presente o ausente en
temporales se calcularon utilizando una pendiente lineal
el momento de la prueba, necesitaremos entrenar una cantidad
normalizada para que el rango dinámico de las características
exponencial de modelos.
derivadas sea comparable a la señal original.
Inspirado en codificadores automáticos de eliminación de ruido (
4.2. Conjuntos de datos y tareas
Vicente et al., 2008), proponemos entrenar el codificador
automático profundo bimodal (Figura 3b) utilizando un conjunto Dado que solo se requerían datos sin etiquetar para el aprendizaje de
de datos aumentado pero ruidoso con ejemplos adicionales que características no supervisado, combinamos diversos conjuntos de datos
tienen solo una modalidad única como entrada. En la práctica, (como se indica a continuación) para aprender características. AVLetters y
agregamos ejemplos que tienen valores cero para una de las CUAVE se utilizaron además para la clasificación supervisada. Nos
modalidades de entrada (p. ej., video) y valores originales para la aseguramos de que no se usaran datos de prueba para el aprendizaje de
otra modalidad de entrada (p. ej., audio), pero aún requieren que funciones no supervisado. Todos los modelos de codificadores automáticos
la red reconstruya ambas modalidades (audio y video). Por lo profundos se entrenaron con todos los datos de audio y video sin etiquetar
tanto, un tercio de los datos de entrenamiento tiene solo video disponibles.
para la entrada, mientras que otro tercio de los datos tiene solo
3Hicimos una validación cruzadaρsobre{0.01,0.03,0.05,0.07}. Las
audio, y el último tercio de los datos tiene audio y video.
características de la primera capa estaban 4x sobrecompletas para video
(1536 unidades) y 1.5x sobrecompletas para audio (1500 unidades). La
Debido a la inicialización usando RBM escasos, encontramos que las
segunda capa tenía 1,5 veces el tamaño de las primeras capas combinadas
unidades ocultas tienen una activación esperada baja, incluso después
(4554 unidades).
el entrenamiento profundo del autocodificador. Por lo tanto, cuando 4Cada cuadro de espectrograma (161 contenedores de frecuencia) tenía una
una de las modalidades de entrada se establece en cero, las ventana de 20 ms con superposiciones de 10 ms.
representaciones de la primera capa también están cerca de cero. En 5Utilizamos un detector de objetos listo para usar (Dalal y
este caso, esencialmente estamos entrenando una red profunda de Triggs,2005) con mediana filtración en el tiempo para extraer las
regiones de la boca.
codificador automático específica de la modalidad (Figura 3a).
6Similar a (Duchnowski et al.,1994) encontramos que 32
Efectivamente, el método aprende un modelo que es robusto a las
dimensiones eran suficientes y funcionaban bien.
entradas en las que no existe una modalidad.
Aprendizaje profundo multimodal
CUAVE (Patterson et al.,2002). 36 altavoces diciendo los dígitos y audio en comparación con las funciones de aprendizaje con solo
0a9. usamos elnormalparte del conjunto de datos que datos de video (aunque no funcionan tan bien como las de última
contenía altavoces frontales que decían cada dígito 5 veces. generación). En nuestros modelos, elegimos usar un front-end
Evaluamos la clasificación de dígitos en el conjunto de datos muy simple que solo extrae cuadros delimitadores, sin ninguna
CUAVE en un entorno independiente del hablante. Como no corrección de orientación o cambios de perspectiva. Por el
ha habido un protocolo fijo para la evaluación de este contrario, los modelos recientes de AAM (Papandreu et al.,2009)
conjunto de datos, optamos por utilizar altavoces impares están capacitados para rastrear con precisión la cara del hablante
para el conjunto de prueba y altavoces pares para el conjunto y registrar aún más la cara con una plantilla de cara media,
de entrenamiento. cancelando las deformaciones de la forma. La combinación de
AVLetras (Matthews et al.,2002). 10 oradores diciendo las letrasAaZ estos front-end visuales sofisticados con nuestras características
, tres veces cada uno. El conjunto de datos proporcionó regiones tiene el potencial de hacerlo aún mejor.
Tabla 2: Rendimiento de la clasificación de dígitos para la clasificación de voz bimodal en CUAVE, en condiciones limpias y
ruidosas. Agregamos ruido gaussiano blanco a la señal de audio original a 0 dB SNR. Las barras de error reflejan la
variación (±2 sd) de los resultados debido al ruido aleatorio añadido a los datos de audio. Comparamos el rendimiento del
modelo Bimodal Deep Autoencoder con las mejores funciones de audio (Audio RBM) y las mejores funciones de video
(Video-only Deep Autoencoder).
Precisión Precisión
Representación de características (audio limpio) (Audio ruidoso)
(a) RBM de audio (Figura 2a) 95,8% 75,8%±2,0%
(b) Codificador automático profundo solo de video (Figura 3a) 68,7% 68,7%
(c) Codificador automático profundo bimodal (Figura 3b) 90,0% 77,3%±1,4%
(d)RBM bimodal + audio 94,4% 82,2%±1,2%
(e) Deep AE solo de video + Audio-RBM 87,0% 76,6%±0,8%
Estos resultados de clasificación de video muestran que los funciones multimodales que van más allá de simplemente
codificadores automáticos profundos logran un aprendizaje de concatenar las funciones de audio y visuales, proponemos
modalidad cruzada al descubrir mejores representaciones de combinar las funciones de audio con nuestras funciones
video cuando se les brindan datos de audio adicionales. En multimodales (Tabla 2d). Cuando las mejores funciones de
particular, aunque el conjunto de datos de AVLetters no tenía audio se concatenan con las funciones bimodales, supera a las
ningún dato de audio, pudimos mejorar el rendimiento otras combinaciones de funciones. Esto muestra que las
aprendiendo mejores funciones de video usando otros datos de funciones multimodales aprendidas pueden complementar
audio y video adicionales sin etiquetar. mejor las funciones de audio.
Sin embargo, el codificador automático profundo bimodal no funcionó 4.5. Efecto McGurk
tan bien como el codificador automático profundo solo de video:
mientras que el codificador automático solo de video aprende solo Tabla 3: Efecto McGurk
funciones de video (que también son buenas para la reconstrucción de Audio/Visual Predicción del modelo
audio), el codificador automático bimodal aprende solo audio, solo Ajuste /Georgia/ /da/
/licenciado en Letras/
video. y características invariantes. Como tal, el conjunto de funciones Visual/Georgia/, audio/Georgia/ 82,6% 2,2% 15,2%
aprendidas por el codificador automático bimodal podría no ser óptimo Visual/licenciado en Letras/, audio/licenciado en Letras/ 4,4% 89,1% 6,5%
cuando la tarea en cuestión solo tiene entrada visual. Visual/Georgia/, audio/licenciado en Letras/ 28,3% 13,0% 58,7%
Si bien el uso de información de audio por sí sola funciona Obtuvimos datos de 23 voluntarios hablando 5 repeticiones de/
razonablemente bien para el reconocimiento de voz, la fusión de Georgia/,/licenciado en Letras/y/da/. Las características bimodales
información de audio y video puede mejorar sustancialmente el del autocodificador profundo7se utilizaron para entrenar una SVM
rendimiento, especialmente cuando el audio se degrada con ruido lineal en esta tarea de clasificación de 3 vías. El modelo fue
(Gurban y Thiran,2009;Papandreu et al.,2007;Pitsikalis et al.,2006; probado en tres condiciones que simulan el efecto McGurk.
Papandreu et al.,2009). En particular, es común encontrar que las Cuando los datos visuales y de audio coincidieron en el momento
funciones de audio funcionan bien por sí solas y la concatenación de la prueba, el modelo pudo predecir la clase correcta/licenciado
de funciones de video a veces puede perjudicar el rendimiento. en Letras/ y/Georgia/con una precisión del 82,6% y 89,1%
Por lo tanto, evaluamos nuestros modelos en configuraciones de respectivamente. Por otro lado, cuando una imagen/Georgia/ con
audio limpias y ruidosas. una voz/licenciado en Letras/se mezcló en el momento de la
prueba, era más probable que el modelo predijera/da/, a pesar de/
La modalidad de video complementa la modalidad de audio al
da/ninguno aparece en las entradas visuales ni de audio, de
proporcionar información como el lugar de articulación, que
acuerdo con el efecto McGurk en las personas. No se observó el
puede ayudar a distinguir entre discursos de sonido similar. Sin
mismo efecto con la DBN bimodal (Figura 2d) o con la
embargo, cuando uno simplemente concatena funciones de audio
concatenación de funciones RBM de audio y video.
y visuales (Tabla 2e), a menudo ocurre que el rendimiento es peor
en comparación con el uso de solo funciones de audio (Tabla 2a). 7los/Georgia/,/licenciado en Letras/y/da/los datos no se usaron para
Dado que nuestros modelos son capaces de aprender entrenar el autocodificador profundo bimodal.
Aprendizaje profundo multimodal
4.6. Aprendizaje de representación compartida mejor que probar en video, incluso cuando el modelo fue
entrenado en datos de video. Estos resultados muestran que
Tabla 4: Aprendizaje de representaciones compartidas en CUAVE. La la captura de relaciones entre las modalidades requiere al
probabilidad de rendimiento es del 10%. menos una única etapa no lineal para tener éxito. Cuando se
han aprendido buenas características de ambas modalidades,
Entrenar/Prueba Método Precisión
un modelo lineal puede ser adecuado para capturar las
Raw-CCA 41,9%
relaciones. Sin embargo, es importante tener en cuenta que
Audio Video Características de RBM-CCA 57,3%
CCA, una transformación lineal, no ayuda en otras tareas
AE profundo bimodal 30,7%
como el aprendizaje entre modalidades.
Raw-CCA 42,9%
Audio video Características de RBM-CCA 91,7% Además, utilizamos esta tarea para examinar si las características del
AE profundo bimodal 24,3% codificador automático profundo bimodal capturan correlaciones entre
las modalidades.9Si bien el modelo de codificador automático profundo
supervisado bimodal no funciona tan bien como CCA, los resultados muestran que
Clasificador lineal
Pruebas nuestras representaciones aprendidas son parcialmente invariantes a
la modalidad de entrada.
Compartido Compartido
Representación Representación
4.7. Experimentos de control adicionales
Audio Video Audio Video El codificador automático profundo solo de video tiene audio
como señal de entrenamiento y múltiples capas ocultas (Figura
Capacitación Pruebas
3a). Primero consideramos eliminar el audio como una señal
Figura 5: Configuración de “Oír para ver” (entrenamiento en audio, entrenando un codificador automático profundo similar que no
prueba en video) para evaluar representaciones compartidas. reconstruía los datos de audio; el rendimiento disminuyó un 7,7%
en CUAVE y un 14,3% en AVLetters. A continuación, entrenamos un
codificador automático poco profundo solo de video con una sola
En este experimento, proponemos una configuración novedosa
capa oculta para reconstruir tanto el audio como el video.10; el
que examina si se puede aprender una representación compartida
rendimiento disminuyó un 2,1% en CUAVE y un 5,0% en AVLetters.
sobre datos de voz de audio y video. Durante el entrenamiento
Por lo tanto, tanto el audio como una señal como la profundidad
supervisado, el algoritmo recibe datos únicamente de un
fueron ingredientes importantes para la autoen-
modalidad (por ejemplo, audio) y luego se prueba solo en la otra
codificador para un buen desempeño.
modalidad (por ejemplo, video), como se muestra en la Figura 5.
En esencia, le estamos diciendo al alumno supervisado cómo También comparamos el rendimiento del uso del bi-
dígitos “1”, “2”, etc.sonido, mientras le pide que los DBN modal sin entrenarlo como codificador automático. En los
distinga en función de cómo se hablan visualmente: casos en que solo una modalidad wcomo presente, usamos el
“oír para ver”. Si somos capaces de capturar las correlaciones mismo enfoque que el autocodificador profundo bimodal,
entre las modalidades en nuestra representación compartida, estableciendo la modalidad ausente en cero.11El DBN bimodal se
el modelo realizará bien esta tarea. desempeñó peor en las tareas de representación compartida y de
modalidad cruzada y no mostró la eficiencia de McGurk.
Un enfoque para aprender una representación compartida es
perfecto Se desempeñó de manera comparable en la tarea de fusión
encontrar transformaciones para las modalidades que maximicen
multimodal.12
las correlaciones. En particular,te sugerimos usando canoni-
análisis de correlación cal (CCA) (Hardoon et al.,2004), que 9Para el codificador automático profundo bimodal, establecemos el
encuentra transformaciones lineales de datos de audio y video, valor de la modalidad ausente en cero al calcular la representación
compartida, lo cual es consistente con el aprendizaje de características.
para formar una representación compartida.8 Aprendizaje
fase de ing.
una representación compartida de CCA en datos sin procesar da como
10La única capa oculta toma video como entrada y
resultado un rendimiento sorprendentemente bueno (Tabla 4: Raw- reconstruye tanto el audio como el video.
CCA). Sin embargo, aprender la representación de CCA en las funciones 11También intentamos alternar el muestreo de Gibbs para obtener el
de la primera capa (es decir, funciones de RBM de audio y RBM de posterior, pero los resultados fueron peores.
12Para la configuración de solo video, la DBN bimodal se
video) da como resultado un rendimiento significativamente mejor,
desempeñó un 4,9 % peor en el conjunto de datos CUAVE y un
comparable al uso de las modalidades originales para la clasificación
5,0 % peor en el conjunto de datos AVLetters. Acertó en la
supervisada (Tabla 4: Funciones RBM-CCA). Esto es particularmente tarea “oír para ver” y obtuvo un 28,1% en “ver para oír”.
sorprendente ya que las pruebas en audio funcionan
Internacional sobre Procesamiento Auditivo-Visual del Habla, 2008. automáticos de eliminación de ruido. EnICML, págs. 1096–1103. ACM, 2008.
Dalal, N. y Triggs, B. Histogramas de gradientes orientados Yuhas, BP, Goldstein, MH y Sejnowski, TJ Inte-
para la Detección Humana. EnCVPR, 2005. Gración de señales acústicas y visuales del habla utilizando
redes neuronales.IEEE Com. Revista, págs. 65 a 71, 1989.
Duchnowski, P., Meier, U. y Waibel, A. Mírame, escucha
yo: Integrando reconocimiento de voz automático y lectura de Zhao, G. and Barnard, M. Lipreading with local spacetem-
labios. EnICSLP, págs. 547–550, 1994. descriptores porales.Transacciones IEEE en multimedia, 11
(7):1254–1265, 2009.
Fisher, W., Doddington, G. y Marshall, Goudie. los