Páginas-49-68 Español - Cap4 PDF

4
El micrófono Visual
Cuando el sonido choca contra un objeto, hace que las pequeñas vibraciones de la superficie del objeto. En este capítulo se muestra cómo
estas vibraciones se pueden extraer de vídeo de alta velocidad y se utilizan para recuperar los sonidos que producían entonces - dejarnos
pasivamente convertir objetos cotidianos en los micrófonos visuales desde la distancia.
Nuestro enfoque es simple, pero e ff caz. Para recuperar el sonido de un objeto, que filmar el objeto con una cámara de vídeo de alta
velocidad y extraer señales de movimiento local del vídeo grabado. A continuación, se alinean y promediamos estas señales locales en una
única señal, 1D que captura el movimiento global del objeto con el tiempo. Esta señal global está a continuación, se filtra y sin ruido para
producir un sonido recuperado.
La mayor parte de este capítulo se centra en la experimentación y el análisis, a través del cual se valida nuestro enfoque para la extracción
de las vibraciones de vídeo. Recuperamos sonidos a partir de imágenes de alta velocidad de una variedad de objetos con propiedades di ff Erent,
y utilizamos tanto los datos reales y simulados para examinar los factores que ff ect la exactitud de lo recuperamos. Se evalúa la calidad de los
sonidos recuperados utilizando la inteligibilidad y la métrica de SNR, y aportar información y se recuperaron muestras de audio para una
comparación directa. Por último, en la Sección 4.5 se explora cómo aprovechar la persiana en las cámaras de consumo regulares para recuperar
el audio de vídeos estándar de frame-rate.
4.1 Trabajo relacionado
micrófonos tradicionales funcionan mediante la conversión del movimiento de un diafragma interno en una señal eléctrica. El diafragma está
diseñado para moverse fácilmente con la presión de sonido de modo que su movimiento se puede grabar y interpretarse como audio.
micrófonos láser funcionan en un principio similar, pero en su lugar
La mayor parte de este capítulo fue publicado originalmente en nuestro documento [24] en colaboración con Michael Rubinstein,
Neal Wadhwa, Gautham Mysore, Fr'edo Durand, y William T. Freeman. (URL)
49
Capítulo 4. El MICROFONO VISUAL
500
Ma-ry tenía un cordero ttle Li ... (tonos)

400
0.5 1
300
Frecuencia
Amplitud
0
200
-0,5
100
Sonar Fuente de sonido en la sala

-1 0
0 5 10 15 2 4 6 8 10 12 14
Tiempo (seg) 500 Tiempo (seg)
400
0.5 1
300
Frecuencia
Amplitud
0
200
-0,5
100
-1
Vibrante objeto ( Micrófono
0
El sonido recuperado de una bolsa de patatas 0 5 10 15 2 4 6 8 10 12 14
Tiempo (seg) 500 Tiempo (seg)

visual)
400
0.5 1
300
Frecuencia
Amplitud
0
200
-0,5
100
-1 0
El sonido recuperado de una planta 0 2 4 6 8 10 12 14 dieciséis 2 4 6 8 10 12 14
Cámara de alta velocidad Tiempo (seg) Tiempo (seg)
fotograma representativo forma de onda de sonido espectrograma
Figura 4-1: Recuperación de sonido de video. Izquierda: cuando el sonido choca contra un objeto (en este
caso, una bolsa vacía de papas fritas) que causa extremadamente pequeñas vibraciones de la superficie de
ese objeto. Somos capaces de extraer estas pequeñas vibraciones de vídeo de alta velocidad y reconstruir el
sonido que los ha producido - con el objeto como un micrófono visual desde la distancia. Derecha: una
grabación instrumental de “Mary Had a Little Lamb” (fila superior) se juega a través de un altavoz, y luego se
recuperó de video de objetos Erent di ff: una bolsa de patatas (fila central), y las hojas de una planta en maceta
(fila inferior ). Para la fuente y cada sonido recuperado mostramos la forma de onda y espectrograma (la
magnitud de la señal a través de di frecuencias ff Erent con el tiempo, se muestra en la escala lineal con
colores más oscuros representan mayor energía).
medir el movimiento de un objeto distante, esencialmente mediante el objeto tal como un diafragma externo. micrófono láser puede recuperar audio
de alta calidad desde grandes distancias, sino que requieren un posicionamiento preciso de un láser y el receptor, y requieren que las superficies
sean al menos en parte, retro-reflexivo.
Zalevsky et al. [80] frente a algunas de estas limitaciones mediante el uso de una cámara de alta velocidad fuera de foco para registrar
los cambios en el patrón moteado de volver a la luz láser reflejada. Su trabajo permite una mayor flexibilidad en el posicionamiento de un
receptor, pero aún depende de la grabación de la luz reflejada por láser. Por el contrario, nuestra técnica no depende de iluminación activa.
4.2 Recuperación de sonido de vídeo
Figura 4-3 proporciona una descripción de alto nivel de cómo funciona el micrófono visual. Un sonido de entrada (la señal queremos recuperar) se
compone de las fluctuaciones en la presión del aire en la superficie de un objeto. Estas fluctuaciones causan que el objeto se mueva, lo que resulta
en un patrón de desplazamiento con el tiempo que filmar con una cámara. A continuación, procesar el vídeo grabado con nuestro algoritmo para
recuperar una salida de sonido.
La entrada a nuestro método es un video, V (x, y, t), de un objeto. En esta sección consideramos de vídeo de alta velocidad (1 kHz-20 kHz).
velocidades de cuadro más bajos se discuten en la Sección 4.5. Suponemos que el movimiento relativo de nuestro objeto y la cámara está
dominada por las vibraciones debido a una señal de sonido, S t).
Nuestro objetivo es recuperar S t) desde V.
Nuestro método consiste en calcular las primeras señales de movimiento global S t) hemos discutido en la sección 3.2 del
Capítulo 3, y luego se aplican técnicas de eliminación de ruido y fi ltrado de audio para obtener nuestro sonido recuperado.
- 50 -
(A) el programa de instalación y el marco representante
2000 2000
1500 1500
Frecuencia (Hz)
Frecuencia (Hz)
40
1000 1000
0 20 40 0 20
-40 -20 -40 -20

500 500
-80 -60 -80 -60
0 0 -100 -100
2 4 6 8 10 2 4 6 8 10
Tiempo (seg) Tiempo (seg)
dB
(B) de sonido de entrada (C) sonido Recuperado

Figura 4-2: Speech recuperó de un video 4 kHz de una bolsa de patatas filmada a través de vidrio a prueba de sonido. La
bolsa de chips (en el suelo en la parte inferior derecha en (a)) está iluminado sólo por la luz solar natural. La cámara (a la
izquierda en (a)) se coloca fuera de la habitación detrás de un cristal a prueba de sonido de espesor. Un marco sencillo del
vídeo grabado (400 × 480 píxeles) se muestra en el recuadro. El discurso “Maria tenía un pequeño cordero ... Bienvenido a
SIGGRAPH!” Fue dicho por una persona cerca de la bolsa de patatas fritas. (B) y (c) muestran el espectrograma de la
fuente de sonido grabados por un micrófono estándar al lado de la bolsa de chips, y el espectrograma de nuestro sonido
recuperado, respectivamente. El sonido recuperado es ruidoso, pero comprensible (los clips de audio están disponibles en
la página web del proyecto).
- 51 -
respuesta de objeto (A) Cámara (de proyección) Procesamiento de (B)
0.8 1
RMS Desplazamiento
movimiento de Señal recuperada 0.6
0.4
Presión del aire objetos (mm Vídeo (~ Pensilvania)

0.2
Amplitud
0
(píxeles)
-0,2
(Pensilvania) disp.) -0,4
-0,6
-0,8
-1
0 0.5 1 1.5 2 2.5
Tiempo (s)
Entrada Salida
Frecuencia
Figura 4-3: Se modela el micrófono visual como un sistema que opera en el sonido. Componente UNA ( Sección
4.4.1) modelos de respuesta de un objeto al sonido, y es puramente físico toma como cambios de entrada en la
presión de aire, medida en Pascales, y la producción de desplazamiento físico del objeto con el tiempo, medido en
milímetros. La respuesta del objeto con el sonido depende de varios factores tales como el nivel de sonido en el
objeto, y el material y la forma del objeto. Una cámara registra entonces el objeto, la transformación de los
desplazamientos físicos en los movimientos de píxeles en un video. Componente
B ( Sección 5.3, Sección 4.4.2) es nuestra línea de procesamiento espacio-temporal, que transforma los movimientos en
el video de nuevo en sonido. La señal resultante es 1D unidad-menos, pero se correlaciona con los Pascals de entrada y
por lo tanto puede ser jugado y se analizó como sonido.
4.2.1 Eliminación de ruido
Procesamos más la señal de movimiento global recuperado para mejorar su SNR. En muchos videos, nos dimos cuenta el ruido de alta energía en las
frecuencias más bajas que por lo general no se correspondía con el audio. Nos dirigimos a esto mediante la aplicación de un paso alto Butterworth
filtro con un ff cuto de 20-100Hz (para la mayoría de los ejemplos, 1/20 de la frecuencia de Nyquist) 1.
Nuestra elección del algoritmo de eliminación de ruido adicional depende de nuestra aplicación de destino - específicamente, si estamos
interesados en la precisión o inteligibilidad. Para aplicaciones de precisión de la focalización usamos nuestra propia implementación de una técnica
conocida como sustracción espectral [6]. Para la inteligibilidad utilizamos un algoritmo de mejora del habla perceptualmente motivado [50] que
funciona mediante el cálculo de una estimación óptima Bayesiano de la señal sin ruido con una función de coste que tenga en cuenta la percepción
humana de expresión. Todos los resultados que presentamos en este capítulo fueron sin ruido automáticamente con uno de estos dos algoritmos.
Nuestros resultados pueden mejorarse aún más mediante el uso de algoritmos más sofisticados de eliminación de ruido de audio disponibles en el
software de procesamiento de audio profesional (algunos de los cuales requieren la interacción manual).
Di ff frecuencias Erent de nuestra señal recuperada podrían ser modulados di ff erently por el objeto grabado. En la sección 4.3.3,
mostramos cómo utilizar una señal de prueba conocido para caracterizar cómo un objeto atenúa las frecuencias Erent di ff, a continuación,
utilizar esta información para ecualizar señales desconocidas recuperados del mismo objeto (o una similar) en nuevos videos.
1 En casos muy ruidosos que en lugar de aplicar este filtro de paso alto a las señales intermedias un (r, θ, t)
antes de la alineación para evitar que el ruido de una ff ión de la alineación.
- 52 -
4.3 experimentos
We performed a variety of experiments to test our technique. All the videos in this section were recorded indoors with a Phantom V10
high speed camera. The setup for these experiments consisted of an object, a loudspeaker, and the camera, arranged as shown in
Figure 4-4. The loudspeaker was always placed on its own stand separate from the surface holding the object in order to avoid contact
vibrations. The objects were lit with photography lamps and filmed at distances ranging from 0.5 meter to 2 meters. In other experiments
we recover sound from greater distances without the aid of photography lamps (e.g. Figure 4-2). Video frame rates are in the range of
2kHz-20kHz, with resolutions ranging from 192x192 pixels to 700x700 pixels. Sounds were played at loud volumes ranging from 80 dB
(an actor’s stage voice) to 110 dB (comparable to a jet engine at 100 meter). Lower volumes are explored in Section 4.4, Figure 4-2,
and additional experiments on our web page. Videos were processed using complex steerable pyramids with 4 scales and 2
orientations, which we computed using the publicly available code of Portilla and Simoncelli [57]. Processing each video typically took 2
to 3 hours using MATLAB on a machine with two 3.46GHz processors and 32GB of RAM.
Nuestra primera conjunto de experimentos probó la gama de frecuencias que podrían ser recuperados a partir de objetos Erent di
ff. Hicimos esto por jugar una rampa lineal de frecuencias a través del altavoz, y luego ver qué frecuencias podría ser recuperado por
nuestra técnica. El segundo grupo de experimentos se centró en recuperar el habla humana de vídeo. Para estos experimentos se
utilizó varios ejemplos del habla estándar del conjunto de datos TIMIT [30] jugados a través de un altavoz, así como voz en vivo de un
sujeto humano (aquí el altavoz en la figura 4-4 se reemplazó con un ser humano que habla). Audio en estos experimentos y otros se
puede encontrar en la página web del proyecto. Nuestros resultados son mejor experiencia al escuchar el sonido que acompaña a fi les
través de los auriculares.
4.3.1 La recuperación de sonido Di ff Erent Objetos / Materiales
En este primer conjunto de experimentos que jugar una señal de rampa, que consiste en una onda sinusoidal que aumenta linealmente en
frecuencia con el tiempo, en una variedad de objetos. Figura 4-5 (a) muestra el espectrograma de nuestro sonido de entrada, lo que aumenta desde
100 Hz a 1000 Hz durante 5 segundos. La figura 4-5 (b) muestra los espectrogramas de las señales recuperadas de vídeos 2.2kHz de una variedad
de objetos con di ff propiedades del material Erent. El ladrillo en la parte superior de la figura 4-5 (b) se utiliza como un experimento de control en la
que esperamos para recuperar poco señal porque el objeto es rígido y pesado. La señal de baja frecuencia recuperado del ladrillo (ver el
espectrograma hecha visible para Ladrillo en la figura 4-5 (b)) puede provenir de movimiento del ladrillo o de la cámara, pero el hecho de que esta
señal es muy débil sugiere que el movimiento de la cámara y otros factores no deseados en la configuración experimental tienen como máximo un
impacto menor en nuestros resultados . En particular, mientras que casi no hay señal se recupera del ladrillo, mucho mejor señal se recuperó de los
demás objetos que se muestran.
En casi todos nuestros resultados la señal recuperada es más débil en las frecuencias más altas. Esto se esperaba, ya que las frecuencias más
altas producen desplazamientos más pequeños y se atenúan más fuertemente por la mayoría de los materiales. Se demuestra esto más explícitamente
con los datos de un vibrómetro de láser Doppler en la Sección
4.4. Sin embargo, la disminución de la potencia con frecuencias más altas no es monótona, posiblemente debido a la excitación de modos de
vibración. No es sorprendente que los objetos más ligeros que son más fáciles de mover tienden a apoyar la recuperación de frecuencias más altas
mejor que los objetos más inertes.
- 53 -
(una)
(do)
(segundo)
Figura 4-4: Un ejemplo de nuestra configuración experimental controlada. El sonido de una fuente de audio, como un
altavoz (a) excita un objeto ordinario (b). Una cámara de alta velocidad (c) registra el objeto. a continuación, se
recupera el sonido del vídeo grabado. Con el fin de minimizar las vibraciones no deseadas, los objetos se colocaron
en una placa óptica de pesada, y para los experimentos que implican un altavoz que colocan el altavoz en una
superficie separada de la que contiene los objetos, en la parte superior de un aislador acústico.
- 54 -
000
800 1
Frecuencia
600
400
200
0
Ladrillo 1 2 3 4
000
800 1
Frecuencia
600
400
200
0
cartón 1 2 3 4
000
800 1
Frecuencia
600
400
000 200
800 1 0
agua de 1 2 3 4
Frecuencia
600
000
400
800 1
200
Frecuencia
600
0
1 2 3 4
400
(A) de entrada de sonido (interpretado en la habitación)

200
0
bolsa de KitKat 1 2 3 4
000
800 1
Frecuencia
600
400
200
0
envase del papel 1 2 3 4
(B) Reconstructed soundTime (sec)
Figura 4-5: de sonido reconstruida a partir de objetos Erent di ff y materiales. Una rampa lineal que varía de 100 - 1000 Hz
fue jugado a través de un altavoz (a), y reconstruye a partir de objetos Erent di FF y materiales (B). En Agua, la cámara
estaba apuntando a un lado de una taza de agua que contiene clara, donde la superficie del agua estaba justo por encima
de un logotipo impreso en el lado de la taza. El movimiento de la superficie del agua resultó en el cambio de la refracción y
reflexiones especulares en movimiento re. Más detalles se pueden encontrar en nuestra página web del proyecto.
- 55 -
Secuencia Método SSNR LLR media inteligibilidad

VM 24.5 1.47 0,72
Altavoz Mujer - fadg0, sa1
LDV 28.5 1.81 0.74
VM 28.7 1.37 0.65
Altavoz Mujer - fadg0, SA2
LDV 26.5 1.82 0.70
VM 20.4 1.31 0.59
hablante masculino - mccs0, sa1
LDV 26.1 1.83 0,73
VM 23.2 1.55 0.67
hablante masculino - mccs0, SA2
LDV 25.8 1.96 0.68
VM 23.3 1.68 0,77
hablante masculino - mabw0, sa1
LDV 28.2 1.74 0,76
VM 25.5 1.81 0,72
HOMBRE - mabw0, SA2
LDV 26.0 1.88 0.74
Tabla 4.1: Una comparación de nuestro método (VM) con un vibrómetro de láser Doppler (LDV). Speech del conjunto de datos TIMIT se
recupera de una bolsa de patatas por ambos métodos simultáneamente. Ambas señales recuperadas se denoised utilizando [50]. Las
señales recuperadas se evalúan utilizando segmentaria SNR (SSNR, en dB) [35], Log media razón de verosimilitud (LLR) [59] y la
inteligibilidad métrica se describe en [72] (dado en la gama de 0-1). Para cada comparación, el mejor resultado se muestra en negrita.
4.3.2 Recuperación del Habla
la recuperación del habla es una interesante aplicación del micrófono visual. Para poner a prueba nuestra capacidad de recuperar el habla
utilizamos ejemplos del habla estándar del conjunto de datos TIMIT [30], así como el discurso en vivo desde un altavoz humana recitando el poema
“María tenía un corderito”, en referencia a las primeras palabras pronunciadas por Thomas A . Edison en el fonógrafo en 1877. experimentos del
habla, además, se puede encontrar en la página web del proyecto.
En la mayoría de nuestros experimentos de recuperación del habla, nos filmada una bolsa de patatas en 2200 fps con una resolución espacial
de 700 × 700 píxeles. señales recuperadas se denoised con un algoritmo perceptualmente motivado mejora del habla [50], que se describe en la
sección 4.2.1.
La mejor manera de evaluar nuestra voz reconstruida es para escuchar el sonido que acompaña a fi les, disponible en nuestra página web del
proyecto. Además de proporcionar estos archivos de audio, también evaluamos nuestros resultados utilizando mediciones cuantitativas de la
comunidad de procesamiento de audio. Para medir la exactitud utilizamos segmentaria relación señal-ruido (SSNR) [35], que tiene un promedio SNR
local, a través del tiempo. Para medir la inteligibilidad usamos la métrica basada en la percepción de Taal et al. [72]. Para nuestros resultados en la
Tabla 4.1 también incluimos registro proporción de probabilidad (LLR) [59], que es una métrica que captura cómo de cerca la forma espectral de una
señal recuperada coincide con la de la señal limpia originales. Finalmente, nuestros resultados pueden ser evaluados visualmente mirando a los
espectrogramas de nuestra voz de entrada y se recuperan las señales, que se muestra en la Figura 4-6.
Hasta la frecuencia de Nyquist de nuestros videos, las señales recuperadas coinciden estrechamente con la entrada tanto para el habla
pre-grabada y en vivo. En un experimento, hemos capturado una bolsa de patatas fritas a 20.000 FPS y eran capaces de recuperar parte de las
frecuencias más altas de la voz (Figura 4-6, parte inferior derecha). La mayor velocidad de cuadro resultó en la reducción de tiempo de exposición y
por lo tanto más ruido de la imagen, que es la razón por la cifra resultante es más ruidosos que los resultados a 2200Hz. Sin embargo, incluso con
este ruido añadido, hemos sido capaces de comprender cualitativamente el discurso en el audio reconstruida.
También comparamos nuestros resultados con el audio recuperado por un vibrómetro de láser Doppler (Tabla 4.1). Nuestro
- 56 -
discurso grabado Entrada (SA1) Recuperado Entrada (SA2) Recuperado
“Ella tenía su traje oscuro y agua de lavado de grasa durante todo el año.” “No me pidan que lleve un trapo aceitoso así.”
000 000 000 000
Frecuencia (Hz)
800 1 800 1 800 1 800 1
Mujer 600 600 600 600
(fadg0)
400 400 400 400
200 200 200 200
0 0 0 0
0.5 1 1.5 2 2.5 3 0.5 1 1.5 2 2.5 3 0.5 1 1.5 2 2.5 0.5 1 1.5 2 2.5
000 000 000 000
800 1 800 1 800 1 800 1

Frecuencia (Hz)
Male 600 600 600 600
(mccs0) 400 400 400 400
200 200 200 200
0 0 0 0
0.5 1 1.5 2 2.5 3 3.5 4 0.5 1 1.5 2 2.5 3 3.5 4 0.5 1 1.5 2 2.5 3 0.5 1 1.5 2 2.5 3
000 000 000 000
800 1 800 1 800 1 800 1

Frecuencia (Hz)
Male
600 600 600 600
(mabw0)
400 400 400 400
200 200 200 200
0 0 0 0
0.5 1 1.5 2 2.5 0.5 1 1.5 2 2.5 0.5 1 1.5 2 2.5 0.5 1 1.5 2 2.5
habla en directo De entrada (2200 Hz) Recuperado De entrada (20 kHz) Recuperado
“María tenía un corderito, que es de lana era blanca como la nieve y en todas partes que María fue, ese cordero era seguro ir.”
10000 10000
000 000 9000 9000
8000 8000
800 1 800 1
Frecuencia (Hz)
7000 7000
20 40
6000 6000
600 600
-20 0 5000 5000
4000 4000
400 400
-40 3000 3000
2000 2000
-60
200 200
1000 1000
0 0 0 0
1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8
dB -80 Tiempo (s) Tiempo (s) Tiempo (s) Tiempo (s)
Figura 4-6: Speech recuperó de una bolsa de patatas fritas. Grabados del habla (Top tres filas): Jugamos grabaciones de
tres oradores que dicen dos frases di ff Erent del conjunto de datos TIMIT [30] a través de un altavoz cerca de una bolsa de
patatas fritas. a continuación, recuperamos el audio de un 2, 200 Hz, 700 × 700 de vídeo de la bolsa de patatas fritas (véase
la tabla 4.2 (a)) para una trama representante) y mostrar los espectrogramas de tanto el audio de entrada y la señal
recuperada. Vivir del habla (fila inferior): En un experimento separado, un hablante masculino recita la canción infantil
“Maria tenía un pequeño cordero ...”, cerca de la misma bolsa de patatas fritas. Le mostramos los espectrogramas de audio
grabado por un micrófono convencional junto a los espectrogramas del audio recuperado de video de la bolsa de papas
utilizando nuestra técnica. Los resultados fueron recuperados de videos tomados a los 2, 200 Hz, 700 × 700 pixeles (parte
inferior izquierda), y 20 kHz, 192 × 192 pixeles (inferior derecha). Entrada y clips de audio recuperados se pueden encontrar
en la página web del proyecto.
- 57 -
Logaritmo del coeficiente de transferencia

0.6
Frecuencia (Hz)
0.4
0.2
200 400 600 800 1000
Tiempo (s) Frecuencia (Hz)
(A) de entrada (B) Espectrograma (c) coeficientes de transferencia de registro
Altavoz fadg0 mccs0 mabw0

Acortar sa1 SA2 sa1 SA2 sa1 SA2
SSNR w / o la Ec. 33.2 29.7 29.8 30.4 19.6 30.7

SSNR con la Ec. 35,9 33,2 30,1 31,8 20,9 27.8
Table 4.2: We use a known ramp signal to estimate the transfer coefficients for a bag of chips. We then use
these transfer coefficients to equalize new unknown signals recovered from the same bag. a) One frame from a
video of the bag of chips. b) The recovered ramp signal we use to compute transfer coefficients. c) The log
transfer coefficients (set to 1 outside the range of frequencies in our ramp). The table shows SSNR for six
speech examples with and without the equalization. Spectral subtraction is applied again after equalization, as
boosting attenuated frequencies tends to boost noise in those frequencies as well. Note that the denoising
method SSNR values reported here are different from Table 4.1, as our equalization focuses on accuracy over
intelligibility (see text for details).
método recuperó audio que era comparable a la vibrómetro láser cuando muestreada a la misma velocidad que la de vídeo, tal como
se mide por la métrica inteligibilidad. Sin embargo, el LDV se requiere iluminación activa, y tuvimos que una FFI x un pedazo de cinta
retro-re fl caz en el objeto para el láser para hacer rebotar o FF el objeto y volver a la vibrómetro. Sin la cinta caz fl retro-re, la calidad
de la señal vibrómetro fue significativamente peor.
4.3.3 Funciones de Transferencia y ecualización
Podemos utilizar la señal de rampa desde la Sección 4.3.1 para caracterizar la (visual) de respuesta de frecuencia de un objeto con el fin de mejorar la
calidad de las señales recuperadas de nuevas observaciones de ese objeto. En teoría, si pensamos en el objeto como un sistema lineal, Wiener
deconvolución se puede utilizar para estimar la función de transferencia de valor complejo asociado con ese sistema, y que la función de transferencia a
continuación, podría ser utilizado para deconvoluir nuevas señales observadas en una forma óptima ( en el sentido cuadrático medio del error). En la
práctica, sin embargo, este enfoque puede ser muy susceptibles al ruido y los artefactos no lineales. En su lugar, se describe un método más simple que
la primera utiliza el poco tiempo transformada de Fourier de un ejemplo de entrenamiento (la rampa lineal) para calcular la frecuencia de transferencia de
coe fi cientes a escala gruesa, entonces iguala nuevas señales observadas utilizando estos coeficientes de transferencia de FFI del COE.
- 58 -
Nuestros coeficientes FFI transferencia coe se derivan de la corto espectros de potencia de tiempo de un par de entrada / salida de señales
(como las que se muestran en la Figura 4-5). Cada coe fi ciente corresponde a una frecuencia en el corto tiempo de espectros de potencia de la
señal observada la formación, y se calcula como un promedio ponderado de la magnitud de esa frecuencia con el tiempo. El peso en cada
momento viene dado por el corto espectro de potencia temporal de la señal de entrenamiento de entrada alineados. Dado que nuestra señal de
entrada contiene sólo una frecuencia a la vez, este esquema de ponderación ignora artefactos no lineales tales la duplicación de frecuencia ve en la
figura 4.2 (b).
Una vez que tenemos nuestros coeficientes de transferencia de coe fi podemos utilizarlos para igualar las nuevas señales. Hay muchas maneras
posibles de hacer esto. Aplicamos las ganancias a frecuencias en el corto tiempo de espectros de potencia de la nueva señal, entonces la resíntesis de la
señal en el dominio del tiempo. La ganancia que aplicamos a cada frecuencia es proporcional a la inversa de su correspondiente transferencia coe fi ciente
elevado a algunos exponente k.
La Figura 4.2 muestra los resultados de aplicar un ecualizador derivado de una bolsa de chip para secuencias de voz recuperados del
mismo objeto. En ausencia de ruido, k sería establece en 1, pero el ruido de amplio espectro comprime el rango de los coe fi cientes de
transferencia estimados. El uso de un mayor k puede compensar esto. Sintonizábamos manualmente k en uno de los ejemplos del habla hembra,
luego se aplica el ecualizador resultante a todos los seis ejemplos de habla. Dado que esta igualación está diseñado para mejorar la fidelidad de
una señal recuperada en lugar de la inteligibilidad del habla, utilizamos sustracción espectral para la eliminación de ruido y SSNR para evaluar
nuestros resultados.
Tenga en cuenta que la calibración y la ecualización son opcionales. En particular, todos los resultados en este capítulo fuera de la Tabla 4.2
a suponer ningún conocimiento previo de la respuesta de frecuencia del objeto grabado.
4.4 Análisis
En esta sección, proporcionamos un análisis que ayuda a predecir cuándo y qué tan bien funciona nuestra técnica, y estimar la magnitud de los
movimientos que son capaces de recuperarse. A un alto nivel, nuestro método trata de inferir algún sonido de entrada S t) observando el movimiento
que provoca en un objeto cercano. Figura 4-3 se describen una serie de transformaciones que describen este proceso. Un sonido, S t), definida por
las fluctuaciones en la presión de aire con el tiempo, actúa sobre la superficie de un objeto. El objeto se mueve entonces en respuesta a este
sonido, la transformación de presión de aire en desplazamiento de la superficie. Llamamos a esta transformación la respuesta objeto, A. El patrón
resultante de desplazamiento de la superficie es entonces grabado con una cámara, y nuestro algoritmo, SEGUNDO, transforma el vídeo grabado
en un sonido recuperado. Intuitivamente, nuestra capacidad para recuperarse S t) dependerá de las transformaciones UNA y SEGUNDO. En esta
sección se caracterizan estas transformaciones para ayudar a predecir qué tan bien el micrófono visual trabajará en nuevas situaciones.
4.4.1 Respuesta de objeto (A)

Para cada objeto se registró movimiento en respuesta a dos señales en un entorno de laboratorio calibrado. El primero era un tono puro
300Hz que aumentó linealmente en el volumen de [0,1-1] Pascales (RMS) (~57 a 95 decibelios). Esta señal se utilizó para caracterizar la
relación entre el volumen y el movimiento de objetos. Para obtener una medida exacta del volumen calibramos nuestra configuración
experimental (el altavoz, sala, y la posición del objeto que está siendo probado) utilizando un medidor de decibelios. La figura 4-7 (b)
muestra el movimiento RMS de objetos Erent di ff como una función de la presión de aire RMS en pascales (a 300 Hz). A partir de esta
gráfica vemos que para la mayoría de los objetos que probamos, el movimiento parece ser lineal aproximadamente de la presión de
sonido. Para cada objeto que probamos una o más frecuencias y vimos que este
- 59 -
crabchips greenteabox tejido foiltogo kit Kat afoil Rosa foamcup chobani tetera
Medido aumento de la tasa de
desplazamiento (m / Pa) 0.7

0.7 0
crabchips tejido 62.4 0.6
greenteabox 41.1
0.5
0.6 foiltogo kitkat afoil 32.9
Desplazamiento (RMS μ metro)
Desplazamiento (m dB RMS)
aumentaron 20.6 0.4
foamcup tetera 21.6

0.5 chobani 24.6 0.3
Desplazamiento (RMS μ metro)
10.6
0.2
8.6
0.4 1.2 0.1
1.1
0
200 400 600 800 1000 1200 1400 1600 1800 2000
1 2 3 4 5 6 7 8 9 10
(80dB) Volumen (RMS μ Pensilvania) (93dB) x 10 5 Frecuencia (Hz)
0.3
(A) coeficientes de desplazamiento en 300Hz (B) Propuesta vs. volumen de sonido (c) las respuestas de frecuencia
Figura 4-7: Movimiento objeto como función del volumen del sonido y la frecuencia, tal como se mide con un vibrómetro de láser
0.2
Doppler. Top: los objetos que medir, ordenados de acuerdo con su desplazamiento pico a 95 dB, de izquierda (movimiento más
0.1
grande) a derecha (de movimiento más pequeño). (B) El desplazamiento RMS (micrómetros) vs RMS de presión de sonido (Pascales)
para
0 los objetos que es golpeado por una onda sinusoidal de 300 Hz calibrado linealmente creciente en volumen de 57 decibelios a 95
1 2 3 4 5 6 7 8 9 10
decibelios. Desplazamientos están aproximadamente lineal en Pascales, y están todos en el orden de un micrómetro (una milésima
Volumen (RMS μ Pensilvania) x 10 5
parte de un milímetro). (C) Las respuestas en frecuencia de estos objetos (potencia dB vs frecuencia), en base a su respuesta a una
rampa de frecuencias que van desde 20 Hz a 2200Hz. Las frecuencias más altas tienden a tener respuestas más débiles que las
frecuencias más bajas. respuestas de frecuencia se representan en una escala dB,
relación se mantuvo lineal, lo que sugiere que es posible modelar la respuesta objetivo UNA como un sistema invariante en el tiempo lineal (LTI).
Nuestra segunda señal de prueba era una señal de rampa similar a la utilizada en la Sección 4.3.1, con frecuencias en el rango de 20Hz a
2200Hz. Modelado UNA como un sistema LTI, hemos utilizado esta señal de rampa para recuperar la respuesta de impulso de ese sistema. Esto se
hizo mediante la desconvolución nuestra señal de rampa observado (esta vez grabado por un LDV) por nuestra entrada conocida mediante
deconvolución Wiener. Figura 4-7 (c) muestra respuestas de frecuencia derivadas de nuestras respuestas de impulso recuperados 2. De este gráfico
vemos que la mayoría de los objetos tienen una respuesta más fuerte a frecuencias más bajas que las frecuencias más altas (como se esperaba), pero
que esta tendencia no es monótona. Esto concuerda con lo que hemos observado en la Sección 4.3.1.
Ahora podemos expresar la transformación UNA en el dominio de la frecuencia como la multiplicación de nuestro espectro de sonido, S (ω), por la
función de transferencia UNA( ω), que nos da el espectro de nuestro movimiento, re mm ( ω):
re mm ( ω) ≈ UNA( ω) S (ω) (4,1)
La magnitud del coe fi ciente UNA( ω) para un objeto corresponde a la pendiente de su respectivo volumen frente a la curva de
desplazamiento (como las mostradas en la figura 4-7 (b)) en la frecuencia ω.
4.4.2 Procesamiento de (B)
La relación entre el movimiento de objetos re mm y el desplazamiento de píxeles, re pag, es una sencilla dada por la proyección y el muestreo de
una cámara. parámetros de la cámara como la distancia, el zoom, la visualización
2 Las respuestas de frecuencia que se muestran aquí se han suavizado para eliminar el ruido e inteligible mostrar los diez en un gráfico. Las
respuestas también pueden ser un ff ejada por las respuestas de la habitación y el altavoz.
- 60 -
ángulo, etc., un ff ect entrada de nuestro algoritmo (el video) cambiando el número de píxeles que ve un objeto, norte pag, la Magni fi cación de
movimiento de píxel (en mm / píxel), metro, y el ruido de las imágenes capturadas,
σ NORTE. La relación entre el movimiento de los objetos y el movimiento de píxel puede ser expresado como:
re pag( ω) = D mm ( ω) × metro × cos ( θ) (4,2)
dónde θ es el ángulo de visión de nuestra cámara con respecto al movimiento de la superficie del objeto y metro es la Magni fi cación de nuestra superficie
en mm
píxel.
A través de simulaciones también se estudió el e ff ect del número de píxeles imágenes de un objeto ( norte pag),
la amplitud (en píxeles) de movimiento ( re pag( ω)), y el ruido de imagen (dada por desviación estándar σ norte),
en la SNR de nuestros sonidos recuperados. Los resultados de estas simulaciones (disponibles en nuestra página web) confirmaron la
siguiente relación:
σ S ( ω) σ NORTE( ω) α~ | re pag( ω) | √ norte pag

, (4,3)
σ norte
que muestra cómo la relación señal a ruido aumenta con la amplitud de movimiento y el número de píxeles, y disminuye con el ruido de
imagen.
Para confirmar esta relación entre SNR y la amplitud de movimiento con datos reales y para poner a prueba los límites de nuestra
técnica sobre objetos di ff Erent, se realizó otro experimento calibrada como el que se discute en la Sección 4.4.1, esta vez utilizando el
micrófono visual en lugar de un vibrómetro láser . En este experimento, se colocó la cámara alrededor de 2 metros de distancia desde el
objeto que se está grabando y objetos fueron imágenes en 400 × 480 píxeles con una fi cación Magni de 17,8 píxeles por milímetro. Con esta
configuración, se evaluó SNR (dB) en función del volumen de decibelios (estándar). Para su fi cientemente grandes amplitudes de
desplazamiento de píxeles, nuestra señal recuperada se convierte en aproximadamente lineal en el volumen (Fig. 4-8 (a)), confirmando la
relación dada en la ecuación 4.3.
Para dar una idea del tamaño de movimientos en nuestros videos, también estima el movimiento, en píxeles, para cada uno de los
de los vídeos correspondientes usando fl óptico basado en fase ow [33]. Encontramos estos movimientos para estar en el orden de
100mo-1000o de un píxel (Fig. 4-8 (b)).
4.5 Recuperación de sonido con cámaras de vídeo normal usando

enrollable
Una de las limitaciones de la técnica presentada hasta el momento es la necesidad de vídeo de alta velocidad. Exploramos la posibilidad de recuperar el
audio de fi vídeo filmado a velocidades de cuadro regulares mediante el aprovechamiento de la
persiana common in the CMOS sensors of most cell phones and DSLR cameras [52]. With rolling shutter, sensor pixels are exposed
and read out row-by-row sequentially at different times from top to bottom. Compared to uniform global shutters, this design is cheaper
to implement and has lower power consumption, but often produces undesirable skewing artifacts in recorded images, especially for
photographs of moving objects. Previously, researchers have tried to mitigate the effect of rolling shutter on computer vision problems
such as structure-from-motion [51] and video stabilization [34]. Ait-Aider et al. [1] used rolling shutter to estimate the pose and velocity of
rigid objects from a single image. We take advantage of rolling shutter to effectively increase the sampling rate of a camera and recover
sound frequencies above the camera’s frame rate.
– 61 –
crabchips foamcup foiltogo

40
foiltogo
30 crabchips Objeto Frec. (Hz) RMS (px)
foamcup crabchips 100 0,029
20
foiltogo 100 0,010
foamcup 100 0,007
10
SNR dB
crabchips 300 0,006

0 foiltogo 300 0,012
foamcup 300 0,005
-10 crabchips 500 0,005
foiltogo 500 0,007
-20
foamcup 500 0,002
-30
75 80 85 90 95
Decibelios (RMS)
(A) SNR vs volumen (B) de movimiento en píxeles
Figura 4-8: La relación señal-ruido de sonido se recuperó de vídeo como una función del volumen (a), y el movimiento
absoluto en píxeles (B), por varios objetos cuando se reproduce una onda sinusoidal de la variación de frecuencia y el
volumen a ellos.
Debido a que cada fila de un sensor con sensor de rodadura es capturado a veces di ff Erent, podemos recuperar una señal de audio para
cada fila, en lugar de cada trama, el aumento de la tasa de muestreo de la velocidad de cuadro de la cámara a la velocidad a la que se registran
filas ( Fig. 4-9). Podemos determinar plenamente el mapeo de las filas de detectores a la señal de audio si se conoce el tiempo de exposición de
la cámara, MI, la línea de retardo,
re, que es el tiempo entre capturas de fila, el periodo de trama T, el tiempo entre la captura de marco, y el retardo de trama, D ( Fig. 4-9). Los
parámetros de obturación de rodadura se pueden tomar de las especificaciones de la cámara y los sensores, o calculado (para cualquier cámara)
a través de un simple proceso de calibración [51], que también se describe en nuestra página web del proyecto. Suponemos, además, un modelo
directo en el que un objeto, cuya imagen está dada por B (x, y), se mueve con movimiento horizontal fronto-paralelo coherente descrito por S t),
y que el movimiento de re fl eja el audio queremos recuperar, como antes. Si asumimos que el tiempo de exposición mi ≈ 0, entonces la norte ésima
trama yo norte tomada por la cámara puede ser caracterizado por la ecuación
yo norte( x, y) = b (x - aS (nT + yd), y). (4,4)
Utilizamos esta ecuación para producir una simulación de la persiana enrollable.
Si suponemos que la y ª fila de segundo tiene su fi ciente textura horizontal, podemos recuperar s (nT + yd)
usando análisis de movimiento euleriano 1D. Si la demora de fotogramas, el tiempo entre la toma de la última fila de una trama y la
primera fila de la siguiente trama, no es cero, entonces hay veces cuando la cámara no está grabando nada. Esto se traduce en que
faltan las muestras o “huecos” en la señal de audio. En la Fig. 4-9 (b), se muestra cómo una onda triangular se recupera de una cámara
móvil de obturación. Cada marco contribuye once muestras, una para cada fila. Hay cinco muestras faltantes, indicados en gris claro,
entre cada fotograma correspondiente a la demora de fotogramas no despreciable. Para hacer frente a la falta
- 62 -
filas de detectores
Período marco ( T) Tiempo de exposición ( MI)
Frame Delay ( RE) Retardo de línea ( re)
Hora
(A) Persiana en un video
Audio (movimientos)
Hora
(B) de conversión a la señal de audio

Figura 4-9: Movimientos de una cámara móvil de obturación se convierten en una señal de audio. Cada fila del video es capturado en un
momento Erent di ff. La línea de retardo re es el tiempo entre la captura de filas consecutivas. El tiempo de exposición mi es la cantidad de
tiempo que el obturador está abierto para cada fila, el periodo de la trama es el tiempo entre el inicio de la captura de cada fotograma y el
retraso de las tramas es el tiempo entre el momento en la última fila de un marco y la primera fila de la siguiente trama son capturado. El
movimiento de cada fila corresponde a una muestra en la señal de audio recuperada (b). Las muestras que se producen durante el período de
demora de fotogramas se han perdido y se indican en gris claro.
muestras en nuestra señal de audio, que utilizan una técnica de interpolación de audio por Janssen et al. [43].
En la práctica, el tiempo de exposición no es cero y cada fila es el promedio de tiempo de su posición durante la exposición. Para
señales de audio sinusoidal de frecuencia ω> 1
E, la fila grabado aproximadamente voluntad
estar a la izquierda de su posición de reposo por medio de la exposición y hacia la derecha para la otra mitad. Por lo tanto, no será bien
caracteriza por una sola traducción, lo que sugiere que mi es un límite a la frecuencia máxima que podemos esperar para capturar con una
puerta enrollable. La mayoría de las cámaras tienen tiempos de exposición mínimos del orden de 0,1 milisegundos (10 kHz).
Mostramos un resultado ejemplo de sonido recuperó utilizando un video DSLR-frecuencia de imagen normal en la Figura 4-
10. Tomamos un video de una bolsa de dulces (Fig. 4-10 (a)), cerca de un altavoz tocando el habla, y tomó un video desde un punto de
vista ortogonal al eje del altavoz a objetos, de modo que los movimientos de la bolsa debido al altavoz sería horizontal y fronto-paralelo
en el plano de la imagen de la cámara. Se utilizó una Pentax K-01 con una lente de 31 mm. La cámara graba a 60 fps con una
resolución de 1280 × 720 con un tiempo de exposición de
1 2000 segundos. Mediante la medición de la pendiente de una recta, se determinó que
tener una línea de retardo de 16 μ s y un retardo de trama de 5 milisegundos, de manera que el ff reflexivo velocidad de muestreo e
- 63 -
1000
Frecuencia (Hz)
50
500
30 40
10 20
-10 0
0 -20
1 2
Tiempo (seg) dB
(A) Capítulo del vídeo DSLR (B) de sonido de entrada ( El Cuervo)
1000 1000
Frecuencia (Hz)
Frecuencia (Hz)
50 50
500 500
30 40 30 40
10 20 10 20
-10 0 -10 0
0 -20 0 -20
1 2 1 2
Tiempo (seg) Tiempo (seg)
(C) Resultados (cámara simulada: E = 0) (D) El resultado de DSLR

Figura 4-10: Sonido recuperado de un vídeo normal-velocidad de fotogramas, disparó con una cámara estándar DSLR
con persiana. Un marco del vídeo DSLR se muestra en (a). recitación de James Earl Jones, de “El Cuervo” de Edgar
Allan Poe [56] (espectrograma muestra en (b)) se juega a través de un altavoz, mientras que una cámara réflex digital
ordinaria fi lms un Kit Kat bolsa de cerca. El espectrograma de la señal que manejamos para recuperarse de la DSLR se
muestra en (d). En (c) se muestra el resultado de nuestra simulación de persiana enrollable que utiliza parámetros
similares a las réflex digitales, a excepción de tiempo de exposición ( MI) que se puso a cero.
es 61920 hz con 30% de las muestras que faltan. El tiempo de exposición tapas de la frecuencia máxima recuperable en alrededor de 2000 Hz.
Además de interpolación de audio para recuperar muestras faltantes, también DeNoise la señal con un algoritmo de mejora del habla y un filtro
de paso bajo para eliminar fuera de la gama de frecuencias no podemos recuperar debido al tiempo de exposición. También se realizó un
experimento simulado con idénticos parámetros de la cámara, a excepción de un instante (cero) el tiempo de exposición. Los clips de audio
recuperados están disponibles en línea.
4.6 Discusión y Limitaciones
Información ininteligible sonido Muchos de nuestros ejemplos se centran en la inteligibilidad de los sonidos recuperados. Sin
embargo, hay situaciones en las que el sonido ininteligible todavía puede ser de carácter informativo. Por ejemplo, identificar el número y el
género de los altavoces en una habitación puede ser útil en algunos escenarios de vigilancia, incluso si habla inteligible no se pueden
recuperar. Figura 4-11 muestra los resultados de un experimento en el que fueron capaces de detectar el género de altavoces de habla
ininteligible utilizando un estimador de tono estándar [25]. En nuestra página web del proyecto se muestra otro ejemplo en el que
- 64 -
400
350 Mujer (Seq 1) 300
300 echada verdadera (Female)

Frecuencia (Hz) 280
250
Paso verdadera (Male) Paso
200 260
Recuperado
150
240
100
50
220
pitch estimado (Hz)

0
1 2
200
Tiempo (seg)
180
400
350 Male (Seq 3) 160

300
Frecuencia (Hz)
140
250
200
120
150
100 100
50
80
0 1 2 3 4 5 6
1 2 3 4
Tiempo (seg) Secuencia de números
(A) trayectoria Pitch (B) pitch estimado
Figura 4-11: Nuestro método puede ser útil incluso cuando recuperó el habla es ininteligible. En este ejemplo, se utilizó cinco muestras de
voz TIMIT, recuperados de una caja de pañuelos y un recipiente de papel de aluminio. El discurso recuperado es dif cil de entender FFI, pero
utilizando un estimador de tono estándar [25] somos capaces de recuperar el tono de la voz del hablante (b). En (a) se muestra la trayectoria de
tono estimado para dos muestras de voz recuperada (hembra anteriormente, masculino abajo). segmentos azules indican alta confianza en la
estimación (ver [25] para más detalles).
recuperar la música lo suficientemente bien para algunos oyentes para reconocer la canción, aunque las letras en sí son ininteligibles en el
sonido recuperado.
La visualización de los modos de vibración Debido a que estamos recuperando el sonido de un vídeo, se obtiene una medición espacial de la
señal de audio en muchos puntos de la filmada objeto en lugar de un solo punto como un micrófono láser. Podemos usar esta medición espacial para
recuperar los modos de vibración de un objeto. Esto puede ser una herramienta poderosa para el análisis estructural, donde las deformaciones generales
de un objeto se expresan a menudo como superposiciones de modos de vibración del objeto. Al igual que con la recuperación de sonido de vibraciones
de la superficie, la mayoría de las técnicas existentes para la recuperación de formas de los modos están activos. Stanbridge y Ewins [69], por ejemplo,
escanear un vibrómetro de láser en un patrón de trama a través de una superficie. Como alternativa, la interferometría holográfica trabaja por primera
grabación de un holograma de un objeto en reposo, a continuación, la proyección de este holograma de nuevo en el objeto de manera que las
deformaciones de superficie resultan en patrones de interferencia predecibles [58, 44]. Al igual que nosotros, Chen et al. [15] proponen la recuperación de
formas de los modos de un vídeo de alta velocidad, sino que solo se ve en el caso específico de una viga que vibra en respuesta a ser golpeado por un
martillo.
Modos de vibración se caracterizan por el movimiento, donde todas las partes de una vibrar objeto con la misma frecuencia temporal, la
frecuencia modal, con una relación de fase fijada entre di ff partes Erent del objeto. Podemos hallar las frecuencias modales mediante la
búsqueda de picos en el espectro de nuestras señales de movimiento locales. En uno de estos picos, tendremos una ciente fi Coe Fourier
para cada ubicación espacial en la imagen. Estos coe Fourier FFI dan la forma del modo de vibración con la amplitud correspondiente a la
cantidad de movimiento y de fase correspondiente a FI relación de fase fijo entre los puntos. En la figura 4-12, mapeamos amplitud a la
intensidad y la fase de tono para dos modos de vibración de una cabeza de tambor. Estos modos de vibración recuperados (Fig. 4-12 (b)) se
corresponden estrechamente a las formas modales derivados teóricamente-(Fig. 4-12 (c)).
- sesenta
cinco - y
limitaciones Aparte de la velocidad de muestreo, nuestra técnica está limitada por la Magni fi cación de la lente. La SNR de audio
recuperada por nuestra técnica es proporcional a la amplitud de movimiento en píxeles y el número de píxeles que cubren el objeto (Ec. 4.3),
las cuales aumentan a medida que los Magni aumenta fi cación y disminuyen con la distancia al objeto. Como resultado, para recuperar el
sonido inteligible a partir de objetos lejanos, es posible que tengamos un potente objetivo zoom. El experimento en la Figura 4-2 utiliza una
lente de 400 mm para recuperar sonido desde una distancia de 3-4 metros. La recuperación de distancias mucho más grandes pueden
requerir la óptica caros con grandes longitudes focales.
4.7 Conclusión
Hemos demostrado que las vibraciones de muchos objetos de uso cotidiano en respuesta al sonido pueden ser extraídas de vídeos de alta
velocidad y se utilizan para recuperar el audio, convertir esos objetos en los micrófonos “visuales”. Integramos señales de movimiento locales,
minuto a través de la superficie de un objeto para calcular una única señal de movimiento que capta las vibraciones del objeto en respuesta al
sonido en el tiempo. A continuación, eliminación de ruido de esta señal de movimiento utilizando la mejora del habla y otras técnicas para producir
una señal de audio recuperada. A través de nuestros experimentos, hemos encontrado que los objetos ligeros y rígidos hacen especialmente
buenos micrófonos visuales. Creemos que el uso de cámaras de vídeo para recuperar y analizar vibraciones relacionadas sonido en objetos Erent
di ff abrirá nuevas e interesantes investigaciones y aplicaciones. Nuestros videos, resultados y material complementario están disponibles en la
página web del proyecto: http://people.csail.mit.edu/ mrub / VisualMic /.
- 66 -
(A) marco Ejemplo de entrada
(B) Nuestros recuperados formas de los modos
(C) En teoría derivados de formas de los modos
Figura 4-12: Recuperado formas de los modos (b) a partir de un vídeo de una membrana de látex circular excitado por un chirp la
reproducción desde una fuente de audio cercana (a). Nuestros formas de los modos de recuperación (b) son similares a las formas de
los modos teóricamente derivados de (c). Para los modos que se muestran en (b), la fase de movimiento superficie través de la
membrana se correlaciona con el tono, mientras que la amplitud de las vibraciones a través de la superficie se asigna a la saturación y
el brillo.
- 67 -
- 68 -

Páginas-49-68 Español - Cap4 PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Páginas-49-68 Español - Cap4 PDF

Cargado por

Copyright:

Formatos disponibles

4

pasivamente convertir objetos cotidianos en los micrófonos visuales desde la distancia.

producir un sonido recuperado.

el audio de vídeos estándar de frame-rate.

4.1 Trabajo relacionado

micrófonos láser funcionan en un principio similar, pero en su lugar

Ma-ry tenía un cordero ttle Li ... (tonos)

Sonar Fuente de sonido en la sala

Tiempo (seg) 500 Tiempo (seg)

Tiempo (seg) 500 Tiempo (seg)

fotograma representativo forma de onda de sonido espectrograma

sean al menos en parte, retro-reflexivo.

4.2 Recuperación de sonido de vídeo

recuperar una salida de sonido.

dominada por las vibraciones debido a una señal de sonido, S t).

Nuestro objetivo es recuperar S t) desde V.

(A) el programa de instalación y el marco representante

-40 -20 -40 -20

-80 -60 -80 -60

(B) de sonido de entrada (C) sonido Recuperado

respuesta de objeto (A) Cámara (de proyección) Procesamiento de (B)

Presión del aire objetos (mm Vídeo (~ Pensilvania)

(Pensilvania) disp.) -0,4

4.2.1 Eliminación de ruido

antes de la alineación para evitar que el ruido de una ff ión de la alineación.

4.3.1 La recuperación de sonido Di ff Erent Objetos / Materiales

demás objetos que se muestran.

con los datos de un vibrómetro de láser Doppler en la Sección

mejor que los objetos más inertes.

(A) de entrada de sonido (interpretado en la habitación)

(B) Reconstructed soundTime (sec)

Secuencia Método SSNR LLR media inteligibilidad

4.3.2 Recuperación del Habla

habla, además, se puede encontrar en la página web del proyecto.

discurso grabado Entrada (SA1) Recuperado Entrada (SA2) Recuperado

800 1 800 1 800 1 800 1

Mujer 600 600 600 600

200 200 200 200

000 000 000 000

800 1 800 1 800 1 800 1

Male 600 600 600 600

(mccs0) 400 400 400 400

200 200 200 200

000 000 000 000

800 1 800 1 800 1 800 1

200 200 200 200

000 000 9000 9000

dB -80 Tiempo (s) Tiempo (s) Tiempo (s) Tiempo (s)

Logaritmo del coeficiente de transferencia

200 400 600 800 1000

Tiempo (s) Frecuencia (Hz)

(A) de entrada (B) Espectrograma (c) coeficientes de transferencia de registro

Altavoz fadg0 mccs0 mabw0

SSNR w / o la Ec. 33.2 29.7 29.8 30.4 19.6 30.7

4.3.3 Funciones de Transferencia y ecualización

figura 4.2 (b).

elevado a algunos exponente k.

a suponer ningún conocimiento previo de la respuesta de frecuencia del objeto grabado.

4.4.1 Respuesta de objeto (A)

Medido aumento de la tasa de

desplazamiento (m / Pa) 0.7

crabchips tejido 62.4 0.6

Desplazamiento (RMS μ metro)