Está en la página 1de 20

4

El micrófono Visual

Cuando el sonido choca contra un objeto, hace que las pequeñas vibraciones de la superficie del objeto. En este capítulo se muestra cómo

estas vibraciones se pueden extraer de vídeo de alta velocidad y se utilizan para recuperar los sonidos que producían entonces - dejarnos

pasivamente convertir objetos cotidianos en los micrófonos visuales desde la distancia.

Nuestro enfoque es simple, pero e ff caz. Para recuperar el sonido de un objeto, que filmar el objeto con una cámara de vídeo de alta

velocidad y extraer señales de movimiento local del vídeo grabado. A continuación, se alinean y promediamos estas señales locales en una

única señal, 1D que captura el movimiento global del objeto con el tiempo. Esta señal global está a continuación, se filtra y sin ruido para

producir un sonido recuperado.

La mayor parte de este capítulo se centra en la experimentación y el análisis, a través del cual se valida nuestro enfoque para la extracción

de las vibraciones de vídeo. Recuperamos sonidos a partir de imágenes de alta velocidad de una variedad de objetos con propiedades di ff Erent,

y utilizamos tanto los datos reales y simulados para examinar los factores que ff ect la exactitud de lo recuperamos. Se evalúa la calidad de los

sonidos recuperados utilizando la inteligibilidad y la métrica de SNR, y aportar información y se recuperaron muestras de audio para una

comparación directa. Por último, en la Sección 4.5 se explora cómo aprovechar la persiana en las cámaras de consumo regulares para recuperar

el audio de vídeos estándar de frame-rate.

4.1 Trabajo relacionado

micrófonos tradicionales funcionan mediante la conversión del movimiento de un diafragma interno en una señal eléctrica. El diafragma está

diseñado para moverse fácilmente con la presión de sonido de modo que su movimiento se puede grabar y interpretarse como audio.

micrófonos láser funcionan en un principio similar, pero en su lugar

La mayor parte de este capítulo fue publicado originalmente en nuestro documento [24] en colaboración con Michael Rubinstein,
Neal Wadhwa, Gautham Mysore, Fr'edo Durand, y William T. Freeman. (URL)

49
Capítulo 4. El MICROFONO VISUAL

500

Ma-ry tenía un cordero ttle Li ... (tonos)


400
0.5 1

300

Frecuencia
Amplitud
0

200

-0,5
100

Sonar Fuente de sonido en la sala


-1 0
0 5 10 15 2 4 6 8 10 12 14

Tiempo (seg) 500 Tiempo (seg)

400
0.5 1

300

Frecuencia
Amplitud
0

200

-0,5
100

-1
Vibrante objeto ( Micrófono
0
El sonido recuperado de una bolsa de patatas 0 5 10 15 2 4 6 8 10 12 14

Tiempo (seg) 500 Tiempo (seg)


visual)
400
0.5 1

300

Frecuencia
Amplitud
0

200

-0,5
100

-1 0
El sonido recuperado de una planta 0 2 4 6 8 10 12 14 dieciséis 2 4 6 8 10 12 14
Cámara de alta velocidad Tiempo (seg) Tiempo (seg)

fotograma representativo forma de onda de sonido espectrograma

Figura 4-1: Recuperación de sonido de video. Izquierda: cuando el sonido choca contra un objeto (en este
caso, una bolsa vacía de papas fritas) que causa extremadamente pequeñas vibraciones de la superficie de
ese objeto. Somos capaces de extraer estas pequeñas vibraciones de vídeo de alta velocidad y reconstruir el
sonido que los ha producido - con el objeto como un micrófono visual desde la distancia. Derecha: una
grabación instrumental de “Mary Had a Little Lamb” (fila superior) se juega a través de un altavoz, y luego se
recuperó de video de objetos Erent di ff: una bolsa de patatas (fila central), y las hojas de una planta en maceta
(fila inferior ). Para la fuente y cada sonido recuperado mostramos la forma de onda y espectrograma (la
magnitud de la señal a través de di frecuencias ff Erent con el tiempo, se muestra en la escala lineal con
colores más oscuros representan mayor energía).

medir el movimiento de un objeto distante, esencialmente mediante el objeto tal como un diafragma externo. micrófono láser puede recuperar audio

de alta calidad desde grandes distancias, sino que requieren un posicionamiento preciso de un láser y el receptor, y requieren que las superficies

sean al menos en parte, retro-reflexivo.

Zalevsky et al. [80] frente a algunas de estas limitaciones mediante el uso de una cámara de alta velocidad fuera de foco para registrar

los cambios en el patrón moteado de volver a la luz láser reflejada. Su trabajo permite una mayor flexibilidad en el posicionamiento de un

receptor, pero aún depende de la grabación de la luz reflejada por láser. Por el contrario, nuestra técnica no depende de iluminación activa.

4.2 Recuperación de sonido de vídeo

Figura 4-3 proporciona una descripción de alto nivel de cómo funciona el micrófono visual. Un sonido de entrada (la señal queremos recuperar) se

compone de las fluctuaciones en la presión del aire en la superficie de un objeto. Estas fluctuaciones causan que el objeto se mueva, lo que resulta

en un patrón de desplazamiento con el tiempo que filmar con una cámara. A continuación, procesar el vídeo grabado con nuestro algoritmo para

recuperar una salida de sonido.

La entrada a nuestro método es un video, V (x, y, t), de un objeto. En esta sección consideramos de vídeo de alta velocidad (1 kHz-20 kHz).

velocidades de cuadro más bajos se discuten en la Sección 4.5. Suponemos que el movimiento relativo de nuestro objeto y la cámara está

dominada por las vibraciones debido a una señal de sonido, S t).

Nuestro objetivo es recuperar S t) desde V.

Nuestro método consiste en calcular las primeras señales de movimiento global S t) hemos discutido en la sección 3.2 del

Capítulo 3, y luego se aplican técnicas de eliminación de ruido y fi ltrado de audio para obtener nuestro sonido recuperado.

- 50 -
Capítulo 4. El MICROFONO VISUAL

(A) el programa de instalación y el marco representante

2000 2000

1500 1500
Frecuencia (Hz)
Frecuencia (Hz)

40

1000 1000
0 20 40 0 20

-40 -20 -40 -20


500 500

-80 -60 -80 -60

0 0 -100 -100
2 4 6 8 10 2 4 6 8 10
Tiempo (seg) Tiempo (seg)
dB

(B) de sonido de entrada (C) sonido Recuperado


Figura 4-2: Speech recuperó de un video 4 kHz de una bolsa de patatas filmada a través de vidrio a prueba de sonido. La
bolsa de chips (en el suelo en la parte inferior derecha en (a)) está iluminado sólo por la luz solar natural. La cámara (a la
izquierda en (a)) se coloca fuera de la habitación detrás de un cristal a prueba de sonido de espesor. Un marco sencillo del
vídeo grabado (400 × 480 píxeles) se muestra en el recuadro. El discurso “Maria tenía un pequeño cordero ... Bienvenido a
SIGGRAPH!” Fue dicho por una persona cerca de la bolsa de patatas fritas. (B) y (c) muestran el espectrograma de la
fuente de sonido grabados por un micrófono estándar al lado de la bolsa de chips, y el espectrograma de nuestro sonido
recuperado, respectivamente. El sonido recuperado es ruidoso, pero comprensible (los clips de audio están disponibles en
la página web del proyecto).

- 51 -
Capítulo 4. El MICROFONO VISUAL

respuesta de objeto (A) Cámara (de proyección) Procesamiento de (B)

0.8 1

RMS Desplazamiento
movimiento de Señal recuperada 0.6

0.4

Presión del aire objetos (mm Vídeo (~ Pensilvania)


0.2

Amplitud
0

(píxeles)
-0,2

(Pensilvania) disp.) -0,4

-0,6

-0,8

-1
0 0.5 1 1.5 2 2.5

Tiempo (s)

Entrada Salida
Frecuencia

Figura 4-3: Se modela el micrófono visual como un sistema que opera en el sonido. Componente UNA ( Sección
4.4.1) modelos de respuesta de un objeto al sonido, y es puramente físico toma como cambios de entrada en la
presión de aire, medida en Pascales, y la producción de desplazamiento físico del objeto con el tiempo, medido en
milímetros. La respuesta del objeto con el sonido depende de varios factores tales como el nivel de sonido en el
objeto, y el material y la forma del objeto. Una cámara registra entonces el objeto, la transformación de los
desplazamientos físicos en los movimientos de píxeles en un video. Componente

B ( Sección 5.3, Sección 4.4.2) es nuestra línea de procesamiento espacio-temporal, que transforma los movimientos en
el video de nuevo en sonido. La señal resultante es 1D unidad-menos, pero se correlaciona con los Pascals de entrada y
por lo tanto puede ser jugado y se analizó como sonido.

4.2.1 Eliminación de ruido

Procesamos más la señal de movimiento global recuperado para mejorar su SNR. En muchos videos, nos dimos cuenta el ruido de alta energía en las

frecuencias más bajas que por lo general no se correspondía con el audio. Nos dirigimos a esto mediante la aplicación de un paso alto Butterworth

filtro con un ff cuto de 20-100Hz (para la mayoría de los ejemplos, 1/20 de la frecuencia de Nyquist) 1.

Nuestra elección del algoritmo de eliminación de ruido adicional depende de nuestra aplicación de destino - específicamente, si estamos

interesados ​en la precisión o inteligibilidad. Para aplicaciones de precisión de la focalización usamos nuestra propia implementación de una técnica

conocida como sustracción espectral [6]. Para la inteligibilidad utilizamos un algoritmo de mejora del habla perceptualmente motivado [50] que

funciona mediante el cálculo de una estimación óptima Bayesiano de la señal sin ruido con una función de coste que tenga en cuenta la percepción

humana de expresión. Todos los resultados que presentamos en este capítulo fueron sin ruido automáticamente con uno de estos dos algoritmos.

Nuestros resultados pueden mejorarse aún más mediante el uso de algoritmos más sofisticados de eliminación de ruido de audio disponibles en el

software de procesamiento de audio profesional (algunos de los cuales requieren la interacción manual).

Di ff frecuencias Erent de nuestra señal recuperada podrían ser modulados di ff erently por el objeto grabado. En la sección 4.3.3,

mostramos cómo utilizar una señal de prueba conocido para caracterizar cómo un objeto atenúa las frecuencias Erent di ff, a continuación,

utilizar esta información para ecualizar señales desconocidas recuperados del mismo objeto (o una similar) en nuevos videos.

1 En casos muy ruidosos que en lugar de aplicar este filtro de paso alto a las señales intermedias un (r, θ, t)

antes de la alineación para evitar que el ruido de una ff ión de la alineación.

- 52 -
Capítulo 4. El MICROFONO VISUAL

4.3 experimentos

We performed a variety of experiments to test our technique. All the videos in this section were recorded indoors with a Phantom V10
high speed camera. The setup for these experiments consisted of an object, a loudspeaker, and the camera, arranged as shown in
Figure 4-4. The loudspeaker was always placed on its own stand separate from the surface holding the object in order to avoid contact
vibrations. The objects were lit with photography lamps and filmed at distances ranging from 0.5 meter to 2 meters. In other experiments
we recover sound from greater distances without the aid of photography lamps (e.g. Figure 4-2). Video frame rates are in the range of
2kHz-20kHz, with resolutions ranging from 192x192 pixels to 700x700 pixels. Sounds were played at loud volumes ranging from 80 dB
(an actor’s stage voice) to 110 dB (comparable to a jet engine at 100 meter). Lower volumes are explored in Section 4.4, Figure 4-2,
and additional experiments on our web page. Videos were processed using complex steerable pyramids with 4 scales and 2
orientations, which we computed using the publicly available code of Portilla and Simoncelli [57]. Processing each video typically took 2
to 3 hours using MATLAB on a machine with two 3.46GHz processors and 32GB of RAM.

Nuestra primera conjunto de experimentos probó la gama de frecuencias que podrían ser recuperados a partir de objetos Erent di
ff. Hicimos esto por jugar una rampa lineal de frecuencias a través del altavoz, y luego ver qué frecuencias podría ser recuperado por
nuestra técnica. El segundo grupo de experimentos se centró en recuperar el habla humana de vídeo. Para estos experimentos se
utilizó varios ejemplos del habla estándar del conjunto de datos TIMIT [30] jugados a través de un altavoz, así como voz en vivo de un
sujeto humano (aquí el altavoz en la figura 4-4 se reemplazó con un ser humano que habla). Audio en estos experimentos y otros se
puede encontrar en la página web del proyecto. Nuestros resultados son mejor experiencia al escuchar el sonido que acompaña a fi les
través de los auriculares.

4.3.1 La recuperación de sonido Di ff Erent Objetos / Materiales

En este primer conjunto de experimentos que jugar una señal de rampa, que consiste en una onda sinusoidal que aumenta linealmente en

frecuencia con el tiempo, en una variedad de objetos. Figura 4-5 (a) muestra el espectrograma de nuestro sonido de entrada, lo que aumenta desde

100 Hz a 1000 Hz durante 5 segundos. La figura 4-5 (b) muestra los espectrogramas de las señales recuperadas de vídeos 2.2kHz de una variedad

de objetos con di ff propiedades del material Erent. El ladrillo en la parte superior de la figura 4-5 (b) se utiliza como un experimento de control en la

que esperamos para recuperar poco señal porque el objeto es rígido y pesado. La señal de baja frecuencia recuperado del ladrillo (ver el

espectrograma hecha visible para Ladrillo en la figura 4-5 (b)) puede provenir de movimiento del ladrillo o de la cámara, pero el hecho de que esta

señal es muy débil sugiere que el movimiento de la cámara y otros factores no deseados en la configuración experimental tienen como máximo un

impacto menor en nuestros resultados . En particular, mientras que casi no hay señal se recupera del ladrillo, mucho mejor señal se recuperó de los

demás objetos que se muestran.

En casi todos nuestros resultados la señal recuperada es más débil en las frecuencias más altas. Esto se esperaba, ya que las frecuencias más

altas producen desplazamientos más pequeños y se atenúan más fuertemente por la mayoría de los materiales. Se demuestra esto más explícitamente

con los datos de un vibrómetro de láser Doppler en la Sección

4.4. Sin embargo, la disminución de la potencia con frecuencias más altas no es monótona, posiblemente debido a la excitación de modos de

vibración. No es sorprendente que los objetos más ligeros que son más fáciles de mover tienden a apoyar la recuperación de frecuencias más altas

mejor que los objetos más inertes.

- 53 -
Capítulo 4. El MICROFONO VISUAL

(una)

(do)

(segundo)

Figura 4-4: Un ejemplo de nuestra configuración experimental controlada. El sonido de una fuente de audio, como un
altavoz (a) excita un objeto ordinario (b). Una cámara de alta velocidad (c) registra el objeto. a continuación, se
recupera el sonido del vídeo grabado. Con el fin de minimizar las vibraciones no deseadas, los objetos se colocaron
en una placa óptica de pesada, y para los experimentos que implican un altavoz que colocan el altavoz en una
superficie separada de la que contiene los objetos, en la parte superior de un aislador acústico.

- 54 -
Capítulo 4. El MICROFONO VISUAL

000

800 1

Frecuencia
600

400

200

0
Ladrillo 1 2 3 4

000

800 1

Frecuencia
600

400

200

0
cartón 1 2 3 4

000

800 1

Frecuencia
600

400

000 200

800 1 0
agua de 1 2 3 4
Frecuencia

600
000

400
800 1

200
Frecuencia

600

0
1 2 3 4
400

(A) de entrada de sonido (interpretado en la habitación)


200

0
bolsa de KitKat 1 2 3 4

000

800 1
Frecuencia

600

400

200

0
envase del papel 1 2 3 4

(B) Reconstructed soundTime (sec)

Figura 4-5: de sonido reconstruida a partir de objetos Erent di ff y materiales. Una rampa lineal que varía de 100 - 1000 Hz
fue jugado a través de un altavoz (a), y reconstruye a partir de objetos Erent di FF y materiales (B). En Agua, la cámara
estaba apuntando a un lado de una taza de agua que contiene clara, donde la superficie del agua estaba justo por encima
de un logotipo impreso en el lado de la taza. El movimiento de la superficie del agua resultó en el cambio de la refracción y
reflexiones especulares en movimiento re. Más detalles se pueden encontrar en nuestra página web del proyecto.

- 55 -
Capítulo 4. El MICROFONO VISUAL

Secuencia Método SSNR LLR media inteligibilidad


VM 24.5 1.47 0,72
Altavoz Mujer - fadg0, sa1
LDV 28.5 1.81 0.74
VM 28.7 1.37 0.65
Altavoz Mujer - fadg0, SA2
LDV 26.5 1.82 0.70
VM 20.4 1.31 0.59
hablante masculino - mccs0, sa1
LDV 26.1 1.83 0,73
VM 23.2 1.55 0.67
hablante masculino - mccs0, SA2
LDV 25.8 1.96 0.68
VM 23.3 1.68 0,77
hablante masculino - mabw0, sa1
LDV 28.2 1.74 0,76
VM 25.5 1.81 0,72
HOMBRE - mabw0, SA2
LDV 26.0 1.88 0.74

Tabla 4.1: Una comparación de nuestro método (VM) con un vibrómetro de láser Doppler (LDV). Speech del conjunto de datos TIMIT se
recupera de una bolsa de patatas por ambos métodos simultáneamente. Ambas señales recuperadas se denoised utilizando [50]. Las
señales recuperadas se evalúan utilizando segmentaria SNR (SSNR, en dB) [35], Log media razón de verosimilitud (LLR) [59] y la
inteligibilidad métrica se describe en [72] (dado en la gama de 0-1). Para cada comparación, el mejor resultado se muestra en negrita.

4.3.2 Recuperación del Habla

la recuperación del habla es una interesante aplicación del micrófono visual. Para poner a prueba nuestra capacidad de recuperar el habla

utilizamos ejemplos del habla estándar del conjunto de datos TIMIT [30], así como el discurso en vivo desde un altavoz humana recitando el poema

“María tenía un corderito”, en referencia a las primeras palabras pronunciadas por Thomas A . Edison en el fonógrafo en 1877. experimentos del

habla, además, se puede encontrar en la página web del proyecto.

En la mayoría de nuestros experimentos de recuperación del habla, nos filmada una bolsa de patatas en 2200 fps con una resolución espacial

de 700 × 700 píxeles. señales recuperadas se denoised con un algoritmo perceptualmente motivado mejora del habla [50], que se describe en la

sección 4.2.1.

La mejor manera de evaluar nuestra voz reconstruida es para escuchar el sonido que acompaña a fi les, disponible en nuestra página web del

proyecto. Además de proporcionar estos archivos de audio, también evaluamos nuestros resultados utilizando mediciones cuantitativas de la

comunidad de procesamiento de audio. Para medir la exactitud utilizamos segmentaria relación señal-ruido (SSNR) [35], que tiene un promedio SNR

local, a través del tiempo. Para medir la inteligibilidad usamos la métrica basada en la percepción de Taal et al. [72]. Para nuestros resultados en la

Tabla 4.1 también incluimos registro proporción de probabilidad (LLR) [59], que es una métrica que captura cómo de cerca la forma espectral de una

señal recuperada coincide con la de la señal limpia originales. Finalmente, nuestros resultados pueden ser evaluados visualmente mirando a los

espectrogramas de nuestra voz de entrada y se recuperan las señales, que se muestra en la Figura 4-6.

Hasta la frecuencia de Nyquist de nuestros videos, las señales recuperadas coinciden estrechamente con la entrada tanto para el habla

pre-grabada y en vivo. En un experimento, hemos capturado una bolsa de patatas fritas a 20.000 FPS y eran capaces de recuperar parte de las

frecuencias más altas de la voz (Figura 4-6, parte inferior derecha). La mayor velocidad de cuadro resultó en la reducción de tiempo de exposición y

por lo tanto más ruido de la imagen, que es la razón por la cifra resultante es más ruidosos que los resultados a 2200Hz. Sin embargo, incluso con

este ruido añadido, hemos sido capaces de comprender cualitativamente el discurso en el audio reconstruida.

También comparamos nuestros resultados con el audio recuperado por un vibrómetro de láser Doppler (Tabla 4.1). Nuestro

- 56 -
Capítulo 4. El MICROFONO VISUAL

discurso grabado Entrada (SA1) Recuperado Entrada (SA2) Recuperado

“Ella tenía su traje oscuro y agua de lavado de grasa durante todo el año.” “No me pidan que lleve un trapo aceitoso así.”
000 000 000 000
Frecuencia (Hz)

800 1 800 1 800 1 800 1

Mujer 600 600 600 600

(fadg0)
400 400 400 400

200 200 200 200

0 0 0 0
0.5 1 1.5 2 2.5 3 0.5 1 1.5 2 2.5 3 0.5 1 1.5 2 2.5 0.5 1 1.5 2 2.5

000 000 000 000

800 1 800 1 800 1 800 1


Frecuencia (Hz)

Male 600 600 600 600

(mccs0) 400 400 400 400

200 200 200 200

0 0 0 0
0.5 1 1.5 2 2.5 3 3.5 4 0.5 1 1.5 2 2.5 3 3.5 4 0.5 1 1.5 2 2.5 3 0.5 1 1.5 2 2.5 3

000 000 000 000

800 1 800 1 800 1 800 1


Frecuencia (Hz)

Male
600 600 600 600

(mabw0)
400 400 400 400

200 200 200 200

0 0 0 0
0.5 1 1.5 2 2.5 0.5 1 1.5 2 2.5 0.5 1 1.5 2 2.5 0.5 1 1.5 2 2.5

habla en directo De entrada (2200 Hz) Recuperado De entrada (20 kHz) Recuperado

“María tenía un corderito, que es de lana era blanca como la nieve y en todas partes que María fue, ese cordero era seguro ir.”
10000 10000

000 000 9000 9000

8000 8000

800 1 800 1
Frecuencia (Hz)

7000 7000
20 40
6000 6000
600 600
-20 0 5000 5000

4000 4000
400 400
-40 3000 3000

2000 2000
-60
200 200

1000 1000

0 0 0 0
1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8

dB -80 Tiempo (s) Tiempo (s) Tiempo (s) Tiempo (s)

Figura 4-6: Speech recuperó de una bolsa de patatas fritas. Grabados del habla (Top tres filas): Jugamos grabaciones de
tres oradores que dicen dos frases di ff Erent del conjunto de datos TIMIT [30] a través de un altavoz cerca de una bolsa de
patatas fritas. a continuación, recuperamos el audio de un 2, 200 Hz, 700 × 700 de vídeo de la bolsa de patatas fritas (véase
la tabla 4.2 (a)) para una trama representante) y mostrar los espectrogramas de tanto el audio de entrada y la señal
recuperada. Vivir del habla (fila inferior): En un experimento separado, un hablante masculino recita la canción infantil
“Maria tenía un pequeño cordero ...”, cerca de la misma bolsa de patatas fritas. Le mostramos los espectrogramas de audio
grabado por un micrófono convencional junto a los espectrogramas del audio recuperado de video de la bolsa de papas
utilizando nuestra técnica. Los resultados fueron recuperados de videos tomados a los 2, 200 Hz, 700 × 700 pixeles (parte
inferior izquierda), y 20 kHz, 192 × 192 pixeles (inferior derecha). Entrada y clips de audio recuperados se pueden encontrar
en la página web del proyecto.

- 57 -
Capítulo 4. El MICROFONO VISUAL

Logaritmo del coeficiente de transferencia


0.6

Frecuencia (Hz)
0.4

0.2

200 400 600 800 1000

Tiempo (s) Frecuencia (Hz)

(A) de entrada (B) Espectrograma (c) coeficientes de transferencia de registro

Altavoz fadg0 mccs0 mabw0


Acortar sa1 SA2 sa1 SA2 sa1 SA2

SSNR w / o la Ec. 33.2 29.7 29.8 30.4 19.6 30.7


SSNR con la Ec. 35,9 33,2 30,1 31,8 20,9 27.8

Table 4.2: We use a known ramp signal to estimate the transfer coefficients for a bag of chips. We then use
these transfer coefficients to equalize new unknown signals recovered from the same bag. a) One frame from a
video of the bag of chips. b) The recovered ramp signal we use to compute transfer coefficients. c) The log
transfer coefficients (set to 1 outside the range of frequencies in our ramp). The table shows SSNR for six
speech examples with and without the equalization. Spectral subtraction is applied again after equalization, as
boosting attenuated frequencies tends to boost noise in those frequencies as well. Note that the denoising
method SSNR values reported here are different from Table 4.1, as our equalization focuses on accuracy over
intelligibility (see text for details).

método recuperó audio que era comparable a la vibrómetro láser cuando muestreada a la misma velocidad que la de vídeo, tal como
se mide por la métrica inteligibilidad. Sin embargo, el LDV se requiere iluminación activa, y tuvimos que una FFI x un pedazo de cinta
retro-re fl caz en el objeto para el láser para hacer rebotar o FF el objeto y volver a la vibrómetro. Sin la cinta caz fl retro-re, la calidad
de la señal vibrómetro fue significativamente peor.

4.3.3 Funciones de Transferencia y ecualización

Podemos utilizar la señal de rampa desde la Sección 4.3.1 para caracterizar la (visual) de respuesta de frecuencia de un objeto con el fin de mejorar la

calidad de las señales recuperadas de nuevas observaciones de ese objeto. En teoría, si pensamos en el objeto como un sistema lineal, Wiener

deconvolución se puede utilizar para estimar la función de transferencia de valor complejo asociado con ese sistema, y ​que la función de transferencia a

continuación, podría ser utilizado para deconvoluir nuevas señales observadas en una forma óptima ( en el sentido cuadrático medio del error). En la

práctica, sin embargo, este enfoque puede ser muy susceptibles al ruido y los artefactos no lineales. En su lugar, se describe un método más simple que

la primera utiliza el poco tiempo transformada de Fourier de un ejemplo de entrenamiento (la rampa lineal) para calcular la frecuencia de transferencia de

coe fi cientes a escala gruesa, entonces iguala nuevas señales observadas utilizando estos coeficientes de transferencia de FFI del COE.

- 58 -
Capítulo 4. El MICROFONO VISUAL

Nuestros coeficientes FFI transferencia coe se derivan de la corto espectros de potencia de tiempo de un par de entrada / salida de señales

(como las que se muestran en la Figura 4-5). Cada coe fi ciente corresponde a una frecuencia en el corto tiempo de espectros de potencia de la

señal observada la formación, y se calcula como un promedio ponderado de la magnitud de esa frecuencia con el tiempo. El peso en cada

momento viene dado por el corto espectro de potencia temporal de la señal de entrenamiento de entrada alineados. Dado que nuestra señal de

entrada contiene sólo una frecuencia a la vez, este esquema de ponderación ignora artefactos no lineales tales la duplicación de frecuencia ve en la

figura 4.2 (b).

Una vez que tenemos nuestros coeficientes de transferencia de coe fi podemos utilizarlos para igualar las nuevas señales. Hay muchas maneras

posibles de hacer esto. Aplicamos las ganancias a frecuencias en el corto tiempo de espectros de potencia de la nueva señal, entonces la resíntesis de la

señal en el dominio del tiempo. La ganancia que aplicamos a cada frecuencia es proporcional a la inversa de su correspondiente transferencia coe fi ciente

elevado a algunos exponente k.

La Figura 4.2 muestra los resultados de aplicar un ecualizador derivado de una bolsa de chip para secuencias de voz recuperados del

mismo objeto. En ausencia de ruido, k sería establece en 1, pero el ruido de amplio espectro comprime el rango de los coe fi cientes de

transferencia estimados. El uso de un mayor k puede compensar esto. Sintonizábamos manualmente k en uno de los ejemplos del habla hembra,

luego se aplica el ecualizador resultante a todos los seis ejemplos de habla. Dado que esta igualación está diseñado para mejorar la fidelidad de

una señal recuperada en lugar de la inteligibilidad del habla, utilizamos sustracción espectral para la eliminación de ruido y SSNR para evaluar

nuestros resultados.

Tenga en cuenta que la calibración y la ecualización son opcionales. En particular, todos los resultados en este capítulo fuera de la Tabla 4.2

a suponer ningún conocimiento previo de la respuesta de frecuencia del objeto grabado.

4.4 Análisis

En esta sección, proporcionamos un análisis que ayuda a predecir cuándo y qué tan bien funciona nuestra técnica, y estimar la magnitud de los

movimientos que son capaces de recuperarse. A un alto nivel, nuestro método trata de inferir algún sonido de entrada S t) observando el movimiento

que provoca en un objeto cercano. Figura 4-3 se describen una serie de transformaciones que describen este proceso. Un sonido, S t), definida por

las fluctuaciones en la presión de aire con el tiempo, actúa sobre la superficie de un objeto. El objeto se mueve entonces en respuesta a este

sonido, la transformación de presión de aire en desplazamiento de la superficie. Llamamos a esta transformación la respuesta objeto, A. El patrón

resultante de desplazamiento de la superficie es entonces grabado con una cámara, y nuestro algoritmo, SEGUNDO, transforma el vídeo grabado

en un sonido recuperado. Intuitivamente, nuestra capacidad para recuperarse S t) dependerá de las transformaciones UNA y SEGUNDO. En esta

sección se caracterizan estas transformaciones para ayudar a predecir qué tan bien el micrófono visual trabajará en nuevas situaciones.

4.4.1 Respuesta de objeto (A)


Para cada objeto se registró movimiento en respuesta a dos señales en un entorno de laboratorio calibrado. El primero era un tono puro

300Hz que aumentó linealmente en el volumen de [0,1-1] Pascales (RMS) (~57 a 95 decibelios). Esta señal se utilizó para caracterizar la

relación entre el volumen y el movimiento de objetos. Para obtener una medida exacta del volumen calibramos nuestra configuración

experimental (el altavoz, sala, y la posición del objeto que está siendo probado) utilizando un medidor de decibelios. La figura 4-7 (b)

muestra el movimiento RMS de objetos Erent di ff como una función de la presión de aire RMS en pascales (a 300 Hz). A partir de esta

gráfica vemos que para la mayoría de los objetos que probamos, el movimiento parece ser lineal aproximadamente de la presión de

sonido. Para cada objeto que probamos una o más frecuencias y vimos que este

- 59 -
Capítulo 4. El MICROFONO VISUAL

crabchips greenteabox tejido foiltogo kit Kat afoil Rosa foamcup chobani tetera

Medido aumento de la tasa de

desplazamiento (m / Pa) 0.7


0.7 0

crabchips tejido 62.4 0.6

greenteabox 41.1
0.5
0.6 foiltogo kitkat afoil 32.9

Desplazamiento (RMS μ metro)

Desplazamiento (m dB RMS)
aumentaron 20.6 0.4

foamcup tetera 21.6


0.5 chobani 24.6 0.3
Desplazamiento (RMS μ metro)

10.6
0.2
8.6

0.4 1.2 0.1

1.1
0
200 400 600 800 1000 1200 1400 1600 1800 2000
1 2 3 4 5 6 7 8 9 10
(80dB) Volumen (RMS μ Pensilvania) (93dB) x 10 5 Frecuencia (Hz)
0.3
(A) coeficientes de desplazamiento en 300Hz (B) Propuesta vs. volumen de sonido (c) las respuestas de frecuencia

Figura 4-7: Movimiento objeto como función del volumen del sonido y la frecuencia, tal como se mide con un vibrómetro de láser
0.2

Doppler. Top: los objetos que medir, ordenados de acuerdo con su desplazamiento pico a 95 dB, de izquierda (movimiento más
0.1
grande) a derecha (de movimiento más pequeño). (B) El desplazamiento RMS (micrómetros) vs RMS de presión de sonido (Pascales)
para
0 los objetos que es golpeado por una onda sinusoidal de 300 Hz calibrado linealmente creciente en volumen de 57 decibelios a 95
1 2 3 4 5 6 7 8 9 10
decibelios. Desplazamientos están aproximadamente lineal en Pascales, y están todos en el orden de un micrómetro (una milésima
Volumen (RMS μ Pensilvania) x 10 5
parte de un milímetro). (C) Las respuestas en frecuencia de estos objetos (potencia dB vs frecuencia), en base a su respuesta a una
rampa de frecuencias que van desde 20 Hz a 2200Hz. Las frecuencias más altas tienden a tener respuestas más débiles que las
frecuencias más bajas. respuestas de frecuencia se representan en una escala dB,

relación se mantuvo lineal, lo que sugiere que es posible modelar la respuesta objetivo UNA como un sistema invariante en el tiempo lineal (LTI).

Nuestra segunda señal de prueba era una señal de rampa similar a la utilizada en la Sección 4.3.1, con frecuencias en el rango de 20Hz a

2200Hz. Modelado UNA como un sistema LTI, hemos utilizado esta señal de rampa para recuperar la respuesta de impulso de ese sistema. Esto se

hizo mediante la desconvolución nuestra señal de rampa observado (esta vez grabado por un LDV) por nuestra entrada conocida mediante

deconvolución Wiener. Figura 4-7 (c) muestra respuestas de frecuencia derivadas de nuestras respuestas de impulso recuperados 2. De este gráfico

vemos que la mayoría de los objetos tienen una respuesta más fuerte a frecuencias más bajas que las frecuencias más altas (como se esperaba), pero

que esta tendencia no es monótona. Esto concuerda con lo que hemos observado en la Sección 4.3.1.

Ahora podemos expresar la transformación UNA en el dominio de la frecuencia como la multiplicación de nuestro espectro de sonido, S (ω), por la

función de transferencia UNA( ω), que nos da el espectro de nuestro movimiento, re mm ( ω):

re mm ( ω) ≈ UNA( ω) S (ω) (4,1)

La magnitud del coe fi ciente UNA( ω) para un objeto corresponde a la pendiente de su respectivo volumen frente a la curva de

desplazamiento (como las mostradas en la figura 4-7 (b)) en la frecuencia ω.

4.4.2 Procesamiento de (B)

La relación entre el movimiento de objetos re mm y el desplazamiento de píxeles, re pag, es una sencilla dada por la proyección y el muestreo de

una cámara. parámetros de la cámara como la distancia, el zoom, la visualización

2 Las respuestas de frecuencia que se muestran aquí se han suavizado para eliminar el ruido e inteligible mostrar los diez en un gráfico. Las

respuestas también pueden ser un ff ejada por las respuestas de la habitación y el altavoz.

- 60 -
Capítulo 4. El MICROFONO VISUAL

ángulo, etc., un ff ect entrada de nuestro algoritmo (el video) cambiando el número de píxeles que ve un objeto, norte pag, la Magni fi cación de

movimiento de píxel (en mm / píxel), metro, y el ruido de las imágenes capturadas,

σ NORTE. La relación entre el movimiento de los objetos y el movimiento de píxel puede ser expresado como:

re pag( ω) = D mm ( ω) × metro × cos ( θ) (4,2)

dónde θ es el ángulo de visión de nuestra cámara con respecto al movimiento de la superficie del objeto y metro es la Magni fi cación de nuestra superficie
en mm
píxel.

A través de simulaciones también se estudió el e ff ect del número de píxeles imágenes de un objeto ( norte pag),

la amplitud (en píxeles) de movimiento ( re pag( ω)), y el ruido de imagen (dada por desviación estándar σ norte),
en la SNR de nuestros sonidos recuperados. Los resultados de estas simulaciones (disponibles en nuestra página web) confirmaron la

siguiente relación:

σ S ( ω) σ NORTE( ω) α~ | re pag( ω) | √ norte pag


, (4,3)
σ norte

que muestra cómo la relación señal a ruido aumenta con la amplitud de movimiento y el número de píxeles, y disminuye con el ruido de

imagen.

Para confirmar esta relación entre SNR y la amplitud de movimiento con datos reales y para poner a prueba los límites de nuestra

técnica sobre objetos di ff Erent, se realizó otro experimento calibrada como el que se discute en la Sección 4.4.1, esta vez utilizando el

micrófono visual en lugar de un vibrómetro láser . En este experimento, se colocó la cámara alrededor de 2 metros de distancia desde el

objeto que se está grabando y objetos fueron imágenes en 400 × 480 píxeles con una fi cación Magni de 17,8 píxeles por milímetro. Con esta

configuración, se evaluó SNR (dB) en función del volumen de decibelios (estándar). Para su fi cientemente grandes amplitudes de

desplazamiento de píxeles, nuestra señal recuperada se convierte en aproximadamente lineal en el volumen (Fig. 4-8 (a)), confirmando la

relación dada en la ecuación 4.3.

Para dar una idea del tamaño de movimientos en nuestros videos, también estima el movimiento, en píxeles, para cada uno de los

de los vídeos correspondientes usando fl óptico basado en fase ow [33]. Encontramos estos movimientos para estar en el orden de

100mo-1000o de un píxel (Fig. 4-8 (b)).

4.5 Recuperación de sonido con cámaras de vídeo normal usando


enrollable

Una de las limitaciones de la técnica presentada hasta el momento es la necesidad de vídeo de alta velocidad. Exploramos la posibilidad de recuperar el

audio de fi vídeo filmado a velocidades de cuadro regulares mediante el aprovechamiento de la

persiana common in the CMOS sensors of most cell phones and DSLR cameras [52]. With rolling shutter, sensor pixels are exposed
and read out row-by-row sequentially at different times from top to bottom. Compared to uniform global shutters, this design is cheaper
to implement and has lower power consumption, but often produces undesirable skewing artifacts in recorded images, especially for
photographs of moving objects. Previously, researchers have tried to mitigate the effect of rolling shutter on computer vision problems
such as structure-from-motion [51] and video stabilization [34]. Ait-Aider et al. [1] used rolling shutter to estimate the pose and velocity of
rigid objects from a single image. We take advantage of rolling shutter to effectively increase the sampling rate of a camera and recover
sound frequencies above the camera’s frame rate.

– 61 –
Capítulo 4. El MICROFONO VISUAL

crabchips foamcup foiltogo


40

foiltogo
30 crabchips Objeto Frec. (Hz) RMS (px)
foamcup crabchips 100 0,029
20
foiltogo 100 0,010
foamcup 100 0,007
10
SNR dB

crabchips 300 0,006


0 foiltogo 300 0,012
foamcup 300 0,005
-10 crabchips 500 0,005
foiltogo 500 0,007
-20
foamcup 500 0,002

-30
75 80 85 90 95
Decibelios (RMS)

(A) SNR vs volumen (B) de movimiento en píxeles

Figura 4-8: La relación señal-ruido de sonido se recuperó de vídeo como una función del volumen (a), y el movimiento
absoluto en píxeles (B), por varios objetos cuando se reproduce una onda sinusoidal de la variación de frecuencia y el
volumen a ellos.

Debido a que cada fila de un sensor con sensor de rodadura es capturado a veces di ff Erent, podemos recuperar una señal de audio para

cada fila, en lugar de cada trama, el aumento de la tasa de muestreo de la velocidad de cuadro de la cámara a la velocidad a la que se registran

filas ( Fig. 4-9). Podemos determinar plenamente el mapeo de las filas de detectores a la señal de audio si se conoce el tiempo de exposición de

la cámara, MI, la línea de retardo,

re, que es el tiempo entre capturas de fila, el periodo de trama T, el tiempo entre la captura de marco, y el retardo de trama, D ( Fig. 4-9). Los

parámetros de obturación de rodadura se pueden tomar de las especificaciones de la cámara y los sensores, o calculado (para cualquier cámara)

a través de un simple proceso de calibración [51], que también se describe en nuestra página web del proyecto. Suponemos, además, un modelo

directo en el que un objeto, cuya imagen está dada por B (x, y), se mueve con movimiento horizontal fronto-paralelo coherente descrito por S t),

y que el movimiento de re fl eja el audio queremos recuperar, como antes. Si asumimos que el tiempo de exposición mi ≈ 0, entonces la norte ésima

trama yo norte tomada por la cámara puede ser caracterizado por la ecuación

yo norte( x, y) = b (x - aS (nT + yd), y). (4,4)

Utilizamos esta ecuación para producir una simulación de la persiana enrollable.

Si suponemos que la y ª fila de segundo tiene su fi ciente textura horizontal, podemos recuperar s (nT + yd)

usando análisis de movimiento euleriano 1D. Si la demora de fotogramas, el tiempo entre la toma de la última fila de una trama y la
primera fila de la siguiente trama, no es cero, entonces hay veces cuando la cámara no está grabando nada. Esto se traduce en que
faltan las muestras o “huecos” en la señal de audio. En la Fig. 4-9 (b), se muestra cómo una onda triangular se recupera de una cámara
móvil de obturación. Cada marco contribuye once muestras, una para cada fila. Hay cinco muestras faltantes, indicados en gris claro,
entre cada fotograma correspondiente a la demora de fotogramas no despreciable. Para hacer frente a la falta

- 62 -
Capítulo 4. El MICROFONO VISUAL

filas de detectores

Período marco ( T) Tiempo de exposición ( MI)

Frame Delay ( RE) Retardo de línea ( re)

Hora
(A) Persiana en un video
Audio (movimientos)

Hora

(B) de conversión a la señal de audio


Figura 4-9: Movimientos de una cámara móvil de obturación se convierten en una señal de audio. Cada fila del video es capturado en un
momento Erent di ff. La línea de retardo re es el tiempo entre la captura de filas consecutivas. El tiempo de exposición mi es la cantidad de
tiempo que el obturador está abierto para cada fila, el periodo de la trama es el tiempo entre el inicio de la captura de cada fotograma y el
retraso de las tramas es el tiempo entre el momento en la última fila de un marco y la primera fila de la siguiente trama son capturado. El
movimiento de cada fila corresponde a una muestra en la señal de audio recuperada (b). Las muestras que se producen durante el período de
demora de fotogramas se han perdido y se indican en gris claro.

muestras en nuestra señal de audio, que utilizan una técnica de interpolación de audio por Janssen et al. [43].

En la práctica, el tiempo de exposición no es cero y cada fila es el promedio de tiempo de su posición durante la exposición. Para
señales de audio sinusoidal de frecuencia ω> 1
E, la fila grabado aproximadamente voluntad
estar a la izquierda de su posición de reposo por medio de la exposición y hacia la derecha para la otra mitad. Por lo tanto, no será bien

caracteriza por una sola traducción, lo que sugiere que mi es un límite a la frecuencia máxima que podemos esperar para capturar con una

puerta enrollable. La mayoría de las cámaras tienen tiempos de exposición mínimos del orden de 0,1 milisegundos (10 kHz).

Mostramos un resultado ejemplo de sonido recuperó utilizando un video DSLR-frecuencia de imagen normal en la Figura 4-

10. Tomamos un video de una bolsa de dulces (Fig. 4-10 (a)), cerca de un altavoz tocando el habla, y tomó un video desde un punto de
vista ortogonal al eje del altavoz a objetos, de modo que los movimientos de la bolsa debido al altavoz sería horizontal y fronto-paralelo
en el plano de la imagen de la cámara. Se utilizó una Pentax K-01 con una lente de 31 mm. La cámara graba a 60 fps con una
resolución de 1280 × 720 con un tiempo de exposición de
1 2000 segundos. Mediante la medición de la pendiente de una recta, se determinó que

tener una línea de retardo de 16 μ s y un retardo de trama de 5 milisegundos, de manera que el ff reflexivo velocidad de muestreo e

- 63 -
Capítulo 4. El MICROFONO VISUAL

1000

Frecuencia (Hz)
50
500
30 40

10 20

-10 0

0 -20
1 2

Tiempo (seg) dB
(A) Capítulo del vídeo DSLR (B) de sonido de entrada ( El Cuervo)

1000 1000
Frecuencia (Hz)

Frecuencia (Hz)
50 50
500 500
30 40 30 40

10 20 10 20

-10 0 -10 0

0 -20 0 -20
1 2 1 2

Tiempo (seg) Tiempo (seg)

(C) Resultados (cámara simulada: E = 0) (D) El resultado de DSLR


Figura 4-10: Sonido recuperado de un vídeo normal-velocidad de fotogramas, disparó con una cámara estándar DSLR
con persiana. Un marco del vídeo DSLR se muestra en (a). recitación de James Earl Jones, de “El Cuervo” de Edgar
Allan Poe [56] (espectrograma muestra en (b)) se juega a través de un altavoz, mientras que una cámara réflex digital
ordinaria fi lms un Kit Kat bolsa de cerca. El espectrograma de la señal que manejamos para recuperarse de la DSLR se
muestra en (d). En (c) se muestra el resultado de nuestra simulación de persiana enrollable que utiliza parámetros
similares a las réflex digitales, a excepción de tiempo de exposición ( MI) que se puso a cero.

es 61920 hz con 30% de las muestras que faltan. El tiempo de exposición tapas de la frecuencia máxima recuperable en alrededor de 2000 Hz.

Además de interpolación de audio para recuperar muestras faltantes, también DeNoise la señal con un algoritmo de mejora del habla y un filtro

de paso bajo para eliminar fuera de la gama de frecuencias no podemos recuperar debido al tiempo de exposición. También se realizó un

experimento simulado con idénticos parámetros de la cámara, a excepción de un instante (cero) el tiempo de exposición. Los clips de audio

recuperados están disponibles en línea.

4.6 Discusión y Limitaciones

Información ininteligible sonido Muchos de nuestros ejemplos se centran en la inteligibilidad de los sonidos recuperados. Sin
embargo, hay situaciones en las que el sonido ininteligible todavía puede ser de carácter informativo. Por ejemplo, identificar el número y el

género de los altavoces en una habitación puede ser útil en algunos escenarios de vigilancia, incluso si habla inteligible no se pueden

recuperar. Figura 4-11 muestra los resultados de un experimento en el que fueron capaces de detectar el género de altavoces de habla

ininteligible utilizando un estimador de tono estándar [25]. En nuestra página web del proyecto se muestra otro ejemplo en el que

- 64 -
Capítulo 4. El MICROFONO VISUAL

400

350 Mujer (Seq 1) 300

300 echada verdadera (Female)


Frecuencia (Hz) 280
250
Paso verdadera (Male) Paso
200 260
Recuperado
150
240
100

50
220

pitch estimado (Hz)


0
1 2
200
Tiempo (seg)

180
400

350 Male (Seq 3) 160


300
Frecuencia (Hz)

140
250

200
120
150

100 100

50
80
0 1 2 3 4 5 6
1 2 3 4

Tiempo (seg) Secuencia de números

(A) trayectoria Pitch (B) pitch estimado

Figura 4-11: Nuestro método puede ser útil incluso cuando recuperó el habla es ininteligible. En este ejemplo, se utilizó cinco muestras de
voz TIMIT, recuperados de una caja de pañuelos y un recipiente de papel de aluminio. El discurso recuperado es dif cil de entender FFI, pero
utilizando un estimador de tono estándar [25] somos capaces de recuperar el tono de la voz del hablante (b). En (a) se muestra la trayectoria de
tono estimado para dos muestras de voz recuperada (hembra anteriormente, masculino abajo). segmentos azules indican alta confianza en la
estimación (ver [25] para más detalles).

recuperar la música lo suficientemente bien para algunos oyentes para reconocer la canción, aunque las letras en sí son ininteligibles en el

sonido recuperado.

La visualización de los modos de vibración Debido a que estamos recuperando el sonido de un vídeo, se obtiene una medición espacial de la
señal de audio en muchos puntos de la filmada objeto en lugar de un solo punto como un micrófono láser. Podemos usar esta medición espacial para

recuperar los modos de vibración de un objeto. Esto puede ser una herramienta poderosa para el análisis estructural, donde las deformaciones generales

de un objeto se expresan a menudo como superposiciones de modos de vibración del objeto. Al igual que con la recuperación de sonido de vibraciones

de la superficie, la mayoría de las técnicas existentes para la recuperación de formas de los modos están activos. Stanbridge y Ewins [69], por ejemplo,

escanear un vibrómetro de láser en un patrón de trama a través de una superficie. Como alternativa, la interferometría holográfica trabaja por primera

grabación de un holograma de un objeto en reposo, a continuación, la proyección de este holograma de nuevo en el objeto de manera que las

deformaciones de superficie resultan en patrones de interferencia predecibles [58, 44]. Al igual que nosotros, Chen et al. [15] proponen la recuperación de

formas de los modos de un vídeo de alta velocidad, sino que solo se ve en el caso específico de una viga que vibra en respuesta a ser golpeado por un

martillo.

Modos de vibración se caracterizan por el movimiento, donde todas las partes de una vibrar objeto con la misma frecuencia temporal, la

frecuencia modal, con una relación de fase fijada entre di ff partes Erent del objeto. Podemos hallar las frecuencias modales mediante la

búsqueda de picos en el espectro de nuestras señales de movimiento locales. En uno de estos picos, tendremos una ciente fi Coe Fourier

para cada ubicación espacial en la imagen. Estos coe Fourier FFI dan la forma del modo de vibración con la amplitud correspondiente a la

cantidad de movimiento y de fase correspondiente a FI relación de fase fijo entre los puntos. En la figura 4-12, mapeamos amplitud a la

intensidad y la fase de tono para dos modos de vibración de una cabeza de tambor. Estos modos de vibración recuperados (Fig. 4-12 (b)) se

corresponden estrechamente a las formas modales derivados teóricamente-(Fig. 4-12 (c)).

- sesenta
cinco - y
Capítulo 4. El MICROFONO VISUAL

limitaciones Aparte de la velocidad de muestreo, nuestra técnica está limitada por la Magni fi cación de la lente. La SNR de audio
recuperada por nuestra técnica es proporcional a la amplitud de movimiento en píxeles y el número de píxeles que cubren el objeto (Ec. 4.3),

las cuales aumentan a medida que los Magni aumenta fi cación y disminuyen con la distancia al objeto. Como resultado, para recuperar el

sonido inteligible a partir de objetos lejanos, es posible que tengamos un potente objetivo zoom. El experimento en la Figura 4-2 utiliza una

lente de 400 mm para recuperar sonido desde una distancia de 3-4 metros. La recuperación de distancias mucho más grandes pueden

requerir la óptica caros con grandes longitudes focales.

4.7 Conclusión
Hemos demostrado que las vibraciones de muchos objetos de uso cotidiano en respuesta al sonido pueden ser extraídas de vídeos de alta

velocidad y se utilizan para recuperar el audio, convertir esos objetos en los micrófonos “visuales”. Integramos señales de movimiento locales,

minuto a través de la superficie de un objeto para calcular una única señal de movimiento que capta las vibraciones del objeto en respuesta al

sonido en el tiempo. A continuación, eliminación de ruido de esta señal de movimiento utilizando la mejora del habla y otras técnicas para producir

una señal de audio recuperada. A través de nuestros experimentos, hemos encontrado que los objetos ligeros y rígidos hacen especialmente

buenos micrófonos visuales. Creemos que el uso de cámaras de vídeo para recuperar y analizar vibraciones relacionadas sonido en objetos Erent

di ff abrirá nuevas e interesantes investigaciones y aplicaciones. Nuestros videos, resultados y material complementario están disponibles en la

página web del proyecto: http://people.csail.mit.edu/ mrub / VisualMic /.

- 66 -
Capítulo 4. El MICROFONO VISUAL

(A) marco Ejemplo de entrada

(B) Nuestros recuperados formas de los modos

(C) En teoría derivados de formas de los modos

Figura 4-12: Recuperado formas de los modos (b) a partir de un vídeo de una membrana de látex circular excitado por un chirp la
reproducción desde una fuente de audio cercana (a). Nuestros formas de los modos de recuperación (b) son similares a las formas de
los modos teóricamente derivados de (c). Para los modos que se muestran en (b), la fase de movimiento superficie través de la
membrana se correlaciona con el tono, mientras que la amplitud de las vibraciones a través de la superficie se asigna a la saturación y
el brillo.

- 67 -
Capítulo 4. El MICROFONO VISUAL

- 68 -

También podría gustarte