Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Páginas-49-68 Español - Cap4 PDF
Páginas-49-68 Español - Cap4 PDF
El micrófono Visual
Cuando el sonido choca contra un objeto, hace que las pequeñas vibraciones de la superficie del objeto. En este capítulo se muestra cómo
estas vibraciones se pueden extraer de vídeo de alta velocidad y se utilizan para recuperar los sonidos que producían entonces - dejarnos
Nuestro enfoque es simple, pero e ff caz. Para recuperar el sonido de un objeto, que filmar el objeto con una cámara de vídeo de alta
velocidad y extraer señales de movimiento local del vídeo grabado. A continuación, se alinean y promediamos estas señales locales en una
única señal, 1D que captura el movimiento global del objeto con el tiempo. Esta señal global está a continuación, se filtra y sin ruido para
La mayor parte de este capítulo se centra en la experimentación y el análisis, a través del cual se valida nuestro enfoque para la extracción
de las vibraciones de vídeo. Recuperamos sonidos a partir de imágenes de alta velocidad de una variedad de objetos con propiedades di ff Erent,
y utilizamos tanto los datos reales y simulados para examinar los factores que ff ect la exactitud de lo recuperamos. Se evalúa la calidad de los
sonidos recuperados utilizando la inteligibilidad y la métrica de SNR, y aportar información y se recuperaron muestras de audio para una
comparación directa. Por último, en la Sección 4.5 se explora cómo aprovechar la persiana en las cámaras de consumo regulares para recuperar
micrófonos tradicionales funcionan mediante la conversión del movimiento de un diafragma interno en una señal eléctrica. El diafragma está
diseñado para moverse fácilmente con la presión de sonido de modo que su movimiento se puede grabar y interpretarse como audio.
La mayor parte de este capítulo fue publicado originalmente en nuestro documento [24] en colaboración con Michael Rubinstein,
Neal Wadhwa, Gautham Mysore, Fr'edo Durand, y William T. Freeman. (URL)
49
Capítulo 4. El MICROFONO VISUAL
500
300
Frecuencia
Amplitud
0
200
-0,5
100
400
0.5 1
300
Frecuencia
Amplitud
0
200
-0,5
100
-1
Vibrante objeto ( Micrófono
0
El sonido recuperado de una bolsa de patatas 0 5 10 15 2 4 6 8 10 12 14
300
Frecuencia
Amplitud
0
200
-0,5
100
-1 0
El sonido recuperado de una planta 0 2 4 6 8 10 12 14 dieciséis 2 4 6 8 10 12 14
Cámara de alta velocidad Tiempo (seg) Tiempo (seg)
Figura 4-1: Recuperación de sonido de video. Izquierda: cuando el sonido choca contra un objeto (en este
caso, una bolsa vacía de papas fritas) que causa extremadamente pequeñas vibraciones de la superficie de
ese objeto. Somos capaces de extraer estas pequeñas vibraciones de vídeo de alta velocidad y reconstruir el
sonido que los ha producido - con el objeto como un micrófono visual desde la distancia. Derecha: una
grabación instrumental de “Mary Had a Little Lamb” (fila superior) se juega a través de un altavoz, y luego se
recuperó de video de objetos Erent di ff: una bolsa de patatas (fila central), y las hojas de una planta en maceta
(fila inferior ). Para la fuente y cada sonido recuperado mostramos la forma de onda y espectrograma (la
magnitud de la señal a través de di frecuencias ff Erent con el tiempo, se muestra en la escala lineal con
colores más oscuros representan mayor energía).
medir el movimiento de un objeto distante, esencialmente mediante el objeto tal como un diafragma externo. micrófono láser puede recuperar audio
de alta calidad desde grandes distancias, sino que requieren un posicionamiento preciso de un láser y el receptor, y requieren que las superficies
Zalevsky et al. [80] frente a algunas de estas limitaciones mediante el uso de una cámara de alta velocidad fuera de foco para registrar
los cambios en el patrón moteado de volver a la luz láser reflejada. Su trabajo permite una mayor flexibilidad en el posicionamiento de un
receptor, pero aún depende de la grabación de la luz reflejada por láser. Por el contrario, nuestra técnica no depende de iluminación activa.
Figura 4-3 proporciona una descripción de alto nivel de cómo funciona el micrófono visual. Un sonido de entrada (la señal queremos recuperar) se
compone de las fluctuaciones en la presión del aire en la superficie de un objeto. Estas fluctuaciones causan que el objeto se mueva, lo que resulta
en un patrón de desplazamiento con el tiempo que filmar con una cámara. A continuación, procesar el vídeo grabado con nuestro algoritmo para
La entrada a nuestro método es un video, V (x, y, t), de un objeto. En esta sección consideramos de vídeo de alta velocidad (1 kHz-20 kHz).
velocidades de cuadro más bajos se discuten en la Sección 4.5. Suponemos que el movimiento relativo de nuestro objeto y la cámara está
Nuestro método consiste en calcular las primeras señales de movimiento global S t) hemos discutido en la sección 3.2 del
Capítulo 3, y luego se aplican técnicas de eliminación de ruido y fi ltrado de audio para obtener nuestro sonido recuperado.
- 50 -
Capítulo 4. El MICROFONO VISUAL
2000 2000
1500 1500
Frecuencia (Hz)
Frecuencia (Hz)
40
1000 1000
0 20 40 0 20
0 0 -100 -100
2 4 6 8 10 2 4 6 8 10
Tiempo (seg) Tiempo (seg)
dB
- 51 -
Capítulo 4. El MICROFONO VISUAL
0.8 1
RMS Desplazamiento
movimiento de Señal recuperada 0.6
0.4
Amplitud
0
(píxeles)
-0,2
-0,6
-0,8
-1
0 0.5 1 1.5 2 2.5
Tiempo (s)
Entrada Salida
Frecuencia
Figura 4-3: Se modela el micrófono visual como un sistema que opera en el sonido. Componente UNA ( Sección
4.4.1) modelos de respuesta de un objeto al sonido, y es puramente físico toma como cambios de entrada en la
presión de aire, medida en Pascales, y la producción de desplazamiento físico del objeto con el tiempo, medido en
milímetros. La respuesta del objeto con el sonido depende de varios factores tales como el nivel de sonido en el
objeto, y el material y la forma del objeto. Una cámara registra entonces el objeto, la transformación de los
desplazamientos físicos en los movimientos de píxeles en un video. Componente
B ( Sección 5.3, Sección 4.4.2) es nuestra línea de procesamiento espacio-temporal, que transforma los movimientos en
el video de nuevo en sonido. La señal resultante es 1D unidad-menos, pero se correlaciona con los Pascals de entrada y
por lo tanto puede ser jugado y se analizó como sonido.
Procesamos más la señal de movimiento global recuperado para mejorar su SNR. En muchos videos, nos dimos cuenta el ruido de alta energía en las
frecuencias más bajas que por lo general no se correspondía con el audio. Nos dirigimos a esto mediante la aplicación de un paso alto Butterworth
filtro con un ff cuto de 20-100Hz (para la mayoría de los ejemplos, 1/20 de la frecuencia de Nyquist) 1.
Nuestra elección del algoritmo de eliminación de ruido adicional depende de nuestra aplicación de destino - específicamente, si estamos
interesados en la precisión o inteligibilidad. Para aplicaciones de precisión de la focalización usamos nuestra propia implementación de una técnica
conocida como sustracción espectral [6]. Para la inteligibilidad utilizamos un algoritmo de mejora del habla perceptualmente motivado [50] que
funciona mediante el cálculo de una estimación óptima Bayesiano de la señal sin ruido con una función de coste que tenga en cuenta la percepción
humana de expresión. Todos los resultados que presentamos en este capítulo fueron sin ruido automáticamente con uno de estos dos algoritmos.
Nuestros resultados pueden mejorarse aún más mediante el uso de algoritmos más sofisticados de eliminación de ruido de audio disponibles en el
software de procesamiento de audio profesional (algunos de los cuales requieren la interacción manual).
Di ff frecuencias Erent de nuestra señal recuperada podrían ser modulados di ff erently por el objeto grabado. En la sección 4.3.3,
mostramos cómo utilizar una señal de prueba conocido para caracterizar cómo un objeto atenúa las frecuencias Erent di ff, a continuación,
utilizar esta información para ecualizar señales desconocidas recuperados del mismo objeto (o una similar) en nuevos videos.
1 En casos muy ruidosos que en lugar de aplicar este filtro de paso alto a las señales intermedias un (r, θ, t)
- 52 -
Capítulo 4. El MICROFONO VISUAL
4.3 experimentos
We performed a variety of experiments to test our technique. All the videos in this section were recorded indoors with a Phantom V10
high speed camera. The setup for these experiments consisted of an object, a loudspeaker, and the camera, arranged as shown in
Figure 4-4. The loudspeaker was always placed on its own stand separate from the surface holding the object in order to avoid contact
vibrations. The objects were lit with photography lamps and filmed at distances ranging from 0.5 meter to 2 meters. In other experiments
we recover sound from greater distances without the aid of photography lamps (e.g. Figure 4-2). Video frame rates are in the range of
2kHz-20kHz, with resolutions ranging from 192x192 pixels to 700x700 pixels. Sounds were played at loud volumes ranging from 80 dB
(an actor’s stage voice) to 110 dB (comparable to a jet engine at 100 meter). Lower volumes are explored in Section 4.4, Figure 4-2,
and additional experiments on our web page. Videos were processed using complex steerable pyramids with 4 scales and 2
orientations, which we computed using the publicly available code of Portilla and Simoncelli [57]. Processing each video typically took 2
to 3 hours using MATLAB on a machine with two 3.46GHz processors and 32GB of RAM.
Nuestra primera conjunto de experimentos probó la gama de frecuencias que podrían ser recuperados a partir de objetos Erent di
ff. Hicimos esto por jugar una rampa lineal de frecuencias a través del altavoz, y luego ver qué frecuencias podría ser recuperado por
nuestra técnica. El segundo grupo de experimentos se centró en recuperar el habla humana de vídeo. Para estos experimentos se
utilizó varios ejemplos del habla estándar del conjunto de datos TIMIT [30] jugados a través de un altavoz, así como voz en vivo de un
sujeto humano (aquí el altavoz en la figura 4-4 se reemplazó con un ser humano que habla). Audio en estos experimentos y otros se
puede encontrar en la página web del proyecto. Nuestros resultados son mejor experiencia al escuchar el sonido que acompaña a fi les
través de los auriculares.
En este primer conjunto de experimentos que jugar una señal de rampa, que consiste en una onda sinusoidal que aumenta linealmente en
frecuencia con el tiempo, en una variedad de objetos. Figura 4-5 (a) muestra el espectrograma de nuestro sonido de entrada, lo que aumenta desde
100 Hz a 1000 Hz durante 5 segundos. La figura 4-5 (b) muestra los espectrogramas de las señales recuperadas de vídeos 2.2kHz de una variedad
de objetos con di ff propiedades del material Erent. El ladrillo en la parte superior de la figura 4-5 (b) se utiliza como un experimento de control en la
que esperamos para recuperar poco señal porque el objeto es rígido y pesado. La señal de baja frecuencia recuperado del ladrillo (ver el
espectrograma hecha visible para Ladrillo en la figura 4-5 (b)) puede provenir de movimiento del ladrillo o de la cámara, pero el hecho de que esta
señal es muy débil sugiere que el movimiento de la cámara y otros factores no deseados en la configuración experimental tienen como máximo un
impacto menor en nuestros resultados . En particular, mientras que casi no hay señal se recupera del ladrillo, mucho mejor señal se recuperó de los
En casi todos nuestros resultados la señal recuperada es más débil en las frecuencias más altas. Esto se esperaba, ya que las frecuencias más
altas producen desplazamientos más pequeños y se atenúan más fuertemente por la mayoría de los materiales. Se demuestra esto más explícitamente
4.4. Sin embargo, la disminución de la potencia con frecuencias más altas no es monótona, posiblemente debido a la excitación de modos de
vibración. No es sorprendente que los objetos más ligeros que son más fáciles de mover tienden a apoyar la recuperación de frecuencias más altas
- 53 -
Capítulo 4. El MICROFONO VISUAL
(una)
(do)
(segundo)
Figura 4-4: Un ejemplo de nuestra configuración experimental controlada. El sonido de una fuente de audio, como un
altavoz (a) excita un objeto ordinario (b). Una cámara de alta velocidad (c) registra el objeto. a continuación, se
recupera el sonido del vídeo grabado. Con el fin de minimizar las vibraciones no deseadas, los objetos se colocaron
en una placa óptica de pesada, y para los experimentos que implican un altavoz que colocan el altavoz en una
superficie separada de la que contiene los objetos, en la parte superior de un aislador acústico.
- 54 -
Capítulo 4. El MICROFONO VISUAL
000
800 1
Frecuencia
600
400
200
0
Ladrillo 1 2 3 4
000
800 1
Frecuencia
600
400
200
0
cartón 1 2 3 4
000
800 1
Frecuencia
600
400
000 200
800 1 0
agua de 1 2 3 4
Frecuencia
600
000
400
800 1
200
Frecuencia
600
0
1 2 3 4
400
0
bolsa de KitKat 1 2 3 4
000
800 1
Frecuencia
600
400
200
0
envase del papel 1 2 3 4
Figura 4-5: de sonido reconstruida a partir de objetos Erent di ff y materiales. Una rampa lineal que varía de 100 - 1000 Hz
fue jugado a través de un altavoz (a), y reconstruye a partir de objetos Erent di FF y materiales (B). En Agua, la cámara
estaba apuntando a un lado de una taza de agua que contiene clara, donde la superficie del agua estaba justo por encima
de un logotipo impreso en el lado de la taza. El movimiento de la superficie del agua resultó en el cambio de la refracción y
reflexiones especulares en movimiento re. Más detalles se pueden encontrar en nuestra página web del proyecto.
- 55 -
Capítulo 4. El MICROFONO VISUAL
Tabla 4.1: Una comparación de nuestro método (VM) con un vibrómetro de láser Doppler (LDV). Speech del conjunto de datos TIMIT se
recupera de una bolsa de patatas por ambos métodos simultáneamente. Ambas señales recuperadas se denoised utilizando [50]. Las
señales recuperadas se evalúan utilizando segmentaria SNR (SSNR, en dB) [35], Log media razón de verosimilitud (LLR) [59] y la
inteligibilidad métrica se describe en [72] (dado en la gama de 0-1). Para cada comparación, el mejor resultado se muestra en negrita.
la recuperación del habla es una interesante aplicación del micrófono visual. Para poner a prueba nuestra capacidad de recuperar el habla
utilizamos ejemplos del habla estándar del conjunto de datos TIMIT [30], así como el discurso en vivo desde un altavoz humana recitando el poema
“María tenía un corderito”, en referencia a las primeras palabras pronunciadas por Thomas A . Edison en el fonógrafo en 1877. experimentos del
En la mayoría de nuestros experimentos de recuperación del habla, nos filmada una bolsa de patatas en 2200 fps con una resolución espacial
de 700 × 700 píxeles. señales recuperadas se denoised con un algoritmo perceptualmente motivado mejora del habla [50], que se describe en la
sección 4.2.1.
La mejor manera de evaluar nuestra voz reconstruida es para escuchar el sonido que acompaña a fi les, disponible en nuestra página web del
proyecto. Además de proporcionar estos archivos de audio, también evaluamos nuestros resultados utilizando mediciones cuantitativas de la
comunidad de procesamiento de audio. Para medir la exactitud utilizamos segmentaria relación señal-ruido (SSNR) [35], que tiene un promedio SNR
local, a través del tiempo. Para medir la inteligibilidad usamos la métrica basada en la percepción de Taal et al. [72]. Para nuestros resultados en la
Tabla 4.1 también incluimos registro proporción de probabilidad (LLR) [59], que es una métrica que captura cómo de cerca la forma espectral de una
señal recuperada coincide con la de la señal limpia originales. Finalmente, nuestros resultados pueden ser evaluados visualmente mirando a los
espectrogramas de nuestra voz de entrada y se recuperan las señales, que se muestra en la Figura 4-6.
Hasta la frecuencia de Nyquist de nuestros videos, las señales recuperadas coinciden estrechamente con la entrada tanto para el habla
pre-grabada y en vivo. En un experimento, hemos capturado una bolsa de patatas fritas a 20.000 FPS y eran capaces de recuperar parte de las
frecuencias más altas de la voz (Figura 4-6, parte inferior derecha). La mayor velocidad de cuadro resultó en la reducción de tiempo de exposición y
por lo tanto más ruido de la imagen, que es la razón por la cifra resultante es más ruidosos que los resultados a 2200Hz. Sin embargo, incluso con
este ruido añadido, hemos sido capaces de comprender cualitativamente el discurso en el audio reconstruida.
También comparamos nuestros resultados con el audio recuperado por un vibrómetro de láser Doppler (Tabla 4.1). Nuestro
- 56 -
Capítulo 4. El MICROFONO VISUAL
“Ella tenía su traje oscuro y agua de lavado de grasa durante todo el año.” “No me pidan que lleve un trapo aceitoso así.”
000 000 000 000
Frecuencia (Hz)
(fadg0)
400 400 400 400
0 0 0 0
0.5 1 1.5 2 2.5 3 0.5 1 1.5 2 2.5 3 0.5 1 1.5 2 2.5 0.5 1 1.5 2 2.5
0 0 0 0
0.5 1 1.5 2 2.5 3 3.5 4 0.5 1 1.5 2 2.5 3 3.5 4 0.5 1 1.5 2 2.5 3 0.5 1 1.5 2 2.5 3
Male
600 600 600 600
(mabw0)
400 400 400 400
0 0 0 0
0.5 1 1.5 2 2.5 0.5 1 1.5 2 2.5 0.5 1 1.5 2 2.5 0.5 1 1.5 2 2.5
habla en directo De entrada (2200 Hz) Recuperado De entrada (20 kHz) Recuperado
“María tenía un corderito, que es de lana era blanca como la nieve y en todas partes que María fue, ese cordero era seguro ir.”
10000 10000
8000 8000
800 1 800 1
Frecuencia (Hz)
7000 7000
20 40
6000 6000
600 600
-20 0 5000 5000
4000 4000
400 400
-40 3000 3000
2000 2000
-60
200 200
1000 1000
0 0 0 0
1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8
Figura 4-6: Speech recuperó de una bolsa de patatas fritas. Grabados del habla (Top tres filas): Jugamos grabaciones de
tres oradores que dicen dos frases di ff Erent del conjunto de datos TIMIT [30] a través de un altavoz cerca de una bolsa de
patatas fritas. a continuación, recuperamos el audio de un 2, 200 Hz, 700 × 700 de vídeo de la bolsa de patatas fritas (véase
la tabla 4.2 (a)) para una trama representante) y mostrar los espectrogramas de tanto el audio de entrada y la señal
recuperada. Vivir del habla (fila inferior): En un experimento separado, un hablante masculino recita la canción infantil
“Maria tenía un pequeño cordero ...”, cerca de la misma bolsa de patatas fritas. Le mostramos los espectrogramas de audio
grabado por un micrófono convencional junto a los espectrogramas del audio recuperado de video de la bolsa de papas
utilizando nuestra técnica. Los resultados fueron recuperados de videos tomados a los 2, 200 Hz, 700 × 700 pixeles (parte
inferior izquierda), y 20 kHz, 192 × 192 pixeles (inferior derecha). Entrada y clips de audio recuperados se pueden encontrar
en la página web del proyecto.
- 57 -
Capítulo 4. El MICROFONO VISUAL
Frecuencia (Hz)
0.4
0.2
Table 4.2: We use a known ramp signal to estimate the transfer coefficients for a bag of chips. We then use
these transfer coefficients to equalize new unknown signals recovered from the same bag. a) One frame from a
video of the bag of chips. b) The recovered ramp signal we use to compute transfer coefficients. c) The log
transfer coefficients (set to 1 outside the range of frequencies in our ramp). The table shows SSNR for six
speech examples with and without the equalization. Spectral subtraction is applied again after equalization, as
boosting attenuated frequencies tends to boost noise in those frequencies as well. Note that the denoising
method SSNR values reported here are different from Table 4.1, as our equalization focuses on accuracy over
intelligibility (see text for details).
método recuperó audio que era comparable a la vibrómetro láser cuando muestreada a la misma velocidad que la de vídeo, tal como
se mide por la métrica inteligibilidad. Sin embargo, el LDV se requiere iluminación activa, y tuvimos que una FFI x un pedazo de cinta
retro-re fl caz en el objeto para el láser para hacer rebotar o FF el objeto y volver a la vibrómetro. Sin la cinta caz fl retro-re, la calidad
de la señal vibrómetro fue significativamente peor.
Podemos utilizar la señal de rampa desde la Sección 4.3.1 para caracterizar la (visual) de respuesta de frecuencia de un objeto con el fin de mejorar la
calidad de las señales recuperadas de nuevas observaciones de ese objeto. En teoría, si pensamos en el objeto como un sistema lineal, Wiener
deconvolución se puede utilizar para estimar la función de transferencia de valor complejo asociado con ese sistema, y que la función de transferencia a
continuación, podría ser utilizado para deconvoluir nuevas señales observadas en una forma óptima ( en el sentido cuadrático medio del error). En la
práctica, sin embargo, este enfoque puede ser muy susceptibles al ruido y los artefactos no lineales. En su lugar, se describe un método más simple que
la primera utiliza el poco tiempo transformada de Fourier de un ejemplo de entrenamiento (la rampa lineal) para calcular la frecuencia de transferencia de
coe fi cientes a escala gruesa, entonces iguala nuevas señales observadas utilizando estos coeficientes de transferencia de FFI del COE.
- 58 -
Capítulo 4. El MICROFONO VISUAL
Nuestros coeficientes FFI transferencia coe se derivan de la corto espectros de potencia de tiempo de un par de entrada / salida de señales
(como las que se muestran en la Figura 4-5). Cada coe fi ciente corresponde a una frecuencia en el corto tiempo de espectros de potencia de la
señal observada la formación, y se calcula como un promedio ponderado de la magnitud de esa frecuencia con el tiempo. El peso en cada
momento viene dado por el corto espectro de potencia temporal de la señal de entrenamiento de entrada alineados. Dado que nuestra señal de
entrada contiene sólo una frecuencia a la vez, este esquema de ponderación ignora artefactos no lineales tales la duplicación de frecuencia ve en la
Una vez que tenemos nuestros coeficientes de transferencia de coe fi podemos utilizarlos para igualar las nuevas señales. Hay muchas maneras
posibles de hacer esto. Aplicamos las ganancias a frecuencias en el corto tiempo de espectros de potencia de la nueva señal, entonces la resíntesis de la
señal en el dominio del tiempo. La ganancia que aplicamos a cada frecuencia es proporcional a la inversa de su correspondiente transferencia coe fi ciente
La Figura 4.2 muestra los resultados de aplicar un ecualizador derivado de una bolsa de chip para secuencias de voz recuperados del
mismo objeto. En ausencia de ruido, k sería establece en 1, pero el ruido de amplio espectro comprime el rango de los coe fi cientes de
transferencia estimados. El uso de un mayor k puede compensar esto. Sintonizábamos manualmente k en uno de los ejemplos del habla hembra,
luego se aplica el ecualizador resultante a todos los seis ejemplos de habla. Dado que esta igualación está diseñado para mejorar la fidelidad de
una señal recuperada en lugar de la inteligibilidad del habla, utilizamos sustracción espectral para la eliminación de ruido y SSNR para evaluar
nuestros resultados.
Tenga en cuenta que la calibración y la ecualización son opcionales. En particular, todos los resultados en este capítulo fuera de la Tabla 4.2
4.4 Análisis
En esta sección, proporcionamos un análisis que ayuda a predecir cuándo y qué tan bien funciona nuestra técnica, y estimar la magnitud de los
movimientos que son capaces de recuperarse. A un alto nivel, nuestro método trata de inferir algún sonido de entrada S t) observando el movimiento
que provoca en un objeto cercano. Figura 4-3 se describen una serie de transformaciones que describen este proceso. Un sonido, S t), definida por
las fluctuaciones en la presión de aire con el tiempo, actúa sobre la superficie de un objeto. El objeto se mueve entonces en respuesta a este
sonido, la transformación de presión de aire en desplazamiento de la superficie. Llamamos a esta transformación la respuesta objeto, A. El patrón
resultante de desplazamiento de la superficie es entonces grabado con una cámara, y nuestro algoritmo, SEGUNDO, transforma el vídeo grabado
en un sonido recuperado. Intuitivamente, nuestra capacidad para recuperarse S t) dependerá de las transformaciones UNA y SEGUNDO. En esta
sección se caracterizan estas transformaciones para ayudar a predecir qué tan bien el micrófono visual trabajará en nuevas situaciones.
300Hz que aumentó linealmente en el volumen de [0,1-1] Pascales (RMS) (~57 a 95 decibelios). Esta señal se utilizó para caracterizar la
relación entre el volumen y el movimiento de objetos. Para obtener una medida exacta del volumen calibramos nuestra configuración
experimental (el altavoz, sala, y la posición del objeto que está siendo probado) utilizando un medidor de decibelios. La figura 4-7 (b)
muestra el movimiento RMS de objetos Erent di ff como una función de la presión de aire RMS en pascales (a 300 Hz). A partir de esta
gráfica vemos que para la mayoría de los objetos que probamos, el movimiento parece ser lineal aproximadamente de la presión de
sonido. Para cada objeto que probamos una o más frecuencias y vimos que este
- 59 -
Capítulo 4. El MICROFONO VISUAL
crabchips greenteabox tejido foiltogo kit Kat afoil Rosa foamcup chobani tetera
greenteabox 41.1
0.5
0.6 foiltogo kitkat afoil 32.9
Desplazamiento (m dB RMS)
aumentaron 20.6 0.4
10.6
0.2
8.6
1.1
0
200 400 600 800 1000 1200 1400 1600 1800 2000
1 2 3 4 5 6 7 8 9 10
(80dB) Volumen (RMS μ Pensilvania) (93dB) x 10 5 Frecuencia (Hz)
0.3
(A) coeficientes de desplazamiento en 300Hz (B) Propuesta vs. volumen de sonido (c) las respuestas de frecuencia
Figura 4-7: Movimiento objeto como función del volumen del sonido y la frecuencia, tal como se mide con un vibrómetro de láser
0.2
Doppler. Top: los objetos que medir, ordenados de acuerdo con su desplazamiento pico a 95 dB, de izquierda (movimiento más
0.1
grande) a derecha (de movimiento más pequeño). (B) El desplazamiento RMS (micrómetros) vs RMS de presión de sonido (Pascales)
para
0 los objetos que es golpeado por una onda sinusoidal de 300 Hz calibrado linealmente creciente en volumen de 57 decibelios a 95
1 2 3 4 5 6 7 8 9 10
decibelios. Desplazamientos están aproximadamente lineal en Pascales, y están todos en el orden de un micrómetro (una milésima
Volumen (RMS μ Pensilvania) x 10 5
parte de un milímetro). (C) Las respuestas en frecuencia de estos objetos (potencia dB vs frecuencia), en base a su respuesta a una
rampa de frecuencias que van desde 20 Hz a 2200Hz. Las frecuencias más altas tienden a tener respuestas más débiles que las
frecuencias más bajas. respuestas de frecuencia se representan en una escala dB,
relación se mantuvo lineal, lo que sugiere que es posible modelar la respuesta objetivo UNA como un sistema invariante en el tiempo lineal (LTI).
Nuestra segunda señal de prueba era una señal de rampa similar a la utilizada en la Sección 4.3.1, con frecuencias en el rango de 20Hz a
2200Hz. Modelado UNA como un sistema LTI, hemos utilizado esta señal de rampa para recuperar la respuesta de impulso de ese sistema. Esto se
hizo mediante la desconvolución nuestra señal de rampa observado (esta vez grabado por un LDV) por nuestra entrada conocida mediante
deconvolución Wiener. Figura 4-7 (c) muestra respuestas de frecuencia derivadas de nuestras respuestas de impulso recuperados 2. De este gráfico
vemos que la mayoría de los objetos tienen una respuesta más fuerte a frecuencias más bajas que las frecuencias más altas (como se esperaba), pero
que esta tendencia no es monótona. Esto concuerda con lo que hemos observado en la Sección 4.3.1.
Ahora podemos expresar la transformación UNA en el dominio de la frecuencia como la multiplicación de nuestro espectro de sonido, S (ω), por la
función de transferencia UNA( ω), que nos da el espectro de nuestro movimiento, re mm ( ω):
La magnitud del coe fi ciente UNA( ω) para un objeto corresponde a la pendiente de su respectivo volumen frente a la curva de
La relación entre el movimiento de objetos re mm y el desplazamiento de píxeles, re pag, es una sencilla dada por la proyección y el muestreo de
2 Las respuestas de frecuencia que se muestran aquí se han suavizado para eliminar el ruido e inteligible mostrar los diez en un gráfico. Las
respuestas también pueden ser un ff ejada por las respuestas de la habitación y el altavoz.
- 60 -
Capítulo 4. El MICROFONO VISUAL
ángulo, etc., un ff ect entrada de nuestro algoritmo (el video) cambiando el número de píxeles que ve un objeto, norte pag, la Magni fi cación de
σ NORTE. La relación entre el movimiento de los objetos y el movimiento de píxel puede ser expresado como:
dónde θ es el ángulo de visión de nuestra cámara con respecto al movimiento de la superficie del objeto y metro es la Magni fi cación de nuestra superficie
en mm
píxel.
A través de simulaciones también se estudió el e ff ect del número de píxeles imágenes de un objeto ( norte pag),
la amplitud (en píxeles) de movimiento ( re pag( ω)), y el ruido de imagen (dada por desviación estándar σ norte),
en la SNR de nuestros sonidos recuperados. Los resultados de estas simulaciones (disponibles en nuestra página web) confirmaron la
siguiente relación:
que muestra cómo la relación señal a ruido aumenta con la amplitud de movimiento y el número de píxeles, y disminuye con el ruido de
imagen.
Para confirmar esta relación entre SNR y la amplitud de movimiento con datos reales y para poner a prueba los límites de nuestra
técnica sobre objetos di ff Erent, se realizó otro experimento calibrada como el que se discute en la Sección 4.4.1, esta vez utilizando el
micrófono visual en lugar de un vibrómetro láser . En este experimento, se colocó la cámara alrededor de 2 metros de distancia desde el
objeto que se está grabando y objetos fueron imágenes en 400 × 480 píxeles con una fi cación Magni de 17,8 píxeles por milímetro. Con esta
configuración, se evaluó SNR (dB) en función del volumen de decibelios (estándar). Para su fi cientemente grandes amplitudes de
desplazamiento de píxeles, nuestra señal recuperada se convierte en aproximadamente lineal en el volumen (Fig. 4-8 (a)), confirmando la
Para dar una idea del tamaño de movimientos en nuestros videos, también estima el movimiento, en píxeles, para cada uno de los
de los vídeos correspondientes usando fl óptico basado en fase ow [33]. Encontramos estos movimientos para estar en el orden de
Una de las limitaciones de la técnica presentada hasta el momento es la necesidad de vídeo de alta velocidad. Exploramos la posibilidad de recuperar el
persiana common in the CMOS sensors of most cell phones and DSLR cameras [52]. With rolling shutter, sensor pixels are exposed
and read out row-by-row sequentially at different times from top to bottom. Compared to uniform global shutters, this design is cheaper
to implement and has lower power consumption, but often produces undesirable skewing artifacts in recorded images, especially for
photographs of moving objects. Previously, researchers have tried to mitigate the effect of rolling shutter on computer vision problems
such as structure-from-motion [51] and video stabilization [34]. Ait-Aider et al. [1] used rolling shutter to estimate the pose and velocity of
rigid objects from a single image. We take advantage of rolling shutter to effectively increase the sampling rate of a camera and recover
sound frequencies above the camera’s frame rate.
– 61 –
Capítulo 4. El MICROFONO VISUAL
foiltogo
30 crabchips Objeto Frec. (Hz) RMS (px)
foamcup crabchips 100 0,029
20
foiltogo 100 0,010
foamcup 100 0,007
10
SNR dB
-30
75 80 85 90 95
Decibelios (RMS)
Figura 4-8: La relación señal-ruido de sonido se recuperó de vídeo como una función del volumen (a), y el movimiento
absoluto en píxeles (B), por varios objetos cuando se reproduce una onda sinusoidal de la variación de frecuencia y el
volumen a ellos.
Debido a que cada fila de un sensor con sensor de rodadura es capturado a veces di ff Erent, podemos recuperar una señal de audio para
cada fila, en lugar de cada trama, el aumento de la tasa de muestreo de la velocidad de cuadro de la cámara a la velocidad a la que se registran
filas ( Fig. 4-9). Podemos determinar plenamente el mapeo de las filas de detectores a la señal de audio si se conoce el tiempo de exposición de
re, que es el tiempo entre capturas de fila, el periodo de trama T, el tiempo entre la captura de marco, y el retardo de trama, D ( Fig. 4-9). Los
parámetros de obturación de rodadura se pueden tomar de las especificaciones de la cámara y los sensores, o calculado (para cualquier cámara)
a través de un simple proceso de calibración [51], que también se describe en nuestra página web del proyecto. Suponemos, además, un modelo
directo en el que un objeto, cuya imagen está dada por B (x, y), se mueve con movimiento horizontal fronto-paralelo coherente descrito por S t),
y que el movimiento de re fl eja el audio queremos recuperar, como antes. Si asumimos que el tiempo de exposición mi ≈ 0, entonces la norte ésima
trama yo norte tomada por la cámara puede ser caracterizado por la ecuación
Si suponemos que la y ª fila de segundo tiene su fi ciente textura horizontal, podemos recuperar s (nT + yd)
usando análisis de movimiento euleriano 1D. Si la demora de fotogramas, el tiempo entre la toma de la última fila de una trama y la
primera fila de la siguiente trama, no es cero, entonces hay veces cuando la cámara no está grabando nada. Esto se traduce en que
faltan las muestras o “huecos” en la señal de audio. En la Fig. 4-9 (b), se muestra cómo una onda triangular se recupera de una cámara
móvil de obturación. Cada marco contribuye once muestras, una para cada fila. Hay cinco muestras faltantes, indicados en gris claro,
entre cada fotograma correspondiente a la demora de fotogramas no despreciable. Para hacer frente a la falta
- 62 -
Capítulo 4. El MICROFONO VISUAL
filas de detectores
Hora
(A) Persiana en un video
Audio (movimientos)
Hora
muestras en nuestra señal de audio, que utilizan una técnica de interpolación de audio por Janssen et al. [43].
En la práctica, el tiempo de exposición no es cero y cada fila es el promedio de tiempo de su posición durante la exposición. Para
señales de audio sinusoidal de frecuencia ω> 1
E, la fila grabado aproximadamente voluntad
estar a la izquierda de su posición de reposo por medio de la exposición y hacia la derecha para la otra mitad. Por lo tanto, no será bien
caracteriza por una sola traducción, lo que sugiere que mi es un límite a la frecuencia máxima que podemos esperar para capturar con una
puerta enrollable. La mayoría de las cámaras tienen tiempos de exposición mínimos del orden de 0,1 milisegundos (10 kHz).
Mostramos un resultado ejemplo de sonido recuperó utilizando un video DSLR-frecuencia de imagen normal en la Figura 4-
10. Tomamos un video de una bolsa de dulces (Fig. 4-10 (a)), cerca de un altavoz tocando el habla, y tomó un video desde un punto de
vista ortogonal al eje del altavoz a objetos, de modo que los movimientos de la bolsa debido al altavoz sería horizontal y fronto-paralelo
en el plano de la imagen de la cámara. Se utilizó una Pentax K-01 con una lente de 31 mm. La cámara graba a 60 fps con una
resolución de 1280 × 720 con un tiempo de exposición de
1 2000 segundos. Mediante la medición de la pendiente de una recta, se determinó que
tener una línea de retardo de 16 μ s y un retardo de trama de 5 milisegundos, de manera que el ff reflexivo velocidad de muestreo e
- 63 -
Capítulo 4. El MICROFONO VISUAL
1000
Frecuencia (Hz)
50
500
30 40
10 20
-10 0
0 -20
1 2
Tiempo (seg) dB
(A) Capítulo del vídeo DSLR (B) de sonido de entrada ( El Cuervo)
1000 1000
Frecuencia (Hz)
Frecuencia (Hz)
50 50
500 500
30 40 30 40
10 20 10 20
-10 0 -10 0
0 -20 0 -20
1 2 1 2
es 61920 hz con 30% de las muestras que faltan. El tiempo de exposición tapas de la frecuencia máxima recuperable en alrededor de 2000 Hz.
Además de interpolación de audio para recuperar muestras faltantes, también DeNoise la señal con un algoritmo de mejora del habla y un filtro
de paso bajo para eliminar fuera de la gama de frecuencias no podemos recuperar debido al tiempo de exposición. También se realizó un
experimento simulado con idénticos parámetros de la cámara, a excepción de un instante (cero) el tiempo de exposición. Los clips de audio
Información ininteligible sonido Muchos de nuestros ejemplos se centran en la inteligibilidad de los sonidos recuperados. Sin
embargo, hay situaciones en las que el sonido ininteligible todavía puede ser de carácter informativo. Por ejemplo, identificar el número y el
género de los altavoces en una habitación puede ser útil en algunos escenarios de vigilancia, incluso si habla inteligible no se pueden
recuperar. Figura 4-11 muestra los resultados de un experimento en el que fueron capaces de detectar el género de altavoces de habla
ininteligible utilizando un estimador de tono estándar [25]. En nuestra página web del proyecto se muestra otro ejemplo en el que
- 64 -
Capítulo 4. El MICROFONO VISUAL
400
50
220
180
400
140
250
200
120
150
100 100
50
80
0 1 2 3 4 5 6
1 2 3 4
Figura 4-11: Nuestro método puede ser útil incluso cuando recuperó el habla es ininteligible. En este ejemplo, se utilizó cinco muestras de
voz TIMIT, recuperados de una caja de pañuelos y un recipiente de papel de aluminio. El discurso recuperado es dif cil de entender FFI, pero
utilizando un estimador de tono estándar [25] somos capaces de recuperar el tono de la voz del hablante (b). En (a) se muestra la trayectoria de
tono estimado para dos muestras de voz recuperada (hembra anteriormente, masculino abajo). segmentos azules indican alta confianza en la
estimación (ver [25] para más detalles).
recuperar la música lo suficientemente bien para algunos oyentes para reconocer la canción, aunque las letras en sí son ininteligibles en el
sonido recuperado.
La visualización de los modos de vibración Debido a que estamos recuperando el sonido de un vídeo, se obtiene una medición espacial de la
señal de audio en muchos puntos de la filmada objeto en lugar de un solo punto como un micrófono láser. Podemos usar esta medición espacial para
recuperar los modos de vibración de un objeto. Esto puede ser una herramienta poderosa para el análisis estructural, donde las deformaciones generales
de un objeto se expresan a menudo como superposiciones de modos de vibración del objeto. Al igual que con la recuperación de sonido de vibraciones
de la superficie, la mayoría de las técnicas existentes para la recuperación de formas de los modos están activos. Stanbridge y Ewins [69], por ejemplo,
escanear un vibrómetro de láser en un patrón de trama a través de una superficie. Como alternativa, la interferometría holográfica trabaja por primera
grabación de un holograma de un objeto en reposo, a continuación, la proyección de este holograma de nuevo en el objeto de manera que las
deformaciones de superficie resultan en patrones de interferencia predecibles [58, 44]. Al igual que nosotros, Chen et al. [15] proponen la recuperación de
formas de los modos de un vídeo de alta velocidad, sino que solo se ve en el caso específico de una viga que vibra en respuesta a ser golpeado por un
martillo.
Modos de vibración se caracterizan por el movimiento, donde todas las partes de una vibrar objeto con la misma frecuencia temporal, la
frecuencia modal, con una relación de fase fijada entre di ff partes Erent del objeto. Podemos hallar las frecuencias modales mediante la
búsqueda de picos en el espectro de nuestras señales de movimiento locales. En uno de estos picos, tendremos una ciente fi Coe Fourier
para cada ubicación espacial en la imagen. Estos coe Fourier FFI dan la forma del modo de vibración con la amplitud correspondiente a la
cantidad de movimiento y de fase correspondiente a FI relación de fase fijo entre los puntos. En la figura 4-12, mapeamos amplitud a la
intensidad y la fase de tono para dos modos de vibración de una cabeza de tambor. Estos modos de vibración recuperados (Fig. 4-12 (b)) se
- sesenta
cinco - y
Capítulo 4. El MICROFONO VISUAL
limitaciones Aparte de la velocidad de muestreo, nuestra técnica está limitada por la Magni fi cación de la lente. La SNR de audio
recuperada por nuestra técnica es proporcional a la amplitud de movimiento en píxeles y el número de píxeles que cubren el objeto (Ec. 4.3),
las cuales aumentan a medida que los Magni aumenta fi cación y disminuyen con la distancia al objeto. Como resultado, para recuperar el
sonido inteligible a partir de objetos lejanos, es posible que tengamos un potente objetivo zoom. El experimento en la Figura 4-2 utiliza una
lente de 400 mm para recuperar sonido desde una distancia de 3-4 metros. La recuperación de distancias mucho más grandes pueden
4.7 Conclusión
Hemos demostrado que las vibraciones de muchos objetos de uso cotidiano en respuesta al sonido pueden ser extraídas de vídeos de alta
velocidad y se utilizan para recuperar el audio, convertir esos objetos en los micrófonos “visuales”. Integramos señales de movimiento locales,
minuto a través de la superficie de un objeto para calcular una única señal de movimiento que capta las vibraciones del objeto en respuesta al
sonido en el tiempo. A continuación, eliminación de ruido de esta señal de movimiento utilizando la mejora del habla y otras técnicas para producir
una señal de audio recuperada. A través de nuestros experimentos, hemos encontrado que los objetos ligeros y rígidos hacen especialmente
buenos micrófonos visuales. Creemos que el uso de cámaras de vídeo para recuperar y analizar vibraciones relacionadas sonido en objetos Erent
di ff abrirá nuevas e interesantes investigaciones y aplicaciones. Nuestros videos, resultados y material complementario están disponibles en la
- 66 -
Capítulo 4. El MICROFONO VISUAL
Figura 4-12: Recuperado formas de los modos (b) a partir de un vídeo de una membrana de látex circular excitado por un chirp la
reproducción desde una fuente de audio cercana (a). Nuestros formas de los modos de recuperación (b) son similares a las formas de
los modos teóricamente derivados de (c). Para los modos que se muestran en (b), la fase de movimiento superficie través de la
membrana se correlaciona con el tono, mientras que la amplitud de las vibraciones a través de la superficie se asigna a la saturación y
el brillo.
- 67 -
Capítulo 4. El MICROFONO VISUAL
- 68 -