Está en la página 1de 1

Optimizacin de parmetros de un sistema

de reconocimiento de audio orientado a la


verificacin de la emisin de anuncios
J.R. Cerquides
Departamento de Teora de la Seal y Comunicaciones
Escuela Superior de Ingenieros
Universidad de Sevilla
Abstract El nmero de emisoras de radio y televisin crece diariamente de forma muy acelerada (TDT, IPTV, nuevas
concesiones FM, Internet). El gran volumen de informacin emitida fuerza a migrar hacia sistemas automticos de
control y verificacin de dicha programacin. Analizamos los parmetros de un algoritmo de identificacin de audio y
realizamos una labor de optimizacin de los mismos con el objetivo de mejorar sus prestaciones en el campo especfico
de verificacin de la emisin de anuncios. Los resultados obtenidos muestran que es posible mejorar la eficacia
computacional del algoritmo manteniendo la robustez en cotas perfectamente tolerables.
FM
FM
Audio
original
Audio
original
AM
AM
TV
analgica
TV
analgica
B = 15 KHz
Predistorsin
Stereofona
B

=

1
0

K
H
z
B

=

1
5

K
H
z
P
r
e
d
i
s
t
o
r
s
i

n
N
I
C
A
M
TV
digital
TV
digital
M
P
E
G
-
2
A
u
d
i
o
Internet
TV
Internet
TV
RealAudio
MPEG-4 AAC
WMA
?
Panorama actual
Multitud de medios, cada uno con
un mecanismo de procesado propio.
Cmo verificar el cumplimiento
de las relaciones contractuales?
Solucin
Tcnicas de audio fingerprinting:
Reduccin de memoria de
almacenamiento requerida
Comparacin ms robusta
Bsqueda ms eficiente
Algoritmo de Haitsma Kalker
(diseado para identificacin de msica)
( )
( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( )
1 E n, m E n, m 1 E n 1, m E n 1, m 1 0
F n, m
0 E n, m E n, m 1 E n 1, m E n 1, m 1 0
+ + >

=

+ + s

Parmetros objeto de optimizacin:


Nmero de bandas en que dividimos cada trama (originalmente 32)
Nmero de muestras por trama (originalmente 3 seg)
Factor de overlap entre tramas (originalmente 31/32)
Optimizacin
El objetivo es reducir el coste sin prdida de robustez
Los parmetros se varan de forma consecutiva a
partir del valor inicial, obteniendo diferentes
soluciones.
No todas son compatibles, por lo que es preciso elegir
una solucin de compromiso
Resultados
Se reduce 4,4 veces el coste computacional al evaluar
la huella
Se reduce el tamao de la huella a la dcima parte
Las pruebas realizadas demuestran que la robustez
est garantizada
Procesado
Bacardi Limn Viajes Marsans Carrefour La ONCE
Media Desv. Media Desv. Media Desv. Media Desv.
MP3 con VBR nivel 10 0.0419 0.0130 0.0420 0.0125 0.0403 0.0120 0.0408 0.0127
MP3 con VBR nivel 50 0.0407 0.0135 0.0401 0.0123 0.0405 0.0120 0.0409 0.0128
MP3 con VBR nivel 100 0.0411 0.0134 0.0398 0.0125 0.0405 0.0119 0.0399 0.0129
WMA con CBR 5 Kbps 0.0416 0.0137 0.0411 0.0124 0.0403 0.0118 0.0413 0.0128
Filtrado pasa todo 0.0708 0.0184 0.0633 0.0146 0.0635 0.0157 0.0615 0.0153
Comp. Amplitud 0.1166 0.0377 0.1115 0.0285 0.1049 0.0278 0.1343 0.0373
Ecualizacin 0.0630 0.0179 0.0582 0.0134 0.0577 0.0131 0.0570 0.0147
Filtrado paso banda 0.0536 0.0299 0.0491 0.0213 0.0496 0.0222 0.0566 0.0295
Veloc. Lineal 1% 0.1388 0.0347 0.1415 0.0347 0.1218 0.0238 0.1507 0.0351
Veloc. Lineal 4% 0.3430 0.0329 0.3608 0.0224 0.3386 0.0318 0.3492 0.0287
Robustez: Valor medio de la BER y desviacin estndar para diferentes distorsiones: no se supera el umbral de error

También podría gustarte