Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Álvaro Pardo
Características del sistema auditivo
La sensibilidad del oído es logarítmico respecto a la frecuencia
Varía con la frecuencia
La discriminación en frecuencia es de 2Hz (a 1kHz)
Cambios de intensidad por encima de 1dB son detectados
El oído humano es sensible a frecuencias entre 20 Hz y 20 kHz
Existen una conjunto de bandas críticas en frecuencia. Algunos
fenómenos perceptivos son consistentes con las existencia de
estas bandas. Por ejemplo, la percepción de una señal en
presencia de otra da diferentes resultados si ambas están en una
misma banda crítica o no.
Introducción al estándar de
compresión de audio MPEG-1
Capa 1 (MP1)
– Es la más simple.
– Funciona bien con bitrates mayores 128 kbps
– Ejemplo: Philips Digital Compact Cassette (DCC) 192 kbps
Capa 2 (MP2)
– Complejidad intermedia
– Pensada para 128 kbps por canal
Capa 3 (MP3)
– La más compleja pero de mejor calidad de audio
– Funciona correctamente alrededor de 64 kbps por canal
Estructura del codificador
Pasa el sonido PCM de entrada al
dominio de la frecuencia
dividiéndolo en 32 subbandas
Genera el bitstream
de salida en
formato MPEG
Q
16x16kHz +
8x16kHz +
Q 4x16kHz
=448 kbps !!!
63 7
S [i ] = ∑ M [i ][k ]∑ C[k + 64 j ]X [k + 64 j ]
k =0 j =0
Muestras
( 2i + 1)( k − 16)π
Coeficientes del M [i ][k ] = cos
filtro de análisis 64
n =0
∑
S [i ] = x[t − n ]H i [n ] H i [n ] = h[n ] cos
64
El Filtro Polifase 4
1. Se enventana la señal
Z [i ] = C[i ] ⋅ X [i ] i = 0,...,511
2. Cálculo parcial
7
Y [i ] = ∑ Z [i + 64 j ] i = 0,...,63
j =0
Umbral Absoluto: Se
obtiene haciendo escuchar
un tono en silencio. Se
aumenta la amplitud hasta
que comienza a ser audible.
Psicoacústica 3: Enmascaramiento
en el tiempo
Si escuchamos un sonido
fuerte demoramos unos
segundos en poder detectar
sonidos más débiles.
Premasking Postmasking
El modelo psicoacústico
Relación señal/enmascaramiento
MPEG Layer 3: MP3
Mejora los resultados del filtro
polifase mediante la utilización
de una transformada MDCT
(Modified DCT) para mejorar la
precisión en frecuencia.
La mejorar resolución frecuencial
empeora la resolución temporal
(esto introduce problemas de
pre-eco que son predecidos y
corregidos).
Se utilizan códigos de Huffman
para codificar las muestras
cuantificadas.
La distribución de los bits se
hace en forma iterativa para
reducir la cantidad de ruido.