Intelligible Semantic Level Speech Compression - En.es

Traducido del inglés al español - www.onlinedoctranslator.
com
Conferencia Internacional sobre Energía, Comunicación, Análisis de Datos y Soft Computing (ICECDS-2017)
Compresión del habla a nivel semántico inteligible

Algoritmo de preservación del contenido emocional
Firos A Profesor Utpal Bhattacharjee
Departamento de Informática e Ingeniería, Departamento de Informática e Ingeniería,
Universidad Rajiv Gandhi Universidad Rajiv Gandhi
Doimukh, Arunachal Pradesh, India Doimukh, Arunachal Pradesh, India
firos.a@rgu.ac.in utpal.bhattacharjee@rgu.ac.in
Abstracto—La codificación del habla se refiere a la compresión para la II. miTÉCNICAS DE SÍNTESIS DEL HABLA EXISTENTE
transmisión o el almacenamiento, posiblemente hasta un estado ininteligible, con
la descompresión utilizada antes de la reproducción. Este artículo intenta formular En todo el mundo, están surgiendo códecs VoIP secretos
la técnica de compresión de nivel semántico en señales de voz conservando sus similares que eliminan la formalidad de la experiencia de chat de
características prosódicas. Se realizará un análisis LPC para identificar la voz e inyectan un nuevo elemento sociable. Ofrecen una tentadora
característica del discurso de entrada. GMM se utilizará para preservar el combinación de claridad superlativa que no pudimos lograr hasta
contenido emocional durante la codificación. ANN se utilizará para identificar las ahora, combinada con la mejor frecuencia de muestreo y
mejores características para la codificación. El uso de dicha codificación basada en velocidades de bits variables, y estándares de red cuidadosamente
la semántica reducirá en gran medida la sobrecarga computacional en los seleccionados.[1]
codificadores de voz.
A pesar de que estos son CELP exclusivos y de bajo retraso, los
Palabras clave— Codificación del habla; G.723.1, iLBC; agrupamiento códecs con pérdida como G.728 están disponibles, no se usan
difuso; ventanas; ANA ampliamente ya que no ofrece acceso VBR, estéreo y multicanal para
sus usuarios.[1] Cada vez que algún códec agrega un favor, una alta
yo yoNTRODUCCIÓN tasa de compresión más allá de cierto nivel pasa por la debilidad [2].
Se llama la compresión de sonido tridimensional de Google y por lo que necesita un veterinario y los agrega a la lista de selección
sus fundadores insisten en el estricto anonimato de su método de para los estándares de comunicación de voz adecuados solo después
compresión. En este método de compresión en particular, ha de eso.
ensamblado un método para codificar múltiples señales de audio La estrategia de codificación para este estudio se limitó a estándares
direccionales utilizando un códec integrado por un dispositivo de dentro de los siguientes 14 sectores definidos de acuerdo con la herramienta
comunicación inalámbrica. de evaluación perceptual de la calidad del habla (PESQ) de ITU-T Fuentes
El uso tintineante y la popularidad del zumbido son prueba de (P.862 (02/01):
que la compresión de sonido tridimensional ya es un éxito con su Codificación de voz de banda estrecha
capacidad para capturar, comprimir y transmitir audio
tridimensional (3-D). Y no es de extrañar, mirando lo que el menú • G.723.1, G.726, G.728, G.729, iLBC y otros para
tiene reservado para los entusiastas de VoIP. El VoIP moderno VoIP o videoconferencia
puede ofrecer la grabación de una pluralidad de señales de audio • Tarifa completa, tarifa media, EFR, AMR para redes GSM
direccionales y un delicioso postre de transmisión de audio
tridimensional (3-D) con la máxima compresión. • SMV para redes CDMA Codificación
Aún así, el misterio que es imposible de descifrar es: quién entre los de voz de banda ancha
códec VoIP brindará la mejor tasa de compresión. Los fundadores del códec
• G.722, G.722.1, Speex y otros para VoIP y
de voz a menudo optan por permanecer en secreto e informar a los usuarios
videoconferencia
con el mejor valor en lugar de su puntaje promedio. Los códecs considerados
para el estudio comparativo: G. e iLBC, lo hacen de forma ligeramente • AMR-WB para redes WCDMA
diferente y, por lo general, se unen a las mejores o más talentosas redes de
• VMR-WB para redes CDMA2000
soluciones de VoIP que crean una comida especial para sus usuarios.
El G.722 utiliza un algoritmo ADPCM de subbanda con pérdida con
una frecuencia de muestreo de 16 kHz. Funciona con una tasa de bits
Este artículo está organizado de la siguiente forma: La Sección II
de 64 kbit/s (comprende audio de 48, 56 o 64 kbit/s y datos auxiliares de
describe varias técnicas de codificación de voz existentes. La Sección III
16, 8 o 0 kbit/s) y tendrá 14 bits/muestra con una latencia de 4 ms.
describe los codificadores de voz propuestos y sus características. La
Admite tasa de bits constante (CBR) y no admite tasa de bits variable
Sección IV describe el Estudio Comparativo. Finalmente, la Sección V
(VBR)[3]. El G.722.1 utiliza un algoritmo con pérdida de transformación
concluye el documento.
modulada superpuesta (basado en el códec Siren). Funciona a una tasa
de bits de 24,32 kbits/seg y tendrá 16
978-1-5386-1887-5/17/$31.00 ©2017 IEEE
3041
bits/muestra con una latencia de 40 ms. Admite tasa de bits = . Con esto obtendremos
constante (CBR) y no admite tasa de bits variable (VBR). El G.722.1C = , donde R_n (k)= _(m=0)^(N-S_n
utiliza un algoritmo con pérdida de transformación modulada
1k) S_n (m) (m+k) ; R_n (k) va a
superpuesta (basado en el códec Siren). Funciona con una tasa de
ser incluso función. Con esto para i—1,2,----p
bits de 24,32 kbits/seg y tendrá 16 bits/muestra con una latencia de
obtendremos a matriz
40 ms. Admite una tasa de bits constante (CBR) y no admite una
tasa de bits variable (VBR).
El G.722.2 (AMR-WB) utiliza un algoritmo Lossy ACELP de banda ancha

de frecuencia múltiple con una frecuencia de muestreo de 16 KHz. Funciona
con velocidades de bits de 6,60, 8,85, 12,65, 14,25, 15,85, 18,25, 19,85, 23,05,
23,85 kbit/s y tendrá 14 bits/muestra con una latencia de 25 ms. Admite
velocidad de bits constante (CBR) y velocidad de bits variable (VBR). El G.723 X =
utiliza un algoritmo ADPCM con pérdidas con una frecuencia de muestreo de
8 KHz. Funciona con una velocidad de bits de 24, 40 kbit/s y tendrá 13 bits/
muestra... admite una velocidad de bits constante (CBR) y no admite una
Curiosamente, dado que los elementos diagonales son
velocidad de bits variable (VBR). El G.723.1 utiliza un algoritmo MP-MLQ, algunos y es una matriz Toeplits, es computacionalmente
ACELP, Lossy con una frecuencia de muestreo de 8 KHz[4]. Funciona con una fácil para LPC para calcular su
velocidad de bits de 5,3, 6,3 kbit/s y tendrá 13 bits/muestra con una latencia
de 37,5 ms. Admite una velocidad de bits constante (CBR) y no admite una • En el momento en que LPC continúe con el análisis de las
velocidad de bits variable (VBR). características probabilísticas, el análisis de la voz emocional
basado en el modelo de mezcla gaussiana (GMM) se realizará
en el mismo marco para encontrar las características
prosódicas. Simultáneamente, el bloque MFCC extrae las
iLBC, otro códec lo hace de manera ligeramente diferente. El iLBC utiliza
características de la señal de voz. El número total de
un algoritmo con pérdida de codificación predictiva lineal independiente de
muestras elegidas en un cuadro es 256 y las muestras
bloque con una frecuencia de muestreo de 8 KHz. Funciona con una tasa de
superpuestas con el cuadro adyacente serán 128. Adquirimos
bits de 15,2 kbit/s para tramas de 20 ms, 13,33 kbit/s para tramas de 30 ms.
los coeficientes cepstrales de MFCC a la salida del bloque
Admite tasa de bits constante (CBR) y no admite tasa de bits variable (VBR)
MFCC. En GMM, el algoritmo K-mean se usa para obtener un
[5].
número de grupo específico para cada vector de observación
Cambie la escena a G.729 y las tablas de las modernas técnicas de y establece el centroide del vector de observación. Después
codificación de VoIP. El cambio reciente de la codificación de voz como G.729 de agrupar el modelo, devuelve un centroide para cada
(utilizado en videoconferencias) también se basó en gran medida en esta grupo K y se refiere al número de grupo más cercano. El
idea simple, así como en el hecho relacionado de que una amplia cobertura algoritmo K-mean se describe como las distancias al
fortalece los estándares de codificación para un VoIP sofisticado. Aquí hay cuadrado entre cada vector de observación y sus centroides.
una lección importante para lo propuesto por los desarrollos recientes de los
En la sección de entrenamiento, los parámetros del modelo
estándares de codificación de voz.
GMM se producen iterativamente mediante el algoritmo de
tercero PAGROPUESTOALGORITMO maximización de expectativas (EM). La distancia euclidiana se
encuentra entre el vector de observación y los centriodes de
su grupo para hacer coincidir la palabra hablada con la base
. La descripción del códec de datos actual [3]. El método propuesto se representa en la
figura 1.
• El discurso de entrada se dará para el análisis de LPC • las matrices , e y w se tomarán en la red neuronal de
para obtener el LPC alimentación directa. Un algoritmo de red neuronal de
. El resultado será el error variable más pequeño. alimentación directa incluye los siguientes pasos:
coeficientes según la sílaba, , , ,------ 1. Inicializar pesos y sesgos a
- - - - - - - - - - - . Estos parámetros se encuentran con la pequeños números aleatorios.
ayuda de LPC. Obtenemos esta señal en su z - 2. Presentar datos de entrenamiento a neural
red y calcule la salida propagando la
transformar X(z) = , . El resultado será
entrada hacia adelante.
tener p ecuaciones y p incógnitas ( , , , - - - - 3. cambiando en número de ocultos
- - - - - - - - - - - - - ) cada 20ms. así que tenemos que encontrar capas y función de transferencia para cada capa
en cada 20ms. Dado que esto no es computacionalmente oculta y para la capa de salida y también
, se usará el método de correlación automática.
eficiente cambiando el número de neuronas en cada
capa oculta hasta alcanzar la máxima tasa de
obtenemos Entonces , =S(m+n)w(m) ; donde (m) es el
reconocimiento e identificación de idioma o el
ventana ; 0<=m<=N-1. Entonces nosotros tener mínimo error.
3042
señal de voz
Extracción
Transformada de coseno discreta

Extracción
Característica
Característica
Transformada de coseno discreta
Coeficientes globales
normalización
Selección de coeficientes
Extracción de características MFCC y Análisis LPC

Agrupación difusa de k-media
Conjuntos de entrenamiento
Conjuntos de prueba
Capacitación RNA
clasificación
Pruebas de RNA
Elección de MFCC: función

agrupada efervescente o LPC
función para codificar
Fig 1. El método de codificación propuesto
3043
• La red neuronal de alimentación hacia adelante dará la opción de
MFCC: función agrupada efervescente o función LPC para la
codificación
IV. RESULTADOS Y DISCUSIÓN

El estudio comienza con el análisis comparativo del método
propuesto con el algoritmo: iLBC
Fig. 4. Estimación de LP para el método propuesto
CONCLUSIÓN V
En este artículo, se presentan métodos novedosos de compresión de voz
basados en la semántica que logran la mejor calidad de voz posible a baja tasa
de bits, con restricciones de complejidad y retardo.
Fig.2 Codificación y decodificación para iLBC Este artículo propone un mecanismo para codificar el
habla preservando su contenido emocional. La preservación
emocional se logró con la ayuda de GMM usando GMM
donde en la semántica del discurso se puede identificar con
su contenido emocional. Dado que la precisión es una
preocupación en GMM, también se incorporará LPC y se
realizará una mejor elección de la función GMM o LPC para la
decodificación con la ayuda de ANN.
Los algoritmos de codificación del habla mejoran día a día para
abordar los problemas de los estándares de comunicación del habla. A
pesar de que este problema se aborda y resuelve, la industria de VoIP
demanda códigos de voz eficientes en energía de bits más bajos.
Referencias
Fig.3 Codificación y decodificación para los sistemas propuestos
[1] Ying-Hui Lai, Fei Chen, Yu Tsao, "Compresión de rango dinámico adaptativo para
La simulación de MATLAB de la voz de entrada para iLBC y los
mejorar la percepción del habla basada en envolventes: Implicaciones para los
codificadores propuestos se han trazado gráficamente (Fig.1-Fig.2). El implantes cocleares" Springer, Tecnología y arquitectura emergentes para
método propuesto reproduce la señal más fielmente a la señal original en análisis de big-data, páginas 191-214, abril de 2017
comparación con otros codificadores. Se observa que a medida que [2] Stanislav Gorlow; Joshua D. Reiss .”Model-Based Inversion of Dynamic Range
disminuye la tasa de bits, los requisitos de cálculo aumentan mucho para Compression” IEEE, IEEE Transactions on Audio, Speech, and Language
los diferentes bits utilizados. Esta es la motivación para la propuesta de un Processing , Página(s): 1434 - 1444, Volumen: 21 Publicación: 7, julio de
2013
código de habla basado en la semántica. La estimación de LP para iLBC se
[3] Virendra Chauhan, Shobhana Dwivedi, Pooja Karale, Prof. SM Potdar
muestra en la figura 3. Esto introduce un retraso y un aumento en el costo
"CONVERTIDOR DE VOZ A TEXTO CON EL MODELO DE MEZCLA DE
de implementación. Sin embargo, para la misma cantidad de bits, el GAUSSIAN (GMM) ", International Journal of Engineering Research
ancho de banda utilizado en G.723.1 e iLBC se reduce mucho más que en and Applications (IJERA), ISSN: 2248-9622, Vol. 2, número 3, mayo-
los codificadores de forma de onda, lo que los hace más adecuados en junio de 2012, pp.1169-1173.
situaciones de escasez de ancho de banda. [4] Dhinesh Babu LD, P. Venkata Krishna, "El comportamiento de las abejas melíferas
inspiró el equilibrio de carga de tareas en entornos de computación en la nube",
Applied Soft Computing 13 (2013), págs. 2292–2303.
[5] Matthias Schmidt,Niels Fallenbeck,Matthew Smith,Bernd
Freisleben,"Distribución eficiente de máquinas virtuales para
computación en la nube", Actas de la 18.ª Conferencia Euromicro de
2010 sobre procesamiento paralelo, distribuido y basado en red,
IEEE Computer Society Washington, DC, (2010), págs. 567-574
3044

Intelligible Semantic Level Speech Compression - En.es

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Intelligible Semantic Level Speech Compression - En.es

Cargado por

Copyright:

Formatos disponibles

Traducido del inglés al español - www.onlinedoctranslator.

Compresión del habla a nivel semántico inteligible

El uso tintineante y la popularidad del zumbido son prueba de (P.862 (02/01):

978-1-5386-1887-5/17/$31.00 ©2017 IEEE

El G.722.2 (AMR-WB) utiliza un algoritmo Lossy ACELP de banda ancha

Transformada de coseno discreta

Transformada de coseno discreta

Extracción de características MFCC y Análisis LPC

Elección de MFCC: función

Fig 1. El método de codificación propuesto

• La red neuronal de alimentación hacia adelante dará la opción de

MFCC: función agrupada efervescente o función LPC para la

IV. RESULTADOS Y DISCUSIÓN

Fig. 4. Estimación de LP para el método propuesto

También podría gustarte