Documentos de Académico
Documentos de Profesional
Documentos de Cultura
com
Conferencia Internacional sobre Energía, Comunicación, Análisis de Datos y Soft Computing (ICECDS-2017)
Abstracto—La codificación del habla se refiere a la compresión para la II. miTÉCNICAS DE SÍNTESIS DEL HABLA EXISTENTE
transmisión o el almacenamiento, posiblemente hasta un estado ininteligible, con
la descompresión utilizada antes de la reproducción. Este artículo intenta formular En todo el mundo, están surgiendo códecs VoIP secretos
la técnica de compresión de nivel semántico en señales de voz conservando sus similares que eliminan la formalidad de la experiencia de chat de
características prosódicas. Se realizará un análisis LPC para identificar la voz e inyectan un nuevo elemento sociable. Ofrecen una tentadora
característica del discurso de entrada. GMM se utilizará para preservar el combinación de claridad superlativa que no pudimos lograr hasta
contenido emocional durante la codificación. ANN se utilizará para identificar las ahora, combinada con la mejor frecuencia de muestreo y
mejores características para la codificación. El uso de dicha codificación basada en velocidades de bits variables, y estándares de red cuidadosamente
la semántica reducirá en gran medida la sobrecarga computacional en los seleccionados.[1]
codificadores de voz.
A pesar de que estos son CELP exclusivos y de bajo retraso, los
Palabras clave— Codificación del habla; G.723.1, iLBC; agrupamiento códecs con pérdida como G.728 están disponibles, no se usan
difuso; ventanas; ANA ampliamente ya que no ofrece acceso VBR, estéreo y multicanal para
sus usuarios.[1] Cada vez que algún códec agrega un favor, una alta
yo yoNTRODUCCIÓN tasa de compresión más allá de cierto nivel pasa por la debilidad [2].
Se llama la compresión de sonido tridimensional de Google y por lo que necesita un veterinario y los agrega a la lista de selección
sus fundadores insisten en el estricto anonimato de su método de para los estándares de comunicación de voz adecuados solo después
compresión. En este método de compresión en particular, ha de eso.
ensamblado un método para codificar múltiples señales de audio La estrategia de codificación para este estudio se limitó a estándares
direccionales utilizando un códec integrado por un dispositivo de dentro de los siguientes 14 sectores definidos de acuerdo con la herramienta
comunicación inalámbrica. de evaluación perceptual de la calidad del habla (PESQ) de ITU-T Fuentes
que la compresión de sonido tridimensional ya es un éxito con su Codificación de voz de banda estrecha
capacidad para capturar, comprimir y transmitir audio
tridimensional (3-D). Y no es de extrañar, mirando lo que el menú • G.723.1, G.726, G.728, G.729, iLBC y otros para
tiene reservado para los entusiastas de VoIP. El VoIP moderno VoIP o videoconferencia
puede ofrecer la grabación de una pluralidad de señales de audio • Tarifa completa, tarifa media, EFR, AMR para redes GSM
direccionales y un delicioso postre de transmisión de audio
tridimensional (3-D) con la máxima compresión. • SMV para redes CDMA Codificación
Aún así, el misterio que es imposible de descifrar es: quién entre los de voz de banda ancha
códec VoIP brindará la mejor tasa de compresión. Los fundadores del códec
• G.722, G.722.1, Speex y otros para VoIP y
de voz a menudo optan por permanecer en secreto e informar a los usuarios
videoconferencia
con el mejor valor en lugar de su puntaje promedio. Los códecs considerados
para el estudio comparativo: G. e iLBC, lo hacen de forma ligeramente • AMR-WB para redes WCDMA
diferente y, por lo general, se unen a las mejores o más talentosas redes de
• VMR-WB para redes CDMA2000
soluciones de VoIP que crean una comida especial para sus usuarios.
El G.722 utiliza un algoritmo ADPCM de subbanda con pérdida con
una frecuencia de muestreo de 16 kHz. Funciona con una tasa de bits
Este artículo está organizado de la siguiente forma: La Sección II
de 64 kbit/s (comprende audio de 48, 56 o 64 kbit/s y datos auxiliares de
describe varias técnicas de codificación de voz existentes. La Sección III
16, 8 o 0 kbit/s) y tendrá 14 bits/muestra con una latencia de 4 ms.
describe los codificadores de voz propuestos y sus características. La
Admite tasa de bits constante (CBR) y no admite tasa de bits variable
Sección IV describe el Estudio Comparativo. Finalmente, la Sección V
(VBR)[3]. El G.722.1 utiliza un algoritmo con pérdida de transformación
concluye el documento.
modulada superpuesta (basado en el códec Siren). Funciona a una tasa
de bits de 24,32 kbits/seg y tendrá 16
3041
Conferencia Internacional sobre Energía, Comunicación, Análisis de Datos y Soft Computing (ICECDS-2017)
bits/muestra con una latencia de 40 ms. Admite tasa de bits = . Con esto obtendremos
constante (CBR) y no admite tasa de bits variable (VBR). El G.722.1C = , donde R_n (k)= _(m=0)^(N-S_n
utiliza un algoritmo con pérdida de transformación modulada
1k) S_n (m) (m+k) ; R_n (k) va a
superpuesta (basado en el códec Siren). Funciona con una tasa de
ser incluso función. Con esto para i—1,2,----p
bits de 24,32 kbits/seg y tendrá 16 bits/muestra con una latencia de
obtendremos a matriz
40 ms. Admite una tasa de bits constante (CBR) y no admite una
tasa de bits variable (VBR).
3042
Conferencia Internacional sobre Energía, Comunicación, Análisis de Datos y Soft Computing (ICECDS-2017)
señal de voz
Extracción
Coeficientes globales
normalización
Selección de coeficientes
Conjuntos de entrenamiento
Conjuntos de prueba
Capacitación RNA
clasificación
Pruebas de RNA
3043
Conferencia Internacional sobre Energía, Comunicación, Análisis de Datos y Soft Computing (ICECDS-2017)
codificación
CONCLUSIÓN V
En este artículo, se presentan métodos novedosos de compresión de voz
basados en la semántica que logran la mejor calidad de voz posible a baja tasa
de bits, con restricciones de complejidad y retardo.
Fig.2 Codificación y decodificación para iLBC Este artículo propone un mecanismo para codificar el
habla preservando su contenido emocional. La preservación
emocional se logró con la ayuda de GMM usando GMM
donde en la semántica del discurso se puede identificar con
su contenido emocional. Dado que la precisión es una
preocupación en GMM, también se incorporará LPC y se
realizará una mejor elección de la función GMM o LPC para la
decodificación con la ayuda de ANN.
Los algoritmos de codificación del habla mejoran día a día para
abordar los problemas de los estándares de comunicación del habla. A
pesar de que este problema se aborda y resuelve, la industria de VoIP
demanda códigos de voz eficientes en energía de bits más bajos.
Referencias
Fig.3 Codificación y decodificación para los sistemas propuestos
[1] Ying-Hui Lai, Fei Chen, Yu Tsao, "Compresión de rango dinámico adaptativo para
La simulación de MATLAB de la voz de entrada para iLBC y los
mejorar la percepción del habla basada en envolventes: Implicaciones para los
codificadores propuestos se han trazado gráficamente (Fig.1-Fig.2). El implantes cocleares" Springer, Tecnología y arquitectura emergentes para
método propuesto reproduce la señal más fielmente a la señal original en análisis de big-data, páginas 191-214, abril de 2017
comparación con otros codificadores. Se observa que a medida que [2] Stanislav Gorlow; Joshua D. Reiss .”Model-Based Inversion of Dynamic Range
disminuye la tasa de bits, los requisitos de cálculo aumentan mucho para Compression” IEEE, IEEE Transactions on Audio, Speech, and Language
los diferentes bits utilizados. Esta es la motivación para la propuesta de un Processing , Página(s): 1434 - 1444, Volumen: 21 Publicación: 7, julio de
2013
código de habla basado en la semántica. La estimación de LP para iLBC se
[3] Virendra Chauhan, Shobhana Dwivedi, Pooja Karale, Prof. SM Potdar
muestra en la figura 3. Esto introduce un retraso y un aumento en el costo
"CONVERTIDOR DE VOZ A TEXTO CON EL MODELO DE MEZCLA DE
de implementación. Sin embargo, para la misma cantidad de bits, el GAUSSIAN (GMM) ", International Journal of Engineering Research
ancho de banda utilizado en G.723.1 e iLBC se reduce mucho más que en and Applications (IJERA), ISSN: 2248-9622, Vol. 2, número 3, mayo-
los codificadores de forma de onda, lo que los hace más adecuados en junio de 2012, pp.1169-1173.
situaciones de escasez de ancho de banda. [4] Dhinesh Babu LD, P. Venkata Krishna, "El comportamiento de las abejas melíferas
inspiró el equilibrio de carga de tareas en entornos de computación en la nube",
Applied Soft Computing 13 (2013), págs. 2292–2303.
[5] Matthias Schmidt,Niels Fallenbeck,Matthew Smith,Bernd
Freisleben,"Distribución eficiente de máquinas virtuales para
computación en la nube", Actas de la 18.ª Conferencia Euromicro de
2010 sobre procesamiento paralelo, distribuido y basado en red,
IEEE Computer Society Washington, DC, (2010), págs. 567-574
3044