Está en la página 1de 5

.

TECNOLOGÍAS SOBRE IP
LABORATORIO N°2
Winder Fabian Torres Cardenas Cód. 20191373018
e-mail: winderfa.96@hotmail.com
Diego Fernando huertas Cod:20191373016
e-mail: huertas.diego@yahoo.com

RESUMEN: Se verán las normas utilizadas además Se convierte una señal analógica a digital, se comprime
de algunos tipos de tecnologías implementadas para el y se empaqueta para su posterior transmisión.
tratamiento de datos y sus características, con la ayuda Se ha confirmado que esta tecnología aumenta la
del software MATLAB se implementarán un Voice productividad y obtiene costos operacionales bajos. [1]
Activity Detection (VAD) un algoritmo de compresión que
busca eliminar el ruido rosado usando la librería Amps: Advance Mobile Phone System
VADG729 y un Vocoder, para variar el efecto de la voz
Gsm: Sistema global para comunicaciones móviles
PALABRAS CLAVE: Datos, Matlab, Normatividad,
software, Vocoder, VAD, Códecs Estándares: La ITU define la especificación H.323 en
1996 basada en el uso de RTP/RTCP, la cual
INTRODUCCIÓN determinaba el tráfico de voz, datos y video para ser
transportado en una red local basada en IP. Dentro de
las recomendaciones existe el estándar G.723.1, quien
Como proceso de investigación se consultan temas requiere 6.3 kbps frente a 8 kbps que se necesitaban
referentes a la normativa de las redes, los diversos anteriormente. [1]
estándares y protocolos de comunicación aplicados a la
codificación, compresión y el encriptado de los paquetes Rtp: protocolo que permite sincronizar flujos de datos de
ya sea de voz, datos, o video, Adicionalmente se una aplicación en tiempo real. [1]
realizan unas pruebas con ayuda del software MATLAB
en donde se puede observar el resultado de la Códecs: garantizan la codificación y compresión de
aplicación del vocoder como sintetizados de voz audio o video para ser decodificado y descomprimido
aplicando un efecto en la voz sintonizada por el grupo y posteriormente, la calidad de los datos suele ser
el VAD (Voice Activity Detection) que se encarga de directamente proporcional al ancho de banda. [2]
verificar el audio recibido y detectar el ruido rosado con
el objetivo de enviar solo la información útil y necesaria. Compresión de audio: Básicamente se define como un
dispositivo capaz de analizar y sintetizar la señal de la
MARCO TEORICO voz humana, este la transforma, la encripta, la comprime
o la multiplexa. Este dispositivo extrae de la señal de la
voz aquellos parámetros que determinan la información
1.1 CONCEPTOS del habla, en otras palabras, son características de los
sonidos del habla que varían lentamente con el
Voz ip: Tecnología para conversaciones orales con una tiempo.[3]
red de conmutación de paquetes mediante protocolos IP
conjugándolo con el protocolo RTP para aplicaciones en VAD: Uso de detector de actividad vocal Debido a los
tiempo real. problemas en la detección de los silencios, El VAD
permite separar los segmentos de voz y los de silencio

1
.

con mayor precisión. De esta forma, al detector fon ético Es importante hacer comparaciones entre los
solo entran segmentos de voz, por lo que el modelo de distintos sistemas de medición de la calidad de la vos.
silencio es innecesario. Para hacer que los modelos Los más usados son: MOS, PSQM y PAMS.
fueran consistentes con el nuevo método, se aplicó el
VAD a la base de datos de entrenamiento y se El máximo retardo permitido por la UIT es de 300
reentrenaron todos los modelos fonéticos, esta vez sin milisegundos que permite una mejor experiencia en la
incluir el silencio.[4] comunicación.

1.2 OBJETIVOS PARA LAS REDES DE También importante como eso es la fluctuación de
COMUNICACIONES retardo que hace que la experiencia de comunicación se
demasiado incómoda llamada jitter .
1G: no contaban con una buena comunicación en la voz
Para quitar esas causas de los retardos es
ya que era por radio la comunicación.
necesario implementar un buffer para guardar los datos
2G: tecnología gsm facilitadora de voz y datos digitales. cuando la comunicación es más rápida. Las razones por
la cual puede haber fluctuación de retardo es por la
2.5G: red de paquetes para proporcionar transferencias conmutación no orientada a la conexión que permite
distintos tiempos de llegada de la información o aunque
e internet de alta velocidad.
sea orientada a la conexión, los routers pueden estar
3G: Aumento de las tasas de datos, facilitar el muy ocupados.
crecimiento, aumentar capacidad de voz y datos,
tecnología packet switching. 1.5 TÉCNICAS DE CODIFICACIÓN
Llamadas de voz mediante conmutación de circuitos.
Son conocidas como:
4G: basado en ip.
Proporcionar ata velocidad, capacidad, seguridad y bajo
 De forma de onda
costo de servicios de voz y datos
 Vocoder o la señal de origen
5G: capa física y enlace de datos  Híbrido
Tecnología de Open Wireless Architecture (OWA). siglas
en inglés significan transistor-transistor logic (lógica 1.5.1 DE FORMA DE ONDA
transistor a transistor). Tecnología de construcción de
circuitos integrados electrónicos digitales basada en el Es el más usado en la tecnología de codificación digital,
uso de transistores bipolares, es característico el uso de en donde se hace un cuantizado al extremo distante,
transistores multiemisores. [5] donde después se reconstruye la señal. Su único
inconveniente es el ancho de banda usado.
1.3 CODIFICACIÓN DE VOZ
1.5.2 VOCODER O LA SEÑAL DE ORIGEN
Para que la voz pueda ser transportada por Internet
es necesario codificarla y decodificarla, así se elimina el Representa la voz mediante un modelo
ruido introducido por la señal analógica y permite matemático. Periódicamente identifica el modelo con el
mejorar el ancho de banda, por lo cual se mejora la que se corresponde al sonido de muestra y envía al
calidad de audio, a esto se le llama Códecs. Es destino parámetros que lo identifican. En el destino se va
importante que ambos dispositivos usen el mismo recontruyendo la forma de onda de acuerdo a los
esquema de codificación y descodificación, es aquí parámetros establecidos. Cabe destacar que en el
donde viene el estandar UIT-T donde se usa el vocoder no se envía estrictamente los datos de voz sino
tradicional G.711, aparecido en 1972 y usado en las de la estructura que la define. Se puede reducir el ancho
redes telefónicas, hasta los modelos más recientes de banda de transmisión hasta los 2,4 Kbps
G.729 con los más altos índices de calidad con una baja identificando los silencios de la señal.[6]
tasa de transmisión.

1.4 CALIDAD DE LA VOZ PROCEDIMIENTO


Es importante medir la calidad de la voz, que es el 3.1 TABLA NORMATIVA Y ESQUEMAS DE
objetivo masivo de la transmisión de voz. Dentro de los
parámetros se encuentran:
CODIFICACIÓN
 Calidad de audición. Si se entiende bien.
 Calidad de conversación. Cómo se Al realizar la consulta se encontraron varias tablas
interactúa. en las cuales se pueden observar los diferentes
 Calidad de la transmisión. Calidad de la esquemas de codificación para 2G, 3G, 4G.
red.
VELOCIDAD DE BITS Y EJEMPLO DE EJEMPLO DE MENA
CODEC (KBPS) TAMAÑO DEL INTERVALO OPINION

2
.

CODEC DE CODEC SCORE FRECUEN 800 – 850 – 850 – 8 A 2,5 3 A 300


(BYTES) (MS) (MOS) CIA 900 1900 1900 GHZ GHZ
G.711 (64) 80 10 4.1 MHZ MHZ MHZ
G.729(8) 10 10 3.92 (GSM)
G.723.1(6.3) 24 30 3.9 825 –
G.723.1(5.3) 20 30 3.8 849
G.726(32) 20 5 3.85 MHZ
G.726(24) 15 5 (CDMA
G.728(16) 10 5 3.61 )
G.722(64) 80 10 4.13 Tabla 3. Evolución de la red de comunicación móvil
ILBC_MODE_2(15.2) 38 20 NA
ILBC_MODE_2(13.33) 5010 30 NA En la tabla3 podemos observar la evolución delas redes
Tabla 1. Códecs más utilizados en los últimos años dando su frecuencia y velocidad.

En la tabla1 se observan los códecs más utilizados con 3.2 APLICACIÓN DEL VAD MATLAB
su velocidad tamaño, tiempo de intervalo.
En la Figura 1 y la Figura 2 se muestra el código que
VELOCIDA TAMAÑO DE TAMAÑO PAQUEES ANCHO DE
permite realizar la detección de ruido rosado de un audio
D DE BITS Y LA CARGA DE LA POR BANDA
específico, se utilizó el códec VAD G.729 aplicado al
CODEC UTIL DE VOZ CARGA SEGUNDO ETHERNET
archivo de audio original “Mi voz.wav”, la secuencia del
(KBPS) (BYTES) UTIL DE (PPS) (KBPS)
VOZ
programa se encarga de leer el audio para
(MS) posteriormente aplicar un filtro detectando los picos altos
G.711 (64) 160 20 67.6 87.2 del audio permitiendo distinguir entre el audio y el
G.729(8) 20 20 11.6 31.2 espacio de pausa del sonido vocal.
G.723.1(6. 24 30 8.8 21.9
3)
G.723.1(5. 20 30 7.7 20.8
3)
G.726(32) 80 20 35.6 55.2
G.726(24) 20 27.6 47.2
G.728(16) 60 30 18.4 31.5
G.722(64) 160 20 67.6 87.2
ILBC_MOD 38 20 18.8 38.4
E_2(15.2)
ILBC_MOD 50 30 15.73 28.8
E_2(13.33)
Tabla 2. Tamaños de carga útil de voz predeterminada
en los gateway h.323 del software cisco

Para los Gateway de cisco son bastante utilizados los


códecs de la Tabla2.
TECNOL 1G 2G 2.5G 3G 4G 5G
OGIA/
CARACT
ERISTICA
S
FECHAS 1970 - 1980 - 1985 - 1990 - 200 - 2006 2015
1984 1991 1999 2002
ESTAND AMPS TDMA, GPRS, WCDM LTE-TDD, IP LAN,
ARES CSMA, EDGE, A, LTE-FDD WAN, PAN,
GSM 1XRTT CDMA - WWWW Figura 1. Código aplicado parte uno[1]
2000
TECNOL ANALO DIGITA DIGITA CDMA, 700 A 2100 ACCESS
OGIA GA L L IP (AWS)
2300(WCS)
2500 Y
2600 MHZ
MULTIPL FDMA TDMA, TDMA, CDMA MC-CDMA CDMA,
EXACION DCMA DCMA OFDM, BDMA
VELOCID 1 KBPS 14 115 384 100 MBPS 1 A 10 GBPS
AD A 2,4 KBPS A KBPS KBPS EN
KBPS 64 (GPRS) 2 MBPS MOVIMIENT
KBPS / 384 O
KBPS 1 GBPS
(EDGE) INMOVIL

3
.

En la aplicación de este sintetizador de voz se utiliza el


“Vocoder.m” que se basa en un ejemplo de matlab, en el
cual funciona de la siguiente forma:

Inicialmente se inicializan las variables a trabajar como


se observa en la Figura .

Posteriormente se procede a leer el audio “Mi voz.wav”


que fue la voz grabada por nosotros como se observa en
la Figura 4.

Figura 2. Código aplicado parte dos[2] Figura 4. Parte adjunta archivo voz

En la Figura 3 se puede observar el resultado final del Teniendo en cuenta la frecuencia audible f=44100, se
código aplicado en donde se observa el ruido rosado procede a reproducir el audio a esta velocidad.
que posee el audio original, aunque se ve resaltado solo
una pequeña parte que se destaca en amarillo.

Se procedió a verificar los efectos causados al audio


original y se aplica un primer efecto a la voz como se
muestra en la Figura 5 y se grafica usando el comando
plot(x), en el cual se desarrolla el sonido un poco
distorsionado con respecto al original, lo guardamos en
el documento llamado “prueba1.wav” en donde se puede
oír al reproducirlo.

Figura 3. Voz con ruido rosado

A pesar de los esfuerzos, se debe modificar los


parámetros de VadInitCstParams para ampliar la
sensibilidad del ruido rosado, parámetros que aún no
hemos podido establecer.

3.3 APLICACIÓN DEL VOCODER EN


MATLAB

4
.

Figura 5. Primer efecto al audio Figura 7 Señal de audio

CONCLUSIONES
Finalmente en la Figura 6 podemos ver el efecto robótico
aplicado a la voz en donde su distorsión es notable, lo
guardamos en el archivo llamado “prueba2.wav”,  El vocoder G.729 CS-ACELP es bastante
además se puede observar la gráfica obtenida. utilizado en aplicaciones libres y esto incluye la
VozIP.
 El efecto más eficaz fue el aplicado por el
vocóder llamado efecto2 o prueba2, ya que su
sonido es más robótico.
 El efecto del VAD en el ruido rosado esta
resaltado en amarillo pero es muy pequeño en
comparación a todo el audio, esto es debido a
la distancia al micrófono que debe ser mayor.
 Para modificar los parámetros del VAD es
necesario modificarlos desde el método
VadInitCstParams, sin embargo, no se ha
podido establecer. Esto para que se pueda
sensibilizar más la voz con respecto al ruido
rosado.

REFERENCIAS

[1] “2. VOZ SOBRE IP: PROTOCOLOS Y CÓDECS


2.1. Introducción.”
[2] “Evolución de la red de comunicación móvil, del
1G al 5G | VIU.” .
[3] I. Luengo et al., “Detección de vocales mediante
modelado de clusters de fonemas * Vowel
detection with phoneme cluster modelling,” 2009.
[4] UNED, “Compresion de audio.”
[5] “Compresión de voz | VoIP.” .
[6] José Antonio Carballar Falcón, VoIP : la telefonía
de Internet. Madrid, España, 2007.

Figura 6. Segundo efecto robótico