Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Vo IP
Vo IP
VoIP
(Voice over IP)
Definicin dada por el Grupo de Estudio 13 del Sector de Normalizacin de la Unin Internacional de
Telecomunicaciones (UIT T) en la Recomendacin Y.2001. Ms informacin consultar Anexo II.1
10
La Voz sobre IP (VoIP, Voice over IP) es una tecnologa que permite la transmisin
de la voz a travs de redes IP en forma de paquetes de datos. La Telefona IP es
una aplicacin inmediata de esta tecnologa, de forma que permita la realizacin de
llamadas telefnicas ordinarias sobre redes IP u otras redes de paquetes utilizando
un PC, gateways y telfonos estndares. En general, servicios de comunicacin voz, fax, aplicaciones de mensajes de voz - son transportados va redes IP,
Internet normalmente, en lugar de ser transportados va la red telefnica
convencional. Sin embargo, generalmente se usa de manera indistinta estos dos
conceptos, pero se puede profundizar en [5]
Las redes IP parecen a priori la solucin ms rpida y factible para alcanzar la
convergencia de redes debido sobre todo a la gran cobertura actual y a su
aceptacin por parte de los usuarios. La integracin de la voz en redes IP mediante
tecnologa VoIP aporta mltiples ventajas:
Ahorros de costos: llevando el trfico de voz sobre redes IP, las compaas
pueden reducir o eliminar los cargos asociados con el transporte de llamadas
sobre la red telefnica pblica conmutada (PSTN). Los proveedores de servicios
y los usuarios finales pueden aun conservar ancho de banda invirtiendo una
capacidad adicional solo cuando es necesario. Esto es posible por la naturaleza
distribuida de VoIP y por los costos de operacin reducida segn las compaas
combinen trficos de voz y datos dentro de una red. Los costes de transmisin
de trfico de telecomunicaciones se pueden reducir drsticamente. El coste de
transmisin de llamadas por IP podra ser de hasta la cuarta parte de las
llamadas por la red telefnica pblica conmutada (RTPC) y los gastos de
mantenimiento podran reducirse en 50 60 % porque las llamadas VoIP slo
utilizan 10 % del ancho de banda necesaria para una llamada por la red
pblica. Otras consideraciones que tambin influencian la adopcin del VoIP
seran los elevados costes de mantenimiento de la infraestructura heredada y la
necesidad de pasar a las redes inteligentes basadas en las tecnologas ms
recientes.
Cabe por ltimo destacar la principal ventaja que esta tecnologa ofrece respecto al
resto de opciones, la facilidad y flexibilidad para la introduccin de nuevos servicios
en la Red. Entre las caractersticas que proporcionan estas ventajas podemos citar:
Desarrollo abierto. Al tratarse de estndares basados en IP, se dispone de
una gran cantidad de profesionales con capacidad en este campo. Ya no se
trata de servicios propietarios desarrollados slo por los suministradores de voz
tradicionales. Ahora es posible que pequeos integradores, proveedores de
servicios etc...entren el negocio del desarrollo de aplicaciones de voz.
Disponibilidad de Software ya desarrollado. La adopcin de VoIP como
tecnologa de voz permite beneficiarse de la enorme capacidad de desarrollo de
toda la comunidad de Internet. Partiendo de la disponibilidad de las pilas de
protocolos H.323, SIP,... se optimiza en costes y en tiempos el esfuerzo
dedicado a la realizacin de nuevos desarrollos.
11
12
Para tratar de minimizar las degradaciones producidas por los factores arriba
expuestos y lograr la calidad de servicio especificada un cada momento, se han
desarrollado un conjunto de mecanismos cuyo uso mejora significativamente la
calidad obtenida. Estas soluciones son:
Clculo del ancho de banda necesario: Uno de los procesos crticos en el
diseo de una red integrada es el clculo del ancho de banda necesario para la
integracin. La mejor forma de obtenerlo es emplear para el anlisis las
aplicaciones de datos y vdeos ms restrictivas, esto es, las que ms ancho de
banda requieran y sumarlas al ancho de banda requerido para el transporte de
voz.
13
Cancelacin de eco
2.3. Protocolos
Tradicionalmente, las redes de rea local se vienen utilizando para la transmisin
de datos, pero conforme las aplicaciones tienden a ser multimedia y los sistemas de
comunicaciones dejan de ser elementos independientes y aislados para atender un
determinado tipo de comunicacin, se tiende a transmitir cualquier tipo de
informacin sobre los medios existentes. La Voz sobre IP (VoIP) abre las puertas a
la convergencia de las redes de voz y datos en una nica red. VoIP supone una
14
Protocolo H.323
El estndar H.323 es un conjunto de normas y protocolos recomendado por el ITUT (International Telecommunication Union) diseado para permitir transmisiones
multimedia en LANs (Local Area Network) basadas en IP.
Proporciona la base para la transmisin de voz, datos y vdeo sobre redes no
orientadas a conexin y que no ofrecen un grado de calidad del servicio, como son
las basadas en IP, incluida Internet. Las aplicaciones y productos conforme a ella
puedan interoperar, permitiendo la comunicacin entre los usuarios sin necesidad
de que stos se preocupen por la compatibilidad de sus sistemas. La LAN sobre la
que los terminales H.323 se comunican puede ser un simple segmento o un anillo,
o mltiples segmentos (es el caso de Internet) con una topologa compleja, lo que
puede resultar en un grado variable de rendimiento.
Fue rpidamente adoptado por fabricantes de equipos para transmitir voz y
videoconferencia sobre IP ya que define un modelo bsico de llamada con servicios
suplementarios (convergencia de voz, vdeo y datos en una sola red) y surgi en el
momento adecuado.
H.323 presentan una gran latencia y no garantizan una determinada calidad del
servicio (QoS). Para la conferencia de datos se apoya en la norma T.120, con lo que
en conjunto soporta las aplicaciones multimedia. Los terminales y equipos conforme
a H.323 pueden tratar voz en tiempo real, datos y vdeo, incluida videotelefona.
Forma parte de la serie de protocolos H.32x, los cuales tambin dirigen las
comunicaciones sobre RDSI (H.320), RTC o SS7. Esta familia de protocolos ha ido
evolucionando con el tiempo para permitir mejorar las transmisiones de voz y vdeo
en LANs y WANs sobre distintos medios. La versin actual data de 2006 y se
conoce como H.323v6.
Sus principales caractersticas son:
No garantiza una calidad de servicio (QoS)
Es independiente de la topologa de la red
Admite pasarelas
Permite usar ms de un canal (voz, vdeo, datos) al mismo tiempo.
El estndar permite que las empresas aadan funcionalidades, siempre que
implementen las funciones de interoperabilidad necesarias.
15
Protocolo SIP
SIP (Session Initiation Protocol) es un protocolo de sealizacin (situado en el nivel
ISO / OSI de aplicacin) para el establecimiento, mantenimiento y terminacin de
sesiones interactivas entre usuarios. Estas sesiones pueden tratarse de
conferencias multimedia, chat, sesiones de voz o distribucin de contenidos
multimedia. SIP, creado en 1996 por Mark Handley y Henning Schulzrinne, ha sido
estandarizado por la IETF (Internet Engineering Task Force) y la especificacin ms
reciente de SIP se puede encontrar en el RFC 3261.
16
Redireccin de llamadas
Resolucin de direcciones
Determinar la disponibilidad de un punto final
Establecer llamadas punto a punto o multipunto
Para la comparacin de estos dos protocolos, se ha usado como base una serie de
artculos que aparecen recogidos en la bibliografia. La conclusin se ha obtenido
ponderando tanto la conclusin propia de dicho estudio como las caractersticas
especficas de este proyecto. El estudio comparativo obtenido es el siguiente:
a. Complejidad. En este punto SIP tiene una ventaja sobre H.323, dado que
este ltimo presenta procesos ms complejos para codificar y decodificar
paquetes, a pesar de que los mismos por si solos no presentan mayor
17
Conclusin
Una vez analizados los aspectos que permitieron establecer la comparacin entre
ambos protocolos, se procedi a
establecer una tabla comparativa con las
caractersticas estudiadas y su peso relativo normalizado sobre 1 para cuantificar la
mejora de un proyecto sobre otro.
PARMETRO
Complejidad
Escalabilidad
Modularidad
Uso de
recursos
O&M
TOTAL
PESO
0.1
0.25
0.1
SIP
0.1
0.25
0.1
H.323
0
0.25
0
0.25
0.3
1
0.25
0.3
1
0.25
0.3
0.8
18
Sin embargo, tal y como se ha realizado este estudio, SIP ofrece desde un punto de
vista tcnico una mayor efectividad.
Adems de las valoraciones propias de la fuente de documentacin usada, se da
como valor aadido (para este escenario concreto) la modularidad, puesto que se
presenta como una de las caractersticas ms importantes de Asterisk (en el
apartado
Soluciones para VoIP en Software Libre se especifican estos criterios) y una de las
razones por las que su uso se haca ptimo como solucin al escenario de trabajo
de Persan. Es por todo esto que se usar SIP como protocolo de trabajo en este
proyecto.
19
Cdec
Muestreo Peridico
Red IP
EMPAQUETAR
Muestras
codificadas
(TRAMAS)
Paquetes con
una o ms
tramas
Cdecs de Audio
A continuacin se detallan los cdecs de audio ms importantes:
G.711 U-law: El algoritmo Ley Mu (-law mu-law) es un sistema de
cuantificacin logartmica de una seal de audio. Es utilizado principalmente
para audio de voz humana. Este sistema de codificacin es usado en EEUU y
el Japn.
La implementacin del sistema consiste en aplicar a la seal de entrada una
funcin logartmica y una vez procesada realizar una cuantificacin uniforme.
Es lo mismo que decir que el paso de cuantificacin sigue una funcin del
tipo logartmico.
Esta funcin viene definida de la siguiente forma para un input x dado:
20
F ( x) = sgn( x)
ln(1 + x
1 x 1
ln(1 + )
F 1 ( y ) = sgn( y )( 1 ) (1 + )
1 1 y 1
Utilizar G.711 para VoIP nos dar la mejor calidad de voz; ya que no usa
ninguna compresin y es el mismo cdec utilizado por la red RTC y lneas
RDSI, suena como si utilizramos un telfono RDSI normal. Tambin tiene la
menor latencia puesto que no hay necesidad de compresin, lo cual cuesta
menos capacidad de procesamiento. La pega es que utiliza ms ancho de
banda que otros cdecs, hasta 84 Kbps incluyendo todo el overhead de
TCP/IP. No obstante, aumentando el ancho de banda, esto no debera ser un
problema.
G.711 A-law: La ley A (A-Law) es un sistema de cuantificacin logartmica
de seales de audio, usado habitualmente con fines de compresin en
aplicaciones de voz humana. Est estandarizada por la ITU-T. Este sistema
de codificacin es usado en Europa.
El algoritmo Ley A basa su funcionamiento en un proceso de compresin y
expansin llamado companding. Se aplica una compresin/expansin de las
amplitudes
y
posteriormente
una cuantificacin uniforme. Las amplitudes de la seal de audio pequeas
son expandidas y las amplitudes ms elevadas son comprimidas. La
implementacin del sistema consiste en aplicar a la seal de entrada una
funcin logartmica y una vez procesada realizar una cuantificacin uniforme.
Para una entrada x dada, la ecuacin Ley A de salida es:
G.723.1: Un standard ITU del tipo narrow-band audio codec que codifica el
habla en una cadena de datos cada 30ms (240 muestras en total). Cada
frame puede ser de 24 o 20 bytes de longitud, lo que hace a la cadena de
datos tanto de 6.4kb/sec o 5.3kb/sec. Este cdec esta cubierto por una
variedad de patentes, lo que significa que debe ser pagada una patente
antes de poder ser utilizado comercialmente.
21
GSM: GSM emplea una modulacin GMSK (Gaussian Minimum Shift Keying)
ILBC: iLBC, "Internet Low Bit rate Codec" es un cdec para voz apropiado
para comunicaciones robustas sobre VoIP. Este cdec est diseado para
ahorrar ancho de banda y resulta en un carga til de 13.33 Kb/s usando
tramas de 30 ms y en 15.20 Kb/s usando tramas de 20 ms. El cdec es
capaz de enfrentar la eventualidad de que se pierdan tramas, lo cual ocurre
cuando se pierde la conexin o se retrasan los paquetes IP.
El algoritmo iLBC, usa una codificacin de prediccin-lineal y bloquesindependientes (LPC), este algoritmo tiene soporte para dos tamaos
bsicos de tramas: 20 ms a 15.2 Kb/s y 30 ms a 13.33 Kb/s.
Speex: El proyecto Speex tiene como objetivo crear un cdec libre para voz,
sin restricciones de ninguna patente de software. Speex est sujeto a la
Licencia BSD y es usado con el contenedor Ogg de la Fundacin Xiph.org.
Las metas en el diseo eran permitir buena calidad en la voz y bajo bit-rate
(desafortunadamente no al mismo tiempo). Buena calidad tambin
significaba tener soporte para wideband (frecuencia de muestreo de 16 kHz)
adems de narrowband (calidad de telfono, frecuencia de muestreo de 8
kHz).
El diseo para VoIP en vez de telfonos celulares significa que Speex debe
ser robusto a prdida de paquetes, pero no corromperlos, entonces los
paquetes llegan sin alteracin o no llegan para nada. Tambin, la idea era
tener una complejidad y requerimiento en memoria razonable sin
comprometer mucho la eficiencia del cdec.
22
Los cdecs citados anteriormente, son los ms usados para la codificacin de audio
y particularmente de voz.
Sin embargo, cada uno de ellos posee unas
caractersticas que lo hacen ms o menos atractivo como solucin a una
arquitectura y unas condiciones determinadas.
Asterisk soporta todos los cdecs mencionados en este apartado, sin embargo ser
necesario estudiar cul de ellos se adapta mejor a las limitaciones de ancho de
banda as como a otras consideraciones derivadas de la arquitectura propuesta
como solucin al trabajo. El objetivo principal es llegar a un compromiso entre la
mayor eficiencia posible y el ancho de banda disponible. Todo este estudio se
puede consultar en el Anexo I.1 que hace referencia a la metodologa para
seleccionar el cdec de audio en funcin de la solucin de red.
23
24
25
Compresin Temporal
Los bloques y macro-bloques anteriormente definidos, que no cambien en cuadros
sucesivos, se agrupan formando rodajas para poder sincronizarlos, y no se vuelven
a codificar. Esta estructura le permite al receptor volver a sincronizarse al principio
de cada rodaja en el caso de errores de transmisin, puesto que cada una de ellas
comienza con una cabecera nica.
26
Tipos de Imagenes
Para conseguir las citadas compresiones de seal de vdeo, se emplean tres tipos
de imgenes
que se almacenan para posibilitar una prediccin temporal de
prdidas o imgenes incompletos que recibe el receptor. Estas imgenes son:
Intra imgenes (tipo I)
Imgenes predictivas (tipo P)
Imgenes predictivas bidireccionales (tipo B)
Las Intra imgenes (I) se codifican sin referencia a otras imgenes. Su tasa de
compresin es moderada, ya que slo eliminan redundancia espacial.
No dependen, por tanto, de las imgenes previas y es el punto donde el
decodificador inicia su trabajo con un grupo de escenas que contienen una
secuencia. Las imgenes I se insertan cada 12 imgenes tipo P.
Las imgenes predictivas (P) se codifican usando algoritmos de prediccin a partir
de una imagen anterior, que puede ser del tipo I o del tipo P, las cuales se emplean
como referencia para posteriores predicciones (Forward Prediction o prediccin
adelantada). La informacin de la imagen I se emplea como prediccin de las
imgenes tipo P, tambin la informacin de la primera imagen P se usa como
prediccin de la siguiente P. En ambos casos la prediccin es siempre hacia
adelante.
Al eliminar la redundancia espacial y temporal, las imgenes P admiten mayor
grado de compresin que las I. Necesitan una memoria donde se pueda almacenar
ms de una escena.
27
Las imgenes tipo P sirven como referencia para las futuras imgenes P o B, pero si
existen errores en una imagen tipo P, va a buscar futuras imgenes derivadas de
ella.
Las imgenes tipo B utilizan una interpolacin bidireccional de prediccin del
movimiento para que el decodificador pueda reconstruir una imagen que est
alojada entre dos imgenes reconstruidas. Las imgenes tipo B utilizan imgenes
pasadas y futuras para hacer las predicciones, por lo que necesitan ms de dos
imgenes almacenadas en la memoria. Se trata de prediccin bidireccional.
Las imgenes tipo B reciben informacin tanto de las imgenes I como de las P
anteriores o posteriores. Son las imgenes con mayor tasa de compresin. Para
permitir la prediccin hacia atrs, a partir de imgenes futuras, el codificador
ordena las imgenes, de forma que as de tipo B son transmitidas despus de las
imgenes pasadas o futuras a las que estn referenciadas.
Las imgenes se presentan agrupadas en 12 cuadros o GOP (Group Of Pictures),
cuyo orden ha de ser tal que sean las Intra imgenes la base del orden, es decir, la
referencia para elaborar las imgenes P y B, pues sin la presencia de las imgenes I
el decodificador no es capaz de predecir ni una P ni una B.
28
29