Está en la página 1de 21

Captulo 2:

VoIP
(Voice over IP)

MIGRACIN DE UN SISTEMA DE TELEFONA EN PRODUCCIN HACIA VOIP CON ASTERISK

2. VoIP (Voice over IP)


2.1. Introduccin a la telefona IP
En los ltimos aos, se ha producido un aumento de la demanda de comunicacin
(voz y datos) en el mundo, generando un trfico que la infraestructura de red de
conmutacin de circuitos existente (PSTN, Public Switched Telephone Network) no
esta preparada para llevar. Esto ha generado la creciente tendencia de las
compaas de telecomunicaciones a integrar las redes de datos y voz en una misma
arquitectura. La convergencia de estas redes se agrupa bajo el concepto de redes
de prxima generacin, NGN (Next Generation Networking). Esta red basada en
paquetes permite prestar servicios de telecomunicacin en la que se pueden
utilizar mltiples tecnologas de transporte de banda ancha propiciadas por la QoS
(Quality of Service), y en la que las funciones relacionadas con los servicios son
independientes de las tecnologas subyacentes relacionadas con el transporte.
Permite a los usuarios el acceso sin trabas a redes y a proveedores de servicios y/o
servicios de su eleccin. Se soporta movilidad generalizada que permitir la
prestacin coherente y ubicua de servicios a los usuarios1. En resumen, el xito de
estas redes reside en la posibilidad de integrar tecnologas multimedia y la
capacidad de soportar un gran volumen de datos, generando nuevos servicios y
beneficios para los usuarios, sin olvidar el abaratamiento del uso de redes IP frente
a conmutacin de circuitos. En el Anexo I.1 Caractersticas fundamentales de una
red NGN se detallan las especificaciones propias de este tipo de redes.
El servicio de voz sobre este tipo de redes se llama VoIP (Voice over Internet
Protocol) y permite el uso de redes de datos para realizar llamadas de voz. Para
este proceso, es necesario el tratamiento de la voz. El mtodo empleado consiste
en la toma de muestras discretas de sta (tomadas en puntos discretos del espacio
o del tiempo) que son posteriormente representadas en un formato especfico
dependiendo del tipo de medio, denominado codificacin. El procedimiento de
codificacin lleva implcitos una serie de tratamientos a travs de los cuales la seal
es finalmente representada con un nmero limitado de bits. Una vez tratada la voz
humana y codificada como una seal digital, se enva a travs de las redes de
datos, siendo la ms comn Internet. Existen diferentes cdecs para tratar la voz,
cada uno de los cuales con unas caractersticas determinadas que se estudiarn el
apartado correspondiente.
La tecnologa VoIP permite encapsular la voz en paquetes para ser transportados
sobre redes IP sin necesidad de disponer de circuitos conmutados como en el caso
de la telefona tradicional. La red convencional de telefona se basa en la
conmutacin de circuitos, estableciendo circuitos fsicos durante todo el tiempo que
se mantenga la conversacin. Esto implica la reserva de recursos hasta que la
comunicacin finalice, no pudiendo ser utilizados por otras comunicaciones. Por otro
lado, la telefona IP no utiliza circuitos fsicos, sino que enva mltiples
conversaciones a travs del mismo canal (circuito virtual) mediante codificacin en
paquetes y flujos independientes.
Desde que las primeras comunicaciones de voz aparecieron en 1995, gracias a las
tecnologas desarrolladas por la empresa VocalTec, han aparecido distintos niveles
de desarrollo hacia la convergencia de redes tales como voz en Internet, VoIP,
telefona IP, fax sobre IP, sin embargo, aqu solo se profundizar los conceptos de
VoIP y telefona IP.
1

Definicin dada por el Grupo de Estudio 13 del Sector de Normalizacin de la Unin Internacional de
Telecomunicaciones (UIT T) en la Recomendacin Y.2001. Ms informacin consultar Anexo II.1

MIGRACIN DE UN SISTEMA DE TELEFONA EN PRODUCCIN HACIA VOIP CON ASTERISK

10

La Voz sobre IP (VoIP, Voice over IP) es una tecnologa que permite la transmisin
de la voz a travs de redes IP en forma de paquetes de datos. La Telefona IP es
una aplicacin inmediata de esta tecnologa, de forma que permita la realizacin de
llamadas telefnicas ordinarias sobre redes IP u otras redes de paquetes utilizando
un PC, gateways y telfonos estndares. En general, servicios de comunicacin voz, fax, aplicaciones de mensajes de voz - son transportados va redes IP,
Internet normalmente, en lugar de ser transportados va la red telefnica
convencional. Sin embargo, generalmente se usa de manera indistinta estos dos
conceptos, pero se puede profundizar en [5]
Las redes IP parecen a priori la solucin ms rpida y factible para alcanzar la
convergencia de redes debido sobre todo a la gran cobertura actual y a su
aceptacin por parte de los usuarios. La integracin de la voz en redes IP mediante
tecnologa VoIP aporta mltiples ventajas:
Ahorros de costos: llevando el trfico de voz sobre redes IP, las compaas
pueden reducir o eliminar los cargos asociados con el transporte de llamadas
sobre la red telefnica pblica conmutada (PSTN). Los proveedores de servicios
y los usuarios finales pueden aun conservar ancho de banda invirtiendo una
capacidad adicional solo cuando es necesario. Esto es posible por la naturaleza
distribuida de VoIP y por los costos de operacin reducida segn las compaas
combinen trficos de voz y datos dentro de una red. Los costes de transmisin
de trfico de telecomunicaciones se pueden reducir drsticamente. El coste de
transmisin de llamadas por IP podra ser de hasta la cuarta parte de las
llamadas por la red telefnica pblica conmutada (RTPC) y los gastos de
mantenimiento podran reducirse en 50 60 % porque las llamadas VoIP slo
utilizan 10 % del ancho de banda necesaria para una llamada por la red
pblica. Otras consideraciones que tambin influencian la adopcin del VoIP
seran los elevados costes de mantenimiento de la infraestructura heredada y la
necesidad de pasar a las redes inteligentes basadas en las tecnologas ms
recientes.

Ahorro de Ancho de Banda en las comunicaciones: El uso de cdecs


perceptuales permite reducir drsticamente el ancho de banda, lo que se
traduce en un rendimiento considerablemente mayor de los medios de
transmisin con el consiguiente ahorro. Es importante destacar el efecto
negativo que pueden tener las cabeceras de las redes que soportan a la Red IP.

Cabe por ltimo destacar la principal ventaja que esta tecnologa ofrece respecto al
resto de opciones, la facilidad y flexibilidad para la introduccin de nuevos servicios
en la Red. Entre las caractersticas que proporcionan estas ventajas podemos citar:
Desarrollo abierto. Al tratarse de estndares basados en IP, se dispone de
una gran cantidad de profesionales con capacidad en este campo. Ya no se
trata de servicios propietarios desarrollados slo por los suministradores de voz
tradicionales. Ahora es posible que pequeos integradores, proveedores de
servicios etc...entren el negocio del desarrollo de aplicaciones de voz.
 Disponibilidad de Software ya desarrollado. La adopcin de VoIP como
tecnologa de voz permite beneficiarse de la enorme capacidad de desarrollo de
toda la comunidad de Internet. Partiendo de la disponibilidad de las pilas de
protocolos H.323, SIP,... se optimiza en costes y en tiempos el esfuerzo
dedicado a la realizacin de nuevos desarrollos.


Plataformas Hardware Estndares. La separacin de hardware por funciones


en una red VoIP junto con el potencial desarrollo de servicios sobre
arquitecturas IP permite la utilizacin de plataformas hardware estndares

MIGRACIN DE UN SISTEMA DE TELEFONA EN PRODUCCIN HACIA VOIP CON ASTERISK

11

sobre las que implantar los servicios, a diferencia de la solucin tradicional


basada en equipamiento propietario. Cabe destacar por tanto que la mayor
ventaja de esta tecnologa es la posibilidad de desarrollo de nuevos servicios.
Una tecnologa que proporcionase los mismos servicios que las anteriores sin
esta ventaja, sera vctima de las tecnologas propietarias y las soluciones de
suministrador nico que tanto han lastrado el despliegue de servicios de voz
innovadores por parte de los nuevos operadores.
La voz sobre IP enfrenta problemticas propias de las redes de datos, que se
manifiestan como degradaciones en la calidad del servicio percibida por los usuarios
(QoS). Se puede obtener ms informacin al respecto consultando [3].
Para realizar una transmisin de voz, es necesario que todos los paquetes lleguen
ordenados, que se garantice una mnima tasa de transmisin y sobre todo que no
haya prdidas de paquetes. Cada paquete contiene aproximadamente unos 20
milisegundos de seal vocal (depende del cdec empleado), lo que equivale a
medio fonema. Los principales problemas que se deben solventar para conseguirlo
son:
Ancho de banda: el ancho de banda o capacidad de transmisin necesaria
para la transmisin de la seal de voz, es funcin del algoritmo de codificacin
y compresin del cdec utilizado. Como cualquier red, una red de conmutacin
de paquetes se va a caracterizar por un cierto ancho de banda disponible, que
debe repartirse entre todas las aplicaciones de la red. Para arbitrar este reparto
surgieron los mecanismos de QoS (Quality of Service) que asignan una parte
del total del ancho de banda disponible a determinadas aplicaciones y as, con
independencia del trfico que tenga que cursar la red, siempre habr capacidad
suficiente para transportar los paquetes de voz. La tcnica empleada para
gestionar la asignacin de ancho de banda ser determinante en el retardo que
sufrirn los paquetes, y por tanto, en la calidad de la seal de voz. Puesto que
uno de los procesos crticos en el diseo de una red es el clculo del ancho de
banda necesario, la mejor forma de obtenerlo es emplear para el anlisis las
aplicaciones de datos y vdeos ms restrictivas, esto es, las que ms ancho de
banda requieran y sumarlas al ancho de banda requerido para el transporte de
voz.

Latencia o retardo: al ser un servicio en tiempo real es necesario diferenciar


entre los paquetes de voz y de datos, priorizando la transmisin para evitar que
supere un cierto umbral de retardo. La latencia es la suma de retardos
temporales dentro de una red. Un retardo es producido por la demora en la
propagacin y transmisin de paquetes. Otros factores que influyen en la
latencia de una red son el tamao de los paquetes transmitidos o el tamao de
los buffers dentro de los equipos. Durante su recorrido por la red IP las tramas
se pueden perder como resultado de una congestin de red o corrupcin de
datos. Adems, para trfico de tiempo real como la voz, la retransmisin de
tramas perdidas en la capa de transporte no es prctica por ocasionar retardos
adicionales. Se considera aceptable un retardo por debajo de los 150 ms e
impracticable por encima de los 300ms.

Jitter: puede definirse como variabilidad, respecto a la media, del retardo


que sufren los paquetes en su viaje de la fuente al destino, y llega a ser ms
perjudicial que el propio retardo. Si un paquete se retarda ms de lo debido, no
llegar a tiempo al receptor, por lo que se dar por perdido y se actuar en
consecuencia. La principal causa de jitter son las variaciones del retardo de
encolado debido a los cambios dinmicos que sufre la carga de trfico de la red.
Tambin influyen las diferencias en el retardo de propagacin.

MIGRACIN DE UN SISTEMA DE TELEFONA EN PRODUCCIN HACIA VOIP CON ASTERISK

12

Eco: Es consecuencia de las reflexiones que sufre la seal en el otro


extremo. Cuando el retardo del eco supera un cierto umbral (establecido por la
ITU en 5 milisegundos), el hablante comienza a escuchar una versin retardada
de sus propias palabras. Si dicho retardo alcanzara niveles muy elevados,
mantener una conversacin podra llegar a ser imposible. Hay dos causas de
eco: el eco acstico, debido a que el audio del imnate se acopla en el
micrfono del terminal, y el eco elctrico, producido por las reflexiones que
sufre la seal generada por el circuito que convierte el circuito de 4 hilos propio
de la red de transmisin a 2 hilos propio del bucle de abonado.

Para tratar de minimizar las degradaciones producidas por los factores arriba
expuestos y lograr la calidad de servicio especificada un cada momento, se han
desarrollado un conjunto de mecanismos cuyo uso mejora significativamente la
calidad obtenida. Estas soluciones son:
Clculo del ancho de banda necesario: Uno de los procesos crticos en el
diseo de una red integrada es el clculo del ancho de banda necesario para la
integracin. La mejor forma de obtenerlo es emplear para el anlisis las
aplicaciones de datos y vdeos ms restrictivas, esto es, las que ms ancho de
banda requieran y sumarlas al ancho de banda requerido para el transporte de
voz.

Priorizar el trfico: Los mecanismo de clasificacin adquieren una


importancia fundamental, pues constituyen el primer paso de cualquiera el
resto de las tcnicas de QoS. Es el propio operador de red (ya sea pblica o
privada) quin va a determinar si la clasificacin se va a llevar a cabo
analizando las caractersticas del trfico de cada paquete en base a una sesin,
es decir, en funcin de lo que se establezca en la fase de negociacin de
parmetros extremo a extremo que tiene lugar antes de la transmisin. En
cuanto a la poltica de clasificacin, existen criterios muy variados: tipo de
trfico contenido en el paquete, direccin IP, puerto, etc.

Una vez se ha determinado el ancho de banda necesario, se debe garantizar que se


cumplen las restricciones impuestas. Se usan dos procedimientos para ello: las
funciones polica y las tcnicas de adaptacin del trfico que responden a las
violaciones del ancho de banda asignado a un determinado tipo de trfico.
Cuando dicho flujo intenta consumir ms ancho de banda del que le corresponde,
debe existir algn mecanismo que se lo impida o, de lo contrario, se vern
afectados el resto de los flujos. La diferencia entre las funciones polica y las
tcnicas de adaptacin del trafico estriba en el modo en que responde a dichas
violaciones. Mientras que las funciones polica marcan los paquetes que exceden el
lmite como descartados, las funciones de adaptacin modifican la tasa del trfico a
travs de mecanismos de encolado en los que se retienen los paquetes y se liberan
de manera que el flujo de salida se encuentre dentro de los parmetros
establecidos
Supresin de silencios o VAD (Voice Activity Detection): es una tcnica
utilizada en el procesamiento de discurso en el que se detecta la presencia o
ausencia del habla humana, es decir, permite la supresin de silencio en las
pausas naturales del habla o cuando habla el otro interlocutor. Evita la
codificacin innecesaria y transmisin de paquetes de silencio en aplicaciones
de voz sobre protocolo de Internet, ahorrando en el clculo y el ancho de banda
de red. Puede presentar algunos problemas como son recortes al inicio y fin de
cada palabra o fonema o una respuesta lenta.

MIGRACIN DE UN SISTEMA DE TELEFONA EN PRODUCCIN HACIA VOIP CON ASTERISK

13

Cancelacin de eco

Implantacin de IPv6 para un mayor espacio de direccionamiento.

Para que la tecnologa de voz sobre IP pueda ser utilizada comercialmente, es


esencial garantizar una calidad de voz aceptable. Para ello se han desarrollado
mtodos para medirla. Estos mtodos se dividen en subjetivos y objetivos. Los
diversos mtodos subjetivos de medida de la calidad de servicio, se basan en
conocer directamente la opinin de los usuarios. Tpicamente resultan en un
promedio de opiniones (Mean Opinin Store) llamado MOS. Los mtodos objetivos.
A su vez se subdividen en intrusivos (se inyecta una seal de voz conocida en el
canal y se estudia su degradacin a la salida) y no intrusivos (monitorean ciertos
parmetros en un punto de la red y en base a estos se establece en tiempo real la
calidad que percibira un usuario). Toda esta informacin puede analizarse con ms
detalle en la bibliografa recomendada [5].

2.2. Caractersticas Principales


En una Red VoIP de vanguardia, para la transmisin de voz se pueden distinguir
los siguientes elementos:
Infraestructura IP: transporte tanto para la sealizacin de las llamadas
como para la voz. Esta Red debe seguir unas condiciones de diseo especficas
que permitan el transporte de la voz con la calidad adecuada.

Equipo de Cliente o Gateway Residencial: encargado de originar o recibir las


llamadas del cliente. Estos pueden ser equipos que se integran directamente en
la red VoIP (telfonos H.323,...) o gateways de cliente que proporcionan una
interfaz hacia la red y una o mas interfaces tradicionales de voz hacia el cliente
(POTS, RDSI,...).

Gateway de Red: permite la comunicacin entre la red VoIP y las Redes


tradicionales de Conmutacin de Circuitos (PSTN). Estos elementos se encargan
de convertir las llamadas VoIP con voz paquetizada a llamadas de conmutacin
de circuitos. Por lo general la comunicacin con la red tradicional se basar en
el protocolo SS7.

SoftSwitch: elemento central de la red. Realiza la misma funcin de control


de red que el nodo de conmutacin de una red de voz tradicional. Sus
principales funciones son el enrutamiento de las llamadas (funcionalidades de
clase IV) y proporcionar servicios suplementarios (funcionalidades de clase V).
El SoftSwitch se encarga de recibir la sealizacin de las llamadas y de
enrutarlas hacia su destino.

2.3. Protocolos
Tradicionalmente, las redes de rea local se vienen utilizando para la transmisin
de datos, pero conforme las aplicaciones tienden a ser multimedia y los sistemas de
comunicaciones dejan de ser elementos independientes y aislados para atender un
determinado tipo de comunicacin, se tiende a transmitir cualquier tipo de
informacin sobre los medios existentes. La Voz sobre IP (VoIP) abre las puertas a
la convergencia de las redes de voz y datos en una nica red. VoIP supone una

MIGRACIN DE UN SISTEMA DE TELEFONA EN PRODUCCIN HACIA VOIP CON ASTERISK

14

reduccin de costes en la instalacin de cableado, ofreciendo adems la flexibilidad


de soportar nuevos servicios como la videoconferencia a travs de Internet o la
conexin con PCS. No obstante, VoIP no carece de inconvenientes, las actuales
redes IP, en las que Internet est basada, no garantizan calidad de servicio. Por
ello, los distintos protocolos empleados en las comunicaciones VoIP deben ser
tolerantes a posibles retrasos o prdidas de informacin que se puedan dar, en la
medida de lo posible. En la actualidad destacan dos tecnologas que se emplean
para comunicaciones de voz sobre IP. Son H.323 y SIP.
En los sub-apartados siguientes, se describirn brevemente estos protocolos. Estos
puntos sern una breve introduccin a la comparativa entre ellos que permitir
justificar por qu uno o el otro son los ms apropiados para el trabajo a desarrollar.

Protocolo H.323
El estndar H.323 es un conjunto de normas y protocolos recomendado por el ITUT (International Telecommunication Union) diseado para permitir transmisiones
multimedia en LANs (Local Area Network) basadas en IP.
Proporciona la base para la transmisin de voz, datos y vdeo sobre redes no
orientadas a conexin y que no ofrecen un grado de calidad del servicio, como son
las basadas en IP, incluida Internet. Las aplicaciones y productos conforme a ella
puedan interoperar, permitiendo la comunicacin entre los usuarios sin necesidad
de que stos se preocupen por la compatibilidad de sus sistemas. La LAN sobre la
que los terminales H.323 se comunican puede ser un simple segmento o un anillo,
o mltiples segmentos (es el caso de Internet) con una topologa compleja, lo que
puede resultar en un grado variable de rendimiento.
Fue rpidamente adoptado por fabricantes de equipos para transmitir voz y
videoconferencia sobre IP ya que define un modelo bsico de llamada con servicios
suplementarios (convergencia de voz, vdeo y datos en una sola red) y surgi en el
momento adecuado.
H.323 presentan una gran latencia y no garantizan una determinada calidad del
servicio (QoS). Para la conferencia de datos se apoya en la norma T.120, con lo que
en conjunto soporta las aplicaciones multimedia. Los terminales y equipos conforme
a H.323 pueden tratar voz en tiempo real, datos y vdeo, incluida videotelefona.
Forma parte de la serie de protocolos H.32x, los cuales tambin dirigen las
comunicaciones sobre RDSI (H.320), RTC o SS7. Esta familia de protocolos ha ido
evolucionando con el tiempo para permitir mejorar las transmisiones de voz y vdeo
en LANs y WANs sobre distintos medios. La versin actual data de 2006 y se
conoce como H.323v6.
Sus principales caractersticas son:
No garantiza una calidad de servicio (QoS)
Es independiente de la topologa de la red
 Admite pasarelas
 Permite usar ms de un canal (voz, vdeo, datos) al mismo tiempo.
 El estndar permite que las empresas aadan funcionalidades, siempre que
implementen las funciones de interoperabilidad necesarias.



La arquitectura de H.323 define todo lo necesario (componentes, protocolos,


sealizacin, cdecs...etc) para llevar a cabo la comunicacin y garantizar as la
compatibilidad entre dispositivos.

MIGRACIN DE UN SISTEMA DE TELEFONA EN PRODUCCIN HACIA VOIP CON ASTERISK

15

Los componentes principales del sistema H.323 son:


1. Terminales H.323: que son puntos finales (equipos que usan directamente
los usuarios) en una LAN.
2. Pasarelas que trabajan como la interfaz de red entre la LAN y de
conmutacin de circuitos, hacen de enlace con la red telefnica conmutada,
actuando de forma transparente para el usuario.
3. Porteros o Gatekeepers que realiza funciones de control de admisin y otras
tareas. Son el centro de toda organizacin VoIP y son el equivalente a las
centralitas privadas o PBX (Private Branch eXchange). Normalmente se
implementan por software.
4. MCU (Multipoint Control Unit) que ofrece conferencias entre tres o ms
puntos finales.
Se pueden observar estos elementos en la figura siguiente.

Figura 1. Elementos de una red H.323

El estndar H.323 comprende una serie de estndares y se apoya en una serie de


protocolos que cubren los distintos aspectos de la comunicacin, tal y como el
H.225 para el establecimiento y finalizacin de llamadas entre terminales, H.245,
mensajes de control extremo a extremo y negociacin de las capacidades de ancho
de banda (mensajes TerminalCapabilitySet), de la apertura y cierre de los canales
lgicos (mensajes OpenLogicalChannel, CloseLogicalChannel y EndSessionComand),
de los cdecs y mensajes de control de flujo.
El uso de todos estos protocolos as como la funcionalidad de cada uno de los
elementos se detalla en profundidad en el anexo correspondiente, Anexo I
Protocolo H.323

Protocolo SIP
SIP (Session Initiation Protocol) es un protocolo de sealizacin (situado en el nivel
ISO / OSI de aplicacin) para el establecimiento, mantenimiento y terminacin de
sesiones interactivas entre usuarios. Estas sesiones pueden tratarse de
conferencias multimedia, chat, sesiones de voz o distribucin de contenidos
multimedia. SIP, creado en 1996 por Mark Handley y Henning Schulzrinne, ha sido
estandarizado por la IETF (Internet Engineering Task Force) y la especificacin ms
reciente de SIP se puede encontrar en el RFC 3261.

MIGRACIN DE UN SISTEMA DE TELEFONA EN PRODUCCIN HACIA VOIP CON ASTERISK

16

SIP no define por si mismo un sistema de comunicaciones ni ofrece servicio alguno,


es un protocolo flexible que se limita a ofrecer una serie de primitivas que las
aplicaciones pueden utilizar para implementar servicios. SIP ofrece funciones tales
como:





Redireccin de llamadas
Resolucin de direcciones
Determinar la disponibilidad de un punto final
Establecer llamadas punto a punto o multipunto

SIP se utiliza para el control de las sesiones de comunicacin multimedia como


llamadas de voz y vdeo sobre IP. El protocolo SIP, cuya operacin se basa en
mensajes de peticin y respuesta, reutiliza muchas de las reglas de codificacin,
cdigos de error y campos de cabecera de HTTP. Las funciones de control de
llamadas (redireccin, transferencia, cambio de formatos y codificacin, etc) que
proporciona estn integradas con la infraestructura web como los sistemas de
programacin que utilizan la interfaz CGI. El uso de tipos MIME para describir los
contenidos tratados por los mensajes SIP hace posible, por ejemplo, devolver
cualquier tipo de contenido web ante un mensaje de inicio de llamada.
SIP ha sido diseado en conformidad con el modelo de Internet. Se trata de un
protocolo extremo a extremo donde toda la lgica se almacena en dispositivos
finales (excepto el enrutamiento de mensajes SIP). Es independiente del protocolo
subyacente, ya sea UDP, TCP, AAL5, X.25 o Frame Relay. Las sesiones multimedia
controladas por SIP pueden constar de varias sesiones RTP sin que todos los
participantes tengan por qu participar en todas las sesiones RTP. SIP es un
protocolo cliente-servidor de sealizacin al que se pueden aadir nuevos mtodos
y capacidades. Para analizar ms a fondo las caractersticas de este protocolo se
puede consultar el anexo correspondiente.

Comparativa H.323 vs SIP


Para medir las prestaciones de ambos protocolos se usarn los siguientes
parmetros de comparacin:






Complejidad: Se refiere a las caractersticas intrnsecas de cada protocolo,


como el conjunto de mensajes, posibilidades de depuracin de trama
Escalabilidad: Se refiere a la facilidad de una red para adoptar el estndar.
Modularidad: indica el nivel de versatilidad de una red que use dicho
protocolo.
Utilizacin de recursos: Representa el uso de recursos en CPU, uso de ancho
de banda que necesita cada protocolo para un funcionamiento normal
Operacin y mantenimiento: se refiere a las herramientas y recursos
utilizados, es posible para ambos el manejo de gran cantidad de llamadas,
incluyendo el uso de conferencia a usuarios.

Para la comparacin de estos dos protocolos, se ha usado como base una serie de
artculos que aparecen recogidos en la bibliografia. La conclusin se ha obtenido
ponderando tanto la conclusin propia de dicho estudio como las caractersticas
especficas de este proyecto. El estudio comparativo obtenido es el siguiente:
a. Complejidad. En este punto SIP tiene una ventaja sobre H.323, dado que
este ltimo presenta procesos ms complejos para codificar y decodificar
paquetes, a pesar de que los mismos por si solos no presentan mayor

MIGRACIN DE UN SISTEMA DE TELEFONA EN PRODUCCIN HACIA VOIP CON ASTERISK

17

diferencia a nivel de complejidad, pero la generacin de los mismos para el


correcto funcionamiento del protocolo son mucho ms complejos en el H.323
dado que para SIP son basados en http lo cual lo hace mucho ms fcil al
momento de codificar y decodificar.
b. Escalabilidad. En este punto ambos protocolos son relativamente iguales,
dado que ambos pueden extenderse sobre redes de rea amplia sin mayor
problema que el que tengan las redes de transporte utilizadas, as mismo
ambos manejan gran cantidad de llamadas, incluyendo el uso de
conferencia.
c. Modularidad. Debido a que el protocolo H.323 usa el estndar paraguas que
se apoya sobre varios protocolos, al realizar cualquier modificacin resulta
ms complejo desligar la interaccin de los otros subprotocolos, mientras
que para SIP no es as, dado que puede interactuar con cualquier protocolo
que lleve a cabo calidad de servicio, acceso de directorio etc., sin tener que
llevar a cambios en el protocolo SIP.
d. Utilizacin de recursos. A pesar que en protocolo H323 los mensajes son
ms complejos, tienen tamaos ms pequeos, por lo que el uso de la CPU
de los dispositivos es mayor, mientras que para SIP ocurre lo contrario, por
lo que podra decirse que ambos son similares y no se podra definir a priori
ninguna superioridad de uno frente al otro en este aspecto.
e. Operacin y Mantenimiento. Se han definido MIB (Management Information
Base) para la mayora de los elementos que usan H.323 as como SIP, por lo
que es posible usar protocolos de gestin como SNMP (Simple Network
Management Protocol) en la misma medida para ambos.

Conclusin
Una vez analizados los aspectos que permitieron establecer la comparacin entre
ambos protocolos, se procedi a
establecer una tabla comparativa con las
caractersticas estudiadas y su peso relativo normalizado sobre 1 para cuantificar la
mejora de un proyecto sobre otro.

PARMETRO
Complejidad
Escalabilidad
Modularidad
Uso de
recursos
O&M
TOTAL

PESO
0.1
0.25
0.1

SIP
0.1
0.25
0.1

H.323
0
0.25
0

0.25
0.3
1

0.25
0.3
1

0.25
0.3
0.8

Tabla 1.Comparativa H.323 vs. SIP


Como se observ en la tabla anterior, SIP super a H323v4 en un 20% de todas las
caractersticas generales, sin embargo, el futuro no es completamente claro, dado
que existen otras muchas variables que son difciles de analizar como por ejemplo
las estrategias de mercado, la aceptacin del usuario, desarrollo de
microtecnologas, que son las que normalmente definen la supervivencia de un
protocolo sobre otro o la coexistencia de ambos.

MIGRACIN DE UN SISTEMA DE TELEFONA EN PRODUCCIN HACIA VOIP CON ASTERISK

18

Sin embargo, tal y como se ha realizado este estudio, SIP ofrece desde un punto de
vista tcnico una mayor efectividad.
Adems de las valoraciones propias de la fuente de documentacin usada, se da
como valor aadido (para este escenario concreto) la modularidad, puesto que se
presenta como una de las caractersticas ms importantes de Asterisk (en el
apartado

Soluciones para VoIP en Software Libre se especifican estos criterios) y una de las
razones por las que su uso se haca ptimo como solucin al escenario de trabajo
de Persan. Es por todo esto que se usar SIP como protocolo de trabajo en este
proyecto.

2.4. Codificacin de Audio


Los cdecs son algoritmos matemticos implementados en software que realizan el
proceso de convertir ondas analgicas en informacin digital mediante un
COdificador-DECodificador. Los cdecs o codificadores de audio se utilizan adems
de para digitalizar, para comprimir y codificar la seal de audio analgica para que
pueda ser transmitida por la red.
La voz humana es analgica. Al realizar una llamada usando un telfono tradicional
(a travs de la red telefnica pblica conmutada, PSTN), la voz se transporta en
formato analgico en la lnea telefnica. Sin embargo, para el protocolo de voz
sobre IP (VoIP), la voz debe convertirse en seales digitales. Este proceso de
conversin se conoce como codificacin y empla un cdec. Despus de que la voz
digitalizada haya alcanzado su destino, debe decodificarse a su formato analgico
original para que la persona que recibe la llamada pueda or y entender al usuario
que la inici.
Existen diversos algoritmos de codificacin dependiendo de la transmisin, la
calidad de la voz, el ancho de banda necesario y la carga computacional. Adems
de la ejecucin de la conversin de analgico a digital, el cdec comprime la
secuencia de datos, y proporciona la cancelacin del eco. La compresin de la
forma de onda representada puede permitir el ahorro del ancho de banda. Esto es
especialmente interesante en los enlaces de poca capacidad y permite tener un
mayor nmero de conexiones de VoiP simultneamente.
El sistema auditivo del ser humano es capaz de captar las frecuencias
comprendidas entre los 20Hz y 20KHz y la mayora de cdecs procesan la
informacin dentro de la banda de 400Hz-3,5Khz para que a la hora de reconstruir
la seal, sta siga siendo legible. En la siguiente figura se puede ver el esquema de
una transmisin tpica:

MIGRACIN DE UN SISTEMA DE TELEFONA EN PRODUCCIN HACIA VOIP CON ASTERISK

19

Cdec
Muestreo Peridico

Red IP

EMPAQUETAR

Muestras
codificadas
(TRAMAS)

Paquetes con
una o ms
tramas

Figura 2. Codificacin de la Voz

El proceso de convertir una seal analgica en un conjunto de datos representados


de forma binaria, involucra diversos procesos que son comunes y otros que
dependen del cdec seleccionado. A grandes rasgos, tras filtrar la voz sta se
muestrea y es el cdec el que se encarga de analizar dichas muestras y generar las
tramas.La voz no llega de forma continua sino ms bien a rfagas, generndose de
forma peridica tramas activas (aproximadamente de 10 a 70 octetos dependiendo
del cdec).
El hecho de que la voz sea intermitente, permite un ahorro en el ancho de banda a
consumir, ya que se pueden usar detectores de actividad vocal, VAD, que
determinan cuando el hablante est en silencio y esas muestras no se codifican. En
lugar de ello, se insertan en el lugar correspondiente tramas de descripcin de
silencio, SID, para que en el receptor se interprete correctamente la conversacin.
La codificacin lleva asociada consigo un retardo (en ocasiones decenas de
milisegundos) que se suma a otras variaciones de retardo que sufren los paquetes
al atravesar la red.
Una vez las tramas se han generado, se les aade la cabecera de transporte
adecuada. Estas cabeceras son compartidas por un nmero de tramas de cdec,
puesto que el nmero de octetos de la cabecera es muy grande comparado con el
de una trama de cdec. El nmero de tramas que comparten cabecera est limitado
tanto por el retardo (el eco) como por la temporizacin (marca de tiempo).

Cdecs de Audio
A continuacin se detallan los cdecs de audio ms importantes:
 G.711 U-law: El algoritmo Ley Mu (-law mu-law) es un sistema de
cuantificacin logartmica de una seal de audio. Es utilizado principalmente
para audio de voz humana. Este sistema de codificacin es usado en EEUU y
el Japn.
La implementacin del sistema consiste en aplicar a la seal de entrada una
funcin logartmica y una vez procesada realizar una cuantificacin uniforme.
Es lo mismo que decir que el paso de cuantificacin sigue una funcin del
tipo logartmico.
Esta funcin viene definida de la siguiente forma para un input x dado:

MIGRACIN DE UN SISTEMA DE TELEFONA EN PRODUCCIN HACIA VOIP CON ASTERISK

20

F ( x) = sgn( x)

ln(1 + x

1 x 1

ln(1 + )

La letra indica el factor de compresin usado ( = 255) en los estndares


norteamericano y japons. Si = 0 la entrada es igual a la salida.
La descompresin se realiza con la frmula inversa:

F 1 ( y ) = sgn( y )( 1 ) (1 + )

1 1 y 1

Utilizar G.711 para VoIP nos dar la mejor calidad de voz; ya que no usa
ninguna compresin y es el mismo cdec utilizado por la red RTC y lneas
RDSI, suena como si utilizramos un telfono RDSI normal. Tambin tiene la
menor latencia puesto que no hay necesidad de compresin, lo cual cuesta
menos capacidad de procesamiento. La pega es que utiliza ms ancho de
banda que otros cdecs, hasta 84 Kbps incluyendo todo el overhead de
TCP/IP. No obstante, aumentando el ancho de banda, esto no debera ser un
problema.
 G.711 A-law: La ley A (A-Law) es un sistema de cuantificacin logartmica
de seales de audio, usado habitualmente con fines de compresin en
aplicaciones de voz humana. Est estandarizada por la ITU-T. Este sistema
de codificacin es usado en Europa.
El algoritmo Ley A basa su funcionamiento en un proceso de compresin y
expansin llamado companding. Se aplica una compresin/expansin de las
amplitudes
y
posteriormente
una cuantificacin uniforme. Las amplitudes de la seal de audio pequeas
son expandidas y las amplitudes ms elevadas son comprimidas. La
implementacin del sistema consiste en aplicar a la seal de entrada una
funcin logartmica y una vez procesada realizar una cuantificacin uniforme.
Para una entrada x dada, la ecuacin Ley A de salida es:

donde A es el parmetro de compresin. En Europa A = 87.7. Tambin se


usa el valor 87.6 .La funcin inversa es la siguiente:

 G.723.1: Un standard ITU del tipo narrow-band audio codec que codifica el

habla en una cadena de datos cada 30ms (240 muestras en total). Cada
frame puede ser de 24 o 20 bytes de longitud, lo que hace a la cadena de
datos tanto de 6.4kb/sec o 5.3kb/sec. Este cdec esta cubierto por una
variedad de patentes, lo que significa que debe ser pagada una patente
antes de poder ser utilizado comercialmente.

 G.726: Un codec de onda ITU ADPCM con las siguientes caractersticas:

16/24/32/40 kbps, buena calidad y baja carga de procesador. Normalmente


se usa en modo 32 kbit/s, ya que es la mitad del ratio de G.711, esto

MIGRACIN DE UN SISTEMA DE TELEFONA EN PRODUCCIN HACIA VOIP CON ASTERISK

21

incrementa la capacidad de red usable en un 100%. Se usa principalmente


en troncales internacionales en la red de telefona. Tambin es el cdec
estndar usado en telfonos inalmbricos DECT.

 G.729: G.729 es un algoritmo de compresin de datos de audio para voz

que comprime audio de voz en trozos de 10 milisegundos. La msica o los


tonos tales como los tonos de DTMF o de fax no pueden ser transportados
confiablemente con este cdec, y utilizar as G.711 o mtodos de
sealizacin
fuera
de
banda
para
transportar
esas
seales.

G.729 se usa mayoritariamente en aplicaciones de Voz sobre IP VoIP por sus


bajos requerimientos en ancho de banda. El estndar G.729 opera a una
tasa de bits de 8 kbit/s, pero existen extensiones, las cuales suministran
tambin tasas de 6.4 kbit/s y de 11.8 kbit/s para peor o mejor calidad en la
conversacin respectivamente. Tambin es muy comn G.729a el cual es
compatible con G.729, pero requiere menos cmputo. Esta menor
complejidad afecta en que la calidad de la conversacin es empeorada
marginalmente.

 GSM: GSM emplea una modulacin GMSK (Gaussian Minimum Shift Keying)

obtenida a partir de una modulacin MSK que es un tipo especial de FSK.


Para el acceso en el interfaz radio o Abis se utiliza el sistema TDMA de
banda estrecha (Time Division Multiple Access) entre la estacin base y el
telfono celular utilizando 2 de canales de radio de frecuencia dplex. Para
minimizar las fuentes de interferencia y conseguir una mayor proteccin se
utiliza el (frequency hopping) o salto en frecuencia entre canales, con una
velocidad mxima de 217 saltos/S. y siempre bajo mandato de la red.
Una llamada de voz utiliza un codificador GSM especfico a velocidad total de
13Kbits/s, posteriormente se desarroll un cdec a velocidad mitad de 6,5
kbits/s que permitir duplicar la capacidad de los canales TCH, se denomina
FR (Full Rate) y HR (Half Rate).

 ILBC: iLBC, "Internet Low Bit rate Codec" es un cdec para voz apropiado

para comunicaciones robustas sobre VoIP. Este cdec est diseado para
ahorrar ancho de banda y resulta en un carga til de 13.33 Kb/s usando
tramas de 30 ms y en 15.20 Kb/s usando tramas de 20 ms. El cdec es
capaz de enfrentar la eventualidad de que se pierdan tramas, lo cual ocurre
cuando se pierde la conexin o se retrasan los paquetes IP.
El algoritmo iLBC, usa una codificacin de prediccin-lineal y bloquesindependientes (LPC), este algoritmo tiene soporte para dos tamaos
bsicos de tramas: 20 ms a 15.2 Kb/s y 30 ms a 13.33 Kb/s.

 Speex: El proyecto Speex tiene como objetivo crear un cdec libre para voz,
sin restricciones de ninguna patente de software. Speex est sujeto a la
Licencia BSD y es usado con el contenedor Ogg de la Fundacin Xiph.org.
Las metas en el diseo eran permitir buena calidad en la voz y bajo bit-rate
(desafortunadamente no al mismo tiempo). Buena calidad tambin
significaba tener soporte para wideband (frecuencia de muestreo de 16 kHz)
adems de narrowband (calidad de telfono, frecuencia de muestreo de 8
kHz).
El diseo para VoIP en vez de telfonos celulares significa que Speex debe
ser robusto a prdida de paquetes, pero no corromperlos, entonces los
paquetes llegan sin alteracin o no llegan para nada. Tambin, la idea era
tener una complejidad y requerimiento en memoria razonable sin
comprometer mucho la eficiencia del cdec.

MIGRACIN DE UN SISTEMA DE TELEFONA EN PRODUCCIN HACIA VOIP CON ASTERISK

22

Los cdecs citados anteriormente, son los ms usados para la codificacin de audio
y particularmente de voz.
Sin embargo, cada uno de ellos posee unas
caractersticas que lo hacen ms o menos atractivo como solucin a una
arquitectura y unas condiciones determinadas.
Asterisk soporta todos los cdecs mencionados en este apartado, sin embargo ser
necesario estudiar cul de ellos se adapta mejor a las limitaciones de ancho de
banda as como a otras consideraciones derivadas de la arquitectura propuesta
como solucin al trabajo. El objetivo principal es llegar a un compromiso entre la
mayor eficiencia posible y el ancho de banda disponible. Todo este estudio se
puede consultar en el Anexo I.1 que hace referencia a la metodologa para
seleccionar el cdec de audio en funcin de la solucin de red.

2.5. Cdecs de Video


El vdeo es la tecnologa de la captacin, grabacin, procesamiento,
almacenamiento, transmisin y reconstruccin por medios electrnicos digitales o
analgicos de una secuencia de imgenes que representan escenas en movimiento.
La tecnologa de vdeo fue desarrollada por primera vez para los sistemas de
televisin, pero ha derivado en muchos formatos para permitir la grabacin de
vdeo de los consumidores y que adems pueda ser visto a travs de Internet.
La seal de vdeo analgica consta de lo que se llama luminancia, crominancia y de
los sincronismos. En una transmisin de seal de vdeo, la luminancia es la
componente que codifica la informacin de luminosidad de la imagen. En trminos
generales, es algo muy similar a la versin en blanco y negro de la imagen original.
La crominancia es el componente de la seal de vdeo que contiene las
informaciones del color.
Al captar una imagen se realiza en tres colores bsicos independientes. El sistema
de colores utilizado es el RGB2, rojo, verde y azul. Esto es que el resultado final
ser la suma de los tres componentes. La luz de la imagen se descompone
mediante unos filtros en sus tres componentes de color y cada una de ellas se
manda a un captador (actualmente CCD3). Estas tres seales correspondientes al
rojo, verde y azul de la imagen se transforman en otras que representan por un
lado la luz de la imagen, es decir la imagen en blanco y negro, esta es la seal de
luminancia que se representa por la letra Y, necesaria para mantener la
compatibilidad con la TV en blanco y negro, y por otro lado se obtienen las dos
seales que portan la informacin del color a las que se llaman componentes del
color, y son R-Y y B-Y o una recortadas en banda (debido que el ojo humano tiene
una respuesta mucho ms pobre para el color que para la luz) obtenemos U y V.
Existen estndares diferentes para la codificacin del color, NTSC4 (utilizado en casi
toda Amrica, dependencias estadounidenses, Corea, Japn y Myanmar), SECAM5
2

Red, Green and Blue.


CCD es familiar como uno de los elementos principales de las cmaras fotogrficas y de video digitales.
En stas, el CCD es el sensor con diminutas clulas fotoelctricas que registran la imagen. Desde all la
imagen es procesada por la cmara y registrada en la tarjeta de memoria. La capacidad de resolucin o
detalle de la imagen depende del nmero de clulas fotoelctricas del CCD. Este nmero se expresa en
pxeles. A mayor nmero de pxeles, mayor resolucin
4
NTSC (National Television System Committee) , Comisin Nacional de Sistemas de Televisin) es un
sistema de codificacin y transmisin de Televisin en color analgico desarrollado en Estados Unidos en
torno a 1940 y consiste en una ampliacin del sistema monocromtico (blanco y negro).
5
SECAM (Squentiel Couleur Mmoire), "Color secuencial con memoria". Es un sistema para la
codificacin de televisin en color analgica utilizado por primera vez en Francia.
3

MIGRACIN DE UN SISTEMA DE TELEFONA EN PRODUCCIN HACIA VOIP CON ASTERISK

23

(Francia, sus dependencias y ex colonias; mayora de Rusia) y PAL6 (resto de


Europa; Argentina, Brasil, Groenlandia y Uruguay en Amrica; mayora de frica,
Asia y Oceana).
En la actualidad, se tiende al uso del vdeo en formato digital ya que proporciona
grandes ventajas con respecto a la seal analgica. Algunas de estas ventajas son:
 Mayor robustez ante el ruido. las seales analgicas son ms susceptibles
que los pulsos digitales a la amplitud, frecuencia y variaciones de fase. Esto
se debe a que con la transmisin digital, no se necesita evaluar esos
parmetros, con tanta precisin, como en la transmisin analgica. En
cambio, los pulsos recibidos se evalan durante un intervalo de muestreo y
se hace una sola determinacin si el pulso est arriba (1) o abajo de un
umbral especfico (0).
 Almacenamiento y procesamiento: las seales digitales se pueden guardarse
y procesarse fcilmente que las seales analgicas.
 Los sistemas digitales utilizan la regeneracin de seales, en vez de la
amplificacin, por lo tanto producen un sistema ms resistente al ruido que
su contraparte analgica.
 Las seales digitales son ms sencillos de medir y evaluar. Por lo tanto es
ms fcil comparar el rendimiento de los sistemas digitales con diferentes
capacidades de sealizacin e informacin, que con los sistemas analgicos
comparables.
 Los sistemas digitales estn mejor equipados para evaluar un rendimiento
de error (por ejemplo, deteccin y correccin de errores), que los
analgicos.
 Los equipos que procesan digitalmente consumen menos potencia y son ms
pequeos, y muchas veces con ms econmicos.
Sin embargo, la digitalizacin presenta desventajas, como que la transmisin de las
seales analgicas codificadas de manera digital requiere ms ancho de banda para
transmitir que las seales analgicas o que las seales analgicas deben
convertirse en cdigos digitales antes de su transmisin y convertirse nuevamente
a analgicas en el receptor. Por ejemplo, al digitalizar una secuencia de video
analgico cualquiera de acuerdo al estndar ITU-R BT.601 (CCIR 601), se requiere
un ancho de banda de 116 Mbit/segundo de 116 millones de bits cada segundo.
Dado que la mayora de las redes son slo de 100 Mbit/segundo, no es posible ni
deseable transmitir las secuencias de vdeo sin alguna modificacin. Para solucionar
este problema se han desarrollado una serie de tcnicas denominadas tcnicas de
compresin de vdeo e imgenes, que reducen el alto nivel de bits precisos para
transmisin y almacenamiento.
Adems del ancho de banda, hay que tener en cuenta, que la transmisin digital
requiere de sincronizacin precisa de tiempo, entre los relojes del transmisor y
receptor.

2.5.1. Video Digital


Las seales de vdeo analgicas son el resultado de procesar 25 cuadros de
televisin por segundo, los cuales pueden ser iguales en su totalidad, en parte o
El sistema Secam fue inventado por un equipo liderado por Henri de France trabajando para la firma
Thompson. Es histricamente la primera norma de televisin en color europea.
6
PAL es la sigla de Phase Alternating Line (en espaol lnea de fase alternada). Es el nombre con el que
se designa al sistema de codificacin utilizado en la transmisin de seales de televisin analgica en
color en la mayor parte del mundo

MIGRACIN DE UN SISTEMA DE TELEFONA EN PRODUCCIN HACIA VOIP CON ASTERISK

24

totalmente diferentes. Esto significa que en muchsimas ocasiones la seal


analgica se repite una y otra vez. Dado que no es posible la memorizacin de las
seales de tipo analgico, stas se transmiten en su totalidad aunque sean
redundantes, es decir aunque se repitan (en analgico no hay memoria).
En la tcnica digital, donde s es posible la memorizacin de la informacin, es
posible eliminar aquella que se repita, transmitindose slo una parte de sta.
Mediante la utilizacin de la memoria se podr recomponer en el receptor la
informacin original completa, recurriendo a los elementos repetidos memorizados
y aadiendo los nuevos que se reciban. Esta tcnica permite la transmisin de slo
la informacin nueva. Con ello se obtiene un considerable ahorro tanto de memoria
como del ancho de banda de transmisin.
Son tres las redundancias que pueden darse en una transmisin de seal de vdeo
digital:
1. Redundancia temporal
Consiste en dibujar un cuadro o fotograma completo, donde se dejen sin
dibujar aquellos elementos de la imagen que se pondrn en movimiento de
sta. Sobre una transparencia se dibujan luego, imagen a imagen, los
elementos que han de producir la sensacin de movimiento. Posteriormente
se fotografa el fotograma base aadiendo las transparencias del
movimiento. El resultado final cinematogrfico da la sensacin de que los
personajes se mueven, hablan, corren
Se tiene por tanto dos tipos de informacin, una de fondo, que es siempre la
misma y, por lo tanto, redundante, y la otra variable. Esto, aplicado al vdeo
digital supone la transmisin de slo las diferencias entre un cuadro de
vdeo y sus contiguos. Todos los elementos redundantes que puedan existir
entre dos cuadros contiguos generan un tercer cuadro, denominado de
compresin inter-cuadro, lo cual comprime la informacin de los dos
cuadros originales.
2. Redundancia espacial
Se da cuando en una imagen de video muchos de sus pxeles son iguales o
extremadamente semejantes en cuanto a valores de luminancia y de croma.
Una de dichas partes contiene toda la informacin redundante, por lo que
puede reducirse la cantidad de informacin a transmitir si slo se transmite
la informacin de luminancia y croma del grupo de pxeles redundantes. Esta
informacin redundante se denomina espacial ya que lo es por espacios de
imagen, y genera un cuadro de compresin intra-cuadro, es decir, dentro
del cuadro.
3. Redundancia estadstica
Las seales de sincronismo vertical y horizontal son predecibles, pues estn
normalizadas para que se generen en unos tiempos bien determinados. En
este caso se dice que la redundancia es estadstica. Esta redundancia puede
codificarse, con cdigos cortos, que no supongan un aumento de la memoria
ni del ancho de banda.
Para la compresin de vdeo se aplican dos tcnicas:

MIGRACIN DE UN SISTEMA DE TELEFONA EN PRODUCCIN HACIA VOIP CON ASTERISK

25

 Compresin espacial o intraframe: se aprovecha la redundancia de


informacin que hay en una imagen de cada fotograma, como en las
imgenes JPEG.
 Compresin temporal o interframe: se aprovecha la redundancia de
informacin que hay entre fotogramas consecutivos.
La compresin temporal siempre lleva implcita la espacial y a pesar de que
aumenta el consumo de CPU mejora la eficiencia. En cualquier caso se trata de
conseguir que, en funcin del nivel de calidad elegido, la prdida de informacin
sea imperceptible para el usuario. A continuacin se profundiza en estos conceptos.
Compresin Espacial
Se consideran dos aspectos:
1. Eliminacin de Informacin no perceptible.
El MPEG aprovecha las caractersticas del ojo humano y eliminan la
informacin que "no es visible, como la informacin de color a alta
frecuencia. El ojo humano es mucho ms sensible a la luz que al color por su
constitucin fisiolgica (mayor nmero de bastones que de conos).
Cuando la informacin se restituye, el ojo no nota los cambios en la imagen
por la prdida de informacin. Por este motivo se elige un sub-muestreo de
crominancia en funcin del servicio al que va dirigido. Para televisin por
ejemplo es el 4:2:0.
2. Eliminacin de la Informacin redundante.
Las seales R, G, B, traducidas a los vectores Y, U, V de 1 pxel y
convenientemente muestreadas determinan la informacin del pxel.
Para realizar la compresin, las tramas de vdeo se dividen en regiones de
8x8 pxeles, llamadas bloques o en macrobloques (16x16).
Los bloques son trasladados al dominio de la frecuencia espacial (H y V), y
mediante el uso de la transformada discreta del coseno (similar a la
transformada de Fourier), convierte los datos en una serie de coeficientes
que representan las amplitudes de las funciones coseno en frecuencias
crecientes.
La transformada del coseno tiene la caracterstica de concentrar la mayor
parte de la informacin en un reducido nmero de coeficientes. Aplicando un
proceso de cuantificacin se eliminan los menos significativos reducindose
considerablemente esta.
En el decodificador el proceso de transformada de coseno inversa restaura
matemticamente los coeficientes en una aproximacin cercana al valor
original. Esta compresin solo elimina informacin redundante
de un
campo, pero una de las propiedades es que los campos sucesivos apenas
cambian. Se reducira la informacin a enviar si no se repitiera la
informacin de imagen que es comn; es por eso que se unas otra
compresin denominada temporal.

Compresin Temporal
Los bloques y macro-bloques anteriormente definidos, que no cambien en cuadros
sucesivos, se agrupan formando rodajas para poder sincronizarlos, y no se vuelven
a codificar. Esta estructura le permite al receptor volver a sincronizarse al principio
de cada rodaja en el caso de errores de transmisin, puesto que cada una de ellas
comienza con una cabecera nica.

MIGRACIN DE UN SISTEMA DE TELEFONA EN PRODUCCIN HACIA VOIP CON ASTERISK

26

Sin embargo, dentro de la compresin temporal, el concepto ms importante es el


de compresin de movimiento.
Cuando las secuencias contienen movimiento de las imgenes, se archivan gran
cantidad de datos de compresin para e proceso de compensacin del movimiento
(Motion Compensation).
Este proceso se basa en que es posible identificar la velocidad y la direccin de una
imagen en movimiento por el anlisis de la informacin de las 25 imgenes que
aparecen durante un segundo, y que, por tanto, se puede predecir dnde terminar
ese movimiento 25 imgenes ms tarde.
Para este proceso se usan los macro-bloques, ya que son stos los ms apropiados
para este tipo de codificacin. La compensacin de imgenes se aplica a imgenes
tipo P, generndose dos tipos de informacin:
1. Diferencia entre valores contenidos en los macro-bloques de las
imgenes tipo I y B. Esta diferencia crea unos macro-bloques con los
campos previstos y los actuales, por lo que bastan unos pocos bits
para describir dicha diferencia.
2. Un par de vectores que representan las posiciones entre los macrobloques de la imagen de referencia y las de la prxima imagen. As,
por ejemplo, un macrobloque x se mueve en una y con una velocidad
z, el decodificador calcula las posiciones correctas que tendr cada
macro-bloque en las siguientes imgenes.

Tipos de Imagenes
Para conseguir las citadas compresiones de seal de vdeo, se emplean tres tipos
de imgenes
que se almacenan para posibilitar una prediccin temporal de
prdidas o imgenes incompletos que recibe el receptor. Estas imgenes son:
 Intra imgenes (tipo I)
 Imgenes predictivas (tipo P)
 Imgenes predictivas bidireccionales (tipo B)
Las Intra imgenes (I) se codifican sin referencia a otras imgenes. Su tasa de
compresin es moderada, ya que slo eliminan redundancia espacial.
No dependen, por tanto, de las imgenes previas y es el punto donde el
decodificador inicia su trabajo con un grupo de escenas que contienen una
secuencia. Las imgenes I se insertan cada 12 imgenes tipo P.
Las imgenes predictivas (P) se codifican usando algoritmos de prediccin a partir
de una imagen anterior, que puede ser del tipo I o del tipo P, las cuales se emplean
como referencia para posteriores predicciones (Forward Prediction o prediccin
adelantada). La informacin de la imagen I se emplea como prediccin de las
imgenes tipo P, tambin la informacin de la primera imagen P se usa como
prediccin de la siguiente P. En ambos casos la prediccin es siempre hacia
adelante.
Al eliminar la redundancia espacial y temporal, las imgenes P admiten mayor
grado de compresin que las I. Necesitan una memoria donde se pueda almacenar
ms de una escena.

MIGRACIN DE UN SISTEMA DE TELEFONA EN PRODUCCIN HACIA VOIP CON ASTERISK

27

Las imgenes tipo P sirven como referencia para las futuras imgenes P o B, pero si
existen errores en una imagen tipo P, va a buscar futuras imgenes derivadas de
ella.
Las imgenes tipo B utilizan una interpolacin bidireccional de prediccin del
movimiento para que el decodificador pueda reconstruir una imagen que est
alojada entre dos imgenes reconstruidas. Las imgenes tipo B utilizan imgenes
pasadas y futuras para hacer las predicciones, por lo que necesitan ms de dos
imgenes almacenadas en la memoria. Se trata de prediccin bidireccional.
Las imgenes tipo B reciben informacin tanto de las imgenes I como de las P
anteriores o posteriores. Son las imgenes con mayor tasa de compresin. Para
permitir la prediccin hacia atrs, a partir de imgenes futuras, el codificador
ordena las imgenes, de forma que as de tipo B son transmitidas despus de las
imgenes pasadas o futuras a las que estn referenciadas.
Las imgenes se presentan agrupadas en 12 cuadros o GOP (Group Of Pictures),
cuyo orden ha de ser tal que sean las Intra imgenes la base del orden, es decir, la
referencia para elaborar las imgenes P y B, pues sin la presencia de las imgenes I
el decodificador no es capaz de predecir ni una P ni una B.

2.5.2. Estndares de compresin de vdeo.


Los estndares de compresin de vdeo se llevan a cabo en el seno de dos grupos
de trabajo, sin embargo, los algoritmos bsicos son los mismos:


El MPEG( Moving Pictures Expert Group) de la ISO, sus estndares se


denominan MPEG-n (n=1,2,4,7) Abarcan la comrpesin de audio y vdeo.

El VCEG (Video Coding Experts Group) de la ITU-T. Sus estndares se


denominan H.26x (x=1,3,4,5). Solo abarcan la compresin de video, la de
audio se hace segn los estndares de telefona (G.xxx).

En la Figura 3 se puede comprobar cmo la evolucin del trabajo de ambos grupos


ha sido pareja en el tiempo hasta confluir conjuntamente con el H.264/AVC o
H.264/MPEG-Part10 del que se hablar posteriormente.

MIGRACIN DE UN SISTEMA DE TELEFONA EN PRODUCCIN HACIA VOIP CON ASTERISK

28

Figura 3. Estndares de compresin de vdeo


Para obtener ms informacin sobre cada uno de estos cdec as como de las
caractersticas particulares que emplean en la codificacin de video. Toda esta
informacin se puede encontrar en el Anexo I.2 .

MIGRACIN DE UN SISTEMA DE TELEFONA EN PRODUCCIN HACIA VOIP CON ASTERISK

29

También podría gustarte