Está en la página 1de 21

ESTANDARES DE ALMACENAMIENTO CON VIDEO.

6 Estándares de compresión de vídeo

Los codecs de vídeo más importantes para la transmisión de un flujo de información visual
(streaming video) por la red son MJPEG, H.261, H.263, MPEG1, MPEG2 y MPEG4. Estos códecs han
de cumplir una serie de requisitos relacionados con su cometido, la transmisión de información de
video por una red con retrasos y pérdidas. Así pues deben conseguir una gran escalabilidad, una
complejidad computacional baja, una gran capacidad de recuperación ante pérdidas en la red y
una gran agilidad en la codificación/decodificación en el caso de videoconferencia. A la vez, deben
conseguir la mayor tasa de cuadros por segundo y calidad de imagen posible.

Observando los estándares de codificación actuales apreciamos que aparentemente ninguno de


ellos es el ideal para la transmisión de vídeo por Internet. De hecho en la actualidad se sigue
investigando con gran empeño en el desarrollo del formato ideal de codificación de vídeo por
parte de la mayoría de las empresas del sector. La línea de investigación actual se está centrando
en el desarrollo de codecs más escalables y flexibles, así como en la forma de escalar codecs
actuales utilizando transcodificadores y filtros. Así estándares actuales como H.323/H.324 para
videoconferencia y MPEG4 han sido diseñados para incorporar fácilmente estas nuevas
innovaciones sin un esfuerzo adicional considerable.

6.1 M-JPEG

Sus siglas significan Motion-JPEG o JPEG en movimiento. No es realmente un estándar de vídeo


sino que de lo que se trata es de una extensión para vídeo del estándar de la ITU/ISO JPEG para
imágenes estáticas. Se basa simplemente en transmitir vídeo como una sucesión de imágenes
codificadas en formato JPEG, es decir, como si enviáramos una tira de fotos de manera
consecutiva.

Mediante compresión JPEG se obtienen muy buenos resultados en la reducción del tamaño de
cada imagen sobre todo en tipos de imágenes de la vida real, como fotos o imágenes digitalizadas
desde una cámara por ejemplo. No obstante, este formato solo introduce la llamada compresión
espacial, es decir, dentro de una misma imagen, y no tiene en cuenta la redundancia de
información entre dos imágenes consecutivas de un mismo vídeo, que normalmente difieren poco
unas de otras. Este otro tipo de compresión, denominada compresión temporal, es la usada por
sistemas de codificación de vídeo más avanzados como los que veremos a continuación.

6.2 H.261

H.261 se conoce también como P*64 donde P es un entero, lo que representa múltiplos de
64Kbit/sec. H.261 fue desarrollado para uso en aplicaciones de videoconferencia. El algoritmo de
codificación que utiliza es similar, pero incompatible con el del estándar MPEG. No obstante,
H.261 necesita considerablemente menos uso de CPU que MPEG para la codificación en tiempo
real. El algoritmo incluye un mecanismo que optimiza el uso de ancho de banda mediante un
compromiso entre la calidad de imagen y la fluidez del movimiento, de tal forma que un vídeo que
contenga una gran cantidad de variaciones en sus imágenes se verá con menor calidad que uno
que corresponda a imágenes bastante parecidas entre ellas, es decir, con poco movimiento (como
puede ser una videoconferencia). Esto es así porque H.261 es un estándar basado en un flujo
constante de información (constant-bit-rate) y no en una calidad de imagen constante (constant-
quality, variable-bit-rate).

6.3 H.263

 H.263 es un estándar de la ITU-T diseñado para comunicaciones con bajo ancho de banda.
No obstante, se espera que su uso se extienda también a comunicaciones con más ancho
de banda y que sustituya completamente a H.261 en una gran cantidad de aplicaciones.
 El algoritmo de codificación de H.263 es similar al de H.261, pero introduce mejoras en la
calidad de imagen y en la recuperación de errores:
 H.263 utiliza una precisión de medio píxel para la compensación de movimiento mientras
que H.261 utiliza precisión de píxel completo.
 Algunas partes de la estructura jerárquica del flujo de datos son ahora opcionales, de
manera que el codec puede ser configurado para una tasa de transferencia inferior o una
mejor recuperación ante errores.
 Utiliza cuatro nuevas opciones negociables para mejorar las prestaciones: Vectores de
movimiento libre, codificación aritmética basada en la sintaxis, predicción avanzada y
predicción de frames (cuadros) hacia delante y hacia atrás similar al estándar MPEG
llamados P-B frames.
 Soporta tres nuevas resoluciones de imagen añadidas a QCIF y CIF (352x288) de H.261,
que son SQCIF, 4CIF y 16CIF.

6.4 MPEG

Del inglés “Motion Picture Experts Group”, este estándar de la ISO define un conjunto de formatos
de codificación utilizadas para el almacenamiento de información audiovisual, incluyendo vídeo y
audio en formato digital comprimido.

El sistema MPEG surgió como una respuesta a las necesidades de transmitir señales de televisión y
vídeo por redes digitales, y está pensado para funcionar con aparatos diseñados específicamente
para esta misión, que permitan comprimir y descomprimir las imágenes a gran velocidad.

Este formato no está orientado a videoconferencia como H.263 sino a una señal de vídeo ya
grabada, ya que utiliza lo que llamamos estimación de movimiento bidireccional, que se basa en
comparar cada fotograma no solo con los anteriores sino también con los posteriores, logrando así
una mayor compresión.

El algoritmo que utiliza MPEG, además de comprimir imágenes estáticas mediante JPEG, compara
los fotogramas presentes con los anteriores y los futuros para almacenar sólo las partes que
cambian. La señal además incluye sonido en calidad digital.

MPEG utiliza compresión temporal y espacial. En primer lugar aplica una transformada del coseno
discreta, seguida de una cuantización para finalmente comprimir mediante un algoritmo RLE. Los
bloques de imagen y los de predicción de errores tienen una gran redundancia espacial, que se
reduce gracias a la transformación de los bloques desde el dominio del espacio al dominio de la
frecuencia.

MPEG requiere una intensiva computación para su codificación, aunque por el contrario los
resultados obtenidos son excelentes, lográndose ratios desde 50:1 hasta 200:1

MPEG en realidad no es un estándar, sino que engloba una serie de estándares que fueron
surgiendo con el tiempo y que vamos a ver a continuación.

6.4.1 MPEG-1

Nacido en 1991, fue el primer estándar del grupo MPEG. Está orientado a sustituir las cintas de
vídeo VHS usando CDs (videoCD o VCD). Permite una resolución de 352x288 píxeles.

MPEG-1 guarda una imagen, la compara con la siguiente y almacena solo las diferencias,
alcanzando así grados de compresión muy elevados. Define tres tipos de fotogramas:

• Fotogramas I o Intra-fotogramas: son los fotogramas normales o de imagen fija,


proporcionando compresión moderada en formato JPEG.
• Fotogramas P o Predichos: son imágenes predichas a partir de la inmediatamente anterior.
Se alcanza una tasa de compresión muy superior.
• Fotogramas B o Bidireccionales: se calculan en base a los fotogramas inmediatamente
anterior y posterior. Consigue el mayor grado de compresión a costa de un mayor tiempo
de cálculo.
La velocidad de la señal comprimida es de aproximadamente 1.5Mbps (incluyendo audio) para
tener aproximadamente 1 hora de película en un CD (700Mbytes). El factor de compresión
obtenido es de 60:1 aproximadamente (aprox. 5Kbytes por fotograma).

6.4.2 MPEG-2

También conocido como SVCD, surge en 1994 como alternativa al anterior, para dotar al vídeo
de más calidad y mayor resolución (720x576), ya que la del MPEG1 (VCD) se consideró
insuficiente para la distribución de películas a gran escala.

MPEG-2 fue universalmente aceptado para transmitir vídeo digital comprimido con
velocidades mayores de 1Mb/s aproximadamente. Con MPEG-2 pueden conseguirse elevadas
tasas de compresión de hasta 100:1 dependiendo de las características del propio vídeo.

Este es el estándar utilizado en los DVD-Video para las películas que se distribuyen en el
mercado de consumo. Un DVD es un sistema de almacenamiento con una capacidad unas 8
veces superior a los CD. También se utiliza para la transmisión de la Televisión digital y en
algunos países para la televisión de alta definición (HDTV).

6.4.3 MPEG-4

Nace en 1999 como una necesidad para videoteléfonos o videoconferencias, pero pronto
queda claro que su principal campo de aplicación es Internet, así como la multimedia en
general. La idea es exprimir al máximo canales con un ancho de banda pequeño (del orden de
64Kbps).

Podría pensarse que es una sucesión de alguna manera de los anteriores, pero no es así.
Estamos ante un formato bastante diferente, dado el potencialmente estrecho canal por el
que va a ser enviado.

MPEG4 permite mezclar imagen y sonido naturales con otros sintéticos. El objetivo es crear un
contexto audiovisual, en el cual existen unas primitivas llamadas AVO (Audio Visual Object).
Los AVOs se disponen jerárquicamente, como por ejemplo: un fondo bidimensional, una figura
que habla en ese fondo, una voz humana que corresponde a la figura, etc. Mediante MPEG4 se
definen los métodos para codificar esas primitivas o AVOs, que podrían clasificarse en texto y
gráficos.

La escena audiovisual se construye situando los objetos AV a lo largo de la misma. Es posible


formar grupos de objetos, así como modificar los atributos de los mismos.

La comunicación con los datos de cada AVO se realiza mediante uno o varios flujos
elementales (Elementary Streams), cuya característica principal es la calidad de servicio,
denominada QoS (Quality of Service) requerida para la transmisión, así como otros parámetros
útiles para conocer los recursos y tiempos necesarios en la codificación y decodificación.

MPEG-1 Ancho de Banda Intermedio (hasta 1.5


MBits/seg) video: 1.25 Mbits/seg
352x240x30 Hz audio: 250 Kbits/seg 2
canales video no entrelazado optimizado
para CD-ROM
MPEG-2 Ancho de banda elevado Característica de TV
vídeo: varios perfiles audio: hasta 5 canales
soporta video entrelazado
MPEG-4 Bajo ancho de banda (64 Kbits/seg) video:
originalmente 176x144x10 Hz permite
mezclar imagen y sonido naturales con otros
sintéticos Internet, videoteléfonos,
videojuegos, multimedia ...
6.5 Conclusiones.
Para aplicaciones de videoconferencia más comerciales sobre móviles lo lógico sería utilizar los
formatos de vídeo más complejos descritos, como H.263 y MPEG4 que lograrían unas tasas de
compresión y una calidad de imagen altas, pero su gran complejidad computacional obligan a
que el terminal disponga de hardware específico para la codificación/decodificación de estas
señales.

Además, el eliminar la redundancia temporal y solo almacenar los cambios entre imágenes
consecutivas como realizan estos codificadores, provoca que cualquier mínima pérdida en la
transmisión no sólo afecte al fotograma que está siendo enviado en ese momento, sino a
todos los posteriores, por el sistema de codificación usado que se basa en predicción de
movimiento.

Actualmente se están desarrollando técnicas para aumentar la capacidad de recuperación


ante errores de estos formatos, como son:

• Marcadores de resincronización (RM – Resynchronization Markers) que dividen el flujo en


videopackets (VP) para solo perder una porción de la imagen en caso de error.
• Header Extension Codes (HEC) que replican la información de la cabecera de cada
fotograma en cada VP, para no perder toda la imagen en caso de error en la transmisión
de su cabecera.
• Data Partitioning (DP) que dividen la información de cada VP en información de
movimiento e información de textura, mediante un tipo de RM llamado marcador de
movimiento. Gracias a esto el decodificador puede resincronizar y recuperar datos sin
tener que descartar todos los datos entre dos RMs.

Todas estas técnicas suman tiempo de proceso y cálculo al decodificador, por lo que con más
razón hacen inviable estos formatos para el propósito del proyecto, sin apoyarse en un
hardware específico.

De hecho, las compañías actuales que han conseguido implementar la técnica de video
streaming en dispositivos móviles lo han logrado sin utilizar J2ME y MIDP, sino usando
protocolos propietarios y llamadas a métodos nativos en su código. Gracias a esto pueden
aplicar algoritmos de compresión propios utilizando toda la funcionalidad del terminal.

Por ejemplo, los terminales Nokia modernos, utilizan el sistema operativo Symbian,
programado en C++, que permite trabajar a un nivel más bajo que Java. En estos casos, es el
fabricante de los terminales quien tiene que dar soporte a toda la funcionalidad a bajo nivel,
consiguiendo obtener así el máximo rendimiento al dispositivo, pero a costa de incumplir las
normas de estandarización y de sacrificar la portabilidad que nos ofrece el lenguaje Java.

A todas estas limitaciones hay que sumar la capacidad de memoria tan limitada de los
terminales móviles, lo cual dificulta aun más la técnica de streaming que suele utilizar un
buffer para almacenar cierto tiempo de video previo al inicio de la reproducción, con objeto de
mantener la continuidad de esta en caso de cese del flujo de información temporalmente
debido a congestión en la red u otros problemas derivados de la propia conexión.

Por todo esto, asumiendo la imposibilidad de reproducir vídeo de gran fluidez con todas estas
limitaciones, parece que para el cometido de nuestro proyecto, que es la realización de un
cliente para la recepción de imágenes en un dispositivo móvil usando CLDC y MIDP sobre
J2ME, la única opción viable a priori es la de utilizar M-JPEG, es decir, el cliente realizará
periódicamente peticiones al servidor que le irá enviando cada fotograma (codificado en JPEG)
para que lo vaya presentando en la pantalla del terminal.

No obstante, como se especifica en el proyecto anterior, el único método en MIDP que


convierte en imagen un flujo de bytes, exige que ese flujo represente una imagen PNG, por lo
que el cometido de este proyecto es adaptar el cliente para la decodificación de imágenes en
formato JPEG, que conseguirá unos ratios de compresión muchos mas elevados que PNG para
el tipo de imágenes que vamos a codificar, disminuyendo así el tiempo de la transmisión, y
aumentando por tanto el número de fotogramas por segundo que podremos representar en la
pantalla de nuestro móvil.

Una vez recibida cada imagen por el flujo abierto con el servidor, la información codificada (en
formato JPEG en nuestro caso) ha de ser decodificada para crear un objeto tipo Image que
pueda ser tratado por los métodos de MIDP para presentarlo en la pantalla del terminal.

Estándar de compresión de video


H.264
Nuevas ventajas para
la videovigilancia
Por Marcelo Díaz, Gerente
de Cuentas de Anixter Chile.

Se espera que el más reciente estándar de compresión de video, H.264 (también denominado MPEG-4
Parte 10/AVC para Codificación de Video Avanzada), se convierta en la norma de video a elegir en los
próximos años. H.264 es un estándar abierto con licencia que es compatible con las técnicas más
eficientes de compresión de video hoy disponibles. Sin comprometer la calidad de la imagen, un
codificador H.264 puede reducir el tamaño de un archivo de video digital en más de un 80% si se
compara con Motion JPEG, y hasta un 50% comparado con MPEG-4 Parte 2. Esto significa que se
requiere menos ancho de banda y espacio de almacenamiento para los archivos de video. O, visto de otra
manera, se puede lograr mayor calidad de imagen de video para una frecuencia de bits determinada.

H.264 es un estándar definido de manera conjunta por organizaciones de normalización de los sectores de
telecomunicaciones e industrias de TI, y se espera que su aceptación sea más generalizada que en el caso de
las normas anteriores.

Ya se ha utilizado en nuevos aparatos electrónicos como teléfonos móviles y reproductores de video digital, y
ha sido aceptado rápidamente por los usuarios. Los proveedores de servicios, como las empresas de
almacenamiento de video en línea o de telecomunicaciones, también están empezando a adoptar H.264.

En el sector de la videovigilancia, H.264 encontrará su mayor utilidad en aplicaciones donde se necesiten


velocidades y resoluciones altas, como en el monitoreo de autopistas, aeropuertos y casinos, lugares donde por
regla general se usa una velocidad de 30/25 (NTSC/PAL) imágenes por segundo. Es aquí donde las ventajas
económicas de un ancho de banda y un almacenamiento reducidos se harán sentir de forma más clara.

Se espera que H.264 acelere también la adopción de cámaras de megapixeles, ya que con esta eficiente
tecnología de compresión se pueden reducir los archivos de gran tamaño y las frecuencias de bits sin que la
calidad de la imagen se vea afectada. En cualquier caso, tiene sus exigencias: aunque H.264 permite ahorrar
en costos de ancho de banda y almacenamiento, también necesita cámaras de red y estaciones de control de
mejor rendimiento.
Desarrollo

H.264 es el resultado de un proyecto conjunto entre el grupo de expertos de codificación de video de


ITU-T y el de expertos de imágenes en movimiento de ISO/IEC (MPEG).
ITU-T es el sector que coordina los estándares de telecomunicaciones en nombre de la Unión Internacional de
Telecomunicaciones. ISO son las siglas de International Organization for Standardization (Organización
Internacional de Normalización), mientras que IEC son las de International Electrotechnical Commission
(Comisión Electrotécnica Internacional), que supervisa los estándares de todas las tecnologías eléctricas,
electrónicas y afines.

H.264 es el nombre usado por


ITU-T, mientras que ISO/IEC utiliza MPEG-4 Parte 10/AVC, ya que lo presenta como parte de su suite MPEG-4,
que incluye, por ejemplo, MPEG-4 Parte 2, un estándar ya usado por codificadores de video basados en IP y
cámaras de red.

Diseñado para solucionar una serie de debilidades de estándares de compresión de video anteriores, H.264
satisface con éxito su objetivo de admitir:

• Implementaciones que ofrezcan una reducción de la frecuencia de bits del 50%, a partir de una calidad de
video fija y comparada con otros estándares de video.

• Robustez frente a errores, de forma que se toleren las fallas de transmisión a través de varias redes.

• Capacidades de baja latencia y mejor calidad para latencias mayores.

• Especificación de sintaxis directa que simplifique las implementaciones.

• Decodificación de coincidencia exacta, que define exactamente cuántos cálculos numéricos debe realizar un
codificador y un decodificador para evitar que se acumulen errores.

H.264 tiene también la flexibilidad suficiente como para admitir una amplia gama de aplicaciones con diferentes
requisitos de frecuencia de bits. Por ejemplo, en video de entretenimiento, lo que incluye retransmisiones,
satélite, cable y DVD, H.264 podrá ofrecer un rendimiento de entre 1 y 10 Mbps con una alta latencia, mientras
que en servicios de telecomunicaciones puede ofrecer frecuencias de bits inferiores a 1 Mbps con baja latencia.

Conclusiones

H.264 es un gran paso adelante en la tecnología de compresión de video, ofrece técnicas más eficientes gracias
a sus mejores funciones de predicción y a su capacidad de recuperación ante errores. Este estándar brinda
nuevas posibilidades a la hora de crear mejores codificadores de video que permiten transmisiones de mayor
calidad y a mayores resoluciones manteniendo las mismas frecuencias de bits (en comparación con estándares
anteriores), o, a la inversa, la misma calidad de video con frecuencias de bits inferiores. H.264 es el primer
proyecto conjunto entre ITU, ISO y IEC para lograr un estándar de compresión de video común e internacional.

Gracias a su flexibilidad, H.264 ya ha sido aplicado en distintas áreas como el DVD de Alta Definición (como
Blu-Ray), la difusión de video digital, incluyendo TV de Alta Definición, el almacenamiento de video en línea
(como YouTube), la telefonía móvil de tercera generación, y en software como QuickTime, Flash y el sistema
operativo de los PCs Apple y MacOS X, así como en consolas de videojuegos como PlayStation 3. Con el apoyo
de tantas industrias y aplicaciones para consumidores y profesionales, se espera que H.264 sustituya al resto
de estándares y métodos de compresión utilizados en la actualidad.

A medida que el formato H.264 sea cada vez más usado en cámaras de red, codificadores de video y software
de gestión de video, los diseñadores e integradores de sistemas deberán asegurarse de que los productos y
proveedores que elijan usen este nuevo estándar abierto. Y hasta el momento, los productos de video en red
compatibles con H.264 y Motion JPEG son los ideales para lograr la mayor flexibilidad e integración posibles.

Compresión de video

Las técnicas de compresión de video consisten en reducir y eliminar datos redundantes del
video para que el archivo de video digital pueda enviarse a través de la red y almacenar en
discos informáticos. Este capítulo trata sobre los conceptos básicos de la compresión y
proporciona una descripción de los estándares más difundidos.

Con técnicas de compresión eficaces se puede reducir considerablemente el tamaño del


fichero sin que ello afecte la calidad de la imagen. Sin embargo, la calidad del video puede
verse afectada si se reduce en exceso el tamaño del fichero, aumentando el nivel de
compresión de la técnica que se utilice.

Existen diferentes técnicas de compresión, tanto patentadas como estándar. En la actualidad


la mayoría de los proveedores de video en red utilizan técnicas de compresión estándar.

Los estándares son importantes para asegurar la compatibilidad y la interoperabilidad y tienen


un papel especialmente relevante en la compresión de video, puesto que éste se puede
utilizar para varias finalidades y, en algunas aplicaciones de videovigilancia, debe poder
visualizarse varios años después de su grabación. Gracias al desarrollo de estándares, los
usuarios finales tienen la opción de escoger entre diferentes proveedores, en lugar de optar
no solo para un sistema de videovigilancia.

Los más difundidos estándares de compresión de video son Motion JPEG, MPEG-4 Parte 2
(MPEG-4) y H.264, siendo este último el estándar más actual y eficaz. Este capítulo trata sobre
los conceptos básicos de la compresión y proporciona una descripción de cada uno de los
estándares mencionados.
7.1. Conceptos básicos

7.1.1. Códec de video

En el proceso de compresión se aplica un algoritmo al video original para crear un archivo


comprimido y ya listo para ser transmitido o guardado. Para reproducir el archivo comprimido,
se aplica el algoritmo inverso y se crea un video que incluye prácticamente el mismo
contenido que el video original. El tiempo que se tarda en comprimir, enviar, descomprimir y
mostrar un archivo es lo que se denomina “latencia”. Cuanto más avanzado sea el algoritmo
de compresión, mayor será a latencia.

El par de algoritmos que funcionan conjuntamente se denomina códec de video


(codificador/decodificador). Los códecs de video de estándares diferentes no suelen ser
compatibles entre sí, es decir que el contenido de video comprimido con un estándar no se
puede descomprimir con otro diferente. Por ejemplo, un decodificador MPEG-4 no funcionará
con un codificador H.264. Esto ocurre simplemente porque un algoritmo no puede
descodificar correctamente los datos de salida del otro algoritmo, pero es posible usar muchos
algoritmos diferentes en el mismo software o hardware, que permitirían la coexistencia de
varios formatos.

7.1.2. Compresión de imagen vs. compresión de video

Los diferentes estándares de compresión utilizan métodos distintos para reducir los datos y,
en consecuencia, los resultados en cuanto a frecuencia de bits y latencia son diferentes.
Existen dos tipos de algoritmos de compresión: compresión de imágenes y compresión de
video.

La compresión de imagen utiliza la tecnología de codificación intrafotograma. Los datos se


reducen a un fotograma de imagen con el fin de eliminar la información innecesaria que
puede ser imperceptible para el ojo humano. Motion JPEG es un ejemplo de este tipo de
estándar de compresión. En una secuencia Motion JPEG, las imágenes se codifican o
comprimen como imágenes JPEG individuales.

Los algoritmos de compresión de video -4 como el MPEG-4 y el H.264 utilizan la predicción


interfotograma para reducir los datos de video entre las series de fotogramas. Esta consiste en
técnicas como la codificación diferencial, en la que un fotograma se compara con un
fotograma de referencia y sólo se codifican los píxeles que han cambiado con respecto al
fotograma de referencia. De esta forma, se reduce el número de valores de píxeles codificados
y enviados. Cuando se visualiza una secuencia codificada de este modo, las imágenes aparecen
como en la secuencia de video original.
Para reducir aún más los datos, se pueden aplicar otras técnicas como la compensación de
movimiento basada en bloques, que tiene en cuenta que gran parte de un fotograma nuevo
está ya incluido en el fotograma anterior, aunque quizás en un lugar diferente del mismo. Esta
técnica divide un fotograma en una serie de macrobloques (bloques de píxeles). Se puede
componer o “predecir” un nuevo fotograma bloque a bloque, buscando un bloque que
coincida en un fotograma de referencia. Si se encuentra una coincidencia, se codifica la
posición en la que se debe encontrar el bloque coincidente en el fotograma de referencia. La
codificación del vector de movimiento, como se denomina, precisa de menos bits que si
hubiera de codificarse el contenido real de un bloque.

Un fotograma I, o intrafotograma, es una imagen autónoma que se puede codificar de forma


independiente sin hacer referencia a otras imágenes. La primera imagen de una secuencia de
video es siempre un fotograma I. Los fotogramas I sirven como puntos de inicio en nuevas
visualizaciones o como puntos de resincronización si la transmisión de bits resulta dañada. Los
fotogramas I se pueden utilizar para implementar funciones de avance o retroceso rápido o de
acceso aleatorio. Un codificador insertará automáticamente fotogramas I a intervalos
regulares o a petición de nuevos clientes que puedan incorporarse a la visualización de una
transmisión. La desventaja de este tipo de fotogramas es que consumen muchos más bits,
pero por otro lado no generan demasiados efectos provocados por los datos que faltan.

Un fotograma P (de interfotograma Predictivo), hace referencia a partes de fotogramas I o P


anteriores para codificar el fotograma. Los fotogramas P suelen requerir menos bits que los
fotogramas I, pero con la desventaja de ser muy sensibles a la transmisión de errores, debido a
la compleja dependencia con fotogramas P o I anteriores.

Un fotograma B, o interfotograma Bipredictivo, es un fotograma que hace referencia tanto a


fotogramas anteriores como posteriores. El uso de fotogramas B aumenta la latencia.
Cuando un decodificador de video restaura un video descodificando la transmisión de bits
fotograma a fotograma, la descodificación debe comenzar siempre por un fotograma I. Los
fotogramas P y B, en caso de usarse, deben decodificarse junto a los fotogramas de referencia.

Los productos de algunas marcas permiten a los usuarios configurar la longitud de GOV (grupo
de video), la cual determina la cantidad de fotogramas P que deberían enviarse antes de
realizar el envío de otro fotograma I. La frecuencia de bits se puede disminuir mediante la
reducción de la frecuencia de fotogramas (GOV más largo). Para reducir la latencia no se
utilizan fotogramas B.

Además de la codificación diferencial y la compensación de movimiento, se pueden emplear


otros métodos avanzados para reducir aún más los datos y mejorar la calidad de video. El
H.264, por ejemplo, admite técnicas avanzadas como los esquemas de predicción para
codificar fotogramas I, la compensación de movimiento mejorada con una precisión inferior a
un píxel y el filtro de eliminación de bloques en bucle para suavizar los bordes de los bloques
(defectos).

7.2. Formatos de compresión

7.2.1. Motion JPEG

Motion JPEG o M-JPEG es una secuencia de video digital compuesta por una serie de imágenes
JPEG individuales. (JPEG son las siglas de Joint Photographic Experts Group - Grupo de
Expertos Fotográficos Unidos). Cuando se visualizan 16 o más imágenes por segundo, el ojo
humano lo percibe como un video en movimiento. Un video en completo movimiento se
percibe a 30 (NTSC) o 25 (PAL) imágenes por segundo.

Una de las ventajas de Motion JPEG es que cada imagen de una secuencia de video puede
conservar la misma calidad garantizada que se determina mediante el nivel de compresión
elegido para la cámara de red o codificador de video. Cuanto más alto es el nivel de
compresión, menor es el tamaño del archivo y la calidad de imagen. En algunas situaciones,
como cuando hay poca luz o la escena es compleja, el tamaño del archivo puede ser bastante
grande y, por lo tanto, usar más ancho de banda y espacio de almacenamiento. Para evitar
que esto ocurra, los productos de video en red permiten al usuario establecer un tamaño
máximo para un fotograma de imagen.

Al no haber dependencia alguna entre los fotogramas de Motion JPEG, un video Motion JPEG
es resistente, lo que significa que si falla un fotograma durante la transmisión, el resto del
video no se verá afectado.

Motion JPEG es un estándar que no requiere licencia. Tiene una amplia compatibilidad y su
uso es muy habitual en aplicaciones donde se requieren fotogramas individuales en una
secuencia de video -por ejemplo, para el análisis- y donde se utiliza una frecuencia de imagen
de 5 fotogramas por segundo o inferior. Motion JPEG también puede ser útil para aplicaciones
que requieren integración con sistemas solo compatibles con Motion JPEG.
Sin embargo, el principal inconveniente de Motion JPEG es que no utiliza ninguna técnica de
compresión de video para reducir datos, ya que consiste en una serie de imágenes fijas y
completas. El resultado es una frecuencia de bits relativamente alta o una relación de
compresión baja para la calidad proporcionada, en comparación con estándares como JPEG-4
y H.264.

7.2.2. MPEG-4

Cuando se menciona MPEG-4 en las aplicaciones de videovigilancia, normalmente nos


referimos a MPEG-4 Parte 2, también conocido como MPEG-4 Visual. Como todos los
estándares MPEG (Moving Picture Experts Group), requiere una licencia, es decir, los usuarios
deben pagar una tasa de licencia por cada estación de supervisión. MPEG-4 es compatible con
aplicaciones de ancho de banda reducido y aplicaciones que requieren imágenes de alta
calidad, sin limitaciones de frecuencia de imagen y con un ancho de banda virtualmente
limitado.

7.2.3. H.264 o MPEG-4 Part 10/AAVC

El H.264, también conocido como MPEG-4 Parte 10/AAVC para Codificación de Video
Avanzada, es el estándar MPEG más actual para la codificación de video. Se espera que el
H.264 se convierta en la alternativa de estándar en los próximos años. Ello se debe a que, sin
comprometer la calidad de la imagen, un codificador H.264 puede reducir el tamaño de un
archivo de video digital en más de un 80% si se compara con el formato Motion JPEG, y hasta
un 50% más en comparación con el estándar MPEG-4. Esto significa que se requiere menos
ancho de banda y espacio de almacenamiento para los archivos de video. O, visto de otra
manera, se puede lograr mayor calidad de imagen de video para una frecuencia de bits
determinada.

El H.264 ha sido definido conjuntamente por organizaciones de normalización del sector de las
telecomunicaciones (ITU-T’s Video Coding Experts Group) y de las tecnologías de la
información (ISO/IEC Moving Picture Experts Group), y se espera que tenga una mayor
adopción que los estándares anteriores. En el sector de la videovigilancia, H.264 encontrará su
mayor utilidad en aplicaciones donde se necesiten velocidades y resoluciones altas, como en la
vigilancia de autopistas, aeropuertos y casinos, lugares donde por regla general se usa una
velocidad de 30/225(NTSC/PAL) imágenes por segundo. Es aquí donde las ventajas económicas
de un ancho de banda y un almacenamiento reducidos se harán sentir de forma más clara.

Se espera que H.264 acelere también la adopción de cámaras megapíxel, ya que con esta
eficiente tecnología de compresión se pueden reducir los archivos de gran tamaño y las
frecuencias de bits sin que la calidad de la imagen se vea afectada. En cualquier caso, tiene sus
exigencias: aunque H.264 permite ahorrar en costes de ancho de banda y almacenamiento,
también necesita cámaras de red y estaciones de control de mejor rendimiento.

Los codificadores H.264 utilizan el perfil base, lo que supone que sólo se usan los fotogramas I
y P. Este perfil es el ideal para cámaras de red y codificadores de video, ya que la latencia se
reduce gracias a la ausencia de fotogramas B. La latencia baja es esencial en aplicaciones de
videovigilancia donde se realice supervisión en directo, sobre todo si se emplean cámaras PTZ
o domos PTZ.

7.3. Frecuencia de bits variable y constante

Con el MPEG-4 y el H.264, los usuarios pueden determinar que una transmisión de video
codificado tenga una frecuencia de bits variable o constante. La selección óptima dependerá
de la aplicación de la infraestructura de red.

Con la VBR (frecuencia de bits variable), se puede mantener un nivel predefinido de calidad de
imagen independientemente del movimiento o falta de movimiento en una escena. Esto
significa que el uso de ancho de banda aumentará cuando haya mucha actividad en una
escena y disminuirá cuando no haya movimiento. A menudo esta opción es ideal para las
aplicaciones de videovigilancia que requieren una alta calidad, especialmente si hay
movimiento en una escena. Debido a que la frecuencia de bits puede variar, incluso aunque se
haya definido una frecuencia de bits media de destino, la infraestructura de red (ancho de
banda disponible) debe poder adaptarse a grandes caudales de datos.

Con un ancho de banda limitado se recomienda utilizar el modo CBR (frecuencia de bits
constante), ya que este modo genera una frecuencia de bits que el usuario puede predefinir.
La desventaja que tiene la CBR es que si, por ejemplo, hay mucha actividad en una escena que
da como resultado una frecuencia de bits mayor que la velocidad de destino, la restricción
para mantener una frecuencia de bits constante conlleva una calidad y frecuencia de imagen
inferiores.

ESTÁNDARES DE ALMACENAMIENTO CON AUDIO.

También podría gustarte