Está en la página 1de 107

FORMATOS

ÍNDICE

TIPOS DE CODIFICACIÓN Y FORMATOS DE VÍDEO


Almacenaje de archivo
Streaming:
Reproductor de salón

FORMATOS
Formato de archivo informático
Generalidades
Especificaciones
Formatos de sonido
Con pérdida
Sin pérdida
Formatos de imagen
Con pérdida
Sin pérdida
Formato de archivos de vídeo

ASCII
Vista general
Historia
Los caracteres de control ASCII
Caracteres imprimibles ASCII
Rasgos estructurales
Otros nombres para ASCII
Variantes de ASCII
Arte ASCII

Unicode
Origen y desarrollo
Escrituras cubiertas
Curiosidades
Mapeo y codificaciones
Estándar
Historia de las revisiones de Unicode
Almacenamiento, transferencia y procesamiento
Composición de caracteres contra caracteres prediseñados
Discusiones
Unicode en uso
Sistemas operativos
Correo Electrónico
Web

AAC
Características
Diagrama de bloques de un MPEG-2 AAC codificador
Ventajas de AAC con respecto a MP3
MP3
Historia
Detalles técnicos
Banco de filtros
El modelo psicoacústico
Codificación y cuantificación
Ciclo interno
Ciclo externo
Empaquetado o formateador de bitstream
Estructura de un fichero MP3
Transformada de Fourier discreta

Mp3PRO

Vorbis
Introducción
Historia
Detalles técnicos

RealAudio
Extensiones de Archivos

TwinVQ
Características
Funcionamiento
TwinVQ en MPEG-4
Software
SoundVQ
Otros

WMA

Audio Interchange File Format


Subtipos AIFF
AIFF-C
AIFF LPCM
Bucles de Apple AIFF
Formato de datos
Aplicaciones de edición compatibles

Free Lossless Audio Codec (FLAC)


El proyecto
Comparaciones
Tabla comparativa de funcionalidades
Características de los archivos
Soporte Software
Codificación
Decodificación
Ripeo
Soporte Hardware
Waveform Audio Format

MIDI
Historia
Hardware
Aparatos
• Controladores:
• Unidades generadoras de sonido:
• Secuenciadores:

Cables y conectores
Conexiones
Software
Bytes MIDI
Canales MIDI
Instrumentos MIDI
Modos MIDI
Mensajes de canal
Controlador y unidad generadora de sonido
Secuenciador

JPEG
El estándar JPEG
Compresión del JPEG
Codificación
Transformación del espacio de color
Submuestreo
Transformación discreta de coseno o DCT
Cuantificación
Codificación entrópica
Ruido producido por la compresión
Decodificación

GIF (Compuserve GIF)


Características
Patentes

Portable Network Graphics (PNG)


Historia y desarrollo
Detalles técnicos
Cabecera del archivo
Segmentos del archivo
Secciones esenciales
Secciones de metadatos
Profundidad de color
Transparencia en la imagen
Compresión
Animación
Comparación técnica con otros formatos
Comparación con GIF
Comparación con JPEG
PNG en la web
Problemas de color

Windows bitmap (BMP)

TIFF
Etiquetas
Compresión
Almacenamiento
Creadores y Dueños
Otras Aplicaciones

TARGA (TGA)

VIDEO
Partes de la señal de video analógica
Información de la imagen
Sincronismos
Descripción de videos
Características de los flujos de video
Número de imágenes por segundo
Entrelazado
Resolución de video
Relación de aspecto
Espacio de color y bits por píxel
Calidad de video
Método de compresión de video (sólo digital)
Tasa de bits (sólo digital)
Estereoscópico

Formatos de video

Moving Picture Experts Group


Cómo funciona MPEG
MPEG-1
MPEG-4
Partes de MPEG-4
MPEG-2
El Estándar MPEG-2
Codificación de vídeo MPEG-2 (simplificado)
Codificación de audio MPEG-2.
MPEG-2 En SVCD
MPEG-2 En DVD
MPEG-2 en DVB
MPEG-2 en ATSC y ISDB-T
Standards MPEG-2
Retenedores de patente
Reproductor de Windows Media
Características
Versiones
Windows Media Player 11
Polémica

AVI
Breve reseña histórica
Cómo funciona
Cómo se reproduce un archivo AVI

QuickTime
Historia
Formatos soportados

3GP
Software
Reproducción
Codificación/Decodificación

Códec
Los codecs de vídeo más usados actualmente son:
Sin Compresión:
DV:
MPEG:
Xvid.
Divx.
RatDVD.
Vcd.
Svcd.
1. TIPOS DE CODIFICACIÓN Y FORMATOS DE VÍDEO
Una de las decisiones más importantes que debemos tomar, antes y después de la
edición, es elegir el formato de video que usaremos, y su codificación (CODEC).
Esto afectará notablemente al resultado final de nuestro trabajo.

El formato, es la manera en que se guardan los datos en el archivo.


El CODEC, en cambio, es el algoritmo de compresión usado para codificar los
datos de la película digital dentro del archivo.
La elección de un formato y codec, dependerá de las utilidades que le queramos
dar a la película. Sus diferentes usos pueden ser:
Almacenaje de archivo: la película resultante será almacenada en cualquier
soporte magnético u óptico, de ordenador, disco duro, CD o DVD. Su reproducción se
podrá realizar exclusivamente en un equipo informático con el software de reproducción
y codec apropiados.
Streaming: el clip será guardado en un ordenador para su difusión en Internet o
Intranet. Este tipo de vídeos, son usados para verlos online. Para este tipo de
visualización es necesario un servidor con el software apropiado de "streaming", para
poder enviar los datos a los ordenadores conectados.
Reproductor de salón: la grabación será almacenada en cualquier tipo de soporte
magnético u óptico, ya sea cinta VHS, DV, CD, DVD, etc. En este caso para grabar la
película en formato VHS, necesitaremos disponer de una salida de vídeo en nuestro
ordenador o cámara digital.

2. FORMATOS
2.1 Formato de archivo informático
Un formato de archivo informático (o formato de fichero informático) es una
manera particular de codificar información para almacenarla en un archivo informático.
Dado que una unidad de disco, o de hecho cualquier memoria sólo puede
almacenar bits, la computadora debe tener alguna manera de convertir la información a
ceros y unos y viceversa. Hay diferentes tipos de formatos para diferentes tipos de
información. Sin embargo, dentro de cada tipo de formato, por ejemplo documentos de
un procesador de texto, habrá normalmente varios formatos diferentes, a veces en
competencia.

2.2 Generalidades
Algunos formatos de archivo están diseñados para almacenar tipos de datos muy
particulares: el formato JPEG, por ejemplo, está diseñado para almacenar solamente
imágenes estáticas. Otros formatos de archivo, sin embargo, están diseñados para
almacenar varios tipos diferentes de datos: el formato GIF admite almacenar imágenes
estáticas y animaciones simples, y el formato QuickTime puede actuar como un
contenedor para muchos tipos diferentes de multimedia. Un archivo de texto es
simplemente uno que almacena cualquier texto, en un formato como ASCII o Unicode,
con pocos o ninguno caracteres de control. Algunos formatos de archivo, como HTML,
o el código fuente de algún lenguaje de programación particular, también son de hecho
archivos de texto, pero se adhieren a reglas más específicas que les permiten ser usados
para propósitos específicos.
A veces es posible hacer que un programa lea un archivo codificado en un formato
como si hubiera sido codificado en otro formato. Por ejemplo, uno puede reproducir un
documento de Microsoft Word como si fuera una canción usando un programa de
reproducción de música que acepte archivos de audio «sin cabecera». El resultado no
suena muy melodioso, sin embargo. Esto es así porque una disposición sensata de bits
en un formato casi nunca tiene sentido en otro.

2.3 Especificaciones
Muchos formatos de archivos, incluyendo algunos de los formatos de archivo más
conocidos, tienen publicado un documento de especificación (a menudo con una
implementación de referencia) que describe exactamente como se deben codificar los
datos, y que se puede usar para determinar si un programa concreto trata un formato de
archivo particular correctamente o no. Hay, sin embargo, dos razones por las que éste
no es siempre el caso. Primero, algunos desarrolladores de formatos de archivo ven sus
documentos de especificación como secretos comerciales, y por lo tanto no los ponen a
disposición del público. Un ejemplo prominente de esto existe en varios formatos
usados por las aplicaciones de Microsoft Office. Segundo, algunos desarrolladores de
formatos de archivo nunca gastan tiempo en escribir un documento de especificación
independiente; en vez de ello, el formato se define sólo implícitamente, por medio del
programa que manipula datos en ese formato.
Observe que utilizar formatos de archivo que no tengan una especificación
disponible públicamente puede resultar caro. Aprender como funciona el formato
requerirá bien hacerle ingeniería inversa a partir de una implementación de referencia o
adquirir el documento de especificación por algún precio a los desarrolladores del
formato. Este segundo enfoque es posible solamente cuando hay un documento de
especificación, y requiere normalmente firma un acuerdo de no divulgación. Ambas
estrategias requieren mucho tiempo, dinero, o ambos. Por lo tanto, y como regla
general, los formatos de archivo con especificaciones disponibles públicamente son
usados por un número mayor de programas, mientras que los formatos no públicos son
reconocidos solamente por unos pocos programas.

2.4 Formatos de sonido

Con pérdida:
AAC
MP3
MP3Pro
Vorbis
RealAudio
VQF
WMA

Sin pérdida
AIFF
FLAC
WAV
MIDI
MKA

2.5 Formatos de imagen

Con pérdida:
JPEG
Sin pérdida:
GIF
ILBM
PNG
BMP
TIFF
TARGA (TGA)
HD Pho (Sólo en calidad 100%)

2.6 Formato de archivos de vídeo


Modo en el que los vídeos se guardan los datos de un archivo de vídeo con el fin
de que puedan ser interpretados por el ordenador. Normalmente, un vídeo es una
colección de imágenes acompañada de sonido; la información de uno y otro tipo se
suele grabar en pistas separadas que luego se coordinan para su ejecución simultánea.
Para transformar la información analógica de las imágenes en digital se usan los
códec (acrónimo de codificador/decodificador). En muchos casos estas utilidades
analizan los fotogramas y emplean algoritmos para comprimir sus datos. La compresión
puede ser temporal, en la que se analiza un fotograma y se guarda la diferencia entre
éste y el que le precede, o espacial, en la que se eliminan los datos de los píxeles que no
cambian en cada fotograma.
Existen tres formatos de vídeo de gran implantación: el QuickTime Movie
(MOV), el AVI y el correspondiente al estándar MPEG. El formato QuickTime Movie
(MOV), creado por Apple, es multiplataforma y en sus versiones más recientes permite
interactuar con películas en 3D y realidad virtual. El AVI (Audio Video Interleaved,
audio vídeo intercalado) es un formato también multiplataforma. Tanto *.avi como
*.mov son contenedores de audio y vídeo con lo que son formatos de fichero, a este
fichero habría que especificarte el tipo de video o audio que está conteniendo y que
puede ser sin compresión o con la compresión soportada por dicho fichero como pueden
ser para los *.avi el divx, Dv-pal, etc y para *.mov el sorenson, H264, etc. El formato
correspondiente al estándar MPEG (Moving Pictures Experts Group) produce una
compresión de los datos con una pequeña pérdida de la calidad; desde su creación, se ha
definido el MPEG-1, utilizado en CD-ROM y Vídeo CD, el MPEG-2, usado en los
DVD de Vídeo y la televisión digital, y el MPEG-4, que se emplea para transmitir vídeo
e imágenes en ancho de banda reducido; es un formato adecuado para distribuir
multimedia en la Web. El formato MPEG4 es la base de actuales formatos como el divx
xvid o el H264 siendo este último (H264) un codec tan potente que soporta vídeos de
gran formato y calidad excelente con anchos de banda muy reducidos.
El desarrollo de Internet ha propiciado formatos que permiten visualizar vídeos a
través de la red, sin tener que descargar previamente el archivo completo; para esta
finalidad, la empresa RealNetworks ha establecido RealVideo y Microsoft su formato
de vídeo correspondiente al Windows Media Player (Reproductor de Windows Media),
ambos con gran futuro en el desarrollo de la distribución de vídeo en tiempo real a
través de Internet.
Para ver los vídeos en el ordenador es necesario tener instalado el software de
reproducción adecuado. Actualmente suelen facilitarlo las distintas empresas, bien con
el sistema operativo, bien como una herramienta a la que se puede acceder de forma
gratuita.
ASCII

Hay 95 caracteres ASCII imprimibles, numerados del 32 al 126.


El código ASCII (acrónimo inglés de American Standard Code for Information
Interchange — (Código Estadounidense Estándar para el Intercambio de Información),
pronunciado generalmente [áski], es un código de caracteres basado en el alfabeto latino
tal como se usa en inglés moderno y en otras lenguas occidentales. Fue creado en 1963
por el Comité Estadounidense de Estándares (ASA, conocido desde 1969 como el
Instituto Estadounidense de Estándares Nacionales, o ANSI) como una refundición o
evolución de los conjuntos de códigos utilizados entonces en telegrafía. Más tarde, en
1967, se incluyeron las minúsculas, y se redefinieron algunos códigos de control para
formar el código conocido como US-ASCII.
El código ASCII utiliza 7 bits para representar los caracteres, aunque inicialmente
empleaba un bit adicional (bit de paridad) que se usaba para detectar errores en la
transmisión. A menudo se llama incorrectamente ASCII a otros códigos de caracteres de
8 bits, como el estándar ISO-8859-1 que es una extensión que utiliza 8 bits para
proporcionar caracteres adicionales usados en idiomas distintos al inglés, como el
español.
ASCII fue publicado como estándar por primera vez en 1967 y fue actualizado por
última vez en 1986. En la actualidad define códigos para 33 caracteres no imprimibles,
de los cuales la mayoría son caracteres de control obsoletos que tienen efecto sobre
como se procesa el texto, más otros 95 caracteres imprimibles que les siguen en la
numeración (empezando por el carácter espacio).
Casi todos los sistemas informáticos actuales utilizan el código ASCII o una
extensión compatible para representar textos y para el control de dispositivos que
manejan texto.

Vista general
Las computadoras solamente entienden números. El código ASCII es una
representación numérica de un carácter como ‘a’ o ‘@’.1
Como otros códigos de formato de representación de caracteres, el ASCII es un
método para una correspondencia entre cadenas de bits y una serie de símbolos
(alfanuméricos y otros), permitiendo de esta forma la comunicación entre dispositivos
digitales así como su procesado y almacenamiento. El código de caracteres ASCII2 —
o una extensión compatible (ver más abajo) — se usa casi en todos los ordenadores,
especialmente con ordenadores personales y estaciones de trabajo. El nombre más
apropiado para este código de caracteres es "US-ASCII".
! " # $ % & ' ( ) * +, -. / 0 1 2 3 4 5 6 7 8 9 :; < = > ?
@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_
`abcdefghijklmnopqrstuvwxyz{|}~

ASCII es, en sentido estricto, un código de siete bits, lo que significa que usa
cadenas de bits representables con siete dígitos binarios (que van de 0 a 127 en base
decimal) para representar información de caracteres. En el momento en el que se
introdujo el código ASCII muchos ordenadores trabajaban con grupos de ocho bits
(bytes u octetos), como la unidad mínima de información; donde el octavo bit se usaba
habitualmente como bit de paridad con funciones de control de errores en líneas de
comunicación u otras funciones específicas del dispositivo. Las máquinas que no
usaban la comprobación de paridad asignaban al octavo bit el valor cero en la mayoría
de los casos, aunque otros sistemas como las computadoras Prime, que ejecutaban
PRIMOS ponían el octavo bit del código ASCII a uno.
El código ASCII define una relación entre caracteres específicos y secuencias de
bits; además de reservar unos cuantos códigos de control para el procesador de textos, y
no define ningún mecanismo para describir la estructura o la apariencia del texto en un
documento; estos asuntos están especificados por otros lenguajes como los lenguajes de
etiquetas.

Historia
El código ASCII se desarrolló en el ámbito de la telegrafía, y se usó por primera
vez comercialmente como un código de teleimpresión impulsado por los servicios de
datos de Bell. Bell había planeado usar un código de seis bits, derivado de Fieldata, que
añadía puntuación y letras minúsculas al más antiguo código de teleimpresión Baudot,
pero se les convenció para que se unieran al subcomité de la Agencia de Estándares
Estadounidense (ASA), que habían empezado a desarrollar el código ASCII. Baudot
ayudó en la automatización del envío y recepción de mensajes telegráficos, y tomó
muchas características del código Morse; sin embargo, a diferencia del código Morse,
Baudot usó códigos de longitud constante. Comparado con los primeros códigos
telegráficos, el código propuesto por Bell y ASA resultó en una reorganización más
conveniente para ordenar listas (especialmente porque estaba ordenado alfabéticamente)
y añadió características como la 'secuencia de escape'.
La Agencia de Estándares Estadounidense (ASA), que se convertiría más tarde en
el Instituto Nacional Estadounidense de Estándares (ANSI), publicó por primera vez el
código ASCII en 1963. El ASCII publicado en 1963 tenía una flecha apuntando hacia
arriba (↑) en lugar del circunflejo (^) y una flecha apuntando hacia la izquierda en lugar
del guión bajo (_). La versión de 1967 añadió las letras minúsculas, cambió los nombres
de algunos códigos de control y cambió de lugar los dos códigos de control ACK y ESC
de la zona de letras minúsculas a la zona de códigos de control.
ASCII fue actualizado en consecuencia y publicado como ANSI X3.4-1968, ANSI
X3.4-1977, y finalmente ANSI X3.4-1986.
Otros órganos de estandarización han publicado códigos de caracteres que son
idénticos a ASCII. Estos códigos de caracteres reciben a menudo el nombre de ASCII, a
pesar de que ASCII se define estrictamente solamente por los estándares ASA/ANSI:
• La Asociación Europea de Fabricantes de Ordenadores (ECMA) publicó
ediciones de su clon de ASCII, ECMA-6 en 1965, 1967, 1970, 1973, 1983, y
1991. La edición de 1991 es idéntica a ANSI X3.4-1986.
• La Organización Internacional de Estandarización (ISO) publicó su
versión, ISO 646 (más tarde ISO/IEC 646) en 1967, 1972, 1983 y 1991. En
particular, ISO 646:1972 estableció un conjunto de versiones específicas para
cada país donde los caracteres de puntuación fueron reemplazados con
caracteres no ingleses. ISO/IEC 646:1991 La International Reference Version es
la misma que en el ANSI X3.4-1986.
• La Unión Internacional de Telecomunicaciones (ITU) publicó su versión
de ANSI X3.4-1986, Recomendación ITU T.50, en 1992. A principios de la
década de 1970 publicó una versión como Recomendación CCITT V.3.
• DIN publicó una versión de ASCII como el estándar DIN 66003 en 1974.
• El Grupo de Trabajo en Ingeniería de Internet (IETF) publicó una versión
en 1969 como RFC 20, y estableció la versión estándar para Internet, basada en
ANSI X3.4-1986, con la publicación de RFC 1345 en 1992.
• La versión de IBM de ANSI X3.4-1986 se publicó en la literatura técnica
de IBM como página de códigos 367.
El código ASCII también está incluido en su probable relevo, Unicode,
constituyendo los primeros 128 caracteres (o los 'más bajos'). Algunos observadores
consideran el código ASCII el estándar de software más exitoso que jamás se haya
promulgado.

Los caracteres de control ASCII


El código ASCII reserva los primeros 32 códigos (numerados del 0 al 31 en
decimal) para caracteres de control: códigos no pensados originalmente para representar
información imprimible, sino para controlar dispositivos (como impresoras) que usaban
ASCII. Por ejemplo, el carácter 10 representa la función "nueva línea" (line feed), que
hace que una impresora avance el papel, y el carácter 27 representa la tecla "escape" que
a menudo se encuentra en la esquina superior izquierda de los teclados comunes.
El código 127 (los siete bits a uno), otro carácter especial, equivale a "suprimir"
("delete"). Aunque esta función se asemeja a otros caracteres de control, los diseñadores
de ASCII idearon este código para poder "borrar" una sección de papel perforado (un
medio de almacenamiento popular hasta la década de 1980) mediante la perforación de
todos los agujeros posibles de una posición de carácter concreta, reemplazando
cualquier información previa. Dado que el código 0 era ignorado, fue posible dejar
huecos (regiones de agujeros) y más tarde hacer correcciones.
Muchos de los caracteres de control ASCII servían para marcar paquetes de datos,
o para controlar protocolos de transmisión de datos (por ejemplo ENQuiry, con el
significado: ¿hay alguna estación por ahí?, ACKnowledge: recibido o "acuse de recibo",
Negative AcKnowledge: No recibido, Start Of Header: inicio de cabecera, Start of
TeXt: inicio de texto, End of TeXt: final de texto, etc.). ESCape y SUBstitute permitían
a un protocolo de comunicaciones, por ejemplo, marcar datos binarios para que
contuviesen códigos con el mismo código que el carácter de protocolo, y que el receptor
pudiese interpretarlos como datos en lugar de como caracteres propios del protocolo.
Los diseñadores del código ASCII idearon los caracteres de separación para su uso
en sistemas de cintas magnéticas.
Dos de los caracteres de control de dispositivos, comúnmente llamados XON y
XOFF generalmente ejercían funciones de caracteres de control de flujo para controlar
el flujo a hacia un dispositivo lento (como una impresora) desde un dispositivo rápido
(como un ordenador), de forma que los datos no saturasen la capacidad de recepción del
dispositivo lento y se perdiesen.
Los primeros usuarios de ASCII adoptaron algunos de los códigos de control para
representar "metainformación" como final-de-línea, principio/final de un elemento de
datos, etc. Estas asignaciones a menudo entraban en conflicto, así que parte del esfuerzo
de convertir datos de un formato a otro comporta hacer las conversiones correctas de
metainformación. Por ejemplo, el carácter que representa el final-de-línea en ficheros de
texto varía con el sistema operativo. Cuando se copian archivos de un sistema a otro, el
sistema de conversión debe reconocer estos caracteres como marcas de final-de-línea y
actuar en consecuencia.
Actualmente los usuarios de ASCII usan menos los caracteres de control, (con
algunas excepciones como "retorno de carro" o "nueva línea"). Los lenguajes modernos
de etiquetas, los protocolos modernos de comunicación, el paso de dispositivos basados
en texto a basados en gráficos, el declive de las teleimpresoras, las tarjetas perforadas y
los papeles continuos han dejado obsoleta la mayoría de caracteres de control.

Nombre/
Binario Decimal Hex Abreviatura Repr AT Significado

0000 0000 0 00 NUL ֙ ^@ Carácter Nulo

0000 0001 1 01 SOH ֚ ^A Inicio de Encabezado

Inicio de
0000 0010 2 02 STX ֛ ^B
Texto

0000 0011 3 03 ETX ֜ ^C Fin de Texto

Fin de
0000 0100 4 04 EOT ֝ ^D
Transmisión

0000 0101 5 05 ENQ ֞ ^E Enquiry

0000 0110 6 06 ACK ֟ ^F Acknowledgement

0000 0111 7 07 BEL ֠ ^G Timbre

0000 1000 8 08 BS ֡ ^H Retroceso

0000 1001 9 09 HT ֢ ^I Tabulación horizontal

0000 1010 10 0A LF ֣ ^J Line feed

0000 1011 11 0B VT ֤ ^K Tabulación Vertical

0000 1100 12 0C FF ֥ ^L Form feed

0000 1101 13 0D CR ↵ ^M Carriage return

0000 1110 14 0E SO ֧ ^N Shift Out


0000 1111 15 0F SI ֨ ^O Shift In

Data Link
0001 0000 16 10 DLE ֩ ^P
Escape

Device Control 1 —
0001 0001 17 11 DC1 ֪ ^Q
oft. XON

0001 0010 18 12 DC2 ֫ ^R Device Control 2

Device Control 3 —
0001 0011 19 13 DC3 ֬ ^S
oft. XOFF

0001 0100 20 14 DC4 ֭ ^T Device Control 4

Negative Acknow
0001 0101 21 15 NAK ֮ ^U
ledgement

0001 0110 22 16 SYN ֯ ^V Synchronous Idle

0001 0111 23 17 ETB ְ ^W End of Trans. Block

0001 1000 24 18 CAN ֱ ^X Cancel

0001 1001 25 19 EM ֲ ^Y End of Medium

0001 1010 26 1A SUB ֳ ^Z Substitute

0001 1011 27 1B ESC ִ ^[ or ESC Escape

0001 1100 28 1C FS ֵ ^\ File Separator

0001 1101 29 1D GS ֶ ^] Group Separator

0001 1110 30 1E RS ַ ^^ Record Separator

0001 1111 31 1F US ָ ^_ Unit Separator

^?, Delete, or
0111 1111 127 7F DEL ֺ Delete
Backspace

Caracteres imprimibles ASCII


El código el carácter espacio, designa al espacio entre palabras, y se produce
normalmente por la barra espaciadora de un teclado. Los códigos del 33 al 126 se
conocen como caracteres imprimibles, y representan letras, dígitos, signos de
puntuación y varios símbolos.
El ASCII de siete bits proporciona siete caracteres "nacionales" y, si la
combinación concreta de hardware y software lo permite, puede utilizar combinaciones
de teclas para simular otros caracteres internacionales: en estos casos un backspace
puede preceder a un acento abierto o grave (en los estándares británico y americano,
pero sólo en estos estándares, se llama también "opening single quotation mark"), una
tilde o una "marca de respiración".

Binario Dec Hex Representación

0010 0000 32 20 espacio ( )

0010 0001 33 21 !

0010 0010 34 22 "

0010 0011 35 23 #

0010 0100 36 24 $

0010 0101 37 25 %

0010 0110 38 26 &

0010 0111 39 27 '

0010 1000 40 28 (

0010 1001 41 29 )

0010 1010 42 2A *

0010 1011 43 2B +

0010 1100 44 2C ,

0010 1101 45 2D -

0010 1110 46 2E .

0010 1111 47 2F /

0011 0000 48 30 0

0011 0001 49 31 1

0011 0010 50 32 2

0011 0011 51 33 3

0011 0100 52 34 4

0011 0101 53 35 5
0011 0111 55 37 7

0011 1000 56 38 8

0011 1001 57 39 9

0011 1010 58 3A :

0011 1011 59 3B ;

0011 1100 60 3C <

0011 1101 61 3D =

0011 1110 62 3E >

0011 1111 63 3F ?

Binario Dec Hex Representación

0100 0000 64 40 @

0100 0001 65 41 A

0100 0010 66 42 B

0100 0011 67 43 C

0100 0100 68 44 D

0100 0101 69 45 E

0100 0110 70 46 F

0100 0111 71 47 G

0100 1000 72 48 H

0100 1001 73 49 I

0100 1010 74 4A J

0100 1011 75 4B K

0100 1100 76 4C L

0100 1101 77 4D M

0100 1110 78 4E N
0100 1111 79 4F O

0101 0000 80 50 P

0101 0001 81 51 Q

0101 0010 82 52 R

0101 0011 83 53 S

0101 0100 84 54 T

0101 0101 85 55 U

0101 0110 86 56 V

0101 0111 87 57 W

0101 1000 88 58 X

0101 1001 89 59 Y

0101 1010 90 5A Z

0101 1011 91 5B [

0101 1100 92 5C \

0101 1101 93 5D ]

0101 1110 94 5E ^

0101 1111 95 5F _

Binario Dec Hex Representación

0110 0000 96 60 `

0110 0001 97 61 a

0110 0010 98 62 b

0110 0011 99 63 c

0110 0100 100 64 d

0110 0101 101 65 e

0110 0110 102 66 f


0110 0111 103 67 g

0110 1000 104 68 h

0110 1001 105 69 i

0110 1010 106 6A j

0110 1011 107 6B k

0110 1100 108 6C l

0110 1101 109 6D m

0110 1110 110 6E n

0110 1111 111 6F o

0111 0000 112 70 p

0111 0001 113 71 q

0111 0010 114 72 r

0111 0011 115 73 s

0111 0100 116 74 t

0111 0101 117 75 u

0111 0110 118 76 v

0111 0111 119 77 w

0111 1000 120 78 x

0111 1001 121 79 y

0111 1010 122 7A z

0111 1011 123 7B {

0111 1100 124 7C |

0111 1101 125 7D }

0111 1110 126 7E ~


Rasgos estructurales
•Los dígitos del 0 al 9 se representan con sus valores prefijados con el
valor 0011 en binario (esto significa que la conversión BCD-ASCII es una
simple cuestión de tomar cada unidad bcd y prefijarla con 0011).
• Las cadenas de bits de las letras minúsculas y mayúsculas sólo difieren
en un bit, simplificando de esta forma la conversión de uno a otro grupo.

Otros nombres para ASCII


La RFC 1345 (publicada en junio de 1992) y el registro IANA de códigos de
caracteres, reconocen los siguientes nombres alternativos para ASCII para su uso en
Internet.
• ANSI_X3.4-1968 (nombre canónico)
• ANSI_X3.4-1986
• ASCII
• US-ASCII (nombre MIME recomendado)
• us
• ISO646-US
• ISO_646.irv:1991
• iso-ir-6
• IBM367
• cp367
• csASCII
De estos, sólo los nombres "US-ASCII" y "ASCII" se usan ampliamente. A
menudo se encuentran en el parámetro de "código de caracteres" opcional en la
cabecera Content-Type de algunos mensajes MIME, en el elemento equivalente "meta"
de algunos documentos HTML, y en la parte de declaración de codificación de carácter
de la cabecera de algunos documentos XML.@

Variantes de ASCII
A medida que la tecnología informática se difundió a lo largo del mundo, se
desarrollaron diferentes estándares y las empresas desarrollaron muchas variaciones del
código ASCII para facilitar la escritura de lenguas diferentes al inglés que usaran
alfabetos latinos. Se pueden encontrar algunas de esas variaciones clasificadas como
"ASCII Extendido", aunque en ocasiones el término se aplica erróneamente para cubrir
todas las variantes, incluso las que no preservan el conjunto de códigos de caracteres
original ASCII de siete bits.
La ISO 646 (1972), el primer intento de remediar el sesgo pro-inglés de la
codificación de caracteres, creó problemas de compatibilidad, pues también era un
código de caracteres de 7 bits. No especificó códigos adicionales, así que reasignó
algunos específicamente para los nuevos lenguajes. De esta forma se volvió imposible
saber en qué variante se encontraba codificado el texto, y, consecuentemente, los
procesadores de texto podían tratar una sola variante.
La tecnología mejoró y aportó medios para representar la información codificada
en el octavo bit de cada byte, liberando este bit, lo que añadió otros 128 códigos de
carácter adicionales que quedaron disponibles para nuevas asignaciones. Por ejemplo,
IBM desarrolló páginas de código de 8 bits, como la página de códigos 437, que
reemplazaba los caracteres de control con símbolos gráficos como sonrisas, y asignó
otros caracteres gráficos adicionales a los 128 bytes superiores de la página de códigos.
Algunos sistemas operativos como DOS, podían trabajar con esas páginas de código, y
los fabricantes de ordenadores personales incluyeron soporte para dichas páginas en su
hardware.
Los estándares de ocho bits como ISO 8859 y Mac OS Roman fueron
desarrollados como verdaderas extensiones de ASCII, dejando los primeros 127
caracteres intactos y añadiendo únicamente valores adicionales por encima de los 7-bits.
Esto permitió la representación de un abanico mayor de lenguajes, pero estos estándares
continuaron sufriendo incompatibilidades y limitaciones. Todavía hoy, ISO-8859-1 y su
variante Windows-1252 (a veces llamada erróneamente ISO-8859-1) y el código ASCII
original de 7 bits son los códigos de carácter más comúnmente utilizados.
Unicode y Conjunto de Caracteres Universal (UCS) ISO/IEC 10646 definen un
conjunto de caracteres mucho mayor, y sus diferentes formas de codificación han
empezado a reemplazar ISO 8859 y ASCII rápidamente en muchos entornos. Mientras
que ASCII básicamente usa códigos de 7-bits, Unicode y UCS usan "code points" o
apuntadores relativamente abstractos: números positivos (incluyendo el cero) que
asignan secuencias de 8 o más bits a caracteres. Para permitir la compatibilidad,
Unicode y UCS asignan los primeros 128 apuntadores a los mismos caracteres que el
código ASCII. De esta forma se puede pensar en ASCII como un subconjunto muy
pequeño de Unicode y UCS. La popular codificación UTF-8 recomienda el uso de uno a
cuatro valores de 8 bits para cada apuntador, donde los primeros 128 valores apuntan a
los mismos caracteres que ASCII. Otras codificaciones de caracteres como UTF-16 se
parece a ASCII en cómo representan los primeros 128 caracteres de Unicode, pero
tienden a usar 16 a 32 bits por carácter, así que requieren de una conversión adecuada
para que haya compatibilidad entre ambos códigos de carácter.
La palabra ASCIIbético (o, más habitualmente, la palabra "inglesa" ASCIIbetical)
describe la ordenación según el orden de los códigos ASCII en lugar del orden
alfabético.5
La abreviatura ASCIIZ o ASCIZ se refiere a una cadena de caracteres terminada
en cero (del inglés "zero").

Arte ASCII

_ _ ____ ____ ___ ___


__ _ _ __| |_ ____ /_\ / ___| / ___|_ _|_ _|
/ _` | '__| __|/ __ \ //_\\ \___ \| | | | | |
| (_| | | | | | ___/ / ___ \ ___) | |___ | | | |
\__,_|_| \__|\____> /_/ \_\____/ \____|___|___|

El código de caracteres ASCII es el soporte de una disciplina artística minoritaria,


el arte ASCII, que consiste en la composición imágenes mediante caracteres
imprimibles ASCII. El efecto resultante ha sido comparado con el puntillismo, pues las
imágenes producidas con esta técnica generalmente se aprecian con más detalle al ser
vistas a distancia. El arte ASCII empezó siendo un arte experimental, pero pronto se
popularizó como recurso para representar imágenes en soportes incapaces de procesar
gráficos, como teletipos, terminales, correos electrónicos o algunas impresoras.
Aunque se puede componer arte ASCII manualmente mediante un editor de
textos, también se pueden convertir automáticamente imágenes y vídeos en ASCII
mediante software, como la librería Aalib (de licencia libre), que ha alcanzado cierta
popularidad. Aalib está soportada por algunos programas de diseño gráfico, juegos y
reproductores de vídeo.
Unicode
Unicode (acrónimo formado del idioma inglés por «Universal» Universal y
«Code» Código - el cual significa Código Universal o Unicódigo) es en Informática un
estándar industrial que permite a las computadoras representar y manipular
consistentemente el texto en la mayoría de los sistemas de escritura.
El establecimiento de Unicode ha involucrado un ambicioso proyecto para
reemplazar los esquemas de codificación de caracteres existentes, muchos de los cuales
están muy limitados en tamaño y son incompatibles con entornos plurilingües. Unicode
se ha vuelto el más extenso y completo esquema de codificación de caracteres, siendo el
más dominante en la internacionalización y adaptación local del software informático.
El estándar ha sido implementado en un número considerable de tecnologías recientes,
que incluyen XML, Java y sistemas operativos modernos.
Unicode establece un identificador único para cada carácter conocido, o punto de
código (code point), pero no especifica cómo debe codificarse en un sistema
informático, por lo que es posible establecer codificaciones de uno, dos o más bytes,
convirtiendo a Unicode en un estándar extensible.

Origen y desarrollo
Unicode tiene el propósito explícito de trascender las limitaciones de los códigos
de caracteres tradicionales, como los definidos por el estándar ISO 8859, utilizado en
numerosos países del mundo, pero que sigue siendo incompatible entre ellos en gran
parte. Buena parte de los codificadores de caracteres tradicionales comparten un
problema: permiten procesamientos informáticos bilingües (generalmente usando
caracteres latinos y del idioma local), pero no multilingües (procesamiento informático
de idiomas arbitrarios mezclados entre ellos).
Unicode intenta codificar los caracteres esenciales —grafemas— más que las
representaciones variantes para dichos caracteres. En caso de los caracteres chinos, esto
lleva a veces a constantes controversias sobre la distinción entre caracteres esenciales y
sus representaciones variantes (véase en:Han unification y en:Radical (Chinese
character)).
Unicode representa un carácter de forma abstracta, y deja la representación visual
(tamaño, dimensión, fuente o estilo) a otro software, como un navegador web o un
procesador de texto. No obstante, esta simplicidad se complica con las concesiones
hechas por los diseñadores de Unicode, con la esperanza de animar una mayor
"adopción" de Unicode.
Los primeros 256 puntos de código son idénticos a los especificados en ISO 8859-
1, para facilitar la conversión del texto ya existente escrito en lenguajes europeos
occidentales. Muchos de los caracteres esenciales se codificaron varias veces en
distintos puntos de código para preservar distinciones utilizadas por codificaciones
heredadas y permitir conversiones de aquellas codificaciones a Unicode (y viceversa)
sin perder ningún tipo de información. Por ejemplo, la sección de formas anchas
(en:Fullwidth) de los puntos de código abarca un alfabeto latino completo, separado de
la sección de alfabeto latino principal. En fuentes CJK (fuentes para chino, japonés y
coreano), estos caracteres fueron representados tanto en su forma ancha como en la
estándar, más angosta.
Además de que Unicode permite combinaciones de caracteres, también dispone de
versiones precompuestas de la mayoría de combinaciones de letras diacríticas en uso.
Estas versiones facilitan las conversiones desde y hacia las más simples codificaciones
heredadas y permiten que las aplicaciones utilicen Unicode como un formato de texto
interno sin tener que implementar combinaciones de caracteres. Por ejemplo, é puede
representarse en Unicode como U+0065 (letra latina minúscula e) seguido de U+0301
(acento agudo), pero puede también representarse directamente por el precompuesto
U+00E9.
El estándar Unicode también incluye un número de elementos relacionados, como
las propiedades de caracteres, formas de normalización de textos y órdenes de
visualización bidireccional (para la correcta visualización de texto que contenga
escrituras de derecha a izquierda —Árabe o Hebreo— y de izquierda a derecha a la
vez).

Escrituras cubiertas
Unicode cubre la mayor parte de las escrituras usadas actualmente, incluyendo:

• Árabe
• Armenio
• Bengalí
• Birmano
• Braille
• Sílabas aborígenes canadienses
• Cheroqui
• Copto
• Cirílico
• Devanāgarī
• Esperanto
• Etíope
• Georgiano
• Griego
• Guyaratí
• Gurmukhi
• Hangul (Coreano)
• Han (Kanji, Hanja y Hanzi)
• Japonés (Kanji, Hiragana y Katakana)
• Hebreo
• Jemer (Camboyano)
• Kannada (Canarés)
• Laosiano
• Latino
• Malabar
• Mongol
• Oriya
• Siríaco
• Tailandés (Thai)
• Tamil
• Tibetano
• Yi
• Zhuyin (Bopomofo)

Unicode ha ido añadiendo escrituras y cubrirá aún más, incluyendo escrituras


históricas menos utilizadas, incluso aquellas extinguidas, para propósitos académicos:
• Cuneiforme
• Griego antiguo
• Lineal B
• Fenicio
• Rúnico
• Sumerio
• Ugarítico

No hay planes inmediatos para incorporar jeroglíficos egipcios o escritura Maya.


NOTA: Los jeroglíficos egipcios han sido propuestos para la versión de UNICODE 4.1
También ocurren adiciones posteriores de caracteres a las escrituras ya
codificadas, como los símbolos, en particular para música y matemáticas. El mapa
itinerario de Unicode enlista escrituras sin incluir con asignaciones tentativas de bloques
de código. Alfabetos inventados, muchas de las cuales no están cualificadas para la
inclusión en Unicode debido a la carencia de uso en el mundo real, están listados en el
Registro Unicode ConScript, acompañado por los códigos no oficiales de asignación del
Área de Uso Privado. De forma similar, considerables variantes de letras medievales y
ligaduras no incluidas en Unicode, están codificadas en la Iniciativa de Fuente de
Unicode Medieval.

Curiosidades
En 1997, Michael Everson propuso codificar los caracteres del ficticio idioma
klingon en el Plano 1 del ISO/IEC 10646-2. [1] El Consorcio Unicode rechazó la
propuesta en 2001, declarándola "inapropiada para codificar": no porque fuera
inadecuada técnicamente, sino porque los usuarios de Klingon normalmente leían,
escribían e intercambiaban datos en transliteración latina. Actualmente, algunos de estos
entusiastas bloggean en tlhIngan pIqaD (alfabeto Klingon) utilizando nuevas fuentes
disponibles y distribuciones de teclado; la posibilidad de aplicarlo a ISO ha reaparecido.
Hubo también propuestas sobre la inclusión de alfabetos élficos como el Tengwar
o el Cirth, de la ficticia Tierra Media de J. R. R. Tolkien, en el Plano 1 en 1993. [2][3]
El Consorcio retiró el borrador para incorporar cambios, propuestos por los seguidores
de Tolkien, y no se consideró hasta 2005.
Tanto el Klingon como el Élfico son asignados en el Registro Unicode ConScript.

Mapeo y codificaciones
Estándar
El Consorcio Unicode, con sede en California (EE.UU.), desarrolla el estándar
Unicode. Cualquier individuo o compañía puede formar parte de la organización,
pagando una tasa de suscripción. Algunas de estas compañías están a la cabeza del
mercado de hardware y software informático, como Adobe Systems, Apple Computer,
IBM, Microsoft, Xerox y HP entre otras.
Primero se publicó El Estándar Unicode (ISBN 0-321-18578-1) en 1991, y sigue
desarrollando estándares basados en el original. Unicode fue desarrollado
conjuntamente con la Organización Internacional para la Estandarización (ISO) y
comparte su repertorio con ISO/IEC 10646. Unicode e ISO/IEC 10646 funcionan
equivalentemente como codificadores de caracteres, pero el Estándar Unicode contiene
mucha más información para implementar, cubriendo en profundidad, temas como la
codificación bitwise, collation y la renderización. Unicode enumera una vasta cantidad
de propiedades para los caracteres, incluyendo aquellas necesarias para soportar texto
bidireccional. Ambos estándares utilizan una terminología ligeramente diferente.
Cuando se escribe un carácter en Unicode, es normal escribirlo como una "U+" seguido
de un número hexadecimal indicando el punto del código del carácter. Para puntos de
código usando el formato gráfico BMP, se usan cuatro dígitos, para los puntos de
código fuera del formato gráfico BMP son usados cinco o seis dígitos, según sea
requerido. Las versiones antiguas del mismo estándar utilizaban notaciones similares,
pero con reglas ligeramente diferentes. Por ejemplo, Unicode 3.0 utlizaba "U-" seguido
de ocho dígitos, y permitía que se utilizara "U+" solamente con exactamente 4 dígitos
para poder indicar una unidad de código, no un punto de código.

Historia de las revisiones de Unicode


• 1991 Unicode 1.0
• 1993 Unicode 1.1
• 1996 Unicode 2.0
• 1998 Unicode 2.1
• 1999 Unicode 3.0 — cubría 16 bits del Plano Básico Multilingüe del ISO
10646-1:2000
• 2001 Unicode 3.1 — introduce Planos Suplementarios procedentes del
ISO 10646-2, que introduce caracteres extras.
• 2002 Unicode 3.2
• 2003 Unicode 4.0
• 2005 Unicode 4.1
• 2006 Unicode 5.0
• 2008 Unicode 5.1

Almacenamiento, transferencia y procesamiento
Por el momento Unicode solamente ha sido mostrado como una manera de asignar
un código único a cada carácter utilizado en los lenguajes escritos del mundo. El
almacenamiento de esos números en el procesamiento de textos es otro tema; los
problemas surgen del hecho que mucho del software escrito puede manejar solamente
codificación de caracteres de 8 bits, con respaldo a Unicode agregado recientemente de
forma lenta. De manera similar en cuanto a la representación de caracteres de Asia, los
caracteres de doble byte no pueden codificar más que 65.536 caracteres, y en la práctica
las arquitecturas elegidas imponen límites muy pequeños. Tales límites no son
suficientes ni siquiera para las necesidades escolares del lenguaje Chino.
La lógica interna de la mayoría del software de 8 bits permite de forma típica
solamente 8 bits para cada carácter, haciendo imposible utilizar más de 256 puntos de
código sin procesamiento especial. El software de 16 bits solamente puede guardar poco
más de 6 decenas de miles de caracteres. Unicode, por otro lado ha definido más de
90.000 caracteres codificados. Los diseñadores de los sistemas entonces han tenido que
sugerir muchos métodos y mecanismos para implementar Unicode; el método
implementado depende del espacio de almacenamiento disponible, la compatibilidad de
los códigos fuentes y la inter-operatividad con otros sistemas.
Unicode define dos métodos de "mapeo" o de localización de caracteres:
• La codificación UTF (Unicode Transformation Format) Formato de
Transformación Unicode.
• La codificación UCS (Universal Character Set) Juego de Caracteres
Universal.
Las codificaciones incluyen:
• UTF-7 — una codificación relativamente poco popular de 7 bits, a
menudo considerada obsoleta.
• UTF-8 — una codificación de 8 bits de longitud variable
• UCS-2 — una codificación de 16 bits de longitud fija que solamente
permite el "mapeo" o la búsqueda en la Plana Básica Multilengüe.
• UTF-16 — una codificación de 16 bits de longitud variable.
• UCS-4 y UTF-32 — un par de codificaciones de 32 bits de longitud fija
que son funcionalmente idénticas.
• UTF-EBCDIC — una codificación poco difundida creada para sistemas
basados en EBCDIC.
Los números en los nombres de los códigos indican la cantidad de bits de cada
carácter (para las codificaciones UTF) o el número de bytes por carácter (para las UCS).
A continuación se describen en el mismo orden algunos detalles sobre cada tipo de
codificación:
UTF-8 utiliza de uno hasta 4 bytes por cada punto de código y, siendo
relativamente compacto (para la escritura basada en caracteres latinos) y compatible con
ASCII. Proporciona la codificación estándar para el intercambio de texto en Unicode.
También es utilizado por las más recientes versiones de Linux como reemplazo a la
herencia de códigos en el manejo de textos en general.
Las codificaciones UCS-2 y UTF-16 especifican la BOM o la Marca de Orden de
Byte especifica el Unicode para usarlo al principio de los archivos de texto. Algunos
desarrolladores de software lo han adoptado para otras codificaciones, incluyendo UTF-
8, aunque ésta no necesita una indicación de orden de byte. En este caso, su intención es
marcar el archivo indicando que contiene texto Unicode. El punto de código de la BOM,
U+FEFF tiene la importante propiedad de la inambigüedad, sin importar la codificación
Unicode utilizada. Las unidades FE y FF nunca aparecen en UTF-8; U+FFFE (el
resultado del intercambio the U+FEFF) no es un carácter válido, y U+FEFF equivale a
longitud-cero o espacio sin ruptura (un carácter sin apariencia y sin otro efecto más que
prevenir la formación de ligaduras). El mismo carácter convertido a UTF-8 se convierte
en la siguiente secuencia de bytes EF BB BF.
En los códigos UTF-32 y UCS-4, un código de 32 bits funciona como una
representación directa y confiable de cualquier punto de código de un carácter (aunque
la endianness, que varía dependiendo de la arquitectura del procesador de cada
computadora, afecta como se representa el valor cada punto de código en una secuencia
de bits). Aunque en otros casos, cada código puede ser representado por un código de
valores de números variables.
UTF-16, mientras tanto, normalmente utiliza 16 bits por cada punto de código (al
igual que UCS-2), aunque en algunos casos requiere 32, es utilizada por muchas APIs
(Interfaz de Programación de Aplicaciones por sus siglas en inglés). El uso de UTF-16
se presenta mayormente por razones históricas que datan desde los días en que la
representación primaria de Unicode era UCS-2, o cuando se requería una interfaz con
otras APIs que usaran UTF-16. UTF-16 es el formato estándar para la API de Windows
(aunque el soporte para sustitutos no está habilitado por omisión), para la de Java y la de
ambientes .NET bytecode.
UCS-4 y UTF-32 son utilizados con muy poca frecuencia para almacenamiento y
transmisión de datos, ya que en la mayor parte de las ocasiones desperdician (dejan en
ceros) de 21 de los 32 bits asignados a cada punto de código; lo que sí se está volviendo
común es la implementación del código UCS-4 en la programación para la
representación interno del texto codificado, dado que su manipulación es más natural y
simple.
GB18030 es otra forma de codificación para el Unicode, pero proveniente de la
Administración para la Estandarización de China.
Composición de caracteres contra caracteres prediseñados
Unicode incluye un mecanismo para modificar la forma de los caracteres y así
extender el repertorio de compatibilidad con los símbolos preestablecidos. Esto incluye
el uso de la combinación de marcas diacríticas, las cuales son especificadas después del
carácter principal (de manera que uno puede apilar varios signos sobre el mismo
carácter). Sin embargo, por razones de compatibilidad, Unicode también incluye una
gran cantidad de caracteres prediseñados. De esta manera, los usuarios en muchas
ocasiones tienen muchas maneras de codificar el mismo carácter). Para poder manejar
esto, Unicode también provee el mecanismo de equivalencia cónica.
Una situación similar ocurre con el hangul. Unicode ofrece el mecanismo para
crear silabas hangul con el Hangul Jamo. Aunque, también provee de sílabas hangul
prediseñadas (11,172 de ellas para ser exactos).
Los ideogramas provenientes de China, Corea y Japón actualmente sólo tienen
códigos para su forma prediseñada. Aunque la mayoría de estos ideogramas se
componen de elementos más simples (también llamados radicales) así que Unicode
podrá descomponerlos como ocurre con el hangul. Esto reduciría enormemente el
número de puntos de código requeridos, y permitiría la visualización de virtualmente
cualquier ideograma concebible (lo que permitiría resolver algunos de los problemas
causados por la Unificación Han). Una idea similar cubre algunos métodos de entrada,
como el Cangjie y el Wubi. Algunos intentos de hacer esto para la codificación de
caracteres han tropezado con el hecho de que los ideogramas no se descomponen tan
fácil o tan regularmente como parece que deberían.
Un juego de radicales fue otorgado en Unicode 3.0 (radicales chinos, japoneses y
coreanos entre U+2E80 y UY+2EFF, radicales KanXi de U+2F00 a U+2FDF y
descripción ideográfica de caracteres desde U+2FF0 hasta U+2FFB), pero el estándar
Unicode (sección 11.1 de Unicode 4.1) advierte contra el uso de secuencias de
descripciones ideográficas como una representación alterna para los caracteres
previamente codificados:
Este proceso es diferente de la codificación formal de un ideograma. No hay
descripción canónica para ideogramas no codificados; no hay semántica seleccionada
para describir ideogramas. Conceptualmente las descripciones ideográficas están más
relacionadas a una frase descriptiva: "una 'e' con un acento agudo en ella" que a una
secuencia de números: (U+006E, U+0301).
Combinar símbolos, como en el complejo método de moldeo de caracteres
requerido para dibujar propiamente texto arábico y en muchos otros alfabetos, depende
normalmente de tecnologías, como OpenType (de Adobe y Microsoft), Graphite (de Sil
International) y AAT (de Apple), en los cuales un diseñador de fuentes incluye
instrucciones en la fuente, explicándole al software como imprimir diferentes
secuencias de caracteres correctamente. Las fuentes de tamaño fijo algunas veces
emplean otro método: especificando el símbolo combinado a la izquierda de su propio
espacio; este método, sin embargo, funciona solamente para algunos caracteres, y estos
no se apilan adecuadamente.
Incluso en la actualidad la mayoría del software aún no puede manejar
confiablemente muchas características no aceptadas por los viejos formatos de fuentes,
así que combinar caracteres frecuentemente no funciona de forma correcta. En teoría ḗ
(carácter prediseñado con una "e" con macrón y acentuada, en un punto de código
único) y ḗ (una "e" seguida de de la combinación de un macrón y un acento agudo
arriba de la letra, especificada como dos puntos de código consecutivos) tienen una
apariencia idéntica, ambas dando una "e" con macrón y tildada, pero en la práctica, sus
apariencias pueden variar enormemente dependiendo del uso que le dé el software.
También los puntos inferiores, que son necesarios en el alfabeto Hindú romanizado, a
menudo son desplegados incorrectamente. Por ejemplo:
ṃ-ṇ-ḷ
Por supuesto, tales problemas no muestran una debilidad del Unicode en sí, sino
revelan los errores y debilidades en la tecnología aplicada al dibujado (rendering) y a las
fuentes. Cabe por último mencionar también la existencia de símbolos preestablecidos
para muchos de estos caracteres, por ejemplo: ṃ - ṇ - ḷ.

Discusiones
Algunas personas, principalmente en Japón, se oponen al Unicode en general,
quejándose de las limitaciones técnicas y problemas políticos involucrados. Las
personas que trabajan en el proyecto ven esas críticas como malentendidos del estándar
Unicode y del proceso por el cual ha evolucionado. El error más común, desde este
punto de vista, tiene que ver con la confusión entre caracteres abstractos y sus formas
visuales altamente variables. Por otro lado mientras que la población china puede leer
fácilmente la mayoría de los símbolos utilizados por los japoneses o los coreanos, los
japoneses muy a menudo reconocen sólo una variante en particular (lo cual es un dato
curioso, pues el japonés y el coreano son considerados como lenguas aisladas).
Otras personas han denigrado el Unicode al afirmar que es un complot contra las
culturas asiáticas perpetrado por los occidentales sin ningún conocimiento de como son
usados los caracteres en chino, coreano o japonés, a pesar de que un buen número de
expertos de los tres continentes en el Grupo Ideográfico del Poniente (IRG por sus
siglas en inglés). El IRG avisa al consorcio del Unicode y al ISO y a la Unificación Han
de las nuevas adiciones al repertorio y de la identificación de símbolos en los tres
lenguajes sobre cuales de ellos se pueden tratar como variaciones de estilo del mismo
carácter histórico. La unificación Han se ha convertido en uno de los aspectos más
controvertidos de Unicode.
Unicode es duramente criticado por no permitir el uso de los símbolos alternos y
antiguos del kanji, lo cual, se dice, complica el procesamiento del japonés antiguo y de
nombres japoneses poco usuales. Estas críticas persisten aunque Unicode sigue
completamente las recomendaciones de maestros del lenguaje japonés y del gobierno
japonés. Incluso ha habido numerosos intentos de crear un Unicode alternativo.
Entre los muchos propuestos se encuentra el TRON (aunque no es ampliamente
adoptado en Japón, algunos, en especial aquellos que necesitan manejar texto escrito en
japonés antiguo, favorecen este estándar); y el UTF-2000]. Aunque es verdad que
muchos símbolos antiguos no fueron incluidos en las primeras versiones del Unicode
estándar, Unicode 4.0 contiene más de 90,000 caracteres Han, muchísimos más que
cualquier otro diccionario o estándar, y que el proceso de agregar caracteres de la
temprana escritura de China, Corea y Japón continúa.
El incluir el Lenguaje Thai también ha sido criticado por su orden ilógico de
caracteres. Esta complicación es debido a que el Unicode ha heredado el Estándar
Industrial Thai 620, el cual funcionaba de la misma manera. Este problema de orden
complica el proceso de comparación de Unicote.
Incluso algunos que se oponen al Unicode se quejan aún de que no puede manejar
más de 65.535 caracteres, una limitación que fue eliminada desde el Unicode 2.0.
Sin embargo, no todo son rechazos, pues algunos gobiernos, como el gobierno de
India, han mostrado enorme interés en el proyecto, siendo miembro con derecho a voto
en el consorcio de Unicode.
Unicode en uso
Sistemas operativos
Unicode se ha convertido en el esquema dominante para el procesamiento y en
ocasiones para el almacenamiento de texto (aunque mucho del texto aún es almacenado
en codificaciones heredadas). Los adaptadores iniciales utilizaban UCS-2 y después
cambiaron a UTF-16 (debido a que esta era la única manera de agregar compatibilidad
para caracteres que no eran bmp). El mejor ejemplo conocido de este sistema es
Windows NT (y obviamente sus descendientes Windows 2000 y Windows XP).
Aunque también los códigos de bytes de los ambientes Java y .NET lo utilizan.
Por otro lado UTF-8 (desarrollado para Plan 9) se ha convertido en la codificación
principal de la mayoría de los sistemas operativos similares o basados en Unix (aunque
otros también son usados por algunas bibliotecas) debido a que es relativamente fácil
hacer el reemplazo por caracteres de los juegos de caracteres extendidos ASCII.

Correo Electrónico
MIME define dos mecanismos diferentes para la codificación de caracteres que no
son ASCII en los correos electrónicos (e-mail), dependiendo de si el carácter está en los
encabezados del correo como el de "Subject:" (asunto), o si está en el cuerpo del
mensaje. En ambos casos, el juego original de caracteres está definido también como un
código de transferencia. Para la transmisión de correo en Unicode las planas de
caracteres de UTF-8 y Base64 son las más recomendadas. Los detalles de los dos
mecanismos diferentes están especificados en los estándares MIME y en general se
encuentran ocultos de los usuarios del software de correo electrónico.
La adopción de Unicode en el correo electrónico ha sido muy lenta. La mayoría
del texto del este de Asia está codificado todavía en codificaciones locales como Shift-
JIS y muchos programas de correo comúnmente utilizados, si es que son compatibles
con Unicode, aún no puede manejar los datos de Unicode correctamente. No se espera
que esta situación cambie en un futuro cercano.

Web
Algunos navegadores recientes pueden mostrar páginas web utilizando Unicode si
una fuente correcta esta instalada.
Aunque las reglas de sintaxis pueden modificar el orden en que a los caracteres se
les permite aparecer, los documentos de ambos lenguajes: HTML 4.0 y XML 1.0; por
definición abarcan caracteres de muchos de los puntos código de Unicode, con
excepción de:
• Muchos de los Controles de código C0 y C1.
• Los puntos código permanentemente no asignados: de D800-DFFF.
• Cualquier punto código que termine en FFFE o FFFF.
• Cualquier punto código por encima de 10FFFF.
Estos caracteres se manifiestan directamente como bytes de acuerdo a la
documentación de cada codificación, si ésta es compatible con Unicode, o bien el
usuario puede escribirlos directamente como referencias numéricas de caracteres basado
en el punto código de Unicode de cada carácter, siempre y cuando la codificación de
cada documento permita utilizar los dígitos necesarios para escribir las referencias
(todos los códigos aprobados para uso en el internet lo permiten). Por ejemplo, las
referencias: &#916;, &#1049;, &#1511;, &#1605;, &#3671;, &#12354;, &#21494;,
&#33865;, y &#45307; ( o el mismo valor numérico expresado en hexadecimal con
&#x como el prefijo) se muestran en el navegador como ∆, Й, ‫ק‬, ‫م‬, ๗, あ, 叶, 葉 y 냻,
siempre y cuando la fuente correcta exista, estos símbolos corresponden a: la letra
griega delta mayúscula, la letra cirílica "i corta", la letra hebrea "Qof", la letra arábiga
"Meem", el número Thai 7, la letra japonesa Hiragana "A", el símbolo del Chino
simplificado para "Hoja", el símbolo de la escritura tradicional china para "Hoja" y la
sílaba coreana "Nyelh", respectivamente.
AAC
El AAC(Advanced Audio Coding) es un formato de audio digital comprimido
con pérdida, con este proceso se eliminan algunos de los datos de audio para poder
obtener el mayor grado de compresión posible, aunque se produce un archivo de salida
que suena lo más parecido posible al original.
Desarrollado por el Instituto Fraunhofer juntamente con AT&T, Nokia, Sony y
Dolby y diseñado para reemplazar al MP3. Para un mismo número de impulsos por
segundo (bitrate) y un mismo tamaño de archivo MP3, el formato AAC es más estable y
tiene más calidad, produciendo un sonido más cristalino.
El formato AAC corresponde al estándar internacional “ISO/IEC 13818-7” como
una extensión de MPEG-2: un estándar creado por MPEG (Moving Pictures Expert
Group). Debido a su excepcional rendimiento y la calidad, la codificación de audio
avanzada (AAC) se encuentra en el núcleo del MPEG-4, 3GPP y 3GPP2 de
especificaciones y es el códec de audio de elección por Internet, inalámbricas y de radio
fusión digital Arenas.
Este formato AAC ha sido elegido por Apple como formato principal para los
iPods y para su software iTunes . También es utilizado en otras aplicaciones como
Ahead Nero, Winamp, Nintendo DSi etc.

Características
El AAC utiliza una variable de la frecuencia de bits (I/BR), un método de
codificación que adapta el número de bits utilizados por segundo para codificar datos de
audio, en función de la complejidad de la transmisión de audio en un momento
determinado.
AAC es un algoritmo de codificación de banda ancha de audio que tiene un
rendimiento superior al del MP3, que produce una mejor calidad en archivos pequeños
y requiere menos recursos del sistema para codificar y descodificar.
Este códec está orientado a usos de banda ancha y se basa en la eliminación de
redundancias de la señal acústica, así como en compresión mediante la transformada de
coseno discreta modificada (MDCT), muy parecido como en el MP3.
No compatible con MPEG-1.
Frecuencia de muestreo: 24 kHz, 22.05 kHz, 16 kHz.
Máxima calidad entre 320 y 384 kbps (5 canales)
Tres opciones:
• Máxima calidad (resolución a 23.43 Hz y 2.6 ms)
• No predicción
• Frecuencias de muestreo escalables
Diagrama de bloques de un MPEG-2 AAC codificador

Nombramos las partes del diagrama de bloques:


• Control de Ganancia
• Modelo perceptivo del sistema de codificación perceptivo.
• Bancos de filtros: Basado en MDCT. Se utiliza para descomponer la
señal en componentes espectrales (tiempo/frecuencia).
• TNS (Temporal noise shaping)
• Intensidad/Acoplamiento
• Predicción: predicción lineal por señales estacionarias. Logra una mejor
eficiencia de codificación.
• M/S coding
• Cuantificación: Las componentes espectrales están cuantificadas con el
objetivo de mantener el ruido.
• Control de flujo/distorsión
• Codificación sin ruido
• Multiplexador de trama de bits

Ventajas de AAC con respecto a MP3


El AAC permite sonidos polifónicos con un máximo de 48 canales
independientes, así que se convierte en un códec apropiado para sonido envolvente
(Surround) avanzado, sin embargo en MP3 sólo tenemos dos canales (estéreo).
Por otra parte también ofrece frecuencias de muestreo que varían de 8 Hz a 96
Khz., MP3 sólo soporta desde 16 Hz hasta los 48 khz y nos proporciona una mejor
resolución de audio.
Otra característica importante es que obtenemos la misma calidad de un MP3
ocupando menos cantidad de espacio, por lo tanto nos permite una reducción de tamaño
importante sin pérdida de calidad. Por ejemplo un MP3 que ocupe en el disco duro 5Mb
puede ser convertido a AAC (sin pérdida de calidad) a un archivo de 1’8 Mb. Los
archivos AAC, que tiene la extensión .mp4 (para MPEG-4), .m4a (para MPEG-4
Audio) o .m4p (para MPEG-4 protegido), son, al final, más pequeños que los archivos
MP3.
También tenemos una mejora de la eficiencia de decodificación, que requieren
menos potencia de procesamiento para decodificar.
MP3

MPEG-1 Audio Layer 3, más conocido como MP3, es un formato de audio digital
comprimido con pérdida desarrollado por el Moving Picture Experts Group (MPEG)
para formar parte de la versión 1 (y posteriormente ampliado en la versión 2) del
formato de vídeo MPEG. El mp3 estándar es de 44 KHz y un bitrate de 128 kbps por la
relación de calidad/tamaño. Su nombre es el acrónimo de MPEG-1 Audio Layer 3 y el
término no se debe confundir con el de reproductor MP3.

Historia
Este formato fue desarrollado principalmente por Karlheinz Brandenburg, director
de tecnologías de medios electrónicos del Instituto Fraunhofer IIS, perteneciente al
Fraunhofer-Gesellschaft - red de centros de investigación alemanes - que junto con
Thomson Multimedia controla el grueso de las patentes relacionadas con el MP3. La
primera de ellas fue registrada en 1986 y varias más en 1991. Pero no fue hasta julio de
1995 cuando Brandenburg usó por primera vez la extensión .mp3 para los archivos
relacionados con el MP3 que guardaba en su ordenador. Un año después su instituto
ingresaba en concepto de patentes 1,2 millones de euros. Diez años más tarde esta
cantidad ha alcanzado los 26,1 millones.
El formato MP3 se convirtió en el estándar utilizado para streaming de audio y
compresión de audio de alta calidad (con pérdida en equipos de alta fidelidad) gracias a
la posibilidad de ajustar la calidad de la compresión, proporcional al tamaño por
segundo (bitrate), y por tanto el tamaño final del archivo, que podía llegar a ocupar 12 e
incluso 15 veces menos que el archivo original sin comprimir.
Fue el primer formato de compresión de audio popularizado gracias a Internet, ya
que hizo posible el intercambio de ficheros musicales. Los procesos judiciales contra
empresas como Napster y AudioGalaxy son resultado de la facilidad con que se
comparten este tipo de ficheros.
Tras el desarrollo de reproductores autónomos, portátiles o integrados en cadenas
musicales (estéreos), el formato MP3 llega más allá del mundo de la informática.
A principios de 2002 otros formatos de audio comprimido como Windows Media
Audio y Ogg Vorbis empiezan a ser masivamente incluidos en programas, sistemas
operativos y reproductores autónomos, lo que hizo prever que el MP3 fuera
paulatinamente cayendo en desuso, en favor de otros formatos, como los mencionados,
de mucha mejor calidad. Uno de los factores que influye en el declive del MP3 es que
tiene patente. Técnicamente no significa que su calidad sea inferior ni superior, pero
impide que la comunidad pueda seguir mejorándolo y puede obligar a pagar por la
utilización de algún códec, esto es lo que ocurre con los reproductores de MP3. Aun así,
a inicios del 2008, el formato mp3 continua siendo el más usado y el que goza de más
éxito.

Reproductor MP3 Portátil en forma de Lapicera.


Detalles técnicos
En esta capa existen varias diferencias respecto a los estándares MPEG-1 y
MPEG-2, entre las que se encuentra el llamado banco de filtros híbrido que hace que su
diseño tenga mayor complejidad. Esta mejora de la resolución frecuencial empeora la
resolución temporal introduciendo problemas de pre-eco que son predichos y
corregidos. Además, permite calidad de audio en tasas tan bajas como 64Kbps.

Banco de filtros
El banco de filtros utilizado en esta capa es el llamado banco de filtros híbrido
polifase/MDCT. Se encarga de realizar el mapeado del dominio del tiempo al de la
frecuencia tanto para el codificador como para los filtros de reconstrucción del
decodificador. Las muestras de salida del banco están cuantiadas y proporcionan una
resolución en frecuencia variable, 6x32 o 18x32 subbandas, ajustándose mucho mejor a
las bandas críticas de las diferentes frecuencias. Usando 18 puntos, el número máximo
de componentes frecuenciales es: 32 x 18 = 576. Dando lugar a una resolución
frecuencial de: 24000/576 = 41,67 Hz (si fs = 48 Khz.). Si se usan 6 líneas de frecuencia
la resolución frecuencial es menor, pero la temporal es mayor, y se aplica en aquellas
zonas en las que se espera efectos de preeco (transiciones bruscas de silencio a altos
niveles energéticos).
La Capa III tiene tres modos de bloque de funcionamiento: dos modos donde las
32 salidas del banco de filtros pueden pasar a través de las ventanas y las transformadas
MDCT y un modo de bloque mixto donde las dos bandas de frecuencia más baja usan
bloques largos y las 30 bandas superiores usan bloques cortos. Para el caso concreto del
MPEG-1 Audio Layer 3 (que concretamente significa la tercera capa de audio para el
estándar MPEG-1) especifica cuatro tipos de ventanas: (a) NORMAL, (b) transición de
ventana larga a corta (START), (c) 3 ventanas cortas (SHORT), y (d) transición de
ventana corta a larga (STOP).

El modelo psicoacústico
La compresión se basa en la reducción del margen dinámico irrelevante, es decir,
en la incapacidad del sistema auditivo para detectar los errores de cuantificación en
condiciones de enmascaramiento. Este estándar divide la señal en bandas de frecuencia
que se aproximan a las bandas críticas, y luego cuantifica cada subbanda en función del
umbral de detección del ruido dentro de esa banda. El modelo psicoacústico es una
modificación del empleado en el esquema II, y utiliza un método denominado
predicción polinómica. Analiza la señal de audio y calcula la cantidad de ruido que se
puede introducir en función de la frecuencia, es decir, calcula la “cantidad de
enmascaramiento” o umbral de enmascaramiento en función de la frecuencia.
El codificador usa esta información para decidir la mejor manera de gastar los bits
disponibles. Este estándar provee dos modelos psicoacústicos de diferente complejidad:
el modelo I es menos complejo que el modelo psicoacústico II y simplifica mucho los
cálculos. Estudios demuestran que la distorsión generada es imperceptible para el oído
experimentado en un ambiente óptimo desde los 256 kbps y en condiciones normales.
Para el oído no experimentado, o común, con 128 kbps o hasta 96 kbps basta para que
se oiga "bien" (a menos que se posea un equipo de audio de alta calidad donde se nota
excesivamente la falta de graves y se destaca el sonido de "fritura" en los agudos). En
personas que escuchan mucha música o que tienen experiencia en la parte auditiva,
desde 192 o 256 kbps basta para oír bien. La música que circula por Internet, en su
mayoría, está codificada entre 128 y 192 kbps.
Codificación y cuantificación
La solución que propone este estándar en cuanto a la repartición de bits o ruido, se
hace en un ciclo de iteración que consiste de un ciclo interno y uno externo. Examina
tanto las muestras de salida del banco de filtros como el SMR (signal-to-mask ratio)
proporcionado por el modelo psicoacústico, y ajusta la asignación de bits o ruido, según
el esquema utilizado, para satisfacer simultáneamente los requisitos de tasa de bits y de
enmascaramiento. Dichos ciclos consisten en:

Ciclo interno
El ciclo interno realiza la cuantitación no-uniforme de acuerdo con el sistema de
punto flotante (cada valor espectral MDCT se eleva a la potencia 3/4). El ciclo escoge
un determinado intervalo de cuantitación y, a los datos cuantizados, se les aplica
codificación de Huffman en el siguiente bloque. El ciclo termina cuando los valores
cuantizados que han sido codificados con Huffman usan menor o igual número de bits
que la máxima cantidad de bits permitida.

Ciclo externo
Ahora el ciclo externo se encarga de verificar si el factor de escala para cada
subbanda tiene más distorsión de la permitida (ruido en la señal codificada),
comparando cada banda del factor de escala con los datos previamente calculados en el
análisis psicoacústico. El ciclo externo termina cuando una de las siguientes
condiciones se cumple:
• Ninguna de las bandas del factor de escala tiene mucho ruido.
• Si la siguiente iteración amplifica una de las bandas más de lo permitido.
• Todas las bandas han sido amplificadas al menos una vez.

Empaquetado o formateador de bitstream


Este bloque toma las muestras cuantificadas del banco de filtros, junto a los datos
de asignación de bits/ruido y almacena el audio codificado y algunos datos adicionales
en las tramas. Cada trama contiene información de 1152 muestras de audio y consiste de
un encabezado, de los datos de audio junto con el chequeo de errores mediante CRC y
de los datos auxiliares (estos dos últimos opcionales). El encabezado nos describe cuál
capa, tasa de bits y frecuencia de muestreo se están usando para el audio codificado. Las
tramas empiezan con la misma cabecera de sincronización y diferenciación y su
longitud puede variar. Además de tratar con esta información, también incluye la
codificación Huffman de longitud variable, un método de codificación entrópica que
sin pérdida de información elimina redundancia. Actúa al final de la compresión para
codificar la información. Los métodos de longitud variable se caracterizan, en general,
por asignar palabras cortas a los eventos más frecuentes, dejando las largas para los más
infrecuentes.

Estructura de un fichero MP3


Un fichero Mp3 se constituye de diferentes frames MP3 que a su vez se componen
de una cabecera Mp3 y los datos MP3. Esta secuencia de datos es la denominada
"stream elemental". Cada uno de los Frames son independientes, es decir, una persona
puede cortar los frames de un fichero MP3 y después reproducirlos en cualquier
reproductor MP3 del Mercado. El gráfico muestra que la cabecera consta de una palabra
de sincronismo que es utilizada para indicar el principio de un frame válido. A
continuación siguen una serie de bits que indican que el fichero analizado es un fichero
Standard MPEG y si usa o no la capa 3. Después de todo esto, los valores difieren
dependiendo del tipo de archivo MP3. Los rangos de valores quedan definidos en la
ISO/IEC 11172-3.

Transformada de Fourier discreta


En matemáticas, la transformada de Fourier discreta, designada con frecuencia por
la abreviatura DFT (del inglés discrete Fourier transform), y a la que en ocasiones se
denomina transformada de Fourier finita, es una transformada de Fourier ampliamente
empleada en tratamiento de señales y en campos afines para analizar las frecuencias
presentes en una señal muestreada, resolver ecuaciones diferenciales parciales y realizar
otras operaciones, como convoluciones. Es utilizada en el proceso de elaboración de un
fichero MP3.
La transformada de Fourier discreta puede calcularse de modo muy eficiente
mediante el algoritmo FFT.
Mp3PRO
mp3PRO es un códec de audio que integra Replicación de la Banda Espectral (o
Spectral Band Replication - SBR) con mp3 y puede ofrecer un rendimiento de 128 Kbps
ocupando el mismo tamaño que un archivo mp3 codificado a la mitad, a 64 Kbps. El
formato mp3Pro será compatible tanto con los antiguos formatos, como con los
reproductores de audio. Así, los archivos codificados en mp3 podrán ejecutarse en
cualquier reproductor de mp3Pro.
Al codificar sonido con mp3PRO se producen dos componentes, la parte mp3 para
las frecuencias bajas y la parte SBR o "PRO" para las frecuencias altas. Como la parte
PRO tiene muy pocos requerimientos de memoria, la codificación se puede realizar de
forma compatible con el formato mp3, lo que permite utilizar reproductores mp3 para
escuchar archivos mp3PRO, ignorando la parte PRO. Los únicos requerimientos son
que el reproductor acepte tasas de muestreo de 16, 22,5 y 24 kHz junto con 32, 44,1 y
48 kHz. Los reproductores certificados cumplen con este requerimiento, pero no es el
caso de muchos de los reproductores portátiles.

Vorbis

Extensión de archivo .ogg .oga


Tipo de MIME audio/ogg
Desarrollado por Fundación Xiph.org
Tipo de formato Códec de audio
Contenido por Ogg
Estándar(es) Especificaciones

Vorbis es un códec de audio libre de compresión con pérdida. Forma parte del
proyecto Ogg y entonces es llamado Ogg Vorbis y también sólo ogg por ser el códec
más comúnmente encontrado en el contenedor Ogg.

Introducción
Vorbis es un códec de audio perceptivo de fines generales previsto para permitir
flexibilidad máxima del codificador, permitiéndole escalar competitivamente sobre una
gama excepcionalmente amplia de bitrates. En la escala de nivel de calidad/bitrate (CD
audio o DAT-rate estéreo, 16/24 bits) se encuentra en la misma liga que MPEG-2 y
Musepack (MPC) y comparable con AAC en la mayoría de bitrates. Similarmente, el
codificador 1.0 puede codificar niveles de calidad desde CD audio y DAT-rate estéreo
hasta 48kbps sin bajar la frecuencia de muestreo. Vorbis también está pensado para
frecuencias de muestreo bajas desde telefonía de 8kHz y hasta alta definición de
192kHz, y una gama de representaciones de canales (monoaural, polifónico, estéreo,
cuadrafónico, 5.1, ambisónico o hasta 255 canales discretos).
Ogg Vorbis es totalmente abierto, libre de patentes y de regalías; la biblioteca de
referencia (libVorbis) se distribuye bajo una licencia tipo BSD por lo que cualquiera
puede implementarlo ya sea tanto para aplicaciones propietarias como libres.

Historia
Vorbis es el primer códec desarrollado como parte de los proyectos multimedia de
la Fundación Xiph.org. Comenzó inmediatamente después que Fraunhofer IIS
(creadores del MP3) enviaran una "carta de infracción" a varios proyectos pequeños que
desarrollan MPEG Audio Layer 3, mencionando que debido a las patentes que poseen
sobre el MP3 tienen el derecho de cobrar regalías por cualquier reproductor comercial,
todos los codificadores (ya sea vendidos o gratuitos) y también trabajos de arte vendidos
en formato MP3. Por este motivo fue creado el Ogg Vorbis y la Fundación Xiph.org:
para proteger la multimedia en Internet del control de intereses privados.
El formato del bitstream para Vorbis I fue congelado el 8 de Mayo de 2000; todos
los archivos creados desde esa fecha seguirán siendo compatibles con futuros
lanzamientos de Vorbis.
La versión 1.0 fue anunciada en Julio 2002, con una «Carta de anuncio de Ogg-
Vorbis 1.0» agradeciendo el apoyo recibido y explicando el porqué es necesario el
desarrollo de códecs libres.
Vorbis recibe este nombre de un personaje del libro Dioses menores de Terry
Pratchett.

Detalles técnicos
Vorbis utiliza la Transformada de coseno discreta modificada (MDCT).

Niveles de calidad Vorbis


Calidad Bit rate
-q-2 (sólo aoTuV beta3 y
~32 kbit/s
posteriores)
~45 kbit/s (vorbis ~48 kbit/s (aoTuV beta3
-q-1
original) y posteriores)
-q0 ~64 kbit/s
-q1 ~80 kbit/s
-q2 ~96 kbit/s
-q3 ~112 kbit/s
-q4 ~128 kbit/s
-q5 ~160 kbit/s
-q6 ~192 kbit/s
-q7 ~224 kbit/s
-q8 ~256 kbit/s
-q9 ~320 kbit/s
-q10 ~500 kbit/s
RealAudio
RealAudio (RM) es un formato de audio creado por RealNetworks, Inc.
Es predominantemente utilizado en transmisiones por internet en tiempo real. Esto
quiere decir que una estación de radio puede transmitir su señal en vivo, directamente al
usuario final, sin necesidad de descargar primero el archivo completo de audio. O bien,
el usuario puede escuchar, bajo petición (on demand), un archivo almacenado en un
servidor externo. En ambos casos, el archivo de audio no se descarga en el ordenador
del usuario final. La reproducción se realiza mediante "paquetes" que el servidor envía
al usuario a un reproductor propio de la marca Real, llamado RealPlayer. Cada
"paquete" de audio es reproducido mientras que se recibe otro que lo sustituye en una
carpeta temporal. A este proceso se le llama Buffering. Esto tiene la ventaja para el
distribuidor es que los archivos no pueden ser copiados ni compartidos. La desventaja
para el usuario es que sólo puede escuchar la transmisión online.
A diferencia de la transmisión por mp3, propia de Shoutcast que mantiene el
mismo rango de muestreo, la tecnología RealAudio permite adaptarse automáticamente
a la capacidad de recepción del usuario final, dependiendo de su velocidad de conexión,
procesador y memoria. Esto quiere decir que si el usuario puede recibir paquetes de alta
calidad de audio sin interrupciones, el servidor lo proveerá así. De lo contrario, el
servidor reducirá el rango de muestreo (y con ello, la calidad del audio) hasta que el
usuario no sufra interrupciones en su señal.
Actualmente, Realnetworks permite la reproducción de audio y video en tiempo
real con una enorme cantidad de información adicional. Así como aplicaciones para
celulares y dispositivos reproductores de audio y video portátil.
La primera versión de RealAudio fue liberada en 1995. Al año 2009, la versión
actual es RealAudio 10.

Extensiones de Archivos
Los archivos RealAudio se identificaban originalmente por la extensión .ra (de
Real Audio). En 1997 RealNetworks empezó a ofrecer un formato de video llamado
RealVideo. La combinación de los formatos de audio y video se llamó RealMedia y usa
la extensión .rm. Sin embargo, la última versión de RealProducer, el codificador oficial
de RealNetworks, volvió a usar .ra para los archivos solo de audio, empezó a usar .rv
para archivos de video (con o sin audio) y .rmvb para archivos de video VBR.
Los formatos .ram (Real Audio Metadata) y .smil (Synchronized Multimedia
Integration Language) son a veces encontrados como links de páginas web.
TwinVQ
TwinVQ (Transform-domain Weighted Interleaved Vector Quantization) o más
popularmente conocido como VQF (extensión de un fichero TwinVQ) es una técnica
desarrollada por Nippon Telegram and Telephone Corporation (NTT Human Interface
Laboratories) y comercializada por Yamaha bajo en nombre de SoundVQ para
comprimir información de audio a muy bajas tasas de bit. Fue el primer competidor
directo al formato MP3 y su tecnología ha sido incorporada en el estándar MPEG-4
Audio aunque principalmente es usado en codificadores propietarios.

Características
El algoritmo de codificación en el que se basa es diferente del utilizado por los
archivos MP3 o WMA. Con VQF se utiliza un tipo de chip estándar para describir los
sonidos con ayuda de libros de claves precalculados. Esto posibilita la consecución de
un sonido atractivo con los archivos VQF (ratio de compresión 1:20) en comparación
con los archivos MP3 convencionales (ratio de compresión 1:12) que tienen una
velocidad de bits inferior. No obstante, esta importante ventaja se consigue a expensas
de la alta potencia del ordenador necesaria para la compresión.
Los archivos VQF de calidad similar son más pequeños que los archivos MP3
pero mayores que los mp3PRO. La codificación de un archivo VQF es muy lenta, del
orden de 3 veces mayor que con MP3 de máxima calidad. En el proceso de
descodificación se utiliza poca más potencia que en MP3 ya que fue diseñado para usar
la mínima potencia posible en el decodificado.
La calidad de sonido de VQF no es mejor o peor que la calidad de sonido de MP3
sino que difieren en los artifacts producidos por el proceso de compresión. Al codificar
música con TwinVQ se pierden algunos detalles y se suaviza el sonido.
Comparativamente, un archivo VQF a 96kbps parece ser más límpido que un archivo
MP3 a 128kbps, pero también menos detallado.
Por otra parte, el mismo archivo a 96kbps en VQF tiene un tamaño hasta 4 veces
menor que el mismo archivo MP3 de 256kbps, con un sonido la mayoría de veces muy
similar.
Otros dos problemas de VQF son el espaciado (el sonido está lejos comparado con
el original) y el pre-eco.

Funcionamiento
TwinVQ es un método de codificación como MP3, AAC o Dolby AC-3. Usa
algunas herramientas clásicas usadas también en MP3 (reserva de bitstream) o en AAC
(predicción interframe hacia atrás) pero la codificación de música es totalmente distinta.
Este método utiliza cuantificación vectorial: los bits de datos individuales no son
codificados directamente sino que se combinan en segmentos patrón (vectores). Estos
patrones son comparados con patrones estándar preparados previamente. El patrón
estándar que mejor se aproxima es seleccionado y el número asociado a él se transmite
como código de compresión.
Los datos son empaquetados en modo de cuadro largo o modo de cuadro corto (8
sub-cuadros) usando una tasa de bit constante para mejorar la robustez frente a errores.
La distorsión en la codificación se minimiza incluso para tasas de bits bajas, por
tanto la música y otros sonidos son regenerados con éxito y son muy fieles a los
originales.
Las limitaciones de este formato son: no usa VBR, máximo 2 canales, su lentitud
y los pocos soportes que tiene.
TwinVQ en MPEG-4
El estándar de audio ISO/IEC MPEG-4 incluye la herramienta de codificación
TwinVQ, basada en el esquema general de codificación de audio que está integrado en
la estructura de codificación AAC, un módulo de alisado espectral y un módulo
ponderado de cuantificación vectorial. En MPEG-4 para bitrates por debajo de los
16kbits/s se aplican técnicas de codificación tiempo-a-frecuencia (T/F) como TwinVQ y
AAC. En esta región las señales de audio tienen frecuencias de muestreo que empiezan
en 8kHz. El esquema adoptado tiene una ganancia de codificación muy alta para tasas
de bit bajas y es potencialmente robusto contra errores en el canal y/o pérdidas de
paquetes ya que no usa VLC ni asignación adaptativa de bits. Soporta escalabilidad en
la tasa de bits mediante codificación TwinVQ en capas en combinación com AAC
escalable.

Software
NNT no desarrolló un buen software para apoyar a su nuevo formato con lo que la
popularidad del formato VQF se extinguió casi por completo hacia el 1999.

SoundVQ
SoundVQ ha sido creado por Yamaha como una aplicación de uso personal
basado en la tecnología de compresión TwinVQ y es compatible con los archivos de
datos creados por el primer desarrollo (NTT) pero de configuración distinta a MPEG-4
TwinVQ. Este software es de distribución libre y actualmente se encuentra en fase beta.
Esta es entonces una herramienta de compresión con un nivel de compresión ue
puede variar entre 1/10 hasta 1/20 respecto al original sin pérdidas apreciables en la
calidad del sonido y que hace las veces de reproductor (descompresión del sonido en
recepción).
SoundVQ consiste en el codificador que convierte los datos RAW o WAV al
formato comprimido VQF y el reproductor que descomprime los datos y permite que
sean escuchados. En la compresión, el archivo VQF se puede proteger con password,
como medida contra la piratería.

EL reproductor se usa conjuntamente con el navegador de Internet. Soporta la


reproducción continua por ráfagas lo que permite que el sonido se inicie antes de que
los datos hayan sido recibidos completamente. Los datos no se almacenan en el
reproductor, con lo que se pueden transmitir cualquier tipo de sonidos sin infringir
derechos de copia.

Otros
WinAmp (el primer reproductor de MP3) lanzó al mercado un plugin para poder
escuchar VQF’s.
Existe otro reproductor de MP3 llamado K-jofol con capacidad también para
reproducir archivos en formato VQF.
Y otros productos comercializados que se basan en la tecnología TwinVQ pero
tienen configuraciones distintas al MPEG-4 TwinVQ, como Metasound (Voxware) i
SolidAudio (Hagiwara)
WMA
Windows Media Audio o WMA es un formato de compresión de audio con
pérdida, aunque recientemente se ha desarrollado de compresión sin pérdida, es
propiedad de Microsoft.
Compite con el MP3, antiguo y bastante inferior técnicamente; y Ogg-Vorbis,
superior y libre, usando como estrategia comercial la inclusión de soporte en el
reproductor Windows Media Player, incluido en su popular sistema operativo Windows.
Aunque el soporte de este formato se ha ampliado desde Windows Media Player y
ahora se encuentra disponible en varias aplicaciones y reproductores portátiles, el MP3
continua siendo el formato más popular y por ello más extendido.
A diferencia del MP3, este formato posee una infraestructura para proteger el
Copyright y así hacer más difícil el "tráfico ilegal" de música.
Este formato está especialmente relacionado con Windows Media Video (WMV)
y Advanced Streaming Format (ASF).
Audio Interchange File Format
Audio Interchange File Format (AIFF ó Formato de Archivo de Intercambio de
Audio) es un estándar de formato de audio usado para vender datos de sonido para
computadoras personales. El formato fue co-desarrollado por Apple Inc. en 1988 basado
en el IFF1 (Interchange File Format) de Electronic Arts, usado internacionalmente en las
computadoras Amiga y actualmente es muy utilizado en las computadoras Apple
Macintosh. AIFF también es el utilizado por Silicon Graphics Incorporated.
Los datos de audio en el estándar AIFF no están comprimidos, almacenándose los
datos en big-endian y emplea una modulación por impulsos codificados (PCM).
También hay una variante del estándar donde sí que existe compresión, conocida como
AIFF-C o AIFC, con varios códecs definidos.
El estándar AIFF es uno de los formatos líderes, junto a SDII y WAV, usados a
nivel profesional para aplicaciones de audio ya que, a diferencia del conocido formato
con pérdidas MP3, éste formato está comprimido sin ninguna pérdida, lo que ayuda a un
rápido procesado de la señal pero con la desventaja del gran espacio en disco que
supone: alrededor de 10MB para un minuto de audio estéreo con una frecuencia de
muestreo de 44.1kHz y 16 bits. Además el estándar da soporte a bucles para notas
musicales para uso de aplicaciones musicales o samplers.
Las extensiones de archivo para el formato estándar AIFF es .aiff o .aif. Para las
variantes comprimidas se supone que es .aifc, pero las anteriores también son aceptadas
por las aplicaciones que soportan este tipo de formato.

Subtipos AIFF
AIFF-C
Con el desarrollo del sistema operativo Mac OS X, Apple en segundo plano creó
un nuevo formato AIFF, alternativo, con ordenación little-endian. Casi no hay nada
documentado sobre el propósito de la nueva creación de este formato y la verdad es que
es algo que jamás ha sido discutido de forma explícita por Apple, tratándose por tanto
de un tema bastante oscuro. Actualmente Apple utiliza este nuevo little-endian AIFF
como su estándar en Mac OS X.
Debido a que la arquitectura AIFF no tiene provisión para otro tipo de ordenación
de los bytes, Apple usó la arquitectura de compresión AIFF-C, creando un códec de
pseudo-compresión llamado sowt. La extensión que se suele emplear es la .afc. La
única diferencia entre el estándar AIFF y el AIFF-C/sowt es la ordenación y no la
compresión empleada.
Cuando un archivo se importa o exporta desde iTunes, realmente es un AIFF-C.
Se comprime. Cuando el audio de un CD de audio se importa mediante el arrastre de sus
pistas el escritorio, el archivo resultante también es un AIFF-C. En todos los casos
Apple se refiere simplemente como AIFF además de resultar una extensión ".aiff".
Sobre si sowt sea, o no, un acrónimo, no parece ser documentado, pero se plantea
la posible proveniencia de la palabra inglesa twos, la designación para el formato twos-
complement. Para la mayoría de usuarios esto es tan imperceptible como irrelevante.
La calidad de sonido para un AIFF como para un AIFF-C es exactamente idéntica,
pudiéndose convertir de uno en otro sin ninguna pérdida, además ambos se pueden
reproducir en los Mac OS X, incluyéndose los nuevos basados en tecnología Intel.
A partir de Mac OS X 10.4.9 muchos programas sólo pueden exportar AIFF-C,
como por ejemplo, QuickTime Pro, y Digital Performer 5.11. Cuando se selecciona
formato AIFF, realmente se escribe como el anterior mencionado. Este no era el caso de
versiones anteriores a la 10.4.8 (inclusive).
Sin embargo, esto no ocurre con todos los programas, ya que, por ejemplo, iTunes
y Logic Express, siguen de forma adecuada exportando sus archivos en AIFF.
Este cambio presenta posibles problemas de compatibilidad entre los sistemas que
sólo utilizan AIFF, y archivos escritos en OS 10.4.9 como AIFF-C. Por ejemplo, el
disco duro Alesis HD24 puede trabajar con archivos AIFF, sin embargo con AIFF-C,
como los creados en el la versión 10.4.9 del Mac Os X, no son compatibles.

AIFF LPCM
En un principio se usó como un estado de formato inicial o medio, es decir, para
archivos maestro de audio captados en directo, capturados digitalmente o reformateados
desde fuentes analógicas.
Realmente es un archivo AIFF, pero usando una modulación PCM Linear.

Bucles de Apple AIFF


Apple también ha creado otra extensión reciente para el formato AIFF en la forma
de Apple Loops, que se usa en las aplicaciones GarageBand y Logic Studio, de la
misma compañía. Ésta permite la inclusión de datos como los cambios de nota o tempo
por un programa y datos sobre una secuencia MIDI que referencia al GarageBand.
AppleLoops también usa las extensiones.aiff o.aif.

Formato de datos
Un fichero AIFF se divide ciertas partes (chunks). Cada uno de ellos se identifica
como chunk ID muchas veces referido a un FourCC (código con el que se identifica
cada códec, generalmente de 4 caracteres en ASCII).
Los chunks en los AIFF son los siguientes:

Información sobre el sonido como el bit-rate o el tamaño de


Common Chunk
cada muestra (obligatorio)

Marcos de la muestra que conforman las muestras de sonido


Sound Data Chunk
(obligatorio)

Formato AIFF o AIFF-C. Contiene los demás chunks del


Form Chunk
fichero

Format Version Versión sobre la especificación AIFF-C de acuerdo a la


Chunk estructuración del archivo (sólo AIFF-C)

Marcadores para apuntar las sucesivas posiciones de los datos


Marker Chunk
de sonido

Comments Chunk Comentarios sobre los marcadores en el fichero.


Sound Accelerator Información orientada al permiso de aceleración de
Chunk descompresiones

Define los parámetros básicos que un instrumento puede usar


Instrument Chunk
para hacer un play-back

MIDI Data Chunk Información MIDI

Audio Recording Información perteneciente al dispositivo de grabación


Chunk empleado

Application Specific
Información específica a ciertas aplicaciones
Chunk

Name Chunk Nombre del sonido

Author Chunk Autor(es) o creador(es) de la grabación

Copyright Chunk Información copyright

Annotation Chunk Posibles comentarios

Aplicaciones de edición compatibles

• Final Cut Express


• iMovie
• Avid
• Sound Studio (programa de Felt Tip)
• Cubase
• Soundtrack Pro
• iTunes
• Sound Forge (en inglés)
• WaveSurfer
• Winamp
• Adobe Audition y Adobe Premiere
• Audacity
• Reason
• Reproductor de Windows Media
Free Lossless Audio Codec (FLAC)

Free Losless Audio Codec

Extensión de archivo .flac

Tipo de MIME audio/x-flac1

Desarrollado por Xiph.Org / Josh Coalson

Tipo de formato Códec de audio

Free Lossless Audio Codec (FLAC) (Códec libre de compresión de audio sin
pérdida, en español) es un formato del proyecto Ogg para codificar audio sin pérdida de
calidad, es decir, el archivo inicial puede ser recompuesto totalmente con la desventaja
de que el archivo ocupe mucho más espacio del que se obtendría al aplicar compresión
con pérdida o Lossy.
Otros formatos como MPEG-1 Layer 3 (MP3), Windows Media Audio (WMA)
(excepto WMA Lossless), Advanced Audio Coding (AAC), Ogg Vorbis (OGG),
Adaptive Transform Acoustic Coding ATRAC, ADPCM, etc., al comprimir el archivo
pierden, de forma irreversible, parte de la información del original, a cambio de un gran
ahorro de tamaño en el archivo. FLAC no ahorra tanto tamaño de archivo, rara vez baja
de dejar el archivo en un tercio del tamaño original, ya que no elimina nada de la
información contenida en el original. Como norma se reduce entre la mitad hasta tres
cuartos según el tipo de sonido procesado.

El proyecto
El proyecto FLAC incluye:

• El códec con el cual deberá ser codificada la información de audio.


• El formato contenedor propiamente dicho
• La biblioteca libFLAC, que permite programar compresores y reproductores,
además incluye los metadatos de los archivos.
• LibFLAC++
• Flac, Permite codificar y decodificar los FLAC streams por medio de la línea de
comandos usando la librería libFLAC
• Metaflac, editor de metadatos para ficheros flac por medio de línea de
comandos.
• Plugins para diferentes reproductores de audio como Winamp y Foobar2000,
entre otros.

Comparaciones
FLAC está diseñado para comprimir audio. Debido a ello, los archivos resultantes
son reproducibles y útiles, además de ser más pequeños que si se hubiera aplicado
directamente al archivo PCM un algoritmo de compresión genérico (como ZIP). Los
algoritmos con pérdida pueden comprimir a más de 1/10 del tamaño inicial, a costa de
descartar información; FLAC, en su lugar, usa la predicción lineal para convertir las
muestras en series de pequeños números no correlativos (conocido como "residuos"),
que se almacenan eficientemente usando la codificación Golomb-Rice (ver: "Reglas
Golombinas", o "Golombianas"). Además de esto, para aprovechar los silencios (donde
los valores numéricos presentan mucha repetición) usa codificación por "longitud de
pista" (RLE"Run-Length Encoding") para muestras idénticas.
Nota: RLE y RAE son conceptos provenientes de la lectura mecánica de los
registros, y se corresponden a las lecturas con "Velocidad Lineal Constante" (típicas de
las cintas magnetofónicas), y con "Velocidad Angular Constante" (característica de los
discos y gramófonos. En los lectores de CD, se puede seleccionar un método u otro de
reproducción, según los parámetros de grabación. El más común es CAV, pero el CLV
permite una mayor linealidad en el registro; aunque requiere el concurso de servos para
controlar la velocidad angular del rotor, según se acorta el radio de la pista.
FLAC se ha convertido en uno de los formatos preferidos para la venta de música
por Internet, al igual que Monkey's Audio que funciona idénticamente bien. Además es
usado en el intercambio de canciones por la red, como alternativa al MP3, cuando se
desea obtener una mayor reducción del tamaño que en un archivo WAV-PCM, y no
perder calidad de sonido. También es el formato ideal para realizar copias de seguridad
de CDs, ya que permite reproducir exactamente la información del original, y
recuperarla en caso de problemas con este material.
FLAC no soporta muestras en "coma flotante", sólo en "punto fijo". Admite
cualquier resolución PCM de 4 a 32 bits, y cualquier frecuencia de muestreo (sample
rate) desde 1 a 65535KHz, en incrementos de 1Hz.
Para una mayor compresión consiguiendo un mayor tiempo de codificación se
puede usar el siguiente comando
flac --lax -mep -b 8192 -l 32 -r 0,16 imput.wav -o output.flac
El fichero resultante puede no funcionar en reproductores normales, pero
funcionara en los decodificadores software. Para evitar esto debe usar el siguiente
comando:
flac -mep -b 8192 -l 32 -r 0,8 imput.wav -o output.flac

Tabla comparativa de funcionalidades


Habitualmente uno de los factores que más se tienen en cuenta a la hora de
escoger este códec de audio es la compresión que aporta; sin embargo, dependiendo de
cuál sea nuestra aplicación final y de si se consideran los medios de los que dispone el
usuario, no siempre nos conviene ni el códec más rápido ni el que más comprima. En
esta tabla queda demostrado que el FLAC es una buena opción en muchos de los
distintos casos en los que un usuario se puede encontrar; aquí se comparan las
funcionalidades más destacadas de éste con las de otros códecs de audio sin pérdidas.
Los códecs analizados son los siguientes:

• WavPack
• ALAC
• FLAC
• Monkey's
• OptimFROG
• Shorten
Robustez
Códec Cod Decod Comp. Flexible Exp Tagging HW SW SO
error

Muy Muy Muy


Wavpack 58% Sí Sí ID3/APE Limitado Bueno Todos
rápido rápido Bueno

ALAC Mediana Rápido 58.5% Malo No Sí QT tags Bueno Malo Win/MAC

Muy Muy Muy Muy


FLAC Rápido 58.7% Sí Sí VorbisTag Todos
rápido Bueno Bueno Bueno

Muy
Monkey's Rápido Mediano 55.5% No Sí ID3/APE Limitado Bueno Todos
Bueno

OptimFRO Muy Win/Mac


Lento Mediano 54.7% Sí Sí ID3/APE No Poco
G Bueno /Linux

Muy Muy Muy


Shorten 63.5% Malo No Sí No Limitado Todos
rápido rápido Bueno

Alta
Híbrido/ Codigo Multi-
Streaming resoluci
C.Pérdidas Abierto canal
ón

Sí Sí Sí Sí Sí

Sí(descodi
No Sí Sí Sí
f)

No Sí Sí Sí Sí

No No Sí No Sí

Sí Sí No No Sí

No No Sí No No
-% Compresión cuánto menor es más comprime.
-Codificación y decod: velocidad requerida.
-HW y SW: soporte y compatibilidad en ambos campos(Hardware y Software)
-Exp: el contenido de la trama es explorable a nivel de muestra

Características de los archivos


Los archivos FLAC suelen tener esta misma extensión (*.FLAC); son perfectamente
reproducibles con algunos reproductores, incluso en computadoras antiguas, ya que una
de las características del proyecto, es que los archivos decodifiquen en modo sencillo.
Además permiten usar la función búsqueda. Estos archivos son de velocidad de bits
variable, ya que no todas las partes de una misma canción son igualmente
comprimibles.
Otra característica es que, como todos los formatos sin pérdida, el ratio final depende
mucho del estilo musical, y de su complejidad y variedad sonora, aparte de la propia
canción. Para música clásica obtiene ratios de aproximadamente 1/2; en otros estilos,
como el dance o el rock, los archivos se quedan desde 2/3 hasta 4/5 del tamaño original
en formato PCM. Otro factor de mucha importancia es la existencia de los silencios, ya
que algunas canciones tienen varios segundos al principio o al final.

Soporte Software
Codificación
Windows
o Easy Media Creator
o dBPowerAmp Music Converter(necessari plug-in).
o Flac Frontend.
o Easy CD-DA Extractor.
o MediaMonkey.
o OmniEncoder
o Easy CD-DA Extractor
o Nero Burning ROM con plugin externo
o Winamp ahora incluye soporte nativo para FLAC
o JetAudio
o VLC
o foobar2000 con plugin
o Burrn
Mac OS X
o Toast Titanium
o xACT.
o [1].
Linux
o Ffmpeg
o VLC
o GnomeBaker
o Serpentine
o K3b
Decodificación
Linux
o Audacious
o Ffmpeg
o Audacity
o Mplayer
o VLC
o Songbird.
o Banshee.
o Xine.
o XMMS.
o GnomeBaker.
o Totem.
o MediaPlayerDaemon(mpd).
o Amarok
o Rhythmbox.
Mac OS X
o Flac-Importer
o Cog.
o Play.
o xACT
o MacFLAC.
Windows
o Windows Media Player
o foobar2000.
o Quintessential Player.
o Renoise.
o Traktor 3.
o Winamp.
o AIMP
o The KMPlayer
o ALTools-based ALSong
Ripeo
Windows
o BonkEnc usando la API de FLAC.dll
o CDex u
o DBpowerAMP con códec oficial
o Exact Audio Copy
o foobar2000
o MediaMonkey
o MP3 Stream Editor
o Winamp
o PlexTools
Mac OS X
o Max — 10.4
Linux
o ABCDE
o Cdda2wav
o Cdparanoia
o Mencoder
o GNOME
 Grip
 RipOff
 Sound Juicer
o KDE
 KAudioCreator
 Konqueror
 K3b

Soporte Hardware
• Ipod
• Hermstedt Hifidelio
• iAudio.
• Olive media servers (Symphony, Música, Opus)
• Rio Karma.
• Squeezebox.
• Sonos
• Meizu M6.
• Pixel Magic Systems' HD Mediabox (con un firmware superior a la versión
1.3.4)
• Embedded Waveplayer
• Teclast T29
• Trekstor Vibez.
• gemei x-750
Waveform Audio Format
WAV (o WAVE), apócope de WAVEform audio format, es un formato de audio
digital normalmente sin compresión de datos desarrollado y propiedad de Microsoft y
de IBM que se utiliza para almacenar sonidos en el PC, admite archivos mono y estéreo
a diversas resoluciones y velocidades de muestreo, su extensión es .wav.
Es una variante del formato RIFF (Resource Interchange File Format, formato de
fichero para intercambio de recursos), método para almacenamiento en "paquetes", y
relativamente parecido al IFF y al formato AIFF usado por Macintosh. El formato toma
en cuenta algunas peculiaridades de la CPU Intel, y es el formato principal usado por
Windows.
A pesar de que el formato WAV puede soportar casi cualquier códec de audio, se
utiliza principalmente con el formato PCM (no comprimido) y al no tener pérdida de
calidad puede ser usado por profesionales, para tener calidad disco compacto se necesita
que el sonido se grabe a 44100 Hz y a 16 bits, por cada minuto de grabación de sonido
se consumen unos 10 megabytes de disco duro. Una de sus grandes limitaciones es que
solo se puede grabar un archivo de hasta 4 gigabytes, que equivale aproximadamente a
6,6 horas en calidad disco compacto. Es una limitación propia del formato,
independientemente de que el sistema operativo donde se utilice sea MS Windows u
otro distinto, y se debe a que en la cabecera del fichero se indica la longitud del mismo
con un número entero de 32 bit, lo que limita el tamaño del fichero a 4 GB.
En Internet no es popular, fundamentalmente porque los archivos sin compresión
son muy grandes. Son más frecuentes los formatos comprimidos con pérdida, como el
MP3 o el Ogg Vorbis. Como éstos son más pequeños la transferencia a través de
Internet es mucho más rápida. Además existen códecs de compresión sin pérdida más
eficaces como Apple Lossless o FLAC.
MIDI

Puertos y cable MIDI.

MIDI son las siglas de Musical Instrument Digital Interface (Interfaz Digital de
Instrumentos Musicales). Se trata de un protocolo industrial estándar que permite a las
computadoras, sintetizadores, secuenciadores, controladores y otros dispositivos
musicales electrónicos comunicarse y compartir información para la generación de
sonidos.
Esta información define diversos tipos de datos como números que pueden
corresponder a notas particulares, números de patches de sintetizadores o valores de
controladores. Gracias a esta simplicidad, los datos pueden ser interpretados de diversas
maneras y utilizados con fines diferentes a la música. El protocolo incluye
especificaciones complementarias de hardware y software.

Historia
El repentino inicio de los sintetizadores analógicos en la música popular de los
años 1970 llevó a los músicos a exigir más prestaciones de sus instrumentos.
Interconectar sintetizadores analógicos es relativamente fácil ya que éstos pueden
controlarse a través de osciladores de voltaje variable.
La aparición del sintetizador digital a finales de la misma década trajo consigo el
problema de la incompatibilidad de los sistemas que usaba cada compañía fabricante.
De este modo se hacía necesario crear un lenguaje común por encima de los parámetros
que cada marca iba generando a lo largo del desarrollo de los distintos instrumentos
electrónicos puestos a disposición de los profesionales del sector.
El estándar MIDI fue inicialmente propuesto en un documento dirigido a la Audio
Engineering Society por Dave Smith, presidente de la compañía Sequential Circuits en
1981. La primera especificación MIDI se publicó en agosto de 1983.
Cabe aclarar que MIDI no transmite señales de audio, sino datos de eventos y
mensajes controladores que se pueden interpretar de manera arbitraria, de acuerdo con
la programación del dispositivo que los recibe. Es decir, MIDI es una especie de
"partitura" que contiene las instrucciones en valores numéricos (0-127) sobre cuándo
generar cada nota de sonido y las características que debe tener; el aparato al que se
envíe dicha partitura la transformará en música completamente audible.
En la actualidad la gran mayoría de los creadores musicales utilizan el lenguaje
MIDI a fin de llevar a cabo la edición de partituras y la instrumentación previa a la
grabación con instrumentos reales. Sin embargo, la perfección adquirida por los
sintetizadores en la actualidad lleva a la utilización de forma directa en las grabaciones
de los sonidos resultantes del envío de la partitura electrónica a dichos sintetizadores de
última generación.
Hardware
Buena parte de los dispositivos MIDI son capaces de enviar y recibir información,
pero desempeñan un papel diferente dependiendo de si están recibiendo o enviando
información, también depende de la configuración del programa o programas que se
puede usar dicho dispositivo. El que envía los mensajes de activación se denomina
Maestro (del inglés master, o ‘amo’) y el que responde a esa información Esclavo
(slave).

Aparatos
Los aparatos MIDI se pueden clasificar en tres grandes categorías:

• Controladores: generan los mensajes MIDI (activación o desactivación


de una nota, variaciones de tono, etc). El controlador más familiar a los músicos
tiene forma de teclado de piano, al ser este instrumento el más utilizado a la hora
de componer e interpretar las obras orquestales; sin embargo, hoy día se han
construido todo tipo de instrumentos con capacidad de transmisión vía interfaz
MIDI: guitarras, parches de percusión, clarinetes electrónicos, incluso gaitas
MIDI.

•Unidades generadoras de sonido: también conocidas como módulos de


sonido, reciben los mensajes MIDI y los transforman en señales sonoras
(recordemos que MIDI no transmite audio, sino paquetes de órdenes en formato
numérico).

• Secuenciadores: no son más que aparatos destinados a grabar, reproducir


o editar mensajes MIDI. Pueden desarrollarse bien en formato de hardware, bien
como software de computadora, o bien incorporados en un sintetizador.

Éstos son los tres grandes tipos de aparatos MIDI. Aun así, podemos encontrar en
el mercado aparatos que reúnen dos o tres de las funciones descritas. Por ejemplo, los
órganos electrónicos disponen de un controlador (el propio teclado) y una unidad
generadora de sonido; algunos modelos también incluyen un secuenciador.

Cables y conectores
Un cable MIDI utiliza un conector del tipo DIN de 5 pines o contactos. La
transmisión de datos sólo usa uno de éstos, el número 5. Los números 1 y 3 se
reservaron para añadir funciones en un futuro. Los restantes (2 y 4) se utilizan -
respectivamente- como blindaje y para transmitir una tensión de +5 voltios, para
asegurarse que la electricidad fluya en la dirección deseada. La finalidad del cable MIDI
es la de permitir la transmisión de los datos entre dos dispositivos o instrumentos
electrónicos. En la actualidad, los fabricantes de equipos económicos y por ello, muy
populares, de empresas tales como Casio, Korg y Roland han previsto la sustitución de
los cables y conectores MIDI estándar, por los del tipo USB que son más fáciles de
hallar en el comercio y que permiten una fácil conexión a las computadoras personales.

Conexiones
El sistema de funcionamiento MIDI es de tipo simplex, es decir, sólo puede
transmitir señales en un sentido. La dirección que toman las señales es siempre desde un
dispositivo 'maestro' hacia un dispositivo 'esclavo'. El primero genera la información y
el segundo la recibe.
Para entender bien el sistema de conexión, debemos saber que en un aparato MIDI
puede haber hasta tres conectores:

• MIDI OUT: conector del cual salen los mensajes generados por el
dispositivo maestro.
• MIDI IN: sirve para introducir mensajes al dispositivo esclavo.
• MIDI THRU: también es un conector de salida, pero en este caso se envía
una copia exacta de los mensajes que entran por MIDI IN.

El formato más simple de conexión es el formado por un dispositivo maestro (por


ejemplo, un controlador) y un esclavo (como un sintetizador). En este caso, el maestro
dispondrá de un conector MIDI OUT, de donde saldrán los mensajes MIDI generados,
el cual deberemos unir al conector MIDI IN en el esclavo.
MIDI admite la conexión de un solo maestro a varios dispositivos esclavos en
cascada. Para esos casos se utilizará MIDI THRU, uniendo el maestro con una de las
unidades del modo descrito anteriormente. En el conector MIDI THRU de esa unidad se
obtiene una copia de los mensajes MIDI que se introducen a través de MIDI IN, por lo
que ese MIDI THRU se conectará con MIDI IN de otra de las unidades,a esto se le llama
Daisy Chain.
Supongamos que uno de los esclavos también incluye un controlador (como un
sintetizador con teclado). Éste dispondrá de conector MIDI OUT. En ese caso,
obtendremos los mensajes generados desde controlador en MIDI OUT, mientras que los
mensajes correspondientes al controlador situado al inicio de la cadena aparecerán en
MIDI THRU.
Por último, si se dispone de un aparato secuenciador (capaz de almacenar y
reproducir información MIDI recibida), se conectará entre el controlador y la primera
unidad generadora de sonido. En ese caso, el secuenciador dispondrá de conectores
MIDI OUT y MIDI IN.
Aunque existe la posibilidad de la conexión en cascada de varios aparatos MIDI,
es cierto que existe una limitación. Las características eléctricas de los conectores MIDI
hacen la señal proclive a la degradación, por lo que son pocos los aparatos que se
pueden conectar en cascada antes de notar pérdidas apreciables de información.

Software
La especificación MIDI incluye un aspecto de software que parte de la misma
organización de los bytes.

Bytes MIDI
El byte MIDI, a diferencia de los bytes estándar de ocho bits de las computadoras,
está compuesto por diez bits que se envían/reciben a una velocidad de 31250
bits/segundo con una tolerancia de +/- 1% según el estándar. El primero es el bit de
inicio (start bit, que siempre es 0) y el último el bit de terminación (stop bit que siempre
es 1). Esto con el fin de que los dispositivos MIDI puedan llevar la cuenta de cuantos
bytes se han enviado o recibido. Los ocho bits restantes contienen los mensajes MIDI.
Existen dos tipos de bytes: De estado -status byte- y de información -data byte-.
Se diferencian por el primer bit: si es un 1, tenemos un byte de estado, y si es un 0, es
un byte de datos. Al generar un mensaje MIDI, por norma general, siempre enviamos un
byte de estado, que puede estar seguido de cierta cantidad de bytes de datos. Por
ejemplo, podemos enviar un primer mensaje de estado "activar nota", seguido de un
byte de datos informado qué nota es la que se activa. En algunas ocasiones y según el
dispositivo midi que se trate, puede ocurrir que se omita el byte status si es idéntico al
anterior. Por ejemplo, si tocamos la tecla do de un piano mandaría:
1001xxxx (note on)

00111100 (valor 60 que corresponde a la nota do central "C3")

0xxxxxxx (la velocidad con la que haya sido apretada la tecla)

Pero al soltarla, puede omitir el byte status y apagarla por volumen (otra
posibilidad es que usase el 1000xxxx (note off) para apagarla).Es decir
transmitiría sólo los dos siguientes bytes:

00111100 (valor 60 que corresponde a la nota do central "C3")

00000000 (la velocidad cero, que indica que tiene que dejar de sonar esa
nota)

Omitiendo así el byte status. Es más, si nuevamente pulsamos la tecla do,


volvería a omitir el byte status.

A su vez, los mensajes de estado se dividen en dos grupos: mensajes de canal y


mensajes de sistema. Los mensajes de canal se envían a un dispositivo específico,
mientras que los mensajes de sistema son recibidos por todos los equipos.
En la siguiente tabla tenemos una lista con todos los mensajes disponibles.
Tabla 1. Mensajes MIDI

Byte estado Descripción

1000cccc Desactivación de nota

1001cccc Activación de nota

1010cccc Postpulsación polifónica

1011cccc Cambio de control

1100cccc Cambio de programa

1101cccc Postpulsación monofónica de canal

1110cccc Pitch

11110000 Mensaje exclusivo del fabricante


11110001 Mensaje de trama temporal

11110010 Puntero posición de canción

11110011 Selección de canción

11110100 Indefinido

11110101 Indefinido

11110110 Requerimiento de entonación

11110111 Fin de mensaje exclusivo

11111000 Reloj de temporización

11111001 Indefinido

11111010 Inicio

11111011 Continuación

11111100 Parada

11111101 Indefinido

11111110 Espera activa

11111111 Reseteo del sistema

Los primeros bytes, cuyos últimos cuatro bits están marcados como "cccc", se refieren a
mensajes de canal; el resto de bytes son mensajes de sistema.
Antes de explicar más detalladamente las características de algunos de los mensajes,
conviene conocer dos importantes características de MIDI: los canales y los modos.

Canales MIDI
Como se comentó con anterioridad, MIDI está pensado para comunicar un único
controlador con varias unidades generadoras de sonido (cada una de las cuales puede
tener uno o varios instrumentos sintetizados que deseemos utilizar), todo por un mismo
medio de transmisión. Es decir, todos los aparatos conectados a la cadena MIDI reciben
todos los mensajes generados desde el controlador. Ello hace necesario un método para
diferenciar cada uno de los instrumentos. Este método es el denominado canal.
MIDI puede direccionar hasta 16 canales (también llamados voces, o
instrumentos); por ello, al instalar el sistema MIDI será necesario asignar un número de
canal para cada dispositivo.
Instrumentos MIDI
Estos son los 128 instrumentos de la especificación estándar de MIDI, también
conocidos como GM o "General Midi"

• 00 - Piano de • 32 - Bajo • 64 - Saxo • 96 - Efecto 1


cola acústico acústico soprano (lluvia)
• 01 - Piano • 33 - Bajo • 65 - Saxo alto • 97 - Efecto 2
acústico eléctrico • 66 - Saxo (banda
brillante pulsado tenor sonora)
• 02 - Piano de • 34 - Bajo • 67 - Saxo • 98 - Efecto 3
cola eléctrico eléctrico barítono (cristales)
• 03 - Piano de punteado • 68 - Oboe • 99 - Efecto 4
cantina • 35 - Bajo sin • 69 - Corno (atmósfera)
• 04 - Piano trastes inglés • 100 Efecto 5
Rhodes • 36 - Bajo • 70 - Fagot (brillo)
• 05 - Piano golpeado 1 • 71 - Clarinete • 101 Efecto 6
con "chorus" • 37 - Bajo • 72 - Flautín (duendes)
• 06 - golpeado 2 • 73 - Flauta • 102 Efecto 7
Clavicordio • 38 - Bajo • 74 - Flauta (ecos)
• 07 - Clavinet sintetizado 1 dulce • 103 Efecto 8
• 08 - Celesta • 39 - Bajo • 75 - Flauta de (ciencia
• 09 - Carillón sintetizado 2 pan ficción)
• 10 - Caja de • 40 - Violín • 76 - Cuello • 104 Sitar
música • 41 - Viola de botella • 105 Banjo
• 11 - • 42 - • 77 - • 106 Shamisen
Vibráfono Violoncello Shakuhachi • 107 Koto
• 12 - Marimba • 43 - (flauta • 108 Kalimba
• 13 - Xilófono Contrabajo japonesa) • 109 Gaita
• 14 - • 44 - Cuerdas • 78 - Silbato • 110 Violín
Campanas con trémolo • 79 - Ocarina celta
tubulares • 45 - Cuerdas • 80 - Melodía • 111 Shanai
• 15 - Salterio con pizzicato 1 (onda • 112
• 16 - Órgano • 46 - Arpa cuadrada) Campanillas
Hammond • 47 - Timbales • 81 - Melodía • 113 Agogó
• 17 - Órgano • 48 - Conjunto 2 (diente de • 114 Cajas
percusivo de cuerda 1 sierra) metálicas
• 18 - Órgano • 49 - Conjunto • 82 - Melodía • 115 Caja de
de rock de cuerda 2 3 (órgano de madera
• 19 - Órgano • 50 - Cuerdas vapor) • 116 Caja
de iglesia sintetizadas 1 • 83 - Melodía Taiko
• 20 - Armonio • 51 - Cuerdas 4 (siseo • 117 Timbal
• 21 - sintetizadas 2 órgano) melódico
Acordeón • 52 - Coro • 84 - Melodía • 118 Caja
• 22 - Aahs 5 (charanga) sintetizada
Armónica • 53 - Voz • 85 - Melodía • 119 Platillo
• 23 - Oohs 6 (voz) invertido
Bandoneón • 54 - Voz • 86 - Melodía • 120 Trasteo
• 24 - Guitarra sintetizada 7 (quintas) de guitarra
española • 55 - Éxito de • 87 - Melodía • 121 Sonido
• 25 - Guitarra orquesta 8 (bajo y de respiración
acústica • 56 - melodías) • 122 Playa
• 26 - Guitarra Trompeta • 88 - Fondo 1 • 123 Piada de
eléctrica • 57 - Trombón (nueva era) pájaro
(jazz) • 58 - Tuba • 89 - Fondo 2 • 124 Timbre
• 27 - Guitarra • 59 - (cálido) de teléfono
eléctrica Trompeta con • 90 - Fondo 3 • 125
(limpia) sordina (polisintetiza Helicóptero
• 28 - Guitarra • 60 - Corno dor) • 126 Aplauso
eléctrica francés • 91 - Fondo 4 • 127 Disparo
(apagada) (trompa) (coro) de fusil
• 29 - Guitarra • 61 - Sección • 92 - Fondo 5
saturada de bronces (de arco)
(overdrive) • 62 - Bronces • 93 - Fondo 6
• 30 - Guitarra sintetizados 1 (metálico)
distorsionada • 63 - Bronces • 94 - Fondo 7
• 31 - sintetizados 2 (celestial)
Armónicos de • 95 - Fondo 8
guitarra (escobillas)

Modos MIDI
Dentro del sistema MIDI, se decidió crear una serie de diferentes modos de
funcionamiento, cada uno con ciertas características. Antes de verlo, debemos
diferenciar entre los siguientes conceptos:

• Monofónico: un instrumento monofónico sólo puede reproducir una nota


simultáneamente. Es decir, para reproducir una nueva nota debe primero dejar
de sonar la anterior. Por ejemplo, los instrumentos de viento son monofónicos,
ya que sólo reproducen un único sonido cada vez.

• Polifónico: un instrumento polifónico puede reproducir varias notas


simultáneamente. Un ejemplo es un piano, que puede formar acordes por medio
de hacer sonar dos o más notas a la vez.

Una vez aclarado este aspecto, podemos resumir los modos MIDI en la siguiente
tabla:
Tabla 2. Modos de funcionamiento MIDI

Número Nombre Descripción

1 Omni on / poly Funcionamiento polifónico sin información de canal

2 Omni on / mono Funcionamiento monofónico sin información de canal


3 Omni off / poly Funcionamiento polifónico con múltiples canales

4 Omni off / mono Funcionamiento monofónico con múltiples canales

Los dos primeros modos se denominan "Omni on". Esto se debe a que en esos
modos la información de canal está desactivada. Esas configuraciones se reservan para
configuraciones donde sólo utilicemos un instrumento. Los otros dos modos, "Omni
off", sí admiten la información de canal.

Mensajes de canal
Channel o Canal; es el mensaje más común. Existen siete tipo de mensajes
channel: - Note on - Note off - Pitch-Bend - Program change - Aftertouch - Polyphonic
Aftertouch - Control change

Controlador y unidad generadora de sonido


Tanto en el sentido de generar el/los sonido/s se auto complementa en el sentido
de grabación - difusión - al mismo tiempo con consolas preparadas y dispuestas para
dicho sistema. Ejemplo: Sea una o varias voces humanas o generada por instrumental se
compaginan cambiando información ó datos, tarea que es realizada en el sistema Midi

Secuenciador
Un secuenciador es un dispositivo que permite realizar grabaciones de datos MIDI
paso a paso donde quedan almacenados la altura MIDI (0-127) duración la nota, la
velocidad (análoga a la intensidad con valores de 0 a 127)el tipo de instrumentos (patch)
y efectos. Todo esto se combina para formar el corpus de datos a emitir. Estos datos
pueden ser utilizados para piezas de música, así como para el control de consolas de
luces, consolas de audio o cualquier equipamiento que interprete el protocolo MIDI y
pueda usar éste para fines particulares.
JPEG

Es un método comúnmente utilizado para la compresión de imágenes fotográficas.


El grado de reducción se puede ajustar, lo que permite seleccionar el compromiso que
existe entre el tamaño de almacenamiento y la calidad de la imagen. Normalmente
alcanza una compresión de 10 a 1 con pocas pérdidas perceptibles en la calidad de la
imagen.
Además de ser un método de compresión, es a menudo considerado como un
formato de archivo. JPEG/Exif es el formato de imagen más común utilizado por las
cámaras fotográficas digitales y otros dispositivos de captura de imagen, junto con
JPEG/JFIF, que también es otro formato para el almacenamiento y la transmisión de
imágenes fotográficas en la World Wide Web. JPEG/JFIF es el formato más utilizado
para almacenar y transmitir archivos de fotos en Internet. Estas variaciones de formatos
a menudo no se distinguen, y se llaman JPEG.

El estándar JPEG
"JPEG" significa "Joint Photographic Experts Group", nombre de la comisión que
creó la norma, la cual fue integrada desde sus inicios por la fusión de varias
agrupaciones en un intento de compartir y desarrollar su experiencia en la digitalización
de imágenes. La ISO, tres años antes (abril de 1983), había iniciado sus investigaciones
en el área. Además de ser un método de compresión, es a menudo considerado como un
formato de archivo. JPEG/Exif es el formato de imagen más común utilizado por las
cámaras fotográficas digitales y otros dispositivos de captura de imagen, junto con
JPEG/JFIF, que también es otro formato para el almacenamiento y la transmisión de
imágenes fotográficas en la World Wide Web. JPEG/JFIF es el formato más utilizado
para almacenar y transmitir archivos de fotos en Internet. Estas variaciones de formatos
a menudo no se distinguen, y se llaman JPEG.

Compresión del JPEG


Es un algoritmo de compresión con pérdida. Esto significa que al descomprimir la
imagen no obtenemos exactamente la misma imagen que teníamos antes de la
compresión.
Una de las características que hacen muy flexible el JPEG es el poder ajustar el
grado de compresión. Si especificamos una compresión muy alta se perderá una
cantidad significativa de calidad, pero obtendremos archivos de pequeño tamaño. Con
una tasa de compresión baja obtenemos una calidad muy parecida a la del original, y un
archivo mayor.
Esta pérdida de calidad se acumula. Esto significa que si comprime una imagen y
la descomprime obtendrá una calidad de imagen, pero si vuelve a comprimirla y
descomprimirla otra vez obtendrá una pérdida mayor. Cada vez que comprima y
descomprima la imagen, ésta perderá algo de calidad. La compresión con pérdida no es
conveniente en imágenes o gráficos que tengan textos o líneas y sobre todo para
archivos que contengan grandes áreas de colores sólidos.
El algoritmo de compresión JPEG se basa en dos defectos visuales del ojo
humano, uno es el hecho de que es mucho más sensible al cambio en la luminancia que
en la crominancia, es decir, notamos más claramente los cambios de brillo que de color.
El otro es que notamos con más facilidad pequeños cambios de brillo en zonas
homogéneas que en zonas donde la variación es grande, por ejemplo en los bordes de
los cuerpos de los objetos.
Codificación

El algoritmo JPEG, transforma la imagen en cuadrados de 8×8 y luego almacena


cada uno de estos como una combinación lineal o suma de los 64 recuadros que forman
esta imagen, esto permite eliminar detalles de forma selectiva, por ejemplo, si una
casilla tiene un valor muy próximo a 0, puede ser eliminada sin que afecte mucho a la
calidad.

Esquema del modelo RGB.

Esquema del modelo YUV.


Muchas de las opciones del estándar JPEG se usan poco. Esto es una descripción
breve de uno de los muchos métodos usados comúnmente para comprimir imágenes
cuando se aplican a una imagen de entrada con 24 bits por pixel (ocho por cada rojo,
verde, y azul). Esta opción particular es un método de compresión con pérdida.
Transformación del espacio de color
Comienza convirtiendo la imagen desde su modelo de color RGB a otro llamado
YUV ó YCbCr. Este espacio de color es similar al que usan los sistemas de color para
televisión PAL y NTSC, pero es mucho más parecido al sistema de televisión MAC.
Este espacio de color (YUV) tiene tres componentes:
• La componente Y, o Luminancia (información de brillo), es decir, la
imagen en escala de grises.
• Las componentes U o Cb y V o Cr, respectivamente Saturación (la
cantidad de blanco, o la pureza del color) y Tono (el nombre del color
propiamente dicho, o la longitud de onda asociada); ambas señales son
conocidas como crominancia (información de color).
El resultado es una imagen en la que la luminancia está separada de la
crominancia.
Las ecuaciones que realizan éste cambio de base de RGB a YUV son las
siguientes:
Y = 0.257 * R + 0.504 * G + 0.098 * B + 16
Cb = U = -0.148 * R - 0.291 * G + 0.439 * B + 128
Cr = V = 0.439 * R - 0.368 * G - 0.071 * B + 128
Las ecuaciones para el cambio inverso se pueden obtener despejando de las
anteriores y se obtienen las siguientes:
B = 1.164 * (Y - 16) + 2.018 * (U - 128)
G = 1.164 * (Y - 16) - 0.813 * (V - 128) - 0.391 * (U - 128)
R = 1.164 * (Y - 16) + 1.596 * (V - 128)
NOTA: Estas ecuaciones están en continua investigación, por lo que se pueden
encontrar en libros y en la red otras ecuaciones distintas pero con coeficientes muy
parecidos.
Si se analiza el primer trío de ecuaciones veremos que las tres componentes toman
como valor mínimo el 16. El canal de luminancia (canal Y) tiene como valor máximo el
235, mientras que los canales de crominancia el 240, todos estos valores caben en un
byte haciendo redondeo al entero más próximo. Durante esta fase no hay pérdida de
información.
NOTA: Esta última afirmación no es del todo cierta ya que debido a los redondeos
se introduce un pequeño margen de error aunque imperceptible para el ojo humano.

Submuestreo

Ligera explicación visual sobre el submuestreo, la imagen de arriba a la izquierda


es la original, las otras sufren unos submuestreos de color salvajes que dan idea de los
efectos de esta técnica. Ampliar para mejor visualización.
Una opción que se puede aplicar al guardar la imagen, es reducir la información
del color respecto a la de brillo (debido al defecto en el ojo humano comentado
anteriormente). Hay varios métodos: si este paso no se aplica, la imagen sigue en su
espacio de color YUV, (este submuestreo se entiende como 4:4:4), con lo que la imagen
no sufre pérdidas. Puede reducirse la información cromática a la mitad, 4:2:2 (reducir en
un factor de 2 en dirección horizontal), con lo que el color tiene la mitad de resolución
(en horizontal), y el brillo sigue intacto. Otro método, muy usado, es reducir el color a
la cuarta parte, 4:2:0, en el que el color se reduce en un factor de 2 en ambas
direcciones, horizontal y vertical. Si la imagen de partida estaba en escala de grises
(blanco y negro), puede eliminarse por completo la información de color, quedando
como 4:0:0.
Algunos programas que permiten el guardado de imágenes en JPEG (como el que
usa GIMP) se refieren a estos métodos con 1×1,1×1,1×1 para YUV 4:4:4 (no perder
color), 2×1,1×2,1×1 para YUV 4:2:2 y 2×2,1×1,1×1 para el último método, YUV
4:2:0.
Las técnicas algorítmicas usadas para este paso (para su reconstrucción
exactamente) suelen ser interpolación bilineal, vecino más próximo, convolución
cúbica, Bezier, b-spline y Catmun-Roll.rh

Transformación discreta de coseno o DCT

"Antes de", en un bloquecillo 8×8 (ampliación ×16).

"Después de", en un bloquecillo 8×8, se notan errores respecto a la primera


imagen, como en la esquina inferior izquierda, que está más clara.
Entonces, cada componente de la imagen se divide en pequeños bloques de 8×8
píxeles, que se procesan de forma casi independiente, de esto resulta la formación de los
bloques, que se hace notable en imágenes guardadas con altas compresiones. Si la
imagen sufrió un submuestreo del color, los colores quedarían en la imagen final en
bloques de 8×16 y 16×16 pixeles, según fuese 4:2:2 o 4:2:0.
Después cada pequeño bloque se convierte al dominio de la frecuencia a través de
la transformación discreta de coseno bidimensional, abreviadamente llamada DCT.
Un ejemplo de uno de esos pequeños bloques de 8×8 inicial es este:
El siguiente proceso es restarles 128 para que queden números entorno al 0, entre -
128 y 127.

Se procede a la transformación por DCT de la matriz, y el redondeo de cada


elemento al número entero más cercano.

Nótese que el elemento más grande de toda la matriz aparece en la esquina


superior izquierda, este es el coeficiente DC.
NOTA: Se ha comprobado que los resultados anteriormente expuestos están
correctos.

Cuantificación
Como ya habíamos comentado, el ojo humano es muy bueno detectando pequeños
cambios de brillo en áreas relativamente grandes, pero no cuando el brillo cambia
rápidamente en pequeñas áreas (variación de alta frecuencia), esto permite eliminar las
altas frecuencias, sin perder excesiva calidad visual. Esto se realiza dividiendo cada
componente en el dominio de la frecuencia por una constante para ese componente, y
redondeándolo a su número entero más cercano. Este es el proceso en el que se pierde la
mayor parte de la información (y calidad) cuando una imagen es procesada por este
algoritmo. El resultado de esto es que los componentes de las altas frecuencias, tienden
a igualarse a cero, mientras que muchos de los demás, se convierten en números
positivos y negativos pequeños.
Una matriz de cuantificación típica es la matriz de Losheller que se usa
opcionalmente en el estándar JPEG:

Dividiendo cada coeficiente de la matriz de la imagen transformada entre cada


coeficiente de la matriz de cuantificación, se obtiene esta matriz, ya cuantificada:

Por ejemplo, cuantificando el primer elemento, el coeficiente DC, sería así:

Codificación entrópica
La codificación entrópica es una forma especial de la compresión sin pérdida de
datos. Para ello se cogen los elementos de la matriz siguiendo una forma de zig-zag,
poniendo grupos con frecuencias similares juntos, e insertando ceros de codificación, y
usando la codificación Huffman para lo que queda. También se puede usar la
codificación aritmética, superior a la de Huffman, pero que rara vez se usa, ya que está
cubierta por patentes, esta compresión produce archivos un 5% menores, pero a costa de
un mayor tiempo de codificación y decodificación, esta pequeña ganancia, puede
emplearse también en aplicar un menor grado de compresión a la imagen, y obtener más
calidad para un tamaño parecido.
En la matriz anterior, la secuencia en zig-zag, es esta:
−26, −3, 0, −3, −2, −6, 2, −4, 1 −4, 1, 1, 5, 1, 2, −1, 1, −1, 2, 0, 0, 0, 0, 0, −1, −1,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0
JPEG tiene un código Huffman para cortar la cadena anterior en el punto en el que
el resto de coeficientes sean ceros, y así, ahorrar espacio:
−26, −3, 0, −3, −2, −6, 2, −4, 1 −4, 1, 1, 5, 1, 2, −1, 1, −1, 2, 0, 0, 0, 0, 0, −1, −1,
EOB

Ruido producido por la compresión


El resultado tras la compresión, puede variar, en función de la agresividad de los
divisores de la matriz de cuantización, a mayor valor de esos divisores, más coeficientes
se convierten en ceros, y más se comprime la imagen. Pero mayores compresiones
producen mayor ruido en la imagen, empeorando su calidad. Una imagen con una fuerte
compresión (1%-15%) puede tener un tamaño de archivo mucho menor, pero tendrá
tantas imperfecciones que no será interesante, una compresión muy baja (98%-100%)
producirá una imagen de muy alta calidad, pero, tendrá un tamaño tan grande que quizás
interese más un formato sin pérdida como PNG.
La mayoría de personas que naveguen por Internet estarán familiarizadas con estas
imperfecciones, son el resultado de lograr una buena compresión; para evitarlos, se
tendrá que reducir el nivel de compresión o aplicar compresión sin pérdida, produciendo
mayores ficheros después.

Decodificación
El proceso es similar al seguido hasta ahora, sólo que de forma inversa. En este
caso, al haber perdido información, los valores no coincidirán.
Se coge la información de la matriz, se decodifica, y se pone cada valor en su
casilla correspondiente. Después se multiplica cada uno de estos valores por el valor
correspondiente de la matriz de cuantización usada, como muchos valores son ceros,
sólo se recuperan (y de forma aproximada) los valores de la esquina superior izquierda.
Después se deshace la transformación DCT:

Errores producidos por una compresión excesiva: Antes de y después de.


Y finalmente se suma 128 a cada entrada:

Tras la compresión, suelen quedar a veces bloques como estos, en este caso en un
trozo de una imagen ampliado.
Para comparar las diferencias entre el bloque original y el comprimido, se halla la
diferencia entre ambas matrices, la media de sus valores absolutos, da una ligera idea de
la calidad perdida:
Se puede observar que las mayores diferencias están cerca de la mancha, y por la
parte inferior, entre la esquina izquierda y el centro, notándose más esta última, ya que
corre una mancha clara que antes estaba más hacia la esquina. La media de los valores
absolutos de las restas es 4.8125, aunque en algunas zonas es mayor.
GIF (Compuserve GIF)
Es un formato gráfico utilizado ampliamente en la World Wide Web, tanto para
imágenes como para animaciones.
El formato fue creado por CompuServe en 1987 para dotar de un formato de
imagen a color para sus áreas de descarga de ficheros, sustituyendo su temprano
formato RLE en blanco y negro. GIF llegó a ser muy popular porque podía usar el
algoritmo de compresión LZW (Lempel Ziv Welch) para realizar la compresión de la
imagen, que era más eficiente que el algoritmo Run-Lenght Encoding (RLE) usado por
los formatos PCX y MacPaint. Por lo tanto, imágenes de gran tamaño podían ser
descargadas en un razonable periodo de tiempo, incluso con modems muy lentos.
GIF es un formato sin pérdida de calidad para imágenes con hasta 256 colores,
limitados por una paleta restringida a este número de colores. Por ese motivo, con
imágenes con más de 256 colores (profundidad de color superior a 8), la imagen debe
adaptarse reduciendo sus colores, produciendo la consecuente pérdida de calidad.

Características
Una imagen GIF puede contener entre 2 y 256 colores (2, 4, 8, 16, 32, 64, 128 ó
256) entre 16,8 millones de su paleta. Por lo tanto, dado que la paleta tiene un número
de colores limitado (no limitado en cuanto a colores diferentes), las imágenes que se
obtenían con este formato por lo general eran muy pequeñas.
Sin embargo, dado que el algoritmo de compresión LZW estaba patentado, todos
los editores de software que usaban imágenes GIF debían pagarle regalías a Unisys, la
compañía propietaria de los derechos. Esta es una de las razones por las que el formato
PNG se está volviendo cada vez más popular, en perjuicio del formato GIF.

Patentes
Unisys, propietario de la patente del algoritmo LZW que se utiliza en el formato
GIF reclamó durante años el pago de regalías por su uso. Compuserve, al desarrollar el
formato, no sabía que el algoritmo LZW estaba cubierto por una patente. Debido a esto,
cualquier programa capaz de abrir o guardar archivos GIF comprimidos con LZW debía
cumplir con sus exigencias. Esto hace que su uso sea desaconsejado por el W3C, y
perjudicial para el software libre y no libre (lo limitaba económicamente). Es necesario
recalcar que el formato GIF puede utilizar otros métodos de compresión no cubiertos
por patentes, como el método Run-length encoding.
El 20 de junio de 2003 expiró en Estados Unidos la patente por el algoritmo LZW.
Portable Network Graphics (PNG)

Portable Network Graphics

Una imagen PNG con un canal alfa de 8 bits (arriba). La misma imagen montada

sobre un fondo a cuadros (abajo), usado típicamente por programas editores de

imagen para resaltar la semitransparencia.

Extensión de archivo .png

Tipo de MIME image/png

Desarrollado por PNG Development Group (donado


a W3C)

Tipo de formato Gráfico rasterizado comprimido sin


pérdidas

Extendido a APNG, JNG y MNG

Estándar(es) ISO 15948, IETF RFC 2083


PNG (Portable Network Graphics) es un formato gráfico basado en un algoritmo
de compresión sin pérdida para bitmaps no sujeto a patentes. Este formato fue
desarrollado en buena parte para solventar las deficiencias del formato GIF y permite
almacenar imágenes con una mayor profundidad de contraste y otros importantes datos.
Las imágenes PNG usan la extensión (.png) y han obtenido un tipo MIME
(image/png) aprobado el 14 de octubre de 1996.

Historia y desarrollo
Las motivaciones para crear el formato PNG se generaron en 1995, después de
que Unisys anunciara que haría cumplir la patente de software del algoritmo de
compresión de datos LZW utilizado por el GIF (patente de EE.UU. 4.558.302 y otras
alrededor del globo). Había otros problemas con el formato GIF que hacían deseable un
cambio, por ejemplo su limitación a paletas de 8 bits de 256 colores como máximo,
cuando los ordenadores ya soportaban miles o millones de colores.
Originalmente PNG era un acrónimo recursivo que significaba PNG no es GIF
(PNG's Not GIF).
Aunque el GIF soporta animación, el PNG se desarrolló como un formato de
imagen estático y se creó el formato MNG como su variante animada.
El PNG ganó mayor popularidad en agosto de 1999 cuando Unisys puso fin a su
política de licencias de patente libres de derechos para los desarrolladores de software
libre o no comercial.
• Especificación de la versión 1.0 de PNG fue lanzada el 1 de julio de 1996
y después apareció como RFC 2083. Rápidamente se convirtió en una
recomendación W3C el 1 de octubre de 1996
• Versión 1.1 con algunos pequeños cambios y con 3 nuevas extensiones o
"chunks" fue liberada el 31 de diciembre de 1998
• Versión 1.2. Nueva extensión. Liberada el 11 de agosto de 1999
• Nueva versión, ligeramente diferente de la anterior y con una nueva
extensión. Actualmente PNG es un estándar internacional (ISO/IEC
15948:2003), también recomendado por la W3C el 10 de noviembre de 2003.
• El estandard a partir de 2004 es (ISO/IEC 15948:2004)

Detalles técnicos
Cabecera del archivo
Un archivo PNG empieza con una firma de 8 bytes, los valores en hexadecimal
son: 89 50 4E 47 0D 0A 1A 0A; cada valor esta ahí por una razón específica.

Byte(s) Propósito

Tiene el bit más alto puesto a 1 para detectar sistemas de transmisión que no
89 soportan datos de 8 bits y para reducir el riesgo de que un fichero de texto sea
erróneamente interpretado como PNG.

En ASCII, las letras "PNG" permitiendo que una persona identifique el formato en
50 4E 47
caso de verlo en un editor de texto.
Una nueva línea con estilo DOS (CRLF) para detectar las conversiones de final de línea
0D 0A
entre DOS y UNIX.

Un byte que detiene el despliegue del fichero bajo DOS cuando se ha usado el
1A
comando TYPE.

Una nueva línea en UNIX (LF) para detectar la conversión de final de línea entre DOS
0A
y UNIX.

Segmentos del archivo


Después de la cabecera encontramos una serie de segmentos de los cuales cada
uno guarda cierta información acerca de la imagen. Los segmentos se autodeclaran
como críticos (critical) o auxiliares (ancillary) de modo que un programa que encuentre
un segmento auxiliar y no lo entienda puede ignorarlo sin peligro. La estructura basada
en segmentos está diseñada para poder ampliar el formato PNG manteniendo la
compatibilidad con versiones antiguas.
Cada una de las secciones tiene una cabecera que especifica su tamaño y tipo,
inmediatamente seguido de los datos y el checksum de los datos. Las secciones tienen
un nombre de 4 letras que es sensible a las mayúsculas. El uso de mayúsculas o
minúsculas en dicho nombre provee a los decodificadores de información acerca de las
secciones que no son reconocidas.
Si la primera letra es mayúscula esto indica que la sección es esencial, en caso
contrario será auxiliar. Las secciones esenciales son necesarias para leer el fichero, si el
decodificador encuentra una sección esencial que no reconoce debe abortar la lectura.
En caso de que la segunda letra sea mayúscula esto significará que la sección es
pública en la especificación o el registro de secciones para propósitos especiales, en
caso contrario será privada (no estandarizada). Este uso de mayúsculas y minúsculas
asegura que nunca haya conflictos entre secciones públicas y privadas.
La tercera letra debe estar en mayúsculas para cumplir las especificaciones de
PNG y está reservada para futuras expansiones.
La cuarta letra indica si es seguro copiar la sección en caso de que no sea
reconocida, en caso de estar en minúsculas es seguro copiar la sección sin importar la
cantidad de modificación que haya sufrido el fichero, si es mayúscula solo se deberán
copiar si no hay secciones críticas que hayan sufrido modificaciones.

Secciones esenciales
Un decodificador debe ser capaz de entender estas secciones para leer y renderizar
un PNG:

• IHDR, debe ser la primera sección, contiene la cabecera.


• PLTE, contiene la paleta (lista de colores).
• IDAT, contiene la imagen que debe ser dividida en múltiples secciones
IDAT, haciendo esto se incrementa el tamaño de la imagen ligeramente pero
hace posible generar imágenes PNG en streaming.
• IEND, marca el final de la imagen.

Secciones de metadatos
Otros atributos que pueden ser guardados en una imagen PNG son: valores de
gamma, color del fondo e información textual. PNG también soporta corrección de
color con el uso de sistemas de manejo del color como sRGB.

• bKGD, contiene el color de fondo por defecto, se usa cuando no hay un


mejor color disponible para mostrar, como en un visor de imágenes pero no en
un navegador web.
• cHRM, balance de blanco.
• gAMA, especifica la gamma.
• hIST, guarda el histograma o cantidad total de cada color en la imagen.
• iCCP, perfil ICC de color.
• iTXt, contiene texto (UTF-8) comprimido o no.
• pHYs, contiene el tamaño previsto del pixel y/o el ratio de la imagen.
• sBIT, (bits significativos) indican la exactitud de los colores en la
imagen.
• sPLT, sugiere una paleta para usar en caso de que el rango completo de
colores no este disponible.
• sRGB, indica que se usa el estándar sRBG color space.
• tEXt, almacena texto que puede ser representado en ISO 8859-1 con un
nombre = valor para cada sección.
• tIME, almacena la fecha de la última modificación.
• tRNS, contiene información sobre la transparencia. Para imágenes
indexadas almacena el canal alpha para una o más paletas, para imágenes en
color real y escala de grises almacena la información de un solo pixel que debe
ser considerado completamente transparente.
• zTXt, contiene texto comprimido con los mismos límites que tEXt.

La primera letra en minúsculas de estas secciones indica que no son necesarias en


la especificación de PNG, la última letra en minúsculas indica que es seguro copiarlas
incluso si la aplicación en cuestión no las entiende.
Otros atributos que pueden ser almacenados en un PNG incluyen valores de
corrección gamma, color de fondo y metadatos. PNG además también utiliza la
corrección de color que utilizan los sistemas de administración de color como el sRGB.
Algunos programas como Adobe Photoshop disponen de este sistema.

Profundidad de color
Las imágenes en formato PNG pueden ser imágenes de paleta indexada o estar
formadas por uno o varios canales. Si existe más de un canal, todos los canales tienen el
mismo número de bits por pixel (también llamado profundidad de bits por canal).
Aunque en la especificación oficial del PNG se nombre la profundidad de bits por canal,
normalmente los programas de edición nombran sólo la cantidad total de bits por pixel,
es decir, la profundidad de color.
El número de canales depende de si la imagen es en escala de grises o en color y si
dispone de canal alfa (también llamado canal de transparencia). Las combinaciones
permitidas por PNG son:

• Escala de grises (1 canal)


• Escala de grises y canal alfa (2 canales)
• Canales rojo, verde y azul (RGB, 3 canales. También llamado color
verdadero o Truecolor)
• Canales rojo, verde, azul y alfa (RGB + alfa, 4 canales)

Por otra parte, las imágenes indexadas disponen de un tope de 256 colores como
máximo. Esta paleta de colores está almacenada con una profundidad de canal de 8 bits.
La paleta no puede tener más colores que los marcados por la profundidad de bits, es
decir 28=256 colores, aunque sí puede tener menos (por ejemplo, una imagen de 50
colores sólo almacenará 50 entradas, evitando almacenar datos que no son utilizados).

Rango total de opciones de color soportados

Profundidad de bits por canal 1 2 4 8 16

Imagen indexada (1 canal) 1 2 4 8

Escala de grises (1 canal) 1 2 4 8 16

Escala de grises con alfa (2


16 32
canales)

Color verdadero (RGB) (3


24 48
canales)

Color verdadero con alfa


         32 64
(RGBA) (4 canales)

La tabla expuesta a la derecha indican la profundidad de color para cada formato


de imagen que soporta PNG. Ésta se extrae de la profundidad de bits por canal y se
multiplica por el número de canales. Las casillas en rojo representan combinaciones no
soportadas. El estándar requiere que los decodificadores puedan leer todos los formatos
disponibles, pero muchos editores de imagen sólo pueden generar un pequeño
subconjunto de ellos.

Transparencia en la imagen
PNG ofrece una gran variedad de opciones de transparencia. Con color verdadero
o escala de grises, incluso un solo píxel puede ser declarado transparente o puede
añadirse un canal alfa. Para imágenes que usan paletas se puede añadir un canal alfa en
las entradas de la paleta. El número de dichos valores almacenados puede ser menor que
el total de entradas en la paleta, de modo que el resto de las entradas se considerarán
completamente opacas.
La búsqueda de pixels con transparencia binaria debe hacerse antes de cualquier
reducción de color para evitar que algunos pixels se conviertan en transparentes
accidentalmente.

Compresión
El método de compresión utilizado por el PNG es conocido como deflación (en
inglés "Deflate algorithm"). También existen métodos de filtrado. En la especificación
1.2 se define un único tipo de filtro, que incluye 5 modos de predicción del valor del
pixel, que resulta muy útil para mejorar la compresión, donde se elige para cada línea de
la imagen (scanline) un método de filtrado que predice el color de cada píxel basándose
en los colores de los píxeles previos y resta al color del píxel actual, el color
pronosticado. Los cinco métodos son: None, Sub, Up, Average y Paeth.
Estos filtros pueden reducir notablemente el tamaño final del archivo, aunque
depende en gran medida de la imagen de entrada. El algoritmo de compresión puede
encargarse de la adecuada elección del método que mayor reducción ofrezca.
El tipo de media MIME para PNG es "image/png" (aprobado el 14 de octubre de
1996)

Animación
PNG no ofrece animación. MNG es un formato de imagen que soporta animación
y está basado en las ideas y en algunas secciones de PNG, pero es un sistema complejo
y no permite el visionado de una sola imagen cosa que si hace GIF. APNG es otro
formato basado en PNG que soporta animación y es más sencillo que MNG. APNG
soporta el visionado de una sola imagen en caso de que el decodificador no entienda
este formato. En todo caso ninguno de estos formatos es ampliamente usado.

Comparación técnica con otros formatos

Comparación con GIF

• En la mayoría de los casos, PNG comprime mejor que el formato GIF,


aunque algunas implementaciones (véase Photoshop) realizan una mala
selección de los métodos de filtrado y se generan ficheros de mayor tamaño.

• El PNG admite, al igual que el GIF, imágenes indexadas con


transparencia de 1 bit o "binaria". Este tipo de transparencia no requiere de un
canal adicional y únicamente admite que un color de la paleta aparezca
transparente al 100%.

• El PNG admite formatos con una profundidad de color de millones de


colores (color verdadero) y canal alfa, lo que proporciona unos rangos de color
mucho más ricos y precisos que el GIF y disponer de valores de transparencia
intermedios. Desafortunadamente, esto permite que se compare erróneamente
PNGs de color verdadero con un GIF de color indexado (256 colores)

• GIF soporta animación y PNG no. (ver sección de animación, arriba)

Comparación con JPEG


Imagen compuesta comparando JPEG y PNG: nótese los artificios en la imagen
JPEG versus el fondo en color sólido para la misma imagen en PNG.
PNG y JPEG son formatos que están diseñados para funciones diferentes, por lo
que únicamente se puede realizar una comparación generalista.
• JPEG tiene una relación de compresión enorme en perjuicio de la calidad
de la imagen, ideal para imágenes de gran tamaño y fotografías. No admite
trasparencia.
• PNG es un formato sin perdida de calidad con una excelente compresión,
ideal para imágenes formadas por grandes áreas de color plano o con pocas
variaciones de color. Admite canal alfa y algunos atributos extra como la
corrección gamma.
PNG en la web
Pese a que las características técnicas y de compresión hacen del PNG un formato
ideal para sustituir al GIF, su adopción ha sido muy lenta debido en parte a
comparaciones erróneas y algunas desventajas técnicas:
• No está soportado por algunos navegadores muy viejos (sin embargo
estos navegadores son muy raros hoy en día).
• No admite animación.
• La administración de color fallaba en algunos navegadores (actualmente
no es muy importante y se puede evitar).
Falsas creencias:
• Internet Explorer 6 no soporta PNGs transparentes. Habría que matizar
un punto. Internet Explorer 6 e inferiores admiten transparencias binarias como
en el GIF, pero fallan al mostrar imágenes con canal alfa. Eso se debe a que el
paquete que especifica el canal alfa es opcional (tRNS) según la especificación
PNG, sin embargo Internet Explorer 7 si los admite.
• Las imágenes en PNG pesan más que los GIF. De nuevo, no es cierto.
Esta falsa creencia es debido a que se compara con PNGs mal codificados o de
32 bits con GIFs de 256 colores.

Problemas de color
Algunas versiones de algunos navegadores presentan los valores de corrección
gamma incluso cuando no están especificados en el PNG. Navegadores conocidos con
problemas de visualización de PNG:
• Internet Explorer 5.5 y 6.
• Netscape 7.0 a 7.2.
• Opera (versiones anteriores a la 7.50).
El efecto final es que el color mostrado en el PNG no coincide con el esquema de
color del resto de la página web. Una forma sencilla de evitar esto es volviendo a
codificar el PNG truncando ciertos atributos. Algunas utilidades para tal fin:
• PNGOUT es una utilidad gratuita de DOS que utiliza un algoritmo
exclusivo para recomprimir un PNG y reducir el tamaño del fichero al mínimo,
sin pérdidas.
• Superpng, es un plugin gratuito para Photoshop que permite la
optimización de ficheros PNG.
Windows bitmap (BMP)

Windows bitmap
Extensión de .bmp or .dib
archivo
Tipo de MIME image/x-ms-bmp (no
oficial)
Desarrollado por Microsoft
Tipo de formato Gráfico rasterizado

Windows bitmap (.BMP) es el formato propio del programa Microsoft Paint, que
viene con el sistema operativo Windows. Puede guardar imágenes de 24 bits (16,7
millones de colores), 8 bits (256 colores) y menos. Puede darse a estos archivos una
compresión sin pérdida de calidad: la compresión RLE (Run-length encoding).
Los archivos con extensión .BMP, en los sistemas operativos Windows,
representan la sigla BitMaP (o también Bit Mapped Picture), o sea mapa de bits. Los
archivos de mapas de bits se componen de direcciones asociadas a códigos de color, uno
para cada cuadro en una matriz de pixeles tal como se esquematizaría un dibujo de
"colorea los cuadros" para niños pequeños. Normalmente, se caracterizan por ser muy
poco eficientes en su uso de espacio en disco, pero pueden mostrar un buen nivel de
calidad. A diferencia de los gráficos vectoriales, al ser reescalados a un tamaño mayor,
pierden calidad. Otra desventaja de los archivos BMP es que no son utilizables en
páginas web debido a su gran tamaño en relación a su resolución.
Dependiendo de la profundidad de color que tenga la imagen cada pixel puede
ocupar 1 o varios bytes. Generalmente se suelen transformar en otros formatos, como
JPEG (fotografías), GIF o PNG (dibujos y esquemas), los cuales utilizan otros
algoritmos para conseguir una mayor compresión (menor tamaño del archivo).
Los archivos comienzan (cabecera o header) con las letras 'BM' (0x42 0x4D), que
lo identifica con el programa de visualización o edición. En la cabecera también se
indica el tamaño de la imagen y con cuántos bytes se representa el color de cada pixel.
A continuación se detalla la estructura de la cabecera de un fichero .BMP

Bytes Información
0, 1 Tipo de fichero "BM"
2, 3, 4, 5 Tamaño del archivo
6, 7 Reservado
8, 9 Reservado
10, 11, 12, 13 Inicio de los datos de la imagen
14, 15, 16, 17 Tamaño de la cabecera del bitmap
18, 19, 20, 21 Anchura (píxels)
22, 23, 24, 25 Altura (píxels)
26, 27 Número de planos
28, 29 Tamaño de cada punto
30, 31, 32, 33 Compresión (0=no comprimido)
34, 35, 36, 37 Tamaño de la imagen
38, 39, 40, 41 Resolución horizontal
42, 43, 44, 45 Resolución vertical
46, 47, 48, 49 Tamaño de la tabla de color
50, 51, 52, 53 Contador de colores importantes

El Bitmap de una imagen .BMP comienza a leerse desde abajo a arriba, es decir:
en una imagen en 24 bits los primeros 3 bytes corresponden al primer píxel inferior
izquierdo.
TIFF
TIFF (Tagged Image File Format) es un formato de fichero para imágenes.
La denominación en inglés "Tagged Image File Format" (formato de archivo de
imágenes con etiquetas) se debe a que los ficheros TIFF contienen, además de los datos
de la imagen propiamente dicha, "etiquetas" en las que se archiva información sobre las
características de la imagen, que sirve para su tratamiento posterior.

Etiquetas
Estas etiquetas describen el formato de las imágenes almacenadas, que pueden ser
de distinta naturaleza:
• Binarias (blanco y negro), adecuadas para textos, por ejemplo.
• Niveles de gris, adecuadas para imágenes de tonos continuos como fotos
en blanco y negro.
• Paleta de colores, adecuadas para almacenar diseños gráficos con un
número limitado de colores.
• Color real, adecuadas para almacenar imágenes de tono continuo, como
fotos en color.

Compresión
Las etiquetas también describen el tipo de compresión aplicado a cada imagen,
que puede ser:
• Sin compresión
• PackBits
• Huffman modificado, el mismo que las imágenes de fax (UIT grupo III y
IV anteriormente CCITT).
• LZW, el mismo que usa el formato GIF.
• JPEG

Almacenamiento
Hay también etiquetas que especifican el formato interno de almacenamiento de la
imagen: completas, por bandas o por secciones rectangulares, lo cual permite a muchas
aplicaciones optimizar los tiempos de carga o leer únicamente la zona de interés de una
imagen grande.
Un aspecto muy práctico del formato TIFF es que permite almacenar más de una
imagen en el mismo archivo.
Un mito que ha de desterrarse es la idea de que el formato TIFF no permite
comprimir las imágenes. No obstante, algunas cámaras fotográficas digitales ofrecen la
opción de grabar fotos en el formato TIFF, lo cual suele entenderse como sin
compresión.
El formato TIFF admite opcionalmente el sistema de compresión sin pérdida de
calidad, el conocido como LZW (Lempel-Ziv-Welch).

Creadores y Dueños
El formato TIFF fue desarrollado por la desaparecida Aldus y Microsoft, y es
actualmente propiedad de Adobe Systems. La última revisión del formato es la número
6, del año 1992. Hay algunas extensiones, como las anotaciones que utiliza el Imaging
de Microsoft, pero ninguna puede considerarse estándar.
Otras Aplicaciones
El uso de las etiquetas permite también crear extensiones para finalidades de
sectores concretos, como el GeoTIFF, utilizado con fines cartográficos.

TARGA (TGA)
El formato TGA (TrueVision Targa) es un formato gráfico de mapa de bits
desarrollado por la empresa Truevision para las tarjetas Targa y Vista, válido para PC y
MAC, que permite guardar imágenes monocromáticas (2 bits) y con diferentes niveles
de profundidad de color (8, 16, 24 y 32 bits), utilizando o no una paleta gráfica. Puede
trabajar en Escala Grises, Color Indexado, RGB (16 y 24 bits sin canales alfa) y RGB
de 32 bits (un solo canal alfa).

Permite almacenar los archivos comprimidos o sin comprimir, aunque la mayoría de


programas que lo soportan solo pueden abrir archivos TGA sin compresión, siendo
entonces el que el peso de los ficheros es muy elevado.
Este formato está especialmente indicado para retocar diseños profesionales que se
vayan a reproducir en pantalla, debido a que la amplia gama de colores produce un
efecto muy realista y sumamente elaborado. También es muy útil cuando se trabaja con
escáneres de alta calidad y para la exportación de imágenes a edición profesional vídeo.
Sin embargo, en impresión es poco usado, ya que con profundidades de color de 16 bits
o menos las imágenes pierden detalles.
Las principales desventajas de este formato son el tamaño de los archivos, que
ocupan bastante más espacio que otros formatos de igual calidad, y que no guarda
muchos detalles a veces necesarios, como la resolución que soporta.
Video
El video (o vídeo en España), hace referencia a la captación, procesamiento,
transmisión y reconstrucción por medios electrónicos de una secuencia de imágenes y
sonidos que representan escenas en movimiento. Etimológicamente la palabra video
proviene del verbo latino videre, y significa "yo veo".
La tecnología de video fue desarrollada por primera vez para los sistemas de
televisión, pero se ha reforzado en muchos formatos para permitir la grabación de video
de los consumidores y que además el video puede ser visto a través de Internet.
En algunos países se llama así también a una grabación de imágenes y sonido en
cinta magnética o en disco de láser (DVD), aunque con la aparición de estos últimos
dicho término se identifica generalmente con las grabaciones anteriores en cinta
magnética, del tipo VHS.
Inicialmente la señal de video está formada por un número de líneas agrupadas en
varios cuadros y estos a la vez divididos en dos campos portan la información de luz y
color de la imagen. El número de líneas, de cuadros y la forma de portar la información
del color depende del estándar de televisión concreto. La amplitud de la señal de video
es de 1Vpp estando la parte de la señal que aporta la información de la imagen por
encima de 0V y las de singronismos por debajo el nivel de 0V. La parte positiva puede
llegar hasta 0,7V para el nivel de blanco, correspondiendo a 0V el negro y los
sincronismos son pulsos que llegan hasta -0,3V. En la actualidad hay multitud de
estandares diferentes, especialmente en el ámbito informático.

Partes de la señal de video analógica


La señal de video consta de lo que se llama luminancia y crominancia, y de los
sincronismos. La amplitud se sitúa entre los -0,3V del nivel inferior del sincronismo
hasta los 0,7V que corresponde al blanco. La señal propia es la referida a la luminancia
con los sincronismos, a esta se le añade la señal de crominancia, con su sincronia
propia, la salva de color, de tal forma que la crominancia monta encima de la
luminancia.
El ancho de banda de la señal de luminancia suele ser del orden de 5MHz pero
depende del sistema empleado. La crominancia es una señal modulada en cuadratura, es
decir en amplitud y en fase). La portadora se le denomina subportadora de color y es
una frecuencia próxima a la parte alta de la banda, en PAL es de 4,43Mhz,
evidentemente esta frecuencia tiene relación con el resto de frecuencias fundamentales
de la señal de video que están referenciadas a la frecuencia de campo que toma como
base, por cuestiones históricas, la frecuencia de la red de suministro eléctrico, 50Hz en
Europa y 60Hz en muchas partes de América.

Información de la imagen
La imagen esta formada por luz y color; la luz define la imagen en blanco y negro
(es la información que se utiliza en sistemas de blanco y negro) y a esta parte de la señal
de video se le llama luminancia.
Existen estándares diferentes para la codificación del color, NTSC (utilizado en
casi toda América, dependencias estadounidenses, Corea, Japón y Myanmar), SECAM
(Francia, sus dependencias y ex colonias; mayoría de Rusia) y PAL (resto de Europa;
Argentina, Brasil, Groenlandia y Uruguay en América; mayoría de África, Asia y
Oceanía).
Sincronismos
En lo referente a los sincronismos se distinguen tres clases, de línea u
horizontales, de campo o verticales y los referentes al color.
Los sincronismos de línea indican donde comienza y acaba cada línea de las que
se compone la imagen de video; se dividen en, pórtico anterior, pórtico posterior y pulso
de sincronismo.
Los sincronismos verticales son los que nos indican el comiezo y el final de cada
campo. Están compuestos por los pulsos de igualación anterior, pulsos de sincronismo,
pulsos de igualación posterior y líneas de guarda (donde en la actualidad se inserta el
teletexto y otros servicios).

Barras de color EBU vistas en un MFO y un vectoscopio.

La frecuencia de los pulsos de sincronismo depende del sistema de televisión: en


América (con excepción de Argentina y Uruguay que siguen la norma europea) se usa
frecuencia de línea (número de líneas) de 525 líneas por cuadro (y 60 campos por
segundo), mientras que en Europa se utilizan 625 líneas por cuadro (312,5 por cada uno
de los dos campos en la exploración entrelazada), a una frecuencia de 15.625Hz, y 50
campos por segundo, (25 cuadros). Estas cifras se derivan de la frecuencia de la red
eléctrica en la que antiguamente se enganchaban los osciladores de los receptores.
En lo referente al color, en todos los estándares se modula una portadora con la
información del color. En NTSC y PAL lo que se hace es una modulación en amplitud,
para la saturación, y en fase, para el tinte, lo que se llama modulación en cuadratura. El
sistema PAL alterna la 180º en cada línea la fase de la portadora para compensar
distorsiones de la transmisión. El sistema SECAM modula cada componente del color
en las respectivas líneas.

Descripción de videos

Los estándares de vídeo analógico en todo el mundo NTSC PAL o


cambiando a PAL SECAM Sin información.

El término video se refiere comúnmente a varios formatos: los formatos de video


digital, incluyendo DVD, QuickTime, DVC y MPEG-4, y las cintas de vídeo analógico,
incluyendo VHS y Betamax. El video se puede grabar y transmitir en diversos medios
físicos: en cinta magnética cuando las cámaras de video registran como PAL o NTSC
señales analógicas, o cuando las cámaras graban en medios digitales como MPEG-4 o
DVD.
La calidad del vídeo depende esencialmente del método de captura y de
almacenamiento utilizado. La televisión digital (DTV) es un formato relativamente
reciente con mayor calidad que los primeros formatos de la televisión y se ha convertido
en un estándar para la televisión. El video 3D, video digital en tres dimensiones,
estrenado a finales del siglo XX. Para capturar secuencias de vídeo en 3D se utilizan
normalmente seis u ocho cámaras con medición en tiempo real de la profundidad. El
formato de video 3D se fija en MPEG-4 Parte 16 Animation Framework eXtension
(AFX).
En el Reino Unido, Australia, Países Bajos y Nueva Zelanda, el término video se
utiliza a menudo informalmente para referirse a las grabadoras de video y a las cintas de
vídeo más destacadas el sentido normalmente se desprende del contexto.

Características de los flujos de video


Número de imágenes por segundo
Velocidad de carga de las imágenes: número de imágenes por unidad de tiempo de
vídeo, para viejas cámaras mecánicas cargas de seis a ocho imágenes por segundo (fps)
o 120 imágenes por segundo o más para las nuevas cámaras profesionales. Los
estándares PAL (Europa, Asia, Australia, etc) y SECAM (Francia, Rusia, partes de
África, etc) especifican 25 fps, mientras que NTSC (EE.UU., Canadá, Japón, etc)
especifica 29,97 fps. El cine es más lento con una velocidad de 24fps, lo que complica
un poco el proceso de transferir una película de cine a video. Para lograr la ilusión de
una imagen en movimiento, la velocidad mínima de carga de las imágenes es de unas
quince imágenes por segundo.

Entrelazado
El video puede ser entrelazado o progresivo. El entrelazado fue inventado como
un método de lograr una buena calidad visual dentro de las limitaciones de un estrecho
ancho de banda. Las líneas entrelazadas de cada imagen están numeradas
consecutivamente y divididas en dos campos: el campo impar (campo superior), que
consiste en las líneas de los números impares y el campo pares (casilla inferior), que
consiste en las líneas de los números pares. NTSC, PAL y SECAM son formatos
entrelazados. Las especificaciones abreviadas de la resolución de video a menudo
incluyen una "i" para indicar entrelazado. Por ejemplo, el formato de video PAL es a
menudo especificado como 576i50, donde 576 indica la línea vertical de resolución, "i"
indica entrelazado, y el 50 indica 50 campos (la mitad de imágenes) por segundo.
En los sistemas de barrido progresivo, en cada período de refresco se actualizan
todas las líneas de exploración. El resultado es una mayor percepción de la resolución y
la falta de varios artefactos que pueden formar parte de una imagen estacionaria
aparentemente en movimiento o que parpadea. Un procedimiento conocido como
desentrelazado puede ser utilizado para transformar el flujo entrelazado, como el
analógico, el de DVD, o satélite, para ser procesado por los dispositivos de barrido
progresivo, como el que se establece en los televisores TFT, los proyectores y los
paneles de plasma. El desentrelazado no puede, sin embargo, producir una calidad de
video equivalente al material de barrido progresivo real.
Resolución de video

Comparación de resoluciones de TV
El tamaño de una imagen de video se mide en píxeles para video digital, o en
líneas de barrido horizontal y vertical para video analógico. En el dominio digital, (por
ejemplo DVD) la televisión de definición estándar (SDTV) se especifica como
720/704/640 × 480i60 para NTSC y 768/720 × 576i50 para resolución PAL o SECAM.
Sin embargo, en el dominio analógico, el número de líneas activas de barrido sigue
siendo constante (486 NTSC/576 PAL), mientras que el número de líneas horizontal
varía de acuerdo con la medición de la calidad de la señal: aproximadamente 320
píxeles por línea para calidad VCR, 400 píxeles para las emisiones de televisión, y 720
píxeles para DVD. Se conserva la relación de aspecto por falta de píxeles "cuadrados".
Los nuevos televisores de alta definición (HDTV) son capaces de resoluciones de
hasta 1920 × 1080p60, es decir, 1920 píxeles por línea de barrido por 1080 líneas, a 60
fotogramas por segundo. La resolución de video en 3D para video se mide en voxels
(elementos de volumen de imagen, que representan un valor en el espacio
tridimensional). Por ejemplo, 512 × 512 × 512 voxels, de resolución, se utilizan ahora
para video 3D simple, que pueden ser mostrados incluso en algunas PDA.

Relación de aspecto

Comparación de la relación de aspecto entre cinematografía común y la televisión


tradicional (verde).
La relación de aspecto se expresa por la anchura de la pantalla en relación a la
altura. El formato estándar hasta el momento en que se comenzó con la estandarización
de la televisión de Alta resolución tenía una relación de aspecto de 4/3. El adoptado es
de 16/9. La compatibilidad entre ambas relaciones de aspecto se puede realizar de
diferentes formas.
Una imagen de 4/3 que se vaya a ver en una pantalla de 16/9 puede presentarse de
tres formas diferentes:
• Con barras negra verticales a cada lado (letterbox). Manteniendo la
relación de 4/3 pero perdiendo parte de la zona activa de la pantalla.
• Agrandando la imagen hasta que ocupe toda la pantalla horizontalmente.
Se pierde parte de la imagen por la parte superior e inferior de la misma.
• Deformando la imagen para adaptarla la formato de la pantalla. Se usa
toda la pantalla y se ve toda la imagen, pero con la geometría alterada (los
círculos se ven elipses con el diámetro mayor orientado de derecha a izquierda).
Una imagen de 16/9 que se vaya a ver en una pantalla de 4/3, de forma similar,
tiene tres formas de verse:
• Con barras horizontales arriba y abajo de la imagen (letterbox). Se ve
toda la imagen pero se pierde tamaño de pantalla (hay varios formatos de
letterbox dependiendo de la parte visible de la imagen que se vea (cuanto más
grande se haga más se recorta), se usan el 13/9 y el 14/9).
• Agrandando la imagen hasta ocupar toda la pantalla verticalmente,
perdiéndose las partes laterales la imagen.
• Deformando la imagen para adaptarla a la relación de aspecto de la
pantalla. se ve toda la imagen en toda la pantalla, pero con la geometría alterada
(los círculos se ven elipses con el diámetro mayor orientado de arriba a abajo).

Espacio de color y bits por píxel

Ejemplo de color U-V plano, valor de Y=0.5

El nombre del modelo del color describe la representación de color de vídeo. El


sistema YIQ se utilizó en la televisión NTSC. Se corresponde estrechamente con el
sistema YUV utilizado en la televisión NTSC y PAL; y con el sistema YDbDr utilizado
por la televisión SECAM. El número de colores distintos que pueden ser representados
por un pixel depende del número de bits por pixel (bpp). Una forma de reducir el
número de bits por píxel en vídeo digital se puede realizar por submuestreo de croma
(por ejemplo, 4:4:4, 4:2:2, 4:2:0).

Calidad de video
La calidad de video se puede medir con métricas formales como PSNR o
subjetivas con calidad de video usando la observación de expertos. La calidad de video
subjetiva de un sistema de procesamiento de video puede ser evaluada como sigue:
• Elige las secuencias de video (el SRC) a usar para la realización del test.
• Elige los ajustes del sistema a evaluar (el HRC).
• Elige un método de prueba para presentar las secuencias de video a los
expertos y recopilar su valoración.
• Invita a un número suficiente de expertos, preferiblemente un número no
menor de 15.
• Realiza las pruebas.
• Calcula la media para cada HRC basándote en la valoración de los
expertos.
Hay muchos métodos de calidad de video subjetiva descritos en la recomendación
BT.500. de la ITU-T. Uno de los métodos estandarizados es el Double Stimulus
Impairment Scale (DSIS). En este método, cada experto ve una referencia intacta del
video seguida de una versión dañada del mismo video. El experto valora entonces el
video dañado utilizando una escala que va desde “los daños son imperceptibles” hasta
“los daños son muy molestos”.
Método de compresión de video (sólo digital)
Se usa una amplia variedad de métodos para comprimir secuencias de video. Los
datos de video contienen redundancia temporal y espacial, lo que hace que las
secuencias de video sin comprimir sean extremadamente ineficientes. En términos
generales, se reduce la redundancia espacial registrando diferencias entre las partes de
una misma imagen (frame); esta tarea es conocida como compresión intraframe y está
estrechamente relacionada con la compresión de imágenes. Así mismo, la redundancia
temporal puede ser reducida registrando diferencias entre imágenes (frames); esta tarea
es conocida como compresión interframe e incluye la compensación de movimiento y
otras técnicas. Los estándares modernos más comunes son MPEG-2, usado para el DVD
y la televisión por satélite, y MPEG-4 usado para los sistemas de video “caseros”.

Tasa de bits (sólo digital)


La tasa de bits es una medida de la tasa de información contenida en un flujo o
secuencia de video. La unidad en la que se mide es bits por segundo (bit/s o bps) o
también Megabits por segundo (Mbit/s o Mbps). Una mayor tasa de bits permite mejor
calidad de video. Por ejemplo, el VideoCD, con una tasa de bits de cerca de 1Mbps,
posee menos calidad que un DVD que tiene una tasa de alrededor de 20Mbps. La VBR
(Variable Bit Rate – Tase de Bits Variable) es una estrategia para maximizar la calidad
visual del video y minimizar la tasa de bits. En las escenas con movimiento rápido, la
tasa variable de bits usa más bits que los que usaría en escenas con movimiento lento
pero de duración similar logrando una calidad visual consistente. En los casos de video
streaming en tiempo real y sin buffer, cuando el ancho de banda es fijo (por ejemplo en
videoconferencia emitida por canales de ancho de banda constante) se debe usar CBR
(Constant Bit Rate – Tasa de Bits Constante).

Estereoscópico
El video estereoscópico requiere o bien dos canales (un canal derecho para el ojo
derecho y un canal izquierdo para el izquierdo) o dos capas recubiertas codificadas por
colores. Esta técnica de capa izquierda y derecha se usa ocasionalmente en redes de
difusión o en recientes lanzamientos “anaglyph” de películas 3D en DVD. Unos
cristales de plástico rojo/cyan proporcionan la forma de ver las imágenes discretamente
para formar una vista estereoscópica del contenido. Los nuevos discos HD DVD y blu-
ray mejorarán en gran medida el efecto 3D en los programas estéreo codificados por
colores. Los primeros reproductores HD disponibles comercialmente se esperaba que
debutaran en el NAB Show de abril del 2006 en Las Vegas.

Formatos de video

Estándares de dispositivos de vídeo Estándares de conectores de vídeo


Nuevos digitales: • Vídeo compuesto (1 RCA o BNC)
o ATSC (USA, Canadá, etc.) • Vídeo componentes (3 RCA o BNC)
o DVB-T (Europa, Broadcast de Video o D4 video connector (nuevo para
Digital) HDTV)
o ISDB-T (Japón, Servicios Digitales • S-Video (para Vídeo Separado, 1
Integrados de Broadcast) mini-DIN)
Antiguos analógicos: • SCART Euroconector / Peritel (usado
o MAC (Europa - Obsoleta) en Europa)
o MUSE (Japón-analog HDTV) • DVI (sólo video no comprimido).
o NTSC (USA, Canadá, Japón, HDCP opcional
etc.) • HDMI (video y audio no
o PAL (Europa, Asia, Australia, etc.) comprimido). HDCP mandato.
 PALplus (extensión • RFs (para Radio-Frecuencia conector
PAL.Solo en Europa) coaxial)
 PAL-M (variación de PAL. o BNC (Bayonet Niell-Concelman)
Brasil) o conector C (conector Concelman)
o SECAM (FranciA, ex-URSS, Africa o conector GR (conector General
Central) Radio)
o conector F (usado para instalaciones
domésticas de TV en EE.UU.)
o IEC 169-2 (IEC connector, usado
habitualmente en Gran Bretaña)
o conector N (conectorNiell)
o TNC connector (Threaded Niell-
Concelman)
o UHF (e.g. PL-259/SO-239)
o SDI y HD-SDI
• VGA (DB-9/15 or mini sub D15)
• Mini-VGA (usado por ordenadores
portátiles)
Moving Picture Experts Group
El Moving Picture Experts Group (Grupo de Expertos en Imágenes Móviles)
referido comúnmente como MPEG, es un grupo de trabajo del ISO/IEC encargado de
desarrollar estándares de codificación de audio y vídeo. Su primera reunión fue en
Mayo de 1988 en Ottawa, Canadá. Desde su primera reunión, el MPEG ha crecido hasta
incluir 350 miembros de distintas industrias y universidades. La designación oficial del
MPEG es ISO/IEC JTC1/SC29 WG11.
MPEG ha normalizado los siguientes formatos de compresión y normas auxiliares:
• MPEG-1: estándar inicial de compresión de audio y vídeo. Usado
después como la norma para CD de vídeo, incluye popular formato de
compresión de audio Capa 3 (MP3).
• MPEG-2: normas para audio y vídeo para difusión de calidad de
televisión. Utilizado para servicios de TV por satélite como DirecTV (Cadena
estadounidense de televisión vía satélite de difusión directa), señales de
televisión digital por cable y (con ligeras modificaciones) para los discos de
vídeo DVD.
• MPEG-3: diseñado originalmente para HDTV (Televisión de Alta
Definición), pero abandonado posteriormente en favor de MPEG-2.
• MPEG-4: expande MPEG-1 para soportar "objetos" audio/vídeo,
contenido 3D, codificación de baja velocidad binaria y soporte para gestión de
derechos digitales (protección de copyright).
• MPEG-7: sistema formal para la descripción de contenido multimedia
• MPEG-21: MPEG describe esta norma futura como un "marco
multimedia".

Cómo funciona MPEG


El MPEG utiliza códecs (codificadores-decodificadores) de compresión con bajas
pérdidas de datos usando códecs de transformación.
En los códecs de transformación con bajas pérdidas, las muestras tomadas de
imagen y sonido son troceadas en pequeños segmentos, transformadas en espacio-
frecuencia y cuantificadas. Los valores cuantificados son luego codificados
entrópicamente.
Los sistemas de codificación de imágenes en movimiento, tal como MPEG-1,
MPEG-2 y MPEG-4, añaden un paso extra, donde el contenido de imagen se predice,
antes de la codificación, a partir de imágenes reconstruidas pasadas y se codifican
solamente las diferencias con estas imágenes reconstruidas y algún extra necesario para
llevar a cabo la predicción.
MPEG solamente normaliza el formato del flujo binario y el descodificador. El
codificador no está normalizado en ningún sentido, pero hay implementaciones de
referencia, para los miembros, que producen flujos binarios válidos.

MPEG-1

MPEG-1 es el nombre de un grupo de estándares de codificación de audio y vídeo


normalizados por el grupo MPEG (Moving Pictures Experts Group). MPEG-1 vídeo se
utiliza en el formato Video CD. La calidad de salida con la tasa de compresión usual
usada en VCD es similar a la de un cassette vídeo VHS doméstico. Para el audio, el
grupo MPEG definió el MPEG-1 audio layer 3 más conocido como MP3.
MPEG-1 está conformado por diferentes partes:
1. Sincronización y transmisión simultánea de vídeo y audio.
2. Códec de compresión para señales de vídeo no entrelazadas
(progresivas).
3. Códec de compresión para señales de audio con control sobre la tasa de
compresión. El estándar define tres capas (layers en inglés), o niveles de
complejidad de la codificación de audio MPEG.
1. MP1 o MPEG-1 Parte 3 Capa 1 (MPEG-1 Audio Layer 1)
2. MP2 o MPEG-1 Parte 3 Capa 2 (MPEG-1 Audio Layer 2)
3. MP3 o MPEG-1 Parte 3 Capa 3 (MPEG-1 Audio Layer 3)
4. Procedimientos para verificar la conformidad.
5. Software de referencia.

MPEG-4
MPEG-4, introducido a finales de 1998, es el nombre de un grupo de estándares
de codificación de audio y video así como su tecnología relacionada normalizada por el
grupo MPEG (Moving Picture Experts Group) de ISO/IEC. Los usos principales del
estándar MPEG-4 son los flujos de medios audiovisuales, la distribución en CD, la
transmisión bidireccional por videófono y emisión de televisión.
MPEG-4 toma muchas de las características de MPEG-1 y MPEG-2 así como de
otros estándares relacionados, tales como soporte de VRML (Virtual Reality Modeling
Language) extendido para Visualización 3D, archivos compuestos en orientación a
objetos (incluyendo objetos audio, vídeo y VRML), soporte para la gestión de Derechos
Digitales externos y variados tipos de interactividad.
La mayoría de las características que conforman el estándar MPEG-4 no tienen
que estar disponibles en todas las implementaciones, al punto que es posible que no
existan implementaciones completas del estándar MPEG-4. Para manejar esta variedad,
el estándar incluye el concepto de perfil (profile) y nivel, lo que permite definir
conjuntos específicos de capacidades que pueden ser implementados para cumplir con
objetivos particulares.

Partes de MPEG-4
MPEG-4 está formado por varios estándares, llamados "partes", que incluyen:
• Parte 1 (ISO/IEC 14496-1): Sistemas: Describe la sincronización y la
transmisión simultánea de audio y vídeo.
• Parte 2 (ISO/IEC 14496-2): Visual: Un códec de compresión para
elementos visuales (video, texturas, imágenes sintéticas, etc.). Uno de los
muchos perfiles definidos en la Parte 2 es el Advanced Simple Profile (ASP).
• Parte 3 (ISO/IEC 14496-3): Audio: Un conjunto de códecs de
compresión para la codificación de flujos de audio; incluyen variantes de
Advanced Audio Coding (AAC) así como herramientas de codificación de audio
y habla.
• Parte 4 (ISO/IEC 14496-4): Conformidad: Describe procedimientos para
verificar la conformidad de otras partes del estándar.
• Parte 5 (ISO/IEC 14496-5): Software de referencia: Formado por
elementos de software que demuestran y clarifican las otras partes del estándar.
• Parte 6 (ISO/IEC 14496-6): Delivery Multimedia Integration Framework
(DMIF).
• Parte 7 (ISO/IEC 14496-7): Software optimizado de referencia: Contiene
ejemplos sobre como realizar implementaciones optimizadas (por ejemplo, en
relación con la Parte 5).
• Parte 8 (ISO/IEC 14496-8): Transporte sobre redes IP: Especifica un
método para transportar contenido MPEG-4 sobre redes IP.
• Parte 9 (ISO/IEC 14496-9): Hardware de referencia: Provee diseños de
hardware que demuestran implementaciones de otras partes del estándar.
• Parte 10 (ISO/IEC 14496-10): Advanced Video Coding (AVC): Un
códec de señales de vídeo técnicamente idéntico al estándar ITU-T H.264.
• Parte 12 (ISO/IEC 14496-12): Formato para medios audiovisuales
basado en ISO: Un formato de archivos para almacenar contenido multimedia.
• Parte 13 (ISO/IEC 14496-13): Extensiones para el manejo y protección
de Propiedad Intelectual (IPMP).
• Parte 14 (ISO/IEC 14496-14): Formato de archivo MPEG-4: El formato
de archivo de contenedor designado para contenidos MPEG-4; basado en la
Parte 12.
• Parte 15 (ISO/IEC 14496-15): Formato de archivo AVC: Para el
almacenamiento de vídeo Parte 10, basado en la Parte 12.
• Parte 16 (ISO/IEC 14496-16): Animation Framework eXtension (AFX).
• Parte 17 (ISO/IEC 14496-17): Formato de subtítulos (en elaboración - el
último avance en su revisión data de enero de 2005).
• Parte 18 (ISO/IEC 14496-18): Compresión y transmisión como flujo de
fuentes tipográficas (para fuentes OpenType).
• Parte 19 (ISO/IEC 14496-19): Flujos de texturas sintetizadas.
• Parte 20 (ISO/IEC 14496-20): Representación liviana de escenas
(LASeR).
• Parte 21 (ISO/IEC 14496-21): Extensión de MPEG-J para rendering (en
elaboración - el último avance en su revisión data de enero de 2005).
También es posible definir perfiles a nivel de las partes, dado que una
implementación de una parte no necesariamente contiene toda esa parte.

MPEG-2
No se debe confundir con MPEG-1 Audio Capa 2
Moving Pictures Experts Group 2 (MPEG-2), es la designación para un grupo
de estándares de codificación de audio y vídeo acordado por MPEG (grupo de expertos
en imágenes en movimiento), y publicados como estándar ISO 13818. MPEG-2 es por
lo general usado para codificar audio y vídeo para señales de transmisión, que incluyen
televisión digital terrestre, por satélite o cable. MPEG-2. Con algunas modificaciones,
es también el formato de codificación usado por los discos SVCD´s y DVD`s
comerciales de películas.
MPEG-2 es similar a MPEG-1, pero también proporciona soporte para vídeo
entrelazado (el formato utilizado por las televisiones.) MPEG-2 vídeo no está
optimizado para bajas tasas de bits (menores que 1 Mbit/s), pero supera en desempeño a
MPEG-1 a 3 Mbit/s y superiores.
MPEG-2 introduce y define Flujos de Transporte, los cuales son diseñados para
transportar vídeo y audio digital a través de medios impredecibles e inestables, y son
utilizados en transmisiones televisivas. Con algunas mejoras, MPEG-2 es también el
estándar actual de las transmisiones en HDTV. Un descodificador que cumple con el
estándar MPEG-2 deberá ser capaz de reproducir MPEG-1.
MPEG-2 audio, definido en la Parte 3 del estándar, mejora a MPEG-1 audio al
alojar la codificación de programas de audio con más de dos canales. La parte 3 del
estándar admite que sea hecho retro-compatible, permitiendo que descodificadores
MPEG-1 audio puedan descodificar la componente estéreo de los dos canales maestros,
o en una manera no retro-compatible, la cual permite a los codificadores hacer un mejor
uso del ancho de banda disponible. MPEG-2 soporta varios formatos de audio,
incluyendo MPEG-2 AAC.

El Estándar MPEG-2
Información general acerca de MPEG-2 Video y MPEG-2 Audio excluyendo las
modificaciones cuando es usado en DVD / DVB.
Un Flujo de Sistema MPEG-2 típico consta de dos elementos:
video data + time stamps audio data + time stamps

Codificación de vídeo MPEG-2 (simplificado)


MPEG-2 es para la codificación genérica de imágenes en movimiento y el audio
asociado que crea un flujo de vídeo mediante tres tipos de datos de marco (cuadros
intra, cuadros posteriores predecibles y cuadros predecibles bi-direccionales) arreglados
en un orden específico llamado “La estructura GOP”(GOP = Group Of Pictures o grupo
de imágenes).
Generalmente el material originado es una secuencia de vídeo a una resolución de
píxeles pre-fijada a 25 o 29,97 cuadros por segundo con sonido.
MPEG-2 admite flujos de vídeo escaneado de manera tanto progresiva como
entrelazada. En flujos de escaneo progresivo, la unidad básica de codificación es un
campo. En la discusión de abajo, los términos genéricos “cuadro” e “imagen” se
refieren tanto a los campos o cuadros, dependiendo del tipo de flujo.
El flujo MPEG-2 esta hecho de una serie de cuadros de imágenes codificadas. Las
tres maneras de codificar una imagen son: intra-codificado (I cuadro), predecible
posterior (P cuadro) y predecible bi-direccional (B cuadro).
La imagen del vídeo es separada en dos partes: luminancia (Y) y croma (también
llamada señales de diferencia de color U y V) a su vez, son divididos en “Macro-
bloques” los cuales son la unidad básica dentro de una imagen. Cada macro-bloque es
dividido en cuatro 8X8 bloques de luminancia. el número de bloques de croma 8X8´s
depende del formato de color de la fuente. Por ejemplo en el formato común 4:2:0 hay
un bloque de croma por macro-bloque por cada canal haciendo un total de seis bloques
por macro-bloque.
En el caso de los cuadros I, la verdadera información de imagen pasada a través
del proceso codificador descrito abajo, los cuadros P y B primero son sujetos a un
proceso de “compensación de movimiento”, en el cual son co-relacionados con la
imagen previa (y en el caso del cuadro B, la siguiente). Cada macro-bloque en la
imagen P o B es entonces asociada con un área en la imagen previa o siguiente que este
bien correlacionada con alguna de éstas. El "vector de movimiento" que mapea el
macro-bloque con su área correlacionada es codificado, y entonces la diferencia ente las
dos áreas es pasada a través del proceso de codificación descrito abajo. Cada bloque es
procesado con una transformada coseno discreta (DCT) 8X8 . El coeficiente DCT
resultante es entonces cuantificado de acuerdo a un esquema predefinido, reordenado a
una máxima probabilidad de una larga hilera de ceros, y codificado. Finalmente, se
aplica un algoritmo de codificación Huffman de tabla fija.
Los cuadros I codifican redundancia espacial, mientras que los cuadros B y P
codifican redundancia temporal. Debido a que los marcos adyacentes son a menudo
bien co-relacionados, los cuadros P pueden ser del 10% del tamaño de un cuadro I, y el
cuadro B al 2% de su tamaño.
La secuencia de diferentes tipos de marcos es llamada“la estructura de grupos de
imágenes” (GOP). Hay muchas estructuras posibles pero una común es la de 15 marcos
de largo, y tiene la secuencia I_BB_P_BB_P_BB_P_BB_P_BB_. Una secuencia similar
de 12 marcos es también común. La relación de cuadros I, P y B en “la estructura GOP
es determinado por la naturaleza del flujo de vídeo y el ancho de banda que constriñe el
flujo, además el tiempo de codificación puede ser un asunto importante. Esto es
particularmente cierto en las transmisiones en vivo y en ambientes de tiempo real con
Fuentes de cómputo limitados, un flujo que contenga varios cuadros B puede tomar tres
veces más tiempo para codificar que un archivo que sólo contenga cuadros I.
La tasa de bit de salida de un codificador MPEG-2 puede ser constante (CBR) o
variable (VBR), con un máximo determinado por el reproductor – por ejemplo el
máximo posible en un DVD de película es de 10.4 Mbit/s. Para lograr una tasa de bits
constante el grado de cuantificación es alterado para lograr la tasa de bits requerida.
Incrementar la cuantificación hace visible un defecto cuando el vídeo es descodificado,
Generalmente en la forma de “amosaicamiento”, donde las discontinuidades en los filos
de los macro-bloques se hace más visible como reducción de la tasa de bits.

Codificación de audio MPEG-2.


MPEG-2 además introduce nuevos métodos de codificación de audio. Éstos son:
Baja tasa de bits de codificación con tasas de muestreo divididas (MPEG-1 capa
1/2/3 LSF) Codificación multi-canal hasta 6 canales (5.1)

MPEG-2 En SVCD
Restricciones adicionales y modificaciones de MPEG-2 en SVCD:
• Resolución
o 480 x 480 píxeles NTSC (USA, Japón)
o 480 x 576 píxeles PAL (Europa)
• Relación de aspecto
o 4:3
• Tasa de fotogramas
o 59.94 campos/s, 29.97 fotogramas/s (NTSC)
o 50 campos/s, 25 fotogramas/s (PAL) )
• Tasa de bits de audio + vídeo
o Pico 2.52 Mbit/s
o Mínimo 300 Kbit/s
o YUV 4:2:0
• Audio
o MPEG-1 capa 2 (MP2): 44.1KHz, 224 Kbit/s, Estéreo
• Estructura GOP
o Debe salir secuencia de Encabezado para cada GOP
o No hay límite máximo de GOP

MPEG-2 En DVD
Restricciones adicionales y modificaciones de MPEG-2 en DVD:
Resolución de Video:
• NTSC (USA, Japón) Pixels
o 720 x 480
o 704 x 480
o 352 x 480
o 352 x 240
• PAL (Europa) Pixels
o 720 x 576
o 704 x 576
o 352 x 576
o 352 x 288
• Relación de aspecto
o 4:3
o 16:9
• Tasa de fotogramas
o 59.94 campos/s
o 50 campos/s
o 23.976 fotogramas/s (con banderas de 3:2)
o 29.97 fotogramas/s (NTSC)
o 25 fotogramas/s (PAL)
• Audio:
o Linear Pulse Code Modulation(Código de Pulsos Modulado
Lineal = LPCM): 48KHz o 96KHz, 16 bit, 2 canales(Estéreo)
o MPEG-1 Capa 2 (MP2): 48KHz, hasta 7.1 canales (requerido en
reproductores PAL)
o Dolby Digital (DD): 48KHz, 448 kbit/s, hasta 5.1 canales
o Digital Theater Systems (Sistema de Teatro Digital = DTS): 754
kbit/s o 1510 kbit/s (no requerido para cumplir con el reproductor)
o Debe haber al menos una pista de audio que no sea DTS (ni MP2
para NTSC)
• Tasa de bits de audio + vídeo:
o Buffer máximo promedio de 9.8 Mbit/s
o Pico 15 Mbit/s
o Mínimo 300 Kbit/s
o YUV 4:2:0
• Posibilidad de subtítulos opcionales
o Closed captioning (solo en NTSC)
• Estructura GOP
o Debe salir secuencia de Encabezado para cada GOP
o 18 marcos máximos por GOP
o Closed GOP requerido para DVDs multi ángulo

MPEG-2 en DVB
Restricciones y modificaciones adicionales para DVB-MPEG.
Restringido a una de las siguientes resoluciones:
• 720 × 480 píxel, 24/1.001, 24, 30/1.001 o 30 fotogramas/s
• 640 × 480 píxel, 24/1.001, 24, 30/1.001 o 30 fotogramas/s
• 544 × 480 píxel, 24/1.001, 24, 30/1.001 o 30 fotogramas/s
• 480 × 480 píxel, 24/1.001, 24, 30/1.001 o 30 fotogramas/s
• 352 × 480 píxel, 24/1.001, 24, 30/1.001 o 30 fotogramas/s
• 352 × 240 píxel, 24/1.001, 24, 30/1.001 o 30 fotograma/ss
• 720 × 576 píxel, 25 fotogramas/s
• 544 × 576 píxel, 25 fotogramas/s
• 480 × 576 píxel, 25 fotogramas/s
• 352 × 576 píxel, 25 fotogramas/s
• 352 × 288 píxel, 25 fotogramas/s
• 352 × 576 píxel, 25 fotogramas/s
• 352 × 288 píxel, 25 fotogramas/s
MPEG-2 en ATSC y ISDB-T
Restringido a una de las siguientes resoluciones
• 1920 × 1080 píxeles, hasta 60 campos/s (1080i)
• 1280 × 720 píxeles, hasta 60 cuadros/s (720p)
• 720 × 576 píxeles, hasta 50 campos/s, 25 fotogramas/s (576i, 576p)
• 720 × 480 píxeles, hasta 60 campos/s, 30 fotogramas/s (480i, 480p)
• 640 × 480 píxeles, hasta 60 fotogramas/s
Nota: 1080i está codificado con cuadros de 1920×1088 píxeles, sin embargo las
últimas 8 líneas se descartan antes de ser mostradas.

Standards MPEG-2
• ISO/IEC 13818-1 Sistema - describe sincronización y multiplexado de
vídeo y audio.
• ISO/IEC 13818-2 Video - Códec(codificador/decodificador) compresor
para señales de vídeo entrelazado y no entrelazado.
• ISO/IEC 13818-3 Audio - Códec(codificador/decodificador) compresor
de señales de audio. Una extension habilitada multicanal de MPEG-1 audio
(MP3).
• ISO/IEC 13818-4 Describe maniobras de prueba de cumplimiento(del
estándar).
• ISO/IEC 13818-5 Describe sistemas para simulación por Software.
• ISO/IEC 13818-6 Describe extensiones para DSM-CC (Comando Digital
de herramientas de almacenamiento y control)
• ISO/IEC 13818-7 codificación avanzada de audio. (AAC)
• ISO/IEC 13818-9 Extension para interfaces en tiempo real.
• ISO/IEC 13818-10 conformidad con extensiones para DSM-CC.

Retenedores de patente
Aproximadamente 640 patentes mundiales conforman la propiedad intelectual
completa que rodea a MPEG-2, éstas están retenidas por alrededor de 20 corporaciones
y una universidad:
• Alcatel
• Canon, Inc.
• Columbia University
• France Télécom (CNET)
• Fujitsu
• General Electric Capital Corporation
• General Instrument Corp.
• GE Technology Development, Inc.
• Hitachi, Ltd.
• KDDI Corporation (KDDI)
• Lucent Technologies
• LG Electronics Inc.
• Matsushita
• Mitsubishi
• Nippon Telegraph and Telephone Corporation (NTT)
• Philips
• Robert Bosch GmbH
• Samsung
• Sanyo Electric Co. Ltd.
• Scientific Atlanta (hoy parte de Cisco Systems)
• Sharp
• Sony
• Thomson Licensing S.A.
• Toshiba
• Victor Company of Japan, Limited (JVC)
Reproductor de Windows Media

Windows Media Player


Desarrollador Microsoft
Última 11 (8 de noviembre de 2006)
versión
Última 12 (12 de diciembre de 2008)
versión en pruebas
S.O. Windows XP / Windows Vista
Género Reproductor multimedia
Licencia Microsoft EULA
En español Sí
Sitio web www.microsoft.com/windows/...

Windows Media Player, Reproductor Multimedia de Windows o


Reproductor de Windows Media (abreviado frecuentemente WMP) es un reproductor
multimedia creado por la empresa Microsoft el 11 de octubre de 2003.
Se han lanzado varias versiones del reproductor. La versión 11 es la última
existente, que se incluye con Windows Vista, pudiendo ser instalada también para
Windows XP. Para marzo de 2008, llega la Beta 1 y 2 de la versión 12.0.
El WMP permite reproducir diversos formatos digitales: Audio CD, DVD-Video,
DVD-Audio, WMA (Windows Media Audio), WMV (Windows Media Video), MP3,
MPG y AVI, aunque el programa depende de códecs de terceros para estos formatos y
muchos más.
Incluye acceso a video en formato digital en servidores de pago. También da la
posibilidad de traspasar canciones de un CD al disco duro de la computadora y
viceversa. Además, busca en Internet los nombres de las canciones y álbumes, además
muestra la carátula del disco del cual provienen dichas canciones.
Otra función que potencia su uso es la Biblioteca de Windows Media, que permite
la creación de listas de reproducción, administración de la música y edición de las
etiquetas avanzadas, por ejemplo, se puede incluir la letra de la canción sincronizada
para que se vea cuando se reproduzca.

Características
•Modo de máscara, que permite utilizar pieles o máscaras (del inglés
skins) para cambiar la apariencia del programa.
• Permite incrustarse en la barra de tareas de Windows, mostrando los
botones de reproducción más comunes. Las ventanas pueden exhibir
información, visualización o el vídeo.
• Compatibilidad con la versión más reciente de DirectX.
• Soporte para todo tipo de codecs usando filtros específicos de DirectX.
• Ecualizador gráfico de 10 bandas.
• Compatibilidad con Efectos SRS WOW
• Uso de plug-ins que procesan la salida audio o vídeo.
• URGE - Tienda musical propiedad Microsoft y MTV networks
integrados (disponible solo en algunos países).
Versiones

Sistemas
Versión Fecha Comentarios
operativos

25 de junio
6.1 Windows
de 1998

Todavía disponible en Windows


22 de XP en Ejecutar... y escribir
Windows
6.4 noviembre "C:\Archivos de
95/98/NT4.0
de 1998 programa\Windows Media
Player\mplayer2.exe"

abril de
1.2 Palm-size PC
2000

julio de
1.0 Handheld PC
2000

17 de julio
6.3 Mac OS, Solaris
de 2000

17 de
Windows
7.0 julio de
98/2000
2000

Distribuida junto con el sistema


14 de
operativo. Cambio visual y
7.0 septiembre Windows Me
organización de las funciones en
de 2000
fichas, soporta máscaras.

12 de
7.0 diciembre Pocket PC
de 2000

24 de julio
7.0.1 Mac OS
de 2001

25 de Distribuida junto con el sistema


8.0 octubre de Windows XP operativo (Windows XP, con
2001 soporte para máscaras.)

8 de enero
7.1 Mac OS
de 2002

Pocket PC 2002,
junio de
8.0 Smartphone
2002
2002
27 de enero Windows
9.0
de 2003 98/Me/2000

Windows
23 de junio Mobile 2003
9.0
de 2003 (Pocket PC,
Smartphone)

7 de
9.0 noviembre Mac OS X
de 2003

Distribuida junto con el SP2 de


las ediciones Home y
Professional del sistema
operativo (Windows XP
10 de agosto Home/Professional SP2), con
9.0 Windows XP
de 2004 cambios en el diseño y
compatible con servicios de
descargas de música.
Es posible cambiar el color del
reproductor.

Distribuida junto con la edición


Media Center 2005 del sistema
operativo (Windows XP Media
12 de Center 2005 Edition). Un cambio
10.0 octubre de Windows XP profundo en la interfaz,
2004 calificación en las pistas, cambios
en las barras de menús,
compatible con ipod; las fichas se
encuentran en el área superior

Windows
9 de mayo Mobile 5.0 Distribuida junto con el sistema
10.0
de 2005 (Pocket PC, operativo .
Smartphone)

8 de
Windows XP, Distribuida junto con el sistema
11.0 noviembre
Windows Vista operativo (Windows Vista).
de 2006

En desarrollo
12.0 para Windows Distribuido con el sistema
13 de marzo
(Beta 1, RC u XP, Windows operativo en desarrollo Windows
de 2008
otras) Vista, Windows 7.
7

Windows Media Player 9.x puede ser instalado en Windows 98 SE, Windows
2000, Windows ME, así como en cualquier versión de Windows XP. Sin embargo, para
instalar Windows Media Player 10 y superiores es necesario tener instalado Windows
XP.
La versión para Mac OS X ha perdido el soporte oficial recientemente al igual que
muchos otros productos de Microsoft.

Windows Media Player 11 y actualmente el resto de las versiones a partir de la


6.0 requieren una validación previa de Microsoft Windows original para poder ser
instaladas.

Windows Media Player 11


La versión 11 es la más reciente de este reproductor, la cual está disponible tanto
para Windows XP (solo SP2 y SP3) así como Windows Vista; pero en este sistema, es
algo diferente. Esta nueva versión ofrece muchos cambios. Oculta el "Abrir archivo..."
ya que el maneja mayormente por drag & drop (para añadir elementos a la lista se
arrastran directamente desde el explorador o la biblioteca). Imágenes faltantes se puede
agregar directamente arrastrando la imagen elegida desde el Explorador de Windows.
Las entradas de vídeo demuestran sus miniaturas. Es compatible con WMA Pro 10
mediante actualizaciones.

Polémica
La Unión Europea ha luchado burocráticamente por medio de multas y
negociaciones para que se separe esta aplicación de la instalación básica de Microsoft
Windows, ya que al ir en conjunto perjudica el mercado de reproductores multimedia
para dicho sistema operativo.
Por ese motivo se han lanzado dos nuevas versiones de Windows Vista, Windows
Vista Home N y Windows Vista Business N tal y como sucedió con Windows XP.

Enlaces externos
• Reproductor de Windows Media, página oficial del Windows Media
Player, versión 10.
• Sitio web oficial de Windows Media Player 11.
AVI

Audio Video Interleave


Extensión de archivo .avi
Desarrollado por Microsoft
Contenedor para Audio, Video
Contenido por microsoft

AVI (inglés: Audio Video Interleave, 'intercalado de audio y video' ) es un formato


de archivo contenedor de audio y vídeo lanzado por Microsoft en 1992.

Breve reseña histórica


El formato AVI fue definido por Microsoft para su tecnología Video for Windows
en 1992. Posteriormente fue mejorado mediante las extensiones de formato del grupo
OpenDML de la compañía Matrox. Estas extensiones están soportadas por Microsoft,
aunque no de manera oficial, y son denominadas AVI 2.0.

Cómo funciona
El formato avi permite almacenar simultáneamente un flujo de datos de video y
varios flujos de audio. El formato concreto de estos flujos no es objeto del formato AVI
y es interpretado por un programa externo denominado códec. Es decir, el audio y el
video contenidos en el AVI pueden estar en cualquier formato (AC3/DivX, u
MP3/Xvid, entre otros). Por eso se le considera un formato contenedor.
Para que todos los flujos puedan ser reproducidos simultáneamente es necesario
que se almacenen de manera entrelazada. De esta manera, cada fragmento de archivo
tiene suficiente información como para reproducir unos pocos fotogramas junto con el
sonido correspondiente.
Obsérvese que el formato AVI admite varios flujos de datos de audio, lo que en la
práctica significa que puede contener varias bandas sonoras en varios idiomas. Es el
reproductor multimedia quien decide cuál de estos flujos debe ser reproducido, según
las preferencias del usuario.
Los archivos AVI se dividen en fragmentos bien diferenciados denominados
chunks. Cada chunk tiene asociado un identificador denominado etiqueta FourCC. El
primer fragmento se denomina cabecera y su papel es describir meta-información
respecto al archivo, por ejemplo, las dimensiones de la imagen y la velocidad en
fotogramas por segundo. El segundo chunk contiene los flujos entrelazados de audio y
video. Opcionalmente, puede existir un tercer chunk que actúa a modo de índice para el
resto de chunks.

Cómo se reproduce un archivo AVI


Para reproducir un archivo AVI es necesario lo siguiente:
• Un reproductor de video capaz de interpretar el formato AVI.
• El códec de video para interpretar el flujo de video.
• El códec de audio para interpretar el flujo de audio.
La etiqueta FourCC permite identificar el códec necesario para interpretar un flujo
de audio o video. Cada codec tiene asociados el conjunto de etiquetas que es capaz de
reproducir. De esta manera, el reproductor de video es capaz de elegir el codec
pertinente sin intervención del usuario.
El reproductor consecutivamente lee fragmentos del archivo AVI. Después separa
cada uno de los flujos de audio y video que se encuentran entrelazados en el archivo.
Cada uno de estos flujos, una vez separados, se almacenan en un buffer de memoria y se
pasan al codec correspondiente. El códec de video devuelve otro buffer que contiene
cada uno de los fotogramas a reproducir. El códec de audio retorna otro buffer con la
muestra digital de sonido a reproducir. Con esta información, el reproductor solamente
tiene que sincronizar los fotogramas y el sonido y reproducirlos a la velocidad
adecuada.
En el sistema operativo Mac OS es perfectamente posible visualizar archivos AVI,
siempre que los codecs utilizados estén soportados por quicktime, bien directamente o a
través de plugins. Existen otros reproductores de archivos multimedia para esta
plataforma que también permiten visualizar correctamente archivos AVI.
QuickTime

Icono de QuickTime
QuickTime es la arquitectura multimedia estándar desarrollada por Apple que
consiste en un conjunto de bibliotecas y un reproductor multimedia (QuickTime player).
En su versión 7 es compatible con el estándar MPEG-4. Existe una versión Pro que
añade diversas funcionalidades como la edición de vídeo y codificación a variados
formatos como AVI, MOV, MP4. Con la versión Pro, también es posible grabar audio
con un micrófono conectado al ordenador. En los Mac, aparte de grabar audio, es
posible grabar vídeo. (esto puede ser posible con cámaras como la iSight)
QuickTime no es sólo un reproductor, sino un sistema multimedia completo capaz
de reproducir, y en casos transmitir, contenidos de alta calidad en Internet y otros
dispositivos, además de todo Quicktime es llamado "navaja suiza de edición de vídeo",
por ello Apple ha decidido incorporar las nuevas tecnologías MPEG-4 de vídeo de alta
definición, además de todo esto Apple anunció la salida de un nuevo códec llamado
H.264 o conocido también como AVC (Advanced Video Coding) o Codificación de
Vídeo Avanzada que permite contenidos muy nítidos superiores al estándar de DVD,
DivX y otros formatos de alta calidad.
A fecha de 2007 se encuentra disponible para los sistemas operativos Windows y
Mac OS X. Muchas distribuciones GNU/Linux pueden usar QuickTime mediante
programas escritos originalmente para ellas como Mplayer.

Historia
La primera versión de QuickTime fue lanzada el 2 de diciembre de 1991 com un
complemento multimedia para el System Software 6. El desarrollador jefe de
Quicktime, Bruce Leak, llevo a cabo la primera demostración pública en mayo de 1991
Worldwide Developers Conference. Microsoft reacciono con Video for Windows que
fue publicada en noviembre de 1992

Formatos soportados
• Audio
o Apple Lossless 1 y 2
o Audio Interchange (AIFF)
o Audio CD (CDA)
o Interfaz de instrumentos musicales MIDI
o MPEG-1 Layer 3 Audio (.mp3)
o MPEG-4 AAC Audio (.m4a,.m4b,.m4p)
o QDesign Music
o Qualcomm PureVoice (QCELP)
o Sun AU Audio
o ULAW/ALAW Audio
o (WAV)
o (Advanced Audio Coding) ^AAC
• Video
o 3GPP & 3GPP2
o Video AVI
o DV video (DV NTSC/PAL and DVC Pro NTSC/PAL codecs)
o Flash y FlashPix (animaciones web)
o GIF y GIF animados
o H.261, H.263, y H.264 codecs
o JPEG, Photo JPEG, y JPEG-2000 codecs
o MPEG-1, MPEG-2, y MPEG-4
o Quartz Composer Composition (solo Mac OS X )
o QuickTime Movie (.mov)
o video mac: Apple Video, Cinepak, Component Video, Graphics,
y Planar RGB

QuickTime platform compatibility


Macintosh
OS Última versión
System 6.0.0-System 6.0.6 1.x or 2.x? [cita requerida]
System 6.0.7-System 7.0.1 2.5
(68K) System 7.1-8.1 4.0.3
(PPC) System 7.1.2-[System 7.5.3] 4.0.3
(PPC) System 7.5.5-8.5.1 5.0.5
Mac OS 8.6-9.2.2 6.0.3
Mac OS 10.0.4 5.0 (bundled)
Mac OS 10.1.5 6.3.1
Mac OS 10.2.8 6.5.3
Mac OS 10.3.9 7.4 (current)
Mac OS 10.4.11 7.4 (current)
Mac OS 10.5.1 7.4 (current)

Windows
OS Ultima versión
Windows 3.1x/Windows NT 3.1-3.5 2.1.2
Windows NT 3.51 2.1.2
Windows 95 5.0.5
Windows NT 4.0 6.1
Windows 98/ME 6.5.2
Windows 2000 7.1.6
Windows XP/2003/Vista 7.4.1 (6 feb 2008)
3GP
3GP (3rd Generation Partnership, en español Asociación de Tercera
Generación), es un contenedor multimedia (o formato de archivos) usado por teléfonos
móviles para almacenar información de multimedios (audio y video). Este formato de
archivo es una versión simplificada del "ISO 14496-1 Media Format", que es similar al
formato de Quicktime. 3GP guarda video como MPEG-4 o H.263. El audio es
almacenado en los formatos AMR-NB o AAC-LC.
Este formato guarda los valores como big-endian.
Las especificaciones abarcan las redes GSM, incluyendo a las capacidades GPRS
y EDGE, y W-CDMA.

Software
Reproducción
• MPlayer
• VLC media player ( reproduce el sonido, según el codec de audio
utilizado, por ejemplo el mp4a si que lo reproduce pero SAMR en Linux no)
• Totem
• Media Player Classic
• The KMPlayer
• QuickTime
• Realplayer
• GOM Player

Codificación/Decodificación
• MEncoder
• FFmpeg
Códec
Códec es una abreviatura de Compresor-Decompresor. Describe una
especificación desarrollada en software, hardware o una combinación de ambos, capaz
de transformar un archivo con un flujo de datos (stream) o una señal. Los códecs pueden
codificar el flujo o la señal (a menudo para la transmisión, el almacenaje o el cifrado) y
recuperarlo o descifrarlo del mismo modo para la reproducción o la manipulación en un
formato más apropiado para estas operaciones. Los códecs son usados a menudo en
videoconferencias y emisiones de medios de comunicación.
La mayor parte de códecs provoca pérdidas de información para conseguir un
tamaño lo más pequeño posible del archivo destino. Hay también codecs sin pérdidas
(lossless), pero en la mayor parte de aplicaciones prácticas, para un aumento casi
imperceptible de la calidad no merece la pena un aumento considerable del tamaño de
los datos. La excepción es si los datos sufrirán otros tratamientos en el futuro. En este
caso, una codificación repetida con pérdidas a la larga dañaría demasiado la calidad.
Muchos archivos multimedia contienen tanto datos de audio como de vídeo, y a
menudo alguna referencia que permite la sincronización del audio y el vídeo. Cada uno
de estos tres flujos de datos puede ser manejado con programas, procesos, o hardware
diferentes; pero para que estos streams sean útiles para almacenarlos o transmitirlos,
deben ser encapsulados juntos. Esta función es realizada por un formato de archivo de
vídeo (contenedor), como.mpg,.avi,.mov,.mp4,.rm,.ogg,.mkv o.tta. Algunos de estos
formatos están limitados a contener streams que se reducen a un pequeño juego de
codecs, mientras otros son usados para objetivos más generales.
Un endec es un concepto similar (pero no idéntico) para el hardware.

Los codecs de vídeo más usados actualmente son:

Sin Compresión: aunque no es muy normal usar vídeo sin comprimir, es de los
que pueden ofrecernos la máxima calidad posible, ya que no sufre ninguna alteración.
Su gran problema: el peso excesivo de los archivos.

DV: si tienes una cámara MiniDV y capturas vídeo mediante el firewire, verás
que debes hacerlo con su propio codec que es el DV, una vez terminada la captura ya
puedes comprimirlo como quieras. Dos horas de video DV con calidad similar a la del
DVD, ronda cerca de los 15Gbytes de disco duro, destacar que este codec solo
comprime el vídeo, el audio lo trata sin comprimir.
MPEG: el formato MPEG (Moving Picture Experts Group) es un estándar para
compresión de vídeo y de audio. Al ser creado se establecieron cuatro tipos: MPEG-1,
MPEG-2, MPEG-3, y MPEG-4. Cada uno de ellos según su calidad y ancho de banda
usado. De aquí nace el popular formato MP3 para audio.
Principalmente, ofrece tres ventajas: compatibilidad mundial, gran compresión y poca
degradación de la imagen. El estándar no especifica cómo se debe hacer la compresión.
Los diferentes fabricantes luchan para determinar el mejor algoritmo, manteniendo
siempre la compatibilidad. Además, una cadena MPEG se compone de tres capas:
audio, video y una capa a nivel de sistema. Esta última incluye información sobre
sincronización, tiempo, calidad, etc.

Xvid. Ha nacido como alternativa a las versiones de pago de DivX Networks, es


de código libre y está en constante mejora. La calidad es similar o mayor que DivX. Se
puede manejar igual que un divx.
Divx. Basado en la compresión mpeg-4. Se consiguen tamaños muy pequeños
de archivo y calidad excelente. Almacena información en aproximadamente 1/10 parte
de como lo hace un dvd, conservando gran parte de la calidad de éste. Es el que más se
asemeja a la calidad que nos ofrece un dvd. Puede aceptar resoluciones muy altas, y es
el más extendido de todos los formatos de video.

RatDVD. (real advanced technology Digital Versatile Disc) es un tipo de


archivo altamente comprimido con capacidad para almacenar todos los contenidos de
una película en DVD. ratDVD toma una película DVD-9 completa de 4,5 GB y la
convierte en un sólo archivo de formato .ratDVD de aproximadamente 1 GB de tamaño.
Actualmente sólo está disponible para el Sistema Operativo Microsoft Windows. Sitio
oficial RatDVD en español http://www.ratdvd-hispano.com/

Vcd. Basado en la compresión mpeg-1. Su gran ventaja es la compatibilidad con


la práctica totalidad de lectores dvd de sobremesa. Su punto débil es la calidad, similar
al vhs.
Su resolución es de 352x288 y el número de kilobits por segundo es de 1150, está
orientado a meter la mayor cantidad de película en el menor espacio posible (80 minutos
en un cd de 700 mb). Derivados de este formato serían el cvcd y el kvcd que permiten
más cantidad de película en un cd, (en el kvcd hasta 110 minutos con una resolución
352x576 y hasta 145 con una resolución de 352x288) se pueden llegar a meter más de 2
horas, eso si, resintiéndose bastante la calidad.

Svcd. Basado en la compresión mpeg-2. Al contrario del anterior su punto débil


es que no son tan compatibles como el vcd con los reproductores de dvd, aunque cada
vez son más los que los reproducen. Su ventaja es la calidad superior al vhs. Su
resolución es de 480x576 y el número de kilobits por segundo 2520. Este formato está
orientado a meter mayor calidad en la película, aunque lo normal es meter las películas
en 2 cd´s. Derivado de este formato sería el cvd (no confundir con vcd) con una
resolución de 352x576.
Los formatos kvcd, ksvcd.... tienen el problema de que modifican unos
parámetros que pocos reproductores de dvd soportan, aunque en teoría dan algo más de
calidad para el mismo tamaño y bitrate, pero quizás eso no compense la menor
compatibilidad con muchos reproductores de sobremesa.

También podría gustarte