Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Marco Teórico
Dada una fuente “S” que emite mensajes, resulta frecuente observar que los
mensajes emitidos no resulten equiprobables, sino que tienen una cierta
probabilidad de ocurrencia dependiendo del mensaje. Para codificar los mensajes
de una fuente intentaremos pues utilizar menor cantidad de bits para los mensajes
más probables y mayor cantidad de bits para los mensajes menos probables, de
forma tal que el promedio de bits utilizados para codificar los mensajes sea menor
a la cantidad de bits promedio de los mensajes originales. Esta es la base de la
compresión de datos.
A este tipo de fuente se la denomina fuente sin memoria, pues la probabilidad de
ocurrencia de un mensaje no depende de los mensajes anteriores. Definimos la
probabilidad de ocurrencia de un mensaje en una fuente como la cantidad de
apariciones de dicho mensaje dividido entre el total de mensajes. Supongamos que
Pi es la probabilidad de ocurrencia del mensaje-i de una fuente, y supongamos que
Li es la longitud del código utilizado para representar a dicho mensaje. La longitud
promedio de todos los mensajes codificados de la fuente se puede obtener como:
La longitud mínima con la cual puede codificarse un mensaje puede calcularse como
Li=log2(1/Pi)=-log2(Pi). Esto da una idea de la longitud a emplear en los códigos a
usar para los caracteres de un archivo en función de su probabilidad de ocurrencia.
Reemplazando Li podemos escribir H como: