Está en la página 1de 25

1

Codificación con pérdidas

1. Introducción

En la codificación sin perdidas solo importa la longitud media (la rata) del código, sin
embargo en la codificación con pérdidas importa también la perdida de información. En
la ilustración 1 se muestra un sistema de comunicaciones en donde se tiene una fuente
de información que entrega un alfabeto 𝑿 y una fuente de reconstrucción con un alfabeto
𝒀 diferente al alfabeto 𝑿 debido a que en la codificación se introdujeron pérdidas o en el
proceso de transmisión se cometieron errores.

Ilustración 1: Diagrama de bloques de un esquema de compresión genérico.

Hay un compromiso entre la compresión de la rata y la pérdida de información.

En la codificación sin pérdidas la señal reconstruida es idéntica a la secuencia original


esto implica sin embargo que la compresión de la rata es limitada (máximo la entropía).

Esto es aceptable cuando se tienen suficientes recursos (De almacenamiento o de ancho


de banda de transmisión) o cuando la pérdida de información es más costosa que estos
recursos extras necesarios para almacenamiento o transmisión (por Ejemplo en los
bancos).

Si no se da ninguna de estas dos situaciones, entonces es posible que sea aceptable la


codificación con pérdida de información. En esta codificación se establece un parámetro
de desempeño adicional a la compresión de la rata, denominado la distorsión que es la
diferencia entre la información original y la reconstruida.

Hay dos casos extremos:

 Cuando la rata es cero (compresión máxima de la rata) obviamente la


distorsión es máxima.
 Cuando la distorsión es cero entonces la compresión de la rata es mínima.

El estudio de las situaciones intermedias se denomina la teoría rata-distorsión.


2

1.1. Criterios de distorsión

La medida de la cercanía o fidelidad de la fuente de reconstrucción con respecto a la


fuente de información dependerá de qué es lo que está siendo comprimido y de quien
responde, ejemplos:

 Música
 Voz
 Imágenes artísticas

Esto genera problemas de subjetividad que son difíciles de modelar matemáticamente.

Hay dos medidas de la distorsión que son populares:

 El error al cuadrado:

𝒅(𝒙, 𝒚) = (𝒙 − 𝒚)𝟐

Esto conduce a una medida del error promedio llamada el error cuadrático medio (o
varianza del error),

𝑵
𝝈𝟐𝒅 = (𝟏⁄𝑵) ∑ (𝒙𝒏 − 𝒚𝒏 )𝟐
𝒏=𝟏

Y a definir la relación señal a ruido,

𝑺⁄𝑵 = 𝝈𝟐𝒙 ⁄𝝈𝟐𝒅

 El valor absoluto del error:

𝒅(𝒙, 𝒚) = |𝒙 − 𝒚|

Lo que permite calcular el promedio de la magnitud del error,

𝑵
𝒅𝟏 = (𝟏⁄𝑵) ∑ |𝒙𝒏 − 𝒚𝒏 |
𝒏=𝟏

En algunas situaciones la distorsión no es perceptible salvo que supere algún umbral en


cuyo caso interesa el valor máximo de la magnitud del error.

Las medidas del error no proporcionan necesariamente una buena indicación de la


perceptibilidad de la distorsión.

Una alternativa es hallar un modelo matemático de la percepción humana, trasladar


tanto la salida de la fuente como la reconstrucción a ese dominio y medir la diferencia en
ese espacio perceptual.
3

Problemas:

 El proceso de percepción humana es muy difícil de modelar


 Si se pudiera determinar un modelo de percepción este sería tan complejo
que sería muy difícil de tratar matemáticamente.

Debe ampliarse la cantidad de modelos debido a que,

 Debe investigarse como añadir distorsión inteligentemente.


 Algunas fuentes son análogas en naturaleza y por lo tanto los esquemas
de compresión requieren de modelos que expliquen más precisamente la
naturaleza verdadera de las fuentes.

1.2. El sistema visual humano

El sistema visual humano tiene dos niveles:

1.2.1. Nivel periférico:

Este nivel está constituido por el ojo, el cual convierte la luz en señales neuronales. Su
estructura mostrada en la ilustración 2 está bastante bien conocida.

Ilustración 2: Sistema visual humano

Partes del ojo:

 Córnea: Es la membrana que da forma al ojo.


 Humor acuoso: Líquido entre la córnea y la lente.
 Iris: Da el color a los ojos. Funciona como diafragma.
 Pupila: Centro del iris.
 Lente: enfoca las imágenes en la retina.
 Humor vítreo: Llena el interior del ojo.
 Retina: Convierte las imágenes en señales neurológicas. Contiene las siguientes
células:
4

o Conos:
 Proporcionan información de color.
 Los hay sensibles al rojo, al verde y al azul.
 Aportan la visión espacial (cada cono tiene una conexión directa al
cerebro).
 Sólo sensibles con altos niveles de iluminación (𝑣𝑖𝑠𝑖ó𝑛
𝑓𝑜𝑡ó𝑝𝑖𝑐𝑎). Con bajos niveles de iluminación no se distinguen los
colores.
 Hay 6 millones en la retina distribuidos por toda ella.
o Punto ciego:
 de donde parte el nervio óptico.
 No tiene células sensibles.
o Bastones:
 Proporcionan información de brillo.
 Aportan la visión a bajos niveles de iluminación (𝑣𝑖𝑠𝑖ó𝑛
𝑒𝑠𝑐𝑜𝑡ó𝑝𝑖𝑐𝑎).
 No aportan información espacial.
 Varios bastones comparten la misma fibra en el nervio óptico, lo
que produce el efecto de ‘𝑖𝑛ℎ𝑖𝑏𝑖𝑐𝑖ó𝑛 𝑙𝑎𝑡𝑒𝑟𝑎𝑙’ (ver
http://www.eloftalmologobarcelona.com/2010/12/la-percepcion-
visual-iii.html).
 Hay cien millones en la retina.
o Fóvea:
 Es la zona central en la retina.
 Donde se enfoca la parte de la imagen que se ‘mira’.
 Contiene la casi totalidad de los conos (Esto les da mayor
resolución espacial ya que están muy concentrados).
 También se conoce como la mancha amarilla.

1.2.2. Nivel central:


 Constituido por el nervio óptico y el cerebro.
 Procesa las señales neuronales y las convierte en información visual.
 Su funcionamiento es casi totalmente desconocido.

1.2.3. Características del sistema visual:

Algunas características del sistema visual las impone el ojo y otras son debidas al cerebro.
De entre los comportamientos más importantes conviene mencionar las siguientes:

 Con bajos niveles de iluminación:

 Hay un desplazamiento de la curva de sensibilidad al brillo (ilustración 3)


 A más bajos niveles no se aprecia el color
5

Ilustración 3: Desplazamiento de la curva de sensibilidad al brillo en función de la


iluminación.

 Bandas de Mach:
 Consiste en un efecto de “sobre oscilación”.(ilustraciones 4 y 5)
 Efecto de aumento de contraste

Ilustración 4: Variación de la sensación de brillo en función del contenido de gris.

Ilustración 5: Bandas de Mach. La ilusión de las bandas de Mach hace que a)


aparezcan falsamente zonas más oscuras en las bandas más oscuras en contacto con
bandas más claras. “Bandas” ilusorias que enfatizan los límites, y b) aparezcan
falsamente zonas más claras en contacto con bandas más oscuras.

 Ley de Weber: Si un estímulo crece en progresión geométrica, la percepción


evolucionará en progresión aritmética.
6

 El ojo es sensible a la luz en un rango muy grande de intensidades (rango


dinámico de 𝟏𝟎𝟏𝟎 ) pero normalmente no opera en ese rango sino que se adapta
al promedio de brillantez.
 Si se ilumina una pantalla con una cierta intensidad y se agrega una mancha
con una diferencia de brillo esta será visible cuando la relación entre la
intensidad de la pantalla y la de la mancha tienen un valor del orden de 𝟎. 𝟎𝟐
(𝒋𝒖𝒔𝒕 𝒏𝒐𝒕𝒊𝒄𝒆𝒂𝒃𝒍𝒆 𝒅𝒊𝒇𝒇𝒆𝒓𝒆𝒏𝒄𝒆) esta razón se llama la fracción de Weber
y se mantiene constante en un rango amplio de intensidades en ausencia de
iluminación de fondo.
 Si se agrega iluminación de fondo el rango de intensidad en el que la fracción
de Weber se mantiene constante se hace relativamente pequeño.
 Como la fracción se mantiene constante se puede inferir que la sensibilidad
del ojo a la intensidad de iluminación es logarítmica 𝒅(𝒍𝒐𝒈(𝑰)) = 𝒅𝑰⁄𝑰 y
por tanto el ojo se puede modelar como un receptor cuya salida va a una
alinealidad logarítmica.

 Enmascaramiento Visual espacial:


 Reducción visual de un estímulo cuando en su entorno hay grandes
variaciones de luminancia.
 Hace que el ruido se aprecie mejor en zonas planas que en zonas de detalle.
 El SVH tiende reconocer con mayor facilidad las zonas de una imagen que
tienen formas sencillas o forman texturas, frente a otras que no son más
complejas (como el “ruido”). Gracias a esto existen los 𝐶𝐴𝑃𝑇𝐶𝐻𝐴s
(𝐶𝑜𝑚𝑝𝑙𝑒𝑡𝑒𝑙𝑦 𝐴𝑢𝑡𝑜𝑚𝑎𝑡𝑒𝑑 𝑃𝑢𝑏𝑙𝑖𝑐 𝑇𝑢𝑟𝑖𝑛𝑔 𝑇𝑒𝑠𝑡 𝑡𝑜 𝑇𝑒𝑙𝑙 𝐶𝑜𝑚𝑝𝑢𝑡𝑒𝑟𝑠
𝑎𝑛𝑑 𝐻𝑢𝑚𝑚𝑎𝑛𝑑𝑠 𝐴𝑝𝑎𝑟𝑡), imágenes que esconden la información poniendo
caracteres sobre fondos ruidosos. Ejemplos:
7

Ilustración 6: Formas en presencia de ruido.

 Enmascaramiento visual temporal:


 Gran pérdida de resolución espacial cuando hay cambio en las escenas.
 Se tarda 𝟎. 𝟓 𝒔𝒆𝒈𝒖𝒏𝒅𝒐𝒔 en recuperar la resolución estática.
 El SVH necesita un tiempo concreto para percibir la aparición de una
determinada región de una imagen que antes no existía. Por ejemplo, en un
partido de futbol, cuando miramos el balón o a los jugadores, no apreciamos
la textura del césped que acaba de aparecer en la imagen actual respecto de
una imagen anterior, hasta que no transcurre un cierto tiempo
 𝑭𝒍𝒊𝒄𝒌𝒆𝒓:
 La visión de una luz parpadeante deja de serlo si el número de parpadeos es
elevado.
 La frecuencia del parpadeo para no notar ‘temblor’ es:
o Mayor cuanto mayor es el tamaño de la pantalla.
o Mayor cuanto mayor es la iluminación ambiente.
o Mayor cuanto mayor es el brillo emitido por la pantalla.
 Se deja de notar el 𝒇𝒍𝒊𝒄𝒌𝒆𝒓 a partir de 𝟓𝟎 a 𝟏𝟎𝟎 𝑯𝒛.
 Sensación de movimiento:
 Es el número de imágenes por segundo para que el ojo tenga ‘Sensación de
movimiento continuo’.
 Se tiene sensación de movimiento continuo a partir de 𝟏𝟐 o
𝟏𝟓 𝒊𝒎á𝒈𝒆𝒏𝒆𝒔 𝒑𝒐𝒓 𝒔𝒆𝒈𝒖𝒏𝒅𝒐.

También se conoce que el ojo actúa como un 𝒇𝒊𝒍𝒕𝒓𝒐 𝒆𝒔𝒑𝒂𝒄𝒊𝒂𝒍 𝒑𝒂𝒔𝒂 𝒃𝒂𝒋𝒂𝒔. Esto lleva
a un modelo simple del ojo como el mostrado en la ilustración 7.
8

Ilustración 7: Un modelo de visión monocromática

1.3. La percepción auditiva

Ver http://www.eumus.edu.uy/eme/ensenanza//acustica/apuntes/SistemaAuditivo.pdf

El oído tiene tres partes (ver ilustración 8):

1. El 𝒐í𝒅𝒐 𝒆𝒙𝒕𝒆𝒓𝒏𝒐, está encargado de llevar las ondas de presión al 𝒕í𝒎𝒑𝒂𝒏𝒐.


2. El 𝒐í𝒅𝒐 𝒎𝒆𝒅𝒊𝒐 está lleno de aire y tiene tres bastones
(𝒎𝒂𝒓𝒕𝒊𝒍𝒍𝒐, 𝒚𝒖𝒏𝒒𝒖𝒆 𝒚 𝒆𝒔𝒕𝒓𝒊𝒃𝒐) que acoplan el tímpano con la 𝒗𝒆𝒏𝒕𝒂𝒏𝒂 𝒐𝒗𝒂𝒍,
los cuales llevan las vibraciones hacia el oído interno.
3. En el 𝒐í𝒅𝒐 𝒊𝒏𝒕𝒆𝒓𝒏𝒐 se encuentra la cóclea que tiene terminaciones nerviosas que
convierten las vibraciones en 𝒊𝒎𝒑𝒖𝒍𝒔𝒐𝒔 𝒏𝒆𝒓𝒗𝒊𝒐𝒔𝒐𝒔.

Ilustración 8: Sistema auditivo humano.


9

El sistema auditivo tiene las siguientes características de interés:

 El oído puede captar señales entre 𝟐𝟎 𝑯𝒛 y 𝟐𝟎 𝒌𝑯𝒛, pero este rango decrece con la
edad.
 Tiene algunas 𝒏𝒐 𝒍𝒊𝒏𝒆𝒂𝒍𝒊𝒅𝒂𝒅𝒆𝒔:

 El cambio percibido de volumen es logarítmico.


 El volumen captado depende tanto de la 𝑰𝒏𝒕𝒆𝒏𝒔𝒊𝒅𝒂𝒅 como de la
𝒇𝒓𝒆𝒄𝒖𝒆𝒏𝒄𝒊𝒂 (mayor sensibilidad a unas frecuencias que a otras).
 Se presenta enmascaramiento en donde un sonido bloquea la percepción
de otro sonido pero solo en un rango de frecuencias cercano al del sonido
bloqueado (𝒃𝒂𝒏𝒅𝒂 𝒄𝒓í𝒕𝒊𝒄𝒂).
 Para la mayoría de las frecuencias la razón de potencias entre el sonido
bloqueado y el 𝑒𝑛𝑚𝑎𝑠𝑐𝑎𝑟𝑎𝑑𝑜𝑟 en la banda crítica es constante.
 𝑳𝒂 𝒂𝒏𝒄𝒉𝒖𝒓𝒂 𝒅𝒆 𝒍𝒂 𝒃𝒂𝒏𝒅𝒂 𝒄𝒓í𝒕𝒊𝒄𝒂 cambia con la frecuencia, lo cual
conduce a modelar la percepción auditiva como un
𝒃𝒂𝒏𝒄𝒐 𝒅𝒆 𝒇𝒊𝒍𝒕𝒓𝒐𝒔 𝒑𝒂𝒔𝒂 𝒃𝒂𝒏𝒅𝒂.
10

2. Canales e información mutua


2.1. Introducción

En lo que sigue se supone que el proceso de codificación con pérdidas se puede asimilar
al proceso de transmisión de información por un canal en el que se producen errores en
la transmisión de tal manera que se hablará indistintamente de canal de información o
codificador con pérdidas.

2.2. Canal de información

Definición: Un canal de información como el mostrado en la ilustración 𝟗 viene


determinado por un alfabeto de entrada 𝑨 = {𝒂𝒊 } 𝒊 = 𝟏, 𝟐, ⋯ , 𝒓, un alfabeto de salida
𝑩 = {𝒃𝒋 } 𝒋 = 𝟏, 𝟐, ⋯ , 𝒔; y un conjunto de probabilidades condicionales 𝑷(𝒃𝒋 /𝒂𝒊 ).

Ilustración 9: componentes de un canal de información

Este canal puede representarse mediante un 𝒅𝒊𝒂𝒈𝒓𝒂𝒎𝒂 𝒅𝒆 𝒕𝒓𝒂𝒏𝒔𝒊𝒄𝒊ó𝒏 o mediante


una tabla o matriz de 𝒑𝒓𝒐𝒃𝒂𝒃𝒊𝒍𝒊𝒅𝒂𝒅𝒆𝒔 𝒄𝒐𝒏𝒅𝒊𝒄𝒊𝒐𝒏𝒂𝒍𝒆𝒔 (probabilidades hacia
adelante) como se muestra en las ilustraciones 10 y 11.

𝑷(𝒃𝒋 ⁄𝒂𝒊 ) 0 1
𝟎 ̅ 𝒑
𝒑
𝟏 ̅
𝒑 𝒑

Ilustración 10: Diagrama de transición y matriz de probabilidades condicionales para


un canal binario simétrico (𝑩𝑺𝑪)

Ilustración 11: Representación de un canal de información mediante una matriz de


transición
11

Un canal de información está completamente definido por su matriz de probabilidades,


𝑷. Una propiedad de dicha matriz es que la suma de las probabilidades de una fila
cualquiera es igual a la unidad.

∑𝒔𝒋=𝟏 𝑷𝒊𝒋 = 𝟏 𝒊 = 𝟏, 𝟐, ⋯ , 𝒓 𝑷𝒊𝒋 = 𝑷(𝒃𝒋 /𝒂𝒊 )

La 𝒆𝒙𝒕𝒆𝒏𝒔𝒊ó𝒏 𝒅𝒆 𝒐𝒓𝒅𝒆𝒏 𝒏 de un canal se define así:

Definición: Sea un canal de información con un alfabeto de entrada 𝑨 = {𝒂𝒊 } 𝒊 =


𝟏, 𝟐, ⋯ , 𝒓 , un alfabeto de salida 𝑩 = {𝒃𝒋 } 𝒋 = 𝟏, 𝟐, ⋯ , 𝒔 y una matriz de
probabilidades,

𝑷𝟏𝟏 𝑷𝟏𝟐 ⋯ 𝑷𝟏𝒔


𝑷 𝑷 ⋯ 𝑷𝟐𝒔
𝑷 = [ 𝟐𝟏 𝟐𝟐 ]
… … … … … ..
𝑷𝒓𝟏 𝑷𝒓𝟐 ⋯ 𝑷𝒓𝒔

La 𝒆𝒙𝒕𝒆𝒏𝒔𝒊ó𝒏 𝒅𝒆 𝒐𝒓𝒅𝒆𝒏 𝒏 del canal tiene un alfabeto de entrada 𝑨𝒏 = {𝜶𝒊 } 𝒊 =


𝟏, 𝟐, ⋯ , 𝒓𝒏 , alfabeto de salida 𝑩𝒏 = {𝜷𝒋 } 𝒋 = 𝟏, 𝟐, ⋯ , 𝒔𝒏 y una matriz de transición,

𝑴𝟏𝟏 𝑴𝟏𝟐 ⋯ 𝑴𝟏𝒔𝒏


𝑴 𝑴 ⋯ 𝑴𝟐𝒔𝒏
𝑴 = [ 𝟐𝟏 𝟐𝟐 ]
……………..
𝑴𝒓𝒏 𝟏 𝑴𝒓𝒏 𝟐 ⋯ 𝑴𝒓𝒏 𝒔𝒏

Ejemplo:

𝑬𝒙𝒕𝒆𝒏𝒔𝒊ó𝒏 𝒅𝒆 𝒐𝒓𝒅𝒆𝒏 𝟐 de un canal 𝑩𝑺𝑪.

Este canal tiene cuatro símbolos de entrada y cuatro de salida con probabilidades,

̅𝟐 𝑷
𝑷 ̅ 𝑷 𝑷𝑷̅ 𝑷𝟐
̅ ̅ 𝟐 𝟐 ̅]
𝑴 = [𝑷𝑷 𝑷𝟐 𝑷𝟐 𝑷𝑷
𝑷𝑷̅ 𝑷 ̅
𝑷 ̅
𝑷𝑷
𝑷 𝟐
𝑷𝑷̅ 𝑷
̅𝑷 ̅𝟐
𝑷

2.3. Relaciones entre las probabilidades de un canal


2.3.1. Probabilidades a priori y a posteriori

Sea un canal definido por su matriz de probabilidades

𝑷𝟏𝟏 𝑷𝟏𝟐 ⋯ 𝑷𝟏𝒔


𝑷 𝑷 ⋯ 𝑷𝟐𝒔
𝑷 = [ 𝟐𝟏 𝟐𝟐 ]
……………..
𝑷𝒓𝟏 𝑷𝒓𝟐 ⋯ 𝑷𝒓𝒔

Los símbolos de entrada se eligen de acuerdo con sus probabilidades


𝑷(𝒂𝟏 ), 𝑷(𝒂𝟐 ), ⋯ 𝑷(𝒂𝒓 ), estas probabilidades se denominan Probabilidades a priori.
12

De manera similar los símbolos de salida aparecen de acuerdo con las probabilidades,
𝑷(𝒃𝟏 ), 𝑷(𝒃𝟐 ), ⋯ , 𝑷(𝒃𝒔 ), las probabilidades de los símbolos de salida se pueden
calcular de la siguiente manera:

𝑷(𝒃𝟏 ) = 𝑷(𝒂𝟏 )𝑷𝟏𝟏 + 𝑷(𝒂𝟐 )𝑷𝟐𝟏 + ⋯ + 𝑷(𝒂𝒓 )𝑷𝒓𝟏

𝑷(𝒃𝟐 ) = 𝑷(𝒂𝟏 )𝑷𝟏𝟐 + 𝑷(𝒂𝟐 )𝑷𝟐𝟐 + ⋯ + 𝑷(𝒂𝒓 )𝑷𝒓𝟐

𝑷(𝒃𝒔 ) = 𝑷(𝒂𝟏 )𝑷𝟏𝒔 + 𝑷(𝒂𝟐 )𝑷𝟐𝒔 + ⋯ + 𝑷(𝒂𝒓 )𝑷𝒓𝒔

Por otro lado según el teorema de 𝑩𝒂𝒚𝒆𝒔 se tiene:

𝑷(𝒃𝒋 ⁄𝒂𝒊 )𝑷(𝒂𝒊 )


𝑷(𝒂𝒊 ⁄𝒃𝒋 ) =
𝑷(𝒃𝒋 )

Y Por tanto con las tres ecuaciones previas se tiene

𝑷(𝒃𝒋 ⁄𝒂𝒊 )𝑷(𝒂𝒊 )


𝑷(𝒂𝒊 ⁄𝒃𝒋 ) = 𝒓
∑𝒊=𝟏 𝑷(𝒃𝒋 ⁄𝒂𝒊 )𝑷(𝒂𝒊 )
𝑷(𝒂𝒊 , 𝒃𝒋 )
=
∑𝒓𝒊=𝟏 𝑷(𝒃𝒋 ⁄𝒂𝒊 )𝑷(𝒂𝒊 )

Estas probabilidades se denominan Probabilidades condicionales hacia atrás o


probabilidades a posteriori.

Ejemplo:

Canal binario con los símbolos de entrada 𝑨 = {𝟎 𝟏} con probabilidades [𝟑⁄𝟒 𝟏/𝟒]
y símbolos de salida 𝑩 = {𝟎 𝟏} con probabilidades hacia adelante dadas por

𝟐⁄𝟑 𝟏⁄𝟑
𝑷=[ ]
𝟏⁄𝟏𝟎 𝟗⁄𝟏𝟎

El diagrama de transición se muestra en la ilustración 12:

Ilustración 12: Diagrama de transición de un 𝒄𝒂𝒏𝒂𝒍 𝒃𝒊𝒏𝒂𝒓𝒊𝒐 𝒄𝒐𝒏 𝒓𝒖𝒊𝒅𝒐.


13

Las probabilidades de salida serán

𝑷𝑩 = {𝟐𝟏⁄𝟒𝟎 , 𝟏𝟗⁄𝟒𝟎}

Las probabilidades condicionales hacia atrás serán:

𝟐𝟎⁄𝟐𝟏 𝟏𝟎⁄𝟏𝟗
𝑷(𝑨⁄𝑩) = [ ]
𝟏⁄𝟐𝟏 𝟗⁄𝟏𝟗

La probabilidad que 𝑷(𝒂 = 𝟎, 𝒃 = 𝟎) = (𝟐𝟎⁄𝟐𝟏)(𝟐𝟏⁄𝟒𝟎) = 𝟏⁄𝟐.

2.3.2. Entropías a priori y a posteriori

La probabilidad que se presente un símbolo a la salida es 𝑷(𝒃𝒋 ) solamente si se desconoce


el símbolo de entrada, de lo contrario será 𝑷(𝒃𝒋 ⁄𝒂𝒊 ), de manera similar el símbolo de
entrada se ha escogido con una probabilidad 𝑷(𝒂𝒊 ) (llamada 𝒑𝒓𝒐𝒃𝒂𝒃𝒊𝒍𝒊𝒅𝒂𝒅 𝒂 𝒑𝒓𝒊𝒐𝒓𝒊)
solamente si se desconoce el símbolo de salida, de lo contrario al conocer 𝒃𝒋 , la
probabilidad de haber escogido 𝒂𝒊 será 𝑷(𝒂𝒊 ⁄𝒃𝒋 ) (llamada
𝒑𝒓𝒐𝒃𝒂𝒃𝒊𝒍𝒊𝒅𝒂𝒅 𝒂 𝒑𝒐𝒔𝒕𝒆𝒓𝒊𝒐𝒓𝒊).

La entropía de los símbolos de entrada se puede calcular conociendo ambas


probabilidades:

Entropía a priori:

𝑯(𝑨) = ∑ 𝑷(𝒂𝒊 )𝒍𝒐𝒈(𝟏⁄𝑷(𝒂𝒊 ))


𝑨

Entropía a posteriori:

𝑯(𝑨⁄𝒃𝒋 ) = ∑ 𝑷(𝒂𝒊 ⁄𝒃𝒋 )𝒍𝒐𝒈(𝟏⁄𝑷(𝒂𝒊 ⁄𝒃𝒋 ))


𝑨

Ilustración 13: Canal binario del ejemplo

Ejemplo: Canal binario con el diagrama de transición mostrado en la ilustración 13.


14

En este caso, la entropía a priori está dada por

𝑯(𝑨) = 𝟎. 𝟖𝟏𝟏 𝒃𝒊𝒕𝒔

Y las entropías a posteriori por

𝑯(𝑨⁄𝟎) = 𝟎. 𝟐𝟕𝟔 𝒃𝒊𝒕𝒔

𝑯(𝑨 ⁄ 𝟏) = 𝟎. 𝟗𝟗𝟖 𝒃𝒊𝒕𝒔

Esto significa que hay mayor incertidumbre acerca de lo que se envió al recibir un 1 que
al recibir un cero.

2.4. Generalización del primer teorema de Shannon

Se plantea la pregunta de cuál es el procedimiento más eficaz para codificar la fuente 𝑨,


con el problema que vista desde la salida la fuente 𝑨 cambia de estadística de un símbolo
a otro.

Como a cada estadística corresponde un código compacto se pueden establecer 𝒔 códigos


compactos para cada uno de los símbolos 𝒃𝒋 de salida. Cuando el símbolo de salida sea
𝒃𝒋 se utilizará el 𝒋 − é𝒔𝒊𝒎𝒐 código binario para representar 𝒂𝒊 . Se suponen longitudes de
código dados por la tabla 1:

Símbolo de entrada Código 1 Código 2 ⋯ Código 𝒔


𝒂𝟏 𝒍𝟏𝟏 𝒍𝟏𝟐 ⋯ 𝒍𝟏𝒔
𝒂𝟐 𝒍𝟐𝟏 𝒍𝟐𝟐 ⋯ 𝒍𝟐𝒔
⋯ ⋯ ⋯ ⋯ ⋯
𝒂𝒓 𝒍𝒓𝟏 𝒍𝒓𝟐 ⋯ 𝒍𝒓𝒔

Tabla 1: Longitudes de las palabras de 𝒔 códigos

Si los códigos son instantáneos se tiene según el primer teorema de Shannon que:

𝑯(𝑨⁄𝒃𝒋 ) ≤ ∑ 𝑷(𝒂𝒊 ⁄𝒃𝒋 )𝒍𝒊𝒋 ≡ 𝑳𝒋


𝑨

En donde 𝑳𝒋 es la longitud media del código 𝒋. El número medio de 𝒃𝒊𝒏𝒊𝒕𝒔 se obtiene


promediando con respecto a todos los símbolos 𝒃𝒋 . Multiplicando por 𝑷(𝒃𝒋 ) y sumando
para todos los símbolos se tiene

∑ 𝑷(𝒃𝒋 )𝑯(𝑨⁄𝒃𝒋 ) ≤ ∑ 𝑷(𝒂𝒊 , 𝒃𝒋 )𝒍𝒊𝒋 ≡ 𝑳


𝑩 𝑨,𝑩

Donde 𝑳 es el número promedio de 𝒃𝒊𝒏𝒊𝒕𝒔 por símbolo.


15

Si se utiliza el siguiente procedimiento de codificación se puede alcanzar el valor


mínimo dado por la ecuación anterior:

Cuando la salida del canal es 𝒃𝒋 se selecciona 𝒍𝒊𝒋 como el número entero que satisface

𝒍𝒐𝒈(𝟏⁄𝑷(𝒂𝒊 ⁄𝒃𝒋 )) ≤ 𝒍𝒊𝒋 < 𝒍𝒐𝒈(𝟏⁄𝑷(𝒂𝒊 ⁄𝒃𝒋 )) + 𝟏

Estas longitudes cumplen la inecuación de 𝑲𝒓𝒂𝒇𝒕 y por lo tanto definen 𝒔 𝒄𝒐𝒏𝒋𝒖𝒏𝒕𝒐𝒔


de longitudes aptas para 𝒔 𝒄ó𝒅𝒊𝒈𝒐𝒔 𝒊𝒏𝒔𝒕𝒂𝒏𝒕á𝒏𝒆𝒐𝒔. Se multiplica enseguida por las
probabilidades conjuntas

𝑷(𝒃𝒋 )𝑷(𝒂𝒊 ⁄𝒃𝒋 )𝒍𝒐𝒈(𝟏⁄𝑷(𝒂𝒊 ⁄𝒃𝒋 )) ≤ 𝑷(𝒃𝒋 )𝑷(𝒂𝒊 ⁄𝒃𝒋 )𝒍𝒊𝒋


< 𝑷(𝒃𝒋 )𝑷(𝒂𝒊 ⁄𝒃𝒋 )𝒍𝒐𝒈(𝟏⁄𝑷(𝒂𝒊 ⁄𝒃𝒋 )) + 𝑷(𝒃𝒋 )𝑷(𝒂𝒊 ⁄𝒃𝒋 )

Sumando en 𝑨 y 𝑩, se tiene

∑ 𝑷(𝒃)𝑯(𝑨⁄𝒃) ≤ 𝑳̅ < ∑ 𝑷(𝒃)𝑯(𝑨⁄𝒃) + 𝟏


𝑩 𝑩

Este resultado es también válido para una 𝒆𝒙𝒕𝒆𝒏𝒔𝒊ó𝒏 𝒅𝒆 𝒐𝒓𝒅𝒆𝒏 𝒏 del canal

∑ 𝑷(𝜷)𝑯(𝑨𝒏 ⁄𝜷) ≤ 𝑳̅𝒏 < ∑ 𝑷(𝜷)𝑯(𝑨𝒏 ⁄𝜷) + 𝟏


𝑩𝒏 𝑩𝒏

En donde 𝑳̅𝒏 es la longitud media de las palabras de un símbolo de 𝑨𝒏 . Esta ecuación


puede transformarse así:

∑ 𝑷(𝒃)𝑯(𝑨⁄𝒃) ≤ 𝑳̅𝒏 ⁄𝒏 < ∑ 𝑷(𝒃)𝑯(𝑨⁄𝒃) + 𝟏⁄𝒏


𝑩 𝑩

Este resultado es una Generalización del primer teorema de Shannon.

Se define

𝑯(𝑨⁄𝑩) = ∑ 𝑷(𝒃)𝑯(𝑨⁄𝒃) = ∑ 𝑷(𝒂, 𝒃)𝒍𝒐𝒈(𝟏⁄𝑷(𝒂⁄𝒃))


𝑩 𝑨,𝑩

Esta entropía se denomina la equivocación de 𝑨 con respecto a 𝑩 o equivocación del


canal. De la expresión anterior a la definición de equivocación se concluye que

𝐥𝐢𝐦 𝑳̅𝒏 ⁄𝒏 = 𝑯(𝑨⁄𝑩)


𝒏→∞

En este caso no es suficiente que los códigos seleccionados sean unívocos sino que
también deben ser instantáneos para que sean unívocamente decodificables ya que cada
uno de los sucesivos símbolos se codifica con códigos distintos.
16

2.5. Información mutua

En un canal como el mostrado en la ilustración 14

Ilustración 14: canal de información

Se puede calcular la entropía del alfabeto de entrada

𝑯(𝑨) = ∑ 𝑷(𝒂𝒊 )𝒍𝒐𝒈(𝟏⁄𝑷(𝒂𝒊 ))


𝑨

Y la equivocación

𝑯(𝑨⁄𝑩) = ∑ 𝑷(𝒃)𝑯(𝑨⁄𝒃) = ∑ 𝑷(𝒂, 𝒃)𝒍𝒐𝒈(𝟏⁄𝑷(𝒂⁄𝒃))


𝑩 𝑨,𝑩

Según el teorema de Shannon es necesario una longitud media de 𝑯(𝑨) 𝒃𝒊𝒏𝒊𝒕𝒔 para
representar un símbolo de entrada 𝒂𝒊 . Según la generalización del teorema se requieren
solamente 𝑯(𝑨 ⁄ 𝑩) 𝒃𝒊𝒏𝒊𝒕𝒔 para su representación si se puede conocer el símbolo de
salida producido por esa entrada. Por lo tanto se puede afirmar que la observación de un
símbolo de salida proporciona 𝑯(𝑨) − 𝑯(𝑨 ⁄ 𝑩) 𝒃𝒊𝒕𝒔 de información. Esto se
denomina la 𝒊𝒏𝒇𝒐𝒓𝒎𝒂𝒄𝒊ó𝒏 𝒎𝒖𝒕𝒖𝒂 del canal:

𝑰(𝑨; 𝑩) = 𝑯(𝑨) − 𝑯(𝑨 ⁄ 𝑩)

Esta información mutua puede expresarse de diferentes maneras:

𝑰(𝑨; 𝑩) = ∑ 𝑷(𝒂𝒊 )𝒍𝒐𝒈(𝟏⁄𝑷(𝒂𝒊 )) − ∑ 𝑷(𝒂, 𝒃)𝒍𝒐𝒈(𝟏⁄𝑷(𝒂⁄𝒃))


𝑨 𝑨,𝑩

𝑰(𝑨; 𝑩) = ∑ 𝑷(𝒂, 𝒃)𝒍𝒐𝒈(𝟏⁄𝑷(𝒂)) − ∑ 𝑷(𝒂, 𝒃)𝒍𝒐𝒈(𝟏⁄𝑷(𝒂⁄𝒃))


𝑨,𝑩 𝑨,𝑩

𝑰(𝑨; 𝑩) = ∑ 𝑷(𝒂, 𝒃)𝒍𝒐𝒈(𝑷(𝒂⁄𝒃)⁄𝑷(𝒂))


𝑨,𝑩

=∑ 𝑷(𝒂, 𝒃)𝒍𝒐𝒈(𝑷(𝒂, 𝒃)⁄𝑷(𝒂)𝑷(𝒃))


𝑨,𝑩
17

La información mutua de una extensión de orden 𝒏 del canal está dada por

𝑰(𝑨𝒏 ; 𝑩𝒏 ) = 𝒏𝑰(𝑨; 𝑩)

2.5.1. Propiedades de la información mutua

 La información mutua recibida por un canal siempre es positiva y es cero cuando


los símbolos de entrada y salida son estadísticamente independientes

𝑰(𝑨; 𝑩) ≥ 𝟎

 La información mutua es simétrica con respecto a las variables 𝒂𝒊 y 𝒃𝒋 , o sea

𝑰(𝑨; 𝑩) = 𝑰(𝑩; 𝑨) = 𝑯(𝑩) − 𝑯(𝑩 ⁄ 𝑨)

En donde 𝑯(𝑩 ⁄ 𝑨) se denomina la equivocación de 𝑩 con respecto a 𝑨.

 La 𝒆𝒏𝒕𝒓𝒐𝒑í𝒂 𝒂𝒇í𝒏 mide la incertidumbre del suceso simultaneo (𝒂𝒊 , 𝒃𝒋 )

𝑯(𝑨; 𝑩) = ∑ 𝑷(𝒂, 𝒃)𝒍𝒐𝒈(𝟏⁄𝑷(𝒂, 𝒃)) = 𝑯(𝑨) + 𝑯(𝑩) − 𝑰(𝑨; 𝑩)


𝑨,𝑩

Esto se ve claramente en el diagrama de 𝑉𝑒𝑛𝑛 de la ilustración 15. De acuerdo con esta


figura se tiene que

𝑯(𝑨; 𝑩) = 𝑯(𝑨) + 𝑯(𝑩 ⁄ 𝑨)

𝑯(𝑨; 𝑩) = 𝑯(𝑩) + 𝑯(𝑨 ⁄ 𝑩)

La incertidumbre de 𝑨 y 𝑩 es la incertidumbre de 𝑨 más la incertidumbre de 𝑩 dado que


se conoce 𝑨 y viceversa.

Ilustración 15: Relaciones entre las diferentes magnitudes de un canal

Las informaciones expuestas en la figura no dependen de que 𝑨 y 𝑩 sean alfabetos de


entrada y salida de un canal. Realmente pueden ser dos conjuntos cualquiera de variables.
18

La información mutua tendrá signo positivo siempre y cuando las variables aleatorias no
sean estadísticamente independientes.

Ejemplo:

Información mutua de un 𝒄𝒂𝒏𝒂𝒍 (𝑩𝑺𝑪) que tiene una matriz de transición dada por

̅
𝒑 𝒑
[ ]
𝒑 ̅
𝒑

Donde 𝒑 ̅ = 𝟏 − 𝒑. Admitiendo que las probabilidades de transmitir un 𝟎 y un 𝟏 sean


respectivamente 𝒘 y 𝒘
̅ , la información mutua puede escribirse de la forma

𝑰(𝑨; 𝑩) = 𝑰(𝑩; 𝑨) = 𝑯(𝑩) − 𝑯(𝑩⁄𝑨)

𝑰(𝑨; 𝑩) = 𝑯(𝑩) − ∑ 𝑷(𝒂) ∑ 𝑷(𝒃⁄𝒂) 𝐥𝐨𝐠(𝟏⁄𝑷(𝒃⁄𝒂))


𝑨 𝑩

𝑰(𝑨; 𝑩) = 𝑯(𝑩) − ∑ 𝑷(𝒂)(𝒑𝒍𝒐𝒈(𝟏⁄𝒑) + 𝒑


̅𝒍𝒐𝒈(𝟏⁄𝒑
̅))
𝑨

𝑰(𝑨; 𝑩) = 𝑯(𝑩) − (𝒑𝒍𝒐𝒈(𝟏⁄𝒑) + 𝒑


̅𝒍𝒐𝒈(𝟏⁄𝒑
̅)) (𝟓. 𝟒𝟔)

Fácilmente se comprueba que las probabilidades de que 𝒃𝒋 = 𝟎 y 𝒃𝒋 = 𝟏 son iguales a


𝒘𝒑̅+𝒘 ̅ 𝒑 y 𝒘𝒑 + 𝒘
̅𝒑̅.

𝟏 𝟏
̅+𝒘
𝑰(𝑨; 𝑩) = [(𝒘𝒑 ̅ 𝒑)𝒍𝒐𝒈 ( ) + (𝒘𝒑 + 𝒘
̅𝒑̅)𝒍𝒐𝒈 ( )]
̅+𝒘
𝒘𝒑 ̅𝒑 𝒘𝒑 + 𝒘
̅𝒑̅
𝟏 𝟏
̅𝒍𝒐𝒈 ( ))
− (𝒑𝒍𝒐𝒈 ( ) + 𝒑 (𝟓. 𝟒𝟕)
𝒑 ̅
𝒑

𝑰(𝑨; 𝑩) se expresa como sigue, en función de la entropía

̅+𝒘
𝑰(𝑨; 𝑩) = 𝑯(𝒘𝒑 ̅ 𝒑) − 𝑯(𝒑)

̅+𝒘
Esta ecuación tiene una sencilla interpretación geométrica. Puesto que 𝒘𝒑 ̅ 𝒑 debe
estar comprendido entre 𝒑 𝒚 𝒑 ̅, 𝑯(𝒘𝒑 ̅+𝒘 ̅ 𝒑) ≥ 𝑯(𝒑) , entonces la ilustración 16
prueba que la información mutua debe ser positiva.

La figura también permite apreciar ciertas condiciones límites de interés. Por ejemplo,
para un valor constante de 𝒑 , puede observarse la conducta de 𝑰(𝑨; 𝑩) al variar 𝒘.
𝑰(𝑨; 𝑩) Alcanza un valor máximo para 𝒘 = 𝟏/𝟐 , siendo este 𝟏 − 𝑯(𝒑) . Por otra parte
la información mutua se anula para 𝒘 = 𝟎 𝒚 𝒘 = 𝟏.
19

Ilustración 16: Interpretación geométrica de la información mutua de un (𝑩𝑺𝑪)

2.6. Capacidad de un canal

En el cálculo de la información mutua de un canal es necesario conocer la probabilidad


de la fuente de entrada y de las probabilidades condicionales lo que significa que la
información mutua no depende solamente del comportamiento del canal sino también de
la forma como se usa éste, es decir de las probabilidades de entrada.

Ejemplo: en un canal 𝑩𝑺𝑪 de probabilidad de error 𝒑, se tiene que la información mutua


está dada por

𝑰(𝑨; 𝑩) = 𝑯(𝒘𝒑 + 𝒘
̅𝒑̅) − 𝑯(𝒑) (𝟓. 𝟗𝟔)

Ilustración 17: Información mutua de un canal 𝑩𝑺𝑪.


20

Donde 𝒘 es la probabilidad de elegir un 0 de entrada y además 𝒘̅ = 𝟏 − 𝒘, 𝒑̅ = 𝟏 − 𝒑.


La ilustración 17 representa la curva de variación de 𝑰(𝑨; 𝑩) con respecto a 𝒘, para un
valor de 𝒑 constante.

La información mutua varía entre 0 y 𝟏 − 𝑯(𝒑). El mínimo, 0, se alcanza para 𝒘 =


𝟎 𝒚 𝒘 = 𝟏. En estos casos, se conoce el símbolo enviado con probabilidad 𝟏, incluso
antes de recibir el símbolo de salida correspondiente. El valor máximo, 𝟏 − 𝑯(𝒑), se
obtiene para 𝒘 = 𝟏/𝟐, es decir, cuando las dos entradas son igualmente probables.

El valor mínimo de la información mutua es cero y el valor máximo se denomina la


𝒄𝒂𝒑𝒂𝒄𝒊𝒅𝒂𝒅 𝒅𝒆𝒍 𝒄𝒂𝒏𝒂𝒍 que en este caso particular es 𝟏 − 𝑯(𝒑)
[𝒃𝒊𝒕𝒔⁄𝒖𝒔𝒐 𝒅𝒆𝒍 𝒄𝒂𝒏𝒂𝒍]. Esto significa que cada vez que se envía información por el
canal (cada vez que se usa) se puede enviar máximo un bit de información si no hay
errores.

𝑪 = 𝐦𝐚𝐱 {𝑰(𝑨; 𝑩)} [𝒃𝒊𝒕𝒔⁄𝒖𝒔𝒐 𝒅𝒆𝒍 𝒄𝒂𝒏𝒂𝒍].


{𝑷(𝒂𝒊 )}

La capacidad de un canal no depende de las probabilidades de entrada sino


exclusivamente de sus probabilidades condicionales y su cálculo en general es bastante
complicado, aunque se tienen algunos resultados para canales sencillos.

Ejemplo: 𝑪𝒂𝒏𝒂𝒍 𝑩𝑺𝑪

De acuerdo con el resultado obtenido en el ejemplo inmediatamente anterior la capacidad


del canal 𝑩𝑺𝑪 es 𝑪 = 𝟏 − 𝑯(𝒑) lo cual se muestra en la ilustración 18, en donde se
observa que la capacidad es máxima para una probabilidad de error de cero o de uno
𝟏
(en donde realmente no hay error) y es mínima cuando la probabilidad de error es 𝒑 = 𝟐.

Ilustración 18: Capacidad de un canal 𝑩𝑺𝑪


21

Ejemplo: 𝑪𝒂𝒏𝒂𝒍 𝒖𝒏𝒊𝒇𝒐𝒓𝒎𝒆.

El canal definido por la matriz de transición:

𝑷𝟏𝟏 𝑷𝟏𝟐 ⋯ 𝑷𝟏𝒔


𝑷 𝑷 ⋯ 𝑷𝟐𝒔
𝑷 = | 𝟐𝟏 𝟐𝟐 |
……………..
𝑷𝒓𝟏 𝑷𝒓𝟐 ⋯ 𝑷𝒓𝒔

Es uniforme si cada fila y cada columna de la matriz es una permutación arbitraria de los
elementos de la primera fila. Un caso particular de canal uniforme es el canal 𝑩𝑺𝑪 y su
generalización el 𝒄𝒂𝒏𝒂𝒍 𝒔𝒊𝒎é𝒕𝒓𝒊𝒄𝒐 𝒓 − 𝒂𝒓𝒊𝒐 (𝒓𝑺𝑪) que tiene 𝒓 símbolos de entrada y
𝒓 símbolos de salida y una matriz de transición como se muestra en la tabla 2:

𝒑 𝒑 𝒑
̅
𝒑 ⋯
𝒓−𝟏 𝒓−𝟏 𝒓−𝟏
𝒑 𝒑 𝒑
𝒑̅ ⋯
𝒓−𝟏 𝒓−𝟏 𝒓−𝟏
𝒑 𝒑 𝒑
̅ ⋯
𝒑
𝒓−𝟏 𝒓−𝟏 𝒓−𝟏

𝒑 𝒑 𝒑
[𝒓 − 𝟏 𝒓 − 𝟏 𝒓 − 𝟏 ⋯ 𝒑 ̅ ]

Tabla 2: Matriz de transición para un 𝒄𝒂𝒏𝒂𝒍 𝒔𝒊𝒎é𝒕𝒓𝒊𝒄𝒐 𝒓 − 𝒂𝒓𝒊𝒐.

Como siempre, 𝒑 ̅ = 𝟏 − 𝒑, la probabilidad de error del canal es p, pero existen 𝒓 − 𝟏


salidas incorrectas por cada símbolo de entrada.

Se calcula la capacidad de este canal así:

𝟏
𝑰(𝑨; 𝑩) = 𝑯(𝑩) − 𝑯(𝑩⁄𝑨) = 𝑯(𝑩) − ∑ 𝒑(𝒂) ∑ 𝒑(𝒃⁄𝒂)𝒍𝒐𝒈
𝑨 𝑩 𝒑(𝒃⁄𝒂)

Como el canal es uniforme la última suma no depende de 𝒊 y por tanto

𝟏
𝑰(𝑨; 𝑩) = 𝑯(𝑩) − ∑ 𝒑(𝒃⁄𝒂)𝒍𝒐𝒈
𝑩 𝒑(𝒃⁄𝒂)

El segundo miembro será máximo cuando 𝑯(𝑩) sea máximo, lo cual ocurrirá cuando la
probabilidad de salida sea igual para todos los símbolos, lo cual se da en un canal
uniforme con símbolos de entrada igualmente probables. En este caso

𝟏
𝑪 = 𝒍𝒐𝒈𝒓 − ∑ 𝒑(𝒃⁄𝒂)𝒍𝒐𝒈 ( ) = 𝒍𝒐𝒈𝒓 + ∑ 𝒑(𝒃⁄𝒂)𝒍𝒐𝒈 (𝒑(𝒃⁄𝒂))
𝒃
𝒑( ⁄𝒂)
𝑩 𝑩
22

𝒑
̅) + 𝒑𝒍𝒐𝒈 ( )
̅𝒍𝒐𝒈(𝒑
𝑪 = 𝒍𝒐𝒈𝒓 + 𝒑 𝒓−𝟏
= 𝒍𝒐𝒈𝒓 − 𝒑𝒍𝒐𝒈(𝒓 − 𝟏) − 𝑯(𝒑)

2.7. Entropía diferencial

Se extienden los conceptos anteriores a variables aleatorias continuas. El primer


problema aparece con la definición de auto información ya que las probabilidades de
ocurrencia de la 𝑽𝑨 son cero, y por tanto la auto información es infinita, lo que genera
dificultades para definir la entropía.

Se sortea el problema para definir la información promedio tomando el caso límite de la


versión discreta de la 𝑽𝑨 con una función densidad de probabilidad 𝒇𝑿 (𝒙).

Se divide el rango dinámico de la 𝑽𝑨 en sub intervalos de tamaño ∆ y se aplica el


teorema del valor medio que dice que en un intervalo [(𝒊 − 𝟏)∆, 𝒊∆ ] existe un número
𝒙𝒊 tal que

𝒊∆
𝒇𝑿 (𝒙𝒊 )∆= ∫ 𝒇𝑿 (𝒙)𝒅𝒙
(𝒊−𝟏)∆

Luego se define una variable aleatoria discreta 𝑿𝒅 con una distribución de probabilidad
dada por

𝑷(𝑿𝒅 = 𝒙𝒊 ) = 𝒇𝑿 (𝒙𝒊 )∆

Se obtiene la entropía de esta nueva variable aleatoria discreta.



𝑯(𝑿𝒅 ) = − ∑ 𝑷(𝒙𝒊 ) 𝒍𝒐𝒈𝟐 𝑷(𝒙𝒊 )
𝒊=−∞


𝑯(𝑿𝒅 ) = − ∑ 𝒇𝑿 (𝒙𝒊 ) 𝒍𝒐𝒈𝟐 (𝒇𝑿 (𝒙𝒊 ))∆ − 𝒍𝒐𝒈𝟐 ∆
𝒊=−∞

A medida que ∆→ 𝟎 el primer término toma la forma de una integral y parece la forma
de una entropía análoga, la cual se denomina entropía diferencial,

𝒉(𝑿) = − ∫ 𝒇𝑿 (𝒙)𝒍𝒐𝒈𝟐 (𝒇𝑿 (𝒙))𝒅𝒙
−∞

Sin embargo el segundo término sigue siendo infinito.

Ejemplo:

Supongas que se tiene una variable aleatoria 𝑿 𝒅𝒊𝒔𝒕𝒓𝒊𝒃𝒖𝒊𝒅𝒂 𝒖𝒏𝒊𝒇𝒐𝒓𝒎𝒆𝒎𝒆𝒏𝒕𝒆 en el


intervalo [𝒂, 𝒃). La entropía diferencial de esta variable aleatoria está dada por
23


𝒉(𝒙) = − ∫ 𝒇𝑿 (𝒙) 𝒍𝒐𝒈(𝒇𝑿 (𝒙))𝒅𝒙
−∞
𝒃
𝟏 𝟏
= −∫ 𝒍𝒐𝒈 ( ) 𝒅𝒙
𝒂 𝒃−𝒂 𝒃−𝒂
𝟏
= −𝒍𝒐𝒈 ( )
𝒃−𝒂

Observe que cuando 𝒃 − 𝒂 < 𝟏, la entropía diferencial será negativa, en contraste con la
entropía, la cual nunca toma valores negativos.

Ejemplo:

Suponga que se tiene una variable aleatoria que tiene una 𝑭𝑫𝑷 𝑮𝒂𝒖𝒔𝒔𝒊𝒂𝒏𝒂,

𝟏 −(𝒙−𝝁)𝟐
𝒇𝑿 (𝒙) = 𝒆 𝟐𝝈𝟐
√𝟐𝝅𝝈𝟐

La entropía diferencial está dada por


𝟏 (𝒙−𝝁)𝟐 𝟏 (𝒙−𝝁)𝟐
− −
𝒉(𝒙) = − ∫ 𝒆 𝒆𝟐𝝈𝟐 𝒍𝒐𝒈 [ 𝟐𝝈𝟐 ] 𝒅𝒙
𝟐 √𝟐𝝅𝝈𝟐
−∞ √𝟐𝝅𝝈
∞ ∞ (𝒙
𝟏 − 𝝁)𝟐
= −𝒍𝒐𝒈 ∫ 𝒇𝑿 (𝒙) 𝒅𝒙 + ∫ 𝒍𝒐𝒈(𝒆)𝒇𝑿 (𝒙)𝒅𝒙
√𝟐𝝅𝝈𝟐 −∞ −∞ 𝟐𝝈𝟐
𝟏 𝟏
= 𝒍𝒐𝒈(𝟐𝝅𝝈𝟐 ) + 𝒍𝒐𝒈(𝒆)
𝟐 𝟐
𝟏
= 𝒍𝒐𝒈(𝟐𝝅𝒆𝝈𝟐 )
𝟐

Se concluye que la entropía diferencial de una variable aleatoria Gaussiana es


proporcional a su varianza.

Además se puede probar que la entropía diferencial de una 𝑽𝑨 Gaussiana es mayor que
la de cualquier otra 𝑽𝑨 con cualquier distribución e igual varianza.

Definiendo una variable discreta 𝒀𝒅 a partir de la variable aleatoria 𝒀 se puede calcular


una entropía condicional dada por
∞ ∞
𝑯(𝑿𝒅 ⁄𝒀𝒅 ) = − ∑ ∑ ([𝒇𝑿⁄𝒀 (𝒙𝒊 ⁄𝒚𝒋 )𝒇𝒀 (𝒚𝒋 )𝒍𝒐𝒈𝟐 (𝒇𝑿⁄𝒀 (𝒙𝒊 ⁄𝒚𝒋 ))] ∆∆)
𝒊=−∞ 𝒋=−∞
− 𝒍𝒐𝒈𝟐 ∆

Y una información mutua dada por

𝑰(𝑿𝒅 ; 𝒀𝒅 ) = 𝑯(𝑿𝒅 ) − 𝑯(𝑿𝒅 ⁄𝒀𝒅 )


∞ ∞ ∞
= −∑ 𝒇𝑿 (𝒙𝒊 ) 𝒍𝒐𝒈𝟐 (𝒇𝑿 (𝒙𝒊 ))∆ − ∑ ∑ [𝒇𝑿⁄𝒀 (𝒙𝒊 ⁄𝒚𝒋 )𝒇𝒀 (𝒚𝒋 )𝒍𝒐𝒈𝟐 (𝒇𝑿⁄𝒀 (𝒙𝒊 ⁄𝒚𝒋 ))] ∆∆
𝒊=−∞ 𝒊=−∞ 𝒋=−∞
= 𝒉(𝑿) − 𝒉(𝑿⁄𝒀)
24

La conclusión es que la información mutua de dos 𝑽𝑨 continuas está dada por la


diferencia entre la entropía diferencial de la fuente y la entropía diferencial
condicional.

Para un canal binario que transmite datos en presencia de ruido blanco Gaussiano aditivo
(Canal Gaussiano) Shannon probó que su capacidad está dada por

𝟏 𝑺
𝑪= 𝒍𝒐𝒈𝟐 (𝟏 + ) 𝒃𝒊𝒕𝒔 / 𝒖𝒔𝒐 𝒅𝒆𝒍 𝒄𝒂𝒏𝒂𝒍
𝟐 𝑵

Si el canal se usa durante 𝑻 segundos la capacidad se puede calcular en 𝒃𝒊𝒕/𝒔, así:

𝑪 𝟏 𝑺 𝑺
𝑪𝒃𝒑𝒔 = = 𝒍𝒐𝒈𝟐 (𝟏 + ) = 𝑩𝒍𝒐𝒈𝟐 (𝟏 + ) 𝒃𝒊𝒕/𝒔
𝑻 𝟐𝑻 𝑵 𝑵

En donde 𝑩 es el ancho de banda del canal (y también el ancho de banda mínimo para
𝑺
transportar pulsos de duración 𝑻 sin introducir mucha distorsión sobre ellos) y 𝑵 es la
relación entre la potencia de la señal y la potencia del ruido a la salida del receptor.

3. Teoría rata distorsión

Tiene que ver con los compromisos entre la distorsión y la rata en los esquemas de
compresión con pérdidas. Estos compromisos se definen en una rata 𝑹(𝑫) que es función
de la distorsión la cual especifica la rata mínima a la cual la salida de una fuente puede
ser codificada mientras se mantiene la distorsión menor o igual a 𝑫.

En general la distorsión está dada por

𝑵−𝟏 𝑴−𝟏
𝑫=∑ ∑ 𝑷(𝒙𝒊 )𝑷(𝒚𝒋 ⁄𝒙𝒊 ) 𝒅(𝒙𝒊 , 𝒚𝒋 )
𝒊=𝟎 𝒋=𝟎

El término que da la distorsión depende de la aplicación particular, el primer término lo


da la distribución de probabilidades de la fuente y el segundo es una descripción del
esquema de codificación.

Se concluye entonces que dada una fuente con una función de distribución de
probabilidad, si se define una función de distorsión, la distorsión promedio será función
de la distribución de probabilidades condicional y se escogerá el código que cumpla con
una distorsión menor a una máxima prefijada.

Ejemplo:

Suponga que se tiene la misma fuente del ejemplo 𝟕. 𝟒. 𝟐 y el mismo alfabeto de


reconstrucción. Suponga que la medida de la distorsión es

𝟐
𝒅(𝒙𝒊 , 𝒚𝒋 ) = (𝒙𝒊 − 𝒚𝒋 )

Y que 𝑫∗ = 𝟐𝟓𝟓. Un esquema de compresión que satisface esta restricción mapea


aleatoriamente la entrada a cualquiera de las salidas; o sea
25

𝒙 𝟏
𝑷 ( 𝒊⁄𝒚𝒋 ) = para i=0,1⋯,15 y j=0,2,⋯,14
𝟖

Se puede observar que esta asignación de probabilidad condicional satisface la restricción


de distorsión. Como cada uno de los ocho valores de reconstrucción es igualmente
probable, 𝑯(𝒀) es 𝟑 𝒃𝒊𝒕𝒔. Sin embargo, no se está transmitiendo alguna información. Se
podrían obtener exactamente los mismos resultados al transmitir 𝟎 𝒃𝒊𝒕𝒔 y seleccionando
aleatoriamente a 𝒀 en el receptor.

De aquí se concluye que la rata no puede ser determinada a partir de la entropía de la


reconstrucción

Shannon probó que la rata mínima para una distorsión dada está dada por

𝑹(𝑫) = 𝐦𝐢𝐧 𝑰(𝑿; 𝒀)


{𝑷(𝒚𝒋 ⁄𝒙𝒊 )}∈𝚪

En donde

𝚪 = {{𝑷(𝒚𝒋 ⁄𝒙𝒊 )} tal que 𝑫({𝑷(𝒚𝒋 ⁄𝒙𝒊 )}) ≤ 𝑫∗ }

Sin embargo, en el caso de que la entropía condicional sea cero se cumple que la rata
mínima está dada por la entropía de la fuente de reconstrucción.