Está en la página 1de 48

UNIDAD 3

Teoría de la información
Temas a cubrir
➢Teoría de la Información Básica:
▪ Entropía, entropía efectiva, y entropía condicional
▪ Codificación de fuente
o Codificación y decodificación
▪ Canal discreto sin memoria
o Canal binario
o Capacidad del canal
Teoría de la Información
Determina:
➢Cuál es la mejor tasa de compresión.
▪ El número mínimo de bits para representar información.
o La ENTROPÍA de la fuente
➢Cuál es la mejor tasa de transmisión (velocidad).
▪ La cantidad máxima de información que se puede transmitir en un canal de
manera confiable a través de un enlace de comunicación.
o CAPACIDAD DEL CANAL
➢La Entropía y la Capacidad del Canal están relacionadas.
▪ Si la entropía es menor a la capacidad del canal entonces se podrá realizar
una comunicación sin errores.
Predictibilidad e información
➢El contenido de información de un mensaje está
relacionado con la predictibilidad del mensaje.
▪Lo más predecible (probable) que es un mensaje, la
menor cantidad de información que suministrará.
➢Es decir, si la probabilidad de un mensaje es alta
entonces no lleva mucha información. Pero si es
baja, entonces lleva bastante información.
Contenido de información
➢El contenido de información Im se define como:

➢El contenido de información de un mensaje


disminuye a medida que aumenta la probabilidad
del mensaje.
➢El contenido total de información es la suma de la
información de cada uno de los mensajes
(independientes).
Entropía de una fuente discreta sin memoria
➢La entropía es una medida de la cantidad promedio de
información transmitida por símbolo de la fuente.
▪ Si la fuente A produce un símbolo S cada T segundos: A = {s0,
s1, … , sk-1}
➢La entropía de la fuente es:

➢La entropía depende de la probabilidad de cada uno de los


símbolos del alfabeto.
Ejemplo: Fuente binaria
➢Con un alfabeto de tamaño dos, A={0,1}, símbolos
estadísticamente independientes, y p0=p.
▪ Si p=0.5 calcule la entropía de la fuente.

➢Si el alfabeto es de tamaño 4 con A={s1,s2,s3,s4} y si


la probabilidad de cada símbolo es ps1 = 0.3, ps2 = 0.3,
ps3 = 0.1, calcule la entropía de la fuente.
Entropía y extensión de una fuente sin memoria
➢Por lo general la información se transmite en bloques.
➢Cada bloque se puede ver como producido por una fuente
extendida.
▪ Por ejemplo, para un alfabeto A={s0, s1} la extensión de segundo
orden del alfabeto está conformado por 22 = 4 símbolos, es decir
A={s0 s0, s0 s1, s1 s0, s1 s1}
▪ Para la extensión de tercer orden el patrón se mantiene.
➢Como cada uno de los símbolos es estadísticamente
independiente, la probabilidad de un símbolo An es el producto
de cada una de las probabilidad de los n símbolos en A.
▪ Es decir, H(An)=nH(A)
Ejemplo
➢Una fuente discreta sin memoria, con alfabeto A={s0,
s1,s2} probabilidades p0=0.25, p1=0.25 y p2=0.5. Halle
1) la entropía de la fuente, 2) la extensión de segundo
orden de la fuente.
▪ R//. 1) 1.5 bits 2) 3 bits
Entropía condicional
➢Es posible que un símbolo no sea independiente de los símbolos
anteriores. Por tanto, la entropía se va a calcular utilizando
estadísticas de condiciones.
▪ Por ejemplo, la entropía de una fuente con una memoria de 1 símbolo es:

▪ Donde pj,i es la probabilidad de que la fuente haya elegido i y j, y p(j|i) es la


probabilidad de que la fuente escoja j dado que anteriormente eligió i.
Usando el teorema de Bayes se puede representar:

▪ La ecuación de entropía quedaría como:


Entropía Condicional y Redundancia
➢Cuando los símbolos son independientes p(j|i) = pj.
➢Esta dependencia implica entropía reducida: esta dependencia entre
símbolos incrementará la probabilidad de seleccionar algún símbolo a
costa de otros.
▪ Por lo tanto la cantidad promedio de información se reduce, lo que se refleja
en la reducción de la entropía.
➢Redundancia de la fuente.
▪ Es la diferencia entre la entropía real y la entropía máxima de la fuente
(cuando los símbolos son independientes y equiprobables).
▪ Para un alfabeto de K símbolos la redundancia está dada por:
Ejemplo de Entropía condicional
➢Encuentre la 1) entropía, 2) redundancia y 3) tasa de información de una fuente
de 4 símbolos (a, b, c, d) con una tasa de símbolo de 1024 símbolos/s y una
probabilidad de selección de símbolo de 0.5, 0.2, 0.2 y 0.1 en las siguientes
condiciones:
▪ i) La fuente no tiene memoria.
▪ ii) La fuente tiene memoria de un símbolo con una probabilidad condicional p(b l a)=0.4, p(c l
a)= 0.4, p(d l a)= 0.2 y que ningún símbolo consecutivo puede ser el mismo.
➢Solución:
▪ i) Usando la fórmula de entropía:
Ejemplo de Entropía condicional
▪ Se puede deducir también que:
p(b I c)=p(b I d)= p(c I b)=p(c I d)=p(d I b)=p(d I c)=0
▪ Con todas las probabilidades halladas podemos hallar la entropía
H(A) = …
H(A) = 0.761 bits
▪ Al igual que en la sección anterior podemos hallar la redundancia usando:

▪ Así también la tasa de información:


Ruido y Entropía Efectiva en canales sin memoria
➢Los canales ruidosos agregan aleatoriedad a la señal recibida por lo que no
es posible determinar con certeza la información recibida.
▪ Esta incertidumbre está relacionada con la probabilidad condicional

o Es decir, la probabilidad de que el símbolo i fue transmitido dado que j fue recibido.
o Para el caso de un canal sin ruido es claro que

➢En el caso de canales ruidosos, la cantidad de información recibida


(entropía efectiva Heff) es menor que la transmitida.
▪ Esta reducción de la información recibida está relacionada con la incertidumbre
(equivocación E) del conocimiento que tiene el receptor de la fuente transmitida.
Ruido y Entropía Efectiva
➢Es decir Heff = H − E bits.
▪ Donde E representa la equivocación o información negativa que contribuye el
ruido.

▪ Usando el teorema de Bayes,

➢La entropía efectiva también se conoce como información mutua y la


equivocación como entropía condicional de la entrada del canal dada
la salida del canal.
Codificación de Fuente
➢Es uno de los primeros bloques de un sistema de comunicación
digital. Comprende:
▪ Conversión analógica-digital (muestreo y cuantización).
▪ Codificación/decodificación de fuente discreta.
▪ Conversión digital-analógica (tabla de búsqueda y filtrado).
Codificación Discreta de Fuente
➢Codificación de Fuente: representar de manera eficiente datos de
una fuente discreta, usando palabras binarias que sean únicamente
decodificables.
▪ Representar los datos de la manera más eficiente para reducir el ancho de
banda requerido para transmitir los datos o la memoria para almacenar los
datos.
➢De manera general, será mucho mejor asignar una palabra símbolo
corta a las palabras más frecuentes y palabras símbolos largas a los
símbolos poco frecuentes.
Conceptos: Eficiencia del Código
➢ La eficiencia, n, está relacionado con la relación de la entropía de los símbolos codificados con la
entropía máxima posible.

▪ Asumiendo siempre que los símbolos son independientes e igualmente probables, n estaría dado por:

▪ Donde H es la entropía del conjunto de los (nuevos) símbolos codificados.


➢ En el caso de que los símbolos codificados sean representados por una palabra-código binaria de
longitudes diferentes lk, una longitud promedio del código, L, se utiliza. L se puede definir como la
longitud promedio de la palabra-código, es decir:

➢ En este caso la eficiencia del código se puede hallar como:


Ejemplo
➢Un escáner convierte un documento blanco y negro, línea por línea, en datos
binarios para transmisión. El escáner produce datos que comprenden símbolos
que representan pasadas de hasta seis elementos de pixeles de imagen con las
siguientes probabilidades.

➢Determine:
i) La entropía de la fuente.
ii) La longitud promedio de una pasada (en pixeles).
iii) La tasa efectiva de información correspondiente para esta fuente cuando el escáner trabaja
a 1000 pixeles por segundo.
Solución
i) La entropía de la fuente se encuentra usando la ecuación de entropía para K=6.

ii) Para encontrar la longitud promedio, usamos el número consecutivos de símbolos que serían lk

iii) A una tasa de 1000 pixeles por pasada, encontramos que la tasa de símbolo, Rs, es =1000/2.69=372
símbolos. Entonces, usando la ecuación para tasa de información de la fuente, Ri, tenemos:
Códigos de Longitud Fija
➢La manera más simple de codificar símbolos es mapear
cada símbolo en una secuencia binaria de L bits.
➢Para un alfabeto de tamaño K se requieren:
2L ≥ K
➢Para evitar desperdiciar bits se escoge L como el entero
más pequeño que satisfaga la ecuación de arriba. Es decir,
L = log2 K
Ejemplo de Código de Longitud Fija
➢Suponiendo que tenemos el siguiente alfabeto:
{a, b, c, T, $}
➢Como hay 5 símbolos en el alfabeto, K=5, para usar un código de longitud fija necesitamos:
L = log2 K = log2 5 = 3 bits
➢Ahora podemos asignar una secuencia de bits de cualquier manera a los símbolos.
a → 000
b → 001
c → 101
T → 011
$ → 100
➢Un ejemplo práctico es el código ASCII que hace un mapeo de letras, números, símbolos,
etc., en una secuencia de 8-bits.
Códigos de Longitud Variable: Códigos de Prefijo
➢Un código de prefijo se define como un código en el que ninguna
palabra-código es el prefijo de otra palabra-código.
▪ Veamos al tabla siguiente:

➢La característica de prefijo asegura que cada una de las palabras código
sean diferentes y por tanto únicamente decodificables.
Códigos de Prefijo y decodificación
➢Realizando el proceso de decodificación para el Código 1 (no prefijo) y el código 2
(prefijo):
▪ Para el caso del código 1, supongamos que se recibió la palabra 0011. En ese caso el
decodificador no sabría cuál fue la palabra que recibió, si s0s0s1s1 o s0s0s3 o s2s1s1 o s2s3.
Todas estas combinaciones producen la misma salida, por lo tanto el código no es
únicamente decodificable.
▪ En el caso del código 2, como es un código de prefijo, ninguna palabra completa es el prefijo
de otra más larga, y puede ser decodificada usando un árbol de decisiones.

▪ Un código de prefijo tiene la propiedad de que es siempre decodificable, pero lo contrario no


es cierto. Por ejemplo, el código 3 no es un código de prefijo pero porque cada una de las
palabras empieza con un 0.
Código de Huffman
➢Es un tipo de código prefijo.
▪ La idea básica es asignar a cada símbolo una secuencia de bits proporcional
en tamaño a la cantidad de información que transmite el símbolo.
o De tal manera que la longitud promedio del código se acerca al límite fundamental
definido por la entropía.
➢El algoritmo para generar el código Huffman puede describirse en dos
pasos hasta que solamente dos símbolos sobren.
1) Separar: ordenar los símbolos en orden decreciente de probabilidad (los más
probables primero).
2) Reducción: combine los dos símbolos menos probables en un nuevo símbolo
con la probabilidad igual a la suma de las dos probabilidades originales,
reduciendo el alfabeto en uno. El nuevo símbolo es colocado en la lista de
acuerdo a su probabilidad.
Ejemplo práctico de codificación de fuente
➢El ejemplo del FAX.
▪ Antes de la llegada de emails e internet, los fax fueron una medio muy popular de
comunicación y componía cerca del 25% de tráfico de comunicación internacional.
▪ Las primeras versiones del fax trabajaban a 2 Mbps por página A4.
o Esto implicaba que casi 7 minutos se tardara en enviar una página a través de la línea
telefónica estándar que opera a 4.8 kbps.
▪ Las nuevas máquinas utilizaban codificación Huffman y explotaban el hecho de que hay
más espacios en blanco que letras negras para producir una representación más eficiente
de los bits.
o Este tipo de faxes requiere menos de 1 minuto para transmitir una página a través de la línea
telefónica.
➢Otros tipos de codificación de fuentes incluyen señales de voz, audio, entre
otras.
Codificación Lempel-Ziv
➢Una desventaja del código Huffman es que requiere el conocimiento del modelo
probabilístico de la fuente.
▪ Por lo general no está disponible.
➢La técnica Lempel-Ziv no necesita esta información y se convierte en una técnica
universal.
▪ Lempel-Ziv es ahora usado en lugar de Huffman en muchas aplicaciones.
▪ Hay muchas versiones de este código, aunque solo se revisará la versión original LZ77.
▪ El algoritmo de codificación de fuentes LZ es más conocido como un algoritmo de
compresión en programas ZIP (PKZip), formatos de imagen (Giff, Tiff) y otros.
➢Además de no requerir información sobre las estadísticas de la fuente, el
algoritmo LZ proporciona mejores tasas de compresión que los códigos Huffman.
Principio de Lempel-Ziv
➢La idea principal de LZ es crear un diccionario con todas las posibles
combinaciones de símbolos y representar cada uno con un número
único.
➢Los pasos a seguir son los siguientes:
1) Se inicializa el diccionario con todos los bloques de longitud uno: D={a, b, c,
d, etc.}
2) Se busca el bloque W más corto que no haya aparecido antes.
3) Se codifica W de acuerdo a su índice en el diccionario.
4) Se agrega W seguido del primer símbolo del siguiente bloque al diccionario.
5) Se repite el paso dos hasta que todos los símbolo hayan sido codificados.
Ejemplo LZ – Números binarios
➢Utilizando el algoritmo LZ codifique el siguiente string de números:
Obtención de la representación numérica
➢La representación numérica para cada subsecuencia es una concatenación
de la representación numérica de los componentes de la subsecuencia.
▪ Por ejemplo, si consideramos la subsecuencia 00, la componente de su subsecuencia
es una concatenación de la subsecuencia 0 que tiene un número de índice 1. Por
tanto, concatenación esto dos veces da la representación numérica 11 para la
subsecuencia 00.
▪ De manera similar, la subsecuencia 01 es la concatenación de los componentes de
subsecuencia 0 y 1 con representación numérica 1 y 2. Por tanto, concatenando
ambos da como resultado la representación numérica 12 para esta subsecuencia.
▪ En cambio, la subsecuencia 011, está formada por las subsecuencias 01 y 1 que
tienen una representación numérica de 4 y 2. Por tanto, la concatenación de ambas
sería 42.
▪ Y del mismo modo para el resto de subsecuencias.
Obtención de la representación binaria
➢El último símbolo de cada subsecuencia distingue la subsecuencia de las subsecuencias
previas y por lo general se conoce como el símbolo de innovación.
➢Aplicando esta idea, el último bit de la representación binaria representa el símbolo de
innovación para la secuencia a considerar. El resto de bits son el equivalente de la
representación binaria de la subsecuencia raíz de la representación numérica.
▪ Por ejemplo, si consideramos la subsecuencia 00, el símbolo de innovación es 0 y la representación
binaria de su subsecuencia raíz (0) con representación numérica 1 es la representación binaria 001.
Concatenando el símbolo de innovación con esta representación binaria da 0010 que es la
representación binaria de la subsecuencia 00.
▪ Para la subsecuencia 01, el símbolo de innovación es 1 y la subsecuencia raíz es 0 cuya representación
numérica es 1 y cuya representación binaria 001. Concatenando el símbolo de innovación con esta
representación binaria da 0011 que es la representación binaria de la subsecuencia 01.
▪ En el caso de la subsecuencia 011, el símbolo de innovación es 1, la subsecuencia raíz 01, su
representación numérica es 4 y por tanto su representación binaria 100. Concatenando el símbolo de
innovación con esta representación binaria da 1001 que es la representación binaria de la subsecuencia
011.
▪ Y del mismo modo para el resto de subsecuencias.
Decodificador LZ
➢El decodificador sabe que la secuencia está formada por 0 y 1, así que ya tiene incluidas
estas entradas en el diccionario. A medida que llega la información, el decodificador
comenzará a llenar su diccionario de la misma manera que lo hizo el transmisor y tendrá
el mismo diccionario.
▪ Por ejemplo, cuando la palabra 0010 llega, el decodificador sabe que el último símbolo (0) es el símbolo
de innovación y que los bits restantes (001) están relacionados con la subsecuencia base 0 en la
posición 1. Por tanto, el decodificador reemplaza el bloque 0010 con 00, lo cual es correcto. Además,
actualiza el diccionario con la subsecuencia 00 como una subsecuencia base en la posición 3.
▪ Del mismo modo, al llegar la palabra 0011, el último símbolo (1) es un símbolo de innovación, y los bits
restantes indican la subsecuencia 0 en la posición 1. Por tanto, esta palabra es reemplazada con 01, lo
cual es correcto.
▪ Y así con las demás palabras.
➢Note que en este ejemplo particular el algoritmo LZ usó una representación binaria de
longitud fija que es ideal para transmisiones síncronas.
Tipos de Canales
➢Canales Discretos Sin Memoria (DMC).
▪ Se llama discreto cuando los dos alfabetos tienen tamaños finitos.
▪ Sin memoria significa que la salida actual depende solamente símbolo de entrada y
no símbolos previos.
➢El canal Discreto Sin Memoria se puede describir en términos de dos cosas:
▪ Los alfabetos de entrada y salida.
▪ Un conjunto de probabilidades de transición.
Canales Discretos Sin Memoria (DMC)
➢Este tipo de canales se puede representar de la siguiente manera:

➢Otra manera de representar este tipo de canal es con una matriz de canal (o
matriz de transición), P, como la siguiente:
Canal Simétrico Binario (BSC)
➢Es el caso especial del canal discreto sin memoria en el que j=k=2.
➢El canal tiene dos entradas, x0 = 0 y x1 = 1, y dos salidas y0 = 0 y y1 = 1.
▪ Es simétrico porque la probabilidad de recibir un 0 dado que se transmitió un 1 es igual a la
de recibir un 1 y haber transmitido un 0.
▪ Este canal se presenta cuando el transmisor transmite una forma de onda binaria y el
receptor emplea un dispositivo de decisión dura para estimar los símbolos.
▪ Se asume que el ruido en este canal causa errores estadísticamente independientes.
▪ La probabilidad de error condicional viene dada por:
Canal de Entrada Discreta y Salida Continua
➢Es parecido al DMC excepto que aquí el receptor no emplea un mecanismo de
decisión dura y por lo tanto el detector puede asumir cualquier valor.

▪ Con una densidad de probabilidad condicional igual a:

▪ El más común de este tipo de canales es el canal aditivo de ruido blanco gaussiano:
Y=X+G
▪ Donde G es una variable aleatoria de media cero con varianza 𝜎2 y X = xk, k=0,1,… , K-1
▪ Para una X dada, Y es también gaussiana con media xk y varianza 𝜎2. Es decir:
Ejemplo
➢Considere el canal binario entrada-salida mostrada en la figura. La
matriz de transición viene dada por:

➢Si las probabilidades de entrada son P(x1)=0.5 y P(x2)=0.5 determine


las probabilidades de salida y la matriz de probabilidad conjunta del
canal.
Solución
➢Las probabilidades de salida son:

➢La matriz de probabilidad conjunta del canal:


Entropía condicional
➢La incertidumbre de X después de observar Y se define como la entropía
condicional, misma que tiene la siguiente expresión:

▪ Donde es la densidad de probabilidad conjunta.


➢La entropía condicional representa la cantidad sobrante de incertidumbre
sobre la entrada al canal después que la salida del canal haya sido observada.
Información Mutua
➢La diferencia representa la incertidumbre sobre la
entrada de canal que es resuelta después de observar la salida del
canal. A esto se lo conoce la información mutua del canal, misma que
tiene la siguiente expresión:

➢Similarmente, también se puede escribir:

▪ Donde es la medida de incertidumbre sobre la salida del canal que


es resuelto enviando la entrada del canal.
Propiedades de la Información Mutua
➢Es simétrica.

➢Es siempre no negativa.

➢Se relaciona con las entropías conjuntas de entrada y salida del canal
con la siguiente expresión:

▪ Donde está definido por:


Interpretación de la Información Mutua
Capacidad de un canal
➢La máxima capacidad de un canal discreto sin memoria se da como la
máxima información mutua en cada uno de los usos del canal, donde
la maximización está sobre todas las posibles distribuciones de
entradas 𝑝(𝑥𝑗 ) y se expresa como:

▪ Donde C es función solamente de las probabilidades de transición


que definen el canal .
➢El cálculo de C implica la maximización sujeta a dos
restricciones:
Capacidad de un canal de banda limitada
➢Para sistemas de banda limitada, la capacidad del canal de un canal contaminado
con AWGN es una función de la potencia promedio de la señal recibida, S, el
ruido promedio, N, y el ancho de banda, W.
➢Esta relación de capacidad es conocida como el teorema de Shannon-Hartley, y se
expresa de la siguiente manera:

▪ Donde N = N0 · W donde N0 es la densidad espectral del ruido.


➢En teoría es posible transmitir a una tasa R, que es igual o menor a C con una
probabilidad de error baja.
▪ Sin embargo, esto solo se puede conseguir utilizando métodos eficientes de detección de
errores de canal y codificación de corrección de errores.
▪ El trabajo de Shannon muestra que hay un límite en la tasa de transmisión. Límite definido
por S, N y W.
Capacidad de Shannon
➢La ecuación de Shannon se puede ➢También se puede arreglar la gráfica
graficar como una función del SNR del para indicar cuántos Hertz son
canal. requeridos por bit por segundo.
▪ Esto nos da información de cuántos bits
por segundos por Hz pueden ser
transmitidos a un SNR específico.
Límite de Shannon
➢Por lo general es mucho más útil (informativo) trabajar en términos de la relación
energía por bit-densidad espectral de ruido, es decir, Eb/N0

➢Sustituyendo en la ecuación de capacidad obtenemos la relación entre la


capacidad normalizada y el valor de Eb/N0.

➢Reagrupando la fórmula tenemos que:


El Límite de Shannon
➢La gráfica muestra que se puede obtener
una comunicación libre de errores hasta
Eb/N0 = -1.6 dB pero no existe
comunicación libre de errores por debajo
de este umbral.
➢Esto se conoce como el límite de Shannon
y es seguramente el descubrimiento más
importante en sistemas de
comunicaciones.
➢La única manera de alcanzar el límite de
Shannon es usando un código de
corrección de errores (FEC) robusto.
➢Los mejores códigos actuales pueden
acercarse muy cerca al límite de Shannon
pero aún se necesitan mejores códigos.
El Límite de Shannon

➢El límite de Shannon también sirve de guía para determinar


cuán bueno un sistema puede ser y cuál es el límite que
puede alcanzar.
▪ Dónde estoy y dónde me tengo que detener.
➢También permite reducir la potencia de transmisión y no
tener errores.
➢La codificación del canal permite mejorar el desempeño y
alcanzar el límite de Shannon.

También podría gustarte