Teoría de La Información

NDICE
Tema 1: Teora de la Informacin
1. Introduccin
2. Fundamentos matemticos
3. Fuentes discretas y teorema de codificacin de fuentes
4. Canales discretos y teorema de codificacin de canal
TEMA 1 - TEORIA DE LA INFORMACION 1

Bibliografa
Abramson, N.
"Teora de la Informacin y Codificacin"
Paraninfo
Cover, T.
"Elements of Information Theory"
Wiley
Martnez Zaldvar, F.
"Comunicacin de Datos"
SPUPV 95538

1. Introduccin
1.1 Teora de la Informacin
1.2 Transmisin de Datos Eficiente
1.3 Transmisin de Datos Fiable
1.4 Otros Campos de la Teora de la Informacin

1. Introduccin
1.1. Teora de la Informacin
Teora de la informacin es una disciplina matemtica que trata los

siguientes aspectos:
La informacin en s y sus propiedades

La transmisin de informacin de forma eficiente
La transmisin de informacin de forma fiable
En la asignatura Transmisin de Datos slo se contemplar la informacin de

carcter digital (no es lo mismo que binaria)
Digital significa discreto (espacio muestral no continuo, en el caso binario = 2

eventos discretos)

1. Introduccin
Qu es la informacin?
Concepto difcil de definir formalmente
Se identifica con la posesin de alguna idea, significacin, etc., que una vez
compartida, produce en el receptor la adquisicin de un conocimiento (se despeja
incertidumbre sobre algo)
La transmisin de informacin va ms all de un proceso mecnico, requiere la

comprensin del mensaje y la formacin de la idea o significado a partir del
mensaje en el receptor (en principio este aspecto no es tenido en cuenta en la
teora matemtica)

1. Introduccin
Aspectos a tener en cuenta:
Es posible que la informacin de un mensaje sea mayor o menor segn el

receptor. Por ejemplo: le soleil brille slo proporciona informacin a aquellos
receptores que entienden el mensaje
La teora de la informacin no trata aspectos relacionados con la lengua, siempre

se trabajar con un lenguaje comn a todos los receptores (todos entienden los
mensajes)
Tampoco se tendrn en cuenta factores psiclogicos que afectan de forma menos

evidente a la informacin
Los aspectos semnticos de la comunicacin tampoco son aplicables al problema

ingenieril

1. Introduccin
Se puede considerar informacin como aquello susceptible de suministrar

conocimiento, reduciendo el desconocimiento o incertidumbre en el receptor
Se debe distinguir entre datos e informacin
La transmisin de datos es un proceso mecnico, que no tiene porque estar

ligado a la transmisin de informacin
Ejemplo:
Suponer una fuente que emite siempre el mismo smbolo

Hay transmisin de datos puesto que quien observe la fuente recibir un smbolo
No hay transmisin de informacin puesto que la recepcin del smbolo no
aumenta el conocimiento del receptor que estaba bien seguro de qu smbolo iba
a recibir

1. Introduccin
Sobre la idea de informacin:
Supngase un suceso y un observador
La ocurrencia del suceso divide la historia en dos:

Antes
Despus
Ambas etapas son de inters diferente
Respecto al antes:
El suceso an no ha ocurrido
Slo se puede imaginar y calcular expectativas
En esta etapa, el suceso puede ser verosmil (puede que ocurra), pero ser menos verosmil que lo
cierto (seguro que ocurre) y ms verosmil que lo imposible (nunca ocurrir)

1. Introduccin
La verosimilitud tiene grados, por tanto es una magnitud medible
La probabilidad de un suceso da una medida del grado de su verosimilitud
Cualquier suceso tiene asignado, por el simple hecho de no haber ocurrido

todava, un nmero llamado probabilidad
La probabilidad vara entre 0 y 1 y mide una distancia:
Distancia a la certeza (valor 1)

Distancia a la imposibilidad (valor 0)

1. Introduccin
Respecto al despus:
El suceso ya ha ocurrido
El concepto expectativa se evapora, al observador slo le queda sorprenderse:

Sorprenderse mucho (despus de ocurrir) si el suceso era (antes de ocurrir) poco probable
Sorprenderse poco si el suceso era muy probable
Por ejemplo:
En el lmite inferior: quin simula emocin al ver que al terminar un da comienza otro?
En el lmite superior: quin disimula emocin al ver que una gata ha parido una gaviota?
(sorpresa casi infinita)

1. Introduccin
La sorpresa es un cambio de nimo provocado por la ganancia de informacin
La informacin es por tanto una magnitud cuya medida, despus de la ocurrencia

de un suceso, depende de la probabilidad que tena antes de ocurrir, y vara entre
cero (suceso cierto, probabilidad 1) e infinito (suceso imposible)
Por tanto, la informacin es una magnitud medible, igual que pueda ser el peso
(kg) o la potencia (watios)

1. Introduccin
La informacin puede ser:
Transmitida
Almacenada
En ambos casos es necesario adaptarla a las caractersticas del medio por el

que va a ser transmitida (o almacenada), para ello se necesitan los
siguientes elementos:
Codificador de fuente: Expresa la informacin de forma unvoca con la mnima

cantidad de dgitos posibles (adecuados al sistema de transmisin o
almacenamiento), eliminando informacin redundante (eficiencia)
Codificador de canal: Aade informacin redundante (controlada: se conoce su

posicin y la forma de calcularla) con el fin de proteger la informacin frente a
posible errores en la transmisin (fiabilidad).
El codificador de canal se adapta al canal (a sus probabilidades), se protegen los smbolos en

los que se introducen errores (si no hay errores no hay proteccin).

1. Introduccin
Modulador: Proporciona soporte fsico a la informacin, convirtiendo cada

smbolo lgico (transporta informacin) en una seal analgica que ser
transmitida por un medio fsico (todos los medios de transmisin existentes son
analgicos)
Ejemplo de modulacin: representar un 1 mediante un nivel alto de tensin (p.e. 5

Voltios) durante T segundos (conformando una seal analgica) que podra transmitirse por
un cable de la red elctrica (medio analgico)
Todas las seales existentes son analgicas, en un sistema de

transmisin de datos en el que el conjunto de seales analgicas
disponibles es discreto, las seales se conocen como digitales.
Por tanto los puntos clave en la teora de la informacin son:
La eficiencia: tratada mediante la codificacin de fuente

La fiabilidad: tratada mediante la codificacin de canal
En la primera parte de la asignatura se considera la modulacin y del canal

en un mismo bloque (canal digital).
1. Introduccin
Modelo:
AAABCBBBC 00010111010 000000000111000 0
CODIFICADOR CODIFICADOR 1
FUENTE MODULADOR
DE FUENTE DE CANAL
A A 0 0 000

B B 10 1 111
C C 11 CANAL
DECODIFICADOR DECODIFICADOR
DESTINO DE FUENT E DE CANAL
DEMODULADOR

1. Introduccin
Ejemplos de Aplicaciones de la Teora de la Informacin
Codificacin de fuente:
Fax: Codificar texto e imgenes en una secuencia digital para rebajar costes
reduciendo el flujo de bits a enviar lo mximo posible. Norma de fax: MNP 2-5
JPEG: Compresin de imgenes.
Codificacin de canal:
Comunicaciones mviles GSM: codificacin convolucional
Redes de ordenadores Ethernet: codificacin cclica CRC32

1. Introduccin
1.2. Transmisin de datos eficiente
Ejemplo: Sistema de Comunicaciones Simple
Se desea mandar a Bruselas la informacin del tiempo de las capitales europeas

mediante un emisor de dgitos binarios.
Por ejemplo, en el caso de Londres se tienen las siguientes posibilidades:
Tiempo Probabilidad
Soleado 0,25
Nublado 0,125
Lluvia 0,125
Niebla 0,5

1. Introduccin
A cada smbolo a transmitir (que tendr ms o menos informacin) se le

asigna una palabra cdigo:
Tiempo Palabra cdigo

Soleado 00
Nublado 01
Lluvia 10
Niebla 11
Cdigo
Smbolos (representacin de
(informacin a la informacin
enviar) adecuada al canal)
A las palabras cdigo que forman el cdigo lo llamaremos cdigo A, todas

ellas de 2 dgitos binarios (cada smbolo representado con 2 dgitos binarios)

1. Introduccin
Luego para transmitir soleado, niebla, niebla, nublado la codificacin

utilizando el cdigo A sera:
00111101 (8 dgitos binarios)
Como todas las palabras cdigo tienen la misma longitud, slo es posible
una interpretacin de la secuencia recibida (cada dos dgitos, se tiene un
smbolo de la fuente)
Se puede utilizar otra codificacin para esta fuente (cdigo B):
Soleado 10
Nublado 110
Lluvia 1110
Niebla 0

1. Introduccin
En el cdigo B, se observa que las palabras son de longitud variable, en este

caso el punto ms importante es conocer si es posible decodificar cualquier
secuencia con un nico sentido (es unvocamente decodificable el cdigo?)
Al transmitir la secuencia soleado, niebla, niebla, nublado con el cdigo B,

la codificacin ser:
Se utilizan 7 dgitos binarios para transmitir los mismos smbolos con los que
el cdigo A utilizaba 8 dgitos binarios
Para esta combinacin de smbolos de la fuente es mejor el cdigo B que el

cdigo A, existe alguna forma de saber si un cdigo es mejor que otro en
lneas generales?
Uno de los parmetros utilizados es la longitud media del cdigo (dgitos R-arios
por palabra cdigo).

1. Introduccin
Cmo se calcula la longitud media del cdigo L?

N
Promediando: L = pi li
i =1
LA = 2 P( soleado) + 2 P (nublado) + 2 P(lluvia) + 2 P(niebla ) =

Cdigo A
1 1 1 1
= 2 + 2 + 2 + 2 = 2 digitos binarios
4 8 8 2
Cdigo B LB = 2 P( soleado) + 3 P(nublado) + 4 P(lluvia) + 1 P(niebla) =

1 1 1 1
= 2 + 3 + 4 + 1 = 1.875 digitos binarios
4 8 8 2

1. Introduccin
Es importante la forma de asignar las palabras cdigo?
Para las probabilidades del ejemplo de Londres se propone el cdigo C:
Soleado 10
Nublado 110
Lluvia 0
Niebla 1110
Al transmitir la misma secuencia anterior, la codificacin resultante ser
en este cdigo se utilizan en media 3,125 dgitos binarios por smbolo
Luego S es importante la asignacin de las palabras cdigo

1. Introduccin
Es bueno cualquier cdigo?
soleado 0
nublado 01
lluvia 001
niebla 111
Si se transmite niebla, soleado, nublado
111001
Se puede interpretar como:
111 001 niebla, lluvia

111 0 01 niebla, soleado, nublado
El cdigo no es unvocamente decodificable (cuestin vital!)

1. Introduccin
Cuestiones en la codificacin de fuente:
Cmo encontrar el mejor cdigo (el ms eficiente)? Factores:
Lograr una longitud de cdigo lo menor posible
Fcil de implementar con bajo tiempo de procesado en la codificacin y decodificacin
Que el cdigo sea unvocamente decodificable (indispensable)
Segn la aplicacin cdigos con o sin prdidas:
Para datos: cdigos sin prdidas (por ejemplo winzip)

Para aplicaciones multimedia: cdigos con prdidas (por ejemplo jpeg)

1. Introduccin
Cuestiones en la codificacin de fuente:
Hasta dnde es posible comprimir?
Existe una limitacin absoluta en la mnima longitud alcanzable en una codificacin de

fuente
La limitacin est estrechamente relacionada con la cantidad de informacin de la fuente a

codificar
Fuentes ms redundantes (proporcionan menos informacin), pueden comprimirse ms que

fuentes menos redundantes (proporcionan mayor informacin)

1. Introduccin
1.3. Transmisin de datos fiable
Ejemplo: Canal con probabilidad de error p
Se desea transmitir dgitos binarios a travs de un canal que falla con probabilidad
de error p = 0.1 (10 de cada 100 dgitos que transmite, les cambia su valor):
00001010101011010100 00001010100011010110
CANAL
20 dgitos enviados 2 dgitos errneos
Si se opta por enviar un dgito tres veces repetido en lugar de enviarlo una sola
vez, y se decide por mayora, el codificador de canal realizar la siguiente
trasformacin:
0 000, 1 111
Si no hubiese errores, slo se recibira:
000 111

1. Introduccin
En cuanto a las posibles secuencias recibidas ests pueden ser:
000 (0 errores si se envi 000 3 errores si se envi 111)

001 (1 error si se envi 000 2 errores si se envi 111)
Como es ms probable que slo haya sucedido 1 error en lugar de 2, o bien

que no hayan sucedido errores en lugar de que hayan sucedido 3, siempre
se opta por la secuencia original con menor nmero de errores
Esto implica que no existe certeza absoluta sobre si la correccin es

correcta, puesto que nos basamos en lo ms probable, en lo ms verosmil

1. Introduccin
Si se tuviese la certeza de que slo se ha producido un error, con la

codificacin anterior, ste sera corregido de forma correcta, por tanto se
puede afirmar que este cdigo corrige errores simples
Es imposible saber cuantos errores hubieron, dicho de otra forma, no se

consigue correccin absoluta, sino filosofa de correccin
Por otra parte tambin se observa que disminuye la probabilidad de error en

la decodificacin:
Para que haya un error en la decodificacin, han de fallar dos o tres dgitos (si
falla uno solo, la correccin ser buena):
3((0.1)2 0.9) + (0.1)3 = 0.028 < 0.1
No es posible saber cundo ha ocurrido un error en la decodificacin, pero ha

disminuido la probabilidad de ste, aumentando la fiabilidad
El efecto es equivalente a una disminucin de la probabilidad de error del

canal
1. Introduccin
Modelado:
0.9 0.972
"0" "0" Al repetir "0" "0"
dgitos
0.1 0.028
0.1 0.028
"1" "1" "1" "1"
0.9 0.972
Problema: disminuye la eficiencia, se enva informacin redundante
controlada, aadida para filosofa de correccin
Adems, esta informacin redundante est adaptada al canal:

1
"0" "0"
0
Slo hay que proteger el "1", se utilizara una
codificacin de canal adaptada al canal
0.1
"1" "1"
0.9
1. Introduccin
Fiabilidad vs Eficiencia
La teora de la informacin persigue dos objetivos no contrapuestos e

independientes:
Eficiencia (codificacin de fuente): representacin de la informacin con la menor cantidad

de smbolos posibles
Fiabilidad (codificacin de canal): proteccin de la informacin contra errores mediante

redundancia controlada (disminuyendo la eficiencia)
No es el mismo tipo de redundancia el que elimina la codificacin de fuente que el

que aade la codificacin de canal
Interesar comprimir lo mximo posible para poder aadir mayor cantidad de

redundancia
El cdigo A con la codificacin de canal anterior (cada dgito repetido tres veces) necesita 6
dgitos de cdigo por smbolo fuente
El cdigo B con la codificacin de canal anterior (cada dgito repetido tres veces) necesita 5,625
dgitos de cdigo por smbolo fuente
1. Introduccin
Cuestiones en la codificacin de canal:
Cmo encontrar el mejor cdigo (el ms fiable)? Factores:
Con la menor redundancia obtener la mxima proteccin
Dos posibilidades:
Deteccin: detectar errores y pedir retransmisin, tcnica ARQ (Automatic Request). Implica menor
redundancia.
Correccin: cuando se produce un error poder detectarlo y corregirlo, tcnica FEC (Forward Error
Correction). Implica mayor redundancia.
Fcilmente implementable
Normalmente, decodificar es ms costoso que codificar, por tanto esta parte deber ser lo
ms sencilla posible
Bajo tiempo de procesado para la codificacin y decodificacin

1. Introduccin
Cuestiones en la codificacin de canal:
Cul es la mnima probabilidad de error a la que se puede llegar?
La codificacin de canal debe ir asociada (adaptada) al canal que se va a utilizar:
Canales con menor probabilidad de error (probabilidad lejana de 0.5) precisarn menor
redundancia
Canales con mayor probabilidad de error (probabilidad cercana a 0.5) precisarn mayor
redundancia
Tericamente es posible disminuir la probabilidad de error tanto como se desee (salvo

si la probabilidad de error es 0.5)

1. Introduccin
1.4. Otros Campos de la Teora de la Informacin
Cuestiones de seguridad
Se desea proteger la informacin para que slo los usuarios autorizados puedan
acceder a ella, por ejemplo mediante encriptacin
Encriptacin: codificaciones ms complicadas que la codificacin de fuente y

canal
Dnde ubicar la criptografa en el modelo?
CODIFICADOR CODIFICADOR
FUENTE CRIPTOGRAFA
DE FUENTE DE CANAL
Aplicaciones de la Criptografa: accesos a bancos (ssl) o a intranets (vpn),

proteccin de ficheros (cifrado)

2.1 Variables aleatorias y probabilidad
2.2 Cuantificacin de la informacin
2.3 Entropa
2.4 Entropa de sucesos modelados por dos variables aleatorias
2.5 Teorema del Proceso de la Informacin

2.1. Variables aleatorias y probabilidad
Una variable aleatoria es una funcin que asigna un nmero (proporciona un

valor) al resultado de un experimento aleatorio que sigue una determinada
funcin de distribucin de probabilidad
Una variable aleatoria discreta toma valores discretos (el conjunto de

posibles valores es finito). Por ejemplo, podra ser la cantidad de gente que
asiste a una clase: 60 personas asistiendo a clase 10 personas asistiendo
a clase
Es posible considerar una fuente de informacin como una variable aleatoria,

pudindose modelar de la misma forma (cada smbolo que emite es uno de
los posibles valores de la variable aleatoria y sigue una distribucin de
probabilidad determinada)
Ya se ha visto que la informacin implcita en un suceso (por ejemplo, un

smbolo enviado por la fuente) guarda relacin con su probabilidad de
aparicin. Se utilizar la distribucin de probabilidades de la variable
aleatoria para evaluar la informacin media de sta

Se pueden encontrar dos puntos de vista al definir la probabilidad:
Frecuencia relativa (predomina en estadstica y en teora de la informacin):

Es aquella en la que por repeticin de un experimento o suceso, se le asigna
un valor concreto a un suceso de los posibles respecto del valor total de los
posibles resultados:
Casos Favorables
Probabilidad =
Casos Posibles
Ejemplo: lanzar una moneda al aire y anotar el nmero de caras
Grado de creencia: se refiere a una creencia respecto a un suceso que

podra pasar, es una visin subjetiva, pero an as se le puede asignar un
valor:
Ejemplo: creer que maana llover; ver un elefante en el polo norte

Conceptos bsicos de probabilidad:
p(x), probabilidad marginal: probabilidad de que ocurra el evento x, por ejemplo

probabilidad de que llueva (si 60 das de cada 100 llueve, la probabilidad de que
llueva es 0.6)
p(x,y), probabilidad conjunta: probabilidad de que ocurran los eventos x e y

(ambos sucesos no necesariamente simultneos en tiempo), por ejemplo
probabilidad de que llueva (x) y que el programa El tiempo haya dicho que llueva
(y)
p(x|y), probabilidad condicional: probabilidad de que habiendo ocurrido y, ocurra

x, por ejemplo probabilidad de que llueva (x) suponiendo que el programa El
tiempo ha predecido que llover (y)

Reglas bsicas:
p ( x, y )
Probabilidad conjunta de x e y. Por definicin: p( x | y)
p( y)
de la definicin se deduce que: p ( x, y ) = p ( x | y ) p ( y ) = p ( y | x ) p ( x )
En caso de ser independientes: p ( x | y ) = p( x) y p ( y | x) = p( y )
y la probabilidad conjunta queda como p ( x, y ) = p ( x ) p ( y )
Regla del sumatorio p ( x ) = p ( x, y ) = p ( x | y ) p ( y )

y y
p( x | y ) p( y )
Teorema de Bayes: p ( y | x) =
p( x)
2.2. Cuantificacin de la informacin
Se pretende cuantificar de forma objetiva la informacin
La teora matemtica est centrada sobre los smbolos y su contenido de

informacin (abstrayndose de usos humanos especficos)
La expresin para medir la informacin debe tener las siguientes

propiedades:
Debe ser proporcional al conocimiento que genera o, dicho de otro modo, a la

incertidumbre que despeja tras su conocimiento, de manera que:
Evento con probabilidad de ocurrencia alta genera poco conocimiento (despeja poca
incertidumbre) Aporta poca informacin
Evento con probabilidad de ocurrencia baja genera mucho conocimiento (despeja mucha
incertidumbre) Aporta mucha informacin
1
I=f donde p(x) es la probabilidad del suceso x
p( x)

La expresin para medir la informacin debe tener las siguientes

propiedades:
Tiene que resultar en valores nulos o positivos
Debe poseer una mtrica lineal: la informacin proporcionada por dos mensajes
debe ser igual a la suma de informacin suministrada por cada uno de ellos:
I(A y B) = I(A) + I(B) si A y B son independientes
La funcin que satisface los requerimientos anteriores es el logaritmo

Shannon propuso una frmula para medir la cantidad de informacin I que proporciona
un suceso en funcin de su probabilidad:
1
I ( x) = log b = log b p ( x) b es la base del logaritmo
p( x)
p(x) es la probabilidad del suceso x
Cules son las unidades? Depender de la base del logaritmo:
Base 10 dits o Harley

Base 2 bits
Base e nats
Si no se especifica la base se supondr base 2
Definicin de logaritmo en base a: ln x (La base natural del

log a x =
ln a logaritmo es
neperiano)
log10 x
log b x = log b a log a x log 2 x =
Tambin puede utilizarse la siguiente expresin: log10 2
La palabra bit puede llevar a confusin:
Se utiliza como unidad de informacin
Define los elementos del resultado de la codificacin de un mensaje si est

codificado con los smbolos 0 y 1
Ejemplo:
Mensaje Probabilidad Informacin Codificacin

x 0.25 2 bits 001
Un bit (dgito binario) dentro de un mensaje puede llevar asociada una

informacin mayor o menor que un bit de informacin
Ejemplo: como el mensaje x tiene 2 bits de informacin y se representa con

tres bits (dgitos binarios), cada uno de ellos tendr 2/3 bits de informacin

La probabilidad p determina cuanto de seguro o cierto hay en el suceso (grado de incertidumbre),

siendo ms incierto cuanto menor sea su probabilidad
Por ejemplo, la existencia de un tornado proporciona mucha ms informacin que la de un nuevo

amanecer:
El amanecer es un suceso previsto

El tornado es un suceso incierto con una ocurrencia no contemplada
Se observa cmo la cantidad de informacin est ligada al grado de incertidumbre
Matemticamente, -log(x) = log(1/x) es una expresin que aumenta segn x disminuye de 1 a 0

(baja la probabilidad)

2.3. Entropa
Una fuente de informacin puede caracterizarse mediante una variable

aleatoria discreta X que genera smbolos xi
Fuente xi1, xi 2 , xi3 ,....., xin (instantes de tiempo:1, 2, 3, .......,n)
{ xi }
Genera smbolos xi m simbolos posibles { x1, x2, x3,...., xm}
con cierta cadencia
Se produce un suceso de la variable aleatoria X, cuando sta toma el valor

de un smbolo, X = xi, con probabilidad p(X = xi)
Si la aparicin de los smbolos de la fuente sigue una distribucin

estadsticamente independiente, la fuente es sin memoria, si adems el
conjunto de probabilidades no cambia con el tiempo se dice que la fuente es
estacionaria
El conjunto de esas probabilidades forman la distribucin de probabilidades

p(x) que son exclusivas:
TEMA 1 - TEORIA DE LA INFORMACION
p( X = x ) = 1
i
i
43
2.3. Entropa
La entropa de la fuente es el valor medio de la informacin proporcionada

por la fuente al emitir smbolos
Se calcula como la esperanza matemtica de la informacin de cada uno de

los posibles valores que puede tomar X
Para las fuentes sin memoria el valor de la entropa denotado como H(X)
viene dado por la frmula siguiente:
1
H ( X ) = E [ I ( X = xi ) ] = p ( xi ) I ( X = xi ) = p ( xi ) log a
xi X xi X p ( x )
i
La base del logaritmo es a, cuando a = 2, la entropa se mide en bits de

informacin por smbolo de fuente

2.3. Entropa
La entropa representa:
el valor medio de la informacin suministrada por la fuente cuando entrega un

mensaje
el valor medio de la sorpresa causada o desconocimiento disipado (incertidumbre
despejada) de un observador al conocer la salida de la fuente
H(X) es la incertidumbre que queda por despejar sobre X antes de conocer la
salida de X (no es 100 % correcto, puesto que no hay informacin hasta que no se
da un suceso)
El valor de la entropa es independiente de la representacin (codificacin)

utilizada para la informacin, slo depende de la distribucin de
probabilidades de la fuente
Ejemplo: Fuente F con un alfabeto compuesto por tres smbolos: A, B y C,

con probabilidades 0.5, 0.3 y 0.2 respectivamente, cul es su entropa?
1 1 1
H ( F ) = 0.5log + 0.3log + 0.2 log = 1.485 bits / simbolo
0.5 0.3 0.2
En media la informacin suministrada por cada smbolo de F que se conoce
es 1.485 bits
2.3. Entropa
Propiedades de la entropa:
H(X)0 (la fuente suministra una informacin media mayor o igual que cero, p(xi) 0 y
log(1/p(xi)) 0)
X no suministra informacin cuando slo emite un mensaje entre todos los posibles, H(X)=0 :
1, i= j 1 1 1 1
{ x1 , x2 ,...., xm } ; p( xi ) = H ( X ) = 0 log + 0 log + " 0 log + 1 log = 0
0, i j 0 0 0 1
La entropa es mxima cuando todos los valores xi de la variable aleatoria X son

equiprobables (todos provocan la misma sorpresa): H(X)= log N, siendo N el rango de
la fuente (nmero de mensajes):

1 1 1 1 N
N
1 N
N elementos p ( xi ) = xi H ( X ) = log = log N = log N 1 = log N
N i =1 N 1 N i =1 N i =1
N
Informacin y promedio siempre
Por tanto: Se cumple que: 0 H ( X ) log N positivos
H(X) montona creciente con N si
TEMA 1 - TEORIA DE LA INFORMACION hay equiprobabilidad 46
2.3. Entropa
Ejemplo: fuente binaria (N=2)

El argumento de H() es X: variable aleatoria
Si N = 2 H ( X ) = H 2 ( X ) = H 2 ( p )
El argumento de H() es p: valor de probabilidad
Logaritmos
en base 2
Los mensajes posibles son x0 p, x1 1-p, donde p es la probabilidad de

aparicin de x0
1 1
H 2 ( p ) = p log + (1 p ) log H (X ) Si X es binaria H(X) = H(p)
p 1 p
Para representarla se utilizan dos dimensiones: p y valor de H(p)

2.3. Entropa
para p = 0 H 2 ( p ) = 0
H 2 = log 2 2 + log 2 ( 2 ) = 1
1 1 1
para p = 1 H 2 ( p ) = 0 2 2 2
bits
H 2 ( p)
Sistema determinista
0 0.5 1 p
2.3. Entropa
Segn el rango de la fuente, la entropa puede tomar unos valores u otros:
Si son 2 elementos entropa {0 1} bit (mximo = log2 2)
Si son 3 elementos entropa {0 1.5850} bit (mximo = log2 3)
Si son 4 elementos entropa {0 2} bits (mximo = log2 4)

Si son 8 elementos entropa {0
3} bits (mximo = log2 8)

Si son 2N elementos entropa {0 N} bits (mximo = log2 2N)

2.4. Entropa de sucesos modelados por dos variables aleatorias
Entropa conjunta:
Se trata de dos fuentes X e Y ambas con igual cadencia y distinto n de mensajes,

qu informacin dan las dos a la vez?
X (Rango N) { xi } Observacin de 2 fuentes conjunta y

simultneamente (no necesariamente
Y (Rango M) { yi } simultneas en tiempo)
Qu sucede al aparecer 2 mensajes a la vez? Se define la informacin de dos

mensajes simultneos:
1
I ( xi , y j ) = log
p ( xi , y j )

1
H ( X , Y ) = p ( xi , y j ) log
N M
Y la entropa conjunta a H(X,Y):
i =1 j =1 p ( xi , y j )
Entropa conjunta:
Interesa la probabilidad de que sucedan dos sucesos simultneamente
H(X,Y) = H(Y,X)
H(X,Y) H(X) + H(Y): habr igualdad si son independientes y habr desigualdad

si una proporciona la informacin sobre la otra, es decir, si no son independientes
Al considerar las fuentes de forma conjunta puede ser que las fuentes tengan
informacin comn
Ejemplo:
Fuente A: resultados de partidos de ligas de Europa

Fuente B: resultados de partidos de ligas de Brasil y Portugal
Las fuentes A y B solapan la informacin de los resultados de Portugal
Entropa conjunta:
Diagrama de Venn: H(X) H (Y )
H(X) H (Y ) H(X) H (Y )
H ( X ,Y ) H ( X ,Y )
Hay dependencia (solape):

Hay independencia:
H(X,Y) < H(X) + H(Y)
H(X,Y) = H(X) + H(Y)
Entropa condicional:
Qu incertidumbre queda sobre una variable aleatoria X (fuente X) conocida la

salida de una fuente Y?. Qu falta por conocer de X una vez se conoce Y?
?
Y
Ejemplo: una vez conocidos los resultados de Brasil y Portugal de la fuente B, de

la fuente A queda por conocer los resultados de Europa excepto los de Portugal
Se define la entropa condicional: H(X|Y)

Diagrama de Venn: H(X) H (Y )
H ( X |Y ) H (Y | X )
H ( X | Y ) = H (X ) H (Y | X ) = H (Y )
Lo que queda por conocer de X conocido Y
Lo que se conoce de X conocido Y
Hay dependencia (solape):

Hay independencia:
H(X|Y) < H(X)
H(X|Y) = H(X)
H(X|Y) = H(X) si X e Y son independientes
H(X|Y) H(Y|X) , en general es distinta la informacin que queda por conocer

sobre X conocida la Y, que la queda por conocer sobre Y conocida X
Por definicin: H ( X | Y ) H ( X , Y ) H (Y )
Del diagrama de Venn:
H(X)
H (Y ) H(X,Y) = H(Y) + H(X|Y) H(X|Y) = H(X,Y) H(Y)
H ( X |Y ) H (Y | X ) H(Y,X) = H(X) + H(Y|X) H(Y|X) = H(Y,X) H(X)
H(X,Y) = H(Y,X)
H ( X ,Y )
H ( X | Y ) = H ( X , Y ) H (Y )
1 1
H ( X , Y ) = p ( xi , y j ) log = p ( xi , y j ) log =
p ( xi , y j ) i j p ( xi | y j ) p ( y j )
i j
1 1
= p ( xi , y j ) log + p ( xi , y j ) log =
( i j) i j ( j)
i j p x | y p y
1 1 1
= p ( xi , y j ) log + p ( y j ) log = p ( xi , y j ) log + H (Y )
p ( xi | y j ) j p( yj ) i j p ( xi | y j )
i j
1 1
H ( X | Y ) = p ( xi , y j ) log + H (Y ) H (Y ) = p ( xi , y j ) log
p ( xi | y j ) p ( xi | y j )
i j i j
1
H ( X | Y ) = p ( xi , y j ) log
p ( xi | y j )
i j
Ejemplo: Modelo de Canal: BSC (Binary Symmetric Channel)
Binary: Entrada y Salida Binarias
Symmetric: probabilidades de transicin simtricas

1-p
0 0
p = probabilidad de error de bit
p
X Y
p
X Canal Y
1 1
1-p
X: variable aleatoria que representa la entrada al canal
Y: variable aleatoria que representa la salida del canal
Interesa que X e Y tengan alto grado de parecido (no significa que tomen los mismos valores)
quiere decir que con los valores de Y se pueda concluir algo sobre los valores de X.
Adems no tienen porqu tener la misma distribucin para los distintos smbolos
Si sabemos la salida, qu incertidumbre nos queda sobre la entrada? Si el canal es

ideal, conocida la salida la incertidumbre sobre la entrada es 0.
Si BSC ideal H(X|Y)=0, si y = 0 y veo que x = 0 (o si y = 0 y x = 1 siempre) no me

llevo ninguna sorpresa.
Datos: p(X = 0) = 0.7; p(X = 1) = 0.3; p = 0.2
Cunto vale H ( X / Y ) ?
2 2 1 p ( y = "0"| x = "1") = p
H ( X | Y ) = p ( xi , y j ) log
p ( xi | y j )

i =1 j =1
p ( y = "1" | x = "1") = 1 p
Aplicar Teoremas de Probabilidad
p ( xi , y j )
p ( xi , y j ) = p ( y j | xi ) p ( xi ) p ( y j ) = p ( xi , y j ) p( xi | y j ) =
n
i =1 p( y j )
La solucin es: H(X|Y) = 0.64 bits por smbolos, queda bastante incertidumbre por despejar, el
canal es muy ruidoso
En un canal ideal sera H(X|Y)=0 (conocida la salida, conozco la entrada sin incertidumbre)

Para la fuente del ejemplo, la entropa es: H ( X ) = p ( x0 ) log 1 + p ( x1 ) log 1 = 0.88 bits
p(x ) p ( x1 )
0

Ejemplo BSC (Resultados):

Informacin Mtua:
Es una medida de la informacin que contiene una variable aleatoria sobre otra
Es la reduccin de incertidumbre de una variable aleatoria debido al conocimiento de otra
Observando el diagrama de Venn:
H(X )
I ( X ;Y ) H(X): incertidumbre sobre X antes de conocer Y
y antes de conocer X
H ( X |Y ) H (Y | X ) H(X|Y): incertidumbre sobre X tras conocer Y

y antes de conocer X
H (Y ) (se cumple que H(X) H(X|Y))
Al restar ambas cantidades, se obtiene la incertidumbre que Y despeja sobre X
Si Y despeja incertidumbre sobre X es porque tiene algo en comn con X
A la diferencia se le llama informacin mtua: I(X;Y)=H(X)-H(X|Y)

Informacin Mtua:
Si X e Y son independientes: I(X;Y) = 0
Si X e Y son muy dependientes: I(X;Y) = H(X)
Algebraicamente:
1 1
I ( X ; Y ) = H ( X ) H ( X / Y ) = p ( xi ) log p ( xi , y j ) log
( i) i j p ( xi | y j )
i p x
1 1
= p ( xi , y j ) log p ( xi , y j ) log =
p ( xi ) i j p ( xi | y j )
i j
1 1 p ( xi | y j )
p ( xi , y j ) log log = p ( xi , y j ) log
p ( xi ) p ( xi | y j ) i j
p ( xi )
i j

Informacin Mtua:
Da idea del grado de parecido de 2 variables aleatorias (no significa que X = Y)
La informacin mutua es un promediado de la informacin entre los dos mensajes
Son informaciones mutuas entre pares de mensajes
La informacin entre un par de mensajes puede ser negativa, pero entre dos
fuentes nunca
p( xi | y j ) p( y j | xi )
{ }
I ( X ; Y ) = E I ( xi , y j ) ; I ( xi , y j ) = log
p ( xi )
= log
p( y j )
p ( xi | y j )
{ }
I ( X ; Y ) = E I ( xi , y j ) = p ( xi , y j ) log
p ( xi )

i j


Informacin Mtua:
Propiedades:
I(X;Y) 0. La informacin mtua de X e Y es cero si son variables aleatorias independientes
I(X;Y) = I(Y;X). Es lo que tienen en comn, tanto X con Y como Y con X.
I(X;Y) = H(X) + H(Y) - H(X,Y)
La informacin mtua puede ser como mximo igual a la incertidumbre de la variable con menor
entropa:
H(X )
I ( X ;Y )
I(X;Y) H(X)
I(X;Y) H(Y)
H ( X |Y ) H (Y | X )
H (Y )
TEMA 1 - TEORIA DE LA INFORMACION H ( X ,Y ) 64

Ejemplo de Aplicacin:
Tenemos dos monedas, una falsa con 2 caras y una buena con cara y cruz. De
una bolsa sacamos una de las dos monedas, se tira al aire dos veces y se anota
el n de caras. Queremos saber a partir del n de caras cul fue la moneda
escogida. Aumentando el n de tiradas podemos saber cul fue la moneda
escogida?
A mayor cantidad de informacin mtua entre el nmero de caras y la moneda

escogida, menor probabilidad de error en la decisin de la moneda a partir del
nmero de caras
Queremos extraer X a partir de Y con baja probabilidad de error (en un canal de

comunicaciones ocurre lo mismo).
X = {CZ , CC} Y = {0,1, 2}
X = variable aleatoria que representa la moneda escogida: buena o falsa

Y = variable aleatoria que representa el nmero de caras obtenido
X Y 0 caras
Proceso 1 cara
2 caras
Segn sea la moneda:
Falsa: 2 caras
I(X;Y) ?
2 caras
buena 1 cara y 1 cruz
2 cruces

Modelado (relacin con CBS (Canal Binario Simtrico)):
0
1/4
CZ
1
1/2
c c = z z =
4
1
1 1 1
c z = z c = + =
4 4 2
1/4
CC
1
2

1 1
p ( xi = ' CZ ' ) = p ( xi = ' CC ') =
2 2
I ( X ;Y ) = H ( X ) H ( X / Y )
H(X)=1, entropa de fuente binaria con p=0.5
1
H ( X | Y ) = p ( xi , y j ) log
i j p ( xi | yi )
Resultado: H(X|Y)=0.45 bits/moneda (en un canal de comunicacin bits/smbolo)
I(X;Y) = 0.55 bits / moneda

Si se amplia a tres tiradas:
Alfabeto de salida
Alfabeto de entrada 0
1/8
3/8
CZ 1
3/8
1/8 2
CC
1
3
Esta probabilidad va disminuyendo

Si se amplia a tres tiradas:
I(X;Y) = 0.717 bits por moneda
Qu ocurre cuando el nmero de tiradas es ? Se elimina la incertidumbre que queda sobre la

entrada, el modelo queda:
n
1
1
2
X = cz Y< n
n
1

2
X = cc Y= n
1
En un canal de comunicaciones todo es funcin de la probabilidad de error. A menor probabilidad de
error, mayor informacin mtua
Da igual la cantidad de informacin a la entrada, lo que importa es la informacin mtua entre la

entrada y la salida

Informacin Mtua:
Informacin mtua con dos o ms fuentes (en este caso 3 variables aleatorias):
I(Z;X,Y) = H(Z) H(Z|X,Y): Razomaniento idntico a I(X;Y) (slo 2 variables), pero donde
apareca p(yj) ahora se pondr p(xi,yj)
I(Z;X,Y) = I(X,Y;Z)
I(Z;Y) I(Z;X,Y), ya que la fuente X puede aportar informacin sobre Z que no aporta Y
(ejemplo escuchar 3 emisoras de radio)
I (Z ;Y ) I (Z ;Y )
I (Z; X , Y )
Z Y Z Y
X I (Z ; X )
2.5. Teorema del proceso de la Informacin
Cualquier proceso sobre la informacin la va a degradar
Suponer dos sistemas en cascada
p ( zi | x j , yl ) = p ( zi | yl )
X Y Z
p(Y | X ) p(Z | Y )
Conociendo el valor de Y basta para conocer estadsticamente los valores de Z. Esto

no significa que X y Z sean independientes. O sea que las p(z|x) existen y son
diferentes a las p(z), por tanto I(X;Z) 0.
X no influye en las probabilidades de transicin de Y a Z (el comportamiento de una

caja no depende de la entrada a otra caja)
Al ocurrir esto, X Y Z forman una cadena de Markov (no hay memoria de una
caja a otra)
Caracterstica: X i 1 X i X i +1
Las probabilidades de transicin de Xi a X i +1 , no dependen de X i 1
Cuando se cumple lo anterior (cadenas de Markov), se cumple tambin que:
p ( xi / yi , zi ) = p ( xi / yi )
(yendo en sentido contrario)
Desarrollando los sumatorios, puede concluirse que:
I ( Z ; X ,Y ) = I ( Z ;Y )
I ( X ;Y , Z ) = I ( X ;Y )

Teniendo en cuenta una propiedad de la informacin mtua:
I ( X ; Z ) I ( X ;Y , Z ) =
N I ( X ;Y )
Trans. ant.
Es posible deducir las siguientes expresiones:
I ( X ;Y ) X Y Z
I ( X;Z )
I (Y ; Z )
La informacin mutua entre la 1 y la 3 no puede ser mayor que entre la 1 y la 2 o

entre la 2 y la 3.
Si no existe probabilidad de error (proceso ideal) se cumple la igualdad

Aplicacin en comunicaciones:
U I ( X ;Y )
X Y Z I ( X ; Z )

Fuente Cod Canal Canal Dec Canal Destino I ( X ,U )
I (Y ;U )
I (Y ; Z )
La codificacin de canal intentar aprovechar al mximo la informacin que

fluye, pero no podr aumentar la informacin (el flujo de informacin)
Por ejemplo, se puede aumentar la informacin til en destino repitiendo bits

(codificacin de canal)
Al realizar las codificaciones se pretende incrementar la informacin til en

destino
3.1 Introduccin
3.2 Modelo de Fuentes discretas sin memoria
3.3 Cdigos unvocamente decodificables
3.4 Teorema de codificacin de fuentes
3.5 Algoritmos de codificacin

3.1. Introduccin
Modelo
Vamos a suponer un canal (o soporte en el que almacenar la informacin)

perfecto, por lo que no pondremos los bloques de codificacin/decodificacin de
canal, es decir, control de errores, ni el propio canal (o soporte)
Fuente Cod Fuente Dec Fuente Destino
Codificador de fuente: convierte los smbolos de fuente a smbolos de canal

(palabras cdigo), dando a la informacin un soporte lgico (del soporte fsico se
encarga el modulador)
Palabra cdigo: ser transmitida por el canal (o almacenada en un soporte)
Decodificador de fuente: correspondencia entre palabras cdigo y alfabeto destino

3.1. Introduccin
La codificacin de fuentes:
Establece una correspondencia entre dos alfabetos, no necesariamente distintos:
El alfabeto de la fuente
El alfabeto del sistema de transmisin
Esta correspondencia es la codificacin: funcin que asocia un smbolo o conjunto

de smbolos del alfabeto cdigo (palabra cdigo) a cada smbolo o conjunto de
smbolos del alfabeto fuente (mensaje)
a0 b0
a1 b
1

A C: A B B

an bm

3.1. Introduccin
Objetivos de la codificacin de fuentes
Obtener secuencias de salida lo ms concisas posible, para realizar un uso lo ms

eficiente posible de los recursos del sistema de transmisin: COMPRESIN
Garantizar la reversibilidad del proceso: el decodificador de fuente del receptor

debe poder invertir la transformacin y obtener la secuencia de smbolos de la
fuente:
C 1 : B A
La reversibilidad es el punto ms importante en la codificacin de fuentes.

3.1. Introduccin
Ejemplo: Cdigo Morse
Los smbolos del canal sern: (punto y lnea) y el alfabeto fuente ser las letras
del alfabeto ingls ms los diez smbolos decimales
Obtenemos las estadsticas de la fuente
Smbolo de fuente (k=1) Probabilidad Dgitos de canal

A 0,0642

B 0,0127

C 0,0218

D 0,0317

E 0,1031

F 0,0208
........... ................... ................

3.1. Introduccin
Ejemplo: Cdigo Morse
............ ............
.................
X 0,0013
Y 0,0164
Z 0,0005
Se puede observar que:
A mayor probabilidad de aparicin de smbolos, menor nmero de smbolos de canal asignado
Es posible que el vector de smbolos de canal asociados a cada vector de smbolos de fuente no
tenga longitud constante

3.2. Fuentes discretas sin memoria
Parmetros de una fuente
Cada unidad de tiempo enva un smbolo
Conjunto de posibles smbolos que puede generar la fuente (alfabeto fuente)

es discreto
Salida en el instante i-simo modelada con una variable aleatoria Ui, con lo
que se puede aplicar todo lo visto en el apartado 2 Fundamentos
matemticos
S = {U i } Secuencia de salida U1 ,U 2 ,.....,U z
La probabilidad de un mensaje no cambia con el tiempo. U i existe la

misma distribucin de probabilidad
En una fuente sin memoria Ui independiente una a una i
Est caracterizada por tanto tambin con una entropa H(U)

Extensin o agrupacin de fuente
En la discusin de conceptos de la teora de la informacin muchas veces es

conveniente tratar con bloques en lugar de tratar con smbolos individuales
La agrupacin de fuente consiste en trabajar con grupos de smbolos en lugar de

smbolos individuales
Cada smbolo individual tiene una probabilidad: p(si) = pi
Por ejemplo, en el caso de una fuente que emite dos smbolos A y B, en lugar de
cogerlos de uno en uno, esperamos un tiempo y los agrupamos de dos en dos,
con lo que quedaran agrupados como AA, AB, BA y BB (mensajes = agrupacin
de smbolos)
En general, si tenemos una fuente de memoria nula, S, con un alfabeto:

{s1, s2, s3,, sq } podemos agrupar las salidas en grupos de k smbolos.
Tendremos entonces qk secuencias de salidas distintas
A partir de la fuente S, obtenemos la fuente Sk


Ejemplo de extensin de fuente
H(S) H(S2) H(S3) H(Sk)
a 0'25 aa 0'0625 aaa 0'01563 aa...a 0.25k

aa...b k-1
b 0'75 ab 0'1875 aab 0'0468 0.25 0.75
ba 0'1875 ... ... ... ...
H(S)=0.8113
bb 0'5625 ... ... ... ...
... ... ... ...
H(S2)=1.6226 ... ... ... ...
... ... ... ...
bbb 0'4219 ... ...
... ...
3
H(S )=2.4339 ... ...
... ...
bb...b 0.75k
H(Sk) = k 0.8113 = kH(S)

Sea i el smbolo de S k que corresponde a la secuencia ( si1 , si 2 , si 3 ,..., sik )
1
H ( S k ) = p ( i ) log
Sk p ( i )
Como hay independencia: p ( i ) = p ( si1 , si 2 ,......, sik ) = p ( si1 ) p ( si 2 ) p ( sik )
1 1 1
H ( S k ) = p ( i ) log = p( i ) log + p ( i ) log + ...
Sk p ( si1 ) p ( si 2 ) ... p( sik ) Sk p ( si1 ) S k p ( si 2 )
1
... + p ( i ) log
Sk p( sik )
Los k sumandos son similares

Tomando el primero de los sumandos
1 1 q
1
k i p(s ) k i1 i 2 ik
p ( ) log = p ( s , s , , s ) log =
p ( si1 ) i1=1
p ( si1 ) log
p( si1 )
= H (S )
S i1 S
Prob. Conjuntas = Prob. Marginal
Como hay k sumandos iguales: H (S k ) = k H (S )

3.3. Cdigos Unvocamente Decodificables
En el modelo:
Fuente Cod Fuente Dec Fuente Destino
s1, s2, s1, s3, 011001110
La fuente emite smbolos a los que se desea dar una representacin lgica
(mediante dgitos)
Esta fuente puede considerarse como tal (emite smbolos) o como una fuente de
orden superior (emite mensajes agrupaciones de smbolos)
La representacin lgica de los smbolos (mensajes) de la fuente (agrupacin de

fuente) ser proporcionada por el codificador de fuente mediante un cdigo
El requisito imprescindible para un cdigo es que sea unvocamente decodificable

(se puede recuperar la informacin en destino)

Existen dos alternativas para los cdigos:
Cdigos de longitud fija (todas las palabras cdigo con = longitud)

Cdigos de longitud variable (cada pal. cd. puede tener una longitud )
ALFABETO FUENTE
CODIGO
Smbolos de la fuente Probabilidades Cdigo A Cdigo B

S1 0.65 00 0
S2 0.15 01 10
S3 0.15 10 110
S4 0.05 11 1110
SMBOLO
CODIFICACION PALABRA CODIGO {0,1}

TEMA 1 - TEORIA DE LA INFORMACION ALFABETO CODIGO 88
Cdigos unvocamente decodificables
Definicin: un cdigo es unvocamente decodificable si cualquier secuencia de

palabras cdigo tiene una nica descomposicin como concatenacin de palabras
cdigo
Buscamos la interpretacin inequvoca de lo transmitido, es fundamental
Los cdigos de longitud fija sin palabras cdigo repetidas son todos unvocamente
decodificables
Los cdigos de longitud variable no necesariamente son unvocamente

decodificables

Ejemplo:
Sea el cdigo {01,001,010} es unvocamente decodificable?
Supongamos que por el canal circula 01001. Llega a destino y lo decodificamos
01 001
No es
unvocamente
01001 decodificable,
hay varias
soluciones en la
010 01 decodificacin
El cdigo anterior no se utilizar para transmitir o almacenar informacin

Definiciones necesarias para comprobar si un cdigo es unvocamente

decodificable:
Cadena de longitud l (): sucesin ordenada de elementos de un alfabeto
= u1 , u2 ,......, ul la longitud se expresa como =l
Concatenacin de cadenas 1 2
1 2 = u11 , u12 ,......., u1l1u21 , u22 ,..........u2l 2
Longitud de la concatenacin 1 2 = 1 + 2
1 prefijo de
= 1 + 2 + 3 2 subcadena de
Si
3 sufijo de
Ejemplo:
Alfabeto cdigo : {0, 1, 2}
Palabras cdigo (son cadenas):

1 : {0112}, longitud | 1 | = 4
2 : {222}, longitud | 2 | = 3
3 : {00001}, longitud | 3 |=5
Concatenacin: 1 * 2 = {0112222}
Longitud concatenacin = | 1 | + | 2 | = 7
La concatenacin se produce al codificar los smbolos de fuente:
A {0112}, B {222}; ABAAAB 0112222011201120112222
Si se forma la cadena de palabras = 1 * 2 * 3 = {011222200001}:

1 es el prefijo de : 0112
2 es la subcadena de : 222
3 es el sufijo de : 00001

Cdigos prefijos
Definicin: un cdigo se llama prefijo si ninguna de sus palabras cdigo son prefijo
de otras palabras cdigo.
Todo cdigo prefijo es unvocamente decodificable.
Un cdigo no prefijo puede ser unvocamente decodificable.
Ejemplos:
Cdigo prefijo: {01,1,001}
Cdigo no prefijo: {01, 0100, 011}

Algoritmo para comprobar si un cdigo es unvocamente decodificable (I)
C = { 1 , 2 ,....., N }
1. C0 = C; i = 1
2. Creamos un cdigo Ci de forma que
Ci = { / ' C0 y '' Ci1 / ' * = '' o '' = ' }
Creamos un cdigo Buscamos cadenas de C0 (') que sea prefijo de cadenas

de Ci-1 ('') y cadenas de Ci-1 ('') que sean prefijo de
cadenas de C0 (') y nos quedamos con las subcadenas
Algoritmo para comprobar si un cdigo es unvocamente decodificable (II)
3. Si Ci = 0 o Ci = C j (j < i) Si es u.d. y terminamos
4. Si Ci C0 No es u.d. y terminamos
INTERSECCIN
(Tienen algo en comn)
5. i = i + 1 , volver al paso 2

Ejemplo: comprobar si C es unvocamente decodificable:
C = {01, 001, 11, 01111, 0001, 1011}
A B C D E F
Comprobar si el cdigo es prefijo no es prefijo: A prefijo de D

Aplicamos el algoritmo anterior
1. C = {01, 001, 11, 01111, 0001, 1011}
C0 = {01, 001, 11, 01111, 0001, 1011}; i = 1

Ejemplo:
2. Buscar cadenas de C0 que sean prefijo de cadenas de C0

C1 = {111}
3. C1 no est vaco, ni C1 = C0
4. La interseccin de C1 con C0 es
5. i = i + 1 = 2;
2. Buscar cadenas de C1 prefijo de C0 y cadenas de C0 prefijo de C1

C2 = {1}
3. C1 no est vaco, ni C2 = C1, C2 = C0

5. i = i + 1 = 3;
Ejemplo:
2. Buscar cadenas de C2 prefijo de C0 y cadenas de C0 prefijo de C2

C3 = {1, 011}
3. C3 no est vaco, ni C3 = C2, C3 = C1, C3 = C0

5. i = i + 1 = 4;
2. Buscar cadenas de C3 prefijo de C0 yCcadenas

0 de C0 prefijo
C0 de C3 C3
C4 = {1, 11, 011}
3. C4 no est vaco, ni C4 = C3, C4 = C2, C4 = C1, C4 = C0

4. La interseccin de C4 con C0 es {11}, por tanto el cdigo NO es
unvocamente decodificable
Ejemplo
La cadena 0111101111 podra decodificarse como:
01111 01111
01 11 1011 11
Una vez se tiene un cdigo unvocamente decodificable:
Todos los prefijo (de longitud fija y variable)

Algunos de longitud variable no prefijo
interesa que sus palabras tengan la menor longitud posible.

Teorema de Kraft
La construccin de cdigos prefijo impone ciertas limitaciones sobre las longitudes

de las palabras cdigo
Por ejemplo, es posible codificar tres mensajes distintos, A, B y C con un cdigo

binario que sea prefijo y que sus longitudes sean {1,1,2}? La respuesta es NO.
A=0
B=1
C = {00, 01, 10, 11}: No puede existir un cdigo prefijo!
El conjunto de longitudes de palabras cdigo que posibilitan la construccin de un

cdigo prefijo es indicado mediante el teorema de Kraft:
Dadas un conjunto de longitudes de palabras cdigo {l1, l2, , lN} = {|1|, |2|, , |N|} y un
alfabeto cdigo de R smbolos, existe un cdigo prefijo con esas longitudes si y slo si se cumple
que:
N
R
i =1
| i |
1

Algoritmo cdigo prefijo
El teorema de Kraft no hace referencia sobre si un determinado cdigo es o no

prefijo, sino si con las longitudes de las palabras cdigo se puede obtener ste.
Pasos para obtener un cdigo prefijo que cumpla el teorema de Kraft:
Ordenar las cadenas de forma que 0 1 ......... N (por longitudes de menor a mayor)
j 1
0 = 0, j = R
j i
Calcular los nmeros enteros , 1 j N 1
i =0
j se construye con la representacin en base R de j , precedida de los ceros necesarios para que
su longitud sea la deseada
No hay alusin a las probabilidades de fuente para realizar la asignacin de

palabras fuente a palabra cdigo (codificacin)

Ejemplo: encontrar un cdigo prefijo para las longitudes { } = {1,3,3,3, 4}

i
Alfabeto binario R=2

Se necesitan 5 palabras cdigo y se posee sus longitudes
Aplicamos el teorema de Kraft
5
1 1 1 1 1 1 3 1
2
i =1
i
= + 3 + 3 + 3 + 4 = + + = 0.9375 1
2 2 2 2 2 2 8 16
1. Ordenar las cadenas
{ i } ordenando {1,3,3,3,4}
0 1 2 3 4
Ejemplo: encontrar un cdigo prefijo
2. Calcular los nmeros enteros

j 1
0 = 0 , j = 2
j i
, 1 j N-1
i =0
0
1 = 2 = 2 31 = 22 = 4
1 i
i =0
1
2 = 2 2 i
=2
31
+2
3 3
=5
i =0
2
3 = 2 3 i
=2
31
+2
3 3
+2
3 3
=6
i =0
3
4 = 2 4 i
=2
4 1
+2
4 3
+2
4 3
+2
4 3
= 14
i =0

Ejemplo: encontrar un cdigo prefijo
i { i } i i (base 2) i
0 1 0 0 0
1 3 4 100 100
2 3 5 101 101
3 3 6 110 110
4 4 14 1110 1110
Si el resultado de codificar en base R no tiene suficiente longitud, se rellena por

delante con ceros

Teorema de McMillan
El teorema de Kraft impone una limitacin para la obtencin de un cdigo prefijo

que repercute negativamente sobre la longitud media del cdigo.
Se puede obtener alguna mejora en la longitud media si en lugar de restringir a

cdigo prefijo, se tienen en cuenta los cdigos unvocamente decodificables?
El teorema de McMillan responde a la cuestin:
Dadas un conjunto de longitudes de palabras cdigo {l1, l2, , lN} = {|1|, |2|, , |N|} y un
alfabeto cdigo de R smbolos, existe un cdigo unvocamente decodificable con esas longitudes
si y slo si se cumple que:
1
R | i |
i =1
La limitacin es la misma y no hay beneficio al considerar tambin los cdigos

unvocamente decodificables
Es habitual unir ambos teoremas (son el mismo) en uno llamado Kraft-McMillan

3.4. Teorema de codificacin de fuentes
Hasta este punto, se ha estudiado:
Las fuentes y sus caractersticas: emiten smbolos a los que se desea dar un
soporte lgico.
Los cdigos: han de ser unvocamente decodificables y cumplir el teorema de
Kraft-McMillan, existiendo muchos cdigos que cumplen ambos requisitos.
A una fuente concreta se le quiere proporcionar la mejor codificacin de

fuente posible:
Aquella que tenga menor longitud de palabras.

Aquella en la que el proceso de codificacin sea adecuado (smbolos ms
probables sern representados con palabras de longitudes ms cortas).
Cul es el lmite de la codificacin de fuente? Hasta qu punto es posible

comprimir una fuente?
A estas cuestiones responde el teorema de codificacin de fuentes.

Longitud media de un cdigo
Sea un cdigo que asocia los smbolos de una fuente s1, s2, s3, , sN con las
palabras X1, X2, X3, , XN (de un alfabeto R-ario).
Supongamos que las probabilidades de los smbolos de la fuente son p1, p2, p3, ,
pN y las longitudes de las palabras cdigo l1, l2, l3, , lN
Definiremos la longitud media del cdigo L (medida en dgitos R-arios por palabra
cdigo) por la ecuacin:
N
L = pi li
i =1
La codificacin de fuente pretende codificar los smbolos de la fuente utilizando

cdigos con la menor longitud media posible
El proceso de compresin lleva asociada la medida dgitos R-arios por smbolo

de fuente y se calcula
digitos R arios Ponderacin con las
L =E
xi simbolos probabilidades de aparicin
Se puede calcular algn mnimo para esta longitud media?

N
Se minimiza la expresin: L = p l
i =1
i i
N
Con la restriccin: C : R li 1 Alfabeto R-ario
i =1
Se tiene N variables (li con N > 1) y 1 condicin (C), es posible aplicar el mtodo
de Lagrange para minimizar L bajo la condicin C.
1 El valor puede ser o

El resultado es: li = log R
pi no entero
La mnima longitud media de un cdigo ser :
N N
1
L = pi li = pi log R = H R (S )
i =1 i =1 pi
La cota anterior es una cota mnima absoluta, pero es posible alcanzarla

siempre al codificar cualquier fuente? La respuesta es NO.
Dependiendo de la fuente a codificar ser posible o no encontrar un cdigo

cuya longitud media coincida con la entropa:
1
Fuentes con li = log R entero ser posible encontrar un cdigo
pi
con longitud media igual a la entropa de la fuente (HR(S))
1
Fuentes con li = log R no entero no ser posible encontrar un cdigo
pi
con longitud media igual a la entropa de la fuente (HR(S))
Se definen los cdigo ptimos como aquellos cuya longitud media es igual o
menor que la longitud media de todos los cdigos unvocos que pueden
aplicarse a la misma fuente y el mismo alfabeto (un cdigo ptimo es el de
menor longitud media).
De tal forma que la longitud media de un cdigo ptimo para cierta fuente no
tiene por qu coincidir con el valor de la entropa de sta (cota mnima
absoluta)
Esta definicin se refiere a las longitudes de las palabras cdigo, y no a las

palabras mismas (da igual cules y cmo sean las palabras si el cdigo es
unvoco)
El teorema de Kraft-McMillan indica la condicin que deben cumplir las

longitudes de las palabras cdigo para formar un cdigo prefijo, pero no
indica el conjunto de longitudes que conduce a la longitud media mnima
Para alcanzar la mnima longitud media en un cdigo (mxima compresin),

1
las longitudes a elegir deben ser li = log R . 2 Casos:
pi
li entero
li no entero

Cdigos ptimos. Caso I, li entero:

1
Cuando se cumple que log R es entero, el cdigo ptimo tiene una
pi
dig. R-arios
longitud media mnima (cota de compresin absoluta): L = H R (S )
Pal. Cod.
Desde el punto de vista de la fuente, la compresin es: dig. R-arios

L = H R (S )
(si a cada smbolo individual le correponde una pal. cd.) msj de la Fte
l
As, dada una fuente S de N smbolos con pi = R i y un alfabeto cdigo de R
smbolos, HR(S) (entropa calculada tomando como base de los logaritmos a R)
representa el mnimo nmero medio de smbolos del alfabeto cdigo necesarios
para describir los mensajes de la fuente S
Las longitudes de las palabras cdigo que habr que tomar para codificar S con
un cdigo ptimo son li; cualquier otro conjunto de longitudes para las palabras
cdigo que cumplan K-M, dar lugar a un cdigo no ptimo con longitud media
H R ( S ) < Lno optimo

l
Cdigos ptimos. Caso I, li entero. Ejemplo I (Fte equip. con pi = R i ):
Smbolo fuente Probabilidad

S1 0,25
S2 0,25
S3 0,25
S4 0,25
La entropa de la fuente es
4
1
H ( S ) = pi log = 2 bits / simbolo
i =1 pi
Por lo visto hasta ahora, es imposible codificar los smbolos de esta fuente
mediante un cdigo binario unvoco, de longitud inferior a 2 unidades binarias
por smbolo. Cada smbolo de la fuente tiene una probabilidad de 1/4, luego
un cdigo ptimo deber tener cuatro palabras de longitud 2
1
li = log 2 = log 2 4 = 2
TEMA 1 - TEORIA DE LA INFORMACION 1/ 4 112
Cdigos ptimos. Caso I, li entero. Ejemplo I (Fte equip. con pi = R li ):
S1 00
S2 01 Algoritmo
S3 10 Cdigos Prefijo
S4 11
Vamos a calcular su longitud media

4
1 1 1 1 1 1 1 1
L = Pi li = 2 + 2 + 2 + 2 = + + + = 2
i =1 4 4 4 4 2 2 2 2
La longitud media por palabra cdigo es de 2 unidades binarias, no

existiendo ningn cdigo unvoco para esta fuente con longitud media inferior

li
Cdigos ptimos. Caso I, li entero. Ejemplo II (Fte no equip. con pi = R ):
Smbolo fuente Probabilidad

S1 0,5
S2 0,25
S3 0,125
S4 0,125
La entropa de esta fuente viene dada por

4
1 1 1 1 1 13
H ( S ) = pi log = log 2 + log 4 + log 8 + log 8 = = 1, 75 bits / simbolo
i =1 pi 2 4 8 8 4
Como se cumple que pi = R li , la mnima longitud media que se podr obtener en
un cdigo para esta fuente es por tanto de 1,75 dgitos binarios por smbolo.
En la introduccin, se mostraron dos cdigos para esta fuente, consiguiendo

longitudes medias de 2 y de 1,875 dgitos binarios por palabra cdigo.
Para alcanzar el mnimo (1,75 dig. bin. por pal. cd.), se adoptarn palabras de
longitudes respectivamente de 1,2,3,3
Cdigos ptimos. Caso I, li entero. Ejemplo II (Fte no equip. con pi = R li ):
S1 0
S2 10 Algoritmo
S3 110 Cdigos Prefijo
S4 111
Como comprobacin calcularemos el valor de L

4
1 1 1 1
L = pi li = 1 + 2 + 3 + 3 = 1, 75 dgitos binarios
i =1 2 4 8 8

Cdigos ptimos. Caso II, li no entero:
Qu ocurre cuando la fuente de memoria nula tiene smbolos con probabilidades

arbitrarias? Cul es el cdigo ptimo para esa fuente?
1
Cuando se cumple que log R no es entero, parece lgico pensar que
pi
las menores longitudes a escoger se obtendrn al redondear al valor entero
inmediatamente superior, de tal forma que se cumple
1 1
log R li < log R + 1
pi pi
Primeramente comprobaremos que las longitudes definidas por este

procedimiento cumplen el teorema de Kraft-McMillan y son aceptables para
construir un cdigo adecuado:
1 1
log R
pi
li
pi
R li R li pi ; R p
i
li
i
i =1

Cdigos ptimos. Caso II, li no entero:
Multiplicando
1 1 por y sumando para todos los
log R li < log R + 1 pi
pi pi
valores de i:
1 1 1 1
pi log R
pi
pi li < pi log R + 1
pi
p log
i
i R
pi
pi li < pi log R + pi 1
i i pi i
H R (S ) L < H R (S ) + 1
Se obtiene un cdigo ptimo para esa fuente al tomar estas longitudes para las
palabras cdigo? La respuesta es: generalmente NO.

Cdigos ptimos. Caso II, li no entero. Ejemplo:
Smbolo de 1 Cdigo A Cdigo B

fuente
pi log
pi
li
S1 2/3 058 1 0 0
S2 2/9 217 3 100 10
S3 1/9 317 4 1010 11
Para el cdigo A, elegimos la longitud de la palabra correspondiente a S de forma

que satisfaga la relacin
1 1
log R li < log R + 1
pi pi
Las longitudes se han enumerado en la cuarta columna de la tabla. El cdigo A es

uno de los cdigos que pueden formarse con esas longitudes. Su longitud media
es
2 2 1
LA = 1 + 3 + 4 = 1'777
3 9 9
Cdigos ptimos. Caso II, li no entero. Ejemplo:

3
1
La entropa de la fuente tiene el valor H ( S ) = pi log = 1' 22
i =1 pi
Recordemos que LA est acotado en la forma siguiente: H ( S ) LA < H ( S ) + 1
Se puede encontrar un cdigo mejor que el cdigo A
2 2 1
LB = 1 + 2 + 2 = 1'33
3 9 9
Este valor supone una notable mejora sobre la longitud media del cdigo A.
1
Cmo conseguir un cdigo ptimo si log R no es entero? Utilizando el
pi
algoritmo de HUFFMAN (siempre proporciona un cdigo ptimo)

Eficiencia de un cdigo
Se define la eficiencia de un cdigo como: =H(S)/L:
Si = 1 el cdigo es 100% eficiente

Si 0 el cdigo es ineficiente
Los cdigos ptimos son los ms eficientes

Primer teorema de Shannon
Si en lugar de codificar una fuente, se codifica su extensin de orden k, se

1
obtendra la siguiente expresin ( log R no es entero):
pi
H R ( S k ) Lk < H R ( S k ) + 1
Lk representa la longitud media de las palabras correspondientes a los smbolos

de la extensin de orden k de la fuente S
Luego podramos decir que Lk es el nmero medio de smbolos empleados en

cada smbolo de Sk (formado por k mensajes)

Operando sobre H R ( S k ) Lk < H R ( S k ) +: 1

La entropa de Sk, H(Sk), es igual a k
k H R ( S ) Lk < k H R ( S ) + 1 veces la entropa de S, H(S).
Lk 1
Dividiendo por k: H R (S ) < H R (S ) +
k k
Puesto que cada palabra cdigo de Sk, corresponde a k smbolos

fuente, el cociente Lk/k, indica la longitud de la palabra cdigo por
smbolo de fuente para la fuente S (compresin)
Siempre ser posible encontrar un valor de Lk/k tan prximo a HR(S)

como queramos, sin ms que codificar la extensin de orden k de S en lugar de
S: L Problema: aumenta la
lim k
= H R (S ) complejidad de la
TEMA 1 - TEORIA DE LA INFORMACION k k 122
codificacin

Ejemplo extensin de fuentes:
Longitud media del

cdigo: 1,29 dgitos
binarios.
Cada palabra cdigo de
longitud media 1,29
dgitos binarios representa
2 mensajes
Cada mensaje individual
es representado por
1,29/2=0,645 dgitos
binarios

3.5. Algoritmos de codificacin de fuentes
Construccin de cdigos ptimos: Algoritmo de Huffman
El algoritmo de Huffman es un mtodo para la construccin de cdigos ptimos:

prefijos y de longitud media mnima
Dadas las prob de Fuente: (P1, P2, , PN) y R (smbolos Alfabeto Cdigo)
construimos un cdigo prefijo ptimo:
1) Ordenar los mensajes de la fuente segn sus probabilidades, de mayor a

menor
2) Calcular R como aquel que:
R {2, 3 R}
R MOD (R-1) = N MOD (R-1)
(si el cdigo es binario, siempre R = 2)
3) Sumar las R prob. menores, y reordenar el resultado con el resto de prob.

recordando el conjunto de mensajes correspondiente a cada prob.
4) R = R, y repetir el paso anterior hasta que queden R probabilidades
5) Construir el cdigo de la siguiente manera:

Construccin de cdigos ptimos: Algoritmo de Huffman
Construccin del cdigo:
a) Asignar un smbolo del alfabeto cdigo a cada una de las ltimas R probabilidades
b) Las probabilidades que correspondan a un nico mensaje de fuente , ya tienen

cdigo
c) Con las probabilidades obtenidas como suma, retroceder la suma, y asignar a cada
sumando como prefijo el cdigo de la suma, junto con un nuevo smbolo del alfabeto
cdigo
d) Repetir b) y c) hasta llegar a las probabilidades originales

Ejemplo Algoritmo de Huffman
Hallar un cdigo ptimo para la fuente S de 5 smbolos con probabilidades (0.4,

0.2, 0.2, 0.1, 0.1)
Cul es el valor de la entropa de la fuente?
Se cumple que L H(S)?
Sol.
Mensaje Probabilidad Cdigo Longitud

a 0,4 1 1
H(S)=2.122
b 0,2 01 2
c 0,2 000 3 L=2.2
d 0,1 0010 4
e 0,1 0011 4

Codificacin de la extensin o agrupacin de fuente
A la salida de la fuente (k elementos independientes) le hacemos corresponder

unas componentes que sern smbolos de canal
x = ( x1 , x2 ,......., xl ) Palabra codigo
Codificacin de fuente: consiste en representar la informacin por medio de un
cdigo adecuado a las caractersticas de la fuente, es decir, de la propia
informacin. Cdigo A (longitud fija) Cdigo B (longitud
Extensin Probabilidad variable)
aa...a p(a)p(a)p(a) 00...0 00

Ejemplo: aa...b p(a)p(a)p(b) 00...1 0101
... ... ...
... ... ...
... ... ...
... ... ...
... ... ...
... ... ...
... ... ...
... ... ...
... ... ...
TEMA 1 - TEORIA DE LA INFORMACION bb...b p(b)p(b)p(b) 11...1 11111110 127
Ejemplo de extensin de fuentes

U = {a, b, c} , R = 3 (Digitos ternarios) U L
JG Cod de fuente
p = ( 0.1, 0.2, 0.7 )
H 3 (U ) = 0.1 log3 10 + 0.2 log3 5 + 0.7 log3 1.4285 = 0.7298 = 0.73
Ejemplos de codificacin:
Cdigo 1: Cdigo 2:
Longitud Media = 1.4 Longitud Media = 1
a = 100 30.1 a=0 10.1
b = 11 20.2 b=1 10.2
c=0 10.7 c=2 10.7

Extendemos la fuente
U = {aa; ab; ac; ba; bb; bc; ca; cb; cc} k = 2
p = {0.01; 0.02; 0.07;0.02;0.04; 0.14; 0.07;0.14;0.49}
H 3 (U 2 ) = 2 H 3 (U ) = 1.45969
1 5 3
{ i } = {1; 2; 2; 2; 2; 2;3;3;3} + + =11
3 9 27
L2 = 0.49 + 2 ( 0.14 + 0.14 + 0.07 + 0.07 + 0.04 )
+3 ( 0.02 + 0.02 + 0.01) = 1.56 digitos ternarios por palabra codigo
1.56 > H 3 (U 2 )
Cada palabra cdigo representa a

1.56
= 0.78 digitos ternarios por simbolo de fuente dos mensajes (si dividimos por 2,
2 sale la longitud por mensaje)
0 = 0 0 0,49 cc
1 = 3 10 0,14 cb
2 = 4 11 0,14 bc
3 = 5 12 0,07 ac
4 = 6 20 0,07 ca
5 = 7 21 0,04 bb
6 = 24 210 0,02 ab
7 = 25 221 0,02 ba
8 = 26 222 0,01 aa

Otros algoritmos de codificacin de fuentes
Cdigos de longitud fija
Codificacin aritmtica
Cdigos basados en diccionario

4.1 Canales discretos
4.2 Capacidad de un canal
4.3 Teorema de codificacin de canal

4.1. Canales Discretos
Fsicamente un canal es el medio utilizado para transmitir los datos desde el

emisor al receptor.
Trabajaremos con canales discretos sin memoria, caracterizados por ser

canales que aceptan un nmero finito de smbolos y la salida del canal no
depende de los smbolos enviados anteriormente, slo de la entrada actual
(sin memoria).
Un canal discreto sin memoria queda perfectamente especificado a partir del

conocimiento de:
Alfabeto de entrada de rango N

Alfabeto de salida de rango M
Conjunto de probabilidades de transicin p(y|x) definidas para cada x
perteneciente al alfabeto de entrada y cada y perteneciente al alfabeto de
salida
Grficamente el modelo del canal es:

p ( y1 / x1 )
x1 y1
p( y
p( / x1 )
p ( y / x) 0
yM Q
/x
1 )
yQ
) p ( y / x) = 1 x Alfabeto de entrada
/ xN )
xN
y 1/
p(
y
p ( yQ
xN yM
p ( yM / xN )
A la izquierda se muestran los smbolos de entrada, y a la derecha los smbolos

de salida.
Las flechas relacionan smbolos de entrada y de salida, mostrando para cada

smbolo de entrada los posibles smbolos que el canal puede proporcionar en la
salida.
Cada transicin tiene asociada una probabilidad p(smbolo_salida | smbolo_entrada),

que establece para una determinada entrada la probabilidad de tener una
determinada salida
Un caso especial de canales son los canales simtricos, que se comportan

igual para todos los smbolos de entrada.
Por ejemplo, un canal binario simtrico sera:
0
1 p
0
p
p
1 1
1 p
En un canal con ruido (los que contemplamos) la transmisin de un smbolo

es susceptible de error, de manera que la recepcin de un determinado
smbolo en la salida no permite determinar cul fue el smbolo enviado,
debido a la posible alteracin o prdida de informacin ocasionada durante
su transmisin.

El comportamiento del canal se cuantifica mediante la entropa condicional

H(X|Y) que indica la incertidumbre de la entrada X una vez conocida la
salida Y.
Si H(X|Y)=0, no hay errores en la transmisin por el canal, y conocido el

valor de Y se tiene la certeza absoluto sobre el valor de X transmitido.
Si el canal introduce fuertes perturbaciones y los smbolos de salida son

independientes de la entrada:
p( xi | y j ) = p ( xi ) y p ( y j | xi ) = p ( y j )
H(X|Y) toma su valor mximo H(X).
Cuando H(X|Y)<H(X) se aprende algo de la entrada del canal observando la

salida

Canales y Teorema del Proceso de la informacin:
01 01
X' Y'
BSC
X Y
000 111 000
001

111
La variable X toma valores 0 y 1 y a la salida del canal se tiene Y que toma
valores 0 y 1 tambin
La I(X;Y) se calcula como H(X)-H(X|Y)
Si el canal y la fuente son sin memoria I(X;Y) = 3I(X;Y)

4.2. Capacidad de un canal
Se define la capacidad de un canal discreto sin memoria como
C = max I ( X ; Y )
p( x )
I(X;Y) nos da la informacin que conocemos del smbolo de entrada X por cada
smbolo de salida Y, es decir, la informacin que hacemos llegar a la salida desde la
entrada del canal cada vez que hacemos uso de l.
Lo que nos queda de informacin de X por conocer, H(X|Y), es lo que habr que
estimar y ah es donde puede producirse el error
Matemticamente I(X;Y) depende de la fuente de entrada, ya que I(X;Y)=H(X)-H(X|Y),

pero si le aplicamos la expresin de C, slo depender de p(y|x), puesto que lo que
habr que estimar son las p(x) que hacen mximo el valor de I(X;Y) nicamente
observando las probabilidades de transicin
Queremos la relacin entre X e Y por la fuente que mejor aprovecha el canal (la que
consigue transmitir ms informacin por cada smbolo de canal)
Ejemplo
Canal binario sin ruido

1
1 0 AX = {0,1}
1 AY = {0,1}
0 0
Primero se plantea la expresin H(X)-H(X|Y) en funcin de las probabilidades de

aparicin de los smbolos a la entrada: p(0)= y p(1)=1- y luego se maximiza
derivando:
H ( X ) H ( X | Y ) = log 2 (1 ) log 2 (1 ) ( log 2 1 + (1 )log 2 1 + 0log 2 + 0log 2 ) =
= log 2 (1 ) log 2 (1 )
ln ( H ( X ) H ( X | Y ) ) ln 1 ln (1 ) (1 ) 1
log 2 = = + + =0
ln 2 d ln 2 ln 2 ln 2 ln 2 1
1 1
ln =0 = 1 = 0.5

Ejemplo
Canal binario simtrico
0
1 p
0
p
1 1
1 p
C = max I ( X ; Y ) = max ( H ( X ) H ( X / Y ) ) = max ( H (Y ) H (Y / X ) )

p( x ) p( x ) p( x )
2 2 2 2
1 1
H (Y / X ) = p ( xi , y j ) log = p ( xi ) p ( y j / xi ) log =
i =1 j =1 p ( y j / xi ) i =1 j =1 p ( y j / xi )
1 1 1 1
H (Y | X ) = p ( x = 0 ) p log + (1 p ) log + p ( x = 1) p log + (1 p ) log =
p 1 p p 1 p
1 1
= p log + (1 p ) log = H ( p)
p 1 p
Ejemplo
Canal binario simtrico: C = max ( H (Y ) H ( p ) )

p( x )
El mximo se da cuando H(Y) es mximo, y H(Y)max=1 cuando p(y=0) = p(y=1) = 0.5

es posible conseguir a la salida esa distribucin? En este caso s, aunque no siempre es posible.
Qu distribucin a la entrada consigue a la salida equiprobabilidad? Como el canal es simtrico,

la distribucin a la entrada ser equiprobable.
La capacidad de un BSC = 1-H(p)

con una distribucin a la entrada equiprobable
Valores posibles de p:
p=0.5, la capacidad es C=0.
p=0 p=1, el canal es determinista y C=1.

Clculo de Capacidad de un canal:
Para canales sin errores (H(X|Y)=0), la capacidad es H(X) con distribucin a la

entrada equiprobable
Cuando H(Y|X)=0:
Expresar H(Y) en funcin de de , , derivar e igualar a 0 (si X es binaria slo se utiliza )

No siempre se puede obtener una salida equiprobable. Ejemplo canal con borrado.
Para canales simtricos (dos modos vlidos):
Calcular H(X)-H(X|Y) para una entrada equiprobable (es ms sencillo)

Expresar H(Y)-H(Y|X) en funcin de , , derivar e igualar a 0 (si X es binaria slo se utiliza
)
Para canales no simtricos:
Expresar H(X)-H(X|Y) en funcin de , , derivar e igualar a 0 (si X es binaria slo se utiliza

)

Propiedades de la capacidad
C 0, ya que I(X;Y) 0 y C es un mximo de I(X;Y)

C log2|N| ya que I(X;Y) H(X) y H(X) log2|N|
C log2|M| ya que I(X;Y) H(Y) y H(Y) log2|M|
La fuente que mejor aprovecha el canal no siempre es la de distribucin uniforme

(slo en canales sin errores (H(X|Y)=0) y canales simtricos), por ejemplo:
Capacidad = 0.32;
Distribucin a la entrada:
P(A)=0.6; P(B)=0.4
En una comunicacin interesa que C sea alto, da igual como sea X (H(X)).

4.3. Teorema de codificacin de canal
Planteamiento general
X' X
Fuente Cod de fuente Cod de canal CANAL
k smbolos de canal n smbolos de canal

(independiente de la agrupacin ("protegidos")
de fuente)
Comunicacin: hacer llegar informacin (datos) de origen a destino a travs de un

medio fsico denominado canal
Idealmente, el estado fsico a la entrada del canal determina una nica salida. Sin
embargo, el canal nunca estar aislado del exterior y siempre se introducir ruido
activo
Debido a ello una misma entrada en el canal puede producir diferentes salidas,
cada una de ellas caracterizadas con una determinada distribucin de
probabilidades condicional
Es posible entonces conseguir transmisiones libres de errores?
Cuando tenemos una probabilidad de error asociada al canal, podemos

conseguir que la probabilidad de error extremo a extremo (antes del codificador de
canal, es decir, de emisor a receptor, sea tan pequea como queramos?
La respuesta es SI
Para conseguir un alto nivel de rendimiento en las transmisiones, haremos uso de

la codificacin de canal
El objetivo de la codificacin de canal es incrementar la resistencia de un sistema

de comunicacin digital frente al ruido del canal
Los elementos que intervienen son:

Codificador de canal: mapea la secuencia de datos entrante a una secuencia de entrada del canal
Decodificador de canal: mapea de forma inversa al codificador la secuencia de salida del canal en
una secuencia de datos de salida, en la que el efecto general del ruido del canal en el sistema se
minimiza

La forma de proceder ser la de introducir redundancia en el codificador de canal

para poder reconstruir en el destino la secuencia original de la fuente de la forma
ms precisa posible
Se podra ver la codificacin de canal como el dual a la codificacin de fuente en

el sentido que introduce redundancia para mejorar la fiabilidad, mientras que la
codificacin de fuente reduce la redundancia para mejorar la eficiencia.

Cdigos bloque
La secuencia que forma el mensaje a transmitir (formado por smbolos de canal)

es subdividida en bloques secuenciales de longitud k smbolos de canal (por
ejemplo, dgitos binarios) y cada uno de esos bloques es mapeado en un bloque
de n dgitos de canal donde n>k (si n=k no introducimos redundancia):
Mensaje a transmitir: A (tras la fuente)

Codificacin del mensaje A: 010001 (tras la codificacin de fuente, comprimido)
El 010001 lo divido en bloques de k, por ejemplo k=3, y a cada uno de esos 3, les
asigno n, por ejemplo n=5:
010 01011
001 00110
El nmero de dgitos redundantes aadidos por el codificador a cada bloque

transmitido es n-k smbolos de canal (en el ejemplo 5-3=2)

Cdigos bloque
El ratio r = k / n, se conoce como la cadencia del cdigo y cumple que r<1
Para una k dada, la cadencia del cdigo se acerca a 0 a medida que la longitud
del bloque n crece hasta el infinito
La reconstruccin precisa de la secuencia original de la fuente en el destino,

requiere que la probabilidad de error extremo a extremo sea lo suficientemente
pequea.
Existe algn esquema de codificacin de canal tal que la probabilidad de error

extremo a extremo sea tan pequea como se quiera, sin disminuir demasiado el
valor de r?
La respuesta es SI, proporcionada por el segundo teorema de Shannon en

trminos de la capacidad de canal C
Teorema de codificacin de canal

Modelo:
Fuente Cod. Fuente Cod. Canal Canal
1 Rs L 1
RS = RC =
TS L k TC C
n
Parmetros:
Rs mensajes por segundo; Ts segundos por mensaje (tasa de fuente)

L dgitos R-arios por mensaje (tasa de compresin del codificador de fuente), L
siempre es mayor o igual que H(S)
A la entrada del codificador de canal, se tiene: RsL = L / Ts dgitos R-arios por
segundo

Parmetros:
Cadencia del codificador de canal = relacin entre la entrada y la salida = k / n

(es adimensional):
Entrada: L / Ts dgitos R-arios por segundo
Salida: 1 / Tc dgitos R-arios por segundo (lo que puede aceptar el canal)
Cadencia = L Tc / Ts
El canal tiene una capacidad de C unidades R-arias de informacin por dgito R-ario
(los dgitos R-arios son propios del sistema de transmisin digital)
La capacidad del canal siempre sera C 1 unidad R-aria de informacin por dgito
R-ario

Teorema:
Sea una fuente discreta sin memoria con alfabeto fuente S que tiene una entropa H(S)
y produce smbolos cada Ts segundos
Sea un canal discreto sin memoria con capacidad C que es usado cada Tc segundos
H (S ) C
Si existe un esquema de codificacin para el que la
Ts Tc
salida de la fuente puede ser transmitida por el canal y reconstruida en destino con
una probabilidad de error arbitrariamente pequea
C
El parmetro es conocido como tasa crtica
Tc

Teorema:
H (S ) C
Si > no es posible transmitir informacin por el canal y reconstruirla con una
Ts Tc
probabilidad de error todo lo pequea que se quiera
Del teorema anterior es posible extraer la cadencia del codificador de canal para un canal
determinado:
HR(S) son las unidades R-arias de informacin por mensaje, y tambin son los dgitos
R-arios por mensaje (teorema de codificacin de fuentes)
Se trata de la mnima
H(S)/Ts es la entrada al cadencia, k/n, que se
k H ( S )Tc codificador de canal puede conseguir (no se
= C puede comprimir ms de
n min Ts Tc es la salida del
codificador de canal HR(S) dgitos R-arios
por smbolo de fuente)

Teorema:
Cualquier otra cadencia

k , para que no exista probabilidad de error extremo a
n
H ( S )Tc k
extremo a extremo, debe cumplir: C
Ts n
Cuando el canal es binario simtrico, es posible aadir un parmetro que permite
k C
introducir una probabilidad de error en el sistema:
n 1 H ( Pe )
Podremos calcular la cadencia necesaria en el codificador de canal admitiendo en el sistema cierta

probabilidad de error.


Ejemplo:
k C 0.5
4 Pe = 0.29
n 1 H ( Pe ) 1 H ( Pe )

4.Canales discretos y codificacin de canal
Ejemplo (cdigo repeticin)
10-2
Probabilidad de mensaje errneo 10-4
10-6
10-8
10-10
10-12 Lmite definido por

el teorem a de Shannon
10-14

1
C 1/3 1/5 1/7 1/9 1/11
Proporcin de mensaje, mensajes binarios/unidades binarias

4.Canales discretos y codificacin de canal
Probabilidad de error de bit en funcin de la cadencia:
Pb
k/n
0
0 C

Teoría de La Información

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Teoría de La Información

Cargado por

Copyright:

Formatos disponibles

NDICE

Tema 1: Teora de la Informacin

3. Fuentes discretas y teorema de codificacin de fuentes

4. Canales discretos y teorema de codificacin de canal

TEMA 1 - TEORIA DE LA INFORMACION 1

TEMA 1 - TEORIA DE LA INFORMACION 2

1.1 Teora de la Informacin

1.2 Transmisin de Datos Eficiente

1.3 Transmisin de Datos Fiable

1.4 Otros Campos de la Teora de la Informacin

TEMA 1 - TEORIA DE LA INFORMACION 3

Teora de la informacin es una disciplina matemtica que trata los

La informacin en s y sus propiedades

En la asignatura Transmisin de Datos slo se contemplar la informacin de

Digital significa discreto (espacio muestral no continuo, en el caso binario = 2

TEMA 1 - TEORIA DE LA INFORMACION 4

Concepto difcil de definir formalmente

La transmisin de informacin va ms all de un proceso mecnico, requiere la

TEMA 1 - TEORIA DE LA INFORMACION 5

Aspectos a tener en cuenta:

Es posible que la informacin de un mensaje sea mayor o menor segn el

La teora de la informacin no trata aspectos relacionados con la lengua, siempre

Tampoco se tendrn en cuenta factores psiclogicos que afectan de forma menos

Los aspectos semnticos de la comunicacin tampoco son aplicables al problema

TEMA 1 - TEORIA DE LA INFORMACION 6

Se puede considerar informacin como aquello susceptible de suministrar

Se debe distinguir entre datos e informacin

La transmisin de datos es un proceso mecnico, que no tiene porque estar

Suponer una fuente que emite siempre el mismo smbolo

TEMA 1 - TEORIA DE LA INFORMACION 7

Sobre la idea de informacin:

Supngase un suceso y un observador

La ocurrencia del suceso divide la historia en dos:

Ambas etapas son de inters diferente

TEMA 1 - TEORIA DE LA INFORMACION 8

Sobre la idea de informacin:

La verosimilitud tiene grados, por tanto es una magnitud medible

La probabilidad de un suceso da una medida del grado de su verosimilitud

Cualquier suceso tiene asignado, por el simple hecho de no haber ocurrido

La probabilidad vara entre 0 y 1 y mide una distancia:

Distancia a la certeza (valor 1)

TEMA 1 - TEORIA DE LA INFORMACION 9

Sobre la idea de informacin:

El concepto expectativa se evapora, al observador slo le queda sorprenderse:

TEMA 1 - TEORIA DE LA INFORMACION 10

Sobre la idea de informacin:

La sorpresa es un cambio de nimo provocado por la ganancia de informacin

La informacin es por tanto una magnitud cuya medida, despus de la ocurrencia

TEMA 1 - TEORIA DE LA INFORMACION 11

La informacin puede ser:

En ambos casos es necesario adaptarla a las caractersticas del medio por el

Codificador de fuente: Expresa la informacin de forma unvoca con la mnima

Codificador de canal: Aade informacin redundante (controlada: se conoce su

El codificador de canal se adapta al canal (a sus probabilidades), se protegen los smbolos en

TEMA 1 - TEORIA DE LA INFORMACION 12

Modulador: Proporciona soporte fsico a la informacin, convirtiendo cada

Ejemplo de modulacin: representar un 1 mediante un nivel alto de tensin (p.e. 5

Todas las seales existentes son analgicas, en un sistema de

Por tanto los puntos clave en la teora de la informacin son:

La eficiencia: tratada mediante la codificacin de fuente

En la primera parte de la asignatura se considera la modulacin y del canal

AAABCBBBC 00010111010 000000000111000 0

TEMA 1 - TEORIA DE LA INFORMACION 14

Ejemplos de Aplicaciones de la Teora de la Informacin