Introduccion A La Teoria de La Informacion PDF

Introduccin a la Teora de la
Informacin
Toms V. Arredondo
8/4/2011
Introduccin a la a la Teora de la Informacin y
Aplicaciones
Contenidos:
Introduccin a algunos aspectos de la teora de la
informacin (T.I.): informacin y probabilidades
Entropa
Resea de algunas aplicaciones en diferentes reas
incluyendo: Comunicaciones, Encripcin y
Bioinformtica.
Aplicaciones: Introduccin
Que es la informacin?
La informacin como es conocida comnmente es una
amalgama de muchas nociones vagas e imprecisas que
generalmente es medida basada en la cantidad de
noticia (o sorpresa) que provee.
Que es la teora de la informacin?
Serie de las leyes para relacionar determinado orden de
fenmenos relacionados con la comunicacin de la
informacin entre su origen y su destino a travs de un
canal.
Sistema de Comunicaciones Bsico
Origen Canal Destino
Mensaje M Mensaje M
Cul es el rol de las probabilidades en las

comunicaciones?
Las probabilidades nos dan una manera de determinar
cuantitativamente las caractersticas que queremos
estudiar en los sistemas (ej. la distribucin de la
informacin de un origen, la confiabilidad de un canal, la
relacin entre el origen y el destino de la informacin
entre otras)
Las probabilidades estn basadas en las frecuencias
observables de la ocurrencia de eventos
Las frecuencias y las probabilidades

Si repetimos un experimento N veces que tiene M diferentes
resultados posibles y contamos el numero de veces que se observan
las diferentes posibilidades n1, n2,..., nM entonces podemos
determinar la frecuencia de estas observaciones (f1, f2, ..., fM) al dividir
n1, n2,..., nM por N.
Si N estas frecuencias son la probabilidad (p1, p2, ..., pM) de
ocurrencia del evento y sus valores posibles son entre 0 y 1.
El siguiente es el caso de tener los eventos A, B, AB (A y B, ambos
eventos ocurriendo), AB (ninguno de los dos).
AB
AB A B
Las frecuencias y las probabilidades (cont)
Permutaciones: Las permutaciones son el
reordenamiento de objetos o smbolos en secuencias
distinguibles:
El numero de permutaciones de n objetos es n!
n(n-1)(n-2)...321
0! = 1
La formula para el numero de permutaciones de

r objetos seleccionados de un conjunto de n objetos:
n!
P n , r =
nr !
Cada uno de los objetos es distinguible de los otros

Ejemplo:
Si tengo 6 tarros de pintura de color y una flota de 4 autos
(Ferrari, Jaguar, Corvette, Citroen), el numero de
permutacin posibles para pintar los autos es
6543 o usando la formula:
6!
P n , r = P 6, 4= =360
64!
Si alguien eligiera una permutacin de colores para su flota

al azar la probabilidad de ella seria = 1/360
En otras situaciones no nos importa la posicin de seleccin
de los objetos en cuestin.
En ese caso se quieren determinar el numero de las
combinaciones de elegir r objetos de un set de n objetos:
n n1 n2...nr 1 n!

C n , r = n =
r r!
=
nr ! r !
Estas cantidades se llaman coeficientes binomiales porque

fueron estudiados en relacin con la expansion de binomiales
en los cuales las maneras de seleccionar el numero de las
variables es dado por la relacin descrita anteriormente
(a + b)3 = a3 + 3a2b + 3ab2 + b3
0 1 2 3
(a + b)3 = 3 a 3 3 a 2b 3 ab 2 3 b3
Ejemplo:
Si alguien compra 3 tipos de quesos del supermercado de
12 posibles tipos Cual es el numero de combinaciones de
compra? No nos importa el orden en que los compramos
(e.g. {Gruyere, Suizo, Cabra} se considera la misma
combinacin que {Suizo, Gruyere, Cabra})
12 !

C 12,3= 12 =
3 9! 3 !
=220
Si nos importara el orden el resultado seria una permutacion:

P(12,3) = 121110 = 1320
Probabilidad condicional
Muchas veces es importante saber la probabilidad de un
evento (A) basado en informacin previa sobre otro evento o
variable, este otro evento o variable determina el espacio de
muestreo (S) que se esta usando y por ende el valor de la
probabilidad
La probabilidad de A dado S se escribe: P(A | S}

Si se observan el siguiente numero de eventos:
A ocurre, B no ocurre (AB): n1
B ocurre, A no ocurre (BA): n2
A y B ocurren (AB): n3
Ni A ni B ocurren (AB): n4
A o B o ambos ocurren (A + B): n1 + n2 + n3
El total de los eventos son N: N = n1 + n2 + n3 + n4
Las frecuencias son: f {A} = (n1 + n3)/N, f {B} = (n2 + n3)/N, f {AB} = n3/N,
f {A+B} = (n1 + n2 + n3)/N = f {A} + f {B} f {AB},
La frecuencia que A ocurre si sabemos que B ya ocurri f {A|B} = n3/(n2 + n3),
La frecuencia que B ocurre si sabemos que A ya ocurri f {B|A} = n3/(n1 + n3),
AB AB
A B
AB BA
Cuando N tiende a estas frecuencias tienden a probabilidades:
P{A+B} = P{AB} = P{A} + P{B} - P{AB} P{A} + P{B}
P{AB} = P{AB} = P{A} P{B|A}
P{AB} = P{AB} = P{B} P{A|B}
P{A|B} = P{AB}/P{B}, P{B}0
P{B|A} = P{AB}/P{A}, P{A}0
Para eventos A y A (inversos)

P{A+A} = 1
P{AA} = 0
Ejemplo:
Se saca una carta de un mazo de cartas:
A = Sale una carta roja, B = sale un rey,
AB = sale un rey rojo,
A + B = sale un rey o sale una carta roja
Prob{A} = 1/2, Prob{B} = 1/13,

Prob{AB} = (1/13)(1/2)= 1/26
Prob{A + B} = Prob{A} + Prob{B} Prob{AB}
= 1/2 +1/13 1/26 = 7/13
Ejemplo:
Si estamos tirando dos dados y tenemos los siguientes eventos:
A = Dado 1 sale 3,
B = dado 2 sale 1,
C = la suma de ambos da 8.
Probs. apriori (antes de tener mas datos): P{A} = P{B} = 1/6, P{C} = 5/36
Probs. conjuntas: P{A } = 1/36, P{A C} = 1/36, P{B C} = 0/36
Probs. condicional: P{C | } = 0, P{C | A} = 1/ 6, P{B | A } = P{B} dado
que A y B son independientes.
Si el evento A y B son independientes

P{A|B} = P{A}
P{B|A} = P{B}
P{A+B} = P{AB} = P{A} + P{B}
P{AB} = P{AB} = P{A} P{B}
AB
A B
AB BA
Ejemplo:
Se tiran dos dados, uno rojo y uno blanco:
A = Dado rojo sale uno, B = Dado blanco sale seis
AB = dado rojo sale uno y dado blanco sale seis
A + B = dado rojo sale uno o dado blanco sale seis
Prob{A} = P{A|B} = 1/6,

Prob{B} = P{B|A} = 1/6,
Prob{AB} = (1/6)(1/6)= 1/36
Prob(A + B) = 1/6 + 1/6 = 1/3
Si el evento A y B son excluyentes:
P{AB} = {}
Ejemplo:
Se tira un dado:
A = el dado sale 1, B = el dado sale 2
AB = el dado sale 1 y el dado sale 2
A+B = el dado sale 1 o el dado sale 2
Prob{A} = 1/6, Prob{B} = 1/6, Prob{AB} = {}

Prob{A+B} = 1/6 + 1/6 = 1/3
Funcin Discreta de Probabilidad (PDF) y Funcin
Cumulativa de Probabilidad (CDF)
Si se tiene un experimento aleatorio y los resultados se

pueden poner en correspondencia con un numero de
enteros positivos entonces ese numero de enteros se
denomina un espacio de muestreo discreto.
En un espacio discreto de muestreo, cuando la variable

aleatoria X asume valores {x1, x2, x3,...,xk} la funcin
discreta de probabilidad f(x) se define como:
{p1,p2, p3,...,pk} en el cual f(xk) = Prob{X = xk} = xk
La funcin cumulativa de probabilidad se define como:
F x = f x j
x j x
Funcin Discreta de Probabilidad (PDF) y Funcin
Cumulativa de Probabilidad (CDF) (cont)
Ejemplo:
Se tira una moneda repetidamente hasta que sale una cara
X = La moneda sala cara por primera vez en el tiro k
X = {1, 2, 3,...,k}
PDF: f = {1/2, 1/4, 1/8, ..., 2-k}
CDF: F(x) = 2-1 + 2-2 + ... + 2-x
.5 1
.375 .625
f(x) F(x)
.25 .5
.125 .125
0 0
1 2 3 4 5 1 2 3 4 5
x x
Funciones Discretas de Multiples Variables
En la mayora de los problemas en ingeniera es importante saber la

distribucin entre multiples variables aleatorias. Esto puede ser para
por ejemplo saber el comportamiento de un sistema con inputs (X) y
outputs (Y). Para estudiar esto se formaliza la idea de una distribucin
discreta multivariable.
Si se tienen dos variables aleatorias X e Y entonces la PDF y CDF se
definen de esta forma:
PDF: f(x, y) = Prob{X = x, Y= y}
CDF: F x , y = f x j , yk
x j x y k y
Se denominan probabilidades marginales cuando solo se considera solo

una de las dos variables sin consideracin por la otra.
Funciones Discretas de Multiples Variables (cont)
Distribucin (probabilidad) marginal

La distribucin marginal de una matrix (n x m) de probabilidades se calculan
segn:
P( X = i) = j(pij) = pi1 + pi2 + ... + pin,
P( Y = j) = i(pij) = p1j + p2j + ... + pmj

Y=
1 2 3 4
[ ]
Ejemplo: 2 1 1 0
1 4/16
16 16 16 16
1 2 1 0
P( X = 1) = p11+p12+p13+p14= 4/16 = 1/4 2 16 16 16 36
4/16
X=
P( Y = 2) = p12+p22+p32+p42= 5/16 0 1 2 1
3 16 16 16 16
4/16
0 1 1 2
4 16 16 16 16 4/16
3/16 5/16 5/16 3/16
Ejemplo: Un sistema con input (X) y output (Y).

Cual es la Prob{ 3 X 5, 2 Y 3 } y las probabilidades marginales
de X e Y?
Y=
1 2 3 4 5 6
Probabilidad de cada punto en la muestra:
[ ]
P{X=i, Y=j} = 1/36 1 1 1 1 1 1 1
1/6
36 36 36 36 36 36
1 1 1 1 1 1
2 1/6
P{ 3 X 5, 2 Y 3 } = 6/36 = 1/6 36 36 36 36 36 36
1 1 1 1 1 1
3 1/6
36 36 36 36 36 36
Probabilidades marginales: X= 1 1 1 1 1 1
4 1/6
36 36 36 36 36 36
P{ 3 X 5} = 18/36 = 1/2 1 1 1 1 1 1
5 1/6
P{ 2 Y 3} = 12/36 = 1/3 36 36 36 36 36 36
1 1 1 1 1 1
X e Y son independientes, ya que todos 6 36 36 36 36 36 36 1/6
los valores del arreglo 1/36 = (1/6)(1/6) 1/6 1/6 1/6 1/6 1/6 1/6
Introduccin a la Teora de la Informacin y
Aplicaciones: n v/s log n
Como se usan las probabilidades en las
comunicaciones?
Si se quieren comparar fuentes y canales de datos, se

pueden usar medidas de las diferencias entre ellos
Estas medidas nos pueden dar un reflejo del tipo de fuente
y del tipo de canal que se esta estudiando
Sistema de
X Y
comunicaciones
comunicaciones?
Ejemplo: Binary Symmetric Channel (BSC), un modelo de

un canal simple pero que incluye gran parte de la complejidad
del problema de comunicaciones en general.
Nos interesa P{Y|X}, mas especficamente:
P{0|0} = P{1|1} = p, P{1|0} = P{0|1} = q

X Y
p
0 0
q
q
1 p 1
comunicaciones?
Ejemplo: Binary Erasure Channel (BEC)
Para el BEC P{0|0} = P{1|1} = p, P{z|0} = P{z|1} = q
X Y
p
0 0
q
q z
1 p 1
Probabilidades Condicionales
Considere una matrix de probabilidades para dos variables aleatorias X, Y

representando un transmisor y un receptor:
Como se calcula la probabilidad de X dado Y: P( X | Y } o Y dado X: P( Y | X } ?
Y=
P{ X = i | Y = j ) = p(xi | yj) = p(xi , yj) / i(pij) 1 2 3 4
[ ]
P{ Y = j | X = i )= p(yj | xi) = p(xi , yj) / j(pij) 2 1 1 0
1 4/16
16 16 16 16
1 2 1 0
2 4/16
Ejemplo: X= 16 16 16 36
0 1 2 1
P( X = 1| Y = 2) = p(x1 , y2) / i(pi2) = (1/16) / (5/16) = 1/5 3 16 16 16 16
4/16
0 1 1 2
P( Y = 3| X = 3) = p(x3 , y3) / j(p3j) = (2/16) / (4/16) = 1/2 4 16 16 16 16 4/16
3/16 5/16 5/16 3/16
Aplicaciones
Contenidos:
Entropa
Bioinformtica.
Aplicaciones: log n v/s Entropa
La entropa H(X)
H(X) es una medida de la incertidumbre o de la informacin
promedio que nos provee una variable aleatoria (o grupo de
variables aleatorias)
La seleccin de un evento de dos posibles eventos de igual
probabilidad requiere 1 bit de informacin
La seleccin de un evento de cuatro posibles eventos de
igual probabilidad requiere 2 bits de informacin
...etc...
La entropia H(X) (cont)
Si tenemos un espacio de muestreo dividido en 2N eventos

que son igualmente probables Ek (k = 1, 2, ..., 2N) entonces
la informacin (en bits) proveida por el evento Ek es:
N
I(Ek ) = log(pk ) = log 2 = N
La entropia H(X) (cont)
La informacin promedio dada por una variable aleatoria X

que representa un sistema finito de probabilidades entonces
n
es:
H(X) = I(E k ) =
k= 1
p k log 2 (p k )
H(X) cumple con varios requisitos:
Continuidad
Simetra
Extrema: cuando todos los eventos son equiprobables
H(X) tiene que ser mximo, cuando uno es el unico
probable H(X) tiene que ser mnimo
Aditiva
La entropia H(X): porque nlogn como medida?
Si se tiene un sistema con por ejemplo n diferentes

opciones de transmisin
Y si se quiere tener una medida basada en esas
opciones para poder diferenciar un sistema de otro o
para disear sistemas en el cuales el origen, el canal y
el destino estuvieran bien dimensionados.
Podra usarse por ejemplo el numero de estados n
como medida de las opciones disponibles?
La entropia H(X): n, una posible medida de un sistema
probabilistico
Ejemplo: Un sistema de comunicaciones Morse en el cual se

pueden mandar tres diferentes combinaciones de claves.
En nuestro ejemplo cada una de las tres claves tiene dos

posibles estados (raya y punto).
probabilistico
Ejemplo (cont):
Asumiendo que todos los estados son equiprobables las

probabilidades son:
P{cl1=raya} = P{cl1=punto} = P{cl2=raya} = P{cl2=punto} =
P{cl3=raya} = P{cl3=punto} =
En nuestro ejemplo el sistema visto como conjunto tiene ocho

posibles estados (raya-raya-raya, raya-raya-punto,, punto-
punto-punto, 23=8) pero las tres claves como componentes
del sistema nos da seis posibles estados (2+2+2=6).
Estado Clave 1 Clave 2 Clave 3
1 - - -
2 - - .
3 - . -
4 - . .
5 . - -
6 . - .
7 . . -
8 . . .

probabilistico
El numero de estados (n) para el sistema es ms = 8,

para cada clave mc1=mc2=mc3= 2
Una cualidad deseable en cualquier medida es que se
puedan sumar los estados de los componentes del
sistema y que esta suma sea igual a los estados del
sistema completo mc1 + mc2 + mc3 = ms
Pero 2 + 2 + 2 8 Entonces simplemente usar n no
funciona Qu hacer?
Afortunadamente una manera de transformar productos
de nmeros a sumas es usando el logaritmo.
La entropia H(X): log n, otra posible medida de sistema

probabilistico
log2n tiene la capacidad requerida de nuestra medida ya

que: log2(2) + log2(2) + log2(2) = log2(8)
Entonces usando nuestra nueva medida m = log2(n)
Para el sistema entero log2(ns) = log2(8) y para cada
clave log2(nc1)= log2( nc2) = log2( nc3) = log2(2)
Esta nueva medida si tiene esta cualidad deseada
(propiedad aditiva) mc1 + mc2 + mc3 = ms
Tpicamente se usa la base 2 para el logaritmo
especialmente en sistemas binarios. En este caso la
unidad de informacin de sistemas binarios se llama bit
que es una contraccin de binary unit.
La entropia H(X): Sistemas con probabilidades distintas
En sistemas en los cuales las probabilidades de los

componentes transmitidos en mensajes no son
equiprobables, entonces es necesario ampliar nuestra
medida (log2(n)).
Esta medida se llama entropa se usa el smbolo H para
designarla.
No se pueden sumar las contribuciones de los diferentes

componentes de manera igual ya que en sistemas reales
los componentes de los mensajes tienen diferentes
frecuencias y probabilidades.
Incluir esas probabilidades es esencial para que nuestra
medida mida las contribuciones de las diferentes opciones
en nuestro mensajes de manera mas realista.
Ejemplo: Sistema morse
Si {P(raya) = .1 y P(punto) = .9} se puede decir que la

informacin promedio contribuida por una raya es
Prayalog(Praya)
y la informacin promedio contribuida por un punto es
Ppuntolog(Ppunto).
Asumiendo que X = {raya, punto}, P(raya)=.1, P(punto)=.9,

x es una variable aleatoria del espacio X, N es la cantidad
de opciones igual a 2 (raya o punto).
H(X) deberia tender a 0 cuando P(xn) tiende a cero o a 1
ya que eso indica certeza en el mensaje y al haber
certeza no hay incertidumbre (una pista: -P(xn)logP(xn)
tiende a cero cuando P(xn) es cero o uno).
El valor mximo de H(X) es cuando P(xn) = 1/N =
indicando mayor incertidumbre en el mensaje y ms
informacin transmitida sobre el sistema (propiedad
extrema).
Si el numero de posibles resultados equiprobables se

incrementa entonces la entropa tambin se incrementa.
Tambin nos interesa que esta funcin H(X) tenga
simetra con respecto a la probabilidades de izquierda a
derecha
H(X) debiera ser concava hacia abajo (limitada) y continua
Para que cumpla con estos requerimientos, la entropa se
define de la siguiente forma:
H(X) = i
p i log(pi )
Medidas
2
log(P)
Valores
0 -log(P)
-Plog(P)
-2
-4
-6
-8
0
0.07
0.14
0.21
0.28
0.35
0.42
0.49
0.56
0.63
0.7
0.77
0.84
0.91
0.98
Probabilidad P
Medidas
0.6
0.5
0.4
Valores
0.3 -P1log(P1)
0.2
0.1
0
0
1
04
12
24
68
76
88
96
08
16
28
32
36
44
48
52
56
64
72
84
92
2
8
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
Probabilidad P1
Medidas
0.6
0.5
0.4
Valores
0.3 -P2log(P2)
0.2
0.1
0
1
0
12
04
96
92
88
84
76
72
68
64
56
52
48
44
36
32
28
24
16
08
6
2
8
4
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
Probabilidad P2
Medidas
1.2
0.8
Valores H(x)
0.6 H(x)=-P1log(P1)-P2log(P2)
0.4
0.2
0
0
0.04
0.08
0.12
0.16
0.48
0.52
0.88
0.92
0.2
0.4
0.56
0.6
0.8
0.96
1
0.24
0.28
0.32
0.36
0.44
0.64
0.68
0.72
0.76
0.84
Probabilidad P1
(P2 = 1 - P1)
Aplicaciones: Entropa
Ejemplos H(X):
Si P(raya) = .1, P(punto) = .9:

H(X) = -(.1log20.1 + .9log2.9) = 0.476 bits
Si P(raya) = .9, P(punto) = 0.1:
H(X) = -(.9log2.9 + .1log2.1) = 0.476 bits {simetra}
Si P(raya) =.5 y P(punto)=.5:

H(X) = -(.5log2.5 + .5log2.5) = 1.0 bits {P=(1/N) H(x)Mx}
Si P(raya) =0 y P(punto)=1:
H(x) = -(0log20 + 1log21) = 0 bits {P=(1) H(x)Min=0}
Conclusion:Que es la entropa?
La entropa H(X) mide la informacin o incertidumbre
promedio de una variable aleatoria X (o sistema
representado por X).
Entropas a considerar en un sistema
Igual que cuando se estudio las probabilidades en el caso de tener

dos variables aleatorias (Ej: transmisor X y receptor Y) se consideran las
siguientes entropas para medir relaciones entre las variables:
H(X) : Informacin o entropia por carcter en el transmisor (en bits)

H(Y) : Informacin o entropia por carcter en el receptor (en bits)
H(X,Y) : Informacin o entropia por par de caracteres transmitidos y
recibidos (en bits)
H(Y| X) : Informacin o entropia condicional sobre el receptor Y sabiendo
que X = i fue transmitido (en bits)
H(X| Y) : Informacin o entropia condicional sobre el transmisor sabiendo
que Y = j fue recibido, tambin conocido como equivocacin (en bits)
Ejemplo: Entropas a considerar en un sistema
p(X=1)=0.25, p(X=2)=0.4, p(X=3)=0.15, p(X=4)=0.15, p(X=5)=0.05

p(Y=1)=0.35, p(Y=2)=0.35, p(Y=3)=0.20, p(Y=4)=0.1 Y=
1 2 3 4
[ ]
p( x1| y1) = p(x1, y1) / i(pi1) =0.25/0.35 = .714 1 0.25 0 0 0 0.25
2 0.1 0.3 0 0 0.4
p( y1| x1) = 0.25/0.25 = 1 X= 3 0 0.05 0.1 0 0.15
p( y2| x3) = 0.05/0.15 = .333 4 0 0 0.05 0.1 0.15
5 0 0 0.05 0 0.05
0.35 0.35 0.20 0.1
H X = p x , y log p X =i= p X =i log p X =i

i j i
H(X) = -0.25 log 0.25 0.1 log 0.4 0.3 log 0.4 0.05 log 0.15
- 0.1log 0.15 0.05 log 0.15 0.1 log 0.15 0.05 log 0.05 = 2.066 bits
Equivalentemente:
H(X) = -0.25 log 0.25 0.4 log 0.4 0.15 log 0.15 0.15 log 0.15 0.05 log 0.05
= 2.066 bits
Ejemplo: Entropas a considerar en un sistema
H Y = p x , y log p Y = j= pY = j log pY = j
i j j
Y=
H(Y) = -0.25 log 0.35 0.1 log 0.35 0.3 log 0.35 1 2 3 4
0.05 log 0.35 0.1log 0.2 0.05 log 0.2
[ ]
1 0.25 0 0 0 0.25
0.05 log 0.20 0.1 log 0.1 = 1.856 bits 2 0.1 0.3 0 0 0.4
X= 3 0 0.05 0.1 0 0.15
Equivalentemente: 4 0 0 0.05 0.1 0.15
H(Y) = -0.35 log 0.35 0.35 log 0.35 0.2 log 0.2 5 0 0 0.05 0 0.05
0.1 log 0.1 = 1.856 bits 0.35 0.35 0.20 0.1
H X , Y = p x , y log p x , y
i j
H(X, Y) = -0.25 log 0.25 0.1 log 0.1 0.3 log 0.3
0.05 log 0.05 0.1log 0.1 0.05 log 0.05
0.1 log 0.1 0.5 log 0.5 = 2.665 bits
Ejemplo: Entropas a considerar en un sistema (cont)
H XY = p X =i ,Y = jlog p xy= p Y = j H XY = j
i j j
H(X | Y) = -p(x1,y1) log p(x1|y1) - p(x2,y1) log p(x2|y1) - p(x2,y2) log p(x2|y2)
- p(x3,y2) log p(x3|y2) - p(x4,y3) log p(x4|y3) - p(x4,y4) log p(x4|y4)
- p(x5,y3) log p(x5|y3) - p(x5,y4) log p(x5|y4)
= 0.809 bits
Equivalentemente: Y=
H(X | Y) = 0.35 H(0.25/0.35, 0.1/0.35) 1 2 3 4
+ 0.35 H(0.3/0.35, 0.05/0.35)
[ ]
1 0.25 0 0 0 0.25
+ 0.2 H(0.1/0.2, 0.05/0.2, 0.05/0.2) 2 0.1 0.3 0 0 0.4
+ 0.1 H(0.1/0.1) X= 3 0 0.05 0.1 0 0.15
= 0.809 bits 4 0 0 0.05 0.1 0.15
5 0 0 0.05 0 0.05
0.35 0.35 0.20 0.1
H YX = p X =i ,Y = jlog p yx = p X =i H YX =i
i j i
H(Y | X) = - p(y1,x1) log p(y1|x1) - p(y1,x2) log p(y1|x2) p(y2,x2) log p(y2|x2)
- p(y2,x3) log p(y2|x3) - p(y3,x3) log p(y3|x3) - f(y3,x4) log p(y3|x4)
- f(y3,x4) log p(y3|x4) - p(y3,x5) log p(y3|x5)
= 0.6 bits
Equivalentemente: Y=
H(Y | X) = 0.25 H(0.25/0.25) + 0.4 H(0.1/0.4,0.3/0.4) 1 2 3 4
+ 0.15 H(0.05/0.15, 0.1/0.15)
[ ]
1 0.25 0 0 0 0.25
+ 0.15 H(0.05/0.15, 0.1/0.15)
2 0.1 0.3 0 0 0.4
+ 0.05 H(0.05/0.05) X= 3 0 0.05 0.1 0 0.15
= 0.6 bits
4 0 0 0.05 0.1 0.15
5 0 0 0.05 0 0.05
0.35 0.35 0.20 0.1
Hay que notar que H(x,y) < H(X) + H(Y)

2.665 < 2.066 + 1.856
y que: H(X,Y) = H(Y) + H(X|Y) = H(X) + H(Y|X)

2.665 = 1.856 + 0.809 = 2.066 + 0.600
H(X, Y) H(X, Y)
H(X) H(Y | X) H(X | Y) H(Y)

Informacin Mutua
La informacin mutua I(X;Y) es una medida de la informacin proveida

por los pares de smbolos (x,y), la relacin entre I(X;Y) y la entropia es:
H(X,Y) = H(X) + H(Y | X) = H(Y) + H(X | Y)
H(X,Y) = H(X) + H(Y) - I(X;Y)
I(X;Y) = H(X) H(X | Y)
I(X;Y) = H(Y) H(Y | X)
I(X;Y) mide la dependencia entre el input X y el output Y, o la informacin

transmitida por el canal, es positiva y simtrica en X y Y.
H(X, Y)
H(X) H(Y)
H(X | Y) I(X;Y) H(Y | X)

Informacin Mutua
La capacidad de un canal definida por Shannon es C = max I(X;Y),

max I(X;Y) es cuando la incertidumbre de lo que se transmiti (X) dado Y
es zero o cuando la incertidumbre de recibir Y dado X es zero:
Si I(X;Y) = H(X) H(X | Y), cuando H(X | Y) = 0 max I(X;Y) = C
Si I(X;Y) = H(Y) H(Y | X), cuando H(Y | X) = 0 max I(X;Y) = C
H(Y | X) maxima H(Y | X) grande H(Y | X) chica H(Y | X) = 0
H(X, Y) H(X, Y) H(X, Y) H(X, Y)
H(X) H(Y | X) = H(Y) H(X) = H(Y) =

I(X;Y) I(X;Y) H(X, Y) = I(X;Y)
I(X;Y)=0
Informacin Mutua (cont) Y=
1 2 3 4
0.25
[ ]
Para un canal libre de ruido (canal perfecto): 1 0.25 0 0 0
2 0 0.25 0 0 0.25
X= 3 0 0 0.25 0 0.25
4 0 0 0 0.25 0.25
p( x1| y1) = 0.25/0.25 = 1 , p( x2| y2) = 0.25/0.25 = 1 0.25 0.25 0.25 0.25
p( x3| y3) = 0.25/0.25 = 1 , p( x4| y4) = 0.25/0.25 = 1
p( y1| x1) = 0.25/0.25 = 1 , p( y2| x2) = 0.25/0.25 = 1
p( y3| x3) = 0.25/0.25 = 1 , p( y4| x4) = 0.25/0.25 = 1
todos los otros f(x | y) y f(y | x) son zero
H X , Y = p x , y log p x , y
x y
H(X, Y) = 0.25 log 0.25 0.25 log 0.25 0.25 log 0.25 0.25 log 0.25 = 2 bits
Informacin Mutua (cont)
Y=
1 2 3 4
0.25
[ ]
H(X) = 0.25 log 0.25 0.25 log 0.25 1 0.25 0 0 0
0.25 log 0.25 0.25 log 0.25 = 2 bits 2 0 0.25 0 0 0.25
X= 3 0 0 0.25 0 0.25
H(Y) = 0.25 log 0.25 0.25 log 0.25 4 0 0 0 0.25 0.25
0.25 log 0.25 0.25 log 0.25 = 2 bits 0.25 0.25 0.25 0.25
H(Y | X) = - 0.25log1 0.25log1 -0.25log1 -0.25log1 = 0
similarmente H(X | Y) = 0
Para este canal libre de ruido : I(X;Y) = H(X) = H(Y) = H(X,Y) = 2 bits
Aplicaciones: Entropa Y=
1 2
Informacin Mutua (cont)
0.5
Para un canal con inputs y output independientes:
H(Y | X) = H(Y) (maxima)
X= [
1 0.25
2 0.25
0.25
0.25 ] 0.5
0.5 0.5
H(X, Y)
H(X) = H(X|Y) = 1, H(Y) = H(Y|X) = 1, H(X,Y) = 2
I(X;Y)= H(X) H(X|Y) = 1 1 = 0 bits
= H(Y) H(Y|X) = 1 1 = 0 bits
H(X) = H (X | Y) H(Y | X) = H(Y) Y=
I(X;Y)=0 1 2
0.5
Para un canal libre de ruido (canal perfecto):
H(Y | X) = 0
X=
2 [
1 0.50 0
0 0.50 ] 0.5
H(X, Y) 0.5 0.5
H(X) = 1, H(Y) = 1, H(X,Y) = 1,
H(X|Y) = 0, H(X|Y) = 0
I(X;Y)= H(X) H(X|Y) = 1 0 = 1 bit

H(X) = H(Y) = H(X, Y)=I(X;Y) = H(Y) H(Y|X) = 1 0 = 1 bit
Aplicaciones: Entropa Relativa
Que es la entropa relativa ?

La entropa relativa es una medida de la distancia o divergencia
entre dos funciones de probabilidad p(x) y q(x). Tambin es
conocida como distancia Kullback Leibler (KL1 y KL2).
La medida Jensen/Jeffreys (simtrica) es la suma de KL1 y KL2 :
J = KL1 + KL2.
Hay muchas otras medidas de divergencia aparte de KL1, KL2 y J.
KL1 = D(p | q) = p log(p / q )

i
i i i
KL2 = D(p | q) = q log(q / p )

i i i
i
Ejemplos de H(x), KL1, KL2 y J:
Hay dos dados (los dos estn arreglados!) y por consecuencia dos
variables aleatoria X e Y con los siguientes valores y probabilidades.
Posibles eventos : X = [1, 2, 3, 4, 5, 6], Y = [1, 2, 3, 4, 5, 6]
Ejemplo 1: Funciones de probabilidades discreta:
f(x) = {px1, px2, px3, px4, px5, px6} = {1/3,1/3,1/12,1/12,1/12,1/12},
f(y) = {py1, py2, py3, py4, py5, py6} = {1/12,1/12,1/6,1/6,1/6,1/3}
4/12 4/12
3/12 3/12
f(x) f(y)
2/12 2/12
1/12 1/12
0 0
1 2 3 4 5 6 1 2 3 4 5 6
X Y
Ejemplo de H(x), KL1, KL2 y JS (cont):
H(X) = -(1/3log21/3+1/3log21/3+...+1/12log21/12) = 2.2516

H(Y) = -(1/12log21/12+1/6log21/6+...+1/3log21/3) = 2.5157
KL1 = D(X | Y) = 0.833
KL2 = D(X | Y) = 1.333
J = KL1 + KL2 = 2.16666
Ejemplo 2:
f(x) = {1/12,1/12,1/6,1/6,1/6,1/3}
f(y) = {1/3,1/3,1/12,1/12,1/12,1/12} ,
KL1 = D(X | Y) = 1.333
KL2 = D(X | Y) = 0.833
J = KL1 + KL2 = 2.16666
KL1 y KL2 no son simtricas pero J si lo es.

Aplicaciones
Contenidos:
Entropa
Bioinformtica.
Aplicaciones: Aplicaciones
Comunicaciones
La T.I. es muy importante en el continuo desarrollo de
las comunicaciones.
Un canal de comunicaciones es un sistema en el cual el
output (M) depende probabilisticamente del input (M).
La entropa H(x) mide la incertidumbre de una variable
aleatoria (X).
Para medir la incertidumbre de un canal de
comunicaciones se usa una medida llamada la
informacin mutual I(X;Y) = H (X) H(X|Y).
Sistema de Comunicacin
Origen Codificador Canal De- Destino

codificador
Mensaje M Mensaje M
Comunicaciones
I(X;Y) mide la dependencia entre el input X y el output Y
es positiva y simtrica en X y Y.
La capacidad de un canal es C=max I(X;Y); max I(X;Y)
es cuando la incertidumbre de lo que se transmiti (X)
dado Y es zero : H(X|Y) = 0 C=max I(X;Y).
Comunicaciones
Claude Shannon demostr que la informacin puede
ser transmitida con fiabilidad hasta el ritmo permitido por
la capacidad del canal C. Esta fiabilidad era
independiente del ritmo de la transmisin siempre que
fuera menor que C.
El teorema de codificacin de canales de Shannon
prometi la existencia de cdigos que permitiran la
transmisin de informacin a velocidades mas rapidas.
Algunos codigos que usaron estas ideas son los codigos
de Hamming y Reed-Solomon.
Criptografa
La teora de la informacin tambin es usada en otras
reas como la encriptacin.
Usando M como el mensaje, C como el cypher texto, K
como la llave para la encriptacin.
La situacin corresponde al sistema de comunicaciones
pero con agregando seguridad a la informacion
transmitida.
Sistema de Encriptacin
K Generador K
de llaves
Origen Encriptor Canal Decriptor Destino
Interceptor
Mensaje M Mensaje M
(e, K, C)
C=e(M,K)
Criptografa
Shannon describi la equivocacin de la llave H(K | C) el
cual mide la incertidumbre promedio de una llave K
cuado un criptograma C ha sido interceptado.
Conceptos de la teora de la informacin han sido usado
en procesos y algoritmos como PGP, RSA, DES y otros.
Gracias a estos algoritmos existe el internet como se
conoce hoy.
Bioinformtica
Los conceptos de divergencia (Kullback Leibler) entre
distribuciones ha sido usado en la Bioinformtica para la
deteccin de patrones en secuencias de ADN.
Estas secuencias son un patrn estocstico que puede
ser considerado como un generador ergodico de
caracteres.
Los caracteres usados en el ADN son el A, T, C, y G.
Usando mtodos basados en la Teora de la Informacin
es posible mejorar el anlisis de codones (tripletes de
ADN que generan protenas), motifs (grupos de
caracteres que tienen una significancia biolgica) y otros
relieves de inters.
Ejemplo: Usando la diferencia en sus estadsticas se han

creado medidas para medir la divergencia entre de
codones y nocodones.
Usando un indicador (pointer) se calculan las

frecuencias de los doce diferentes nucletidos (A0, T0,
C0, G0, A1, T1, C1, G1, A2, T2, C2, G2) a la izquierda y
derecha del indicador
Se usan las doce frecuencias a la izquierda como p:
(fiA0,...fiG2) y las otras doce como q: (fdA0,...,fdG2)
Se usan diferentes medidas (KL1, KL2, ...) para calcular
D(p | q) y detectar codones y no codones.
Hay muchas (mas de treinta) diferentes medidas que
pueden ser usadas con estos propsitos.
Bioinformatica
Medida Kullback Leibler 1 (KL1) y KL2
KL1, 2 = I1, 2 = P1 log(p1 / p 2 )
KL 2,1 = I 2,1 = P2 log(p 2 / p1 )
Medida Jensen Jeffreys (J)
J = KL1, 2 + KL2,1
Bioinformatica
Medida Kullback Leibler 1 para detectar codones
(1) human ; (2) ecoli; (3) jannaschii; and (4) rprowazekii)
I II I II
III III
0.06 0.06
(1)
(2)
0.04 0.04
KL KL
1 1
0.02 0.02
0 0
0.3 0.3
(3) (4)
0.2 0.2
KL KL
1 0.1 1 0.1
0 0
30 1900 3500 5100 300 1900 3500 5100

0
Pointer Pointer
position position
Aplicaciones: Conclusin
En general estas medidas y la Teora de la Informacin

pueden ser usadas para detectar patrones estadsticos
en muchos tipos de secuencias, imagenes u otras
formas de informacin.
La Teora de la Informacin nos da una base terica
para la investigacin de muchas reas diferentes
aparentemente no relacionadas.
Aplicaciones
Referencias:
[1] Reza, F., An Introduction to Information Theory, Dover

Publications, 1994
[2] Cover, T., Elements of Information Theory, Wiley, 1991
[3] Galvan, P.B. et al, Finding Borders between Coding and
Noncoding DNA Regions by an Entropic Segmentation
Method, Physical Review Letters, 85 (2000)
[4] en.wikipedia.org

Introduccion A La Teoria de La Informacion PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Introduccion A La Teoria de La Informacion PDF

Cargado por

Copyright:

Formatos disponibles

Introduccin a la Teora de la

Sistema de Comunicaciones Bsico

Origen Canal Destino

Cul es el rol de las probabilidades en las

Las frecuencias y las probabilidades

La formula para el numero de permutaciones de

Cada uno de los objetos es distinguible de los otros

Si alguien eligiera una permutacin de colores para su flota

Estas cantidades se llaman coeficientes binomiales porque

Si nos importara el orden el resultado seria una permutacion:

La probabilidad de A dado S se escribe: P(A | S}

Para eventos A y A (inversos)

Las frecuencias y las probabilidades (cont)

Prob{A} = 1/2, Prob{B} = 1/13,

Si el evento A y B son independientes

Prob{A} = P{A|B} = 1/6,

Prob{A} = 1/6, Prob{B} = 1/6, Prob{AB} = {}

Si se tiene un experimento aleatorio y los resultados se

En un espacio discreto de muestreo, cuando la variable

En la mayora de los problemas en ingeniera es importante saber la

Se denominan probabilidades marginales cuando solo se considera solo

Distribucin (probabilidad) marginal

P( X = i) = j(pij) = pi1 + pi2 + ... + pin,

P( Y = j) = i(pij) = p1j + p2j + ... + pmj

Ejemplo: Un sistema con input (X) y output (Y).

Si se quieren comparar fuentes y canales de datos, se

Ejemplo: Binary Symmetric Channel (BSC), un modelo de

Nos interesa P{Y|X}, mas especficamente:

P{0|0} = P{1|1} = p, P{1|0} = P{0|1} = q

Ejemplo: Binary Erasure Channel (BEC)

Para el BEC P{0|0} = P{1|1} = p, P{z|0} = P{z|1} = q

Considere una matrix de probabilidades para dos variables aleatorias X, Y

La entropia H(X) (cont)

Si tenemos un espacio de muestreo dividido en 2N eventos

La informacin promedio dada por una variable aleatoria X

La entropia H(X): porque nlogn como medida?

Si se tiene un sistema con por ejemplo n diferentes

Ejemplo: Un sistema de comunicaciones Morse en el cual se

En nuestro ejemplo cada una de las tres claves tiene dos

Asumiendo que todos los estados son equiprobables las

En nuestro ejemplo el sistema visto como conjunto tiene ocho

Estado Clave 1 Clave 2 Clave 3

La entropia H(X): n, una posible medida de un sistema

El numero de estados (n) para el sistema es ms = 8,

La entropia H(X): log n, otra posible medida de sistema

log2n tiene la capacidad requerida de nuestra medida ya

La entropia H(X): Sistemas con probabilidades distintas

En sistemas en los cuales las probabilidades de los

La entropia H(X): Sistemas con probabilidades distintas

No se pueden sumar las contribuciones de los diferentes

La entropia H(X): Sistemas con probabilidades distintas

Ejemplo: Sistema morse

Si {P(raya) = .1 y P(punto) = .9} se puede decir que la

La entropia H(X): Sistemas con probabilidades distintas

Asumiendo que X = {raya, punto}, P(raya)=.1, P(punto)=.9,

La entropia H(X): Sistemas con probabilidades distintas

Si el numero de posibles resultados equiprobables se

Si P(raya) = .1, P(punto) = .9:

Si P(raya) =.5 y P(punto)=.5:

Igual que cuando se estudio las probabilidades en el caso de tener

H(X) : Informacin o entropia por carcter en el transmisor (en bits)

p(X=1)=0.25, p(X=2)=0.4, p(X=3)=0.15, p(X=4)=0.15, p(X=5)=0.05

H X = p x , y log p X =i= p X =i log p X =i