Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introduccion A La Teoria de La Informacion PDF
Introduccion A La Teoria de La Informacion PDF
Informacin
Toms V. Arredondo
8/4/2011
Introduccin a la a la Teora de la Informacin y
Aplicaciones
Contenidos:
Introduccin a algunos aspectos de la teora de la
informacin (T.I.): informacin y probabilidades
Entropa
Resea de algunas aplicaciones en diferentes reas
incluyendo: Comunicaciones, Encripcin y
Bioinformtica.
Introduccin a la a la Teora de la Informacin y
Aplicaciones: Introduccin
Que es la informacin?
La informacin como es conocida comnmente es una
amalgama de muchas nociones vagas e imprecisas que
generalmente es medida basada en la cantidad de
noticia (o sorpresa) que provee.
Que es la teora de la informacin?
Serie de las leyes para relacionar determinado orden de
fenmenos relacionados con la comunicacin de la
informacin entre su origen y su destino a travs de un
canal.
Introduccin a la a la Teora de la Informacin y
Aplicaciones: Introduccin
Mensaje M Mensaje M
Introduccin a la a la Teora de la Informacin y
Aplicaciones: Introduccin
6!
P n , r = P 6, 4= =360
64!
0 1 2 3
(a + b)3 = 3 a 3 3 a 2b 3 ab 2 3 b3
Introduccin a la a la Teora de la Informacin y
Aplicaciones: Introduccin
Las frecuencias y las probabilidades (cont)
Ejemplo:
Si alguien compra 3 tipos de quesos del supermercado de
12 posibles tipos Cual es el numero de combinaciones de
compra? No nos importa el orden en que los compramos
(e.g. {Gruyere, Suizo, Cabra} se considera la misma
combinacin que {Suizo, Gruyere, Cabra})
12 !
C 12,3= 12 =
3 9! 3 !
=220
Ejemplo:
Se saca una carta de un mazo de cartas:
A = Sale una carta roja, B = sale un rey,
AB = sale un rey rojo,
A + B = sale un rey o sale una carta roja
Ejemplo:
Si estamos tirando dos dados y tenemos los siguientes eventos:
A = Dado 1 sale 3,
B = dado 2 sale 1,
C = la suma de ambos da 8.
Probs. apriori (antes de tener mas datos): P{A} = P{B} = 1/6, P{C} = 5/36
Probs. conjuntas: P{A } = 1/36, P{A C} = 1/36, P{B C} = 0/36
Probs. condicional: P{C | } = 0, P{C | A} = 1/ 6, P{B | A } = P{B} dado
que A y B son independientes.
Introduccin a la a la Teora de la Informacin y
Aplicaciones: Introduccin
Las frecuencias y las probabilidades (cont)
AB
A B
AB BA
Introduccin a la a la Teora de la Informacin y
Aplicaciones: Introduccin
Las frecuencias y las probabilidades (cont)
Ejemplo:
Se tiran dos dados, uno rojo y uno blanco:
A = Dado rojo sale uno, B = Dado blanco sale seis
AB = dado rojo sale uno y dado blanco sale seis
A + B = dado rojo sale uno o dado blanco sale seis
Ejemplo:
Se tira un dado:
A = el dado sale 1, B = el dado sale 2
AB = el dado sale 1 y el dado sale 2
A+B = el dado sale 1 o el dado sale 2
Ejemplo:
Se tira una moneda repetidamente hasta que sale una cara
X = La moneda sala cara por primera vez en el tiro k
X = {1, 2, 3,...,k}
PDF: f = {1/2, 1/4, 1/8, ..., 2-k}
CDF: F(x) = 2-1 + 2-2 + ... + 2-x
.5 1
.375 .625
f(x) F(x)
.25 .5
.125 .125
0 0
1 2 3 4 5 1 2 3 4 5
x x
Introduccin a la a la Teora de la Informacin y
Aplicaciones: Introduccin
Funciones Discretas de Multiples Variables
[ ]
Ejemplo: 2 1 1 0
1 4/16
16 16 16 16
1 2 1 0
P( X = 1) = p11+p12+p13+p14= 4/16 = 1/4 2 16 16 16 36
4/16
X=
P( Y = 2) = p12+p22+p32+p42= 5/16 0 1 2 1
3 16 16 16 16
4/16
0 1 1 2
4 16 16 16 16 4/16
3/16 5/16 5/16 3/16
Introduccin a la a la Teora de la Informacin y
Aplicaciones: Introduccin
Funciones Discretas de Multiples Variables (cont)
[ ]
P{X=i, Y=j} = 1/36 1 1 1 1 1 1 1
1/6
36 36 36 36 36 36
1 1 1 1 1 1
2 1/6
P{ 3 X 5, 2 Y 3 } = 6/36 = 1/6 36 36 36 36 36 36
1 1 1 1 1 1
3 1/6
36 36 36 36 36 36
Probabilidades marginales: X= 1 1 1 1 1 1
4 1/6
36 36 36 36 36 36
P{ 3 X 5} = 18/36 = 1/2 1 1 1 1 1 1
5 1/6
P{ 2 Y 3} = 12/36 = 1/3 36 36 36 36 36 36
1 1 1 1 1 1
X e Y son independientes, ya que todos 6 36 36 36 36 36 36 1/6
los valores del arreglo 1/36 = (1/6)(1/6) 1/6 1/6 1/6 1/6 1/6 1/6
Introduccin a la Teora de la Informacin y
Aplicaciones: n v/s log n
Como se usan las probabilidades en las
comunicaciones?
Sistema de
X Y
comunicaciones
Introduccin a la Teora de la Informacin y
Aplicaciones: n v/s log n
Como se usan las probabilidades en las
comunicaciones?
X Y
p
0 0
q
q z
1 p 1
Introduccin a la a la Teora de la Informacin y
Aplicaciones: Introduccin
Funciones Discretas de Multiples Variables (cont)
Probabilidades Condicionales
[ ]
P{ Y = j | X = i )= p(yj | xi) = p(xi , yj) / j(pij) 2 1 1 0
1 4/16
16 16 16 16
1 2 1 0
2 4/16
Ejemplo: X= 16 16 16 36
0 1 2 1
P( X = 1| Y = 2) = p(x1 , y2) / i(pi2) = (1/16) / (5/16) = 1/5 3 16 16 16 16
4/16
0 1 1 2
P( Y = 3| X = 3) = p(x3 , y3) / j(p3j) = (2/16) / (4/16) = 1/2 4 16 16 16 16 4/16
3/16 5/16 5/16 3/16
Introduccin a la a la Teora de la Informacin y
Aplicaciones
Contenidos:
Introduccin a algunos aspectos de la teora de la
informacin (T.I.): informacin y probabilidades
Entropa
Resea de algunas aplicaciones en diferentes reas
incluyendo: Comunicaciones, Encripcin y
Bioinformtica.
Introduccin a la Teora de la Informacin y
Aplicaciones: log n v/s Entropa
La entropa H(X)
H(X) es una medida de la incertidumbre o de la informacin
promedio que nos provee una variable aleatoria (o grupo de
variables aleatorias)
La seleccin de un evento de dos posibles eventos de igual
probabilidad requiere 1 bit de informacin
La seleccin de un evento de cuatro posibles eventos de
igual probabilidad requiere 2 bits de informacin
...etc...
Introduccin a la Teora de la Informacin y
Aplicaciones: log n v/s Entropa
N
I(Ek ) = log(pk ) = log 2 = N
Introduccin a la Teora de la Informacin y
Aplicaciones: log n v/s Entropa
La entropia H(X) (cont)
Ejemplo (cont):
1 - - -
2 - - .
3 - . -
4 - . .
5 . - -
6 . - .
7 . . -
8 . . .
Introduccin a la Teora de la Informacin y
Aplicaciones: n v/s log n
Medidas
2
log(P)
Valores
0 -log(P)
-Plog(P)
-2
-4
-6
-8
0
0.07
0.14
0.21
0.28
0.35
0.42
0.49
0.56
0.63
0.7
0.77
0.84
0.91
0.98
Probabilidad P
Introduccin a la Teora de la Informacin y
Aplicaciones: log n v/s Entropa
Medidas
0.6
0.5
0.4
Valores
0.3 -P1log(P1)
0.2
0.1
0
0
1
04
12
24
68
76
88
96
08
16
28
32
36
44
48
52
56
64
72
84
92
2
8
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
Probabilidad P1
Introduccin a la Teora de la Informacin y
Aplicaciones: log n v/s Entropa
Medidas
0.6
0.5
0.4
Valores
0.3 -P2log(P2)
0.2
0.1
0
1
0
12
04
96
92
88
84
76
72
68
64
56
52
48
44
36
32
28
24
16
08
6
2
8
4
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
Probabilidad P2
Introduccin a la Teora de la Informacin y
Aplicaciones: log n v/s Entropa
Medidas
1.2
0.8
Valores H(x)
0.6 H(x)=-P1log(P1)-P2log(P2)
0.4
0.2
0
0
0.04
0.08
0.12
0.16
0.48
0.52
0.88
0.92
0.2
0.4
0.56
0.6
0.8
0.96
1
0.24
0.28
0.32
0.36
0.44
0.64
0.68
0.72
0.76
0.84
Probabilidad P1
(P2 = 1 - P1)
Introduccin a la Teora de la Informacin y
Aplicaciones: Entropa
Ejemplos H(X):
Conclusion:Que es la entropa?
La entropa H(X) mide la informacin o incertidumbre
promedio de una variable aleatoria X (o sistema
representado por X).
Introduccin a la Teora de la Informacin y
Aplicaciones: Entropa
Entropas a considerar en un sistema
[ ]
p( x1| y1) = p(x1, y1) / i(pi1) =0.25/0.35 = .714 1 0.25 0 0 0 0.25
2 0.1 0.3 0 0 0.4
p( y1| x1) = 0.25/0.25 = 1 X= 3 0 0.05 0.1 0 0.15
p( y2| x3) = 0.05/0.15 = .333 4 0 0 0.05 0.1 0.15
5 0 0 0.05 0 0.05
0.35 0.35 0.20 0.1
H Y = p x , y log p Y = j= pY = j log pY = j
i j j
Y=
H(Y) = -0.25 log 0.35 0.1 log 0.35 0.3 log 0.35 1 2 3 4
0.05 log 0.35 0.1log 0.2 0.05 log 0.2
[ ]
1 0.25 0 0 0 0.25
0.05 log 0.20 0.1 log 0.1 = 1.856 bits 2 0.1 0.3 0 0 0.4
X= 3 0 0.05 0.1 0 0.15
Equivalentemente: 4 0 0 0.05 0.1 0.15
H(Y) = -0.35 log 0.35 0.35 log 0.35 0.2 log 0.2 5 0 0 0.05 0 0.05
0.1 log 0.1 = 1.856 bits 0.35 0.35 0.20 0.1
H X , Y = p x , y log p x , y
i j
H(X, Y) = -0.25 log 0.25 0.1 log 0.1 0.3 log 0.3
0.05 log 0.05 0.1log 0.1 0.05 log 0.05
0.1 log 0.1 0.5 log 0.5 = 2.665 bits
Introduccin a la Teora de la Informacin y
Aplicaciones: Entropa
Ejemplo: Entropas a considerar en un sistema (cont)
H XY = p X =i ,Y = jlog p xy= p Y = j H XY = j
i j j
H(X | Y) = -p(x1,y1) log p(x1|y1) - p(x2,y1) log p(x2|y1) - p(x2,y2) log p(x2|y2)
- p(x3,y2) log p(x3|y2) - p(x4,y3) log p(x4|y3) - p(x4,y4) log p(x4|y4)
- p(x5,y3) log p(x5|y3) - p(x5,y4) log p(x5|y4)
= 0.809 bits
Equivalentemente: Y=
H(X | Y) = 0.35 H(0.25/0.35, 0.1/0.35) 1 2 3 4
+ 0.35 H(0.3/0.35, 0.05/0.35)
[ ]
1 0.25 0 0 0 0.25
+ 0.2 H(0.1/0.2, 0.05/0.2, 0.05/0.2) 2 0.1 0.3 0 0 0.4
+ 0.1 H(0.1/0.1) X= 3 0 0.05 0.1 0 0.15
= 0.809 bits 4 0 0 0.05 0.1 0.15
5 0 0 0.05 0 0.05
0.35 0.35 0.20 0.1
Introduccin a la Teora de la Informacin y
Aplicaciones: Entropa
Ejemplo: Entropas a considerar en un sistema (cont)
H YX = p X =i ,Y = jlog p yx = p X =i H YX =i
i j i
H(Y | X) = - p(y1,x1) log p(y1|x1) - p(y1,x2) log p(y1|x2) p(y2,x2) log p(y2|x2)
- p(y2,x3) log p(y2|x3) - p(y3,x3) log p(y3|x3) - f(y3,x4) log p(y3|x4)
- f(y3,x4) log p(y3|x4) - p(y3,x5) log p(y3|x5)
= 0.6 bits
Equivalentemente: Y=
H(Y | X) = 0.25 H(0.25/0.25) + 0.4 H(0.1/0.4,0.3/0.4) 1 2 3 4
+ 0.15 H(0.05/0.15, 0.1/0.15)
[ ]
1 0.25 0 0 0 0.25
+ 0.15 H(0.05/0.15, 0.1/0.15)
2 0.1 0.3 0 0 0.4
+ 0.05 H(0.05/0.05) X= 3 0 0.05 0.1 0 0.15
= 0.6 bits
4 0 0 0.05 0.1 0.15
5 0 0 0.05 0 0.05
0.35 0.35 0.20 0.1
Introduccin a la Teora de la Informacin y
Aplicaciones: Entropa
Ejemplo: Entropas a considerar en un sistema (cont)
H(X, Y) H(X, Y)
H(X) H(Y)
[ ]
Para un canal libre de ruido (canal perfecto): 1 0.25 0 0 0
2 0 0.25 0 0 0.25
X= 3 0 0 0.25 0 0.25
4 0 0 0 0.25 0.25
p( x1| y1) = 0.25/0.25 = 1 , p( x2| y2) = 0.25/0.25 = 1 0.25 0.25 0.25 0.25
p( x3| y3) = 0.25/0.25 = 1 , p( x4| y4) = 0.25/0.25 = 1
p( y1| x1) = 0.25/0.25 = 1 , p( y2| x2) = 0.25/0.25 = 1
p( y3| x3) = 0.25/0.25 = 1 , p( y4| x4) = 0.25/0.25 = 1
todos los otros f(x | y) y f(y | x) son zero
H X , Y = p x , y log p x , y
x y
H(X, Y) = 0.25 log 0.25 0.25 log 0.25 0.25 log 0.25 0.25 log 0.25 = 2 bits
Introduccin a la Teora de la Informacin y
Aplicaciones: Entropa
Informacin Mutua (cont)
Y=
1 2 3 4
0.25
[ ]
H(X) = 0.25 log 0.25 0.25 log 0.25 1 0.25 0 0 0
0.25 log 0.25 0.25 log 0.25 = 2 bits 2 0 0.25 0 0 0.25
X= 3 0 0 0.25 0 0.25
H(Y) = 0.25 log 0.25 0.25 log 0.25 4 0 0 0 0.25 0.25
0.25 log 0.25 0.25 log 0.25 = 2 bits 0.25 0.25 0.25 0.25
similarmente H(X | Y) = 0
Para este canal libre de ruido : I(X;Y) = H(X) = H(Y) = H(X,Y) = 2 bits
Introduccin a la Teora de la Informacin y
Aplicaciones: Entropa Y=
1 2
Informacin Mutua (cont)
0.5
Para un canal con inputs y output independientes:
H(Y | X) = H(Y) (maxima)
X= [
1 0.25
2 0.25
0.25
0.25 ] 0.5
0.5 0.5
H(X, Y)
H(X) = H(X|Y) = 1, H(Y) = H(Y|X) = 1, H(X,Y) = 2
I(X;Y)= H(X) H(X|Y) = 1 1 = 0 bits
= H(Y) H(Y|X) = 1 1 = 0 bits
H(X) = H (X | Y) H(Y | X) = H(Y) Y=
I(X;Y)=0 1 2
0.5
Para un canal libre de ruido (canal perfecto):
H(Y | X) = 0
X=
2 [
1 0.50 0
0 0.50 ] 0.5
H(X, Y) 0.5 0.5
H(X) = 1, H(Y) = 1, H(X,Y) = 1,
H(X|Y) = 0, H(X|Y) = 0
Hay dos dados (los dos estn arreglados!) y por consecuencia dos
variables aleatoria X e Y con los siguientes valores y probabilidades.
Posibles eventos : X = [1, 2, 3, 4, 5, 6], Y = [1, 2, 3, 4, 5, 6]
Ejemplo 1: Funciones de probabilidades discreta:
f(x) = {px1, px2, px3, px4, px5, px6} = {1/3,1/3,1/12,1/12,1/12,1/12},
f(y) = {py1, py2, py3, py4, py5, py6} = {1/12,1/12,1/6,1/6,1/6,1/3}
4/12 4/12
3/12 3/12
f(x) f(y)
2/12 2/12
1/12 1/12
0 0
1 2 3 4 5 6 1 2 3 4 5 6
X Y
Introduccin a la Teora de la Informacin y
Aplicaciones: Entropa Relativa
Ejemplo de H(x), KL1, KL2 y JS (cont):
Ejemplo 2:
f(x) = {1/12,1/12,1/6,1/6,1/6,1/3}
f(y) = {1/3,1/3,1/12,1/12,1/12,1/12} ,
KL1 = D(X | Y) = 1.333
KL2 = D(X | Y) = 0.833
Contenidos:
Introduccin a algunos aspectos de la teora de la
informacin (T.I.): informacin y probabilidades
Entropa
Resea de algunas aplicaciones en diferentes reas
incluyendo: Comunicaciones, Encripcin y
Bioinformtica.
Introduccin a la Teora de la Informacin y
Aplicaciones: Aplicaciones
Comunicaciones
La T.I. es muy importante en el continuo desarrollo de
las comunicaciones.
Un canal de comunicaciones es un sistema en el cual el
output (M) depende probabilisticamente del input (M).
La entropa H(x) mide la incertidumbre de una variable
aleatoria (X).
Para medir la incertidumbre de un canal de
comunicaciones se usa una medida llamada la
informacin mutual I(X;Y) = H (X) H(X|Y).
Introduccin a la a la Teora de la Informacin y
Aplicaciones: Introduccin
Sistema de Comunicacin
Mensaje M Mensaje M
Introduccin a la Teora de la Informacin y
Aplicaciones: Aplicaciones
Comunicaciones
I(X;Y) mide la dependencia entre el input X y el output Y
es positiva y simtrica en X y Y.
La capacidad de un canal es C=max I(X;Y); max I(X;Y)
es cuando la incertidumbre de lo que se transmiti (X)
dado Y es zero : H(X|Y) = 0 C=max I(X;Y).
Introduccin a la Teora de la Informacin y
Aplicaciones: Aplicaciones
Comunicaciones
Claude Shannon demostr que la informacin puede
ser transmitida con fiabilidad hasta el ritmo permitido por
la capacidad del canal C. Esta fiabilidad era
independiente del ritmo de la transmisin siempre que
fuera menor que C.
El teorema de codificacin de canales de Shannon
prometi la existencia de cdigos que permitiran la
transmisin de informacin a velocidades mas rapidas.
Algunos codigos que usaron estas ideas son los codigos
de Hamming y Reed-Solomon.
Introduccin a la Teora de la Informacin y
Aplicaciones: Aplicaciones
Criptografa
La teora de la informacin tambin es usada en otras
reas como la encriptacin.
Usando M como el mensaje, C como el cypher texto, K
como la llave para la encriptacin.
La situacin corresponde al sistema de comunicaciones
pero con agregando seguridad a la informacion
transmitida.
Introduccin a la a la Teora de la Informacin y
Aplicaciones: Introduccin
Sistema de Encriptacin
K Generador K
de llaves
Interceptor
Mensaje M Mensaje M
(e, K, C)
C=e(M,K)
Introduccin a la Teora de la Informacin y
Aplicaciones: Aplicaciones
Criptografa
Shannon describi la equivocacin de la llave H(K | C) el
cual mide la incertidumbre promedio de una llave K
cuado un criptograma C ha sido interceptado.
Conceptos de la teora de la informacin han sido usado
en procesos y algoritmos como PGP, RSA, DES y otros.
Gracias a estos algoritmos existe el internet como se
conoce hoy.
Introduccin a la Teora de la Informacin y
Aplicaciones: Aplicaciones
Bioinformtica
Los conceptos de divergencia (Kullback Leibler) entre
distribuciones ha sido usado en la Bioinformtica para la
deteccin de patrones en secuencias de ADN.
Estas secuencias son un patrn estocstico que puede
ser considerado como un generador ergodico de
caracteres.
Los caracteres usados en el ADN son el A, T, C, y G.
Usando mtodos basados en la Teora de la Informacin
es posible mejorar el anlisis de codones (tripletes de
ADN que generan protenas), motifs (grupos de
caracteres que tienen una significancia biolgica) y otros
relieves de inters.
Introduccin a la Teora de la Informacin y
Aplicaciones: Aplicaciones
Bioinformatica
J = KL1, 2 + KL2,1
Introduccin a la Teora de la Informacin y
Aplicaciones: Aplicaciones
Bioinformatica
Medida Kullback Leibler 1 para detectar codones
(1) human ; (2) ecoli; (3) jannaschii; and (4) rprowazekii)
I II I II
III III
0.06 0.06
(1)
(2)
0.04 0.04
KL KL
1 1
0.02 0.02
0 0
0.3 0.3
(3) (4)
0.2 0.2
KL KL
1 0.1 1 0.1
0 0
Referencias: