Documentos de Académico
Documentos de Profesional
Documentos de Cultura
H (X ,Y )
H ( X | Y ) I ( X ;Y ) H (Y | X )
H (X ) H (Y )
H(X,Y)
H(X)
H(Y)
I ( X ; Y ) H ( X ) H ( X | Y ) H (Y ) H (Y | X )
I ( X ; Y ) H ( X ) H (Y ) H ( X , Y )
H ( X , Y ) H ( X | Y ) H (Y | X ) I ( X ; Y ) etc…
H (X ) H (X | Y )
H (Y ) H (Y | X )
Ejemplo:
Dadas dos variables aleatorias discretas (X,Y) que pueden asumir 4 valores distintos
cada una, conocemos la densidad Conjunta (en general puede será una matriz
rectangular) :
X Marginales
1 1 1 1 p ( x); p( y )
8 16 32 32
1 1 1 1
p( x, y ) 16 8 32 32
1 1 1 1
Y 16 16 16 16 Condicionales
1 p ( y | x); p ( x | y )
0 0 0
4
1 1 1 1 1 1 1 1 1 1 1 1 7
H ( X ) H , , , log 2 log 2 log 2 log 2 bits 1.75 bits
2 4 8 8 2 2 4 4 8 8 8 8 4
1 1 1 1 1 1
H (Y ) H , , , 4 log 2 2 bits
4 4 4 4 4 4
4 4
H ( X | Y ) p ( yi ) H ( X | yi ) ; H (Y | X ) p( x j ) H (Y | x j )
i 1 j 1
1 1 1 1 H ( X | y 1) 7 / 4
2 4 8 8
1 1 1 1 H ( X | y 2) 7 / 4
p( x | y) 4 2 8 8
1 1 1 1 H ( X | y 3) 2
4 4 4 1 H ( X | y 4) 0
1 0 0 0
1 7 1 7 1 1 11
H(X |Y) 2 0 bits
4 4 4 4 4 4 8
3
I ( X ; Y ) H ( X ) H ( X | Y ) H (Y ) H (Y | X ) bits
8
2 1 1 1 6 1 4 1 27
H ( X , Y ) log 2 log 2 log 2 log2 bits 3.37 bits
8 8 4 4 16 16 32 32 8
7 3 14 16 3 27
H ( X , Y ) H ( X ) H (Y ) I ( X ; Y ) 2 bits
4 8 8 8
Observaciones importantes:
H (X | Y ) H(X )
1 2 10 1 2 3
Entropía igual
Calcular la Capacidad deVarianza
un Canal discreto sin memoria:
distinta
x1 y1
x2 .... p ( y | x) matriz NM
yj
.… ....
yN
xM
“de canal”
DISCRETO: se define así porque las entradas x y las salidas y pueden tomar un
conjunto discreto de valores.
SIN MEMORIA: si las salidas solo depende de las entradas al tiempo en cuestión, y
son condicionalmente independientes de otras entradas y otras salidas en otro instante
de tiempo (es equivalente a la formula Y X ruido ).
C max I ( X ; Y )
p( x)
Vamos a ver los pasos que generalmente habrá que hacer para calcular la capacidad, en
los problemas típicos. Empezamos diciendo que la formula que suele ser más útil para
expresar la información mutua es:
I ( X ; Y ) H (Y ) H (Y | X )
Esto no quiere decir que haya que utilizar siempre esta. Los pasos para en cálculo
serán:
v alor1
v alor
Donde con Ci
...
2
hemos indicado los M vectores columna
v alorN
(de N filas) que componen las matrices; por definición de la matriz p ( y | x ) , las
sumas de los valores a lo largo de cada columna dará 1.
2) Calcular H (Y ) ; esto necesita de dos pasos: primero hay que calcular p ( y ) y
luego la Entropía. En formula:
p( y ) C1 p( x 1) C 2 p( x 2) ... C M p( x M ) CY
y luego: H ( y ) H (CY )
Es decir para hallar p ( y ) desde p ( y | x ) , hay que promediar las columnas a través de
la densidad p (x ) ; el resultado será un vector columna CY (cuyos elementos tendrán
que sumar 1, por construcción) que representa p ( y ) . Así que se podrá calcular la
entropía utilizando la definición.
H (Y | X ) H C1 p( x 1) H C 2 p( x 2) ... H C M p( x M )
Es decir: respecto al punto precedente, aquí primero calculamos las entropías de las
columnas y luego promediamos. Antes para hallar H (Y ) , hemos promediado y luego
calculado la entropía.
I ( X ; Y ) H (Y ) H (Y | X )
p x1 y1
1 0
1 2 p x2
1
p( y | x)
1 0 1
1
p x y2
3
1
Vamos a calcular p ( y ) :
p( y ) CY C1 p( x 1) C 2 p( x 2) ... C M p ( x M )
1 0 p (1 2 p) 1 ( 2) p
p( y) CY p (1 2 p) p
1 0 1 (1 ) p p (2 ) p
H (Y | X ) H C1 p H C 2 (1 2 p) H C3 p
H C1 log 2 ( ) (1 ) log 2 (1 )
H C2 0
H C3 0
H Y | X log 2 ( ) (1 ) log 2 (1 ) p
I ( X ; Y ) H (Y ) H (Y | X )
1 ( 2) p log 2 1 ( 2) p (2 ) p log 2 (2 ) p log 2 ( ) (1 ) log 2 (1 ) p
Nos queda solo derivar respecto a p:
I ( X ; Y )
( 2) log 2 1 ( 2) p ( 2) (2 ) log 2 (2 ) p (2 ) ...
p
log 2 ( ) (1 ) log 2 (1 ) 0
I ( X ; Y )
( 2) log 2 1 ( 2) p log 2 (2 ) p log 2 ( ) (1 ) log 2 (1 ) 0
p
ˆ ....
p
Por ejemplo:
1. las filas tendrán que sumar un valor igual, constante c. Se puede demostrar que
este valor será siempre c M / N .
2. cada columna (que por definición de p( y | x) tendrá que sumar 1) tiene que ser
permutación de otra.
x1 2/3 y1
2 / 3 0
1/ 3 y2 p ( y | x) 1 / 3 1 / 3
1/ 3
y3 0 2 / 3
x2 2/3
p( y
i 1
i | x j ) 1 x j
M
p( y
j 1
i | xj) c y i
Así que todos los elementos de p ( y | x ) sumar M; es fácil de ver, si se piensa que
tenemos M columnas, y que cada una suma 1:
M N
p( y
j i 1
i | x j ) 1 1 .... 1 M
M
Ahora vamos a invertir el orden de las dos sumatorias:
N M
p( y
i j 1
i | x j ) c c .... c N c
N
Como se trata se las mismas sumatorias, tiene que dar el mismo resultado:
M num. entradas
M N c c
N num. salidas
M
I ( X ; Y ) H (Y ) H (Y | X ) H (Y ) p ( x j ) H (Y | x j )
j 1
M M
I ( X ; Y ) H (Y ) p( x j ) H (C j ) H (Y ) H (Columna) p ( x j ) H (Y ) H (Columna) 1
j 1 j 1
Donde hemos aprovechado el hecho que cada columna representa una misma densidad
(en le caso de canales simétricos):
I ( X ; Y ) H (Y ) H (Columna )
M
p( y) p( y | x j ) p( x j )
j 1
Sabemos, además, que en máximo valor que puede tomar H (Y ) es log 2 N , cuando la
p ( y ) es una densidad uniforme. Ahora, necesitamos de una observación más:
M
1 1 M 1 1 M 1
p ( y ) p( y | x j ) p( y | x j ) c
j 1 M M j 1 M M N N
c
Donde la sumatoria a lo largo de las filas es igual a c por definición de canal débilmente
M
simétricos ( p( y | x j ) c ).
j 1
x1 1 y1
1 0
y2 p ( y | x)
x2 y3 0 1
1
H (C1 ) H (C 2 ) H (Columna ) H ( ,1 - )
I ( X ; Y ) H (Y ) H (Columna )
Lo que NO podemos asegurar ahora es que haya una densidad de las entradas p(x) que
genere una densidad uniforme de las salidas p( y ) . Así que maximizando H (Y ) , en
general, será distinto del valor log 2 N . De hecho, suponiendo p ( x) ( p,1 p )
encontramos:
p ( y ) ((1 ) p, , (1 )(1 p ))
Que no podremos forzar a ser uniforme para cualquier valor de , porque la
probabilidad p( y 2) no depende de la distribución de las entradas. Lo mejor que
podemos hacer es igualar el primer y el último valor:
1
(1 ) p (1 )(1 p ) p
2
El hecho que nos encontremos otra vez con una densidad uniforme a la entrada, podía
ser predicho mirando la simetría geométrica del grafico de canal.
CANALES EN PARALELO:
C1
C2
Vale la relación:
x1 1 y1
x2 y2
1
En este caso, podemos enviar 2 bits (uno por cada entrada) sin cometer ningún fallo en
recepción; es decir la capacidad será C=1. Otro ejemplo:
x1 1 y1
x2 y2
1
En este caso, podemos inmediatamente afirmar que C 1 ; vamos a ver ahora este
caso:
1/ 2 1/ 2
y1 x1 y1
x1
1/ 2 1/ 2
1/ 2 y2
x2 y2
1/ 2
x3 y3
x3 y3 1/ 2
1/ 2
1/ 2
1/ 2 1/ 2
x2 y4 y4
1/ 2
Veo que, se utilizo solo 2 entradas, no me equivoco nunca! Con todas las probabilidades
de transición a 1/2 nuestra observación no lleva directamente a hallar la capacidad:
2C 2 C 1
1 p1
p2
x2 y2
C 1
1 p2
x3 y3
p3
1 p4
1 p3
x2 p4 y4
Seguramente el caso mejor en absoluto será:
x1 1 y1
x3 1 y3
1
x2 y4
1 C 2