Está en la página 1de 12

Esquemas Entropía:

H (X ,Y )

H ( X | Y ) I ( X ;Y ) H (Y | X )

H (X ) H (Y )

H(X,Y)

H(X)

H(Y)

H(X|Y) I(Y;X) H(Y|X)

Desde estos dibujos se pueden sacar todas las relaciones posibles:

I ( X ; Y )  H ( X )  H ( X | Y )  H (Y )  H (Y | X )
I ( X ; Y )  H ( X )  H (Y )  H ( X , Y )
H ( X , Y )  H ( X | Y )  H (Y | X )  I ( X ; Y ) etc…
H (X )  H (X | Y )
H (Y )  H (Y | X )

Cuando las variables son independientes H(X,Y)=H(X)+H(Y) y la información mutua


será nula I(X;Y)=0.

Ejemplo:
Dadas dos variables aleatorias discretas (X,Y) que pueden asumir 4 valores distintos
cada una, conocemos la densidad Conjunta (en general puede será una matriz
rectangular) :

X Marginales
1 1 1 1 p ( x); p( y )
 8 16 32 32 
1 1 1 1
 
p( x, y )  16 8 32 32 
1 1 1 1
Y 16 16 16 16  Condicionales
1  p ( y | x); p ( x | y )
 0 0 0
4 

1 1 1 1 1 1 1 1 1 1 1 1 7
H ( X )  H  , , ,    log 2  log 2  log 2  log 2  bits  1.75 bits
 2 4 8 8  2 2 4 4 8 8 8 8 4

1 1 1 1 1 1
H (Y )  H  , , ,   4 log 2   2 bits
4 4 4 4 4 4

Las formulas de las entropías condicionales son:

4 4
H ( X | Y )   p ( yi )  H ( X | yi ) ; H (Y | X )   p( x j )  H (Y | x j )
i 1 j 1

Las H ( X | yi ) y las H (Y | x j ) son respectivamente las entropías de las filas de


p ( x | y ) y las entropías de las columnas de p ( y | x ) :

1 1 1 1 H ( X | y  1)  7 / 4
2 4 8 8
1 1 1 1 H ( X | y  2)  7 / 4
 
p( x | y)   4 2 8 8
1 1 1 1 H ( X | y  3)  2
4 4 4 1 H ( X | y  4)  0
 1 0 0 0 

La entropía condicional será finalmente el promedio de todas:

1 7 1 7 1 1 11
H(X |Y)       2   0  bits
4 4 4 4 4 4 8

A la misma manera, trabajando sobre las columnas de p ( y | x ) y promediando


logramos:
13
H (X | Y)  bits
8

La Información Mutua será:

3
I ( X ; Y )  H ( X )  H ( X | Y )  H (Y )  H (Y | X )  bits
8

La Entropía Conjunta podemos calcularla directamente de la matriz p ( x, y ) :

2 1 1 1 6 1 4 1 27
H ( X , Y )   log 2  log 2  log 2  log2  bits  3.37 bits
8 8 4 4 16 16 32 32 8

O a través de una de las formulas:

7 3 14  16  3 27
H ( X , Y )  H ( X )  H (Y )  I ( X ; Y )  2   bits
4 8 8 8

Observaciones importantes:

1. Podemos notar como, por ejemplo, H ( X | y  4)  0 es menor de H ( X ) , pero


H ( X | y  3)  2 es mayor que H ( X ) !! Parece increíble: en unos caso
“aprender” información de la variable Y nos hace incrementar la incertidumbre
sobre X!!! Pero promediando Y nos aporta información sobre X (siendo no
independientes), de hecho:

H (X | Y )  H(X )

2. Si miramos p ( x | y  2) vemos que es una densidad diferente de p (x ) , pero la


las entropías son iguales H ( X | y  2)  H ( X ) . Esto porque la entropía es una
cantidad independientes de permutaciones, o mejor dicho, de los valores que
asumen las variables (del soporte de la densidad). La entropía depende solo de
los valores de las probabilidades. Esto no pasa con otras medidas de dispersión
como la varianza, que en general será distinta.

1 2 10 1 2 3

Entropía igual
Calcular la Capacidad deVarianza
un Canal discreto sin memoria:
distinta

x1 y1
x2 .... p ( y | x)  matriz NM
yj
.… ....
yN
xM
“de canal”

En la figura anterior, se muestra una representación típica de un canal discreto de


comunicación; esto equivale a una matriz de probabilidad condicional p ( y | x) . Habría
que añadir o suponer algún tipo de información más sobre p (x ) o p ( y ) , por
ejemplo.

DISCRETO: se define así porque las entradas x y las salidas y pueden tomar un
conjunto discreto de valores.
SIN MEMORIA: si las salidas solo depende de las entradas al tiempo en cuestión, y
son condicionalmente independientes de otras entradas y otras salidas en otro instante
de tiempo (es equivalente a la formula Y  X  ruido ).

Sabemos que por definición de capacidad de canal:

C  max I ( X ; Y )
p( x)

Vamos a ver los pasos que generalmente habrá que hacer para calcular la capacidad, en
los problemas típicos. Empezamos diciendo que la formula que suele ser más útil para
expresar la información mutua es:

I ( X ; Y )  H (Y )  H (Y | X )

Esto no quiere decir que haya que utilizar siempre esta. Los pasos para en cálculo
serán:

1) Hallar la matriz p ( y | x ) equivalente al grafico del canal.


x1 y1
x2 ....
yj p ( y | x)   C1 C2 ... CM 
.… ....
yN
xM

 v alor1 
 v alor 
Donde con Ci  
...

2 


hemos indicado los M vectores columna
 v alorN 

(de N filas) que componen las matrices; por definición de la matriz p ( y | x ) , las
sumas de los valores a lo largo de cada columna dará 1.
2) Calcular H (Y ) ; esto necesita de dos pasos: primero hay que calcular p ( y ) y
luego la Entropía. En formula:

p( y )   C1   p( x  1)   C 2   p( x  2)  ...   C M   p( x  M )  CY

y luego: H ( y )  H (CY )

Es decir para hallar p ( y ) desde p ( y | x ) , hay que promediar las columnas a través de
la densidad p (x ) ; el resultado será un vector columna CY (cuyos elementos tendrán
que sumar 1, por construcción) que representa p ( y ) . Así que se podrá calcular la
entropía utilizando la definición.

3) Calcular H (Y | X ) ; también en este caso necesitaríamos 2 pasos: calcular las


entropías de cada columna C i y luego promediar. Juntando los dos pasos, podemos
escribir en formula:

H (Y | X )  H  C1   p( x  1)  H  C 2   p( x  2)  ...  H  C M   p( x  M )

Es decir: respecto al punto precedente, aquí primero calculamos las entropías de las
columnas y luego promediamos. Antes para hallar H (Y ) , hemos promediado y luego
calculado la entropía.

4) Como tememos H (Y ) y H (Y | X ) , tenemos también:

I ( X ; Y )  H (Y )  H (Y | X )

ahora, nos tocará maximizarla según algún parámetro, para hallar C.

Para que se entienda mejor, vamos a hacer un ejemplo:


p x1 y1
 1 0
1  2 p x2
1 
p( y | x)   
1   0 1 
1
p x y2
3
1

Como se puede ver ya hemos hallado la matriz p ( y | x) , cuyas columnas son:


  1  0 
C1   ; C2   ; C3   
1    0  1 

Vamos a calcular p ( y ) :

p( y )  CY   C1   p( x  1)   C 2   p( x  2)  ...   C M   p ( x  M )
  1  0 p  (1  2 p) 1  (  2) p
p( y)  CY     p     (1  2 p)     p    
1    0 1  (1   ) p  p  (2   ) p 

Se puede comprobar que los elementos de CY suman efectivamente 1, como debe de


ser siendo una densidad de probabilidad. Así que la entropía de las salidas será:

H (Y )  H (CY )  1  (  2) p  log 2 1  (  2) p    (2   ) p  log 2  (2   ) p 

Ahora nos hace falta la entropía condicional H (Y | X ) :

H (Y | X )  H  C1   p  H  C 2   (1  2 p)  H  C3   p

H  C1    log 2 ( )  (1   ) log 2 (1   )
H  C2   0
H  C3   0

H  Y | X      log 2 ( )  (1   ) log 2 (1   )  p

Así que la información mutua será:

I ( X ; Y )  H (Y )  H (Y | X ) 
 1  (  2) p  log 2 1  (  2) p    (2   ) p  log 2  (2   ) p     log 2 ( )  (1   ) log 2 (1   )  p
Nos queda solo derivar respecto a p:

I ( X ; Y )
 (  2) log 2 1  (  2) p   (  2)  (2   ) log 2  (2   ) p   (2   )  ...
p
   log 2 ( )  (1   ) log 2 (1   )  0

I ( X ; Y )
 (  2)  log 2 1  (  2) p   log 2  (2   ) p     log 2 ( )  (1   ) log 2 (1   )  0
p

ˆ  ....
p

Finalmente, la capacidad será:


C  1  (  2) pˆ  log 2 1  (  2) pˆ    (2   ) pˆ  log 2  (2   ) pˆ    log 2 ( )  (1   ) log 2 (1   )  pˆ

TIPOS DE CANALES (discretos sin memoria):


Canal Simétrico: (caso particular del caso sucesivo) donde todas las filas pueden
expresarse como permutaciones de cualquier otra fila. Lo mismo tiene que ocurrir con
las columnas. Además, la suma de las filas (y no solo de las columnas, como era norma
hasta ahora) tiene que dar 1. En este caso la matriz p( y | x) se denomina biestocastica
(matriz cuadrada cuyas filas y columnas suman 1). Resumiendo para que un canal sea
simétrico:
1. p ( y | x) tiene que ser biestocastica.
2. Cada fila-columna tiene que ser permutación de otra fila-columna.

Por ejemplo:

0.3 0.5 0.2


p ( y | x)  0.5 0.2 0.3
0.2 0.3 0.5

Canal débilmente Simétrico: donde todas las columnas son permutaciones de


cualquier otra columna, y la suma de las filas es constante . En el caso anterior, ambas
filas y columnas, tenían que poderse expresar como permutaciones de las otras.
Resumiendo:

1. las filas tendrán que sumar un valor igual, constante c. Se puede demostrar que
este valor será siempre c  M / N .
2. cada columna (que por definición de p( y | x) tendrá que sumar 1) tiene que ser
permutación de otra.

Un ejemplo es canal binario con borrado con   1 / 3 :

x1 2/3 y1
2 / 3 0 
1/ 3 y2 p ( y | x)  1 / 3 1 / 3 
1/ 3
y3  0 2 / 3
x2 2/3

Vamos a demostrar que c  M / N , siempre; sabemos que por definición de p ( y | x )


las columnas suman 1 y que las filas suman un mismo valor “desconocido” c:

 p( y
i 1
i | x j ) 1 x j
M

 p( y
j 1
i | xj) c y i

Así que todos los elementos de p ( y | x ) sumar M; es fácil de ver, si se piensa que
tenemos M columnas, y que cada una suma 1:
M N

 p( y
j  i 1
i | x j ) 1  1  ....  1  M

M
Ahora vamos a invertir el orden de las dos sumatorias:

N M

 p( y
i j 1
i | x j ) c  c  ....  c  N  c
N

Como se trata se las mismas sumatorias, tiene que dar el mismo resultado:

M num. entradas
M  N c  c 
N num. salidas

En el caso de un canal simétrico c  1 (matriz cuadrada, numero de entradas igual a


numero de salidas).

Para canales débilmente simétricos y simétricos, vale lo siguiente:

M
I ( X ; Y )  H (Y )  H (Y | X )  H (Y )   p ( x j )  H (Y | x j ) 
j 1
M M
I ( X ; Y )  H (Y )   p( x j )  H (C j )  H (Y )  H (Columna) p ( x j )  H (Y )  H (Columna)  1
j 1 j 1

Donde hemos aprovechado el hecho que cada columna representa una misma densidad
(en le caso de canales simétricos):

H (C1 )  H (C 2 )  ...  H (C j )  ...  H (C M )  H (Columna)

Así que hemos llagado a:

I ( X ; Y )  H (Y )  H (Columna )

Razonamos un momento: en esta expresión tenemos una constante H (Columna) que


depende del canal (de su matriz p( y | x) ) , y las entropía de las salidas H (Y ) ; para
calcularla necesitamos de las probabilidades p ( y ) que en general dependerán de las
probabilidades de las entradas p (x ) , como se puede ver en la formula:

M
p( y)   p( y | x j ) p( x j )
j 1

Sabemos, además, que en máximo valor que puede tomar H (Y ) es log 2 N , cuando la
p ( y ) es una densidad uniforme. Ahora, necesitamos de una observación más:

Observación IMPORTANTE: Para canales débilmente simétricos y simétricos, la


densidad de las salidas p ( y ) será uniforme solo si lo será la densidad de las entradas
p (x) .
Demostramos esta observación; si p( x )  1 / M :

M
1 1 M 1 1 M 1
p ( y )   p( y | x j )   p( y | x j )   c   
j 1 M M j 1 M M N N
c

Donde la sumatoria a lo largo de las filas es igual a c por definición de canal débilmente
M

simétricos (  p( y | x j )  c ).
j 1

Así que la capacidad de un canal débilmente simétrico (y simétrico) será:

C  max I ( X ; Y )  log 2 N  H (Columna)


p( x)

Que se obtienen con entradas equiprobables ( p ( x)  1 / M ).

Observación: el canal binario con borrado, genérico:

x1 1  y1
1   0 
 y2 p ( y | x)     

x2 y3  0 1   
1 

En general, NO es ni simétrico ni débilmente simétrico, porque las filas no suman un


mismo valor.
De todas formas, mirando el grafico se puede notar una cierta simetría: podríamos decir
que las dos entradas “ven un mismo canal”. De hecho, nos encontramos también en este
caso con la propiedad que las columnas tienen misma entropía:

H (C1 )  H (C 2 )  H (Columna )  H ( ,1 -  )

Así que también la información mutua quedaría:

I ( X ; Y )  H (Y )  H (Columna )

Lo que NO podemos asegurar ahora es que haya una densidad de las entradas p(x) que
genere una densidad uniforme de las salidas p( y ) . Así que maximizando H (Y ) , en
general, será distinto del valor log 2 N . De hecho, suponiendo p ( x)  ( p,1  p )
encontramos:

p ( y )  ((1   ) p,  , (1   )(1  p ))
Que no podremos forzar a ser uniforme para cualquier valor de  , porque la
probabilidad p( y  2)   no depende de la distribución de las entradas. Lo mejor que
podemos hacer es igualar el primer y el último valor:

1
(1   ) p  (1   )(1  p )  p
2

El hecho que nos encontremos otra vez con una densidad uniforme a la entrada, podía
ser predicho mirando la simetría geométrica del grafico de canal.

CANALES EN PARALELO:

C1

C2

Vale la relación:

2Ctot  2C1  2C2


En general sobre el concepto de capacidad de canal C, podemos afirmar que:

2 C  numeros de entradas que podemos enviar sin error

Vamos a aclarar esta afirmación:

x1 1 y1

x2 y2
1

En este caso, podemos enviar 2 bits (uno por cada entrada) sin cometer ningún fallo en
recepción; es decir la capacidad será C=1. Otro ejemplo:

x1 1  y1

x2 y2
1
En este caso, podemos inmediatamente afirmar que C  1 ; vamos a ver ahora este
caso:

1/ 2 1/ 2
y1 x1 y1
x1
1/ 2 1/ 2

1/ 2 y2
x2 y2

1/ 2
x3 y3
x3 y3 1/ 2
1/ 2
1/ 2
1/ 2 1/ 2
x2 y4 y4
1/ 2

Veo que, se utilizo solo 2 entradas, no me equivoco nunca! Con todas las probabilidades
de transición a 1/2 nuestra observación no lleva directamente a hallar la capacidad:

2C  2  C 1

Haciendo todos los calculo, llegaríamos al mismo resultado:


C  log 2 ( M / 2)  log 2 ( M )  log 2 (2)  log 2 ( M )  1  2  1  1

Pero nuestro razonamiento nos da exactamente la C solo cuando todas las


probabilidades de transición valgan 1/2; con probabilidades genéricas, las cosas irán
“mejor” pero no podemos decir cuanto sin hacer los cálculos:
p1
x1 y1

1  p1
p2
x2 y2
C 1
1  p2
x3 y3
p3
1  p4
1  p3
x2 p4 y4
Seguramente el caso mejor en absoluto será:

x1 1 y1

1 y2 C2 2 2  4  numero entradas


x2

x3 1 y3

1
x2 y4

Así que en el caso más general:

1 C  2

También podría gustarte