Está en la página 1de 12

Capı́tulo 6

Canales con Ruido

Hasta aquı́ hemos estudiado el problema de cómo codificar una fuente


para transmitir mensajes por un canal sin ruido y, por tanto, no tenı́amos
que preocuparnos por la correccción de errores. Ahora vamos a considerar el
problema de codificar la información que va a ser transmitida por un canal
con ruido de forma que la probabilidad de decodificar erróneamente sea lo
menor posible. Veremos que también, en esta nueva situación, la entropı́a
juega un importante papel.

6.1. Canales discretos sin memoria


En todo el tema consideramos un canal con ruido por el que se van a
transmitir mensajes fuente codificados con los q sı́mbolos de cierto alfabeto
A, razón por la cual el canal se llamará discreto. El hecho de que los mensajes
transmitidos pueden no coincidir con los recibidos se traduce en que el canal
que consideramos lleva asociada una matriz cuyos elementos son las probabil-
idades P (yj /xi ) (probabilidad de recibir yj , supuesto que se ha transmitido
xi ), donde xi ∈ A e yj ∈ B (yj es un sı́mbolo del alfabeto de salida que,
en general, será diferente del de entrada). El calificativo sin memoria hace
referencia al hecho de que la probabilidad de que se reciba yj sólo depende
de la entrada actual pero no de las anteriores. También suponemos que la

87
probabilidad de que se produzca un error en un sı́mbolo no depende de la
posición de éste. En consecuencia, si x = x1 x2 · · · xn e y = y1 y2 · · · yn son
palabras de longitud n, P (y/x) = Πn1 P (yk /xk ).

Definición 6.1.1. Un canal (discreto y sin memoria) consiste en una terna


formada por un alfabeto de entradas A (de q elementos), un alfabeto de salidas
B (de p elementos) y una matriz (P (yj /xi )q×p , que recibe el nombre de matriz
de probabilidades condicionadas del canal. Por tanto, se verifica
p
X
P (yj /xi ) = 1, para cada i ≤ q.
j=1

A primera vista, puede sorprender que consideremos un alfabeto de salidas


diferente al de entradas, pero el ejemplo siguiente muestra el interés de tener
en cuenta esa posibilidad.

Ejemplos 6.1.2. 1) En la figura se muestra un canal binario especial. Tiene


la propiedad de que, cuando se transmite 0, hay una probabilidad igual a 1/2
de que en la salida aparezca borroso, mientras que, al transmitir 1, hay una
probabilidad igual a 1/3 de que en la salida aparezca borroso.
1/2
0 0

1/2
?
1/3

1 1
2/3
En este caso, la matriz de probabilidades condicionadas adopta la forma

88
à !
1/2 1/2 0
0 1/3 2/3
y A = {0, 1} es el alfabeto de entradas y B = {0, ?, 1} el de salidas.

2) El canal binario simétrico (BSC).


Vemos que la probabilidad de que se
produzca un error en un sı́mbolo es
1-p
0 igual a p > 0, mientras que la proba-
0
bilidad de que se reciba el sı́mbolo cor-
recto es igual a 1 − p.
p p
En este caso coinciden los alfabetos de
entrada y salida: A = B = {0, 1}. La
matriz de probabilidades tiene la for-
1-p ma que vemos en la figura.
1 1

3) En el caso de un canal binario sin ruido, la matriz del canal serı́a


à !
1 0
0 1

A continuación recogemos algunas relaciones que necesitamos:

P (xi , yj ) = P (xi )P (yj /xi ) = P (yj )P (xi /yj )


p
X
P (xi ) = P (xi , yj )
j=1
q
X
P (yj ) = P (xi , yj ).
i=1

89
6.2. Entropı́a condicional
Si X e Y son variables aleatorias, se define
q
X ¡ 1 ¢
H(X/Y = yj ) = P (xi /yj ) log
i=1
P (xi /yj )

y la entropı́a condicionada de X dada Y se define como la media ponderada


de H(X/Y = yj ):
p
X
H(X/Y ) = H(X/Y = yj )P (yj ) =
j=1

q p
X X ¡ 1 ¢
= P (xi /yj )P (yj ) log .
i=1 j=1
P (xi /yj )
Vemos que en la expresión anterior aparecen las probabilidades hacia atrás
P (xi /yj ). H(X/Y ) mide la incertidumbre que persiste sobre la entrada X,
después de haber conocido la salida Y . En términos de información, H(X/Y )
representa la información que queda en X, después de conocer la salida Y .
También se puede interpretar como la cantidad de información sobre X que
se pierde por causa del canal.

Ejemplo 6.2.1. Consideremos un canal binario simétrico cuya matriz de


probabilidades condicionadas tiene la forma
à !
1−p p
p 1−p

siendo p < 1/2. Sabemos, además, que P (X = 0) = p0 y P (X = 1) = p1


(p0 + p1 = 1).
Comenzamos determinando P (Y = 0) y P (Y = 1):

P (Y = 0) = P (Y = 0/X = 0)P (X = 0) + P (Y = 0/X = 1)P (X = 1) =

= (1 − p)p0 + pp1 ,

90
P (Y = 1) = P (Y = 1/X = 0)P (X = 0) + P (Y = 1/X = 1)P (X = 1) =

= pp0 + (1 − p)p1 .
Ahora podemos determinar H(X/Y = 0) y H(X/Y = 1):
¡ 1 ¢
H(X/Y = 0) = P (X = 0/Y = 0) log +
P (X = 0/Y = 0)
¡ 1 ¢ ¡ 1 ¢ ¡1¢
+P (X = 1/Y = 0) log = (1 − p) log + p log ,
P (X = 1/Y = 0) 1−p p
¡ 1 ¢
H(X/Y = 1) = P (X = 0/Y = 1) log +
P (X = 0/Y = 1)
¡ 1 ¢ ¡1¢ ¡ 1 ¢
+P (X = 1/Y = 1) log = p log + (1 − p) log .
P (X = 1/Y = 1) p 1−p
Resulta que se tiene la igualdad
¡1¢ ¡ 1 ¢
H(X/Y = 0) = H(X/Y = 1) = p log + (1 − p) log .
p 1−p
Finalmente, calculamos H(X/Y ):

H(X/Y ) = H(X/Y = 0)P (Y = 0) + H(X/Y = 1)P (Y = 1) =


£ ¡1¢ ¤ ¡1¢ ¡ 1 ¢
= p log +(1−p) (P (Y = 0)+P (Y = 1)) = p log +(1−p) log .
p p 1−p

Teorema 6.2.2. H(X, Y ) = H(X) + H(Y /X) = H(Y ) + H(X/Y ), donde


H(X, Y ) denota la entropı́a de la variable conjunta (X, Y ).

DEMOSTRACIÓN: Usando que P (xi , yj ) = P (xi )P (yj /xi ), resulta


q p
X X ¡ 1 ¢
H(X, Y ) = P (xi , yj ) log =
i=1 j=1
P (xi , yj )

q p
X X ¡ 1 ¢
= P (xi , yj ) log =
i=1 j=1
P (xi )P (yj /xi )

91
q p q p
X X 1 ¢ XX
¡ ¡ 1 ¢
= P (xi , yj ) log + P (xi , yj ) log =
i=1 j=1
P (xi ) i=1 j=1
P (yj /xi )
q p
X ¡ 1 ¢X
= log P (xi , yj ) + H(Y /X) =
i=1
P (xi ) j=1
q
X ¡ 1 ¢
= P (xi ) log + H(Y /X) = H(X) + H(Y /X).
i=1
P (xi )
La otra igualdad se prueba de forma similar. ¤

La igualdad H(X, Y ) = H(Y ) + H(X/Y ) puede interpretarse en el sen-


tido de que la incertidumbre sobre la variable conjunta es la suma de la
incertidumbre sobre Y con la incertidumbre sobre X conocida Y .

6.3. Información mutua y capacidad del canal


La cantidad H(X) − H(X|Y ) puede interpretarse como la cantidad de
información sobre la entrada X que pasa por el canal. En efecto, se trata de la
diferencia entre la información en X y la información que queda en X después
de conocer la salida Y . En otras palabras, es la cantidad de información que
aprendemos sobre X en virtud de conocer la salida Y . Como H(X, Y ) =
H(Y )+H(X|Y ), la diferencia anterior puede expresarse de la forma siguiente

H(X) − H(X|Y ) = H(X) − (H(X, Y ) − H(Y )) = H(X) + H(Y ) − H(X, Y ).

Definición 6.3.1. La información mutua de X e Y se define por

I(X; Y ) = H(X) − H(X|Y ).

Nótese que I(X; Y ) depende de las probabilidades de entrada y de las


probabilidades P (xk |yj ).

92
Definición 6.3.2. La capacidad de un canal es el máximo de I(X; Y ) cuando
consideramos todas las distribuciones de probabilidad de la entrada X.

El problema de determinar la capacidad de un canal arbitrario es de


difı́cil solución. Sin embargo, puede determinarse la capacidad de algunos
tipos especiales de canales. Veremos, a tı́tulo de ejemplo, cómo se determina
la capacidad de un canal simétrico.
Un canal se llama simétrico cuando las filas y las columnas de la matriz
del canal tienen la propiedad de que sus elementos son los mismos números
con igual frecuencia. Es decir, dos filas o dos columnas sólo se diferencian
en que el orden con que aparecen los números es diferente de una a otra. La
matriz siguiente muestra un ejemplo.
à !
1 1 1 1
3 3 6 6
1 1 1 1
6 6 3 3

Indudablemente, uno de los ejemplos más importantes lo constituye el


canal binario simétrico BSC cuya matriz viene dada por
à !
1−p p
.
p 1−p

Teorema 6.3.3. La capacidad de un canal simétrico viene dada por


X 1
C = log2 p − P (yj |xi ) log2 . (6.1)
j
P (yj |xi )

DEMOSTRACIÓN: En primer lugar, observemos que


X ¡X 1 ¢
H(Y |X) = P (xi ) P (yj |xi ) log2 .
i j
P (yj |xi )

Como el canal es simétrico, la suma entre paréntesis no depende de i (recordar


que las filas de la matriz del canal constan de los mismos números y, en todo
caso, en orden distinto) y podemos escribir

93
¡X 1 ¢¡ X ¢
H(Y |X) = P (yj |xi ) log2 P (xi ) =
j
P (yj |xi ) i
X 1
= P (yj |xi ) log2 .
j
P (yj |xi )

Esto muestra que H(Y |X) no depende de la distribución de las probabilidades


de la entrada. Por tanto, se tiene
£ ¤ £ ¤
C = maxP (xi ) I(X; Y ) = maxP (xi ) H(Y )−H(Y |X) = maxP (xi ) H(Y ) −H(Y |X).

Ahora recordemos que el máximo valor de la entropı́a H(Y ) viene dado por
log2 p y se se alcanza cuando Y tiene la distribución uniforme. Terminamos
la demostración mostrando que cuando X lleva la distribución uniforme,
entonces Y también la lleva. Con esto habrı́amos probado la igualdad (6.1).
Supongamos que P (xi ) = 1q , para cada i = 1, 2, .., q y calculemos P (yj ):

P (yj ) = P (Y = yj |X = x1 )P (x1 ) + · · · + P (Y = yj |x = xq )P (xq ) =

1X
= P (Y = yj |x = xi ).
q i
Como el canal es simétrico, también las columnas de la matriz del canal
constan de los mismos números. Por ello, la suma anterior es independiente
de j, lo que prueba que la distribución de Y es uniforme.
¤

Nota 6.3.4. En el caso del canal binario simétrico, la capacidad tiene la


forma
1 1
C = 1 − h(p) = p log2 + (1 − p) log2 .
p 1−p

94
6.4. Reglas de decodificación
En la transmisión de información por canales con ruido, es primordial
definir una regla de decodificación que minimice la probabilidad media
de error en la transmisión. El problema de la decodificación consiste en elegir,
para cada salida y una palabra-codigo c. Por tanto, una regla de decodifi-
cación será cualquier aplicación f : B n → C. Fijada la aplicación f , si se
recibe la cadena y, diremos que f (y) es la palabra-código que fue enviada
por el canal. Es decir, f −1 (c) = {y ∈ B n : f (y) = c} es el conjunto de todas
las salidas para las que decidiremos (con esta regla de decodificación f ) que
c es la palabra-código que fue enviada.
Ya hemos visto una regla de decodificación muy usada: la regla de decodi-
ficación por el vecino más próximo. Consistı́a en decodificar la cadena recibida
y con la palabra-código más cercana. Surge el problema de que puede haber,
en algún caso, más de una palabra-código a distancia mı́nima. Se puede adop-
tar la decisión de escoger una de las posibles al azar. Por tanto, puede que se
tome una decisión errónea. Precisamente, a continuación vamos a ocuparnos
del problema de determinar la probabilidad de una decodificación incorrecta.
Recordemos que estamos considerando un canal sin memoria. Por ello,
la probabilidad de recibir y, supuesto que se ha enviado la palabra-código c,
viene dada por P (y|x) = Πnk=1 P (yk |xk ).

6.5. La tasa de transmisión de un código


En el tema sobre códigos lineales definimos la tasa de transmisión R de
un código lineal C(n, k) como R = nk y vimos que R representa el número
de sı́mbolos de información por cada sı́mbolo de las palabras-código. En
aquel contexto, k representaba la dimensión del código y n la longitud de
las palabras-código. El tamaño de un código lineal C(n, k) es m = q k , siendo
q el cardinal del alfabeto A. Para un código arbitrario, la tasa se define como
sigue.

95
Si el canal debe transmitir n sı́mbolos del alfabeto A para poder enviar k
simbolos de mensaje fuente, la tasa de transmisión es R = nk bits por sı́mbolo.
El número de mensajes fuentes posibles es q k , por tanto, el código debe tener,
al menos, tamaño m = q k . Por ello, se define la tasa de un código general
como
logq m
R= .
n

6.6. Probabilidad de decodificar erróneamente


Fijada una regla de decodificación f , denotaremos por P (error|c) la
probabilidad de que, en el supuesto de que se ha enviado por el canal la
palabra-código c, se realice una decodificación erónea. Obviamente, se verifi-
ca X
P (error|c) = P (d|c).
/ −1 (c)
d∈f

Por tanto, enviada una palabra-código,la probabilidad de que se cometa un


error en la decodificación viene dada por
X X X
Pe = P (error|c) P (c) = P (d|c)P (c).
c∈C c∈C d∈f
/ −1 (c)

En el Teorema de decodificación para un canal con ruido, se usará el término


probabilidad máxima de error en la decodificación, que se denota por
Pemax = maxc P (error|c). Tiene la ventaja que no depende de la distribución
de probabilidad de los mensajes fuentes y, además, si sabemos que Pemax < ²,
entonces X X
Pe = P (error|c) P (c) ≤ ² P (c) < ².
c c

96
6.7. El Teorema de codificación para un canal
con ruido
El objetivo fundamental en una comunicación es conseguir reproducir el
mensaje fuente a partir del mensaje recibido. En los canales con ruido, parte
de la información fuente se pierde. Esta información que se pierde viene dada
por H(X|Y ) y depende de las probabilidades del canal y de las probabilidades
de la entrada X. Para compensar esta pérdida de información, los mensajes
fuente se codifican antes de ser enviados por el canal. Recordemos que las
palabras-código que sustituyen a los mensajes fuente tienen un número mayor
de bits, por tanto, también es importante elegir un código con una tasa de
transmisión lo más cercana a 1 posible. Es decir, hay que optimizar la tasa de
transmisión y, por otro lado, minimizar la probabilidad de cometer un error
en la decodificación. Se trata, por tanto, de buscar un compromiso entre estos
dos objetivos opuestos.
Terminamos el tema enunciando el Teorema de codificación para un canal
con ruido. En el enunciado del Teorema [x] denota el menor número entero
que es mayor o igual que x.

Teorema 6.7.1. Consideremos un canal sin memoria discreto con capacidad


C y un alfabeto de entradas con q sı́mbolos. Para cualquier número positivo
R < C, existe una sucesión (Cn ) de códigos y una sucesión (fn ) de reglas de
decodificación con las propiedades siguientes:
1) Cn es un (n, [q nR ])−código, es decir, tiene longitud n y tasa de trans-
misión al menos R.
2) La probabilidad máxima de error con la regla fn tiende a 0 cuando
n → ∞, esto es, se verifica

lı́m Pemax = 0.
n→∞

El teorema nos dice que existen códigos con una tasa de transmisión todo
lo cercana a C que queramos (y para cada uno una regla de decodificación)

97
de modo que la probabilidad máxima de error puede ser tan pequeña como
queramos. Más precisamente, fijados 0 < R < C y ² > 0, siempre existe un
código C y una regla de decodificación f , tales que la tasa de transmisión
del código es, al menos, R y la probabilidad de error a lo más ². De todas
formas, se trata de un resultado teórico que no nos dice la forma de obtener
los códigos sino que nos asegura que dichos códigos existen.

98

También podría gustarte