10 Canais Com Ruido

Capı́tulo 6
Canales con Ruido
Hasta aquı́ hemos estudiado el problema de cómo codificar una fuente

para transmitir mensajes por un canal sin ruido y, por tanto, no tenı́amos
que preocuparnos por la correccción de errores. Ahora vamos a considerar el
problema de codificar la información que va a ser transmitida por un canal
con ruido de forma que la probabilidad de decodificar erróneamente sea lo
menor posible. Veremos que también, en esta nueva situación, la entropı́a
juega un importante papel.
6.1. Canales discretos sin memoria

En todo el tema consideramos un canal con ruido por el que se van a
transmitir mensajes fuente codificados con los q sı́mbolos de cierto alfabeto
A, razón por la cual el canal se llamará discreto. El hecho de que los mensajes
transmitidos pueden no coincidir con los recibidos se traduce en que el canal
que consideramos lleva asociada una matriz cuyos elementos son las probabil-
idades P (yj /xi ) (probabilidad de recibir yj , supuesto que se ha transmitido
xi ), donde xi ∈ A e yj ∈ B (yj es un sı́mbolo del alfabeto de salida que,
en general, será diferente del de entrada). El calificativo sin memoria hace
referencia al hecho de que la probabilidad de que se reciba yj sólo depende
de la entrada actual pero no de las anteriores. También suponemos que la
87
probabilidad de que se produzca un error en un sı́mbolo no depende de la
posición de éste. En consecuencia, si x = x1 x2 · · · xn e y = y1 y2 · · · yn son
palabras de longitud n, P (y/x) = Πn1 P (yk /xk ).
Definición 6.1.1. Un canal (discreto y sin memoria) consiste en una terna

formada por un alfabeto de entradas A (de q elementos), un alfabeto de salidas
B (de p elementos) y una matriz (P (yj /xi )q×p , que recibe el nombre de matriz
de probabilidades condicionadas del canal. Por tanto, se verifica
p
X
P (yj /xi ) = 1, para cada i ≤ q.
j=1
A primera vista, puede sorprender que consideremos un alfabeto de salidas

diferente al de entradas, pero el ejemplo siguiente muestra el interés de tener
en cuenta esa posibilidad.
Ejemplos 6.1.2. 1) En la figura se muestra un canal binario especial. Tiene

la propiedad de que, cuando se transmite 0, hay una probabilidad igual a 1/2
de que en la salida aparezca borroso, mientras que, al transmitir 1, hay una
probabilidad igual a 1/3 de que en la salida aparezca borroso.
1/2
0 0
1/2
?
1/3
1 1
2/3
En este caso, la matriz de probabilidades condicionadas adopta la forma
88
Ã !
1/2 1/2 0
0 1/3 2/3
y A = {0, 1} es el alfabeto de entradas y B = {0, ?, 1} el de salidas.
2) El canal binario simétrico (BSC).

Vemos que la probabilidad de que se
produzca un error en un sı́mbolo es
1-p
0 igual a p > 0, mientras que la proba-
0
bilidad de que se reciba el sı́mbolo cor-
recto es igual a 1 − p.
p p
En este caso coinciden los alfabetos de
entrada y salida: A = B = {0, 1}. La
matriz de probabilidades tiene la for-
1-p ma que vemos en la figura.
1 1
3) En el caso de un canal binario sin ruido, la matriz del canal serı́a

Ã !
1 0
0 1
A continuación recogemos algunas relaciones que necesitamos:
P (xi , yj ) = P (xi )P (yj /xi ) = P (yj )P (xi /yj )

p
X
P (xi ) = P (xi , yj )
j=1
q
X
P (yj ) = P (xi , yj ).
i=1
89
6.2. Entropı́a condicional
Si X e Y son variables aleatorias, se define
q
X ¡ 1 ¢
H(X/Y = yj ) = P (xi /yj ) log
i=1
P (xi /yj )
y la entropı́a condicionada de X dada Y se define como la media ponderada

de H(X/Y = yj ):
p
X
H(X/Y ) = H(X/Y = yj )P (yj ) =
j=1
q p
X X ¡ 1 ¢
= P (xi /yj )P (yj ) log .
i=1 j=1
P (xi /yj )
Vemos que en la expresión anterior aparecen las probabilidades hacia atrás
P (xi /yj ). H(X/Y ) mide la incertidumbre que persiste sobre la entrada X,
después de haber conocido la salida Y . En términos de información, H(X/Y )
representa la información que queda en X, después de conocer la salida Y .
También se puede interpretar como la cantidad de información sobre X que
se pierde por causa del canal.
Ejemplo 6.2.1. Consideremos un canal binario simétrico cuya matriz de

probabilidades condicionadas tiene la forma
Ã !
1−p p
p 1−p
siendo p < 1/2. Sabemos, además, que P (X = 0) = p0 y P (X = 1) = p1

(p0 + p1 = 1).
Comenzamos determinando P (Y = 0) y P (Y = 1):
P (Y = 0) = P (Y = 0/X = 0)P (X = 0) + P (Y = 0/X = 1)P (X = 1) =
= (1 − p)p0 + pp1 ,
90
P (Y = 1) = P (Y = 1/X = 0)P (X = 0) + P (Y = 1/X = 1)P (X = 1) =
= pp0 + (1 − p)p1 .
Ahora podemos determinar H(X/Y = 0) y H(X/Y = 1):
¡ 1 ¢
H(X/Y = 0) = P (X = 0/Y = 0) log +
P (X = 0/Y = 0)
¡ 1 ¢ ¡ 1 ¢ ¡1¢
+P (X = 1/Y = 0) log = (1 − p) log + p log ,
P (X = 1/Y = 0) 1−p p
¡ 1 ¢
H(X/Y = 1) = P (X = 0/Y = 1) log +
P (X = 0/Y = 1)
¡ 1 ¢ ¡1¢ ¡ 1 ¢
+P (X = 1/Y = 1) log = p log + (1 − p) log .
P (X = 1/Y = 1) p 1−p
Resulta que se tiene la igualdad
¡1¢ ¡ 1 ¢
H(X/Y = 0) = H(X/Y = 1) = p log + (1 − p) log .
p 1−p
Finalmente, calculamos H(X/Y ):
H(X/Y ) = H(X/Y = 0)P (Y = 0) + H(X/Y = 1)P (Y = 1) =

£ ¡1¢ ¤ ¡1¢ ¡ 1 ¢
= p log +(1−p) (P (Y = 0)+P (Y = 1)) = p log +(1−p) log .
p p 1−p
Teorema 6.2.2. H(X, Y ) = H(X) + H(Y /X) = H(Y ) + H(X/Y ), donde

H(X, Y ) denota la entropı́a de la variable conjunta (X, Y ).
DEMOSTRACIÓN: Usando que P (xi , yj ) = P (xi )P (yj /xi ), resulta

q p
X X ¡ 1 ¢
H(X, Y ) = P (xi , yj ) log =
i=1 j=1
P (xi , yj )
q p
X X ¡ 1 ¢
= P (xi , yj ) log =
i=1 j=1
P (xi )P (yj /xi )
91
q p q p
X X 1 ¢ XX
¡ ¡ 1 ¢
= P (xi , yj ) log + P (xi , yj ) log =
i=1 j=1
P (xi ) i=1 j=1
P (yj /xi )
q p
X ¡ 1 ¢X
= log P (xi , yj ) + H(Y /X) =
i=1
P (xi ) j=1
q
X ¡ 1 ¢
= P (xi ) log + H(Y /X) = H(X) + H(Y /X).
i=1
P (xi )
La otra igualdad se prueba de forma similar. ¤
La igualdad H(X, Y ) = H(Y ) + H(X/Y ) puede interpretarse en el sen-

tido de que la incertidumbre sobre la variable conjunta es la suma de la
incertidumbre sobre Y con la incertidumbre sobre X conocida Y .
6.3. Información mutua y capacidad del canal

La cantidad H(X) − H(X|Y ) puede interpretarse como la cantidad de
información sobre la entrada X que pasa por el canal. En efecto, se trata de la
diferencia entre la información en X y la información que queda en X después
de conocer la salida Y . En otras palabras, es la cantidad de información que
aprendemos sobre X en virtud de conocer la salida Y . Como H(X, Y ) =
H(Y )+H(X|Y ), la diferencia anterior puede expresarse de la forma siguiente
H(X) − H(X|Y ) = H(X) − (H(X, Y ) − H(Y )) = H(X) + H(Y ) − H(X, Y ).
Definición 6.3.1. La información mutua de X e Y se define por
I(X; Y ) = H(X) − H(X|Y ).
Nótese que I(X; Y ) depende de las probabilidades de entrada y de las

probabilidades P (xk |yj ).
92
Definición 6.3.2. La capacidad de un canal es el máximo de I(X; Y ) cuando
consideramos todas las distribuciones de probabilidad de la entrada X.
El problema de determinar la capacidad de un canal arbitrario es de

difı́cil solución. Sin embargo, puede determinarse la capacidad de algunos
tipos especiales de canales. Veremos, a tı́tulo de ejemplo, cómo se determina
la capacidad de un canal simétrico.
Un canal se llama simétrico cuando las filas y las columnas de la matriz
del canal tienen la propiedad de que sus elementos son los mismos números
con igual frecuencia. Es decir, dos filas o dos columnas sólo se diferencian
en que el orden con que aparecen los números es diferente de una a otra. La
matriz siguiente muestra un ejemplo.
Ã !
1 1 1 1
3 3 6 6
1 1 1 1
6 6 3 3
Indudablemente, uno de los ejemplos más importantes lo constituye el

canal binario simétrico BSC cuya matriz viene dada por
Ã !
1−p p
.
p 1−p
Teorema 6.3.3. La capacidad de un canal simétrico viene dada por

X 1
C = log2 p − P (yj |xi ) log2 . (6.1)
j
P (yj |xi )
DEMOSTRACIÓN: En primer lugar, observemos que

X ¡X 1 ¢
H(Y |X) = P (xi ) P (yj |xi ) log2 .
i j
P (yj |xi )
Como el canal es simétrico, la suma entre paréntesis no depende de i (recordar

que las filas de la matriz del canal constan de los mismos números y, en todo
caso, en orden distinto) y podemos escribir
93
¡X 1 ¢¡ X ¢
H(Y |X) = P (yj |xi ) log2 P (xi ) =
j
P (yj |xi ) i
X 1
= P (yj |xi ) log2 .
j
P (yj |xi )
Esto muestra que H(Y |X) no depende de la distribución de las probabilidades

de la entrada. Por tanto, se tiene
£ ¤ £ ¤
C = maxP (xi ) I(X; Y ) = maxP (xi ) H(Y )−H(Y |X) = maxP (xi ) H(Y ) −H(Y |X).
Ahora recordemos que el máximo valor de la entropı́a H(Y ) viene dado por
log2 p y se se alcanza cuando Y tiene la distribución uniforme. Terminamos
la demostración mostrando que cuando X lleva la distribución uniforme,
entonces Y también la lleva. Con esto habrı́amos probado la igualdad (6.1).
Supongamos que P (xi ) = 1q , para cada i = 1, 2, .., q y calculemos P (yj ):
P (yj ) = P (Y = yj |X = x1 )P (x1 ) + · · · + P (Y = yj |x = xq )P (xq ) =
1X
= P (Y = yj |x = xi ).
q i
Como el canal es simétrico, también las columnas de la matriz del canal
constan de los mismos números. Por ello, la suma anterior es independiente
de j, lo que prueba que la distribución de Y es uniforme.
¤
Nota 6.3.4. En el caso del canal binario simétrico, la capacidad tiene la

forma
1 1
C = 1 − h(p) = p log2 + (1 − p) log2 .
p 1−p
94
6.4. Reglas de decodificación
En la transmisión de información por canales con ruido, es primordial
definir una regla de decodificación que minimice la probabilidad media
de error en la transmisión. El problema de la decodificación consiste en elegir,
para cada salida y una palabra-codigo c. Por tanto, una regla de decodifi-
cación será cualquier aplicación f : B n → C. Fijada la aplicación f , si se
recibe la cadena y, diremos que f (y) es la palabra-código que fue enviada
por el canal. Es decir, f −1 (c) = {y ∈ B n : f (y) = c} es el conjunto de todas
las salidas para las que decidiremos (con esta regla de decodificación f ) que
c es la palabra-código que fue enviada.
Ya hemos visto una regla de decodificación muy usada: la regla de decodi-
ficación por el vecino más próximo. Consistı́a en decodificar la cadena recibida
y con la palabra-código más cercana. Surge el problema de que puede haber,
en algún caso, más de una palabra-código a distancia mı́nima. Se puede adop-
tar la decisión de escoger una de las posibles al azar. Por tanto, puede que se
tome una decisión errónea. Precisamente, a continuación vamos a ocuparnos
del problema de determinar la probabilidad de una decodificación incorrecta.
Recordemos que estamos considerando un canal sin memoria. Por ello,
la probabilidad de recibir y, supuesto que se ha enviado la palabra-código c,
viene dada por P (y|x) = Πnk=1 P (yk |xk ).
6.5. La tasa de transmisión de un código

En el tema sobre códigos lineales definimos la tasa de transmisión R de
un código lineal C(n, k) como R = nk y vimos que R representa el número
de sı́mbolos de información por cada sı́mbolo de las palabras-código. En
aquel contexto, k representaba la dimensión del código y n la longitud de
las palabras-código. El tamaño de un código lineal C(n, k) es m = q k , siendo
q el cardinal del alfabeto A. Para un código arbitrario, la tasa se define como
sigue.
95
Si el canal debe transmitir n sı́mbolos del alfabeto A para poder enviar k
simbolos de mensaje fuente, la tasa de transmisión es R = nk bits por sı́mbolo.
El número de mensajes fuentes posibles es q k , por tanto, el código debe tener,
al menos, tamaño m = q k . Por ello, se define la tasa de un código general
como
logq m
R= .
n
6.6. Probabilidad de decodificar erróneamente

Fijada una regla de decodificación f , denotaremos por P (error|c) la
probabilidad de que, en el supuesto de que se ha enviado por el canal la
palabra-código c, se realice una decodificación erónea. Obviamente, se verifi-
ca X
P (error|c) = P (d|c).
/ −1 (c)
d∈f
Por tanto, enviada una palabra-código,la probabilidad de que se cometa un

error en la decodificación viene dada por
X X X
Pe = P (error|c) P (c) = P (d|c)P (c).
c∈C c∈C d∈f
/ −1 (c)
En el Teorema de decodificación para un canal con ruido, se usará el término

probabilidad máxima de error en la decodificación, que se denota por
Pemax = maxc P (error|c). Tiene la ventaja que no depende de la distribución
de probabilidad de los mensajes fuentes y, además, si sabemos que Pemax < ²,
entonces X X
Pe = P (error|c) P (c) ≤ ² P (c) < ².
c c
96
6.7. El Teorema de codificación para un canal
con ruido
El objetivo fundamental en una comunicación es conseguir reproducir el
mensaje fuente a partir del mensaje recibido. En los canales con ruido, parte
de la información fuente se pierde. Esta información que se pierde viene dada
por H(X|Y ) y depende de las probabilidades del canal y de las probabilidades
de la entrada X. Para compensar esta pérdida de información, los mensajes
fuente se codifican antes de ser enviados por el canal. Recordemos que las
palabras-código que sustituyen a los mensajes fuente tienen un número mayor
de bits, por tanto, también es importante elegir un código con una tasa de
transmisión lo más cercana a 1 posible. Es decir, hay que optimizar la tasa de
transmisión y, por otro lado, minimizar la probabilidad de cometer un error
en la decodificación. Se trata, por tanto, de buscar un compromiso entre estos
dos objetivos opuestos.
Terminamos el tema enunciando el Teorema de codificación para un canal
con ruido. En el enunciado del Teorema [x] denota el menor número entero
que es mayor o igual que x.
Teorema 6.7.1. Consideremos un canal sin memoria discreto con capacidad

C y un alfabeto de entradas con q sı́mbolos. Para cualquier número positivo
R < C, existe una sucesión (Cn ) de códigos y una sucesión (fn ) de reglas de
decodificación con las propiedades siguientes:
1) Cn es un (n, [q nR ])−código, es decir, tiene longitud n y tasa de trans-
misión al menos R.
2) La probabilidad máxima de error con la regla fn tiende a 0 cuando
n → ∞, esto es, se verifica
lı́m Pemax = 0.
n→∞
El teorema nos dice que existen códigos con una tasa de transmisión todo
lo cercana a C que queramos (y para cada uno una regla de decodificación)
97
de modo que la probabilidad máxima de error puede ser tan pequeña como
queramos. Más precisamente, fijados 0 < R < C y ² > 0, siempre existe un
código C y una regla de decodificación f , tales que la tasa de transmisión
del código es, al menos, R y la probabilidad de error a lo más ². De todas
formas, se trata de un resultado teórico que no nos dice la forma de obtener
los códigos sino que nos asegura que dichos códigos existen.
98

10 Canais Com Ruido

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

10 Canais Com Ruido

Cargado por

Copyright:

Formatos disponibles

Capı́tulo 6

Canales con Ruido

Hasta aquı́ hemos estudiado el problema de cómo codificar una fuente

6.1. Canales discretos sin memoria

Definición 6.1.1. Un canal (discreto y sin memoria) consiste en una terna

A primera vista, puede sorprender que consideremos un alfabeto de salidas

Ejemplos 6.1.2. 1) En la figura se muestra un canal binario especial. Tiene

2) El canal binario simétrico (BSC).

3) En el caso de un canal binario sin ruido, la matriz del canal serı́a

A continuación recogemos algunas relaciones que necesitamos:

P (xi , yj ) = P (xi )P (yj /xi ) = P (yj )P (xi /yj )

y la entropı́a condicionada de X dada Y se define como la media ponderada

Ejemplo 6.2.1. Consideremos un canal binario simétrico cuya matriz de

siendo p < 1/2. Sabemos, además, que P (X = 0) = p0 y P (X = 1) = p1

P (Y = 0) = P (Y = 0/X = 0)P (X = 0) + P (Y = 0/X = 1)P (X = 1) =

H(X/Y ) = H(X/Y = 0)P (Y = 0) + H(X/Y = 1)P (Y = 1) =

Teorema 6.2.2. H(X, Y ) = H(X) + H(Y /X) = H(Y ) + H(X/Y ), donde

DEMOSTRACIÓN: Usando que P (xi , yj ) = P (xi )P (yj /xi ), resulta

La igualdad H(X, Y ) = H(Y ) + H(X/Y ) puede interpretarse en el sen-

6.3. Información mutua y capacidad del canal

H(X) − H(X|Y ) = H(X) − (H(X, Y ) − H(Y )) = H(X) + H(Y ) − H(X, Y ).

Definición 6.3.1. La información mutua de X e Y se define por

I(X; Y ) = H(X) − H(X|Y ).

Nótese que I(X; Y ) depende de las probabilidades de entrada y de las

El problema de determinar la capacidad de un canal arbitrario es de

Indudablemente, uno de los ejemplos más importantes lo constituye el

Teorema 6.3.3. La capacidad de un canal simétrico viene dada por

DEMOSTRACIÓN: En primer lugar, observemos que

Como el canal es simétrico, la suma entre paréntesis no depende de i (recordar

Esto muestra que H(Y |X) no depende de la distribución de las probabilidades

P (yj ) = P (Y = yj |X = x1 )P (x1 ) + · · · + P (Y = yj |x = xq )P (xq ) =

Nota 6.3.4. En el caso del canal binario simétrico, la capacidad tiene la

6.5. La tasa de transmisión de un código

6.6. Probabilidad de decodificar erróneamente

Por tanto, enviada una palabra-código,la probabilidad de que se cometa un

En el Teorema de decodificación para un canal con ruido, se usará el término

Teorema 6.7.1. Consideremos un canal sin memoria discreto con capacidad

También podría gustarte