RRRR

El desarrollo reciente de varios mtodos de modulacin, como PCM y PPM, que intercambian ancho
de banda por la relacin seal-ruido, ha intensificado el inters en una teora general de la

comunicacin. Una base para tal teora est contenida en los documentos importantes de Nyquist!
y Hartley "sobre este tema. En el presente artculo ampliaremos la teora para incluir una serie de
nuevos factores, en particular el efecto del ruido en el canal, y los ahorros posibles debido a la
estructura staististiral del mensaje original y debido a la naturaleza del destino final de la
informacin.
El problema fundamental de la comunicacin es reproducir en un punto exactamente o

aproximadamente un mensaje seleccionado en otro punto. Con frecuencia los mensajes tienen
significado; es decir, se refieren o estn correlacionados de acuerdo con algn sistema con ciertas
entidades fsicas o conceptuales. Estos aspectos semnticos de la comunicacin son irrelevantes
para el problema de ingeniera. El aspecto significativo es que el mensaje real es uno seleccionado
de un conjunto de mensajes posibles. El sistema debe estar diseado para operar para cada posible
seleccin, no solo la que realmente se elegir, ya que esto se desconoce en el momento del diseo.
Si el nmero de mensajes en el conjunto es finito, este nmero o cualquier funcin montona de

este nmero puede considerarse como una medida de la informacin producida cuando se elige un
mensaje del conjunto, siendo todas las elecciones igualmente probables. Como Hartley seal, la
opcin ms natural es la funcin logartmica. Aunque esta definicin debe generalizarse
considerablemente cuando consideramos la influencia de las estadsticas del mensaje y cuando
tenemos un rango continuo de mensajes, en todos los casos usaremos una medida esencialmente
logartmica. Si el nmero de mensajes en el conjunto es finito, entonces este nmero o cualquier
funcin montona de este nmero puede considerarse como una medida de la informacin
producida cuando se elige un mensaje del conjunto, siendo todas las elecciones igualmente
probables. Como Hartley seal, la opcin ms natural es la funcin logartmica. Aunque esta
definicin debe generalizarse considerablemente cuando consideramos la influencia de las
estadsticas del mensaje y cuando tenemos un rango continuo de mensajes, en todos los casos
usaremos una medida esencialmente logartmica
La medida logartmica es ms conveniente por varias razones:
La medida logartmica es ms conveniente por varias razones:
1. Es prcticamente ms til. Los parmetros de importancia de ingeniera, como el tiempo, el ancho

de banda, el nmero de repetidores, etc., tienden a variar linealmente con el logaritmo del nmero
de posibilidades. Por ejemplo, agregar un relevo a un grupo duplica la cantidad de posibles estados
de los relevos. Agrega 1 al logaritmo de la base 2 de este nmero. Duplicar el tiempo cuadra
aproximadamente el nmero de mensajes posibles, o dobla el logaritmo, etc.
2. Est ms cerca de nuestro sentimiento intuitivo en cuanto a la medida correcta. Esto es
estrechamente relacionado con (1) ya que medimos entidades de forma intuitiva por comparacin
lineal con estndares comunes. Uno siente, por ejemplo, que dos tarjetas perforadas deben tener
el doble de capacidad que una para el almacenamiento de informacin, y dos canales idnticos
duplican la capacidad de uno para transmitir informacin.
3. Es matemticamente ms adecuado. Muchas de las operaciones limitantes son simples en
trminos del logaritmo, pero requeriran una reafirmacin torpe en trminos del nmero de.
posibilidades.
La eleccin de una base logartmica corresponde a la eleccin de una unidad para medir
informacin. Si se utiliza la base 2, las unidades resultantes se pueden llamar dgitos binarios, o ms
brevemente bits, una palabra sugerida por JW Tukey. Un dispositivo con dos posiciones estables,
como un rel o un circuito flip-flop, puede almacenar un bit de informacin. N tales dispositivos
pueden almacenar N bits, ya que el nmero total de estados posibles es 2N y log22N = N. Si se usa
la base 10, las unidades se pueden llamar dgitos decimales. Ya que
log- M = 10gIO MIlogro2 = 3.32 logro M,
un dgito decimal es aproximadamente 3! bits. Una rueda de dgitos en una computadora de

escritorio tiene diez posiciones estables y, por lo tanto, tiene una capacidad de almacenamiento de
un dgito decimal. En trabajo analtico donde integracin y diferenciacin. estn involucrados la base
e a veces es til. Las unidades de informacin resultantes se llamarn unidades naturales. Cambiar
de la base a a la base b simplemente requiere multiplicacin por log, a.
Por un sistema de comunicacin nos referiremos a un sistema del tipo indicado esquemticamente
en la Fig. 1. Consiste en esencialmente cinco partes:
1. Una fuente de informacin que produce un mensaje o una secuencia de mensajes para ser
comunicados al terminal receptor. El mensaje puede ser de varios tipos: p. (a) Una secuencia
de letras como en un sistema de telgrafo o teletipo; (b) Una funcin nica de tiempo f (t)
como en radio o telefona; (c) Una funcin del tiempo y otras variables como en la televisin
en blanco y negro: aqu el mensaje puede considerarse como una funcin f (x, y, t) de dos
coordenadas espaciales y tiempo, la intensidad de la luz en el punto Cr, y ) y tiempo t en una
placa de tubo de captacin; (d) Dos o ms funciones de tiempo, por ejemplo jCt), g (/), h (t):
este es el caso en la transmisin de sonido "tridimensional" o si el sistema est destinado a
dar servicio a varios canales individuales en mltiplex; (e) Varias funciones de varias
variables: en la televisin en color el mensaje consta de tres funciones 1 (x, y, z), g (x,) I, I),
Ir (x,) I, t) definidas en tres continuo tridimensional tambin podemos pensar en estas tres
funciones como componentes de un campo vectorial definido en la regin; de manera
similar, varias fuentes de televisin en blanco y negro produciran "mensajes" que
consistiran en una serie de funciones de tres variables; (f) Tambin se producen varias
combinaciones, por ejemplo en televisin con un canal de audio asociado.
2. Un transmisor que opera en el mensaje de alguna manera para producir una ignicin adecuada
para la transmisin a travs del canal. En telefona, esta operacin consiste simplemente en cambiar
la presin total en una corriente elctrica proporcional. En telegrafa tenemos una operacin de
codificacin que produce una secuencia de puntos, guiones y espacios en el canal correspondiente
al mensaje. En un sistema PCM multiplexado, las diferentes funciones de voz se deben muestrear,
comprimir, cuantificar y codificar, y finalmente intercalar adecuadamente para construir la seal.
Los sistemas de Vocoder, la televisin y la modulacin de frecuencia son otros ejemplos de
operaciones complejas aplicadas al mensaje para obtener la seal.
3. El canal es simplemente el medio utilizado para transmitir la seal del transmisor al receptor.
Puede ser un par de cables, un cable coaxial, una banda de frecuencias de radio. un rayo de luz, etc.
4. El receptor ordinariamente realiza la operacin inversa de la realizada por el transmisor,

reconstruyendo el mensaje de la seal.
5. El destino es la persona (o cosa) a quien va dirigido el mensaje.
deseamos considerar ciertos problemas generales que involucran sistemas de comunicacin. Para
hacer esto, primero es necesario representar los diversos elementos involucrados como entidades
matemticas, adecuadamente idealizadas a partir de sus contrapartes fsicas. Podemos clasificar a
grandes rasgos los sistemas de comunicacin en tres
categoras principales: discreto, continuo y mixto. Por un sistema discreto nos referimos a uno en el
que tanto el mensaje como la seal son una secuencia de smbolos discretos. Un caso tpico es la
telegrafa, donde el mensaje es una secuencia de letras y la seal una secuencia de puntos, guiones
y espacios.
Un sistema continuo es aquel en el que el mensaje y la seal se tratan como funciones continuas, p.
radio o television Un sistema mixto es aquel en el que aparecen variables discretas y continuas, por
ejemplo, transmisin de voz PCM.
Primero consideramos el caso discreto. Este caso tiene aplicaciones no solo en la teora de la
comunicacin, sino tambin en la teora de las mquinas de computacin, el diseo de centrales
telefnicas y otros campos. Adems, el caso discreto forma una base para los casos continuos y
mixtos que se tratarn en la segunda mitad del artculo.
EL CANAL DISCRETO NOISELESS
Teletipo y telegrafa son dos ejemplos simples de un canal discreto para transmitir informacin.
Generalmente, un canal discreto significar un sistema por el cual una secuencia de elecciones de
un conjunto finito de smbolos elementales,S1,,SN, puede transmitirse de un punto a otro. Cada
una de las
se supone que los smbolos S tienen una cierta duracin en el tiempo Ii segundos (no
necesariamente lo mismo para diferentes Si, por ejemplo, los puntos y rayas en la telegrafa). No es
necesario que todas las secuencias posibles de la S sean capaces
de transmisin en el sistema; ciertas secuencias solo pueden ser permitidas.
Estas sern posibles seales para el canal. Por lo tanto, en la telegrafa, supongamos que los
smbolos son: (1) Un punto, que consiste en el cierre de la lnea para una unidad de tiempo y luego
la lnea abierta para una unidad de tiempo; (2) Un tablero, que consta de tres unidades de tiempo
de cierre y una unidad abierta; (3) Un espacio de letras que consiste en, digamos, tres unidades de
lnea abierta; (4) Se abre un espacio de palabras de seis unidades de lnea. Podramos colocar la
restriccin en las secuencias permitidas que no se siguen espacios (por ejemplo, si dos espacios de
letras son adyacentes, es idntico a un espacio de palabras). La pregunta que ahora consideramos
es cmo se puede medir la capacidad de ese canal para transmitir informacin.
En el caso de teletipo donde todos los smbolos tienen la misma duracin y se permite cualquier
secuencia de los 32 smbolos, la respuesta es fcil. Cada smbolo representa cinco bits de
informacin. Si el sistema lo transmite por segundo, es natural decir que el canal tiene una
capacidad de 5n bits por segundo. Esto no significa que el canal de teletipo siempre estar
transmitiendo informacin a esta velocidad; esta es la tasa mxima posible y si la tasa real alcanza
este mximo depende de la fuente de informacin que alimenta el canal, como se ver ms
adelante.
En el caso ms general con diferentes longitudes de smbolos y restricciones en las secuencias

permitidas, hacemos la siguiente definicin:
Definicin: la capacidad C de un canal discreto viene dada por
donde N (T) es el nmero de seales permitidas de duracin T.
Se ve fcilmente que en el caso de teletipo esto se reduce al resultado anterior. Se puede demostrar
que el lmite en cuestin existir como un nmero finito en la mayora de los casos de inters.
Supongamos que todas las secuencias de los smbolos, s1, ..., sn, estn permitidas y estos smbolos
tienen duraciones, i1, ..., In. Cul es la capacidad del canal? Si NO) representa el nmero de
secuencias de duracin
Yo tenemos
N(t) = N(t - h) + Nl] - t 2) + ... + N(t - In)
El nmero total es igual a la suma de los nmeros de las secuencias que terminan en, S .. S; y estos
son N (t - h), N (t - t2), ..., N (t - In), respectivamente.
De acuerdo con un resultado bien conocido en diferencias finitas, N (t) es entonces asinttico para
I grande donde X es la solucin real ms grande de la ecuacin caracterstica:
X-I l + X-I, + ... + x:': = 1
y por lo tanto
C = log Xo
En el caso de que haya restricciones en las secuencias permitidas, an podemos obtener una
ecuacin de diferencia de este tipo y encontrar C a partir de la ecuacin caracterstica. En el caso
de telegrafa mencionado anteriormente
N(t) = N(t - 2) + NO - 4) + N(t - 5) + N(t - 7) + N(t - 8) + N(t - 10)
como vemos contando secuencias de smbolos de acuerdo con el ltimo o el prximo smbolo que
ocurra. Por lo tanto C es - log lAo donde lAo es el positivo
raz de 1 = 1-'2 + 1A4 + J.i.5 + 1-'7 + J.i.s + IA lO Resolviendo esto, encontramos C = 0.539.
Un tipo muy general de restriccin que se puede colocar en las secuencias permitidas es la
siguiente: imaginamos una serie de posibles estados G1, a2, ..., am. Para cada estado, solo se
pueden transmitir ciertos smbolos del conjunto (diferentes subconjuntos para los diferentes
estados). Cuando se ha transmitido uno de estos, el estado cambia a un nuevo estado que
depende tanto del estado anterior como del smbolo particular transmitido. El caso del telgrafo
es un simple ejemplo de esto. Hay dos estados dependiendo de si un espacio fue el ltimo smbolo
transmitido o no. Si es as, solo se puede enviar un punto o un guin y el estado siempre cambia.
De lo contrario, cualquier smbolo puede transmitirse y el estado cambia si se enva un espacio; de
lo contrario, permanece igual. Las condiciones se pueden indicar en un grfico lineal como se
muestra en la Fig. 2. Los puntos de unin corresponden a los estados y las lneas indican
los smbolos posibles en un estado y el estado resultante. En el Apndice I se muestra que si las
condiciones de las secuencias permitidas se pueden describir en esta forma C existir y se puede
calcular de acuerdo con el siguiente resultado:
Teorema 1: Let, sea la duracin del smbolo S que est permitido en el estado i y conduce al
estado j. Entonces la capacidad del canal C es igual a log W donde Tl1 es la raz real ms grande de
la ecuacin determinante:
IL - Oij I = o.
Donde y es cero de lo contrario.
En la expansin, esto conduce a la ecuacin dada anteriormente para este caso.
2. LA FUENTE DISCRETA DE LA INFORMACIN
Hemos visto que bajo condiciones muy generales, el logaritmo del nmero de seales posibles en
un canal discreto aumenta linealmente con el tiempo.
La capacidad de transmitir informacin se puede especificar dando esta tasa de aumento, la

cantidad de bits por segundo requerida para especificar la seal particular utilizada.
Ahora consideramos la fuente de informacin. Cmo se describe matemticamente una fuente

de informacin y qu cantidad de informacin en bits por segundo se produce en una fuente
determinada? El principal punto en cuestin es el efecto del conocimiento estadstico sobre la
fuente en la reduccin de la capacidad requerida del canal, mediante el uso de una codificacin
adecuada de la informacin. En telegrafa, por ejemplo, los mensajes a transmitir consisten en
secuencias de letras. Estas secuencias, sin embargo, no son completamente aleatorias. En general,
forman oraciones y tienen la estructura estadstica de, digamos, ingls. La letra E ocurre con ms
frecuencia que Q, la secuencia TH es ms frecuente que XP, etc. La existencia de esta estructura
permite realizar un ahorro en el tiempo (o la capacidad del canal) al codificar correctamente el
mensaje.
secuencias en secuencias de seal. Esto ya se hace de forma limitada en telegrafa utilizando el

smbolo de canal ms corto, un punto. para la letra E ms comn en ingls; mientras que las letras
infrecuentes, Q, X, Z estn representadas por secuencias ms largas de puntos y enfrentamientos.
Esta idea se lleva an ms lejos en ciertos cdigos comerciales donde las palabras y frases
comunes estn representadas por grupos de cdigos de cuatro o tres letras con un considerable
ahorro en el tiempo promedio. Los telegramas estandarizados de saludo y aniversario ahora en
uso extienden esto hasta el punto de codificar una o dos oraciones en una secuencia
relativamente corta de nmeros
Podemos pensar en una fuente discreta como generar el mensaje, smbolo por smbolo. Elegir
smbolos sucesivos de acuerdo con ciertas probabilidades que dependen, en general, de
elecciones precedentes, as como de los smbolos particulares en cuestin, un sistema fsico o un
modelo matemtico de un sistema que produce una secuencia de smbolos tal que se rige por un
conjunto de probabilidades. se conoce como un proceso estocstico. "podemos considerar una
fuente discreta, por lo tanto,
ser representado por un pro estocstico: ess. Por el contrario, cualquier proceso estocstico que
produzca una secuencia discreta de smbolos elegidos a partir de un conjunto finito puede
considerarse una fuente discreta. Esto incluir casos como:
1. Idiomas escritos naturales como ingls, alemn, chino.
2. Fuentes de informacin continua que se han vuelto discretas mediante algn proceso de
cuantificacin. Por ejemplo, el discurso cuantificado de un transmisor PCM, o una seal de
televisin cuantificada.
3. Casos matemticos donde simplemente definimos abstractamente un proceso estocstico que

genera una secuencia de smbolos. Los siguientes son ejemplos de este ltimo tipo de fuente.
(A) Supongamos que tenemos letras vivas A, H, C, D, E que se eligen con probabilidad .2, las
elecciones sucesivas son independientes. Esto se limitar a una secuencia de la cual el siguiente es
un ejemplo tpico.
BDCBCECCCADCBDDAAECEEA ABBDAEECACEEBAEECBCEAD
Esto fue construido con el uso de una tabla de nmeros aleatorios
(B) Usando las mismas cinco letras, las probabilidades son .4, .1, .2, .2, .1 respectivamente, con
elecciones sucesivas independientes. Un mensaje tpico de esta fuente es entonces:
(C) Se obtiene una estructura ms complicada si los smbolos sucesivos no se eligen de forma
independiente, sino que sus probabilidades dependen de las letras anteriores. En el caso ms
simple de este tipo, una eleccin depende solo de la letra anterior y no de las anteriores. La
estructura estadstica se puede describir mediante un conjunto de probabilidades de transicin pij,
la probabilidad de que la letra i sea seguida por la letra j. Los ndices i y} abarcan todos los
smbolos posibles. Una segunda forma equivalente de especificar la estructura es dar las
probabilidades "digram" p (i, j), es decir, la frecuencia relativa del digram i j. Las frecuencias de
letras p (i), (la probabilidad de la letra i), las probabilidades de transicin p (j) y las probabilidades
de digram p (i, j) estn relacionadas por las siguientes frmulas.
Como ejemplo especfico, supongamos que hay tres letras A, H, C con las tablas de probabilidades:
Un mensaje tpico de esta fuente es el siguiente:

ABBABABABABABABBBABBBBBAB ABABABABBBACACABBABBBBABB ABACBBBABA
El prximo aumento en la complejidad implicara frecuencias de trigrama, pero no ms. La

eleccin de una letra depender de las dos letras anteriores, pero no del mensaje anterior a ese
punto. Se requerira un conjunto de frecuencias trigonomtricas pU, j, k) o, de forma equivalente,
un conjunto de probabilidades de transicin Pij (k). Continuando de esta manera, se obtienen
procesos estocsticos sucesivamente ms complicados. En el caso de itgram general, un conjunto
de probabilidades n-gram p (i1, i 2, , in)
o de probabilidades de transicin pi ,. i ",,,. i ,, _ Jin) es necesario para especificar la estructura

estadstica
(D) Tambin se pueden definir procesos estocsticos que producen un texto que consiste en una
secuencia de "palabras". Supongamos que hay cinco letras A, B, C, D, E y 16 "palabras" en el
lenguaje con probabilidades asociadas:
Supongamos que las "palabras" sucesivas se eligen "independientemente" y estn separadas por
un espacio. Un mensaje tpico podra ser:
El prximo aumento en la complejidad implicara frecuencias de trigrama, pero no ms. La

eleccin de una letra depender de las dos letras anteriores, pero no del mensaje anterior a ese
punto. Se requerira un conjunto de frecuencias trigonomtricas pU, j, k) o, de forma equivalente,
un conjunto de probabilidades de transicin Pij (k). Continuando de esta manera, se obtienen
procesos estocsticos sucesivamente ms complicados. En el caso de itgram general, un conjunto
de probabilidades n-gram p (i1, i 2, , in)
o de probabilidades de transicin pi ,. i ",,,. i ,, _ Jin) es necesario para especificar la estructura

estadstica
(D) Tambin se pueden definir procesos estocsticos que producen un texto que consiste en una
secuencia de "palabras". Supongamos que hay cinco letras A, B, C, D, E y 16 "palabras" en el
lenguaje con probabilidades asociadas:
Supongamos que las "palabras" sucesivas se eligen "independientemente" y estn separadas por
un espacio. Un mensaje tpico podra ser:
DAB EE A BEBE DEED DEB ADEE ADEE EE DEB BEBE BEBE BEBE ADEE BED DEED DEED CEED ADEE A
DEED DEED BEBE CABED BEBE BED DAB DEED ADEB
Si todas las palabras son de longitud finita, este proceso es equivalente a uno del tipo anterior,
pero la descripcin puede ser ms simple en trminos de la estructura de la palabra y las
probabilidades. Tambin podemos generalizar aqu e introducir probabilidades de transicin entre
palabras, etc.
Estos lenguajes artificiales son tiles para construir problemas simples y ejemplos para ilustrar
varias posibilidades. Tambin podemos aproximarnos a un lenguaje natural por medio de una
serie de lenguajes artificiales simples. La aproximacin de orden cero se obtiene eligiendo todas
las letras con la misma probabilidad e independientemente. La aproximacin de primer orden se
obtiene eligiendo letras sucesivas independientemente, pero cada letra tiene la misma
probabilidad que en el lenguaje natural. Por lo tanto, en el primer orden
aproximacin al ingls, E se elige con probabilidad .12 (su frecuencia en ingls normal) y w con
probabilidad .02, pero no hay influencia entre letras adyacentes y no hay tendencia a formar los
digramas preferidos tales como TH, ED, etc. la aproximacin de segundo orden, la estructura
digram es introducida. Despus de elegir una letra, la siguiente se elige de acuerdo con las
frecuencias con las que las distintas letras siguen a la primera. Esto requiere una tabla de
frecuencias de digram P. (j). En la aproximacin thirdorder, se introduce la estructura trigram.
Cada letra se elige con probabilidades que dependen de las dos letras anteriores.
LA SERIE DE APROBACIONES AL INGLS
Para dar una idea visual de cmo esta serie de procesos se acerca a un idioma, se han construido
secuencias tpicas en las aproximaciones al ingls que se detallan a continuacin. En todos los
casos hemos asumido un "alfabeto" de 27 smbolos, las 26 letras y un espacio.
1. Aproximacin de orden cero (smbolos independientes y equi-probable).
XFOML RXKHRJFFJUJ ZLPWCFWKCYJ
FFJEYVKCQSGXYD QPAAMKBZAACIBZLHJQD
2. Aproximacin de primer orden (smbolos independientes pero con frecuencias de texto en

ingls).
OCRO IlLI RGWR NMIELWIS EU LL NBNESEBYA TH EEl
ALHENHTTPA OOBTTVA NAH BRL
3. Aproximacin de segundo orden (estructura de digram como en ingls).
EN IE ANTSOUTINYS ARE T INCTORE ST BE S DEAMY
ACHIN D ILONASIVE TUCOOWE EN TEASONARE FUSO
TIZIN ANDY TOBE SEACE CTISBE
4. Aproximacin de tercer orden (estructura de trigrama como en ingls).
EN NINGN LAT. WHEY CRATICT FROURE BIRS GROCID
PONDENOME OF DEMONSTURES OF THE REPTAGIN IS
REGOACTIONA DE CRE
5. Aproximacin de palabras de primer orden. En lugar de continuar con tetragram, ..., estructura
de II-gramo, es ms fcil y mejor saltar en este punto a unidades de palabras. Aqu las palabras se
eligen independientemente pero con sus frecuencias apropiadas.
REPRESENTAR Y CON RAPIDEZ ES UNA BUENA APTO O
VEN PUEDE DIFERENTES NATURALES AQU L EL A EN
VINO EL TO DE A EXPERT GREY VEN A AMUEBLAR
EL MENSAJE DE LA LNEA HABAN SIDO ESTOS.
6. Aproximacin de palabras de segundo orden. Las probabilidades de transicin de la palabra son

correctas, pero no se incluye ninguna estructura adicional.
LA CABEZA Y EN ATAQUE FRONTAL EN UN INGLS
\\ 'RITRA QUE EL CARCTER DE ESTE PUNTO ES
POR LO TANTO OTRO MTODO PARA LAS LETRAS
QUE EL TIEMPO DE QUIEN NUNCA DIJO EL PROBLEMA
POR UN INESPERADO
El parecido con el texto en ingls comn aumenta bastante notablemente en cada uno de los
pasos anteriores. Tenga en cuenta que estas muestras tienen una estructura razonablemente
buena hasta aproximadamente el doble del rango que se tiene en cuenta en su construccin. Por
lo tanto, en (3) el proceso estadstico asegura un texto razonable
para la secuencia de dos letras, pero las secuencias de cuatro letras de la muestra generalmente se
pueden ajustar en buenas oraciones. En (6) secuencias de cuatro o ms palabras se pueden
colocar fcilmente en oraciones sin construcciones inusuales o tensas.
La secuencia particular de diez palabras "atacar a un ingls
escritor que el carcter de esto "no es en absoluto irracional. Parece que un proceso estocstico
suficientemente complejo dar una representacin satisfactoria de una fuente discreta.
Las dos primeras muestras se construyeron mediante el uso de un libro de nmeros aleatorios
junto con (por ejemplo, 2) una tabla de frecuencias de letras.
Este mtodo podra haber sido "continuado para (3), (-l) y (5), ya que las tablas de digram,
trigrama y frecuencia de palabras estn disponibles, pero se utiliz un mtodo equivalente ms
simple. Para construir (3), por ejemplo, uno abre un libro al azar y selecciona una letra al azar en la
pgina. Esta carta esta registrada.
El libro se abre en otra pgina y se lee hasta que se encuentre con esta letra. El lettel 'siguiente se
registra luego. Pasando a otra pgina, se busca esta segunda letra y se graba el siguiente Jetter,
etc. Se us un proceso similar para (-l), (5) y (6). Sera interesante si se pudieran construir
aproximaciones adicionales, pero el trabajo involucrado se vuelve enorme en la prxima etapa.
4. Representacin grfica de un proceso de MARKOFF

Los procesos estocsticos del tipo descrito anteriormente se conocen matemticamente como
procesos discretos de Markoff y han sido ampliamente estudiados en la literatura, "El caso general
se puede describir de la siguiente manera: Existe una
nmero finito de posibles "estados" de un sistema; 51,, ..., 5 ". Adems hay un conjunto de
probabilidades de transicin; piCj) la probabilidad de que si el sistema est en el estado 5 i, luego
ir al estado Sj. Para convertir este proceso de Markoff en una fuente de informacin solo
debemos suponer que se produce una carta
para cada transicin de un estado a otro. Los estados correspondern al "residuo de influencia" de
las letras anteriores.
La situacin se puede representar grficamente como se muestra en las Figs. 3,4 y 5.
Los "estados" son los puntos de unin en el grfico y las probabilidades y letras producidas para
una transicin se dan junto a la lnea correspondiente.
La figura 3 es para el ejemplo n en la seccin 2, mientras que la figura .J corresponde al ejemplo C,

en la figura 3 solo hay un estado ya que las letras sucesivas son independientes. En la figura .l hay
tantos estados como letras. Si se construyera un ejemplo de trigrama, habra como mximo J1
estados correspondientes a los posibles pares de letras que preceden al elegido. La Figura 5 es un
grfico para el caso de la estructura de palabras en el ejemplo D. Aqu S corresponde al smbolo de
"espacio".
5. FUENTES ERGODICAS Y MEZCLADAS
Como hemos indicado anteriormente, se puede considerar que una fuente discreta para nuestros
propsitos est representada por un proceso de Markoff. Entre los posibles procesos discretos de
Markoff hay un grupo con propiedades especiales de importancia en la teora de la comunicacin.
Esta clase especial consiste en los procesos "ergdicos" y llamaremos a las fuentes
correspondientes fuentes ergdicas. Aunque una definicin rigurosa de un proceso ergdico est
algo involucrada, la idea general es simple. En un proceso ergdico, cada secuencia producida por
el proceso es la misma en propiedades estadsticas. Por lo tanto, las frecuencias de letras,
frecuencias digram, etc., obtenidas a partir de secuencias particulares, a medida que las longitudes
de las secuencias aumentan, se acercarn a lmites definidos independientemente de la secuencia
particular. En realidad, esto no es cierto para todas las secuencias, pero el conjunto para el que es
falso tiene una probabilidad cero. Aproximadamente la propiedad ergdica significa
homogeneidad estadstica.
Todos los ejemplos de lenguajes artificiales dados anteriormente son ergdicos. Esta propiedad
est relacionada con la estructura del grfico correspondiente. Si el grfico tiene las siguientes dos
propiedades, el proceso correspondiente ser ergdico:
1. El grfico no consta de dos partes A y B aisladas de modo que es imposible pasar de los puntos
de unin en la parte A a los puntos de unin en la parte B a lo largo de las lneas del grfico en la
direccin de las flechas y tambin es imposible pasar desde uniones en la parte B a las uniones en
la parte A.
2. Una serie cerrada de lneas en el grfico con todas las flechas en las lneas que apuntan en la
misma orientacin se llamar "circuito". La "longitud" de un circuito es el nmero de lneas en l.
As, en la Fig. 5, la serie BEBES es un circuito de longitud 5. La segunda propiedad requerida es que
el mayor divisor comn de las longitudes de todos los circuitos en el grfico sea uno.
Si se satisface la primera condicin pero la segunda se viola al tener el mayor divisor comn igual a
d> 1, las secuencias tienen un cierto tipo de estructura peridica. Las diversas secuencias se abren
en d diferentes clases que son estadsticamente las mismas aparte de un desplazamiento del
origen (es decir, qu letra en la secuencia se llama letra 1). Mediante un cambio de 0 a d - 1,
cualquier secuencia se puede hacer estadsticamente equivalente a cualquier otra. Un ejemplo
simple con d = 2 es el siguiente: Hay tres posibles letras a, b, c.
La letra a se sigue con byc con probabilidades t y t respectivamente. A b o c siempre le sigue la

letra a. Por lo tanto, una secuencia tpica es
Abacacacabacababacac
Este tipo de situacin no es de mucha importancia para nuestro trabajo.
Si se viola la primera condicin, el grfico se puede separar en un conjunto de subgrafos, cada uno
de los cuales cumple la primera condicin. Asumiremos que la segunda condicin tambin se
cumple para cada subgrfico. Tenemos en este caso lo que se puede llamar una fuente "mixta"
compuesta por una serie de componentes puros. Los componentes corresponden a varios
subgrafos.
Si L1, Lz, L, ... son las fuentes componentes, podemos escribir
donde Pi es la probabilidad de la fuente componente L; .
Estas son reformulaciones en trminos de la grfica de condiciones dada en Frechet.
Fsicamente la situacin representada es la siguiente: hay varias fuentes diferentes LI, L2, L.], ...
que son cada una de estructura estadstica homognea (es decir, son ergdicas). No sabemos a
priori cul debe usarse, pero una vez que la secuencia comienza en un componente puro dado L,
contina indefinidamente de acuerdo con la estructura estadstica de ese componente.
Como ejemplo uno puede tomar dos de los procesos definidos anteriormente y asumir PI = .2 y P2
= .8. Se obtendra una secuencia de la fuente mixta eligiendo primero L1 o L2 con probabilidades
.2 y .8 y despus de esta eleccin generando una secuencia de cualquiera que se haya elegido.
Excepto cuando se indique lo contrario, asumiremos que una fuente es ergdica.
Esta suposicin permite identificar promedios a lo largo de una secuencia con promedios sobre el
conjunto de secuencias posibles (la probabilidad de que una discrepancia sea cero). Por ejemplo,
la frecuencia relativa de la letra A en una secuencia infinita particular ser, con probabilidad uno,
igual a su frecuencia relativa en el conjunto de secuencias.
Si Pi es la probabilidad de declarar i y Pi (j) la probabilidad de transicin para indicar j, entonces
para que el proceso sea estacionario, est claro que el P ,. debe satisfacer las condiciones de
equilibrio:
r, ;", L Pi p,.(j)
En el caso ergdico, se puede demostrar que con cualquier condicin inicial las probabilidades Pj
(N) de estar en el estado j despus de N smbolos, se acercan a los valores de equilibrio como
ELECCIN, INCERTIDUMBRE Y ENTROPA
Hemos representado una fuente de informacin discreta como un proceso de Markoff.
Podemos definir una cantidad que mida, en cierto sentido, cunta informacin se "produce"
mediante dicho proceso, o mejor, a qu velocidad se produce la informacin?
Supongamos que tenemos un conjunto de eventos posibles cuyas probabilidades de ocurrencia

son PI, P2, ..., P > Estas probabilidades son conocidas, pero eso es todo lo que sabemos sobre qu
evento ocurrir. Podemos encontrar una medida de cunta "eleccin" est involucrada en la
seleccin del evento o de cun inciertos estamos de la respuesta?
Si existe tal medida, digamos H (PI, P2, ..., pn), es razonable exigirle las siguientes propiedades:
1. H debe ser continuo en el Pi.
2. Si todos los Pi son iguales, Pi =!, Entonces H debera ser una funcin creciente monotnica de II.
Con eventos igualmente probables hay ms opciones, o incertidumbre,
cuando hay ms eventos posibles
3. Si una eleccin se divide en dos elecciones sucesivas, la H original debe ser la suma ponderada
de los valores individuales de H. Se ilustra el significado de esto. en la Fig. 6. A la izquierda
tenemos tres posibilidades PI =!, pz = 1, P: l = i A la derecha, primero elegimos entre dos
posibilidades, cada una con probabilidad j, y si ocurre la segunda, hacemos otra eleccin con
probabilidades t. Los resultados finales tienen las mismas probabilidades que antes. 'Ne requieren,
en este caso especial, que
H(!,1, i) = /l(!, !) + !H(i, t)
El coeficiente! es porque esta segunda opcin solo ocurre la mitad del tiempo.
En el Apndice II, se establece el siguiente resultado:
Teorema 2: El nico H que satisface las tres suposiciones anteriores tiene la forma:
donde k s es una constante positiva.
Este teorema y las suposiciones requeridas para su demostracin no son de ninguna manera
necesarios para la presente teora. Se da principalmente para dar cierta verosimilitud a algunas de
nuestras definiciones posteriores. La verdadera justificacin de estas definiciones, sin embargo,
residir en sus implicaciones.
Las cantidades de la forma H = - Pi log Pi (la constante K simplemente equivale a la eleccin de una
unidad de medida) desempean un papel central en la teora de la informacin como medidas de
informacin, eleccin e incertidumbre. La forma de H se reconocer como la de entropa como se
define en ciertas formulaciones de estadsticas
Mecnica 'donde Pi es la probabilidad de que un sistema est en la celda i de su espacio de fase. II

es entonces, por ejemplo, el H en el famoso teorema H de Boltzmann.
Llamaremos a H = - Pi log Pi la entropa del conjunto de probabilidades PI, "', pn. Si X es una
variable aleatoria, escribiremos H (x) para su entropa, por lo tanto, no es un argumento de una
funcin sino una etiqueta para un nmero, para diferenciarlo de H (y) decir, la entropa de la
variable de probabilidad y. La entropa en el caso de dos posibilidades con probabilidades Pand q =
1 - P, es decir
se traza en la Fig. 7 como una funcin de p.
La cantidad H tiene varias propiedades interesantes que lo corroboran como una medida
razonable de eleccin o informacin.
1. H = 0 si y solo si todos los Pi pero uno son cero, este tiene el valor de unidad. Por lo tanto, solo
cuando estamos seguros del resultado, H desaparecer.
De lo contrario, H es positivo.
2. Para un n dado, H es un mximo e igual a log n cuando todos los Pi son iguales (es decir, Esta es
tambin la situacin ms incierta intuitivamente.
3. Supongamos que hay dos eventos, x e y, en cuestin con m posibilidades para el primero y n
para el segundo. Sea p (i, j) la probabilidad de la aparicin conjunta de i para la primera y j para la
segunda. La entropa del evento conjunto es
mientras
Se demuestra fcilmente que

con igualdad solo si los eventos son independientes (es decir, p (i, j) = p (i) prJ ).
La incertidumbre de un evento conjunto es menor o igual a la suma de las incertidumbres

individuales.
4. Cualquier cambio hacia la igualacin de las probabilidades PI, h, ..., pn aumenta H. Entonces, si
PI <P2 y aumentamos PI, disminuyendo P2 una cantidad igual de modo que PI y P2 son ms o
menos iguales, entonces H aumenta. De manera ms general, si realizamos cualquier operacin de
"promediado" en el Pi de la forma
luego H aumenta (excepto en el
"Es un caso especial en el que esta transformacin no es ms que una permutacin del Pi con l-l,
por supuesto, sigue siendo el mismo).
5. Supongamos que hay dos eventos fortuitos: r e y como en 3, no necesariamente

independientes. Para cualquier valor particular i que: r puede suponer que hay una probabilidad
condicional p, {j) que y tiene el valor j. Esto es dado por
Definimos el atrapamiento condicional de y, 11 r (Y) como el promedio de la entropa de) 'fur

cada valor de .r, ponderado de acuerdo con la probabilidad de obtener ese particular .r. Es decir
Esta cantidad mide la incertidumbre que tenemos sobre el promedio cuando conocemos .r.
Sustituyendo el valor de Pi (j) obtenemos
La incertidumbre (o entropa) del evento conjunto y es la incertidumbre de x ms la incertidumbre

de y cuando se conoce x.
6. Desde 3 y 5 tenemos
Por lo tanto
La incertidumbre de y nunca aumenta con el conocimiento de .r, se reducir a menos que x e y

sean eventos independientes, en cuyo caso no se cambia.
7. LA ENTROPA DE UNA FUENTE DE INFORMACIN

Considere una fuente discreta del tipo de estado finito considerado anteriormente.
Para cada estado posible i habr un conjunto de probabilidades Pi (j) de producir los diversos
smbolos posibles j. Por lo tanto, hay una entropa H para cada estado. La entropa de la fuente se
definir como el promedio de estas H, ponderado de acuerdo con la probabilidad de ocurrencia de
los estados en cuestin:
Esta es la entropa de la fuente por smbolo de texto. Si el proceso de Markoff avanza a una tasa
de tiempo definida, tambin hay una entropa por segundo
donde j ', es la frecuencia promedio (ocurrencias por segundo) del estado i. Claramente
donde m es el nmero promedio de smbolos producidos por segundo. H o H 'mide la cantidad de

informacin generada por la fuente por smbolo o por segundo. Si la base logartmica es 2,
representarn bits por smbolo o por segundo.
Si los smbolos sucesivos son independientes, entonces H es simplemente - Pi log Pi donde Pi es la

probabilidad del smbolo i. Supongamos que en este caso consideramos un mensaje largo de N
smbolos. Contendr con alta probabilidad sobre ocurrencias de PIN del primer smbolo,
ocurrencias .p2N de la segunda, etc.
Por lo tanto, la probabilidad de este mensaje particular ser ms o menos
H es, por lo tanto, aproximadamente el logaritmo de la probabilidad recproca de una secuencia

larga tpica dividida por el nmero de smbolos en la secuencia.
El mismo resultado es vlido para cualquier fuente. Dicho de manera ms precisa, tenemos (ver
Apndice III):
Teorema 3: dado cualquier e> 0 y 0> 0, podemos encontrar un No que las secuencias de cualquier
longitud 1 '/ :::: N "caigan en dos clases:
1. Un conjunto cuya probabilidad total es menor que E.
2. El resto, todos cuyos miembros tienen probabilidades que satisfacen la desigualdad
En otras palabras, es casi seguro que tenemos -r muy cerca de H cuando N es grande
Un resultado estrechamente relacionado se refiere al nmero de secuencias de varias
probabilidades. Considere nuevamente las secuencias de longitud N y permita que estn
ordenadas en orden de probabilidad decreciente. Definimos n (q) como el nmero que debemos
tomar de este conjunto comenzando por el ms probable para acumular una probabilidad total q
para los tomados.
Teorema 4:
cuando 'l no es igual a 0 o I,
cuando 'l no es igual a 0 o I,
Podemos interpretar log Il (q) como el nmero de bits requeridos para especificar la secuencia
cuando consideramos solo las secuencias ms probables con una probabilidad total q. Entonces
log es la cantidad de bits por smbolo para la especificacin. El teorema dice que para N grande
esto ser independiente de
q e igual a II. La tasa de crecimiento del logaritmo del nmero de secuencias razonablemente
probables viene dada por H, independientemente de nuestra interpretacin de "razonablemente
probable". Debido a estos resultados, que se prueban en el apndice III, es posible para la mayora
de los propsitos tratar las secuencias largas como
aunque solo hubo 2H X de ellos, cada uno con una probabilidad T H, ".
Los siguientes dos teoremas muestran que H y H 'se pueden determinar limitando las operaciones
directamente desde las estadsticas de las secuencias de mensajes, sin referencia a los estados y
las probabilidades de transicin entre estados.
Teorema 5: Sea p (B,) la probabilidad de una secuencia Bi de smbolos de la fuente. Dejar
donde la suma es sobre todas las secuencias B; que contiene N smbolos. Entonces GN es una
funcin decreciente montona de N y
Teorema 6: Sea p (B i, Sj) la probabilidad de la secuencia B, seguida del smbolo S, y PBJSj) = P (Bi,
Sj) / p (B,) sea la probabilidad condicional de s, despus de Bi. Dejar
donde la suma est sobre todos los bloques B, de N - 1 smbolos y sobre todos los smbolos Sj.
Entonces, FN es una funcin decreciente monotnica de N,
Estos resultados se derivan en el apndice III. Muestran que se puede obtener una serie de
aproximaciones a H considerando solo la estructura estadstica de las secuencias que se extienden
sobre 1, 2, ... N smbolos. PN es la mejor aproximacin. De hecho, F N es la entropa de la
aproximacin de la orden NIh a la fuente del tipo discutido anteriormente. Si no hay influencias
estadsticas que se extiendan en ms de N smbolos, es decir, si la probabilidad condicional del
prximo smbolo que conoce el precedente (N - 1) no cambia por el conocimiento de ninguno
anterior, entonces FN = H. FN por supuesto es
la entropa coridicional del prximo smbolo cuando se conocen (N - 1) los precedentes, mientras
que GN es la entropa por smbolo de bloques de N smbolos.
La relacin entre la entropa de una fuente y el valor mximo que podra tener mientras se
restringe a los mismos smbolos se denominar ell / ropy relativo.
Esta es la compresin mxima posible cuando codificamos en el mismo alfabeto. Uno menos la
entropa relativa es la redundancia. La redundancia del ingls ordinario, sin considerar la
estructura estadstica sobre mayor
distancias de aproximadamente ocho letras es aproximadamente 50%. Esto significa que cuando
escribimos ingls, la mitad de lo que escribimos est determinada por la estructura del idioma y la
mitad se elige libremente. La cifra 50% fue encontrada por varios
mtodos independientes que dieron resultados en este vecindario. Una es mediante el clculo de
la entropa de las aproximaciones al ingls. Un segundo mtodo es eliminar una determinada
fraccin de las letras de una muestra de texto en ingls y luego dejar que alguien intente
restaurarlas. Si se pueden restaurar cuando se elimina el 50%, la redundancia debe ser mayor que
50%.
Un tercer mtodo depende de ciertos resultados conocidos en criptografa.
Dos extremos de redundancia en la prosa inglesa estn representados por el ingls bsico y por el
libro de James Joyces "Finigans Wake". El vocabulario de ingls bsico est limitado a 850 palabras
y la redundancia es muy alta. Esta
se refleja en la expansin que ocurre cuando un pasaje se traduce al ingls bsico. Joyce, por otro
lado, ampla el vocabulario y se alega que logra una compresin del contenido semntico.
La redundancia de un idioma est relacionada con la existencia de crucigramas. Si la redundancia

es cero, cualquier secuencia de letras es un texto razonable en el idioma y cualquier matriz
bidimensional de letras forma un crucigrama. Si la redundancia es demasiado alta, el lenguaje
impone demasiadas restricciones para que los crucigramas grandes sean posibles. Un anlisis ms
detallado muestra que si asumimos que las restricciones impuestas por el lenguaje son de
naturaleza bastante catica y aleatoria, los crucigramas grandes solo son posibles cuando la
redundancia es del 50%. Si la redundancia es del 33%, deberan ser posibles los crucigramas
tridimensionales, etc.
8. REPRESENTACIN DE LAS OPERACIONES DE ENCODIFICACIN Y DECODIFICACIN
Todava tenemos que representar matemticamente las operaciones realizadas por el transmisor y
el receptor en la codificacin y decodificacin de la informacin.
Cualquiera de estos se llamar un transductor discreto. La entrada al transductor es una secuencia

de smbolos de entrada y su salida es una secuencia de smbolos de salida. El transductor puede
tener una memoria interna para que su salida no solo dependa del smbolo de entrada actual sino
tambin del pasado
historia. Suponemos que la memoria interna es finita, es decir, que existe un nmero finito 111 de
estados posibles del transductor y que su salida es una funcin del estado presente y del smbolo
de entrada presente. El siguiente estado ser una segunda funcin de estas dos cantidades. Por lo
tanto, un transductor
se puede describir por dos funciones:
donde:: rn es el smbolo de entrada II l h,
an es el estado del transductor cuando se introduce el smbolo de entrada de 11 t,
Yn es el smbolo de salida (o secuencia de smbolos de salida) producido cuando se introduce si el

estado es an.
Si los smbolos de salida de un transductor se pueden identificar con los smbolos de entrada de un
segundo, se pueden conectar en tndem y el resultado tambin es un transductor. Si existe un
segundo transductor que opera en la salida
del primero y recupera la entrada original, el primer transductor se llamar no singular y el

segundo se llamar inverso.
Teorema 7: La salida de un transductor de estado finito impulsado por una fuente estadstica de
estado finito es una fuente estadstica de estado finito, con entropa (por unidad de tiempo)
menor o igual que la de la entrada. Si el transductor es no singular, son iguales.
Deje que a represente el estado de la fuente, que produce una secuencia de smbolos Xi; y sea {3
el estado del transductor, que produce, en su salida, bloques de smbolos Yi. El sistema combinado
puede ser representado
por el "espacio de estado del producto" de pares (a, (3). Dos puntos en el espacio, (ai, (31) y (a2
(32)) estn conectados por una lnea si al puede producir una x que cambia {31 a {32, y esta lnea
se da la probabilidad de que x en este caso.
La lnea est etiquetada con el bloque de smbolos Yi producidos por el transductor.
La entropa del resultado se puede calcular como la suma ponderada de los estados. Si sumamos
primero en {3, cada trmino resultante es menor o igual que el trmino correspondiente para a,
por lo tanto, la entropa no aumenta. Si el transductor no es singular, permita que su salida se
conecte al transductor inverso.
Si, y son las entropas de salida de la fuente, la primera y
segundos transductores respectivamente, luego; :::; ::: = y por lo tanto
Supongamos que tenemos un sistema de restricciones sobre posibles secuencias del tipo que
puede representarse mediante un grfico lineal como en la figura 2. Si las probabilidades pi '/ se
asignaron a las diversas lneas que conectan el estado ito, esto sera
convertirte en una fuente Hay una tarea particular que maximiza la entropa resultante (ver
Apndice IV).
Teorema 8: Deje que el sistema de restricciones considerado como un canal tenga una capacidad
C. Si asignamos
donde eli) es la duracin del smbolo sth que va del estado i al estado j y al B; satisfacer
entonces H se maximiza e igual a C.
Mediante la asignacin adecuada de las probabilidades de transicin, la entropa de smbolos en

un canal se puede maximizar a la capacidad del canal.
9. EL TEOREMA DE FUNDAMENTALES PARA UN CAMPO NOISELESS
Ahora justificaremos nuestra interpretacin de H como la tasa de generacin de informacin

demostrando que H determina la capacidad del canal requerida con la codificacin ms eficiente
Teorema 9: permita que una fuente tenga entropa H (bits por smbolo) y un canal tenga una
capacidad C (bits por segundo). Entonces es posible codificar la salida de la fuente de tal manera
que se transmita a la velocidad promedio - E smbolos por segundo sobre el canal donde E es
arbitrariamente pequeo. No es posible . h C para transmitir a una tasa promedio mayor t
La parte inversa del teorema, que H no puede excederse, puede probarse al observar que la
entropa de la entrada del canal por segundo es igual a la de la fuente, ya que el transmisor debe
ser no singular, y tambin
esta entropa no puede exceder la capacidad del canal. De ah H 'C y el nmero de smbolos por
segundo = H' / H <C / II.
La primera parte del teorema se probar de dos maneras diferentes. El primer mtodo es
considerar el conjunto de todas las secuencias de N smbolos producidos por la fuente. Para N
grande podemos dividir estos en dos grupos, uno que contiene menos de x miembros y el segundo
que contiene menos de 2R N miembros (donde R es el logaritmo del nmero de smbolos
diferentes) y que tiene una probabilidad total menor que u, como N aumenta "7 y p. acercndose
a cero. El nmero de seales de duracin T en el canal es mayor que iC - ()) T con (J pequeo
cuando T es grande. Si elegimos
entonces habr un nmero suficiente de secuencias de smbolos de canal para el grupo de alta
probabilidad cuando Nand T sean lo suficientemente grandes (aunque sean pequeos> -) y
tambin algunos adicionales. El grupo de alta probabilidad se correlaciona de forma arbitraria en
este conjunto. Las secuencias restantes estn representadas por secuencias ms grandes,
comenzando y terminando con una de las secuencias no utilizadas para el grupo de alta
probabilidad. Esta secuencia especial acta como una seal de inicio y parada para un cdigo
diferente. Entre un tiempo suficiente se permite dar suficientes secuencias diferentes para todos
los mensajes de baja probabilidad. Esto requerir que <p sea pequeo. La tasa media de
transmisin en smbolos de mensaje por segundo ser mayor que
A medida que N aumenta 0, X y cp se aproximan a cero y la velocidad se aproxima.
Otro mtodo para realizar esta codificacin y probar el teorema se puede describir de la siguiente
manera: Organice los mensajes de longitud N por orden de probabilidad decreciente y suponga
que sus probabilidades son PI; :::: P2; :::: pa ...;: ::: pn.
Deje P, = L Pi j que es P, es la probabilidad acumulada hasta, pero no
incluyendo, P .. Primero codificamos en un sistema binario. El cdigo binario para el mensaje s se

obtiene al expandir P, como un nmero binario. La expansin se lleva a cabo en m, lugares, donde
m, es el nmero entero que satisface
Por lo tanto, los mensajes de alta probabilidad estn representados por cdigos cortos y los de
baja probabilidad por cdigos largos. De estas desigualdades tenemos
El cdigo para P. diferir de todos los sucesivos en uno o ms de sus m, lugares, ya que todos los Pi
restantes son al menos _1_ ms grandes y sus expansiones binarias por lo tanto difieren en los
primeros m, lugares. En consecuencia, todos los cdigos son diferentes y es posible recuperar el
mensaje de su cdigo. Si el
las secuencias de canales no son ya secuencias de dgitos binarios, se les puede atribuir nmeros
binarios de manera arbitraria y el cdigo binario se traduce as en seales adecuadas para el canal.
El nmero promedio H 'de dgitos binarios utilizados por smbolo del mensaje original se puede
estimar fcilmente. Tenemos
Pero,
y por lo tanto,
A medida que N aumenta, log P. se acerca a H, la entropa de la fuente y H '
se acerca a H.
Vemos a partir de esto que la ineficiencia en la codificacin, cuando solo un retraso finito de
Se usan N smbolos, no es necesario que sea mayor que la diferencia entre
la verdadera entropa H y la entropa GN calculada para secuencias de longitud N.
El porcentaje de exceso de tiempo necesario sobre el ideal es por lo tanto menor que
Este mtodo de codificacin es sustancialmente el mismo que el encontrado por RM Fano. "Su
mtodo consiste en organizar los mensajes de longitud N en orden de probabilidad decreciente.
Divida esta serie en dos grupos de la probabilidad casi igual posible. En el primer grupo, su primer
dgito binario ser 0, de lo contrario 1. Los grupos se dividen de manera similar en subconjuntos de
probabilidad casi igual y el subconjunto particular determina el segundo dgito binario. Este
proceso contina hasta que cada subconjunto contiene solo un mensaje. se ve fcilmente que
aparte de las diferencias menores (generalmente en el ltimo dgito) esto equivale a lo mismo que
el proceso aritmtico descrito anteriormente.
DISCUSIN
Para obtener la mxima transferencia de potencia de un generador a una carga, se debe introducir
un transformador en general para que el generador visto desde la carga tenga la resistencia de
carga. La situacin aqu es ms o menos anloga.
El transductor que hace la codificacin debe coincidir con la fuente del canal en un sentido
estadstico. La fuente vista desde el canal a travs del transductor debe tener la misma estructura
estadstica que la fuente que maximiza la entropa en el canal. El contenido del Teorema 9 es que,
aunque una coincidencia exacta no es en general posible, podemos
aproximarlo tan cerca como se desee. La relacin entre la velocidad real de transmisin y la
capacidad C puede denominarse eficiencia del sistema de codificacin.
Por supuesto, esto es igual a la relacin de la entropa real de los smbolos del canal con la
entropa mxima posible.
En general, la codificacin ideal o casi ideal requiere un gran retraso en el transmisor y el receptor.
En el caso silencioso que hemos estado considerando. la funcin principal de este retraso es
permitir una coincidencia razonablemente buena de las probabilidades con las longitudes de
secuencia correspondientes. Con un buen cdigo, el logaritmo de la probabilidad recproca de un
mensaje largo
debe ser proporcional a la duracin de la seal correspondiente, de hecho
debe ser pequeo para todos menos una pequea fraccin de los mensajes largos.
Si una fuente puede producir solo un mensaje en particular, su entropa es cero y no se requiere
ningn canal. Por ejemplo, una mquina informtica configurada para calcular los dgitos sucesivos
de 7 produce una secuencia definida sin elemento aleatorio. No se requiere ningn canal para
"transmitir" esto a otro punto. Uno podra construir una segunda mquina para calcular la misma
secuencia en el punto. Sin embargo, esto puede ser poco prctico. En tal caso, podemos optar por
ignorar algunos o todos los conocimientos estadsticos que tenemos de la fuente. Podramos
considerar que los dgitos de 71 "son una secuencia aleatoria en la que construimos un sistema
capaz de enviar cualquier secuencia de dgitos. De manera similar, podemos optar por utilizar
algunos de nuestros conocimientos estadsticos de ingls para construir un cdigo, pero no En este
caso, consideramos que la fuente con la mxima entropa est sujeta a las condiciones estadsticas
que deseamos retener. La entropa de esta fuente determina la capacidad del canal que es
necesaria y suficiente. En el ejemplo 71, la nica informacin
retenido es que todos los dgitos se eligen del conjunto 0, 1, ..., 9. En el caso del ingls, es posible
que se desee utilizar el ahorro estadstico posible debido a las frecuencias de letra, pero nada ms.
La fuente mxima de entropa es entonces la primera aproximacin al ingls y su entropa
determina la capacidad del canal
11. EJEMPLOS
Como un simple ejemplo de algunos de estos resultados considerar una fuente que produce una
secuencia de letras elegidas de entre A, B, C, D con probabilidades t, t, 1, 1, smbolos sucesivos se
eligen independientemente. Tenemos
Por lo tanto, podemos aproximar un sistema de codificacin para codificar los mensajes de esta
fuente en dgitos binarios con un promedio de t dgito binario por smbolo.
En este caso, podemos alcanzar el valor lmite mediante el siguiente cdigo (obtenido por el
mtodo de la segunda demostracin del Teorema 9):
La cantidad promedio de dgitos binarios utilizados para codificar una secuencia de N smbolos
ser
Se ve fcilmente que los dgitos binarios 0, 1 tienen probabilidades i, t, por lo que la H para las
secuencias codificadas es de un bit por smbolo. Dado que, en promedio, tenemos smbolos
binarios por letra original, las entropas por tiempo son lo mismo. La mxima entropa posible para
el conjunto original es log 4 = 2, que ocurre cuando .1, B, C, D tienen probabilidades t t, t. Por lo
tanto, la entropa relativa es i. Podemos traducir las secuencias binarias en el conjunto original de
smbolos de dos en uno en la siguiente tabla
este proceso doble codifica el mensaje original en los mismos smbolos pero con una relacin de
compresin promedio.
Como segundo ejemplo, considere una fuente que produzca una secuencia de 1 y h con
probabilidad pfor.1 y q para F. Si P <<q tenemos
En tal caso, se puede construir una codificacin bastante buena del mensaje en un canal 0,1
enviando una secuencia especial, digamos 0000, para el smbolo infrecuente .1 y luego una
secuencia que indica el nmero de B que lo sigue.
Esto podra ser indicado por la representacin binaria con todos los nmeros que contienen la
secuencia especial eliminada. Todos los nmeros hasta 16 estn representados como de
costumbre; 16 est representado por el siguiente nmero binario despus de 16 que lo hace
no contiene cuatro ceros, es decir, l? = 10001, etc.
Se puede demostrar que como p ----> 0, la codificacin se acerca a la ideal siempre que la longitud
de la secuencia especial se ajuste adecuadamente.
PARTE II: EL CAMINO DISCRETO CON RUIDO
11. REPRESENTACIN DE UN CANAL DISCRETO RUIDO
Ahora consideramos el caso en que la seal se ve perturbada por el ruido durante la transmisin o
en uno u otro de los terminales. Esto significa que la seal recibida no es necesariamente la misma
que la enviada por el transmisor.
Se pueden distinguir dos casos. Si una seal transmitida particular siempre produce la misma seal
recibida, es decir, la seal recibida es una funcin definida de la seal transmitida, entonces el
efecto puede llamarse distorsin.
Si esta funcin tiene una funcin inversa, no pueden corregirse dos seales transmitidas que
producen la misma seal de distorsin recibida, al menos en principio, simplemente realizando la
operacin funcional inversa en la seal recibida.
El caso de inters aqu es aquel en que la seal no siempre sufre el mismo cambio en la
transmisin. En este caso, podemos suponer que la seal recibida E es una funcin de la seal
transmitida S y una segunda variable, el ruido N.
El ruido se considera una variable aleatoria tal como el mensaje estaba arriba. En general, puede
estar representado por un proceso estocstico adecuado.
El tipo ms general de canal discreto ruidoso que consideraremos es una generalizacin del canal
libre de ruido de estado finito descrito anteriormente. Suponemos un nmero finito de estados y
un conjunto de probabilidades
Esta es la probabilidad, si el canal est en el estado IX y se transmite el smbolo i, ese smbolo j se

recibir y el canal se dejar en el estado {3. Por lo tanto, IX y (3 rango sobre los posibles estados, i
sobre las posibles seales transmitidas
y j sobre las posibles seales recibidas. En el caso donde los smbolos sucesivos son perturbados
independientemente por el ruido, solo hay un estado, y el canal se describe por el conjunto de
probabilidades de transicin pdj), la probabilidad
del smbolo transmitido i que se recibe como j.
Si un canal ruidoso es alimentado por una fuente, hay dos procesos estadsticos en
funcionamiento: la fuente y el ruido. Por lo tanto, hay una serie de entropas que se pueden
calcular. Primero est la entropa H (x) de la fuente o de la entrada al canal (estas sern iguales si
el transmisor no es singular).
La entropa de la salida del canal, es decir, la seal recibida, se denotar por H (y). En el caso
silencioso H (y) = H (x). La entropa conjunta de entrada y salida ser H (xy). Finalmente, hay dos
entropas condicionales Hiy) y H) '(x), la entropa de la salida cuando se conoce la entrada y
viceversa. Entre estas cantidades tenemos las relaciones
Todas estas entropas pueden medirse por persona o por cada smbolo.
12. EQUIVOCACIN Y CAPACIDAD DE CANAL
Si el canal es ruidoso, en general no es posible reconstruir el mensaje original o la seal

transmitida con certeza mediante ninguna operacin en la seal recibida E. Sin embargo, hay
formas de transmitir la informacin que es ptima para combatir el ruido. Este es el problema que
ahora consideramos.
Supongamos que hay dos smbolos posibles 0 y 1, y estamos transmitiendo a una velocidad de
1000 smbolos por segundo con probabilidades po = PI =! Por lo tanto, nuestra fuente est
produciendo informacin a razn de 1000 bits por segundo. Durante
transmisin el ruido introduce errores de modo que, en promedio, 1 en 100 se recibe

incorrectamente (a aas 1, o 1 como 0). Cul es la tasa de transmisin de informacin?
Ciertamente, menos de 1000 bits por segundo, ya que aproximadamente el 1% de los smbolos
recibidos son incorrectos. Nuestro primer impulso podra ser decir que la tasa es de 990 bits por
segundo, simplemente restando el nmero esperado de errores.
Esto no es satisfactorio ya que no toma en cuenta la falta de conocimiento del receptor sobre
dnde ocurren los errores. Podemos llevarlo a un caso extremo y suponer que el ruido es tan
grande que los smbolos recibidos son completamente independientes de los smbolos
transmitidos. La probabilidad de recibir 1 es
! lo que se transmiti y de manera similar para D. Luego, aproximadamente la mitad de los

smbolos recibidos son correctos debido a la casualidad, y le daramos crdito al sistema por
transmitir bits SOO por segundo, mientras que en realidad no
la informacin se est transmitiendo en absoluto. Una transmisin igualmente "buena" se

obtendra dispensando completamente el canal y lanzando una moneda en el punto de recepcin.
Evidentemente, la correccin adecuada para aplicar a la cantidad de informacin transmitida es la

cantidad de esta informacin que falta en la seal recibida, o alternativamente la incertidumbre
cuando hemos recibido una seal de lo que realmente se envi. De nuestra discusin previa de
entropa
como medida de incertidumbre, parece razonable usar la entropa condicional del mensaje,
conociendo la seal recibida, como una medida de esta informacin faltante. Esta es de hecho la
definicin correcta, como veremos ms adelante. Siguiendo esta idea, la tasa de transmisin real,
R, se obtendra restando de la tasa de produccin (es decir, la entropa de la fuente) la tasa
promedio de entropa condicional.
La entropa condicional Hy (x) ser, por conveniencia, llamada equvoca.
Mide la ambigedad promedio de la seal recibida.
En el ejemplo considerado anteriormente, si se recibe un 0, la probabilidad a posteriori de que se

haya transmitido un 0 es .99, y que se transmiti un 1 es .01. Estas figuras se invierten si se recibe
un 1. Por lo tanto
o 81 bits por segundo. Podemos decir que el sistema est transmitiendo a una velocidad '1000 - 81
= 919 bits por segundo. En el caso extremo donde un 0 tiene la misma probabilidad de ser recibido
como un 0 o 1 y de manera similar por 1, las probabilidades a posteriori son!,! y
o 1000 bits por segundo. La velocidad de transmisin es entonces 0 como debera ser.
El siguiente teorema proporciona una interpretacin intuitiva directa de la equivocacin y tambin

sirve para justificarla como la medida apropiada nica.
Consideramos un sistema de comunicacin y un observador (o dispositivo auxiliar) que puede ver

tanto lo que se enva como lo que se recupera (con errores debidos al ruido). Este observador
observa los errores en el mensaje recuperado y transmite datos al punto receptor sobre un "canal
de correccin" para habilitar
el receptor para corregir los errores. La situacin est indicada esquemticamente en la Fig. 8.
Teorema 10: Si el canal de correccin tiene una capacidad igual a H (x) es posible codificar los
datos de correccin para enviarlos a travs de este canal y corregir todos menos una fraccin E
arbitrariamente pequea de los errores. Esto no es posible si la capacidad del canal es menor que
H ,, (: x),
Aproximadamente entonces, HyCr) es la cantidad de informacin adicional que se debe

suministrar por segundo en el punto de recepcin para corregir el mensaje recibido.
Para probar la primera parte, considere las secuencias largas del mensaje recibido M 'y el
correspondiente mensaje original M. Habr una logartmicamente TH ,, (x) de las M que
razonablemente podran haber producido cada M'. Por lo tanto, tenemos TH ,, (x) dgitos binarios
para enviar cada T segundos. Esto se puede hacer con la frecuencia E de errores en un canal de
capacidad H ,, (x).
La segunda parte se puede probar al sealar, primero, que para cualquier variable de probabilidad
discreta x, y, :::
El lado izquierdo se puede expandir para dar
Si identificamos .r como la salida de la fuente, y como la seal recibida ys como la seal enviada
por el canal de correccin, entonces el lado derecho es la equivocacin menos la velocidad de
transmisin sobre el canal de correccin. Si la capacidad de este canal es menor que la
equivocacin, el lado derecho
ser mayor que cero y III, z (x) O. Pero esta es la incertidumbre de lo que se envi, conociendo
tanto la seal recibida como la seal de correccin.
Si esto es mayor que cero, la frecuencia de los errores no puede ser arbitrariamente pequea.
Ejemplo:
Supongamos que los errores ocurren al azar en una secuencia de dgitos binarios: probabilidad p
de que un dgito sea incorrecto y q = 1 - P que es correcto. Estos errores pueden corregirse si se
conoce su posicin. Por lo tanto, el canal de correccin solo necesita enviar informacin sobre
estas posiciones. Esto equivale a transmilling de una fuente que produce dgitos binarios con
probabilidad p para 1 (correcto) y If para 0 (incorrecto). Esto requiere un canal de capacidad
que es la equivocacin del sistema original.
La velocidad de transmisin R puede escribirse en otras dos formas debido a las identidades
sealadas anteriormente. tenemos
La primera expresin de definicin ya se ha interpretado como la cantidad de informacin enviada
menos la incertidumbre de lo que se envi. El segundo mide la cantidad recibida menos la parte
de esto que se debe al ruido. El tercero es la suma de las dos cantidades menos la entropa
conjunta y, por lo tanto, en cierto sentido es el nmero de bits por segundo comn a los dos. Por
lo tanto, las tres expresiones tienen un cierto significado intuitivo.
La capacidad C de un canal ruidoso debera ser la velocidad de transmisin mxima posible, es

decir, la velocidad cuando la fuente se corresponde adecuadamente con el canal. Por lo tanto,
definimos la capacidad del canal por
donde el mximo es con respecto a todas las posibles fuentes de informacin utilizadas como
entrada para el canal. Si el canal es silencioso, Hy (x) = O. La definicin es entonces equivalente a la
ya dada para un canal silencioso ya que la entropa mxima para el canal es su capacidad.
3. EL TEOREMA FUNDAMENTAL PARA UN CANAL DISCRETO CON RUIDO
Puede parecer sorprendente que debamos definir una capacidad definida C para un canal ruidoso
ya que nunca podemos enviar cierta informacin en tal caso.
Sin embargo, est claro que al enviar la informacin en forma redundante, la probabilidad de
errores puede reducirse. Por ejemplo, repitiendo el mensaje muchas veces y mediante un estudio
estadstico de las diferentes versiones recibidas del mensaje, la probabilidad de errores podra ser
muy pequea.
Uno esperara, sin embargo, que para hacer que esta probabilidad de errores se acerque a cero, la
redundancia de la codificacin debe aumentar indefinidamente, y la tasa de transmisin por lo
tanto se acerca a cero. Esto de ninguna manera es verdad. Si lo fuera, no habra una capacidad
muy bien definida, sino solo una capacidad para una frecuencia dada de errores, o una
equivocacin dada; la capacidad disminuye ya que los requisitos de error se vuelven ms estrictos.
En realidad, la capacidad C definida anteriormente tiene un significado muy definido. Es posible
enviar informacin a la velocidad C a travs del canal toitl: una frecuencia de errores tan pequea
como la codificacin adecuada. Esta afirmacin no es vlida para ninguna tasa mayor que C. Si se
intenta transmitir a una velocidad mayor que C, por ejemplo C + R1, entonces necesariamente
ser un equvoco igual a un R1 mayor que el exceso La naturaleza acepta el pago al requerir tanta
incertidumbre, de modo que no estamos obteniendo ms que C correctamente.
La situacin se indica en la Fig. 9. La tasa de informacin en el canal se traza horizontalmente y la

equivocacin vertical. Se puede obtener cualquier punto por encima de la lnea gruesa en la regin
sombreada y los que estn debajo no se pueden obtener. Los puntos en la lnea no se pueden
alcanzar en general, pero habr
usualmente son dos puntos en la lnea que puede.

Estos resultados son la principal justificacin para la definicin de C y ahora se probarn.
Teorema 11. Permita que un canal discreto tenga la capacidad C y una fuente discreta la entropa
por segundo H: Si HC existe un sistema de codificacin tal que la salida de la fuente puede
transmitirse por el canal con una frecuencia de errores arbitrariamente pequea (o una
equivocacin arbitrariamente pequea).
Si H> C es posible codificar la fuente de modo que el equvoco sea menor que H - C + E donde E es
arbitrariamente pequeo. No hay un mtodo de codificacin que d una equivocacin menor que
II - C.
El mtodo para probar la primera parte de este teorema no es exhibir un mtodo de codificacin
que tenga las propiedades deseadas, sino mostrar que dicho cdigo debe existir en un cierto
grupo de cdigos. De hecho, promediaremos la frecuencia de errores sobre este grupo y
mostraremos que este promedio puede ser menor que E. Si el promedio de un conjunto de
nmeros es menor que E, debe existir al menos uno en el conjunto que es menor que E Esto
establecer el resultado deseado.
La capacidad C de un canal ruidoso se ha definido como
donde .r es la entrada yy la salida. La maximizacin se aplica a todas las fuentes que podran
usarse como entrada al canal.
Deje que So sea una fuente que logre la capacidad mxima C. Si este mximo no se logra
realmente por cualquier fuente, permita que sea una fuente que se aproxime a dar !: la velocidad
mxima. Supongamos que So se usa como entrada para el canal. Consideramos las posibles
secuencias transmitidas y recibidas
de larga duracin T. Lo siguiente ser verdad:
1. Las secuencias transmitidas se dividen en dos clases, un grupo de alta probabilidad con
aproximadamente 2 miembros Tilt (I) y las secuencias restantes de probabilidad total pequea.
2. De forma similar, las secuencias recibidas tienen un conjunto de alta probabilidad de

aproximadamente 21 '1 / (111 miembros y un conjunto de pocas probabilidades de secuencias
restantes.
3. Cada salida de alta probabilidad podra ser producida por aproximadamente 2T H "iZl entradas.
La probabilidad de una II de sus casos tiene una probabilidad total pequea.
Todos los E'S y / j implicados por las palabras "pequeo" y "aproximadamente" en estas
afirmaciones se acercan a cero ya que permitimos que T aumente y as acercarnos a la fuente
maximizadora.
La situacin se resume en la Fig. 10, donde las secuencias de entrada son puntos a la izquierda y
puntos de secuencias de salida a la derecha. El ventilador de lneas cruzadas representa el rango
de posibles causas para una salida tpica.
Ahora supongamos que tenemos otra fuente que produce informacin a la velocidad R con R <c.
En el perodo T esta fuente tendr 27
// // salidas de alta probabilidad. Queremos asociar estos con una seleccin de los posibles canales
entradas de tal manera que se obtenga una pequea frecuencia de errores. Estableceremos esta
asociacin de todas las maneras posibles (usando, sin embargo, solo el grupo de entradas de alta
probabilidad segn lo determinado por la fuente So) y promediaremos la frecuencia
de errores para esta gran clase de posibles sistemas de codificacin. Esto es lo mismo que calcular
la frecuencia de errores para una asociacin aleatoria de los mensajes y las entradas de canal de
duracin T. Supongamos que se observa una salida particular Y1. Cul es la probabilidad de que
haya ms de un mensaje en el conjunto?
de posibles causas de Yl? Hay 2T mensajes R distribuidos al azar en 2T I / (x) puntos. La

probabilidad de que un punto en particular sea un mensaje es por lo tanto
La probabilidad de que ninguno de los puntos del ventilador sea un mensaje (aparte del mensaje
de origen real) es
De ah la probabilidad de que un error se acerque a cero y se pruebe la primera parte del teorema.
La segunda parte del teorema se muestra fcilmente al observar que simplemente podemos
enviar C bits por segundo desde la fuente, descuidando por completo el resto de la informacin
generada. En el receptor, la parte descuidada
da un equvoco II (x) - C y la parte transmitida solo necesita agregar e.
Este lmite tambin se puede lograr de muchas otras maneras, como se mostrar cuando
consideramos el caso continuo.
La ltima afirmacin del teorema es una simple consecuencia de nuestra definicin de C.

Supongamos que podemos codificar una fuente con R = C + a de tal manera que se obtenga un
equvoco IIi.l ') = u - e con t positivo. Entonces R = H (x) = (. + A y
con e posiuve Esto contradice la definicin de C como el mximo de 1 / (. 1 ') - Hi d.
En realidad, se ha probado ms de lo que se dijo en el teorema. Si el promedio de un conjunto de

nmeros est dentro de t de su mximo, una fraccin de como mximo puede ser mayor que y,
por debajo del mximo. Como t es arbitrariamente pequeo, podemos decir que casi todos los
sistemas estn arbitrariamente cerca del ideal.
1-1. Discusin
La demostracin del teorema 11, aunque no es una prueba de existencia pura, tiene algunas de las
deficiencias de tales pruebas. Un intento de obtener una buena aproximacin a la codificacin
ideal siguiendo el mtodo de la prueba generalmente no es prctico. De hecho, aparte de algunos
casos bastante triviales y ciertas situaciones limitantes, no hay una descripcin explcita de una
serie de aproximaciones
al ideal se ha encontrado. Probablemente esto no sea accidental, pero est relacionado con la
dificultad de dar una construccin explcita para una buena aproximacin a una secuencia
aleatoria.
Una aproximacin al ideal tendra la propiedad de que si la seal es alterada de manera razonable
por el ruido, el original an puede ser recuperado.
En otras palabras, la alteracin, en general, no lo acercar a otra seal razonable que el original.
Esto es un logro! a costa de una cierta cantidad de redundancia en la codificacin. La redundancia
debe introducirse de la manera adecuada para combatir la estructura de ruido particular
involucrado. Sin embargo, cualquier redundancia en la fuente generalmente ayudar si se utiliza

en el punto de recepcin. En particular, si la fuente ya tiene una cierta redundancia y no se intenta
eliminarla en la coincidencia con el
canal, esta redundancia ayudar a combatir el ruido. Por ejemplo, en un canal de telgrafo sin
ruido uno podra ahorrar aproximadamente el 50% en el tiempo mediante la codificacin
adecuada de los mensajes. Esto no se hace y la mayor parte de la redundnacy de ingls
permanece en los smbolos del canal. Esto tiene la ventaja, sin embargo, de permitir un ruido
considerable en el canal. Una fraccin considerable de las letras se puede recibir incorrectamente
y todava reconstruirse por el contexto. De hecho, esta no es probablemente una mala
aproximacin al ideal en muchos casos, ya que la estructura estadstica del ingls est bastante
involucrada y las secuencias de ingls razonables no estn demasiado lejos (en el sentido
requerido para el teorema) de una seleccin aleatoria.
Como en el caso silencioso, generalmente se requiere un retraso para acercarse a la codificacin

ideal. Ahora tiene la funcin adicional de permitir que una gran muestra de ruido afecte la seal
antes de que se haga un juicio en el punto de recepcin
en cuanto al mensaje original. Aumentar el tamao de la muestra siempre agudiza las posibles
aserciones estadsticas.
El contenido del teorema 11 y su demostracin pueden formularse de una manera algo diferente
que muestra la conexin con el caso silencioso ms claramente. Considere las posibles seales de
duracin T y suponga que se selecciona un subconjunto de ellas para su uso. Deje que todos los
del subconjunto se utilicen con la misma probabilidad, y suponga que el receptor est construido
para seleccionar, como la seal original, la causa ms probable del subconjunto, cuando se recibe
una seal perturbada. Definimos N (T, q) como el nmero mximo de seales que podemos elegir
para el subconjunto de modo que la probabilidad de una interpretacin incorrecta sea menor o
igual a q.
Teorema donde C es la capacidad del canal, siempre que q no sea igual a 0 o I.
En otras palabras, no importa cmo establezcamos nuestros lmites de confiabilidad, podemos

distinguir de manera confiable en tiempo T mensajes suficientes para que correspondan a los bits
CT, cuando T es suficientemente grande. El teorema 12 se puede comparar con la definicin de la
capacidad de un canal sin ruido dado en la seccin 1.
ES. EJEMPLO DE UN DISCRETE l'IJAKNEL Y SU CAPACIDAD
Un simple ejemplo de un canal discreto se indica en la Fig. 11. Hay tres smbolos posibles. El
primero nunca se ve afectado por el ruido. El segundo y el tercero tienen probabilidad p de pasar
sin ser molestados, y q de ser cambiados al otro par. Tenemos
Deseamos elegir P y Q de forma que se maximice H (x) - Hix), sujeto a la restriccin P + 2Q = 1. Por
lo tanto, consideramos
Eliminando "A"
La capacidad del canal es entonces
Observe cmo esto verifica los valores obvios en los casos P = 1 y P = t.
En el primero, {3 = 1 y C = log 3, que es correcto ya que el canal es entonces silencioso con tres
smbolos posibles. Si p =!, {3 = 2 y C = log 2.
Aqu el segundo y tercer smbolos no pueden distinguirse en absoluto y actuar juntos como un
smbolo. El primer smbolo se usa con la probabilidad P = t y el segundo y el tercero junto con la
probabilidad Esto se puede distribuir de cualquier manera deseada y aun as alcanzar la capacidad
mxima.
Para valores intermedios de p, la capacidad del canal se encontrar entre log 2 y log 3. La
distincin entre el segundo y tercer smbolos transmite cierta informacin, pero no tanto como en
el caso sin ruido. El primer smbolo
se usa un poco ms frecuentemente que los otros dos debido a su ausencia de ruido.
16. LA CAPACIDAD DEL CANAL EN DETERMINADOS CASOS ESPECIALES
Si el ruido afecta los sucesivos smbolos de canal de forma independiente, se puede describir
mediante un conjunto de probabilidades de transicin Pi}. Esta es la probabilidad, si se enva el
smbolo i, de que se recibir j. La velocidad mxima del canal es
luego dado por el mximo de
donde variamos el sujeto Pi a = 1. Esto conduce por el mtodo de Lagrange a las ecuaciones,
Multiplicar por P, y sumar en s muestra que IJ. = -c. Deje que el inverso de P.} (si existe) sea lI.t
para que L It.tp.} = lil}. Entonces:
Este es el sistema de ecuaciones para determinar los valores de maximizacin de Pi, con C
determinado de modo que Pi = 1. Cuando esto se hace C ser la capacidad del canal, y el Pi las
probabilidades adecuadas para que los smbolos de canal alcancen esta capacidad .
Si cada smbolo de entrada tiene el mismo conjunto de probabilidades en las lneas que salen de
l, y lo mismo es cierto para cada smbolo de salida, la capacidad puede calcularse fcilmente. Los
ejemplos se muestran en la Fig. 12. En tal caso, Hr (y) es independiente de la distribucin de
probabilidades en los smbolos de entrada, y
est dado por -2; Pi log Pi donde los Pi son los valores de las probabilidades de transicin de
cualquier smbolo de entrada. La capacidad del canal es
El mximo de 8 (y) es claramente logm donde m es el nmero de smbolos de salida, ya que es

posible hacerlos todos igualmente probables haciendo que los smbolos de entrada sean
igualmente probables. La capacidad del canal es por lo tanto
Esto podra lograrse utilizando solo los smbolos primero y 3d.
Supongamos que los smbolos se dividen en varios grupos de modo que el ruido nunca haga que
un smbolo en un grupo se confunda con un smbolo en otro grupo.
Deje que la capacidad para el grupo 11 sea en cuando usemos solo los smbolos en este grupo.
Luego se muestra fcilmente que, para un mejor uso de todo el conjunto, la probabilidad total P;
de todos los smbolos en el grupo 11 debe ser
Dentro de un grupo, la probabilidad se distribuye tal como sera si estos fueran los nicos smbolos
que se usan. La capacidad del canal es
UN EJEMPLO DE EFICIENTE CODII \ G
El siguiente ejemplo, aunque poco realista, es un caso en el que es posible la coincidencia exacta
con un canal ruidoso. Hay dos smbolos de canal, 0 y 1, y el ruido los afecta en bloques de siete
smbolos. Un bloque de siete se transmite sin error, o exactamente un smbolo de
el siete es incorrecto Estas ocho posibilidades son igualmente probables. Tenemos

Un cdigo eficiente, que permite la correccin completa de errores y la transmisin a la velocidad
C, es el siguiente (encontrado por un mtodo debido a R. Hamming):
Sea un bloque de siete smbolos, 'rr, X2, ' (7, De estos X ', 3, X., X6 y) (7 son smbolos de
mensaje y elegidos arbitrariamente por la fuente. Los otros tres son redundante y calculado de la
siguiente manera:
Cuando se recibe un bloque de siete, a, f3 y 'Y se calculan e incluso se llama cero, si impar llama
uno. El nmero binario a {1 'Y luego da el subndice de Xi que es incorrecto (si 0 no hubo error).

RRRR

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

RRRR

Cargado por

Copyright:

Formatos disponibles

El desarrollo reciente de varios mtodos de modulacin, como PCM y PPM, que intercambian ancho

de banda por la relacin seal-ruido, ha intensificado el inters en una teora general de la

El problema fundamental de la comunicacin es reproducir en un punto exactamente o

Si el nmero de mensajes en el conjunto es finito, este nmero o cualquier funcin montona de

La medida logartmica es ms conveniente por varias razones:

La medida logartmica es ms conveniente por varias razones:

1. Es prcticamente ms til. Los parmetros de importancia de ingeniera, como el tiempo, el ancho

2. Est ms cerca de nuestro sentimiento intuitivo en cuanto a la medida correcta. Esto es

log- M = 10gIO MIlogro2 = 3.32 logro M,

un dgito decimal es aproximadamente 3! bits. Una rueda de dgitos en una computadora de

4. El receptor ordinariamente realiza la operacin inversa de la realizada por el transmisor,

5. El destino es la persona (o cosa) a quien va dirigido el mensaje.

EL CANAL DISCRETO NOISELESS

de transmisin en el sistema; ciertas secuencias solo pueden ser permitidas.

En el caso ms general con diferentes longitudes de smbolos y restricciones en las secuencias

Definicin: la capacidad C de un canal discreto viene dada por

donde N (T) es el nmero de seales permitidas de duracin T.

N(t) = N(t - h) + Nl] - t 2) + ... + N(t - In)

X-I l + X-I, + ... + x:': = 1

N(t) = N(t - 2) + NO - 4) + N(t - 5) + N(t - 7) + N(t - 8) + N(t - 10)

Donde y es cero de lo contrario.

En la expansin, esto conduce a la ecuacin dada anteriormente para este caso.

2. LA FUENTE DISCRETA DE LA INFORMACIN

La capacidad de transmitir informacin se puede especificar dando esta tasa de aumento, la

Ahora consideramos la fuente de informacin. Cmo se describe matemticamente una fuente

secuencias en secuencias de seal. Esto ya se hace de forma limitada en telegrafa utilizando el

1. Idiomas escritos naturales como ingls, alemn, chino.

3. Casos matemticos donde simplemente definimos abstractamente un proceso estocstico que

Esto fue construido con el uso de una tabla de nmeros aleatorios

Un mensaje tpico de esta fuente es el siguiente:

El prximo aumento en la complejidad implicara frecuencias de trigrama, pero no ms. La

o de probabilidades de transicin pi ,. i ",,,. i ,, _ Jin) es necesario para especificar la estructura

El prximo aumento en la complejidad implicara frecuencias de trigrama, pero no ms. La

o de probabilidades de transicin pi ,. i ",,,. i ,, _ Jin) es necesario para especificar la estructura

LA SERIE DE APROBACIONES AL INGLS

1. Aproximacin de orden cero (smbolos independientes y equi-probable).

XFOML RXKHRJFFJUJ ZLPWCFWKCYJ

2. Aproximacin de primer orden (smbolos independientes pero con frecuencias de texto en

OCRO IlLI RGWR NMIELWIS EU LL NBNESEBYA TH EEl

ALHENHTTPA OOBTTVA NAH BRL

3. Aproximacin de segundo orden (estructura de digram como en ingls).

EN IE ANTSOUTINYS ARE T INCTORE ST BE S DEAMY

ACHIN D ILONASIVE TUCOOWE EN TEASONARE FUSO

TIZIN ANDY TOBE SEACE CTISBE

4. Aproximacin de tercer orden (estructura de trigrama como en ingls).

EN NINGN LAT. WHEY CRATICT FROURE BIRS GROCID

PONDENOME OF DEMONSTURES OF THE REPTAGIN IS

VEN PUEDE DIFERENTES NATURALES AQU L EL A EN

VINO EL TO DE A EXPERT GREY VEN A AMUEBLAR

EL MENSAJE DE LA LNEA HABAN SIDO ESTOS.

6. Aproximacin de palabras de segundo orden. Las probabilidades de transicin de la palabra son

LA CABEZA Y EN ATAQUE FRONTAL EN UN INGLS

\\ 'RITRA QUE EL CARCTER DE ESTE PUNTO ES

POR LO TANTO OTRO MTODO PARA LAS LETRAS

QUE EL TIEMPO DE QUIEN NUNCA DIJO EL PROBLEMA

La secuencia particular de diez palabras "atacar a un ingls

4. Representacin grfica de un proceso de MARKOFF

La situacin se puede representar grficamente como se muestra en las Figs. 3,4 y 5.

La figura 3 es para el ejemplo n en la seccin 2, mientras que la figura .J corresponde al ejemplo C,

5. FUENTES ERGODICAS Y MEZCLADAS

La letra a se sigue con byc con probabilidades t y t respectivamente. A b o c siempre le sigue la

Este tipo de situacin no es de mucha importancia para nuestro trabajo.

Si L1, Lz, L, ... son las fuentes componentes, podemos escribir