Documentos de Académico
Documentos de Profesional
Documentos de Cultura
estrechamente relacionado con (1) ya que medimos entidades de forma intuitiva por comparacin
lineal con estndares comunes. Uno siente, por ejemplo, que dos tarjetas perforadas deben tener
el doble de capacidad que una para el almacenamiento de informacin, y dos canales idnticos
duplican la capacidad de uno para transmitir informacin.
3. Es matemticamente ms adecuado. Muchas de las operaciones limitantes son simples en
trminos del logaritmo, pero requeriran una reafirmacin torpe en trminos del nmero de.
posibilidades.
La eleccin de una base logartmica corresponde a la eleccin de una unidad para medir
informacin. Si se utiliza la base 2, las unidades resultantes se pueden llamar dgitos binarios, o ms
brevemente bits, una palabra sugerida por JW Tukey. Un dispositivo con dos posiciones estables,
como un rel o un circuito flip-flop, puede almacenar un bit de informacin. N tales dispositivos
pueden almacenar N bits, ya que el nmero total de estados posibles es 2N y log22N = N. Si se usa
la base 10, las unidades se pueden llamar dgitos decimales. Ya que
Por un sistema de comunicacin nos referiremos a un sistema del tipo indicado esquemticamente
en la Fig. 1. Consiste en esencialmente cinco partes:
1. Una fuente de informacin que produce un mensaje o una secuencia de mensajes para ser
comunicados al terminal receptor. El mensaje puede ser de varios tipos: p. (a) Una secuencia
de letras como en un sistema de telgrafo o teletipo; (b) Una funcin nica de tiempo f (t)
como en radio o telefona; (c) Una funcin del tiempo y otras variables como en la televisin
en blanco y negro: aqu el mensaje puede considerarse como una funcin f (x, y, t) de dos
coordenadas espaciales y tiempo, la intensidad de la luz en el punto Cr, y ) y tiempo t en una
placa de tubo de captacin; (d) Dos o ms funciones de tiempo, por ejemplo jCt), g (/), h (t):
este es el caso en la transmisin de sonido "tridimensional" o si el sistema est destinado a
dar servicio a varios canales individuales en mltiplex; (e) Varias funciones de varias
variables: en la televisin en color el mensaje consta de tres funciones 1 (x, y, z), g (x,) I, I),
Ir (x,) I, t) definidas en tres continuo tridimensional tambin podemos pensar en estas tres
funciones como componentes de un campo vectorial definido en la regin; de manera
similar, varias fuentes de televisin en blanco y negro produciran "mensajes" que
consistiran en una serie de funciones de tres variables; (f) Tambin se producen varias
combinaciones, por ejemplo en televisin con un canal de audio asociado.
2. Un transmisor que opera en el mensaje de alguna manera para producir una ignicin adecuada
para la transmisin a travs del canal. En telefona, esta operacin consiste simplemente en cambiar
la presin total en una corriente elctrica proporcional. En telegrafa tenemos una operacin de
codificacin que produce una secuencia de puntos, guiones y espacios en el canal correspondiente
al mensaje. En un sistema PCM multiplexado, las diferentes funciones de voz se deben muestrear,
comprimir, cuantificar y codificar, y finalmente intercalar adecuadamente para construir la seal.
Los sistemas de Vocoder, la televisin y la modulacin de frecuencia son otros ejemplos de
operaciones complejas aplicadas al mensaje para obtener la seal.
3. El canal es simplemente el medio utilizado para transmitir la seal del transmisor al receptor.
Puede ser un par de cables, un cable coaxial, una banda de frecuencias de radio. un rayo de luz, etc.
deseamos considerar ciertos problemas generales que involucran sistemas de comunicacin. Para
hacer esto, primero es necesario representar los diversos elementos involucrados como entidades
matemticas, adecuadamente idealizadas a partir de sus contrapartes fsicas. Podemos clasificar a
grandes rasgos los sistemas de comunicacin en tres
categoras principales: discreto, continuo y mixto. Por un sistema discreto nos referimos a uno en el
que tanto el mensaje como la seal son una secuencia de smbolos discretos. Un caso tpico es la
telegrafa, donde el mensaje es una secuencia de letras y la seal una secuencia de puntos, guiones
y espacios.
Un sistema continuo es aquel en el que el mensaje y la seal se tratan como funciones continuas, p.
radio o television Un sistema mixto es aquel en el que aparecen variables discretas y continuas, por
ejemplo, transmisin de voz PCM.
Primero consideramos el caso discreto. Este caso tiene aplicaciones no solo en la teora de la
comunicacin, sino tambin en la teora de las mquinas de computacin, el diseo de centrales
telefnicas y otros campos. Adems, el caso discreto forma una base para los casos continuos y
mixtos que se tratarn en la segunda mitad del artculo.
Teletipo y telegrafa son dos ejemplos simples de un canal discreto para transmitir informacin.
Generalmente, un canal discreto significar un sistema por el cual una secuencia de elecciones de
un conjunto finito de smbolos elementales,S1,,SN, puede transmitirse de un punto a otro. Cada
una de las
se supone que los smbolos S tienen una cierta duracin en el tiempo Ii segundos (no
necesariamente lo mismo para diferentes Si, por ejemplo, los puntos y rayas en la telegrafa). No es
necesario que todas las secuencias posibles de la S sean capaces
Estas sern posibles seales para el canal. Por lo tanto, en la telegrafa, supongamos que los
smbolos son: (1) Un punto, que consiste en el cierre de la lnea para una unidad de tiempo y luego
la lnea abierta para una unidad de tiempo; (2) Un tablero, que consta de tres unidades de tiempo
de cierre y una unidad abierta; (3) Un espacio de letras que consiste en, digamos, tres unidades de
lnea abierta; (4) Se abre un espacio de palabras de seis unidades de lnea. Podramos colocar la
restriccin en las secuencias permitidas que no se siguen espacios (por ejemplo, si dos espacios de
letras son adyacentes, es idntico a un espacio de palabras). La pregunta que ahora consideramos
es cmo se puede medir la capacidad de ese canal para transmitir informacin.
En el caso de teletipo donde todos los smbolos tienen la misma duracin y se permite cualquier
secuencia de los 32 smbolos, la respuesta es fcil. Cada smbolo representa cinco bits de
informacin. Si el sistema lo transmite por segundo, es natural decir que el canal tiene una
capacidad de 5n bits por segundo. Esto no significa que el canal de teletipo siempre estar
transmitiendo informacin a esta velocidad; esta es la tasa mxima posible y si la tasa real alcanza
este mximo depende de la fuente de informacin que alimenta el canal, como se ver ms
adelante.
Se ve fcilmente que en el caso de teletipo esto se reduce al resultado anterior. Se puede demostrar
que el lmite en cuestin existir como un nmero finito en la mayora de los casos de inters.
Supongamos que todas las secuencias de los smbolos, s1, ..., sn, estn permitidas y estos smbolos
tienen duraciones, i1, ..., In. Cul es la capacidad del canal? Si NO) representa el nmero de
secuencias de duracin
Yo tenemos
El nmero total es igual a la suma de los nmeros de las secuencias que terminan en, S .. S; y estos
son N (t - h), N (t - t2), ..., N (t - In), respectivamente.
De acuerdo con un resultado bien conocido en diferencias finitas, N (t) es entonces asinttico para
I grande donde X es la solucin real ms grande de la ecuacin caracterstica:
y por lo tanto
C = log Xo
En el caso de que haya restricciones en las secuencias permitidas, an podemos obtener una
ecuacin de diferencia de este tipo y encontrar C a partir de la ecuacin caracterstica. En el caso
de telegrafa mencionado anteriormente
como vemos contando secuencias de smbolos de acuerdo con el ltimo o el prximo smbolo que
ocurra. Por lo tanto C es - log lAo donde lAo es el positivo
raz de 1 = 1-'2 + 1A4 + J.i.5 + 1-'7 + J.i.s + IA lO Resolviendo esto, encontramos C = 0.539.
Un tipo muy general de restriccin que se puede colocar en las secuencias permitidas es la
siguiente: imaginamos una serie de posibles estados G1, a2, ..., am. Para cada estado, solo se
pueden transmitir ciertos smbolos del conjunto (diferentes subconjuntos para los diferentes
estados). Cuando se ha transmitido uno de estos, el estado cambia a un nuevo estado que
depende tanto del estado anterior como del smbolo particular transmitido. El caso del telgrafo
es un simple ejemplo de esto. Hay dos estados dependiendo de si un espacio fue el ltimo smbolo
transmitido o no. Si es as, solo se puede enviar un punto o un guin y el estado siempre cambia.
De lo contrario, cualquier smbolo puede transmitirse y el estado cambia si se enva un espacio; de
lo contrario, permanece igual. Las condiciones se pueden indicar en un grfico lineal como se
muestra en la Fig. 2. Los puntos de unin corresponden a los estados y las lneas indican
los smbolos posibles en un estado y el estado resultante. En el Apndice I se muestra que si las
condiciones de las secuencias permitidas se pueden describir en esta forma C existir y se puede
calcular de acuerdo con el siguiente resultado:
Teorema 1: Let, sea la duracin del smbolo S que est permitido en el estado i y conduce al
estado j. Entonces la capacidad del canal C es igual a log W donde Tl1 es la raz real ms grande de
la ecuacin determinante:
IL - Oij I = o.
Hemos visto que bajo condiciones muy generales, el logaritmo del nmero de seales posibles en
un canal discreto aumenta linealmente con el tiempo.
Podemos pensar en una fuente discreta como generar el mensaje, smbolo por smbolo. Elegir
smbolos sucesivos de acuerdo con ciertas probabilidades que dependen, en general, de
elecciones precedentes, as como de los smbolos particulares en cuestin, un sistema fsico o un
modelo matemtico de un sistema que produce una secuencia de smbolos tal que se rige por un
conjunto de probabilidades. se conoce como un proceso estocstico. "podemos considerar una
fuente discreta, por lo tanto,
ser representado por un pro estocstico: ess. Por el contrario, cualquier proceso estocstico que
produzca una secuencia discreta de smbolos elegidos a partir de un conjunto finito puede
considerarse una fuente discreta. Esto incluir casos como:
2. Fuentes de informacin continua que se han vuelto discretas mediante algn proceso de
cuantificacin. Por ejemplo, el discurso cuantificado de un transmisor PCM, o una seal de
televisin cuantificada.
(A) Supongamos que tenemos letras vivas A, H, C, D, E que se eligen con probabilidad .2, las
elecciones sucesivas son independientes. Esto se limitar a una secuencia de la cual el siguiente es
un ejemplo tpico.
BDCBCECCCADCBDDAAECEEA ABBDAEECACEEBAEECBCEAD
(B) Usando las mismas cinco letras, las probabilidades son .4, .1, .2, .2, .1 respectivamente, con
elecciones sucesivas independientes. Un mensaje tpico de esta fuente es entonces:
(C) Se obtiene una estructura ms complicada si los smbolos sucesivos no se eligen de forma
independiente, sino que sus probabilidades dependen de las letras anteriores. En el caso ms
simple de este tipo, una eleccin depende solo de la letra anterior y no de las anteriores. La
estructura estadstica se puede describir mediante un conjunto de probabilidades de transicin pij,
la probabilidad de que la letra i sea seguida por la letra j. Los ndices i y} abarcan todos los
smbolos posibles. Una segunda forma equivalente de especificar la estructura es dar las
probabilidades "digram" p (i, j), es decir, la frecuencia relativa del digram i j. Las frecuencias de
letras p (i), (la probabilidad de la letra i), las probabilidades de transicin p (j) y las probabilidades
de digram p (i, j) estn relacionadas por las siguientes frmulas.
Como ejemplo especfico, supongamos que hay tres letras A, H, C con las tablas de probabilidades:
(D) Tambin se pueden definir procesos estocsticos que producen un texto que consiste en una
secuencia de "palabras". Supongamos que hay cinco letras A, B, C, D, E y 16 "palabras" en el
lenguaje con probabilidades asociadas:
Supongamos que las "palabras" sucesivas se eligen "independientemente" y estn separadas por
un espacio. Un mensaje tpico podra ser:
(D) Tambin se pueden definir procesos estocsticos que producen un texto que consiste en una
secuencia de "palabras". Supongamos que hay cinco letras A, B, C, D, E y 16 "palabras" en el
lenguaje con probabilidades asociadas:
Supongamos que las "palabras" sucesivas se eligen "independientemente" y estn separadas por
un espacio. Un mensaje tpico podra ser:
DAB EE A BEBE DEED DEB ADEE ADEE EE DEB BEBE BEBE BEBE ADEE BED DEED DEED CEED ADEE A
DEED DEED BEBE CABED BEBE BED DAB DEED ADEB
Si todas las palabras son de longitud finita, este proceso es equivalente a uno del tipo anterior,
pero la descripcin puede ser ms simple en trminos de la estructura de la palabra y las
probabilidades. Tambin podemos generalizar aqu e introducir probabilidades de transicin entre
palabras, etc.
Estos lenguajes artificiales son tiles para construir problemas simples y ejemplos para ilustrar
varias posibilidades. Tambin podemos aproximarnos a un lenguaje natural por medio de una
serie de lenguajes artificiales simples. La aproximacin de orden cero se obtiene eligiendo todas
las letras con la misma probabilidad e independientemente. La aproximacin de primer orden se
obtiene eligiendo letras sucesivas independientemente, pero cada letra tiene la misma
probabilidad que en el lenguaje natural. Por lo tanto, en el primer orden
aproximacin al ingls, E se elige con probabilidad .12 (su frecuencia en ingls normal) y w con
probabilidad .02, pero no hay influencia entre letras adyacentes y no hay tendencia a formar los
digramas preferidos tales como TH, ED, etc. la aproximacin de segundo orden, la estructura
digram es introducida. Despus de elegir una letra, la siguiente se elige de acuerdo con las
frecuencias con las que las distintas letras siguen a la primera. Esto requiere una tabla de
frecuencias de digram P. (j). En la aproximacin thirdorder, se introduce la estructura trigram.
Cada letra se elige con probabilidades que dependen de las dos letras anteriores.
Para dar una idea visual de cmo esta serie de procesos se acerca a un idioma, se han construido
secuencias tpicas en las aproximaciones al ingls que se detallan a continuacin. En todos los
casos hemos asumido un "alfabeto" de 27 smbolos, las 26 letras y un espacio.
FFJEYVKCQSGXYD QPAAMKBZAACIBZLHJQD
REGOACTIONA DE CRE
5. Aproximacin de palabras de primer orden. En lugar de continuar con tetragram, ..., estructura
de II-gramo, es ms fcil y mejor saltar en este punto a unidades de palabras. Aqu las palabras se
eligen independientemente pero con sus frecuencias apropiadas.
REPRESENTAR Y CON RAPIDEZ ES UNA BUENA APTO O
POR UN INESPERADO
El parecido con el texto en ingls comn aumenta bastante notablemente en cada uno de los
pasos anteriores. Tenga en cuenta que estas muestras tienen una estructura razonablemente
buena hasta aproximadamente el doble del rango que se tiene en cuenta en su construccin. Por
lo tanto, en (3) el proceso estadstico asegura un texto razonable
para la secuencia de dos letras, pero las secuencias de cuatro letras de la muestra generalmente se
pueden ajustar en buenas oraciones. En (6) secuencias de cuatro o ms palabras se pueden
colocar fcilmente en oraciones sin construcciones inusuales o tensas.
escritor que el carcter de esto "no es en absoluto irracional. Parece que un proceso estocstico
suficientemente complejo dar una representacin satisfactoria de una fuente discreta.
Las dos primeras muestras se construyeron mediante el uso de un libro de nmeros aleatorios
junto con (por ejemplo, 2) una tabla de frecuencias de letras.
Este mtodo podra haber sido "continuado para (3), (-l) y (5), ya que las tablas de digram,
trigrama y frecuencia de palabras estn disponibles, pero se utiliz un mtodo equivalente ms
simple. Para construir (3), por ejemplo, uno abre un libro al azar y selecciona una letra al azar en la
pgina. Esta carta esta registrada.
El libro se abre en otra pgina y se lee hasta que se encuentre con esta letra. El lettel 'siguiente se
registra luego. Pasando a otra pgina, se busca esta segunda letra y se graba el siguiente Jetter,
etc. Se us un proceso similar para (-l), (5) y (6). Sera interesante si se pudieran construir
aproximaciones adicionales, pero el trabajo involucrado se vuelve enorme en la prxima etapa.
nmero finito de posibles "estados" de un sistema; 51,, ..., 5 ". Adems hay un conjunto de
probabilidades de transicin; piCj) la probabilidad de que si el sistema est en el estado 5 i, luego
ir al estado Sj. Para convertir este proceso de Markoff en una fuente de informacin solo
debemos suponer que se produce una carta
para cada transicin de un estado a otro. Los estados correspondern al "residuo de influencia" de
las letras anteriores.
Los "estados" son los puntos de unin en el grfico y las probabilidades y letras producidas para
una transicin se dan junto a la lnea correspondiente.
Como hemos indicado anteriormente, se puede considerar que una fuente discreta para nuestros
propsitos est representada por un proceso de Markoff. Entre los posibles procesos discretos de
Markoff hay un grupo con propiedades especiales de importancia en la teora de la comunicacin.
Esta clase especial consiste en los procesos "ergdicos" y llamaremos a las fuentes
correspondientes fuentes ergdicas. Aunque una definicin rigurosa de un proceso ergdico est
algo involucrada, la idea general es simple. En un proceso ergdico, cada secuencia producida por
el proceso es la misma en propiedades estadsticas. Por lo tanto, las frecuencias de letras,
frecuencias digram, etc., obtenidas a partir de secuencias particulares, a medida que las longitudes
de las secuencias aumentan, se acercarn a lmites definidos independientemente de la secuencia
particular. En realidad, esto no es cierto para todas las secuencias, pero el conjunto para el que es
falso tiene una probabilidad cero. Aproximadamente la propiedad ergdica significa
homogeneidad estadstica.
Todos los ejemplos de lenguajes artificiales dados anteriormente son ergdicos. Esta propiedad
est relacionada con la estructura del grfico correspondiente. Si el grfico tiene las siguientes dos
propiedades, el proceso correspondiente ser ergdico:
1. El grfico no consta de dos partes A y B aisladas de modo que es imposible pasar de los puntos
de unin en la parte A a los puntos de unin en la parte B a lo largo de las lneas del grfico en la
direccin de las flechas y tambin es imposible pasar desde uniones en la parte B a las uniones en
la parte A.
2. Una serie cerrada de lneas en el grfico con todas las flechas en las lneas que apuntan en la
misma orientacin se llamar "circuito". La "longitud" de un circuito es el nmero de lneas en l.
As, en la Fig. 5, la serie BEBES es un circuito de longitud 5. La segunda propiedad requerida es que
el mayor divisor comn de las longitudes de todos los circuitos en el grfico sea uno.
Si se satisface la primera condicin pero la segunda se viola al tener el mayor divisor comn igual a
d> 1, las secuencias tienen un cierto tipo de estructura peridica. Las diversas secuencias se abren
en d diferentes clases que son estadsticamente las mismas aparte de un desplazamiento del
origen (es decir, qu letra en la secuencia se llama letra 1). Mediante un cambio de 0 a d - 1,
cualquier secuencia se puede hacer estadsticamente equivalente a cualquier otra. Un ejemplo
simple con d = 2 es el siguiente: Hay tres posibles letras a, b, c.
Abacacacabacababacac
Si se viola la primera condicin, el grfico se puede separar en un conjunto de subgrafos, cada uno
de los cuales cumple la primera condicin. Asumiremos que la segunda condicin tambin se
cumple para cada subgrfico. Tenemos en este caso lo que se puede llamar una fuente "mixta"
compuesta por una serie de componentes puros. Los componentes corresponden a varios
subgrafos.
Fsicamente la situacin representada es la siguiente: hay varias fuentes diferentes LI, L2, L.], ...
que son cada una de estructura estadstica homognea (es decir, son ergdicas). No sabemos a
priori cul debe usarse, pero una vez que la secuencia comienza en un componente puro dado L,
contina indefinidamente de acuerdo con la estructura estadstica de ese componente.
Como ejemplo uno puede tomar dos de los procesos definidos anteriormente y asumir PI = .2 y P2
= .8. Se obtendra una secuencia de la fuente mixta eligiendo primero L1 o L2 con probabilidades
.2 y .8 y despus de esta eleccin generando una secuencia de cualquiera que se haya elegido.
Esta suposicin permite identificar promedios a lo largo de una secuencia con promedios sobre el
conjunto de secuencias posibles (la probabilidad de que una discrepancia sea cero). Por ejemplo,
la frecuencia relativa de la letra A en una secuencia infinita particular ser, con probabilidad uno,
igual a su frecuencia relativa en el conjunto de secuencias.
Si Pi es la probabilidad de declarar i y Pi (j) la probabilidad de transicin para indicar j, entonces
para que el proceso sea estacionario, est claro que el P ,. debe satisfacer las condiciones de
equilibrio:
r, ;", L Pi p,.(j)
En el caso ergdico, se puede demostrar que con cualquier condicin inicial las probabilidades Pj
(N) de estar en el estado j despus de N smbolos, se acercan a los valores de equilibrio como
Podemos definir una cantidad que mida, en cierto sentido, cunta informacin se "produce"
mediante dicho proceso, o mejor, a qu velocidad se produce la informacin?
Si existe tal medida, digamos H (PI, P2, ..., pn), es razonable exigirle las siguientes propiedades:
2. Si todos los Pi son iguales, Pi =!, Entonces H debera ser una funcin creciente monotnica de II.
Con eventos igualmente probables hay ms opciones, o incertidumbre,
3. Si una eleccin se divide en dos elecciones sucesivas, la H original debe ser la suma ponderada
de los valores individuales de H. Se ilustra el significado de esto. en la Fig. 6. A la izquierda
tenemos tres posibilidades PI =!, pz = 1, P: l = i A la derecha, primero elegimos entre dos
posibilidades, cada una con probabilidad j, y si ocurre la segunda, hacemos otra eleccin con
probabilidades t. Los resultados finales tienen las mismas probabilidades que antes. 'Ne requieren,
en este caso especial, que
El coeficiente! es porque esta segunda opcin solo ocurre la mitad del tiempo.
Teorema 2: El nico H que satisface las tres suposiciones anteriores tiene la forma:
Este teorema y las suposiciones requeridas para su demostracin no son de ninguna manera
necesarios para la presente teora. Se da principalmente para dar cierta verosimilitud a algunas de
nuestras definiciones posteriores. La verdadera justificacin de estas definiciones, sin embargo,
residir en sus implicaciones.
Las cantidades de la forma H = - Pi log Pi (la constante K simplemente equivale a la eleccin de una
unidad de medida) desempean un papel central en la teora de la informacin como medidas de
informacin, eleccin e incertidumbre. La forma de H se reconocer como la de entropa como se
define en ciertas formulaciones de estadsticas
Llamaremos a H = - Pi log Pi la entropa del conjunto de probabilidades PI, "', pn. Si X es una
variable aleatoria, escribiremos H (x) para su entropa, por lo tanto, no es un argumento de una
funcin sino una etiqueta para un nmero, para diferenciarlo de H (y) decir, la entropa de la
variable de probabilidad y. La entropa en el caso de dos posibilidades con probabilidades Pand q =
1 - P, es decir
La cantidad H tiene varias propiedades interesantes que lo corroboran como una medida
razonable de eleccin o informacin.
1. H = 0 si y solo si todos los Pi pero uno son cero, este tiene el valor de unidad. Por lo tanto, solo
cuando estamos seguros del resultado, H desaparecer.
De lo contrario, H es positivo.
2. Para un n dado, H es un mximo e igual a log n cuando todos los Pi son iguales (es decir, Esta es
tambin la situacin ms incierta intuitivamente.
3. Supongamos que hay dos eventos, x e y, en cuestin con m posibilidades para el primero y n
para el segundo. Sea p (i, j) la probabilidad de la aparicin conjunta de i para la primera y j para la
segunda. La entropa del evento conjunto es
mientras
4. Cualquier cambio hacia la igualacin de las probabilidades PI, h, ..., pn aumenta H. Entonces, si
PI <P2 y aumentamos PI, disminuyendo P2 una cantidad igual de modo que PI y P2 son ms o
menos iguales, entonces H aumenta. De manera ms general, si realizamos cualquier operacin de
"promediado" en el Pi de la forma
"Es un caso especial en el que esta transformacin no es ms que una permutacin del Pi con l-l,
por supuesto, sigue siendo el mismo).
Esta cantidad mide la incertidumbre que tenemos sobre el promedio cuando conocemos .r.
Sustituyendo el valor de Pi (j) obtenemos
6. Desde 3 y 5 tenemos
Por lo tanto
Para cada estado posible i habr un conjunto de probabilidades Pi (j) de producir los diversos
smbolos posibles j. Por lo tanto, hay una entropa H para cada estado. La entropa de la fuente se
definir como el promedio de estas H, ponderado de acuerdo con la probabilidad de ocurrencia de
los estados en cuestin:
Esta es la entropa de la fuente por smbolo de texto. Si el proceso de Markoff avanza a una tasa
de tiempo definida, tambin hay una entropa por segundo
donde j ', es la frecuencia promedio (ocurrencias por segundo) del estado i. Claramente
El mismo resultado es vlido para cualquier fuente. Dicho de manera ms precisa, tenemos (ver
Apndice III):
Teorema 3: dado cualquier e> 0 y 0> 0, podemos encontrar un No que las secuencias de cualquier
longitud 1 '/ :::: N "caigan en dos clases:
En otras palabras, es casi seguro que tenemos -r muy cerca de H cuando N es grande
Un resultado estrechamente relacionado se refiere al nmero de secuencias de varias
probabilidades. Considere nuevamente las secuencias de longitud N y permita que estn
ordenadas en orden de probabilidad decreciente. Definimos n (q) como el nmero que debemos
tomar de este conjunto comenzando por el ms probable para acumular una probabilidad total q
para los tomados.
Teorema 4:
Podemos interpretar log Il (q) como el nmero de bits requeridos para especificar la secuencia
cuando consideramos solo las secuencias ms probables con una probabilidad total q. Entonces
log es la cantidad de bits por smbolo para la especificacin. El teorema dice que para N grande
esto ser independiente de
q e igual a II. La tasa de crecimiento del logaritmo del nmero de secuencias razonablemente
probables viene dada por H, independientemente de nuestra interpretacin de "razonablemente
probable". Debido a estos resultados, que se prueban en el apndice III, es posible para la mayora
de los propsitos tratar las secuencias largas como
aunque solo hubo 2H X de ellos, cada uno con una probabilidad T H, ".
Los siguientes dos teoremas muestran que H y H 'se pueden determinar limitando las operaciones
directamente desde las estadsticas de las secuencias de mensajes, sin referencia a los estados y
las probabilidades de transicin entre estados.
donde la suma es sobre todas las secuencias B; que contiene N smbolos. Entonces GN es una
funcin decreciente montona de N y
Teorema 6: Sea p (B i, Sj) la probabilidad de la secuencia B, seguida del smbolo S, y PBJSj) = P (Bi,
Sj) / p (B,) sea la probabilidad condicional de s, despus de Bi. Dejar
donde la suma est sobre todos los bloques B, de N - 1 smbolos y sobre todos los smbolos Sj.
Entonces, FN es una funcin decreciente monotnica de N,
Estos resultados se derivan en el apndice III. Muestran que se puede obtener una serie de
aproximaciones a H considerando solo la estructura estadstica de las secuencias que se extienden
sobre 1, 2, ... N smbolos. PN es la mejor aproximacin. De hecho, F N es la entropa de la
aproximacin de la orden NIh a la fuente del tipo discutido anteriormente. Si no hay influencias
estadsticas que se extiendan en ms de N smbolos, es decir, si la probabilidad condicional del
prximo smbolo que conoce el precedente (N - 1) no cambia por el conocimiento de ninguno
anterior, entonces FN = H. FN por supuesto es
la entropa coridicional del prximo smbolo cuando se conocen (N - 1) los precedentes, mientras
que GN es la entropa por smbolo de bloques de N smbolos.
La relacin entre la entropa de una fuente y el valor mximo que podra tener mientras se
restringe a los mismos smbolos se denominar ell / ropy relativo.
Esta es la compresin mxima posible cuando codificamos en el mismo alfabeto. Uno menos la
entropa relativa es la redundancia. La redundancia del ingls ordinario, sin considerar la
estructura estadstica sobre mayor
distancias de aproximadamente ocho letras es aproximadamente 50%. Esto significa que cuando
escribimos ingls, la mitad de lo que escribimos est determinada por la estructura del idioma y la
mitad se elige libremente. La cifra 50% fue encontrada por varios
mtodos independientes que dieron resultados en este vecindario. Una es mediante el clculo de
la entropa de las aproximaciones al ingls. Un segundo mtodo es eliminar una determinada
fraccin de las letras de una muestra de texto en ingls y luego dejar que alguien intente
restaurarlas. Si se pueden restaurar cuando se elimina el 50%, la redundancia debe ser mayor que
50%.
Dos extremos de redundancia en la prosa inglesa estn representados por el ingls bsico y por el
libro de James Joyces "Finigans Wake". El vocabulario de ingls bsico est limitado a 850 palabras
y la redundancia es muy alta. Esta
se refleja en la expansin que ocurre cuando un pasaje se traduce al ingls bsico. Joyce, por otro
lado, ampla el vocabulario y se alega que logra una compresin del contenido semntico.
Todava tenemos que representar matemticamente las operaciones realizadas por el transmisor y
el receptor en la codificacin y decodificacin de la informacin.
historia. Suponemos que la memoria interna es finita, es decir, que existe un nmero finito 111 de
estados posibles del transductor y que su salida es una funcin del estado presente y del smbolo
de entrada presente. El siguiente estado ser una segunda funcin de estas dos cantidades. Por lo
tanto, un transductor
Si los smbolos de salida de un transductor se pueden identificar con los smbolos de entrada de un
segundo, se pueden conectar en tndem y el resultado tambin es un transductor. Si existe un
segundo transductor que opera en la salida
Teorema 7: La salida de un transductor de estado finito impulsado por una fuente estadstica de
estado finito es una fuente estadstica de estado finito, con entropa (por unidad de tiempo)
menor o igual que la de la entrada. Si el transductor es no singular, son iguales.
Deje que a represente el estado de la fuente, que produce una secuencia de smbolos Xi; y sea {3
el estado del transductor, que produce, en su salida, bloques de smbolos Yi. El sistema combinado
puede ser representado
por el "espacio de estado del producto" de pares (a, (3). Dos puntos en el espacio, (ai, (31) y (a2
(32)) estn conectados por una lnea si al puede producir una x que cambia {31 a {32, y esta lnea
se da la probabilidad de que x en este caso.
La entropa del resultado se puede calcular como la suma ponderada de los estados. Si sumamos
primero en {3, cada trmino resultante es menor o igual que el trmino correspondiente para a,
por lo tanto, la entropa no aumenta. Si el transductor no es singular, permita que su salida se
conecte al transductor inverso.
Supongamos que tenemos un sistema de restricciones sobre posibles secuencias del tipo que
puede representarse mediante un grfico lineal como en la figura 2. Si las probabilidades pi '/ se
asignaron a las diversas lneas que conectan el estado ito, esto sera
convertirte en una fuente Hay una tarea particular que maximiza la entropa resultante (ver
Apndice IV).
Teorema 8: Deje que el sistema de restricciones considerado como un canal tenga una capacidad
C. Si asignamos
donde eli) es la duracin del smbolo sth que va del estado i al estado j y al B; satisfacer
Teorema 9: permita que una fuente tenga entropa H (bits por smbolo) y un canal tenga una
capacidad C (bits por segundo). Entonces es posible codificar la salida de la fuente de tal manera
que se transmita a la velocidad promedio - E smbolos por segundo sobre el canal donde E es
arbitrariamente pequeo. No es posible . h C para transmitir a una tasa promedio mayor t
La parte inversa del teorema, que H no puede excederse, puede probarse al observar que la
entropa de la entrada del canal por segundo es igual a la de la fuente, ya que el transmisor debe
ser no singular, y tambin
esta entropa no puede exceder la capacidad del canal. De ah H 'C y el nmero de smbolos por
segundo = H' / H <C / II.
La primera parte del teorema se probar de dos maneras diferentes. El primer mtodo es
considerar el conjunto de todas las secuencias de N smbolos producidos por la fuente. Para N
grande podemos dividir estos en dos grupos, uno que contiene menos de x miembros y el segundo
que contiene menos de 2R N miembros (donde R es el logaritmo del nmero de smbolos
diferentes) y que tiene una probabilidad total menor que u, como N aumenta "7 y p. acercndose
a cero. El nmero de seales de duracin T en el canal es mayor que iC - ()) T con (J pequeo
cuando T es grande. Si elegimos
entonces habr un nmero suficiente de secuencias de smbolos de canal para el grupo de alta
probabilidad cuando Nand T sean lo suficientemente grandes (aunque sean pequeos> -) y
tambin algunos adicionales. El grupo de alta probabilidad se correlaciona de forma arbitraria en
este conjunto. Las secuencias restantes estn representadas por secuencias ms grandes,
comenzando y terminando con una de las secuencias no utilizadas para el grupo de alta
probabilidad. Esta secuencia especial acta como una seal de inicio y parada para un cdigo
diferente. Entre un tiempo suficiente se permite dar suficientes secuencias diferentes para todos
los mensajes de baja probabilidad. Esto requerir que <p sea pequeo. La tasa media de
transmisin en smbolos de mensaje por segundo ser mayor que
Otro mtodo para realizar esta codificacin y probar el teorema se puede describir de la siguiente
manera: Organice los mensajes de longitud N por orden de probabilidad decreciente y suponga
que sus probabilidades son PI; :::: P2; :::: pa ...;: ::: pn.
Por lo tanto, los mensajes de alta probabilidad estn representados por cdigos cortos y los de
baja probabilidad por cdigos largos. De estas desigualdades tenemos
El cdigo para P. diferir de todos los sucesivos en uno o ms de sus m, lugares, ya que todos los Pi
restantes son al menos _1_ ms grandes y sus expansiones binarias por lo tanto difieren en los
primeros m, lugares. En consecuencia, todos los cdigos son diferentes y es posible recuperar el
mensaje de su cdigo. Si el
las secuencias de canales no son ya secuencias de dgitos binarios, se les puede atribuir nmeros
binarios de manera arbitraria y el cdigo binario se traduce as en seales adecuadas para el canal.
El nmero promedio H 'de dgitos binarios utilizados por smbolo del mensaje original se puede
estimar fcilmente. Tenemos
Pero,
y por lo tanto,
se acerca a H.
Vemos a partir de esto que la ineficiencia en la codificacin, cuando solo un retraso finito de
El porcentaje de exceso de tiempo necesario sobre el ideal es por lo tanto menor que
Este mtodo de codificacin es sustancialmente el mismo que el encontrado por RM Fano. "Su
mtodo consiste en organizar los mensajes de longitud N en orden de probabilidad decreciente.
Divida esta serie en dos grupos de la probabilidad casi igual posible. En el primer grupo, su primer
dgito binario ser 0, de lo contrario 1. Los grupos se dividen de manera similar en subconjuntos de
probabilidad casi igual y el subconjunto particular determina el segundo dgito binario. Este
proceso contina hasta que cada subconjunto contiene solo un mensaje. se ve fcilmente que
aparte de las diferencias menores (generalmente en el ltimo dgito) esto equivale a lo mismo que
el proceso aritmtico descrito anteriormente.
DISCUSIN
Para obtener la mxima transferencia de potencia de un generador a una carga, se debe introducir
un transformador en general para que el generador visto desde la carga tenga la resistencia de
carga. La situacin aqu es ms o menos anloga.
El transductor que hace la codificacin debe coincidir con la fuente del canal en un sentido
estadstico. La fuente vista desde el canal a travs del transductor debe tener la misma estructura
estadstica que la fuente que maximiza la entropa en el canal. El contenido del Teorema 9 es que,
aunque una coincidencia exacta no es en general posible, podemos
aproximarlo tan cerca como se desee. La relacin entre la velocidad real de transmisin y la
capacidad C puede denominarse eficiencia del sistema de codificacin.
Por supuesto, esto es igual a la relacin de la entropa real de los smbolos del canal con la
entropa mxima posible.
En general, la codificacin ideal o casi ideal requiere un gran retraso en el transmisor y el receptor.
En el caso silencioso que hemos estado considerando. la funcin principal de este retraso es
permitir una coincidencia razonablemente buena de las probabilidades con las longitudes de
secuencia correspondientes. Con un buen cdigo, el logaritmo de la probabilidad recproca de un
mensaje largo
debe ser pequeo para todos menos una pequea fraccin de los mensajes largos.
Si una fuente puede producir solo un mensaje en particular, su entropa es cero y no se requiere
ningn canal. Por ejemplo, una mquina informtica configurada para calcular los dgitos sucesivos
de 7 produce una secuencia definida sin elemento aleatorio. No se requiere ningn canal para
"transmitir" esto a otro punto. Uno podra construir una segunda mquina para calcular la misma
secuencia en el punto. Sin embargo, esto puede ser poco prctico. En tal caso, podemos optar por
ignorar algunos o todos los conocimientos estadsticos que tenemos de la fuente. Podramos
considerar que los dgitos de 71 "son una secuencia aleatoria en la que construimos un sistema
capaz de enviar cualquier secuencia de dgitos. De manera similar, podemos optar por utilizar
algunos de nuestros conocimientos estadsticos de ingls para construir un cdigo, pero no En este
caso, consideramos que la fuente con la mxima entropa est sujeta a las condiciones estadsticas
que deseamos retener. La entropa de esta fuente determina la capacidad del canal que es
necesaria y suficiente. En el ejemplo 71, la nica informacin
retenido es que todos los dgitos se eligen del conjunto 0, 1, ..., 9. En el caso del ingls, es posible
que se desee utilizar el ahorro estadstico posible debido a las frecuencias de letra, pero nada ms.
La fuente mxima de entropa es entonces la primera aproximacin al ingls y su entropa
determina la capacidad del canal
11. EJEMPLOS
Como un simple ejemplo de algunos de estos resultados considerar una fuente que produce una
secuencia de letras elegidas de entre A, B, C, D con probabilidades t, t, 1, 1, smbolos sucesivos se
eligen independientemente. Tenemos
Por lo tanto, podemos aproximar un sistema de codificacin para codificar los mensajes de esta
fuente en dgitos binarios con un promedio de t dgito binario por smbolo.
En este caso, podemos alcanzar el valor lmite mediante el siguiente cdigo (obtenido por el
mtodo de la segunda demostracin del Teorema 9):
La cantidad promedio de dgitos binarios utilizados para codificar una secuencia de N smbolos
ser
Se ve fcilmente que los dgitos binarios 0, 1 tienen probabilidades i, t, por lo que la H para las
secuencias codificadas es de un bit por smbolo. Dado que, en promedio, tenemos smbolos
binarios por letra original, las entropas por tiempo son lo mismo. La mxima entropa posible para
el conjunto original es log 4 = 2, que ocurre cuando .1, B, C, D tienen probabilidades t t, t. Por lo
tanto, la entropa relativa es i. Podemos traducir las secuencias binarias en el conjunto original de
smbolos de dos en uno en la siguiente tabla
este proceso doble codifica el mensaje original en los mismos smbolos pero con una relacin de
compresin promedio.
Como segundo ejemplo, considere una fuente que produzca una secuencia de 1 y h con
probabilidad pfor.1 y q para F. Si P <<q tenemos
En tal caso, se puede construir una codificacin bastante buena del mensaje en un canal 0,1
enviando una secuencia especial, digamos 0000, para el smbolo infrecuente .1 y luego una
secuencia que indica el nmero de B que lo sigue.
Esto podra ser indicado por la representacin binaria con todos los nmeros que contienen la
secuencia especial eliminada. Todos los nmeros hasta 16 estn representados como de
costumbre; 16 est representado por el siguiente nmero binario despus de 16 que lo hace
Se puede demostrar que como p ----> 0, la codificacin se acerca a la ideal siempre que la longitud
de la secuencia especial se ajuste adecuadamente.
Ahora consideramos el caso en que la seal se ve perturbada por el ruido durante la transmisin o
en uno u otro de los terminales. Esto significa que la seal recibida no es necesariamente la misma
que la enviada por el transmisor.
Se pueden distinguir dos casos. Si una seal transmitida particular siempre produce la misma seal
recibida, es decir, la seal recibida es una funcin definida de la seal transmitida, entonces el
efecto puede llamarse distorsin.
Si esta funcin tiene una funcin inversa, no pueden corregirse dos seales transmitidas que
producen la misma seal de distorsin recibida, al menos en principio, simplemente realizando la
operacin funcional inversa en la seal recibida.
El caso de inters aqu es aquel en que la seal no siempre sufre el mismo cambio en la
transmisin. En este caso, podemos suponer que la seal recibida E es una funcin de la seal
transmitida S y una segunda variable, el ruido N.
El ruido se considera una variable aleatoria tal como el mensaje estaba arriba. En general, puede
estar representado por un proceso estocstico adecuado.
El tipo ms general de canal discreto ruidoso que consideraremos es una generalizacin del canal
libre de ruido de estado finito descrito anteriormente. Suponemos un nmero finito de estados y
un conjunto de probabilidades
y j sobre las posibles seales recibidas. En el caso donde los smbolos sucesivos son perturbados
independientemente por el ruido, solo hay un estado, y el canal se describe por el conjunto de
probabilidades de transicin pdj), la probabilidad
Si un canal ruidoso es alimentado por una fuente, hay dos procesos estadsticos en
funcionamiento: la fuente y el ruido. Por lo tanto, hay una serie de entropas que se pueden
calcular. Primero est la entropa H (x) de la fuente o de la entrada al canal (estas sern iguales si
el transmisor no es singular).
La entropa de la salida del canal, es decir, la seal recibida, se denotar por H (y). En el caso
silencioso H (y) = H (x). La entropa conjunta de entrada y salida ser H (xy). Finalmente, hay dos
entropas condicionales Hiy) y H) '(x), la entropa de la salida cuando se conoce la entrada y
viceversa. Entre estas cantidades tenemos las relaciones
Todas estas entropas pueden medirse por persona o por cada smbolo.
Supongamos que hay dos smbolos posibles 0 y 1, y estamos transmitiendo a una velocidad de
1000 smbolos por segundo con probabilidades po = PI =! Por lo tanto, nuestra fuente est
produciendo informacin a razn de 1000 bits por segundo. Durante
Esto no es satisfactorio ya que no toma en cuenta la falta de conocimiento del receptor sobre
dnde ocurren los errores. Podemos llevarlo a un caso extremo y suponer que el ruido es tan
grande que los smbolos recibidos son completamente independientes de los smbolos
transmitidos. La probabilidad de recibir 1 es
como medida de incertidumbre, parece razonable usar la entropa condicional del mensaje,
conociendo la seal recibida, como una medida de esta informacin faltante. Esta es de hecho la
definicin correcta, como veremos ms adelante. Siguiendo esta idea, la tasa de transmisin real,
R, se obtendra restando de la tasa de produccin (es decir, la entropa de la fuente) la tasa
promedio de entropa condicional.
o 81 bits por segundo. Podemos decir que el sistema est transmitiendo a una velocidad '1000 - 81
= 919 bits por segundo. En el caso extremo donde un 0 tiene la misma probabilidad de ser recibido
como un 0 o 1 y de manera similar por 1, las probabilidades a posteriori son!,! y
o 1000 bits por segundo. La velocidad de transmisin es entonces 0 como debera ser.
el receptor para corregir los errores. La situacin est indicada esquemticamente en la Fig. 8.
Teorema 10: Si el canal de correccin tiene una capacidad igual a H (x) es posible codificar los
datos de correccin para enviarlos a travs de este canal y corregir todos menos una fraccin E
arbitrariamente pequea de los errores. Esto no es posible si la capacidad del canal es menor que
H ,, (: x),
Para probar la primera parte, considere las secuencias largas del mensaje recibido M 'y el
correspondiente mensaje original M. Habr una logartmicamente TH ,, (x) de las M que
razonablemente podran haber producido cada M'. Por lo tanto, tenemos TH ,, (x) dgitos binarios
para enviar cada T segundos. Esto se puede hacer con la frecuencia E de errores en un canal de
capacidad H ,, (x).
La segunda parte se puede probar al sealar, primero, que para cualquier variable de probabilidad
discreta x, y, :::
Si identificamos .r como la salida de la fuente, y como la seal recibida ys como la seal enviada
por el canal de correccin, entonces el lado derecho es la equivocacin menos la velocidad de
transmisin sobre el canal de correccin. Si la capacidad de este canal es menor que la
equivocacin, el lado derecho
ser mayor que cero y III, z (x) O. Pero esta es la incertidumbre de lo que se envi, conociendo
tanto la seal recibida como la seal de correccin.
Si esto es mayor que cero, la frecuencia de los errores no puede ser arbitrariamente pequea.
Ejemplo:
Supongamos que los errores ocurren al azar en una secuencia de dgitos binarios: probabilidad p
de que un dgito sea incorrecto y q = 1 - P que es correcto. Estos errores pueden corregirse si se
conoce su posicin. Por lo tanto, el canal de correccin solo necesita enviar informacin sobre
estas posiciones. Esto equivale a transmilling de una fuente que produce dgitos binarios con
probabilidad p para 1 (correcto) y If para 0 (incorrecto). Esto requiere un canal de capacidad
La velocidad de transmisin R puede escribirse en otras dos formas debido a las identidades
sealadas anteriormente. tenemos
La primera expresin de definicin ya se ha interpretado como la cantidad de informacin enviada
menos la incertidumbre de lo que se envi. El segundo mide la cantidad recibida menos la parte
de esto que se debe al ruido. El tercero es la suma de las dos cantidades menos la entropa
conjunta y, por lo tanto, en cierto sentido es el nmero de bits por segundo comn a los dos. Por
lo tanto, las tres expresiones tienen un cierto significado intuitivo.
donde el mximo es con respecto a todas las posibles fuentes de informacin utilizadas como
entrada para el canal. Si el canal es silencioso, Hy (x) = O. La definicin es entonces equivalente a la
ya dada para un canal silencioso ya que la entropa mxima para el canal es su capacidad.
Puede parecer sorprendente que debamos definir una capacidad definida C para un canal ruidoso
ya que nunca podemos enviar cierta informacin en tal caso.
Sin embargo, est claro que al enviar la informacin en forma redundante, la probabilidad de
errores puede reducirse. Por ejemplo, repitiendo el mensaje muchas veces y mediante un estudio
estadstico de las diferentes versiones recibidas del mensaje, la probabilidad de errores podra ser
muy pequea.
Uno esperara, sin embargo, que para hacer que esta probabilidad de errores se acerque a cero, la
redundancia de la codificacin debe aumentar indefinidamente, y la tasa de transmisin por lo
tanto se acerca a cero. Esto de ninguna manera es verdad. Si lo fuera, no habra una capacidad
muy bien definida, sino solo una capacidad para una frecuencia dada de errores, o una
equivocacin dada; la capacidad disminuye ya que los requisitos de error se vuelven ms estrictos.
En realidad, la capacidad C definida anteriormente tiene un significado muy definido. Es posible
enviar informacin a la velocidad C a travs del canal toitl: una frecuencia de errores tan pequea
como la codificacin adecuada. Esta afirmacin no es vlida para ninguna tasa mayor que C. Si se
intenta transmitir a una velocidad mayor que C, por ejemplo C + R1, entonces necesariamente
ser un equvoco igual a un R1 mayor que el exceso La naturaleza acepta el pago al requerir tanta
incertidumbre, de modo que no estamos obteniendo ms que C correctamente.
Teorema 11. Permita que un canal discreto tenga la capacidad C y una fuente discreta la entropa
por segundo H: Si HC existe un sistema de codificacin tal que la salida de la fuente puede
transmitirse por el canal con una frecuencia de errores arbitrariamente pequea (o una
equivocacin arbitrariamente pequea).
Si H> C es posible codificar la fuente de modo que el equvoco sea menor que H - C + E donde E es
arbitrariamente pequeo. No hay un mtodo de codificacin que d una equivocacin menor que
II - C.
El mtodo para probar la primera parte de este teorema no es exhibir un mtodo de codificacin
que tenga las propiedades deseadas, sino mostrar que dicho cdigo debe existir en un cierto
grupo de cdigos. De hecho, promediaremos la frecuencia de errores sobre este grupo y
mostraremos que este promedio puede ser menor que E. Si el promedio de un conjunto de
nmeros es menor que E, debe existir al menos uno en el conjunto que es menor que E Esto
establecer el resultado deseado.
donde .r es la entrada yy la salida. La maximizacin se aplica a todas las fuentes que podran
usarse como entrada al canal.
Deje que So sea una fuente que logre la capacidad mxima C. Si este mximo no se logra
realmente por cualquier fuente, permita que sea una fuente que se aproxime a dar !: la velocidad
mxima. Supongamos que So se usa como entrada para el canal. Consideramos las posibles
secuencias transmitidas y recibidas
1. Las secuencias transmitidas se dividen en dos clases, un grupo de alta probabilidad con
aproximadamente 2 miembros Tilt (I) y las secuencias restantes de probabilidad total pequea.
3. Cada salida de alta probabilidad podra ser producida por aproximadamente 2T H "iZl entradas.
Todos los E'S y / j implicados por las palabras "pequeo" y "aproximadamente" en estas
afirmaciones se acercan a cero ya que permitimos que T aumente y as acercarnos a la fuente
maximizadora.
La situacin se resume en la Fig. 10, donde las secuencias de entrada son puntos a la izquierda y
puntos de secuencias de salida a la derecha. El ventilador de lneas cruzadas representa el rango
de posibles causas para una salida tpica.
Ahora supongamos que tenemos otra fuente que produce informacin a la velocidad R con R <c.
En el perodo T esta fuente tendr 27
// // salidas de alta probabilidad. Queremos asociar estos con una seleccin de los posibles canales
entradas de tal manera que se obtenga una pequea frecuencia de errores. Estableceremos esta
asociacin de todas las maneras posibles (usando, sin embargo, solo el grupo de entradas de alta
probabilidad segn lo determinado por la fuente So) y promediaremos la frecuencia
de errores para esta gran clase de posibles sistemas de codificacin. Esto es lo mismo que calcular
la frecuencia de errores para una asociacin aleatoria de los mensajes y las entradas de canal de
duracin T. Supongamos que se observa una salida particular Y1. Cul es la probabilidad de que
haya ms de un mensaje en el conjunto?
La probabilidad de que ninguno de los puntos del ventilador sea un mensaje (aparte del mensaje
de origen real) es
De ah la probabilidad de que un error se acerque a cero y se pruebe la primera parte del teorema.
La segunda parte del teorema se muestra fcilmente al observar que simplemente podemos
enviar C bits por segundo desde la fuente, descuidando por completo el resto de la informacin
generada. En el receptor, la parte descuidada
Este lmite tambin se puede lograr de muchas otras maneras, como se mostrar cuando
consideramos el caso continuo.
1-1. Discusin
La demostracin del teorema 11, aunque no es una prueba de existencia pura, tiene algunas de las
deficiencias de tales pruebas. Un intento de obtener una buena aproximacin a la codificacin
ideal siguiendo el mtodo de la prueba generalmente no es prctico. De hecho, aparte de algunos
casos bastante triviales y ciertas situaciones limitantes, no hay una descripcin explcita de una
serie de aproximaciones
al ideal se ha encontrado. Probablemente esto no sea accidental, pero est relacionado con la
dificultad de dar una construccin explcita para una buena aproximacin a una secuencia
aleatoria.
Una aproximacin al ideal tendra la propiedad de que si la seal es alterada de manera razonable
por el ruido, el original an puede ser recuperado.
En otras palabras, la alteracin, en general, no lo acercar a otra seal razonable que el original.
Esto es un logro! a costa de una cierta cantidad de redundancia en la codificacin. La redundancia
debe introducirse de la manera adecuada para combatir la estructura de ruido particular
canal, esta redundancia ayudar a combatir el ruido. Por ejemplo, en un canal de telgrafo sin
ruido uno podra ahorrar aproximadamente el 50% en el tiempo mediante la codificacin
adecuada de los mensajes. Esto no se hace y la mayor parte de la redundnacy de ingls
permanece en los smbolos del canal. Esto tiene la ventaja, sin embargo, de permitir un ruido
considerable en el canal. Una fraccin considerable de las letras se puede recibir incorrectamente
y todava reconstruirse por el contexto. De hecho, esta no es probablemente una mala
aproximacin al ideal en muchos casos, ya que la estructura estadstica del ingls est bastante
involucrada y las secuencias de ingls razonables no estn demasiado lejos (en el sentido
requerido para el teorema) de una seleccin aleatoria.
en cuanto al mensaje original. Aumentar el tamao de la muestra siempre agudiza las posibles
aserciones estadsticas.
El contenido del teorema 11 y su demostracin pueden formularse de una manera algo diferente
que muestra la conexin con el caso silencioso ms claramente. Considere las posibles seales de
duracin T y suponga que se selecciona un subconjunto de ellas para su uso. Deje que todos los
del subconjunto se utilicen con la misma probabilidad, y suponga que el receptor est construido
para seleccionar, como la seal original, la causa ms probable del subconjunto, cuando se recibe
una seal perturbada. Definimos N (T, q) como el nmero mximo de seales que podemos elegir
para el subconjunto de modo que la probabilidad de una interpretacin incorrecta sea menor o
igual a q.
Un simple ejemplo de un canal discreto se indica en la Fig. 11. Hay tres smbolos posibles. El
primero nunca se ve afectado por el ruido. El segundo y el tercero tienen probabilidad p de pasar
sin ser molestados, y q de ser cambiados al otro par. Tenemos
Deseamos elegir P y Q de forma que se maximice H (x) - Hix), sujeto a la restriccin P + 2Q = 1. Por
lo tanto, consideramos
Eliminando "A"
En el primero, {3 = 1 y C = log 3, que es correcto ya que el canal es entonces silencioso con tres
smbolos posibles. Si p =!, {3 = 2 y C = log 2.
Aqu el segundo y tercer smbolos no pueden distinguirse en absoluto y actuar juntos como un
smbolo. El primer smbolo se usa con la probabilidad P = t y el segundo y el tercero junto con la
probabilidad Esto se puede distribuir de cualquier manera deseada y aun as alcanzar la capacidad
mxima.
Para valores intermedios de p, la capacidad del canal se encontrar entre log 2 y log 3. La
distincin entre el segundo y tercer smbolos transmite cierta informacin, pero no tanto como en
el caso sin ruido. El primer smbolo
se usa un poco ms frecuentemente que los otros dos debido a su ausencia de ruido.
Si el ruido afecta los sucesivos smbolos de canal de forma independiente, se puede describir
mediante un conjunto de probabilidades de transicin Pi}. Esta es la probabilidad, si se enva el
smbolo i, de que se recibir j. La velocidad mxima del canal es
donde variamos el sujeto Pi a = 1. Esto conduce por el mtodo de Lagrange a las ecuaciones,
Multiplicar por P, y sumar en s muestra que IJ. = -c. Deje que el inverso de P.} (si existe) sea lI.t
para que L It.tp.} = lil}. Entonces:
Este es el sistema de ecuaciones para determinar los valores de maximizacin de Pi, con C
determinado de modo que Pi = 1. Cuando esto se hace C ser la capacidad del canal, y el Pi las
probabilidades adecuadas para que los smbolos de canal alcancen esta capacidad .
Si cada smbolo de entrada tiene el mismo conjunto de probabilidades en las lneas que salen de
l, y lo mismo es cierto para cada smbolo de salida, la capacidad puede calcularse fcilmente. Los
ejemplos se muestran en la Fig. 12. En tal caso, Hr (y) es independiente de la distribucin de
probabilidades en los smbolos de entrada, y
est dado por -2; Pi log Pi donde los Pi son los valores de las probabilidades de transicin de
cualquier smbolo de entrada. La capacidad del canal es
Supongamos que los smbolos se dividen en varios grupos de modo que el ruido nunca haga que
un smbolo en un grupo se confunda con un smbolo en otro grupo.
Deje que la capacidad para el grupo 11 sea en cuando usemos solo los smbolos en este grupo.
Luego se muestra fcilmente que, para un mejor uso de todo el conjunto, la probabilidad total P;
de todos los smbolos en el grupo 11 debe ser
Dentro de un grupo, la probabilidad se distribuye tal como sera si estos fueran los nicos smbolos
que se usan. La capacidad del canal es
El siguiente ejemplo, aunque poco realista, es un caso en el que es posible la coincidencia exacta
con un canal ruidoso. Hay dos smbolos de canal, 0 y 1, y el ruido los afecta en bloques de siete
smbolos. Un bloque de siete se transmite sin error, o exactamente un smbolo de
Sea un bloque de siete smbolos, 'rr, X2, ' (7, De estos X ', 3, X., X6 y) (7 son smbolos de
mensaje y elegidos arbitrariamente por la fuente. Los otros tres son redundante y calculado de la
siguiente manera:
Cuando se recibe un bloque de siete, a, f3 y 'Y se calculan e incluso se llama cero, si impar llama
uno. El nmero binario a {1 'Y luego da el subndice de Xi que es incorrecto (si 0 no hubo error).