Está en la página 1de 11

Tema No 2

Conferencia # 1 Introduccin a la teora de la informacin


Sumario:
Introduccin a la teora de la informacin.
Cantidad de informacin
Capacidad de un sistema.
Entropa de una fuente.

Bibliografa:
[Carlson, 2002] Sistemas de comunicaciones. Introduccin a las
seales y al ruido en comunicaciones elctricas.
[Schwartz] Information, transmission, modulation and noise.
[Sklar] Digital communications, fundamentals and applications.
Materiales en ftp://teleco.cujae.edu.cu

Objetivos:
Conocer las limitantes de un sistema y sus relacin con la cantidad de
informacin que puede emitir una fuente.
Conocer los conceptos bsicos de la teora de la informacin.
Definir Informacin, Capacidad y Entropa.

Introduccin.
Todos los sistemas de comunicaciones transmiten informacin de una manera
u otra por lo que sera conveniente especificar alguna medida para cuantificar
esta informacin de la que hablamos.
Introduzcamos estos conceptos de forma intuitiva:
Un grupo de estudiantes en una clase donde el profesor emite
continuamente un mismo sonido, sin cambio o variacin alguna. Esto
evidentemente ser una prdida de tiempo ya que no se est recibiendo
informacin alguna por parte de los estudiantes.
Para que haya transmisin efectiva de la informacin de profesor a
estudiante las palabras y frases del profesor deben cambiar de forma
continua y de forma imprescindible, de lo contrario, si ya conociramos
lo que va a decir el profesor para qu iramos a clases?

La clave es el cambio imprescindible, un sonido o seal emitida de forma


continua, constante, no contiene ni transporta informacin alguna, de lo
contrario si esa misma nota o seal se hace variar de forma que pueda ser
interpretada, comienza a tener significado y por lo tanto a portar cierta
informacin. Por tanto la transmisin de informacin est relacionada
directamente con seales que varan en el tiempo donde esa variacin ocurre
de forma imprescindible o no conocida a priori por el presunto receptor.

Por qu es importante puntualizar esto?


Si como ingenieros vamos a disear un sistema para transmitir informacin
seguramente nos interesar seleccionar el mejor tipo de sistema dados los
equipos con que contemos en la prctica y por lo tanto debemos conocer la
naturaleza de lo que va a ser transmitido y el efecto que puede producir nuestro
sistema sobre dicha cantidad.

Qu capacidad de informacin tiene un sistema dado?


Veamos que relacin tienen estos conceptos con el trabajo en sistemas de
comunicaciones.
- Asumamos que tenemos un intervalo de duracin T (en segundos).
- En ese intervalo de duracin T se transmite informacin.
- El voltaje mximo, por razones de limitacin de potencia es de 3v.
V


3
2
1
0 1 2 3 4 5 6 7 8 9 10 t

Las preguntas que se imponen dado este diagrama son las siguientes:
- Cunta informacin puede transmitirse en este intervalo?
- Podemos poner un lmite a la cantidad de informacin que es posible
transmitir en este intervalo?
- Cmo depende esa cantidad mxima de informacin que es posible
transmitir en este intervalo de duracin T con respecto a los parmetros
de nuestro sistema de comunicaciones? NOTAR: Se introdujo una
limitacin en el sistema, la de potencia: amplitud mxima 3v .
- Por qu un lmite en la cantidad de informacin a transmitir en este
intervalo de duracin T?

Si la transmisin de informacin est relacionada con seales que varan


imprescindiblemente en el tiempo por qu no hacer variar nuestra seal tan
rpido como queramos y entre tantas subdivisiones de la amplitud mxima (3v)
como queramos?
(Aqu es donde entran a jugar su papel las limitaciones de los sistemas de
comunicaciones)
Los sistemas de comunicaciones son sistemas fsicos reales que no
permiten un incremento indefinido de la velocidad de cambio y
tambin son capaces de distinguir uno entre infinitos subintervalos
definidos para la amplitud mxima posible del diagrama.
El incremento de la velocidad de cambio de las seales est limitado
debido a que todos los sistemas de comunicaciones poseen
dispositivos que almacenan energa emplean por lo tanto un tiempo
finito distinto de cero para los procesos de cambios energticos en
dichos dispositivos.
El ruido trmico es la causa que limita la subdivisin en exceso de
niveles ya que pueden confundirse unos con otros debido a las
fluctuaciones inherentes al sistema de comunicaciones por este
motivo.

Todo sistema de comunicaciones posee un intervalo de tiempo de duracin


mnima requerido para permitir sus cambios energticos y est caracterizado
tambin por un intervalo de amplitud de cambio mnimo detectable. Por el
diagrama dado en la pgina anterior = 1, V = 1v, el voltaje mnimo
detectable de cambio en la seal es 1v por lo que por una amplitud mxima de
3v hay cuatro niveles detectables de seal: 0v, 1v, 2v y 3v.

Conclusin parcial:
Si la cantidad de informacin transmitida en el intervalo de duracin T
segundos est relacionada con el nmero de amplitudes de seal distinguibles
diferentes que pueden transmitirse en ese tiempo eso implica aparentemente
que la capacidad del sistema para transmitir informacin est limitada.
POR TANTO: La capacidad del sistema de comunicaciones (o la mxima
velocidad a la cual el sistema puede transmitir informacin) debe ser medible
en trminos de las propias limitantes y n del sistema.
: intervalo de tiempo mnimo para los procesos energticos del sistema.
Vinculado directamente con el ancho de banda.
n: Nmero de amplitudes de seal distinguibles por el sistema.

Volvamos al diagrama propuesto con un ejemplo concreto:


El esquema consta de un intervalo de T = 10 segundos de duracin distribuidos
en 10 intervalos de de un segundo cada uno, en cada intervalo hay uno de
cuatro niveles posibles.

3
2
1
0 1 2 3 4 5 6 7 8 9 10 t

3
2
1
0 1 2 3 4 5 6 7 8 9 10 t

Estas dos seales difieren solo en los dos primeros intervalos, los dems 8
intervalos son iguales.
Cuntas combinaciones pueden especificarse?
En los dos primeros intervalos pueden haber uno de cuatro niveles. Son dos
posiciones con base cuatro, es decir: 42 = 16 posibilidades diferentes en solo
los dos primeros intervalos.
En diez intervalos de duracin (T = 10) puede haber 410 combinaciones
diferentes de amplitudes de seal en T = 10 seg., = 1 seg. Y 4 niveles
posibles.
Si en vez de cuatro niveles hubiese n niveles posibles en cada intervalo de
T
duracin , entonces en un intervalo de duracin T sern posibles n
combinaciones diferentes, segn nuestros supuestos la informacin transmitida
T
en T segundos est relacionada a este nmero n de combinaciones de seal
diferentes.
Intuitivamente la cantidad de informacin transmitida en T segundos debe ser
proporcional a la duracin de este tiempo. (10 segundo en este caso)
Si duplicamos el valor de T es de esperar que se duplique el contenido de
informacin del mensaje.
El contenido de se puede hacer proporcional a T tomando el logaritmo del
T
nmero de combinaciones diferentes posibles n .
T T
log n log n = informacin transmitida en T segundos es proporcional a

T
log n

El factor de proporcionalidad depender de la base del logaritmo que se
emplee. La base ms comn es 2, en ese caso:
T
Informacin = I = log 2 n bit

La unidad de informacin definida para esta base es el bit.
Por tanto para nuestro ejemplo de 4 niveles para T = 10 segundos y =
1segundo tendramos una cantidad de informacin transmitida de:
T 10
log 2 n log 2 4 20 bits
1
Si se dobla el intervalo de T a 20 segundos:
T 20
log 2 n log 2 4 40
1
Se duplica el contenido de informacin del mensaje coincide con la suposicin
intuitiva.
La capacidad de este sistema, definida como la velocidad mxima de
transmisin de informacin no es ms que la informacin que se transmite
entre la duracin (tiempo) del intervalo.
C log 2 n bits
I 1
T seg
Veremos que:
Est vinculado con el ancho de banda del sistema, mientras que n est
relacionado con la relacin S/N que halla presente de forma tal que la
capacidad e un sistema, su ancho de banda y la relacin S/N con que se
cuente estarn muy relacionados.

Dgitos Binarios en la Transmisin de Informacin.


El contenido de informacin de una seal fue definido como:
T
Informacin = I = log 2 n bit

Por qu logaritmo en base 2?
Supongamos que queremos transmitir una seal que vara entre 0 y 7v.
Producto de limitaciones del sistema la seal solo puede ser definida
mediante valores enteros 0, 1, 2, ..., 7.
Producto de lo anterior la seal original es sustituida por su versin
cuantificada y en cada intervalo de muestreo, , la nueva seal tendr 1
de 8 posibles niveles de voltaje (0 a 7) cada uno con la misma
probabilidad de ocurrencia.
La seal ya cuantificada puede ser transmitida enviando
sucesivamente los valores de voltaje ya cuantificados en el orden que
van apareciendo. En cada intervalo se pueden mandar uno de ocho
voltajes diferentes, el contenido de informacin de la seal estar
relacionado con estos ocho niveles de voltaje diferentes.
Existe otra forma de enviar esta informacin con un menor nmero de
niveles de voltaje necesarios, especificando en cada intervalo el valor
correspondiente de la seal.
La forma de realizar esto es mediante el empleo de dgitos binarios para
especificar 8 niveles diferentes necesitamos tres dgitos binarios.
7 111 3 011
6 110 2 010
5 101 1 001
4 100 0 000
De esta forma cada nivel queda unvocamente especificado mediante cada
combinacin de dgitos binarios indicada.

Este mtodo de identificacin entre niveles de seal y combinaciones de dgitos


binarios es lo que se conoce como codificacin binaria.
En vez de transmitir la seal, en cada intervalo, como uno de 8 niveles
posibles, transmitimos una secuencia de tres dgitos binarios en el
tiempo correspondiente a un intervalo logrando transmitir el mismo
contenido de la informacin que en el caso de los ocho niveles por
intervalo anterior.
Si son 16 niveles por intervalo se requieren 4 dgitos binarios por
intervalo, si 32 se requieren 5 y as n niveles requieren log2n dgitos por
intervalo.
En la transmisin de tres intervalos consecutivos cada uno con la
posibilidad de 8 niveles, por lo tanto de tres bits por intervalo, se
transmiten efectivamente 9 dgitos binarios o bits.
En el caso de codificacin binaria para un perodo de duracin T hay T/
intervalo posibles, si en cada uno puede haber n niveles posibles,
entonces en ese intervalo de duracin T se transmitirn:
T
log 2 n bit

Para el caso de codificacin binaria el nmero de dgitos binarios o bits
requeridos para la transmisin de un mensaje dado, de duracin T, es igual al
contenido de informacin que porta el mensaje. De ah que se tome la unidad e
informacin como el bit cuando est se expresa tomando el logaritmo con
base 2.

Relacin entre la capacidad de un sistema y el contenido de informacin


de los mensajes

CAPACIDAD DE UN SISTEMA:
Cantidad mxima de informacin [bits] por unidad de tiempo (por segundo) que
el sistema es capaz de transmitir.

La pregunta que se impone es la siguiente:


Cul sistema tendr la suficiente capacidad para transmitir determinado tipo
de seales portadoras de informacin?

Para poder determinar esto tenemos que ser capaces de medir el contenido de
informacin de las diferentes seales.
1. Vimos que para el caso de seales discretas (fuentes discretas) con
iguales probabilidades de ocurrencia para todas las combinaciones
posibles.
T
Caso intervalo T, n niveles I = log 2 n

T
Donde n era el nmero de seales discretas equiprobables posibles en
un intervalo de duracin T.
2. El asumir que en todo tipo de seales discretas, todos los niveles por
intervalo son equiprobables, es una suposicin bastante restrictiva:
Ej.: Veamos el caso de la transmisin de un discurso en idioma
ingls (por ej.) donde la letra e tiene la mayor probabilidad de
ocurrencia mientras que la letra z prcticamente no aparece.
Por esta razn, durante la transmisin del discurso, si suponemos
que la prxima letra que saldr ser una e tendremos muchas
ms posibilidades de acertar que si suponemos que la letra ser
una q, z, o u .

Precisamente este conocimiento a priori de la mayor probabilidad de ocurrencia


de determinados caracteres con respecto a otros, disminuye el contenido de
informacin de la seal que se est transmitiendo, ya que, el contenido de
informacin de una seal ser mayor mientras mayor sea la incertidumbre que
se tenga de la ocurrencia de cada uno de lo smbolos, niveles o caracteres. En
este caso, esta situacin de mxima incertidumbre y por lo tanto de mximo
contenido de informacin del mensaje se produce cuando todos los smbolos
son equiprobables.
Si la nica letra posible a ocurrir fuera la e, la informacin transmitida por tal
mensaje sera nula, no habra incertidumbre ninguna sobre la ocurrencia de los
caracteres, solo ocurre la e.
El contenido de informacin de seales con smbolo o niveles no equiprobables
se reduce con respecto al caso equiprobable.
Por este motivo una conclusin ms completa acerca del contenido de
informacin de un menaje o seal tendra que decir que este contenido de
informacin no solo depende del nmero posible de combinaciones de la seal
en el mensaje (posible combinaciones de caracteres, smbolos, o niveles) sino
que tambin depende de la frecuencia relativa de la ocurrencia o probabilidad
de ocurrencia de cada combinacin en el mensaje.
Esto implica entonces que el contenido de informacin de un mensaje dado
depende de la naturaleza de su fuente.
Un mensaje en ingls posee un contenido de informacin que depende de la
frecuencia relativa de ocurrencia de cada carcter, o cada combinacin de
caracteres, combinaciones de palabras o incluso de oraciones. La estructura
completa del lenguaje afecta las combinaciones posibles de caracteres que
pueden darse y por lo tanto afecta sus probabilidades de ocurrencia y como
consecuencia afectan el contenido de informacin de determinada seal en
particular. (Seal de transmisin de un discurso en ingls).
Al reducirse el contenido de informacin de los mensajes debido a la no
igualdad entre la probabilidades de ocurrencia de sus caracteres, esto se
traduce en un requerimiento de menor capacidad de sistema para transmitir
dichos mensajes.
Ej. : Si la e es la letra que ms ocurre en un discurso en ingls, podemos
codificarla con el smbolo que menos tiempo requiera. En caso de seales
telegrficas podemos codificarla con un simple punto ..

Cmo cuantificar el problema de la medicin del contenido de informacin de


un mensaje?
Hay dos casos.
1. Suponer que la ocurrencia de un nivel, smbolo o carcter en un
intervalo dado no est condicionada por la ocurrencia de algn nivel,
smbolo o carcter previo. Esta es la suposicin de independencia
estadstica ms simple (sin memoria).
2. Todo lo contrario. Se supone que la ocurrencia de un smbolo, nivel o
carcter en determinado intervalo depende o se debe a la ocurrencia de
algn smbolo, nivel o carcter que haya ocurrido previamente.
Dependencia estadstica (fuentes con memoria).

Analicemos el caso ms sencillo, el caso 1 para aproximarnos despus al ms


complejo, el 2.
Para calcular el contenido de informacin de un mensaje con smbolos de
probabilidades diferentes comencemos analizando el caso de cuando todos los
smbolos son equiprobables.
Si el nmero total de combinaciones posibles a encontrarnos en un intervalo de
duracin T, con n niveles posibles por intervalo era:
T
n
Es lgico pensar que en el caso equiprobable, que cada combinacin ocurra
con una frecuencia relativa o probabilidad igual a:
1 T
n
Ejemplo:
En un intervalo de T = 3s con int. Sxz = 1segundo y 4 posibles niveles por
subintervalo:
Hay n = 4 T/ = 3/1 = 3 subintervalos de Sxz.
43 = 64 posibles combinaciones.
Estas 64 combinaciones equiprobables ocurren cada uno con una probabilidad
de 1/64.
Para que esto sea verdad el tamao de la muestra que se estudia tiene que ser
mucho mayor que la cantidad de combinaciones n posibles a tener.

En el caso de seales equiprobables la cantidad de informacin que porta la


ocurrencia de cualquier evento posible en un intervalo es:
T T
T = por lo tanto 1 y log 2 n log 2 n I

Sea H la entropa o cantidad de informacin que como promedio emite la
fuente.
Si cada nivel equiprobable en un intervalo tiene probabilidad P entonces P =
1/n y la expresin de H se modifica:
1. H log 2 n log 2 P bits / int ervalo cantidad de informacin de
intervalo .
La informacin que porta un intervalo de tiempo T mayor ser:
T T
2. I log 2 n log 2 P [bits en T segundos]

Si son m intervalos T = m:
T
3. I log 2 n m log 2 P [bits en m intervalos]

Asumamos ahora que los niveles en cada intervalo no son equiprobables.
Supongamos que vamos a tener solo 2 niveles por intervalo 0 1.
El 0 tiene probabilidad de ocurrencia p.
El 1 tiene probabilidad de ocurrencia q.
p+q=1
p = nmero de veces que ocurre el 0 /nmero total de veces o intervalo
posibles
q = nmero de veces que ocurre el 1 /nmero total de veces o intervalo
posibles

Ejemplo:
Nacimiento de varones y hembras en un pas dado.
El 1 corresponde al nacimiento de un varn.
El 0 corresponde al nacimiento de una hembra.
Despus de analizar 1 000000 de nacimientos (nmero total de posibilidades
>> nmero de niveles (2)):
480 000 varones.
520 000 hembras.

Esto da como resultado


480000
p 0.48
1000000
520000
q 0.52
1000000

AHORA: Cul sera el contenido de informacin de un grupo de ceros y unos


en funcin de estas cosas?
Cul era la cantidad de informacin que portaba un intervalo en el caso
equiprobable?
H log 2 n log 2 P entonces
Cada vez que aparezca un 0, que ocurre con probabilidad p, ganamos log2p
bits de informacin.
Cada vez que aparezca un 1, que ocurre con probabilidad q, ganamos log2q
bits de informacin.
En un grupo de ceros y unos de duracin T = m hay m intervalos, en el caso
del ejemplo m = 1 000000

De esos m, pm son ceros y qm son unos por lo tanto:

La informacin total que aportan todos los ceros ser:


I0 = pm* (-log2p)
Donde pm cantidad total de ceros.
-log2p informacin que aporta la ocurrencia de un cero.

La informacin total que aportan todos los unos ser:


I1 = qm* (-log2q)
Donde qm cantidad total de unos.
-log2q informacin que aporta la ocurrencia de un uno.

La informacin total del grupo de m ceros y unos ser:


(entropa del mensaje)
I = I0 + I1
I = pm* (-log2p) + qm* (-log2q)
I m p log 2 p q log 2 q [bits en T segundos]

La informacin promedio por intervalo ser H = I/m , donde m es el nmero de


intervalos.
H
HMAX La H es mxima
cuando los
smbolos son
equiprobables.

Un sistema de comunicaciones capaz de transmitir esta informacin debe


0
poseer una capacidad. 0.5 1 p
H
C depende del tiempo en que desee transmitirse esta cantidad de

informacin promedio Hprom. Si se quiere transmitir en menos tiempo es
necesario ms capacidad.
C p log 2 p q log 2 q
1

Generalizacin al caso de n posibles niveles por intervalo smbolos en un
intervalo qu expresin tiene el contenido de informacin de un mensaje de
este tipo? (Pg. 25 Schwartz)
Para el caso de varios smbolos o niveles por intervalo, cada uno de estos
tendr su propia probabilidad de ocurrencia.
Si hay n smbolos o niveles, sus probabilidades sern:
P1, P2, P3, Pn de forma que P1 + P2 + ...Pn =1.
El smbolo o nivel j, tendr probabilidad 0 Pj 1
Asumimos independencia estadstica en la ocurrencia de smbolos con
intervalos adyacentes.
Se puede entonces encontrar el contenido de informacin de un smbolo o nivel
de un intervalo, la cantidad de informacin promedio en T segundos la
informacin contenida en m = T/ intervalos.

Como vimos antes:


- Si el smbolo o nivel j aparece en determinados intervalo este aporta
log 2 Pj .
- Como en m intervalos, el nivel j aparecer mPj veces, el aporte de
informacin total de m intervalos ser:
n
I m Pj log 2 Pj bits en m intervalos.
j 1

- O equivalentemente m = T/ en un intervalo de T segundos:


T n
I Pj log 2 Pj bits en T segundos.
j 1

I
- Como promedio, la informacin promedio por intervalo H
m
n
H Pj log 2 Pj bits / intervalo.
j 1

La capacidad de un sistema que puede transmitir esta informacin promedio


ser:
H
C

1 n
C Pj log 2 Pj
j1
Si todos los smbolos son equiprobables P1 = P2 = ... = Pn = 1/n
n n
I m Pj log 2 Pj m log 2 Pj Pj
j 1 j 1
n

P
j 1
j 1

H log 2 n

Orientar de estudio individual la demostracin de por qu H alcanza su


mximo valor cuando los mensajes son equiprobables.

Conclusiones o resumen de la clase:


En esta clase:
Se dieron a conocer las limitantes de un sistema y su relacin con la
cantidad de informacin que puede emitir una fuente.
Se explicaron los conceptos bsicos de la teora de la informacin.
Se definieron mediante ejemplos la cantidad de informacin, la
capacidad y la entropa de una fuente.
Se orient de estudio individual demostrar que la entropa alcanza su
mximo valor cuando los mensajes son equiprobables.