Está en la página 1de 48

Ciclo 2008

Universidad Nacional de La Rioja


Teora de la Informacin Bolilla II

Teora de la Informacin
Contenidos:
1.Smbolos y Datos 2.Informacin 3.Diferencia entre Datos e Informacin 4.Conceptos de Teora de la Informacin 5.Informacin y Certidumbre 6.Medida de la Informacin

Teora de la Informacin
7.Cantidad de Informacin 8.Informacin Mutua
9. Binit y Bit 10.Entropa 11.Tasa de Informacin 12.Obtencin de la Informacin 13.Fuentes Continuas 14.Mxima capacidad de transferencia de un Canal 15.Dgitos binarios en la transmisin de informacin 16.Ley de Shannon - Hartley

Cualidades de la informacin (Repaso)


Precisin
Exactitud Oportunidad Integridad Significativa

Teora de la Informacin
Concepto: es una rama de la Teora de la Matemtica, de las probabilidades y de la estadstica que estudia todo lo relacionado con ellas. La Teora de la Informacin es una teora matemtica creada por Claude Shannon en el ao 1948 y que forma la piedra angular sobre la que se ha desarrollado toda la teora actual de la comunicacin y la codificacin. Esta teora establece los lmites de cunto se puede comprimir la informacin y de cul es la mxima velocidad a la que se puede transmitir informacin. La Teora de la Informacin es, por tanto una teora de lmites alcanzables: mxima compresin de datos y mxima tasa de transmisin de informacin transmitida sin errores. Las aplicaciones de esta teora son enormes y abarcan desde las ciencias de la computacin (criptografa, aprendizaje), la ingeniera elctrica (Teora de la comunicacin y teora de la codificacin), la estadstica o la biologa (secuencias de ADN, cdigo gentico).

Esta teora fue formulada en 1940 por el ingeniero Claude E. Shannon, y aparece publicada por primera vez en octubre de 1948. Posteriormente el socilogo Warren Weaver redact un ensayo destinado a enfatizar las bondades de esta propuesta, el cual fue publicado en 1949. 1. 1. Modelo cientfico del proceso de comunicacin Formulacin de leyes matemticas de Hartley (gensis de la TI)

RUIDO: Expresin genrica utilizada para referirse a las distorsiones originadas en forma externa al proceso de comunicacin

Los problemas que plantea Shannon, tienen que ver con la cantidad
de informacin, la capacidad del canal de comunicacin, el proceso de codificacin que puede utilizarse para cambiar el mensaje en una seal y los efectos del "ruido".

Weaver, define los 3 niveles en que se abordan generalmente los problemas de Comunicacin: TCNICO SEMNTICO PRAGMTICO La Teora de la Informacin-------Nivel Tcnico

Modelo de Comunicacin presentado por Shannon y Weaver

Teora de la Informacin. Smbolo:


Ej: Letras, Gestos, Costumbres Palabras, Colores, Sonidos Lingsticos Aplauso El hombre es un animal simblico, ya que se refiere a entes o sucesos mediante smbolos.

Atributos: Propiedades que determinan


entes sucesos al ser representados simblicamente N Documento
Atributos

Persona

Identificacin

Valor: Especificacin cuantitativa o


cualitativa de un atributo

Datos
Atributos conocidos como entes y sucesos Representaciones simblicas de propiedades o cualidades de entes y sucesos, necesarios para brindar antecedentes en la decisin ante una accin concreta. Caractersticas - Transmisin - Almacenamiento - Transformacin

Informacin
Representaciones simblicas que por el significado asignado (receptor), contribuyen a disminuir la incertidumbre; para decidir que accin tomar entre varios caminos posibles. Ej.: Informacin Descriptiva: Paso a seguir para alcanzar el objetivo. Informacin de control: Verificar se el accionar ha sido el correcto.

Diferencia entre Dato e Informacin


Represtacin simblica

Significado atribuido por el receptor que necesita decidir entre < > de curso de Accin

Mensaje

Informacin B (Juan) Informacin C (Pedro)

A
Mensaje

A
Mensaje Informacin D (Diego)

A Toda Informacin consta de Datos, pero no todos los datos constituyen informacin

Incertidumbre
Se refiere a lo desconocido No se sabe si suceder A lo inesperado A lo imprevisible
La informacin disminuye la incertidumbre porque aporta mayor conocimiento sobre un tema.

Probabilidad: se encarga de evaluar todas aquellas actividades en donde se tiene incertidumbre, acerca de los resultados que se puede esperar.
La probabilidad es una escala entre 0 y 1 Al suceso imposible le corresponde el valor 0 Al suceso seguro le corresponde el valor 1 El resto de los sucesos estarn comprendidos entre la escala de 0 y 1 . NUNCA PUEDE SER UN VALOR NEGATIVO

Probabilidad
Es > o < de acuerdo a la certeza o no que se le atribuye a un evento. Ej. - Noche/Da (100%) - Moneda (50%) a < probabilidad o certeza de ocurrencia > ser el significado informativo a > probabilidad de certeza de ocurrencia < ser el significado informativo

La Probabilidad de ocurrencia de un evento es inversamente proporcional al significado informativo

Ejemplo: servicio metereolgico Antrtida La fuente de informacin emite los siguientes mensajes: Mensaje 1: da muy fro y nublado Mensaje 2: da muy fro y soleado Mensaje 3: da fro y nublado Mensaje 4: da templado y soleado Cul es el mensaje que aporta MAYOR CANTIDAD DE INFORMACION? Por qu?

Conclusin:
A < probabilidad de ocurrencia > el significado informativo Ej. Mensaje 3 y 4 A > probabilidad de ocurrencia es menor el significado informativo Ej. Mensaje 1 y 2 Relacin inversa la probabilidad de ocurrencia de suceso o evento es inversamente proporcional al significado informativo

Medida de la Informacin
Cuanto ms probable es un mensaje < es la informacin a transmitir Ej. - Telegrama - Sueldo - Premio La medida de la informacin est relacionada con la incertidumbre.

La medida de la informacin comprende probabilidades

Shannon desarroll la Teora matemtica de las comunicaciones Objetivo: Hacer lo mas eficiente posible la transmisin de informacin, con un nmero mnimo de errores. Para lograr este objetivo se utiliza el SISTEMA BINARIO. Unidad de Informacin: unidades bsicas de informacin definidas por 2 estados posibles SI/ NO, 0/1, abierto y cerrado, verdadero y falso. BIT: dgito binario, es la cantidad mnima de informacin y unidad bsica del sistema digital.

Para entender mejor este concepto Unidad de medida de informacin comencemos haciendo la siguiente suposicin. Observemos la siguiente hoja cuadriculada:

Esta Hoja que posee 81 cuadritos, que podra compararse con el espacio total disponible en la memoria RAM o en un cualquier dispositivo de almacenamiento. Cada cuadro sera utilizado para colocar dentro un carcter, como se muestra en el siguiente ejemplo:

E U S

S Y

A F

M E

O L C

S I L C A

M E S

Podemos observar como cada letra o carcter ocupa un cuadro y que inclusive los espacios en blanco entre palabras y los signos de puntuacin como el punto tambin ocupan uno de los cuadros. Se han ocupado 29 cuadritos lo que nos deja como resultado un espacio disponible en la hoja de 52 cuadros. Si una frase de 5 palabras utiliz 29 espacios, entonces no es posible que una pgina de un libro quepa en los 52 cuadros restantes. Podemos decir que cada carcter equivale en medida de informacin a un byte. Es importante saber que un byte est compuesto de 8 bits;

MLTIPLOS Y SUBMLTIPLOS DE LA UNIDAD BYTE


Unidad Mltiplos

B Unidad Byte Nro Bytes 1 8 bits

KB KiloByte 1024

MB Megabyte 1000.000 1000 kB

GB Gigabyte 1.000000.000 1000 MB

TB Terabyte 1.000.000000.000 1000 GB

En la conversin de las medidas se utiliza una Aproximacin haciendo siempre los clculos de1000 en 1000, aunque la unidad BYTE no va de 1000 en 1000, sino de 1024 en 1024. Ejm. 7 Kilobytes son realmente 7168 bytes (7 x 1024 = 7168), pero generalmente se calcula multiplicando (7 * 1000 =7000).

Cantidad de Informacin
Shannon Claude baso su teora de la informacin en:
Ruido T CANAL R Capacidad Canal:
Limite en la tasa de informacin a transmitir

Conceptos Bsicos:
Medida informacin Capacidad de un canal Codificacin para alcanzar mxima capacidad

Dada una Fuente de informacin y un canal de comunicacin, existe una tcnica de codificacin tal que la informacin puede ser transmitida sobre el canal y con una frecuencia de errores abitrariamente pequea a pesar de la presencia de ruido Ejemplos 2n Estados posibles A 0 0 0 codificados
B C D 0 0 0 0 1 1 1 0 1

n=3 23 = 8

E
F G H

1
1 1 1

0
0 1 1

0
1 0 1

Letra

Cdigo Binario

Si existen N posibilidades, todas igualmente probables, la cantidad de informacin ser igual a Log2N. Es, entonces, el Log2N la funcin matemtica que nos indicar la cantidad de bits de informacin de una situacin determinada. Esto puede esquematizarse de la siguiente manera:

La figura nos muestra una situacin con 8 posibilidades, cada una con una misma probabilidad de 1/8. Para poder determinar una posibilidad especfica de estas 8, la eleccin requiere como mnimo 3 etapas, cada una de las cuales arroja un bit de informacin. A) El primer bit corresponde a la eleccin entre las primeras cuatro o segundas cuatro posibilidades. B) El segundo bit corresponde al primer o segundo par de las 4 posibilidades ya elegidas. C) El ltimo bit determina el primer o segundo miembro del par y especifica la posibilidad elegida. Como vemos, el primero de bits que se requieren en esta situacin para determinar una posibilidad especfica es de 3, lo que corresponde al Log2 8

P = Incertidumbre del receptor 18 = 0.125 = 12,5% Si el 1 bit e 0 (inexistencia de tensin elctrica) A B Candidatos P = 1/4 = 0,25 = 25% C D Si el 2 bit, es 1 (existe tensin elctrica) C Candidatos P = 1/2 = 0,5 = 50% D Al recibir el 3 bit, se alcanza certidumbre total P = 1/1 = 1 = 100%

A cada arribo de un smbolo se reduce la incertidumbre

Generalizacin Si tenemos una fuente con N=2n mensajes


posibles a transmitir, se requerir combinar un nmero mnimo n de elementos binarios para codificar cada uno de los N

Formalizacin de la cantidad de Informacin


I = n = Log2 N N = Mensajes posibles

Ver anexo

n = Elementos codificado en binarios

Definicin
El nmero mnimo n de elementos codificados en binario necesarios para identificar el mensaje entre un total de N mensajes posibles. Si P = 1/ N (relacin inversa proporcional de ocurrencia del mensaje)

N = 1/P I = log2 N UNIDAD = bit I = Log2 1/P I = Log2 P-1 I = -1 Log2 P Para eventos igualmente probables la probabilidad: P = NE Cantidad de elementos Cantidad de variables

I = Log2 NE [ bit ] Ejemplo: Moneda: E = 1 (moneda) N = 2 (cara/seca) I = Log2 21 = 1 [ bit ] Cambio base de logaritmos Loga X = 1

Log b a

. Logb X (uso Log10)

Ej.:

* Pantalla de 500 filas x 600 columnas Puntos = 300.000 * C/Punto 10 tonos de grises Imgenes distintas = NE = 10300.000 * Cantidad de informacin I = Log2 NE = Log2 10300.000 I = E Log2 N = 300.000 . Log2 10 1

I=

. Log10 10

. 300.000

Log10 2
I = 3.32 x 300.000 =10 6 bit

Informacin

Vs

Cantidad de Informacin

Significado de un conjunto de smbolos.

N de smbolos necesarios para codificar un mensaje en donde P es igual a la probabilidad de ocurrencia del mensaje.

Ej: Codificar: A = 00001 B = 00010 C . W = 11000 P = 1/27 de aparicin

Todas la letras tienen la misma probabilidad I = Log2 1/P I = Log2 (1/(1/27)) = Log2 27 I=

1 Log10 2

. Log10 27

I = 4, 7549 [ bit]

Anexo
Mensajes a codificar Bit necesarios
N = 2n

Si Necesito despejar n Log N = Log 2n Log2 N =n Log2 2 n=

Log2 N
1

n = Log2 N
Volver

INFORMACION MUTUA
A
B Fuente C A,B,C,D Mensajes

D
Probabilidad de que un mensaje sea elegido para su transmisin.

P(A)

P(B)

P(C)

P(D)

IA
Informacin
mutua de A

f(PA)
Log b X

IA = logb 1 PA

Si b = 2 y Pa= Pb = 1 2

IA = 1 bit

Binit y Bit

Binit = Son los dgitos Binarios como elementos de mensajes. P0 = 1 4 P1 = 3 4 P0 = 25% de ocurrencia P1 = 75% de ocurrencia

Bit = Solo si los elementos son equiprobables. P0 = 1 2 P1 = 1 2 P0 = 50% de ocurrencia P1 = 50% de ocurrencia

Entropa: Para una fuente discreta cuyos smbolos son


estadsticamente independientes y los mensajes son estticos, es decir no combinan con el tiempo . Pj = 1/m m

E
J=1 0 < H < log m

Pj log 1/pj
Ij

m = Cantidades de smbolos del alfabeto del mensaje. H = 0 No hay


incertidumbre,no entrega informacin

Cuando H = logm = mxima incertidumbre. mxima libertad de eleccin. H = (p.log(1/p)+q.log(1/q)) Si q = 1- p Si m= 2

y H es la probabilidad de uno de los smbolos.


H = p log 1/p + (1 - p) log ( 1/(1-p))

OBTENCION DE INFORMACION

1- Percepcin de Fenmenos Naturales.


2- Decodificacin de lenguajes creados por el hombre. 3- Procesos de Datos.

smbolos a
procesar (Input)

Proceso de datos

smbolos requeridos (output)

FUENTES CONTINUAS

Aquellas Cuyos mensajes varan continuamente con el tiempo.


Tengase en cuenta que solamente se a desarrollado la Entropa para fuentes estticas ya que las dinmicas son muy complejas.
(CONTINUO Vs. DISCRETO)

Consideraciones sobre un alfabeto de 28 smbolos.

5 Modelos:
1 Modelo: a) Cada smbolo o letra no depende del anterior.

b) Todos los smbolos o letras son equiprobables.


H = log2 28 = 4,8 bit/letra

2 Modelo: a) Idem. b) Cada smbolo tiene una probabilidad asociada de aparicin.


P (espacio) = 0,1858 P (A) = 0,0642 P (B) = 0,0127 P (Z) = 0,0005

H = 4,03 bits/smbolo

3 Modelo:
a) Cada letra depende solamente del ultimo smbolo transmitido.
b) Probabilidades reales
H = 3,32 bit/smbolo

4 Modelo:
a) Cada letra depende de las 2 anteriores. b) Probabilidades reales.
H = 3,10 bits/smbolo

5 Modelo:
a) Conozca todo el texto anterior (recordar letras anteriores) b) Probabilidades anteriores.
H = 1bits/smbolo

Nota:
El 1 modelo necesita 5 bit para codificar, mientras que el 5 solo 1 bit. Est es ms eficiente y rpido.

(5 veces ms)

También podría gustarte