Diapositivas Tema1 1

Copyright, mgonzalez
TEORIA DE LA
TEORIA DE LA
INFORMACION
INFORMACION
TEORIA DE LA
TEORIA DE LA
INFORMACION
INFORMACION
Curso 2003/2004
Las Palmas.
Introduccin
Introduccin
3
Despues de que Einstein demostara la
equivalencia entre masa y energia los
dos parametros que la civilizazcion utiliza
son INFORMACION y ENERGIA
relacionado por la formula de Shanonn
ORIGEN
ORIGEN
Teora de la
Informacin
1948 Snannon Una
teora Matemtica de
la Comunicacin
1929 L. Szilar:
Informacin-Paradoja
Fsica
1928: Hartlye: Mtodo
de comparacin de
los distintos mtodos
de transmisores de la
informacin
1948: Wiener:
Cibrnetica
1953:McMillan- Fuenete
de Informacin , canal
de transmisin
1956: Khintchine-
Tratamiento completo
T.I. para caneles
ergdicos.
Resumen
1953: Winograd:
Estableci un lazo
entre T.C. de Shannon y
la teora de autmatas
Documento de
Documento de
Shannon
Shannon
Escrito por Shannon en 1948.
En l se desarrolla buena parte de la
actual teora llamada de la informacin
Concepto de informacin
Medida de "cantidad de informacin".
Tratamiento matemtico de la
informacin
Comunicacin
Comunicacin
Quizs Fourier fue el primero en dar una
teora matemtica para un problema de
comunicacin. Aunque su descubrimiento
fue debido a unos trabajos sobre
transmisin de calor, su teora es tan
general que prcticamente se puede
aplicar a cualquier rea.
INFORMACION
INFORMACION
Terminologa
Seal
manifestacin fsica ( de
orden electromagntica ,
onda sonora...) capaz de
propagarse en un medio
dado. Es la definicin
ms amplia del concepto
de seal.
Terminologa
Terminologa
Mensaje:Seal que
corresponde a una
realizacin particular
del conjunto de
seales dadas
Fuente:proceso por el
cual, entre todos los
mensajes posibles, es
escogido de una manera
imprevisible un mensaje
particular, destinado a
ser transmitido a un
receptor (observador
Terminologa
Terminologa
Observador
:Destinatario final del
mensaje.
Canal Totalidad de
los medios
destinados a la
transmisin de la
seal.
Terminologa
Terminologa
Modulacin Transformacin de un
mensaje en una seal, al efecto de
facilitar y aumentar la eficacia de la
transmisin y reducir los errores de la
misma.
Demulacin Operacin inversa de la
modulacin.
Terminologa
Terminologa
Codificacin: Transformacin de un
mensaje en una seal discreta, cuya
principal objetivo es aumentar la eficacia de
la transmisin
Decodificacin Operacin inversa de la
codificacin
Perturbacin: Seal que modifica una
seal aleatoria til, disminuyendo la
cantidad de informacin que circula por
ella.
INFORMACION
INFORMACION
-
-
CONOCIMIENTO
CONOCIMIENTO
a) Teora de la Informacin
Informacin:
Informacin:
Conjunto de datos o mensajes inteligibles creados con

un lenguaje de representacin y que debemos
proteger antes las amenazas del entorno, durante su
transmisin o almacenamiento, con tcnicas
criptogrficas.
criptogrficas.
La
La
Teora de la Informacin
mide la
mide la
cantidad de
cantidad de
informacin
informacin
que contiene un mensaje a travs
del nmero medio de bits necesario para
codificar todos los posibles mensajes con un
codificador ptimo
codificador ptimo
.
.
CLASES DE INFORMACION
CLASES DE INFORMACION
Voz: Mecanismo
primario para la
comunicacin humana.
Es de naturaleza
acstica.
Imgenes:
mecanismo primario
para la
comunicacin
humana. Es de
naturaleza ptica.
Datos:
Informacin en
forma numrica. Es
de naturaleza
electromagntica.
DATOS
DATOS
-
-
INFORMACIN Y
INFORMACIN Y
CONOCIMIENTO
CONOCIMIENTO
DATOS: Secuencias de nmeros, letras, etc.
presentados sin un contexto
INFORMACIN. Datos organizados, tablas ,
estadsticas de ventas, una charla (chat) bien
presentada (Conjunto coherente de datos que
transmite un mensaje)
CONOCIMIENTO. Informacin organizada
junto con la comprensin de lo que significa
dentro de un contexto, que se puede utilizar
INFORMACION
INFORMACION
-
-
CONOCIMIENTO
CONOCIMIENTO
Conocimiento: Informacin
integrada en las estructuras
cognitivas de un individuo ( es
personal e intransferible)
No podemos transmitir conocimiento,
slo informacin que el receptor
puede o no convertirla en
conocimiento
GESTION DEL CONOCIMIENTO
GESTION DEL CONOCIMIENTO
Conocimiento es la
capacidad para
transformar datos e
informacin en
acciones efectivas
(eficaces).
(J.D.Edwards)
Gestin del
conocimiento
significa entregar a
las personas los
datos e informacin
necesarias para ser
eficientes (eficaces)
en sus trabajos
LA CADENA DEL CONOCIMIENTO
LA CADENA DEL CONOCIMIENTO
Datos
Datos
Datos
Textos,
Cifras,
Imgenes,
Sonidos,
Informacin
Informacin
Datos
organizados
Conocimiento
explcito
y
tcito
Conocimiento
explcito
y
tcito
Informacin
disponible para
ser usada de forma
productiva, para
abordar un problema
Capital
Intelectual
Capital
Intelectual
Conocimiento
que produce
valor
CI = Conocimiento transformado en valor para la organizacin
Organizar
Estructurar
Agrupar
Categorizar
Contexto
Concepto
Generalizacin
Aplicacin
CONSTRUCCION DEL CONOCIMIENTO
CAPTACIN
- Odo - Olfato
- Vista - Gusto
- Tacto
CLASIFICACIN
Memoria + Raciocinio
DISTRIBUCIN
Lenguaje
(Oral, escrito,
seales, etc.)
NUEVAS
CORRELACIONES
Inteligencia + Intuicin
i
C
ADMINISTRACION DEL CONOCIMIENTO
Y LA TECNOLOGIA DE LA INFORMACION
CAPTACIN
Internet
Scanner
Multimedia
Redes
CLASIFICACIN
Bases de datos
Programas de Indexacin
DISTRIBUCIN
Internet
e-Mail
Redes
NUEVAS
CORRELACIONES
Data Warehousing
Capital Intelectual
Workflow
Informacin:
Informacin:

criptogrficas.
criptogrficas.
La
La
mide la
mide la
cantidad de
cantidad de
informacin
informacin
codificador ptimo
codificador ptimo
.
.
Vamos a buscar estas dos nuevas definiciones en las
diapositivas siguientes:
Cantidad de Informacin
Codificador Optimo
Representacin de la Informacin
Representacin de la Informacin
Numrica, alfabtica, simblica,
Numrica, alfabtica, simblica,
lenguaje
lenguaje
.
.
24/01/03 24
24/01/03 24
-
-
01
01
-
-
03 24
03 24
-
-
1
1
-
-
03 24/01/2003
03 24/01/2003
01/24/03 01
01/24/03 01
-
-
24
24
-
-
03 1
03 1
-
-
24
24
-
-
03 01
03 01
-
-
24
24
-
-
2003 ...
2003 ...
-
-
Todos son el da 24 de enero del ao 2003
Todos son el da 24 de enero del ao 2003
-
-
Vitaminas: B
Vitaminas: B
12 12
, C, ...
, C, ...
Grupo sanguneo: A2
Grupo sanguneo: A2
Rh+
Rh+
Elementos: Fe, Si,
Elementos: Fe, Si,
Hg
Hg
Compuestos qumicos: H
Compuestos qumicos: H
2 2
O, CO
O, CO
2 2
Ms comn Lenguaje con cdigo:
Ms comn Lenguaje con cdigo:
Hoy hace calor
Hoy hace calor
Qu informacin entrega el mensaje Hace calor?
En funcin de la extensin del mensaje
Ante una pregunta cualquiera, una respuesta concreta

Ante una pregunta cualquiera, una respuesta concreta
y
y
extensa
extensa
nos entregar mayor informacin sobre el
nos entregar mayor informacin sobre el
tema en particular, y diremos que estamos ante una
tema en particular, y diremos que estamos ante una
mayor cantidad de informacin.
mayor cantidad de informacin.
Pregunta: Hace calor all?

Pregunta: Hace calor all? ( (una playa en particular una playa en particular) )
Respuesta 1: S, hace mucho calor.

Respuesta 2: Cuando no sopla el viento, el calor all es

Respuesta 2: Cuando no sopla el viento, el calor all es
inaguantable pues supera los 42 grados a la sombra.
inaguantable pues supera los 42 grados a la sombra.
Respuesta 2: Cuando no sopla el viento, el calor
all es inaguantable pues supera los 42 grados a
la sombra.
Dnde hay una mayor cantidad de informacin?
Qu es la informacin?
Qu es la informacin?
Veremos qu informacin nos entrega un
mensaje dependiendo del contexto en que
nos encontremos:
a) En funcin de la extensin del mensaje
recibido.
b) En funcin de la utilidad del mensaje recibido.
c) En funcin de la sorpresa del mensaje recibido.
d) Dependiendo del entorno de esa sorpresa.
e) En funcin de la probabilidad de recibir un
mensaje.
Cantidad de informacin (Caso 1)
Ante una pregunta cualquiera, una respuesta
concreta y extensa nos entregar mayor informacin
sobre el tema en particular, y diremos que estamos
ante una mayor cantidad de informacin.
Pregunta: Hace calor all? (una playa en particular)
Respuesta 2: Cuando no sopla el viento, el calor all
es inaguantable pues supera los 42 grados a la
sombra.
Respuesta 2: Cuando no sopla el viento, el calor
all es inaguantable pues supera los 42 grados a
la sombra.
En funcin de la utilidad del mensaje
Ante una pregunta cualquiera, una respuesta ms
til y clara nos dejar con la sensacin de haber
recibido una mayor cantidad de informacin.
Pregunta: Hace calor all? (una playa en
particular)
Respuesta 1: S, bastante calor.
Respuesta 2: Si no hay viento de poniente, es
normal que la temperatura suba.
Respuesta 1: S, bastante calor.
En funcin de la sorpresa del mensaje
inesperada y sorprendente, nos dar la sensacin
de contener una mayor cantidad de informacin.
Pregunta: Hace calor all? (Finlandia en
primavera)
Respuesta 1: S, muchsimo. Es insoportable.
Respuesta 2: En esta poca del ao, la
temperatura es ms suave y el tiempo muy
agradable.
Dependencia del entorno (sorpresa)
inesperada y sorprendente, nos dar la sensacin
de contener una mayor cantidad de informacin.
Pregunta: Hace calor all?
(ahora las mismas respuestas hablan de la temperatura
en un horno)
agradable.
agradable. ?
En funcin de la probabilidad de recibir un
mensaje
Este enfoque probabilstico es el que nos
interesar en cuanto a la definicin de Cantidad
de Informacin.
Dnde le da alegra a su cuerpo Macarena?
Respuesta 1: En un pas de Europa.
Respuesta 2: En una capital de provincia de
Espaa.
Respuesta 3: En el nmero 7 de la calle de la
Sierpes de Sevilla.
Respuesta 3: En el nmero 7 de la calle de la
Sierpes de Sevilla.
Incertidumbre e informacin
Incertidumbre e informacin
Ante varios mensajes posibles, en principio
todos equiprobables, aquel que tenga una
menor probabilidad ser el que contenga
una mayor cantidad de informacin.
En en ejemplo anterior:
Al ser ms extenso el nmero de calles en una ciudad
que el nmero de provincias en Espaa y, esto ltimo
mayor que el nmero de pases en Europa, el primero
de ellos tendr una mayor incertidumbre.
Suponiendo todos los estados equiprobables, la
cantidad de informacin ser la mayor.
INFORMACION(continuacin)
Cunta informacin obtenemos
cuando nos dicen que cierta persona
tiene el pelo oscuro, o que es un
hombre o una mujer?
Lo primero que debe quedarnos claro
es que el hecho de obtener informacin
es equivalente al de disminuir la
indeterminacin con respecto a algo, de
tal forma que se obtiene tanta ms
informacin cuanto ms disminuya el
grado de incertidumbre que tenemos de
cierto fenmeno
Si se nos dicen las siguientes frases
-La persona que describo tiene el pelo
oscuro.
La persona que describo es mujer.
En la primera frase se nos da un dato
de todos los posibles (claro, castao,
pelirrojo, rubio,canoso, ...), al igual que
en la segunda, pero en esta ltima el
abanico de posibilidades no es tan
grande (solo dos posibilidades), por
tanto la primera nos da ms
informacin, al disminuir mucho ms la
incertidumbre que tenamos con
respecto a la persona.
La cantidad de informacin que
obtenemos con un mensaje es
directamente proporcional al nmero de
estados posibles de la cuestin planteada.
Algunas veces es conveniente expresar
esta incertidumbre con relacin a la que
tenamos antes de conocer la informacin:
l
a
/l
d
Siendo l
a
la incertidumbre antes de
conocer el mensaje, e l
d
la que tenemos
despus de dicho conocimiento.
Grado de incertidumbre previo I
a
Grado de incertidumbre posterior I
d
c
i
=
Combinacin n 1 Combinacin n 5
Ejemplo : En una bolsa hay un crculo, un
cuadrado y un tringulo: negros o blancos.
Qu cantidad de informacin tiene cada uno de los estados?
Si hay equiprobabilidad
entonces p(x
i
) = 1/8
Grado de incertidumbre
Grado de incertidumbre
Esta ser la combinacin elegida
Incertidumbre inicial I
a
= 8
Daremos algunas pistas :
Las figuras no son del mismo color: I
a
baja de 8 a 6 al
descartarse las combinaciones 1 y 8.
El crculo es blanco: I
a
baja de 6 a 3 (descarte 5, 6 y 7).
Hay dos figuras blancas: I
a
baja de 3 a 2 (descarte 4).
El cuadrado es negro: I
a
baja de 2 a 1 (descarte 2.)
Veamos esto ahora
matemticamente ...
Se acaba la incertidumbre pues la solucin es la combinacin 3.
Solucin
Solucin
Los 8 estados sern equiprobables: p(x
i
) = 1/8
Las figuras no son del mismo color. I
a
baja de 8 a 6:
c
i1
= log (8/6) = log 8 - log 6
El crculo es blanco. I
a
baja de 6 a 3:
c
i2
= log (6/3) = log 6 - log 3
Hay dos figuras blancas. I
a
baja de 3 a 2:
c
i3
= log (3/2) = log 3 - log 2
El cuadrado es negro. I
a
baja de 2 a 1:
c
i4
= log (2/1) = log 2 - log 1
Todas las magnitudes se pueden sumar como
escalares:
c
i
= c
i1
+ c
i2
+ c
i3
+ c
i4
= log 8 - log 1 = log 8
Solucin matemtica
Solucin matemtica
Sean: I
a
la incertidumbre inicial
I
d
la incertidumbre final
c
i
= log (I
a
/ I
d
) = log I
a
- log I
d
La cantidad de informacin tiene como unidad de
medida la de un fenmeno de slo dos estados, un
fenmeno binario. Luego:
c
i
= log
b
(2/1) = log
b
2 - log
b
1
Si log
b
2 debe ser igual a 1 entonces la base b = 2.
Precisamente a esta unidad se le llama bit (binary
digit)
Ejemplo anterior: c
i
= log
2
8 = 3 Slo 3
preguntas!
Base del logaritmo
Base del logaritmo
Con slo tres preguntas ms o menos inteligentes
podemos pasar de la incertidumbre total a la certeza:
Pregunta 1: Est entre la opcin 1 y la 4? S
Pregunta 2: Est entre la opcin 1 y la 2? No
Pregunta 3: Es la opcin 4? No Se acaba la indeterminacin
Con slo tres preguntas...
Con slo tres preguntas...
Ejemplos: -Cuando nos dicen que una
persona es mujer, la incertidumbre
antes era de 2 (nmero posible de
estados), siendo la incertidumbre
posterior 1 (ya sabemos que es mujer)
Si el ordenador que genera letras al
azar nos dice que ha salido una vocal,
la incertidumbre antes del dato era 27
(nmero de letras), y ahora es 5
(nmero de vocales)
Definicin: Sea un suceso A que puede
presentarse con probabilidad p(A), cuando
dicho suceso tiene lugar se ha recibido
una informacin I(A) = log 1/p(A)
Unidades
Bit (base 2)
Dit (base 10)
Nit (base n)
Esto es cantidad
de informacin
continuacin
continuacin
BIT =0.30 DIT =0.69 NIT
DIT 0 3.32 BIT= 2.3 NIT
NIT =1.44 BIT =0.43 DIT
La informacin ms elemental que
puede recibirse es la que indica la
verificacin entre dos sucesos
igualmente probables. En este caso se
dice que se ha recibido un bit de
informacin.
Es muy importante distinguir entre bit
como unidad de informacin y los
smbolos 0 y 1 que representa las
seales binarias. Estos smbolos se
suelen llamar impropiamente bits,
pero pueden contener o no 1 bit
de informacin. Para distinguir, a los
smbolos 0 y 1 se denominan binits.
Si la fuente dispone de 10 smbolos
igualmente probables, la emisin de
uno de ellos proporciona una
cantidad de informacin de un Hartley
o Dit ( decimal digit ).
Si se elige un smbolo entre e
(base de logaritmos neperianos )
equiprobables, la informacin recibida
ser de 1 Nit.
ejemplo
ejemplo
Consideremos una imagen de televisin.
Es una estructura de niveles de grises
de pixels de 500 filas por 600 columnas.
Admitiremos que de los 600*500 =
30.0000 puntos podemos escoger 10
niveles de grises, de manera que puede
haber 10
30.000
imgenes distintas.
Si todas son igualmente

probables, la probabilidad
de una imagen es de
p(s) =
1
10
300.000
y la cantidad de
informacin es:
I(A) = 300.000
log
2
10 ~10
6
Bits
Supongamos que
un locutor de radio
tiene un vocabulario
de 10.000 palabras y
utiliza con
normalidad 1.000
palabras elegidas al
azar.
I(A) = -
1
10.000
= 1.3 10 Bits
2 1.000
4
log
y por lo tanto la cantidad
de informacin es
As pues una imagen de
T.V. equivale a 100
palabras de radio.
POSTULADOS EN TORNO A
POSTULADOS EN TORNO A
LA INFORMACION
LA INFORMACION
Postulados de Wiener:
Las maquinas de informacin no pueden
ganar informacin: INFORMACION B <=
INFORMACION A
Los cerebros y los sistemas nerviosos son
mquinas de informacin , ms perfectas que
las industriales , pero del mismo orden.
Informacin Compuesta
Informacin Compuesta
Informacin Compuesta por
Coordinacin
Es el caso ms simple: la
informacin resultante est formada
por la unin , en un orden
cualquiera, de las informaciones
elementales que la componen. Es
decir no existe entre los elementos ni
jerarqua, ni relacin directa.
Ejemplo:
Filiacin de un individuo:
a) D. N. I.
b) Nombre
c) Direccin
d) Nmero de Telfono
Informacin Compuesta por
Subordinacin
Est formada por la unin de elementos
ligados entre si. Cada uno juega un
papel distinto en el conjunto y
normalmente, no se pueden permutar
dos elementos o suprimir alguno de ellos
Ejemplo
La direccin postal
Sr. Prez
c/ Avenida Mesa y Lpez
3509 LAS PALMAS
Espaa
Informacin
Informacin
Definicin: La medida de nuestra libertad
de eleccin al escoger un mensaje de un
conjunto de mensajes aunque muchos de
ellos carezcan de significado. Aquello que
llega al cerebro a travs de los sentidos y
prporciona un incremento del
conocimiento
IDEA
Piense en la definicin de Bit.
continuacin
continuacin
Facetas:
Cantidad de conocimiento adquirido
(informacin recibada)
Calidad del conocimiento (depande de
muchos factores)
Demostraciones
Testimonios
Incidentes
Documentos
CODIFICACION DE LA
CODIFICACION DE LA
INFORMACION
INFORMACION
Dgito decimal=> Representacin binaria
Caractersticas:
Posibilidad de descodificar .
Asignacin a las palabras-cdigo la menor
longitud los mensajes de mayor probabilidad.
DIGITO-DECIMAL
REPRESNTACION BINARIA
Fuente Palabras-cdigo
0 0 0 0 0
1 0 0 0 1
2 0 0 0 1
3 0 0 1 1
4 0 1 0 0
5 0 1 0 1
6 0 1 1 0
7 0 1 1 1
8 1 0 0 1
CODIGO A
CODIGO A
SIMBOLO
S
1
S
2
S
3
S
4
PALABRAS
CODIGO
0
01
011
111
Sea la secuencia
binaria
1 1 1 0 0 1
puede provenir de la
secuencia S4 S3 o
bien de S4 S1 S2
por la tanto es un
cdigo que no se
puede descifrar, cosa
que no ocurrira con el
siguiente
CODIGO B
CODIGO B
SIMBOLO
S
1
S
2
S
3
S
4
PALABRAS-CODIGO
0
10
110
1110
Otro problema que se nos plantea es el la
transmisin de la informacin.
Supongamos que tenemos que
transmitir la informacin del tiempo entre
Madrid y Las Palmas con un equipo de
todo-nada.
Supongamos que los cuatro estados del
tiempo en madrid son equiprobables.
ESTADO DEL TIEMPO EN LAS MADRID
MENSAJES
Soleado
Nublado
Lluvia
Niebla
PROBABILIDADES
1/2
1/2
1/2
1/2
Cdigo para el tiempo en
Madrid
SIMBOLO
S
1
S
2
S
3
S
4
PALABRAS-CODIGO
00
01
10
11
CODIGO A
SIMBOLO
S
1
S
2
S
3
S
4
PALABRAS-CODIGO
00
01
10
11
Por ejemplo :
"soleado, niebla, niebla, nublado" se
codificara
0 0 1 1 1 1 0 1
Si quisiramos transmitir la misma
informacin de Las Palmas a Madrid, es
evidente que no utilizaramos el mismo
cdigo. Tendramos que asignarle
probabilidades diferentes.
ESTADO DEL TIEMPO EN LAS
PALMAS
MENSAJES
Soleado
Nublado
Lluvia
Niebla
PROBABILIDADES
1/2
1/4
1/8
1/8
Si utilizamos el cdigo A enviamos dos binits por mensaje
independiente del estado del tiempo
CODIGO TIEMPO EN LAS PALMAS
CODIGO TIEMPO EN LAS PALMAS
SIMBOLO
S
1
S
2
S
3
S
4
PALABRAS-CODIGO
0
1 0
1 1 0
1 1 1 0
Podemos tomar el 0 como final de la
palabra-cdigo.
Entonces el mensaje
"nublado, soleado, soleado, lluvia"
1 0 0 0 1 1 0
ENTROPIA
ENTROPIA
Como vemos, la
incertidumbre est
relacionada con el
nmero de estados
posibles de un
fenmeno. Por ejemplo el
nmero de estados
posibles de disponer 8
bits, es 256=2
8
.
El nmero de palabras -
con o sin sentido- que se
pueden formar con 4
letras es 27
4
.
El hecho de que la frmula de
la cantidad de informacin,
como veremos, presente el Lg
(logaritmo en base 2) es para
contrarrestar este carcter
exponencial de los estados
posibles y hacer las
operaciones ms fciles. La
base del logaritmo se toma 2,
por comodidad, pero es
igualmente vlido cualquier
otra base, ya que solo
cambiara por una constante.
Recurdese la frmula:
Log
a
X= Log
b
X/log
b
a
Entropa (continuacin)
Las cosas no son tan idealizadas, ya que
casi cualquier fuente de informacin (una
persona hablando, un ordenador
"conversando" con otro, o un libro) tiene
ponderados sus mensajes, es decir,
algunos aparecen con ms probabilidad
que otros.
Siempre hay mas apariciones de una letra
del alfabeto en un texto suficientemente
grande, y es ms probable que en nuestro
pas una persona sea morena.
Por tanto sto tambin hay que tenerlo en
cuenta.
Se obtiene ms informacin si en un
texto espaol la siguiente letra que
leemos es una W, que si nos
encontramos con una E, ya que la
primera es menos frecuente en
nuestro idioma, y su ocurrencia tiene
mayor incertidumbre.
Se le asocia a cada estado posible su
probabilidad, es decir, a una variable
aleatoria se le asocia su espacio de
probabilidades.
Se define entonces la Cantidad de
Informacin de un estado i como:
I[a
i
] = -log p(a
i
)
Siendo p(a
i
) la probabilidad asociada
al estado (a
i
).
Existen aqu dos casos extremos que
concuerdan con la idea intuitiva:
Cuando la probabilidad de que algo
suceda es 1,el suceso es seguro que
ocurre, y la cantidad de informacin
que obtenemos es nula, ya que -
Lg(1)=0. Por el contrario cuando el
suceso tiene probabilidad 0, la
informacin obtenida es +infinito , ya
que tiene la mxima incertidumbre
ENTROPIA
ENTROPIA
La cantidad de informacin total del
sistema.Promedio de las informaciones de
cada elemento ponderado por su
probabilidad.
H[X] = E[I(X)] = p(a
i
) I(a
i
)
Definicin: La Entropa de una variable
representa el valor medio ponderado de
las distintas cantidades de informacin de
los diversos estados de esa variable.
MENSAJE M
1
M
2
M
3

PROBABILIDADES
DEL MENSAJE

1/2

1/3

1/6

CONTENIDO INFORMATIVO DEL
MENSAJE

-log
2
1/2 = 1

-log
2
1/3 = 1.58

-log
2
1/6 = 2.5

TOTAL DEL MENSAJE

1/2*1 + 1/3*1.58 +
1/6*2.58 = 1.46 Bits

MENSAJE M
1
M
2
M
3
PROBABILIDADES
DEL MENSAJE
2/3 1/4 1/12
MENSAJE
-log
2
2/3 = 0.58 -log
2
1/4 = 2 -log
2
1/12 = 3.5
TOTAL DEL MENSAJE
2/3*058 + 1/4*2 +
1/12*3.5 = 1.18 Bits
Cambio de ocurrencia
En base a todo lo anterior podemos
dar una definicin del concepto de
entropa.
Sea una variable aleatoria (X)
que toma valores de un conjunto
A = [ a
1
, a
2
, .....a
n
]
dotado de una funcin de
probabilidades
p(a
i
) = Prob [X=a
i
] para p(a
i
) = 1
Si I(a
i
) es el grado de incertidumbre sobre
la realizacin de un suceso X definimos
la entropa de la variable X como la
esperanza matemtica de I(x) relativa al
conjunto A.
H[X] = E[I(X)] = p(a
i
) I(a
i
)
H[X] = E[I(X)] = - p(a
i
) log p(a
i
)
La entropa de un mensaje X, que se representa por
H(X), es el valor medio ponderado de la cantidad de
informacin de los diversos estados del mensaje.
Es una medida de la incertidumbre media acerca de
una variable aleatoria y el nmero de bits de
informacin.
k
H(X) = - p(a
i
) log
2
p(a
i
)
i = 1
El concepto de incertidumbre en H puede aceptarse. Es evidente que la
funcin entropa representa una medida de la incertidumbre, no obstante se
suele considerar la entropa como la informacin media suministrada por cada
smbolo de la fuente
Esto lo
veremos ms
adelante
Definicin de entropa
Definicin de entropa
Caso 1 ----------> 1 bola negra (N) y 1 bola banca (B)
Caso 2 ----------> 9 bolas negras (N) y 1 bola banca (B)
Caso 3 ----------> 99 bolas negras (N) y 1 bola banca (B)
Caso 1
N -----> p(x
1
) = 1/2
B ----> p(x
2
) = 1/2
H[x1] = -[1/2 log
2
1/2 + 1/2 log
2
1/2] = 1 Bits
continuacin
continuacin
Caso 1
N -----> p(x1) = 1/2
B ----> p(x2) = 1/2
H[x1] = -[1/2 log2 1/+
1/2 log2 1/2] = 1 Bits
Caso 2
N --> p(x
1
) = 9/10
B --> p(x
2
) = 1/10
H[x1] =[1/10 log
2
1/10 +
9/10 log
2
9/10] = 0.67 B
Caso 3
N --> p(x
1
) = 99/100
B --> p(x
2
) = 1/100
H[x1] = [1/100 log
2
1/100 + 99/100
log
2
99/100] = 0.08 Bits
El primer caso es ms incierto que el segundo y este ms que el tercero,
en el cual se tiene la certeza de obtener la bola negra. O sea que la
entropa aumenta cuando aumenta la incertidumbre
Aquiles:
Aquiles:
Qu
Qu
es lo que hace
es lo que hace
un s
un s
mbolo que no pueda

mbolo que no pueda
hacer una se
hacer una se
al?
al?
Oso Hormiguero: Es algo as como la
diferencia entre palabras y letras. Las palabras,
que son entidades portadoras de significado,
estn compuestas por letras, que en si mismas no
portan significado alguno. Esto da una buena idea
de la diferencia entre smbolos y seales. De
hecho, es una analoga til en la medida que Ud.
tenga en mente el hecho de que las palabras y
letras son pasivas; los smbolos y seales son
activos.
Douglas R. Hofstadter.
Douglas R. Hofstadter.
Parte del di
Parte del di
logo ...
logo ...
furnmiga
furnmiga
, del libro
, del libro
G
G
del
del
,
,
Escher
Escher
, Bach un Eterno y Gr
, Bach un Eterno y Gr
cil Bucle
cil Bucle
ENTROPIA
ENTROPIA
CONDICIONAL
CONDICIONAL
Preliminares
Preliminares
Supongamos que tenemos en una
empresa 125 ordenadores
conectados en red a un servidor.
Algunos de ellos son PCs, mientras
que el resto son simples terminales.
Tambin se sabe que algunos son
antiguos, y otros han sido
comprados ms recientemente.
La distribucin que tenemos es la
La distribucin que tenemos es la
siguiente
siguiente
:
Nmero de PCs = 48,
PCs antiguos = 10
PCs nuevos = 38
.
Terminales = 77, de
Terminales antiguas
= 51
Terminales nuevas =
26
Veamos ahora lo que significa la probabilidad condicional
Si nos preguntamos
sobre la posibilidad
de que un equipo
elegido al azar sea
un PC, la respuesta
ser:
p(a)=48/125=0.384.
En cambio, si sabemos
que el equipo
seleccionado es antiguo,
nos podemos valer de
esta condicin para
calcular por ejemplo la
probabilidad de que sea
un PC:
p(a)=10/(10+51)= 0.163
En el lenguaje
matemtico, se
expresa la
probabilidad de que
un evento a
i
suceda
condicionado a que
se de otro suceso b
j
de la siguiente
manera
p(
a
b
) =
p( a , b )
p(b )
[1,4]
i
j
i j
j
PROBABILIDAD PROBABILIDAD
CONDICIONAL CONDICIONAL
PROBABILIDAD CONDICINAL
PROBABILIDAD CONDICINAL
p(a
i
/b
j
) =
probabilidad de
obtener a
i
cuando haya
ocurrido b
j
.
p(b
j
/a
i
) =
probabilidad de
obtener b
j
cuando haya
ocurrido a
i
.
Es decir que la
probabilidad que existe
de se transmite a
i
y se
reciba b
j
es:
p(a
i
,b
j
) = p(b
j
) p(a
i
/b
j
)
que es igual a la
probabilidad de que se
reciba b
j
por la
probabilidad de que
habiendo recibido b
j
se
haya transmitido a
i
.
Propiedades de la entropa
Propiedades de la entropa
Entropa mxima:Probabilidades
equiprobables.
p(a
1
) = p(a
2
) =....= p(a
n
) p
i
= 1/n
H[A] = mxima
H[A] = - p(a
1
) log p(a
1
) - p(a
1
) log
p(a
1
) = - n p(a
1
) log p(a
1
) = n 1/n log
1/n = log n
H[A]
max
= log n
La entropia es mxima cuando todos los mensajes, o todos las componentes del
alfabeto fuente tienen la misma probabilidad.
Teorema: Para cualquier otra
distribucin de probabilidades, en las
cuales todos los valores de las
probabilidades sean iguales, la entropia
es menor.
ln x x-1 ( Desigualdad de Jessen)
p
i
ln p
i
'/p
i
p
i
(p
i
'- p
i
)/p
i

Sea y = ln x , la tangente en el
punto
x
1
= 1 y - y
1
= m (x - x
1
)
m = y' = 1/x
Los valores en los puntos son:
m
x- 1
= 1
x
1
= 1
y
1
=0
y = x-1
siempre ln x x-1 cumplindose la igualdad
solamente en x = 1.
Haciendo en nuestro caso x = p
i
'/p
i
ln
p
i
'/p
i
p
i
'/p
i
- 1
cumplindose la igualdad en el caso que
p
i
'=p
i
Multiplicamos los dos miembros de la
desigualdad por p
i
y sumamos para todas
las i.
p
i
ln p
i
'/p
i
p
i
(p
i
'- p
i
)/p
i

p
i
ln p
i
'/p
i
p
i
' - p
i

p
i
ln p
i
'/p
i
0
p
i
ln p
i
' - p
i
ln p
i
0
p
i
ln p
i
' p
i
ln p
i
En general
p
i
log p
i
' p
i
log p
i
la igualdad se cumple cuando p
i
= p
i
'
Si p
i
' = 1/n , o sea que todos los sucesos
son igualmente probables entonces en
p
i
log (1/n) p
i
log p
i

log (1/n) p
i
p
i
lg p
i
-log (1/n) - p
i
lg p
i
H[A] = - log (1/n)
H[A] log n , pero H[A]
max
= log n
H[A] H[A]
max
Propiedades(continuacin)
Propiedades(continuacin)
Propiedad aditiva:
H[AB] = - p(a
i
b
j
) log p(a
i
b
j
)
H[AB] = H[A] + H[B]
Sean dos fuentes A y B de alfabetos
A = [ a
1
, a
2
,....a
n
]
B = [ b
1
, b
2
,....b
m
]
y sus probabilidades asociadas:
p(A) = [ p(a
1
), p(a
2
),....p(a
n
)
p(B) = [ p(b
1
), p(b
2
),....p(b
m
)
Consideremos la fuente compuesta
AB = [ a
1
b
1
, a
2
b
2
,.... a
n
b
m
]
p(AB) = [ p(a
1
b
1
), p(a
2
b
2
),.... p(a
n
b
m
)]
donde si los sucesos son
estocsticamente independientes, la
ocurrencia de a
i
no altera la la
probabilidad de b
j
.
p(a
i
b
j
) = p(a
i
) p(b
j
)
H[AB] = -p(a
i
b
j
) log p(a
i
b
j
) = - p(a
i
) p(b
j
)
log p(a
i
) p(b
j
)= - p(a
i
) p(b
j
) log p(a
i
) -
p(a
i
) p(b
j
) log p(b
j
) = - p(a
i
) p(b
j
) log p(b
j
)
- p(b
j
) p(a
i
) log p(a
i
) =
- p(b
j
) log p(b
j
) - p(a
i
) log p(a
i
) =
H[A] + H[B]
Cuando los mensajes de las fuentes son
estocsticamente independientes la
entropa de la fuente compuesta es igual a
la suma de las entropas de cada una de
las fuentes.
H[AB] = H[A] + H[B]
Propiedades (continuacin)
Entropa condicional.
H[A/B] = - p(a
i
,b
j
) log p(a
i
/b
j
)
H[A/B] se llama ambigedad o equvoco
H[B/A] = - p(a
i
,b
j
) log p(b
j
/a
i
H[B/A] se llama error medio
A = [ a
1
, a
2
,....a
n
]
B = [ b
1
, b
2
,....b
m
]
y sus p(A) = [ p(a
1
), p(a
2
),....p(a
n
)
p(B) = [ p(b
1
), p(b
2
),....p(b
m
)
AB = [ a
1
b
1
, a
2
b
2
,.... a
n
b
m
] y de
probabilidades
p(AB) = [ p(a
1
b
1
), p(a
2
b
2
),.... p(a
n
ab
m
)]
donde si los sucesos a
i
y b
j
no son
estocsticamente independientes
existe un enlace
estocstico entre a
i
y
b
j
que est dado por
las probabilidades
condicionales:
p(a
i
/b
j
) = probabilidad
de obtener a
i
cuando
haya ocurrido b
j
.
p(b
j
/a
i
) = probabilidad
de obtener b
j
cuando
haya ocurrido a
i
.
p(
a
b
) =
p( a , b )
p(b )
[1,4]
i
j
i j
j
Es decir que la probabilidad que existe de
se transmite a
i
y se reciba b
j
es:
p(a
i
,b
j
) = p(b
j
) p(a
i
/b
j
)
que es igual a la probabilidad de que se
reciba b
j
por la probabilidad de que
habiendo recibido b
j
se haya transmitido
a
i
.
Si los acontecimientos a la salida son
conocidos , existe una cierta incertidumbre
sobre los acontecimientos a la entrada. El
valor medio de esta incertidumbre es lo
que se llama la entropa de la fuente A
condicionada por la fuente B, esto es
H[A/B]
Si b
j
es el smbolo que aparece a la salida
de la fuente, existe una cierta
incertidumbre sobre el smbolo emitido a
la entrada que puede ser a
1
a
2
...a
i
. El
valor medio de esta incertidumbre sobre
los smbolos de entrada cuando se
conoce a la salida b
j
es el valor de la
entropa condicional H[A/b
j
], que valdr
segn la definicin de entropa:
H[A/b
j
] = - p(a
i
/b
j
) log p(a
i
/b
j
)
El valor medio de esta entropa para todos
los posibles valores de b
j
es:
H[A/B] = - p(b
j
) log H[A/b
j
]
H[A/B] = - p(b
j
) p(ai/b
j
) log p(a
i
/b
j
)
pero p(b
j
) p(a
i
/b
j
) = p(a
i
,b
j
)
pero p(b
j
) p(a
i
/b
j
) = p(a
i
,b
j
)
entonces la ecuacin anterior
quedara:
H[A/B] = - p(a
i
,b
j
) log p(a
i
/b
j
)
La entropa H[A/B] se llama
ambigedad o equvoco porque nos
da la medida de la incertidumbre sobre
el campo de entrada, cuando se
conoce la salida
La entropa H[B/A] se llama error medio
porque nos da la medida de la
incertidumbre sobre el campo de salida ,
cuando se conoce los smbolos de
entrada.
De la misma manera se demuestra que:
H[B/A] = - p(a
i
,b
j
) log p(b
j
/a
i
)
Ley de las entropas totales.
AB = [ a
1
b
1
, a
2
b
2
,.... a
n
b
m
] y de
probabilidades
p(AB) = [ p(a
1
b
1
), p(a
2
b
2
),.... p(a
n
b
m
)]
La entropa de esta fuente ser:
H[AB] = - p(a
i
b
j
) log p(a
i
b
j
) = -
p(a
i
) p(b
j
/a
i
) log p(a
i
) p(b
j
/a
i
)
Realizando el logaritmo del producto
H[AB] = - p(a
i
) p(b
j
/a
i
) log p(a
i
) -
p(a
i
) p(b
j
/a
i
) log p(b
j
/a
i
)
Pero - p(a
i
) p(b
j
/a
i
) log p(a
i
) = -
p(b
j
/a
i
) p(a
i
) log p(a
i
) = H[A]
ya que p(b
j
/a
i
) = 1
El segundo sumando de la ecuacin
- p(a
i
) p(b
j
/a
i
) log p(b
j
/a
i
) = - p(b
j
a
i
)
log p(b
j
/a
i
) = H[B/A]
Sustituyendo estos valores
H[AB] = H[A] + H[B/A]
H[AB] = H[A] + H[B/A]
Condicin
Para que sea suma de las entropas
Otras propiedades de la
entropa:
La entropa de una fuente A cuyo
alfabeto est condicionado por el
alfabeto de una fuente B siempre es
igual o menor que el de una fuente A,
alcanzndose la igualdad en el caso
de que los alfabetos de las fuentes
sean independientes.
H[A/B] H[A] o H[B/A] H[B]
Otras propiedades de la
entropa
La entropa de una fuente AB cuyo
alfabeto se obtiene como las posibles
parejas de smbolos de las fuentes A {a
i
}
y B {b
j
} es siempre menor o igual a la
entropa de cada una de las fuentes por
separado.
H[AB] H[A] + H[B]
A = [ a
1
, a
2
,....a
n
]
B = [ b
1
, b
2
,....b
m
]
y sus probabilidades asociadas p(A) = [
p(a
1
), p(a
2
),....p(a
n
)
p(B) = [ p(b
1
), p(b
2
),....p(b
m
)
AB = [ a
1
b
1
, a
2
b
2
,.... a
n
b
m
] y de
probabilidades
p(AB) = [ p(a
1
b
1
), p(a
2
b
2
),.... p(a
n
ab
m
)]
Sabemos que:
p(a
i)
=
j
p(a
i
b
j
)
p(b
j)
=
i
p(a
i
b
j
)
Entonces los valores de las entropas de las
fuentes A y B se pueden escribir:
H[A] = - p(a
i
) log p(a
i
) = - p(b
j
a
i
) log
p(a
i
)
H[B] = - p(b
j
) log p(b
j
) = - p(b
j
a
i
) log
p(b
j
)
Sumando las ecuaciones
H[A] +H[B] = - p(b
j
a
i
) log [p(a
i
) p(b
j
) ]
Aplicando la desigualdad de Jessen [1.2]
al caso de dos variables
p(b
j
a
i
) log p'(a
i
,b
j
) p(b
j
a
i
) log
p(a
i
b
j
) [1.14]
Pero el segundo miembro de la
desigualdad p(b
j
a
i
) log p(a
i
b
j
) = -
H[AB]
Pero p'(a
i
,b
j
) = p(a
i
) p(b
j
) ya que esta
probabilidad se corresponda cundo los
sucesos eran estocsticamente
independientes, entonces el primer
miembro de la desigualdad ser:
p(b
j
a
i
) log p'(a
i
,b
j
) = p(b
j
a
i
) log
[ p(a
i
) p(b
j
)] = p(b
j
a
i
) log p(a
i
) +
p(b
j
a
i
) log p(b
j
) = - [ H[A] + H[B]
Entonces en la desigualdad
- [ H[A] + H[B] ] - H[AB]
Cambiando de signo
H[AB] [ H[A] + H[B]
H[A/B] H[A] o H[B/A] H[B] :
H[AB] H[A] + H[B]
IDEA
Diferenciar entre entropa y informacin m
CANTIDAD DE INFORMACION
DE SHANNON
La obtencin de informacin sobre el
resultado de una experiencia
representaba una disminucin de la
incertidumbre asociada a la misma.
Dadas dos variables aleatorias A, B se
llama cantidad de informacin de
Shannon que la variable A suministra
sobre la variable B a la diferencia
I(A,B) = H[A] - H[A/B]
Propiedades de la cantidad
de informacin
La informacin que una variable
contiene sobre otra coincide con la que
sta contiene sobre la primera.
En efecto
H[A,B] = H[A] + H[B/A] = H[B] + H[A/B]
====>
H[A] - H[A/B] = H[B] - H[B/A]
I(A,B) = I(B,A)
Propiedades de la
cantidad de informacin
La cantidad de informacin que una
variable contiene sobre otra es siempre
positiva y es nula si existe
independencia estocstica entre ellas.
Sabemos que H[B/A]< H[B] =====>
I(A,B)= H[B] - H[B/A]> 0 cuando existe
independencia estocstica entre las
variables
H[B/A]= H[B] => I(A,B)= H[B] - H[B]= 0
Propiedades de la
La cantidad de informacin mxima que
una variable contiene sobre otra est
acotada por su entropa y coincide con la
informacin que la variable contiene sobre
s misma.
I(A,B)= H[B] - H[B/A]< H[B]
por ser H[B/A]> 0 y como H[B/B] = H[B]
I(B,B)= H[B]
Propiedades de la
Otra forma de expresar la informacin
partiendo de las propiedades de la
entropa.
Como
H[A,B] = H[A] + H[B/A] ===>
H[A/B] = H[A,B] - H[B]
Entonces en la informacin mutua
I(A,B)= H[B] - H[B/A]=
= H[A] + H[B] - H[A,B]
PROBLEMA
PROBLEMA
Un emisor dispone de
un alfabeto de cinco
smbolos A[a
1
a
2
a
3
a
4
a
5
] y un receptor de
un alfabeto de cuatro
smbolos B[b
1
b
2
b
3
b
4
]. Sabiendo que las
probabilidades de
acoplamiento vienen
dadas por la matriz
[M]
0.15 0 0 0
a
5
0 0 0.2 0.15
a
4
0 0.10 0 0
a
3
0 0.10 0 0
a
2
0 0.05 0 0.25
a
1
b
4
b
3
b
2
b
1
P(a
i
b
j
)
Calcular :
1.- La matriz probabilidades de entrada y
de salida.
2.- La matriz P[a
i
/b
j
] y P[b
j
/a
i
]
La entropa de entrada H[A] y de salida
H[B]
Las entropas H[A/b
j
] y H[A/B]
La entropa compuesta H[A,B]
Codificador ptimo
Codificador ptimo
Nos falta encontrar el segundo trmino pendiente en
la definicin de cantidad de informacin: codificador
ptimo.
Introduciendo el signo negativo dentro del logaritmo
en la expresin de la entropa, nos quedar como:
H(X) = p(x) log
2
[1/p(x)]
i
La expresin log
2
[1/p(x)] representa el nmero
necesario de bits para codificar el mensaje X en un
codificador ptimo.
Un codificador ptimo es aquel que usa el
nmero menor de bits para codificar un mensaje X.

Diapositivas Tema1 1

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Diapositivas Tema1 1

Cargado por

Copyright:

Formatos disponibles

Copyright, mgonzalez

Conjunto de datos o mensajes inteligibles creados con

Conjunto de datos o mensajes inteligibles creados con

Ante una pregunta cualquiera, una respuesta concreta

Pregunta: Hace calor all?

Respuesta 1: S, hace mucho calor.

Respuesta 2: Cuando no sopla el viento, el calor all es

Si todas son igualmente

mbolo que no pueda

También podría gustarte