Está en la página 1de 54

Probabilidad

Introducción

Ivan Ladino
Notas de clase
——

III - 2019
Introducción

En muchos casos se cree que los análisis estadísticos y probabilísti-


cos son una necesidad sustentadas en nuestra ignorancia temporal
acerca del comportamiento de un fenómeno o la naturaleza. Sin
embargo, en la mecánica cuántica, la incertidumbre es inherente
a los fenómenos cuánticos y no simplemente una consecuencia de
los vacíos de la teoría. En otras palabras si se llegase a tener el
desarrollo y conocimiento total respecto a la mecánica cuántica, aun
se haría necesario el uso de la probabilidad y la estádistica.

Independientemente de cual sea el caso particular, nosotros estamos


obligados a emplear modelos probabilísticos en el mundo real por
cuanto, no conocemos, no podemos calcular o no podemos medir
todos las fuerzas o entradas que contribuyen a un efecto dado. Las
fuerzas o entradas además, pueden ser muy numerosas, complicadas
o muy débiles.
2/54
Introducción

Escuetamente podemos decir que la Probabilidad es un modelo


matemático, que nos permite estudiar sistemas físicos en un sentido
promedio.

Los ejemplos de la aplicación de la probabilidad en ingeniería son


innumerables, sin embargo podemos mencionar algunos:
Análisis del comportamiento de los sistemas de comunicaciones
en presencia de ruido.
Estimación de la tasa de errores en un canal de comunicaciones.
Análisis de los sistemas de control en presencia de perturbacio-
nes de naturaleza aleatoria.
Estudio de sistemas de potencia con cargas con comportamiento
estocástico.

3/54
Ejemplos

Estudio de los datos cuantitativos de la población o, de los


recursos naturales e industriales.
Estimación de mortalidad en un país bajo diferentes condiciones
de la dieta de alimentación
Análisis de las tasas de criminalidad por ciudad o por condición
socio cultural.
Estudio del impacto de la publicidad, en las intensiones de com-
pra de los usuarios de un servicio o de un producto.
Análisis de los tiempos de atención a los reclamos presentados
por los ciudadanos a una empresa del estado.

4/54
Probabilidad y la intuición

Definición (La Probabilidad como Intuición)


En esta clase de probabilidad usamos la intuición para hacer juicios.
Por ejemplo cuando predecimos el estado futuro del clima, cuando
tratamos de inferir el resultado de un experimento como el del lanza-
miento de una moneda. Desafortunadamente se basa en el "sentido
común“ y no se puede generalizar su uso mas allá de algunos ca-
sos particulares elementales como el del lanzamiento de una moneda.

5/54
Probabilidad Frecuentista

Definición (La Probabilidad frecuentista)


Se entiende por probabilidad frecuentista a la medida de la frecuen-
cia relativa de un evento observado en un intervalo de tiempo muy
grande, durante el cual se han realizado un gran número de ensayos.
Un ’‘tiempo muy grande” significa que el valor medido de la proba-
bilidad ha alcanzado un valor estable y que realizar mas ensayos del
experimento no sesgara el valor obtenido.
Dado un suceso o evento S la probabilidad frecuentista de S corres-
ponde a:
P(S) = N→∞ lim n
N
dónde n es el número de ocurrencias del evento S en N realizaciones
del experimento.

6/54
Modelo Secuencial

En muchos experimentos se tiene una estructura secuencial, por me-


dio de la cual se dan los diferentes resultados, por ejemplo el ex-
perimento de lanzar un dado dos veces y registrar los números que
aparecen en la cara superior. En muchos casos es muy útil emplear
arboles para representar los modelos secuenciales:
(1, 1)

(1, 2)
1
(1, 6)

(2, 1)

(2, 2)
2
(2, 6)

(6, 1)

(6, 2)
6
(6, 6)

7/54
Definición Axiomática de la Probabilidad
El enfoque axiomático es realmente el enfoque formal desde el cual se
debe estudiar la probabilidad. Pero antes, se hace necesario introducir
algunas ideas, como las asociadas a lo que representa un experimento
aleatorio, el espacio muestreal y los eventos:
Definición
Un Experimento aleatorio H es un experimento en el cual los resul-
tados no son determinísticos, es decir son probabilísticos.

Definición
El Espacio Muestreal se denota por Ω y corresponde a él conjunto
de todos los posibles resultados del experimento.

Definición
Un Evento E es un subconjunto del espacio muestreal que satisfa-
ce ciertas restricciones. Sin embargo, casi cualquier subconjunto del
espacio muestreal es un evento.
8/54
Conjuntos, Campos y Eventos
Definición
un Conjunto C es una colección de objetos concretos o abstrac-
tos. Un ejemplo de conjunto de objetos concretos es la colección
de nombres de estudiantes del curso. Formalmente se denota como:
C = {x|x satisface p(x)}; es decir, todos los elementos x tal que
(|), cada x cumple con la propiedad p(x).

El espacio muestreal Ω es el conjunto de todos los posibles resultados


de un experimento, también se le llama el evento cierto
cierto.
Ejemplo
Un experimento H consiste en lanzar una moneda y observar los
posibles resultados. Entonces Ω = {C , S} S}, donde C representa la
cara y S el sello.
Otro experimento consiste en escoger al azar una persona y contar
los cabellos en su cabeza, entonces " el conjunto espacio muestreal
corresponde a: Ω = 0, 1, 2, · · · 107
!

9/54
Conjuntos, Campos y Eventos

En los ejemplo anteriores, el número de elementos que contiene cada


espacio muestreal es de naturaleza finita y además numerable. Pero
no todos los espacios muestreales son finitos y, en otros casos no son
numerables.
Ejemplo
El experimento que consiste en escoger al azar un número entero
tiene como espacio muestreal infinito pero numerable al siguiente:
Ω = {· · · , −3, −2, −1, 0, 1, 2, 3, · · · }
El experimento de medir la temperatura en la ciudad de Bogotá tiene
el siguiente espacio muestreal:
Ω = {t|1o ≤ t ≤ 25o }
Donde el símbolo | denota "tal que:“ y, "1o ≤ t ≤ 25o es una
propiedad“ Este espacio muestreal es infinito y no numerable puesto
que existen infinitas temperaturas entre 1o y 25o .

10/54
Conjuntos, Campos y Eventos
(Álgebra de Conjuntos)
La unión - ∪ de dos conjuntos E y F , se denota por E ∪ F (ó,
E + F ) y, corresponde al conjunto de todos los elementos que se
encuentran en alguno de los dos conjuntos E y F . Por ejemplo, sean
los conjuntos E = {1, 3, 4} y F = {1, 2, 4, 5, 6}, entonces:
E ∪ F = {1, 2, 3, 4, 5, 6}
Por otro lado, si un conjunto A es un subconjunto de un conjunto
B lo denotamos por A ⊂ B (A esta contenido en B), por ejemplo
dados A = {a, d, g } y B = {a, b, c, d, e, f , g , h, i }, entonces A ⊂ B.

Para indicar que un elemento ζ pertenece al conjunto Ω se escribe


ζ ∈ Ω. Por lo tanto, la unión de dos conjuntos A y B la podemos
escribir formalmente como:
A ∪ B = {ζ | ζ ∈ A o ζ ∈ B o ζ esta en ambos}
es decir, todos aquellos elementos ζ tal que, ζ esta en A o esta en
B o en ambos.
11/54
Conjuntos, Campos y Eventos
(Álgebra de Conjuntos)
La intersección - ∩ entre dos conjuntos C y D se denota por C ∩ D
CD. Si C = {α, β, γ} y D = {α, ω, θ, γ, φ}, entonces:
o CD
C ∩ D = {α, γ}
Formalmente podemos escribir la intersección como:
C ∩ D = {ζ | ζ ∈ C y ζ ∈ D}
El complemento de un conjunto E contenido en un conjunto universal
Ω, lo denotamos por E o E c y, corresponde al conjunto de elementos
que están en Ω pero no están en E . Por ejemplo, si el conjunto
Ω = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} y el conjunto E = {2, 4, 8, 9} entonces
el complemento de E es el conjunto:
E = E c = {0, 1, 3, 5, 6, 7}
Notemos que E ∪ E = Ω y que E ∩ E = ∅, donde ∅ denota el
conjunto vacío o sin elementos.
Nota: en adelante usaremos la notación E para E c .
12/54
Conjuntos, Campos y Eventos

(Álgebra de Conjuntos)
La diferencia entre dos conjuntos E y F se denota por E −F y consiste
en la reducción del conjunto E por el conjunto F . En otras palabras,
es el conjunto de elementos que están en E pero no están en F .
Por ejemplo, si E = {blue, red, brown, white, black, orange, pink} y
F = {brown, pink, red}, entonces:
E − F = {blue, white, black, orange}
Formalmente podemos expresar la diferencia entre dos conjuntos de
la siguiente forma:
E − F = {ζ | ζ ∈ E ∧ ζ ∈
/ F}
dónde, el símbolo ∧ significa “y”. Puede mostrarse facilmente que:
E −F = EF
F −E = FE
además, por lo general se tiene que: E − F )= F − E .
13/54
Conjuntos, Campos y Eventos

(Álgebra de Conjuntos)
La O-exclusiva o XOR entre dos conjuntos E y F se denota por E ⊕F
y corresponde a:
E ⊕ F = (E − F ) ∪ (F − E )
disjuntos, si E ∩ F = ∅, esto significa
A dos conjuntos se le dicen disjuntos
que no tienen elementos en común.
Una n-partición de un conjunto E , consiste en una secuencia de
conjuntos Ei con i = 1, 2, · · · , n tal que:
Ei ∩ Ej = ∅ ∀ i )= j con i , j ∈ {1, 2, · · · , n}
#n
Ei = E
i =1
Un caso particular de una partición corresponde a:
F = FE ∪ F E

14/54
Conjuntos, Campos y Eventos

(Leyes de Morgan)
Por medio de los diagramas de Venn o mediante la definición formal
de conjuntos es fácil demostrar los siguientes dos resultados:
(E ∪ F ) = E ∩ F y (E ∩ F ) = E ∪ F
por inducción matemática, con la sucesión de conjuntos: E1 , · · · , En ,
es fácil demostrar:
! n # n
" $
Ei = Ei
i =1 i =1
n n
! #
$ "
Ei = Ei
i =1 i =1
a estas dos últimas expresiones se les conoce como las leyes de Mor-
gan.

A dos conjuntos E , F se les dice iguales sí: E ⊂ F y F ⊂ E .


15/54
Conjuntos, Campos y Eventos

Definición (Campos Sigma σ)


Sea Ω el conjunto universal o espacio muestreal, denotemos por
E , F , · · · a la colección de subconjuntos de Ω. Esta colección de
subconjuntos forma un campo sigma M si se cumplen las siguientes
propiedades:
1. φ ∈ M , Ω ∈ M
2. sí E ∈ M y F ∈ M , entonces E ∪ F ∈ M y, EF ∈ M
3. sí E ∈ M entonces, E ∈ M

Un campo sigma F , es cerrado bajo cualquier union numerable de


conjuntos, intersecciones o combinaciones. Es decir:
n
" $n
sí E1 , · · · , Ek · · · F ∈=⇒ Ei ∈ F ∧ Ei ∈ F
i =1 i =1
∪∞
i =1 Ei = {conjunto, donde cada elemento esta en al menos un Ei }

∩i =1 Ei = {conjunto, donde cada elemento esta en todos los Ei }
16/54
Conjuntos, Campos y Eventos

(Definición Axiomática de Probabilidad)


Dado un campo sigma F , la probabilidad es una función P[·] sobre
conjuntos, que asigna a cada evento E ∈ F un número P[E ] llamado
la probabilidad de E , tal que:
(1) P[E ] ≥ 0
(2) P[Ω] = 1
(3) P[E ∪ F ] = P[E ] + P[F ] si EF = ∅

con estos axiomas se pueden probar en forma muy fácil, las siguientes
cuatro propiedades:
(4) P[∅] = 0
(5) P[E F ] = P[E ] − P[EF ] donde E ∈ F y F ∈ F
(6) P[E ] = 1 − P[E ]
(7) P[E ∪ F ] = P[E ] + P[F ] − P[EF ]
17/54
Conjuntos, Campos y Eventos

Teorema (Extensión propiedad 7 )


La probabilidad P de que al menos uno de los eventos E1 , E2 , · · · , En
ocurra en un experimento esta dada por:
P = S1 − S2 + · · · ± Sn
donde:
%n
S1 = i =1 Pi
%
S2 = 1≤i <j≤n Pij
.... ..
. . .
%
Sn = i ≤i <j<k<···<l≤n Pijk···l

Observación
La demostración se realiza por inducción. Se deja como ejercicio.

18/54
Conjuntos, Campos y Eventos

(Eventos)
Si y solo si, el espacio muestreal Ω de un experimento H tiene un
número contable de elementos, entonces a cada subconjunto de Ω
se le puede asignar una probabilidad consistente con los tres axiomas
dados en la definición anterior . Entonces, la clase formada por todos
los subconjuntos de Ω conforman un campo σ y cada subconjunto
es un evento.

Sin embargo, cuando Ω no es contable, por ejemplo Ω = R, no se


le puede asignar una probabilidad consistente con esos tres axiomas;
por lo cual, solo se les llamará eventos a aquellos conjuntos que se
les puede asignar una probabilidad consistente con los tres axiomas.
La colección de todos estos subconjuntos es mas pequeña que la
colección de todos los posibles subconjuntos de Ω y, conforma un
campo σ.

19/54
Probabilidades conjuntas, condicionales y totales

Para introducir el concepto de probabilidad conjunta iniciaremos por


un ejemplo.
Ejemplo
Supongamos que estamos analizando datos acerca de la temperatu-
ra en cierta ciudad y que en particular estamos interesados en los
siguientes tres eventos:
A: evento de que en cualquier día, la temperatura iguale o exceda
los 10 grados centígrados (10o ).
B: evento de que en cualquier día la precipitación iguale o exceda
a 5 milímetros.
C: corresponde al evento de que ocurran a la vez A y B
A la probabilidad P[C ] la llamaremos la probabilidad conjunta de los
eventos A y B.

20/54
Probabilidades conjuntas, condicionales y totales
Ejemplo (continuación)
Supongamos que el experimento asociado al ejemplo, consiste en
medir diariamente la temperatura y la precipitación en un periodo
de n = 1000 días. Denotaremos con ni el número de días en que el
evento i ocurre, con i igual a A o B o, AB.
Después de las observaciones se obtiene que, nA = 811, nB = 306
y nAB = 283, por la interpretación de frecuencia relativa para la
probabilidad obtenemos:
nA 811
P[A] ( = = 0,811
n 1000
nB 306
P[B] ( = = 0,306
n 1000
nAB 283
P[AB] ( = = 0,283
n 1000
La probabilidad P[AB] corresponde a la fracción del tiempo para la
cual la precipitación iguala o excede a 5mm y la temperatura iguala
o excede los 10o .
21/54
Probabilidades conjuntas, condicionales y totales

(Probabilidad condicional)
Ahora consideremos la frecuencia relativa nAB /nA , ello equivale a la
frecuencia relativa del evento AB, dado que el evento A ha ocurrido.
notemos que:
nAB nAB /n P[AB]
= (
nA nA /n P[A]
esta última corresponde a la probabilidad condicional de B dado A:
P[AB]
P[B|A] ! con P[A] > 0
P[A]
entonces, P[B|A] es la probabilidad de que B ocurra, dado que ocu-
rrió A. En forma similar, la probabilidad de que ocurra A, dado que
ocurrió B, corresponde a:
P[AB]
P[A|B] ! con P[B] > 0
P[B]

22/54
Probabilidades conjuntas, condicionales y totales

Teorema (Probabilidad Total)


Sean S1 , S2 , · · · , Sk , k eventos mutuamente excluyentes, tales que:
"k
Si = Ω
i =1
con p[Si ] )= 0 para todo i = 1, 2, · · · , k, entonces la probabilidad de
un evento A corresponde a:
&k
P[A] = P[A|S1 ]P[S1 ] + · · · + P[A|Sk ]P[Sk ] = P[A|Si ]P[Si ] (1)
i =1
Por la definición de probabilidad condicional, en (1) cada sumando:
P[A|Si ]P[Si ] = P[ASi ] y, como todos los eventos S1 , S2 , · · · , Sk son
mutuamente excluyentes, entonces todas las intersecciones A ∩ Si
también lo son, en consecuencia:
%k
P[A] = P[AS1 ] + · · · P[ASk ] = i =1 P[ASi ] = P[∪ki=1 ASi ] = P[A ∩ Ω] = P[A]

23/54
Probabilidades conjuntas, condicionales y totales

Ejemplo
PY |X (0|0)
PX (0) PY (0)

) PY
(0|1 |X (1|
P Y |X 0)

PX (1) PY (1)
PY |X (1|1)

Figura 1: Canal Binario

En un canal binario no simétrico, las probabilidades totales a la salida


corresponden a:
PY (0) = PY |X (0|0)PX (0) + PY |X (0|1)PX (1)
PY (1) = PY |X (1|0)PX (0) + PY |X (1|1)PX (1)

24/54
Probabilidades conjuntas, condicionales y totales

Definición (Eventos independientes)


Dos eventos, A ∈ F y B ∈ F con P[A] > 0 y P[B] > 0 se dice que
son independientes si y solo si:
P[AB] = P[A]P[B]

Como P[AB] = P[A|B]P[B] = P[B|A]P[A], entonces se deduce


que:
P[A|B] = P[A] y P[B|A] = P[B]
es decir que la ocurrencia B no afecta la probabilidad de ocurrencia
de A y viceversa.
El resultado se puede extender a varios eventos independientes:
P[A1 ∩ A2 ∩ · · · ∩ Ak ] = P[A1 , A2 , · · · , Ak ] = P[A1 ] · · · P[Ak ]
A esta fórmula se le conoce como la regla de multiplicación para
eventos independientes.

25/54
Probabilidades conjuntas, condicionales y totales

(Probabilidad Condicional)
De la definición de probabilidad condicional tenemos que:
P[AB] = P[A|B]P[B] = P[B|A]P[A]
de donde podemos despejar:
P[B|A]P[A] P[A|B]P[B]
P[A|B] = y P[B|A] =
P[B] P[A]

Definición
Usando la ley de probabilidad total y una partición Si del espacio
muestral Ω, si ocurre un evento A, la probabilidad posterior de Si
dado el evento A corresponde a:
P[A|Si ]P[Si ]
P[Si |A] = $k para i = 1, 2, · · · , k.
i =1 P[A|Si ]P[Si ]

26/54
Probabilidades conjuntas, condicionales y totales

(Permutaciones)

27/54
Ejemplos

Ejemplo
Demostrar que un conjunto S con n elementos tiene Cnk subconjuntos
de k elementos
Demostración.
La demostración se realiza por inducción sobre k. Para k = 1 es
evidente que el número de subconjuntos es igual a n, tal como se
puede comprobar al reemplazar k = 1 en Cnk :
' (
n n!
Cn1 = = =n
1 1!(n − 1)!
Supongamos que para k el número de subconjuntos es:
' (
k n n!
Cn = =
k k!(n − k)!
ahora encontremos el resultado para k + 1,

28/54
Ejemplos
Ejemplo (continuación)

Demostración.
Supongamos que tomamos un conjunto cualquiera de los Cnk sub-
conjuntos de k elementos y le agregamos un elemento de los n − k
elementos restantes. Este conjunto va a estar repetido k + 1 veces,
puesto que tenemos k + 1 subconjuntos de k elementos que se dife-
rencian en un solo elemento, y al agregarle otro elemento para con-
formar un conjunto de k +1 elementos vamos a tener k +1 conjuntos
repetidos, lo mismo ocurre si tomamos cualquier otro subconjunto
de k elementos.
Por lo anterior tendremos en total Cnk (n − k) subconjuntos de k +
1 elementos, pero cada uno va a estar repetido k + 1 veces, en
consecuencia le número de subconjuntos de k + 1 elementos es:
n−k n!(n − k) n!
Cnk = = = Cnk+1
k +1 k!(n − k)!(k + 1) k!(k + 1)(n − k − 1)!

29/54
Ejemplos
Ejemplo
Se tienen dos monedas; una normal y otra de dos caras. Se escoge al
azar una de las monedas y se lanza dos veces, el resultado corresponde
a dos caras. Encontrar la probabilidad de que la moneda elegida sea
la normal.
(desarrollo)
Llamemos C al evento cae cara y N al evento de seleccionar la
moneda normal. Como tenemos dos monedas, una normal y la otra
de dos caras (N), entonces:
1
P(N) = P(N) = 2
de otro lado, las probabilidades condicionales de obtener dos caras
con una moneda normal o una moneda de dos caras corresponden a:
1
P(CC |N) =
4
P(CC |N) = 1
30/54
Ejemplos

Ejemplo

(continuación)
Por el teorema de probabilidad total, la probabilidad de obtener dos
caras es:
11 1 5
P(CC ) = P(CC |N)P(N) + P(CC |N)P(N) = +1 =
42 2 8
y empleando la regla de Bayes tenemos que:
P(CC |N)P(N) (1/4)(1/2) 1
P(N|CC ) = = =
P(CC ) (5/8) 5

31/54
Ejemplos

Ejemplo
Dos eventos A y B son mutuamente excluyentes. ¿Son independien-
tes también?
(Desarrollo)
Dado que los dos eventos A y B son mutuamente excluyentes se
tiene que: P(AB) = 0, ahora, para que sean independientes se debe
cumplir que: P(AB) = P(A)P(B) = 0, por lo tanto la única forma
de que se de la independencia es que la probabilidad de uno o ambos
eventos A y B sea cero.

32/54
Ejemplos

Ejemplo
Una caja contiene balotas numeradas de 1 a n. Si se toman k bolas
en forma sucesiva, hallar: La probabilidad de que m (k ≤ m ≤ n)
sea el número mas grande entre las k balotas.
(Desarrollo)
Se tienen Cnk formas de tomar k balotas entre n, entonces la proba-
bilidad de cada una es 1/Cnk ; que m sea el número más grande entre
las k balotas equivale ha haber tomado las restantes k − 1 balotas
entre las balotas numeradas de la 1 a la (m − 1) y, esto se puede
k−1
realizar de Cm−1 formas:
 

m−1 
k −1
P=  

n 
k

33/54
Ejemplos

Ejemplo
Se tienen k cajas idénticas, cada una con balotas numeradas de la 1 a
la n. Se retira al azar una bola de cada caja, ¿Cuál es la probabilidad
de que el mayor número de las balotas retiradas sea m?.
(desarrollo)
La probabilidad de retirar cualquier bola de cada una de la k cajas
es 1/n; la probabilidad de que una bola retirada de una caja tenga
un número entre 1 y m − 1 es (m − 1)/n (es decir que su valor sea
menor a m). Por lo tanto la probabilidad de que al sacar las k bolas,
una este numerada con m y las otras (k-1) bolas estén numeradas
con números menores a m corresponde a la combinatoria:
m − 1 k−1 1 1
% &% & % &
k
1 n n

34/54
Ejemplos

Ejemplo
de la misma forma, la probabilidad de que q bolas de las k retiradas
de las k cajas tengan el número m y las otras (k − q) restantes
tengan números inferiores a m corresponde a:
m − 1 k−q 1 q
' (' ( ' (
k
q n n
en consecuencia, la probabilidad de que todas las balotas retiradas
tengan numero menores o iguales a m corresponde a la suma de
todas las posibilidades:
q=k
& ' k ( ' m − 1 (k−q ' 1 (q
q n n
q=1

35/54
Ejemplos

Ejemplo
En una lotería seleccionan 6 números de 51 posibles. Para jugar la
lotería se tienen balotas numeradas del 1 al 51 y se seleccionan al
azar 6 balotas. ¿ Cuál es la probabilidad de que un jugador halla
seleccionado previamente 4 o 5 o 6 números ganadores?.
(Desarollo)
La probabilidad de cada selección de 6 números obedece a 1/Cnm
(n = 51, m = 6). Ahora, las diferentes formas de escoger k bolas
(aciertos) entres las m bolas (m = 6) y m − k (no aciertos) entre
las n − m restantes es:
% &% &
m n−m
k m−k

36/54
Ejemplos

Ejemplo
Por lo tanto, la probabilidad de tener k aciertos (k = 4, 5, 6) obedece
a: ' (' (
m n−m
k m−k
' (
n
m
con n = 51, m = 6 y k = 4, 5, 6

37/54
Aplicación a la teoría de la información
(Medición de la Información)
Para medir la información debemos establecer primero una relación
de proporcionalidad. Dado un evento x, su ocurrencia del evento
entrega una información que es inversamente proporcional a la pro-
babilidad de ocurrencia de que ocurra x:
1
I (x) ∝
p(x)
Ahora bien, para llegar a una expresión debemos establecer en que
unidades vamos ‘’empaquetar” la información; una de las unidades
básicas corresponde obviamente al bit, ello significa que la informa-
cion debe ser calculada en bits y por ende la conversión se debe dar
con base en el uso de la base 2.
Con lo anterior en mente, nuestra definición de información seria la
siguiente:
1
% &
I (x) = log2
p(x)
38/54
Aplicación a la teoría de la información

(Medición de la Información)
A partir de este momento emplearemos la notación log (y ) para re-
ferirnos al logaritmo base 2 del número y .

Ejemplo
Dada una variable x, el resultado del lanzamiento de una moneda
normal, con x = 0 representamos que el resultado es sello y con
x = 1 que el resultado es cara. Cada uno de estos eventos tiene
probabilidad de 1/2. Entonces, la información otorgada por cada
uno de estos eventos corresponde a:
1 1
' ( ' (
I (x = 0) = log =1 y, I (x = 1) = log =1
1/2 1/2

39/54
Aplicación a la teoría de la información
(Medición de la Información)
Sin embargo, la medición de información dada, tiene problemas cuan-
do estamos en un extremo en el cual la probabilidad de unos de los
eventos tiende a cero, en el caso de la moneda supongamos que te-
nemos dos caras, en este caso p(x = 0) = 0 y p(x = 1) = 1, al
medir las dos informaciones tenemos:
1 1
% & % &
I (x = 1) = log =0 y, I (x = 0) = log −→ ∞
1 0
Para corregir este problema (en entre otras cosas) introducimos el
concepto de entropía en el contexto de la teoría de la información.
Definición
Entropía se refiere al promedio de información de una fuente y se
calcula por medio de una suma ponderada sobre todos los valores
posibles de x. ' ' %
1
&
H(x) = p(x)I (x) = p(x) log
p(x)
$x% $x%

40/54
Aplicación a la teoría de la información
Ejemplo (Entropía - moneda normal)
Calculemos la entropía para la moneda normal:
( ) ( )
1 1
H(x) = p(x = 0) log p(x=0) + p(x = 1) log p(x=1) = 21 log (2) + 12 log (2) = 1

Ejemplo
Ahora realicemos el mismo cálculo para la moneda con dos caras con
p(x = 0) = p −→ 0 y p(x = 1) = 1:
1 1
% & % &
lim
H(x) = (1) log + p→0 p log
1 p
1
% &
lim lim log (1/p)
= 0 + p→0 p log = p→0
p 1/p

La última expresión es de la forma ∞ entonces podemos aplicar
el teorema de L’Hopital derivando numerador y denominador con
respecto a p, el resultado es:
lim 1
H(x) = p→0 p=0
ln(2)
41/54
Aplicación a la teoría de la información

Ejemplo (Entropía - moneda normal)

(a) Calcule la entropía de un dado para el cual todas las 6 caras


tienen las misma probabilidad de ocurrencia
(b) Calcule ahora la entropía para el caso en que las probabilidades
de ocurrencia de las caras del dado son distintas.
(c) Calcular el máximo de la entropía

42/54
Aplicación a la teoría de la información

(Canal Binario)
El modelo de un canal binario corresponde al mostrado en la figura
(1), la entrada se denota por X y la salida por Y , los símbolos 0
y 1 de la fuente, los cuales son aplicados a la entrada X , tienen
probabilidades de ocurrencia pX (0) y pX (1) respectivamente.

Las lineas horizontales del diagrama representan las probabilidades


de que dado un valor del símbolo de entrada, ese mismo valor llegue
a la salida Y . En efecto, la probabilidad de que dado que entra un
0, se tenga a la salida un 0, es pY |X (0|0)) y, la probabilidad de que
ese 0 de entrada salga como un 1, corresponde a pY |X (1|0)), de
la misma forma pY |X (1|1) representa la probabilidad de que dado
un 1 de entrada, se tenga correspondientemente un 1 a la salida y,
finalmente, pY |X (0|1) corresponde a la probabilidad de que el 1 de
entrada se transforme en un 0 a la salida.

43/54
Aplicación a la teoría de la información

(Canal Binario)
Las probabilidades de los símbolos de entrada pX (0) y pX (1) y
del canal de comunicaciones, PY |X (0|0), PY |X (1|0), PY |X (1|1) y
PY |X (0|1) se les denomina probabilidades a-priori.

Ahora, las probabilidades a posteriori corresponde a las probabilidades


de los símbolos de salida pY (0) y pY (1) y, a las probabilidades:
PX |Y (0|0), PX |Y (1|0), PX |Y (1|1) y PX |Y (0|1) que corresponden a
la probabilidad de que la entrada tome un valor 0 o 1, dado que se
ha detectado un valor de salida y (0 o, 1).

Las probabilidades de los símbolos de salida se calculan a partir del


teorema de probabilidad Total:
pY (0) = pX (0)pY |X (0|0) + pX (1)pY |X (0|1) (2)
pY (1) = pX (1)pY |X (1|1) + pX (0)pY |X (1|0) (3)

44/54
Aplicación a la teoría de la información

(Canal Binario)
Las probabilidades a-posterior: PX |Y (0|0), PX |Y (1|0), PX |Y (1|1) y
PX |Y (0|1) se calculan por medio de la regla de Bayes:

pY |X (0|0) pX (0) pY |X (0|0) pX (0)


pX |Y (0|0) = pY (0) = pX (0)PY |X (0|0)+pX (1)PY |X (0|1)
pY |X (0|1) pX (1) pY |X (0|1) pX (1)
pX |Y (1|0) = pY (0) = pX (0)PY |X (0|0)+pX (1)PY |X (0|1)
pY |X (1|1) pX (1) pY |X (1|1) pX (1) (4)
pX |Y (1|1) = pY (1) = pX (1)PY |X (1|1)+pX (0)PY |X (1|0)
pY |X (1|0) pX (0) pY |X (1|0) pX (0)
pX |Y (0|1) = pY (1) = pX (1)PY |X (1|1)+pX (0)PY |X (1|0)
En la figura a continuación (2) se encuentra el modelo del canal
binario y el conjunto de probabilidades a-priori y a-posteriori.

45/54
canal Binario
(Canal binario)
Entrada X Salida Y
pY |X (0|0),
pX (0) pY (0)
Probabilidades a-priori

pX (0), pX (1),
1). pY
(0| |X (1| pY |X (0|0), pY |X (1|1)
X
p Y| 0)
pY |X (1|0), pY |X (0|1)
pX (1) pY (1)
pY |X (1|1),

Probabilidades a-posteriori Probabilidades a-posteriori


Regla de Bayes Teorema de Probabilidad ToTal
pY |X (0|0) pX (0) pY |X (0|0) pX (0) pY (0) = pX (0)PY |X (0|0) + pX (1)PY |X (0|1)
pX |Y (0|0) = pY (0) = pX (0)PY |X (0|0)+pX (1)PY |X (0|1)
pY |X (0|1) pX (1) pY |X (0|1) pX (1) pY (1) = pX (1)PY |X (1|1) + pX (0)PY |X (1|0)
pX |Y (1|0) = pY (0) = pX (0)PY |X (0|0)+pX (1)PY |X (0|1)
pY |X (1|1) pX (1) pY |X (1|1) pX (1)
pX |Y (1|1) = pY (1) = pX (1)PY |X (1|1)+pX (0)PY |X (1|0)
pY |X (1|0) pX (0) pY |X (1|0) pX (0)
pX |Y (0|1) = pY (1) = pX (1)PY |X (1|1)+pX (0)PY |X (1|0)

Figura 2: Canal Binario

46/54
Aplicación a la teoría de la información

(Canal Binario)
Ahora analicemos el canal de comunicaciones desde el punto de vista
de la información qué transporta. Para ello supongamos que una
medida de información a la salida corresponderá a:
1
& & ' (
H(y ) = p(y )I (y ) = p(y ) log (5)
p(y )
%x& %x&
A hora probemos esta hipótesis para varios tipos de canales, en prime-
ra instancia supongamos que las probabilidades del canal corresponde
a: PY |X (0|0) = 1, PY |X (1|0) = 0, PY |X (1|1) = 1 y PY |X (0|1) = 0,
en este caso las probabilidades totales de la salida corresponde a:
pY (0) = pX (0)pY |X (0|0) + pX (1)pY |X (0|1) = pX (0)(1) + pX (1)(0) = pX (0)
pY (1) = pX (1)pY |X (1|1) + pX (0)pY |X (1|0) = pX (1)(1) + pX (0)(0) = pX (1)
En consecuencia la entropía de salida obviamente es H(y ) = H(x).

47/54
Aplicación a la teoría de la información
(Canal Binario)
Ahora consideremos el caso del canal negador, es decir, cuando las
probabilidades del canal corresponde a: PY |X (0|0) = 0, PY |X (1|0) =
1, PY |X (1|1) = 0 y PY |X (0|1) = 1, en este caso las probabilidades
totales de la salida corresponde a:
pY (0) = pX (0)pY |X (0|0) + pX (1)pY |X (0|1) = pX (0)(0) + pX (1)(1) = pX (1)
pY (1) = pX (1)pY |X (1|1) + pX (0)pY |X (1|0) = pX (1)(0) + pX (0)(1) = pX (0)
En este caso también, la entropía de salida es: H(y ) = H(x).
Finalmente, consideremos el caso en el cuál PY |X (0|0) =
PY |X (1|0) = PY |X (1|1) = PY |X (0|1) = 1/2; reemplazando estos
valores en las expresiones (2) y (3) obtenemos:
pY (0) = pX (0)pY |X (0|0) + pX (1)pY |X (0|1) = pX (0) 21 + pX (1) 21 = 1
2
pY (1) = pX (1)pY |X (1|1) + pX (0)pY |X (1|0) = pX (0) 21 + pX (1) 21 = 1
2
En este caso partícular las probabilidades de los símbolos de salida
no dependen de la entrada, así que, aunque H(x) es cero, a la salida
siempre tendremos H(y ) = 1, lo que es absurdo.
48/54
Aplicación a la teoría de la información

(Canal Binario)
El resultado anterior, nos indica que H(y ), mide además de la in-
formación de entrada, la incertidumbre ocasionada por el ruido del
canal. Por lo tanto requerimos de una medida que realmente mida la
cantidad de información que sale del canal con respecto a la infor-
mación de entrada, esa medida corresponde a la Información Mutua,
la cual esta dada por:
I (X ; Y ) = H(X ) − H(X |Y ) (6)
la útima expresión de (6) se interpreta como la incertidumbre pro-
medio introducida por la imperfección del canal de comunicaciones
y corresponde a:
1
&& ' (
H(X |Y ) = pXY (x, y )log (7)
pX |Y (x|y )
%x& %y &

49/54
Aplicación a la teoría de la información

(Canal Binario)
en el caso del canal binario, la incertidumbre promedio H(X |Y ) es
igual a:
1
'' % &
H(X |Y ) = pXY (x, y )log (8)
pX |Y (x|y )
$x% $y %
% &
pY (0)
= pY |X (0|0)pX (0)log +
pY |X (0|0)pX (0)
% &
pY (1)
+ pY |X (1|0)pX (0)log +
pY |X (1|0)pX (0)
% &
pY (1)
+ pY |X (1|1)pX (1)log +
pY |X (1|1)pX (1)
% &
pY (0)
+ pY |X (0|1)pX (1)log
pY |X (0|1)pX (1)
con pY (0) y pY (1) dadas (2) y (3) respectivamente.
50/54
Aplicación a la teoría de la información

(Ejercicio Canal Binario)


Calcule la información mutua para los siguientes tres casos:
(a) PY |X (0|0) = 1, PY |X (1|0) = 0, PY |X (1|1) = 1 y
PY |X (0|1) = 0,
(b) PY |X (0|0) = 0, PY |X (1|0) = 1, PY |X (1|1) = 0 y
PY |X (0|1) = 1,
1
(c) PY |X (0|0) = PY |X (1|0) = PY |X (1|1) = PY |X (0|1) = 2
Comente los resultados.

51/54
Aplicación a la teoría de la información

(Ejercicio Canal Binario - desarolllo)

(a) Reemplazando en las expresiones (8) tenemos:


H(X |Y ) = ( ) H(X |Y ) =( )
pY (0) (p0 )
pY |X (0|0)pX (0)log + (1)(p0 )log
(pY |X (0|0)pX (0) ) ( (1)(p0 ) )
pY (1) (p1 )
+pY |X (1|0)pX (0)log + (0)(p0 )log
( pY |X (1|0)pX (0) ) ( (0)(p0 ) )
pY (1) (p1 )
+pY |X (1|1)pX (1)log + (1)(p1 )log
( pY |X (1|1)pX (1) ) ( (1)(p1 ) )
pY (0) (p0 )
+pY |X (0|1)pX (1)log pY |X (0|1)pX (1) (0)(p1 )log (0)(p1 )
=0
con px( 0) = p0 y px( 1) = p1 , entonces, la información mutua co-
rresponde a:
I (X ; Y ) = H(X ) − 0 = H(X )

52/54
Aplicación a la teoría de la información

(Ejercicio Canal Binario - desarolllo)

(b) Reemplazando en las expresiones (8) tenemos:


H(X |Y ) = ) * H(X |Y ) =) *
pY (0) (p1 )
pY |X (0|0)pX (0)log + (0)(p0 )log
) (0|0)pX (0) *
pY |X ) (0)(p 0) *
pY (1) (p0 )
+pY |X (1|0)pX (0)log + (1)(p0 )log
) pY |X (1|0)pX (0) * ) (1)(p0 ) *
pY (1) (p0 )
+pY |X (1|1)pX (1)log + (0)(p1 )log
) pY |X (1|1)pX (1) * ) (0)(p1 )
*
pY (0) (p1 )
+pY |X (0|1)pX (1)log pY |X (0|1)pX (1) (1)(p1 )log (1)(p1 )
=0
Entonces, la información mutua corresponde a:
I (X ; Y ) = H(X ) − 0 = H(x)

53/54
Aplicación a la teoría de la información

(Ejercicio Canal Binario - desarollo)

(c) Reemplazando en las expresiones (8) tenemos:


H(X |Y ) = ( ) H(X |Y ) = ( )
pY (0) (1/2)
pY |X (0|0)pX (0)log + (1/2)(p0 )log (1/2)(p
(pY |X (0|0)pX (0) ) ( 0) )
pY (1) (1/2)
+pY |X (1|0)pX (0)log + (1/2)(p0 )log (1/2)(p
( pY |X (1|0)pX (0) ) ( 0) )
pY (1) (1/2)
+pY |X (1|1)pX (1)log + (1/2)(p1 )log (1/2)(p1 )
( pY |X (1|1)pX (1) ) ( )
pY (0) (1/2)
+pY |X (0|1)pX (1)log pY |X (0|1)pX (1) (1/2)(p1 )log (1/2)(p 1 )
= p0 log (1/p0 ) + p1 log (1/p1 )
= H(X )
Entonces, la información mutua corresponde a:
I (X ; Y ) = H(X ) − H(X ) = 0

54/54

También podría gustarte