Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introducción
Ivan Ladino
Notas de clase
——
III - 2019
Introducción
3/54
Ejemplos
4/54
Probabilidad y la intuición
5/54
Probabilidad Frecuentista
6/54
Modelo Secuencial
(1, 2)
1
(1, 6)
(2, 1)
(2, 2)
2
(2, 6)
(6, 1)
(6, 2)
6
(6, 6)
7/54
Definición Axiomática de la Probabilidad
El enfoque axiomático es realmente el enfoque formal desde el cual se
debe estudiar la probabilidad. Pero antes, se hace necesario introducir
algunas ideas, como las asociadas a lo que representa un experimento
aleatorio, el espacio muestreal y los eventos:
Definición
Un Experimento aleatorio H es un experimento en el cual los resul-
tados no son determinísticos, es decir son probabilísticos.
Definición
El Espacio Muestreal se denota por Ω y corresponde a él conjunto
de todos los posibles resultados del experimento.
Definición
Un Evento E es un subconjunto del espacio muestreal que satisfa-
ce ciertas restricciones. Sin embargo, casi cualquier subconjunto del
espacio muestreal es un evento.
8/54
Conjuntos, Campos y Eventos
Definición
un Conjunto C es una colección de objetos concretos o abstrac-
tos. Un ejemplo de conjunto de objetos concretos es la colección
de nombres de estudiantes del curso. Formalmente se denota como:
C = {x|x satisface p(x)}; es decir, todos los elementos x tal que
(|), cada x cumple con la propiedad p(x).
9/54
Conjuntos, Campos y Eventos
10/54
Conjuntos, Campos y Eventos
(Álgebra de Conjuntos)
La unión - ∪ de dos conjuntos E y F , se denota por E ∪ F (ó,
E + F ) y, corresponde al conjunto de todos los elementos que se
encuentran en alguno de los dos conjuntos E y F . Por ejemplo, sean
los conjuntos E = {1, 3, 4} y F = {1, 2, 4, 5, 6}, entonces:
E ∪ F = {1, 2, 3, 4, 5, 6}
Por otro lado, si un conjunto A es un subconjunto de un conjunto
B lo denotamos por A ⊂ B (A esta contenido en B), por ejemplo
dados A = {a, d, g } y B = {a, b, c, d, e, f , g , h, i }, entonces A ⊂ B.
(Álgebra de Conjuntos)
La diferencia entre dos conjuntos E y F se denota por E −F y consiste
en la reducción del conjunto E por el conjunto F . En otras palabras,
es el conjunto de elementos que están en E pero no están en F .
Por ejemplo, si E = {blue, red, brown, white, black, orange, pink} y
F = {brown, pink, red}, entonces:
E − F = {blue, white, black, orange}
Formalmente podemos expresar la diferencia entre dos conjuntos de
la siguiente forma:
E − F = {ζ | ζ ∈ E ∧ ζ ∈
/ F}
dónde, el símbolo ∧ significa “y”. Puede mostrarse facilmente que:
E −F = EF
F −E = FE
además, por lo general se tiene que: E − F )= F − E .
13/54
Conjuntos, Campos y Eventos
(Álgebra de Conjuntos)
La O-exclusiva o XOR entre dos conjuntos E y F se denota por E ⊕F
y corresponde a:
E ⊕ F = (E − F ) ∪ (F − E )
disjuntos, si E ∩ F = ∅, esto significa
A dos conjuntos se le dicen disjuntos
que no tienen elementos en común.
Una n-partición de un conjunto E , consiste en una secuencia de
conjuntos Ei con i = 1, 2, · · · , n tal que:
Ei ∩ Ej = ∅ ∀ i )= j con i , j ∈ {1, 2, · · · , n}
#n
Ei = E
i =1
Un caso particular de una partición corresponde a:
F = FE ∪ F E
14/54
Conjuntos, Campos y Eventos
(Leyes de Morgan)
Por medio de los diagramas de Venn o mediante la definición formal
de conjuntos es fácil demostrar los siguientes dos resultados:
(E ∪ F ) = E ∩ F y (E ∩ F ) = E ∪ F
por inducción matemática, con la sucesión de conjuntos: E1 , · · · , En ,
es fácil demostrar:
! n # n
" $
Ei = Ei
i =1 i =1
n n
! #
$ "
Ei = Ei
i =1 i =1
a estas dos últimas expresiones se les conoce como las leyes de Mor-
gan.
con estos axiomas se pueden probar en forma muy fácil, las siguientes
cuatro propiedades:
(4) P[∅] = 0
(5) P[E F ] = P[E ] − P[EF ] donde E ∈ F y F ∈ F
(6) P[E ] = 1 − P[E ]
(7) P[E ∪ F ] = P[E ] + P[F ] − P[EF ]
17/54
Conjuntos, Campos y Eventos
Observación
La demostración se realiza por inducción. Se deja como ejercicio.
18/54
Conjuntos, Campos y Eventos
(Eventos)
Si y solo si, el espacio muestreal Ω de un experimento H tiene un
número contable de elementos, entonces a cada subconjunto de Ω
se le puede asignar una probabilidad consistente con los tres axiomas
dados en la definición anterior . Entonces, la clase formada por todos
los subconjuntos de Ω conforman un campo σ y cada subconjunto
es un evento.
19/54
Probabilidades conjuntas, condicionales y totales
20/54
Probabilidades conjuntas, condicionales y totales
Ejemplo (continuación)
Supongamos que el experimento asociado al ejemplo, consiste en
medir diariamente la temperatura y la precipitación en un periodo
de n = 1000 días. Denotaremos con ni el número de días en que el
evento i ocurre, con i igual a A o B o, AB.
Después de las observaciones se obtiene que, nA = 811, nB = 306
y nAB = 283, por la interpretación de frecuencia relativa para la
probabilidad obtenemos:
nA 811
P[A] ( = = 0,811
n 1000
nB 306
P[B] ( = = 0,306
n 1000
nAB 283
P[AB] ( = = 0,283
n 1000
La probabilidad P[AB] corresponde a la fracción del tiempo para la
cual la precipitación iguala o excede a 5mm y la temperatura iguala
o excede los 10o .
21/54
Probabilidades conjuntas, condicionales y totales
(Probabilidad condicional)
Ahora consideremos la frecuencia relativa nAB /nA , ello equivale a la
frecuencia relativa del evento AB, dado que el evento A ha ocurrido.
notemos que:
nAB nAB /n P[AB]
= (
nA nA /n P[A]
esta última corresponde a la probabilidad condicional de B dado A:
P[AB]
P[B|A] ! con P[A] > 0
P[A]
entonces, P[B|A] es la probabilidad de que B ocurra, dado que ocu-
rrió A. En forma similar, la probabilidad de que ocurra A, dado que
ocurrió B, corresponde a:
P[AB]
P[A|B] ! con P[B] > 0
P[B]
22/54
Probabilidades conjuntas, condicionales y totales
23/54
Probabilidades conjuntas, condicionales y totales
Ejemplo
PY |X (0|0)
PX (0) PY (0)
) PY
(0|1 |X (1|
P Y |X 0)
PX (1) PY (1)
PY |X (1|1)
24/54
Probabilidades conjuntas, condicionales y totales
25/54
Probabilidades conjuntas, condicionales y totales
(Probabilidad Condicional)
De la definición de probabilidad condicional tenemos que:
P[AB] = P[A|B]P[B] = P[B|A]P[A]
de donde podemos despejar:
P[B|A]P[A] P[A|B]P[B]
P[A|B] = y P[B|A] =
P[B] P[A]
Definición
Usando la ley de probabilidad total y una partición Si del espacio
muestral Ω, si ocurre un evento A, la probabilidad posterior de Si
dado el evento A corresponde a:
P[A|Si ]P[Si ]
P[Si |A] = $k para i = 1, 2, · · · , k.
i =1 P[A|Si ]P[Si ]
26/54
Probabilidades conjuntas, condicionales y totales
(Permutaciones)
27/54
Ejemplos
Ejemplo
Demostrar que un conjunto S con n elementos tiene Cnk subconjuntos
de k elementos
Demostración.
La demostración se realiza por inducción sobre k. Para k = 1 es
evidente que el número de subconjuntos es igual a n, tal como se
puede comprobar al reemplazar k = 1 en Cnk :
' (
n n!
Cn1 = = =n
1 1!(n − 1)!
Supongamos que para k el número de subconjuntos es:
' (
k n n!
Cn = =
k k!(n − k)!
ahora encontremos el resultado para k + 1,
28/54
Ejemplos
Ejemplo (continuación)
Demostración.
Supongamos que tomamos un conjunto cualquiera de los Cnk sub-
conjuntos de k elementos y le agregamos un elemento de los n − k
elementos restantes. Este conjunto va a estar repetido k + 1 veces,
puesto que tenemos k + 1 subconjuntos de k elementos que se dife-
rencian en un solo elemento, y al agregarle otro elemento para con-
formar un conjunto de k +1 elementos vamos a tener k +1 conjuntos
repetidos, lo mismo ocurre si tomamos cualquier otro subconjunto
de k elementos.
Por lo anterior tendremos en total Cnk (n − k) subconjuntos de k +
1 elementos, pero cada uno va a estar repetido k + 1 veces, en
consecuencia le número de subconjuntos de k + 1 elementos es:
n−k n!(n − k) n!
Cnk = = = Cnk+1
k +1 k!(n − k)!(k + 1) k!(k + 1)(n − k − 1)!
29/54
Ejemplos
Ejemplo
Se tienen dos monedas; una normal y otra de dos caras. Se escoge al
azar una de las monedas y se lanza dos veces, el resultado corresponde
a dos caras. Encontrar la probabilidad de que la moneda elegida sea
la normal.
(desarrollo)
Llamemos C al evento cae cara y N al evento de seleccionar la
moneda normal. Como tenemos dos monedas, una normal y la otra
de dos caras (N), entonces:
1
P(N) = P(N) = 2
de otro lado, las probabilidades condicionales de obtener dos caras
con una moneda normal o una moneda de dos caras corresponden a:
1
P(CC |N) =
4
P(CC |N) = 1
30/54
Ejemplos
Ejemplo
(continuación)
Por el teorema de probabilidad total, la probabilidad de obtener dos
caras es:
11 1 5
P(CC ) = P(CC |N)P(N) + P(CC |N)P(N) = +1 =
42 2 8
y empleando la regla de Bayes tenemos que:
P(CC |N)P(N) (1/4)(1/2) 1
P(N|CC ) = = =
P(CC ) (5/8) 5
31/54
Ejemplos
Ejemplo
Dos eventos A y B son mutuamente excluyentes. ¿Son independien-
tes también?
(Desarrollo)
Dado que los dos eventos A y B son mutuamente excluyentes se
tiene que: P(AB) = 0, ahora, para que sean independientes se debe
cumplir que: P(AB) = P(A)P(B) = 0, por lo tanto la única forma
de que se de la independencia es que la probabilidad de uno o ambos
eventos A y B sea cero.
32/54
Ejemplos
Ejemplo
Una caja contiene balotas numeradas de 1 a n. Si se toman k bolas
en forma sucesiva, hallar: La probabilidad de que m (k ≤ m ≤ n)
sea el número mas grande entre las k balotas.
(Desarrollo)
Se tienen Cnk formas de tomar k balotas entre n, entonces la proba-
bilidad de cada una es 1/Cnk ; que m sea el número más grande entre
las k balotas equivale ha haber tomado las restantes k − 1 balotas
entre las balotas numeradas de la 1 a la (m − 1) y, esto se puede
k−1
realizar de Cm−1 formas:
m−1
k −1
P=
n
k
33/54
Ejemplos
Ejemplo
Se tienen k cajas idénticas, cada una con balotas numeradas de la 1 a
la n. Se retira al azar una bola de cada caja, ¿Cuál es la probabilidad
de que el mayor número de las balotas retiradas sea m?.
(desarrollo)
La probabilidad de retirar cualquier bola de cada una de la k cajas
es 1/n; la probabilidad de que una bola retirada de una caja tenga
un número entre 1 y m − 1 es (m − 1)/n (es decir que su valor sea
menor a m). Por lo tanto la probabilidad de que al sacar las k bolas,
una este numerada con m y las otras (k-1) bolas estén numeradas
con números menores a m corresponde a la combinatoria:
m − 1 k−1 1 1
% &% & % &
k
1 n n
34/54
Ejemplos
Ejemplo
de la misma forma, la probabilidad de que q bolas de las k retiradas
de las k cajas tengan el número m y las otras (k − q) restantes
tengan números inferiores a m corresponde a:
m − 1 k−q 1 q
' (' ( ' (
k
q n n
en consecuencia, la probabilidad de que todas las balotas retiradas
tengan numero menores o iguales a m corresponde a la suma de
todas las posibilidades:
q=k
& ' k ( ' m − 1 (k−q ' 1 (q
q n n
q=1
35/54
Ejemplos
Ejemplo
En una lotería seleccionan 6 números de 51 posibles. Para jugar la
lotería se tienen balotas numeradas del 1 al 51 y se seleccionan al
azar 6 balotas. ¿ Cuál es la probabilidad de que un jugador halla
seleccionado previamente 4 o 5 o 6 números ganadores?.
(Desarollo)
La probabilidad de cada selección de 6 números obedece a 1/Cnm
(n = 51, m = 6). Ahora, las diferentes formas de escoger k bolas
(aciertos) entres las m bolas (m = 6) y m − k (no aciertos) entre
las n − m restantes es:
% &% &
m n−m
k m−k
36/54
Ejemplos
Ejemplo
Por lo tanto, la probabilidad de tener k aciertos (k = 4, 5, 6) obedece
a: ' (' (
m n−m
k m−k
' (
n
m
con n = 51, m = 6 y k = 4, 5, 6
37/54
Aplicación a la teoría de la información
(Medición de la Información)
Para medir la información debemos establecer primero una relación
de proporcionalidad. Dado un evento x, su ocurrencia del evento
entrega una información que es inversamente proporcional a la pro-
babilidad de ocurrencia de que ocurra x:
1
I (x) ∝
p(x)
Ahora bien, para llegar a una expresión debemos establecer en que
unidades vamos ‘’empaquetar” la información; una de las unidades
básicas corresponde obviamente al bit, ello significa que la informa-
cion debe ser calculada en bits y por ende la conversión se debe dar
con base en el uso de la base 2.
Con lo anterior en mente, nuestra definición de información seria la
siguiente:
1
% &
I (x) = log2
p(x)
38/54
Aplicación a la teoría de la información
(Medición de la Información)
A partir de este momento emplearemos la notación log (y ) para re-
ferirnos al logaritmo base 2 del número y .
Ejemplo
Dada una variable x, el resultado del lanzamiento de una moneda
normal, con x = 0 representamos que el resultado es sello y con
x = 1 que el resultado es cara. Cada uno de estos eventos tiene
probabilidad de 1/2. Entonces, la información otorgada por cada
uno de estos eventos corresponde a:
1 1
' ( ' (
I (x = 0) = log =1 y, I (x = 1) = log =1
1/2 1/2
39/54
Aplicación a la teoría de la información
(Medición de la Información)
Sin embargo, la medición de información dada, tiene problemas cuan-
do estamos en un extremo en el cual la probabilidad de unos de los
eventos tiende a cero, en el caso de la moneda supongamos que te-
nemos dos caras, en este caso p(x = 0) = 0 y p(x = 1) = 1, al
medir las dos informaciones tenemos:
1 1
% & % &
I (x = 1) = log =0 y, I (x = 0) = log −→ ∞
1 0
Para corregir este problema (en entre otras cosas) introducimos el
concepto de entropía en el contexto de la teoría de la información.
Definición
Entropía se refiere al promedio de información de una fuente y se
calcula por medio de una suma ponderada sobre todos los valores
posibles de x. ' ' %
1
&
H(x) = p(x)I (x) = p(x) log
p(x)
$x% $x%
40/54
Aplicación a la teoría de la información
Ejemplo (Entropía - moneda normal)
Calculemos la entropía para la moneda normal:
( ) ( )
1 1
H(x) = p(x = 0) log p(x=0) + p(x = 1) log p(x=1) = 21 log (2) + 12 log (2) = 1
Ejemplo
Ahora realicemos el mismo cálculo para la moneda con dos caras con
p(x = 0) = p −→ 0 y p(x = 1) = 1:
1 1
% & % &
lim
H(x) = (1) log + p→0 p log
1 p
1
% &
lim lim log (1/p)
= 0 + p→0 p log = p→0
p 1/p
∞
La última expresión es de la forma ∞ entonces podemos aplicar
el teorema de L’Hopital derivando numerador y denominador con
respecto a p, el resultado es:
lim 1
H(x) = p→0 p=0
ln(2)
41/54
Aplicación a la teoría de la información
42/54
Aplicación a la teoría de la información
(Canal Binario)
El modelo de un canal binario corresponde al mostrado en la figura
(1), la entrada se denota por X y la salida por Y , los símbolos 0
y 1 de la fuente, los cuales son aplicados a la entrada X , tienen
probabilidades de ocurrencia pX (0) y pX (1) respectivamente.
43/54
Aplicación a la teoría de la información
(Canal Binario)
Las probabilidades de los símbolos de entrada pX (0) y pX (1) y
del canal de comunicaciones, PY |X (0|0), PY |X (1|0), PY |X (1|1) y
PY |X (0|1) se les denomina probabilidades a-priori.
44/54
Aplicación a la teoría de la información
(Canal Binario)
Las probabilidades a-posterior: PX |Y (0|0), PX |Y (1|0), PX |Y (1|1) y
PX |Y (0|1) se calculan por medio de la regla de Bayes:
45/54
canal Binario
(Canal binario)
Entrada X Salida Y
pY |X (0|0),
pX (0) pY (0)
Probabilidades a-priori
pX (0), pX (1),
1). pY
(0| |X (1| pY |X (0|0), pY |X (1|1)
X
p Y| 0)
pY |X (1|0), pY |X (0|1)
pX (1) pY (1)
pY |X (1|1),
46/54
Aplicación a la teoría de la información
(Canal Binario)
Ahora analicemos el canal de comunicaciones desde el punto de vista
de la información qué transporta. Para ello supongamos que una
medida de información a la salida corresponderá a:
1
& & ' (
H(y ) = p(y )I (y ) = p(y ) log (5)
p(y )
%x& %x&
A hora probemos esta hipótesis para varios tipos de canales, en prime-
ra instancia supongamos que las probabilidades del canal corresponde
a: PY |X (0|0) = 1, PY |X (1|0) = 0, PY |X (1|1) = 1 y PY |X (0|1) = 0,
en este caso las probabilidades totales de la salida corresponde a:
pY (0) = pX (0)pY |X (0|0) + pX (1)pY |X (0|1) = pX (0)(1) + pX (1)(0) = pX (0)
pY (1) = pX (1)pY |X (1|1) + pX (0)pY |X (1|0) = pX (1)(1) + pX (0)(0) = pX (1)
En consecuencia la entropía de salida obviamente es H(y ) = H(x).
47/54
Aplicación a la teoría de la información
(Canal Binario)
Ahora consideremos el caso del canal negador, es decir, cuando las
probabilidades del canal corresponde a: PY |X (0|0) = 0, PY |X (1|0) =
1, PY |X (1|1) = 0 y PY |X (0|1) = 1, en este caso las probabilidades
totales de la salida corresponde a:
pY (0) = pX (0)pY |X (0|0) + pX (1)pY |X (0|1) = pX (0)(0) + pX (1)(1) = pX (1)
pY (1) = pX (1)pY |X (1|1) + pX (0)pY |X (1|0) = pX (1)(0) + pX (0)(1) = pX (0)
En este caso también, la entropía de salida es: H(y ) = H(x).
Finalmente, consideremos el caso en el cuál PY |X (0|0) =
PY |X (1|0) = PY |X (1|1) = PY |X (0|1) = 1/2; reemplazando estos
valores en las expresiones (2) y (3) obtenemos:
pY (0) = pX (0)pY |X (0|0) + pX (1)pY |X (0|1) = pX (0) 21 + pX (1) 21 = 1
2
pY (1) = pX (1)pY |X (1|1) + pX (0)pY |X (1|0) = pX (0) 21 + pX (1) 21 = 1
2
En este caso partícular las probabilidades de los símbolos de salida
no dependen de la entrada, así que, aunque H(x) es cero, a la salida
siempre tendremos H(y ) = 1, lo que es absurdo.
48/54
Aplicación a la teoría de la información
(Canal Binario)
El resultado anterior, nos indica que H(y ), mide además de la in-
formación de entrada, la incertidumbre ocasionada por el ruido del
canal. Por lo tanto requerimos de una medida que realmente mida la
cantidad de información que sale del canal con respecto a la infor-
mación de entrada, esa medida corresponde a la Información Mutua,
la cual esta dada por:
I (X ; Y ) = H(X ) − H(X |Y ) (6)
la útima expresión de (6) se interpreta como la incertidumbre pro-
medio introducida por la imperfección del canal de comunicaciones
y corresponde a:
1
&& ' (
H(X |Y ) = pXY (x, y )log (7)
pX |Y (x|y )
%x& %y &
49/54
Aplicación a la teoría de la información
(Canal Binario)
en el caso del canal binario, la incertidumbre promedio H(X |Y ) es
igual a:
1
'' % &
H(X |Y ) = pXY (x, y )log (8)
pX |Y (x|y )
$x% $y %
% &
pY (0)
= pY |X (0|0)pX (0)log +
pY |X (0|0)pX (0)
% &
pY (1)
+ pY |X (1|0)pX (0)log +
pY |X (1|0)pX (0)
% &
pY (1)
+ pY |X (1|1)pX (1)log +
pY |X (1|1)pX (1)
% &
pY (0)
+ pY |X (0|1)pX (1)log
pY |X (0|1)pX (1)
con pY (0) y pY (1) dadas (2) y (3) respectivamente.
50/54
Aplicación a la teoría de la información
51/54
Aplicación a la teoría de la información
52/54
Aplicación a la teoría de la información
53/54
Aplicación a la teoría de la información
54/54