Probabilidad Introducción: Ivan Ladino Notas de Clase - III - 2019

Probabilidad
Introducción
Ivan Ladino
Notas de clase
——
III - 2019
. . . .... .... .... . . . . .

Introducción
En muchos casos se cree que los análisis estadísticos y probabilísticos

son una necesidad sustentadas en nuestra ignorancia temporal acerca
del comportamiento de un fenómeno o la naturaleza. Sin embargo,
en la mecánica cuántica, la incertidumbre es inherente a los fenóme-
nos cuánticos y no simplemente una consecuencia de los vacíos de la
teoría. En otras palabras si se llegase a tener el desarrollo y conoci-
miento total respecto a la mecánica cuántica, aun se haría necesario
el uso de la probabilidad y la estádistica.
. . . . . . . . . . . . . . . . . . . .
2/150
. . . . . . . . . . . . . . . . . . . .
Introducción
En muchos casos se cree que los análisis estadísticos y probabilísticos

son una necesidad sustentadas en nuestra ignorancia temporal acerca
del comportamiento de un fenómeno o la naturaleza. Sin embargo,
en la mecánica cuántica, la incertidumbre es inherente a los fenóme-
nos cuánticos y no simplemente una consecuencia de los vacíos de la
teoría. En otras palabras si se llegase a tener el desarrollo y conoci-
miento total respecto a la mecánica cuántica, aun se haría necesario
el uso de la probabilidad y la estádistica.
Independientemente de cual sea el caso particular, nosotros estamos

obligados a emplear modelos probabilísticos en el mundo real por
cuanto, no conocemos, no podemos calcular o no podemos medir
todos las fuerzas o entradas que contribuyen a un efecto dado. Las
fuerzas o entradas además, pueden ser muy numerosas, complicadas
o muy débiles.
. . . . . . . . . . . . . . . . . . . .
3/150
. . . . . . . . . . . . . . . . . . . .
Introducción
Escuetamente podemos decir que la Probabilidad es un modelo ma-

temático, que nos permite estudiar sistemas físicos en un sentido
promedio.
Los ejemplos de la aplicación de la probabilidad en ingeniería son

innumerables, sin embargo podemos mencionar algunos:
Análisis del comportamiento de los sistemas de comunicaciones
en presencia de ruido.
Estimación de la tasa de errores en un canal de comunicaciones.
Análisis de los sistemas de control en presencia de perturbacio-
nes de naturaleza aleatoria.
Estudio de sistemas de potencia con cargas con comportamiento
estocástico.
. . . . . . . . . . . . . . . . . . . .
4/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos
Estudio de los datos cuantitativos de la población o, de los

recursos naturales e industriales.
Estimación de mortalidad en un país bajo diferentes condiciones
de la dieta de alimentación
Análisis de las tasas de criminalidad por ciudad o por condición
socio cultural.
Estudio del impacto de la publicidad, en las intensiones de com-
pra de los usuarios de un servicio o de un producto.
Análisis de los tiempos de atención a los reclamos presentados
por los ciudadanos a una empresa del estado.
. . . . . . . . . . . . . . . . . . . .
5/150
. . . . . . . . . . . . . . . . . . . .
Probabilidad y la intuición
Definición (La Probabilidad como Intuición)

En esta clase de probabilidad usamos la intuición para hacer juicios.
Por ejemplo cuando predecimos el estado futuro del clima, cuando
tratamos de inferir el resultado de un experimento como el del lanza-
miento de una moneda. Desafortunadamente se basa en el "sentido
común“ y no se puede generalizar su uso mas allá de algunos casos
particulares elementales como el del lanzamiento de una moneda.
. . . . . . . . . . . . . . . . . . . .
6/150
. . . . . . . . . . . . . . . . . . . .
Probabilidad Frecuentista
Definición (La Probabilidad frecuentista)

Se entiende por probabilidad frecuentista a la medida de la frecuen-
cia relativa de un evento observado en un intervalo de tiempo muy
grande, durante el cual se han realizado un gran número de ensayos.
Dado un suceso o evento S la probabilidad frecuentista de S corres-
ponde a:
lim
n
P(S) = N→∞
N
dónde n es el número de ocurrencias del evento S en N realizaciones
del experimento.
. . . . . . . . . . . . . . . . . . . .
7/150
. . . . . . . . . . . . . . . . . . . .
Modelo Secuencial
En muchos experimentos se tiene una estructura secuencial, por me-

dio de la cual se dan los diferentes resultados, por ejemplo el ex-
perimento de lanzar un dado dos veces y registrar los números que
aparecen en la cara superior. En muchos casos es muy útil emplear
arboles para representar los modelos secuenciales:
(1, 1)
(1, 2)
1
(1, 6)
(2, 1)
(2, 2)
2
(2, 6)
(6, 1)
(6, 2)
6
(6, 6)
. . . . . . . . . . . . . . . . . . . .
8/150
. . . . . . . . . . . . . . . . . . . .
Definición Axiomática de la Probabilidad
El enfoque axiomático es realmente el enfoque formal desde el cual se
debe estudiar la probabilidad. Pero antes se hace necesario introducir
algunas ideas, como las asociadas a lo que representa un experimento
aleatorio, el espacio muestreal y los eventos:
Definición
Un Experimento aleatorio H es un experimento en el cual los resul-
tados nos son determinísticos, es decir son probabilísticos.
Definición
El Espacio Muestreal se denota por Ω y corresponde a él conjunto
de todos los posibles resultados del experimento.
Definición
Un Evento E es un subconjunto del espacio muestreal que satisfa-
ce ciertas restricciones. Sin embargo, casi cualquier subconjunto del
espacio muestreal es un evento.
. . . . . . . . . . . . . . . . . . . .
9/150
. . . . . . . . . . . . . . . . . . . .
Conjuntos, Campos y Eventos
Definición
un Conjunto C es una colección de objetos concretos o abstrac-
tos. Un ejemplo de conjunto de objetos concretos es la colección
de nombres de estudiantes del curso. Formalmente se denota como:
C = {x|x satisface p(x)}; es decir, todos los elementos x tal que
(|), cada x cumple con la propiedad p(x).
El espacio muestreal Ω es el conjunto de todos los posibles resultados

de un experimento, también se le llama el evento cierto
cierto.
Ejemplo
Un experimento H consiste en lanzar una moneda y observar los
posibles resultados. Entonces Ω = {C , S} S}, donde C representa la
cara y S el sello.
Otro experimento consiste en escoger al azar una persona y contar
los cabellos en su cabeza,
! entonces " el conjunto espacio muestreal
corresponde a: Ω = 0, 1, 2, · · · 107
. . . . . . . . . . . . . . . . . . . .
10/150
. . . . . . . . . . . . . . . . . . . .
En los ejemplo anteriores, el número de elementos que contiene cada

espacio muestreal es de naturaleza finita y además numerable. Pero
no todos los espacios muestreales son finitos y, en otros casos no son
numerables.
Ejemplo
El experimento que consiste en escoger al azar un número entero
tiene como espacio muestreal infinito pero numerable al siguiente:
Ω = {· · · , −3, −2, −1, 0, 1, 2, 3, · · · }
El experimento de medir la temperatura en la ciudad de Bogotá tiene
el siguiente espacio muestreal:
Ω = {t|1o ≤ t ≤ 25o }
Donde el símbolo | denota "tal que:“ y, "1o ≤ t ≤ 25o es una
propiedad“ Este espacio muestreal es infinito y no numerable puesto
que existen infinitas temperaturas entre 1o y 25o .
. . . . . . . . . . . . . . . . . . . .
11/150
. . . . . . . . . . . . . . . . . . . .
(Álgebra de Conjuntos)
La unión - ∪ de dos conjuntos E y F , se denota por E ∪ F (ó,
E + F ) y, corresponde al conjunto de todos los elementos que se
encuentran en alguno de los dos conjuntos E y F . Por ejemplo, sean
los conjuntos E = {1, 3, 4} y F = {1, 2, 4, 5, 6}, entonces:
E ∪ F = {1, 2, 3, 4, 5, 6}
Por otro lado, si un conjunto A es un subconjunto de un conjunto
B lo denotamos por A ⊂ B (A esta contenido en B), por ejemplo
dados A = {a, d, g } y B = {a, b, c, d, e, f , g , h, i}, entonces A ⊂ B.
Para indicar que un elemento ζ pertenece al conjunto Ω se escribe

ζ ∈ Ω. Por lo tanto, la unión de dos conjuntos A y B la podemos
escribir formalmente como:
A ∪ B = {ζ | ζ ∈ A o ζ ∈ B o ζ esta en ambos}
es decir, todos aquellos elementos ζ tal que, ζ esta en A o esta en
B o en ambos.
. . . . . . . . . . . . . . . . . . . .
12/150
. . . . . . . . . . . . . . . . . . . .
La intersección - ∩ entre dos conjuntos C y D se denota por C ∩ D
o CD
CD. Si C = {α, β, γ} y D = {α, ω, θ, γ, φ}, entonces:
C ∩ D = {α, γ}
Formalmente podemos escribir la intersección como:
C ∩ D = {ζ | ζ ∈ A y ζ ∈ B}
El complemento de un conjunto E contenido en un conjunto universal
Ω, lo denotamos por E o E c y, corresponde al conjunto de elementos
que están en Ω pero no están en E . Por ejemplo, si el conjunto
Ω = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} y el conjunto E = {2, 4, 8, 9} entonces
el complemento de E es el conjunto:
E = E c = {0, 1, 3, 5, 6, 7}
Notemos que E ∪ E = Ω y que E ∩ E = ∅, donde ∅ denota el
conjunto vacío o sin elementos.
Nota: en adelante usaremos la notación E para E c .
. . . . . . . . . . . . . . . . . . . .
13/150
. . . . . . . . . . . . . . . . . . . .
La diferencia entre dos conjuntos E y F se denota por E −F y consiste
en la reducción del conjunto E por el conjunto F . En otras palabras,
es el conjunto de elementos que están en E pero no están en F .
Por ejemplo, si E = {blue, red, brown, white, black, orange, pink} y
F = {brown, pink, red}, entonces:
E − F = {blue, white, black, orange}
Formalmente podemos expresar la diferencia entre dos conjuntos de
la siguiente forma:
E − F = {ζ | ζ ∈ E ∧ ζ ∈
/ F}
dónde, el símbolo ∧ significa “y”. Puede mostrarse facilmente que:
E −F = EF
F −E = FE
además, por lo general se tiene que: E − F ̸= F − E .
. . . . . . . . . . . . . . . . . . . .
14/150
. . . . . . . . . . . . . . . . . . . .
La O-exclusiva o XOR entre dos conjuntos E y F se denota por E ⊕F
y corresponde a:
E ⊕ F = (E − F ) ∪ (F − E )
A dos conjuntos se le dicen disjuntos
disjuntos, si E ∩ F = ∅, esto significa
que no tienen elementos en común.
Una n-partición de un conjunto E , consiste en una secuencia de
conjuntos Ei con i = 1, 2, · · · , n tal que:
Ei ∩ Ej = ∅ ∀ i ̸= j con i, j ∈ {1, 2, · · · , n}
#n
Ei = E
i=1
Un caso particular de una partición corresponde a:
F = FE ∪ F E
. . . . . . . . . . . . . . . . . . . .
15/150
. . . . . . . . . . . . . . . . . . . .
(Leyes de Morgan)
Por medio de los diagramas de Venn o mediante la definición formal
de conjuntos es fácil demostrar los siguientes dos resultados:
(E ∪ F ) = E ∩ F y (EF ) = E ∪ F
por inducción matemática, con la sucesión de conjuntos: E1 , · · · , En ,
es fácil demostrar:
$ n % n
# &
Ei = Ei
i=1 i=1
$ n
% n
& #
Ei = Ei
i=1 i=1
a estas dos últimas expresiones se les conoce como las leyes de Mor-
gan.
A dos conjuntos E , F se les dice iguales sí: E ⊂ F y F ⊂ E .

. . . . . . . . . . . . . . . . . . . .
16/150
. . . . . . . . . . . . . . . . . . . .
Definición (Campos Sigma σ)

Sea Ω el conjunto universal o espacio muestreal, denotemos por
E , F , · · · a la colección de subconjuntos de Ω. Esta colleción de
subconjuntos forma un campo sigma M si se cumplen las siguientes
propiedades:
1. φ ∈ M , Ω ∈ M
. . . . . . . . . . . . . . . . . . . .
17/150
. . . . . . . . . . . . . . . . . . . .

propiedades:
1. φ ∈ M , Ω ∈ M
2. sí E ∈ M y F ∈ M , entonces E ∪ F ∈ M y, EF ∈ M
. . . . . . . . . . . . . . . . . . . .
18/150
. . . . . . . . . . . . . . . . . . . .

propiedades:
1. φ ∈ M , Ω ∈ M
3. sí E ∈ M entonces, E ∈ M
. . . . . . . . . . . . . . . . . . . .
19/150
. . . . . . . . . . . . . . . . . . . .

propiedades:
1. φ ∈ M , Ω ∈ M
Un campo sigma F , es cerrado bajo cualquier union numerable de

conjuntos, intersecciones o combinaciones. Es decir:
. . . . . . . . . . . . . . . . . . . .
20/150
. . . . . . . . . . . . . . . . . . . .

propiedades:
1. φ ∈ M , Ω ∈ M
Un campo sigma F , es cerrado bajo cualquier union numerable de

conjuntos, intersecciones o combinaciones. Es decir:
n
# n
#
sí E1 , · · · , Ek · · · F =⇒ Ei ∈ F ∧ Ei ∈ F
i=1 i=1
∪∞
i=1 Ei = {conjunto, donde cada elemento esta en al menos un Ei }
∩∞
i=1 Ei = {conjunto, donde cada elemento esta en todos los Ei }
. . . . . . . . . . . . . . . . . . . .
21/150
. . . . . . . . . . . . . . . . . . . .
(Definición Axiomática de Probabilidad)

Dado un campo sigma F , la probabilidad es una función P[·] sobre
conjuntos, que asigna a cada evento E ∈ F un número P[E ] llamado
la probabilidad de E , tal que:
(1) P[E ] ≥ 0
. . . . . . . . . . . . . . . . . . . .
22/150
. . . . . . . . . . . . . . . . . . . .

(1) P[E ] ≥ 0
(2) P[Ω] = 1
. . . . . . . . . . . . . . . . . . . .
23/150
. . . . . . . . . . . . . . . . . . . .

(1) P[E ] ≥ 0
(2) P[Ω] = 1
(3) P[E ∪ F ] = P[E ] + P[F ] si EF = ∅
. . . . . . . . . . . . . . . . . . . .
24/150
. . . . . . . . . . . . . . . . . . . .

(1) P[E ] ≥ 0
(2) P[Ω] = 1
(3) P[E ∪ F ] = P[E ] + P[F ] si EF = ∅
con estos axiomas se pueden probar en forma muy fácil, las siguientes
dos propiedades:
(4) P[∅] = 0
(5) P[E F ] = P[E ] − P[EF ] donde E ∈ F y F ∈ F
(6) P[E ] = 1 − P[E ]
(7) P[E ∪ F ] = P[E ] + P[F ] − P[EF ]
. . . . . . . . . . . . . . . . . . . .
25/150
. . . . . . . . . . . . . . . . . . . .
Teorema (Extensión propiedad 7 )

La probabilidad P de que al menos uno de los eventos E1 , E2 , · · · , En
ocurra en un experimento esta dada por:
P = S1 − S 2 + · · · ± Sn
donde:
'n
S1 = i=1 Pi
'
S2 = 1≤i<j≤n Pij
.... ..
. . .
'
Sn = i≤i<j<k<···<l≤n Pijk···l
Observación
La demostración se realiza por inducción. Se deja como ejercicio.
. . . . . . . . . . . . . . . . . . . .
26/150
. . . . . . . . . . . . . . . . . . . .
(Eventos)
Si el espacio muestreal Ω de un experimento H tiene un número
contable de elementos, entonces a cada subconjunto de Ω se le pue-
de asignar una probabilidad consistente con los tres axiomas dados
en la definición anterior
. . . . . . . . . . . . . . . . . . . .
27/150
. . . . . . . . . . . . . . . . . . . .
(Eventos)
en la definición anterior . Entonces, la clase formada por todos los
subconjuntos de Ω conforman un campo σ y cada subconjunto es un
evento.
. . . . . . . . . . . . . . . . . . . .
28/150
. . . . . . . . . . . . . . . . . . . .
(Eventos)
evento.
Sin embargo, cuando Ω no es contable, por ejemplo Ω = R, no se

le puede asignar una probabilidad consistente con esos tres axiomas;
. . . . . . . . . . . . . . . . . . . .
29/150
. . . . . . . . . . . . . . . . . . . .
(Eventos)
evento.

por lo cual, solo se les llamará eventos a aquellos conjuntos que se
les puede asignar una probabilidad consistente con los tres axiomas.
. . . . . . . . . . . . . . . . . . . .
30/150
. . . . . . . . . . . . . . . . . . . .
(Eventos)
evento.

por lo cual, solo se les llamará eventos a aquellos conjuntos que se
les puede asignar una probabilidad consistente con los tres axiomas.
La colección de todos estos subconjuntos es mas pequeña que la
colección de todos los posibles subconjuntos de Ω y, conforma un
campo σ.
. . . . . . . . . . . . . . . . . . . .
31/150
. . . . . . . . . . . . . . . . . . . .
Probabilidades conjuntas, condicionales y totales
Para introducir el concepto de probabilidad conjunta iniciaremos por

un ejemplo.
Ejemplo
Supongamos que estamos analizando datos acerca de la temperatu-
ra en cierta ciudad y que en particular estamos interesados en los
siguientes tres eventos:
. . . . . . . . . . . . . . . . . . . .
32/150
. . . . . . . . . . . . . . . . . . . .

un ejemplo.
Ejemplo
A: evento de que en cualquier día, la temperatura iguale o exceda
los 10 grados centígrados (10o ).
. . . . . . . . . . . . . . . . . . . .
33/150
. . . . . . . . . . . . . . . . . . . .

un ejemplo.
Ejemplo
B: evento de que en cualquier día la precipitación iguale o exceda
a 5 milímetros.
. . . . . . . . . . . . . . . . . . . .
34/150
. . . . . . . . . . . . . . . . . . . .

un ejemplo.
Ejemplo
a 5 milímetros.
C: corresponde al evento C de que ocurran a la vez A y B
. . . . . . . . . . . . . . . . . . . .
35/150
. . . . . . . . . . . . . . . . . . . .

un ejemplo.
Ejemplo
a 5 milímetros.
C: corresponde al evento C de que ocurran a la vez A y B
A la probabilidad P[C ] la llamaremos la probabilidad conjunta de los
eventos A y B.
. . . . . . . . . . . . . . . . . . . .
36/150
. . . . . . . . . . . . . . . . . . . .
Ejemplo (continuación)
Supongamos que el experimento asociado al ejemplo, consiste en
medir diariamente la temperatura y la precipitación en un periodo
de n = 1000 días. Denotaremos con ni el número de días en que el
evento i ocurre, con i igual a A o B o, AB.
. . . . . . . . . . . . . . . . . . . .
37/150
. . . . . . . . . . . . . . . . . . . .
Después de las observaciones se obtiene que, nA = 811, nB = 306
y nAB = 283, por la interpretación de frecuencia relativa para la
probabilidad obtenemos:
. . . . . . . . . . . . . . . . . . . .
38/150
. . . . . . . . . . . . . . . . . . . .
nA 811
P[A] ≃ = = 0,811
n 1000
. . . . . . . . . . . . . . . . . . . .
39/150
. . . . . . . . . . . . . . . . . . . .
nA 811
P[A] ≃ = = 0,811
n 1000
nB 306
P[B] ≃ = = 0,306
n 1000
. . . . . . . . . . . . . . . . . . . .
40/150
. . . . . . . . . . . . . . . . . . . .
nA 811
P[A] ≃ = = 0,811
n 1000
nB 306
P[B] ≃ = = 0,306
n 1000
nAB 283
P[AB] ≃ = = 0,283
n 1000
. . . . . . . . . . . . . . . . . . . .
41/150
. . . . . . . . . . . . . . . . . . . .
nA 811
P[A] ≃ = = 0,811
n 1000
nB 306
P[B] ≃ = = 0,306
n 1000
nAB 283
P[AB] ≃ = = 0,283
n 1000
La probabilidad P[AB] corresponde a la fracción del tiempo para la
cual la precipitación iguala o excede a 5mm y la temperatura iguala
o excede los 10o .
. . . . . . . . . . . . . . . . . . . .
42/150
. . . . . . . . . . . . . . . . . . . .
(Probabilidad condicional)
Ahora consideremos la frecuencia relativa nAB /nA , ello equivale a la
frecuencia relativa del evento AB, dado que el evento A ha ocurrido.
notemos que:
. . . . . . . . . . . . . . . . . . . .
43/150
. . . . . . . . . . . . . . . . . . . .
notemos que:
nAB nAB /n P[AB]
= ≃
nA nA /n P[A]
. . . . . . . . . . . . . . . . . . . .
44/150
. . . . . . . . . . . . . . . . . . . .
notemos que:
nAB nAB /n P[AB]
= ≃
nA nA /n P[A]
esta última corresponde a la probabilidad condicional de B dado A:
. . . . . . . . . . . . . . . . . . . .
45/150
. . . . . . . . . . . . . . . . . . . .
notemos que:
nAB nAB /n P[AB]
= ≃
nA nA /n P[A]
P[AB]
P[B|A] ! con P[A] > 0
P[A]
. . . . . . . . . . . . . . . . . . . .
46/150
. . . . . . . . . . . . . . . . . . . .
notemos que:
nAB nAB /n P[AB]
= ≃
nA nA /n P[A]
P[AB]
P[B|A] ! con P[A] > 0
P[A]
entonces, P[B|A] es la probabilidad de que B ocurra, dado que ocu-
rrió A. En forma similar, la probabilidad de que ocurra A, dado que
ocurrió B, corresponde a:
. . . . . . . . . . . . . . . . . . . .
47/150
. . . . . . . . . . . . . . . . . . . .
notemos que:
nAB nAB /n P[AB]
= ≃
nA nA /n P[A]
P[AB]
P[B|A] ! con P[A] > 0
P[A]
entonces, P[B|A] es la probabilidad de que B ocurra, dado que ocu-
rrió A. En forma similar, la probabilidad de que ocurra A, dado que
ocurrió B, corresponde a:
P[AB]
P[A|B] ! con P[B] > 0
P[B]
. . . . . . . . . . . . . . . . . . . .
48/150
. . . . . . . . . . . . . . . . . . . .
Teorema (Probabilidad Total)
Sean S1 , S2 , · · · , Sk , k eventos mutuamente excluyentes, tales que:
. . . . . . . . . . . . . . . . . . . .
49/150
. . . . . . . . . . . . . . . . . . . .
∪ki=1 Si = Ω
. . . . . . . . . . . . . . . . . . . .
50/150
. . . . . . . . . . . . . . . . . . . .
∪ki=1 Si = Ω
con p[Si ] ̸= 0 para todo i = 1, 2, · · · , k, entonces:
. . . . . . . . . . . . . . . . . . . .
51/150
. . . . . . . . . . . . . . . . . . . .
∪ki=1 Si = Ω
k
(
P[A] = P[A|S1 ]P[S1 ] + · · · + P[A|Sn ]P[Sn ] = P[A|Si ]P[Si ]
i=1
Demostración.
. . . . . . . . . . . . . . . . . . . .
52/150
. . . . . . . . . . . . . . . . . . . .
∪ki=1 Si = Ω
k
(
i=1
Demostración.
Ejercicio.......
Ejemplo
para un canal binario no simétrico, las probabilidades totales a la
salida corresponden a:
. . . . . . . . . . . . . . . . . . . .
53/150
. . . . . . . . . . . . . . . . . . . .
∪ki=1 Si = Ω
k
(
i=1
Demostración.
Ejercicio.......
Ejemplo
para un canal binario no simétrico, las probabilidades totales a la
salida corresponden a:
P[Y = 0] = P[Y = 0|X = 0]P[X = 0]+P[Y = 0|X = 1]P[X = 1],
P[Y = 1] = P[Y = 1|X = 0]P[X = 0] + P[Y = 1|X = 1]P[X = 1]
. . . . . . . . . . . . . . . . . . . .
54/150
. . . . . . . . . . . . . . . . . . . .
Definición (Eventos independientes)

Dos eventos, A ∈ F y B ∈ F con P[A] > 0 y P[B] > 0 se dice que
son independientes si y solo si:
. . . . . . . . . . . . . . . . . . . .
55/150
. . . . . . . . . . . . . . . . . . . .

P[AB] = P[A]P[B]
. . . . . . . . . . . . . . . . . . . .
56/150
. . . . . . . . . . . . . . . . . . . .

P[AB] = P[A]P[B]
Como P[AB] = P[A|B]P[B] = P[B|A]P[A], entonces se deduce

que:
. . . . . . . . . . . . . . . . . . . .
57/150
. . . . . . . . . . . . . . . . . . . .

P[AB] = P[A]P[B]

que:
P[A|B] = P[A] y P[B|A] = P[B]
. . . . . . . . . . . . . . . . . . . .
58/150
. . . . . . . . . . . . . . . . . . . .

P[AB] = P[A]P[B]

que:
P[A|B] = P[A] y P[B|A] = P[B]
es decir que la ocurrencia B no afecta la probabilidad de ocurrencia
de A y viceversa.
. . . . . . . . . . . . . . . . . . . .
59/150
. . . . . . . . . . . . . . . . . . . .

P[AB] = P[A]P[B]

que:
P[A|B] = P[A] y P[B|A] = P[B]
de A y viceversa.
El resultado se puede extender a varios eventos independientes:
. . . . . . . . . . . . . . . . . . . .
60/150
. . . . . . . . . . . . . . . . . . . .

P[AB] = P[A]P[B]

que:
P[A|B] = P[A] y P[B|A] = P[B]
de A y viceversa.
P[A1 ∩ A2 ∩ · · · ∩ Pk ] = P[A1 , A2 , · · · , Ak ] = P[A1 ] · · · P[Ak ]
. . . . . . . . . . . . . . . . . . . .
61/150
. . . . . . . . . . . . . . . . . . . .

P[AB] = P[A]P[B]

que:
P[A|B] = P[A] y P[B|A] = P[B]
de A y viceversa.
P[A1 ∩ A2 ∩ · · · ∩ Pk ] = P[A1 , A2 , · · · , Ak ] = P[A1 ] · · · P[Ak ]
A esta fórmula se le conoce como la regla de multiplicación para
eventos independientes.
. . . . . . . . . . . . . . . . . . . .
62/150
. . . . . . . . . . . . . . . . . . . .
(Probabilidad Condicional)
De la definición de probabilidad condicional tenemos que:
P[AB] = P[A|B]P[B] = P[B|A]P[A]
. . . . . . . . . . . . . . . . . . . .
63/150
. . . . . . . . . . . . . . . . . . . .
de donde podemos despejar:
. . . . . . . . . . . . . . . . . . . .
64/150
. . . . . . . . . . . . . . . . . . . .
P[B|A]P[A]
P[A|B] =
P[B]
. . . . . . . . . . . . . . . . . . . .
65/150
. . . . . . . . . . . . . . . . . . . .
P[B|A]P[A]
P[A|B] =
P[B]
Definición
Usando la ley de probabilidad total y una partición Si del espacio
muestral Ω, si ocurre un evento A, la probabilidad posterior de Si
dado el evento A corresponde a:
. . . . . . . . . . . . . . . . . . . .
66/150
. . . . . . . . . . . . . . . . . . . .
P[B|A]P[A]
P[A|B] =
P[B]
Definición
Usando la ley de probabilidad total y una partición Si del espacio
muestral Ω, si ocurre un evento A, la probabilidad posterior de Si
dado el evento A corresponde a:
P[A|Si ]P[Si ]
P[Si |A] = 'k para i = 1, 2, · · · , k.
i=1 P[A|Si ]P[Si ]
. . . . . . . . . . . . . . . . . . . .
67/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos
Ejemplo
Demostrar que un conjunto S con n elementos tiene Cnk subconjuntos
de k elementos
. . . . . . . . . . . . . . . . . . . .
68/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos
Ejemplo
de k elementos
Demostración.
La demostración se realiza por inducción sobre k.
. . . . . . . . . . . . . . . . . . . .
69/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos
Ejemplo
de k elementos
Demostración.
La demostración se realiza por inducción sobre k. Para k = 1 es
evidente que el número de subconjuntos es igual a n, tal como se
puede comprobar al reemplazar k = 1 en Cnk :
. . . . . . . . . . . . . . . . . . . .
70/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos
Ejemplo
de k elementos
Demostración.
) *
n n!
Cn1 = = =n
1 1!(n − 1)!
. . . . . . . . . . . . . . . . . . . .
71/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos
Ejemplo
de k elementos
Demostración.
) *
n n!
Cn1 = = =n
1 1!(n − 1)!
Supongamos que para k el número de subconjuntos es:
) *
k n n!
Cn = =
k k!(n − k)!
. . . . . . . . . . . . . . . . . . . .
72/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos
Ejemplo
de k elementos
Demostración.
) *
n n!
Cn1 = = =n
1 1!(n − 1)!
Supongamos que para k el número de subconjuntos es:
) *
k n n!
Cn = =
k k!(n − k)!
ahora encontremos el resultado para k + 1,
. . . . . . . . . . . . . . . . . . . .
73/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos
Demostración.
Supongamos que tomamos un conjunto cualquiera de los Cnk sub-
conjuntos de k elementos y le agregamos un elemento de los n − k
elementos restantes.
. . . . . . . . . . . . . . . . . . . .
74/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos
Demostración.
elementos restantes. Este conjunto va a estar repetido k + 1 veces,
. . . . . . . . . . . . . . . . . . . .
75/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos
Demostración.
puesto que tenemos k + 1 subconjuntos de k elementos que se dife-
rencian en un solo elemento, y al agregarle otro elemento para con-
formar un conjunto de k +1 elementos vamos a tener k +1 conjuntos
repetidos,
. . . . . . . . . . . . . . . . . . . .
76/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos
Demostración.
repetidos, lo mismo ocurre si tomamos cualquier otro subconjunto
de k elementos.
. . . . . . . . . . . . . . . . . . . .
77/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos
Demostración.
de k elementos.
Por lo anterior tendremos en total Cnk (n − k) subconjuntos de k +
1 elementos,
. . . . . . . . . . . . . . . . . . . .
78/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos
Demostración.
de k elementos.
1 elementos, pero cada uno va a estar repetido k + 1 veces, en
consecuencia le número de subconjuntos de k + 1 elementos es:
. . . . . . . . . . . . . . . . . . . .
79/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos
Demostración.
de k elementos.
1 elementos, pero cada uno va a estar repetido k + 1 veces, en
consecuencia le número de subconjuntos de k + 1 elementos es:
n−k n!(n − k) n!
Cnk = = = Cnk+1
k +1 k!(n − k)!(k + 1) k!(k + 1)(n − k − 1)!
. . . . . . . . . . . . . . . . . . . .
80/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos
Ejemplo
Se tienen dos monedas; una normal y otra de dos caras. Se escoge al
azar una de las monedas y se lanza dos veces, el resultado corresponde
a dos caras. Encontrar la probabilidad de que la moneda elegida sea
la normal.
(desarrollo)
Llamemos C al evento cae cara y N al evento de seleccionar la
moneda normal. Como tenemos dos monedas, una normal y la otra
de dos caras (N), entonces:
1
P(N) = P(N) =
2
de otro lado, las probabilidades condicionales de obtener dos caras
con una moneda normal o una moneda de dos caras corresponden a:
1
P(CC |N) =
4
P(CC |N) = 1
. . . . . . . . . . . . . . . . . . . .
81/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos
Ejemplo
(continuación)
Por el teorema de probabilidad total, la probabilidad de obtener dos
caras es:
11 1 5
P(CC ) = P(CC |N)P(N) + P(CC |N)P(N) = +1 =
42 2 8
y empleando la regla de Bayes tenemos que:
P(CC |N)P(N) (1/4)(1/2) 1
P(N|CC ) = = =
P(CC ) (5/8) 5
. . . . . . . . . . . . . . . . . . . .
82/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos
Ejemplo
Dos eventos A y B son mutuamente excluyentes. ¿Son independien-
tes también?
. . . . . . . . . . . . . . . . . . . .
83/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos
Ejemplo
tes también?
(Desarrollo)
Dado que los dos eventos A y B son mutuamente excluyentes se
tiene que: P(AB) = 0,
. . . . . . . . . . . . . . . . . . . .
84/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos
Ejemplo
tes también?
(Desarrollo)
tiene que: P(AB) = 0, ahora, para que sean independientes se debe
cumplir que: P(AB) = P(A)P(B) = 0,
. . . . . . . . . . . . . . . . . . . .
85/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos
Ejemplo
tes también?
(Desarrollo)
tiene que: P(AB) = 0, ahora, para que sean independientes se debe
cumplir que: P(AB) = P(A)P(B) = 0, por lo tanto la única forma
de que se de la independencia es que la probabilidad de uno o ambos
eventos A y B sea cero.
. . . . . . . . . . . . . . . . . . . .
86/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos
Ejemplo
Una caja contiene balotas numeradas de 1 a n.
. . . . . . . . . . . . . . . . . . . .
87/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos
Ejemplo
Una caja contiene balotas numeradas de 1 a n. Si se toman k bolas
en forma sucesiva hallar: La probabilidad de que m (k ≤ m ≤ n) sea
el número mas grande entre las k balotas.
(Desarrollo)
Se tienen Cnk formas de tomar k balotas entre n, entonces la proba-
bilidad de cada una es 1/Cnk ; que m sea el número más grande entre
las k balotas equivale ha haber tomado las restantes k − 1 balotas
entre las balotas numeradas de la 1 a la (m − 1) y, esto se puede
k−1
realizar de Cm−1 formas:
⎛ ⎞
⎝
m−1 ⎠
k −1
P= ⎛ ⎞
⎝
n ⎠
k
. . . . . . . . . . . . . . . . . . . .
88/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos
Ejemplo
Se tienen k cajas idénticas, cada una con balotas numeradas de la 1 a
la n. Se retira al azar una bola de cada caja, ¿Cuál es la probabilidad
de que el mayor número de las balotas retiradas sea m?.
(desarrollo)
La probabilidad de retirar cualquier bola de cada una de la k cajas
es 1/n; la probabilidad de que una bola retirada de una caja tenga
un número entre 1 y m − 1 es (m − 1)/n (es decir que su valor sea
menor a m). Por lo tanto la probabilidad de que al sacar las k bolas,
una este numerada con m y las otras (k-1) bolas estén numeradas
con números menores a m corresponde a la combinatoria:
) *) * ) *
k m − 1 k−1 1 1
1 n n
. . . . . . . . . . . . . . . . . . . .
89/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos
Ejemplo
de la misma forma, la probabilidad de que q bolas de las k retiradas
de las k cajas tengan el número m y las otras (k − q) restantes
tengan números inferiores a m corresponde a:
) *) * ) *
k m − 1 k−q 1 q
q n n
en consecuencia, la probabilidad de que todas las balotas retiradas
tengan numero menores o iguales a m corresponde a la suma de
todas las posibilidades:
( ) k * ) m − 1 *k−q ) 1 *q
q=k
q n n
q=1
. . . . . . . . . . . . . . . . . . . .
90/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos
Ejemplo
En una lotería seleccionan 6 números de 51 posibles. Para jugar la
lotería se tienen balotas numeradas del 1 al 51 y se seleccionan al
azar 6 balotas. ¿ Cuál es la probabilidad de que un jugador halla
seleccionado previamente 4 o 5 o 6 números ganadores?.
(Desarollo)
La probabilidad de cada selección de 6 números obedece a 1/Cnm
(n = 51, m = 6). Ahora, las diferentes formas de escoger k bolas
(aciertos) entres las m bolas (m = 6) y m − k (no aciertos) entre
las n − m restantes es:
) *) *
m n−m
k m−k
. . . . . . . . . . . . . . . . . . . .
91/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos
Ejemplo
Por lo tanto, la probabilidad de tener k aciertos (k = 4, 5, 6) obedece
a: ) *) *
m n−m
k m−k
) *
n
m
con n = 51, m = 6 y k = 4, 5, 6
. . . . . . . . . . . . . . . . . . . .
92/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos
Ejemplo
En una linea de producción de resistencias de 100Ω solo se aceptan
las resistencias que tienen valores entre 96Ω y 104Ω. Calcular el
porcentaje de resistencias aceptadas bajo las siguientes condiciones:
(a) La distribución de los valores de las resistencias es uniforme
entre 95Ω y 105Ω.
(b) La distribución es Normal con µ = 100 y σ = 2.
(Desarrollo)
(a) La función acumulativa de probabilidad es:

x−95
FX (x) = 105−95
por lo tanto el porcentaje de resistencias aceptadas es:
104−95 96−95
P = P(94 ≤ X ≤ 104) = F (104) − F (96) = 105−95 − 105−95 = 0,8
. . . . . . . . . . . . . . . . . . . .
93/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos
Ejemplo
(b) El porcentaje corresponde a:

+ ,
96−100 X −µ 104−100
P = P(94 ≤ X ≤ 104) = P 2 ≤ σ ≤ 2 = 0,954
esto con base en la tabla para la distribución normal estándar.
. . . . . . . . . . . . . . . . . . . .
94/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos
Ejemplo
. . . . . . . . . . . . . . . . . . . .
95/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos
Ejemplo
. . . . . . . . . . . . . . . . . . . .
96/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos
Ejemplo
. . . . . . . . . . . . . . . . . . . .
97/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos
Ejemplo
u
. . . . . . . . . . . . . . . . . . . .
98/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos
Ejemplo
. . . . . . . . . . . . . . . . . . . .
99/150
. . . . . . . . . . . . . . . . . . . .
Fundamentos
Dado un evento B, la función de densidad de X condicionada a dicho
evento corresponde a:
FX |B (x|B) = P[X ≤ x|B]
P[X ≤ x, B]
= P[B ] ̸= 0
P[B]
Supongamos ahora, que tenemos una partición del espacio muestreal:
{Bi , i = 1, · · · , n}, con P[Bi ] > 0, entonces:
#n
Bi = Ω con Bi ∩ Bj = ∅ ∀ i ̸= j
i=1
y, del teorema de la probabilidad total se tiene:
( n
FX (x) = FX |Bi (x|Bi )P[Bi ]
i=1
en consecuencia, la función de densidad de probabilidad (PDF) es:
∂ n FX |B (x|B)
fX |B (x|B) =
∂x1 · · · ∂xn
. . . . . . . . . . . . . . . . . . . .
100/150
. . . . . . . . . . . . . . . . . . . .
Fundamentos
De la última expresión y el teorema de la probabilidad total obtene-
mos:
(n
fX (x) = fX |B (x|Bi )P[Bi ]
i=1
Figura 1: Partición de un conjunto

. . . . . . . . . . . . . . . . . . . .
101/150
. . . . . . . . . . . . . . . . . . . .
Fundamentos
La distribución conjunta de dos vectores aleatorios X = (X1 , · · · , Xn )T

e Y = (Y1 , · · · , Yn )T es:
FXY (x, y ) = P[X ≤ x, Y ≤ y ]
si la PDF conjunta de X e Y existe, entonces esta dada por:
∂ n+m FXY (x, y )
fXY ((x, y )) =
∂x1 · · · ∂xn ∂ y1 · · · ∂ym
La funcin marginal de x se obtiene como:
- ∞ - ∞
fX (x) = ··· fXY (x, y )dy1 · · · dym
−∞ −∞
sea X ′ = (X1 , · · · , Xn−1 )T , entonces la función marginal de X ′ se
obtiene como: -
∞
fX ′ (x ′ ) = fX (x)dxn con x ′ = (x1 , · · · , xn−1 )T
−∞
. . . . . . . . . . . . . . . . . . . .
102/150
. . . . . . . . . . . . . . . . . . . .
Ejemplo
Ejemplo
Sea X = (X1 , X2 , X3 )T la posición de una partícula dentro de una
esfera de radio a centrada en el origen. Asumiendo que un instante
de observación la partícula tiene la misma de probabilidad de estar
en cualquier punto dentro de la esfera:
. /
3
4πa3
, x12 + x22 + x32 < a
fX (x) =
0, en otro caso
calcular la probabilidad de que la partícula caiga dentro de una esfera
de radio 2a/3 que esta contenida dentro de la esfera mas grande
Solución:
Denotemos por E el evento de que la partícula caiga dentro de la
esfera: /
R = {x1 , x2 , x3 : x12 + x22 + x32 < 2a/3}
. . . . . . . . . . . . . . . . . . . .
103/150
. . . . . . . . . . . . . . . . . . . .
Ejemplo
Ejemplo
al evaluar P[E ] obtenemos:
---
P[E ] = fX (x1 , x2 , x3 )dx1 dx2 dx3
R
empleando coordenadas esféricas se convierte en:
- 2a/3 - π - 2π
3
P[E ] = r 2 sin φdrdφ dθ ≃ 0,3
4πa3 r =0 φ=0 θ=0
. . . . . . . . . . . . . . . . . . . .
104/150
. . . . . . . . . . . . . . . . . . . .
Vector de esperanza
Definición
La esperanza de un vector X = (X1 , · · · Xn )T es un vector µ (o
X̄ ), con cada una de sus entradas dadas por:
- ∞ - ∞
µi = ··· xi fX (x1 , · · · , xn )dx1 · · · dxn
−∞ −∞
en terminos de la probabilidad marginal:
- ∞ - ∞
fXi (xi ) = ··· fX (x)dx1 · · · dxi−1 dxi+1 · · · dxn
−∞ −∞
así, la media µi corresponde a:
- ∞
µi = xi fXi (xi )dxi para i = 1, · · · , n
−∞
. . . . . . . . . . . . . . . . . . . .
105/150
. . . . . . . . . . . . . . . . . . . .
Matrices de covarianza
Definición
La matriz de covarianza K asociada con vector aleatorio X
corresponde al valor esperado el producto punto de (X − µ) con
(X − µ)T :
K = E [(X − µ) (X − µ)T ]
con:
Kij = E [(Xi − µi )(Xj − µi )]
= E [(Xj − µi )(Xi − µi )] = Kji
en particular con σi2
= Kii podemos escribir a K como:
⎡ ⎤
σ12 ··· K1n
⎢ .. ⎥
⎢ . ⎥
⎢ ⎥
K = ⎢ ... .. ⎥
⎢ 2
⎢ σi . ⎥⎥
⎢ .. ⎥
⎣ . ⎦
Kn1 ··· σn 2
. . . . . . . . . . . . . . . . . . . .
106/150
. . . . . . . . . . . . . . . . . . . .
Procesos Estocásticos
Definición
Sea un espacio de probabilidad (Ω, F, P). entonces definimos una
aplicación X del espacio muestral Ω a l espacio de funciones conti-
nuas. A los elementos de este espacio se le denomina Proceso Aleato-
rio si en cada tiempo fijo la aplicación es una variable aleatoria, esto
es, X (t, ζ) ∈ F para cada t fijo sobre la recta real −∞ < t < ∞.
En consecuencia de la definicón tenemos una función multidimensio-

nal X (t, ζ), la cual, para cada valor fijo de ζ es una función ordinaria
del tiempo y, para cada valor fijo de t es una variable es una variable
aleatoria.
Ejemplo
Sea X (t, ζ) = X (ζ)f (t) con X una variable aleatoria y f una función
determinística con parámetro t. También se acostumbra escribir a
X (ζ)f (t) como Xf (t).
. . . . . . . . . . . . . . . . . . . .
107/150
. . . . . . . . . . . . . . . . . . . .
Gráficamente podemos representar a un proceso estocástico como:
Figura 2: Proceso Estocástico

Definición
Se dice que un Proceso Estocástico esta estadisticamente especi-
ficado por su conjunto completo de n PDFs para todos los enteros
positivos n. Es decir fX (x1 , · · · , xn ) para todos los x1 . · · · , xn y todos
los t1 < t2 < · · · < tn .
. . . . . . . . . . . . . . . . . . . .
108/150
. . . . . . . . . . . . . . . . . . . .
Como en el caso de variables aleatorias o vectores aleatorios, la fun-

ción de la media es denotada por µX (t)y está dada por:
µX (t) = E [X (t)] con −∞<t <∞
De la misma forma, la Función de Correlación está definida por el
valor esperado:
RX (t1 , t2 ) = E [X (t1 )X ∗ (t2 )] para − ∞ < t1 , t2 < ∞
la covarianza esta definida por la correlación entre los procesos cen-
trados: X (t) − µX (t) en dos instantes t1 y t2 :
KX (t1 , t2 ) = E [(X (t1 ) − µX (t1 ))(X (t2 ) − µX (t2 ))∗ ]
= RX (t1 , t2 ) − µX (t1 )µ∗X (t2 )
La función de varianza corresponde a:
σX2 (t) = KX (t, t) = E [|Xc (t)|2 ]
. . . . . . . . . . . . . . . . . . . .
109/150
. . . . . . . . . . . . . . . . . . . .
Procesos Estocásticos Importantes
(Proceso de conteo de Poisson)

Sea el proceso N(t), el número de arribos hasta el tiempo t, entonces
podemos escribir:
(∞
N(t) = u[t − T [n]]
n=1
con u(t) la función escalón unitario y T [n], el tiempo hasta el
n−ésimo arribo. T [n] tiene una PDF dada por:
(λt)n−1 λt
fT (t; n) = λe u(t), n≥0
(n − 1)!
El tiempo entre arribos corresponde a:
τ [n] = T [n] − T [n − 1] (1)
en la figura siguiente se puede apreciar el proceso de Poisson.
. . . . . . . . . . . . . . . . . . . .
110/150
. . . . . . . . . . . . . . . . . . . .
Figura 3: Proceso Estocástico
. . . . . . . . . . . . . . . . . . . .
111/150
. . . . . . . . . . . . . . . . . . . .

Los intervalos entre arribos son independientes con una PDF expo-
nencial dada por:
fτ = λe −λt u(t)
Ahora la probabilidad de tener un número dado de llegadas (n) hasta
el tiempo t corresponde a:
P{N(t) = n} = P{T [n] ≤ t ≤ T [n + 1]}
ello debido a que la unica forma en que n = N(t) es que la variable t
este en el intervalo de variables aleatorias [T [n], T [n + 1]). Si toma-
mos en cuenta la independencia estadística entre arribos podemos
escribir la anterior probabilidad como:
P{N(t) = n} = P{T [n] ≤ t ∧ τ [n] > t−T [n]} ver ecuación (1)
esta expresión la podemos calcular usufructuando la independencia
estadística de los tiempos de arribo T [n] y el intervalo τ [n + 1] como
se muestra a continuación.
. . . . . . . . . . . . . . . . . . . .
112/150
. . . . . . . . . . . . . . . . . . . .
$ % 7 8
6t 6∞ 6t λn αn−1 e −λα
6∞
fT (α, n) fτ (β)dβ dα = (n−1)! λe −λβ dβ dα u(t)
0 t−α 0 t−α
) *
6t λn e −λt
= αn−1 dα (n−1)! u(t)
0
(λt)n −λt
= n! e u(t) para t ≥ 0, n ≥ 0
el valor esperado para este proceso corresponde a: E [N(t)] = λt
. . . . . . . . . . . . . . . . . . . .
113/150
. . . . . . . . . . . . . . . . . . . .
Inferencia Bayesiana
(Introducción)
La inferencia es el acto de derivar conclusiones a partir de las eviden-
cias. En el caso de la predicción de un proceso aleatorio con base en
las señales relacionadas, la Inferencia Bayesiana usufructúa no solo
las evidencias. también el conocimiento a priori de la distribución de
probabilidad del proceso.
. . . . . . . . . . . . . . . . . . . .
114/150
. . . . . . . . . . . . . . . . . . . .
(Introducción)
probabilidad del proceso. Los métodos contemplados son los siguien-
tes:
. . . . . . . . . . . . . . . . . . . .
115/150
. . . . . . . . . . . . . . . . . . . .
(Introducción)
tes:
Estimador de máximo a posteriori - MAP
Máxima verosimilitud - ML
Mínimo error cuadrático medio - MMSE
Valor absoluto medio del error - MAVE
. . . . . . . . . . . . . . . . . . . .
116/150
. . . . . . . . . . . . . . . . . . . .
(Introducción)
tes:
Un ejemplo clásico del modelo Bayesiano corresponde al modelo de
Markov escondido.
. . . . . . . . . . . . . . . . . . . .
117/150
. . . . . . . . . . . . . . . . . . . .
(Introducción)
tes:
Un ejemplo clásico del modelo Bayesiano corresponde al modelo de
Markov escondido.
La inferencia Bayesiana se basa en la minimización de la función de
Riesgo de Bayes.
. . . . . . . . . . . . . . . . . . . .
118/150
. . . . . . . . . . . . . . . . . . . .
Supongamos que vamos a estimar el valor de un vector aleatorio

θ con base en un vector de observación y . De la regla de Bayes
tenemos:
fY |Θ (y |θ)fΘ (θ)
fΘ|Y (θ|y ) = (2)
fY (y )
para una observación específica, fY (y ) es una constante y su efecto
consiste simplemente en normalizar a (2). El término fY |Θ (y |θ) co-
rresponde a la verosimilitud de que la señal haya sido generado por la
señal θ, el término fΘ (θ) es la probabilidad a priori de que el vector
de parámetros tenga el valor θ. En consecuencia:
Probabilidad a posteriori ∝ verosimilitud × Probabilidad a Priori
.
. . . . . . . . . . . . . . . . . . . .
119/150
. . . . . . . . . . . . . . . . . . . .
(Modelos Dinámicos y de Probabilidad)

En estimación se emplean tanto los modelos dinámicos como los
probabilísticos para el análisis de señales. Por ejemplo el filtro de
Kalman y los predictores lineales emplean el modelo dinámico. En
el caso de los modelos probabilísticos se caracteriza el espacio de
las fluctuaciones aleatorias de las señales en términos de la media
y la varianza y, en forma mas completa en términos del modelo de
probabilidades.
Los modelos dinámicos y de probabilidad se pueden mezclar, un ejem-
plo de ello es de los modelos escondidos de Markov.
Para un proceso de estimación, consideremos el vector de parámetros:
θ = [θ0 , θ1 , · · · , θP−1 ]
Sea e el proceso de exitación y la observación ruidosa y :
y = [y (0), y (1), · · · , y (N − 1)]
el modelo para la señal y esta dado por: y = x + n = h(θ, e) + n.
. . . . . . . . . . . . . . . . . . . .
120/150
. . . . . . . . . . . . . . . . . . . .
(Modelos Dinámicos y de Probabilidad)
Figura 4: Modelo de predicción
El vector de parámetros (θθ ) en el proceso de estimación para una

señal de voz tomará un conjunto de valores, mientras que para otra
señal, por ejemplo una sísmica consistirá en otro conjunto de valores.
. . . . . . . . . . . . . . . . . . . .
121/150
. . . . . . . . . . . . . . . . . . . .
Definición
El Espacio de Parámetros de un proceso aleatorio Θ corresponde a
la colección de valores que puede tomar el vector de parámetros θ .
Los parámetros de un proceso aleatorio determinan las Características

(i.e. la media, la varianza, la densidad espectral de potencia, etc.)
de las señales generadas por el proceso. A medida que cambian los
parámetros del proceso, las caraterísticas de las señales generadas
por el proceso también lo hacen.
Definición
El Espacio de Señal consiste en la colección de señales asociadas a
cada uno de los valores del vector θ . Esto es, para cada valor que
toma el vector θ le corresponden un conjunto de señales.
. . . . . . . . . . . . . . . . . . . .
122/150
. . . . . . . . . . . . . . . . . . . .
Consideremos un proceso aleatorio gaussiano de tres dimensiones con

vector de parámetros θ = [µµ, Σ ], donde µ es la media y Σ la matriz
de covarianza del proceso gaussiano. En la figura siguiente se puede
apreciar tres vectores de media en el espacio de parámetros.
Figura 5: Espacio de parámetros - Espacio de Señal

. . . . . . . . . . . . . . . . . . . .
123/150
. . . . . . . . . . . . . . . . . . . .
(Estimación de Parámetros y Restauración de Señales)

Aunque la restauración de señales y la estimación de parámetros
están muy relacionadas existen diferencias y, tal vez la principal co-
rresponde a que las fluctuaciones en los valores de los parámetros
cambian lentamente en comparación con las señales mismas.
Ejemplo
Sea un proceso con ruido y de media cero, para el cual se desea
estimar la media de la señal sin ruido y la señal en si misma. A
medida que el periodo de observación aumenta, el valor de la media
tiende a la media de la señal sin ruido; sin embargo la estimación de
la señal limpia depende de la estructura de correlación de la señal y
la relación señal a ruido, como también del método de estimación
empleada.
. . . . . . . . . . . . . . . . . . . .
124/150
. . . . . . . . . . . . . . . . . . . .
Ejemplo
Consideremos ahora, la interpolación de muestras perdidas a partir de
N muestras almacenadas de una secuencia de una señal (ver figura).
Figura 6: Restauración con un modelo parámetrico

Asumiendo que se emplea un modelo auto-regresivo (AR), entonces
el modelo de la señal corresponde a:
y = Xθ + e + n (3)
con X la matriz de señal, θ el vector de parámetros AR, e la entrada
aleatoria del modelo AR y n el ruido aleatorio.
. . . . . . . . . . . . . . . . . . . .
125/150
. . . . . . . . . . . . . . . . . . . .
Ejemplo (Continuación)
De la ecuación (3) tenemos que la restauración consiste en estimar
tanto a θ como a e . Si se asume que θ es invariante en el tiempo,
entonces la estimación de θ puede ser obtenida con base en las N
muestras almacenadas; a medida que N se hace mas grande, el valor
de la estima se aproximará al valor del parámetro. La dificultad para
la interpolación de la señal radica en que la exitación e subyacente
de la señal x es puramente aleatoria y, a diferencia de θ no se puede
estimar a partir de un promedio.
. . . . . . . . . . . . . . . . . . . .
126/150
. . . . . . . . . . . . . . . . . . . .
(Medidas de desempeño y propiedades de los estimadores)

Sea un vector de parámetros θ . Para estimar a θ , a partir de N
muestras y , se emplean un conjunto de medidas de desempeño para
cuantificar y comparar las características de diferentes estimadores.
En general, la estima de un vector de parámetros es función del
vector de observación y , la longitud N del periodo de observación y,
del modelo M del proceso:
θ̂θ = f (yy , N, M )
Medidas comunes para estimadores
(1) Valor esperado de la estima → E[θ̂θ ]
(2) Sesgo de la estima → E[θ̂θ − θ ] = E[θ̂θ ] − θ
(3) Covarianza de la estima → Cov [θ̂θ ] = E[(θ̂θ − E[θ̂θ ])(θ̂θ − E[θ̂θ ])T ]
Los estimadores óptimos estan orientados hacia cero sesgo y, esti-
mación de mínimo error de covarianza.
. . . . . . . . . . . . . . . . . . . .
127/150
. . . . . . . . . . . . . . . . . . . .
(Propiedades deseables de un estimador )
(1) Estimador sin sesgo - un estimador θ se le dice sin sesgo si la
esperanza de la estima es igual al valor real del parámetro
E[θ̂θ ] = θ
Un estimador es asintóticamente sin sesgo si:
lím E[θ̂θ ] = θ
N→∞
(2) Estimador Eficiente - un estimador sin sesgo es eficiente si tiene
la matriz de covarianza mas pequeña en comparación con todas
las de otros estimadores sin sesgo de θ ,
Cov [θ̂θ Eficiente ] ≤ Cov [θ̂θ ]
con θ̂θ cualquier estima de θ .
(3) Estimador Consistente - un estimador es consistente si mejora
a medida que se incrementa a N, de tal forma que la estima θ̂θ
converge probabilísticamente al valor real de θ :
lím P[|θ̂θ − θ | > ϵ] = 0 con ϵ arbitrariamente pequeño
N→∞
. . . . . . . . . . . . . . . . . . . .
128/150
. . . . . . . . . . . . . . . . . . . .
Ejemplo
Sean YN = [y (0), · · · , y (N −1)], N muestras de un proceso aleatorio
ergódico. Consideremos el sesgo de las estimas en tiempo promedio
de la media µy y de la varianza σy2 para YN :
1 '
N−1
1 '
N−1
µ̂y = N y (m) σ̂y2 = N [y (m) − µ̂y ]2
m=0 m=0
µ̂y es una estima sin sesgo puesto que:
N−1
1 (
E[µ̂y ] = E[y (m)] = µy
N
m=0
el valor esperado de la estima de la varianza se puede escribir como:
⎧ $ %2 ⎫
⎨ 1 N−1
( 1
N−1
( ⎬
E[σ̂y2 ] = E y (m) − y (k)
⎩N N ⎭
m=0 k=0
2 2 1 N −1 2
= σy2 − σy + σy2 = σy
N N N
. . . . . . . . . . . . . . . . . . . .
129/150
. . . . . . . . . . . . . . . . . . . .
De la última expresión se puede concluir que la estima de la varianza
no tiene sesgo puesto que el limite de (N − 1)/N cuando N → ∞
es 1. En la siguiente figura se puede apreciar como decrece el sesgo
y la varianza de la estima asintótica y sin sesgo del parámetro θ a
medida que crece N.
Figura 7: Sesgo y Varianza de una estima

. . . . . . . . . . . . . . . . . . . .
130/150
. . . . . . . . . . . . . . . . . . . .
Definición
A la colección de todos los posibles valores que puede tomar una
señal o un vector de parámetros se le denomina Espacio a priori
priori. El
espacio a priori tiene una PDF, en el caso que la PDF sea no uniforme
entonces puede ser empleada para ponderar la inferencia extraída de
la observación; esto daría más peso a los valores que tienen una mayor
probabilidad a priori de ocurrencia.
La evidencia del valor de una señal x o, un parámetro θ esta conte-
nida en la señal de observación y . Por ejemplo una señal ruidosa se
puede usar para obtener la estima de la voz limpia x y/o el vector
de parámetros θ de una predicción lineal de la voz.
Definición
El espacio de señal o de parámetros a priori corresponde a todos los
valores probables de una señal x o un vector de parámetros θ , que son
consistentes con la información a priori de la señal x (o el parametro
θ ) y la evidencia contenida en la observación y .
. . . . . . . . . . . . . . . . . . . .
131/150
. . . . . . . . . . . . . . . . . . . .
Por ejemplo, la probabilidad de que una variable como el clima del fin
de semana, θ , tome un valor o estado particular dadas algunas ob-
servaciones meteorológicas y , se puede ponderar con la probabilidad
a priori de los estados climáticos (independientemente de la observa-
ción), que en sí misma podría obtenerse de los datos meteorológicos
de años anteriores y también estaría condicionada a la época del año.
Consideremos un proceso con parámetro Θ , espacio de observación
Y y un PDF conjunta fY ,Θ (yy , θ ), de la regla de Bayes tenemos:
fY |Θ (yy |θ
|θ)fΘ (θ)
θ|y ) =
fΘ|Y (θ|y
fY (yy )
. . . . . . . . . . . . . . . . . . . .
132/150
. . . . . . . . . . . . . . . . . . . .
Ejemplo
Una señal ruidosa de N muestras esta modelada como:
y (m) = x (m) + n (m)
asumamos que la señal x (m) es gaussiana con vector media µx y
matriz de covarianza Σxx , tomemos también al ruido n (m) gaussiano
con media µn y matriz de covarianza Σnn . Las PDFs de la señal y
el ruido modelan los espacios de la señal y el ruido respectivamente.
Dado un vector de observación y (m) la señal subyacente x (m) tendrá
una distribución con un vector de media y (m) − µn y una matriz de
covarianza Σnn , tal como se muestra en la figura (8). La función de
verosimilitud está dada por:
1
fX |Y [yy (m)|xx (m)] = fN [yy (m) − x (m)] = N/2
(2π) |Σ Σnn |1/2
? @
1 T −1
×exp − ([yy (m) − µn ] − x (m)) Σnn ([yy (m) − µn ] − x (m))
2
. . . . . . . . . . . . . . . . . . . .
133/150
. . . . . . . . . . . . . . . . . . . .
Ejemplo
Figura 8: Espacios bidimensionales para señal y ruido
. . . . . . . . . . . . . . . . . . . .
134/150
. . . . . . . . . . . . . . . . . . . .
Los términos en la última expresión se organizarón para enfatizar el
espacio de verosimilitud mostrado en la figura (8). Por lo tanto la
PDF a posteriori se puede expresar como:
fY |X [yy (m)|xx (m)]fX [xx (m)]
fX |Y [xx (m)|yy (m)] = fY [yy (m)]
1 1
= Σnn |1/2 |Σ
fY [yy (m)] (2π)N |Σ Σxx |1/2
= ×exp(− 12 {([yy (m) − µn ] − x (m))T Σnn

−1
([yy (m) − un ] − x (m))
! "# $
Verosimilitud
−1
+ [xx (m) − µx ]T Σxx [xx (m) − µx ]})
! "# $
A priori
Para una señal y un proceso de ruido de dos dimensiones, el espacio

a priori de la señal, el ruido y la señal ruidosa se muestran en la figura
(8). Los espacios de verosimilitud y a posteriori para un vector de
observación ruidoso y , también se muestra en la figura (8).
. . . . . . . . . . . . . . . . . . . .
135/150
. . . . . . . . . . . . . . . . . . . .
(Estimación Bayesiana)
La estimación bayesiana de un vector de parámetros θ se fundamen-
ta en la minimización de una Función de Riesgo Bayesiana definida
como una función de promedio de costo del error:
R (θ̂θ ) = E[C (θ̂θ , θ )]
- -
= C (θ̂θ , θ )fY ,Θ (yy , θ )dyy dθθ
-θ -Y
= C (θ̂θ , θ )fY |Θ (yy |θθ )fΘ (θθ )dyy dθθ
θ Y
La función de costo del error C (θ̂θ , θ ) permite la ponderación adecua-
da de los diversos resultados para lograr algún tipo de propiedades
objetivas o subjetivas. Así, la función de costo se escoge para que
los resultados no deseados tengan un alto costo. El promedio de la
función de costo de error R (θ̂θ ) se realiza sobre todo el espacio de θ
e y.
. . . . . . . . . . . . . . . . . . . .
136/150
. . . . . . . . . . . . . . . . . . . .
Para una observación y dada, fY (yy ) es una constante y no tiene

efecto sobre el proceso de minimización del riesgo. Por lo tanto, la
función anterior se puede reescribir como:
-
R (θ̂θ |yy ) = C (θ̂θ , θ )fΘ|Y (θθ |yy )dθθ
θ
La estima bayesiana se obtiene como el vector de parámetros de
mínimo riesgo y esta dado por:
A- B
θ̂θ bayesiana = arg mín R (θ̂θ |yy ) = arg mín C (θ̂θ , θ )fΘ|Y (θ|y
θ|y )dθθ
θ̂θ θ̂θ θ
A- B
= arg mín C (θ̂θ , θ )fY |Θ (yy |θ
|θ)fΘ (θθ )dθθ
θ̂θ θ
donde arg mín significa minimización con respecto al argumento, en
este caso el argumento es θ̂θ . Asumiendo que la función de riesgo es
diferenciable y tienen un mínimo bien definido, entonces la estima
bayesiana se puede obtener como:
. . . . . . . . . . . . . . . . . . . .
137/150
. . . . . . . . . . . . . . . . . . . .
A - B
∂R (θ̂θ |yy ) ∂
θ̂θ bayesiana = arg cero = arg cero
θ̂θ ∂θ̂θ θ̂θ ∂θ̂θ θ
. . . . . . . . . . . . . . . . . . . .
138/150
. . . . . . . . . . . . . . . . . . . .
(Estimación de máxima verosimilitud - ML )

La ML estima θ̂θ ML corresponde al vector de parámetros que maximiza
la función de verosimilutud fY |Θ (yy |θ
|θ). El estimador ML corresponde
a un estimador bayesiano con forma de muesca y una PDF a priori
del parámetro uniforme:
-
RML (θ̂θ |yy ) = [1 − δ(θ̂θ − θ )] fY |θ (yy |θ
|θ) f (θθ ) dθθ
θC DE F C DE F CΘDE F
función de costo verosimilitud a priori
=
. . . . . . . . . . . . . . . . . . . .
139/150
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
140/150
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
141/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos
Ejemplo (2 sección 6.1 - Tromba ed 6)
Sea el mapa T definido como T (x, y ) = ((x + y )/2, (x − y )/2) y
sea D ∗ = [−1, 1] × [−1, 1] ⊂ R2 . Determinar la imagen D de D ∗ a
través de T .
. . . . . . . . . . . . . . . . . . . .
142/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos
través de T .
Como cada componente de la función T corresponde a una función
lineal de x e y podemos analizar el mapa T a partir de lineas en
D ∗ . Tomemos lineas paralelas al eje y y veamos como se envían a
D.
. . . . . . . . . . . . . . . . . . . .
143/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos
través de T .
D. Definimos a L α (t) = (α, t) con α una constante en [−1, 1] y el
parámetro o variable t tal que −1 ≤ t ≤ 1 (ver figura).
. . . . . . . . . . . . . . . . . . . .
144/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos
través de T .
Para α = −1, L−1 (t) = (−1, t) (cc 4 en la
figura) es enviada por T a T (L−1 (t)) =
T (−1, t) = ((−1 + t)/2, (−1 − t)/2);
. . . . . . . . . . . . . . . . . . . .
145/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos
través de T .
Para α = −1, L−1 (t) = (−1, t) (cc 4 en la
T (−1, t) = ((−1 + t)/2, (−1 − t)/2); para
t = −1 T (−1, −1) = (−1, 0) y para t = 1,
T (−1, 1) = (0, −1),
. . . . . . . . . . . . . . . . . . . .
146/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos
través de T .
Para α = −1, L−1 (t) = (−1, t) (cc 4 en la
T (−1, t) = ((−1 + t)/2, (−1 − t)/2); para
t = −1 T (−1, −1) = (−1, 0) y para t = 1,
T (−1, 1) = (0, −1), lo que indica que la
curva L−1 (t) se envia en la linea que une a
los puntos (−1, 0) y (0, −1) (T (cc 4 ) en la
figura).
. . . . . . . . . . . . . . . . . . . .
147/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos
Ejemplo (2 sección 6.1 - Tromba ed 6 (cont.))

Ahora tomemos un α en [−1, 1] de tal
forma que la curva Lα (t) este ubicada
como se muestra en la diapositiva an-
terior.
. . . . . . . . . . . . . . . . . . . .
148/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos

terior. La función T envía a Tα (t) =
(α, t) en ((α + t)/2, (α − t)/2).
. . . . . . . . . . . . . . . . . . . .
149/150
. . . . . . . . . . . . . . . . . . . .
Ejemplos

terior. La función T envía a Tα (t) =
(α, t) en ((α + t)/2, (α − t)/2).
Si t = −1 entonces T (α, −1) = ((α −
1)/2, (α + 1)/2) y, si t = 1 entonces
T (α, 1) = ((α + 1)/2, (α − 1)/2); así
se obtiene la recta T (Lα ) mostrada en
la figura.
. . . . . . . . . . . . . . . . . . . .
150/150
. . . . . . . . . . . . . . . . . . . .

Probabilidad Introducción: Ivan Ladino Notas de Clase - III - 2019

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Probabilidad Introducción: Ivan Ladino Notas de Clase - III - 2019

Cargado por

Copyright:

Formatos disponibles

Probabilidad

. . . .... .... .... . . . . .

En muchos casos se cree que los análisis estadísticos y probabilísticos

En muchos casos se cree que los análisis estadísticos y probabilísticos

Independientemente de cual sea el caso particular, nosotros estamos

Escuetamente podemos decir que la Probabilidad es un modelo ma-

Los ejemplos de la aplicación de la probabilidad en ingeniería son

Estudio de los datos cuantitativos de la población o, de los

Definición (La Probabilidad como Intuición)

Definición (La Probabilidad frecuentista)

En muchos experimentos se tiene una estructura secuencial, por me-

El espacio muestreal Ω es el conjunto de todos los posibles resultados

En los ejemplo anteriores, el número de elementos que contiene cada

Para indicar que un elemento ζ pertenece al conjunto Ω se escribe

A dos conjuntos E , F se les dice iguales sí: E ⊂ F y F ⊂ E .

Definición (Campos Sigma σ)

Definición (Campos Sigma σ)

Definición (Campos Sigma σ)

Definición (Campos Sigma σ)

Un campo sigma F , es cerrado bajo cualquier union numerable de

Definición (Campos Sigma σ)

Un campo sigma F , es cerrado bajo cualquier union numerable de

(Definición Axiomática de Probabilidad)

(Definición Axiomática de Probabilidad)

(Definición Axiomática de Probabilidad)

(Definición Axiomática de Probabilidad)

Teorema (Extensión propiedad 7 )

Sin embargo, cuando Ω no es contable, por ejemplo Ω = R, no se

Sin embargo, cuando Ω no es contable, por ejemplo Ω = R, no se

Sin embargo, cuando Ω no es contable, por ejemplo Ω = R, no se

Para introducir el concepto de probabilidad conjunta iniciaremos por

Para introducir el concepto de probabilidad conjunta iniciaremos por

Para introducir el concepto de probabilidad conjunta iniciaremos por

Para introducir el concepto de probabilidad conjunta iniciaremos por

Para introducir el concepto de probabilidad conjunta iniciaremos por

Definición (Eventos independientes)

Definición (Eventos independientes)

Definición (Eventos independientes)

Como P[AB] = P[A|B]P[B] = P[B|A]P[A], entonces se deduce

Definición (Eventos independientes)

Como P[AB] = P[A|B]P[B] = P[B|A]P[A], entonces se deduce

Definición (Eventos independientes)

Como P[AB] = P[A|B]P[B] = P[B|A]P[A], entonces se deduce

Definición (Eventos independientes)

Como P[AB] = P[A|B]P[B] = P[B|A]P[A], entonces se deduce

Definición (Eventos independientes)

Como P[AB] = P[A|B]P[B] = P[B|A]P[A], entonces se deduce

Definición (Eventos independientes)

Como P[AB] = P[A|B]P[B] = P[B|A]P[A], entonces se deduce

(a) La función acumulativa de probabilidad es:

(b) El porcentaje corresponde a:

Figura 1: Partición de un conjunto

La distribución conjunta de dos vectores aleatorios X = (X1 , · · · , Xn )T

En consecuencia de la definicón tenemos una función multidimensio-

Figura 2: Proceso Estocástico

Como en el caso de variables aleatorias o vectores aleatorios, la fun-

(Proceso de conteo de Poisson)

Figura 3: Proceso Estocástico

(Proceso de conteo de Poisson)

(Proceso de conteo de Poisson)

Supongamos que vamos a estimar el valor de un vector aleatorio

Probabilidad a posteriori ∝ verosimilitud × Probabilidad a Priori

(Modelos Dinámicos y de Probabilidad)