Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Liliam Cardeño
Ricardo Restrepo
Alexander Valencia
1. Introducción 5
3. Variables aleatorias 36
3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2. Variables aleatorias discretas y continuas . . . . . . . . . . . . 36
3.3. Función de distribución . . . . . . . . . . . . . . . . . . . . . . 39
3.3.1. Propiedades de la función de distribución . . . . . . . . 41
3.3.2. Cálculos de probabilidades a partir de la función de
distribución . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4. Función de probabilidad de una variable aleatoria discreta . . 42
3.4.1. Esperanza de variables aleatorias discretas . . . . . . . 44
3.4.2. Varianza de variables aleatorias discretas . . . . . . . . 46
3.5. Distribuciones discretas especiales . . . . . . . . . . . . . . . . 48
3.5.1. Distribución de Bernoulli . . . . . . . . . . . . . . . . . 48
3.5.2. Distribución Binomial . . . . . . . . . . . . . . . . . . 49
3.5.3. Distribución de Poisson . . . . . . . . . . . . . . . . . . 50
3.6. Función de densidad de probabilidad . . . . . . . . . . . . . . 51
3.6.1. Propiedades de la función de densidad de probabilidad 52
3.6.2. Esperanza y varianza de variables aleatorias continuas 53
3.7. Densidades de probabilidad especiales . . . . . . . . . . . . . . 54
3.7.1. Distribución Uniforme . . . . . . . . . . . . . . . . . . 54
3.7.2. Distribución Exponencial . . . . . . . . . . . . . . . . . 56
3.7.3. Distribución Normal . . . . . . . . . . . . . . . . . . . 59
3.7.4. Distribución Chi-cuadrada (χ2 ) . . . . . . . . . . . . . 63
3.7.5. Prueba de bondad de ajuste chi-cuadrado . . . . . . . 66
4. Procesos Estocásticos 69
4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.2. Definición y ejemplos . . . . . . . . . . . . . . . . . . . . . . . 69
4.3. Cadenas de Markov . . . . . . . . . . . . . . . . . . . . . . . . 70
4.3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . 70
4.3.2. Cadenas de Markov de tiempo discreto . . . . . . . . . 71
4.3.3. Ejemplos famosos . . . . . . . . . . . . . . . . . . . . . 75
4.3.4. Ecuaciones de Chapman-Kolmogorov . . . . . . . . . . 78
4.3.5. Probabilidad inicial . . . . . . . . . . . . . . . . . . . . 81
4.3.6. Clasificación de los estados de una cadena de Markov . 83
4.3.7. Probabilidades límite . . . . . . . . . . . . . . . . . . . 86
4.3.8. Modelos ocultos de Markov . . . . . . . . . . . . . . . 90
4.3.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.4. Procesos de Poisson . . . . . . . . . . . . . . . . . . . . . . . . 102
4.4.1. Distribución de Poisson como una aproximación de la
Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . 102
4.4.2. Procesos de Poisson . . . . . . . . . . . . . . . . . . . . 103
4.4.3. Proceso de Conteo . . . . . . . . . . . . . . . . . . . . 108
4.4.4. Ejemplos de Procesos de Poisson . . . . . . . . . . . . 116
4.4.5. Características de los Procesos de Poisson . . . . . . . 116
4.4.6. Sistemas de Filas . . . . . . . . . . . . . . . . . . . . . 123
3
4.4.7. Clasificación de eventos en procesos de Poisson . . . . . 125
4.4.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . 127
4.5. Cadenas de Markov de tiempo continuo . . . . . . . . . . . . . 131
4.5.1. Ecuaciones de Kolmogorov hacia adelante y hacia atrás 134
4.5.2. Probabilidades estacionarias o de estado estable . . . . 140
4.5.3. Procesos de nacimiento y muerte . . . . . . . . . . . . 146
4.5.4. Filas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
4.5.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . 152
4.6. Movimiento Browniano . . . . . . . . . . . . . . . . . . . . . . 153
4.6.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . 153
4.6.2. Definición del movimiento browniano . . . . . . . . . . 154
4.6.3. Densidad de probabilidad condicionada al punto inicial
del movimiento browniano . . . . . . . . . . . . . . . . 156
4.6.4. Función de densidad de probabilidad conjunta de X(t1 ),
X(t2 ), . . . , X(tn ) . . . . . . . . . . . . . . . . . . . . . 158
4.6.5. Función de densidad de probabilidad de un movimiento
browniano dada su posición antes y después . . . . . . 160
4
Capítulo 1
Introducción
6
quien generalizó la Ley de los grandes números a través de su famosa desigual-
dad; Aleksandr Liapunov (1857-1918) quien fue el primero que demostró
el Teorema del límite central para sucesiones de variables aleatorias indepen-
dientes y Andréi Márkov (1856-1922) quien extendió los dominios de la
aplicación de la Ley de los grandes números y el Teorema del límite central
al caso de las variables dependientes a través de la noción de Proceso Es-
tocástico donde el tiempo aparece representado por un número entero. En
el siglo XX esta noción fue extendida al caso en que este tiempo se puede
considerar continuo.
En este escenario, a finales del siglo XIX, la teoría de la probabilidad
y el concepto de azar se habían convertido en un tema de controversia. En
esta época, la física también entraba en una crisis que estaba amenazando
los sólidos fundamentos de la mecánica de Newton por la discusión que se
aparecía entre el determinismo y el indeterminismo.
Entre las reflexiones sobre este tema, Henri Poincaré (1854-1912) en
su obra Science et Méthode planteaba que la noción de azar no se debe
tanto a nuestro desconocimiento como a una falta de soporte empírico. Así,
comenzando el siglo XX, el azar ya estaba enmarcado en las expresiones de
interacción e interdependencia en los estudios de los fenómenos naturales.
En 1900, en París, se realizó el Segundo Congreso de Matemáticas. Al-
lí, David Hilbert (1862-1943) planteó los 23 problemas que consideraba
cruciales en las áreas de las matemáticas . Entre estos problemas, el sexto,
solicitaba encontrar una base axiomática, como ocurría con las geometrías,
para tratar las teorías físicas y los fenómenos dependientes del azar.
Muchos matemáticos se dedicaron a buscar esta axiomatización. Entre
ellos se destacó Andréi Kolmogorov (1903-1987), quien en los años 30 pre-
sentó un modelo matemático basado en la Teoría de la medida, que satisfacía
la propuesta de Hilbert.
Este desarrollo de los modelos del azar ayudó a la consolidación de otras
áreas, tales como la teoría ergódica, la teoría de la información, los procesos
estocásticos y mas recientemente, el análisis estocástico.
El análisis estocástico ha conseguido importantes resultados en las últi-
mas décadas, logrando extenderse hasta incluir el análisis matemático como
uno de sus casos particulares. Con esto se ha logrado proveer a las ciencias
7
físicas de una herramienta apta para la modelización de fenómenos como el
movimiento browniano.
Hoy, la teoría de la probabilidad es una rama de las matemáticas bien
establecida que tiene aplicaciones en muchas áreas del conocimiento. Sin
embargo, muchos de los modelos probabilísticos que se han logrado establecer
son insuficientes para describir los fenómenos de la naturaleza que se están
estudiando actualmente. Afortunadamente, aún queda mucho trabajo por
hacer.
8
Capítulo 2
Conceptos básicos de
Probabilidad
2.1. Introducción
La teoría de la probabilidad es una teoría matemática esencialmente de
naturaleza deductiva. Al igual que con la geometría euclidiana o la mecáni-
ca clásica, los teoremas se pueden deducir de un conjunto de axiomas, sin
referencia a ninguna aplicación del mundo real. Sin embargo, así como la
geometría gana claridad cuando se argumenta haciendo referencia a objetos
geométricos definidos, la teoría de la probabilidad gana cuando se relaciona
con experimentos u operaciones, ya sean reales o conceptuales de los que
pueda dar cuenta.
Los experimentos estudiados en la teoría de la probabilidad se caracteri-
zan porque su resultado no se puede determinar con certeza, sino que este es
uno de varios resultados posibles. Por ejemplo, al lanzar una moneda no se
sabe con anterioridad que resultado se va a obtener, solo se sabe que se puede
obtener uno de dos posibles resultados: cara o sello. Experimentos de este
tipo se conocen como no-determinísticos o aleatorios. Los posibles resultados
individuales se conocen como sucesos o eventos simples, o también, usando
un lenguaje geométrico, puntos.
En esta capítulo se presentan los elementos básicos para la construcción
de un modelo probabilístico que de cuenta de las posibilidades de ocurrencia
de los posibles resultados de un experimento aleatorio dado.
2.2. Definiciones
Considere un experimento aleatorio, es decir, un experimento u operación
cuyos posibles resultados no pueden predecirse con certeza, sin embargo, sí
se conoce completamente el conjunto que contiene estos posibles resultados.
El primer paso consiste en fijar este conjunto, cuyo nombre está basado en
el lenguaje geométrico. Debido a que el tratamiento de resultados se hace a
través de la teoría de conjuntos, es esta teoría la que proporciona el lenguaje
para la teoría de la probabilidad.
Definición 2.1. El espacio muestral (ing: sample space) es el conjunto
de posibles resultados del experimento aleatorio. Será denotado con la letra
S. Sus posibles resultados se llaman puntos muestrales o simplemente
puntos.
Generalmente, el interés de los resultados de los experimentos aleatorios
se centra, no simplemente en estudiar la posibilidad de obtener algún único
punto, sino en conjuntos de estos puntos que no necesariamente conforman
todo el espacio muestral.
Definición 2.2. Un evento es un subconjunto del espacio muestral, es de-
cir, un evento es un conjunto formado por puntos del espacio muestral. Los
eventos se denotan con letras mayúsculas, usualmente las primeras del alfa-
beto.
Ejemplo 2.1. Considere el experimento aleatorio que consiste en lanzar un
dado equilibrado. El espacio muestral S en este caso es el conjunto formado
por seis puntos,
S = {1, 2, 3, 4, 5, 6}.
Si hay interés en saber si el puntaje obtenido es un número par, consideramos
un evento, digamos A, definido por:
A = {2, 4, 6}.
Ejemplo 2.2. El tren metropolitano pasa por cierta estación exactamente
cada 5 minutos. Si un pasajero llega a la estación en un momento arbitrario,
medir el tiempo que debe esperar hasta que pase el tren define el espacio
muestral S dado por:
S = {t ∈ R : 0 ≤ t ≤ 5}.
En este experimento aleatorio, el conjunto F = {t : t > 3} es el evento de
que el pasajero deba esperar mas de 3 minutos hasta la llegada del tren.
10
Ejemplo 2.3. En estudios médicos es usual que las mediciones tomadas
se refieran a más de un valor. Suponga que se están tomando datos para
controlar el peso de unos pacientes adultos. A cada paciente se le mide la
estatura, el peso y la edad. En este caso el espacio muestral consiste de las
tripletas ordenadas (x, y, z) de los posibles valores de la estatura, peso y edad,
que pueden restringirse a los valores que se considera pueden obtenerse en la
población estudiada. Así, el espacio muestral podría ser:
Ejemplo 2.4. Suponga que al lanzar cuatro dados, hay interés en saber
si en alguno de los dados salió el 6. En otras palabras, se quiere estudiar la
posibilidad de que el 6 salga por lo menos una vez en el lanzamiento de cuatro
dados. Para este experimento aleatorio, el espacio muestral es el conjunto
S = {(x, y, z, w) : x, y, z, w = 1, 2, . . . , 6},
D = {(6, 2, 3, 5), (4, 6, 2, 1), (3, 6, 2, 6), (6, 6, 4, 6), (6, 6, 6, 6), . . .}.
11
Esta frecuencia relativa puede dar muchos valores de acuerdo a lo que
ocurra en las repeticiones del experimento aleatorio, sin embargo, cuando N
es suficientemente grande se puede observar que ella tiende a estabilizarse.
Esto sugiere que, asociado a cada evento E, hay un número, digamos pE ,
el cual es aproximadamente igual al valor en el que la frecuencia relativa se
“estabiliza”.
Ese número pE puede interpretarse como el valor que dará la frecuencia
relativa en un número considerable de repeticiones de futuras realizaciones
del experimento. En este sentido, pE es el valor que mas adelante va a estar
asociado a la probabilidad de ocurrencia del evento E.
En el estudio de la teoría de la probabilidad son importantes las relaciones
entre los diferentes eventos de un experimento aleatorio. Es por esta razón
que se hace necesario el uso de la notación de la teoría de conjuntos. En lo
que sigue, se supone que todos los eventos, denotados con letras mayúsculas
son subconjuntos de una espacio muestral específico S.
12
eventos, se define la unión de estos eventosS
generalizando la definición
para el caso de dos eventos y se denota por ni=1 Ei := E1 ∪ E2 ∪ . . . En .
2. (E ∩ F )c = E c ∪ F c
13
Se pretende definir una función de un evento C, denotada por P(C),
que sea el número al cual la frecuencia relativa del evento tenderá a estabi-
lizarse después de muchas réplicas del experimento aleatorio. A partir de este
planteamiento pueden deducirse varias propiedades que debe satisfacer esta
función para cumplir lo que se busca:
1. P(C) ≥ 0.
2. P(S) = 1.
14
A la función P(.) se le llama función de probabilidad y al valor P(C) se
le llama probabilidad de C .
Observaciones:
P(S) = P(S ∪ ∅ ∪ ∅ ∪ . . .)
X∞
= P(S) + P(∅).
i=2
15
P∞
Entonces, i=2 P(∅) = 0, y esto es posible sí y solamente sí,
P(∅) = 0.
El siguiente teorema muestra la validez del Axioma 3 para colecciones
finitas de eventos mutuamente excluyentes.
{C1 , C2 , . . .},
16
Corolario 2.1. Para cada evento A del espacio muestral S,
P(Ac ) = 1 − P(A).
1 = P(A) + P(Ac ).
P(C) = 1 − P(C c )
= 1 − P({1, 2})
= 1 − P(A ∪ B)
= 1 − (P(A) + P(B))
= 1 − (0,25 + 0,45)
= 0,3.
17
Entonces,
A ∪ B = (A − B) ∪ (A ∩ B) ∪ (B − A).
18
Entonces,
P(A ∪ B) = P(A − B) + P(A ∩ B) + P(B − A). (2.2)
De modo similar, tanto el evento A como el evento B, se pueden separar en
eventos disjuntos:
A = (A − B) ∪ (A ∩ B) y B = (B − A) ∪ (A ∩ B)
2 1
P(A) + P(B) = + =1
3 3
Los cálculos realizados en este último ejemplo se pueden generalizar para
mostrar el siguiente resultado.
B = A ∪ (B − A).
19
Prueba: Como P(B − A) ≥ 0, del Teorema 2.4 se tiene que P(B) − P(A) ≥ 0.
Por tanto, P(B) ≥ P(A).
20
número de casos favorables al evento, dividido el número total de casos en el
espacio muestral.
Por tanto,
P(A) = 1 − 0,72 = 0,28
21
No siempre si el espacio muestral es finito se cumple que sus resultados
son equiprobables. Por esta razón, la suposición de que los resultados del
experimento aleatorio sean equiprobables siempre debe ser verificada con
cuidado.
S 0 = {(1, 1), (1, 2), . . . , (4, 5), (5, 4), . . . , (6, 5), (6, 6)}
= {(x, y) : x = 1, 2, . . . , 6; y = 1, 2, . . . , 6}.
A = {(x, y) : x = 1, 2, . . . , 6; y = 1, 2, . . . , 6; x + y > 8}
= {(3, 6), (6, 3), (4, 5), (5, 4), (4, 6), (6, 4), (5, 5), (5, 6), (6, 5), (6, 6)}.
card(A) 10
P(A) = 0
= ≈ 0,28.
card(S ) 36
22
2.4. Métodos de conteo
2.4.1. Introducción
En muchas aplicaciones de la probabilidad, los espacios muestrales de los
experimentos son finitos y sus puntos son igualmente probables. En estos
casos, como vimos en la sección anterior, la probabilidad de cualquier evento
se determina a partir de la división del número de elementos del evento y el
número de elementos del espacio muestral. Es por esto que, para determinar
probabilidades en este tipo de espacios muestrales se hace necesario aprender
a contar el número de elementos que tiene los eventos que se están estudian-
do. Infortunadamente, no existe una técnica general que pueda aplicarse a
todos los problemas de conteo. El caso mas desfavorable sería hacer una lista
completa de todos los elementos y contarlos, pero esto no siempre es posible.
En esta sección, se estudian algunas de las técnicas mas usuales para con-
tar de una forma sistemática. Las técnicas de conteo se estudian en una de
las ramas formales de la matemáticas que más aplicaciones tiene en la actual-
idad: La combinatoria. Esta tiene aplicaciones, no solo en la Probabilidad
y en la Estadística, sino también, en muchas otras áreas, como la Teoría de
información, la Programación lineal, los Problemas de transporte y la teoría
de Grupos.
23
Teorema 2.6. (Principio multiplicativo de conteo generalizado) Sean
E1 , E2 , . . . , Ek conjuntos con n1 , n2 , . . . , nk elementos, respectivamente. En-
tonces, hay n1 × n2 × . . . × nk maneras en las que se puede, primero, escoger
un elemento de E1 , después un elemento de E2 , después un elemento de E3 ,
y así sucesivamente, hasta elegir un elemento de Ek .
Ejemplo 2.14. ¿De cuántas formas se pueden acomodar tres libros en un
estante?
Ejemplo 2.15. A un grupo de personas se les hizo una encuesta en las que
se les preguntó sexo (Femenino o Masculino), estado civil (Soltero, Casa-
do, Viudo, Divorciado, Unión libre) y nivel educativo (Alto, Medio, Bajo.
¿De cuántas formas se pueden clasificar las personas que respondieron a la
encuesta?
Ejemplo 2.16. (Paradoja de los cumpleaños) Suponga que hay 30 per-
sonas en una sala. Determine la probabilidad de que al menos dos de ellas
tengan la fecha de cumpleaños el mismo día. Determine la misma probabili-
dad para un grupo de 23 personas.
Ejemplo 2.17. Se van a formar números de tres cifras, que no comiencen
por 0, usando los dígitos 0, 1, 2, 3, 4 y 5.
Si se pueden repetir los dígitos, ¿cuántos de ellos son pares?
2.4.3. Permutaciones
Definición 2.5. Se llama permutación de r símbolos tomados de un con-
junto de tamaño n, a un arreglo de esos r objetos en un orden definido. El
número de permutaciones de estos r objetos elegidos de n posibles se denota
por n Pr
Ejemplo 2.18. ¿De cuántas formas se pueden organizar las 5 vocales? ¿Cuán-
tas placas se pueden hacer con tres vocales? (se supone que la placa es difer-
ente si el orden de las vocales cambia).
Ejemplo 2.19. Si cinco hombres y cinco mujeres se van a sentar en una fila
de un teatro, ¿cuál es la probabilidad de que ninguno quede a lado de otro
del mismo sexo?
24
Ejemplo 2.20. Un grupo de seis adultos, conformado por tres parejas de
casados, van juntos a una obra de teatro. ¿Cuál es el número de maneras
que pueden organizarse en una fila de seis sillas contiguas, si las parejas de
casados deben sentarse juntas?
Ejemplo 2.21. Una permutación con objetos indistinguibles ¿De cuán-
tas arreglos se pueden hacer usando todas las letras de la palabra TITIRIBI?
Teorema 2.7. El número de permutaciones distinguibles con n objetos de k
clases diferentes, donde n1 son iguales, n2 son iguales, . . ., nk son iguales y
n = n1 + n2 + . . . + nk , es
n!
.
n1 !n2 ! . . . nk !
2.4.4. Combinaciones
Definición 2.6. Un arreglo no-ordenado de r objetos tomados de un con-
junto de n objetos (r ≤ n) es llamado una combinación de n elementos
tomando r a la vez.
El número de combinaciones de n objetos tomados de a r se denota por
n
n Cr , o usualmente por r (se lee n tomados de a r). Se puede mostrar que:
n n Pr n!
n Cr = = = .
r r! (n − r)!r!
Ejemplo 2.22. Entre 10 alumnos de un colegio, 6 niños y 4 niñas se va a
elegir un equipo con 5 de ellos para jugar baloncesto.
¿Cuántos equipos diferentes pueden formarse con estos alumnos, si el
equipo debe estar conformado por 3 niñas y 2 niñas?
Si uno de estos alumnos es Michael Jordan, ¿cuántos equipos diferentes
se pueden formar, con las mismas condiciones descritas en el item an-
terior, que incluyan a Jordan?
Observación: Se puede probar algebraicamente que:
n n n n
= =1 y = = n.
0 n 1 n−1
También, si 0 ≤ r ≤ n,
n n n+1 n n
= y = + .
r n−r r r r−1
25
Ejemplo 2.23. En cierta ciudad, a 100 personas elegidas al azar se les pre-
guntó si estaban satisfechas con la gestión del alcalde. La respuesta de 60 de
ellas fue de insatisfacción y el resto estaban satisfechas. Si cinco personas,
digamos a, e, i, o, u, respondieron a esta encuesta, ¿cuál es la probabilidad
de que las cinco pertenezcan al grupo de las que respondieron que estaban
satisfechas?
Hay 100
40
posibles grupos de personas en las que todas respondieron que
estaban satisfechas con la gestión del alcalde. Si cinco de estas personas
son a, e, i, o, u, hay otras 35 que también estaban satisfechas. Entonces, la
probabilidad pedida es:
95
35
100
40
26
Teorema 2.10. (Fórmula de Stirling)
√
n! ∼ 2πn nn e−n
Ejemplo 2.26. Suponga que se lanzan dos dados equilibrados. Cada uno de
los 36 resultados posibles tiene probabilidad de ocurrencia igual a 1/36. Así,
para calcular, por ejemplo, la probabilidad de que la suma de los puntajes
sea 5, se suman las probabilidades de los eventos simples (1, 4), (4, 1), (2, 3)
y (3, 2). Es decir, la probabilidad de obtener 5 en la suma de los puntajes de
los dos dados es 4/36.
Suponga, además, que ya se sabe que en uno de los dados salió el 2. Si
se tiene en cuenta esta información, el espacio muestral queda restringido
solamente a 11 posibles resultados:
S 0 = {(2, 1), (1, 2), (2, 2), (2, 3), (3, 2), (2, 4), (4, 2), (2, 5), (5, 2), (2, 6), (6, 2)},
Las probabilidades en las que se usa información conocida, como las cal-
culadas en el ejemplo, se conocen como Probabilidades condicionales. Si
27
B es el evento del que se tiene información, conocer que B ocurrió, puede
afectar la probabilidad de otro evento A del mismo espacio muestral.
La Probabilidad condicional de un evento A conociendo que B ocurrió
se denota por P(A|B) y se lee “probabilidad de A dado que B ocurrió”, o
simplemente “la probabilidad de A dado B”.
Para calcular P(A|B) se debe observar que con la información adicional
de que el evento B ya ocurrió se restringe el espacio muestral a uno nuevo: el
espacio en el que B ocurre, cuyo cardinal es card(B). Además, si B ocurre,
para calcular la probabilidad de ocurrencia del evento A se deben tener en
cuenta los puntos en los A y B ocurren simultaneamente. Así, cuando el
espacio muestral es equiprobable, se tiene que
card(A ∩ B)
P(A|B) = .
card(B)
En el caso general, se tiene la siguiente definición.
P(A ∩ B)
P(A|B) = .
P(B)
Ejemplo 2.27. Suponga que en una urna hay 5 bolas amarillas y 4 bolas
verdes. Si se sacan dos bolas de esta urna, una a una, y sin reemplazar la
primera antes de sacar la segunda, ¿cuál es la probabilidad de que ambas
bolas sean verdes?
1. P(A|A) = 1.
2. Si A ∩ B = ∅ entonces P(B|A) = 0.
28
2.5.2. La regla de Bayes
Definición 2.8. El conjunto de eventos {B1 , B2 , . . . , Bk }, tomados de un
espacio muestral S, es una Partición de S si Bi ∩ Bj = ∅, para todo i 6= j
y B1 ∪ B2 ∪ . . . ∪ Bk = S, para todos los eventos Bi tales que P(Bi ) > 0.
Los siguientes dos resultados, hacen uso de las probabilidades condi-
cionales y son de suma importancia en las aplicaciones.
Teorema 2.11. (Teorema de la probabilidad total) Sea {B1 , B2 , . . . , Bk }
una partición del espacio muestral. Entonces, para cualquier evento D del
espacio muestral, se satisface que
k
X
P(D) = P(D|Bi )P(Bi ).
i=1
29
donde el último denominador se obtuvo usando el Teorema de la probabilidad
total.
Ejemplo 2.29. Usando los datos del Ejemplo 2.28, suponga que se tomó una
camisa cualquiera de este almacén y se encontró que era defectuosa. ¿Cuál
es la probabilidad de que esta camisa haya sido obtenida del proveedor 3?
P(A|B) = P(A).
P(A ∩ B) = P(A)P(B).
¿Son A y B independientes?
Los eventos A, B y A ∩ B por extensión son:
30
A = {(1, 3), (3, 1), (2, 3), (3, 2), (3, 3), (4, 3), (3, 4),
(5, 3), (3, 5), (6, 3), (3, 6)}
B = {(1, 1), (1, 2), (1, 3), (1, 4), (1, 5),
(2, 1), (2, 2), (2, 3), (2, 4),
(3, 1), (3, 2), (3, 3),
(4, 1), (4, 2),
(5, 1)}
A ∩ B = {(1, 3), (3, 1), (2, 3), (3, 2), (3, 3)}
11 15 5
P(A) = , P(B) = P(A ∩ B) = .
36 36 36
Como P(A ∩ B) 6= P(A)P(B), A y B son dependientes.
2.6. Ejercicios
1. Se carga un dado de manera que los números pares tienen el doble de
probabilidad de salir que los impares. Si se lanza una vez, cuál es la
probabilidad de obtener un número primo?
31
La carta dirigida a A está en el sobre correcto.
La carta dirigida a A está en el sobre correcto y las demás no.
Sólo hay una carta en el sobre correcto.
Hay dos cartas o más que están en el sobre correcto.
a) 1/5
b) 5/9
c) 2/5 + 2/4
d ) 7/10
32
8. Un carpintero toma un cubo sólido de madera de lado 10 cm, que tiene
sus caras pintadas de rojo y lo divide en cubos de lado 2 cm. Si se elige
al azar uno de los cubos de lado 2 cm, cuál es la probabilidad de que
solamente tenga dos caras pintadas de rojo?
a) 2
b) 75
c) 76
d ) 125
e) 126
11. Se toman al azar dos números distintos del conjunto de números nat-
urales entre 1 y 20. La probabilidad de que el producto de los dos
números obtenidos sea par es:
a) 1/2
b) 1/3
c) 29/38
d ) 9/38
e) 1
12. Con los dígitos del 1 al 9 se forma un número de cuatro cifras distintas.
La probabilidad de que ese número sea menor que 4000 es:
a) 1/3
b) 2/3
33
c) 5/6
d ) 5/8
e) 4/54
13. En una urna hay una ficha con el número 1, dos fichas con el número
2, tres fichas con el número 3, . . ., cien fichas con el número 100. Si se
escoge al azar una de estas fichas, la probabilidad de el número elegido
sea par es:
a) 2/3
b) 51/100
c) 1/2
d ) 51/101
e) 50/101
14. Diez personas, entre las que se encuentran David y Goliat, se dividen,
al azar, en dos grupos de cinco personas cada uno. La probabilidad de
que David y Goliat queden en el mismo grupo es:
a) 1/21
b) 4/9
c) 1/3
d ) 2/9
e) 1/9
15. La probabilidad de que el tiempo en un día sea igual al del día anterior
es 2/3. Si ayer hizo calor, la probabilidad de que mañana haga calor es:
a) 4/9
b) 2/3
c) 8/9
d ) 5/9
e) 7/9
34
a) P (A|B) + P (A|B c ) = 1
b) P (A|B) = P (Ac |B c )
c) P (A|B) + P (Ac |B) = 1
d ) P (A|B) + P (Ac |B c ) = 1
17. Es posible tener una asignación de probabilidad tal que: P (A) = 1/2,
P (A ∩ B) = 1/3 y P (B) = 1/4?
18. Una urna contiene 8 bolas blancas y 4 bolas negras. Se sacan dos bolas
una a una y con reemplazamiento. Sea A el evento: la primera bola ex-
traída es blanca; y B el evento: al menos una de las dos bolas extraídas
es blanca. Calcular P (A ∩ B), P (A ∩ B c ), P (Ac ∩ B), P (Ac ∩ B c ).
19. Sean A y B dos eventos tales que P (A) = 1/4, P (B|A) = 1/2 y
P (A|B) = 1/4. De las siguientes afirmaciones, la única falsa es:
a) A ⊂ B
b) A y B son independientes.
c) Ac y B c son independientes.
d ) P (Ac |B c ) = 3/4
35
Capítulo 3
Variables aleatorias
3.1. Introducción
Una variable aleatoria es cualquier función que asigna un valor numérico
a los eventos del espacio muestral.
b−a
P(T ∈ (a, b)) = = 2(b − a), para 8 < a < b < 8,5
8,5 − 8
Definición 3.2. Una variable aleatoria es discreta si el conjunto de valores
que toma es finito o numerable. Una variable aleatoria es continua si el
conjunto de valores que toma es continuo.
37
Ejemplo 3.3. Suponga que una profesora de matemáticas está en una can-
cha de fútbol intentando hacer goles y que estamos interesados en contar
el número de intentos hasta que la profesora consigue hacer su primer gol.
Suponga que la probabilidad de que la profesora consiga hacer el gol en
cualquier intento y que esta probabilidad permanece constante (la profesora
no mejora su técnica). Usando la notación “G=hacer el gol”, “N =no hacer
el gol”, el espacio muestral de este experimento aleatorio se puede expresar
por:
S = {G, N G, N N G, N N N G, N N N N G, . . .}.
Como el interés en este experimento es contar el número de intentos has-
ta hacer un gol, este espacio muestral se puede traducir por medio de una
variable X discreta que toma los valores
x = 1, 2, 3, 4, . . . ,
donde,
{X = 1} := {Hacer el gol en el primer intento} = {G}
38
P(X > 50) = 1 − P(x ≤ 50)
X50
= 1− 0,8n−1 0,2
i=1
50
X
= 1 − 0,2 0,8n−1
i=1
1 − 0,850
= 1 − 0,2
1 − 0,8
50
= 0,8
39
Para 1 ≤ t < 2, el valor 1 acumula 1/2 a la función, y teniendo en cuenta
que ya se ha acumulado 1/4, se tiene que F (t) = 1/4 + 1/2 = 3/4.
Para t ≥ 2, ya se han tenido en cuenta todos los valores con probabilidad
positiva de este caso. Así, F (t) = 1.
En resumen, la función de distribución de este caso está dada por:
0 si t < 0
1/4 si 0 ≤ t < 1
F (t) =
3/4 si 1 ≤ t < 2
1 si t ≥ 2
40
Observación: Algunos autores definan las variables aleatorias discretas
o continuas a partir de la función de distribución acumulada. Desde este
punto de vista, se dice que una variable aleatoria es discreta si su función de
distribución acumulada es discontinua, y una variable aleatoria es continua
si su función de distribución acumulada es continua.
3. lı́m F (t) = 1.
t→+∞
41
3. P(X < a) es el límite por la izquierda de la función F cuando x → a.
5. Para calcular P(X ≥ a), note que {X ≥ a}c = {X < a}, entonces,
1. p(x) = 0 si x ∈
/ {x1 , x2 , x3 , . . .}.
42
Ejemplo 3.6. Se lanzan dos dados equilibrados. Sea X una variable definida
como el mínimo de los dos valores obtenidos. Vamos a determinar la función
de probabilidad de la variable aleatoria X.
Los valores posibles de la variable aleatoria X son x = 1, 2, 3, 4, 5, 6 y el
espacio muestral del experimento tiene 36 puntos equiprobables (cada uno
con probabilidad 1/36). Entonces, los valores de la función de probabilidad
para estos 6 valores son:
11
p(1) = P(X = 1) = P({(1, 1), (1, 2), (2, 1), . . . , (6, 1)}) =
36
9
p(2) = P(X = 2) = P({(2, 2), (2, 3), (3, 2), . . . , (6, 2)}) =
36
7
p(3) = P(X = 3) = P({(3, 3), (3, 4), (4, 3), . . . , (6, 3)}) =
36
5
p(4) = P(X = 4) = P({(4, 4), (4, 5), (5, 4), (4, 6), (6, 4)}) =
36
3
p(5) = P(X = 5) = P({(5, 5), (5, 6), (6, 5)}) =
36
3
p(6) = P(X = 5) = P({(6, 6)}) =
36
Entonces, la función de distribución de la variable aleatoria X está dada
por:
11/36 si x = 1
9/36 si x = 2
7/36 si x = 3
p(x) = 5/36 si x = 4
3/36 si x = 5
1/36 si x = 6
0 en otros casos (e.o.c.)
43
e−2 2x
p(x) = ≥ 0, para todo x ∈ R.
x!
∞ ∞ e−2 2x ∞ 2x
= e−2 = e−2 e2 = 1.
P P P
p(x) =
x=0 x=0 x! x=0 x!
44
Sea X la variable aleatoria definida por el puntaje obtenido en un lanza-
miento del dado.
Su f.d.p. está dada por p(x) = 1/6 para x = 1, 2, . . . , 6 y 0 en otros casos.
Entonces,
6
X 1 1 1 1
E(X) = x = 1 · + 2 · + . . . + 6 · = 3,5
x=1
6 6 6 6
Ejemplo 3.9. Una urna contiene 5 fichas. Dos están marcadas con $1, dos
con $5 y una con $15. Para jugar hay que pagar $10 y se pueden sacar dos
de las fichas de la urna recibiendo como premio la suma de las cantidades
allí marcadas. ¿Este juego es justo?
Nota: En el lenguaje de probabilidad, se dice que un juego es justo si, al
jugarlo repetidamente, el promedio de ganancia, tanto para el jugador como
para el administrador del juego, es cero. Es decir, algunas veces se gana, otras
se pierde, pero después de muchas repeticiones del juego, las ganancias y las
pérdidas se equilibran. Esto se traduce a que el juego es justo, si la esperanza
matemática de las ganancias y pérdidas es cero.
5
En el ejemplo propuesto, el espacio muestral del experimento son las
2
= 10 posibles parejas de fichas sacadas de la urna.
S = {(1, 1), (1, 5), (1, 5), (1, 5), (1, 5), (5, 5), (15, 1), (15, 1), (15, 5), (15, 5)}.
Aquí se anotó cuatro veces el par (1, 5) porque hay dos fichas marcadas con
$1 y dos con $5. Similarmente con los otros casos repetidos.
Entonces, si se denota con X la suma de las cantidades de las fichas, sus
posibles valores y sus valores de probabilidad asociados son:
45
x 2 6 10 16 20
p(x) 1/10 4/10 1/10 2/10 2/10
El valor esperado de X es:
2 24 10 32 40 108
E(X) = + + + + = = 10,8
10 10 10 10 10 10
A este valor hay que restarle 10 por el pago para jugar. Entonces, la ganancia
esperada en el juego es de 0,8. Es decir, si el juego se repite muchas veces,
el que juega tiene una ganancia positiva promedio de 0,8. En conclusión, el
juego no es justo. (Se consideraría justo si la ganancia media fuese 0 para
ambos jugadores.)
X = 0 con probabilidad 1
1 con prob. 1/2
Y =
−1 con prob. 1/2
10 con prob. 1/2
Z =
−10 con prob. 1/2
46
−10 están mas alejados de su valor medio. Es decir, hay mas dispersión en
la variable Z que en las otras dos.
Como los valores de la variable se toman alrededor del valor medio E(X),
para medir la dispersión alrededor de este valor, es razonable medir la distan-
cia de los valores respecto a su valor medio. Es por esta razón que se define
la siguiente medida que busca cuantificar qué tanto se alejan los datos, en
promedio, de su valor medio.
∞
X
V ar(X) = (xk − µ)2 p(xk )
k=1
X∞
= (x2k − 2µxk + µ2 )p(xk )
k=1
X∞ ∞
X ∞
X
= x2k p(xk ) − 2µ xk p(xk ) + µ2 p(xk )
k=1 k=1 k=1
2 2 2
= E[X ] − 2µ + µ
= E[X 2 ] − µ2
Es decir,
V ar(X) = E(X 2 ) − (E(X))2 .
47
V ar(X) = (1 − 0)2 p(1) = 1
1 1
V ar(Y ) = (1 − 0)2 p(1) + (−1 − 0)2 p(−1) = 1 · +1· =1
2 2
1 1
V ar(Z) = (10 − 0)2 p(10) + (−10 − 0)2 p(−10) = 100 · + 100 · = 100
2 2
P(X = 1) = p
P(X = 0) = 1 − p
donde p, 0 ≤ p ≤ 1, es la probabilidad de que la prueba sea un éxito.
Prueba:
E(X) = 0 · (1 − p) + 1 · p = p.
E(X 2 ) = 02 · (1 − p) + 12 · p = p.
Entonces,
V ar(X) = E(X 2 ) − (E(X))2 = p − p2 = p(1 − p).
48
Ejemplo 3.11. Suponga que se lanza un dado equilibrado y se asocia al
éxito de la prueba si sale 5 o 6 y fracaso a cualquier otro valor. Entonces, si
definimos la variable aleatoria X por:
X=1 si sale 5 ó 6
X=0 si sale 1, 2, 3 ó 4.
Entonces,
2 1
p = P({5, 6}) = =
6 3
4 2
1 − p = P({1, 2, 3, 4}) = = .
6 3
Luego,
1
E(X) =
3
1 1 2
V ar(X) = 1− =
3 3 9
49
Ejemplo 3.12. Se lanzan cinco monedas equilibradas. Determine la proba-
bilidad de que salgan exactamente 3 caras en las cinco monedas.
Sea X la variable que cuenta el número de caras obtenidas en las cinco
monedas.
La variable X así definida tiene distribución Binomial de parámetros n =
5 y p = 0,5, dado que es la repetición de 5 ensayos de Bernoulli independientes
(el lanzamiento de una moneda, que puede ocurrir cara o sello con igual
probabilidad).
Entonces, la distribución de la v.a. X, p(x) = P(X = x) está dada por:
5
x (0,5)x (1 − 0,5)5−x = x5 (0,5)5 si x = 0, 1, 2, . . . , 5
p(x) =
0 e.o.c.
5
P(X = 3) = (0,5)5 = 0,3125
3
50
Teorema 3.3. Si X ∼ P oi(λ), entonces,
E(X) = λ y V ar(X) = λ.
P(X ≤ 1) = 1 − P(X = 0)
e−5 50
= 1−
0!
= 1 − e−5
≈
51
Definición 3.10. Se dice que la variable aleatoria X es continua si existe
una función f no negativa, definida para todo real x ∈ (−∞, ∞), tal que,
para cualquier evento E de números reales,
Z
P(X ∈ E) = f (x)dx.
E
52
De la definición de función de una variable aleatoria, F (x), se observa que
F (x) = P(X ≤ x)
Z x
= f (t)dt,
−∞
dF (x)
f (x) = .
dx
Ejemplo 3.15. Considere la función f (x) dada por:
−2x
2e si x ≥ 0
f (x) =
0 si x < 0
Z ∞ Z ∞
f (x)dx = 2e−2x dx
−∞ 0
ix→∞
= −e−2x
x=0
= 1
53
Ejemplo 3.16. Considere la v.a. X con su f.d.p. dada en el Ejemplo 3.15.
Se puede verificar que su valor esperado está dado por:
Z ∞ Z ∞
E(X) = xf (x)dx = 2 xe−2x dx = 2
−∞ 0
54
Teorema 3.4. Si X ∼ U ni(a, b) su valor esperado es
a+b
E(X) = ,
2
y su varianza
(b − a)2
V ar(X) = .
12
Ejemplo 3.18. Si se escoge al azar un número en el intervalo [1, 3], ¿cuál es
la probabilidad de que el primer dígito al lado derecho del punto decimal sea
5?
Cuando se usa la frase “escoger un número aleatorio entre 1 y 3”, lo pode-
mos traducir en términos de una variable aleatoria uniforme, X ∼ U ni(1, 3),
con f.d.p. dada por: 1
2 si 1 ≤ x ≤ 3
f (x) =
0 e.o.c.
55
probabilidad de ocurrencia. Así, el espacio considerado es un cuadrado de
lado 1 y la función de probabilidad es uniforme en ese cuadrado. Así podemos
pensar esta función de probabilidad como un cubo de base el cuadrado de
lado 1 cuya altura es la probabilidad asociada a este cuadrado, que es también
1 en este caso, de modo que se pueda garantizar un volumen 1.
Ejercicio: terminarlo!
Se denota X ∼ Exp(λ).
Teorema 3.5. Si X ∼ Exp(λ) (como aparece en la función 4.4.2), su valor
esperado y su varianza están dados por:
1 1
E(X) = y V ar(X) =
λ λ2
Observación: En algunos textos, la distribución exponencial aparece
como sigue: 1 −x
β e β si x ≥ 0
f (x) = (3.2)
0 si x < 0
donde β es una constante positiva, y también se escribe X ∼ Exp(β).
La posible confusión se puede aclarar con su valor medio. Si X ∼ Exp(β)
(como aparece en la expresión 3.2), su media y su varianza están dados por:
E(X) = β y V ar(X) = β 2 .
56
Así, el parámetro que acompaña a la función exponencial en la expresión
de la distribución siempre es el inverso del valor esperado.
Ejemplo 3.20. Suponga que el tiempo que dura una llamada de celular de un
adolescente es una v.a. que se puede modelar con la distribución Exponencial
de media 10 minutos. Si usted necesita usar un celular que está usando un
adolescente, calcule la probabilidad de que deba esperar mas de 10 minutos,
y también la probabilidad de que deba esperar entre 10 y 20 minutos.
Si X denota la duración de una llamada por celular de un adolescente,
entonces, según los datos del enunciado, su f.d.p. está dada por
1 −x
10 e 10 si x ≥ 0
f (x) =
0 si x < 0
57
Teorema 3.6. Si X ∼ Exp(λ), entonces X cumple la propiedad de pérdida
de memoria.
Prueba. Observe que si X ∼ Exp(λ),
P(X > x) = e−λx .
P(X > s + t)
P(X > s + t|X > t) =
P(X > t
e−λ(s+t)
=
e−λt
−λs
= e
= P(X > s)
58
3.7.3. Distribución Normal
Entre las densidades de probabilidad especiales que se estudian en los
cursos de estadística, la Densidad de probabilidad Normal o simplemente la
Distribución Normal es la más usada. Si bien, estas notas están dirigidas
a estudiar conceptos básicos de procesos estocásticos y allí la distribución
normal va a ser mencionada poco, vamos a destacar en esta sección algunas
de las propiedades más usadas para probar el ajuste de otras distribuciones
probabilísticas, específicamente a través de la Distribución Chi-cuadrada, la
cual será la última de las distribuciones que mencionares en este repaso.
59
Como la distribución Normal no puede integrarse en forma cerrada, entre
cada par de límites, a y b las probabilidades relacionadas con la distribu-
ción Normal se obtiene con ayuda computacional o tablas especiales que ya
tienen los cálculos. La siguiente tabla contiene estos datos para la distribución
Normal estándar, es decir, la normal con µ = 0 y σ 2 = 1, N (0, 1).
60
Una de las cualidades más importantes de la distribución Normal estándar
consiste en que cualquier variable distribuida Normal con cualquier media y
cualquier varianza, se puede transformar a una distribución Normal estándar.
Entonces, sólo se necesitan los datos de las áreas bajo su curva de la Normal
estándar para calcular las probabilidades acumuladas de cualquier variable
aleatoria Normal.
X −µ
Z= ∼ N (0, 1).
σ
2. Si se desechan todas las latas que tiene menos de 12.1 o más de 12.6
onzas de líquido, ¿cuál es la proporción de latas desechadas?
61
onzas de líquido, es:
12,1 − 12,4 12,6 − 12,4
P(X < 12,1) + P(X > 12,6) = P Z < +P Z >
0,1 0,1
= Φ(−3) + 1 − Φ(2)
= 1 − Φ(3) + 1 − Φ(2)
= 2 − Φ(2) − Φ(3)
= 2 − 0,9773 − 0,9987
= 0,024
62
3.7.4. Distribución Chi-cuadrada (χ2 )
Definición 3.17. Se dice que X es una variable aleatoria chi-cuadrado o,
ji-cuadrado, con parámetro δ, llamado grados de libertad, si la densidad de
X está dada por:
1 − x2 2δ −1
f (x) = e x , x > 0.
2δ/2 Γ (δ/2)
Ejemplo 3.23. Sea X ∼ χ2 (6). Sea el valor x0 que cumple que su probabil-
idad acumulada hasta él es 0.95, es decir,
63
Inversa de la función de distribución χ2 de Pearson:
Xn (x) = P [χ2n ≤ x], Xn (χ2n,α ) = α, Xn−1 (α) = χ2n,α
64
Inversa de la función de distribución χ2 de Pearson:
Xn (x) = P [χ2n ≤ x], Xn (χ2n,α ) = α, Xn−1 (α) = χ2n,α
65
3.7.5. Prueba de bondad de ajuste chi-cuadrado
Cuando se está trabajando con datos, una de las tareas que generalmente
aparece, es la tener alguna idea sobre la distribución de probabilidad que
pudo generarlos. A partir de las curvas de frecuencia o histogramas de los
datos que se están estudiando, se pueden observar características como la
simetría, o asimetría, que generan hipótesis sobre la posible distribución de
la que provienen los datos.
Existen varias pruebas llamadas chi-cuadrado, diseñadas para responder
a diferentes objetivos. La prueba chi-cuadrada que se presenta a continuación
permite llegar a concluir (estadísticamente) si una distribución se acomoda
o no a un determinado conjunto de datos.
Se comienza planteando una hipótesis, que se conoce como la hipótesis
nula y se denota por H0 , en la que se afirma que los datos siguen alguna
distribución f y una alternativa, denotada por Ha en la que se afirma lo
contrario de H0 . Para concluir acerca de estas hipótesis, se requiere hacer
unos cálculos iniciales, como:
ei : las frecuencias esperadas teóricamente, si los datos se distribuyen
como se plantea en la hipótesis y,
Oi : las frecuencias observadas en los datos.
Entonces, (se puede mostrar teóricamente que) la variable
k
X (Oi − ei )2
,
i=1
ei
66
buena aproximación a la distribución χ2 .
Prueba de bondad de ajuste:
H0 : los datos provienen de una distribución especificada (uniforme, normal,
exponencia, binomial, de Poisson, ...)
Ha : Los datos no siguen la distribución especificada.
Estadístico de prueba:
k
X (Oi − ei )2
χ2c = , e ≥ 5, k ≥ 2.
i=1
ei
Ejemplo 3.24. (Tomado del texto Estadística aplicada de Julio César Ángel,
Eafit.) Se cree que el número de accidentes de trabajo por semana en una
empresa metalmecánica sigue una distribución de Poisson. Para ello se tomó
una muestra al azar de 200 semanas. Los datos aparecen en la siguiente tabla.
67
verosimilitud de la media de la Poisson, λ̂ = X̄).
X n i xi 140
X̄ = = = 0,70
n 200
Como una de las sugerencias para este método es que las frecuencias
esperadas sean no inferiores a 5, y e5 < 5, se reagrupan las dos últimas
categorías, y así,
68
Capítulo 4
Procesos Estocásticos
4.1. Introducción
Cuando se estudian fenómenos en los que está involucrada alguna com-
ponente aleatoria, además de los modelos determinísticos es necesario definir
modelos probabilísticos. Muchos de estos fenómenos se estudian en función
del tiempo. Los procesos estocásticos se refieren modelos de sistemas que
varían en el tiempo en forma aleatoria.
70
Por comodidad, escribamos X1 , X2 , . . .. Este es un proceso donde las variables
consideradas son discretas (número de clientes), o sea, el conjunto de estados
es discreto y además, el conjunto de índices considerado (8:00am, 8:30am,
9:00am,. . .) también es discreto.
Una de las características de este conjunto de variables es que si se conoce
el valor que toma una de ellas, digamos Xn , el número de clientes en los
tiempos siguientes, es decir, los valores que tomarán Xn+1 , Xn+2 , . . ., puede
depender sólo de Xn y la información de los valores tomados por X1 , . . . , Xn−1
podría ser irrelevante. En el lenguaje de probabilidad, conocido el valor de
Xn , el número de clientes en la oficina en tiempos posteriores es independiente
del número de clientes que habían en los tiempos anteriores n − 1, n − 2, . . .
Los procesos que vamos a estudiar en esta sección, se conocen como ca-
denas de Markov y se caracterizan por la propiedad descrita en el ejemplo.
Es decir, una cadena de Markov es un proceso en el que dado un evento del
presente, el futuro es un independiente del pasado del proceso.
Las cadenas de Markov fueron inicialmente estudiadas por el matemáti-
co ruso, Andrei Andreyevich Markov (1856-1922), quien fue estudiante de
Chebyshev. Markov, además de investigar en Teoría de la Probabilidad, tam-
bién trabajó en varias ramas de la matemática. Las cadenas de Markov son el
resultado de su trabajo sobre la generalización de la Ley fuerte de los grandes
números a casos en los que las variables no son independientes.
Durante la presentación que haremos de las cadenas de Markov, primero
estudiaremos las de tiempo discreto y mas adelante consideraremos las de
tiempo continuo.
71
enteros, pero para simplificar la notación, vamos a suponer que son enteros
no-negativos. Si S es finito, la cadena de Markov será llamada cadena de
Markov de finitos estados y si S es infinito, la cadena de Markov será
llamada cadena de Markov de infinitos estados.
La principal propiedad de las cadenas de Markov, dada en la expresión
4.1 se conoce como propiedad markoviana. En palabras:
La probabilidad de que un proceso, en el futuro, esté en el estado j, sola-
mente depende del estado del proceso en el presente. El valor de esta probabil-
idad no se afecta por el pasado. O de otra forma, dado el estado de la cadena
de Markov en el presente (Xn ), su estado futuro (Xn+1 ) es independiente de
los estados del pasado (Xn−1 , Xn−2 , . . . , X0 ).
72
La información de estas probabilidades de transición se almacena en la
matriz P , conocida como la matriz de transición de la cadena de Markov
{Xn }n=0,1,... . La componente (i, j) de la matriz P es la probabilidad de tran-
sición pi−1,j−1 :
p00 p01 p02 · · ·
P = p10 p11 p12 · · ·
..
.
Observación: pij ≥ 0, para todo i, j = 0, 1, 2, . . ., es decir, todas las entradas
de esta matriz son no-negativas. Además, la suma de los elementos de cada
fila es 1. Es decir, para cualquier i,
X
pij = 1.
j≥0
Ejemplo 4.5. Suponga que la probabilidad de que llueva mañana solo de-
pende de si hoy llueve o no, y no depende de las condiciones del clima de
ayer.
Suponga que si llueve hoy, la probabilidad de que llueva mañana es α y
que si no llueve hoy, la probabilidad de que llueva mañana es β.
Si se denota con 0: el estado lluvia y 1: el estado no lluvia, entonces
tenemos una cadena de Markov discreta {Xn }n∈N , que toma los valores {0, 1},
donde,
P(Xn+1 = 0|Xn = 0) = α
P(Xn+1 = 0|Xn = 1) = β
73
P(Xn+1 = 0|Xn = 0, Xn−1 = 0) = 0,7
P(Xn+1 = 0|Xn = 0, Xn−1 = 1) = 0,5
P(Xn+1 = 0|Xn = 1, Xn−1 = 0) = 0,4
P(Xn+1 = 0|Xn = 1, Xn−1 = 1) = 0,2
Bajo estas condiciones, el proceso {Xn }n∈N no es Markov. Sin embargo, es
posible transformarlo a una cadena de Markov definiendo el estado de la
cadena por las condiciones del clima en dos días consecutivos.
Considere el proceso estocástico {Yn }n∈N que toma los valores 0, 1, 2 y 3,
así:
Estado 0 = llueve hoy y llovió ayer = {Xn = 0, Xn−1 = 0}
Estado 1 = llueve hoy pero ayer no llovió = {Xn = 0, Xn−1 = 1}
Estado 2 = llovió ayer pero hoy no = {Xn = 1, Xn−1 = 0}
Estado 3 = no llovió ayer ni hoy = {Xn = 1, Xn−1 = 1}
En el proceso {Yn }n∈N , por ejemplo, la probabilidad de transición p00 está
dada por:
P(Xn+1 = 0, Xn = 0, Xn = 0, Xn−1 = 0)
=
P(Xn = 0, Xn−1 = 0)
P(Xn+1 = 0|Xn = 0, Xn−1 = 0)P(Xn = 0, Xn−1 = 0)
=
P(Xn = 0, Xn−1 = 0)
= 0,7
Entonces, la matriz de transición del proceso {Yn }n∈N está dada por:
p00 p01 p02 p03 0,7 ··· ··· ···
p10 p11 p12 p13 · · ·
· · · · · · · · ·
PY = =
p20 p21 p22 p23 · · · ··· ··· 0
p30 p31 p32 p33 ··· · · · · · · 0,2
74
Ejemplo 4.7. Sean Y0 , Y1 , . . . variables aleatorias independientes tomando
valores o negativos (por ejemplo, puntajes obtenidos al lanzar un dado repeti-
damente). La sucesión {Xn }n∈N0 definida por:
X0 = Y0
Xn = X0 + Y1 + Y2 + . . . + Yn , para n ≥ 1,
= P(Yn+1 = j − i)
= P(Xn+1 = j|Xn = i)
pi,i+1 = p
pi,i−1 = 1 − p
75
al tamaño de alguna población, la transición del estado i al estado i + 1
significa un “nacimiento” y la transición del estado i al estado i − 1 significa
una “muerte”. Otro nombre por el que se conoce esta cadena es el camino del
borracho, porque puede modelar el camino seguido por un individuo, que va
caminando en línea recta y en cada paso va a hacia adelante con probabilidad
p o hacia atrás con probabilidad 1 − p.
La matriz de transición para este caso se puede describir por:
··· −2 −1 0 1 2 ···
··· ··· ··· ··· ··· ··· ···
−2 · · · 0 p 0 0 0 · · ·
−1 · · · 1−p 0 p 0 0 · · ·
P = 0 · · · 0 1−p 0 p 0 · · ·
1 · · · 0 0 1−p 0 p · · ·
2 · · · 0 0 0 p 1−p · · ·
··· ··· ··· ··· ··· ··· ···
76
Las probabilidades de transición son:
pi,i+1 = p
pi,i−1 = 1 − p
p00 = pN +C,N +C = 1
donde 1 ≤ i ≤ N + C − 1.
0 1 2 3 4 ··· N −2 N −1 N
0 0 1 0 0 0 ··· 0 0 0
1 N −1
1 N 0 N
0 0 ··· 0 0 0
2 N −2
2 0
N
0 N
0 ··· 0 0 0
3 N −3
P = 3 0
0 N
0 N
··· 0 0 0
.. .. .. ..
. . . .
N −1 1
N − 1 0 0 0 0 0 ··· N
0 N
N 0 0 0 0 0 ··· 0 1 0
77
Proceso de ramificación
Suponga que, antes de morir, un organismo produce j hijos con proba-
bilidad αj , (j ≥ 0) independiente de los otros organismos. Sea X0 el tamaño
inicial de la población de tales organismos. El número total de hijos de los
organismos en la población inicial, denotado por X1 , es el tamaño de la
población de la primera generación. Todos los hijos de los organismos de la
primera generación forman la segunda generación, y el tamaño de la segunda
generación se denota por X2 . Así se continúa.
Este proceso estocástico, {Xn }n∈N0 , con S = {0, 1, 2, . . .}, donde Xn es
el tamaño de la n-ésima generación, se conoce como el proceso de ramifi-
cación (ing: branching process). Fue introducido por Galton en 1889 estu-
diando la extinción de apellidos de familias. En este estudio solo se consid-
eraban los hijos hombres, pues eran los que podían heredar el apellido.
Sea P = (pij ) la matriz de transición de este proceso. Observe que p00 = 1
porque si en una generación hay 0 organismos, ya no pueden haber organis-
mos en las siguientes generaciones, “la población se extingue”. Por tanto, 0
es un estado absorbente.
Como el número de hijos de un organismo es independiente del número de
hijos de cualquier otro organismo, si en una generación hay x organismos, la
probabilidad de que ninguno tenga hijos es α0x . En términos de probabilidades
de transición, px0 = α0x .
78
pasos denotada por P (n) :
pn00 pn01 pn02 · · ·
n n n
P (n) = p10 p11 p12 · · ·
..
.
En efecto,
pn+m
ij = P(Xn+m = j|X0 = i)
P(Xn+m = j, X0 = i)
=
P(X0 = i)
X P(Xn+m = j, Xn = k, X0 = i)
=
k∈S
P(X0 = i)
X
= P(Xn+m = j|Xn = k, X0 = i)P(Xn = k|X0 = i)
k∈S
X
= P(Xn+m = j|Xn = k)P(Xn = k|X0 = i)
k∈S
X X
= pm n
kj pik = pnik pm
kj
k∈S k∈S
79
Note que, en las ecuaciones de Chapman-Kolmogorov, pn+m ij denota la
(n+m)
entrada (i, j) de la matriz de transición en n + m pasos, P , mientras
que pik es la entrada (i, k) de la matriz de transición en n pasos, P (n) , y, pm
n
kj
(m)
es la entrada (k, j) de la matriz de transición en m pasos P . Entonces, de
las ecuaciones de Chapman-Kolmogorov se obtiene que.
P (n+m) = P (n) · P (m) ,
donde · denota la multiplicación entre matrices.
De aquí se deduce que,
P (n) = P · P (n−1) = P · P · P (n−2) = . . . = P n .
Por esto, P (n) se puede calcular multiplicando la matriz P por sí misma n
veces.
80
4.3.5. Probabilidad inicial
Hasta ahora solo hemos considerado probabilidades condicionales, pero si
se quiere conocer las probabilidades no condicionadas es necesario especificar
la distribución de probabilidad de los estados iniciales, es decir, las probabil-
idades P(X0 = i), donde i es cualquier posible estado de la cadena.
Definición 4.6. La función π0 (i) = P(X0 = i)definida para todo i ∈ S,
se conoce como la probabilidad inicial , o distribución inicial de la
cadena.
Propiedades: Como la función π0 (i) es una función de probabilidad cumple
las propiedades de las funciones de probabilidad.
1. 0 ≤ π0 (i) ≤ 1
P
2. i∈S π0 (i)
X
P(Xn = j) = P(Xn = j, X0 = i)
i∈S
X
= P(Xn = j|X0 = i)P(X0 = i)
i∈S
X
= pnij π0 (i)
i∈S
81
Asuma también, que si la máquina amanece dañada, la probabilidad de
que la reparen durante el día y amanezca buena al día siguiente es 0,7. Es
decir, si se denota con Xn el estado de la máquina en el tiempo n,
P(Xn+1 = 1|Xn = 0) = 0,7.
Asuma que si la máquina amaneció funcionando bien cierto día, la probabil-
idad de que ocurra algún problema y amanezca dañada el día siguiente es
0.4. Es decir,
P(Xn+1 = 0|Xn = 1) = 0,4
Si se supone que el funcionamiento de la máquina cumple con la propiedad
markoviana, con la información de las probabilidades de transición y las prob-
abilidades iniciales se pueden calcular probabilidades conjuntas. Por ejemplo,
la probabilidad de que se inicie el estudio con la máquina dañada, al día sigu-
iente amanezca buena y al siguiente amanezca dañada otra vez es:
P(X0 = 0, X1 = 1, X2 = 0)
= P(X2 = 0|X1 = 1, X0 = 0)P(X1 = 1|X0 = 0)P(X0 = 0)
= (0,4)(0,7)(0,2) = 0,056
También, se puede mostrar por inducción que: (verificar!! creo que hay
un error!!)
82
4.3.6. Clasificación de los estados de una cadena de Markov
Sea {Xn }n=0,1,2,... una cadena de Markov con espacio de estado S y matriz
de transición P .
Definición 4.8. Si los estados i y j son accesibles cada uno desde el otro, es
decir, i → j y j → i, entonces se dice que i y j se comunican y se escribe
i ↔ j.
Transitiva: Si i ↔ j y j ↔ k, entonces, i ↔ k.
Por tanto, i → k.
Sabemos que una relación de equivalencia sobre un conjunto, lo divide en
subconjuntos disjuntos, llamados clases. En una cadena de Markov, relación
de equivalencia comunicación divide el espacio de estados en una colección de
clases disjuntas, donde cada clase contiene aquellos estados que se comunican
entre ellos.
83
Ejemplo 4.12. Considere una matriz de transición con tres estados {0, 1, 2}
y matriz de transición dada por
1/2 1/2 0
P = 1/2 1/4 1/4
0 1/3 2/3
Se observa que p02 = 0, pero p202 > 0, entonces 0 → 2. Similarmente, 2 → 0.
Entonces, los estados 2 y 0 se comunican.
También se observa que 0 ↔ 1. Entonces, este conjunto de estados está
formado por una única clase {0, 1, 2}.
Ejemplo 4.13.
1/2 1/2 0
P = 0 1/2 1/2
0 1/3 2/3
Se observa que 0 → 1 (en un paso), 1 → 2, 2 → 1 y 0 → 2 (p202 > 0). Sin
embargo, 2 9 0 y 1 9 0.
Entonces, este conjunto de estados está formado por dos clases {1, 2} y
{0}.
84
Teorema 4.1. Para una cadena de Markov {Xn }n=0,1... con matriz de tran-
sición P = (pij ),
P∞ n
n=0 pii = ∞ si y solamente si el estado i es recurrente.
P∞ n
n=0 pii < ∞ si y solamente si el estado i es transitorio.
Observaciones:
85
P∞
Consideremos el estado 0 y veamos si la suma n=1 pn00 es finita o infinita.
Se observa que p2n−1
00 = 0, para todo n = 1, 2, . . .
Además,
2n n (2n)!
p2n
00 = p (1 − p)n = (p(1 − p))n , n = 1, 2, . . .
n n!n!
1 √
Por la fórmula de Stirling, n! ∼ nn+ 2 e−n 2π, donde an ∼ bn equivale a
an
lı́mn→∞ = 1.
bn
Entonces,
∞
X (4p(1 − p))n
p2n
00 < ∞ sii √ <∞
n=1
πn
86
Ejemplo 4.16. (Castillo de naipes)
Definición 4.11. Se dice que un estado i recurrente es recurrente positivo
si, comenzando en i, el tiempo esperado hasta que el proceso retorne al
estado i es finito. Si el tiempo esperado es infinito se dice que el estado i
es recurrente nulo
πj = lı́mn→∞ pnij , j ≥ 0,
∞
X
πj = 1
j=0
Definición 4.13. Sea {Xn } es una cadena de Markov con espacio de estados
discreto S y matriz de transición P = (pij ). Si existen números πi , con i
estado de S, tales que:
X
πi = 1
i∈S
X
πi pij = πj , j ∈ S (4.2)
i∈S
87
Observaciones:
88
que nos confirma que esta medida estacionaria existe y es única. Esta medida
estacionaria se puede encontrar usando las siguientes ecuaciones:
X
πi = π1 + π 2 + π3 = 1
i∈{1,2,3}
y X
πj = πi pij = π1 p1j + π2 p2j + π3 p3j , j ∈ {1, 2, 3}.
i∈{1,2,3}
89
0,4214 0,3157 0,2629
P (15) ≈ 0,4207 0,3162 0,2630
0,4209 0,3154 0,2637
0,4211 0,3158 0,2631
P (20) ≈ 0,4210 0,3158 0,2631
0,4210 0,3158 0,2632
90
Proceso de Markov discreto
Considere un proceso de Markov {qn }n=1,2,... , que toma valores en el con-
junto de estados {S1 , S2 , . . . , SN }, con probabilidades de transición A = (aij )
dadas por:
aij = P(qn = Sj |qn−1 = Si ), i, j = 1, 2, . . .
91
Figura 4.2: Proceso de Markov observable con 3 estados
= P(q2 = S3 , q3 = S3 , q4 = S1 , q5 = S1 , q6 = S3 , q7 = S2 , q8 = S3 |q1 = S3 )
= a33 · a31 · a11 · a13 · a32 · a23 · a33 · π3
= 0,8 · 0,1 · 0,4 · 0,3 · 0,1 · 0,2 · 0,8 · 1
= 1,536 × 10−4
Ejemplo 4.19. (Modelo del lanzamiento de una moneda) Suponga que usted
está en un cuarto con una barrera, puede ser una cortina, que le impide ver
lo que sucede al otro lado. Del otro lado de la barrera hay una persona lan-
zando monedas. La otra persona no le dirá lo que está haciendo exactamente,
92
solamente le dirá el resultado de cada lanzamiento. Por lo tanto, se lleva a
cabo una sucesión de experimentos de lanzamiento de monedas (oculto) con
una sucesión de observaciones de caras y sellos. Una observación típica sería:
O = O1 O2 O3 . . . OT
= CCCSSSCSSCS · · · C
Figura 4.3: Un posible modelo que da cuenta de los resultados ocultos de los
lanzamientos de la moneda
93
Figura 4.4: Un segundo posible modelo que da cuenta de los resultados ocultos
de los lanzamientos de la moneda
El modelo que oculto elegido puede puede ser más complicado. Por ejem-
plo, podría pensarse que son tres monedas no necesariamente equilibradas,
y escoger entre ellas con base en algún evento probabilístico.
Si se escoge alguno de estos modelos, la pregunta natural será cuál de ellos
será el mejor para dar cuenta de la sucesión de caras y sellos observada. Hay
que observar que a medida que se aumenta el nivel de complejidad del modelo
oculto elegido, se está aumentando el número de parámetros por estimar: uno
en el primer caso, cuatro en el segundo. Estos son datos importantes para
considerar cuando se haga una elección.
94
En primer lugar, de acuerdo a un procedimiento aleatorio, alguien en
el cuarto elige una urna inicial. De esa urna se elige aleatoriamente una
bola, cuyo color será la observación y se deposita en la urna a la que
pertenece.
Se repite el paso 2.
95
2. M , el número de símbolos observables distintos por estado, es decir, el
tamaño del alfabeto. Los símbolos observables corresponden a la salida
física del sistema que se está modelando.
Para el experimento del lanzamiento de monedas, M = 2, debido a que
las observaciones son caras o sellos. En el ejemplo de las urnas, el alfa-
beto está formado por los colores de las bolas seleccionadas en las urnas.
Los símbolos de salida se denotan por el conjunto V = {v1 , v2 , . . . , vM }.
πi = P(q1 = Si ), i = 1, 2, . . . , N.
96
4.3.9. Ejercicios
1. Considere los siguientes procesos estocásticos:
a) Se están llamando al azar los candidatos de una convocatoria para
una entrevista de un grupo de 13 hombres y 16 mujeres. Sea Xn
el número de hombres que han sido entrevistados hasta el llamado
n.
b) Se dispara 10 veces a una diana con probabilidad de acertar igual
a 0.6. Sea Xn el número de aciertos logrados hasta que se han
hecho n disparos.
c) Se lanza un dado equilibrado sucesivamente y después de cada
lanzamiento se anota el número más alto obtenido entre este lan-
zamiento y todos los anteriores. Sea Xn el número anotado en el
lanzamiento n.
Determine si son cadenas de Markov, y en caso afirmativo, escriba su
respectiva matriz de transición.
2. Un sistema está programado para realizar uno de los procedimientos,
A, B ó C, por día. Si se realiza el procedimiento A, el día siguiente se
efectúa el procedimiento B, y si se realiza el procedimiento B, entonces
al día siguiente se hace el procedimiento C. Si en un día se realiza el
procedimiento C, 2 de cada cinco días, y al azar, se continúa con el
procedimiento A, y 3 de cada 5 días, se continúa con el procedimiento
B.
a) ¿Es ésta una cadena de Markov? En caso afirmativo, diseñe la
matriz de transición.
b) Si se sabe que el sistema comenzó con el proceso A el día lunes,
¿cuál es la probabilidad de que el viernes el sistema efectúe el
proceso C?
3. Un aviso con letras de neón tiene escrito “FELIZ NAVIDAD”, y fue
programado con la siguiente secuencia para que enciendan e inmediata-
mente se apaguen las letras (titilen) cada una de sus letras (el espacio
no se considera):
Comenzando con todas las letras apagadas, titila (enciende e in-
mediatamente se apaga) cualesquiera de ellas al azar.
97
Las letras se iluminan hacia la derecha con probabilidad 2/3 y
hacia la izquierda con probabilidad 1/3. Es decir, si titila una de
las letras, la siguiente será la que esté a su derecha o a su izquierda
con probabilidades 2/3 y 1/3, respectivamente.
Cuando titila un extremo, en el paso siguiente titila la letra con-
tigua. Por ejemplo, si titila la última D, la siguiente en titilar será
la letra A que está a su lado.
98
6. Considere un camino aleatorio circular con seis lugares marcados con los
números 1, 2, 3, . . . , 6 ubicados en círculo en el sentido de las manecillas
del reloj. Suponga que solo es posible pasar de un lugar a uno contiguo
con igual probabilidad. Si se comienza en el lugar 1, calcule la proba-
bilidad de que
a) en cuatro transiciones la cadena retorne al lugar 1.
b) en cinco transiciones la cadena se encuentre en uno de los estados
contiguos al lugar 1 (2 ó 6).
7. Considerando las cadenas de Markov definidas a partir de las siguientes
matrices de transición, determine en cada caso, cuáles estados son re-
currentes y cuáles son transitorios.
a) Para los estados son {0, 1, 2, 3},
0 0 1/2 1/2
0 0 1 0
P = 1 0 0
0
0 1 0 0
b) Para los estados son {0, 1, 2, 3},
0,8 0 0,2 0
0 0 1 0
P = 1
0 0 0
0,3 0,4 0 0,3
c) Para los estados son {1, 2, 3, 4, 5},
1/2 1/2 0 0 0
1/2 1/2 0 0 0
P = 0 0 1/2 1/2 0
0 0 1/2 1/2 0
1/4 1/4 0 0 1/2
d ) Para los estados son {1, 2, 3, 4, 5},
0,5 0 0 0,5 0
0 0,6 0 0 0,4
P = 0,3 0 0,7 0 0
0 0 1 0 0
0 1 0 0 0
99
8. Considere la cadena de Markov con espacio de estados {0, 1, 2, 3, 4, 5}
y matriz de transición dada por:
1 0 0 0 0 0
1/4 1/2 1/4 0 0 0
0 1/5 2/5 1/5 0 1/5
P = 0
0 0 1/6 1/3 1/2
0 0 0 1/2 0 1/2
0 0 0 1/4 0 3/4
Muestre que tiene cuatro estados recurrentes y solo uno de ellos ab-
sorbente, y dos transitorios. Determine cuales.
10. Suponga que hay dos cajas con bolas rojas, blancas y negras y por
etapas se extraen bolas de una caja y se pasan a la otra caja.
11. Construya una matriz de transición de una cadena de Markov con espa-
cio de estados {1, 2, 3, . . . , 8} en la que {1, 2, 3} sea una clase formada
100
por estados transitorios de periodo 3, {4} sea una clase formada por un
único estado transitorio, aperiódico y {5, 6, 7, 8} sea una clase formada
por estados recurrentes de periodo 2.
101
4.4. Procesos de Poisson
La distribución de Poisson tiene la caracerística especial de que aparece
en conexión con el estudio de sucesiones de variables aleatorias que ocurren
en el tiempo. Comenzaremos presentando la deducción de esta distribución
a partir de una aproximación que hizo Simeon Denis Poisson en 1837 sobre
la distribución Binomial.
n x
P(X = x) = p (1 − p)n−x
x
x n−x
n! λ λ
= 1−
x!(n − x)! n n
n
n(n − 1)(n − 2) · · · (n − x + 1) λx 1 − nλ
= x (4.6)
nx x! 1 − nλ
102
Para n grande y λ una constante apreciable,
x
λ
1− → 1
n
n
λ
1− → e−λ
n
Además, tanto el numerador como el denominador de la primera fracción en
(4.6) son polinomios de grado x, entonces, para n → ∞,
n(n − 1)(n − 2) · · · (n − x + 1)
→1
nx
Por tanto, si n → ∞,
e−λ λx
P(X = x) → .
x!
La significancia de esta aproximación aparece por primera vez en 1889, en la
obra del matemático ruso-alemán L. V. Bortkiewicz, donde demuestra que
dado que
∞ ∞
X e−λ λx −λ
X λx
=e = e−λ eλ = 1,
x=0
x! x=0
x!
este valor aproximado constituye en sí mismo una distribución de probabili-
dad. Esta propiedad y la introducción de los Procesos de Poisson en el siglo
XX hicieron que la función de probabilidad de Poisson se convirtiera en una
de las tres distribuciones de probabilidad más importantes, junto a la Normal
y la Binomial.
103
1. Estacionaridad: Para todo n ≥ 0, y para cualesquier dos intervalos
de tiempo iguales ∆1 y ∆2 , la probabilidad de que ocurran n eventos
en ∆1 es igual a la probabilidad de que ocurran n eventos en ∆2 .
(λt)n e−λt
P(N (t) = n) = .
n!
Es decir, para todo t > 0, N (t) es una variable aleatoria de Poisson con
parámetro λt. De aquí, E[N (t)] = λt.
104
aleatoria de Poisson es una aproximación de la distribución Binomial cuando
n es grande, p pequeño y np es moderado.
Dividamos el intervalo [0, t] en n subintervalos de igual longitud. Cuando
n → ∞, la probabilidad de tener dos o más eventos en cada uno de estos
subintervalos es 0.
Por tanto, N (t) es el número de subintervalos en los que ha ocurrido un
evento. Entonces, si tenemos en cuenta que, debido a la estacionaridad, la
probabilidad de tener un evento en cualquiera de estos intervalos es constante,
y debido a la propiedad de incrementos independientes, cada intervalo se
puede ver como un ensayo independiente, se concluye que N (t) es el número
de éxitos en n ensayos de Bernoulli.
Entonces N (t) tiene una distribución Binomial de parámetros n y p donde
es la probabilidad de que un evento ocurra en un subintervalo.
Sea λ el número esperado de eventos en una unidad de tiempo. Debido
a la estacionaridad, los eventos ocurren a una tasa uniforme sobre todo el
periodo, es decir, el número esperado de eventos en un intervalo de longitud
t es λt. Por la fórmula para la esperanza de una variable aleatoria Binomial,
el número esperado de eventos en el intervalo de longitud t es np. Entonces,
np = λt o equivalentemente,
λt
p= .
n
Para n → ∞ tenemos que p es muy pequeño y λt es de tamaño moderado.
Por tanto, N (t) es una variable aleatoria de Poisson con parámetro λt.
1. N (0) = 0.
e−λt (λt)n
P(N (t + s) − N (s) = n) = , n = 0, 1, 2, . . .
n!
105
Observe que la parte (3) implica que el proceso {N (t)} es estacionario.
e−5t (5t)n
P(N (t) = n) = .
n!
Entonces, la probabilidad de que hayan al menos dos infracciones de trán-
sito en las siguientes 6 horas (un cuarto de día) es:
106
Para λ = E[N (1)], tenemos que
(λt)n e−λt
P(N (t) = n) = .
n!
A partir de esta probabilidad podemos determinar la distribución de las
variables Xi , i = 1, 2, . . .
Observe que para t ≥ 0, el evento {X1 > t} indica que el primer evento
del proceso ocurrió después del tiempo t. Esto es equivalente a que antes del
tiempo t no han ocurrido eventos, es decir {N (t) = 0}. Por tanto,
Esto significa que X1 tiene una distribución Exponencial con media 1/λ.
Como el proceso de Poisson es estacionario y tiene incrementos indepen-
dientes, en cualquier tiempo t el proceso comienza de nuevo probabilísti-
camente. Entonces, el tiempo entre llegadas entre dos eventos consecutivos
tiene la misma distribución que X1 . Es decir, la variables de la sucesión
{X1 , X2 , X3 . . .} son independientes y todas tienen distribución Exponencial
de media 1/λ. Entonces, su función de densidad de probabilidad está dada
por:
−λx
λe si x ≥ 0
f (x) =
0 si x < 0
107
Ejemplo 4.23. Suponga que 10000 usuarios telefónicos originan una llamada
por hora. Determine la probabilidad de que el tiempo entre la entrada de dos
llamadas sea menor de 0.01 segundos.
La tasa de llegada de las llamadas es:
1
λ = 10000 = 2,78 llamadas por segundo.
3600
La probabilidad de que el tiempo entre llegadas, X, sea menor de 0.01 se-
gundos es:
P(X < 0,01) = 1 − e−2,78(0,01) = 0,027
Propiedades de N (t):
N (t) ≥ 0
N (t) ∈ Z+ ∪ {0}
108
También, para todos t0 < t1 < t2 < . . . < tn , las variables N (t1 ) − N (t0 ),
N (t2 ) − N (t1 ), . . ., N (tn ) − N (tn−1 ) son independientes.
Decimos que un proceso de conteo es estacionario si la distribución del
número de eventos que ocurre en cualquier intervalo de tiempo depende úni-
camente de la longitud del intervalo. Así, para s fijo, las variables N (t + s) −
N (t) tienen la misma distribución, para todo t.
Para definir formalmente los procesos de Poisson, es necesario establecer
algunos conceptos de convergencia.
f (h)
Definición 4.16. Una función f : R → R es o(h), si lı́mh→0 h
=0
f (h) hr
lı́mh→0 = lı́mh→0 = lı́mh→0 hr−1 = 0.
h h
Si r = 1, f (x) = xr no es o(h), debido a que
f (h) h
lı́mh→0 = lı́mh→0 = 1.
h h
Ejemplo 4.25. Si f y g son ambas funciones o(h) y c es una constante,
entonces, f + g y cf son también o(h).
Demostración.
(f + g)(h) f (h) g(h)
lı́mh→0 = lı́mh→0 + lı́mh→0 =0
h h h
y
(cf )(h) f (h)
lı́mh→0 = c lı́mh→0 =c·0=0
h h
109
Demostración.
(f g)(h) f (h)g(h) f (h)
lı́mh→0 = lı́mh→0 = lı́mh→0 g(h) = 0.
h h h
Se puede escribir, g(h) · o(h) = o(h) si g es acotada.
Ejemplo 4.27. Muestre que et = 1 + t + o(t).
Demostración. Sabemos que
t2 t3 tn
et = 1 + t + + + ··· + + ···
2! 3! n!
Sea
t2 t3 tn
g(t) = + + ··· + + ···
2! 3! n!
Entonces, et = 1+t+g(t). Y como, lı́mt→0 g(t)/t = 0, tenemos que g(t) = o(t).
Por tanto, et = 1 + t + o(t).
Definición 4.17. Se dice que un proceso de conteo {N (t)}t≥0 es un Proceso
de Poisson de tasa λ, λ > 0, si se cumple que:
1. N (0) = 0.
2. El proceso es estacionario y tiene incrementos independientes.
3. P(N (h) = 1) = λh + o(h).
4. P(N (h) ≥ 2) = o(h)
Observaciones:
110
En la Definición 4.14 se había definido el Proceso de Poisson a través de
la distribución de Poisson. En la Definición 4.17 se define este mismo
proceso usando el concepto de convergencia o pequeña. Esta última
definición es la más usada debido a la posibilidad de su verificación.
En los siguientes resultados se muestra que las dos definiciones son
equivalentes.
i
jh (j+1)h
Como la longitud del intervalo n
, n es h/n, la estacionaridad del
proceso de conteo implica que
P(Aj ) = P(N (h/n) > 1), j = 0, 1, 2, . . . , n − 1.
Por tanto,
n−1
X P(N (h/n) > 1)
P(A) ≤ P(Aj ) = nP(N (h/n) > 1) = h .
j=0
h/n
111
P(N (h/n) > 1)
lı́mn→∞ = 0.
h/n
Luego, P(A) ≤ 0, lo que implica que P(A) = 0.
112
P(N (t) = 0)[P(N (t + h) − N (t) = 0|N (t) = 0) − 1]
P00 (t) = lı́mh→0
h
P0 (t)[P(N (h) = 0) − 1]
= lı́mh→0
h
Usando las condiciones para las probabilidades de ocurrencia de eventos,
Entonces,
P(N (h) = 0) = 1 − λh + o(h)
y reemplazando en la expresión de P00 (t) se tiene que:
P0 (t)[1 − λh + o(h) − 1]
P00 (t) = lı́mh→0
h
−λh + o(h)
= P0 (t) lı́mh→0
h
= −λP0 (t)
Entonces,
P00 (t)
= −λ,
P0 (t)
lo que implica que
P0 (t) = κe−λt .
Usando la condición de que P0 (0) = P(N (0) = 0) = 1, tenemos que κ = 1.
Luego,
P0 (t) = e−λt .
113
Veamos para n ≥ 1 (también a través de la derivada de Pn (t), como se
hizo en el Lema 4.2).
Pn (t + h) − Pn (t)
Pn0 (t) = lı́m
h→0 h
P(N (t + h) = n) − P(N (t) = n)
= lı́m
h→0 h
Haciendo las consideraciones de estacionaridad e incrementos independientes
para P(N (t + h) = n) se tiene que:
114
Esta última igualdad es una ecuación diferencial de recurrencia que puede
resolverse de forma inductiva reescribiéndola con apoyo de la función expo-
nencial, así:
eλt (Pn0 (t) + λPn (t)) = λeλt Pn−1 (t),
que equivale a:
d λt
(e Pn (t)) = λeλt Pn−1 (t).
dt
Esta relación permite mostrar, por inducción, que
e−λt (λt)n
Pn (t) = .
n!
En efecto, para n = 1, usando el Lema 4.2
d λt
(e P1 (t)) = λeλt P0 (t) = λeλt e−λt = λ
dt
Es decir, P1 (t) = (λt + c)e−λt .
Para calcular la constante c, basta observar que en el tiempo t = 0, P1 (0) =
P(N (0) = 1) = 0. Entonces, c = 0.
Luego,
P1 (t) = λte−λt .
e−λt (λt)n
Pn (t) = .
n!
115
4.4.4. Ejemplos de Procesos de Poisson
Los artículos descritos en los siguientes ejemplos, son propuestas pedagóg-
icas para ilustrar los procesos de Poisson. Es interesante tenerlas a la mano,
porque muestran la pruebas estadísticas que pueden usarse para verificar el
ajuste de las distribuciones de Poisson y Exponencial para las ocurrencias de
los eventos y sus tiempos entre sus llegadas.
116
Prueba: Se quiere mostrar que, para 0 ≤ i ≤ n,
n u i u n−i
P(N (u) = i|N (t) = n) = 1− .
i t t
n! ui (t − u)n−i
=
i!(n − i)! tn
i
n u (t − u)n−i
=
i ti tn−i
n u i u n−i
= 1− .
i t t
117
Teorema 4.7. Sean {N1 (t)} y {N2 (t)} dos procesos de Poisson independi-
entes de tasas λ y µ, respectivamente. La distribución condicional de N1 (t)
dado que N1 (t) + N2 (t) = n es una binomial con parámetros n y λ/(λ + µ).
Prueba: Para cada t sabemos que N1 (t) y N2 (t) son dos variables aleatorias
de Poisson independientes de parámetros λt y µt, respectivamente. También
que la suma N1 (t) + N2 (t) es una variable aleatoria de Poisson de parámetro
(λ + µ)t (esto se puede probar usando la técnica de la función generadora
para encontrar la distribución de funciones de variables). Entonces,
118
El Teorema 4.7 afirma que la distribución del número de camiones entre
los n = 50 vehículos es una distribución Binomial de parámetros n = 50 y
probabilidad de éxito
µ 3
p= = = 0,2.
λ+µ 15
Entonces, si N1 (4) denota el número de carros entre las 8 y las 12m y N2 (4),
el número de camiones en ese mismo horario, la probabilidad de que entre
estos 50 vehículos, 10 hayan sido camiones está dada por:
50
P(N2 (4) = 10|N1 (4) + N2 (4) = 50) = (0,2)10 (0,8)40
10
En el resultado que sigue se muestra la relación que existe entre los pro-
cesos de Poisson y la distribución Uniforme. Está propiedad da una idea de
los tiempos en los que ocurren los eventos de Poisson.
Para ilustrar esta conexión entre los tiempos de ocurrencia de los eventos
de un proceso de Poisson y la distribución Uniforme, suponga, por ejemplo,
que al celular de Ana llegan llamadas de acuerdo a un proceso de Poisson
de tasa λ y que cada vez que Ana está en clase, apaga el celular. En cierta
ocasión, después de una clase, Ana encendió su celular y recibió el mensaje de
que durante los t minutos que el celular permaneció apagado, habían llegado
n llamadas. Sin embargo, no recibió la información del horario en que las
llamadas fueron recibidas.
Para encontrar la distribución de los tiempos de llegada, se escogen aleato-
riamente n puntos de forma independiente en el intervalo [0, t]. Si X(1) ,
es el menor valor de {X1 , X2 , . . . , Xn }, X(2) es el segundo menor valor en
{X1 , X2 , . . . , Xn }, y, en general, X(k) , 1 ≤ k ≤ n es el k-ésimo menor valor
en {X1 , X2 , . . . , Xn }, el siguiente resultado muestra que X(1) tiene la misma
distribución que el tiempo de llegada de la primera llamada, X(2) tiene la
misma distribución que el tiempo de llamada de la segunda llamada, y así
para los otros tiempos de llegada de las llamadas. Es decir, los estadísticos de
orden de X1 , X2 , . . . , Xn se pueden usar para estimar los tiempos de llegada
de las llamadas.
Observe que el resultado que vamos a estudiar, se refiere a la distribu-
ción de varias variables en conjunto. Estas distribuciones se conocen como
119
distribuciones conjuntas. En el caso particular de un conjunto de vari-
ables aleatorias independientes, la distribución conjunta X1 , X2 , . . . , Xn es el
producto de las distribuciones de cada una de las variables aleatorias.
Si X1 , X2 , . . . , Xn son n variables aleatorias independientes, distribuidas
uniformemente en el intervalo [0, t], la función de densidad de probabilidad
de cada Xi está dada por:
1/t para 0 ≤ ti ≤ t
f (ti ) =
0 en otros casos
120
ocurrencia del i-ésimo evento. Entonces, la función de distribución conjunta
de S1 , S2 , . . . , Sn dado que N (t) = n está dada por:
n!
fS1 ,...,Sn |N (t) (t1 , t2 , . . . , tn |n) = , 0 < t1 < t2 < . . . < tn < t.
tn
Es decir, dado que N (t) = n, la distribución conjunta de los tiempos en
que ocurren estos n eventos hasta el tiempo t, es la misma que la de los
estadísticos de orden de n variables aleatorias independientes distribuidas
uniformemente en el intervalo [0, t].
121
Para completar la demostración, se puede mostrar, por inducción, que la
derivada parcial de la última expresión es igual a 1.
En efecto, para n = 2,
∂2
t1 (t2 − t1 ) = 1.
∂t1 ∂t2
Supongamos que se cumple para n − 1, es decir,
∂ n−1
t1 (t2 − t1 ) · · · (tn−1 − tn−2 ) = 1,
∂t1 ∂t2 · · · ∂tn−1
entonces,
∂n
t1 (t2 − t1 ) · · · (tn − tn−1 )
∂t1 ∂t2 · · · ∂tn
∂ n−1
∂
= t1 (t2 − t1 ) · · · (tn−1 − tn−2 )(tn − tn−1 )
∂t1 ∂t2 · · · ∂tn−1 ∂tn
∂ n−1
= [t1 (t2 − t1 ) · · · (tn−1 − tn−2 )]
∂t1 ∂t2 · · · ∂tn−1
= 1
122
Entonces, la probabilidad pedida es:
Z 20 Z 40
2!
P(S1 < 20, S2 < 40|N (t) = 2) = dt2 dt1
0 t1 602
Z 20
1 1
= (40 − t1 )dt1 =
0 800 3
123
ser atendido (disciplina FIFO), el que llegó el último es el primero en
ser atendido(LIFO), el que menos tiempo de servicio requiere, el que
más requiere, entre otros. Incluso puede interrumpirse un servicio para
empezar otro que corresponda a un cliente recién llegado con mayor
prioridad (fenómeno de anticipación), como en el caso de los centros
de urgencias médicas; de no ser así, la prioridad se llama de cabeza de
línea. Otros fenómenos frecuentes son el rechazo (si la fila tiene una
capacidad máxima, el cliente no es admitido).
124
hay una única línea de espera y los clientes están siendo atendidos en su
orden de llegada por c servidores que atienden en paralelo.
Por tanto, tanto los tiempos de servicio como los tiempos entre llegadas
son independientes e idénticamente distribuidos.
Un sistema de filas M/G/c denota una fila en la que los tiempos entre
llegadas son un proceso de Poisson y los tiempos de servicio siguen una
distribución general (La letra M, se cree que es debida a Memoryless: pérdida
de memoria de la exponencial o por Markov: en honor a Markov). Por tanto,
los tiempos entre llegadas son variables aleatorias exponenciales con media
1/λ.
Similarmente, el sistema de filas GI/M/c denota el sistema en el que
el tiempo entre llegadas sigue una distribución general, pero el tiempo de
servicio está distribuido exponencialemente.
Por ejemplo, M/M/c denota un sistema de filas donde los tiempo entre
llegadas son exponenciales de media 1/λ, los tiempos de servicio también son
exponenciales de media 1/µ y hay dos servidores operando en paralelo.
Un sistema de filas denotado por D/G/c indica que el tiempo entre lle-
gadas es una constante d. La letra D es por determinístico. Similarmente,
GI/D/c denota un sistema de filas en el que los tiempos de servicio son deter-
minísticos. Por tanto, D/D/1 es un sistema con un servidor, en el que tanto,
los tiempos de llegada como los tiempos de servicio son determinísticos.
125
aleatorias de Poisson independientes con medias λtp y λt(1 − p), respectiva-
mente, donde
1 t
Z
p= p(s)ds.
t 0
Prueba: La distribución de probabilidad conjunta de N1 (t) y N2 (t) se puede
determinar condicionándola sobre N (t):
P(N1 (t) = n, N2 (t) = m)
∞
X
= P(N1 (t) = n, N2 (t) = m|N (t) = k)P(N (t) = k)
k=0
= P(N1 (t) = n, N2 (t) = m|N (t) = n + m)P(N (t) = n + m).
(n + m)! n (λt)n+m
P(N1 (t) = n, N2 (t) = m) = p (1 − p)n e−λt
n!m! (n + m)!
n
(λtp) −λt(1−p) (λt(1 − p))m
= e−λtp e .
n! m!
126
La aplicación principal de este resultado se presenta en los sistemas de
filas. En el siguiente ejemplo, se muestra su aplicación al caso de una fila con
infinitos servidores.
Ejemplo 4.32. (M/G/∞) Suponga que los clientes llegan a una estación
de servicio de acuerdo a un proceso de Poisson de tasa λ. Cuando un cliente
llega es atendido inmediatamente por uno de infinitos servidores. Asuma que
los tiempos de servicio de los clientes son independientes con una distribución
común G.
Para calcular la distribución de probabilidad del número de clientes en
el sistema en el tiempo t, es necesario distinguir aquellos que terminaron su
servicio antes del tiempo t de los que no lo terminaron. Digamos que los
eventos de tipo I son los que terminan su servicio antes del tiempo t y los de
tipo son los que terminan su servicio después del tiempo t.
Si el cliente llega en el tiempo s, s ≤ t, entonces, será un cliente de tipo I
si su tiempo de servicio es menor o igual a t − s, y como la distribución del
tiempo de servicio es G, la probabilidad será G(t − s). Es decir,
p(s) = G(t − s), s ≤ t,
y entonces, del Teorema 4.9, la distribución de N1 (t), el número de clientes
que terminan su servicio antes del tiempo t, es una Poisson de media
Z t Z t
1
E(N1 (t)) = λtp = λt G(t − s)ds = λ G(y)dy.
t 0 0
4.4.8. Ejercicios
1. Los clientes llegan a un almacén de acuerdo a un proceso de Poisson
de tasa λ = 4 por hora. Si este almacén abre a las 9:00a.m. ¿cuál es la
probabilidad de que
127
a) exactamente haya llegado un cliente para las 9:30a.m.?
b) haya llegado un total de seis clientes para las 11:30 a.m.?
c) el primer cliente haya llegado en algún momento después de las
9:30a.m. pero antes de las 10a.m.?
3. En cierto lago, y cierta época del año, un pescador obtiene peces según
un proceso de Poisson a una tasa de 2 por hora. Si ayer este pescador,
entre las 9 a.m. y la 1 p.m. consiguió pescar 6 peces, ¿cuál es la proba-
bilidad de que hoy, él logre pescar exactamente un pez antes de las 10
a.m, si también comenzó su pesca a las 9 a.m.?
5. Se sabe que, por cierta autopista, los carros cruzan por un cierto punto
siguiendo un proceso de Poisson con parámetro λ = 3 por minuto.
128
Suponga que una persona atraviesa sin poner atención por este punto
de la autopista,
129
10. Sea {N (t)}t≥0 un proceso de Poisson de tasa λ y sea {Xi }i=1,2,... una
sucesión de ensayos de Bernoulli de parámetro 0 < p < 1 independi-
entes de {N (t)}t≥0 . Demuestre que si
N (t)
X
Y (t) = Xj ,
j=0
130
e) ¿Cuántos mantenimientos no programados se deben esperar para
esta máquina en el primer año de operación, si se sabe que en
13000 horas de operación ocurrieron 43 mantenimientos no pro-
gramados?
131
no depende de s. Equivalentemente, para todo s > 0,
La relación P(Y > s + t|Y > s) = P(Y > t) muestra que la variable Y
tiene la propiedad de pérdida de memoria. Esto indica que Y tiene distribu-
ción exponencial.
El valor esperado de Y , es decir, la longitud de tiempo esperado que el
proceso permanecerá en un estado i se puede denotar por 1/νi .
132
la probabilidad de cambiar del estado i al estado j en t unidades de tiempo.
Es decir,
Para que una cadena de Markov de tiempo continuo pase del estado i
al estado j en s + t unidades de tiempo, la cadena tuvo que haber entrado
en algún estado k después s unidades de tiempo, y después pasó al estado
j después de t unidades de tiempo. Esta observación es la que se parece
resumida en las ecuaciones de Chapman-Kolmogorov para cadenas de
Markov de tiempo continuo:
X
pij (s + t) = pik (s)pkj (t).
k∈S
Ejemplo 4.33. Suponga que cierta máquina opera durante un periodo dis-
tribuido exponencialmente con parámetro λ. Cuando deja operar por algún
daño, queda parada durante un periodo de tiempo, también distribuido ex-
ponencialmente, con parámetro µ.
133
Se define X(t) = 1 si la máquina está funcionando en el tiempo t y
X(t) = 0 si no está funcionando. Con esta definición, {X(t)}t≥0 es una
cadena de Markov de tiempo continuo, con ν0 = µ, ν1 = λ, p00 = p11 = 0 y
p01 = p10 = 1.
134
Lema 4.3. Sea {X(t)}t≥0 una cadena de Markov de tiempo continuo, con
espacio de estados S discreto. Sean i, j ∈ S. Entonces,
1 − pii (h) pij (h)
lı́m = νi y lı́m = qij .
h→0 h h→0 h
Por tanto,
pij (h) o(h)
= qij + .
h h
135
De aquí, se tiene que:
pij (h)
lı́m = qij .
h→0 h
Prueba: Vamos a probar la expresión para las ecuaciones hacia adelante. (La
expresión para las ecuaciones hacia atrás se muestran de forma similar).
Por las ecuaciones de Chapman-Kolmogorov,
X
pij (t + h) − pij (t) = pik (t)pkj (h) − pij (t)
k∈S
X
= pik (t)pkj (h) + pij (t)pjj (h) − pij (t)
k6=j
X
= pik (t)pkj (h) + pij (t) [pjj (h) − 1]
k6=j
136
Dividiendo por h en ambos lados de la ecuación,
p01 = p10 = 1,
p00 = p11 = 0
q10 = ν1 p10 = ν1 = µ
q01 = ν0 p01 = ν0 = λ
que es equivalente a
d (λ+µ)t
p00 (t) = µe(λ+µ)t .
e
dt
137
Integrando ambos lados, obtenemos:
µ (λ+µ)t
e(λ+µ)t p00 (t) = e + c,
λ+µ
donde c es una constante que podemos calcular con la condición p00 = 1, lo
que implica que
λ
c= .
λ+µ
Luego,
µ λ −(λ+µ)t
p00 (t) = + e .
λ+µ λ+µ
138
exponencial de media 1/λ hasta que llega el próximo pasajero a ese punto.
Además, desde el momento que llega este pasajero, debe esperar hasta que
llegue el próximo bus, durante un tiempo exponencial de media 1/µ.
Por tanto, {X(t)} es una cadena de Markov de tiempo continuo, con
espacio de estados {0, 1}, que permanece en 0 durante un tiempo exponencial
de media 1/λ y después pasa a 1 y permanece en este estado durante un
tiempo exponencial de media 1µ. Así, ν0 = λ, ν1 = µ, y
p01 = p10 = 1,
p00 = p11 = 0
q10 = ν1 p10 = ν1 = µ
q01 = ν0 p01 = ν0 = λ
Para calcular p00 (t) usemos las ecuaciones de Kolmogorov hacia adelante.
O sea,
Es decir,
p00 (t) + p01 (t) = c.
Como p00 (0) = 1 y p01 (0) = 0, tenemos que c = 1. De donde,
139
Es decir, tenemos la ecuación diferencial
que es equivalente a
d (λ+µ)t
p00 (t) = µe(λ+µ)t .
e
dt
Integrando ambos lados, obtenemos:
µ (λ+µ)t
e(λ+µ)t p00 (t) = e + c,
λ+µ
donde c es una constante que podemos calcular con la condición p00 = 1, lo
que implica que
λ
c= .
λ+µ
Luego,
µ λ −(λ+µ)t
p00 (t) = + e .
λ+µ λ+µ
πj = lı́mn→∞ pnij ,
entonces,
∞
X ∞
X
πj = pij π y πj = 1.
i=0 j=0
140
Para las cadenas de Markov de tiempo continuo existen resultados simi-
lares.
Sea {X(t)}t≥0 una cadena de Markov de tiempo continuo con espacio de
estados S. Suponga que
Para cada i, j ∈ S, existe una probabilidad positiva de que, comenzando
en i, el proceso eventualmente estará en el estado j. Además,
Comenzando en i, el proceso retornará al estado i con probabilidad 1, y
el número esperado de transiciones para llegar al estado i es un número
finito.
Bajo estas dos condiciones, se puede probar que
lı́mt→∞ pij (t)
existe, y es independiente de i.
Sea
πj := lı́m pij (t).
t→∞
Entonces, πj es la probabilidad a largo plazo de que el proceso esté en el
estado j.
Observe que si, lı́mt→∞ pij (t) existe, entonces,
pij (t + h) − pij (t)
lı́m p0ij (t) = lı́m lı́m
t→∞ t→∞ h→0 h
pij (t + h) − pij (t)
= lı́m lı́m
h→0 t→∞ h
πj − π j
= lı́m =0
h→0 h
Si t → ∞, tenemos que
X
0= qkj πk − νj πj .
k6=j
141
Por tanto, X
qkj πk = νj πj . (4.10)
k6=j
Ejemplo 4.37. Considere el ejemplo de una cadena con dos estados. Para
i = 0, 1, sea πi la probabilidad a largo plazo de que la cadena permanezca en
el estado i. De las ecuaciones de balance,
Para el estado 0,
q10 π1 = ν0 π0
µπ1 = λπ0
Para el estado 1,
q01 π0 = ν1 π1
λπ0 = µπ1
λπ0 = µπ1 y π0 + π 1 = 1
142
De aquí,
µ λ
π0 = y π1 = .
λ+µ λ+µ
Ejemplo 4.38. Un taller opera con dos máquinas idénticas, que trabajan
continuamente excepto cuando se descomponen. Suponga que el tiempo re-
querido para reparar una de estas máquinas es Exponencial de media 1/2
día y cuando se terminan la reparación, el tiempo que transcurre hasta la
próxima falla es Exponencial de media 10 días. Suponga que el tiempo de
tiempo de reparación es independiente del tiempo que la máquina opera, y
que las máquinas operan de forma independiente.
Definamos la variable aleatoria X(t) por el número de máquinas descom-
puestas en el tiempo t. Los posibles valores de X(t) son 0, 1, 2.
Entonces, {X(t)}t≥0 es una cadena de Markov de tiempo continuo. Use-
mos las ecuaciones de balance para hallar la distribución de probabilidad de
estado estable para el número de máquinas descompuestas, π0 , π1 y π2 .
Para esto, es necesario encontrar, para i, j = 0, 1, 2, la tasa de transición
instantánea qij es decir, la tasa a la que el proceso abandona el estado i y
pasa al estado j.
Como el estado de esta cadena (número de máquinas descompuestas)
aumenta en 1 cuando una máquina se descompone y disminuye en 1 cuando
se arregla una máquina, y la probabilidad de que ocurran dos arreglos o dos
fallas simultáneamente es 0,
q20 = 0 y q02 = 0.
Dado que el tiempo de reparación tiene media 1/2 día, la tasa del tiempo
en la que terminan las reparaciones, cuando solo hay una máquina descom-
puesta es 2 máquinas por día y cuando las dos máquinas están descompuestas
es de 4 por día. Esto implica que
143
una está operando es de 1/10 por día, entonces
q12 = ν1 p12 = 1/10.
Durante el tiempo t en que las dos máquinas operan, X(t) = 0, y las
fallas ocurren a una tasa de 1/10 + 1/10 = 1/5 por día. Entonces,
1
q01 = ν0 p01 = ,
5
y como este sistema, estando en 0 solo puede pasar al estado 1, p01 = 1 y
ν0 = 1/5.
También, observando que
q10 + q12 = ν1 p10 + ν1 p12
= ν1 (p10 + p12 )
= ν1
Se puede obtener que
1 21
ν1 = 2 + = .
10 10
De modo similar, y observando que cuando las dos máquinas están en
reparación solo es posible pasar a tener una en reparación (p21 = 1)
ν2 = q21 = 4.
Ahora podemos evaluar las ecuaciones de balance.
Para j = 0
q10 π1 + q20 π2 = ν0 π0
1
2π1 + 0π2 = π0
5
10π1 = π0
Para j = 1
q01 π0 + q21 π2 = ν1 π1
1 21
π0 + 4π2 = π1
5 10
2π0 + 40π2 = 21π1
144
Para j = 2
q02 π0 + q12 π1 = ν2 π2
1
0π0 + π1 = 4π2
10
π1 = 40π2
En resumen,
400 40 1
π0 = ≈ 0,907, π1 = ≈ 0,091 y π2 = ≈ 0,002.
441 441 441
Es decir, a largo plazo, más del 90 % del tiempo, las dos máquinas estarán
funcionando bien.
145
4.5.3. Procesos de nacimiento y muerte
Sea X(t) el número de individuos de una población de organismos vivos
en el tiempo t.
Suponga que los miembros de la población se pueden reproducir dando
lugar al nacimiento de nuevos miembros, o se pueden morir, disminuyendo el
tamaño de la población.
Además, suponga que:
146
medio esperado hasta un nacimiento es 1/λ0 . Entonces, el proceso permanece
en el estado n = 0 un periodo de tiempo exponencial de parámetro λ0 y
después cambia al estado n = 1 con probabilidad 1.
Tomando µ0 = 0, para n ≥ 0, el proceso permanece en el estado n un
tiempo medio 1/(λn + µn ). Así, para n > 0, el procesos deja ese estado y pasa
al estado n + 1 (si ocurre un nacimiento) o pasa al estado n − 1 (si ocurre
una muerte).
A partir de las observaciones hechas, se puede concluir que el proceso
{X(t)}t≥0 es una cadena de Markov de tiempo continuo con espacio de esta-
dos S = {0, 1, 2 . . .} y tasa νn = λn + µn , para n ≥ 0. Esta cadena se conoce
como Proceso de nacimiento y muerte y para cada estado n ≥ 0, los
parámetros son llamados tasa de nacimiento y tasa de muerte, respec-
tivamente. En la figura 4.8 está representada esta cadena.
Z ∞
pn,n+1 = P(Sn > Tn ) = P(Sn > Tn |Tn = x)fTn (x)dx
0
Z ∞
= P(Sn > Tn |Tn = x)λn e−λn x dx
0
147
Haciendo los cálculos,
Z ∞
pn,n+1 = λn P(Sn > x)e−λn x dx
0
Z ∞
= λn e−µn x e−λn x dx
Z0 ∞
= λn e−(λn +µn )x dx
0
λn
= .
λn + µn
Por el complemento,
λn µn
pn,n−1 = 1 − = .
λn + µn λn + µn
148
Las ecuaciones de balance para este este proceso están dadas por:
Despejando el valor de π0 ,
1
π0 = P∞ λ0 λ1 ···λn−1
.
1+ n=1 µ1 µ2 ···µn
Luego,
λ0 λ1 · · · λn−1
πn = , n ≥ 1,
µ1 µ2 · · · µn 1 + ∞ λ0 λ1 ···λn−1
P
n=1 µ1 µ2 ···µn
149
siempre que la serie en el denominador sea convergente. Es decir,
∞
X λ0 λ1 · · · λn−1
< ∞.
n=1
µ1 µ2 · · · µn
y, para 1 ≤ n ≤ m,
λ0 λ1 · · · λn−1
πn = Pm λ0 λ1 ···λn−1 .
µ1 µ2 · · · µn 1 + n=1 µ1 µ2 ···µn
4.5.4. Filas
Una de las aplicaciones más usadas de la cadenas de Markov de tiempo
continuo se presenta en el tratamiento de los sistemas filas.
150
Sistema de filas M/M/1
Un sistema de fila M/M/1 es un sistema GI/G/1, donde hay un único
servidor, la distribución GI de los tiempos entre llegadas de los clientes es
Exponencial, digamos, de parámetro λ y del tiempo de servicio, también
exponencial, digamos que de parámetro µ.
Para un sistema de fila M/M/1, definamos la variable X(t) como el
número de clientes que hay en el sistema en el tiempo t, y consideremos
la llegada de un cliente al sistema como un nacimiento y la salida de un
cliente del sistema como una muerte.
Definido así, {X(t)}t≥0 , es un proceso de nacimiento y muerte con tasas
de nacimiento λn = λ con n ≥ 0 y tasas de muerte µn = µ, para n ≥ 1.
Para n ≥ 0, las probabilidades estacionarias πn indican la proporción de
tiempo en el que hay n clientes en este sistema de fila.
Vimos que estas probabilidades existen, si y solamente si, serie
∞ ∞ ∞
X λ0 λ1 · · · λn−1 X λn X
= = ρn ,
n=1
µ1 µ2 · · · µn n=1
µn n=1
151
dades estacionarias. Así,
∞
X
E(N ) = nρn (1 − ρ)
n=0
∞
X
= ρ(1 − ρ) nρn−1
n=0
∞
X d n
= ρ(1 − ρ) ρ
n=0
dρ
∞
d X n
= ρ(1 − ρ) ρ
dρ n=0
ρ
= ρ(1 − ρ)
(1 − ρ)2
ρ2
=
1−ρ
4.5.5. Ejercicios
152
4.6. Movimiento Browniano
4.6.1. Introducción
En 1827, el botánico inglés Robert Brown (1773-1851), al estudiar el
movimiento de partículas de polen suspendidas en agua, descubrió un fenó-
meno con múltiples aplicaciones.
El trabajo de Einstein, presentado en 1905, sobre física estadística, ex-
plicaba el fenómeno llamado movimiento browniano, cuyo nombre fue dado
como un homenaje a Robert Brown. El propósito de Brown era descubrir,
por medio de sus observaciones, el origen de la fuerza vital, la influencia mis-
teriosa a la que, en esa época, se le atribuía la propiedad de darle vida a
las cosas. Cuando Brown descubrió el movimiento de las partículas de polen,
creyó que había encontrado lo que buscaba.
La base para comprender el movimiento browniano fue dada, entre otros,
por los físicos Ludwig Boltzmann (1844-1906) y James Maxwell (1831-1879)
en las décadas siguientes al descubrimiento de Brown. Inspirados en los estu-
dios de algunos estadísticos, como Jacques Quételet (1796-1874), quien había
estudiado las regularidades estadísticas del comportamiento humano, crearon
las primeras bases de la física estadística usando las estructuras matemáti-
cas de la probabilidad y la estadística para explicar la manera en la que las
propiedades de los fluidos surgían a partir del movimiento de los átomos que
los constituían.
En la época en que Boltzman y Maxwell presentaban su teoría, algunos
científicos la objetaron matemáticamente y otros la rechazaron debido a que
no se creía en la existencia de los átomos. Si bien esta teoría lograba repro-
ducir algunas leyes físicas ya conocidas, las nuevas previsiones eran las que
más dudas causaban. Fue Einstein, en 1905, quien usó la física estadística
para explicar, con gran detalle numérico, el mecanismo del movimiento brow-
niano. Con esto, se acabó el debate sobre el uso de la estadística en las teorías
físicas, y la idea de que la materia está formada por átomos y moléculas se
convirtió en la base para el impulso de las tecnologías modernas y abrió las
puertas a una nueva era de la física.
Según la teoría atómica, el movimiento de las partículas en un fluido
es caótico. Einstein mostró que a pesar del caos que se presenta en este
movimiento a nivel microscópico, había cierta relación previsible entre fac-
153
tores como tamaño, número y velocidad de las moléculas con la frecuencia y
magnitud de sus movimientos. Con esto, Einstein mostró, que el orden que
vemos en la naturaleza esconde un desorden subyacente invisible, que solo
puede ser entendido por medio de las leyes de la aleatoriedad.
Desde este enfoque probabilístico, tanto la distribución Normal, como los
caminos aleatorios, tienen un papel importante. Al aceptar la estadística en
la física, se reconocieron las marcas del andar caótico en muchas áreas de
estudio: en el camino que siguen los insectos para buscar alimentos, en la
formación de los plásticos, en las variaciones de los precios de las acciones, o
en la evolución de la inteligencia a través del tiempo.
Después de Einstein, muchos científicos han aportado en el estudio del
movimiento browniano, sin embargo, en 1923, Norbert Wiener (1894-1964)
fue quien presentó la formulación rigurosa de este movimiento. Por esta razón,
al movimiento browniano también se le conoce como el proceso de Wiener.
154
unidades a la izquierda con probabilidad 1/3 o no se mueve con probabilidad
1/3.
Para i ≥ 1, sea
δ con probabilidad 1/3
Xi = −δ con probabilidad 1/3
0 con probabilidad 1/3.
155
X(0) = 0,
Para t > 0, X(t) es una variable aleatoria Normal con media 0 y vari-
anza σ 2 t, para alguna constante σ > 0.
Los movimientos brownianos también son conocidos como procesos de
Wiener , por la formalización teórica dada por este autor.
σ 2 es conocida como el parámetro de la varianza del movimiento
browniano.
Para t > 0, la función de densidad de probabilidad de X(t) es denotada
por φt (x), y está dada por:
x2
1
φt (x) = √ exp − 2 .
σ 2πt 2σ t
Dado que el movimiento browniano {X(t)}t≥0 tiene incrementos esta-
cionarios, la distribución de los incrementos X(t + s) − X(s) es la misma que
la distribución de X(t). Es decir,
X(t + s) − X(s) ∼ N (0, σ 2 t).
156
por ft|0 (x|x0 ), y es análoga a pij (t) en las cadenas de Markov de tiempo con-
tinuo (que se calcula usando las ecuaciones de Kolmogorov hacia adelante
y hacia atrás) y a pnij en las cadenas de Markov de tiempo discreto (que se
calcula usando las ecuaciones de Chapman-Kolmogorov).
Las funciones ft|0 (x|x0 ) son conocidas como las funciones de densidad
de probabilidad de transición para el movimiento browniano, y a partir
de ellas se puede calcular la siguiente probabilidad condicional:
Z u
P(X(t) ≤ u|X(0) = x0 ) = ft|0 (x|x0 )dx.
−∞
ft|0 (x|x0 ) ≥ 0
R∞
f (x|x0 )dx = 1
−∞ t|0
∂f 1 ∂ 2f
= σ2 2 .
∂t 2 ∂x
Así, única solución de la ecuación de difusión hacia atrás, bajo las condiciones
de que sea una función de densidad de probabilidad, es:
(x − x0 )2
1
ft|0 (x|x0 ) = √ exp − .
σ 2πt 2σ 2 t
157
4.6.4. Función de densidad de probabilidad conjunta de
X(t1 ), X(t2 ), . . . , X(tn )
Para t1 < t2 , sea f (x1 , x2 ) la función de densidad de probabilidad conjunta
de X(t1 ) y X(t2 ). Dado que estás dos variables no son independientes, para
encontrar su distribución conjunta se usa un método de transformación de
variables, mediante la construcción dos variables nuevas, que sean funciones
de las variables originales, y además, independientes.
Consideremos las variables aleatorias U = X(t1 ) y V = X(t2 )−X(t1 ). Por
la propiedad de incrementos independientes, estas dos variables son indepen-
dientes, entonces su función de densidad de probabilidad conjunta, digamos
gU,V (u, v) es el producto de sus funciones marginales, ambas normales. En-
tonces,
x1 = u
x2 = v + u
158
Entonces,
∂x1 ∂x1
∂u ∂v 1 0
J = = =1
∂x ∂x2 1 1
2
∂u ∂v
Luego,
x21 (x2 − x1 )2
1 1
fX1 ,X2 (x1 , x2 ) = p exp − 2 + , (4.11)
2σ 2 π t1 (t2 − t1 ) 2σ t1 (t2 − t1 )
U1 = X(t1 )
U2 = X(t2 ) − X(t1 )
..
.
Un = X(tn ) − X(tn−1 )
U1 ∼ N (0, σ 2 t1 )
Ui ∼ N (0, σ 2 (ti − ti−1 )), i = 2, . . . , n
Por tanto,
f (x1 , . . . , xn ) =
n
" !#
1 1 x21 X (xi − xi−1 )2
p exp − 2 + ,
σ n n
(2π) t1 (t2 − t1 ) · · · (tn − tn−1 ) 2σ t1 (ti − ti−1 )
i=2
159
4.6.5. Función de densidad de probabilidad de un movimien-
to browniano dada su posición antes y después
Para un movimiento browniano {X(t)}t≥0 , suponga que para t1 < t < t2 , se
sabe que X(t1 ) = x1 y que X(t2 ) = x2 . Conociendo esta información, vamos a
determinar la distribución de X(t).
Sea fX(t),X(u) (x, y) := f (x, y) la f.d.p. conjunta de las variables X(t) y X(u).
Por la expresión (4.11), (donde t1 = t, t2 = u, x1 = x y x2 = y), f (x, y) está dada
por:
2
(y − x)2
1 1 x
f (x, y) = p exp − 2 + ,
2σ 2 π t(u − t) 2σ t (u − t)
donde −∞ < x, y < ∞.
Luego,
√
2
(−x)2
1 1 x
fX(t)|X(u) (x|0) = σ 2πu p exp − 2 +
2σ 2 π t(u − t) 2σ t (u − t)
√ 2
1 x u
= 2πu p exp − 2
2σπ t(u − t) 2σ t(u − t)
2
r
1 u x u
= √ exp − 2
σ 2π t(u − t) 2σ t(u − t)
Por tanto, para t < u, la f.d.p de X(t) condicionada a que X(u) = 0 es
una distribución Normal con media 0 y varianza σ 2 t(u − t)/u. En términos de
distribuciones condicionadas, esta media se denota como:
E[X(t)|X(u) = 0, X(0) = 0] = 0,
y la varianza,
σ 2 t(u − t)
V ar[X(t)|X(u) = 0, X(0) = 0] =
u
160