Librocadenasocultasmarkov PDF

Conceptos introductorios de
Probabilidad y Procesos Estocásticos
Liliam Cardeño
Ricardo Restrepo
Alexander Valencia
Medellín, segundo semestre de 2013

Índice general
1. Introducción 5
2. Conceptos básicos de Probabilidad 9

2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2. Definiciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3. Función de probabilidad . . . . . . . . . . . . . . . . . . . . . 13
2.3.1. Axiomas de probabilidad . . . . . . . . . . . . . . . . . 14
2.3.2. Teoremas básicos . . . . . . . . . . . . . . . . . . . . . 15
2.3.3. Resultados igualmente probables . . . . . . . . . . . . 20
2.4. Métodos de conteo . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4.2. Principios de conteo . . . . . . . . . . . . . . . . . . . 23
2.4.3. Permutaciones . . . . . . . . . . . . . . . . . . . . . . . 24
2.4.4. Combinaciones . . . . . . . . . . . . . . . . . . . . . . 25
2.4.5. Fórmula de Stirling . . . . . . . . . . . . . . . . . . . . 26
2.5. Probabilidad condicional e independencia . . . . . . . . . . . . 27
2.5.1. Probabilidad condicional . . . . . . . . . . . . . . . . . 27
2.5.2. La regla de Bayes . . . . . . . . . . . . . . . . . . . . . 29
2.5.3. Independencia de eventos . . . . . . . . . . . . . . . . 30
2.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3. Variables aleatorias 36
3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2. Variables aleatorias discretas y continuas . . . . . . . . . . . . 36
3.3. Función de distribución . . . . . . . . . . . . . . . . . . . . . . 39
3.3.1. Propiedades de la función de distribución . . . . . . . . 41
3.3.2. Cálculos de probabilidades a partir de la función de
distribución . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4. Función de probabilidad de una variable aleatoria discreta . . 42
3.4.1. Esperanza de variables aleatorias discretas . . . . . . . 44
3.4.2. Varianza de variables aleatorias discretas . . . . . . . . 46
3.5. Distribuciones discretas especiales . . . . . . . . . . . . . . . . 48
3.5.1. Distribución de Bernoulli . . . . . . . . . . . . . . . . . 48
3.5.2. Distribución Binomial . . . . . . . . . . . . . . . . . . 49
3.5.3. Distribución de Poisson . . . . . . . . . . . . . . . . . . 50
3.6. Función de densidad de probabilidad . . . . . . . . . . . . . . 51
3.6.1. Propiedades de la función de densidad de probabilidad 52
3.6.2. Esperanza y varianza de variables aleatorias continuas 53
3.7. Densidades de probabilidad especiales . . . . . . . . . . . . . . 54
3.7.1. Distribución Uniforme . . . . . . . . . . . . . . . . . . 54
3.7.2. Distribución Exponencial . . . . . . . . . . . . . . . . . 56
3.7.3. Distribución Normal . . . . . . . . . . . . . . . . . . . 59
3.7.4. Distribución Chi-cuadrada (χ2 ) . . . . . . . . . . . . . 63
3.7.5. Prueba de bondad de ajuste chi-cuadrado . . . . . . . 66
4. Procesos Estocásticos 69
4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.2. Definición y ejemplos . . . . . . . . . . . . . . . . . . . . . . . 69
4.3. Cadenas de Markov . . . . . . . . . . . . . . . . . . . . . . . . 70
4.3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . 70
4.3.2. Cadenas de Markov de tiempo discreto . . . . . . . . . 71
4.3.3. Ejemplos famosos . . . . . . . . . . . . . . . . . . . . . 75
4.3.4. Ecuaciones de Chapman-Kolmogorov . . . . . . . . . . 78
4.3.5. Probabilidad inicial . . . . . . . . . . . . . . . . . . . . 81
4.3.6. Clasificación de los estados de una cadena de Markov . 83
4.3.7. Probabilidades límite . . . . . . . . . . . . . . . . . . . 86
4.3.8. Modelos ocultos de Markov . . . . . . . . . . . . . . . 90
4.3.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.4. Procesos de Poisson . . . . . . . . . . . . . . . . . . . . . . . . 102
4.4.1. Distribución de Poisson como una aproximación de la
Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . 102
4.4.2. Procesos de Poisson . . . . . . . . . . . . . . . . . . . . 103
4.4.3. Proceso de Conteo . . . . . . . . . . . . . . . . . . . . 108
4.4.4. Ejemplos de Procesos de Poisson . . . . . . . . . . . . 116
4.4.5. Características de los Procesos de Poisson . . . . . . . 116
4.4.6. Sistemas de Filas . . . . . . . . . . . . . . . . . . . . . 123
3
4.4.7. Clasificación de eventos en procesos de Poisson . . . . . 125
4.4.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . 127
4.5. Cadenas de Markov de tiempo continuo . . . . . . . . . . . . . 131
4.5.1. Ecuaciones de Kolmogorov hacia adelante y hacia atrás 134
4.5.2. Probabilidades estacionarias o de estado estable . . . . 140
4.5.3. Procesos de nacimiento y muerte . . . . . . . . . . . . 146
4.5.4. Filas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
4.5.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . 152
4.6. Movimiento Browniano . . . . . . . . . . . . . . . . . . . . . . 153
4.6.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . 153
4.6.2. Definición del movimiento browniano . . . . . . . . . . 154
4.6.3. Densidad de probabilidad condicionada al punto inicial
del movimiento browniano . . . . . . . . . . . . . . . . 156
4.6.4. Función de densidad de probabilidad conjunta de X(t1 ),
X(t2 ), . . . , X(tn ) . . . . . . . . . . . . . . . . . . . . . 158
4.6.5. Función de densidad de probabilidad de un movimiento
browniano dada su posición antes y después . . . . . . 160
4
Capítulo 1
Introducción
La Teoría de la Probabilidad nace a mediados del siglo XVII y su nacimien-

to está asociado a nombres de grandes matemáticos. Entre ellos, Huygens,
Pascal, Fermat y uno de los miembros de la familia Bernoulli. Las primeras
cuestiones acerca del tema surgieron de los juegos de azar. Este fue el tema
inicialmente tratado en la correspondencia entre Pascal y Fermat y si bien,
no se ajustaba a los intereses de los matemáticos de aquella época, allí se
dieron las bases para los conceptos fundamentales de probabilidad y la es-
peranza matemática. Estos matemáticos percibieron que a partir de un gran
número de repeticiones de eventos aleatorios, bajo las mismas condiciones,
se generaban ciertas regularidades.
Los juegos de azar y los problemas demográficos fueron el material inicial
usado en la construcción de los conceptos y métodos de la teoría de la prob-
abilidad. Así, los objetos matemáticos usados para fundamentar la teoría de
la probabilidad fueron simplemente la aritmética elemental y los métodos de
combinatoria.
El estudio sistemático de los errores de medición propios de la física fue
un impulso inicial para la creación de herramientas más sofisticadas de la
teoría de la probabilidad. Galileo Galilei (1564-1642), entre otros, hizo un
primer intento al considerar estos errores como variables aleatorias y tratando
de estimar su probabilidad de ocurrencia. Al mismo tiempo, se va desarrol-
lando la teoría de los seguros, y a partir del análisis de las leyes que rigen
algunos eventos sobre mortalidad y accidentes surgen elementos que poste-
riormente fortalecerán las aplicaciones de la probabilidad. Sin embargo, no
se puede afirmar que la teoría de la probabilidad haya sido fundada a partir
de estos problemas prácticos. Su estudio riguroso comenzó a partir de las
exploraciones de las manifestaciones del azar en fenómenos tan simples como
los de las apuestas.
Los primeros escritos formales sobre probabilidad se encuentran en parte
de la correspondencia entre Pierre de Fermat (1601-1665) y Blaise Pascal
(1623-1662) en la que estudiaron algunos problemas sobre juegos azar. Chris-
tian Huygens (1629-1695) rescató esta correspondencia y la extendió en su
obra “De ratiocinnis in ludo aleae”. En estos trabajos se dan las primeras
nociones sobre los conceptos de probabilidad y esperanza matemática, y
además, se establecen algunas de sus propiedades y formas de cálculo.
Jacob Bernoulli (1654-1705) dio un paso significativo en el desarrollo de
la probabilidad al establecer una de las leyes fundamentales de esta teoría:
La ley de los grandes números. Bernoulli, con esta ley, estableció como la
frecuencia relativa de los resultados de un experimento se estabilizan en un
único valor que es precisamente la probabilidad, cuando el experimento se
repite muchas veces, bajo las mismas condiciones.
Otra etapa importante en la elaboración de la teoría de la probabilidad
se cumplió con Abraham de Moivre (1667-1754). Él demostró que las
fluctuaciones o errores en ciertos casos presentaban un comportamiento límite
particular. Este resultado es el que conocemos como el Teorema del límite
central, cuya ley, conocida como la Normal, fue caracterizada posteriormente
por Karl Friedrich Gauss (1777-1855). Esta razón ha hecho que la Normal
sea también conocida como la Gaussiana.
Los siglos XVIII y principios del siglo XIX estuvieron marcados por un
desarrollo intenso de los conceptos de la probabilidad. Esto originó intentos
de su aplicación en áreas consideradas pseudo-científicas, como por ejemplo,
el caso del derecho, en el que algunos autores describieron una teoría basada
en la suposición de que todas las personas mienten o dicen la verdad con la
misma probabilidad. Esta clase de reducciones de las explicaciones sobre el
comportamiento humano desprestigiaron la teoría de la probabilidad y esto
hizo que muchos matemáticos dudaran de sus fundamentos.
Mientras que la teoría de la probabilidad tenía poca credibilidad en occi-
dente, en Rusia, en cambio, floreció una escuela matemática que hizo aportes
fundamentales a la consolidación de sus resultados. Entre los autores mas
reconocidos de esta escuela se encuentran Pafnuti Chebyshev (1821-1894)
6
quien generalizó la Ley de los grandes números a través de su famosa desigual-
dad; Aleksandr Liapunov (1857-1918) quien fue el primero que demostró
el Teorema del límite central para sucesiones de variables aleatorias indepen-
dientes y Andréi Márkov (1856-1922) quien extendió los dominios de la
aplicación de la Ley de los grandes números y el Teorema del límite central
al caso de las variables dependientes a través de la noción de Proceso Es-
tocástico donde el tiempo aparece representado por un número entero. En
el siglo XX esta noción fue extendida al caso en que este tiempo se puede
considerar continuo.
En este escenario, a finales del siglo XIX, la teoría de la probabilidad
y el concepto de azar se habían convertido en un tema de controversia. En
esta época, la física también entraba en una crisis que estaba amenazando
los sólidos fundamentos de la mecánica de Newton por la discusión que se
aparecía entre el determinismo y el indeterminismo.
Entre las reflexiones sobre este tema, Henri Poincaré (1854-1912) en
su obra Science et Méthode planteaba que la noción de azar no se debe
tanto a nuestro desconocimiento como a una falta de soporte empírico. Así,
comenzando el siglo XX, el azar ya estaba enmarcado en las expresiones de
interacción e interdependencia en los estudios de los fenómenos naturales.
En 1900, en París, se realizó el Segundo Congreso de Matemáticas. Al-
lí, David Hilbert (1862-1943) planteó los 23 problemas que consideraba
cruciales en las áreas de las matemáticas . Entre estos problemas, el sexto,
solicitaba encontrar una base axiomática, como ocurría con las geometrías,
para tratar las teorías físicas y los fenómenos dependientes del azar.
Muchos matemáticos se dedicaron a buscar esta axiomatización. Entre
ellos se destacó Andréi Kolmogorov (1903-1987), quien en los años 30 pre-
sentó un modelo matemático basado en la Teoría de la medida, que satisfacía
la propuesta de Hilbert.
Este desarrollo de los modelos del azar ayudó a la consolidación de otras
áreas, tales como la teoría ergódica, la teoría de la información, los procesos
estocásticos y mas recientemente, el análisis estocástico.
El análisis estocástico ha conseguido importantes resultados en las últi-
mas décadas, logrando extenderse hasta incluir el análisis matemático como
uno de sus casos particulares. Con esto se ha logrado proveer a las ciencias
7
físicas de una herramienta apta para la modelización de fenómenos como el
movimiento browniano.
Hoy, la teoría de la probabilidad es una rama de las matemáticas bien
establecida que tiene aplicaciones en muchas áreas del conocimiento. Sin
embargo, muchos de los modelos probabilísticos que se han logrado establecer
son insuficientes para describir los fenómenos de la naturaleza que se están
estudiando actualmente. Afortunadamente, aún queda mucho trabajo por
hacer.
8
Capítulo 2
Conceptos básicos de
Probabilidad
2.1. Introducción
La teoría de la probabilidad es una teoría matemática esencialmente de
naturaleza deductiva. Al igual que con la geometría euclidiana o la mecáni-
ca clásica, los teoremas se pueden deducir de un conjunto de axiomas, sin
referencia a ninguna aplicación del mundo real. Sin embargo, así como la
geometría gana claridad cuando se argumenta haciendo referencia a objetos
geométricos definidos, la teoría de la probabilidad gana cuando se relaciona
con experimentos u operaciones, ya sean reales o conceptuales de los que
pueda dar cuenta.
Los experimentos estudiados en la teoría de la probabilidad se caracteri-
zan porque su resultado no se puede determinar con certeza, sino que este es
uno de varios resultados posibles. Por ejemplo, al lanzar una moneda no se
sabe con anterioridad que resultado se va a obtener, solo se sabe que se puede
obtener uno de dos posibles resultados: cara o sello. Experimentos de este
tipo se conocen como no-determinísticos o aleatorios. Los posibles resultados
individuales se conocen como sucesos o eventos simples, o también, usando
un lenguaje geométrico, puntos.
En esta capítulo se presentan los elementos básicos para la construcción
de un modelo probabilístico que de cuenta de las posibilidades de ocurrencia
de los posibles resultados de un experimento aleatorio dado.
2.2. Definiciones
Considere un experimento aleatorio, es decir, un experimento u operación
cuyos posibles resultados no pueden predecirse con certeza, sin embargo, sí
se conoce completamente el conjunto que contiene estos posibles resultados.
El primer paso consiste en fijar este conjunto, cuyo nombre está basado en
el lenguaje geométrico. Debido a que el tratamiento de resultados se hace a
través de la teoría de conjuntos, es esta teoría la que proporciona el lenguaje
para la teoría de la probabilidad.
Definición 2.1. El espacio muestral (ing: sample space) es el conjunto
de posibles resultados del experimento aleatorio. Será denotado con la letra
S. Sus posibles resultados se llaman puntos muestrales o simplemente
puntos.
Generalmente, el interés de los resultados de los experimentos aleatorios
se centra, no simplemente en estudiar la posibilidad de obtener algún único
punto, sino en conjuntos de estos puntos que no necesariamente conforman
todo el espacio muestral.
Definición 2.2. Un evento es un subconjunto del espacio muestral, es de-
cir, un evento es un conjunto formado por puntos del espacio muestral. Los
eventos se denotan con letras mayúsculas, usualmente las primeras del alfa-
beto.
Ejemplo 2.1. Considere el experimento aleatorio que consiste en lanzar un
dado equilibrado. El espacio muestral S en este caso es el conjunto formado
por seis puntos,
S = {1, 2, 3, 4, 5, 6}.
Si hay interés en saber si el puntaje obtenido es un número par, consideramos
un evento, digamos A, definido por:
A = {2, 4, 6}.
Ejemplo 2.2. El tren metropolitano pasa por cierta estación exactamente
cada 5 minutos. Si un pasajero llega a la estación en un momento arbitrario,
medir el tiempo que debe esperar hasta que pase el tren define el espacio
muestral S dado por:
S = {t ∈ R : 0 ≤ t ≤ 5}.
En este experimento aleatorio, el conjunto F = {t : t > 3} es el evento de
que el pasajero deba esperar mas de 3 minutos hasta la llegada del tren.
10
Ejemplo 2.3. En estudios médicos es usual que las mediciones tomadas
se refieran a más de un valor. Suponga que se están tomando datos para
controlar el peso de unos pacientes adultos. A cada paciente se le mide la
estatura, el peso y la edad. En este caso el espacio muestral consiste de las
tripletas ordenadas (x, y, z) de los posibles valores de la estatura, peso y edad,
que pueden restringirse a los valores que se considera pueden obtenerse en la
población estudiada. Así, el espacio muestral podría ser:
S = {(x, y, z) : 1,00m ≤ x ≤ 2, 00m; 40kg ≤ y ≤ 200kg; z = 18, 19, . . . , 105}.
Ejemplo 2.4. Suponga que al lanzar cuatro dados, hay interés en saber
si en alguno de los dados salió el 6. En otras palabras, se quiere estudiar la
posibilidad de que el 6 salga por lo menos una vez en el lanzamiento de cuatro
dados. Para este experimento aleatorio, el espacio muestral es el conjunto
S = {(x, y, z, w) : x, y, z, w = 1, 2, . . . , 6},
y el evento de interés, digamos D, es el subconjunto de S donde una o varias

de las componentes de la cuatrupleta (x, y, z, w) es 6.
D = {(6, 2, 3, 5), (4, 6, 2, 1), (3, 6, 2, 6), (6, 6, 4, 6), (6, 6, 6, 6), . . .}.
Observe que el número de elementos de S es 64 . Ejercicio: Calcule el

número de elementos del evento D.
Definición 2.3. Ocurrencia de un evento: Considere un evento E del

espacio muestral S. Se dice que el evento E ocurrió (o hubo una realización
de E) si al realizar el experimento aleatorio el resultado obtenido fue uno de
los elementos del evento E.
Ejemplo 2.5. En el Ejemplo 2.4, si se hace el experimento de lanzar cuatro

dados y se observa que en ninguno de los dados se obtuvo el número 6, se
dice que el evento D no ocurrió.
Definición 2.4. Si un experimento aleatorio se repite un número de veces

N y se cuenta en estas N repeticiones el número de veces (o frecuencia) que
un evento E ocurre, se define la frecuencia relativa del evento E por la
fracción fE /N , donde fE denota la frecuencia o número de veces que ocurrió
el evento E.
11
Esta frecuencia relativa puede dar muchos valores de acuerdo a lo que
ocurra en las repeticiones del experimento aleatorio, sin embargo, cuando N
es suficientemente grande se puede observar que ella tiende a estabilizarse.
Esto sugiere que, asociado a cada evento E, hay un número, digamos pE ,
el cual es aproximadamente igual al valor en el que la frecuencia relativa se
“estabiliza”.
Ese número pE puede interpretarse como el valor que dará la frecuencia
relativa en un número considerable de repeticiones de futuras realizaciones
del experimento. En este sentido, pE es el valor que mas adelante va a estar
asociado a la probabilidad de ocurrencia del evento E.
En el estudio de la teoría de la probabilidad son importantes las relaciones
entre los diferentes eventos de un experimento aleatorio. Es por esta razón
que se hace necesario el uso de la notación de la teoría de conjuntos. En lo
que sigue, se supone que todos los eventos, denotados con letras mayúsculas
son subconjuntos de una espacio muestral específico S.
Subconjunto: Se dice que un evento E es subconjunto de otro evento

F si cada vez que ocurre E el evento F también ocurre. Es decir, todos
los puntos del evento E pertenecen también al evento F . Esto se denota
por E ⊆ F .
Igualdad entre dos eventos: Se dice que dos eventos E y F son

eventos iguales, lo que se denota por E = F si la ocurrencia del evento
E implica la ocurrencia del evento F y viceversa. Es decir, si E ⊆ F y
F ⊆ E.
Intersección: Un evento G es la intersección entre dos eventos E y

F si G ocurre si y solamente si E y F ocurren simultáneamente. Esto
se denota por G = E ∩ F , ó simplemente, G = EF . La intersección
entre varios eventos, digamos los eventos del conjunto {E1 , E2 , . . . , En },
es el evento que ocurre cuando T ocurren todos los eventos del conjunto
simultáneamente. En notación ni=1 Ei := E1 ∩ E2 ∩ . . . ∩ En .
Unión entre eventos: El evento H es la unión entre dos eventos si

H ocurre cuando alguno de los eventos E ó F ocurren. La notación
en este caso es H = E ∪ F . La unión también se puede definir entre
mas de dos eventos eventos. Si {E1 , E2 , E3 , . . . , En } es un conjunto de
12
eventos, se define la unión de estos eventosS
generalizando la definición
para el caso de dos eventos y se denota por ni=1 Ei := E1 ∪ E2 ∪ . . . En .
Complemento de un evento: El evento llamado complemento del

evento E (o E complemento), denotado por E c , es el evento que ocurre
siempre que E no ocurre. Es decir, son los puntos del espacio muestral
que no están en el evento E.
Diferencia entre dos eventos: El evento diferencia entre los eventos

E y F , denotado por E − F , es el evento que ocurre cuando ocurre E
pero no ocurre F , es decir, E − F = E ∩ F c . Usando esta notación, el
evento complemento de D, Dc , también se puede expresar por Dc =
S − D.
Evento seguro: Es el evento que siempre ocurre en un experimento

aleatorio dado. De aquí se deduce que el espacio muestral S es un evento
seguro.
Evento imposible: Un evento imposible es aquel del que se tiene

certeza de que no va a ocurrir. Por tanto, el conjunto vacío, ∅, es un
evento imposible. ∅ = S c .
Eventos mutuamente excluyentes: Cuando la ocurrencia de dos

eventos E y F no puede darse simultáneamente se dice que E y F
son mutuamente excluyentes. En términos de teoría de conjuntos, dos
eventos son mutuamente excluyentes si son disjuntos, es decir, si su
intersección es vacía.
Observación: Recordar las leyes de De Morgan

1. (E ∪ F )c = E c ∩ F c
2. (E ∩ F )c = E c ∪ F c
2.3. Función de probabilidad

Sea S el espacio muestral de un experimento aleatorio y C un evento de
S. A partir de la definición de la frecuencia relativa se puede intuir que el
objetivo de esta teoría es la búsqueda una función de cada evento que asigne
un valor a la posibilidad de su ocurrencia.
13
Se pretende definir una función de un evento C, denotada por P(C),
que sea el número al cual la frecuencia relativa del evento tenderá a estabi-
lizarse después de muchas réplicas del experimento aleatorio. A partir de este
planteamiento pueden deducirse varias propiedades que debe satisfacer esta
función para cumplir lo que se busca:
La frecuencia relativa no puede ser negativa. Así, la función P(C) debe

ser una función no-negativa.
La frecuencia relativa del espacio completo es siempre 1. Así, P(S) = 1.
Si C1 , C2 , . . . , Cn son eventos de S mutuamente excluyentes dos a dos, es

decir, cada par de estos eventos son mutuamente excluyentes, entonces
la frecuencia relativa de ni=1 Ci es la suma de las frecuencias
S
Sn relativas
de cada uno. Por tanto, la función de probabilidad P( i=1 Ci ) debe
reflejar esta propiedad de aditividad.
La presentación de la teoría de la probabilidad se pueden dar por difer-

entes métodos. En este curso se hará desde el punto de vista axiomático. Es
decir, presentaremos tres axiomas acerca de la función de probabilidad, en
los que se basa esta teoría y a partir de ellos todas sus posibles consecuencias
pueden ser demostradas.
2.3.1. Axiomas de probabilidad

Sea S el espacio muestral de un experimento aleatorio dado. Existe una
función P tal que para cada evento C de S, si se evalúa en C toma una valor
real P(C) que cumple los siguientes axiomas:
1. P(C) ≥ 0.
2. P(S) = 1.
3. Si {C1 , C2 , . . .} es una sucesión de eventos mutuamente excluyentes dos

a dos (es decir, Ci ∩ Cj = ∅, para todo i 6= j, i, j = 1, 2, . . .), entonces,
∞
! ∞
[ X
P Ci = P(Ci ).
i=1 i=1
14
A la función P(.) se le llama función de probabilidad y al valor P(C) se
le llama probabilidad de C .
Observaciones:
En el Axioma 1 se establece que no es posible tener un evento cuya

probabilidad sea negativa, mientras que el Axioma 2 establece que el
resultado del experimento aleatorio será un punto del espacio muestral
S con probabilidad 1. En realidad, este segundo axioma es un acuerdo
para garantizar que la probabilidad sea un número limitado. Podría
haberse establecido que P(S) = 100, e interpretar las probabilidades
como porcentajes, como muchos autores lo hacen, y la teoría también
funcionaría bien.
El Axioma 3 establece la aditividad de las probabilidades de una colec-

ción infinita y contable de eventos mutuamente excluyentes. Entre los
resultados de estos axiomas, se mostrará que esta propiedad se cumple
también para una colección finita de eventos mutuamente excluyentes.
2.3.2. Teoremas básicos

A partir de las definiciones básicas y los axiomas de la función de proba-
bilidad se pueden derivar varios resultados.
Primero se establece que la probabilidad del complemento del espacio
muestral es cero.
Teorema 2.1. La probabilidad del conjunto vacío, ∅, es 0. En símbolos,

P(∅) = 0.
Prueba: El espacio muestral S se puede escribir como la unión infinita de los

eventos en la colección {S, ∅, ∅, . . .}.
Como estos eventos son mutuamente excluyentes dos a dos, se tiene que:
P(S) = P(S ∪ ∅ ∪ ∅ ∪ . . .)
X∞
= P(S) + P(∅).
i=2
15
P∞
Entonces, i=2 P(∅) = 0, y esto es posible sí y solamente sí,
P(∅) = 0.

El siguiente teorema muestra la validez del Axioma 3 para colecciones
finitas de eventos mutuamente excluyentes.
Teorema 2.2. Sea {C1 , C2 , . . . , Cn } una colección finita de eventos mutua-

mente excluyentes dos a dos. Entonces,
n
! n
[ X
P Ci = P(Ci ).
i=1 i=1
Prueba: Si a la colección {C1 , C2 , . . . , Cn } se le adjunta la colección de eventos

{Cn+1 , Cn+2 , . . .} donde Ci = ∅, para todo i > n, se tiene que
{C1 , C2 , . . .},
es una colección de infinitos eventos mutuamente excluyentes dos a dos.

Usando el Axioma 3 en esta colección se obtiene:
n
! ∞
!
[ [
P Ci = P Ci
i=1 i=1
∞
X
= P(Ci )
i=1
n
X ∞
X
= P(Ci ) + P(∅)
i=1 i=n+1
Xn
= P(Ci )
i=1
donde la última igualdad se obtuvo usando el Teorema 2.1.

El corolario del Teorema 2.2 que se presenta a continuación, es muy útil
para hacer cálculos de probabilidades. Observe como, en su demostración, se
usa el teorema para el caso n = 2.
16
Corolario 2.1. Para cada evento A del espacio muestral S,
P(Ac ) = 1 − P(A).
Prueba: El espacio muestral S se puede escribir como la unión de los dos

eventos mutuamente excluyentes A y Ac , S = A ∪ Ac .
Entonces,
P(S) = P(A ∪ Ac ). (2.1)
Como A y Ac son eventos mutuamente disjuntos, usando el Teorema 2.2, el

lado derecho de la ecuación (2.1) se puede escribir como una suma
P(A ∪ Ac ) = P(A) + P(Ac ).
Además, del Axioma 2, el lado izquierdo (2.1) es igual a 1. Por tanto,
1 = P(A) + P(Ac ).
Ejemplo 2.6. Considere el espacio muestral S = {1, 2, 3} y los eventos

A = {1}, B = {2} y C = {3}. Si se conocen las probabilidades P(A) = 0,25
y P(B) = 0,45, se puede calcular la probabilidad del evento C así:
P(C) = 1 − P(C c )
= 1 − P({1, 2})
= 1 − P(A ∪ B)
= 1 − (P(A) + P(B))
= 1 − (0,25 + 0,45)
= 0,3.
Ejemplo 2.7. Cuando se lanza un dado equilibrado, el espacio muestral es

S = {1, 2, 3, 4, 5, 6}, y los seis valores posibles tienen igual probabilidad de
ser obtenidos. Es decir,
P({1}) = P({2}) = P({3}) = P({4}) = P({5}) = P({6}).
17
Entonces,
P(S) = P({1}) + P({2}) + P({3}) + P({4}) + P({5}) + P({6})

= 6P({1}),
y como, P(S) = 1, despejando a P({1}), se tiene que

1
P({1}) = .
6
Entonces,
1
P({1}) = P({2}) = P({3}) = P({4}) = P({5}) = P({6}) = .
6
Una implicación interesante de la forma en que se escribió el espacio

muestral en la prueba del Teorema 2.1 es que, para cualquier evento A del
espacio muestral S, P(A) ≤ 1.
En efecto, como ambos sumandos de la igualdad P(A) + P(Ac ) = 1 son
valores no-negativos (Lema 1), se puede concluir que P(A) ≤ 1.
Corolario 2.2. Sea S un espacio muestral. Si A es un cualquier evento de
S, A ⊆ S, 0 ≤ P(A) ≤ 1.
Observación: Una herramienta útil en para probar algunos de los resulta-
dos siguientes y para hacer cálculos de probabilidades, consiste en dividir el
evento que se está estudiando en subconjuntos mutuamente excluyentes.
Ejemplo 2.8. Suponga que se sabe, acerca de los eventos A y B, que la
probabilidad de su intersección es P(A ∩ B) = 1/3 y que la probabilidad
de su unión es P(A ∪ B) = 2/3. ¿Es posible, conociendo solamente esta
información, determinar la probabilidad P(A) + P(B)?
Observe que A y B son dos eventos que no son mutuamente excluyentes
(¿Porqué? ). Entonces no es posible aplicar directamente la aditividad del
Axioma 3, en P(A ∪ B).
Sin embargo, A ∪ B se puede separar en tres eventos mutuamente ex-
cluyentes, así: (sugerencia: intente representarlo con diagramas de Venn)
A ∪ B = (A − B) ∪ (A ∩ B) ∪ (B − A).
18
Entonces,
P(A ∪ B) = P(A − B) + P(A ∩ B) + P(B − A). (2.2)
De modo similar, tanto el evento A como el evento B, se pueden separar en
eventos disjuntos:
A = (A − B) ∪ (A ∩ B) y B = (B − A) ∪ (A ∩ B)
Lo que implica que,
P(A) = P(A − B) + P(A ∩ B) y P(B) = P(B − A) + P(A ∩ B)
Si se sustituyen estas dos últimas igualdades en (2.2) se obtiene que:
2 1
P(A) + P(B) = + =1
3 3
Los cálculos realizados en este último ejemplo se pueden generalizar para
mostrar el siguiente resultado.
Teorema 2.3. Si A y B son dos eventos cualesquiera (no necesariamente

mutuamente disjuntos), entonces,
P(A ∪ B) = P(A) + P(B) − P(A ∩ B).
Teorema 2.4. Si A y B son dos eventos tales que A ⊆ B, entonces,
P(B − A) = P(B ∩ Ac ) = P(B) − P(A).
Prueba: Si A ⊆ B, el evento B se puede expresar como unión de eventos

mutuamente excluyentes, así:
B = A ∪ (B − A).
Entonces, P(B) = P(A) + P(B − A). Lo que implica que
P(B − A) = P(B) − P(A).
Corolario 2.3. Si A ⊆ B, entonces, P(A) ≤ P(B).
19
Prueba: Como P(B − A) ≥ 0, del Teorema 2.4 se tiene que P(B) − P(A) ≥ 0.
Por tanto, P(B) ≥ P(A).
Ejemplo 2.9. Sean A y B dos eventos de un mismo espacio muestral ¿Será

posible tener una asignación de probabilidades para estos dos eventos donde
P(A) = 1/2, P(B) = 1/4 y P(A ∩ B) = 1/3?
Si se tiene en cuenta que siempre se cumple que A ∩ B ⊆ B, no puede
darse que P(A ∩ B) sea mayor que P(B) como está planteado en la pregunta.
Entonces, claramente, la respuesta es NO.
2.3.3. Resultados igualmente probables

En muchos experimentos aleatorios que tienen un número finito de posi-
bles resultados, es natural asumir que todos sus posibles resultados tienen
igual probabilidad de ocurrencia. Si bien, esto no siempre ocurre, cuando es
posible asumirlo, se tiene un tipo de experimentos que son, generalmente, los
más fáciles de analizar. El lanzamiento de una moneda, o el de un dado, son
ejemplos de estos experimentos.
Considere situaciones en las que el espacio muestral S es un conjunto
finito, digamos,
S = {a1 , a2 , . . . , aN }.
Si se asume que estos N puntos son equiprobables, es decir, tienen igual
probabilidad de ocurrencia, P({a1 }) = P({a2 }) = . . . = P({aN }) y usando
los Axiomas 2 y 3, se tiene que,
1
P({ai }) = , i = 1, 2, . . . , N.
N
A partir de esta ecuación, si A es un evento de un espacio muestral con
puntos equiprobables,
número de puntos en A card(A)
P(A) = = ,
número de puntos en S N
donde, card(A) denota el cardinal, o número de puntos, del evento A.
En palabras, si se asume que los resultados del experimento aleatorio
son igualmente probables, la probabilidad de cualquier evento E es igual al
20
número de casos favorables al evento, dividido el número total de casos en el
espacio muestral.
Ejemplo 2.10. Al lanzar un dado equilibrado, el espacio muestral obtenido

es S = {1, 2, . . . , 6}. Si se busca la probabilidad de que salga un número par,
el evento que se está considerando es A = {2, 4, 6}, y la probabilidad de A
es:
3 1
P(A) = = .
6 2
Ejemplo 2.11. Se selecciona al azar un número entero entre el 100 y el

999, inclusive. Determine la probabilidad de que entre los dígitos del número
seleccionado, aparezca el 1 por lo menos una vez, como ocurre en los números
101, 191, 261, 111.
El espacio muestral de este experimento es
S = {100, 101, 102, . . . , 997, 998, 999}, con card(S) = 900.
El evento considerado en este caso es
A = {100, 101, 102, . . . , 901, 911, . . . , 981, 991},
pero no es tan simple calcular el cardinal de A. Una estrategia que puede

ayudar para encontrar este número es considerar el complemento del evento
A. Es decir, consideremos el evento de que un número entero de tres dígitos
no tenga al dígito 1 entre ellos.
Así, el evento Ac está formado por los enteros de tres dígitos donde el
primero de estos puede ser un número desde el 2 hasta el 9 (8 posibilidades);
el segundo dígito puede ser un número desde el 2 hasta el 9 o puede ser el
0 (9 posibilidades) y el tercer dígito tiene el mismo número de posibilidades
que el segundo (9 posibilidades).
Entonces, el card(Ac ) = 8 × 9 × 9 = 648, y de aquí se tiene que,
P(Ac ) = 648/900 = 0,72.
Por tanto,
P(A) = 1 − 0,72 = 0,28
21
No siempre si el espacio muestral es finito se cumple que sus resultados
son equiprobables. Por esta razón, la suposición de que los resultados del
experimento aleatorio sean equiprobables siempre debe ser verificada con
cuidado.
Ejemplo 2.12. Se lanzan dos dados equilibrados y se está observando la

suma de los puntajes obtenidos.
Para este caso, el espacio muestral es:
S = {2, 3, . . . , 11, 12}, con card(S) = 11.
Sin embargo, se puede observar, posiblemente realizando este experimento

muchas veces, que casos como el 6 o el 7 no tienen la misma probabilidad de
ocurrencia que el 2 o el 12.
Si hay interés, por ejemplo, en calcular la probabilidad de que la suma de
los puntajes obtenidos sea superior a 8, es decir, obtener 9, 10, 11 o 12, no
es correcto usar la fracción 4/11, porque estos puntajes no son equiprobales.
Para evitar esto, se puede considerar el espacio muestral de los posibles
pares obtenidos al lanzar dos dados, sin sumarlos todavía. Así, el nuevo es-
pacio muestral, que se puede denotar con S 0 para diferenciarlo de S, es:
S 0 = {(1, 1), (1, 2), . . . , (4, 5), (5, 4), . . . , (6, 5), (6, 6)}
= {(x, y) : x = 1, 2, . . . , 6; y = 1, 2, . . . , 6}.
En este caso, card(S 0 ) = 6 × 6 = 36, y estos 36 resultados son equiprobables.

El evento A en el que se cumple que la suma de los puntajes sea superior
a 8 es:
A = {(x, y) : x = 1, 2, . . . , 6; y = 1, 2, . . . , 6; x + y > 8}
= {(3, 6), (6, 3), (4, 5), (5, 4), (4, 6), (6, 4), (5, 5), (5, 6), (6, 5), (6, 6)}.
Por tanto, la probabilidad de que la suma de los puntajes obtenidos al

lanzar dos dados es superior a 8 es:
card(A) 10
P(A) = 0
= ≈ 0,28.
card(S ) 36
22
2.4. Métodos de conteo
2.4.1. Introducción
En muchas aplicaciones de la probabilidad, los espacios muestrales de los
experimentos son finitos y sus puntos son igualmente probables. En estos
casos, como vimos en la sección anterior, la probabilidad de cualquier evento
se determina a partir de la división del número de elementos del evento y el
número de elementos del espacio muestral. Es por esto que, para determinar
probabilidades en este tipo de espacios muestrales se hace necesario aprender
a contar el número de elementos que tiene los eventos que se están estudian-
do. Infortunadamente, no existe una técnica general que pueda aplicarse a
todos los problemas de conteo. El caso mas desfavorable sería hacer una lista
completa de todos los elementos y contarlos, pero esto no siempre es posible.
En esta sección, se estudian algunas de las técnicas mas usuales para con-
tar de una forma sistemática. Las técnicas de conteo se estudian en una de
las ramas formales de la matemáticas que más aplicaciones tiene en la actual-
idad: La combinatoria. Esta tiene aplicaciones, no solo en la Probabilidad
y en la Estadística, sino también, en muchas otras áreas, como la Teoría de
información, la Programación lineal, los Problemas de transporte y la teoría
de Grupos.
2.4.2. Principios de conteo

El primer resultado que se presenta es fundamental en casi todos los
cálculos que se harán posteriormente.
Teorema 2.5. (Principio multiplicativo de conteo) Suponga que se

deben realizar dos dos experimentos. Si el primer experimento puede resultar
en uno de m resultados y si, para cada resultado del primer experimento, hay
n posibles resultados del segundo experimento, entonces al realizar el primer
experimento y después el segundo, hay mn posibles resultados de los dos ex-
perimentos.
Ejemplo 2.13. Suponga que m y n se eligen aleatoriamente de los conjuntos

{1, 2, 3, 4, 5} y {6, 7, 8, 9}, respectivamente. ¿De cuántas maneras es posible
obtener un número par en el producto mn?
23
Teorema 2.6. (Principio multiplicativo de conteo generalizado) Sean
E1 , E2 , . . . , Ek conjuntos con n1 , n2 , . . . , nk elementos, respectivamente. En-
tonces, hay n1 × n2 × . . . × nk maneras en las que se puede, primero, escoger
un elemento de E1 , después un elemento de E2 , después un elemento de E3 ,
y así sucesivamente, hasta elegir un elemento de Ek .
Ejemplo 2.14. ¿De cuántas formas se pueden acomodar tres libros en un
estante?
Ejemplo 2.15. A un grupo de personas se les hizo una encuesta en las que
se les preguntó sexo (Femenino o Masculino), estado civil (Soltero, Casa-
do, Viudo, Divorciado, Unión libre) y nivel educativo (Alto, Medio, Bajo.
¿De cuántas formas se pueden clasificar las personas que respondieron a la
encuesta?
Ejemplo 2.16. (Paradoja de los cumpleaños) Suponga que hay 30 per-
sonas en una sala. Determine la probabilidad de que al menos dos de ellas
tengan la fecha de cumpleaños el mismo día. Determine la misma probabili-
dad para un grupo de 23 personas.
Ejemplo 2.17. Se van a formar números de tres cifras, que no comiencen
por 0, usando los dígitos 0, 1, 2, 3, 4 y 5.
Si se pueden repetir los dígitos, ¿cuántos de ellos son pares?
Si no se pueden repetir los dígitos, ¿cuántos de ellos son pares?
2.4.3. Permutaciones
Definición 2.5. Se llama permutación de r símbolos tomados de un con-
junto de tamaño n, a un arreglo de esos r objetos en un orden definido. El
número de permutaciones de estos r objetos elegidos de n posibles se denota
por n Pr
Ejemplo 2.18. ¿De cuántas formas se pueden organizar las 5 vocales? ¿Cuán-
tas placas se pueden hacer con tres vocales? (se supone que la placa es difer-
ente si el orden de las vocales cambia).
Ejemplo 2.19. Si cinco hombres y cinco mujeres se van a sentar en una fila
de un teatro, ¿cuál es la probabilidad de que ninguno quede a lado de otro
del mismo sexo?
24
Ejemplo 2.20. Un grupo de seis adultos, conformado por tres parejas de
casados, van juntos a una obra de teatro. ¿Cuál es el número de maneras
que pueden organizarse en una fila de seis sillas contiguas, si las parejas de
casados deben sentarse juntas?
Ejemplo 2.21. Una permutación con objetos indistinguibles ¿De cuán-
tas arreglos se pueden hacer usando todas las letras de la palabra TITIRIBI?
Teorema 2.7. El número de permutaciones distinguibles con n objetos de k
clases diferentes, donde n1 son iguales, n2 son iguales, . . ., nk son iguales y
n = n1 + n2 + . . . + nk , es
n!
.
n1 !n2 ! . . . nk !
2.4.4. Combinaciones
Definición 2.6. Un arreglo no-ordenado de r objetos tomados de un con-
junto de n objetos (r ≤ n) es llamado una combinación de n elementos
tomando r a la vez.
El número de combinaciones de n objetos tomados de a r se denota por
n

n Cr , o usualmente por r (se lee n tomados de a r). Se puede mostrar que:

n n Pr n!
n Cr = = = .
r r! (n − r)!r!
Ejemplo 2.22. Entre 10 alumnos de un colegio, 6 niños y 4 niñas se va a
elegir un equipo con 5 de ellos para jugar baloncesto.
¿Cuántos equipos diferentes pueden formarse con estos alumnos, si el
equipo debe estar conformado por 3 niñas y 2 niñas?
Si uno de estos alumnos es Michael Jordan, ¿cuántos equipos diferentes
se pueden formar, con las mismas condiciones descritas en el item an-
terior, que incluyan a Jordan?
Observación: Se puede probar algebraicamente que:

n n n n
= =1 y = = n.
0 n 1 n−1
También, si 0 ≤ r ≤ n,

n n n+1 n n
= y = + .
r n−r r r r−1
25
Ejemplo 2.23. En cierta ciudad, a 100 personas elegidas al azar se les pre-
guntó si estaban satisfechas con la gestión del alcalde. La respuesta de 60 de
ellas fue de insatisfacción y el resto estaban satisfechas. Si cinco personas,
digamos a, e, i, o, u, respondieron a esta encuesta, ¿cuál es la probabilidad
de que las cinco pertenezcan al grupo de las que respondieron que estaban
satisfechas?
Hay 100

40
posibles grupos de personas en las que todas respondieron que
estaban satisfechas con la gestión del alcalde. Si cinco de estas personas
son a, e, i, o, u, hay otras 35 que también estaban satisfechas. Entonces, la
probabilidad pedida es:
95

35
100

40
Ejemplo 2.24. Caminos en el plano cartesiano y su relación con el triángulo

de Pascal. También, la relación del triángulo de Pascal con el número de
elementos de un conjunto.
Teorema 2.8. (Expansión binomial) Para cualquier entero n ≥ 0,

n
n
X n
(x + y) = xn−i y i .
i=0
i
Ejemplo 2.25. Evalúe la suma:

n n n n n
+ + + + ... +
0 1 2 3 n
Teorema 2.9. (Número de subconjuntos de un conjunto) Un conjunto

con n elementos tiene 2n subconjuntos.
2.4.5. Fórmula de Stirling

La fórmula que se muestra en el siguiente resultado es usada para aprox-
imar n! cuando n es grande y fue desarrollada por James Stirling (1692-
1770).
26
Teorema 2.10. (Fórmula de Stirling)
√
n! ∼ 2πn nn e−n
donde la notación an ∼ bn significa que

an
lı́m = 1.
n→∞ bn
2.5. Probabilidad condicional e independencia

2.5.1. Probabilidad condicional
El concepto de probabilidad condicional es útil cuando se deben calcular
probabilidades de eventos de los que se tiene alguna información adicional
apriori.
Ejemplo 2.26. Suponga que se lanzan dos dados equilibrados. Cada uno de
los 36 resultados posibles tiene probabilidad de ocurrencia igual a 1/36. Así,
para calcular, por ejemplo, la probabilidad de que la suma de los puntajes
sea 5, se suman las probabilidades de los eventos simples (1, 4), (4, 1), (2, 3)
y (3, 2). Es decir, la probabilidad de obtener 5 en la suma de los puntajes de
los dos dados es 4/36.
Suponga, además, que ya se sabe que en uno de los dados salió el 2. Si
se tiene en cuenta esta información, el espacio muestral queda restringido
solamente a 11 posibles resultados:
S 0 = {(2, 1), (1, 2), (2, 2), (2, 3), (3, 2), (2, 4), (4, 2), (2, 5), (5, 2), (2, 6), (6, 2)},
todos igualmente probables. Por tanto, la probabilidad de cada uno es 1/11.

Ahora, para calcular la probabilidad de que la suma de los puntajes sea 5
solo se deben sumar las probabilidades de los eventos simples (2, 3) y (3, 2).
Es decir, si se tiene la información de que en uno de los dados salió el 2,
la probabilidad de que la suma de los puntajes sea 5 es 2/11, un resultado
diferente al obtenido cuanto no se tenía información apriori.
Las probabilidades en las que se usa información conocida, como las cal-
culadas en el ejemplo, se conocen como Probabilidades condicionales. Si
27
B es el evento del que se tiene información, conocer que B ocurrió, puede
afectar la probabilidad de otro evento A del mismo espacio muestral.
La Probabilidad condicional de un evento A conociendo que B ocurrió
se denota por P(A|B) y se lee “probabilidad de A dado que B ocurrió”, o
simplemente “la probabilidad de A dado B”.
Para calcular P(A|B) se debe observar que con la información adicional
de que el evento B ya ocurrió se restringe el espacio muestral a uno nuevo: el
espacio en el que B ocurre, cuyo cardinal es card(B). Además, si B ocurre,
para calcular la probabilidad de ocurrencia del evento A se deben tener en
cuenta los puntos en los A y B ocurren simultaneamente. Así, cuando el
espacio muestral es equiprobable, se tiene que
card(A ∩ B)
P(A|B) = .
card(B)
En el caso general, se tiene la siguiente definición.
Definición 2.7. Si P(B) > 0,
P(A ∩ B)
P(A|B) = .
P(B)
Ejemplo 2.27. Suponga que en una urna hay 5 bolas amarillas y 4 bolas
verdes. Si se sacan dos bolas de esta urna, una a una, y sin reemplazar la
primera antes de sacar la segunda, ¿cuál es la probabilidad de que ambas
bolas sean verdes?
Observación: Las siguientes son algunas propiedades de la probabilidad

condicional que pueden probarse usando las propiedades que hereda de la
probabilidad clásica o simplemente a partir de su definición.
1. P(A|A) = 1.
2. Si A ∩ B = ∅ entonces P(B|A) = 0.
3. P(B ∩ C|A) = P(B|A ∩ C)P(C|A), si P(A ∩ C) > 0.
4. P(Ac |B) = 1 − P(A|C).
28
2.5.2. La regla de Bayes
Definición 2.8. El conjunto de eventos {B1 , B2 , . . . , Bk }, tomados de un
espacio muestral S, es una Partición de S si Bi ∩ Bj = ∅, para todo i 6= j
y B1 ∪ B2 ∪ . . . ∪ Bk = S, para todos los eventos Bi tales que P(Bi ) > 0.
Los siguientes dos resultados, hacen uso de las probabilidades condi-
cionales y son de suma importancia en las aplicaciones.
Teorema 2.11. (Teorema de la probabilidad total) Sea {B1 , B2 , . . . , Bk }
una partición del espacio muestral. Entonces, para cualquier evento D del
espacio muestral, se satisface que
k
X
P(D) = P(D|Bi )P(Bi ).
i=1
Ejemplo 2.28. En un almacén venden camisas de tres proveedores distin-

tos. Entre las camisas que venden, el 50 % son del proveedor 1, el 20 % del
proveedor 2 y el resto del proveedor 3. Se sabe que el 15 % de las camisas
producidas por el proveedor 1 son defectuosas, y lo mismo ocurre con el 12 %
y 40 % de los proveedores 2 y 3, respectivamente. Si se elige al azar una de las
camisas de este almacén, ¿cuál es la probabilidad de que esta sea defectuosa?
Como corolario del Teorema de la probabilidad total se obtiene un resulta-

do conocido como el Teorema de Bayes, o la Regla de Bayes. Este constituye
la base de una teoría estadística muy importante conocida como la Estadís-
tica Bayesiana.
Corolario 2.4. (Regla de Bayes) Sea {B1 , B2 , . . . , Bk } una partición del
espacio muestral. Entonces, para todo evento D del espacio muestral, tal que
P(D) > 0,
P(D|Bj )P(Bj )
P(Bj |D) = Pk .
i=1 P(D|Bi )P(Bi )
Prueba:
P(D ∩ Bj )
P(Bj |D) =
P(D)
P(D|Bj )P(Bj )
=
P(D)
P(D|Bj )P(Bj )
= Pk ,
i=1 P(D|Bi )P(Bi )
29
donde el último denominador se obtuvo usando el Teorema de la probabilidad
total.
Ejemplo 2.29. Usando los datos del Ejemplo 2.28, suponga que se tomó una
camisa cualquiera de este almacén y se encontró que era defectuosa. ¿Cuál
es la probabilidad de que esta camisa haya sido obtenida del proveedor 3?
2.5.3. Independencia de eventos

Algunas veces, la ocurrencia de un evento B no afecta la probabilidad de
ocurrencia de un evento A, es decir,
P(A|B) = P(A).
En este caso, se dice que el evento A es independiente del evento B.

Observe, que para aplicar esta definición, se debe cumplir que P(B) > 0.
Para evitar esto, se asume que la definición de independencia de eventos es
la siguiente:
Definición 2.9. (Eventos independientes) Dos eventos A y B son inde-

pendientes, si y sólo si,
P(A ∩ B) = P(A)P(B).
En caso contrario, se dice que los eventos son dependientes.
Ejemplo 2.30. Se lanzan dos dados equilibrados. Considere los siguientes

dos eventos.
A:= En uno de los dados salió el 3.
B:= La suma de los dos puntajes de los dados es menor o igual a 6.
¿Son A y B independientes?
Los eventos A, B y A ∩ B por extensión son:
30
A = {(1, 3), (3, 1), (2, 3), (3, 2), (3, 3), (4, 3), (3, 4),
(5, 3), (3, 5), (6, 3), (3, 6)}
B = {(1, 1), (1, 2), (1, 3), (1, 4), (1, 5),
(2, 1), (2, 2), (2, 3), (2, 4),
(3, 1), (3, 2), (3, 3),
(4, 1), (4, 2),
(5, 1)}
A ∩ B = {(1, 3), (3, 1), (2, 3), (3, 2), (3, 3)}
11 15 5
P(A) = , P(B) = P(A ∩ B) = .
36 36 36
Como P(A ∩ B) 6= P(A)P(B), A y B son dependientes.
Observación: Un error, que a menudo se comete, es concluir que los

eventos son independientes cuando ellos son mutuamente excluyentes. Cuan-
do dos eventos son mutuamente excluyentes, su intersección es vacía y la
probabilidad de su intersección es 0, que no es el producto de las probabili-
dades de sus eventos, a menos que alguno de ellos sea el evento vacío.
2.6. Ejercicios
1. Se carga un dado de manera que los números pares tienen el doble de
probabilidad de salir que los impares. Si se lanza una vez, cuál es la
probabilidad de obtener un número primo?
2. Cuatro cartas dirigidas a cuatro individuos distintos, A, B, C y D,

se introducen al azar en cuatro sobres . Cada sobre tiene escrita la
dirección de uno de ellos.
a) Describe el espacio muestral y dibuja un diagrama de árbol que

recoja todos los resultados posibles.
b) Encuentra los resultados del experimento que forman parte de los
siguientes sucesos y calcula su probabilidad:
31
La carta dirigida a A está en el sobre correcto.
La carta dirigida a A está en el sobre correcto y las demás no.
Sólo hay una carta en el sobre correcto.
Hay dos cartas o más que están en el sobre correcto.
3. Los sucesos A y B de un experimento aleatorio verifican que A ⊂ B.

Expresa las probabilidades P (A ∪ B), P (B ∩ B) y P (B − A) en función
de P (A) y P (B).
4. Si A y B son dos sucesos tales que P (A) = 3/8, P (B) = 1/4 y P (A ∩

B) = 1/8, calcula P (Ac ∩ B c ).
5. Suponga que los números m y n se eligen aleatoriamente de los conjun-

tos {1, 2, 3, 4, 5} y {6, 7, 8, 9}, respectivamente. La probabilidad de que
m.n sea par es:
a) 1/5
b) 5/9
c) 2/5 + 2/4
d ) 7/10
6. Considere el conjunto S = {1, 2, 3, 8, 9} y sea M el conjunto de números

con tres dígitos distintos que pueden formarse con los elementos del con-
junto S. Si se escoge al azar un elemento de M , cuál es la probabilidad
de que sea múltiplo de 3?
7. En un juego electrónico se genera una clave 6 caracteres para cada

usuario, alternando letras y números. La clave se genera de acuerdo a
las siguientes reglas:
No se pueden repetir caracteres.

Siempre comienza con un letra.
El dígito que sigue de una vocal es siempre un número primo.
El dígito que va después de una consonante siempre es par.
Determine el número de claves que pueden generarse usando las letras

a, b y c en cualquier orden.
32
8. Un carpintero toma un cubo sólido de madera de lado 10 cm, que tiene
sus caras pintadas de rojo y lo divide en cubos de lado 2 cm. Si se elige
al azar uno de los cubos de lado 2 cm, cuál es la probabilidad de que
solamente tenga dos caras pintadas de rojo?
9. En una urna hay 13 fichas amarillas, numeradas de 1 a 13; 17 fichas

rojas, numeradas de 1 a 17; y 19 fichas azules, numeradas de 1 a 19.
Se sacan al azar tres fichas de esta urna de una sola vez. Calcule la
probabilidad de que las tres fichas retiradas sean de colores diferentes
y tengan números iguales.
10. En un concierto hay 1500 espectadores y se va a rifar un premio entre

los cumplan años cierto mes. Cuál es el valor de k mas probable para el
que se pueda hacer la siguiente afirmación:“Por lo menos k espectadores
cumplen años este mes” ?
a) 2
b) 75
c) 76
d ) 125
e) 126
11. Se toman al azar dos números distintos del conjunto de números nat-
urales entre 1 y 20. La probabilidad de que el producto de los dos
números obtenidos sea par es:
a) 1/2
b) 1/3
c) 29/38
d ) 9/38
e) 1
12. Con los dígitos del 1 al 9 se forma un número de cuatro cifras distintas.
La probabilidad de que ese número sea menor que 4000 es:
a) 1/3
b) 2/3
33
c) 5/6
d ) 5/8
e) 4/54
13. En una urna hay una ficha con el número 1, dos fichas con el número
2, tres fichas con el número 3, . . ., cien fichas con el número 100. Si se
escoge al azar una de estas fichas, la probabilidad de el número elegido
sea par es:
a) 2/3
b) 51/100
c) 1/2
d ) 51/101
e) 50/101
14. Diez personas, entre las que se encuentran David y Goliat, se dividen,
al azar, en dos grupos de cinco personas cada uno. La probabilidad de
que David y Goliat queden en el mismo grupo es:
a) 1/21
b) 4/9
c) 1/3
d ) 2/9
e) 1/9
15. La probabilidad de que el tiempo en un día sea igual al del día anterior
es 2/3. Si ayer hizo calor, la probabilidad de que mañana haga calor es:
a) 4/9
b) 2/3
c) 8/9
d ) 5/9
e) 7/9
16. Cuál de las siguientes igualdades es la única verdadera?
34
a) P (A|B) + P (A|B c ) = 1
b) P (A|B) = P (Ac |B c )
c) P (A|B) + P (Ac |B) = 1
d ) P (A|B) + P (Ac |B c ) = 1
17. Es posible tener una asignación de probabilidad tal que: P (A) = 1/2,
P (A ∩ B) = 1/3 y P (B) = 1/4?
18. Una urna contiene 8 bolas blancas y 4 bolas negras. Se sacan dos bolas
una a una y con reemplazamiento. Sea A el evento: la primera bola ex-
traída es blanca; y B el evento: al menos una de las dos bolas extraídas
es blanca. Calcular P (A ∩ B), P (A ∩ B c ), P (Ac ∩ B), P (Ac ∩ B c ).
19. Sean A y B dos eventos tales que P (A) = 1/4, P (B|A) = 1/2 y
P (A|B) = 1/4. De las siguientes afirmaciones, la única falsa es:
a) A ⊂ B
b) A y B son independientes.
c) Ac y B c son independientes.
d ) P (Ac |B c ) = 3/4
20. Una caja tiene 20 bolas, indistinguibles al tacto, numeradas del 1 al

20. Las bolas con números del 1 al 10 son de color naranja y las bolas
con números del 11 al 20 son de color gris. Se realiza el experimento
aleatorio de retirar dos de estas bolas de la caja sucesivamente, sin
reponer la primera bola que sacó cuando se saca la segunda.
a) Determine la probabilidad de que las dos bolas retiradas de la caja

sean del mismo color.
b) Para el mismo experimento aleatorio, considere los tres siguientes
eventos:
A: La primera bola retirada es naranja.
B: La segunda bola retirada es gris.
C: El número de la segunda bola retirada es par.
Calcular el valor de la probabilidad P((B ∩ C)|A). (R/ 5/19)
35
Capítulo 3
Variables aleatorias
3.1. Introducción
Una variable aleatoria es cualquier función que asigna un valor numérico
a los eventos del espacio muestral.
3.2. Variables aleatorias discretas y continuas

Definición 3.1. Considere un experimento aleatorio con espacio muestral S.
Una función de valor real X : S → R se dice que es una variable aleatoria
(abrv. a.v.)si, para cada intervalo I ⊂ R, {s : X(s) ∈ I} es un evento, es
decir, X es una función que asigna a cada evento de S un valor real.
El espacio de la variable X es el conjunto de números reales A definido
por:
A = {x ∈ R : x = X(c), c ∈ S}.
Cuando el espacio muestral está formado por números reales, se puede

definir la variable aleatoria X(c) = c y A = S.
Sea A ⊆ A, como se usa la terminología “el evento C de S”, se puede
hablar del evento A así:
P(X ∈ A) = P(C) donde C = {c ∈ S : X(c) ∈ A}.
Notación: P(X ∈ A) = PX (A) = P(C) donde C = {c ∈ S : X(c) ∈ A}.

Se puede observar que, una variable X es una función que lleva (o trans-
porta) la probabilidad de un epacio muestral S a un espacio A de los números
reales.
En este sentido, con A ⊆ A, la probabilidad PX (A) es conocida como la
probabilidad inducida por la variable aleatoria X.
Ejemplo 3.1. Se lanza una moneda dos veces. Estamos interesados en el

número de caras que se obtienen en los dos lanzamientos. Entonces, el espacio
muestral en este caso es S = {cc, cs, sc, ss}.
Debido a que se quieren contar el número de caras en cada caso, se puede
definir la variable X para cada uno de los eventos simples, así:
X(cc) = 2, X(sc) = X(cs) = 1, X(ss) = 0.

Si se pide, por ejemplo, determinar la probabilidad de que solo haya salido
una cara en los dos lanzamientos, se refieren al evento {cs, sc}, entonces,
1
P(X = 1) = PX (1) = P({cs, sc}) = P({cs}) + P({sc}) =
2
Ejemplo 3.2. Un bus pasa todos los días por una vereda en un tiempo
aleatorio entre las 8:00 a.m. y las 8:30a.m. Si T es el tiempo real en el que el
bus pasa, T es una variable aleatoria. El espacio muestral de esta variable es
A = {t : 8 < t < 8,5} para X(t) = t.
Observe que P(T (t) = t) = 0 para cualquier t ∈ A y también,
b−a
P(T ∈ (a, b)) = = 2(b − a), para 8 < a < b < 8,5
8,5 − 8
Definición 3.2. Una variable aleatoria es discreta si el conjunto de valores
que toma es finito o numerable. Una variable aleatoria es continua si el
conjunto de valores que toma es continuo.
Observación: La variable definida en el Ejemplo 3.1 es un ejemplo de

una variable aleatoria discreta finita, mientras que la variable definida en el
Ejemplo 3.2 es una variable aleatoria continua.
37
Ejemplo 3.3. Suponga que una profesora de matemáticas está en una can-
cha de fútbol intentando hacer goles y que estamos interesados en contar
el número de intentos hasta que la profesora consigue hacer su primer gol.
Suponga que la probabilidad de que la profesora consiga hacer el gol en
cualquier intento y que esta probabilidad permanece constante (la profesora
no mejora su técnica). Usando la notación “G=hacer el gol”, “N =no hacer
el gol”, el espacio muestral de este experimento aleatorio se puede expresar
por:
S = {G, N G, N N G, N N N G, N N N N G, . . .}.
Como el interés en este experimento es contar el número de intentos has-
ta hacer un gol, este espacio muestral se puede traducir por medio de una
variable X discreta que toma los valores
x = 1, 2, 3, 4, . . . ,
donde,
{X = 1} := {Hacer el gol en el primer intento} = {G}
{X = 2} := {No hacer gol en el primer intento y hacerlo en el segundo} = {N G}
{X = 3} := {No hacer gol ni en el primer ni en el segundo intento

y hacerlo en el tercero} = {N N G}
..
.
Entonces,
P(X = 1) = 0,2
P(X = 2) = 0,8 × 0,2
P(X = 3) = 0,82 × 0,2
..
.
P(X = n) = 0,8n−1 0,2
A partir de esta expresión general, se pueden responder muchas preguntas
acerca de las probabilidades de eventos es este caso. Por ejemplo, ¿cuál es
la probabilidad de que la profesora intente más de 50 veces hasta conseguir
hacer su primer gol?
38
P(X > 50) = 1 − P(x ≤ 50)
X50
= 1− 0,8n−1 0,2
i=1
50
X
= 1 − 0,2 0,8n−1
i=1
1 − 0,850

= 1 − 0,2
1 − 0,8
50
= 0,8
3.3. Función de distribución

Definición 3.3. Si X es una variable aleatoria, entonces, la función F defini-
da por:
FX (t) = P(X ≤ t), para todo t ∈ R
se llama función de distribución acumulada de X, o simplemente,
función de distribución de de X.
Se puede usar la notación F en lugar de FX cuando no sea necesario

aclarar de que variable aleatoria se está hablando.
Ejemplo 3.4. Considere el experimento de los dos lanzamientos de una

moneda tratado en el Ejemplo 3.1. Se observa que solamente los valores 0, 1
y 2, tienen probabilidad positiva. Cualquier otro valor real que se considere
en este experimento, diferente de 0, 1 y 2, tiene una probabilidad nula.
Debido a que la función de distribución está definida para todo los reales,
consideremos casos por intervalos.
Si t < 0, F (t) = 0, debido a que antes de 0 no hay valores que tengan
probabilidad positiva para acumular en la función de distribución.
El valor t = 0 es el menor valor que acumula en la función de distribución,
y ningún otro valor diferente de 0 anterior a 1 acumula algo. Entonces, para
0 ≤ t < 1, F (t) = 1/4.
39
Para 1 ≤ t < 2, el valor 1 acumula 1/2 a la función, y teniendo en cuenta
que ya se ha acumulado 1/4, se tiene que F (t) = 1/4 + 1/2 = 3/4.
Para t ≥ 2, ya se han tenido en cuenta todos los valores con probabilidad
positiva de este caso. Así, F (t) = 1.
En resumen, la función de distribución de este caso está dada por:


 0 si t < 0
1/4 si 0 ≤ t < 1

F (t) =

 3/4 si 1 ≤ t < 2
1 si t ≥ 2

Note que esta función es discontinua, y sus puntos de discontinuidad son

precisamente aquellos en los que la variable aleatoria discreta que estamos
considerando toma sus valores positivos. Además, los “saltos” que da está
función, son las probabilidades de los tres valores con probabilidad positiva.
Ejemplo 3.5. Considere el Ejemplo 3.2. La variable aleatoria T definida

como el tiempo en el que pasa el bus, es una variable aleatoria que toma
valores con probabilidad positiva, solamente en el intervalo [8, 8 21 ].
Para los valores reales t < 8, F (t) = P(T ≤ t) = 0 y para t > 8,5,
F (t) = 1.
El caso interesante ocurre cuando se consideran los valores de reales entre
8 y 8,5.
Sea 8 ≤ t ≤ 8,5. Para calcular el valor de la probabilidad F (t) = P(T ≤ t),
basta calcular, en el plano cartesiano, el área bajo la recta y = 2, para los
valores 8 ≤ x ≤ t, la que equivale al área de un rectángulo de base t − 8 y
altura 2. Entonces, para 8 ≤ t ≤ 8,5,
F (t) = P(T ≤ t) = 2(t − 8).

En resumen, 
 0 si t < 8
F (t) = 2(t − 8) si 8 ≤ t < 8,5
1 si t ≥ 8,5

Esta función, aunque también es una función creciente, como la consid-

erada en el ejemplo anterior, se diferencia en que es una función continua.
40
Observación: Algunos autores definan las variables aleatorias discretas
o continuas a partir de la función de distribución acumulada. Desde este
punto de vista, se dice que una variable aleatoria es discreta si su función de
distribución acumulada es discontinua, y una variable aleatoria es continua
si su función de distribución acumulada es continua.
3.3.1. Propiedades de la función de distribución

Como la función de distribución F (t) = P(X ≤ t) “acumula” todas las
probabilidades de los valores de la variable aleatoria X hasta un valor real t,
incluido, Esta función cumple algunas propiedades generales, tanto para las
variables aleatorias discretas, como continuas.
1. F es no decreciente.
2. lı́m F (t) = 0.
t→−∞
3. lı́m F (t) = 1.
t→+∞
4. F es continua a la derecha. Es decir, para todo t ∈ R,

lı́m F (x) = F (t)
x→t+
3.3.2. Cálculos de probabilidades a partir de la función

de distribución
Conociendo la función de distribución F de una variable aleatoria X,
se pueden responder muchas preguntas acerca de las probabilidades de X.
Enumeremos algunas: Considere que A y b son números reales.
1. Para calcular P(X > a), note que {X > a}c = {X ≤ a}, entonces,
P(X > a) = 1 − P(X ≤ a) = 1 − F (a).
2. Para calcular P(a < X ≤ b), note que

{a < X ≤ b} = {X ≤ b} − {X ≤ a},
entonces,
P(a < X ≤ b) = P(X ≤ b) − P(X ≤ a) = F (b) − F (a).
41
3. P(X < a) es el límite por la izquierda de la función F cuando x → a.
P(X < a) = lı́m− F (x) := F (a− ).

x→a
4. Para calcular P(X = a) note que {X = a} = {X ≤ a} − {X < a},

entonces:
P(X = a) = P(X ≤ a) − P(X < a) = F (a) − F (a− ).
5. Para calcular P(X ≥ a), note que {X ≥ a}c = {X < a}, entonces,
P(X ≥ a) = 1 − P(X < a) = 1 − F (a− ).
3.4. Función de probabilidad de una variable

aleatoria discreta
Si una variable aleatoria es discreta, el conjunto de sus valores posibles
es finito o numerable. Para cada variable aleatoria discreta, se define una
función de valor real p : R → R, definida por p(x) = P(X = x) y que se
conoce como la función de probabilidad de X ó también la función de
masa de probabilidad de X.
Esta función p se define para todo número real y toma valores positivos
para los posibles valores de la variable aleatoria y cero en los otros valores.
Definición 3.4. Sea X una variable aleatoria cuyo conjunto de posibles

valores es {x1 , x2 , x3 , . . .}. Se dice que una función p : R → R, es una función
de probabilidad (que se abrevia f.d.p.) de X, si satisface las siguientes
propiedades:
1. p(x) = 0 si x ∈
/ {x1 , x2 , x3 , . . .}.
2. p(xi ) = P(X = xi ), y por tanto, p(xi ) ≥ 0, para todo i.

∞
P
3. p(xi ) = 1.
i=1
42
Ejemplo 3.6. Se lanzan dos dados equilibrados. Sea X una variable definida
como el mínimo de los dos valores obtenidos. Vamos a determinar la función
de probabilidad de la variable aleatoria X.
Los valores posibles de la variable aleatoria X son x = 1, 2, 3, 4, 5, 6 y el
espacio muestral del experimento tiene 36 puntos equiprobables (cada uno
con probabilidad 1/36). Entonces, los valores de la función de probabilidad
para estos 6 valores son:
11
p(1) = P(X = 1) = P({(1, 1), (1, 2), (2, 1), . . . , (6, 1)}) =
36
9
p(2) = P(X = 2) = P({(2, 2), (2, 3), (3, 2), . . . , (6, 2)}) =
36
7
p(3) = P(X = 3) = P({(3, 3), (3, 4), (4, 3), . . . , (6, 3)}) =
36
5
p(4) = P(X = 4) = P({(4, 4), (4, 5), (5, 4), (4, 6), (6, 4)}) =
36
3
p(5) = P(X = 5) = P({(5, 5), (5, 6), (6, 5)}) =
36
3
p(6) = P(X = 5) = P({(6, 6)}) =
36
Entonces, la función de distribución de la variable aleatoria X está dada
por: 

 11/36 si x = 1
9/36 si x = 2




 7/36 si x = 3


p(x) = 5/36 si x = 4
3/36 si x = 5




1/36 si x = 6




0 en otros casos (e.o.c.)

Ejemplo 3.7. Considere la función p definida por:


 e−2 2x
p(x) = si x = 0, 1, 2, 3, . . . , n
 0 x!
en otros casos (e.o.c.)
¿Es p una función de probabilidad de una variable aleatoria discreta?
Verifiquemos si p cumple las propiedades dadas en la definición de una función
de probabilidad de una variable aleatoria discreta.
43
e−2 2x
p(x) = ≥ 0, para todo x ∈ R.
x!
∞ ∞ e−2 2x ∞ 2x
= e−2 = e−2 e2 = 1.
P P P
p(x) =
x=0 x=0 x! x=0 x!
Entonces, p si es una función de probabilidad.
3.4.1. Esperanza de variables aleatorias discretas

Ya hemos observado que, para las variables aleatorias, la función de dis-
tribución y la función de probabilidad determinan sus propiedades probabilís-
ticas. Sin embargo, hace falta conocer valores numéricos que puedan resumir
de alguna manera esa información. Una medida importante es la que define
un promedio de los posibles valores de la variable aleatoria. Esta medida
es conocida como el valor esperado , o valor medio, o esperanza de la vari-
able aleatoria, o simplemente media, se precisa a continuación. (ing: expected
value, mean value, expectation).
valores es {x1 , x2 , x3 , . . .} y con f.d.p. p(x). El valor esperado de X está
dado por:
X∞
E(X) = xk p(xk ).
k=1
Se dice que E(X) existe si su suma converge absolutamente, es decir, si

∞
X
|xk |p(xk ) < ∞.
k=1
El valor esperado de la variable aleatoria que se conoce por muchos otros

términos como media, o esperanza, o esperanza matemática o valor medio,
también se denota de varias maneras: E[X], EX, µX o simplemente µ cuando
no es necesario especificar de que variable se está hablando.
Ejemplo 3.8. Suponga que se lanza un dado equilibrado repetidamente, y
en cada lanzamiento se anota su resultado. Existen resultados importantes
en la teoría de la probabilidad que muestran que si tomaramos el promedio
de estos resultados, su valor sería muy aproximado al valor esperado de la
variable aleatoria.
44
Sea X la variable aleatoria definida por el puntaje obtenido en un lanza-
miento del dado.
Su f.d.p. está dada por p(x) = 1/6 para x = 1, 2, . . . , 6 y 0 en otros casos.
Entonces,
6
X 1 1 1 1
E(X) = x = 1 · + 2 · + . . . + 6 · = 3,5
x=1
6 6 6 6
Observación: El concepto probabilístico de esperanza matemática de

una variable aleatoria es análogo al concepto físico de centro de gravedad en
una distribución de masas. Cuando se asigna una probabilidad a cada valor
de los posibles de la variable aleatoria, se está asignando un peso a cada uno
de ellos. Los valores de la variable dan una ubicación en un brazo de una
balanza, con el peso correspondiente a su probabilidad. El punto de balance
de este brazo es precisamente la esperanza de la variable aleatoria.
Ejemplo 3.9. Una urna contiene 5 fichas. Dos están marcadas con $1, dos
con $5 y una con $15. Para jugar hay que pagar $10 y se pueden sacar dos
de las fichas de la urna recibiendo como premio la suma de las cantidades
allí marcadas. ¿Este juego es justo?
Nota: En el lenguaje de probabilidad, se dice que un juego es justo si, al
jugarlo repetidamente, el promedio de ganancia, tanto para el jugador como
para el administrador del juego, es cero. Es decir, algunas veces se gana, otras
se pierde, pero después de muchas repeticiones del juego, las ganancias y las
pérdidas se equilibran. Esto se traduce a que el juego es justo, si la esperanza
matemática de las ganancias y pérdidas es cero.
5
En el ejemplo propuesto, el espacio muestral del experimento son las
2
= 10 posibles parejas de fichas sacadas de la urna.
S = {(1, 1), (1, 5), (1, 5), (1, 5), (1, 5), (5, 5), (15, 1), (15, 1), (15, 5), (15, 5)}.
Aquí se anotó cuatro veces el par (1, 5) porque hay dos fichas marcadas con
$1 y dos con $5. Similarmente con los otros casos repetidos.
Entonces, si se denota con X la suma de las cantidades de las fichas, sus
posibles valores y sus valores de probabilidad asociados son:
45
x 2 6 10 16 20
p(x) 1/10 4/10 1/10 2/10 2/10
El valor esperado de X es:
2 24 10 32 40 108
E(X) = + + + + = = 10,8
10 10 10 10 10 10
A este valor hay que restarle 10 por el pago para jugar. Entonces, la ganancia
esperada en el juego es de 0,8. Es decir, si el juego se repite muchas veces,
el que juega tiene una ganancia positiva promedio de 0,8. En conclusión, el
juego no es justo. (Se consideraría justo si la ganancia media fuese 0 para
ambos jugadores.)
3.4.2. Varianza de variables aleatorias discretas

Dada una variable aleatoria de la que se conoce su distribución de prob-
abilidad, se quieren encontrar medidas que puedan resumir la información
probabilística de la variable.
Ya vimos que el valor esperado logra mostrar un punto de equilibrio (cen-
tro) de los posibles valores, dándoles una ponderación con su probabilidad.
Sin embargo, esta medida sola no es suficiente para caracterizar a la variable,
debido a que hace falta medir la dispersión de los valores alrededor de este
valor medio.
Por ejemplo, considere estas tres variables aleatorias:
X = 0 con probabilidad 1

1 con prob. 1/2
Y =
−1 con prob. 1/2

10 con prob. 1/2
Z =
−10 con prob. 1/2
En las tres variables, su valor medio es 0, sin embargo, difieren mucho en

sus valores. La variable X siempre toma el valor el 0 (con probabilidad 1), y
hay total certeza del valor obtenido. Para la variable Y se puede obtener 1 o
−1 con igual probabilidad, pero en el caso de la variable Z, sus valores, 10 y
46
−10 están mas alejados de su valor medio. Es decir, hay mas dispersión en
la variable Z que en las otras dos.
Como los valores de la variable se toman alrededor del valor medio E(X),
para medir la dispersión alrededor de este valor, es razonable medir la distan-
cia de los valores respecto a su valor medio. Es por esta razón que se define
la siguiente medida que busca cuantificar qué tanto se alejan los datos, en
promedio, de su valor medio.

valores es {x1 , x2 , x3 , . . .}, con f.d.p. p(x) y valor medio E(X) = µ. Entonces,
la Varianza de X, denotada por V ar(X), se define por:
∞
X
2
V ar(X) = E[(X − µ) ] = (xk − µ)2 p(xk ).
k=1
Una fórmula alternativa para la varianza de X se deriva como sigue:
∞
X
V ar(X) = (xk − µ)2 p(xk )
k=1
X∞
= (x2k − 2µxk + µ2 )p(xk )
k=1
X∞ ∞
X ∞
X
= x2k p(xk ) − 2µ xk p(xk ) + µ2 p(xk )
k=1 k=1 k=1
2 2 2
= E[X ] − 2µ + µ
= E[X 2 ] − µ2
Es decir,
V ar(X) = E(X 2 ) − (E(X))2 .
Ejemplo 3.10. Consideremos las variables X, Y y Z definidas en la intro-

ducción de esta sección, con valores medios µX = µY = µZ = 0.
47
V ar(X) = (1 − 0)2 p(1) = 1
1 1
V ar(Y ) = (1 − 0)2 p(1) + (−1 − 0)2 p(−1) = 1 · +1· =1
2 2
1 1
V ar(Z) = (10 − 0)2 p(10) + (−10 − 0)2 p(−10) = 100 · + 100 · = 100
2 2
3.5. Distribuciones discretas especiales

3.5.1. Distribución de Bernoulli
Suponga que se hace una prueba, o experimento aleatorio, cuyos posibles
resultados se pueden clasificar en éxito o fracaso. Sea X = 1 cuando el
resultado es un éxito y X = 0 cuando el resultado es un fracaso. Entonces,
la f.d.p. de X es:
P(X = 1) = p
P(X = 0) = 1 − p
donde p, 0 ≤ p ≤ 1, es la probabilidad de que la prueba sea un éxito.
Definición 3.7. Una variable aleatoria X se llama Bernoulli si sólo puede

tomar dos valores, (asociados a éxito, fracaso) con probabilidades p y 1 − p,
para p ∈ [0, 1]. Se denota por X ∼ Bern(p).
Teorema 3.1. Si X ∼ Bern(p), entonces, E(X) = p y V ar(X) = p(1 − p).
Prueba:
E(X) = 0 · (1 − p) + 1 · p = p.
E(X 2 ) = 02 · (1 − p) + 12 · p = p.
Entonces,
V ar(X) = E(X 2 ) − (E(X))2 = p − p2 = p(1 − p).

48
Ejemplo 3.11. Suponga que se lanza un dado equilibrado y se asocia al
éxito de la prueba si sale 5 o 6 y fracaso a cualquier otro valor. Entonces, si
definimos la variable aleatoria X por:
X=1 si sale 5 ó 6
X=0 si sale 1, 2, 3 ó 4.
Entonces,
2 1
p = P({5, 6}) = =
6 3
4 2
1 − p = P({1, 2, 3, 4}) = = .
6 3
Luego,
1
E(X) =
3
1 1 2
V ar(X) = 1− =
3 3 9
3.5.2. Distribución Binomial

Definición 3.8. Sea X una variable aleatoria que cuenta el número de éxitos
en n repeticiones independientes de pruebas Bernoulli con probabilidad de
éxito fija p. X es llamada variable aleatoria Binomial con parámetros n y
p y se denota por X ∼ Bin(n, p).
Observe que los posibles valores que puede tomar X son x = 0, 1, . . . , n.
Si X es una variable aleatoria Binomial de parámetros n y p, su f.d.p.
está dada por:
 n x
 x p (1 − p)n−x si x = 0, 1, 2, . . . , n
p(x) =
0 e.o.c.

Teorema 3.2. Si X ∼ Bin(n, p), entonces,
E(X) = np y V ar(X) = np(1 − p).
49
Ejemplo 3.12. Se lanzan cinco monedas equilibradas. Determine la proba-
bilidad de que salgan exactamente 3 caras en las cinco monedas.
Sea X la variable que cuenta el número de caras obtenidas en las cinco
monedas.
La variable X así definida tiene distribución Binomial de parámetros n =
5 y p = 0,5, dado que es la repetición de 5 ensayos de Bernoulli independientes
(el lanzamiento de una moneda, que puede ocurrir cara o sello con igual
probabilidad).
Entonces, la distribución de la v.a. X, p(x) = P(X = x) está dada por:
 5
 x (0,5)x (1 − 0,5)5−x = x5 (0,5)5 si x = 0, 1, 2, . . . , 5

p(x) =
0 e.o.c.


5
P(X = 3) = (0,5)5 = 0,3125
3
Ejemplo 3.13. Aproximadamente 95 % de los automovilistas de Bogotá in-

vaden la zona de cruce peatonal cuando se detienen en un cruce ante la luz
roja. Determine la probabilidad de que en un momento dado, de cinco au-
tomóviles que se aproximan a un cruce en el que se acaba de poner la luz
roja, por lo menos uno de ellos respete la zona de cruce peatonal. R/0.2262
3.5.3. Distribución de Poisson

La distribución de Poisson es un modelo muy usado para conteos en los
que no hay una cota natural, por ejemplo, el número de accidentes en las
vías de un departamento, durante un fin de semana, o el número de defectos
en un metro de tela.
Definición 3.9. Una variable aleatoria X que toma uno de los valores
0, 1, 2, . . . se llama Variable aleatoria de Poisson con parámetro λ si, para
algún λ > 0,
e−λ λx
p(x) = P(X = x) = , x = 0, 1, 2, . . .
x!
Se denota X ∼ P oi(λ).
50
Teorema 3.3. Si X ∼ P oi(λ), entonces,
E(X) = λ y V ar(X) = λ.
Observación: Una de las aplicaciones más importantes de la distribución

de Poisson se da en relación a la ocurrencia de cierto tipo de eventos en un
intervalo de tiempo determinado. Así, por ejemplo, la distribución de Poisson
se ha utilizado para describir el número de usuarios en una línea de espera,
durante un periodo de tiempo.
Dado que el parámetro λ es precisamente el valor medio de la variable,
se toma como el valor promedio de ocurrencias en el intervalo de tiempo o
espacio en el que se estudia los valores.
Ejemplo 3.14. Suponga que el promedio del número de errores tipográficos

en una única página de cierto libro es 0,5. ¿Cuál es la probabilidad de que
haya por lo menos un error en una página específica del libro?
Sea X la variable que denota el número de errores tipográficos en una
única página. De los datos se tiene que X ∼ P oi(0,5).
Entonces,
P(X ≤ 1) = 1 − P(X = 0)
e−5 50
= 1−
0!
= 1 − e−5
≈
3.6. Función de densidad de probabilidad

En las secciones anteriores estuvimos considerando variables aleatorias
discretas, es decir, variables aleatorias cuyo conjunto de posibles valores es
un conjunto finito o es un conjunto numerable. Las variables aleatorias con-
tinuas, que son las que consideramos en esta sección, tienen un conjunto de
posibles valores no contable. Por ejemplo, si se está midiendo el volumen de
lluvias en una ciudad mes a mes, o el tiempo entre las llegadas de los clientes
a un pequeño almacén.
51
Definición 3.10. Se dice que la variable aleatoria X es continua si existe
una función f no negativa, definida para todo real x ∈ (−∞, ∞), tal que,
para cualquier evento E de números reales,
Z
P(X ∈ E) = f (x)dx.
E
La función f (o fX cuando sea necesario aclarar de que variable aleatoria se

habla) es llamada función de densidad de probabilidad (que se abrevia
f.d.p) de la variable aleatoria X.
3.6.1. Propiedades de la función de densidad de proba-

bilidad
De acuerdo a la definición de la función de densidad de probabilidad, y
dado que si X es una variable aleatoria continua, esta debe asumir algún
valor real, por tanto,
Z ∞
P(X ∈ (−∞, ∞)) = f (x)dx = 1.
−∞
Todos los cálculos probabilísticos de la variable aleatoria X se pueden

hacer a través de la f.d.p. (al igual que mostrabamos con la f.d.a.). Por
ejemplo,
Z b
P(X ∈ [a, b]) = P (a ≤ X ≤ b) = f (x)dx.
a
Si consideramos el caso a = b,
Z a
P(X = a) = P(a ≤ X ≤ a) = f (x)dx = 0.
a
De aquí se puede concluir que, para el caso en que la v.a. X es continua,
P(a ≤ X ≤ b) = P(a < X ≤ b)

= P(a ≤ X < b)
= P(a < X < b)
Z b
= f (x)dx.
a
52
De la definición de función de una variable aleatoria, F (x), se observa que
F (x) = P(X ≤ x)
Z x
= f (t)dt,
−∞
entonces, usando uno de los teoremas fundamentales del cálculo,
dF (x)
f (x) = .
dx
Ejemplo 3.15. Considere la función f (x) dada por:
 −2x
 2e si x ≥ 0
f (x) =
0 si x < 0

¿Es f (x) una f.d.p.?

Para responderRa esta pregunta basta verificar que f (x) sea una función
∞
no negativa y que −∞ f (x)dx = 1.
En efecto f (x) ≥ 0 para todo x ∈ R, y además,
Z ∞ Z ∞
f (x)dx = 2e−2x dx
−∞ 0
ix→∞
= −e−2x
x=0
= 1
Por tanto, f (x) es una f.d.p.
3.6.2. Esperanza y varianza de variables aleatorias con-

tinuas
Definición 3.11. Si X es una v.a. continua, se define (de forma equivalente
al caso discreto) el valor esperado de X, o la esperanza de X como
Z ∞
µ = E(X) = xf (x)dx.
−∞
53
Ejemplo 3.16. Considere la v.a. X con su f.d.p. dada en el Ejemplo 3.15.
Se puede verificar que su valor esperado está dado por:
Z ∞ Z ∞
E(X) = xf (x)dx = 2 xe−2x dx = 2
−∞ 0
La definición de varianza dada anteriormente, es la misma, tanto para

variables aleatorias discretas como continuas,
σ 2 = V ar(X) = E[(X − µ)2 ] = E(X 2 ) − (E(X))2 .
√
Además, también en este caso σ = σ 2 se llama la desviación estándar .
En el caso continuo, estos cálculos se realizan usando integrales.
Ejemplo 3.17. Calculemos la varianza de la variable aleatoria considerada
en el Ejemplo 3.15.
Z ∞
2 2
V ar(X) = E(X ) − (E(X)) = 2 x2 e−2x dx − 22 = 8 − 4 = 4
0
3.7. Densidades de probabilidad especiales

En esta sección se estudian solamente cuatro funciones de densidad de
probabilidad continuas, la uniforme, la exponencial, la normal y la chi-cuadrada.
Hay muchas otras que sirven de modelo en muchas aplicaciones de la estadís-
tica, pero el propósito nuestro es estudiar las que servirán de apoyo en las
definiciones de los procesos estocásticos.
3.7.1. Distribución Uniforme

La f.d.p. que se considera a continuación, se define para una variable
continua que toma valores con igual probabilidad en un intervalo dado.
Definición 3.12. Se dice que la variable X que toma valores en el intervalo
(a, b) tiene una distribución Uniforme si su f.d.p. está dada por:
 1
 b−a si a ≤ x ≤ b
f (x) =
0 e.o.c.

Se escribe X ∼ U ni(a, b).
54
Teorema 3.4. Si X ∼ U ni(a, b) su valor esperado es
a+b
E(X) = ,
2
y su varianza
(b − a)2
V ar(X) = .
12
Ejemplo 3.18. Si se escoge al azar un número en el intervalo [1, 3], ¿cuál es
la probabilidad de que el primer dígito al lado derecho del punto decimal sea
5?
Cuando se usa la frase “escoger un número aleatorio entre 1 y 3”, lo pode-
mos traducir en términos de una variable aleatoria uniforme, X ∼ U ni(1, 3),
con f.d.p. dada por:  1
 2 si 1 ≤ x ≤ 3
f (x) =
0 e.o.c.

Entonces, la probabilidad pedida es:

Z 1,6 Z 2,6
1 1
P(1,5 < X < 1,6) + P(2,5 < X < 2,6) = dx + dx = 0,1.
1,5 2 2,5 2
El siguiente ejemplo, si bien no se han considerado en estas notas vari-

ables aleatorias bidimensionales, es un tipo de ejemplo clásico en la teoría
de la probabilidad, conocido como un problema de encuentro, y se puede
resolver generalizando la característica de las variables aleatorias uniformes,
de equiprobabilidad de todos sus posibles valores.
Ejemplo 3.19. Dos amigos planearon encontrarse para almorzar en un

restaurante, pero solo pueden llegar a una hora no determinada entre las
12:00 y la 1:00 p.m. Si ninguno de los dos espera a su amigo mas de 15 min-
utos después de que llega al restaurante, ¿cuál es la probabilidad de que se
encuentren? (por ejemplo, si uno de ellos llega a las 12:20 y el otro llega a las
12:32, se encuentran, porque el primero todavía estaba esperando; pero si el
primero llega a las 12:30 y el segundo llega a las 12:50 no se encuentran).
Observe que los puntos del espacio muestral para este caso son pares
ordenados (x, y) donde 12 < x, y < 13, y cada para ordenado tiene igual
55
probabilidad de ocurrencia. Así, el espacio considerado es un cuadrado de
lado 1 y la función de probabilidad es uniforme en ese cuadrado. Así podemos
pensar esta función de probabilidad como un cubo de base el cuadrado de
lado 1 cuya altura es la probabilidad asociada a este cuadrado, que es también
1 en este caso, de modo que se pueda garantizar un volumen 1.
Ejercicio: terminarlo!
3.7.2. Distribución Exponencial

La distribución exponencial es usada con frecuencia como un modelo para
descripción del tiempo transcurrido entre las ocurrencias sucesivas de un
determinado suceso, como el caso de los clientes que llegan a un almacén
pequeño, o las llamadas que entran a un conmutador.
Definición 3.13. Se dice que una variable aleatoria X tiene una distribu-
ción exponencial de parámetro λ, siendo λ una constante positiva, si su
f.d.p. está dada por:
 −λx
 λe si x ≥ 0
f (x) = (3.1)
0 si x < 0

Se denota X ∼ Exp(λ).
Teorema 3.5. Si X ∼ Exp(λ) (como aparece en la función 4.4.2), su valor
esperado y su varianza están dados por:
1 1
E(X) = y V ar(X) =
λ λ2
Observación: En algunos textos, la distribución exponencial aparece
como sigue:  1 −x
 β e β si x ≥ 0
f (x) = (3.2)

0 si x < 0
donde β es una constante positiva, y también se escribe X ∼ Exp(β).
La posible confusión se puede aclarar con su valor medio. Si X ∼ Exp(β)
(como aparece en la expresión 3.2), su media y su varianza están dados por:
E(X) = β y V ar(X) = β 2 .
56
Así, el parámetro que acompaña a la función exponencial en la expresión
de la distribución siempre es el inverso del valor esperado.
Ejemplo 3.20. Suponga que el tiempo que dura una llamada de celular de un
adolescente es una v.a. que se puede modelar con la distribución Exponencial
de media 10 minutos. Si usted necesita usar un celular que está usando un
adolescente, calcule la probabilidad de que deba esperar mas de 10 minutos,
y también la probabilidad de que deba esperar entre 10 y 20 minutos.
Si X denota la duración de una llamada por celular de un adolescente,
entonces, según los datos del enunciado, su f.d.p. está dada por
 1 −x
 10 e 10 si x ≥ 0
f (x) =
0 si x < 0

Así, las probabilidades pedidas son:

R∞ 1 −x
P(X > 10) = 10 10 e 10 dx = e−1 ≈ 0,368,
R 20 1 − x
P(10 < X < 20) = 10 10 e 10 dx = e−1 − e−2 ≈ 0,233.
Pérdida de memoria: Una propiedad muy importante de las variables

aleatorias con Distribución Exponencial es la que se conoce como pérdida de
memoria.
Definición 3.14. Se dice que una v.a. X tiene pérdida de memoria si

cumple que:
P(X > s + t|X > t) = P (X > s),
es decir, si ya se sabe que la v.a. sobrepasó el valor de t, medir la probabilidad
de haya sobrepasado a s + t es igual a reiniciar y medir la probabilidad de
que la v.a. simplemente sobrepase a s.
Esta propiedad, la cual cumplen las variables aleatorias con distribución

Exponencial, es usada para modelar la distribución de la duración de com-
ponentes que no se deterioran ni mejoran con la edad, es decir, aquellos para
los cuales la distribución de la duración restante es independiente de la edad
actual.
57
Teorema 3.6. Si X ∼ Exp(λ), entonces X cumple la propiedad de pérdida
de memoria.
Prueba. Observe que si X ∼ Exp(λ),
P(X > x) = e−λx .
P(X > s + t)
P(X > s + t|X > t) =
P(X > t
e−λ(s+t)
=
e−λt
−λs
= e
= P(X > s)

Ejemplo 3.21. En una oficina de reclamos de una empresa de servicios

públicos se sabe que el tiempo, en minutos, que tarda un empleado en atender
un reclamos de un usuario es una variable aleatoria exponencial de media 15
minutos. Si usted llega a esta oficina a las 12:00m y en ese momento no hay
fila de espera, pero el empleado está atendiendo a un usuario, ¿cuál es la
probabilidad de que usted tenga que esperar menos de 5 minutos para ser
atendido?
Sea X el tiempo que tarda el empleado en terminar de atender al usuario.
Observe que si no se estuviera considerando una v.a. con pérdida de
memoria, habría que tener en cuenta el tiempo que el empleado ya ha usado
en atender al usuario para estimar el tiempo que le falta para terminar de
atenderlo.
Así, si t es el tiempo que el empleado ya ha usado para atender al usuario,
lo que se pide es P(X < 5 + t|X > t) = 1 − P(X > 5 + t|X > t), pero por la
propiedad de pérdida de memoria de la distribución exponencial, basta con
calcular la probabilidad P(X < 5).
1
P(X < 5) = 1 − P(X > 5) = 1 − e−5/15 = 1 −
e1/3
58
3.7.3. Distribución Normal
Entre las densidades de probabilidad especiales que se estudian en los
cursos de estadística, la Densidad de probabilidad Normal o simplemente la
Distribución Normal es la más usada. Si bien, estas notas están dirigidas
a estudiar conceptos básicos de procesos estocásticos y allí la distribución
normal va a ser mencionada poco, vamos a destacar en esta sección algunas
de las propiedades más usadas para probar el ajuste de otras distribuciones
probabilísticas, específicamente a través de la Distribución Chi-cuadrada, la
cual será la última de las distribuciones que mencionares en este repaso.
Definición 3.15. Se dice que X es una variable aleatoria Normal o, simple-

mente X está normalmente distribuida, con parámetros µ y σ 2 si la densidad
de X está dada por:
1 (x−µ)2
f (x) = √ e− 2σ2 , −∞ < x < ∞.
2πσ 2
Se escribe X ∼ N (µ, σ 2 ).
La gráfica de la función de densidad de probabilidad Normal tiene una
forma de campana simétrica alrededor de µ.
Teorema 3.7. Si X ∼ N (µ, σ 2 ), entonces, su valor esperado y su varianza

están dados por:
E(X) = µ y V ar(X) = σ 2
Definición 3.16. Distribución normal estándar Si X ∼ N (0, 1), en-

tonces se dice que X tiene distribución Normal estándar. La función de den-
sidad y la función de distribución acumulada se denotan por φ y Φ, respec-
tivamente. Es decir,
1 (x)2
φ(x) = √ e− 2 , −∞ < x < ∞,
2π
y Z x
1 (t)2
Φ(x) = √ e− 2 dt.
−∞ 2π
Observación: Como la función de densidad de una variable aleatoria Normal
estándar es simétrica con respecto al eje y, para todo z < 0 se satisface que:
Φ(z) = 1 − Φ(−z)
59
Como la distribución Normal no puede integrarse en forma cerrada, entre
cada par de límites, a y b las probabilidades relacionadas con la distribu-
ción Normal se obtiene con ayuda computacional o tablas especiales que ya
tienen los cálculos. La siguiente tabla contiene estos datos para la distribución
Normal estándar, es decir, la normal con µ = 0 y σ 2 = 1, N (0, 1).
Tabla de la función de distribución Φ de una normal N (0, 1)

para x ≥ 0
Z x 2
1 −t
Φ(x) = P [X ≤ x] = √ exp dt
2π −∞ 2
Si x < 0 =⇒ Φ(x) = 1 − Φ(−x)

0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.500000 0.503989 0.507978 0.511966 0.515953 0.519939 0.523922 0.527903 0.531881 0.535856
0.1 0.539828 0.543795 0.547758 0.551717 0.555670 0.559618 0.563559 0.567495 0.571424 0.575345
0.2 0.579260 0.583166 0.587064 0.590954 0.594835 0.598706 0.602568 0.606420 0.610261 0.614092
0.3 0.617911 0.621720 0.625516 0.629300 0.633072 0.636831 0.640576 0.644309 0.648027 0.651732
0.4 0.655422 0.659097 0.662757 0.666402 0.670031 0.673645 0.677242 0.680822 0.684386 0.687933
0.5 0.691462 0.694974 0.698468 0.701944 0.705401 0.708840 0.712260 0.715661 0.719043 0.722405
0.6 0.725747 0.729069 0.732371 0.735653 0.738914 0.742154 0.745373 0.748571 0.751748 0.754903
0.7 0.758036 0.761148 0.764238 0.767305 0.770350 0.773373 0.776373 0.779350 0.782305 0.785236
0.8 0.788145 0.791030 0.793892 0.796731 0.799546 0.802337 0.805105 0.807850 0.810570 0.813267
0.9 0.815940 0.818589 0.821214 0.823814 0.826391 0.828944 0.831472 0.833977 0.836457 0.838913
1.0 0.841345 0.843752 0.846136 0.848495 0.850830 0.853141 0.855428 0.857690 0.859929 0.862143
1.1 0.864334 0.866500 0.868643 0.870762 0.872857 0.874928 0.876976 0.879000 0.881000 0.882977
1.2 0.884930 0.886861 0.888768 0.890651 0.892512 0.894350 0.896165 0.897958 0.899727 0.901475
1.3 0.903200 0.904902 0.906582 0.908241 0.909877 0.911492 0.913085 0.914657 0.916207 0.917736
1.4 0.919243 0.920730 0.922196 0.923641 0.925066 0.926471 0.927855 0.929219 0.930563 0.931888
1.5 0.933193 0.934478 0.935745 0.936992 0.938220 0.939429 0.940620 0.941792 0.942947 0.944083
1.6 0.945201 0.946301 0.947384 0.948449 0.949497 0.950529 0.951543 0.952540 0.953521 0.954486
1.7 0.955435 0.956367 0.957284 0.958185 0.959070 0.959941 0.960796 0.961636 0.962462 0.963273
1.8 0.964070 0.964852 0.965620 0.966375 0.967116 0.967843 0.968557 0.969258 0.969946 0.970621
1.9 0.971283 0.971933 0.972571 0.973197 0.973810 0.974412 0.975002 0.975581 0.976148 0.976705
2.0 0.977250 0.977784 0.978308 0.978822 0.979325 0.979818 0.980301 0.980774 0.981237 0.981691
2.1 0.982136 0.982571 0.982997 0.983414 0.983823 0.984222 0.984614 0.984997 0.985371 0.985738
2.2 0.986097 0.986447 0.986791 0.987126 0.987455 0.987776 0.988089 0.988396 0.988696 0.988989
2.3 0.989276 0.989556 0.989830 0.990097 0.990358 0.990613 0.990863 0.991106 0.991344 0.991576
2.4 0.991802 0.992024 0.992240 0.992451 0.992656 0.992857 0.993053 0.993244 0.993431 0.993613
2.5 0.993790 0.993963 0.994132 0.994297 0.994457 0.994614 0.994766 0.994915 0.995060 0.995201
2.6 0.995339 0.995473 0.995604 0.995731 0.995855 0.995975 0.996093 0.996207 0.996319 0.996427
2.7 0.996533 0.996636 0.996736 0.996833 0.996928 0.997020 0.997110 0.997197 0.997282 0.997365
2.8 0.997445 0.997523 0.997599 0.997673 0.997744 0.997814 0.997882 0.997948 0.998012 0.998074
2.9 0.998134 0.998193 0.998250 0.998305 0.998359 0.998411 0.998462 0.998511 0.998559 0.998605
3.0 0.998650 0.998694 0.998736 0.998777 0.998817 0.998856 0.998893 0.998930 0.998965 0.998999
3.1 0.999032 0.999065 0.999096 0.999126 0.999155 0.999184 0.999211 0.999238 0.999264 0.999289
3.2 0.999313 0.999336 0.999359 0.999381 0.999402 0.999423 0.999443 0.999462 0.999481 0.999499
3.3 0.999517 0.999534 0.999550 0.999566 0.999581 0.999596 0.999610 0.999624 0.999638 0.999651
3.4 0.999663 0.999675 0.999687 0.999698 0.999709 0.999720 0.999730 0.999740 0.999749 0.999758
3.5 0.999767 0.999776 0.999784 0.999792 0.999800 0.999807 0.999815 0.999822 0.999828 0.999835
3.6 0.999841 0.999847 0.999853 0.999858 0.999864 0.999869 0.999874 0.999879 0.999883 0.999888
3.7 0.999892 0.999896 0.999900 0.999904 0.999908 0.999912 0.999915 0.999918 0.999922 0.999925
3.8 0.999928 0.999931 0.999933 0.999936 0.999938 0.999941 0.999943 0.999946 0.999948 0.999950
3.9 0.999952 0.999954 0.999956 0.999958 0.999959 0.999961 0.999963 0.999964 0.999966 0.999967
4.0 0.999968 0.999970 0.999971 0.999972 0.999973 0.999974 0.999975 0.999976 0.999977 0.999978
60
Una de las cualidades más importantes de la distribución Normal estándar
consiste en que cualquier variable distribuida Normal con cualquier media y
cualquier varianza, se puede transformar a una distribución Normal estándar.
Entonces, sólo se necesitan los datos de las áreas bajo su curva de la Normal
estándar para calcular las probabilidades acumuladas de cualquier variable
aleatoria Normal.
Teorema 3.8. Si X ∼ N (µ, σ 2 ), entonces,
X −µ
Z= ∼ N (0, 1).
σ
Ejemplo 3.22. El volumen que una máquina de llenado automático deposita

en las latas de una bebida gaseosa tiene una distribución normal de media
12.4 onzas y desviación estándar de 0.1 onzas de líquido.
1. ¿Cuál es la probabilidad de que el volumen depositado sea menor a 12

onzas?
2. Si se desechan todas las latas que tiene menos de 12.1 o más de 12.6
onzas de líquido, ¿cuál es la proporción de latas desechadas?
Sea X : volumen depositado en las latas por esta máquina.

Entonces, X ∼ N (12,4; 0,12 ).
1. La probabilidad de que el volumen depositado sea menor a 12 onzas,

es:

X −µ 12 − 12,4
P(X < 12) = P < = P(Z < −4) = 0,999968,
σ 0,1
donde este último número lo obtuvimos de la última fila de la tabla de

la Normal estándar.
2. La probabilidad de que una lata tenga menos de 12.1 o más de 12.6
61
onzas de líquido, es:

12,1 − 12,4 12,6 − 12,4
P(X < 12,1) + P(X > 12,6) = P Z < +P Z >
0,1 0,1
= Φ(−3) + 1 − Φ(2)
= 1 − Φ(3) + 1 − Φ(2)
= 2 − Φ(2) − Φ(3)
= 2 − 0,9773 − 0,9987
= 0,024
Entonces, la proporción de latas desechadas es del 2,4 %.
62
3.7.4. Distribución Chi-cuadrada (χ2 )
Definición 3.17. Se dice que X es una variable aleatoria chi-cuadrado o,
ji-cuadrado, con parámetro δ, llamado grados de libertad, si la densidad de
X está dada por:
1 − x2 2δ −1
f (x) = e x , x > 0.
2δ/2 Γ (δ/2)
Se escribe X ∼ χ2 (δ), donde δ se conoce como los grados de libertad.
Teorema 3.9. Si X ∼ χ2 (δ), entonces, su valor esperado y su varianza están

dados por:
E(X) = δ y V ar(X) = 2δ
Propiedades de las distribución χ2 :
Una variable aleatoria distribuida χ2 solo toma valores positivos, y

usualmente se aplica en pruebas de hipótesis estadísticas en medidas
de distancias entre variables aleatorias.
Una variable aleatoria χ2 con n grados de libertad es la suma de los

cuadrados de n variables aleatorias independientes con distribución
Normal estándar, esto es:
Si Xi ∼ N (0; 1), con i = 1, 2, . . . , n, entonces,
Y = X12 + X12 + . . . + Xn2 ∼ χ2 (n).
En la tabla que aparece a seguir se muestran algunos valores de las prob-

abilidades de la distribución χ2 variando los grados de libertad.
Ejemplo 3.23. Sea X ∼ χ2 (6). Sea el valor x0 que cumple que su probabil-
idad acumulada hasta él es 0.95, es decir,
P(X < x0 ) = 0,95
Buscamos la fila correspondiente a 6 grados de libertad, y en la columna del

área 0.95. Entonces, x0 = 12,5916.
63
Inversa de la función de distribución χ2 de Pearson:
Xn (x) = P [χ2n ≤ x], Xn (χ2n,α ) = α, Xn−1 (α) = χ2n,α
nα 0.005 0.01 0.025 0.05 0.1 0.2 0.3 0.5

1 0.00004 0.00016 0.00098 0.00393 0.01579 0.06418 0.14847 0.45494
2 0.01002 0.02010 0.05064 0.10259 0.21072 0.44629 0.71335 1.38629
3 0.07172 0.11483 0.21580 0.35185 0.58437 1.00517 1.42365 2.36597
4 0.20699 0.29711 0.48442 0.71072 1.06362 1.64878 2.19470 3.35669
5 0.41174 0.55430 0.83121 1.14548 1.61031 2.34253 2.99991 4.35146
6 0.67573 0.87209 1.23734 1.63538 2.20413 3.07009 3.82755 5.34812
7 0.98926 1.23904 1.68987 2.16735 2.83311 3.82232 4.67133 6.34581
8 1.34441 1.64650 2.17973 2.73264 3.48954 4.59357 5.52742 7.34412
9 1.73493 2.08790 2.70039 3.32511 4.16816 5.38005 6.39331 8.34283
10 2.15586 2.55821 3.24697 3.94030 4.86518 6.17908 7.26722 9.34182
11 2.60322 3.05348 3.81575 4.57481 5.57778 6.98867 8.14787 10.34100
12 3.07382 3.57057 4.40379 5.22603 6.30380 7.80733 9.03428 11.34032
13 3.56503 4.10692 5.00875 5.89186 7.04150 8.63386 9.92568 12.33976
14 4.07467 4.66042 5.62873 6.57063 7.78953 9.46733 10.82148 13.33927
15 4.60092 5.22935 6.26214 7.26094 8.54676 10.30696 11.72117 14.33886
16 5.14221 5.81221 6.90766 7.96165 9.31224 11.15212 12.62435 15.33850
17 5.69722 6.40776 7.56419 8.67176 10.08519 12.00227 13.53068 16.33818
18 6.26480 7.01491 8.23075 9.39046 10.86494 12.85695 14.43986 17.33790
19 6.84397 7.63273 8.90652 10.11701 11.65091 13.71579 15.35166 18.33765
20 7.43384 8.26040 9.59078 10.85081 12.44261 14.57844 16.26586 19.33743
21 8.03365 8.89720 10.28290 11.59131 13.23960 15.44461 17.18227 20.33723
22 8.64272 9.54249 10.98232 12.33801 14.04149 16.31404 18.10072 21.33704
23 9.26042 10.19572 11.68855 13.09051 14.84796 17.18651 19.02109 22.33688
24 9.88623 10.85636 12.40115 13.84842 15.65868 18.06180 19.94323 23.33673
25 10.51965 11.52398 13.11972 14.61141 16.47341 18.93975 20.86703 24.33659
26 11.16024 12.19815 13.84390 15.37916 17.29188 19.82019 21.79240 25.33646
27 11.80759 12.87850 14.57338 16.15140 18.11390 20.70298 22.71924 26.33634
28 12.46134 13.56471 15.30786 16.92788 18.93924 21.58797 23.64746 27.33623
29 13.12115 14.25645 16.04707 17.70837 19.76774 22.47505 24.57699 28.33613
30 13.78672 14.95346 16.79077 18.49266 20.59923 23.36411 25.50776 29.33603
40 20.70654 22.16426 24.43304 26.50930 29.05052 32.34495 34.87194 39.33534
50 27.99075 29.70668 32.35736 34.76425 37.68865 41.44921 44.31331 49.33494
60 35.53449 37.48485 40.48175 43.18796 46.45889 50.64062 53.80913 59.33467
120 83.85157 86.92328 91.57264 95.70464 100.62363 106.80561 111.41857 119.33400
64
Inversa de la función de distribución χ2 de Pearson:
Xn (x) = P [χ2n ≤ x], Xn (χ2n,α ) = α, Xn−1 (α) = χ2n,α
nα 0.7 0.8 0.9 0.95 0.975 0.99 0.995

1 1.07419 1.64237 2.70554 3.84146 5.02389 6.63490 7.87944
2 2.40795 3.21888 4.60517 5.99146 7.37776 9.21034 10.59663
3 3.66487 4.64163 6.25139 7.81473 9.34840 11.34487 12.83816
4 4.87843 5.98862 7.77944 9.48773 11.14329 13.27670 14.86026
5 6.06443 7.28928 9.23636 11.07050 12.83250 15.08627 16.74960
6 7.23114 8.55806 10.64464 12.59159 14.44938 16.81189 18.54758
7 8.38343 9.80325 12.01704 14.06714 16.01276 18.47531 20.27774
8 9.52446 11.03009 13.36157 15.50731 17.53455 20.09024 21.95495
9 10.65637 12.24215 14.68366 16.91898 19.02277 21.66599 23.58935
10 11.78072 13.44196 15.98718 18.30704 20.48318 23.20925 25.18818
11 12.89867 14.63142 17.27501 19.67514 21.92005 24.72497 26.75685
12 14.01110 15.81199 18.54935 21.02607 23.33666 26.21697 28.29952
13 15.11872 16.98480 19.81193 22.36203 24.73560 27.68825 29.81947
14 16.22210 18.15077 21.06414 23.68479 26.11895 29.14124 31.31935
15 17.32169 19.31066 22.30713 24.99579 27.48839 30.57791 32.80132
16 18.41789 20.46508 23.54183 26.29623 28.84535 31.99993 34.26719
17 19.51102 21.61456 24.76904 27.58711 30.19101 33.40866 35.71847
18 20.60135 22.75955 25.98942 28.86930 31.52638 34.80531 37.15645
19 21.68913 23.90042 27.20357 30.14353 32.85233 36.19087 38.58226
20 22.77454 25.03751 28.41198 31.41043 34.16961 37.56623 39.99685
21 23.85779 26.17110 29.61509 32.67057 35.47888 38.93217 41.40106
22 24.93902 27.30145 30.81328 33.92444 36.78071 40.28936 42.79566
23 26.01837 28.42879 32.00690 35.17246 38.07563 41.63840 44.18128
24 27.09596 29.55332 33.19624 36.41503 39.36408 42.97982 45.55851
25 28.17192 30.67520 34.38159 37.65248 40.64647 44.31410 46.92789
26 29.24633 31.79461 35.56317 38.88514 41.92317 45.64168 48.28988
27 30.31929 32.91169 36.74122 40.11327 43.19451 46.96294 49.64492
28 31.39088 34.02657 37.91592 41.33714 44.46079 48.27824 50.99338
29 32.46117 35.13936 39.08747 42.55697 45.72229 49.58788 52.33562
30 33.53023 36.25019 40.25602 43.77297 46.97924 50.89218 53.67196
40 44.16487 47.26854 51.80506 55.75848 59.34171 63.69074 66.76596
50 54.72279 58.16380 63.16712 67.50481 71.42020 76.15389 79.48998
60 65.22651 68.97207 74.39701 79.08194 83.29767 88.37942 91.95170
120 127.61590 132.80628 140.23257 146.56736 152.21140 158.95017 163.64818
65
3.7.5. Prueba de bondad de ajuste chi-cuadrado
Cuando se está trabajando con datos, una de las tareas que generalmente
aparece, es la tener alguna idea sobre la distribución de probabilidad que
pudo generarlos. A partir de las curvas de frecuencia o histogramas de los
datos que se están estudiando, se pueden observar características como la
simetría, o asimetría, que generan hipótesis sobre la posible distribución de
la que provienen los datos.
Existen varias pruebas llamadas chi-cuadrado, diseñadas para responder
a diferentes objetivos. La prueba chi-cuadrada que se presenta a continuación
permite llegar a concluir (estadísticamente) si una distribución se acomoda
o no a un determinado conjunto de datos.
Se comienza planteando una hipótesis, que se conoce como la hipótesis
nula y se denota por H0 , en la que se afirma que los datos siguen alguna
distribución f y una alternativa, denotada por Ha en la que se afirma lo
contrario de H0 . Para concluir acerca de estas hipótesis, se requiere hacer
unos cálculos iniciales, como:
ei : las frecuencias esperadas teóricamente, si los datos se distribuyen
como se plantea en la hipótesis y,
Oi : las frecuencias observadas en los datos.
Entonces, (se puede mostrar teóricamente que) la variable
k
X (Oi − ei )2
,
i=1
ei
tiene aproximadamente una distribución χ2 con δ = k − 1 − m grados de

libertad, donde k es el número de clases o categorías en las que se guardaron
los datos y m es el número de parámetros que se requiere estimar para calcular
las frecuencias ei .
Para aplicar la prueba de bondad de ajuste chi-cuadrado de los datos a
una distribución específica debe garantizarse los datos son una muestra al
azar entre todas las unidades de la población y que luego sean clasificadas
en k categorías.
Como regla práctica, los valores de ei deben ser mayores o iguales a 5;
en caso contrario se deben reagrupar las categorías. Con esto se asegura una
66
buena aproximación a la distribución χ2 .
Prueba de bondad de ajuste:
H0 : los datos provienen de una distribución especificada (uniforme, normal,
exponencia, binomial, de Poisson, ...)
Ha : Los datos no siguen la distribución especificada.
Estadístico de prueba:
k
X (Oi − ei )2
χ2c = , e ≥ 5, k ≥ 2.
i=1
ei
Decisión: Se rechaza H0 , con una confianza del (1 − α)100 % si el estadístico

de prueba calculado con los datos, χ2c > χ21−α (δ), donde δ = k − 1 − m y m
es el número de parámetros estimados para calcular las ei .
Ejemplo 3.24. (Tomado del texto Estadística aplicada de Julio César Ángel,
Eafit.) Se cree que el número de accidentes de trabajo por semana en una
empresa metalmecánica sigue una distribución de Poisson. Para ello se tomó
una muestra al azar de 200 semanas. Los datos aparecen en la siguiente tabla.
Número de accidentes Número de semanas en las que

por semana ocurrieron Xi accidentes (Oi )
0 82
1 100
2 15
3 2
4 1
200
¿Puede concluirse que el número de accidentes por semana sigue una

distribución de Poisson? Trabajemos con una confianza del 99 % (α = 0,01).
H0 : el número de accidentes por semana (Xi ) sigue una distribución de
Poisson.
Ha : el número de accidentes por semana (Xi ) no sigue una distribución
de Poisson.
Para calcular las frecuencias esperadas ei según la distribución de Poisson

debe estimarse el parámetro λ, para lo cual se usa X̄ (el estimador de máxima
67
verosimilitud de la media de la Poisson, λ̂ = X̄).
X n i xi 140
X̄ = = = 0,70
n 200
Usando λ = 0,7 en la distribución de Poisson, se calculan las frecuencias

esperadas, así:
e1 = nP(X = 0) = 200(0,4966) = 99,32

e2 = nP(X = 1) = 200(0,8442 − 0,4966) = 69,52
e3 = nP(X = 2) = 200(0,9659 − 0,8442) = 24,34
e4 = nP(X = 3) = 200(0,9942 − 0,9659) = 5,66
e5 = nP(X = 4) = 200(0,9992 − 0,9942) = 1
Como una de las sugerencias para este método es que las frecuencias
esperadas sean no inferiores a 5, y e5 < 5, se reagrupan las dos últimas
categorías, y así,
e4 = nP(X = 3, ó X = 4) = 5,66 + 1 = 6,66
Así, k = 4 y los grados de libertad δ = k − 1 − m = 4 − 1 − 1 = 2.

Entonces,
(82 − 99,32)2 (100 − 69,52)2 (15 − 24,34)2 (3 − 6,66)2

χ2c = + + + = 21,97
99,32 69,52 24,34 6,66
De la tabla: χ20,99 (2) = 9,22.

Decisión: Como χ2c > χ20,99 (2), se rechaza H0 . Es decir, no puede concluirse
que el número de accidentes por semana sigue una distribución de Poisson.
68
Capítulo 4
Procesos Estocásticos
4.1. Introducción
Cuando se estudian fenómenos en los que está involucrada alguna com-
ponente aleatoria, además de los modelos determinísticos es necesario definir
modelos probabilísticos. Muchos de estos fenómenos se estudian en función
del tiempo. Los procesos estocásticos se refieren modelos de sistemas que
varían en el tiempo en forma aleatoria.
4.2. Definición y ejemplos

Definición 4.1. Un proceso estocástico es un conjunto de variables aleato-
rias {Xn }n∈I para un conjunto de índices I finito o contable, o {X(t)}t∈T
donde T es un conjunto de índices no-enumerable.
En el caso en que I es finito o contable se dice que el proceso es de tiempo
discreto. En el caso del conjunto de índices no-enumerable T , se dice que el
proceso es de tiempo continuo.
El conjunto de todos los posibles valores de las variables aleatorias Xn , en
el caso del tiempo discreto, o X(t) en el caso del tiempo continuo, se denota
con S y se llama espacio de estados del proceso o también, alfabeto del
proceso. Cada elemento de S se llama estado.
S también se clasifica como continuo o discreto de acuerdo al conjunto
de valores que toma.
Ejemplo 4.1. Se están contando el número de artículos defectuosos que
produce por hora una máquina específica. En este caso, tanto el espacio de
estados S como el conjunto de índices son discretos. Ambos toman valores
en N.
Xn : número de artículos defectuosos producido por cierta máquina cada
hora.
{Xn }n∈N es un proceso de tiempo discreto con espacio de estados discreto.
Ejemplo 4.2. En una caja de un banco se cuenta el número de clientes en

la fila en un tiempo cualquiera.
X(t) : número de clientes en espera para ser atendido en la caja de un
banco en tiempo cualquiera.
{X(t)}t∈R+ es un proceso con espacio de estados discreto S = N y de
tiempo continuo.
Ejemplo 4.3. Suponga que se está midiendo el tiempo de espera entre la

llegada de clientes desde que se abre una tienda en la mañana.
X1 : tiempo de espera desde que se abre la tienda hasta la llegada del
primer cliente.
X2 : tiempo de espera desde que llega el primer cliente hasta que llega el
segundo cliente.
Xn : tiempo de espera desde que llega el primer cliente el n − 1-ésimo
cliente hasta que llega el n-ésimo cliente.
Para este proceso estocástico {Xn } caso el espacio de estados es continuo,
los tiempos de espera, mientras que el conjunto de índices es discreto, es el
conjunto de cardinales asignados por la llegada del cliente.
4.3. Cadenas de Markov

Suponga que, con el propósito de mejorar la atención, se está observando
el número de clientes que hay en una oficina de un banco en cada media
hora hábil: 8:00am, 8:30am, 9:00am, 9:30m,. . . Es decir, se está observando
un conjunto de variables aleatorias, X8:00 , X8:30 , X9:00 , . . . donde cada una de
ellas representa el número de clientes en la oficina en un tiempo específico.
70
Por comodidad, escribamos X1 , X2 , . . .. Este es un proceso donde las variables
consideradas son discretas (número de clientes), o sea, el conjunto de estados
es discreto y además, el conjunto de índices considerado (8:00am, 8:30am,
9:00am,. . .) también es discreto.
Una de las características de este conjunto de variables es que si se conoce
el valor que toma una de ellas, digamos Xn , el número de clientes en los
tiempos siguientes, es decir, los valores que tomarán Xn+1 , Xn+2 , . . ., puede
depender sólo de Xn y la información de los valores tomados por X1 , . . . , Xn−1
podría ser irrelevante. En el lenguaje de probabilidad, conocido el valor de
Xn , el número de clientes en la oficina en tiempos posteriores es independiente
del número de clientes que habían en los tiempos anteriores n − 1, n − 2, . . .
Los procesos que vamos a estudiar en esta sección, se conocen como ca-
denas de Markov y se caracterizan por la propiedad descrita en el ejemplo.
Es decir, una cadena de Markov es un proceso en el que dado un evento del
presente, el futuro es un independiente del pasado del proceso.
Las cadenas de Markov fueron inicialmente estudiadas por el matemáti-
co ruso, Andrei Andreyevich Markov (1856-1922), quien fue estudiante de
Chebyshev. Markov, además de investigar en Teoría de la Probabilidad, tam-
bién trabajó en varias ramas de la matemática. Las cadenas de Markov son el
resultado de su trabajo sobre la generalización de la Ley fuerte de los grandes
números a casos en los que las variables no son independientes.
Durante la presentación que haremos de las cadenas de Markov, primero
estudiaremos las de tiempo discreto y mas adelante consideraremos las de
tiempo continuo.
4.3.2. Cadenas de Markov de tiempo discreto

Definición 4.2. Se dice que un proceso estocástico {Xn }n∈N , que tiene es-
pacio de estados S finito o numerable, es una cadena de Markov de tiem-
po discreto o simplemente cadena de Markov discreta, si para todo
i, j, i0 , i1 , . . . , in−1 ∈ S, y n = 0, 1, 2, . . .,
P(Xn+1 = j|Xn = i, Xn−1 = in−1 , . . . , X0 = i0 ) = P(Xn+1 = j|Xn = i).
(4.1)
Los elementos del espacio de estados S no son necesariamente números
71
enteros, pero para simplificar la notación, vamos a suponer que son enteros
no-negativos. Si S es finito, la cadena de Markov será llamada cadena de
Markov de finitos estados y si S es infinito, la cadena de Markov será
llamada cadena de Markov de infinitos estados.
La principal propiedad de las cadenas de Markov, dada en la expresión
4.1 se conoce como propiedad markoviana. En palabras:
La probabilidad de que un proceso, en el futuro, esté en el estado j, sola-
mente depende del estado del proceso en el presente. El valor de esta probabil-
idad no se afecta por el pasado. O de otra forma, dado el estado de la cadena
de Markov en el presente (Xn ), su estado futuro (Xn+1 ) es independiente de
los estados del pasado (Xn−1 , Xn−2 , . . . , X0 ).
Definición 4.3. La probabilidad condicional dada por:
P(Xn+1 = j|Xn = i),
es conocida como la probabilidad de transición del estado i al estado j

en un paso.
Cuando esta probabilidad no depende del tiempo (n y n+1) se dice que la
probabilidad de transición es estacionaria. En ese caso se usa la notación,
pij así:
pij := P(Xn+1 = j|Xn = i).
Entonces, pij representa la probabilidad de que si el proceso estando en el
estado i en el tiempo n, pase al estado j en el tiempo n + 1.
Ejemplo 4.4. Se lanza una moneda legal, sucesivamente. Sea Xn el número
de caras obtenidas hasta el lanzamiento n. Entonces, {Xn }n∈N es una cadena
de Markov, donde,
1
pm,m+1 = P(Xn+1 = m + 1|Xn = m) = .
2
Observe que el valor de la probabilidad de aumentar en 1 el número de caras,
no depende de n.
Nota: Mientras no se aclare lo contrario, todas las probabilidades de transi-

ción consideradas son estacionarias.
72
La información de estas probabilidades de transición se almacena en la
matriz P , conocida como la matriz de transición de la cadena de Markov
{Xn }n=0,1,... . La componente (i, j) de la matriz P es la probabilidad de tran-
sición pi−1,j−1 :  
p00 p01 p02 · · ·
P = p10 p11 p12 · · ·
 
..
.
Observación: pij ≥ 0, para todo i, j = 0, 1, 2, . . ., es decir, todas las entradas
de esta matriz son no-negativas. Además, la suma de los elementos de cada
fila es 1. Es decir, para cualquier i,
X
pij = 1.
j≥0
Ejemplo 4.5. Suponga que la probabilidad de que llueva mañana solo de-
pende de si hoy llueve o no, y no depende de las condiciones del clima de
ayer.
Suponga que si llueve hoy, la probabilidad de que llueva mañana es α y
que si no llueve hoy, la probabilidad de que llueva mañana es β.
Si se denota con 0: el estado lluvia y 1: el estado no lluvia, entonces
tenemos una cadena de Markov discreta {Xn }n∈N , que toma los valores {0, 1},
donde,
P(Xn+1 = 0|Xn = 0) = α
P(Xn+1 = 0|Xn = 1) = β
Entonces, la matriz de transición de está dada por:

α 1−α
P =
β 1−β
Ejemplo 4.6. (Transformando un proceso en una cadena de Markov) Supon-

ga que la probabilidad de que llueva o no llueva hoy, depende de las condi-
ciones del tiempo de los dos últimos días. Si se denota con 0 el estado lluvia y
1 el estado no lluvia, entonces, suponga que tenemos la siguiente información:
73
P(Xn+1 = 0|Xn = 0, Xn−1 = 0) = 0,7
P(Xn+1 = 0|Xn = 0, Xn−1 = 1) = 0,5
P(Xn+1 = 0|Xn = 1, Xn−1 = 0) = 0,4
P(Xn+1 = 0|Xn = 1, Xn−1 = 1) = 0,2
Bajo estas condiciones, el proceso {Xn }n∈N no es Markov. Sin embargo, es
posible transformarlo a una cadena de Markov definiendo el estado de la
cadena por las condiciones del clima en dos días consecutivos.
Considere el proceso estocástico {Yn }n∈N que toma los valores 0, 1, 2 y 3,
así:
Estado 0 = llueve hoy y llovió ayer = {Xn = 0, Xn−1 = 0}
Estado 1 = llueve hoy pero ayer no llovió = {Xn = 0, Xn−1 = 1}
Estado 2 = llovió ayer pero hoy no = {Xn = 1, Xn−1 = 0}
Estado 3 = no llovió ayer ni hoy = {Xn = 1, Xn−1 = 1}
En el proceso {Yn }n∈N , por ejemplo, la probabilidad de transición p00 está
dada por:
p00 = P(Yn+1 = 0|Yn = 0) = P(Xn+1 = 0, Xn = 0|Xn = 0, Xn−1 = 0)
P(Xn+1 = 0, Xn = 0, Xn = 0, Xn−1 = 0)
=
P(Xn = 0, Xn−1 = 0)
P(Xn+1 = 0|Xn = 0, Xn−1 = 0)P(Xn = 0, Xn−1 = 0)
=
P(Xn = 0, Xn−1 = 0)
= 0,7
Entonces, la matriz de transición del proceso {Yn }n∈N está dada por:
   
p00 p01 p02 p03 0,7 ··· ··· ···
p10 p11 p12 p13  · · ·
  · · · · · · · · ·
PY =  = 
p20 p21 p22 p23  · · · ··· ··· 0 
p30 p31 p32 p33 ··· · · · · · · 0,2
Ejercicio: Completar los datos de la matriz de transición.
74
Ejemplo 4.7. Sean Y0 , Y1 , . . . variables aleatorias independientes tomando
valores o negativos (por ejemplo, puntajes obtenidos al lanzar un dado repeti-
damente). La sucesión {Xn }n∈N0 definida por:
X0 = Y0
Xn = X0 + Y1 + Y2 + . . . + Yn , para n ≥ 1,
es una cadena de Markov. (Xn , en el ejemplo del dado lanzado repetidamente,

sería la suma de los puntajes obtenidos hasta el lanzamiento n.)
En efecto,
P(Xn+1 = j|Xn = i, Xn−1 = in−1 , . . . , X1 = i1 , X0 = i0 )
P(Xn+1 = j, Xn = i, Xn−1 = in−1 , . . . , X1 = i1 , X0 = i0 )
=
P(Xn = i, Xn−1 = in−1 , . . . , X1 = i1 , X0 = i0 )
P(X0 = i0 , Y1 = i1 − i0 , Y2 = i2 − i1 , . . . , Yn = i − in−1 , Yn+1 = j − i)
=
P(X0 = i0 , Y1 = i1 − i0 , Y2 = i2 − i1 , . . . , Yn = i − in−1 )
= P(Yn+1 = j − i)
= P(Xn+1 = j|Xn = i)
4.3.3. Ejemplos famosos

Camino aleatorio o procesos de nacimiento y muerte
Considere un proceso estocástico {Xn }n∈Z+ cuyo espacio de estados es
S = Z, sus probabilidades de transición están dadas por
pi,i+1 = p
pi,i−1 = 1 − p
donde 0 < p < 1.

Este modelo se conoce como camino aleatorio simple (ing: Random
walk), o cadena de nacimiento y muerte (ing: birth and death chain)
porque en algunas aplicaciones donde los estados de la cadena corresponden
75
al tamaño de alguna población, la transición del estado i al estado i + 1
significa un “nacimiento” y la transición del estado i al estado i − 1 significa
una “muerte”. Otro nombre por el que se conoce esta cadena es el camino del
borracho, porque puede modelar el camino seguido por un individuo, que va
caminando en línea recta y en cada paso va a hacia adelante con probabilidad
p o hacia atrás con probabilidad 1 − p.
La matriz de transición para este caso se puede describir por:
··· −2 −1 0 1 2 ···
 
··· ··· ··· ··· ··· ··· ···
−2 · · · 0 p 0 0 0 · · ·
 
−1 · · · 1−p 0 p 0 0 · · ·
 
P = 0 · · · 0 1−p 0 p 0 · · ·
 
1 · · · 0 0 1−p 0 p · · ·
 
2 · · · 0 0 0 p 1−p · · ·
··· ··· ··· ··· ··· ··· ···
Observación: Este modelo puede generalizarse adicionando una probabili-

dad positiva de que el proceso pueda quedarse en el mismo estado. Es decir,
las probabilidades de transición son:


 qi si j = i − 1
ri si j = i

pij =

 pi si j = i + 1
0 e.o.c.

donde pi , qi y ri son números no negativas que cumplen que pi + qi + ri = 1.
Ejemplo 4.8. (Modelo del apostador - ing: Gambler’s ruin) Considere un

apostador que entra a un juego con cierta cantidad de dinero $N y que
en cada jugada, gana $1 con probabilidad p o pierde $1 con probabilidad
1 − p. Suponga que este jugador sale del juego cuando se quiebra (es decir, se
queda sin dinero) o cuando consigue acumular una cierta cantidad de dinero
C adicional a la que tenía cuando entró en el juego. Entonces, el conjunto de
estados de esta cadena es S = {0, 1, . . . , N, N + 1, . . . , N + C}
76
Las probabilidades de transición son:
pi,i+1 = p
pi,i−1 = 1 − p
p00 = pN +C,N +C = 1
donde 1 ≤ i ≤ N + C − 1.
Observación: En una realización de un proceso que tiene estados en los que

su probabilidad de transición es 1, (como los estados 0 y 2N en el modelo
del apostador), se observa que si el proceso llega a este estado se queda ahí.
Estos estados se conocen como estados absorbentes. Los estados que no
son absorbentes se llaman estados transitorios.
El siguiente ejemplo, fue introducido en 1907 por los físicos Paul y T.
Ehrenfest para explicar algunas paradojas que se dan en temas asociados a
la termodinámica.
Ejemplo 4.9. (Cadena de Ehrenfest o Urnas de Ehrenfest) Suponga que
hay N bolas numeradas de 1 a N y distribuidas aleatoriamente en dos urnas.
En el tiempo n se selecciona, al azar, un número del conjunto {1, 2, . . . , N }.
Entonces, la bola correspondiente a ese número se busca en una de las dos
urnas y se cambia a la otra urna. Sea Xn el número de bolas en la urna I
después de n transferencias.
Se puede observar que {Xn }n∈N es una cadena de Markov con espacio de
estados S = {0, 1, 2, . . . , N } y matriz de probabilidades de transición dada
por:
0 1 2 3 4 ··· N −2 N −1 N
 
0 0 1 0 0 0 ··· 0 0 0
 1 N −1
1 N 0 N
0 0 ··· 0 0 0 
2 N −2
2 0
 N
0 N
0 ··· 0 0 0 
3 N −3
P = 3 0
 0 N
0 N
··· 0 0 0 
..  .. .. .. 
.  . . . 
N −1 1 
 
N − 1 0 0 0 0 0 ··· N
0 N
N 0 0 0 0 0 ··· 0 1 0
77
Proceso de ramificación
Suponga que, antes de morir, un organismo produce j hijos con proba-
bilidad αj , (j ≥ 0) independiente de los otros organismos. Sea X0 el tamaño
inicial de la población de tales organismos. El número total de hijos de los
organismos en la población inicial, denotado por X1 , es el tamaño de la
población de la primera generación. Todos los hijos de los organismos de la
primera generación forman la segunda generación, y el tamaño de la segunda
generación se denota por X2 . Así se continúa.
Este proceso estocástico, {Xn }n∈N0 , con S = {0, 1, 2, . . .}, donde Xn es
el tamaño de la n-ésima generación, se conoce como el proceso de ramifi-
cación (ing: branching process). Fue introducido por Galton en 1889 estu-
diando la extinción de apellidos de familias. En este estudio solo se consid-
eraban los hijos hombres, pues eran los que podían heredar el apellido.
Sea P = (pij ) la matriz de transición de este proceso. Observe que p00 = 1
porque si en una generación hay 0 organismos, ya no pueden haber organis-
mos en las siguientes generaciones, “la población se extingue”. Por tanto, 0
es un estado absorbente.
Como el número de hijos de un organismo es independiente del número de
hijos de cualquier otro organismo, si en una generación hay x organismos, la
probabilidad de que ninguno tenga hijos es α0x . En términos de probabilidades
de transición, px0 = α0x .
4.3.4. Ecuaciones de Chapman-Kolmogorov

La probabilidad de transición pij se puede interpretar como la probabili-
dad de pasar del estado i al estado j en un solo paso. En lo que sigue deter-
minaremos la probabilidad de transición de un estado a otro en un número
dado de pasos.
Definición 4.4. La probabilidad de transición en n pasos del estado i

al estado j, que se denota por pnij , está dada por:
pnij := P(Xn+m = j|Xm = i), n ≥ 0, i, j ≥ 0.
Estas probabilidades se almacenan en la matriz de transición en n
78
pasos denotada por P (n) :
 
pn00 pn01 pn02 · · ·
 n n n
P (n) = p10 p11 p12 · · ·

..
.
Observación: P (1) = P , la matriz de transición de la cadena.

La matriz P (0) es la matriz identidad. En efecto, la probabilidad de pasar
del estado i al estado j en 0 pasos solo es posible si i = j. Es decir, p0ii = 1 y
pij = 0, si i 6= j.
Se debe tener cuidado con la notación pnij que es diferente de elevar a
la n-ésima potencia la probabilidad pij . Esta potencia se puede denotar con
(pij )n .
Para que la cadena pase de un estado i a un estado j en n + m pasos,
debió haber entrado en algún estado k en el tiempo n y después de m transi-
ciones pasó al estado j. Esto está mostrado en las ecuaciones conocidas como
las Ecuaciones de Chapman-Kolmogorov que pueden demostrarse usando la
regla de la probabilidad total.
Definición 4.5. (Ecuaciones de Chapman-Kolmogorov)
X
pn+m
ij = pnik pm
kj
k∈S
En efecto,
pn+m
ij = P(Xn+m = j|X0 = i)
P(Xn+m = j, X0 = i)
=
P(X0 = i)
X P(Xn+m = j, Xn = k, X0 = i)
=
k∈S
P(X0 = i)
X
= P(Xn+m = j|Xn = k, X0 = i)P(Xn = k|X0 = i)
k∈S
X
= P(Xn+m = j|Xn = k)P(Xn = k|X0 = i)
k∈S
X X
= pm n
kj pik = pnik pm
kj
k∈S k∈S
79
Note que, en las ecuaciones de Chapman-Kolmogorov, pn+m ij denota la
(n+m)
entrada (i, j) de la matriz de transición en n + m pasos, P , mientras
que pik es la entrada (i, k) de la matriz de transición en n pasos, P (n) , y, pm
n
kj
(m)
es la entrada (k, j) de la matriz de transición en m pasos P . Entonces, de
las ecuaciones de Chapman-Kolmogorov se obtiene que.
P (n+m) = P (n) · P (m) ,
donde · denota la multiplicación entre matrices.
De aquí se deduce que,
P (n) = P · P (n−1) = P · P · P (n−2) = . . . = P n .
Por esto, P (n) se puede calcular multiplicando la matriz P por sí misma n
veces.
Ejemplo 4.10. Considere una cadena de Markov con espacio de estados

S = {0, 1, 2} y matriz de transición dada por:
0 1 2
 
0 0 1 0
P = 1 1 − p 0 p
2 0 1 0
Para calcular la probabilidad de que al salir de un estado se llegue a otro
(2)
en dos pasos, es decir pij , se multiplica la matriz de transición P por ella
misma:
     
0 1 0 0 1 0 1−p 0 p
P 2 = 1 − p 0 p · 1 − p 0 p =  0 1 0
0 1 0 0 1 0 1−p 0 p
Entonces, por ejemplo, la probabilidad de pasar del estado 2 al estado 1 en
dos pasos, p221 = 0.
La matriz de transición en tres pasos es:
     
0 1 0 1−p 0 p 0 1 0
P 3 = 1 − p 0 p  ·  0 1 0  = 1 − p 0 p = P
0 1 0 1−p 0 p 0 1 0
Por tanto,
P 4 = P 3 · P = P · P = P 2.
80
4.3.5. Probabilidad inicial
Hasta ahora solo hemos considerado probabilidades condicionales, pero si
se quiere conocer las probabilidades no condicionadas es necesario especificar
la distribución de probabilidad de los estados iniciales, es decir, las probabil-
idades P(X0 = i), donde i es cualquier posible estado de la cadena.
Definición 4.6. La función π0 (i) = P(X0 = i)definida para todo i ∈ S,
se conoce como la probabilidad inicial , o distribución inicial de la
cadena.
Propiedades: Como la función π0 (i) es una función de probabilidad cumple
las propiedades de las funciones de probabilidad.
1. 0 ≤ π0 (i) ≤ 1
P
2. i∈S π0 (i)
Observe que, conociendo las probabilidades de transición y las proba-

bilidades iniciales, se puede determinar la probabilidad de ocurrencia de
cualquier evento de la cadena.
X
P(Xn = j) = P(Xn = j, X0 = i)
i∈S
X
= P(Xn = j|X0 = i)P(X0 = i)
i∈S
X
= pnij π0 (i)
i∈S
Ejemplo 4.11. (Una cadena de Markov de dos estados) Consideremos una

máquina que al inicio del día está funcionando o esté dañada.
Estado 0 = la máquina amanece dañada

Estado 1 = la máquina amanece buena
Suponga que para iniciar el estudio, se observa que la probabilidad de que

ese día la máquina hubiera amanecido dañada fue de 0.2. O sea, π0 (0) = 0,2.
81
Asuma también, que si la máquina amanece dañada, la probabilidad de
que la reparen durante el día y amanezca buena al día siguiente es 0,7. Es
decir, si se denota con Xn el estado de la máquina en el tiempo n,
P(Xn+1 = 1|Xn = 0) = 0,7.
Asuma que si la máquina amaneció funcionando bien cierto día, la probabil-
idad de que ocurra algún problema y amanezca dañada el día siguiente es
0.4. Es decir,
P(Xn+1 = 0|Xn = 1) = 0,4
Si se supone que el funcionamiento de la máquina cumple con la propiedad
markoviana, con la información de las probabilidades de transición y las prob-
abilidades iniciales se pueden calcular probabilidades conjuntas. Por ejemplo,
la probabilidad de que se inicie el estudio con la máquina dañada, al día sigu-
iente amanezca buena y al siguiente amanezca dañada otra vez es:
P(X0 = 0, X1 = 1, X2 = 0)
= P(X2 = 0|X1 = 1, X0 = 0)P(X1 = 1|X0 = 0)P(X0 = 0)
= P(X2 = 0|X1 = 1)P(X1 = 1|X0 = 0)π0 (0)
= (0,4)(0,7)(0,2) = 0,056
También, se puede mostrar por inducción que: (verificar!! creo que hay
un error!!)
P(Xn = 0) = 0,4(1 + 0,1 + 0,12 + . . . + 0,1n−1 ) + (0,1)n (0,2)

1 − 0,1n

= 0,4 + (0,1)n (0,2)
1 − 0,1
0,4
= (1 − 0,1n ) + (0,1)n (0,2)
0,9
¿Qué pasa cuando n → ∞?
0,4 4
lı́mn→∞ P(Xn = 0) = = .
0,9 9
Entonces, podemos interpretar que la proporción del tiempo que la máquina
permanece dañada es del 44,44 %.
82
4.3.6. Clasificación de los estados de una cadena de Markov
Sea {Xn }n=0,1,2,... una cadena de Markov con espacio de estado S y matriz
de transición P .
Definición 4.7. Se dice que un estado j es accesible desde el estado i si

hey una probabilidad positiva de que, saliendo de i, la cadena vista el estado
j después de un número finito de pasos. Es decir, existe un n ≥ 0 tal que
pnij > 0.
Si j es accesible desde i, se escribe i → j.
Definición 4.8. Si los estados i y j son accesibles cada uno desde el otro, es
decir, i → j y j → i, entonces se dice que i y j se comunican y se escribe
i ↔ j.
Observación: La relación comunicación es una relación de equivalencia. Es

decir, es simétrica, reflexiva y transitiva.
Reflexiva: Para todo i ∈ S, i ↔ i, dado que p0ii = 1 > 0.
Simétrica: Si i ↔ j entonces j ↔ i, de la definición de comunicación.
Transitiva: Si i ↔ j y j ↔ k, entonces, i ↔ k.
Para probar la transitividad, basta probar la accesibilidad en una única di-

rección, la otra se muestra similarmente.
Supongamos que i → j y j → k, entonces, existen n y m no negativos tales
que pnij > 0 y pm
jk > 0. Por las ecuaciones de Chapman-Kolmogorov,
X
pn+m
ik = pnil pm n m
lk > 0 ≥ pij pjk > 0.
l∈S
Por tanto, i → k.
Sabemos que una relación de equivalencia sobre un conjunto, lo divide en
subconjuntos disjuntos, llamados clases. En una cadena de Markov, relación
de equivalencia comunicación divide el espacio de estados en una colección de
clases disjuntas, donde cada clase contiene aquellos estados que se comunican
entre ellos.
83
Ejemplo 4.12. Considere una matriz de transición con tres estados {0, 1, 2}
y matriz de transición dada por
 
1/2 1/2 0
P = 1/2 1/4 1/4
0 1/3 2/3
Se observa que p02 = 0, pero p202 > 0, entonces 0 → 2. Similarmente, 2 → 0.
Entonces, los estados 2 y 0 se comunican.
También se observa que 0 ↔ 1. Entonces, este conjunto de estados está
formado por una única clase {0, 1, 2}.
Ejemplo 4.13.  
1/2 1/2 0
P =  0 1/2 1/2
0 1/3 2/3
Se observa que 0 → 1 (en un paso), 1 → 2, 2 → 1 y 0 → 2 (p202 > 0). Sin
embargo, 2 9 0 y 1 9 0.
Entonces, este conjunto de estados está formado por dos clases {1, 2} y
{0}.
Definición 4.9. Se dice que una cadena de Markov es irreducible si existe

una única clase, es decir, todos los estados se comunican entre sí.
Para una cadena de Markov {Xn }n=0,1,... , considere las probabilidades fi

y 1 − fi , definidas a continuación:
Sea fiin la probabilidad de que, comenzando
P∞ en ni, la primera transición al
estado i sea en el paso n y sea Sea fi := n=1 fii , la probabilidad de que
comenzando en i, el proceso pueda regresar al estado i en un número finito
de pasos.
Decimos que el estado i es recurrente si fi = 1. Suponga que, el proceso
comenzando en i, retorne a estado i con probabilidad 1. Entonces, cada vez
que el proceso entre en el estado i, se renueva a sí mismo, y el primer retorno
al estado i implica un segundo retorno al estado i y así continúa.
Se dice que el estado i es transitorio si fi < 1. Es decir, comenzando en
i, hay una probabilidad positiva, 1 − fi > 0, de que el proceso no retorne a i.
84
Teorema 4.1. Para una cadena de Markov {Xn }n=0,1... con matriz de tran-
sición P = (pij ),
P∞ n
n=0 pii = ∞ si y solamente si el estado i es recurrente.
P∞ n
n=0 pii < ∞ si y solamente si el estado i es transitorio.
Observaciones:
En una cadena de Markov con espacio de estados finito no todos los

estados pueden ser transitorios. (Debe existir por lo menos un estado
recurrente).
Si un estado es transitorio, el proceso debe volver a él solamente un
número finito de veces.
Una cadena de Markov con número de estados finitos tiene al menos
un estado recurrente.
La recurrencia es una propiedad de clase. Es decir, si un estado es recur-
rente y se comunica con otro esttado, este estado hereda la recurrencia.
Igual ocurre con la transitoriedad.
En una cadena de Markov irreducible con espacio de estados finito,
todos sus estados son recurrentes.
Teorema 4.2. 1. Si j es un estado recurrente y j ↔ k, entonces, k tam-

bién es recurrente.
2. Si j es un estado transitorio y j ↔ k, entonces, k también es transito-
rio.
Ejemplo 4.14. Retomemos el camino aleatorio simple, con espacio de es-

tados S = {0, ±1, ±2, . . .} y probabilidades de transición dadas por pi,i+1 =
p = 1 − pi,i−1 .
Claramente todos los estados se comunican entre sí, es decir, la cadena es
irreducible. Entonces, todos los estados son recurrentes, o todos son transi-
torios.
85
P∞
Consideremos el estado 0 y veamos si la suma n=1 pn00 es finita o infinita.
Se observa que p2n−1
00 = 0, para todo n = 1, 2, . . .
Además,

2n n (2n)!
p2n
00 = p (1 − p)n = (p(1 − p))n , n = 1, 2, . . .
n n!n!
1 √
Por la fórmula de Stirling, n! ∼ nn+ 2 e−n 2π, donde an ∼ bn equivale a
an
lı́mn→∞ = 1.
bn
Entonces,
∞
X (4p(1 − p))n
p2n
00 < ∞ sii √ <∞
n=1
πn
Esta última suma converge si y solamente si 4p(1 − 4) < 1 y diverge si y

solamente si 4p(1 − p) = 1, es decir si p = 1/2.
Por tanto, la cadena es recurrente cuando p = 1/2 y transitoria si p 6= 1/2.
Cuando p = 1/2, este proceso se conoce como camino aleatorio simétrico.
4.3.7. Probabilidades límite

Vamos a ver que existe una probabilidad límite, lı́mn→∞ pnij , que mide la
probabilidad de que el proceso esté en el estado j después de un número
grande de transiciones, y que este valor es independiente del estado inicial,
bajo ciertas condiciones.
Definición 4.10. Se dice que el estado i tiene periodo d si pnii = 0 cuando

n no es divisible por d, y d es el mayor número con esta condición. Si d = 1
se dice que el estado es aperiodico.
Ejemplo 4.15. Considere el camino aleatorio simétrico (p = 1/2). Saliendo

de cualquier estado i solo es posible regresar a él después de 2, 4, 6, . . . pasos.
Entonces, cualquier estado i tiene periodo 2.
86
Ejemplo 4.16. (Castillo de naipes)
Definición 4.11. Se dice que un estado i recurrente es recurrente positivo
si, comenzando en i, el tiempo esperado hasta que el proceso retorne al
estado i es finito. Si el tiempo esperado es infinito se dice que el estado i
es recurrente nulo
Observación: Tanto la recurrencia positiva como la periodicidad son propiedades

de clase.
Definición 4.12. Se dice que un estado i es ergódico si es recurrente posi-
tivo y aperiodico. Si todos los estados de la cadena son ergódicos se dice que
la cadena es ergódica.
El siguiente teorema es uno de los mas importantes de este tema.
Teorema 4.3. Para una cadena de Markov ergódica el límite lı́mn→∞ pnij
existe y es independiente de i. Además, tomando
πj = lı́mn→∞ pnij , j ≥ 0,
tenemos que πj es la única solución del sistema de ecuaciones:

∞
X
πj = πi Pij ,
i=0
∞
X
πj = 1
j=0
Definición 4.13. Sea {Xn } es una cadena de Markov con espacio de estados
discreto S y matriz de transición P = (pij ). Si existen números πi , con i
estado de S, tales que:
X
πi = 1
i∈S
X
πi pij = πj , j ∈ S (4.2)
i∈S
decimos que πi , i ∈ S es una distribución estacionaria o medida esta-

cionariade la cadena.
87
Observaciones:
Si lı́mn→∞ pnij existe y es independiente del estado inicial i, no es difícil

probar (heurísticamente) que los valores de los πi ’s deben satisfacer las
ecuaciones (4.2). Derivando una expresión para P(Xn+1 = j) condicio-
nando sobre los estados en el tiempo n se tiene que:
X
P(Xn+1 = j) = P(Xn+1 = j|Xn = i)P(Xn = i)
i∈S
X
= pij P(Xn = i)
i∈S
Tomando límite para n → ∞, y asumiendo que se cumplen las condi-

ciones matemáticas de convergencia que permiten intercambiar el límite
con la sumatoria, queda:
X
πj = πi pij .
i∈S
Se puede probar que πj , la probabilidad límite de que el proceso esté en

el estado j en el tiempo n, también es igual a la proporción del tiempo,
en largas corridas (ing: long run), de que el proceso se encuentre en el
estado j.
Si la cadena de Markov es irreducible, entonces se pueden solucionar las
ecuaciones (4.2), si y solamente si, la cadena de Markov es recurrente
positiva. Si existe una solución, esta será única y πj será la proporción
del tiempo correspondiente a la aparición del estado j en largas corridas
del proceso.
Ejemplo 4.17. Considere una cadena de Markov con espacio de estados

S = {1, 2, 3} y matriz de transición
 
0 3/4 1/4
P = 1/2 0
 1/2
1 0 0
Veamos que esta cadena tiene una única medida estacionaria.
A partir de la matriz de transición, se puede observar que este proceso
es ergódico, entonces, cumple con la hipótesis planteada en el Teorema 4.3
88
que nos confirma que esta medida estacionaria existe y es única. Esta medida
estacionaria se puede encontrar usando las siguientes ecuaciones:
X
πi = π1 + π 2 + π3 = 1
i∈{1,2,3}
y X
πj = πi pij = π1 p1j + π2 p2j + π3 p3j , j ∈ {1, 2, 3}.
i∈{1,2,3}
Al evaluar j = 1 en esta última ecuación se tiene:

π1 = π1 p11 + π2 p21 + π3 p31
1
= π1 · 0 + π2 · + π 3 · 1
2
π2 + 2π3
= (4.3)
2
De modo similar, con j = 2 y j = 3, se obtiene las ecuaciones:
3π1
π2 = (4.4)
4
π1 + 2π2
π3 = (4.5)
4
Resolviendo simultáneamente las ecuaciones (4.3), (4.4) y (4.5), y condicio-
nando a que la suma de estos tres valores es 1, se obtiene que la medida
estacionaria es:
8 6 5
π1 = ≈ 0,4211, π2 = ≈ 0,3158 y π3 = ≈ 0,2632.
19 19 19
Por cálculos directos se encuentra que la matriz de transición P elevada
a potencias cada vez mayores se va estabilizando en la medida estacionaria.
Para tener una idea intuitiva de este hecho, a continuación se presentan los
valores aproximados de las matrices de transición en 5, 10, 15 y 20 pasos.
 
0,4688 0,2930 0,2383
P (5) ≈ 0,3828 0,3750 0,2422
0,3906 0,2813 0,3281
 
0,4250 0,3142 0,2608
P (10) ≈ 0,4176 0,3209 0,2615
0,4189 0,3122 0,2689
89
 
0,4214 0,3157 0,2629
P (15) ≈ 0,4207 0,3162 0,2630
0,4209 0,3154 0,2637
 
0,4211 0,3158 0,2631
P (20) ≈ 0,4210 0,3158 0,2631
0,4210 0,3158 0,2632
4.3.8. Modelos ocultos de Markov

Los primeros estudios de los modelos ocultos de Markov, aparecieron al
final de los años 60 y comienzo de los años 70, sin embargo, fue a partir de
un artículo de Rabiner Lawrence, en 1989, en el que presenta un tutorial de
estos modelos con algunas aplicaciones al reconocimiento de voz, donde se
da el incremento de su uso en múltiples áreas.
En esta sección presentaremos el modelo y los ejemplos presentados por
Rabiner, incluyendo su notación original, la cual ha sido la tradicionalmente
conservada en la mayoría de las publicaciones relacionadas.
Las aplicaciones más comunes de estos modelos se dan en el tratamiento
de señales. Una de las principales razones para su uso se debe a que una señal
recibida puede estar distorsionada por ruidos externos difíciles de controlar y
a través de los modelos ocultos de Markov se busca descubrir la señal emitida
más probable.
Un Modelo Oculto de Markov (ing: Hidden Markov Model - HMM ) es
un proceso estocástico que consta de un proceso de Markov, llamado ocul-
to, q = {qn }n∈N y un proceso observable B = {vn }n∈N cuyos estados son
dependientes estocásticamente de los estados ocultos, es decir, es un proceso
bivariado (q, B).
En su trabajo, Rabiner explica que los modelos ocultos de Markov son
un:“. . . doble proceso estocástico con un proceso subyacente que no es ob-
servable (oculto) pero que puede ser observado a través de otro conjunto de
procesos estocásticos que generan la secuencia de observaciones.”
90
Proceso de Markov discreto
Considere un proceso de Markov {qn }n=1,2,... , que toma valores en el con-
junto de estados {S1 , S2 , . . . , SN }, con probabilidades de transición A = (aij )
dadas por:
aij = P(qn = Sj |qn−1 = Si ), i, j = 1, 2, . . .
Este proceso se conoce como el proceso de Markov oculto, porque es

el proceso que podrá ser visto a través de las observaciones de los estados en
cada instante de tiempo y cada estado corresponde a un evento observable
físicamente. En la figura está representado el modelo para el caso en el que
solamente hay 3 estados observables.
Figura 4.1: Proceso de Markov observable con 3 estados
Para establecer la notación, considere el siguiente ejemplo.
Ejemplo 4.18. Suponga que el estado del tiempo en la tarde se modela

como una cadena de Markov con los tres estados: S1 : Lluvioso, S2 : Nublado
y S3 : Soleado; y matriz de transición dada por:
 
0,4 0,3 0,3
A = (aij ) = 0,2 0,6 0,2
0,1 0,1 0,8
Si se sabe que el día 1 (t = 1) está soleado, se quiere determinar cuál es
la probabilidad de que el tiempo en los siguientes días sea: soleado- soleado-
soleado- lluvioso- lluvioso- soleado- nublado- soleado.
Usando la notación establecida en los estados se define al secuencia de
observación O = {S3 , S3 , S3 , S1 , S1 , S3 , S2 , S3 } correspondiente a los instantes
de tiempo n = 1, 2, . . . , 8, siendo t = 1 dado.
91
Figura 4.2: Proceso de Markov observable con 3 estados
La probabilidad de la secuencia O, dado el modelo, está dada por:

P(O|M odelo)
= P(q2 = S3 , q3 = S3 , q4 = S1 , q5 = S1 , q6 = S3 , q7 = S2 , q8 = S3 |q1 = S3 )
= a33 · a31 · a11 · a13 · a32 · a23 · a33 · π3
= 0,8 · 0,1 · 0,4 · 0,3 · 0,1 · 0,2 · 0,8 · 1
= 1,536 × 10−4
donde πi denota la probabilidad inicial del estado Si para i = 1, 2, 3. En este

caso,
π3 = P(q1 = S3 ) = 1.
Extensión a los Modelos ocultos de Markov

Los Modelos de Markov son una extensión de las cadenas de Markov en
la que se considera a cada uno de sus estados observables como una distribu-
ción de probabilidad del estado. Es decir, el modelo resultante es un proceso
estocástico no observable (oculto), pero que puede ser observado a través
de otro conjunto de procesos estocásticos que se producen en la secuencia
observada. Para fijar estas ideas, se consideran los siguientes ejemplos:
Ejemplo 4.19. (Modelo del lanzamiento de una moneda) Suponga que usted
está en un cuarto con una barrera, puede ser una cortina, que le impide ver
lo que sucede al otro lado. Del otro lado de la barrera hay una persona lan-
zando monedas. La otra persona no le dirá lo que está haciendo exactamente,
92
solamente le dirá el resultado de cada lanzamiento. Por lo tanto, se lleva a
cabo una sucesión de experimentos de lanzamiento de monedas (oculto) con
una sucesión de observaciones de caras y sellos. Una observación típica sería:
O = O1 O2 O3 . . . OT
= CCCSSSCSSCS · · · C
donde C representa cara y S representa sello.

Dado el escenario anterior, el problema de interés consiste en construir un
modelo oculto de Markov que pueda modelar la sucesión observada de caras
y sellos. El primer problema que se presenta es decidir a qué corresponden
los estados del modelo y después, decidir cuántos estados debería haber en el
modelo. Una posible elección es considerar que sólo una moneda balanceada
fue utilizada.
Figura 4.3: Un posible modelo que da cuenta de los resultados ocultos de los
lanzamientos de la moneda
En este caso, podemos modelar la situación con un modelo de dos estados

donde cada estado corresponde a un lado de la moneda (es decir, cara o sello).
Este modelo se representa en la figura 4.3. A partir de un buen número
de observaciones recibidas se podría estimar el valor de la probabilidad de
obtener cara o sello.
Otra forma posible de un modelo oculto de Markov para explicar la
secuencia observada de los resultados del lanzamiento de las monedas se
muestra en la figura 4.4. En este caso hay dos estados en el modelo y ca-
da estado corresponde al resultado del lanzamiento de una de dos monedas
no-equilibradas diferentes. Cada estado está caracterizado por por una dis-
tribución de probabilidad de caras y sellos, y las transiciones entre los estados
se caracterizan con la matriz de transición.
93
Figura 4.4: Un segundo posible modelo que da cuenta de los resultados ocultos
de los lanzamientos de la moneda
El modelo que oculto elegido puede puede ser más complicado. Por ejem-
plo, podría pensarse que son tres monedas no necesariamente equilibradas,
y escoger entre ellas con base en algún evento probabilístico.
Si se escoge alguno de estos modelos, la pregunta natural será cuál de ellos
será el mejor para dar cuenta de la sucesión de caras y sellos observada. Hay
que observar que a medida que se aumenta el nivel de complejidad del modelo
oculto elegido, se está aumentando el número de parámetros por estimar: uno
en el primer caso, cuatro en el segundo. Estos son datos importantes para
considerar cuando se haga una elección.
Ejemplo 4.20. (Modelo de urnas y bolas) Considere un sistema de urnas y

bolas como en mostrados en la figura 4.5.
Figura 4.5: Modelo de urnas y bolas con N estados
Suponga un sistema compuesto por N urnas transparentes ubicadas en

un cuarto, que contienen un gran número de bolas de colores. Asuma que hay
M colores diferentes (en el caso de la figura hay tres colores). Realizamos el
siguiente experimento:
94
En primer lugar, de acuerdo a un procedimiento aleatorio, alguien en
el cuarto elige una urna inicial. De esa urna se elige aleatoriamente una
bola, cuyo color será la observación y se deposita en la urna a la que
pertenece.
Se selecciona una nueva urna según un procedimiento aleatorio asociado

con la urna actual y se repite el proceso de extracción de la bola.
Se repite el paso 2.
El proceso total genera una sucesión finita de colores observados, que se

busca ser modelada como la salida de observables de un modelo oculto de
Markov.
Claramente, el modelo oculto de Markov más simple que se puede con-
siderar es un conjunto de estados correspondientes a cada urna, definiendo
para cada estado una probabilidad del color. La elección de las urnas se dicta
a través de una matriz de probabilidades de estado del modelo. La distinción
entre varias urnas radica en como se agrupa la colección de bolas de colores
que las componen. Por tanto, una observación aislada de una única bola de
color particular no nos proporciona información para saber de que urna se
ha sacado.
Elementos de un Modelo oculto de Markov

Un modelo oculto de Markov se caracteriza por los siguientes elementos:
1. N , el número de estados del modelo oculto. Aunque los estados son

ocultos, para muchas aplicaciones prácticas, hay formas para estimar
cuántos estados se deben considerar.
En el ejemplo 4.19, que se refiere a la secuencia obtenida del lanzamien-
to de monedas, el número de estado puede ser uno, dos o tres, o más,
de acuerdo al número de monedas no equlibradas que se consideren.
En en ejemplo 4.20, que modela las urnas con bolas de colores, los
estados corresponden a las urnas.
Generalmente, los estados están comunicados de forma que el proceso
sea ergódico. El conjunto de estados se denota por S = {S1 , S2 , . . . , SN },
y el estado en el tiempo n es qn .
95
2. M , el número de símbolos observables distintos por estado, es decir, el
tamaño del alfabeto. Los símbolos observables corresponden a la salida
física del sistema que se está modelando.
Para el experimento del lanzamiento de monedas, M = 2, debido a que
las observaciones son caras o sellos. En el ejemplo de las urnas, el alfa-
beto está formado por los colores de las bolas seleccionadas en las urnas.
Los símbolos de salida se denotan por el conjunto V = {v1 , v2 , . . . , vM }.
3. La matriz de probabilidades de transición A = (aij ), donde,
aij = P(qn+1 = Sj |qn = Si ) i, j = 1, 2, . . . , N.
4. La distribución de probabilidad del símbolo observable en el estado Sj ,

B = {bj (k)}, dada por:
bj (k) = P(vk en el tiempo n|qn = Sj ), j = 1, 2, . . . , N, k = 1, 2, . . . , M.
5. La distribución inicial de los estados π = {πi },
πi = P(q1 = Si ), i = 1, 2, . . . , N.
Tomando valores apropiados para N, M, A, B y π, se puede usar el Modelo

oculto de Markov para generar secuencias O1 O2 · · · OT , donde cada obser-
vación Ot es uno de los símbolos de V en el tiempo t y T es el número de
observaciones de la secuencia.
Figura 4.6: Elementos del Modelo oculto de Markov
96
4.3.9. Ejercicios
1. Considere los siguientes procesos estocásticos:
a) Se están llamando al azar los candidatos de una convocatoria para
una entrevista de un grupo de 13 hombres y 16 mujeres. Sea Xn
el número de hombres que han sido entrevistados hasta el llamado
n.
b) Se dispara 10 veces a una diana con probabilidad de acertar igual
a 0.6. Sea Xn el número de aciertos logrados hasta que se han
hecho n disparos.
c) Se lanza un dado equilibrado sucesivamente y después de cada
lanzamiento se anota el número más alto obtenido entre este lan-
zamiento y todos los anteriores. Sea Xn el número anotado en el
lanzamiento n.
Determine si son cadenas de Markov, y en caso afirmativo, escriba su
respectiva matriz de transición.
2. Un sistema está programado para realizar uno de los procedimientos,
A, B ó C, por día. Si se realiza el procedimiento A, el día siguiente se
efectúa el procedimiento B, y si se realiza el procedimiento B, entonces
al día siguiente se hace el procedimiento C. Si en un día se realiza el
procedimiento C, 2 de cada cinco días, y al azar, se continúa con el
procedimiento A, y 3 de cada 5 días, se continúa con el procedimiento
B.
a) ¿Es ésta una cadena de Markov? En caso afirmativo, diseñe la
matriz de transición.
b) Si se sabe que el sistema comenzó con el proceso A el día lunes,
¿cuál es la probabilidad de que el viernes el sistema efectúe el
proceso C?
3. Un aviso con letras de neón tiene escrito “FELIZ NAVIDAD”, y fue
programado con la siguiente secuencia para que enciendan e inmediata-
mente se apaguen las letras (titilen) cada una de sus letras (el espacio
no se considera):
Comenzando con todas las letras apagadas, titila (enciende e in-
mediatamente se apaga) cualesquiera de ellas al azar.
97
Las letras se iluminan hacia la derecha con probabilidad 2/3 y
hacia la izquierda con probabilidad 1/3. Es decir, si titila una de
las letras, la siguiente será la que esté a su derecha o a su izquierda
con probabilidades 2/3 y 1/3, respectivamente.
Cuando titila un extremo, en el paso siguiente titila la letra con-
tigua. Por ejemplo, si titila la última D, la siguiente en titilar será
la letra A que está a su lado.
a) Escriba la matriz de transición de esta cadena de Markov.

b) Calcule la probabilidad de que se ilumine una de las letras A y
seis pasos después se ilumine la siguiente letra A.
4. Suponga que se tiene una población que se comporta de la siguiente

manera: Una partícula inicial, que constituye la 0-ésima generación,
tiene 0, 1 o 2 hijas cuyas probabilidades están dadas por una distribu-
ción binomial con probabilidad de éxito 0.3. Luego de reproducirse, la
partícula muere. Las hijas se reproducen independientemente unas de
otras e independientemente de la historia familiar, de la misma forma
que la partícula original. La primera generación está compuesta por las
hijas de la partícula inicial, la segunda por las nietas y así sucesiva-
mente.
a) ¿Es este un proceso de ramificación? En caso afirmativo, determine
su espacio de estados y calcule p20 .
b) Determine la probabilidad de que en la segunda generación haya
por lo menos una partícula.
c) Si se sabe que en la segunda generación hay exactamente una
partícula, calcule la probabilidad de que en la primera haya habido
solamente dos partículas.
5. Considere una cadena de Ehrenfest con 4 bolas (Ejemplo 4.9). Si la
probabilidad de que al inicio, X0 , el número de bolas en la urna I sea
x = 0, 1, 2, 3, 4 bolas está dada por:
x
10
para x = 0, 1, 2, 3, 4
p(x) =
0 e.o.c.
encuentre la probabilidad de que después de tres transiciones, la urna
I tenga 3 bolas.
98
6. Considere un camino aleatorio circular con seis lugares marcados con los
números 1, 2, 3, . . . , 6 ubicados en círculo en el sentido de las manecillas
del reloj. Suponga que solo es posible pasar de un lugar a uno contiguo
con igual probabilidad. Si se comienza en el lugar 1, calcule la proba-
bilidad de que
a) en cuatro transiciones la cadena retorne al lugar 1.
b) en cinco transiciones la cadena se encuentre en uno de los estados
contiguos al lugar 1 (2 ó 6).
7. Considerando las cadenas de Markov definidas a partir de las siguientes
matrices de transición, determine en cada caso, cuáles estados son re-
currentes y cuáles son transitorios.
a) Para los estados son {0, 1, 2, 3},
 
0 0 1/2 1/2
0 0 1 0 
P = 1 0 0

0 
0 1 0 0
b) Para los estados son {0, 1, 2, 3},
 
0,8 0 0,2 0
0 0 1 0
P = 1

0 0 0
0,3 0,4 0 0,3
c) Para los estados son {1, 2, 3, 4, 5},
 
1/2 1/2 0 0 0
1/2 1/2 0 0 0 
 
P =  0 0 1/2 1/2 0 

 0 0 1/2 1/2 0 
1/4 1/4 0 0 1/2
d ) Para los estados son {1, 2, 3, 4, 5},
 
0,5 0 0 0,5 0
 0 0,6 0 0 0,4
 
P = 0,3 0 0,7 0 0
0 0 1 0 0
0 1 0 0 0
99
8. Considere la cadena de Markov con espacio de estados {0, 1, 2, 3, 4, 5}
y matriz de transición dada por:
 
1 0 0 0 0 0
1/4 1/2 1/4 0 0 0 
 
 0 1/5 2/5 1/5 0 1/5
P =  0

 0 0 1/6 1/3 1/2

 0 0 0 1/2 0 1/2
0 0 0 1/4 0 3/4
Muestre que tiene cuatro estados recurrentes y solo uno de ellos ab-
sorbente, y dos transitorios. Determine cuales.
9. Considere la matriz de transición

 
1−α α 0
P = 0 1−β β 
γ 0 1−γ
donde α, β y γ ∈ (0, 1). Muestre que esta cadena es irreducible y calcule
su distribución estacionaria.
10. Suponga que hay dos cajas con bolas rojas, blancas y negras y por
etapas se extraen bolas de una caja y se pasan a la otra caja.
a) Inicialmente, la caja 1 contiene cuatro bolas rojas y la caja 2

contiene dos bolas rojas, una blanca y una negra. En cada etapa
se extrae una bola de la caja 1 y se introduce en la caja 2 y después,
se extrae una bola de la caja 2 y se introduce en la caja 1. Sea
{Bn }n=1,2,... el número de bolas blancas en la caja 1 al realizarse la
etapa n. Muestre que {Bn } es una cadena de Markov y determine
su distribución estacionaria.
b) Considere ahora que, inicialmente, la caja 1 contiene cuatro bolas
rojas, y la caja 2 contiene dos bolas negras y dos blancas. El pro-
cedimiento de extracción es el mismo que en el item anterior y el
proceso {Bn }n=1,2,... tiene la misma definición. Muestre que {Bn }
es una cadena de Markov y determine su distribución estacionaria.
11. Construya una matriz de transición de una cadena de Markov con espa-
cio de estados {1, 2, 3, . . . , 8} en la que {1, 2, 3} sea una clase formada
100
por estados transitorios de periodo 3, {4} sea una clase formada por un
único estado transitorio, aperiódico y {5, 6, 7, 8} sea una clase formada
por estados recurrentes de periodo 2.
12. En los días de clase, Elena va a la universidad usando uno de estos

medios de transporte: bus, metro o bicicleta. Para cualquier día n, sea
Xn = 1 si Elena usa el bus, Xn = 2 si Elena usa el metro y Xn = 3
si Elena usa la bicicleta. Suponga que {Xn }n=1,2,... es una cadena de
Markov y que, dependiendo del medio de transporte que Elena usó
para ir a la universidad el día de clase anterior, las probabilidades de
elegir uno de estos medios de transporte en un día en particular, están
dadas en la siguiente matriz de transición:
 
1/6 2/3 1/6
P = 1/2 1/3 1/6 
2/5 1/2 1/10
a) Si se sabe que Elena usó el metro hoy para ir a la universidad y

también lo usó en por lo menos uno de los 5 días anteriores, ¿cuál
es la probabilidad de que no use el metro para ir a la universidad
el próximo día de clase?
b) Si Elena usó el metro para ir a clase a la universidad hoy, ¿cuál
es la probabilidad de que no use el metro, para ir a sus clases,
mañana, ni pasado mañana?
c) Determine la proporción de días, que a largo plazo, Elena usa el
metro para ir a sus clases en la universidad.
101
4.4. Procesos de Poisson
La distribución de Poisson tiene la caracerística especial de que aparece
en conexión con el estudio de sucesiones de variables aleatorias que ocurren
en el tiempo. Comenzaremos presentando la deducción de esta distribución
a partir de una aproximación que hizo Simeon Denis Poisson en 1837 sobre
la distribución Binomial.
4.4.1. Distribución de Poisson como una aproximación

de la Binomial
En la presentación de las distribuciones de probabilidad de variables
aleatorias discretas, se observó que hay muchos fenómenos naturales que
pueden modelarse con la distribución Binomial.
En este caso, para diferentes valores de los parámetros n, x y p, es nece-
sario calcular
n x
p(x) = p (1 − p)n−x .
x
Este cálculo, en muchos casos, es difícil de conseguir, debido a que involucra
la operación factorial, la cual es muy costosa en operaciones computacionales.
En 1837, el matemático francés Simeon Denis Poisson publicó un libro
sobre probabilidad, en el que incluyó un procedimiento para obtener la fór-
mula que aproxima la distribución Binomial cuando n es grande (n → ∞),
la probabilidad de éxito p es pequeña (p → 0), y el promedio de los sucesos
np es una cantidad fija no muy grande (np = λ para una constante λ).
Usando estos valores, siendo X una variable aleatoria con distribución
Binomial(n, p), para x = 0, 1, 2, . . . , n,

n x
P(X = x) = p (1 − p)n−x
x
x n−x
n! λ λ
= 1−
x!(n − x)! n n
n
n(n − 1)(n − 2) · · · (n − x + 1) λx 1 − nλ
= x (4.6)
nx x! 1 − nλ
102
Para n grande y λ una constante apreciable,
x
λ
1− → 1
n
n
λ
1− → e−λ
n
Además, tanto el numerador como el denominador de la primera fracción en
(4.6) son polinomios de grado x, entonces, para n → ∞,
n(n − 1)(n − 2) · · · (n − x + 1)
→1
nx
Por tanto, si n → ∞,
e−λ λx
P(X = x) → .
x!
La significancia de esta aproximación aparece por primera vez en 1889, en la
obra del matemático ruso-alemán L. V. Bortkiewicz, donde demuestra que
dado que
∞ ∞
X e−λ λx −λ
X λx
=e = e−λ eλ = 1,
x=0
x! x=0
x!
este valor aproximado constituye en sí mismo una distribución de probabili-
dad. Esta propiedad y la introducción de los Procesos de Poisson en el siglo
XX hicieron que la función de probabilidad de Poisson se convirtiera en una
de las tres distribuciones de probabilidad más importantes, junto a la Normal
y la Binomial.
4.4.2. Procesos de Poisson

Suponga que, en un punto que se marcará como t = 0, se comienza a
contar la ocurrencia de cierto evento. Por ejemplo, los accidentes que ocurren
en cierto cruce, o la conexión de un usuario a un servidor.
Para cada valor de t se obtiene el número de eventos que han ocurrido
hasta el tiempo t, que se denota por N (t). Observe que N (t) constituye una
variable aleatoria discreta que puede algún valor del conjunto {0, 1, 2 . . .}.
Para deducir cual es la distribución de esta variable aleatoria, es necesario
considerar las tres siguientes suposiciones, acerca de la forma en que pueden
ocurrir estos eventos.
103
1. Estacionaridad: Para todo n ≥ 0, y para cualesquier dos intervalos
de tiempo iguales ∆1 y ∆2 , la probabilidad de que ocurran n eventos
en ∆1 es igual a la probabilidad de que ocurran n eventos en ∆2 .
2. Incrementos independientes: Para todo n ≥ 0 y para todo inter-

valo de tiempo (t, t + s), la probabilidad de que ocurran n eventos en
(t, t + s) es independiente de cuántos eventos han ocurrido antes. En
particular, si se consideran los tiempos 0 ≤ t1 < t2 < . . . < tk , para
1 ≤ i ≤ k − 1 se define Ai , como el evento de que ocurran ni eventos
en el intervalo [ti , ti+1 ). Los incrementos independientes indican que los
eventos {A1 , A2 , . . . , Ak−1 } son independientes.
3. Orden: La ocurrencia de que dos o más eventos en un intervalo de

tiempo muy pequeño es un evento imposible. En término de conver-
gencia,
P (N (h) > 1)
lı́mh→0 = 0,
h
es decir, cuando h → 0, la probabilidad de que ocurran dos o más
eventos, P (N (h) > 1), va para 0 más rápido que h.
Observe que por la propiedad de estacionaridad, la distribución del número

de eventos en (t1 + s, t2 + s], s ≥ 0, es la misma que la del número de eventos
en (t1 , t2 ]. Es decir, las variables aleatorias N (t2 ) − N (t1 ) y N (t2 + s) −
N (t1 + s) tienen la misma distribución de probabilidad. En otros términos: la
probabilidad de que ocurran n eventos en un intervalo dado (t1 , t2 ) depende
de la longitud del intervalo y no de su ubicación.
Teorema 4.4. Si la ocurrencia de cierto evento cumple las propiedades de

estacionaridad, incrementos independientes y orden, y además, N (0) = 0 y
para todo t > 0, 0 < P(N (t) = n) < 1 (para evitar casos triviales), entonces,
existe un número positivo λ tal que
(λt)n e−λt
P(N (t) = n) = .
n!
Es decir, para todo t > 0, N (t) es una variable aleatoria de Poisson con
parámetro λt. De aquí, E[N (t)] = λt.
Idea de la prueba: La razón por la cual N (t), el número de eventos

ocurridos hasta el tiempo t, es Poisson, se debe al hecho de que la variable
104
aleatoria de Poisson es una aproximación de la distribución Binomial cuando
n es grande, p pequeño y np es moderado.
Dividamos el intervalo [0, t] en n subintervalos de igual longitud. Cuando
n → ∞, la probabilidad de tener dos o más eventos en cada uno de estos
subintervalos es 0.
Por tanto, N (t) es el número de subintervalos en los que ha ocurrido un
evento. Entonces, si tenemos en cuenta que, debido a la estacionaridad, la
probabilidad de tener un evento en cualquiera de estos intervalos es constante,
y debido a la propiedad de incrementos independientes, cada intervalo se
puede ver como un ensayo independiente, se concluye que N (t) es el número
de éxitos en n ensayos de Bernoulli.
Entonces N (t) tiene una distribución Binomial de parámetros n y p donde
es la probabilidad de que un evento ocurra en un subintervalo.
Sea λ el número esperado de eventos en una unidad de tiempo. Debido
a la estacionaridad, los eventos ocurren a una tasa uniforme sobre todo el
periodo, es decir, el número esperado de eventos en un intervalo de longitud
t es λt. Por la fórmula para la esperanza de una variable aleatoria Binomial,
el número esperado de eventos en el intervalo de longitud t es np. Entonces,
np = λt o equivalentemente,
λt
p= .
n
Para n → ∞ tenemos que p es muy pequeño y λt es de tamaño moderado.
Por tanto, N (t) es una variable aleatoria de Poisson con parámetro λt.
Definición 4.14. Un proceso {N (t)}t≥0 es un Proceso de Poisson de

tasa λ, λ > 0, si cumple las siguientes propiedades:
1. N (0) = 0.
2. El proceso tiene incrementos independientes.
3. El número de eventos en cualquier intervalo de longitud t tiene una

distribución de Poisson con media λt. Es decir, para todo s, t ≥ 0,
e−λt (λt)n
P(N (t + s) − N (s) = n) = , n = 0, 1, 2, . . .
n!
105
Observe que la parte (3) implica que el proceso {N (t)} es estacionario.
Ejemplo 4.21. Suponga que en cierto cruce, el número de infracciones de

tránsito que allí ocurren tiene una distribución de Poisson de tasa 5 por día.
Determine la probabilidad de que hayan al menos dos infracciones de tránsito
en las siguientes 6 horas.
Sea N (t) el número de infracciones hasta el tiempo t. Se puede asumir que
{N (t)}t≥0 es un Proceso de Poisson, porque es estacionario, tiene incrementos
independientes, N (0) = 0, y no se consideran dos infracciones de tránsito
simultáneas.
Si se escoge un día como la unidad de tiempo, entonces, λ = E[N (1)] = 5.
Por tanto,
e−5t (5t)n
P(N (t) = n) = .
n!
Entonces, la probabilidad de que hayan al menos dos infracciones de trán-
sito en las siguientes 6 horas (un cuarto de día) es:
P(N (1/4) ≥ 2) = 1 − P(N (1/4) = 0) − P(N (1/4) = 1)

e−5/4 (5/4)0 e−5/4 (5/4)1
= 1− −
0! 1!
≈ 0,36.
Distribución de los tiempos entre llegadas en procesos de Poisson

Sea {N (t)}t≥0 un proceso de Poisson. Consideremos las siguientes vari-
ables:
X1 = Tiempo en que ocurre el primer evento

X2 = Tiempo entre el primer y el segundo evento
X3 = Tiempo entre el segundo y el tercer evento
..
.
Xn = Tiempo entre el (n − 1)-ésimo y el n-ésimo evento
la sucesión de eventos {X1 , X2 , X3 . . .} se conoce como Sucesión de tiempos

entre llegadas (ing: Interarrival times) del proceso de Poisson {N (t)}t≥0 .
106
Para λ = E[N (1)], tenemos que
(λt)n e−λt
P(N (t) = n) = .
n!
A partir de esta probabilidad podemos determinar la distribución de las
variables Xi , i = 1, 2, . . .
Observe que para t ≥ 0, el evento {X1 > t} indica que el primer evento
del proceso ocurrió después del tiempo t. Esto es equivalente a que antes del
tiempo t no han ocurrido eventos, es decir {N (t) = 0}. Por tanto,
P(X1 > t) = P(N (t) = 0) = e−λt .
Esto significa que X1 tiene una distribución Exponencial con media 1/λ.
Como el proceso de Poisson es estacionario y tiene incrementos indepen-
dientes, en cualquier tiempo t el proceso comienza de nuevo probabilísti-
camente. Entonces, el tiempo entre llegadas entre dos eventos consecutivos
tiene la misma distribución que X1 . Es decir, la variables de la sucesión
{X1 , X2 , X3 . . .} son independientes y todas tienen distribución Exponencial
de media 1/λ. Entonces, su función de densidad de probabilidad está dada
por:
−λx
λe si x ≥ 0
f (x) =
0 si x < 0
Ejemplo 4.22. El número de carros que llegan a cierta área de un par-

queadero de un centro comercial, es un proceso de Poisson de con tasa de
6 carros por hora. Determine la probabilidad de que pasen 15 minutos sin
llegadas de carros a esa área del parqueadero.
Si X representa el tiempo entre llegadas de los carros, entonces, con λ =
6 carros por hora, tenemos que la probabilidad de que X sea mayor a 15
minutos (1/4 de hora) se puede calcular usando la distribución exponencial
de media 1/6. Así:
P(X > 0,25) = e−6(0,25) ≈ 0,223.
107
Ejemplo 4.23. Suponga que 10000 usuarios telefónicos originan una llamada
por hora. Determine la probabilidad de que el tiempo entre la entrada de dos
llamadas sea menor de 0.01 segundos.
La tasa de llegada de las llamadas es:
1
λ = 10000 = 2,78 llamadas por segundo.
3600
La probabilidad de que el tiempo entre llegadas, X, sea menor de 0.01 se-
gundos es:
P(X < 0,01) = 1 − e−2,78(0,01) = 0,027
Observación: Usando herramientas de un área de la probabilidad que se

conoce como la Teoría de Renovación (ing: Renewal theory), se puede probar
que los procesos de Poisson se pueden caracterizar por los tiempos de llegada:
Si, para algún proceso, N (t) es el número de eventos que ocurre en [0,t],
y si los tiempos entre eventos consecutivos forman una sucesión de variables
aleatorias independientes e idénticamente distribuidas exponencial con media
1/λ, entonces, {N (t)}t≥0 es un Proceso de Poisson de tasa λ.
4.4.3. Proceso de Conteo

Definición 4.15. Se dice que {N (t)}t≥0 es un proceso de conteo si N (t)
representa el número de eventos que han ocurrido hasta el tiempo t.
Propiedades de N (t):
N (t) ≥ 0
N (t) ∈ Z+ ∪ {0}
Si s < t entonces N (s) ≤ N (t)
Para s < t, la variable N (t) − N (s) es el número de eventos en el

intervalo (s, t].
Se dice que el proceso de conteo tiene incrementos independientes si los

números de eventos que ocurren en intervalos de tiempo disjuntos son inde-
pendientes. Así, N (t) es independiente de N (t + s) − N (t).
108
También, para todos t0 < t1 < t2 < . . . < tn , las variables N (t1 ) − N (t0 ),
N (t2 ) − N (t1 ), . . ., N (tn ) − N (tn−1 ) son independientes.
Decimos que un proceso de conteo es estacionario si la distribución del
número de eventos que ocurre en cualquier intervalo de tiempo depende úni-
camente de la longitud del intervalo. Así, para s fijo, las variables N (t + s) −
N (t) tienen la misma distribución, para todo t.
Para definir formalmente los procesos de Poisson, es necesario establecer
algunos conceptos de convergencia.
f (h)
Definición 4.16. Una función f : R → R es o(h), si lı́mh→0 h
=0
Si una función f es o(h), se escribe f (h) = o(h), y se lee “f es o pequeña de

h”. Si f es o(h), entonces f se aproxima a0 mas rápido que h.
Ejemplo 4.24. Para r > 1, f (x) = xr es o(h). En efecto,
f (h) hr
lı́mh→0 = lı́mh→0 = lı́mh→0 hr−1 = 0.
h h
Si r = 1, f (x) = xr no es o(h), debido a que
f (h) h
lı́mh→0 = lı́mh→0 = 1.
h h
Ejemplo 4.25. Si f y g son ambas funciones o(h) y c es una constante,
entonces, f + g y cf son también o(h).
Demostración.
(f + g)(h) f (h) g(h)
lı́mh→0 = lı́mh→0 + lı́mh→0 =0
h h h
y
(cf )(h) f (h)
lı́mh→0 = c lı́mh→0 =c·0=0
h h

Ejemplo 4.26. Si f es una función o(h) y g es una función acotada, entonces,

f g es o(h).
109
Demostración.
(f g)(h) f (h)g(h) f (h)
lı́mh→0 = lı́mh→0 = lı́mh→0 g(h) = 0.
h h h

Se puede escribir, g(h) · o(h) = o(h) si g es acotada.
Ejemplo 4.27. Muestre que et = 1 + t + o(t).
Demostración. Sabemos que
t2 t3 tn
et = 1 + t + + + ··· + + ···
2! 3! n!
Sea
t2 t3 tn
g(t) = + + ··· + + ···
2! 3! n!
Entonces, et = 1+t+g(t). Y como, lı́mt→0 g(t)/t = 0, tenemos que g(t) = o(t).
Por tanto, et = 1 + t + o(t).

Definición 4.17. Se dice que un proceso de conteo {N (t)}t≥0 es un Proceso
de Poisson de tasa λ, λ > 0, si se cumple que:
1. N (0) = 0.
2. El proceso es estacionario y tiene incrementos independientes.
3. P(N (h) = 1) = λh + o(h).
4. P(N (h) ≥ 2) = o(h)
Observaciones:
Definimos la propiedad de orden de un proceso de conteo {N (t)}t≥0 si

P (N (h) > 1)
lı́mh→0 = 0.
h
Usando la notación de convergencia o pequeña, esto lo mismo que afir-
mar que {N (t)}t≥0 cumple la propiedad de orden si
P (N (h) > 1) = o(h).
110
En la Definición 4.14 se había definido el Proceso de Poisson a través de
la distribución de Poisson. En la Definición 4.17 se define este mismo
proceso usando el concepto de convergencia o pequeña. Esta última
definición es la más usada debido a la posibilidad de su verificación.
En los siguientes resultados se muestra que las dos definiciones son
equivalentes.
Lema 4.1. Sea {N (t)}t≥0 es un proceso de conteo estacionario. Entonces,

P(N (h) > 1) = o(h) significa que la ocurrencia simultánea de dos o mas
eventos en un intervalo de tiempo de longitud h es un evento imposible.
Prueba: Sea h infinitesimal, y consideremos el evento A de que ocurran dos
o más eventos simultáneamente en un intervalo de longitud h. Probaremos
que P(A) = 0.
Sea n un entero positivo arbitrario y para j = 0, 1, 2, . . . , n − 1, sean Aj
los eventos de que dos o más eventos que han ocurrido
simultáneamente
i en
jh (j+1)h
[0, h] estén en el subintervalo, de longitud h/n, n , n .
Sn−1
Entonces, A ⊂ j=0 Aj . Luego,
n−1
! n−1
[ X
P(A) ≤ P Aj ≤ P(Aj ).
j=0 j=0
i
jh (j+1)h
Como la longitud del intervalo n
, n es h/n, la estacionaridad del
proceso de conteo implica que
P(Aj ) = P(N (h/n) > 1), j = 0, 1, 2, . . . , n − 1.
Por tanto,
n−1
X P(N (h/n) > 1)
P(A) ≤ P(Aj ) = nP(N (h/n) > 1) = h .
j=0
h/n
Esta última expresión es válida para todo n. Además, como

P(N (h/n) > 1) = o(h/n),
111
P(N (h/n) > 1)
lı́mn→∞ = 0.
h/n
Luego, P(A) ≤ 0, lo que implica que P(A) = 0.
Lema 4.2. Sea {N (t)}t≥0 un proceso de conteo estacionario con incrementos

independientes. Si N (0) = 0, y para todo t > 0,
0 < P(N (t) = 0) < 1,
entonces, para cualquier t ≥ 0,
P(N (t) = 0) = e−λt .
Prueba: Sea P0 (t) = P(N (t) = 0).

Vamos a calcular la derivada P00 (t), y a partir de ella obtendremos a P0 (t).
P0 (t + h) − P0 (t)
P00 (t) = lı́mh→0
h
P(N (t + h) = 0) − P(N (t) = 0)
= lı́mh→0
h
P (N (t) = 0, N (t + h) − N (t) = 0) − P(N (t) = 0)
= lı́mh→0
h
P (N (t + h) − N (t) = 0|N (t) = 0) P(N (t) = 0) − P(N (t) = 0)
= lı́mh→0
h
P(N (t) = 0)[P (N (t + h) − N (t) = 0|N (t) = 0) − 1]
= lı́mh→0
h
Dado que los incrementos son independientes, la probabilidad condicional
en la última expresión queda
P(N (t + h) − N (t) = 0|N (t) = 0) = P(N (t + h) − N (t) = 0)
y también, como los incrementos son estacionarios,
P(N (t + h) − N (t) = 0) = P(N (h) = 0)
Entonces, la expresión para P00 (t) se puede escribir como:
112
P(N (t) = 0)[P(N (t + h) − N (t) = 0|N (t) = 0) − 1]
P00 (t) = lı́mh→0
h
P0 (t)[P(N (h) = 0) − 1]
= lı́mh→0
h
Usando las condiciones para las probabilidades de ocurrencia de eventos,
1 = P(N (h) = 0) + P(N (h) = 1) + P(N (h) ≥ 2)

= P(N (h) = 0) + λh + o(h) + o(h)
= P(N (h) = 0) + λh + o(h)
Entonces,
P(N (h) = 0) = 1 − λh + o(h)
y reemplazando en la expresión de P00 (t) se tiene que:
P0 (t)[1 − λh + o(h) − 1]
P00 (t) = lı́mh→0
h
−λh + o(h)
= P0 (t) lı́mh→0
h
= −λP0 (t)
Entonces,
P00 (t)
= −λ,
P0 (t)
lo que implica que
P0 (t) = κe−λt .
Usando la condición de que P0 (0) = P(N (0) = 0) = 1, tenemos que κ = 1.
Luego,
P0 (t) = e−λt .

Teorema 4.5. Las definiciones 4.14 y 4.17 son equivalentes.
Prueba: Probaremos que la Definición 4.17 implica la Definición 4.14.

Sea Pn (t) = P(N (t) = n).
El caso n = 0 ya fue probado en el Lema 4.2
113
Veamos para n ≥ 1 (también a través de la derivada de Pn (t), como se
hizo en el Lema 4.2).
Pn (t + h) − Pn (t)
Pn0 (t) = lı́m
h→0 h
P(N (t + h) = n) − P(N (t) = n)
= lı́m
h→0 h
Haciendo las consideraciones de estacionaridad e incrementos independientes
para P(N (t + h) = n) se tiene que:
P(N (t + h) = n) = P(N (t) = n, N (t + h) − N (t) = 0)

+ P(N (t) = n − 1, N (t + h) − N (t) = 1)
+ P(N (t) ≤ n − 2, N (t + h) − N (t) ≥ 2)
= P(N (t) = n)P(N (h) = 0)

+ P(N (t) = n − 1)P(N (h) = 1)
+ P(N (t) ≤ n − 2)P(N (h) ≥ 2)
= Pn (t)P0 (h) + Pn−1 (t)P1 (h)

+ P(N (t) ≤ n − 2)P(N (h) ≥ 2),
Ahora, usando las caracterizaciones de convergencia o pequeña para los números

de eventos, queda que:
P(N (t + h) = n) = Pn (t)(1 − λh + o(h)) + Pn−1 (t)(λh + o(h)) + o(h)

= Pn (t)(1 − λh) + Pn−1 (t)(λh) + o(h)
Sustituyendo este resultado en la expresión de Pn0 (t) se obtiene:
Pn (t)(1 − λh) + Pn−1 (t)(λh) + o(h) − Pn (t)

Pn0 (t) = lı́m
h→0 h
λh(Pn−1 (t) − Pn (t))
= lı́m = λ(Pn−1 (t) − Pn (t))
h→0 h
114
Esta última igualdad es una ecuación diferencial de recurrencia que puede
resolverse de forma inductiva reescribiéndola con apoyo de la función expo-
nencial, así:
eλt (Pn0 (t) + λPn (t)) = λeλt Pn−1 (t),
que equivale a:
d λt
(e Pn (t)) = λeλt Pn−1 (t).
dt
Esta relación permite mostrar, por inducción, que
e−λt (λt)n
Pn (t) = .
n!
En efecto, para n = 1, usando el Lema 4.2
d λt
(e P1 (t)) = λeλt P0 (t) = λeλt e−λt = λ
dt
Es decir, P1 (t) = (λt + c)e−λt .
Para calcular la constante c, basta observar que en el tiempo t = 0, P1 (0) =
P(N (0) = 1) = 0. Entonces, c = 0.
Luego,
P1 (t) = λte−λt .
Para mostrar el caso general, n ≥ 1, haciendo consideraciones similares a las

hechas para n = 0, se usa la hipótesis inductiva cuando n − 1, es decir,
e−λt (λt)n−1
Pn−1 (t) = ,
(n − 1)!
Entonces, suponiendo que
d λt e−λt (λt)n−1 λn tn−1
(e Pn (t)) = λeλt = ,
dt (n − 1)! (n − 1)!
lo que implica que,
(λt)n
eλt Pn (t) = + c,
n!
donde c es alguna constante, que puede obtenerse de Pn (0) = P(N (0) = n) =
0. Es decir, c = 0. Por tanto,
e−λt (λt)n
Pn (t) = .
n!

115
4.4.4. Ejemplos de Procesos de Poisson
Los artículos descritos en los siguientes ejemplos, son propuestas pedagóg-
icas para ilustrar los procesos de Poisson. Es interesante tenerlas a la mano,
porque muestran la pruebas estadísticas que pueden usarse para verificar el
ajuste de las distribuciones de Poisson y Exponencial para las ocurrencias de
los eventos y sus tiempos entre sus llegadas.
Ejemplo 4.28. (Estudio de la intensidad de tráfico en un peaje)

Alicia Ledesma, en el 2009, presentó en el evento II Jornadas de Enseñanza e
Investigación Educativa en el campo de las Ciencias Exactas y Naturales, una
aplicación de los procesos estocásticos para estudiar la intensidad del tráfico
de automóviles particulares por el peaje de la autopista La Plata-Buenos
Aires situado en Hudson. A partir de la información obtenida durante tres
días laborales, se muestra, usando la prueba Chi-cuadrado para bondad de
ajuste, que el tráfico de estos automóviles es un proceso de Poisson.
Ejemplo 4.29. (Usando goles para Motivar los Procesos de Poisson)

El profesor Singfat Chu de la National University of Singapore, publicó en el
2003 (INFORMS Transaction on Education 3:2 (62-68)) Using soccer goals
to motivate the poisson process. Con la información de los goles ocurridos en
232 partidos jugados en los mundiales de fútbol de 1990 a 2002, se muestra
como se ajusta el proceso de Poisson a las ocurrencias de estos goles.
4.4.5. Características de los Procesos de Poisson

En los primeros resultados de esta sección se muestra que la relación
entre la distribución Binomial y la distribución de Poisson no se restringe so-
lamente a la aproximación que se mencionó antes para definir la distribución
de Poisson.
Teorema 4.6. Sea {N (t)}t≥0 un proceso de Poisson de tasa λ. Suponga que

para un t > 0 fijo, N (t) = n. Es decir, han ocurrido n eventos hasta el tiempo
t. Entonces, para un valor u tal que 0 < u < t, el número de eventos que han
ocurrido en ó antes de u es una variable aleatoria binomial de parámetros n
y u/t.
116
Prueba: Se quiere mostrar que, para 0 ≤ i ≤ n,

n u i u n−i
P(N (u) = i|N (t) = n) = 1− .
i t t
Por la propiedad de incrementos independientes en los procesos de Poisson,
P(N (u) = i, N (t) = n)

P(N (u) = i|N (t) = n) =
P(N (t) = n)
P(N (u) = i, N (t) − N (u) = n − i)
=
P(N (t) = n)
P(N (u) = i)P(N (t) − N (u) = n − i)
=
P(N (t) = n)
P(N (u) = i)P(N (t − u) = n − i)
= .
P(N (t) = n)
El cambio en la última igualdad se debe a que, por la estacionaridad, el

número de eventos entre los tiempo u y t tiene la misma probabilidad que el
número de eventos entre 0 y t − u.
Si se evalúan estas probabilidades con su distribución, se obtiene:
e−λu (λu)i e−λ(t−u) (λ(t−u))(n−i)
i! (n−i)!
P(N (u) = i|N (t) = n) = e−λu (λu)n
n!
n! ui (t − u)n−i
=
i!(n − i)! tn
i
n u (t − u)n−i
=
i ti tn−i

n u i u n−i
= 1− .
i t t
El siguiente teorema muestra otra importante caracterización de los pro-

cesos de Poisson, cuando estos están conformados por varios procesos de
Poisson independientes.
117
Teorema 4.7. Sean {N1 (t)} y {N2 (t)} dos procesos de Poisson independi-
entes de tasas λ y µ, respectivamente. La distribución condicional de N1 (t)
dado que N1 (t) + N2 (t) = n es una binomial con parámetros n y λ/(λ + µ).
Prueba: Para cada t sabemos que N1 (t) y N2 (t) son dos variables aleatorias
de Poisson independientes de parámetros λt y µt, respectivamente. También
que la suma N1 (t) + N2 (t) es una variable aleatoria de Poisson de parámetro
(λ + µ)t (esto se puede probar usando la técnica de la función generadora
para encontrar la distribución de funciones de variables). Entonces,
P(N1 (t) = i, N1 (t) + N2 (t) = n)

P(N1 (t) = i|N1 (t) + N2 (t) = n) =
P(N1 (t) + N2 (t) = n)
P(N1 (t) = i, N2 (t) = n − i)
=
P(N1 (t) + N2 (t) = n)
P(N1 (t) = i)P(N2 (t) = n − i)
=
P(N1 (t) + N2 (t) = n)
e−λt (λt)i e−µt (µt)(n−i)
i! (n−i)!
= e−(λ+µ)t [(λ+µ)u]n
n!
Simplicando esta expresión, se tiene que

i (n−i)
n λ µ
P(N1 (t) = i|N1 (t) + N2 (t) = n) =
i λ+µ λ+µ
i (n−i)
n λ λ
= 1−
i λ+µ λ+µ

Ejemplo 4.30. Suponga que, en cierto pueblo, se está contabilizando el

número de carros y buses que entran y sus tiempos de entrada. Suponga que
los carros pasan por cierta esquina de acuerdo a un proceso de Poisson de
tasa λ = 15 por hora y que los buses, independientemente, pasan de acuerdo
a otro proceso de Poisson de tasa µ = 3 por hora. Si se sabe que han pasado
n = 50 vehículos (entre buses y carros) entre las 8 y 12m de cierto día, ¿cuál
es la probabilidad de que entre estos 50, 10 hayan sido camiones?
118
El Teorema 4.7 afirma que la distribución del número de camiones entre
los n = 50 vehículos es una distribución Binomial de parámetros n = 50 y
probabilidad de éxito
µ 3
p= = = 0,2.
λ+µ 15
Entonces, si N1 (4) denota el número de carros entre las 8 y las 12m y N2 (4),
el número de camiones en ese mismo horario, la probabilidad de que entre
estos 50 vehículos, 10 hayan sido camiones está dada por:

50
P(N2 (4) = 10|N1 (4) + N2 (4) = 50) = (0,2)10 (0,8)40
10
En el resultado que sigue se muestra la relación que existe entre los pro-
cesos de Poisson y la distribución Uniforme. Está propiedad da una idea de
los tiempos en los que ocurren los eventos de Poisson.
Para ilustrar esta conexión entre los tiempos de ocurrencia de los eventos
de un proceso de Poisson y la distribución Uniforme, suponga, por ejemplo,
que al celular de Ana llegan llamadas de acuerdo a un proceso de Poisson
de tasa λ y que cada vez que Ana está en clase, apaga el celular. En cierta
ocasión, después de una clase, Ana encendió su celular y recibió el mensaje de
que durante los t minutos que el celular permaneció apagado, habían llegado
n llamadas. Sin embargo, no recibió la información del horario en que las
llamadas fueron recibidas.
Para encontrar la distribución de los tiempos de llegada, se escogen aleato-
riamente n puntos de forma independiente en el intervalo [0, t]. Si X(1) ,
es el menor valor de {X1 , X2 , . . . , Xn }, X(2) es el segundo menor valor en
{X1 , X2 , . . . , Xn }, y, en general, X(k) , 1 ≤ k ≤ n es el k-ésimo menor valor
en {X1 , X2 , . . . , Xn }, el siguiente resultado muestra que X(1) tiene la misma
distribución que el tiempo de llegada de la primera llamada, X(2) tiene la
misma distribución que el tiempo de llamada de la segunda llamada, y así
para los otros tiempos de llegada de las llamadas. Es decir, los estadísticos de
orden de X1 , X2 , . . . , Xn se pueden usar para estimar los tiempos de llegada
de las llamadas.
Observe que el resultado que vamos a estudiar, se refiere a la distribu-
ción de varias variables en conjunto. Estas distribuciones se conocen como
119
distribuciones conjuntas. En el caso particular de un conjunto de vari-
ables aleatorias independientes, la distribución conjunta X1 , X2 , . . . , Xn es el
producto de las distribuciones de cada una de las variables aleatorias.
Si X1 , X2 , . . . , Xn son n variables aleatorias independientes, distribuidas
uniformemente en el intervalo [0, t], la función de densidad de probabilidad
de cada Xi está dada por:

1/t para 0 ≤ ti ≤ t
f (ti ) =
0 en otros casos
Así, la distribución conjunta de las n variables aleatorias X1 , X2 , . . . , Xn

independientes, distribuidas uniformemente en el intervalo [0, t], está dada
por:

1/tn para 0 ≤ ti ≤ t, i = 1, 2, . . . , n
fX1 ,...,Xn (t1 , t2 , . . . , tn ) =
0 en otros casos
Cuando se estudia el orden de aparición de los valores producidos por

las variables aleatorias conjuntas, se está refiriendo a los estadísticos de
orden. Es decir, si X1 , X2 , . . . , Xn son n variables aleatorias, las variables
X(1) , X(2) , . . . , X(n) , donde X(1) , es el menor valor de {X1 , X2 , . . . , Xn }, X(2) es
el segundo menor valor en {X1 , X2 , . . . , Xn }, y, en general, X(k) , 1 ≤ k ≤ n es
el k-ésimo menor valor en {X1 , X2 , . . . , Xn }, se conocen como los Estadísticos
de orden de de las variables X1 , X2 , . . . , Xn . Si bien, los resultados distribu-
cionales de los estadísticos de orden se salen del tema que estamos tratando,
vale la pena observar esta distribución para el caso de las variables aleatorias
Uniformes que estamos considerando.
Si X1 , X2 , . . . , Xn son n variables aleatorias independientes, distribuidas
uniformemente en el intervalo [0, t], la función de densidad de probabilidad
conjunta de sus estadísticos de orden X(1) , X(2) , . . . , X(n) , estás dada por:

n!/tn para 0 < t1 < t2 < · · · < tn < t
fX(1) ,...,X(n) (t1 , t2 , . . . , tn ) =
0 en otros casos
Teorema 4.8. Sea {N (t)}t≥0 un proceso de Poisson de tasa λ, y suponga

que, para un t fijo, se sabe que N (t) = n. Para 1 ≤ i ≤ n, sea Si el tiempo de
120
ocurrencia del i-ésimo evento. Entonces, la función de distribución conjunta
de S1 , S2 , . . . , Sn dado que N (t) = n está dada por:
n!
fS1 ,...,Sn |N (t) (t1 , t2 , . . . , tn |n) = , 0 < t1 < t2 < . . . < tn < t.
tn
Es decir, dado que N (t) = n, la distribución conjunta de los tiempos en
que ocurren estos n eventos hasta el tiempo t, es la misma que la de los
estadísticos de orden de n variables aleatorias independientes distribuidas
uniformemente en el intervalo [0, t].
Prueba: Vamos a calcular la función de distribución acumulada conjunta y a

partir de su derivada obtendremos la función de densidad conjunta buscada.
Sea FS1 ,...,Sn |N (t) la función de distribución conjunta de S1 , S2 , . . . , Sn dado
que N (t) = n. Entonces, para 0 < t1 < t2 < . . . < tn < t,
FS1 ,...,Sn |N (t) (t1 , t2 . . . , tn |n) = P(S1 ≤ t1 , S2 ≤ t2 , . . . , Sn ≤ tn |N (t) = n)

P(S1 ≤ t1 , S2 ≤ t2 , . . . , Sn ≤ tn , N (t) = n)
= .
P(N (t) = n)
Observe que el evento {S1 ≤ t1 , S2 ≤ t2 , . . . , Sn ≤ tn , N (t) = n} ocurre
si y solamente sí, exactamente un evento ocurre en los intervalos [0, t1 ],
(t1 , t2 ], . . .,(tn−1 , tn ], y ningún evento ocurre en (tn , t]. Entonces, por la esta-
cionaridad y la independencia en los incrementos en los procesos de Poisson,
FS1 ,...,Sn |N (t) (t1 , t2 . . . , tn |n)
−λ(t−tn )
λt1 e−λt1 λ(t2 − t1 )e−λ(t2 −t1 ) · · · λ(tn − tn−1 )e−λ(tn −tn−1 )e
= e−λt (λt)n
n!
n!
= t1 (t2 − t1 ) · · · (tn − tn−1 ).
tn
La f.d.p conjunta se obtiene derivando la función de distribución conjunta
respecto a cada una de las ti ,
∂n
fS1 ,...,Sn |N (t) (t1 , t2 . . . , tn |n) = FS ,...,S |N (t) (t1 , t2 . . . , tn |n)
∂t1 ∂t2 · · · ∂tn 1 n
n! ∂n
= n t1 (t2 − t1 ) · · · (tn − tn−1 ).
t ∂t1 ∂t2 · · · ∂tn
121
Para completar la demostración, se puede mostrar, por inducción, que la
derivada parcial de la última expresión es igual a 1.
En efecto, para n = 2,
∂2
t1 (t2 − t1 ) = 1.
∂t1 ∂t2
Supongamos que se cumple para n − 1, es decir,
∂ n−1
t1 (t2 − t1 ) · · · (tn−1 − tn−2 ) = 1,
∂t1 ∂t2 · · · ∂tn−1
entonces,
∂n
t1 (t2 − t1 ) · · · (tn − tn−1 )
∂t1 ∂t2 · · · ∂tn
∂ n−1

∂
= t1 (t2 − t1 ) · · · (tn−1 − tn−2 )(tn − tn−1 )
∂t1 ∂t2 · · · ∂tn−1 ∂tn
∂ n−1
= [t1 (t2 − t1 ) · · · (tn−1 − tn−2 )]
∂t1 ∂t2 · · · ∂tn−1
= 1
Ejemplo 4.31. Un servidor recibe trabajos de acuerdo a un proceso de

Poisson de tasa 3 por minuto. Si dos trabajos llegaron entre las 10:00 y las
10:01, ¿cuál es la probabilidad de que el primero de estos dos trabajos haya
llegado durante los primeros 20 segundos después de las 10:00 y el segundo
durante los primeros 40 segundos después de las 10:00?
Denotemos con t = 0 el punto 10:00 y con t = 60 el punto 10:01. Sean S1
y S2 los tiempos de llegada del primer y segundo trabajo después de las 10:00,
respectivamente. Como N (60) = 2, del Teorema 4.8 la función de densidad
conjunta de S1 y S2 está dada por:
2!
fS1 ,...,Sn |N (t) (t1 , t2 |2) = , 0 < t1 < t2 < 60.
602
122
Entonces, la probabilidad pedida es:
Z 20 Z 40
2!
P(S1 < 20, S2 < 40|N (t) = 2) = dt2 dt1
0 t1 602
Z 20
1 1
= (40 − t1 )dt1 =
0 800 3
4.4.6. Sistemas de Filas

Se entiende por Teoría de filas (o teoría de colas) al estudio de las líneas
de espera que se producen cuando llegan clientes demandando un servicio,
esperando si no se les puede atender inmediatamente y partiendo cuando
ya han sido servidos. En un sistema de filas se busca modelar la llegada de
“clientes” que llegan a una fila y toman su lugar en una línea de espera para
ser atendidos, cuando todos los servidores están ocupados. Si no hay fila y los
servidores están libres, los clientes se atienden inmediatamente llegan. En el
caso que los servidores están ocupados, los clientes esperan en una fila hasta
ser atendidos. Lo más común es que el primero que llega es el primero en ser
atendido, pero dependiendo del sistema, esto puede cambiar. Puede ocurrir
que se atienda al último que va llegando o que exista un orden predefinido,
o un orden de prioridad.
Un sistema de filas puede tener una única fila, como en los bancos, o
varias filas, como en supermercado grande. Generalmente, los clientes salen
del sistema cuando ya han sido atendidos.
Los elementos que caracterizan estos sistemas son:
Fuente: A lo largo del tiempo se producen llegadas de clientes a la cola

de un sistema desde una determinada fuente demandando un servicio.
La fuente es el dispositivo del que emanan las unidades que piden un
servicio. Si el número de unidades potenciales es finito, se dice que la
fuente es finita; en caso contrario se dice que es infinita.
Disciplina de la fila: Los servidores del sistema seleccionan miembros

de la cola según una regla predefinida denominada disciplina de la fila.
El servidor suele seleccionar al cliente de acuerdo con alguno de los
siguientes criterios (prioridades): el que llegó antes es el primero en
123
ser atendido (disciplina FIFO), el que llegó el último es el primero en
ser atendido(LIFO), el que menos tiempo de servicio requiere, el que
más requiere, entre otros. Incluso puede interrumpirse un servicio para
empezar otro que corresponda a un cliente recién llegado con mayor
prioridad (fenómeno de anticipación), como en el caso de los centros
de urgencias médicas; de no ser así, la prioridad se llama de cabeza de
línea. Otros fenómenos frecuentes son el rechazo (si la fila tiene una
capacidad máxima, el cliente no es admitido).
Tiempos entre llegadas: Aunque a veces se sabe exactamente cuán-

do se van a producir las llegadas al sistema, en general el tiempo que
transcurre entre dos llegadas consecutivas se modela mediante una vari-
able aleatoria. En particular, cuando la fuente es infinita se supone que
las unidades que van llegando al sistema dan lugar a un proceso es-
tocástico llamado de conteo; si todos los tiempos entre llegadas son
variables aleatorias independientes idénticamente distribuidas (i.i.d.),
se dice que es un proceso de renovación. Usualmente, por razones que
se verán posteriormente, el proceso que se utiliza es un proceso de Pois-
son.
Tiempo de servicio: Es el tiempo que el servidor necesita para aten-

der la demanda de un cliente (tiempo de servicio) puede ser constante o
aleatorio; en este último caso se supone, por lo general, que los tiempos
de servicio son variables aleatorias i.i.d. y que son independientes de
los tiempos entre llegadas.
Para especificar un tipo de cola se usa la notación:

proceso de llegada / proceso de servicio / capacidad / disciplina / ...
En un sistema de filas, los clientes C1 , C2 , . . . se enumeran de acuerdo al
orden de llegada.
Para n = 1, 2, 3, . . ., sea Tn el tiempo entre llegadas entre Cn y Cn+1 y
sea Sn el tiempo de servicio de Cn .
Con la notación GI/G/c se está indicando que el sistema de la fila está
formado por {T1 , T2 , . . .} ∪ {S1 , S2 , . . .} donde estos dos conjuntos son de
variables aleatorias independientes, las variables dentro de cada conjunto
{T1 , T2 , . . .} y {S1 , S2 , . . .} son idénticamente distribuidas e independientes,
124
hay una única línea de espera y los clientes están siendo atendidos en su
orden de llegada por c servidores que atienden en paralelo.
Por tanto, tanto los tiempos de servicio como los tiempos entre llegadas
son independientes e idénticamente distribuidos.
Un sistema de filas M/G/c denota una fila en la que los tiempos entre
llegadas son un proceso de Poisson y los tiempos de servicio siguen una
distribución general (La letra M, se cree que es debida a Memoryless: pérdida
de memoria de la exponencial o por Markov: en honor a Markov). Por tanto,
los tiempos entre llegadas son variables aleatorias exponenciales con media
1/λ.
Similarmente, el sistema de filas GI/M/c denota el sistema en el que
el tiempo entre llegadas sigue una distribución general, pero el tiempo de
servicio está distribuido exponencialemente.
Por ejemplo, M/M/c denota un sistema de filas donde los tiempo entre
llegadas son exponenciales de media 1/λ, los tiempos de servicio también son
exponenciales de media 1/µ y hay dos servidores operando en paralelo.
Un sistema de filas denotado por D/G/c indica que el tiempo entre lle-
gadas es una constante d. La letra D es por determinístico. Similarmente,
GI/D/c denota un sistema de filas en el que los tiempos de servicio son deter-
minísticos. Por tanto, D/D/1 es un sistema con un servidor, en el que tanto,
los tiempos de llegada como los tiempos de servicio son determinísticos.
4.4.7. Clasificación de eventos en procesos de Poisson

Una aplicación importante del Teorema 4.8 supone que cada evento de un
proceso de Poisson se puede clasificar como un evento de tipo I o un evento
de tipo II, donde la clasificación de un evento en cada uno de estos tipos
depende de su tiempo de ocurrencia. Específicamente, suponiendo que un
evento ocurrió en un tiempo s, entonces, independientemente de cualquier
otra cosa externa, este se puede clasificar siendo de tipo I con probabilidad
p(s) y de tipo II con probabilidad 1 − p(s).
Teorema 4.9. Si N1 (t) representa el número de eventos de tipo I que han

ocurrido hasta el tiempo t, y N2 (t) representa el número de eventos de tipo
II que han ocurrido hasta el tiempo t, entonces, N1 (t) y N2 (t) son variables
125
aleatorias de Poisson independientes con medias λtp y λt(1 − p), respectiva-
mente, donde
1 t
Z
p= p(s)ds.
t 0
Prueba: La distribución de probabilidad conjunta de N1 (t) y N2 (t) se puede
determinar condicionándola sobre N (t):
P(N1 (t) = n, N2 (t) = m)
∞
X
= P(N1 (t) = n, N2 (t) = m|N (t) = k)P(N (t) = k)
k=0
= P(N1 (t) = n, N2 (t) = m|N (t) = n + m)P(N (t) = n + m).
Ahora, consideremos un evento arbitrario en el intervalo [0, t]. Si este ha

ocurrido en el tiempo s, entonces, la probabilidad de que este sea de tipo I
es p(s). Por el Teorema 4.8, este evento ocurrió en algún tiempo distribuido
uniformente en (0, t), entonces, la probabilidad de que este evento sea de tipo
I es
1 t
Z
p= p(s)
t 0
independientemente de los otros eventos. Así, la probabilidad
P(N1 (t) = n, N2 (t) = m|N (t) = n + m)
es igual a la probabilidad de de tener n éxitos y m fracasos en n + m pruebas

independientes, donde p es la probabilidad de éxito en cada prueba. Entonces,

n+m n
P(N1 (t) = n, N2 (t) = m|N (t) = n + m) = p (1 − p)n .
n
Esto implica que,
(n + m)! n (λt)n+m
P(N1 (t) = n, N2 (t) = m) = p (1 − p)n e−λt
n!m! (n + m)!
n
(λtp) −λt(1−p) (λt(1 − p))m
= e−λtp e .
n! m!

126
La aplicación principal de este resultado se presenta en los sistemas de
filas. En el siguiente ejemplo, se muestra su aplicación al caso de una fila con
infinitos servidores.
Ejemplo 4.32. (M/G/∞) Suponga que los clientes llegan a una estación
de servicio de acuerdo a un proceso de Poisson de tasa λ. Cuando un cliente
llega es atendido inmediatamente por uno de infinitos servidores. Asuma que
los tiempos de servicio de los clientes son independientes con una distribución
común G.
Para calcular la distribución de probabilidad del número de clientes en
el sistema en el tiempo t, es necesario distinguir aquellos que terminaron su
servicio antes del tiempo t de los que no lo terminaron. Digamos que los
eventos de tipo I son los que terminan su servicio antes del tiempo t y los de
tipo son los que terminan su servicio después del tiempo t.
Si el cliente llega en el tiempo s, s ≤ t, entonces, será un cliente de tipo I
si su tiempo de servicio es menor o igual a t − s, y como la distribución del
tiempo de servicio es G, la probabilidad será G(t − s). Es decir,
p(s) = G(t − s), s ≤ t,
y entonces, del Teorema 4.9, la distribución de N1 (t), el número de clientes
que terminan su servicio antes del tiempo t, es una Poisson de media
Z t Z t
1
E(N1 (t)) = λtp = λt G(t − s)ds = λ G(y)dy.
t 0 0
Similarmente, la distribución de N2 (t), el número de clientes que terminan

su servicio después del tiempo t, es una Poisson de media
Z t
E(N2 (t)) = λtp = λ (1 − G(y))dy.
0
Además, N1 (t) y N2 (t) son independientes.
4.4.8. Ejercicios
1. Los clientes llegan a un almacén de acuerdo a un proceso de Poisson
de tasa λ = 4 por hora. Si este almacén abre a las 9:00a.m. ¿cuál es la
probabilidad de que
127
a) exactamente haya llegado un cliente para las 9:30a.m.?
b) haya llegado un total de seis clientes para las 11:30 a.m.?
c) el primer cliente haya llegado en algún momento después de las
9:30a.m. pero antes de las 10a.m.?
2. Suponga que los clientes de cierto banco, llegan de acuerdo a un pro-

ceso de Poisson de tasa λ. Sea M (t) el número de clientes que llegan al
banco solo para hacer depósitos en sus cuentas. Suponga que, indepen-
dientemente de otros clientes, la probabilidad de que un cliente entre
al banco para hacer un depósito en su cuenta es p. Muestre que M (t)
es un proceso de Poisson de tasa λp.
3. En cierto lago, y cierta época del año, un pescador obtiene peces según
un proceso de Poisson a una tasa de 2 por hora. Si ayer este pescador,
entre las 9 a.m. y la 1 p.m. consiguió pescar 6 peces, ¿cuál es la proba-
bilidad de que hoy, él logre pescar exactamente un pez antes de las 10
a.m, si también comenzó su pesca a las 9 a.m.?
4. En una línea telefónica de reclamos que reciben llamadas de acuerdo a

un proceso de Poisson con tasa λ = 5 llamadas/hora. En esta línea se
comenzó el servicio a las 7 a.m. y se sabe que entre las 7 a.m. y las 9
a.m se recibieron 7 llamadas.
a) Si no se recibieron llamadas desde las 8:45 a.m. ¿cuál es la proba-

bilidad de que la siguiente llamada ocurra antes de las 9:15 a.m.?
b) ¿Cuál es la probabilidad de que no se reciban reclamos durante 45
minutos, comenzando a las 8:45 a.m.?.
c) ¿Cuál es la probabilidad de que a las 10:00 a.m. se hayan recibido
25 llamadas en total?
d ) ¿Cuál es la probabilidad de que a las 10:00 a.m. se hayan recibido
25 llamadas en total?
e) Si el operador que atiende estás llamadas trabaja 8 horas diarias
¿Cuántas llamadas recibirá en promedio durante una jornada lab-
oral?
5. Se sabe que, por cierta autopista, los carros cruzan por un cierto punto
siguiendo un proceso de Poisson con parámetro λ = 3 por minuto.
128
Suponga que una persona atraviesa sin poner atención por este punto
de la autopista,
a) ¿Cuál es la probabilidad de que salga ilesa si la cantidad de tiempo

que le cuesta atravesar la carretera es 10 segundos? (Suponga que
si la persona está en la autopista cuando pasa un automóvil, saldrá
herida).
b) Suponga que esta persona es lo suficientemente ágil para escapar
de un único carro, pero si se encuentra con dos o más carros mien-
tras intenta atravesar la autopista, entonces saldrá herida. ¿Cuál
es la probabilidad de que salga ilesa si se gasta 10 segundos en
atravesarla?
6. Suponga que el número de artículos que revisan los operarios de una

empresa puede ser descrito por un proceso de Poisson, con tasa diferente
para cada operario. Suponga que las tasas de revisión de dos operarios
A y B, quienes trabajan de forma independiente son λA y λB , artículos
revisados por minuto, respectivamente.
a) Si ambos trabajan dos horas, ¿cuál es la probabilidad de que A

alcance a revisar 20 artículos, mientras que B revise 10 artículos?
b) Se sabe que A revisó 10 artículos durante la primera hora. ¿cuál
es la probabilidad de el primero haya sido antes de los primeros 5
minutos y el segundo antes de los primeros 10 minutos?
7. Sea {N (t)}t≥0 un proceso de Poisson de tasa λ. Dado que N (t) = n y

0 < s < t, calcule P(N (s) = k|N (t) = n) para 0 ≤ k ≤ n .
8. Sea S1 el tiempo de ocurrencia del primer evento de un proceso de Pois-

son {N (t)} de tasa λ. Pruebe que P(S1 |N (t) = 1) es una distribución
Uniforme en [0, t].
9. Los clientes que entran a una tienda siguiendo un proceso de Poisson

de ?=10 por hora, independientemente uno de otro, deciden comprar
algo con probabilidad 0.3 y salen sin comprar nada con probabilidad
0.7. ¿Cuál es la probabilidad de que durante las primeras dos horas 9
personas entren en la tienda, y 3 de éstas compren algo y 6 no?
129
10. Sea {N (t)}t≥0 un proceso de Poisson de tasa λ y sea {Xi }i=1,2,... una
sucesión de ensayos de Bernoulli de parámetro 0 < p < 1 independi-
entes de {N (t)}t≥0 . Demuestre que si
N (t)
X
Y (t) = Xj ,
j=0
entonces, {Y (t)}t≥0 es un proceso de Poisson de Poisson de tasa λp.
11. Los siguientes datos son los tiempos de acciones de mantenimiento no

programado para el motor de una máquina de embotellado de cierta
empresa de cerveza. En estos tiempos se hizo mantenimiento al motor,
porque había fallado o porque estaba a punto de fallar. Estos tiempos
se registraron para las primeras 16000 horas de operación.
860 1.258 1.317 1.412 1.897 2.011 2.122 2.439
3.203 3.298 3.902 3.910 4.000 4.247 4.411 4.456
4.517 4.899 4.910 5.676 5.755 6.137 6.221 6.311
6.613 6.975 7.335 8.158 8.498 8.690 9.042 9.330
9.394 9.426 9.872 10.191 11.511 11.575 12.100 12.126
12.368 12.681 12.795 13.399 13.668 13.780 13.877 14.007
14.028 14.035 14.173 14.173 14.449 14.587 14.610 15.070
16.000
a) ¿Existe evidencia de que los tiempos entre mantenimientos no pro-

gramados siguen una distribución exponencial?
b) Para responder las siguientes preguntas, suponga que el proceso
puntual de tiempos de mantenimiento no programados para la
máquina de embotellado es un proceso de Poisson. ¿Es este modelo
razonable para este caso? ¿Por qué?
c) Debido a un pedido grande que recibe esta empresa, se necesita
usar esta máquina continuamente durante dos meses. ¿Cuántos
mantenimientos no programados se espera que ocurran en este
intervalo de tiempo?
d ) Un nuevo supervisor se hace cargo de esta máquina pero no recibe
el historial de mantenimientos no programados de la máquina.
¿Cuántas horas debe esperar para que la probabilidad del próximo
mantenimiento no programado sea mayor que 0.95?
130
e) ¿Cuántos mantenimientos no programados se deben esperar para
esta máquina en el primer año de operación, si se sabe que en
13000 horas de operación ocurrieron 43 mantenimientos no pro-
gramados?
4.5. Cadenas de Markov de tiempo continuo

Suponga que se está observando el estado de cierta máquina, si está
operando o si está sin operar por algún daño. Sea X(t) = 0 si la máquina no
está operando por algún daño, en el tiempo t, y sea X(t) = 1 si la máquina
está operando en el tiempo t. El proceso así generado, {X(t)}t≥0 , es un ejem-
plo de un proceso de Markov de tiempo continuo y con espacio de estados
S = {0, 1}.
La principal propiedad de las cadenas de Markov es la propiedad Marko-
viana expresada en (4.1). En palabras, dado el estado de la cadena en el
presente, su estado futuro es independiente de sus estados en el pasado. En
esta sección estudiaremos procesos estocásticos {X(t)}t≥0 que tienen esta
propiedad y además, cuando entran a un estado permanecen en este durante
un tiempo aleatorio antes de cambiar a otro estado. Estos procesos son cono-
cidos como Cadenas de Markov de tiempo continuo y tienen muchas
aplicaciones en sistemas de comunicación, sistemas biológicos y, en general,
varias áreas de la ingeniería y las ciencias.
Decimos que una cadena de Markov de tiempo continuo {X(t)}t≥0 , con
espacio de estados S finito o infinito contable, cumple la propiedad marko-
viana si, para todo s ≥ 0, dado el estado de la cadena en el presente (X(s)),
su futuro ((X(u), u > s) es independiente de su pasado (X(u), 0 ≤ u < s).
Sean i, j ∈ S y, para u ≥ 0, sea xu ∈ S. Entonces, por la propiedad
markoviana, para s, t > 0,
P(X(s+t) = j|X(s) = i, X(u) = xu , 0 ≤ u < s) = P(X(s+t) = j|X(s) = i).
Definición 4.18. (Tiempo homogéneo) Se dice que una cadena de Markov

de tiempo continuo es de tiempo homogéneo si sus probabilidades de tran-
sición son estacionarias, es decir, la probabilidad P(X(s + t) = j|X(s) = i)
131
no depende de s. Equivalentemente, para todo s > 0,
P(X(s + t) = j|X(s) = i) = P(X(t) = j|X(0) = i).
En las cadenas de Markov que usamos en este curso, execpto si se especi-

fica lo contrario, suponemos que son de tiempo homogéneo.
Observación: En las cadenas de Markov de tiempo discreto, se consideran
posibles las transiciones de un estado a él mismo. En las cadenas de Markov
de tiempo continuo, una transición solamente se considera cuando hay cambio
de estado.
En un punto de tiempo, denotado por t = 0, se supone que la cadena entra
en un estado i, y sea Y la longitud del tiempo en el que la cadena permanece
en ese estado antes de cambiar a otro estado. Entonces, para s, t ≥ 0,
P(Y > s + t|Y > s)
= P(X(u) = i, s < u ≤ s + t|X(s) = i, X(u) = i, 0 ≤ u < s)
= P(X(u) = i, s < u ≤ s + t|X(s) = i) = P(Y > t)
La relación P(Y > s + t|Y > s) = P(Y > t) muestra que la variable Y
tiene la propiedad de pérdida de memoria. Esto indica que Y tiene distribu-
ción exponencial.
El valor esperado de Y , es decir, la longitud de tiempo esperado que el
proceso permanecerá en un estado i se puede denotar por 1/νi .
Definición 4.19. Una cadena de Markov de tiempo continuo es un

proceso estocástico {X(t)}t≥0 con espacio de estados finito o infinito contable
S tal que una vez que este entra a un estado i permanece en este estado
durante un periodo de tiempo distribuido exponencialmente de media 1/νi .
Después de este tiempo, cambia a un estado j con probabilidad pij .
Observación: En las cadena de Markov de tiempo continuo pii = 0, para

todo i ∈ S.
En las cadenas de Markov de tiempo discreto, definimos pnij como la prob-
abilidad de pasar del estado i al estado j en n pasos. La cantidad análoga
para pnij en las cadenas de Markov de tiempo continuo es pij (t), definida como
132
la probabilidad de cambiar del estado i al estado j en t unidades de tiempo.
Es decir,
pij (t) := P(X(s + t) = j|X(s) = i), i, j ∈ S, s, t ≥ 0.
Para que una cadena de Markov de tiempo continuo pase del estado i
al estado j en s + t unidades de tiempo, la cadena tuvo que haber entrado
en algún estado k después s unidades de tiempo, y después pasó al estado
j después de t unidades de tiempo. Esta observación es la que se parece
resumida en las ecuaciones de Chapman-Kolmogorov para cadenas de
Markov de tiempo continuo:
X
pij (s + t) = pik (s)pkj (t).
k∈S
Estas ecuaciones se pueden probar usando la ley de probabilidad total y

sabiendo que los eventos {X(s) = k}, k ∈ S son eventos disjuntos:
pij (s + t) = P(X(s + t) = j|X(0) = i)

X
= P(X(s + t) = j|X(0) = i, X(s) = k)P(X(s) = k|X(0) = i)
k∈S
X
= P(X(s + t) = j|X(s) = k)P(X(s) = k|X(0) = i)
k∈S
X
= pkj (t)pik (s)
k∈S
X
= pik (s)pkj (t)
k∈S
Observe que, en las cadenas de Markov de tiempo continuo, pii = 0, pero

pii (t) no es necesariamente 0, debido a que en un periodo de tiempo de t
unidades, el proceso puede salir del estado i, entrar a otro u tros estados, y
regresar al estado i.
Ejemplo 4.33. Suponga que cierta máquina opera durante un periodo dis-
tribuido exponencialmente con parámetro λ. Cuando deja operar por algún
daño, queda parada durante un periodo de tiempo, también distribuido ex-
ponencialmente, con parámetro µ.
133
Se define X(t) = 1 si la máquina está funcionando en el tiempo t y
X(t) = 0 si no está funcionando. Con esta definición, {X(t)}t≥0 es una
cadena de Markov de tiempo continuo, con ν0 = µ, ν1 = λ, p00 = p11 = 0 y
p01 = p10 = 1.
Ejemplo 4.34. Sea {N (t)}t≥0 un proceso de Poisson de tasa λ. Entonces

{N (t)}t≥0 es un proceso estocástico con espacio de estados S = {0, 1, 2, . . .},
que cumple que cuando entra a un estado i permanece allí durante un tiempo
exponencial de media 1/λ y luego pasa el estado i + 1 con probabilidad 1.
Entonces, {N (t)}t≥0 es una cadena de Markov de tiempo continuo con
νi = λ para todo i ∈ S, pi,i+1 = 1; pij = 0 para j 6= i + 1. Además,
(
0 si j < i
pij (t) = P(N (s + t) = j|N (s) = i) = e−λt (λt)j−i
(j−i)!
si j ≥ i.
4.5.1. Ecuaciones de Kolmogorov hacia adelante y hacia

atrás
Algunas veces, es posible encontrar pij (t) resolviendo algunas ecuaciones
diferenciales.
Como una cadena de Markov de tiempo continuo permanece en un estado
i un tiempo exponencial de parámetro νi , entonces, el proceso abandona al
estado i a una tasa de νi . Así, si pij es la probabilidad de que la cadena pase
del estado i al estado j, entonces, νi pij es la tasa a la que el proceso abandona
el estado i y pasa al estado j.
La cantidad qij := νi pij es llamada la tasa de transición instantánea,
y X X
qij = νi pij
i∈S i∈S
es la tasa a la que el proceso entra al estado j .

Para probar el teorema que muestra las ecuaciones de Kolmogorv hacia
adelante y hacia atrás, es necesario probar primero el siguiente lema.
134
Lema 4.3. Sea {X(t)}t≥0 una cadena de Markov de tiempo continuo, con
espacio de estados S discreto. Sean i, j ∈ S. Entonces,
1 − pii (h) pij (h)
lı́m = νi y lı́m = qij .
h→0 h h→0 h
Prueba: Considere un proceso de Poisson {Ni (t)}t≥0 de tasa νi , que cuenta

el número de veces que el proceso ha pasado desde otros estados hacia el
estado i hasta el tiempo t. Entonces, la probabilidad de que en este proceso
no ocurran eventos en un intervalo de tiempo de longitud infinitesimal h es
P(Ni (h) = 0) = e−νi h .
Usando la serie de Maclaurin para la exponencial, tenemos:
(νi h)2 (νi h)3

P(Ni (h) = 0) = e−νi h = 1 − νi h + − + ···
2! 3!
= 1 − νi h + o(h)
Es decir, la probabilidad de que esta cadena permanezca en el mismo estado

i durante un periodo de tiempo de longitud infinitesimal h, se puede expresar
por
pii (h) = P(Ni (h) = 0) = 1 − νi t + o(h).
Luego,
1 − pii (h) o(h)
= νi h − .
h h
Por tanto,
1 − pii (h)
lı́m = νi
h→0 h
Similarmente, podemos considerar el proceso de Poisson {Nij (t)}t≥0 que
cuenta el número de veces han ocurrido transiciones del estado i al estado j
hasta el tiempo t a una tasa qij . Entonces, por las propiedades de los procesos
de Poisson, para un periodo de tiempo infinitesimal de longitud h,
pij (h) = P(Nij (h) = 1) = qij h + o(h).
Por tanto,
pij (h) o(h)
= qij + .
h h
135
De aquí, se tiene que:
pij (h)
lı́m = qij .
h→0 h

En el siguiente Teorema se presentan las Ecuaciones de Kolmogorov hacia

adelante y hacia atrás. Tanto para su demostración, como para las discu-
siones posteriores, suponga que para todo i, j ∈ S, las funciones pij (t) y sus
derivadas, satisfacen las condiciones de regularidad apropiadas que permiten
intercambiar el orden de dos límites y el orden entre un límite y una serie.
Teorema 4.10. Sea {X(t)}t≥0 una cadena de Markov de tiempo contin-

uo con espacio de estados S. Entonces, para todos los estados i, j ∈ S, se
cumplen las siguientes ecuaciones:
1. Ecuaciones de Kolmogorov hacia adelante (forward):

X
p0ij (t) = qkj pik (t) − νj pij (t).
k6=j
2. Ecuaciones de Kolmogorov hacia atrás (backward):

X
p0ij (t) = qik pkj (t) − νi pij (t).
k6=i
Prueba: Vamos a probar la expresión para las ecuaciones hacia adelante. (La
expresión para las ecuaciones hacia atrás se muestran de forma similar).
Por las ecuaciones de Chapman-Kolmogorov,
X
pij (t + h) − pij (t) = pik (t)pkj (h) − pij (t)
k∈S
X
= pik (t)pkj (h) + pij (t)pjj (h) − pij (t)
k6=j
X
= pik (t)pkj (h) + pij (t) [pjj (h) − 1]
k6=j
136
Dividiendo por h en ambos lados de la ecuación,
pij (t + h) − pij (t) X pkj (h) pjj (h) − 1

= pik (t) + pij (t)
h k6=j
h h
Tomando el límite cuando h → 0 y usando el Lema 4.3, tenemos que:

X
k6=j
Ejemplo 4.35. (Cadena de dos estados) Considere una cadena de Markov de

tiempo continuo de dos estados {0, 1}, que permanece un tiempo exponencial
de tasa λ en el estado 0, después pasa al estado 1, en el que permanece durante
un tiempo exponencial de tasa µ, antes de retornar al estado 0. Así,
p01 = p10 = 1,
p00 = p11 = 0
q10 = ν1 p10 = ν1 = µ
q01 = ν0 p01 = ν0 = λ
Luego, de las ecuaciones de Kolmogorov hacia adelante, tenemos que:
p000 (t) = q10 p01 (t) − ν0 p00 (t)

= µp01 (t) − λp00 (t)
= µ(1 − p00 (t)) − λp00 (t)
= −(λ + µ)p00 (t) + µ,
Para resolver esta ecuación, multipliquemos ambos lados por e(λ+µ)t ,
e(λ+µ)t p000 (t) + (λ + µ)e(λ+µ)t p00 (t) = µe(λ+µ)t ,
que es equivalente a
d (λ+µ)t
p00 (t) = µe(λ+µ)t .

e
dt
137
Integrando ambos lados, obtenemos:
µ (λ+µ)t
e(λ+µ)t p00 (t) = e + c,
λ+µ
donde c es una constante que podemos calcular con la condición p00 = 1, lo
que implica que
λ
c= .
λ+µ
Luego,
µ λ −(λ+µ)t
p00 (t) = + e .
λ+µ λ+µ
Similarmente, se puede mostrar que

λ µ −(λ+µ)t
p00 (t) = + e .
λ+µ λ+µ
Ejemplo 4.36. En un punto de llegada de buses, los pasajeros llegan de

acuerdo a un proceso de Poisson de tasa λ. Independientemente, los buses
llegan a la estación de acuerdo a un proceso de Poisson de tasa µ. Suponga
que cada vez que el bus llega al punto, los pasajeros que estaban esperando,
suben al bus y este sale inmediatamente. Si no hay pasajeros en el punto,
el bus no sale hasta que llegue por lo menos un pasajero. Suponga que en
el tiempo 0 no hay pasajeros esperando en el punto de llegada de los buses.
Para t > 0, calcule la probabilidad de que en el tiempo t tampoco hayan
pasajeros esperando en el punto de llegada de los buses.
Debemos calcular la probabilidad de transición p00 (t).
De acuerdo al enunciado, los tiempos entre llegadas de dos pasajeros con-
secutivos son variables aleatorias exponenciales con media 1/λ y los tiempos
entre llegadas de dos buses consecutivos son variables aleatorias, también
exponenciales con media 1/µ.
Sea X(t) = 1, si hay por lo menos un pasajero esperando en el punto de
parada de los buses en el tiempo t, y sea X(t) = 0 si ocurre lo contrario (no
hay pasajeros esperando).
Debido a propiedad de pérdida de memoria de la distribución exponen-
cial, cuando el bus sale de su punto de parada, hay una cantidad de tiempo
138
exponencial de media 1/λ hasta que llega el próximo pasajero a ese punto.
Además, desde el momento que llega este pasajero, debe esperar hasta que
llegue el próximo bus, durante un tiempo exponencial de media 1/µ.
Por tanto, {X(t)} es una cadena de Markov de tiempo continuo, con
espacio de estados {0, 1}, que permanece en 0 durante un tiempo exponencial
de media 1/λ y después pasa a 1 y permanece en este estado durante un
tiempo exponencial de media 1µ. Así, ν0 = λ, ν1 = µ, y
p01 = p10 = 1,
p00 = p11 = 0
q10 = ν1 p10 = ν1 = µ
q01 = ν0 p01 = ν0 = λ
Para calcular p00 (t) usemos las ecuaciones de Kolmogorov hacia adelante.
p000 (t) = q10 p01 (t) − ν0 p00 (t)

p001 (t) = q01 p00 (t) − ν1 p01 (t)
O sea,
p000 (t) = µp01 (t) − λp00 (t) (4.7)

p001 (t) = λp00 (t) − µp01 (t) (4.8)
Sumando estás dos últimas ecuaciones, se obtiene que:
p000 (t) + p001 (t) = 0.
Es decir,
p00 (t) + p01 (t) = c.
Como p00 (0) = 1 y p01 (0) = 0, tenemos que c = 1. De donde,
p01 (t) = 1 − p00 (t) (4.9)
Al sustituir (4.9) en la ecuación (4.7), se tiene que:
p000 (t) = µ[1 − p00 (t)] − λp00 (t).
139
Es decir, tenemos la ecuación diferencial
p000 (t) + (λ + µ)p00 (t) = µ.
Para resolver esta ecuación, multipliquemos ambos lados por e(λ+µ)t ,
e(λ+µ)t p000 (t) + (λ + µ)e(λ+µ)t p00 (t) = µe(λ+µ)t ,
que es equivalente a
d (λ+µ)t
p00 (t) = µe(λ+µ)t .

e
dt
Integrando ambos lados, obtenemos:
µ (λ+µ)t
e(λ+µ)t p00 (t) = e + c,
λ+µ
donde c es una constante que podemos calcular con la condición p00 = 1, lo
que implica que
λ
c= .
λ+µ
Luego,
µ λ −(λ+µ)t
p00 (t) = + e .
λ+µ λ+µ
4.5.2. Probabilidades estacionarias o de estado estable

Cuando estudiamos las cadenas de Markov de tiempo discreto, vimos
que el lı́mn→∞ pnij existe y es independiente de i si la cadena es irreducible,
recurrente positiva y aperiodica. Además, si para todo estado j ≥ 0,
πj = lı́mn→∞ pnij ,
entonces,
∞
X ∞
X
πj = pij π y πj = 1.
i=0 j=0
Para cada estado j, la probabilidad límite, πj , se puede interpretar como la

probabilidad, a largo plazo, de que la cadena esté en en el estado j, y también
como la proporción, a largo plazo, del número de transiciones al estado j.
140
Para las cadenas de Markov de tiempo continuo existen resultados simi-
lares.
Sea {X(t)}t≥0 una cadena de Markov de tiempo continuo con espacio de
estados S. Suponga que
Para cada i, j ∈ S, existe una probabilidad positiva de que, comenzando
en i, el proceso eventualmente estará en el estado j. Además,
Comenzando en i, el proceso retornará al estado i con probabilidad 1, y
el número esperado de transiciones para llegar al estado i es un número
finito.
Bajo estas dos condiciones, se puede probar que
lı́mt→∞ pij (t)
existe, y es independiente de i.
Sea
πj := lı́m pij (t).
t→∞
Entonces, πj es la probabilidad a largo plazo de que el proceso esté en el
estado j.
Observe que si, lı́mt→∞ pij (t) existe, entonces,
pij (t + h) − pij (t)
lı́m p0ij (t) = lı́m lı́m
t→∞ t→∞ h→0 h
pij (t + h) − pij (t)
= lı́m lı́m
h→0 t→∞ h
πj − π j
= lı́m =0
h→0 h
De las ecuaciones de Kolmogorov hacia adelante:

X
k6=j
Si t → ∞, tenemos que
X
0= qkj πk − νj πj .
k6=j
141
Por tanto, X
qkj πk = νj πj . (4.10)
k6=j
Como qkjP πk es la tasa a la que el proceso deja el estado k y entra al estado j,

la suma k6=j qkj πk es la tasa a la que el proceso entra al estado j. También,
y debido a que el proceso permanece en el estado j un tiempo de tasa νj
y luego lo abandona, νj πj indica la tasa en la que el proceso abandona el
estado j.
Entonces, las ecuaciones (4.10) están mostrando que, para todo j ∈ S, si
la cadena de Markov de tiempo continuo está en estado estable, la tasa total
de transiciones al estado j = la tasa total de transiciones desde el estado j.
Las ecuaciones (4.10) son conocidas como Ecuaciones de balance de-
bido a la igualación entre la tasa de transición total hacia el estado j y la
tasa la tasa total de transiciones desde el estado j.
Tal como ocurre en el caso discreto, para las cadenas de Markov de tiempo
continuo con n estados, las tasas de entrada se igualan a las tasas de salida
para n − 1 estados y las ecuaciones de balance valen para el resto de esta-
dos también. Así, las ecuaciones de balance dan una ecuación redundante, y
P∞tanto, para calcular las probabilidades πj , se debe adicionar la ecuación
por
j=0 πj = 1.
Ejemplo 4.37. Considere el ejemplo de una cadena con dos estados. Para
i = 0, 1, sea πi la probabilidad a largo plazo de que la cadena permanezca en
el estado i. De las ecuaciones de balance,
Para el estado 0,
q10 π1 = ν0 π0
µπ1 = λπ0
Para el estado 1,
q01 π0 = ν1 π1
λπ0 = µπ1
Entonces, tenemos dos ecuaciones con dos incógnitas π0 y π1 :
λπ0 = µπ1 y π0 + π 1 = 1
142
De aquí,
µ λ
π0 = y π1 = .
λ+µ λ+µ
Ejemplo 4.38. Un taller opera con dos máquinas idénticas, que trabajan
continuamente excepto cuando se descomponen. Suponga que el tiempo re-
querido para reparar una de estas máquinas es Exponencial de media 1/2
día y cuando se terminan la reparación, el tiempo que transcurre hasta la
próxima falla es Exponencial de media 10 días. Suponga que el tiempo de
tiempo de reparación es independiente del tiempo que la máquina opera, y
que las máquinas operan de forma independiente.
Definamos la variable aleatoria X(t) por el número de máquinas descom-
puestas en el tiempo t. Los posibles valores de X(t) son 0, 1, 2.
Entonces, {X(t)}t≥0 es una cadena de Markov de tiempo continuo. Use-
mos las ecuaciones de balance para hallar la distribución de probabilidad de
estado estable para el número de máquinas descompuestas, π0 , π1 y π2 .
Para esto, es necesario encontrar, para i, j = 0, 1, 2, la tasa de transición
instantánea qij es decir, la tasa a la que el proceso abandona el estado i y
pasa al estado j.
Como el estado de esta cadena (número de máquinas descompuestas)
aumenta en 1 cuando una máquina se descompone y disminuye en 1 cuando
se arregla una máquina, y la probabilidad de que ocurran dos arreglos o dos
fallas simultáneamente es 0,
q20 = 0 y q02 = 0.
Dado que el tiempo de reparación tiene media 1/2 día, la tasa del tiempo
en la que terminan las reparaciones, cuando solo hay una máquina descom-
puesta es 2 máquinas por día y cuando las dos máquinas están descompuestas
es de 4 por día. Esto implica que
q21 = ν2 p21 = 4 y q10 = ν1 p10 = 2.
El tiempo esperado hasta que se descompone una máquina es de 10 días.

Entonces, la tasa a la que se descompone una máquina, cuando solamente
143
una está operando es de 1/10 por día, entonces
q12 = ν1 p12 = 1/10.
Durante el tiempo t en que las dos máquinas operan, X(t) = 0, y las
fallas ocurren a una tasa de 1/10 + 1/10 = 1/5 por día. Entonces,
1
q01 = ν0 p01 = ,
5
y como este sistema, estando en 0 solo puede pasar al estado 1, p01 = 1 y
ν0 = 1/5.
También, observando que
q10 + q12 = ν1 p10 + ν1 p12
= ν1 (p10 + p12 )
= ν1
Se puede obtener que
1 21
ν1 = 2 + = .
10 10
De modo similar, y observando que cuando las dos máquinas están en
reparación solo es posible pasar a tener una en reparación (p21 = 1)
ν2 = q21 = 4.
Ahora podemos evaluar las ecuaciones de balance.
Para j = 0
q10 π1 + q20 π2 = ν0 π0
1
2π1 + 0π2 = π0
5
10π1 = π0
Para j = 1
q01 π0 + q21 π2 = ν1 π1
1 21
π0 + 4π2 = π1
5 10
2π0 + 40π2 = 21π1
144
Para j = 2
q02 π0 + q12 π1 = ν2 π2
1
0π0 + π1 = 4π2
10
π1 = 40π2
En resumen,
Estado Total tasas entrando = Total tasas saliendo

0 2π1 = 1/5π0
1 1/5π0 + 4π2 = 21/10π1
2 1/10π1 = 4π2
Estas ecuaciones de balance pueden ilustrarse como se muestra en el gráfi-

co 4.7. Las flechas entrando y saliendo en cada estado están marcadas con las
tasas de transición de un estado al otro. Observe que al igualar las entradas
y salidas en cada estado, multiplicándolas por sus respectivas probabilidades
estacionarias, se generan las ecuaciones de balance.
Figura 4.7: Tasas de entrada y salida en una CM de 3 estados
Resolviendo estas ecuaciones, y usando que π0 + π1 + π2 = 1, se obtiene:
400 40 1
π0 = ≈ 0,907, π1 = ≈ 0,091 y π2 = ≈ 0,002.
441 441 441
Es decir, a largo plazo, más del 90 % del tiempo, las dos máquinas estarán
funcionando bien.
145
4.5.3. Procesos de nacimiento y muerte
Sea X(t) el número de individuos de una población de organismos vivos
en el tiempo t.
Suponga que los miembros de la población se pueden reproducir dando
lugar al nacimiento de nuevos miembros, o se pueden morir, disminuyendo el
tamaño de la población.
Además, suponga que:
Si X(t) = n, n ≥ 0, entonces, el tiempo hasta el próximo nacimiento

es exponencial de parámetro λn ,
Si X(t) = n, n ≥ 0, entonces, el tiempo hasta la próxima muerte es
exponencial de parámetro µn , y,
Los nacimiento ocurren independientemente de las muertes.
Para n > 0, dado X(t) = n, sean

Tn := el tiempo hasta el próximo nacimiento
Sn := el tiempo hasta la próxima muerte
Entonces, Tn y Sn son variables aleatorias independientes distribuidas Expo-
nencial de parámetros λn y µn , respectivamente. Bajo estas condiciones, el
proceso {X(t)}t≥0 permanece en el estado n durante un periodo de tiempo
de longitud aleatoria min(Tn , Sn ). La distribución de min(Tn , Sn ) se puede
determinar por:
P(min(Tn , Sn ) > x) = P(Tn > x, Sn > x)

= P(Tn > x)P(Sn > x)
= e−λn x e−µn x
= e−(λn +µn )x .
Es decir, min(Tn , Sn ) es una variable distribuida Exponencial de parámetro
(λn + µn ).
Cuando n = 0, (solo hay posibilidad de nacimiento) el tiempo esperado
hasta el próximo nacimiento es T0 ∼ Exp(λ0 ), es decir, dado n = 0, el tiempo
146
medio esperado hasta un nacimiento es 1/λ0 . Entonces, el proceso permanece
en el estado n = 0 un periodo de tiempo exponencial de parámetro λ0 y
después cambia al estado n = 1 con probabilidad 1.
Tomando µ0 = 0, para n ≥ 0, el proceso permanece en el estado n un
tiempo medio 1/(λn + µn ). Así, para n > 0, el procesos deja ese estado y pasa
al estado n + 1 (si ocurre un nacimiento) o pasa al estado n − 1 (si ocurre
una muerte).
A partir de las observaciones hechas, se puede concluir que el proceso
{X(t)}t≥0 es una cadena de Markov de tiempo continuo con espacio de esta-
dos S = {0, 1, 2 . . .} y tasa νn = λn + µn , para n ≥ 0. Esta cadena se conoce
como Proceso de nacimiento y muerte y para cada estado n ≥ 0, los
parámetros son llamados tasa de nacimiento y tasa de muerte, respec-
tivamente. En la figura 4.8 está representada esta cadena.
Figura 4.8: Proceso de nacimiento y muerte
Si el proceso está en el estado n y pasa un periodo de tiempo en el que se

da un nacimiento, es decir, Tn < SN , la probabilidad de pasar al estado n+1,
se puede obtener a partir de la Ley de la probabilidad total como sigue:
Z ∞
pn,n+1 = P(Sn > Tn ) = P(Sn > Tn |Tn = x)fTn (x)dx
0
Z ∞
= P(Sn > Tn |Tn = x)λn e−λn x dx
0
147
Haciendo los cálculos,
Z ∞
pn,n+1 = λn P(Sn > x)e−λn x dx
0
Z ∞
= λn e−µn x e−λn x dx
Z0 ∞
= λn e−(λn +µn )x dx
0
λn
= .
λn + µn
Por el complemento,
λn µn
pn,n−1 = 1 − = .
λn + µn λn + µn
Los términos nacimiento y muerte tiene interpretaciones distintas de

acuerdo a su aplicación. Por ejemplo, si X(t) representa el número de clientes
esperando para ser atendidos en un banco, cada llegada de un nuevo cliente
se puede interpretar como un nacimiento y cuando el cliente comienza a ser
atendido, puede interpretarse como una muerte.
Un proceso de nacimiento y muerte se conoce como Proceso de nacimien-
to puro cuando µn = 0 para todo valor de n ≥ 0, similarmente, se define un
Proceso de muerte pura cuando λn = 0 para todo valor de n ≥ 0 (observe
que este proceso eventualmente será absorbido por el estado 0).
Ecuaciones del balance del proceso de nacimiento y muerte

Sea πn , la probabilidad estacionaria (probabilidad a largo plazo) de que
el tamaño de la población sea n, en un proceso de nacimiento y muerte con
tasas de nacimiento {λn }∞ ∞
n=0 y tasas de muerte {µn }n=0 . Dado que las tasas
de transición instantánea son:
λn
qn,n+1 = νn pn,n+1 = (λn + µn )
λn + µn
νn
qn,n−1 = νn pn,n+1 = (λn + µn ) ,
λn + µn
148
Las ecuaciones de balance para este este proceso están dadas por:

0 µ1 π 1 = λ0 π0
1 λ0 π0 + µ2 π2 = λ1 π1 + µ1 π1
2 λ1 π1 + µ3 π3 = λ2 π2 + µ2 π2
.. ..
. .
n λn−1 πn−1 + µn+1 πn+1 = λn πn + µn πn
.. ..
. .
De la ecuación de balance para el estado 0,

λ0
π1 = π0 .
µ1
Sustituyendo este resultado en la ecuación de balance para el estado 1, se
tiene que µ2 π2 = λ1 π1 .
Por tanto,
λ1 λ0 λ1
π1 =
π2 = π0 .
µ2 µ1 µ2
Si se continúa con este procedimiento, para n ≥ 1, se obtiene:
λn−1 λ0 λ1 · · · λn−1
πn = πn−1 = π0 .
µn µ1 µ2 · · · µn
P∞
Dado que n=0 πn = 1,
∞
X λ0 λ1 · · · λn−1
π0 + π0 = 1.
n=1
µ1 µ2 · · · µn
Despejando el valor de π0 ,
1
π0 = P∞ λ0 λ1 ···λn−1
.
1+ n=1 µ1 µ2 ···µn
Luego,
λ0 λ1 · · · λn−1
πn = , n ≥ 1,
µ1 µ2 · · · µn 1 + ∞ λ0 λ1 ···λn−1
P
n=1 µ1 µ2 ···µn
149
siempre que la serie en el denominador sea convergente. Es decir,
∞
X λ0 λ1 · · · λn−1
< ∞.
n=1
µ1 µ2 · · · µn
Así, la probabilidad estacionaria πn existe, si la serie es convergente.
Proceso de nacimiento y muerte con finitos estados

Un proceso de nacimiento y muerte con espacio de estados finito S =
{0, 1, 2, . . . , m}, se puede definir a partir del proceso general, en el caso en
que las tasas de nacimiento, para i ≥ m, sean λi = 0 y las tasas de muerte
µj = 0 con j ≥ m + 1.
Para este caso, las ecuaciones de balance son:

0 µ 1 π1 = λ0 π0
1 λ 0 π0 + µ 2 π2 = λ1 π 1 + µ1 π 1
2 λ 1 π1 + µ 3 π3 = λ2 π 2 + µ2 π 2
.. ..
. .
m λm−1 πm−1 = µm πm
Pm
A partir de estas ecuaciones, y usando i=0 πi = 1, se tiene que las
probabilidades estacionarias son:
1
π0 = Pm λ0 λ1 ···λn−1
,
1+ n=1 µ1 µ2 ···µn
y, para 1 ≤ n ≤ m,
λ0 λ1 · · · λn−1
πn = Pm λ0 λ1 ···λn−1 .
µ1 µ2 · · · µn 1 + n=1 µ1 µ2 ···µn
4.5.4. Filas
Una de las aplicaciones más usadas de la cadenas de Markov de tiempo
continuo se presenta en el tratamiento de los sistemas filas.
150
Sistema de filas M/M/1
Un sistema de fila M/M/1 es un sistema GI/G/1, donde hay un único
servidor, la distribución GI de los tiempos entre llegadas de los clientes es
Exponencial, digamos, de parámetro λ y del tiempo de servicio, también
exponencial, digamos que de parámetro µ.
Para un sistema de fila M/M/1, definamos la variable X(t) como el
número de clientes que hay en el sistema en el tiempo t, y consideremos
la llegada de un cliente al sistema como un nacimiento y la salida de un
cliente del sistema como una muerte.
Definido así, {X(t)}t≥0 , es un proceso de nacimiento y muerte con tasas
de nacimiento λn = λ con n ≥ 0 y tasas de muerte µn = µ, para n ≥ 1.
Para n ≥ 0, las probabilidades estacionarias πn indican la proporción de
tiempo en el que hay n clientes en este sistema de fila.
Vimos que estas probabilidades existen, si y solamente si, serie
∞ ∞ ∞
X λ0 λ1 · · · λn−1 X λn X
= = ρn ,
n=1
µ1 µ2 · · · µn n=1
µn n=1
es convergente, donde ρ = λ/µ.

Esta serie, conocida como la serie geométrica, es convergente sí y sola-
mente si, ρ < 1. Por tanto, la fila es estable y las probabilidades estacionarias
existen, sí y solo sí, λ < µ. Es decir, si la tasa de llegada de los clientes al
sistema es menor que la tasa de servicio. Bajo esa condición, usando las
expresiones para las medidas estacionarias en los procesos de nacimiento y
muerte, se tiene que:
1 1
π0 = P∞ = ρ = 1 − ρ,
1+ n=1 ρn 1 + 1−ρ
y,
ρn
πn = P∞ n
= ρn (1 − ρ), n ≥ 0.
1+ n=1 ρ
Si se denota con N al número de clientes en el sistema en un tiempo
cualquiera futuro, su valor esperado se puede calcular usando las probabili-
151
dades estacionarias. Así,
∞
X
E(N ) = nρn (1 − ρ)
n=0
∞
X
= ρ(1 − ρ) nρn−1
n=0
∞
X d n
= ρ(1 − ρ) ρ
n=0
dρ
∞
d X n
= ρ(1 − ρ) ρ
dρ n=0
ρ
= ρ(1 − ρ)
(1 − ρ)2
ρ2
=
1−ρ
4.5.5. Ejercicios
152
4.6. Movimiento Browniano
En 1827, el botánico inglés Robert Brown (1773-1851), al estudiar el
movimiento de partículas de polen suspendidas en agua, descubrió un fenó-
meno con múltiples aplicaciones.
El trabajo de Einstein, presentado en 1905, sobre física estadística, ex-
plicaba el fenómeno llamado movimiento browniano, cuyo nombre fue dado
como un homenaje a Robert Brown. El propósito de Brown era descubrir,
por medio de sus observaciones, el origen de la fuerza vital, la influencia mis-
teriosa a la que, en esa época, se le atribuía la propiedad de darle vida a
las cosas. Cuando Brown descubrió el movimiento de las partículas de polen,
creyó que había encontrado lo que buscaba.
La base para comprender el movimiento browniano fue dada, entre otros,
por los físicos Ludwig Boltzmann (1844-1906) y James Maxwell (1831-1879)
en las décadas siguientes al descubrimiento de Brown. Inspirados en los estu-
dios de algunos estadísticos, como Jacques Quételet (1796-1874), quien había
estudiado las regularidades estadísticas del comportamiento humano, crearon
las primeras bases de la física estadística usando las estructuras matemáti-
cas de la probabilidad y la estadística para explicar la manera en la que las
propiedades de los fluidos surgían a partir del movimiento de los átomos que
los constituían.
En la época en que Boltzman y Maxwell presentaban su teoría, algunos
científicos la objetaron matemáticamente y otros la rechazaron debido a que
no se creía en la existencia de los átomos. Si bien esta teoría lograba repro-
ducir algunas leyes físicas ya conocidas, las nuevas previsiones eran las que
más dudas causaban. Fue Einstein, en 1905, quien usó la física estadística
para explicar, con gran detalle numérico, el mecanismo del movimiento brow-
niano. Con esto, se acabó el debate sobre el uso de la estadística en las teorías
físicas, y la idea de que la materia está formada por átomos y moléculas se
convirtió en la base para el impulso de las tecnologías modernas y abrió las
puertas a una nueva era de la física.
Según la teoría atómica, el movimiento de las partículas en un fluido
es caótico. Einstein mostró que a pesar del caos que se presenta en este
movimiento a nivel microscópico, había cierta relación previsible entre fac-
153
tores como tamaño, número y velocidad de las moléculas con la frecuencia y
magnitud de sus movimientos. Con esto, Einstein mostró, que el orden que
vemos en la naturaleza esconde un desorden subyacente invisible, que solo
puede ser entendido por medio de las leyes de la aleatoriedad.
Desde este enfoque probabilístico, tanto la distribución Normal, como los
caminos aleatorios, tienen un papel importante. Al aceptar la estadística en
la física, se reconocieron las marcas del andar caótico en muchas áreas de
estudio: en el camino que siguen los insectos para buscar alimentos, en la
formación de los plásticos, en las variaciones de los precios de las acciones, o
en la evolución de la inteligencia a través del tiempo.
Después de Einstein, muchos científicos han aportado en el estudio del
movimiento browniano, sin embargo, en 1923, Norbert Wiener (1894-1964)
fue quien presentó la formulación rigurosa de este movimiento. Por esta razón,
al movimiento browniano también se le conoce como el proceso de Wiener.
4.6.2. Definición del movimiento browniano

Suponga que un líquido está contenido en un envase de forma cúbica
ubicado en un sistema coordenado, y que en el tiempo 0, una partícula está
en el origen (0, 0, 0). Mientras no se especifique lo contrario, se supone que
el envase cúbico es suficientemente grande, como para ser considerado no
limitado y que está lleno de líquido.
Sea (X(t), Y (t), Z(t)) la posición de la partícula después de t unidades
de tiempo. Estamos interesados en la distribución de probabilidad de las
variables X(t), Y (t) y Z(t). Para esto, comencemos con estudiando la variable
X(t). Las otras dos variables tienen un comportamiento semejante.
En un periodo de tiempo de longitud infinitesimal (0, t), X(t) es una
suma de muchos movimientos muy pequeños en dirección del eje x. Se puede
encontrar esto dividiendo el intervalo. Para aclarar esto, dividamos el inter-
valo de tiempo de longitud t en n = [t/h] subintervalos, donde la longitud
de estos subintervalos es h, siendo h algún infinitesimal y [t/h] es el mayor
entero menor o igual que t/h.
Suponga que para un δ > 0 infinitesimal, en cada uno de esos subinter-
valos, la partícula se mueve a la derecha δ unidades con probabilidad 1/3, δ
154
unidades a la izquierda con probabilidad 1/3 o no se mueve con probabilidad
1/3.
Para i ≥ 1, sea

 δ con probabilidad 1/3
Xi = −δ con probabilidad 1/3
0 con probabilidad 1/3.

Entonces, {Xi }i≥1 es un camino aleatorio con valor esperado E(Xi ) = 0 y

varianza
1 1 1 2δ 2
V ar(Xi ) = E(Xi2 ) − 0 = (δ)2 + (−δ)2 + 0 = .
3 3 3 3
Para n grande, X(t) y ni=1 Xi tienen aproximadamente la misma dis-

P
tribución. Además, las variables X1 , P
X2 , . . . , Xn son independientes. Luego,
por el Teorema del Límite Central, ni=1 Xi tiene una distribución aproxi-
2 2
madamente Normal, con media 0 y varianza 2δ3 n = 2δ3ht . Para construir la
distribución de la componente X(t) del movimiento browniano, se necesita
h → 0 y δ → 0 de forma que (2δ 2 )/(3h) tienda a una constante σ 2 .
Así, para todo t > 0, X(t) es una variable aleatoria distribuida aproxi-
madamente N (0, σ 2 t).
También, la coordenada en y, Y (t) y la coordenada en z, Z(t) son variables
aleatorias normales con media 0 y varianza σ 2 t.
También se puede mostrar que X(t), Y (t) y Z(t) son variables aleatorias
independientes, con incrementos independientes, es decir, para s ≤ t ≤ u ≤ v,
tenemos que X(t) − X(s) y X(v) − X(u), son independientes.
Además, estas variables tienen la propiedad que se conoce como incre-
mentos estacionarios, es decir, en el proceso {X(t)}t≥0 , para s < t y
h ∈ (−∞, ∞), las variables aleatorias X(t) − X(s) y X(t + h) − X(s + h)
están igualmente distribuidas.
Definición 4.20. Se dice que un proceso estocástico {X(t)}t≥0 con espacio

de estado S = (−∞, ∞) es un movimiento browniano si:
Tiene incrementos independientes y estacionarios,
155
X(0) = 0,
Para t > 0, X(t) es una variable aleatoria Normal con media 0 y vari-
anza σ 2 t, para alguna constante σ > 0.
Los movimientos brownianos también son conocidos como procesos de
Wiener , por la formalización teórica dada por este autor.
σ 2 es conocida como el parámetro de la varianza del movimiento
browniano.
Para t > 0, la función de densidad de probabilidad de X(t) es denotada
por φt (x), y está dada por:
x2

1
φt (x) = √ exp − 2 .
σ 2πt 2σ t
Dado que el movimiento browniano {X(t)}t≥0 tiene incrementos esta-
cionarios, la distribución de los incrementos X(t + s) − X(s) es la misma que
la distribución de X(t). Es decir,
X(t + s) − X(s) ∼ N (0, σ 2 t).
Definición 4.21. Un movimiento browniano con parámetro de varianza

igual a 1 se conoce como movimiento browniano estándar .
Si {X(t)}t≥0 es un movimiento browniano con parámetros de varianza σ 2 ,

entonces, si se toma W (t) = X(t)/σ, el proceso {W (t)}t≥0 es un movimiento
browniano estándar.
Observación: Se puede observar que el gráfico de la posición en x de una
partícula en movimiento en un líquido, como función de t, es una función
continua. (lo mismo ocurre para y y para z). Se puede probar que esta función
es continua en casi todas partes, y diferenciable en ninguna parte.
4.6.3. Densidad de probabilidad condicionada al punto

inicial del movimiento browniano
El objetivo de esta sección, es calcular la función de densidad de proba-
bilidad condicional de X(t) dado que X(0) = x0 . Esta función será denotada
156
por ft|0 (x|x0 ), y es análoga a pij (t) en las cadenas de Markov de tiempo con-
tinuo (que se calcula usando las ecuaciones de Kolmogorov hacia adelante
y hacia atrás) y a pnij en las cadenas de Markov de tiempo discreto (que se
calcula usando las ecuaciones de Chapman-Kolmogorov).
Las funciones ft|0 (x|x0 ) son conocidas como las funciones de densidad
de probabilidad de transición para el movimiento browniano, y a partir
de ellas se puede calcular la siguiente probabilidad condicional:
Z u
P(X(t) ≤ u|X(0) = x0 ) = ft|0 (x|x0 )dx.
−∞
Como el movimiento browniano tiene incrementos estacionarios, la función

de densidad de probabilidad de X(t + t0 ) dado que X(t0 ) = x0 es igual a la
de X(t) dado que X(0) = x0 , es decir, es igual a ft|0 (x|x0 ).
Como ft|0 (x|x0 ) es una función de densidad de probabilidad, cumple:
ft|0 (x|x0 ) ≥ 0
R∞
f (x|x0 )dx = 1
−∞ t|0
Para x 6= x0 , lı́mt→0 ft|0 (x|x0 ) = 0
También, Einstein mostró que ft|0 (x|x0 ) satisface la siguiente ecuación

parcial, conocida como la Ecuación de difusión hacia atrás:
∂f 1 ∂ 2f
= σ2 2 .
∂t 2 ∂x
Así, única solución de la ecuación de difusión hacia atrás, bajo las condiciones
de que sea una función de densidad de probabilidad, es:
(x − x0 )2

1
ft|0 (x|x0 ) = √ exp − .
σ 2πt 2σ 2 t
157
4.6.4. Función de densidad de probabilidad conjunta de
X(t1 ), X(t2 ), . . . , X(tn )
Para t1 < t2 , sea f (x1 , x2 ) la función de densidad de probabilidad conjunta
de X(t1 ) y X(t2 ). Dado que estás dos variables no son independientes, para
encontrar su distribución conjunta se usa un método de transformación de
variables, mediante la construcción dos variables nuevas, que sean funciones
de las variables originales, y además, independientes.
Consideremos las variables aleatorias U = X(t1 ) y V = X(t2 )−X(t1 ). Por
la propiedad de incrementos independientes, estas dos variables son indepen-
dientes, entonces su función de densidad de probabilidad conjunta, digamos
gU,V (u, v) es el producto de sus funciones marginales, ambas normales. En-
tonces,
gU,V (u, v) = φt1 (u) · φt2 −t1 (v)

u2 v2

1 1
= √ exp − 2 · p exp − 2
σ 2πt1 2σ t1 σ 2π(t2 − t1 ) 2σ (t2 − t1 )
2
v2

1 1 u
= p exp − 2 + ,
2σ 2 π t1 (t2 − t1 ) 2σ t1 (t2 − t1 )
donde −∞ < u < ∞ y −∞ < v < ∞.

La función de densidad de probabilidad conjunta de X(t1 ) y X(t2 ), me-
diante esta transformación u = x1 , v = x2 − x1 , se encuentra usando la
siguiente expresión:
fX1 ,X2 (x1 , x2 ) = gU,V (x1 , x2 − x1 ) · |J|,
donde J indica el jacobiano de la transformación.

Para calcular el jacobiano, despejamos x1 y x2 en términos de u y v, de
la transformación considerada. Así:
x1 = u
x2 = v + u
158
Entonces,
∂x1 ∂x1

∂u ∂v 1 0

J = = =1

∂x ∂x2 1 1
2
∂u ∂v

Luego,
x21 (x2 − x1 )2

1 1
fX1 ,X2 (x1 , x2 ) = p exp − 2 + , (4.11)
2σ 2 π t1 (t2 − t1 ) 2σ t1 (t2 − t1 )
donde −∞ < x1 , x2 < ∞.

Este procedimiento se puede generalizar para encontrar la función de den-
sidad de probabilidad conjunta de X(t1 ), X(t2 ), . . . , X(tn ), que será denotada
por f (x1 , . . . , xn ), usando las variables de transformación:
U1 = X(t1 )
U2 = X(t2 ) − X(t1 )
..
.
Un = X(tn ) − X(tn−1 )
Por la propiedad de incrementos independientes, las variables U1 , U2 , . . . , Un

son independientes. Además, por la propiedad de incrementos estacionarios,
sus distribuciones son normales:
U1 ∼ N (0, σ 2 t1 )
Ui ∼ N (0, σ 2 (ti − ti−1 )), i = 2, . . . , n
Por tanto,
f (x1 , . . . , xn ) =
n
" !#
1 1 x21 X (xi − xi−1 )2
p exp − 2 + ,
σ n n
(2π) t1 (t2 − t1 ) · · · (tn − tn−1 ) 2σ t1 (ti − ti−1 )
i=2
donde −∞ < x1 , x2 , · · · , xn < ∞.
159
4.6.5. Función de densidad de probabilidad de un movimien-
to browniano dada su posición antes y después
Para un movimiento browniano {X(t)}t≥0 , suponga que para t1 < t < t2 , se
sabe que X(t1 ) = x1 y que X(t2 ) = x2 . Conociendo esta información, vamos a
determinar la distribución de X(t).
Consideremos el caso más simple, donde se sabe que, t1 = 0, x1 = 0 y para

algún u tal que 0 < t < u, X(u) = 0. Queremos encontrar la función de densidad
de probabilidad de X(t) condicionada a esta información.
Sea fX(t),X(u) (x, y) := f (x, y) la f.d.p. conjunta de las variables X(t) y X(u).
Por la expresión (4.11), (donde t1 = t, t2 = u, x1 = x y x2 = y), f (x, y) está dada
por:
2
(y − x)2

1 1 x
f (x, y) = p exp − 2 + ,
2σ 2 π t(u − t) 2σ t (u − t)
donde −∞ < x, y < ∞.
Sea fX(t)|X(u) (x|0) la f.d.p.condicional de X(t) dado que X(u) = 0. Entonces,

por la definición de f.d.p condicional,
f (x, 0) f (x, 0) √
fX(t)|X(u) (x|0) = = = σ 2πuf (x, 0).
fX(u) (0) φu (0)
Luego,
√
2
(−x)2

1 1 x
fX(t)|X(u) (x|0) = σ 2πu p exp − 2 +
2σ 2 π t(u − t) 2σ t (u − t)
√ 2

1 x u
= 2πu p exp − 2
2σπ t(u − t) 2σ t(u − t)
2
r
1 u x u
= √ exp − 2
σ 2π t(u − t) 2σ t(u − t)
Por tanto, para t < u, la f.d.p de X(t) condicionada a que X(u) = 0 es
una distribución Normal con media 0 y varianza σ 2 t(u − t)/u. En términos de
distribuciones condicionadas, esta media se denota como:
E[X(t)|X(u) = 0, X(0) = 0] = 0,
y la varianza,
σ 2 t(u − t)
V ar[X(t)|X(u) = 0, X(0) = 0] =
u
160

Librocadenasocultasmarkov PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Librocadenasocultasmarkov PDF

Cargado por

Copyright:

Formatos disponibles

Conceptos introductorios de

Probabilidad y Procesos Estocásticos

Medellín, segundo semestre de 2013

2. Conceptos básicos de Probabilidad 9

La Teoría de la Probabilidad nace a mediados del siglo XVII y su nacimien-

S = {(x, y, z) : 1,00m ≤ x ≤ 2, 00m; 40kg ≤ y ≤ 200kg; z = 18, 19, . . . , 105}.

y el evento de interés, digamos D, es el subconjunto de S donde una o varias

Observe que el número de elementos de S es 64 . Ejercicio: Calcule el

Definición 2.3. Ocurrencia de un evento: Considere un evento E del

Ejemplo 2.5. En el Ejemplo 2.4, si se hace el experimento de lanzar cuatro

Definición 2.4. Si un experimento aleatorio se repite un número de veces

Subconjunto: Se dice que un evento E es subconjunto de otro evento

Igualdad entre dos eventos: Se dice que dos eventos E y F son

Intersección: Un evento G es la intersección entre dos eventos E y

Unión entre eventos: El evento H es la unión entre dos eventos si

Complemento de un evento: El evento llamado complemento del

Diferencia entre dos eventos: El evento diferencia entre los eventos

Evento seguro: Es el evento que siempre ocurre en un experimento

Evento imposible: Un evento imposible es aquel del que se tiene

Eventos mutuamente excluyentes: Cuando la ocurrencia de dos

Observación: Recordar las leyes de De Morgan

2.3. Función de probabilidad

La frecuencia relativa no puede ser negativa. Así, la función P(C) debe

La frecuencia relativa del espacio completo es siempre 1. Así, P(S) = 1.

Si C1 , C2 , . . . , Cn son eventos de S mutuamente excluyentes dos a dos, es

La presentación de la teoría de la probabilidad se pueden dar por difer-

2.3.1. Axiomas de probabilidad

3. Si {C1 , C2 , . . .} es una sucesión de eventos mutuamente excluyentes dos

En el Axioma 1 se establece que no es posible tener un evento cuya

El Axioma 3 establece la aditividad de las probabilidades de una colec-

2.3.2. Teoremas básicos

Teorema 2.1. La probabilidad del conjunto vacío, ∅, es 0. En símbolos,

Prueba: El espacio muestral S se puede escribir como la unión infinita de los

Teorema 2.2. Sea {C1 , C2 , . . . , Cn } una colección finita de eventos mutua-

Prueba: Si a la colección {C1 , C2 , . . . , Cn } se le adjunta la colección de eventos

es una colección de infinitos eventos mutuamente excluyentes dos a dos.

donde la última igualdad se obtuvo usando el Teorema 2.1.

Prueba: El espacio muestral S se puede escribir como la unión de los dos

Como A y Ac son eventos mutuamente disjuntos, usando el Teorema 2.2, el

P(A ∪ Ac ) = P(A) + P(Ac ).

Además, del Axioma 2, el lado izquierdo (2.1) es igual a 1. Por tanto,

Ejemplo 2.6. Considere el espacio muestral S = {1, 2, 3} y los eventos

Ejemplo 2.7. Cuando se lanza un dado equilibrado, el espacio muestral es

P({1}) = P({2}) = P({3}) = P({4}) = P({5}) = P({6}).

P(S) = P({1}) + P({2}) + P({3}) + P({4}) + P({5}) + P({6})

y como, P(S) = 1, despejando a P({1}), se tiene que

Una implicación interesante de la forma en que se escribió el espacio

Lo que implica que,

P(A) = P(A − B) + P(A ∩ B) y P(B) = P(B − A) + P(A ∩ B)

Si se sustituyen estas dos últimas igualdades en (2.2) se obtiene que:

Teorema 2.3. Si A y B son dos eventos cualesquiera (no necesariamente

P(A ∪ B) = P(A) + P(B) − P(A ∩ B).

Teorema 2.4. Si A y B son dos eventos tales que A ⊆ B, entonces,

P(B − A) = P(B ∩ Ac ) = P(B) − P(A).

Prueba: Si A ⊆ B, el evento B se puede expresar como unión de eventos

Entonces, P(B) = P(A) + P(B − A). Lo que implica que

P(B − A) = P(B) − P(A).

Corolario 2.3. Si A ⊆ B, entonces, P(A) ≤ P(B).

Ejemplo 2.9. Sean A y B dos eventos de un mismo espacio muestral ¿Será

2.3.3. Resultados igualmente probables

Ejemplo 2.10. Al lanzar un dado equilibrado, el espacio muestral obtenido

Ejemplo 2.11. Se selecciona al azar un número entero entre el 100 y el

S = {100, 101, 102, . . . , 997, 998, 999}, con card(S) = 900.