Introducción a los Procesos Estocásticos

I NTRODUCCI ÓN A LOS
PROCESOS
ESTOC ÁSTICOS
José Loreto Romero Palma
II
Oda a los Procesos Estocásticos
Pasará el tiempo
y crecerán tus variables
con un paso lento
continuo e integrable,
¿escucharé tu lamento
de fiel dato amable?
¿Por qué te encajonan
en parámetros mudables?
Explicarás la cortisona,
las mareas, la polución,
los estratos, las personas,
toda una población.
Te vestirán de ricas sedas:
de estacionariedad
que acorte tu penas,
de inversibilidad
que invierta tus ternas.
Tus miembros serán estimados,

daremos forma a tu ser
y serás ARIMA o ruido blanco,
serás espejo del suceder.
Tú eres futuro, eres mañana,
eres oráculo
de dı́as, semanas
que con tentáculos
a tu orden atrapas.
III
IV
Si fueras ¡ay! un animal

serpiente voraz serı́as,
creciendo cada vez más
y tu propia cola morderı́as
-¡autorregresiva fatal!-
que tendrı́as tu guarida
bajo la loma de una Normal.
Y vendrán tus hijos a visitarte:

todas las series temporales
que querrán a ti adaptarse
con parámetros formales.
¡Cuánto avanza el progreso!
¿Qué hicimos de los naturales,

reales, quebrados y enteros?
¿Qué de Pitágoras y Thales?
Todo era tan sencillo...
que tú... ¿de dónde coño sales?
Julián Roas
del libro “Vendrán Nuestros Besos”
Índice general
Oda a los Procesos Estocásticos III
Prefacio IX
1. Repaso de teorı́a de probabilidades 1
Objetivos de la Unidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1. Espacios probabilizados . . . . . . . . . . . . . . . . . . . . . . . 3
1.2. Álgebra de eventos. Otras definiciones de probabilidad . . . . . . . 5
1.3. Variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4. Valores esperados . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.5. Función caracterı́stica y generatriz. Distribuciones . . . . . . . . . 15
1.6. Variables aleatorias n-dimensionales . . . . . . . . . . . . . . . . 22
1.7. Variables aleatorias independientes . . . . . . . . . . . . . . . . . 25
1.8. Ejemplo para las secciones 1.6 y 1.7 . . . . . . . . . . . . . . . . 30
1.9. Problemas propuestos . . . . . . . . . . . . . . . . . . . . . . . . 33
2. Introducción a la simulación y al R 37
2.1. ¿Para qué la simulación? Breve introducción al R . . . . . . . . . . 38
V
VI ÍNDICE GENERAL
2.2. Cómo conseguir el interprete R . . . . . . . . . . . . . . . . . . . 39
2.3. Breve introducción al lenguaje R . . . . . . . . . . . . . . . . . . . 41
2.4. Dos problemas de simulación . . . . . . . . . . . . . . . . . . . . 50
3. Introducción a los procesos estocásticos 61
3.1. Definición y ejemplos de procesos estocásticos. . . . . . . . . . . 62
3.2. Probabiliad y esperanza condicional . . . . . . . . . . . . . . . . . 65
3.3. Valor medio y núcleo de covarianza . . . . . . . . . . . . . . . . . 70
3.4. Incrementos y estacionariedad . . . . . . . . . . . . . . . . . . . . 72
3.5. Algunos tipos de procesos aleatorios . . . . . . . . . . . . . . . . 75
3.6. Problemas resueltos . . . . . . . . . . . . . . . . . . . . . . . . . 78
4. Caminatas Aleatorias y Movimiento Browniano 85
4.1. El proceso de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . 86
4.2. La cantidad de éxitos . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.3. Cantidad de ensayos hasta r éxitos . . . . . . . . . . . . . . . . . 90
4.4. Problemas resueltos para las secciones 4.1 - 4.3 . . . . . . . . . . 93
4.5. La ruina del jugador . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.6. Duración promedio del juego . . . . . . . . . . . . . . . . . . . . . 104
4.7. Otras caracterı́sticas de las caminatas aleatorias . . . . . . . . . . 109
4.8. Movimiento browniano . . . . . . . . . . . . . . . . . . . . . . . . 112
4.9. Movimiento browniano y la ruina del jugador . . . . . . . . . . . . 118

ÍNDICE GENERAL VII
4.10.Problemas propuestos . . . . . . . . . . . . . . . . . . . . . . . . 121
5. El procesos de Poisson homogéneo 125
5.1. Derivación del proceso de Poisson . . . . . . . . . . . . . . . . . . 127
5.2. Derivación axiomática del proceso de Poisson. . . . . . . . . . . . 132
5.3. Procesos de Poisson espaciales. . . . . . . . . . . . . . . . . . . 137
5.4. Distribución del tiempo inter-eventos . . . . . . . . . . . . . . . . . 142
5.5. El proceso de Poisson y la distribución uniforme . . . . . . . . . . 150
5.6. Problemas resueltos . . . . . . . . . . . . . . . . . . . . . . . . . 158
6. Cadenas de Markov 167
6.1. Definición, notación, ejemplos y un poco de historia . . . . . . . . . 168
A. Como leer un texto matemático 173
Índice Alfabético 188
Bibliografı́a 189
VIII ÍNDICE GENERAL
Prefacio
El presente material surgió originalmente para ser utilizado como texto princi-
pal de consulta para el curso de Procesos Estocásticos de la carrera de Ingenierı́a
de Sistemas que dicto en la UNEFA. Aún cuando existe abundante bibliografı́a y
material disponible en Internet sobre este tema, considero que existen sobradas
razones que justifican la elaboración del presente texto. En primer lugar, los libros
que versan sobre el tema están pensados para un público matemáticamente más
maduro, generalmente para estudiantes a nivel de postgrado, además que, por ser
estos libros muy especializados, son demasiado escasos en las librerı́as venezo-
lanas. Por otro lado, navegar a través del Internet en búsqueda de bibliografı́a en
lı́nea puede resultar una tarea hercúlea para el estudiante de pregrado cuya pri-
mera exposición al tema es ésta. En fin, la bibliografı́a existente es muy dispersa,
escasa y no adecuada a las necesidades del estudiante venezolano, por lo cual
considero que este texto viene a llenar un vacı́o.
El aporte original en el presente tratamiento del tema es el énfasis en la si-

mulación estocástica. Incorporar el aspecto de la verificación empı́rica del méto-
do cientı́fico en la exposición de un tema de la matemática, que es una ciencia
netamente teórica, puede parecer un disparate. No obstante, se piensa que es-
te enfoque puede rendir muchos dividendos, sobre todo instruccionales. Con los
abundantes ejemplos de simulación en código R se pretende familiarizar al estu-
diante con un lenguaje de programación de libre distribución que está adquiriendo
cada vez más relevancia en el mundo de la investigación estocástica. Por otro lado,
con la exposición del alumnado a herramientas de software libre se pretende hacer
un modesto aporte hacı́a el logro de la soberanı́a tecnológica nacional.
El texto esta organizado en seis unidades. En la primera unidad se da un repaso

de la teorı́a de las probabilidades y además de presentan algunos elementos de la
teorı́a que posiblemente se obviaron en asignaturas anteriores. La segunda unidad
es una introducción al lenguaje de programación R y a la simulación como herra-
IX
X ÍNDICE GENERAL
mienta de apoyo pedagógico para esclarecer algunos resultados que se expondrán

en el resto del texto. La tercera unidad es quizás la más abstracta de todo el texto.
Comienza con la definición de lo que es un proceso estocástico y prepara todo el
andamiaje conceptual para caracterizar sus tipos y propiedades. En la cuarta uni-
dad se aborda el estudio de las caminatas aleatorias y el problema de la ruina del
jugador. En la segunda parte de la unidad, se relaciona el movimiento browniano
continuo con los procesos de parámetro discreto vistos en la primera parte de la
unidad. La quinta unidad versa sobre los procesos de Poisson homogéneos, tan
ubicuos en el modelamiento de fenómenos reales. Por último, en el sexto capı́tulo,
se tratan las cadenas de Markov de parámetro discreto.
El nivel de conocimientos previo requerido por parte del alumno equivale al

de un estudiante que haya cursado alguna asignatura de probabilidad elemental y
los respectivos cursos de matemáticas del ciclo básico de ingenierı́a, que abarcan
temas de cálculo diferencial e integral, series y ecuaciones diferenciales. Desgra-
ciadamente, es frecuente que en la impartición de los pensa matemáticos se haga
demasiado énfasis en el aspecto de cómo calcular y se soslaye el cómo cons-
truir modelos matemáticos y resolver problemas a través de ellos. En el fondo, se
está obviando un aspecto importantı́simo de las matemáticas, que es el de la ma-
temática como un lenguaje. ¿Como leer, interpretar y comprender este lenguaje?
¿Qué significa demostrar algo matemáticamente? Para compensar esta omisión
en la didáctica de las matemáticas, se ha incluido en el apéndice un breve artı́cu-
lo sobre como leer textos matemáticos, con orientaciones para el estudio de este
curso. Se recomienda primero leer este apéndice antes de abordar el estudio del
curso como tal. Otro elemento de ayuda al estudiante en este libro es el uso de la
técnica de simulación utilizada como herramienta didáctica. Con ello se pretende
motivar al auto-estudio, inculcar el espı́ritu investigativo y fomentar una actitud crı́ti-
ca y positiva hacia el estudio de la estocástica, lo cual sin duda facilitará el estudio
de estos temas tan abstractos. Mi recomendación general al estudiante es estudiar
detenidamente los problemas resueltos y la implementación de las simulaciones en
el texto para posteriormente realizar los problemas propuestos.
Desde una perspectiva más amplia, el contenido de este texto esta enmarcado
dentro de un componente importante en el pensum de la ingenierı́a de sistemas
y de las ciencias de la computación. Me refiero al conglomerado de materias ta-
les como investigación de operaciones, matemáticas discretas, probabilidades y
estadı́stica, métodos numéricos y simulación y modelos matemáticos. A mi juicio,
dicho componente es medular para la formación integral de un analista de siste-
mas, quién debe apuntar más allá de ser un simple tecnócrata operario de TICs
(Tecnologı́as de Información y Comunicación). Más bien - y esto es algo que le
ÍNDICE GENERAL XI
cuesta trabajo entender a las personas no iniciadas en el tema - el analista de

sistemas debe estar en capacidad de analizar cualquier sistema, sea éste una em-
presa, una red de tráfico vehicular, la economı́a nacional o la sociedad. Con las
materias de este componente se pretende dotar al estudiante de herramientas pa-
ra el análisis matemático de los sistemas, cuyo fin ulterior es el de apoyar la toma
racional de decisiones y permitir medir el desempeño del decisor en aras de lo-
grar progresivamente un mayor bienestar colectivo. En un paı́s como Venezuela,
es verdaderamente acuciante capacitar profesionales con estas destrezas; nuestro
desarrollo como nación depende de ello.
Quiero en estas lı́neas agradecer a los profesores y autores que de manera di-
recta o indirecta contribuyeron en mi propia formación. En particular, extiendo mis
agradecimientos a Luis A. Azocar Bates, quien fue mi profesor en la Universidad
Nacional Abierta, ası́ como también a mis colegas y compañeros docentes, Elai-
ne J. Pérez Bracho, José T. Gomez Barreto y Rafael A. Rofriguez Toledo, quienes
además han contribuido con importantes sugerencias en la redacción de este ma-
terial. Debo incluir palabras de reconocimiento y de agradecimiento a mis alumnos
de la UNEFA, quienes han contribuido también con sugerencias y a quienes este
libro está dedicado. Aspiro inculcar en ellos una pasión por los temas de la investi-
gación de operaciones y el modelamiento matemático para que sean ellos mismos
los que sigan investigando, formándose y siempre estando a la vanguardia en esta
Era de la Información. Que su nivel de conocimientos rebase muchas veces el mı́o
propio, que éstos sirvan al bienestar de nuestra nación y que ésta reconozca la
importancia del saber que ellos portan son mis deseos.
El Tigre, 27 de agosto 2011

XII ÍNDICE GENERAL
Unidad 1
Repaso de teorı́a de
probabilidades
On peut même dire, à parler en rigueur, que

presque toutes nos connaissances ne sont que
probables; et dans le petit nombre des choses
que nous pouvons savoir avec certitude dans les
scı̀ences mathématiques elles-mêmes, les prici-
paux moyens de parvenir à la vérité, l’induction et
l’analogie, se fondent sur les probabilités ...
GEOMETR ÍA Y PROBABILIDAD

Tinta y lápiz sobre papel Laplace, P.S.
Anatoli Fomenko Theorie de Probabilité
1
2 UNIDAD 1. REPASO DE TEORÍA DE PROBABILIDADES
Objetivos de la Unidad
El objetivo general de esta Unidad es hacer un repaso de la teorı́a de probabili-

dades a fin de que el estudiante domine los conceptos fundamentales necesarios
para acometer el estudio de los procesos estocásticos. Para lograr este objetivo, se
requiere a su vez el dominio de los siguientes objetivos especı́ficos:
Determinar el espacio muestral asociado a un experimento aleatorio.
Resolver problemas de cálculo de probabilidades mediante los axiomas de

Kolmogorov y el álgebra de eventos.
Manejar el concepto de independencia estocástica y resolver problemas que

involucran eventos independientes.
Manejar el concepto de variable aleatoria discreta o continua y calcular sus

valores esperados.
Aplicar las distintas distribuciones de probabilidad discretas o continuas al

modelado de diversos fenómenos y calcular probabilidades referidos a ellos.
Aplicar la función generatrı́z y la función caracterı́stica para el cálculo de

momentos de una variable aleatoria y para determinar la distribución de una
variable aleatoria.
Manejar los conceptos de vector aleatorio, función de probabilidad conjunta,

variables aleatorias independientes y aplicarlos en la resolución de proble-
mas.
1.1. ESPACIOS PROBABILIZADOS 3
1.1. Experimento aleatorio. Espacio muestral. Eventos ele-

mentales. Probabilidad
El objetivo fundamental de la teorı́a de la probabilidad es la descripción ma-

temática de experimentos aleatorios , que son procesos cuyos resultados no se
pueden predecir con exactitud. Las dificultades en manejar matemáticamente algo
que es por naturaleza impredecible se superan si abordamos la identificación de
todos los resultados posibles que puede arrojar un experimento aleatorio. Con esto
habremos definido el espacio muestral . El espacio muestral es un conjunto, en el
sentido matemático de la palabra, y sus elementos constituyentes son los resul-
tados posibles del experimento aleatorio, que también se conocen como eventos
elementales. Usualmente se denota el espacio muestral mediante la letra griega
omega mayúscula (Ω) y los eventos elementales mediante la omega minúscula
con algún subı́ndice (ωi ) para distinguirlos entre sı́ 1 . Para mantener la consisten-
cia en la notación, se aclara que por evento elemental se entiende cada resultado
posible del experimento aleatorio (los elementos constituyentes de Ω) o los sub-
conjuntos unitarios de Ω formados por los elementos de Ω correspondientes. Es
de notar que la colección de eventos elementales, bajo la acepción de subconjuntos
unitarios, forman una partición de Ω: su unión es el conjunto Ω y son mutuamente
disjuntos 2 dos a dos.
Los eventos elementales se pueden componer mediante uniones para formar

eventos , que son subconjuntos del espacio muestral. La colección de eventos del
espacio muestral es un álgebra de conjuntos, porque es cerrada bajo uniones finitas
y complementos. En términos más sencillos, si A y B son dos eventos cualesquiera,
A ∪ B y A son eventos también. A ∪ B es el evento que se verifica cuando se verifica
el evento A o el evento B y A3 es el evento que se verifica cuando no se verifica
A. Como A ∩ B = A ∪ B, el álgebra de eventos es cerrada bajo las intersecciones
finitas también. Denotaremos por ℑ la clase de todos los eventos, o álgebra del
espacio muestral.
Por razones que van más allá del alcance teórico de este recuento, es preciso
exigir una condición adicional sobre ℑ: Si {An } es una sucesión numerable de
eventos, entonces su unión infinita también es un evento -
1
La notación ωi para designar a los eventos elementales se utiliza cuando el espacio muestral Ω
es un conjunto numerable.
2
Dos eventos son mutuamente disjuntos o mutuamente excluyentes si su intersección es vacia:
A ∩ B = 0/ .
3
A se denomina evento complementario de A.
Figura 1.1: Andrei Nikolaevich Kolmogorov (1903-1987)
Matemático ruso, estudió bajo Nikolai Luzón en la Universidad de Estatal

de Moscú, obteniendo su Ph D en 1929.Sus más importantes contribu-
ciones fueron en el área de las probabilidades y los procesos estocásti-
cos, a los cuales les confirió una sólida fundación matemática. Desa-
rrollo una ecuación de capital importancia en el campo de los proce-
sos estocásticos: la ecuación de Chapman-Kolmogorov. Fuente: http:
//en.wikipedia.org/wiki/Andrey_Nikolaevich_Kolmogorov
[
∞
An ∈ ℑ
n=1
Un álgebra que satisface esta condición más fuerte se denomina σ-álgebra. Por
/ Ω} y ℘(Ω) (esta última se lee “partes de omega”, que es la clase de
ejemplo, {0,
todos los subconjuntos posibles de Ω) son σ-álgebras. En resumen, se ha asociado
a un experimento aleatorio un conjunto de resultados posibles y una estructura
matemática para definir todos los eventos posibles.
A modo de ejemplo, si el experimento aleatorio consiste en escoger al azar una

persona y observar su dı́a de cumpleaños, para definir el espacio muestral debe-
mos identificar cada dı́a del año de una forma conveniente. Se podrı́a asociar el 1
al primero de enero, el 2 al segundo de enero y ası́ sucesivamente. Descartando
el caso de las personas nacidas el 29 de febrero, el espacio muestral esta definido
por el conjunto de números naturales del 1 al 365 y Ω = {1, 2, · · · , 365}. Podemos
observar que el espacio muestral es un conjunto numerable y finito. Si estamos
interesados en el evento “la persona es nacida en el mes de enero”, este evento
se podrı́a definir como E = {1, 2, · · · , 31}. Análogamente, si estamos interesados
en el evento “la persona es de signo acuario en el zodiaco” (21 de enero al 19 de
febrero), este se definirı́a por E = {21, 22, · · · , 50}.
Las bases matemáticas de la teorı́a de probabilidades moderna se deben a

elaboraciones sobre la teorı́a de la medida, que primordialmente se ocupa de cómo
asignar cantidades numéricas a cada conjunto de una σ-álgebra. En nuestro caso
esto es muy oportuno porque nos preocupa asociar probabilidades a eventos, y
las probabilidades son valores numéricos que cuantifican el grado de certidumbre
sobre la ocurrencia de algún evento en la realización de un experimento aleatorio.
En el lenguaje de la teorı́a de la medida, la probabilidad es una medida, o función
que le asigna a cada conjunto de una σ-álgebra un valor real positivo o nulo:
1.2. ÁLGEBRA DE EVENTOS. OTRAS DEFINICIONES DE PROBABILIDAD 5
Definición (Axiomas de Kolmogorov). Sea (Ω, ℑ) un espacio muestral con su

respectiva σ-álgebra de eventos. Una función P : ℑ −→ [0, 1] es una medida de
probabilidad si satisface las condiciones siguientes:
(I) P (Ω) = 1
(II) SiAi es una sucesión de conjuntos disjuntos dos a dos, entonces

S
∞ ∞
P An = ∑ P(An ) Esta es la propiedad de σ-aditividad
n=1 n=1
En este caso se dice que (Ω, ℑ, P) es un espacio de probabilidad o espacio

probabilizado .
1.2. Álgebra de eventos. Otras definiciones de probabili-

dad
A pesar de que los axiomas de Kolmogorov son pocos, permiten, mediante un

uso juicioso del álgebra de eventos (vale decir, la teorı́a de conjuntos, sobre la cual
estos axiomas están fundamentados), demostrar toda una serie de resultados refe-
rentes al cálculo de probabilidades. Por ejemplo, el primer axioma establece que la
probabilidad de que se verifique cualquiera de los resultados posibles de un expe-
rimento aleatorio es igual a uno (P(Ω) = 1). Este axioma es coherente con nuestra
intuición - siempre que realizamos un experimento aleatorio, se verificará alguno
de los resultados posibles. Ahora bien, ¿cuál es la probabilidad de que se verifique
/ ? Intuitivamente, deberı́a ser cero, pues tras la realización de
el evento vacı́o: P(0)
un experimento aleatorio siempre se verificará alguno de los resultados posibles y
nunca “sucederá nada”. Sin embargo, ¿podrı́amos demostrarlo matemáticamente?
Problema Resuelto 1.1

/ = 0.
Demostrar que P(0)
Solución
Según las leyes algebraicas de conjuntos, se tiene que:
(I) Ω ∪ 0/ = Ω.
(II) Ω ∩ 0/ = 0/ , lo cual implica que Ω y 0/ son mutuamente excluyentes.

El espacio muestral Ω es el conjunto universal y además, según el axioma 1, se

tiene que P(Ω) = 1. Por otro lado, el hecho de que Ω y 0/ sean mutuamente exclu-
yentes implica que podemos usar el axioma 2:
/
P(Ω) = P(Ω ∪ 0) ➒ según (i)
Ω y 0/ son mutuamente excluyentes y
/
= P(Ω) + P(0) ➒ aplica el axioma 2
/
= 1 + P(0) ➒ P(Ω) = 1 según el axioma 1
Aplicando nuevamente el axioma 1 a la
=1 ➒ primera igualdad
/ = 1, implica necesariamente que

Lo establecido en la última igualdad, 1 + P(0)
/
P(0) = 0, como se querı́a demostrar.
Con argumentos completamente análogos a los de la demostración anterior,

se puede demostrar también que, dado un evento A, la probabilidad del evento
complementario A viene dada por P(A) = 1−P(A). Otra fórmula bastante conocida
es la de la probabilidad del evento A ∪ B: P(A ∪ B) = P(A) + P(B) − P(A ∩ B). Esta
fórmula es más general que la del segundo axioma de Kolmogorov. En particular,
si A y B son dos eventos mutuamente excluyentes, entonces P(A ∩ B) = P(0) / =
0 y se estarı́a en el caso del segundo axioma de Kolmogorov. Un diagrama de
Venn en el cual se representan los dos eventos A y B con su intersección puede
aclarar como demostrar esta fórmula. Todas estas demostraciones se dejan como
ejercicios propuestos al final del capı́tulo.
Lo que se pretende con la demostración precedente y las otras similares que

se sugieren como ejercicios para el lector es hacer evidente que, mediante los
axiomas de Kolmogorov y la teorı́a de conjuntos, se puede calcular la probabilidad
de cualquier evento siempre y cuando éste se pueda representar mediante una
expresión algebraica que involucre otros eventos cuyas probabilidades sean cono-
cidas. Esto pareciera soslayar una limitación de la teorı́a de la probabilidad según
las bases axiomáticas de Kolmogorov, pero se debe tener en cuenta que la ten-
dencia histórica del desarrollo de las matemáticas siempre ha apuntado hacia una
abstracción progresiva. Para ser históricamente exactos, la teorı́a de las probabili-
dades surge mucho antes de los trabajos de Kolmogorov durante la primera mitad
del siglo XX.
Los orı́genes de la teorı́a de las probabilidades están indisolublemente ligados

al estudio de los juegos de azar y a los trabajos del Marqués de Laplace que datan
Figura 1.2: Pierre Simon de Laplace (1749-1827)
Laplace, también conocido como el “Newton francés” hizo nume-

rosos e importantes aportes a las matemáticas, la astronomı́a y
la ciencia en general. En su obra “Theorie Analytique des Proba-
bilités” sentó las bases cientı́ficas de la teorı́a matemática de la
probabilidad. Laplace también elaboró sobre el papel central que
juega la distribución normal en la teorı́a de la probabilidad y a él
se le atribuye el haber descubierto y demostrado el Teorema Cen-
tral del Lı́mite. Fuente: http://thales.cica.es/rd/Recursos/
rd97/Biografias/52-4-b-laplace.html
del siglo XVIII. Términos como “el problema de la ruina del jugador” y otras frases
que usaremos a lo largo de este libro delatan estos orı́genes históricos, aún cuando
sus aplicaciones hoy en dı́a trascienden en mucho el contexto de los casinos. Es
natural para nosotros como estudiantes del tema remontarnos a estos orı́genes y
considerar otras definiciones del concepto de probabilidad.
Laplace, en su obra titulada “Théorie Analytique des Probabilités” que publicó en

17954 , define probabilidad en los siguientes términos: La teorı́a del azar consiste
en reducir todos los eventos de un mismo género a un cierto número de casos
igualmente posibles, es decir, tales que estemos igualmente indecisos sobre su
ocurrencia, y a determinar el número de casos favorables al evento cuya proba-
bilidad se busca. La relación de ese número con respecto a la cantidad de todos
los casos posibles es la medida de dicha probabilidad, que de este modo es una
fracción cuyo numerador se corresponde al número de casos favorables al evento
y cuyo denominador es el número de casos posibles5 .
4
Ver Laplace (1886), p. viii.
5
La théorie des hasards consiste à réduire tous les événements du mème genre à un certain
nombre de cas également posibles, c’est à-dire- tels que nous soyons également indecis sur leur
existence, et à déterminer le nombre de cas favorables a l’événment dont on cherche la probabilité.
Le rapport de ce nombre à celui de tous les cas possibles est la mésure de cette probabilité, qui n’est
ainsi qu’une fraction dont le numérateur est le nombre de cas favorables, et dont le dénominateur est
le nombre de tous les cas possibles.
Definición (Probabilidad según Laplace). Si n es el número total de casos po-

sibles y equiprobables de un experimento aleatorio y nA es el número de casos
para los cuales se verifica cierto evento A, entonces la probabilidad del evento A
viene dada por
nA
P(A) =
n
Podemos identificar en esta definición clásica de la probabilidad según Laplace
algunos de los conceptos que ya hemos visto, tales como “espacio muestral” y
“evento”. Sin embargo, Laplace enfatiza que los casos que componen el espacio
muestral deben ser “igualmente posibles”. Esta suposición un tanto simplificadora,
pero sustentada en nuestra intuición común de las cosas, era válida para la mayorı́a
de los juegos de azar. Piénsese por ejemplo en el lanzamiento de un dado no
cargado: si las seis caras del dado son igualmente posibles, la probabilidad de que
salga un cinco al lanzar el dado es pues 61 . Sin embargo, al pretender aplicar la
teorı́a de la probabilidad al estudio de algunos sistemas de partı́culas cuánticas,
por ejemplo, se vio que las leyes probabilı́sticas de estas no se conformaban a la
intuición “natural” o a las suposiciones laplacianas de casos igualmente posibles y a
su vez hubo que plantear otros de modelos probabilı́sticos como el de Fermi-Dirac
o el de Bose-Einstein6 . Lo cierto es que esto derivó en la necesidad de replantear el
concepto de probabilidad de una manera más abstracta, como lo hizo Kolmogorov.
Dicho sea de paso, la definición de la probabilidad de un evento A como la fracción
nA
n es consona con los axiomas de Kolmogorov, pues como 0 ≤ nA ≤ n, siempre se
tendrá que 0 ≤ P(A) ≤ 1 y además P(Ω) = nn = 1.
Otro enfoque al definir el concepto de probabilidad es el frecuentista. Como

se vio anteriormente, no siempre ocurre que todos los eventos elementales del
espacio muestral sean equiprobables. Ante la ausencia de suposiciones bien sus-
tentadas sobre un fenómeno aleatorio, vale decir, ante la ausencia de un modelo
matemático que permita precisar dichas probabilidades, la alternativa es hallar es-
tas de manera empı́rica, repitiendo el experimento aleatorio muchas veces bajo
las mismas condiciones. A medida que se repite el experimento un mayor núme-
ro de veces, la proporción de veces en los que se verifica un determinado evento
con respecto al número total de realizaciones del experimento aleatorio se acer-
cará cada vez más a su probabilidad. Esto se conoce también como la ley de los
grandes números , y la idea descansa en la repetibilidad, siempre bajo idénticas
condiciones, del experimento aleatorio.
6
Ver Feller (1968), p. 5
Definición (Probabilidad como frecuencia relativa). Supóngase que se repite un

experimento aleatorio n veces bajo idénticas condiciones y de entre estás repeti-
ciones, cierto evento A se verifica nA veces. Entonces, el lı́mite de la proporción
nA /n conforme n se hace muy grande es la probabilidad del evento A:
nA
P(A) = lı́m
n→∞ n
A lo largo de este libro, haremos uso de este enfoque empı́rico para calcular,
de manera aproximada, algunas probabilidades. Las repeticiones de los experi-
mentos aleatorios se harán en computadora mediante programas de simulación.
Para afianzar las ideas recién expuestas, considere el siguiente problema resuelto.
En el barrio “El Engaño” hay 164 señoras. 96

de entre ellas son chismosas, 84 son envidio-
sas y 100 son chismosas o envidiosas. Si en
el mercado municipal me encuentro una mujer
del barrio por casualidad (al azar), ¿cual es la
probabilidad de que sea chismosa pero no en-
vidiosa?
“Daum Marries Her Pedantic Automaton George in May 1920, John Heartfield is Very Glad of It”,
1920, pintura de George Grosz.
Solución
Primero identificamos el espacio muestral y los eventos pertinentes:
Ω es el conjunto de todas las mujeres del barrio “El Engaño”.
A es el conjunto de mujeres chismosas.
B es el conjunto de mujeres envidiosas.
Tropezarse con una señora del barrio por casualidad (o al azar, si se quiere),
equivale a seleccionar aleatoriamente una entre las 164 mujeres del barrio. Esto a
su vez quiere decir que es igualmente probable encontrarse con una u otra- aplica la
definición de probabilidad de Laplace (número de casos favorables entre el número
total de casos) para determinar las probabilidades a partir del enunciado:
96
“96 de entre ellas son chismosas” → P(A) = 164 ≈ 0, 5854.
84
“... 84 son envidiosas ...” → P(B) = 164 ≈ 0, 5122.
100
“... 100 son chismosas o envidiosas.” → P(A ∪ B) = 164 ≈ 0, 6098.
La probabilidad que se quiere calcular, expresada en términos de los eventos

definidos anteriormente, es P(A ∩ B). A partir de los datos arriba podemos hacer
uso del álgebra de eventos para encontrar dicha probabilidad:
P(A) = P(A ∩ B) + P(A ∩ B) → ➒ (¿porqué?)
P(A ∩ B) = P(A) − P(A ∩ B)
Pero por otra parte:
P(A ∪ B) = P(A) + P(B) − P(A ∩ B) →

P(A ∩ B) = P(A) + P(B) − P(A ∪ B) ≈ 0, 5854 + 0, 5122 − 0, 6098 = 0, 4878
Sustituyendo en la ecuación anterior para P(A ∩ B):
P(A ∩ B) ≈ 0, 5854 − 0, 4878 = 0,0976
1.3. Variable aleatoria. Distribución de probabilidad. Ti-

pos de variables aleatorias. Densidad de probabili-
dad
El concepto de variable aleatoria es esencial y de mucha utilidad en el estudio

matemático de los fenómenos aleatorios porque es un mecanismo para “traducir”
los objetos del espacio muestral, que no necesariamente se identifican de forma
numérica, a elementos de algún conjunto numérico. Esto facilita enormemente la
1.3. VARIABLES ALEATORIAS 11
cuantificación en el estudio de la aleatoriedad, y conlleva eventualmente a estable-

cer caracterı́sticas importantes que resumen numéricamente el comportamiento
del fenómeno aleatorio, como la esperanza y la varianza.
Definición (Variable Aleatoria). Sea (Ω, ℑ, P) un espacio de probabilidad. La

variable aleatoria X(ω) es una función X : Ω −→ R que asigna a cada elemento
del espacio muestral un valor real. Adicionalmente, la variable aleatoria es una
función medible, porque deber verificar que {ω|X(ω) < α} ∈ ℑ.
Aún cuando esta caracterı́stica de las variables aleatorias como funciones me-
dibles no se menciona en los textos elementales de probabilidades con los que Ud.
probablemente estudió esta materia, se incluye en la definición anterior porque es
justamente esta caracterı́stica la que posibilita el cálculo de probabilidades asocia-
das a intervalos reales, la definición de funciones de distribución de probabilidad y
consecuentemente, la función de densidad de probabilidad.
La variable aleatoria traduce eventos en el espacio muestral a intervalos o sub-

conjuntos numéricos con la finalidad de calcular la probabilidad asociada a estos
subconjuntos numéricos. Es decir, convierte la medida de probabilidad de eventos
a distribuciones de probabilidad en conjuntos numéricos, definiendo ası́ la llamada
función de distribución de probabilidad :
Definición (Función de Distribución de Probabilidad). Sea (Ω, ℑ, P) un espacio

de probabilidad y X(ω) una variable aleatoria definida sobre este espacio. La
función de distribución F(x) de una variable aleatoria se define como sigue:
F(x) = P{X ≤ x} = P{ω|X(ω) ≤ α}
Habiendo hecho esta definición, se esclarece el comentario anterior sobre la

propiedad de la variable aleatoria como función medible - si {ω|X(ω) < α} ∈ /ℑ,
dicho evento no tendrı́a probabilidad asociada y por lo tanto se indefinirı́a la función
de distribución de probabilidad, porque solo tienen probabilidad aquellos eventos
definidos en ℑ. Entre algunas propiedades de la función de distribución de proba-
bilidad, que también se denomina a veces función acumulada de probabilidad, se
mencionan:
1. F es una función creciente que toma valores en [0, 1].
2. F(−∞) = 0 y F(+∞) = 1.
Según la naturaleza del conjunto de valores que toma X , se tienen dos tipos
de variables aleatorias. Las variables aleatorias discretas se caracterizan por ser el

conjunto de valores de X finito o por lo menos numerable. Si el conjunto de valores
de X es infinito e innumerable, X es una variable aleatoria continua. Esta distinción
es muy importante porque determina la forma en que definimos las probabilidades
puntuales: para una variable aleatoria discreta, P{X = x} es un valor positivo si x
esta dentro del rango de valores donde el evento {ω|X(ω) = x} asume probabilidad
positiva. En cambio, si X es una variable continua, P{X = x} es invariablemente
igual a cero para cualquier valor x porque si X toma valores en un conjunto infinito,
ninguna probabilidad puntual puede ser distinta de cero.
Cuando X es una variable aleatoria, podemos definir su función de probabilidad

del modo usual:
p(x) = P{X = x} = P{ω|X(ω) = x}
La función de probabilidad de una variable discreta es mayor o igual a cero para

todo x y verifica que la suma de las probabilidades puntuales a través del conjunto
imagen de X es igual a uno:
∞
∀x ∈ R | p(x) ≥ 0 y ∑ p(x) = 1
x=−∞
A veces, p(x) se denota por px , para enfatizar la naturaleza discreta de la va-

riable aleatoria ( p tiene un subı́ndice porque los valores posibles de X son nume-
rables). Si X es una variable continua, no tiene sentido hablar de probabilidades
puntuales porque todas son iguales a cero. Se define entonces la función de den-
sidad de probabilidad f , que se corresponde a la derivada Radon-Nikodym de la
función de distribución. Una variable aleatoria que tiene asociada una tal función de
densidad se denomina absolutamente continua, y dicha función de densidad f (x)
verifica lo siguiente:
Zx
∀x ∈ R | f (x) ≥ 0 y F(x) = f (t) dt
−∞
Es de notar que en el caso continuo, f (x) no representa una probabilidad pun-

tual, pues ya hemos establecido que las probabilidades puntuales son necesaria-
mente iguales a cero; en cambio f (x) asume valores mayores o iguales a cero.
1.4. VALORES ESPERADOS 13
Una vez establecidas las definiciones básicas de variable aleatoria, distribución

de probabilidad, función de probabilidad y función de densidad de probabilidad, es
preciso mencionar que en la teorı́a de la probabilidad se estudian diversas dis-
tribuciones o leyes de probabilidad que pretenden modelar una amplia gama de
fenómenos aleatorios. El estudiante que haya cursado cualquier curso elemental
de probabilidades conoce algunas de estas leyes de probabilidad y sus caracterı́sti-
cas más importantes. En las tablas 1.1 y 1.2 se describen las leyes de probabilidad
más usuales.
Por último, se establece un teorema que nos será de utilidad más adelante.
El teorema establece la forma de la función de densidad de probabilidad de una
variable aleatoria expresada como función de otra y se da a continuación sin de-
mostrarlo7 :
Teorema 1.1 (La distribución de una función de variable aleatoria). Sea X una va-
riable aleatoria continua con función de densidad de probabilidad fX (x) y defı́nase
Y = g(X). Si y = g(x) y x = g−1 (y) son funciones univaluadas, continuas y dife-
renciables y si y = g(x) es una función creciente o decreciente de x, la función de
densidad de probabilidad de Y está determinada por:

−1 dx
fY (y) = fX g (y)
dy
en donde la cantidad J = |dx/dy| recibe el nombre de Jacobiano de la transfor-
mación.
1.4. Valores esperados: esperanza y varianza
Dos caracterı́sticas importantes de una variable aleatoria son su tendencia cen-

tral y su dispersión media con respecto a la tendencia central. Ambas están dadas
por la esperanza y la varianza respectivamente. La esperanza matemática de una
variable aleatoria, también conocida como momento de orden uno o valor medio,
se define del siguiente modo:
Z∞
E[X] = x dF(x)
−∞
Para el caso de la variable absolutamente continua se tiene que su esperanza

7
Ver Teorema 5.2 de Canavos (1988), sección 5.8, pp. 168-169.
es:
Z∞
E[X] = x f (x) dx
−∞
en donde los lı́mites de integración se definen convenientemente según el es-

pacio de valores donde f (x) es positiva. La esperanza matemática de una variable
aleatoria discreta con función de probabilidad p(x) se define como:
∞
E[X] = ∑ x p(x)
−∞
en donde, una vez más, los lı́mites de integración se definen de forma con-
veniente. El valor esperado de una variable aleatoria, su media poblacional, fre-
cuentemente se designa mediante la letra µ del alfabeto griego. A continuación se
enuncian sin demostración algunas propiedades importantes de la esperanza:
1. Si X es una variable aleatoria degenerada (que asume un valor constante C

con probabilidad uno), entonces E[X] = C.
2. Sea C una constante y X una variable aleatoria, entonces E[CX] = C · E[X].
3. Sea X una variable aleatoria y sea Y = h(X) otra variable aleatoria que es
función de X . Entonces, el valor esperado de Y es:
Z∞
E[Y ] = E[h(X)] = h(x)dF(x)
−∞
observando que los lı́mites de integración se redefinen de acuerdo a los lı́mi-

tes de integración para la variable X y en atención a la función h. Si la va-
riable X es discreta, Y también lo es y su esperanza se define mediante una
sumatoria.
La varianza , que indica el grado de dispersión de una variable aleatoria res-

pecto a su media, también es un valor esperado. De hecho, la varianza de una
1.5. FUNCIÓN CARACTERÍSTICA Y GENERATRIZ. DISTRIBUCIONES 15
variable aleatoria X es el valor esperado de la diferencia cuadrática de X respecto

a su media y en su cálculo interviene la fórmula anterior:
Z∞
2
V [X] = E[(X − µ) ] = (X − µ)2 dF(x)
−∞
Algunas de sus propiedades notables son:
1. Para toda variable aleatoria X , V [X] ≥ 0
2. Si C es una constante, V [CX] = C2 ·V [X].
3. Si A es una constante, V [X + A] = V [X].
4. V [X] = E[X 2 ] − E 2 [X]. Esta última formula es particularmente útil para el

cálculo de la varianza.
Finalmente, como última nota en este aparte, se menciona la cota de Tchebys-

chev , que involucra la esperanza y la varianza de una variable y es de utilidad para
acotar de forma muy aproximada ciertas probabilidades cuando no se tiene ningún
conocimiento sobre la ley de probabilidad de una variable aleatoria. Este resultado
se da en sus dos formas sin demostración:
V [X]
P [|X − µ| ≥ ε] ≤
ε2
y, recı́procamente,
V [X]
P [|X − µ| < ε] > 1 −
ε2
1.5. Función caracterı́stica y función generatriz. Propie-

dades y tablas de las principales distribuciones.
El interés en la Estadı́stica de la función generatriz de una variable discreta y la

función caracterı́stica de una variable discreta o contı́nua radica en el cálculo de los
momentos y en el cálculo de las distribuciones muestrales, siendo estas particular-
mente útiles para el cálculo de la suma de n variables aleatorias independientes e
idénticamente distribuidas. Otro caso donde son de utilidad es cuando se tiene una
composición de variables aleatorias de distintas distribuciones. Ahı́ entonces se
puede deducir la ley de probabilidad de la variable compuesta a través del análisis
de su función caracterı́stica o generadora.
La función caracterı́stica de una variable aleatoria X tiene una definición bas-

tante sencilla: es la esperanza de eiuX , en donde u es una variable real. Se tiene,
pues:
Z∞
iuX
ϕx (u) = E[e ]= eiuX dF(x)
−∞
Como eiuX = cos ux + i · sin ux, esta función es integrable para cada u y con-
secuentemente, ϕ(u) posee una parte real y una parte imaginaria. ϕX (u) también
es conocida como la transformada deZFourier de F(x). Si la variable X es absolu-
∞
tamente continua, entonces ϕX (u) = eiux f (x)dx, con los lı́mites de integración
−∞
definidos donde f (x) sea positiva.
Si X es una variable aleatoria discreta, se tiene por definición que ϕX (u) =

∑ eiux p(x) con los lı́mites de la sumatoria definidos en aquellos puntos donde la
función de probabilidad p(x) sea positiva.
Las funciones caracterı́sticas de algunas variables aleatorias discretas y con-

tinuas más comunes se dan en las tablas 1.1 y 1.2. Es importante recalcar que la
función caracterı́stica depende del parámetro u, por lo tanto, cuando se hable de su
derivada de orden k subsecuentemente, se refiere a la diferenciación con respecto
a u. Por los momentos se indican algunas propiedades de la función caracterı́stica
que son de utilidad, aclarando que en lo sucesivo omitimos el subı́ndice X en ϕX (u)
para ganar claridad tipográfica.
Sea X una variable aleatoria con función caracterı́stica ϕ(u), entonces:
ϕ(0) = 1
|ϕ(t)| ≤ 1
ϕ(k) (0)
E[X k ] = ik
Esta última propiedad es particularmente útil, podemos calcular el momento de

orden k de una variable X derivando k veces su función caracterı́stica, evaluándola
en cero y dividiendo entre ik . Generalmente, en este tipo de cálculos surgen inde-

terminaciones de tipo 0/0 que se pueden resolver mediante el respectivo lı́mite y
la regla de L’Hospital.
Otra propiedad interesante de la función caracterı́stica es que existe una co-

rrespondencia unı́voca entre ésta y la ley de probabilidad de la variable aleatoria
subyacente. Existen varias fórmulas de “inversión” que sirven a tales efectos, como
el teorema de Levy. Dichas formulas se establecen en lo que sigue sin demostra-
ción8 :
Sean F(x) y ϕ(u) la función de distribución y la función caracterı́stica de una

variable aleatoria X respectivamente. Si x1 y x2 son dos puntos de continuidad de
F(x) se tiene:
Z T −iux1
1 e − e−iux2
F(x2 ) − F(x1 ) = lı́m ϕ(u)du
T →∞ 2π −T iu
Como consecuencia de este teorema, se tienen los siguientes resultados:
Si X es discreta, entonces:
Z T
1
px (x) = lı́m e−iux ϕ(u)du
T →∞ 2T −T
En el caso continuo, la función de densidad de X es dada por:
Z T
1
fx (x) = e−iux ϕ(u)du
2π −T
Por último es importante notar, aún adelantándose a la exposición de la in-

dependencia estocástica y la convolución de variables aleatorias, que la función
caracterı́stica sirve para obtener la distribución de una suma de variables indepen-
dientes. Esto se desprende del hecho de que el valor esperado de un producto de
variables aleatorias independientes es igual al producto de los valores esperados
de las variables respectivas, pero este punto se tratará en mayor detalle posterior-
mente.
En el caso en que la variable aleatoria X sea discreta y tome valores positivos,

se puede definir su función generatriz del siguiente modo:
8
RIOS, pp. 96-97
∞
g(u) = E[ux ] = ∑ p(k)ux
k=0
Siempre y cuando u este dentro del radio de convergencia de dicha serie infini-
ta. Algunas propiedades notables de la función generatriz son las siguientes:
g(k) (0)
1. p(k) = k! para k = 0, 1, 2, ...
2. E[X(X − 1)...(X − k + 1)] = g(k) (1), para k = 1, 2, .... La expresión E[X(X −

1)...(X − k + 1)] se conoce como momento factorial de orden k para la va-
riable X .
Como la función caracterı́stica, la función generatriz determina unı́vocamente

la ley de probabilidad de una variable aleatoria y también sirve a efectos de determi-
nar la distribución de la suma de variables aleatorias independientes. Las funciones
generatrices de diversas variables aleatorias discretas se dan en la tabla 1.1.
Tabla 1.1: Leyes de probabilidad discretas más frecuentes y sus caracterı́sticas
Bernoulli
En un ensayo de Bernoulli se observa un éxito con probabilidad p o un fracaso con
probabilidad q = 1 − p. 0 ≤ p ≤ 1
Función de probabilidad: Valores Esperados:


 1− p x = 0


px (x) = p x=1 E[X] = p V [X] = pq



0 x∈
/ {0, 1}
Función Generadora: Función Caracterı́stica:
g(z) = q + pz ϕx (u) = q + peiu

(continuación)
Binomial
Es la suma de n variables aleatorias de Bernoulli independientes e idénticamente
distribuidas con parámetro p. Representa también el número de éxitos en n ensa-
yos independientes. En lo que sigue 0 ≤ p ≤ 1, q = 1 − p, n ∈ N +

n

x px qn−x si x ∈ {0, . . . , n}
pX (x) = E[X] = np V [X] = npq
 0 si x ∈
/ {0, ..., n}
g(z) = (q + pz)n ϕx (u) = (q + peiu )n
Geométrica
La variable aleatoria geométrica es el número de ensayos de tipo Bernoulli que se
requieren hasta observar el primer éxito.En lo que sigue, 0 ≤ p ≤ 1, q = 1 − p.


 pqx−1 si x ∈ N+
1 q
px (x) = E[X] = p V [X] = p2
 0 / N+
si x ∈

pz peiu
g(z) = 1−qz ϕx (u) = 1−qeiu
Binomial Negativa
La variable aleatoria binomial negativa representa el número de ensayos hasta
observar la r-ésima ocurrencia de un éxito (r es un número fijo).


x−1

r−1 pr qx−r si x ≥ r r rq
pX (x) = E(X) = p V (X) = p2
 0 si x < r
r r
pz peiu
g(z) = 1−qz ϕx (u) = 1−qeiu

(continuación)
Poisson
La variable aleatoria Poisson representa el número de eventos que ocurren en un
instante de tiempo de amplitud fija cuando la tasa media de eventos en ese intervalo
de tiempo es λ.
 x
 e−λ λ si x ∈ N ≥ 0
pX (x) = x! E(X) = λ V (X) = λ

0 si x < 0
iu −1)
g(z) = eλ(z−1) ϕx (u) = eλ(e
Tabla 1.2: Leyes de probabilidad continuas más frecuentes y sus caracterı́sticas
Uniforme
Es la variable aleatoria continua uniformemente distribuida sobre un intervalo (a, b).
La probabilidad de que la variable aleatoria uniforme se encuentre dentro de algún
subintervalo de (a, b) es proporcional a la amplitud de dicho subintervalo.
Función de densidad: Valores esperados:

1

b−a si a < x < b a+b (b−a)2
fx (x) = E[X] = 2 V [X] = 12
 0 en caso contrario
Función caracterı́stica:
eiub − eiua
ϕx (u) =
iu(b − a)
Normal
El número de éxitos en n ensayos independientes de Bernoulli obedece aproxima-
damente una ley Normal a medida que n tiende a infinito. Según el teorema central
del lı́mite, toda suma de n variables independientes e idénticamente distribuidas
es normal cuando n tiende a infinito. La ley normal modela adecuadamente una
amplia gama de fenómenos aleatorios porque generalmente, las desviaciones de
una variable con respecto a un punto central se deben a la suma de una cantidad
indefinidamente grande de perturbaciones aleatorias idénticamente distribuidas e
independientes entre sı́. En lo que sigue σ, µ ∈ R σ > 0.

(continuación)
(Normal - continuación)

√1 exp x−µ 2
fX (x) = σ 2π
− 12 σ E[X] = µ V [X] = σ2

ϕx (u) = exp iuµ − 12 u2 σ2
Exponencial
La variable aleatoria exponencial juega un papel análogo en el caso continuo a la
geométrica y representa el tiempo que transcurre hasta que falla un componente.
Como la geométrica, la variable aleatoria exponencial tiene la propiedad de no
poseer memoria: el haber esperado una cantidad de tiempo determinado sin que
haya ocurrido la falla o el suceso en cuestión no condiciona el tiempo adicional de
espera en el futuro. El único parámetro de esta distribución λ está relacionado con
la tasa media de eventos por unidad de tiempo y tiene la restricción de ser un valor
real positivo.

 λe−xλ si x > 0
1 1
fX (x) = E[X] = λ V [X] = λ2
−1
ϕx (u) = 1 − iuλ
Gamma
La variable aleatoria gamma representa el tiempo de espera hasta la r-ésima ocu-
rrencia de un fallo o evento cuando los eventos ocurren independientemente entre
sı́ con una tasa promedio de λ por unidad de tiempo, con los tiempos inter-eventos
distribuidos exponencialmente con el mismo parámetro. Un caso especifico de la
gamma es la distribución de Erlang, que representa la suma de r variables aleato-
rias independientes distribuidas exponencialmente (en este caso, r es un número
entero positivo). La distribución ji-cuadrado, la Weibull y la exponencial también se
pueden definir como casos particulares de la gamma. Las restricciones sobre los
parámetros son λ, r > 0.

(continuación)
(Normal - continuación)


λ r−1 e−λx
Γ(r) (λx) si x > 0

r r
fx (x) = E[X] = λ V [X] = λ2
−r
ϕx (u) = 1 − iuλ
Nota: La función Γ(r) es la función gamma, que se define a continua-
ción:
R
Γ(r) = 0∞ ur−1 e−u du, r > 0
Esta función tiene las siguientes propiedades:
1. Γ(n + 1) = nΓ(n), n > 0.
2. Γ(n + 1) = n!, si n es un numero entero positivo.
1.6. Variables aleatorias bidimensionales y n-dimensionales.

Función de distribución conjunta. Función de densi-
dad conjunta.
Sucede muy comúnmente que estamos interesados en investigar las relacio-

nes que hay entre dos o más caracterı́sticas de los individuos de una población-
esto da pie a la definición de las variables aleatorias bidimensionales y, de forma
más general, a las n-dimensionales. Este concepto pretende dar respuestas a pre-
guntas tales como: ¿Cuál relación existe entre la estatura y el peso corporal de
cada persona? ¿Existe algún vı́nculo entre el grado de desarrollo tecnológico y el
porcentaje de la población que son cientı́ficos en un paı́s? Es importante recalcar
que las variables aleatorias conjuntas se refieren a dos o más caracterı́sticas que
se observan simultáneamente en cada individuo de una población; están, pues,
asociadas al mismo espacio muestral (ver Fig. 1.3). Ası́ por ejemplo, si estamos
interesados en comparar las destrezas matemáticas de estudiantes de uno y otro
liceo a partir de las notas de matemática de una muestra de veinte alumnos de ca-
da liceo, no se puede instituir en base a esto una variable aleatoria bidimensional
1.6. VARIABLES ALEATORIAS N-DIMENSIONALES 23
porque los alumnos no provienen de la misma población (dos liceos) ni tampoco un

par de notas se refieren al mismo individuo.
Definición (Variable aleatoria bidimensional y n-dimensional). Sea (Ω, ℑ, P) un

espacio de probabilidad y X = X(ω) e Y = Y (ω) dos variables aleatorias defini-
das sobre ese mismo espacio probabilizado. El par (X,Y ) constituye una variable
aleatoria bidimensional, a veces denominada vector aleatorio . Análogamente, si
X1 = X1 (ω), . . . , Xn = Xn (ω) son n variables aleatorias definidas sobre el mis-
mo espacio, entonces es una variable aleatoria n-dimensional (vector aleatorio
n-dimensional).
Figura 1.3: Las variables aleatorias conjuntas están asociadas al mismo espacio
muestral
Ω X(Ω)✬ ✩
✈
X(ω)
✯
✟
✟✟
✫✪
X ✟✟
✟
✟ ✟
✟
✟
✟✟
✬✩
✟
✟✟
✈ ✲ ✈
ω ✟✟
Y
Y (ω)
✫✪
Y (Ω)
Como en el caso unidimesional, las variables aleatorias multidimensionales (n-

dimensionales) son discretas o continuas y poseen función de distribución y función
de probabilidad o función de densidad de probabilidad según sea el caso. Los vec-
tores aleatorios son discretos si el producto cartesiano es un conjunto finito o nu-
merable; en caso contrario, el vector aleatorio es continuo. Sin más preámbulos, se
especifican seguidamente las particularidades salientes de los vectores aleatorios:
Función de probabilidad conjunta en caso discreto Al vector aleatorio discreto

(X1 , . . . , Xn ) se asocia una función de probabilidad f (x1 , . . . , xn ) que repre-
senta la respectiva probabilidad P{ω|X1 (ω) = x1 , . . . , Xn (ω) = xn } definida
en el espacio probabilizado y que cumple las siguientes condiciones:
1. p (x1 , . . . , xn ) ≥ 0 para todo (x1 , . . . , xn )

∞ ∞
2. ∑ · · · ∑ p (x1 , . . . , xn ) = 1
x1 =−∞ xn =−∞
La segunda condición establece que la masa de probabilidad total sumada a

través de la región de valores donde p (x1 , . . . , xn ) ≥ 0 es igual a uno. Como
en el caso unidimensional, esta condición es de hecho la que caracteriza a
cualquier función de probabilidad o de densidad.
Función de densidad de probabilidad conjunta (caso continuo) Al vector alea-

torio continuo (X1 , . . . , Xn ) se asocia una función de densidad de probabilidad
f (x1 , . . . , xn ) que, asumiendo valores positivos en alguna región R del espa-
cio n-dimensional, cumple las siguientes condiciones:
1. f (x1 , . . . , xn ) ≥ 0 para todo (x1 , . . . , xn )

inRf ty R∞
2. ··· f (x1 , . . . , xn ) dx1 . . . dxn = 1
x1 =−∞ xn =−∞
Función de distribución de probabilidad conjunta Un vector aleatorio (X1 , . . . , Xn )

basado en un espacio de probabilidad (Ω, ℑ, P) tiene una función de distri-
bución conjunta definida del siguiente modo:
FX1 ,...,Xn (x1 , . . . , xn ) = P{ω|X1 (ω) ≤ x1 , . . . , Xn (ω) ≤ xn }
Se calcula esta expresión mediante sumatorias o integrales múltiples según

sea el vector aleatorio discreto o continuo respectivamente. Las expresiones
para los momentos de los vectores aleatorios se obtienen de forma análoga
al caso unidimensional. Cabe destacar por último la expresión para la función
caracterı́stica de un vector aleatorio:
Función caracterı́stica conjunta Sea (X1 , . . . , Xn ) un vector aleatorio basado en

un espacio de probabilidad (Ω, ℑ, P). Su función caracterı́stica conjunta esta
dada por:
1.7. VARIABLES ALEATORIAS INDEPENDIENTES 25
h i
ϕX1 ,...,Xn (u1 , . . . , un ) = E ei(u1 X1 +···+un Xn
Z Z
= ··· ei(u1 X1 +···+un Xn f (x1 , . . . , xn ) dx1 . . . dxn
Rn
Ha de entenderse la última integral de esta expresión como una sumatoria

en el caso en que sea un vector aleatorio discreto.
Como último punto en este aparte, cabe observar que cada una de las varia-
bles aleatorias Xi que conforman el vector aleatorio (X1 , . . . , Xn ) está asociada a
un mismo espacio probabilizado, por lo cual cada una de estas variables tiene su
propia función de probabilidad (de densidad de probabilidad, si es continua). En el
contexto de las variables aleatorias multidimensionales, la función de probabilidad
(o de densidad) de cada variable aleatoria por separado se conoce como función
de probabilidad (densidad) marginal y se obtiene a partir de la función de proba-
bilidad conjunta sumando (o integrando) a través de las otras variables aleatorias
restantes.
Ası́ por ejemplo, si tenemos el vector aleatorio (X,Y ) con su función de pro-
babilidad conjunta p(x, y) (o función de densidad f (x, y) si es continua), podemos
obtener la función de probabilidad marginal del siguiente modo:
Z
pX (x) = ∑ p(x, y) o fX (x) = f (x, y)dy si (X,Y ) es continua
y∈RangoY
R
En el caso de variables aleatorias de más de dos dimensiones, tendremos su-

matorias o integrales múltiples, a fin de sumar a través de las variables aleatorias
restantes.
1.7. Variables aleatorias independientes y su caracteriza-

ción. Covarianza. Distribución de la suma de dos o
más variables aleatorias independientes. Convolución.
El análisis de las relaciones entre las variables aleatorias de un modelo proba-

bilı́stico tiene mucho que ver con el concepto de la independencia entre variables
aleatorias. Intuitivamente, decimos que dos variables aleatorias son independientes

si el resultado observado de una variable no afecta la ocurrencia del valor observa-
do en la otra variable. Otra manera intuitiva de abordar la idea es considerando que
si dos variables aleatorias son independientes, la distribución de probabilidades de
una de ellas permanece igual a través de todos los posibles valores que asuma
la otra variable, lo cual guarda relación directa con la posibilidad de factorizar la
función de probabilidad conjunta como el producto de las respectivas funciones de
probabilidad marginales.
A modo de ilustrar, se considera el siguiente ejemplo: en una población, se

observa la raza o grupo étnico de cada persona conjuntamente con su nivel de
inteligencia medida a través del coeficiente intelectual. Si el nivel de inteligencia de
un individuo es independiente de su grupo racial u origen étnico, se observará que
las proporciones de individuos inteligentes, normales y subnormales permanecerán
iguales sin importar el grupo racial o étnico considerado. Valga este ejemplo para
señalar otro aspecto importante sobre las relaciones de dependencia entre varia-
bles aleatorias: la estadı́stica se limita a discernir si ciertos niveles de una variable
van acompañados por ciertos niveles de otra variable - las técnicas estadı́sticas
clásicas no permiten discernir sobre las relaciones de causalidad de unas varia-
bles sobre otras. En nuestro ejemplo, si encontrásemos que el origen racial no es
independiente del nivel de inteligencia de un individuo, no por esto pudiésemos
concluir que ciertas razas son “más inteligentes” que otras o dicho de otro modo,
que el origen racial de un individuo explica su bajo o alto coeficiente intelectual.
Más bien, en este caso, el investigador deberı́a evaluar si el instrumento de medi-
ción de la inteligencia está o no diseñado de forma sesgada para favorecer a los
individuos de cierta raza por sobre los individuos de otras razas. En todo caso, si
la dependencia estocástica es equivalente a la causalidad, eso es algo que debe
responderse fuera del ámbito probabilı́stico.
El concepto de variables aleatorias independientes y todas sus caracterizacio-

nes que veremos seguidamente están fundamentadas en el concepto de eventos
independientes, el cual se da a continuación:
Definición (Eventos independientes). Dos eventos A y B son independientes si

y solo si P(A ∩ B) = P(A) · P(B).
Un error común en cuanto al concepto probabilı́stico de independencia, por lo

menos en base a la experiencia docente del autor, es aquel de señalar dos even-
tos mutuamente excluyentes como aquellos que son independientes entre sı́. De
hecho, se da justamente lo contrario: si dos eventos son mutuamente exclusivos,
la ocurrencia de uno determina con absoluta certeza la no ocurrencia del otro, por
lo cual jamás pueden considerarse eventos independientes. Es importante aclarar

todos estos puntos en torno a la noción de independencia estocástica porque un
aspecto importante en el análisis de los procesos estocásticos es determinar si el
estado del proceso en un instante de tiempo es independiente de su estado en otro
instante. Como se verá, la suposición de la independencia entre los estados del
sistema en distintos instantes de tiempo simplifica bastante el análisis del proceso
estocástico.
Seguidamente se dan algunas caracterizaciones de la independencia de las

variables aleatorias conjuntamente distribuidas:
I. Caracterización de la independencia en términos de sus funciones de

probabilidad
Un conjunto de variables aleatorias conjuntamente distribuidas se dice ser in-
dependiente si y solo si su función de probabilidad conjunta se puede factorizar
como el producto de las funciones de probabilidad de cada variable:
p(X1 , . . . , Xn ) = pX1 (x1 ) · . . . · pXn (xn )
Si el vector aleatorio es continuo, se intercambia “función de probabilidad” por

“función de densidad” en esta caracterización.
II . Caracterización de la independencia en términos de sus funciones de

distribución
Para toda n-pla de valores (x1 , · · · , xn ), se tiene que
FX1 ,...,Xn (x1 , · · · , xn ) = FX1 (x1 ) · . . . · FXn (xn )
III . Caracterización de la independencia en términos de la esperanza ma-

temática
Para toda n-pla de funciones (g1 , · · · , gn ) donde existan los respectivos valores
esperados en la siguiente ecuación:
E[g1 (X1 ) · . . . · gn (Xn )] = E[g1 (X1 )] · . . . · E[gn (Xn )]
En palabras: la esperanza del producto de variables aleatorias conjuntamente

distribuidas es igual al producto de los valores esperados de cada variable. De
esta caracterización de independencia se deduce que la varianza de la suma
de variables aleatorias conjuntamente distribuidas e independientes es igual a

la suma de las respectivas varianzas:
V [X1 + . . . + Xn ] = V [X1 ] + . . . +V [Xn ]
IV . Caracterización de la independencia en términos de su función carac-

terı́stica
La función caracterı́stica de un vector aleatorio conjuntamente distribuido es
igual al producto de las funciones caracterı́sticas de cada variable aleatoria
respectiva cuando estas son independientes. Dicha caracterización se infie-
re de la propiedad anterior para el valor esperado del producto de variables
aleatorias independientes.
ϕX1 ,...,Xn (u1 , · · · , un ) = ϕX1 (u1 ) · . . . · ϕXn (un )
Esta caracterización de independencia es muy útil. Permite por ejemplo con-

cluir que la suma de n variables exponenciales idénticamente distribuidas e
independientes es una variable aleatoria gamma.
Según las distintas caracterizaciones de independencia vistas, se tiene que dos

variables aleatorias, o son independientes o no lo son. Pero si hemos de establecer
un grado o la magnitud de la dependencia entre dos variables, una medida serı́a la
covarianza , cuya definición es:
cov[X,Y ] = E[(X − E[X])(Y − E[Y ])] = E[X ·Y ] − E[X] · E[Y ]
Es de notar que si dos variables aleatorias X e Y son independientes, las es-

peranzas en la expresión del extremo derecho de estas igualdades se cancela -
consecuentemente, si dos variables aleatorias son independientes, su covarianza
es cero, aunque no podemos establecer de modo general la implicación contraria.
La covarianza puede ser negativa o positiva, sin embargo, a fin de acotar la cova-
rianza y establecer comparaciones entre los grados de dependencia de dos o más
pares de variables aleatorias se define a partir de la covarianza el coeficiente de
correlación :
cov[X,Y ]
ρ[X,Y ] = p
V [X] ·V [Y ]
el cual se puede demostrar que está acotado entre -1 y 19 . En realidad, el coe-

ficiente de correlación mide el grado de linealidad en la relación de dos variables.
Si ρ es -1, se tiene que entre X e Y existe una relación lineal decreciente perfecta:
una variable se puede expresar como función afı́n de la otra y si una variable crece,
la otra decrece. En cambio ρ = 1 representa una relación lineal creciente perfec-
ta: una variable aleatoria es función afı́n de la otra y ambas decrecen o crecen
simultáneamente. Si ρ es cero, no existe ninguna relación de linealidad entre una
y otra variable, pero como ya se dijo anteriormente, esto no implica necesariamen-
te que las variables en cuestión sean independientes. Dicho sea de paso, existen
otras medidas de correlación un tanto más robustas que no toman la linealidad en
cuenta, como por ejemplo el coeficiente de correlación de rango de Spearman y el
coeficiente de correlación de rango τ de Kendall entre otros10 .
El concepto de independencia entre dos variables y sus caracterizaciones en

términos de la esperanza matemática de su producto tienen como consecuencia
un método sencillo para obtener la distribución de probabilidad de la suma de dos
o más variables aleatorias. Se puede demostrar que si X e Y son dos variables
aleatorias continuas e independientes entonces su función de densidad está dada
por:
Z ∞
fX+Y (y) = fX (x) · fY (y − x)dx
−∞
Para el caso continuo, la función de probabilidad de X + Y para dos variables

independientes es:
pX+Y (y) = ∑ pX (x) · pY (y − x)

x
Integrales como la de arriba se denominan bajo el nombre de convolución . En

algunos textos de matemáticas la convolución de dos funciones f y g se escribe
f ∗ g, de modo que fX+Y (y) = fX ∗ fY . El cálculo de tales integrales (o sumatorias
en el caso discreto) puede resultar algo tedioso - es de este punto de donde las
funciones caracterı́sticas derivan su importancia. Ya que la esperanza del producto
de dos variables aleatorias independientes es igual producto de sus respectivas
esperanzas, se tiene que:
9
Ver la demostración del Teorema 7.11 en MEYER, p. 145
10
Ver el capitulo 9 de Siegel (1974).
E[eiu(X+Y ) ] = E[eiuX · eiuY ] = E[eiuX ] · E[eiuY ]
y en consecuencia ϕX+Y (u) = ϕX (u) · ϕY (u). En base a esta fórmula, se pue-

de determinar la distribución de la suma de variables aleatorias independientes
observando la función caracterı́stica de la suma. Con este resultado, se explica
fácilmente porqué la suma de variables exponenciales independientes de idéntico
parámetro tiene una distribución gamma, por ejemplo. Esta formula será de utilidad
en el análisis de ciertos procesos estocásticos.
1.8. Ejemplo para las secciones 1.6 y 1.7
A fin de consolidar su aprendizaje de los conceptos expuestos en las seccio-

nes anteriores sobre variables multidimensionales e independencia, considere el
problema a continuación:

Se lanzan dos dados y en atención al resultado, se definen las dos variables alea-
torias siguientes:
X representa la suma de las dos caras resultantes en el lanzamiento de los

dados.
Y es una variable aleatoria dicotómica que asume el valor de 1 si la cara del

primer dado es divisible entre 2 o 3, y 0 si no lo es.
Determine la función de probabilidad conjunta de la variable aleatoria bidimen-

sional (X,Y ) ası́ como la funciones de probabilidad marginales de X y de Y . Adicio-
nalmente, indique si las dos variables aleatorias en cuestión son independientes.
Solución
Primero, debemos identificar el espacio muestral subyacente al experimento alea-
torio asociado al lanzamiento de los dos dados. Dicho espacio muestral se puede
definir (o modelar, si prefiere) mediante el siguiente conjunto de pares ordenados:
Ω = {(d1 , d2 ) | d1 , d2 ∈ N, 1 ≤ d1 , d2 ≤ 6}
1.8. EJEMPLO PARA LAS SECCIONES 1.6 Y 1.7 31
En palabras, Ω es el conjunto de todos los pares ordenados de números tal

que cada número representa una de las posibles seis caras del dado respectivo.
Dicho conjunto tiene 36 elementos y asumiendo que los dados son justos y que el
lanzamiento de un dado no condiciona el lanzamiento del otro, cada uno de estos
36 eventos elementales del espacio muestral tiene una probabilidad asociada de
1
36 . Traducción al castellano: todos los posibles resultados de lanzar dos dados son
equiprobables.
A partir de este conjunto Ω definimos las dos variables aleatorias como en el

enunciado del problema. Estas variables pueden considerarse como caracterı́sti-
cas numéricas que estarán asociadas a cada evento elemental o individuo de la
población. En conjunto, se esquematiza todo esto en una tabla:
i ωi X(ωi ) Y (ωi ) i ωi X(ωi ) Y (ωi )

1 (1,1) 2 0 19 (4,1) 5 1
2 (1,2) 3 0 20 (4,2) 6 1
3 (1,3) 4 0 21 (4,3) 7 1
4 (1,4) 5 0 22 (4,4) 8 1
5 (1,5) 6 0 23 (4,5) 9 1
6 (1,6) 7 0 24 (4,6) 10 1
7 (2,1) 3 1 25 (5,1) 6 0
8 (2,2) 4 1 26 (5,2) 7 0
9 (2,3) 5 1 27 (5,3) 8 0
10 (2,4) 6 1 28 (5,4) 9 0
11 (2,5) 7 1 29 (5,5) 10 0
12 (2,6) 8 1 30 (5,6) 11 0
13 (3,1) 4 1 31 (6,1) 7 1
14 (3,2) 5 1 32 (6,2) 8 1
15 (3,3) 6 1 33 (6,3) 9 1
16 (3,4) 7 1 34 (6,4) 10 1
17 (3,5) 8 1 35 (6,5) 11 1
18 (3,6) 9 1 36 (6,6) 12 1
Observamos que la V.A. X asume valores entre 2 y 12 (11 posibles valores),

mientras que Y asume dos posibles valores 0 y 1. Para obtener las probabilidades
conjuntas, construimos una tabla de 11 columnas (cada columna representa un
posible valor de X ) y 2 filas (los dos posibles valores de Y ). En cada celda, se
indica la probabilidad respectiva con que ocurre el valor (x, y). Estas probabilidades
se obtienen a partir de la tabla anterior. Por ejemplo, el par (X,Y ) = (8, 1) ocurre
4 veces en 36 casos. Por lo tanto su probabilidad es igual a 4/6 y este valor es

el que colocamos en la celda respectiva. Para variables aleatorias bidimensionales
discretas, dicha tabla se conoce como tabla de contingencia :
X
2 3 4 5 6 7 8 9 10 11 12
1 1 1 1 2 2 1 1 1 1
0 36 36 36 36 36 36 36 36 36 36 0
Y 1 2 3 3 4 4 3 2 1 1
1 0 36 36 36 36 36 36 36 36 36 36
A esta tabla de contingencia podemos agregarle las respectivas funciones de

probabilidad marginales (que son fX (x) y fY (y)) totalizando las probabilidades de
las celdas y de las columnas:
X Totales
2 3 4 5 6 7 8 9 10 11 12 fY (y)
1 1 1 1 2 2 1 1 1 1 12
0 36 36 36 36 36 36 36 36 36 36 0 36
Y
1 2 3 3 4 4 3 2 1 1 24
1 0 36 36 36 36 36 36 36 36 36 36 36
1 2 3 4 5 6 5 4 3 2 1
fX (x) 36 36 36 36 36 36 36 36 36 36 36 1
Con las funciones de probabilidad marginales de X e Y podemos verificar si

estas variables son independientes. Recordemos que una de las definiciones o ca-
racterizaciones de independencia requiere que la función de probabilidad conjunta
sea factorizable por las respectivas funciones de probabilidad marginales, es decir,
que se cumpla p(x, y) = pX (x) · pY (y) para todo x,y.
1
Si tomamos, por ejemplo, x = 3 e y = 0, tenemos p(x, y) = p(3, 0) = 36 , pero
12 2 1
pX (x) · pY (y) = 36 · 36 = 54 y claramente se tiene que p(x, y) 6= pX (x) · pY (y) y por
lo tanto X e Y no son independientes.
Han podido considerarse otras instancias de x e y, pero basta que no se cumpla

p(x, y) = pX (x) · pY (y) para una instancia para que el par X , Y no sea independien-
te. Este resultado tiene una lectura intuitiva: para que la suma X sea 2, es necesario
que D1 no sea divisible entre 2 o 3. Por otro lado, para que X sea 12, es necesario
que D1 sea divisible entre 2 y 3, porque tanto D1 como D2 son necesariamente
iguales a 6. Por lo tanto, vemos que la divisibilidad de D1 por 2 o 3 condiciona la
suma X ; de hecho, se observa que para distintos valores de X las proporciones de
1.9. PROBLEMAS PROPUESTOS 33
las probabilidades conjuntas para los casos Y = 0 o Y = 1 son distintas. Todo esto
confirma que X e Y son mutuamente dependientes, aunque el grado de dependen-
cia no es total. Otra cosa que seguramente habrás notado es la razón por la cual
las funciones de probabilidad individuales de X y de Y se denominan funciones de
probabilidad marginales: siendo totales de columnas y de filas, se especifican en
los márgenes de la tabla de contingencia.
1.9. Problemas propuestos
1. Defina, en sus propias palabras, los siguientes conceptos:
a) Espacio muestral
b) Evento
c) Variable aleatoria
d) Función de distribución de probabilidades
e) Función de densidad de probabilidades
f ) Funcion de probabilidad
2. Defina el espacio muestral asociado al siguiente experimento aleatorio: Un

lote contiene 10 artı́culos, 3 de los cuales son defectuosos. Se extrae un
artı́culo a la vez de este lote, sin reemplazo, hasta haber obtenido todos los
artı́culos defectuosos y se observa la cantidad de artı́culos que quedan en el
lote.
3. Si A y B son dos eventos asociados a un espacio muestral, ¿cómo se inter-

preta A ∪ B? ¿A ∩ B? ¿A?
4. Demuestre que para dos eventos A y B cualesquiera, P(A ∪ B) = P(A) +

P(B) − P(A ∩ B).
5. Para un evento cualquiera A asociado a un espacio muestral Ω, demuestre

que P(A) = 1 − P(A).
6. Un jugador italiano expresó su sorpresa a Galileo por observar que al jugar

con tres dados, la suma 10 aparece con más frecuencia que la 9. Según el
jugador los casos favorables al 9 y al 10 serı́an respectivamente:
Casos favora- Casos favora-

bles al 9 bles al 10
126 136
135 145
144 226
225 235
234 244
333 334
Pero Galileo, en su libro Considerazione sopra il giuoco dei dadi, vio que es-
tas combinaciones no se pueden considerar igualmente probables. Explique
porqué y calcule las probabilidades correspondientes.
7. La correspondencia epistolar entre Pascal y Fermat, dos grandes matemáti-

cos del siglo XVII, que jugó un papel histórico determinante en el desarrollo
de la teorı́a de la probabilidad, fué motivada por algunos problemas relativos
a los juegos de azar. Se dice que el Chevalier de Mère, un aristocrata francés
aficcionado a los juegos de dado, solicitó la ayuda de ellos para esclarecer
si era más ventajoso apostar a que un seis salga por lo menos una vez en 4
lanzamientos de un dado o apostar a que en 24 lanzamientos de dos dados,
salga un doble seis por lo menos una vez. ¿Cómo hubiese aconsejado Ud.
a de Mère?
8. Defina “independencia entre eventos” y “eventos mutuamente excluyentes”.

¿Cuál es la diferencia entre estos dos conceptos?
9. Si A y B son dos eventos mutuamente independientes, ¿lo son también A y

B? Demuestrelo o verifique lo contrario mediante un contraejemplo.
10. Sean A y B dos eventos asociados a un espacio muestral. Justifique la si-

guiente igualdad: P(A) = P(A ∩ B) + P(A ∩ B).
11. Si A y B son dos eventos independientes, ¿son mutuamente excluyentes

también? Demuestrelo o verifique lo contrario mediante un contraejemplo.
12. Tanto en la definición frecuentista de la probabilidad como en la definición

clásica (según Laplace) de la probabilidad se caracteriza la probabilidad de
un evento A como el cociente nnA . ¿Cual es la diferencia entre ambas defini-
ciones entonces?
13. En la definición del concepto de variable aleatoria, ¿porqué es necesaria la

condición de que la variable aleatoria sea una función medible?
14. Sea X una variable aleatoria y F su función de distribución de probabilidad.

Demuestre que F(+∞) = 1.
15. Sea X una variable aleatoria contı́nua y f (x) su función de densidad de

probabilidad. Explique porqué f (x) y la probabilidad puntual P{X = x} no
son lo mismo.
16. Se lanza una moneda repetidas veces hasta obtener tres caras en sucesión
y se observa el número total de lanzamientos efectuados (X ).
a) Defina el espacio muestral.

b) Calcule las siguientes probabilidades P(X = 3), P(X = 4) y P(X = 5).
17. San Pedro llega muy borracho a su casa todas las noches. Para poderse
acostar a dormir en su cuarto, tiene que abrir dos puertas cerradas con llave.
Desgraciadamente (es San Pedro después de todo), su llavero consta de
100 llaves, y está tan borracho que debe tantear las llaves en cada cerradura
de manera aleatoria (cada llave tiene igual probabilidad de usarse en cada
tanteo. Todas las noches su esposa lo observa en este trance. Como buena
cuaima, ella decide que San Pedro dormirá en el sofá si tiene que tantear
más de 7 llaves (pues en ese caso ella considera que estarı́a demasiado
borracho). Esta noche, San Pedro llega a su casa totalmente empapado en
ron- ¿cual es la probabilidad de que le toque dormir en el sofá?
18. En una lı́nea de producción de una fábrica en China se produce cierto tipo
de artı́culo y de esta producción, el 10 % de los artı́culos salen defectuosos.
Debido a la naturaleza del proceso de fabricación, esta probabilidad es cons-
tante para cada artı́culo individual en la lı́nea de producción. Un inspector de
calidad visita la fabrica y toma una muestra aleatoria de 4 artı́culos. ¿Cuál es
la probabilidad de que encuentre uno o más artı́culos defectuosos?
19. En la República Bolivariana de Venezuela se producen en promedio 200 ca-

sos de corrupción administrativa semanalmente, según un proceso de Pois-
son. De estos casos de corrupción, solo el 1 % concluye en cárcel para los
culpables. ¿Cuál es la probabilidad de que en la próxima semana se produz-
can 2 o más delitos de corrupción punibles?
20. Sea T el tiempo de vida en horas de un componente distribuido exponen-

cialmente con tiempo de vida promedio de 5 horas. Calcule las siguientes
probabilidades:
a) P{T > 3}.

b) P{T = 5}.
c) P{4 ≤ T < 6}.
21. ¿Cuál es la probabilidad de que una variable aleatoria exponencialmente

distribuida tome valores mayores a su media?
22. Un estudiante de procesos estocásticos desea realizar una encuesta a 10

estudiantes de ingenierı́a de sistemas, para lo cual se para en el portón de la
UNEFA a fin de seleccionar los 10 primeros alumnos de sistemas que pasen
por ahı́. Si N es la variable aleatoria que se define como el número total de
estudiantes que pasan por el portón (sean de sistemas o no), hasta obtener
la muestra de los 10 alumnos de sistemas, y p es la probabilidad de que un
estudiante cualquiera que pasa por el portón sea un alumno de sistemas,
demuestre que el valor esperado de N es 10/p. (Ayuda: Encuentre primero
la función caracterı́stica o generadora de momentos de N ).
23. Sea X una variable aleatoria uniformemente distribuida en (0, 1). Demuestre
que la variable aleatoria Y = −2log(X) tiene una distribución χ2 con dos
grados de libertad. Ayuda: la función de densidad de la χ2 con k grados de
libertad es:
 1

k
x(k/2−1) e(−x/2) x > 0
f (x; k) = Γ 2 2k/2

0 x≤0
Unidad 2
Introducción a la simulación
estocástica mediante R
Definimos simulación como el proceso de diseñar

un modelo de un sistema real y conducir experi-
mentos con este modelo a fin de entender el com-
portamiento del sistema y/o evaluar varias estrate-
gias para la operación del sistema. Por lo tanto es
un punto crucial que el modelo sea diseñado de tal
manera que imite las respuestas del sistema real
a eventos que ocurren en el tiempo.
PARALL ÈLLES I NT ÉRFERENTES

1952 Robert Shannon
Jesus Soto Introducción al arte de la simulación
37
38 UNIDAD 2. INTRODUCCIÓN A LA SIMULACIÓN Y AL R
El objetivo general de esta Unidad es servir de introducción a la simulación es-

tocástica como una herramienta para afianzar el aprendizaje de los contenidos de
la teorı́a de la probabilidad y los procesos estocásticos que se cubren en este libro.
Al término de la misma, se quiere que el estudiante logre los siguientes objetivos
especı́ficos:
Instalar o acceder al interprete de comandos del lenguaje R, que será el

lenguaje con el cual se implementarán las simulaciones en este libro.
Aprender y practicar los aspectos básicos de la sintaxis, los tipos de datos y

las estructuras de control fundamentales de R.
Construir scripts en R para resolver, mediante la simulación, problemas de

cálculo de probabilidades o valores esperados.
2.1. ¿Para qué la simulación? Breve introducción al R
El uso de la teorı́a de la probabilidad para deducir algunas propiedades de un

modelo aleatorio entraña cierta dificultad- se presenta casos en donde el análisis
teórico de un matemático experimentado sobre alguna situación que involucra el
azar es errado. Si además nuestra formación teórica sobre las probabilidades es
deficiente (lamentablemente este es el caso más común), entonces se dificulta aún
más el abordaje de ciertos problemas. Pero teniendo una computadora, contamos
con un instrumento epistemológico que nos permite obtener conocimiento sobre
el modelo aleatorio de forma experimental- este es el objetivo fundamental de la
denominada simulación.
La simulación, como la programación misma, es un arte. No existe un procedi-

miento mecánico para hacer simulaciones. Lo que se requiere del analista es de-
terminar detalladamente las reglas y la secuencia de acciones que rigen el compor-
tamiento de los componentes del sistema a simular. Se deben establecer bien las
relaciones de dependencia entre los componentes y deslindar aquellos comporta-
mientos de componentes que son independientes de los demás comportamientos.
Esta secuencia de acciones y comportamientos conforma un ciclo, análogo a una
2.2. CÓMO CONSEGUIR EL INTERPRETE R 39
partida de un juego. Como en las simulaciones se pretende determinar las proba-

bilidades o los valores esperados, se deben realizar muchas iteraciones de estos
ciclos para ver cual es su comportamiento “a la larga”. Es en este punto donde
estriba el poder del computador como instrumento epistemológico- el computador
realiza esta mirı́ada de cálculos rápidamente, obteniendo la probabilidad o el valor
esperado deseado a través de la fuerza de computo bruto.
Existen diversos entornos de programación para la investigación numérica o

estocástica. Entre estos, se escogió el lenguaje R para desarrollar los ejemplos y
trabajos prácticos de este curso. El lenguaje R es un sistema para el análisis es-
tadı́stico y gráfico, a la vez un entorno de programación y aplicación basado en el
lenguaje S desarrollado por los Laboratorios AT&T Bell1 . Uno de los atractivos prin-
cipales de R es que se distribuye libremente bajo los términos de la GNU General
Public License. Aunado a esto, existen muchos programas en S disponibles a través
del Internet que se pueden ejecutar directamente bajo R2 . El lenguaje R, siendo un
lenguaje de programación orientado a objetos, incorpora sentencias básicas de
bucles y condicionamiento junto con herramientas sofisticadas de alto nivel para el
análisis estadı́stico, lo cual le da una enorme flexibilidad. Por todas estas razones,
el lenguaje R tiene cada vez más preponderancia en el mundo académico y en la
investigación estocástica.
2.2. Cómo conseguir el interprete R
Los binarios para la instalación de R para los sistemas operativos más comunes
(Linux, Windows, MacOs o Solaris) se encuentran disponibles para su descarga en
la página principal del proyecto R (CRAN): http://cran.r-project.org/. Si se
ha de usar el R bajo una instalación Linux, que es lo que el autor recomienda, se
sugiere también instalar un IDE3 como el Geany, el cual es bastante fácil de usar.
Junto con este libro se ha incluido un Live CD4 de Linux con R, algunas librerı́as
de utilidad y el Geany instalado. En el apéndice se incluye un breve tutorial sobre
el uso de Geany. La instalación de R para Windows incluye un editor de scripts y
1
Ver Paradis (2002).
2
Consultar en http://stat.cmu.edu/S/.
3
Los IDE son entornos de desarrollo integrados para la edición, compilación, ejecución y depura-
ción de programas en varios lenguajes.
4
El Live CD es un CD de arranque para el sistema operativo Linux, e incluye, además del sistema
operativo, otras aplicaciones, como en este caso R y las librerı́as. Arrancando el computador desde
un Live CD en la unidad lectora, el sistema operativo se monta en memoria RAM y el usuario puede
trabajar sin afectar los contenidos del disco duro de la máquina.
una consola de comandos.
Figura 2.1: Encabezado de un servidor RWeb. El recuadro de comandos se en-

cuentra más abajo en la página.
También existe la posibilidad de usar el R desde un servidor RWeb (Ver Fig.

2.1). A través de un servidor RWeb, el usuario puede ejecutar scripts de R sin ne-
cesidad de instalar el intérprete R como se indica arriba. No obstante, si es nece-
sario disponer de una conexión internet para navegar a alguna de las páginas que
hospedan servidores RWeb. El procedimiento para esto se indica a continuación:
1. Mediante el navegador web, acceda a alguna página con servidor RWeb.

Algunas de estas son:
http://www.mzandee.net/˜zandee/statistiek/rweb/
http://pbil.univ-lyon1.fr/Rweb/ - del Pôle Bioinformatique Lyon-
nais, adscrito a la Universidad de Lyon en Francia, corriendo R 2.11.1.
http://claree.univ-lille1.fr/Rweb/ - de la Universitée Lille1 co-
rriendo R versión 2.9.0.
http://data-engine.tama.ac.jp/Rweb/Rweb.general.html - Ta-
ma University, versión 2.12.1 de R. Este servidor tiene la versión más
actualizada de R.
http://www.unt.edu/rss/Rinterface.htm - University of North Te-
xas corriendo R versión 2.5.1. Este servidor contiene muchos paquetes
complementarios.
2. Se escribe el código R del script a ejecutar en el recuadro correspondiente

que se muestra en la página (ver Fig. 2.2).
2.3. BREVE INTRODUCCIÓN AL LENGUAJE R 41
Figura 2.2: Recuadro de comandos de un tı́pico servidor RWeb.
3. Para ejecutar el código, presione el botón Submit debajo del recuadro

para colocar el código, tal como se muestra en la figura.
4. Debe esperar cierto tiempo para que el servidor RWeb ejecute el script su-
ministrado. Luego se cargará una página web con los resultados.
2.3. Breve introducción al lenguaje R
R es un lenguaje de programación con todas las de la ley. A pesar de que su

fuerte es el cómputo numérico y el procesamiento estadı́stico de datos, es un len-
guaje de propósito general y es multiparadigma - lo cual quiere decir que soporta la
programación orientada a objetos (mediante el sistema S4) y la programación fun-
cional (gracias a su herencia de Scheme y otros lenguajes basados en Lisp). Desde
luego, R soporta la programación procedimental y estructurada, lo cual quiere decir
que el lenguaje posee las estructuras de control usuales en otros lenguajes: for,
while, if, etc. En esta sección daremos una breve introducción al lenguaje R, que
no pretende ser un curso completo.
En primer lugar, debemos aclarar que R es un lenguaje interpretado, no compi-

lado. Esto quiere decir que el usuario puede ingresar expresiones o comandos de
R tras el caracter de petición5 que inmediatamente serán evaluados, devolviendo el
intérprete un resultado. El usuario puede, si lo desea, encadenar una secuencia de
instrucciones o expresiones en R para crear lo que se conoce como un programa -
solo que en R no los llamamos programas, sino scripts, porque R es un lenguaje in-
terpretado. Dichos scripts se crean como un archivo de texto plano en un editor de
textos como Notepad, gedit o el editor de scripts que se incluye en la versión para
Windows de R6 . Los archivos con los scripts de R siempre tendrán como extensión
el sufijo .R.
En R, los tres tipos básicos de datos7 son el numérico (constantes numéricas

reales o enteras, indistintamente), las cadenas de caracteres (que se encierran
entre comillas ) y los lógicos o booleanos8 . A modo de ejemplo, indicaremos se-
guidamente algunas expresiones numéricas junto con las salidas correspondientes
del interprete R:
> 2/4
[1] 0.5
> 2/3+1
[1] 1.666667
> 2/(3+1)
[1] 0.5
> sqrt(2)
[1] 1.414214
> 1.414214ˆ2
[1] 2.000001
5
El caracter de petición, o prompt, usualmente es >.
6
Para los usuarios de Linux con Geany, véase el apéndice.
7
Existen también los factores, que se utilizan para codificar valores de una variable categórica. Sin
embargo, en este curso no nos ocuparemos de este tipo de datos.
8
Las dos constantes lógicas para verdadero y falso son, respectivamente TRUE o T y FALSE o F.
La sintaxis de R es sensible a mayusculas y minúsculas, de modo que usar true o True en vez de
TRUE generarı́a un error.
En lo anterior se ilustra el uso de paréntesis como operadores de precedencia

aritmética (nótese la diferencia entre 2/3+1 y 2/(3+1)9 ), ası́ como el uso de funcio-
nes como sqrt para calcular la raı́z cuadrada de su argumento y la exponenciación
mediante el operador ˆ. Desde luego, R posee muchas otras funciones matemáti-
cas como log, sin, cos disponibles en cualquier lenguaje de programación (y otras
más especificas que no están incluidas en cualquier lenguaje de programación). A
continuación algunos ejemplos de expresiones con cadenas de caracteres:
> paste("procesos","estocasticos")
[1] "procesos estocasticos"
> paste("aritmetica",2+2)
[1] "aritmetica 4"
> paste("procesos","estocasticos",sep="")
[1] "procesosestocasticos"
La función paste() toma sus argumentos, los convierte a cadenas y concatena

las cadenas en una sola. Cuando no se indica el caracter de separación (mediante
el argumento sep como se indica arriba), el caracter de separación por defecto
es un espacio en blanco (sep=). A continuación algunas expresiones con datos
lógicos:
> 2+2==4
[1] TRUE
> 2+2!=5
[1] TRUE
> 3>5
[1] FALSE
> TRUE & FALSE
[1] FALSE
> TRUE | FALSE
[1] TRUE
9
Además de los paréntesis (), también se pueden utilizar las llaves {}.
> !TRUE
[1] FALSE
En lo anterior, observe los operadores de comparación lógicos (==, !=, >, etc.),
ası́ como también los operadores booleanos propiamente dichos (| es el operador
de disyunción lógica, & es el operador de conjunción lógica y ! es el operador de
negación).
Las variables en R se denotan mediante identificadores. Un identificador váli-

do en R comienza por una letra (mayúscula o minúscula), seguido de dı́gitos y/u
otras letras. Los caracteres . y también se pueden usar (nunca al comienzo del
identificador) y son útiles para indicar separaciones entre palabras o elementos
del identificador. Las variables pueden ser asignadas a constantes (literales) o a
otras variables mediante el operador de asignación (<-). Observe los ejemplos a
continuación:
> raiz2 <- sqrt(2)
> raiz2
[1] 1.414214
> raiz2ˆ2
[1] 2
> raiz2ˆ2==2
[1] FALSE
El identificador “raiz2” denota una variable a la cual se le ha asignado el valor

numérico de la función sqrt(2). Observe que aún cuando raiz2ˆ2 se visualiza
como “2”, no es exactamente igual a 2, debido a errores inherentes en la precisión
de la representación numérica.
En todo lo anterior, el lector se habrá preguntado porqué aparece un [1] antes

de los resultados que arroja el interprete R. La explicación de esto tiene que ver
con una estructura de datos fundamental en R: el vector. Un vector es una lista
o arreglo que consta de datos de un mismo tipo (numérico, lógico o cadenas de
caracteres). Los vectores en R pueden crecer o decrecer dinámicamente - no hay
que alocarlos en memoria de antemano, como ocurre en PASCAL por ejemplo. La
función R para construir vectores es c(), que coerciona los argumentos al mismo
tipo y los concatena:
> vec <- c("a","b","c",1,2,3)

> vec
[1] "a" "b" "c" "1" "2" "3"
> length(vec)
[1] 6
> vec <- c(vec,"c","b","a")

> vec
[1] "a" "b" "c" "1" "2" "3" "c" "b" "a"
> length(vec)
[1] 9
Aquı́ asignamos a la variable vec un vector cuyos tres primeros elementos

son cadenas de caracteres y cuyos tres últimos elementos son números. Como se
intenta concatenar elementos de distintos tipos y los vectores son, por definición,
secuencias de datos del mismo tipo, se convierten todos los datos a cadenas de
caracteres. La función length() devuelve la longitud (cantidad de elementos) del
vector en su argumento, que en este punto es 6. La segunda llamada a la función
c() concatena tres elementos de cadena adicionales al vector vec. Esto ilustra
que los argumentos de c() pueden ser tanto vectores como datos elementales.
Finalmente, invocamos a la función length(vec) para constatar que ahora vec
consta de 9 elementos.
Otra manera de generar vectores es mediante secuencias, con el uso de :

entre dos números enteros, que indican desde donde hasta donde se genera la se-
cuencia o mediante la función seq(from,to,by). Sobre esta última, el argumento
from indica el número de inicio de la secuencia, el argumento to indica el número
final de la secuencia y el argumento by indica el paso, o incremento de la sucesión.
Veamos:
> 1:100
[1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14
[15] 15 16 17 18 19 20 21 22 23 24 25 26 27 28
[29] 29 30 31 32 33 34 35 36 37 38 39 40 41 42
[43] 43 44 45 46 47 48 49 50 51 52 53 54 55 56
[57] 57 58 59 60 61 62 63 64 65 66 67 68 69 70
[71] 71 72 73 74 75 76 77 78 79 80 81 82 83 84
[85] 85 86 87 88 89 90 91 92 93 94 95 96 97 98
[99] 99 100
> seq(0,1,0.1)
[1] 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
Este último ejemplo ayuda a dilucidar un poco la pregunta que nos hicimos an-
teriormente sobre el [1] al comienzo de las expresiones de salida en los primeros
ejemplos. El 1 en [1] representa el primer elemento del vector10 . A lo largo de
todos estos ejemplos, inclusive aquellas expresiones que generaban un solo da-
to elemental, el interprete R devuelve vectores al evaluar dichas expresiones, aún
cuando en los primeros casos, los vectores eran de longitud 1.
Seguidamente vamos a dar ejemplos sobre como acceder o referirnos a los

elementos individuales de un vector, lo cual se conoce como indexación. La inde-
xación en R se realiza colocando el o los elementos ı́ndices entre los corchetes []
que siguen al identificador del vector:
> a <- seq(2,100,2)
> a[1]
[1] 2
> a[50]
[1] 100
> a[80]
[1] NA
> a[5:9]
[1] 10 12 14 16 18
> a[a>22 & a<50]
[1] 24 26 28 30 32 34 36 38 40 42 44 46 48
Observamos que el vector a solo tiene 50 elementos, por lo cual al tratar de

acceder al elemento número 80 (a[80]), el interprete devuelve un “NA” como salida,
indicando efectivamente que el elemento en referencia no existe (NA significa not
available). La expresión que sigue, a[5:9], devuelve todos los elementos de a,
desde el quinto al noveno. La última expresión es más interesante e ilustra el poder
10
A diferencia del lenguaje C, donde el primer elemento de un arreglo es aquel cuyo ı́ndice es 0,
en R el ı́ndice del primer elemento es 1.
de la indexación en R. La expresión de indexación entre corchetes puede ser una

condición lógica- entonces el interprete R devuelve todos los elementos del vector
que satisfacen dicha condición. En este caso, como a es la secuencia de los 50
primeros números pares positivos, a[a>22 & a<50] serı́a todos aquellos números
pares mayores a 22 y menores a 50.
Vamos a ilustrar ahora el uso de estructuras de control mediante otro ejemplo:

supóngase que queremos calcular los cuadrados de los 10 primeros números en-
teros (del 1 al 10). Una primera forma de hacerlo, que no serı́a muy eficiente por
cierto, serı́a generar la secuencia de los 10 primeros números, recorrerla con un
while e ir concatenando el cuadrado de cada elemento a otro vector:
1 # -------------------------------------------------------------
2 # 2_1. R
3 # script para generar el cuadrado de los únmeros del 1 al 10
4 # autor : éJos L. Romero P.
5 # fecha : 13/08/2011
6 # -------------------------------------------------------------
7 # inicializamos las variables : a es la secuencia de únmeros del
8 #1 al 10 , b es inicialmente un vector vacio e i es el indice ,
9 # que inicialmente apunta al primer elemento de a
10 a <- 1:10
11 b <- NULL
12 i <- 1
13 # recorremos el vector a elevando cada elemento al cuadrado
14 #y concatenandoselo al vector b
15 while (i<=10) {
16 b <- c(b,a[i]ˆ2)
17 i <- i + 1
18 }
19 # finalmente hacemos que el interprete devuelva el vector b:
20 b
[1] 1 4 9 16 25 36 49 64 81 100
El de arriba fue nuestro primer script. Observe que los comentarios se indi-
can colocando el caractér numeral (#) como primer caractér - a partir del sı́mbolo
numeral, el resto de la lı́nea será considerada como comentario. Es una buena
práctica colocar comentarios abundantemente. Más aún, una buena práctica pa-
ra programar consiste en elaborar el algoritmo en seudocódigo, colocándolo como
comentarios, y luego rellenar el esqueleto del programa con código verdadero en
el lenguaje de programación. El while se sigue de una expresión entre paréntesis
que indica la condición lógica que ha de cumplirse para seguir en el bucle. Des-
pués de la condición lógica entre paréntesis, todo el cuerpo del bucle se indica
encerrándolo entre llaves { ...}, tal como se hace en C. Aún cuando la indenta-
ción11 del código no es necesaria en R, es una buena práctica indentar el cuerpo

interno de las estructuras de control. De esta forma, el programador puede visuali-
zar fácilmente el nivel de anidamiento de un código dentro de un programa, lo cual
a su vez facilita enormemente su depuración.
Ya que estamos pontificando sobre las buenas prácticas en programación, de-

bemos observar nuevamente que recorrer un vector de longitud conocida mediante
un while no es precisamente lo más eficiente - es mejor usar un for. Más aún,
como la variable ı́ndice del for asume justamente los valores numéricos que que-
remos elevar al cuadrado, no es preciso crear la secuencia a como al principio del
script anterior:
1 # -------------------------------------------------------------
2 # 2_2. R
5 # fecha : 13/08/2011
6 # -------------------------------------------------------------
7 # inicializamos las variables : b es inicialmente un vector
8 # vacio , i es el indice del bucle for .
9 b <- NULL
10 # elevamos cada únmero i al cuadrado y lo concatenamos al
11 # vector b
12 for (i in 1:10) {
13 b <- c(b,iˆ2)
14 }
15 # finalmente hacemos que el interprete devuelva el vector b:
16 b
[1] 1 4 9 16 25 36 49 64 81 100
No solo es el script 2 2.R más elegante y más breve (menos lı́neas de código)-
es también más rápido que el script 2 1.R, aunque la diferencia entre un while
y un for realmente se nota cuando se recorren secuencias mucho más largas.
El uso del for como estructura de control para iterar en un bucle una cantidad
predeterminada de veces es algo estándar en los lenguajes de programación pro-
cedimentales, pero en R, tampoco es lo más eficiente (o elegante).
Cuando se está aprendiendo a programar en R, uno muchas veces lee en fo-

ros de ayuda o en manuales sobre la “vectorización” del código. En el argot de los
programadores de R, vectorizar significa recorrer secuencias o vectores sin usar
el for. Una forma de vectorizar es mediante la indexación con expresiones lógi-
11
La indentación se refiere a la práctica de colocar espacios en blanco al principio de una lı́nea de
código.
cas, como vimos arriba. Otra forma es aplicar una función directamente a través
de todos los elementos de un vector, lo cual es posible porque R soporta la pro-
gramación funcional. De hecho, casi todas las funciones definidas o definibles en
R son vectorizables. En nuestro caso, para hallar los cuadrados de los 10 primeros
números naturales, solo tendrı́amos que ejecutar lo siguiente:
1 # -------------------------------------------------------------
2 # 2_3. R
5 # fecha : 13/08/2011
6 # -------------------------------------------------------------
7 b <- (1:10)ˆ2
8 b
[1] 1 4 9 16 25 36 49 64 81 100
Se han expuesto los rudimentos del lenguaje R. Aunque todavı́a hay muchas
funcionalidades del lenguaje por ver, estamos en condiciones de abordar un primer
problema de simulación.
2.4. Dos problemas de simulación: El juego de Monty Hall

y el encuentro
A modo de ilustrar lo que es una simulación, se comienza con un ejemplo ex-

traı́do de un concurso en un programa de televisión británico que consiste en lo
siguiente:
Problema Resuelto 2.1 (El juego de Monty Hall)
El concursante se encuentra ante tres puertas entre las

cuales debe escoger una. Detrás de una de las puer-
tas se encuentra un carro y detrás de cada una de las
otras dos un apestoso animal (una cabra). El trato es
el siguiente, el animador (que sabe donde se encuentra
el carro) abre una puerta obviamente diferente a la que
el jugador escogió y a la que contiene el carro, revelan-
do una flamante cabra. Luego se le pregunta al concur-
sante si desea abrir otra puerta o mantiene su elección.
¿Que es más ventajoso para el concursante? ¿Cuál es
la probabilidad de ganar si el jugador cambia de puerta?
“La Respuesta Inesperada” - Óleo sobre tela, 1933 - René Magritte
Solución
Muchas personas, inclusive matemáticos, concluyen erróneamente que no es parti-
cularmente más ventajoso cambiar de puerta razonando que una vez que el anima-
dor abre una de las puertas que no contiene el carro, las probabilidades de ganar o
perder son iguales ( 21 ) si se cambia de puerta o no. Sin embargo, un análisis cuida-
doso de las probabilidades demuestra que la probabilidad de ganar cambiando de
puerta es de 23 . Se deja como tarea verificar esto de forma teórica. En lo que sigue
nos interesa más bien simular la situación. Para esto debemos especificar lo más
detalladamente posible la secuencia de pasos en cada juego:
Paso 1 Primero, se esconde (aleatoriamente) el carro detrás de una de las tres

puertas.
Paso 2 El jugador selecciona una de las tres puertas (escoge al azar).

2.4. DOS PROBLEMAS DE SIMULACIÓN 51
Paso 3 El animador (Monty Hall), sabiendo donde está el carro, escoge una puerta
que no sea la que optó el concursante ni la que contiene el carro y la abre,
revelando que hay una cabra detrás de esa puerta. Si queda una sola puerta
elegible con esas condiciones, Monty la escoge. De lo contrario, si hay dos
puertas elegibles, Monty escoge cualquiera de las dos al azar.
Paso 4 Como en la simulación queremos determinar la probabilidad de ganar si el

concursante cambia de puerta, hacemos que el jugador opte una segunda
vez por la puerta distinta a la que seleccionó la primera vez y a la puerta que
acaba de abrir Monty.
Paso 5 Si la segunda puerta que escogió el concursante al cambiar de puerta

en el paso anterior es igual a la puerta detrás de la cual estaba el carro el
concursante gana.
Este ciclo se repite un número N arbitrariamente elevado de veces a fin de

determinar la proporción de veces que el concursante gana. Según la ley de los
grandes números, si el número de iteraciones es lo bastante elevado, esta propor-
ción se acercará a probabilidad verdadera de 32 . A continuación se indica el código
en R para esta simulación junto con el resultado arrojado por la misma, que es de
0.6688, lo cual como se podrá apreciar, se acerca bastante a 23 .
1 # --------------------------------------------------------------
2 # 2_4. R
3 # simulacion del concurso de Monty Hall
4 # autor : Jose L. Romero P.
5 # fecha : 10/8/2007
6 # --------------------------------------------------------------
7 cnt <-0
8 puertas <- c(1 ,2 ,3)
9 N <- 10000
10 for (i in 1:N) {
11 puerta.premio <- sample(puertas,size=1 ,replace=TRUE)
12 puerta1.jugador <- sample(puertas,size=1 ,replace=TRUE)
13 otras.puertas <-
14 setdiff(puertas,union(puerta.premio,puerta1.jugador))
15 ifelse((length(otras.puertas)==1) ,
16 monty.abre.puerta <- otras.puertas,
17 monty.abre.puerta <-
18 sample(otras.puertas,size=1 ,replace=TRUE)
19 )
20 puerta2.jugador <-
21 setdiff(puertas,union(puerta1.jugador,monty.abre.puerta))
22 if (puerta2.jugador==puerta.premio) cnt <- cnt+1
23 }
24 cat(" La probabilidad de ganar en N=" ,N," ensayos del juego es " ,

25 cnt/N," .\ n")
La probabilidad de ganar en N=10000 ensayos del juego es 0.6688.
Vale destacar algunos elementos en el código precedente:
sample - Esta función se utiliza para generar muestras aleatorias a partir de

un espacio muestral (el conjunto se representa como un vector). Mediante los
otros argumentos se puede indicar el tamaño de la muestra, si el muestreo es
con o sin reemplazo y el vector de probabilidades de los eventos elementales
correspondientes del espacio muestral.
ifelse - Esta función evalúa la condición lógica de su primer argumento

y devuelve la expresión del segundo argumento si la condición es TRUE o la
expresión del tercer argumento si la condición es FALSE. ifelse es vectori-
zable, lo cual quiere decir que el primer argumento (la condición) puede ser
un vector lógico. En tal caso, para cada componente lógico del vector con-
dición, se devuelve un vector de la misma longitud que el vector condición
cuyos componentes correspondientes serán el segundo argumento o el ter-
cer argumento según el valor del elemento correspondiente de la condición.
setdiff - Esta función considera a los vectores suministrados en sus ar-

gumentos como conjuntos, devolviendo la diferencia de conjuntos entre el
primer argumento y el segundo. Ası́ por ejemplo, si A y B son dos vectores
que representan conjuntos, setdiff(A,B) devuelve un vector que repre-
senta el conjunto A − B = A ∩ B.
union - Esta función devuelve un vector que representa la unión de todos

los conjuntos suministrados en sus argumentos.
cat - Es una función que concatena las cadenas en sus argumentos e im-
prime el resultado al terminal. Es una función de E/S básica del R.
Otro ejemplo de cómo determinar probabilidades mediante simulaciones se

desarrolla a partir del siguiente problema:
Problema Resuelto 2.2 (El Encuentro)
Dos hombres de negocios deciden

encontrarse en algún lugar entre las
12 y la 1 pm, cada uno acordando no
esperar más de 10 minutos por el otro.
¿Cuál es la probabilidad de que se

encuentren si cada uno llega indepen-
dientemente del otro y en cualquier
instante aleatorio en el lapso de esa
hora? “El Encuentro” - Litografı́a 1944 - M.C. Escher
Solución
Para comenzar, denotemos por X e Y el instante de tiempo dentro de una hora a
la cual llega cada empresario respectivamente. Según la última parte del enuncia-
do que establece que “cada uno llega independientemente del otro y en cualquier
instante aleatorio en el lapso de esa hora”, se desprende que tanto X como Y son
variables aleatorias continuas independientes y uniformemente distribuidas entre 0
y 60 (se trabajará el problema en base al lapso de 60 minutos). Para que los em-
presarios se encuentren, la diferencia en valor absoluto de los tiempos de llegada
de uno y otro debe ser menor o igual a 10 minutos. Es decir, se quiere calcular
P{|X −Y | ≤ 10}. Claramente, esta diferencia en valor absoluto varia entre 0 y 60
minutos, pero aún no se ha determinado la distribución de probabilidad de |X −Y |.
Quizás haya podido llegar a este punto de la solución, aunque quizás no se-
pa como proceder a partir de ahı́- es precisamente en ayudar a dilucidar este tipo
de situaciones en que radica la valı́a de la simulación. Para el problema en cues-
tión, ésta va a consistir básicamente en generar una distribución empı́rica de un
número suficientemente grande de valores |X − Y | basados en números aleato-
rios uniformemente distribuidos según lo expuesto en el análisis anterior. Sin más
preámbulos, se da el código de la simulación en R a continuación:
1 # ---------------------------------------------------------------
2 # 2_5. R ( El encuentro )
4 # fecha : 18/08/2007
5 # ---------------------------------------------------------------
6 N <- 1000000 # numero de repeticiones
7 # determina la distribucion de |X -Y| cuando
8 # X e Y son Unif (0 ,60) e independientes .

9 x <-abs(runif(n=N,min=0 ,max=60) -runif(n=N,min=0 ,max=60))
10 png(filename=" encuentro_r. png ")
11 hist(x,br=60 ,right=FALSE,freq=FALSE,
12 main=" Histograma de frecuencia " ,
13 ylab=" denisdad de probabilidad empirica ")
14 abline(a=(60/1800) ,b= -1/1800 ,col=" red ")
15 legend(x=25 ,y=0.033 ,legend=" Funcion de densidad teorica " ,
16 fill=" red ")
17 # cual es la probabilidad requerida ?
18 probabilidad <- mean(as.integer(x<=10))
19 cat(" Probabilidad de que las dos personas se encuentren : " ,
20 probabilidad,"\n")
Probabilidad de que las dos personas se encuentren: 0.305262
Figura 2.3: Histograma de frecuencias generado por la simulación. La curva roja

representa la función de densidad de probabilidad teórica.
¿Cómo se realizó la simulación y qué significa la lı́nea roja en el histograma

e la Fig. 2.3? En primer lugar, se genero una muestra de N = 1000000 de valo-
res |X − Y | aleatorios. Como X e Y son uniformemente distribuidos, las muestras

de números aleatorios uniformemente distribuidos fueron generadas mediante las
funciones runif. Seguidamente, se graficó el histograma de frecuencias con el
método hist de R. Esto generó el histograma de la Fig. 2.3, pero sin la lı́nea roja
aún. Obsérvese que los rectángulos son levemente irregulares, pero sus alturas
decrecen en forma sorprendentemente regular y lineal. La lı́nea roja, como función
de densidad teórica, parece ajustarse bien, por lo menos intuitivamente, a lo obser-
vado. En este punto nos damos cuenta que la función de densidad de la variable
|X − Y | debe ser un segmento de recta decreciente entre 0 y 60, como la lı́nea
roja en el gráfico. Un análisis más profundo revela que la función de densidad de
probabilidad de |X −Y | esta dada por
Z
60−d
1 60 − d
f|X−Y | (d) = 2 · 2
dt = ,donde d asume valores entre 0 y 60
60 1800
0
La motivación de dicha fórmula viene de notar que el evento correspondiente a

“la diferencia |X −Y | es exactamente igual a d ” se verifica para X ∈ [0, 60 − d], Y =
X + d (suponiendo X mayor o igual a Y ), la integral viene a representar la masa de
probabilidad total para cada uno de estos casos. El factor de 2 a la izquierda de la
integral se debe a que X ≥ Y o Y ≥ X . Dicha función evidencia ser una función de
densidad legı́tima pues su integral a través de los valores posibles de d es igual a
uno:
Z60 Z60
60 − z
f|X−Y | (z)dz = dz
1800
0 0
z z2 60
= − =1
30 3600 0
Observando el código R de la simulación, se evidencia que el segmento lineal

rojo trazado sobre el histograma de frecuencias empı́ricas se corresponde a la fun-
ción lineal f|X−Y | (d), a partir de la cual se puede calcular fácilmente la probabilidad
deseada:
Z10
z z2 10
P{|X −Y | ≤ 10} = f|X−Y | (z)dz = −
30 3600 0
0
1 1 11
= − = = 0, 3055
3 36 36
Como se puede ver, el resultado de la simulación (0,305262) se corresponde

con bastante exactitud al resultado teórico.
En este curso se hará un uso intensivo de simulaciones como estas para apoyar
resultados sobre los procesos estocásticos deducidos teóricamente. La discusión
detallada sobre las técnicas de simulación per se es marginal a los objetivos prin-
cipales de curso y se cubre en el curso de Simulación y Modelos. Sin embargo, en
vista de los objetivos que se persiguen en este curso, es importante puntualizar las
siguientes ideas sobre la técnica de simulación, tal como la emplearemos a lo largo
del libro:
Los programas de simulación sirven para calcular, de modo aproximado, pro-

babilidades, valores esperados o medidas de variabilidad.
Siempre será mejor realizar los cálculos de probabilidades, valores espe-

rados o medidas de variabilidad por medios analı́ticos (sin simulación). Sin
embargo, cuando la complejidad de los mismos rebasa la capacidad de nues-
tras herramientas matemáticas, simular es la única forma de determinar tales
caracterı́sticas de un fenómeno aleatorio, aunque solo de forma aproximada.
En este libro se hace uso de las simulaciones para fines didácticos - la si-
mulación apoyará o complementará ciertos resultados teóricos deducidos
analı́ticamente.
La simulación es esencialmente la repetición, siempre bajo idénticas condi-

ciones y un número elevado de veces, de un experimento aleatorio. A partir
de los resultados se generan estadı́sticas con las cuales se estiman las ca-
racterı́sticas poblacionales del fenómeno aleatorio bajo estudio.
Mientras mayor cantidad de veces se repite el experimento aleatorio en una

simulación, más exactitud se tendrá en los cálculos de las probabilidades o
valores esperados.
La simulación de un experimento aleatorio en el computador requiere gene-

rar números aleatorios. Para ello, R tiene funciones como sample y la familia
de funciones r*, donde el asterisco denota alguna distribución (rexp gene-
ra números aleatorios exponencialmente distribuidos, runif números unifor-
memente distribuidos, rpois números aleatorios distribuidos según Poisson,
rnorm números aleatorios normalmente distribuidos, etc.). Estas funciones
son vectorizables.
Es importante seguir con detenimiento la exposición de cada uno de los ejem-

plos de implementación de simulaciones y tratar de compaginar esto con el desa-
rrollo teórico de cada problema. Ası́ mismo, se invita al lector a dilucidar cualquier
otro aspecto teórico de la teorı́a de la probabilidad y de los procesos estocásticos
por si mismo implementando simulaciones.
1. ¿Qué es simulación, en qué consiste y para qué sirve?
2. ¿Porqué es mejor calcular probabilidades o valores esperados por medios

analı́ticos, siempre y cuando esto sea posible?
3. ¿Porqué mejora la precisión de los cálculos en una simulación a medida que

aumenta el número de veces que se repite el experimento aleatorio?
4. ¿Qué significa “vectorizar” el código en R?
5. Considere el siguiente script en R que recorre todos los números del vector
vec y suma aquellos números que sean divisibles por 3:
vec <- c(2 ,6 ,15 ,17 ,5 ,9 ,18 ,3 ,1 ,7) # vector de prueba
suma <- 0
for (i in 1:length(vec)) {
if (vec[i] % %3==0) suma <- suma+vec[i]
}
suma
[1] 51
¿Cómo vectorizarı́a este código?
6. En una simulación, ¿para qué se quiere optimizar el tiempo de ejecución de

los bucles o mejor aún, vectorizar el código?
7. Respecto al problema propuesto N° 7, calcule mediante una simulación en

R las probabilidades de ganar apostando a que por lo menos un seis salga
en 4 lanzamientos de un dado y de ganar apostando a que por lo menos un
doble seis sale en 24 lanzamientos de dos dados.
8. Cuatro caballos, Pedro poco dientes, Tres pelos, El burro Machey y Mi potro
siniestro han corrido juntos en el Clásico de Múcura muchas veces. A conti-
nuación se dan las frecuencias relativas con las que cada caballo ha ganado
la carrera:
Frecuencia con la
Caballo
que ha ganado
Pedro poco dientes 0,40
Tres pelos 0,10
El burro Machey 0,30
Mi potro Siniestro 0,20
Elabore un script en R que simule el resultado para n carreras de caballos

con estos cuatro ejemplares.
9. Dos bolas idénticas se distribuyen de manera aleatoria en tres urnas nume-

radas. Este experimento aleatorio tiene 6 resultados posibles, representados
mediante vectores de tres componentes que indican la cantidad de bolas en
cada urna. Los resultados y sus respectivas probabilidades son:
Resultado Probabilidad
(2,0,0) 1/9
(0,1,1) 2/9
(1,1,0) 2/9
(0,2,0) 1/9
(1,0,1) 2/9
(0,0,2) 1/9
Elabore un programa en R que calcule de forma aproximada la probabilidad

de observar el resultado (2,0,0). Dicho programa debe simular el experimen-
to aleatorio descrito un numero N suficientemente grande de veces y estimar
dicha probabilidad mediante la proporción de veces que se obtiene el resul-
tado (2,0,0) con respecto al número total de ensayos N .
10. En una partida de raquetball, un jugador continúa sirviendo mientras vaya

ganando. Un jugador gana un punto sólo cuando ha ganado el turno que ha
servido y el primero en alcanzar los 21 puntos gana la partida. Si el jugador

A comienza la partida sirviendo y tiene una probabilidad de 0,6 de ganar
cuando ha servido el turno y de 0,40 cuando no ha servido el turno, calcule,
mediante una simulación, la probabilidad de que el jugador A gane la partida.
11. Se efectúa un curioso duelo con pistolas entre tres personas, cada uno con
una determinada probabilidad de acertar el tiro según se indica a continua-
ción:
Participante Probabilidad de
del duelo acertar el tiro
A 0,3
B 1
C 0,5
En este duelo, comienza el participante A, luego le toca el turno a B y por ulti-

mo a C. Comienza la ronda nuevamente en el mismo orden hasta que quede
un solo hombre en pié, eliminando sucesivamente a aquellos que reciban un
tiro.
El participante A debe escoger entre dos estrategias al comienzo del duelo:
disparar a B o disparar al aire. Si dispara al aire, no elimina a nadie. Tocándo-
le el turno a B, este elimina a C y cuando le toque el turno a A nuevamente,
este tiene una probabilidad de 0,3 de eliminar a B y ası́ ganar el duelo. Si le
dispara primero a B, podrı́a eliminarlo e intercambiar disparos indefinidamen-
te con C hasta eliminarlo. ¿Cuál es la probabilidad de que A gane el duelo si
emplea esta segunda estrategia? ¿Es menor o mayor que la probabilidad de
ganar disparando al aire la primera vez? Determine esta probabilidad analı́ti-
camente y mediante una simulación en R.
12. Partiendo desde su casa en el vértice O, una persona decide visitar a sus
amigos, ubicados en los vértices A, B, C y D del siguiente grafo:
t t
A B
❅
❅
❅Ot
❅
❅
t ❅t
❅
C D
Al salir de su casa, escoge al azar uno de los cuatro caminos que conducen
a la casa de algún amigo. Desde allı́, escoge al azar uno de los tres caminos,
que lo llevan a la casa de otro amigo o de vuelta al vértice O12 . El tour conti-
nua hasta que regresa de nuevo a su casa en el vértice O. Escriba un script
en R para calcular, por medio de una simulación, el promedio de la cantidad
de amigos que se visitan antes de regresar a casa.
12
Suponga que sus amigos nunca se cansan de recibir sus visitas.
Unidad 3
Introducción a los procesos

estocásticos. Terminologı́a y
nociones preeliminares
Pregunta en un foro del Guardian Weekly:

“¿Cuál es la probabilidad de que un chim-
pancé con una máquina de escribir y con dispo-
nibilidad de tiempo infinita escriba las obras com-
pletas de Shakespeare, convirtiéndose en una es-
pecie de Shakespeare estocástico?”
Respuesta de un lector:
“He tenido problemas anteriormente con esos si-
mios estocásticos. Tan pronto aprenden a escribir
un ensayo de 12 lı́neas, como ’Qué hice duran-
te las vacaciones de verano’, piensan que tienen
un don de Dios para la literatura y antes de que
pueda decir ’To be or not to be’, se marchan pa-
ra Hollywood a conseguir trabajo como guionistas,
donde sobran personas que les brinden daiquiris
de banana. Después de un tiempo se aburren y
buscan trabajo como actores en peliculas de Tar-
zan. A partir de ahı́ comienza el declive...”
T EPUY I
2008
Ini Toledo
61
62 UNIDAD 3. INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS
El objetivo general de esta Unidad es definir los conceptos básicos referentes a

los procesos estocásticos, ası́ como algunas de sus caracterı́sticas. Al término de
la misma, se quiere que el estudiante logre los siguientes objetivos especı́ficos:
Definir los procesos estocásticos y caracterizarlos según su espacio de es-

tados y espacio de parámetros.
Definir las funciones de probabilidad condicional y las esperanzas condicio-

nales, ası́ como manejar sus propiedades y aplicarlas en la resolución de
problemas y demostraciones matemáticas.
Definir e identificar los distintos tipos de procesos estocásticos.
3.1. Definición y ejemplos de procesos estocásticos.
Los procesos estocásticos son básicamente fenómenos cuyo comportamiento

se desarrolla en el tiempo y se rige por las leyes de las probabilidades1 . Ejemplos
de tales fenómenos son: el movimiento browniano de una partı́cula, el crecimiento
de una población tal como una colonia bacterial, el tamaño de una cola en una
estación cliente/servidor, la recepción de una señal en presencia de ruido o pertur-
baciones, los precios de un bien en un lapso de tiempo, las fluctuaciones de fortuna
en un juego de azar, etc. Existen caracterizaciones de procesos estocásticos cuya
variable no es el tiempo, sino la ubicación espacial. Ejemplos de estos procesos
estocásticos espaciales son la distribución geográfica de especies de plantas o
animales y es estudio de epidemias, donde el contagio de una enfermedad en un
sitio depende de su proximidad con otros sitios infectados. El interés principal de
este curso es más bien sobre los procesos estocásticos temporales y no sobre los
1
La palabra “estocásticos” es de origen griego, proviene de “Stokhos”, que significa objetivo, o
blanco en el juego de dardos. “Stokhastikos” como adjetivo, alude a apuntar bien, a quién es hábil
para conjeturar. El adjetivo “estocástico” fue incorporado al léxico matemático en 1953- no está del
todo claro como adquirió la acepción pertinente a “aleatorio” usada hoy en dı́a. Rebolledo (2002), p.
5
3.1. DEFINICIÓN Y EJEMPLOS DE PROCESOS ESTOCÁSTICOS. 63
espaciales.
Otro concepto relacionado es el de series cronológicas. Estas se refieren a

las observaciones o realizaciones en el tiempo de un proceso estocástico implı́cito
y son objeto de estudio para los economistas principalmente. Habiendo hecho la
suposición que una serie cronológica (correspondiente a los precios de una acción
en la bolsa de valores, por ejemplo) es una realización de un proceso estocástico,
los investigadores tratan de inferir estadı́sticamente a partir de las observaciones,
las leyes que gobiernan el proceso a fin de predecir ciclos o valores futuros.
Para efectos matemáticos, un proceso estocástico es una sucesión de variables

aleatorias, cada una de las cuales describe el estado del sistema en un instante de
tiempo dado. Esta definición es adecuada porque abarca los siguientes aspectos:
1) el estado del sistema en un tiempo determinado es variable, y su variabilidad se
debe a mecanismos aleatorios, 2) la variable aleatoria del estado del sistema es
una función que depende del tiempo y en consecuencia, su distribución está deter-
minada por el instante de tiempo que se considere, 3) si se consideran los estados
de un sistema en distintos instantes de tiempo conjuntamente, se puede concep-
tuar un proceso estocástico como un vector aleatorio n-dimensional. Resumiendo:
Definición (Proceso estocástico). Un proceso estocástico es una sucesión o con-

junto de variables aleatorias {X(t)|t ∈ T } definidas sobre un espacio de probabi-
lidad común (Ω, ℑ, P).
En esta definición, t es el parámetro de tiempo, el cuál toma valores en un

conjunto T denominado conjunto ı́ndice. Según sea T un conjunto numerable o
no, el proceso estocástico será de parámetro discreto o continuo respectivamente.
Usualmente, el valor ı́nfimo de T es 0, pues se analizarán los procesos estocásti-
cos a partir de un instante de tiempo 0. Los procesos estocásticos de parámetro
discreto se denotan por {Xi |i = 0, 1, 2 . . .}. Las variables aleatorias X(t) toman va-
lores en un espacio medible llamado espacio de estados (state-space en ingles).
Si se tiene un proceso estocástico y se fija algún ω ∈ Ω la función t → Xt (ω) se
llama trayectoria del proceso estocástico X . Para aclarar un poco estos conceptos,
considérese el siguiente ejemplo: se cuenta el número de personas que entran a
un banco entre las 9 y 10 am. Definimos el conjunto ı́ndice como el conjunto de
todos los posibles instantes de tiempo entre las 9 y 10am el proceso estocástico
es por lo tanto de parámetro continuo. Considerando que estamos interesados en
la cantidad de personas que han entrado en cierto instante de tiempo, definirı́amos
el espacio de estados como el conjunto de todos los valores enteros no negativos.
Por último, si consideramos una realización del proceso estocástico antes descri-
to para un dı́a especı́fico, digamos el 29 de agosto de este año, tendrı́amos una
trayectoria del proceso.

Dado un conjunto finito de n ı́ndices en T {t1 , . . . ,tn }, X(t1 ), . . . , X(tn ) es un
vector aleatorio n-dimensional que genera la función de distribución en Rn dada a
continuación:

Ft1 ,...,tn x1 , . . . , xn = P{X(t1 ) ≤ x1 , . . . , X(tn ) ≤ xn }
Tales funciones de distribución se conocen como las funciones de distribución

finito-dimensionales del proceso estocástico y generalmente, un proceso estocásti-
co se determina conociendo todas sus funciones de distribución finito dimensiona-
les, aunque esto no es siempre cierto, como se evidencia en el siguiente contra-
ejemplo.
Sea Ω = [0, 1] y P la distribución uniforme en [0, 1], de modo que el experimento

básico consiste en escoger un número al azar en [0, 1]. Sobre este espacio de
probabilidades se definen dos procesos:
a. {X(t),t ∈ [0, 1]} definido por X(t, ω) = 0 para todo t ,ω.

0 si t 6= ω
b. {Y (t),t ∈ [0, 1]} definido por X(t, ω) =
1 si t = ω
Y (t) se puede considerar como un proceso que da un salto discontinuo en un

instante de tiempo aleatorio marcando la ocurrencia de algún evento en ese ins-
tante, tal como por ejemplo una explosión. Se puede ver intuitivamente que ambos
procesos X e Y tienen las mismas funciones de distribución finito dimensionales y
sin embargo, no son el mismo proceso.
En la práctica, es muy difı́cil, sino imposible, obtener las funciones finito- dimen-
sionales para todo conjunto de ı́ndices (t1 ,. . .,tn ) y todo n, por lo cual se definen las
funciones de distribución de primer y segundo orden. La función de distribución de
primer orden se corresponde a la distribución de la variable aleatoria en un tiempo
determinado:
Ft0 (x) = P{X(t0 ) ≤ x}
Si estamos interesados en relacionar el comportamiento de un proceso es-

tocástico en dos instantes de tiempo utilizamos la función de distribución de segun-
do orden:
3.2. PROBABILIAD Y ESPERANZA CONDICIONAL 65
Ft1 ,t2 (x1 , x2 ) = P{X(t1 ) ≤ x1 , X(t2 ) ≤ x2 }
3.2. Probabilidad y esperanza condicional. Definiciones y

propiedades.
Las nociones de probabilidad y esperanza condicional juegan un papel impor-

tante dentro del estudio de los procesos estocásticos. Seguramente el lector esta
familiarizado con las nociones de probabilidad condicional relativas a eventos y de
algunos resultados consecuentes como el teorema de la probabilidad total y el teo-
rema de Bayes- estas nociones generalmente se exponen en las primeras partes
de cualquier curso elemental de probabilidades. Repasando, la probabilidad condi-
cional de que ocurra un evento A conociendo la ocurrencia de un evento B es:
T
P (A B)
P (A | B) =
P (B)
la cual tiene sentido si la probabilidad de B es no-nula. Esta noción se puede ex-

tender al condicionamiento de una variable Y por otra variable X si X e Y son
discretas.
P{Y = yn ∩ X = xm } pX,Y (xm , yn )

P (Y = yn |X = xm ) = = (3.2.1)
P{X = xm } pX (xm )
donde pX,Y es la función de probabilidad conjunta del par aleatorio (X,Y ). La varia-
ble aleatoria discreta que tiene tal función de probabilidad se denota por Y |X = xm .
Se recalca que Y |X = xm es una variable aleatoria que asume valores yn con las
probabilidades condicionales indicadas arriba. Además, si X e Y son independien-
tes, Y |X = xm e Y tienen la misma distribución. Siendo Y |X = xm una variable
aleatoria, tiene su esperanza matemática asociada, que es:
E [Y |X = xm ] = ∑ y · P (Y = y|X = xm )
sobre y
y que está definida para pX (xm ) no nulo.

A medida que xm varia a través del espacio de probabilidad inducido por X ,

la esperanza anterior asume los valores correspondientes por lo cual se puede
considerar ésta como una función dependiente de las instancias particulares de X:
f (α) = E [Y |X = α] = ∑ y · P (Y = y|X = α) (3.2.2)

sobre y
La expresión (3.2.2) se lee “esperanza condicional de Y dado que X vale α”.

Como α representa los posibles valores que toma la variable aleatoria X , se tiene
que f (X) es una variable aleatoria también. f (X), mejor denotada por E [Y |X] ,
es de hecho la esperanza condicional de la variable aleatoria Y condicionada por
X . Se enfatiza que E [Y |X] es una variable aleatoria, lo cual le puede parecer a
primera vista extraño al lector si está acostumbrado a considerar el valor esperado
como una caracterı́stica numérica fija de la distribución. No obstante, para que esta
definición nos sea de utilidad en el estudio de los procesos estocásticos, debemos
generalizarla aún más:
Definición (Esperanza condicional de Y dadas X1 , . . . , Xn ). Sean X1 , . . . , Xn varia-

bles aleatorias que toman valores en un conjunto E y sea Y otra variable aleatoria.
La esperanza condicional de Y dada la sucesión X1 , . . . , Xn es:
E [Y |X1 , . . . , Xn ] = f (X1 , . . . , Xn )
donde f esta definida para cualquier vector (α1 , . . . , αn ), con αi ∈ E por
f (α1 , . . . , αn ) = E[Y |X1 = α1 , . . . , Xn = αn ]

= ∑ y · P(Y = y|X1 = α1 , . . . , Xn = αn )
sobre y
Esta definición de esperanza condicional se puede extender al caso de condi-

cionamiento por variables aleatorias continuas si consideramos la función de den-
sidad de probabilidad condicional en vez de la función de probabilidad dada en la
ecuación (3.2.1). En efecto
fX1 ,...,Xn ,Y (x1 , . . . , xn , y)

fY |X1 ,...,Xn (y|x1 , . . . , xn ) = (3.2.3)
fX1 ,...,Xn (x1 ,...,xn )
La consecuente redefinición de la esperanza condicional para el caso de las X1 , . . . , Xn

continuas es dada a partir de
Z
g(α1 , . . . , αn ) = E [Y |X1 = α1 , . . . , Xn = αn ] = y · f (y|α1 , . . . , αn ) dy (3.2.4)
sobre y
La esperanza condicional comparte muchas de las propiedades de la esperan-

za matemática que se trata en los cursos elementales de probabilidad, tales como:
Propiedad 1 (Linealidad del operador esperanza)
E [c1Y1 + . . . + cnYn | X1 , . . . , Xm ] =c1 E [Y1 |X1 , . . . , Xm ]

+ . . . + cn E [Yn |X1 , . . . , Xm ]
Propiedad 2
Si Y puede escribirse como función de X1 , . . . , Xn , es decir Y = f (X1 , . . . , Xn ),
entonces E [Y |X1 , . . . , Xn ] = Y
Propiedad 3
Como
E [Y |X1 , . . . , Xn ] es una variable aleatoria, esta tiene esperanza y es
E E[Y |X1 , . . . , Xn ] = E[Y ]
Propiedad 4
Para n, m ≥ 1 se tiene E [E [Y |X1 , . . . , Xn+m ] |X1 , . . . , Xn ] = E [Y | X1 , . . . , Xn ]
Propiedad 5
Sean X1 , . . . , Xn y Y1 , . . . ,Ym dos conjuntos de variables aleatorias tales que
si se conoce los valores de uno se puede determinar los valores del otro,
entonces, para cualquier Y se tiene E [Y |X1 , . . . , Xn ] = E [Y |Y1 , . . . ,Ym ].
Propiedad 6
Si X e Y son independientes, entonces E[X|Y ] = E[X] y E[Y |X] = E[Y ], casi
siempre.
Los conceptos de probabilidad y esperanza condicional son imprescindibles pa-

ra caracterizar los diversos tipos de procesos aleatorios- es a través de las probabi-
lidades y la esperanza condicional que se definen las relaciones de dependencia (o
de independencia) entre los estados de un proceso aleatorio en distintos instantes
de tiempo. Además, la esperanza condicional y las probabilidades condicionales
permiten abordar problemas como el que se enuncia a continuación:
Problema Resuelto 3.1 (El Ladrón de Bagdad)

El Ladrón de Bagdad se encuentra en un cala-
bozo con tres puertas. Una de las puertas con-
duce a un túnel que luego de un dı́a de camino
regresa al mismo punto de partida. Otra de las
puertas conduce a un túnel similar al anterior
cuya travesı́a toma tres dı́as. La tercera puerta
conduce a la libertad. Asumiendo que el Ladrón
escoge cualquiera de las tres puertas aleatoria-
mente con igual probabilidad y que cada vez que va a escoger una puerta se le ha
olvidado las escogencias pasadas 2 , encuentre la cantidad de dı́as en promedio
que el ladrón pasará encerrado en el calabozo desde el momento en que primero
escoge entre las tres puertas hasta que haya escogido la puerta que lo lleva a la
libertad.
Solución
Cada vez que el Ladrón de Bagdad escoge una de las tres puertas constituye un
ensayo de Bernoulli con 1/3 probabilidad de éxito, entendiendo por éxito abrir la
puerta que conduce a la libertad. Un primer abordaje del problema nos motiva
a considerar el número de ensayos N que realiza el ladrón antes de conseguir su
libertad, lo cual serı́a una variable aleatoria geométricamente distribuida. Pero acla-
rando que N representa el número de ensayos fallidos antes de escoger la puerta
hacia la libertad, por lo cual su función de probabilidad y su valor esperado son los
que se dan a continuación:
pN (n) = pqn para n = 0, 1, 2, . . .

∞ ∞ ∞ ∞
∂ 1
E[N] = ∑ npqn = p ∑ nqn = pq ∑ nqn−1 = pq ∑ nqn−1 = pq · ∂q 1−q
n=0 n=1 n=1 n=0
1 q 1 2
= pq 2
= = 2 , ya que p = , q =
(1 − q) p 3 3
La variable geométrica difiere un poco de la indicada en la tabla 1.1 porque

2
Es un ladrón desmemoriado y además, tampoco tiene GPS ni mucho menos GoogleMaps.
en este contexto, la variable aleatoria de interés es el número de ensayos fallidos

antes de conseguir el primer éxito. En cambio en la tabla 1.1, se plantea la variable
geométrica como el número total de ensayos efectuados hasta conseguir el primer
éxito. En aquellos ensayos fallidos, el ladrón escoge una puerta que adiciona 1 dı́a
de permanencia en el calabozo u otra puerta que adiciona 3 dı́as de permanencia
en el calabozo. Por lo tanto la variable de interés es
Sn = X1 + . . . + XN
Donde N es la variable aleatoria geométricamente distribuida que se men-

cionó anteriormente y los Xi son cada uno variables aleatorias independientes se-
mejantes a las de tipo Bernoulli con
1
P{Xi = 1} = P{Xi = 3} =
2
En términos
de esperanzas condicionales,
estamos interesados en encontrar
E E[Sn |N] = E E[Xi + . . . + Xn |N] . Habida cuenta que E[Sn |N] es una variable
aleatoria, que los Xi son variables aleatorias independientes con igual esperanza y
que a su vez son independientes de N , se tiene que:

q 1 1
E E[Sn |N] = E E[X1 + . . . + Xn | | N] = E[N] · E[Xi ] = · 1 · + 3 ·
p 2 2
= 2·2 = 4
La cantidad esperada de dı́as que el Ladrón de Bagdad permanecerá en el

calabozo antes de salir libre es de cuatro dı́as. Veamos si la simulación confirma el
resultado hallado analı́ticamente:
1 # ---------------------------------------------------------------
2 # 3_1. R : Simulacion del problema del Ladron de Bagdad
4 # fecha : 23/08/2007
5 # ---------------------------------------------------------------
6 N <- 100000
7
8 # el siguiente codigo genera un vector de longitud N

9 # con la cantidad de dias que el ladron pasa en la cueva
10 # por cada ciclo de simulacion
11 x <- NULL
12 for (i in 1:N) {
13 total.dias <- 0
14 dia.i <- sample(c(0 ,1 ,3) ,1 ,replace=TRUE)
15 while (dia.i!=0) {
16 total.dias <- total.dias+dia.i
17 dia.i <- sample(c(0 ,1 ,3) ,1 ,replace=TRUE)
18 }
19 x<-c(x,total.dias)
20 }
21
22 # el siguiente codigo es equivalente al anterior , observando que

23 # la cantidad de ensayos de puertas es una variable aleatoria
24 # geometrica con probabilidad de exito igual a 1/3. La cantidad
25 # de dias que se adicionan en cada ensayo no exitoso en 1 o 3,
26 # con igual probabilidad para ambos valores .
27 x <- NULL
28 for (i in 1:N) {
29 x<-c(x,sum(sample(c(1 ,3) ,rgeom(1 ,p=1/3) ,replace=TRUE)))
30 }
31 cat(" Cantidad esperada de dias en el calabozo : " ,mean(x))
Cantidad esperada de dias en el calabozo: 4.012
3.3. Caracterización de los procesos aleatorios: valor me-

dio y núcleo de covarianza.
Para caracterizar completamente un proceso estocástico se requiere cono-

cer sus funciones de distribución finito-dimensionales. Sin embargo, existen carac-
terı́sticas de los procesos aleatorios que resumen, por lo menos parcialmente, su
comportamiento. En el caso de la variable aleatoria que estudiamos en los cursos
de probabilidades, la esperanza y la varianza juegan este papel. De forma análo-
ga, para los procesos estocásticos se tiene la función de valor medio y el núcleo de
covarianza.
3.3. VALOR MEDIO Y NÚCLEO DE COVARIANZA 71
Definición (Función de valor medio). Sea {X(t),t ∈ T } un proceso estocástico.

Su función de valor medio se denota por mx (t) y se define por:
Z
mx (t) = E[X(t)] = x fx(t) (x)dx
Ω
donde fx(t) (x) es la función de densidad de primer orden del proceso. Es de

notar que mx (t) es una función determinista, dependiente a lo sumo del instante
de tiempo t.
Definición (Núcleo de covarianza). Sea {X(t),t ∈ T } un proceso estocástico

con segundo momento finito. Su núcleo de covarianza, denotado por K(s,t), se
define como:
K(s,t) = Cov[X(s), X(t)] = E[(X(s) − mx (s))(X(t) − mx (t))]
Muchos procesos surgen como función de un número finito de variables alea-

torias. Por ejemplo, supóngase que X(t) representa la posición de una partı́cula
en movimiento rectilı́neo no acelerado con velocidad constante. X(t) se define en
función de una posición inicial X0 y una velocidad V de la siguiente forma:
X(t) = X0 +V · t
Si X0 y V son variables aleatorias, X(t) es en efecto un proceso estocástico.

Su función de valor medio y su núcleo de covarianza se calculan a continuación:
mx (t) = E[X(t)] = E[X0 +V · t] = E[X0 ] + t · E[V ]
K(s,t) = Cov[X(s), X(t)] = E[(X(s) − mx (s))(X(t) − mx (t))]

= E[(X0 + sV − E[X0 ] − sE[V ])(X0 + tV − E[X0 ] − tE[V ])]
= E[(X0 − E[X0 ])2 + (s + t) · (X0 − E[X0 ])(V − E[V ]) + st(V − E[V ])2 ]
= V [X0 ] + (s + t)Cov[X0 ,V ] + st ·V [V ]
Observamos que para calcular la función de valor medio y el núcleo de cova-

rianza no se requiere conocer la ley de probabilidad conjunta de X0 y V , basta con
conocer los valores esperados, las varianzas y la covarianza de X0 y V . Mediante
este ejemplo tomado de la fı́sica se aclaran aún más las ideas expuestas hasta
ahora. La trayectoria del proceso aleatorio serı́a el desplazamiento de una partı́cu-

la ω determinada (su gráfica de movimiento). Tanto la trayectoria como la función
de valor medio y el núcleo de covarianza son caracterı́sticas deterministas del pro-
ceso estocástico en el sentido en que solo dependen de los instantes de tiempo
considerados.
3.4. Incrementos independientes y estacionarios. Proce-

sos estacionarios.
Frecuentemente, es más natural describir un proceso estocástico a través de

una caracterización de cómo este evoluciona en el tiempo, pues los incrementos,
o cambios de estado de un proceso generalmente poseen propiedades más sen-
cillas que las variables mismas de la secuencia aleatoria. Primero debemos definir
qué entendemos por “incremento”:
Definición (Incremento). Dado un proceso aleatorio {X(t),t ∈ T }, un incremento

representa la evolución o cambio de estado de un proceso en un lapso de tiempo,
lo cual se expresa matemáticamente por X(t + ∆t) − X(t) para t, ∆ ∈ T .
Para un proceso de parámetro discreto, incremento se refiere a como cambia
el proceso en un paso de tiempo (∆t = 1), siendo m-incremento el cambio del
proceso en m pasos de tiempo.
Consideremos un proceso estocástico {X(t),t ∈ T } de tiempo continuo y una

colección de parámetros en T linealmente ordenados, t1 , . . . ,tn , que satisface t1 <
. . . < tn . Se dice que X(t) es un proceso con incrementos independientes si las
variables aleatorias X(t2 ) − X(t1 ), . . . , X(tn ) − X(tn−1 ) son independientes.
Algunos autores definen los incrementos independientes con condiciones más

fuertes: Si el conjunto de parámetros temporales tiene un mı́nimo t0 , también debe-
mos suponer la independencia de X(t0 ), X(t1 ) − X(t0 ), . . . , X(tn ) − X(tn−1 ) en un
proceso con incrementos independientes. Usualmente se define t0 = 0 porque el
instante cuando comenzamos a observar el proceso aleatorio es el instante cero.
Incluso por convención,se asume que X(t0 ) = 0, ya que en el instante cero no ha
sucedido nada (el estado inicial de un proceso aleatorio en el instante cero es cero
y los incrementos sucesivos determinan cuán lejos se desvı́a el proceso aleatorio
con respecto a ese cero).
Definiendo los incrementos como una sucesión de variables aleatorias inde-

pendientes Y (t0 ) = X(t0 ), Y (ti ) = X(ti )−X(ti−1 ) para i ≥ 1 se hace evidente (por lo
3.4. INCREMENTOS Y ESTACIONARIEDAD 73
menos intuitivamente) que si conocemos las distribuciones de Y (t0 ),Y (t1 ), . . . ,Y (tn )
podemos determinar la distribución conjunta de X(t0 ), X(t1 ), . . . , X(tn ). Esto se
puede verificar mediante la función caracterı́stica conjunta y la propiedad de in-
dependencia de los incrementos. Por una parte, según esto último:

ϕY (t0 ),...,Y (tn ) u0 , · · · , un = ϕY (t0 ) u0 · · · ϕY (tn ) un (3.4.1)
Por otra parte, se tiene:

u0 X(t0 )+u1 (X(t1 )−X(t0 ))+...+un (X(tn )−X(tn−1 ))
ϕY (t0 ),...,Y (tn ) u0 , · · · , un = E ei

= E ei (u0 −u1 )X(t0 )+(u1 −u2 )X(t1 )+...+(un−1 −un )X(tn−1 )+un X(tn−1 )
= ϕX(t0 ),...,X(tn ) (u0 − u1 , · · · , un−1 − un , un ) (3.4.2)
Mediante la siguiente transformación de los parámetros de la función carac-

terı́stica:
z0 = u0 − u1 , ... , zn−1 = un−1 − un , zn = un
o equivalentemente:
u0 = z0 + . . . + zn , u1 = z1 + . . . + zn , ... , un = zn
podemos combinar las ecuaciones (3.4.1) y (3.4.2) en una sola:
ϕX(t0 ),...,X(tn ) (z0 , . . . , zn )

= ϕX(t0 ) (z0 + z1 + . . . + zn ) · ϕX(t1 )−X(t0 ) (z1 + . . . + zn ) · · · ϕX(tn )−X(tn−1 ) (zn )
(3.4.3)
Esto implica que en efecto, la ley de probabilidad conjunta de la secuencia

aleatoria {X(t)|t ∈ T } se determina a partir de las leyes de probabilidad de los
incrementos respectivos.
Otro concepto de importancia para la clasificación de los procesos estocásti-

cos es el de incrementos estacionarios y el de la estacionariedad. Básicamente,
la estacionariedad de un fenómeno aleatorio se refiere a que el mecanismo que lo

produce permanece invariante en el tiempo.
Definición (Incrementos estacionarios). Un proceso es de incrementos estacio-

narios si la distribución de probabilidad de los incrementos X(t1 + h) − X(t1 ) y
X(t2 + h) − X(t2 ) es igual para valores positivos cualesquiera de t1 ,t2 y h.
De esta definición se puede colegir que la distribución de los incrementos esta-

cionarios solo depende de la amplitud del intervalo de tiempo h. La idea de estacio-
nariedad se puede extender a la secuencia de variables aleatorias que conforman
el proceso estocástico en sı́.
Definición (Proceso estocástico estrictamente estacionario de orden n). Sea T

un conjunto de ı́ndices de linealmente ordenados tal que la suma de dos miem-
bros cualesquiera de T también pertenece a T y consideremos un proceso es-
tocástico {X(t)|t ∈ T } definido sobre ese conjunto de ı́ndices temporales. Se
dice que {X(t)|t ∈ T } es un proceso estrictamente estacionario de orden n si la
distribución conjunta de un par de vectores aleatorios de dimensi ón n arbitraria
X(t1 ), X(t2 ), . . . , X(tn ) y X(t1 + h), X(t2 + h), . . . , X(tn + h) es la misma para
todo t1 , t2 , . . . , tn y h en T .
Un proceso estocástico es estrictamente estacionario si es estrictamente es-

tacionario de orden n para todo entero positivo n. Esta condición plantea que un
proceso estrictamente estacionario está en equilibrio probabilı́stico y que los ins-
tantes particulares en los cuales se observan el proceso no tienen relevancia. En
particular, la distribución de X(t) es la misma para todo t .
Definición (Proceso estocástico débilmente estacionario). Un proceso {X(t)|t ∈

T } es débilmente estacionario o estacionario en el sentido amplio si tiene mo-
mentos finitos de segundo orden, si mt (t) = m es constante para todo t y si
Cov[X(t), X(t +h)] = E[X(t)X(t +h)]−E[X(t)]E[X(t +h)] = E[X(t)X(t +h)]−m2
depende solo de h para todo t .
Todo proceso estrictamente estacionario es también débilmente estacionario

pero lo contrario no es cierto.
3.5. ALGUNOS TIPOS DE PROCESOS ALEATORIOS 75
3.5. Algunos tipos de procesos aleatorios: caminata alea-

toria, martingalas, procesos de Markov, procesos de
Poisson, procesos de Wiener
Con la terminologı́a definida anteriormente en este capitulo, se está en condi-

ciones de definir algunos tipos de procesos estocásticos. El primer tipo de proceso
que vamos a definir es el ruido blanco:
Definición (Ruido Blanco). Un proceso estocástico de parámetro discreto cons-

tituido por una secuencia de variables aleatorias independientes e idénticamente
distribuidas Z0 , Z1 , . . . , Zn , se conoce como ruido blanco (white noise en inglés).
Si adicionalmente E[Zi ] = 0, el proceso estocástico se denomina ruido blanco

con media cero. Un proceso de ruido blanco es simétrico si además la distribución
de los Zi es una distribución simétrica, como por ejemplo la uniforme, la normal o la
t-Student. En base a un proceso estocástico de ruido blanco se define el siguiente
proceso:
Definición (Caminata aleatoria). Sea Z0 , Z1 , . . . , Zn un proceso estocástico de

ruido blanco, con el cual se define
n
Sn = S0 + ∑ Zi
i=1
con alguna condición inicial S0 = s0 o si S0 tiene alguna distribución especifica. El

proceso correspondiente {St |t = 0, 1, 2, . . .} es una caminata aleatoria.
En la definición precedente, los Zi se denominan los pasos o incrementos de

la caminata aleatoria; para que {St |t = 0, 1, 2, . . .} sea efectivamente una camina-
ta aleatoria, {Zt |t = 1, 2, . . .} debe ser un proceso de ruido blanco. Este tipo de
procesos se discutirá con más detalle en el próximo capitulo.
Definición (Martingala). Un proceso de parámetro discreto {Xt |t = 0, 1, 2, . . .} es

una martingala si satisface las siguientes dos propiedades:
(I) E[Xn ] < ∞
(II) E[Xn+1 |X0 , X1 , . . . , Xn ] = Xn
La primera de estas condiciones es más bien para facilitar un poco las ma-
temáticas en el manejo de las martingalas y la segunda si resume en esencia lo
que es la martingala- establece que el valor esperado del próximo estado futuro del
proceso dado toda su historia pasada es simplemente el estado actual del proceso.
En el contexto del juego de apuestas, el proceso de martingala se denomina

a veces “juego justo”, ya que sirve para modelar la riqueza de un jugador en el
tiempo cuando la ganancia o perdida esperada en cada turno es cero. En realidad,
el término “martingala” proviene del un nombre francés que aludı́a a una estrategia
de juego consistente en duplicar las apuestas hasta ganar con seguridad3 .
Definición (Proceso de Markov). Un proceso de Markov {X(t)|t ∈ T } es aquel

cuyos estado futuro solo depende del estado presente y no del pasado. Los pro-
cesos de Markov verifican la propiedad de Markov , que establece que
P{X(tn+1 ) ∈ A|X(tn ) = an , . . . , X(t0 ) = a0 } = P{X(tn+1 ) ∈ A|X(tn ) = an }
En los procesos de Markov, el estado actual del proceso incorpora toda la in-
formación que necesitamos para estimar el estado futuro y la probabilidad de un
comportamiento futuro no se altera si incorporamos información sobre el pasado
del proceso. Un proceso de Markov con espacio de estado finito o numerable se
denomina cadena de Markov , que se estudiará posteriormente en este curso.
Antes de definir el proceso de Poisson, es preciso definir lo que es un proceso

de conteo (o counting process en inglés), del cual el proceso de Poisson es una
instancia particular. Un proceso de conteo {N(t)|t ∈ T } es aquel cuyo espacio
de estados es el conjunto de números naturales y con él se pretende modelar la
cantidad de eventos discretos que han ocurrido en un tiempo t . Se enuncia, pues,
la siguiente definición:
Definición (Proceso de Poisson homogéneo). Un proceso de conteo {N(t)|t ≥

0} es un proceso de Poisson con tasa media constante (o intensidad) λ si cumple
las condiciones a continuación:
(I) {N(t)|t ≥ 0} tiene incrementos estacionarios e independientes.
(II) Para dos instantes de tiempo s y t tales que s < t , la cuenta de eventos
N(t) − N(s) acaecidos en el intervalo de tiempo (s,t) es distribuida según
la ley de Poisson con media λ(t − s). A saber:
k
−λ(t−s) λ(t − s)
P{N(t) − N(s) = k} = e
k!
3
Ver QUIDEL, p. 440
3.5. ALGUNOS TIPOS DE PROCESOS ALEATORIOS 77
Figura 3.1: Norbert Wiener (1894-1964)
Nacido estadounidense e hijo de un inmigrante ruso, Norbert

Wiener obtuvo su Ph.D en Harvard a la edad de 18 años, tras
lo cual estudió Filosofı́a, Lógica y Matemáticas en Cambrid-
ge y Göttingen bajo Bertrand Russel y David Hilbert. Sus tra-
bajos fueron variados y versan sobre el modelamiento ma-
temático del movimiento browniano, la fı́sica matemática (la
mecánica cuántica y la teorı́a relativista cuántica) e investiga-
ciones sobre la transmisión de la información. Sin embargo,
es más conocido por ser el padre de la cibernética. Fuente:
http://www.isss.org/lumwiener.htm
Existen conjuntos alternativos de suposiciones que conllevan al proceso de

Poisson. No obstante, las condiciones que dan origen a un proceso de Poisson se
verifican con mucha frecuencia- de ahı́ la enorme importancia de los procesos de
Poisson. Ejemplos de procesos de Poisson son: fallas de componentes eléctricos,
decaimiento de partı́culas radioactivas, llamadas recibidas en una central telefóni-
ca, etc.
Por último, mencionamos el proceso de Wiener, nombrado en honor a N. Wie-

ner, quien fue entre los primeros en considerar matemáticamente el fenómeno
del movimiento Browniano. El movimiento Browniano consiste en lo siguiente: una
partı́cula que inicialmente se encuentra en determinada posición (por definición se
asume X(0) = 0) es sometida a innumerables y continuos impactos en su entorno,
gracias a lo cual está en constante y perpetuo movimiento. El desplazamiento de
la partı́cula en un intervalo de tiempo (s,t), el cual es amplio comparado con el
tiempo medio entre impactos, puede ser considerado como la suma de un núme-
ro indeterminadamente grande de pequeños desplazamientos, por lo cual parece
razonable suponer, en virtud del Teorema Central del Lı́mite, que X(t) − X(s) es
normalmente distribuido. Más aún, es razonable suponer que los desplazamientos
en dos intervalos de tiempo de la misma longitud son idénticamente distribuidos,
ya que se supone que el entorno de la partı́cula esta en equilibrio. El hecho de
que el desplazamiento de la partı́cula se deba a impactos muy frecuentes e irre-
gulares se traduce matemáticamente estableciendo que los desplazamientos en
lapsos de tiempo no coincidentes son independientes entre sı́, ya que el número y
la magnitud de los impactos en cada intervalo de tiempo es independiente del otro
intervalo. En consecuencia, los incrementos del proceso de Movimiento Browniano
son independientes y estacionarios. Resumiendo, tenemos la siguiente definición
para el proceso de Wiener:
Definición (Proceso de Wiener). Un proceso estocástico de parámetro continuo

{X(t)|t ≥ 0} es un proceso de Wiener si:
(I) {X(t)|t ≥ 0} tiene incrementos estacionarios e independientes.
(II) Para cada t > 0, X(t) es normalmente distribuido.
(III) Para cada t > 0, E[X(t)] = 0.
(IV) X(0) = 0.
3.6. Problemas resueltos

Demostrar que si X e Y son variables aleatorias discretas e independientes tales
que X ∼ Binomial(m, p) e Y ∼ Binomial(n, p), entonces
n
X|X +Y = s ∼ Hipergeométrica n + m, s,
n+m
Solución
La suma X +Y de dos variables aleatorias binomiales e independientes es una va-
riable aleatoria binomial:
m n m+n
ϕX+Y (u) = ϕX (u)ϕY (u) = q + p eiu · q + p eiu = q + p eiu
Especı́ficamente, X + Y ∼ Binomial(n + m, p). Por lo tanto, la probabilidad condi-

cional P{X = s|X +Y = s} es:
P{X = s, X +Y = s} P{X = s,Y = s − x}

P{X = s|X +Y = s} = =
P{X +Y = s} P{X +Y = s}

n x n−x m
s−x n−(s−x)
pq p q
= x s−x
m+n s m+n−s
pq
n
s
= m
x m+n
s−x s
3.6. PROBLEMAS RESUELTOS 79
para x = 0, 1, . . . , m y s = 0, 1, . . . , m + n. Se evidencia entonces que
n
X|X +Y = s ∼ Hipergeométrica n + m, s,
n+m
como se querı́a demostrar.

Sea {X(t)|t ≥ 0} un proceso aleatorio con incrementos independientes y función
de valor medio mX (t) = E[X(t)] finita. Si 0 < t1 < . . . < tn < tn+1 , demuestre que
E[X(tn+1 )|X(t1 ), . . . , X(tn )] = X(tn ) + mX (tn+1 ) − mX (tn ).
Solución
Para este problema se utilizarán las seis propiedades de la esperanza condicional
(ver sección 3.2) y la independencia de los incrementos.
E[X(tn+1 )|X(t1 ), . . . , X(tn )]

= E[X(tn ) + X(tn+1 ) − X(tn )|X(t1 ), . . . , X(tn )] ➒ Propiedad 1
= E[X(tn )|X(t1 ), . . . , X(tn )]
+ E[X(tn+1 ) − X(tn )|X(t1 ), . . . , X(tn )] ➒ Propiedad 2
Por independencia
de los incrementos y
= X(tn ) + E[X(tn+1 ) − X(tn )] ➒ por las propiedades
5y6
= X(tn ) + mX (tn+1 ) − mX (tn )

Sea {Xn |n = 1, 2, . . .} una sucesión de variables aleatorias independientes con va-
lor medio mX (n) = E[Xn ] = 0 para todo n. Se define la sucesión {Sn |n = 1, 2, . . .}
como
n
Sn = ∑ Xi
i=1
Demuestre que {Sn |n = 1, 2, . . .} es una martingala.
Solución
Se pretende demostrar que E[Sn+1 |S1 = s1 , S2 = s2 , . . . , Sn = sn ] = sn . Teniendo en

cuenta la independencia de la sucesión {Xn |n = 1, 2, . . .} y que Sn+1 = Sn + Xn+1 ,
se puede escribir:
E[Sn+1 |S1 = s1 , S2 = s2 , . . . , Sn = sn ]
= E[Sn + Xn+1 |S1 = s1 , S2 = s2 , . . . , Sn = sn ] ➒ definición de Sn
= E[Sn |S1 = s1 , S2 = s2 , . . . , Sn = sn ]
+E[Xn+1 |S1 = s1 , S2 = s2 , . . . , Sn = sn ] ➒ Propiedad 1 de la esperanza
condicional
= sn + E[Xn+1 ] ➒ Propiedad 2; Propiedad 6
= sn + 0 = sn ➒ E[Xn ] = 0 para todo n
1. La Bella Durmiente, cuando duerme, se encuentra en una de estas tres po-

siciones:
a) De cúbito supino y las manos cruzadas sobre su pecho, viéndose bella

y radiante a los ojos del Prı́ncipe.
b) Boca abajo, roncando de manera muy sonora.
c) En posición fetal y chupándose el dedo gordo- bella sólo para el orto-
doncista.
A lo largo de la noche, cambia continuamente de posición de manera alea-

toria. ¿Qué clase de proceso estocástico es este en cuanto a su espacio de
estados y su espacio de parámetros?
2. Se coloca un termómetro en medio del desierto de Gobi para registrar la

temperatura durante las 24 horas del dı́a, todos los dı́as del año. ¿Qué cla-
se de proceso estocástico es este en cuanto a su espacio de estados y su
espacio de parámetros? ¿Dirı́a usted que este proceso es de incrementos
estacionarios? Explique.
3. Supóngase que pedidos de cantidades variables (N ) de artı́culos arriban dia-

riamente a un almacén según la siguiente distribución de probabilidades:
n 10 11 12 13 14 15
P(N = n) 0,05 0,15 0,30 0,30 0,15 0,05
La probabilidad de que un artı́culo en particular sea defectuoso es de 0,10 ,

independientemente de la presencia de defectos en los otros artı́culos. Cal-
cule el valor esperado de artı́culos X que se reciben en un dı́a.
4. Demuestre que si X e Y son variables aleatorias discretas e independientes

distribuidas según la ley de Poisson con parámetros λ1 y λ2 respectivamente,
entonces
λ1
X|X +Y = s ∼ Binomial s,
λ1 + λ2
5. Demuestre que si X ∼ Poisson(λ) y si Y |X = x ∼ Binomial(x, p), entonces
Y ∼ Poisson(λ p).
6. Demuestre que si X ∼ Geométrica(p), entonces P{X = m + n|X > m} =
P{X = n}. Esto confirmarı́a la propiedad de “falta de memoria” de la distri-
bución geométrica: la información que no hubo éxitos en m pruebas (X > m)
es olvidada si se realizan más pruebas (X = m + n).
7. De manera análoga al ejercicio anterior, demuestre que si T ∼ Exponencial(λ),

entonces P{T > m + n|T > m} = P{T > n} (propiedad de falta de memoria
de la exponencial).
8. Considérese el proceso aleatorio X(t) = At + B donde A es una variable

aleatoria que toma los valores 3 y 4 con probabilidades 14 y 34 , respectiva-
mente y B es una variable aleatoria con función de probabilidad P{B = 1} =
P{B = 2} = 12 . A y B son variables aleatorias independientes. Obtenga la
función de valor medio y el núcleo de covarianza del proceso aleatorio.
9. Sea X (t) = At + B un proceso aleatorio para el cual A y B son variables

aleatorias independientes, de esperanza cero y E[A2 ] = σ2A , E[B2 ] = σ2B ¿Es
{X(t)} un proceso estacionario?
10. Considere el proceso X(t) = A cos ωt + B sin ωt donde ω ∈ [0, 1], A y B
son variables aleatorias no correlacionadas, de esperanza 0 y varianza 1.
Demuestre que este proceso es débilmente estacionario.
11. Demuestre que los incrementos de una caminata aleatoria son independien-
tes y estacionarios.
12. Sea S0 = 0 y Sn = X1 + · · · + Xn , donde X1 , X2 , . . . son variables aleatorias

independientes con esperanza 0 y varianza σ2 (caminata aleatoria simétri-
ca). Calcule la función de valor medio y el núcleo de covarianzas del proceso
{Sn }.
13. Sea {Zn |n ∈ N} un proceso de ruido blanco con Zn ∼ Normal(µ = 1, σ = 2).

Encuentre las siguientes probabilidades:
a) P{Zi > 5}
b) P{−3 < Zi < 5}
c) P{Zi = 1}
14. Demuestre que el valor esperado de un incremento en una martingala es

necesariamente igual a cero.
15. (La cadena de Ehrenfest) Motivado por problemas relacionados con la mecáni-
ca estadı́stica T. Ehrenfest describió un experimento con 2 urnas, dentro de
las cuales están distribuidas N moléculas. En cada paso del experimento,
se escoge al azar una molécula, esta es removida de la urna en la cual se
encuentra y es colocada en la otra urna. Ası́, si se escoge una molécula de
la urna A, esta es removida de A y colocada en B y viceversa. El estado
del proceso está determinado por el número de moléculas presentes en la
urna A a cada paso del experimento. Justifique que el proceso estocástico
{Xn |n ∈ N} definido por Xn = cantidad de moléculas presentes en la urna A
al instante n, n ∈ N, es una cadena de Markov. Dé su espacio de estados.
16. Sea {Xn |n ∈ N} un proceso estocástico de parámetro discreto tal que X0 = 1,

0 < p < 1 y P{Xt+1 = Xt |Xt } = 1 − pXt .
Demuestre que {Xn |n ∈ N} es una cadena de Markov pero no una martin-
gala.
17. Demuestre que un proceso de ruido blanco con parámetro discreto tiene
incrementos independientes.
18. Determine las condiciones bajo las cuales un proceso de ruido blanco es una
martingala.
19. Determine las condiciones bajo las cuales una caminata aleatoria es una
martingala.
20. La martingala, como estrategia de apuestas, consiste en doblar la apuesta

si uno pierde y retirarse del juego cuando se gana. El jugador sigue esta
estrategia: apuesta inicialmente 1 unidad, luego 2, luego 4 y ası́ continua
doblando su apuesta hasta que gane. Supóngase que en cada jugada tiene
igual probabilidad de ganar o perder.
a) Modele la ganancia de un jugador que emplee esta estrategia plantean-

do un proceso estocástico y definiendo su espacio de estados.
b) Demuestre que el jugador siempre se retira del juego con una ganancia
de 1 unidad a su favor con probabilidad 1 (ie. casi siempre).
c) Explique por que no se permite esta estrategia de apuestas en los ca-
sinos modernos (i.e. el croupier se niega a recibir apuestas de aquellos
que aparentemente practican esta estrategia)
21. Escriba un programa en R que simule y represente una trayectoria de un

proceso de movimiento Browniano en dos dimensiones.
22. Considere el proceso determinista: xn = r · xn−1 (1 − xn−1 ), x0 = 0, 01. Me-

diante un programa en R, investigue el comportamiento a la larga de dicho
proceso (para valores de n grandes) utilizando valores para r de 2,7 3 y
3,5 respectivamente. Indique sus hallazgos y analice las implicaciones de
los mismos. (Este ejemplo de sistema caótico se debe a Robert May en su
estudio de crecimiento poblacional)
Unidad 4
Caminatas Aleatorias y
Movimiento Browniano
H OC ETIAM MAGIS HAEC ANIMUM TE ADVERTERE PAR EST

CORPORA QUAE IN SOLIS RADIIS TURBARE VIDENTUR ,
QUOD TALES TURBAE MOTUS QUOQUE MATERIAI
SIGNIFICANT CLANDESTINOS CAECOSQUE SUBESSE .
MULTA VIDEBIS ENIM PLAGIS IBI PERCITA CAECIS
COMMUTARE VIAM RETROQUE REPULSA REVERTI
NUNC HUC NUNC ILLUC IN CUNCTAS UNDIQUE PARTIS .
SCILICET HIC A PRINCIPIIS EST OMNIBUS ERROR .
PRIMA MOVENTUR ENIM PER SE PRIMORDIA RERUM ,
INDE EA QUAE PARVO SUNT CORPORA CONCILIATU
ET QUASI PROXIMA SUNT AD VIRIS PRINCIPIORUM ,
ICTIBUS ILLORUM CAECIS INPULSA CIENTUR ,
IPSAQUE PROPORRO PAULO MAIORA LACESSUNT.
SIC A PRINCIPIIS ASCENDIT MOTUS ET EXIT
PAULATIM NOSTROS AD SENSUS , UT MOVEANTUR
ILLA QUOQUE , IN SOLIS QUAE LUMINE CERNERE QUIMUS
NEC QUIBUS ID FACIANT PLAGIS APPARET APERTE .
U NA FLOR PARA EL DESIERTO

Ensamblaje en aluminio y acero - 1985 Lucretius (c. 94 - c. 49 A.C.)
Alejandro Otero D E RERVM NATURA , LIBER II, 125-141
85
86 UNIDAD 4. CAMINATAS ALEATORIAS Y MOVIMIENTO BROWNIANO
El objetivo general de esta Unidad es hacer una exposición de una familia de proce-
sos estocásticos denominados como caminata aleatoria. Ası́ mismo, se hace una
exposición del movimiento browniano y de su relación con la caminata aleatoria.
Al término de la misma, se quiere que el estudiante logre los siguientes objetivos
especı́ficos:
Definir los procesos de caminata aleatoria basados en procesos de Bernoulli,

identificar sus caracterı́sticas y aplicar esto a la solución de problemas.
Analizar el problema de la ruina del jugador en cuanto a la probabilidad de

ruina y la duración promedio del juego.
Definir los procesos de movimiento browniano, identificar sus caracterı́sticas

y relacionarlos con el problema de la ruina del jugador.
4.1. El proceso de Bernoulli
El proceso de Bernoulli es un proceso estocástico de parámetro discreto cuya

estructura es muy sencilla: en cada paso, se observa la ocurrencia o no ocurrencia
de un determinado evento cuya probabilidad se mantiene constante y el en cual ca-
da observación es independiente de todas las observaciones anteriores. El proceso
de Bernoulli es en efecto un proceso estocástico de tipo ruido blanco. Ejemplos de
procesos de Bernoulli son:
(a) Un inspector de calidad verifica si los productos de una lı́nea de ensamblaje son
defectuosos observando una secuencia de productos. Si el i-ésimo producto
es defectuoso, registra Xi = 1, de lo contrario anota Xi = 0 . Si los defectos
se deben a causas aleatorias de modo que la presencia de defectos en un
producto es independiente de la presencia de defectos en los otros productos,
y si además, la proporción p de artı́culos defectuosos se mantiene constante a
través de todas las observaciones, {Xi |i ≥ 1} es un proceso de Bernoulli.
4.2. LA CANTIDAD DE ÉXITOS 87
(b) Se monta una alcabala policial en un determinado punto y se paran a todos los
conductores que por ella transitan para verificar si portan armas, conducen un
vehı́culo robado o presentan alguna otra irregularidad. Bajo condiciones simila-
res a las del ejemplo anterior, si la probabilidad de que un conductor presente
alguna irregularidad es constante e independiente entre los conductores que
van transitando por la alcabala, la situación descrita se puede modelar adecua-
damente mediante un proceso de Bernoulli.
En todos estos casos, las variables constituyentes del proceso de Bernoulli re-
presentan experimentos aleatorios con dos posibles resultados- éxito o fracaso. En
un proceso de Bernoulli, las variables aleatorias constituyentes son idénticamen-
te distribuidas e independientes entre sı́. Este modelo estocástico básico da pié a
otros tipos de procesos estocásticos que se describirán a continuación.
4.2. La cantidad de éxitos. Caminatas aleatorias basadas

en procesos de Bernoulli.
Si en un proceso de Bernoulli {Xi |i ≥ 1} , observamos la cantidad de éxitos

ocurridos en el n-ésimo ensayo y los n − 1 ensayos anteriores, se define un nue-
vo proceso aleatorio que es una caminata aleatoria, pues lo que sucede en cada
observación se puede modelar mediante la secuencia aleatoria {Si |i ≥ 1} definida
como:
n
Sn = ∑ Xi (4.2.1)
i=1
En el capitulo anterior se sugirió que la caminata aleatoria es un proceso con

incrementos independientes y estacionarios (ver los problemas propuestos de ese
capitulo). Este hecho tiene algunas implicaciones importantes que serı́a convenien-
te resaltar:
A partir de un instante n dado, la cantidad de éxitos que se registren en los

próximos m ensayos de un proceso de Bernoulli (Sn+m − Sn ) es independien-
te de la cantidad de éxitos registrados en los n − 1 ensayos anteriores.
Por ser los incrementos estacionarios, la probabilidad de que en las próximas

m observaciones se tenga sm éxitos solo depende de m y es igual a la pro-
babilidad de que, observando desde el principio los m ensayos, se tenga sm
éxitos. Matemáticamente: P{Sn+m − Sn = sm |S1 = s1 , S2 = s2 , . . . , Sn = sn } =

P{Sm = sm }.
Además, por ser Sn definida como la suma de n incrementos no negativos

(los Xi son siempre iguales a 0 o a 1), Sn es una secuencia creciente. Por
ejemplo, no podrı́a ser cierto que, habiendo observado 5 éxitos en los prime-
ros 8 ensayos, tengamos 3 éxitos en los primeros 10 ensayos.
Podemos calcular el valor esperado y la varianza de Sn sin haber determinado

aún su distribución de probabilidad, pues valiéndonos de la definición de Sn como
una suma de n variables aleatorias independientes e idénticamente distribuidas
según la Ley de Bernoulli:
n n n
E[Sn ] = E ∑ Xi = ∑ E[Xi ] = ∑ p = np (4.2.2)
i=1 i=1 i=1
n n n
V [Sn ] = V ∑ Xi = ∑ V [Xi ] = ∑ pq = npq (4.2.3)
i=1 i=1 i=1
La ecuación (4.2.2) revela inmediatamente la función de valor medio para este

tipo de procesos. De hecho, para aclarar todo esto, vamos a simular en R una
trayectoria de esta caminata aleatoria basada en un proceso de Bernoulli:
1 # ----------------------------------------------------------------
2 # 4_1. R
3 # simulacion de una trayectoria de una caminata aleatoria
4 # basada en el numero de exitos en i ensayos de Bernoulli .
6 # fecha : 16/8/2011
7 # ----------------------------------------------------------------
8 pe <- 0.4 # pe es la probabilidad de exito en cada ensayo
9 b <- sample(size=15 ,c(0 ,1) ,prob=c(1 -pe,pe),replace=TRUE)
10 s <- c(0 ,cumsum(b))
11 tiempo <- 0:15
12 png(" bernoulli1 . png ")
13 plot(tiempo,s,type="s" ,xlab=" tiempo \n(i)" ,
14 ylab=expression(S[i]) ,lwd=6 ,axes=FALSE)
15 ejex <- 0:15
16 ejey <- 0:max(s)
17 axis(1 ,at=ejex,labels=ejex,pos=0)
18 axis(2 ,at=ejey,labels=ejey,pos=0)
19 # dibuja las lineas del reticulado
20 abline(v=1:15 ,lty=3 ,col=" black ")
4.2. LA CANTIDAD DE ÉXITOS 89
21 abline(h=1:max(s),lty=3 ,col=" black ")

22 # dibuja la curva de la funcion de valor medio
23 abline(a=0 ,b=pe,col=" darkgreen " ,lwd=2)
Esta simulación genera una trayectoria del proceso simular a la de la figura 4.1.
La lı́nea verde oscura representa la función de valor medio del proceso estocástico
y se verifica que la trayectoria (representada por las lı́neas negras tipo “escalera”)
se acercará, en promedio, a la curva de la función de valor medio. Observese que
primero se genera la trayectoria (simulada) de {Xi |1 ≤ i ≤ n} a la cual corresponde
el vector b (lı́nea 9 del script). Seguidamente, el vector s (trayectoria de {Si |1 ≤ i ≤
n} se genera mediante la función en R cumsum, la cual acumula progresivamente
los elementos del vector b (cumsum significa “suma acumulada”). Por supuesto,
S0 = 0 siempre.
Figura 4.1: Trayectoria generada por simulación de una caminata aleatoria basada en un proceso
de Bernoulli: cantidad de éxitos en el i-ésimo ensayo. La probabilidad de éxito es p = 0, 4 y la curva
verde se corresponde a la función de valor medio (mS (i) = 0, 4 · i)
El siguiente tema en nuestra ocupada agenda es determinar las respectivas

probabilidades P{Sm = s}, es decir, la distribución de probabilidad de los {Si |i ≥
1}. Existen diversas maneras de deducir esto, la vı́a más directa para nosotros
es recurrir a nuestro extenso conocimiento sobre las funciones caracterı́sticas. En
efecto, como los {Si |i ≥ 1} son esencialmente sumas de variables aleatorias de
tipo Bernoulli con igual parámetro p y mutuamente independientes, se tiene que:
n
ϕSn (u) = ϕX1 +X2 +...+Xn (u) = ϕXi (u)n = q + peiu
Esta función caracterı́stica se corresponde a la función caracterı́stica de una

Binomial con n ensayos. Con esto demostramos la siguiente proposición:
Proposición 4.1. Sea {Si |i ≥ 1} una caminata aleatoria basada en experimentos

de Bernoulli como aquella definida en la ecuación (4.2.1). La distribución de cada
Sn es binomial y se tiene que:

n s n−s
P{Sn = s} = p q , para 0 ≤ s ≤ n
s
En la práctica, la fórmula de la Proposición 4.1, en conjunción con las obser-

vaciones hechas anteriormente sobre la independencia y estacionariedad de los
incrementos son de mucha utilidad para el cálculo de probabilidades referentes a
los estados de una caminata aleatoria basada en el proceso de Bernoulli, tal como
se hace en algunos problemas resueltos que se plantearán posteriormente.
4.3. La cantidad de ensayos hasta r éxitos: más sobre las

caminatas aleatorias basadas en procesos de Ber-
noulli.
Si en una sucesión {Xi , i ≥ 1} de variables aleatorias independientese idéntica-

mente distribuidas según la ley de Bernoulli (un proceso de Bernoulli) nos referimos
a la cantidad de ensayos hasta ocurrir r éxitos (r es fijo), tenemos otros proceso
aleatorio basado en un proceso de Bernoulli en el cual la secuencia de variables
aleatorias representa los instantes o ensayos en los cuales ocurre los éxitos sucesi-
vos. Intentemos esquematizar esto matemáticamente. Si por ejemplo tenemos una
trayectoria de un proceso de Bernoulli como esta: x1 = 0, x2 = 0, x3 = 1, x4 = 0,
x5 = 1, . . . , la trayectoria del proceso que estamos definiendo serı́a t1 = 3, t2 = 5,
. . . , porque el primer éxito ocurre en el tercer ensayo y el segundo éxito ocurre al
quinto ensayo. De forma general, si {Ti |i ≥ 1} es el proceso que estamos definien-
do, entonces, en función de la secuencia aleatoria {Xk |k ≥ 1}, Ti (ω) será igual al
ı́ndice k de aquella secuencia donde ocurre el i-ésimo éxito.
¿Qué podemos decir sobre el comportamiento de esta secuencia aleatoria?

En primer lugar, debe ser una secuencia estrictamente creciente, porque el i-ési-
4.3. CANTIDAD DE ENSAYOS HASTA R ÉXITOS 91
mo éxito ocurre en el ensayo Ti , el siguiente éxito necesariamente ocurre después

y se tiene que Ti+1 > Ti para cualquier i. De modo intuitivo, constatamos que los
incrementos de este proceso son idependientes y estacionarios (esto se puede
demostrar). El razonamiento de ello es a grandes rasgos el siguiente: el mecanis-
mo subyacente que produce la secuencia {T j | j ≥ 1} es el proceso de Bernoulli
{Xi |i ≥ 1}, que es una sucesión de variables independientes cuyo parámetro p es
invariante en el tiempo. Además, si el incremento Ti+1 − Ti = n, con n > 0, es por-
que después del Ti -ésimo éxito ocurren n − 1 fracasos sucesivos, luego de los cua-
les ocurre el Ti+1 -ésimo éxito.La probabilidad de ello es qn−1 p. En otras palabras,
los incrementos se distribuyen según la ley de probabilidad geométrica. Tratemos
de esquematizar lo enunciado hasta ahora:
Proposición 4.2. Si {T j | j ≥ 1} representa un proceso estocástico que caracte-

riza el número de ensayos de Bernoulli hasta el j-ésimo éxito, entonces
P{Tk+1 − Tk = n|T1 , . . . , Tk } = P{Tk+1 − Tk = n} = qn−1 p
Esta proposición establece que los incrementos son estacionarios, ya que la

anterior probabilidad no depende de k. Además, lo dicho sobre la independencia
de los incrementos se vuelve a expresar en la siguiente proposición, que se da sin
demostración:
Proposición 4.3. Sea {T j | j ≥ 1} un proceso estocástico como en la Proposición

4.2, entonces, para k ∈ N + y n ≥ k, se tiene que:

0 si Tk ≥ n
P{Tk+1 = n|T1 , T2 , . . . , Tk } = P{Tk+1 = n|Tk } =
qn−1−Tk p si Tk < n
Esto además demuestra que el proceso estocástico {T j | j ≥ 1} goza de la pro-

piedad de Markov. Antes de proceder aclararemos de una vez que T0 = 0 porque
con el 0-ésimo éxito ocurre el 0-ésimo ensayo con probabilidad uno. Ahora surge
la pregunta: ¿Cómo se distribuyen los {T j , j ≥ 1}?. Si ha leı́do atentamente esta
exposición , muy probablemente ya lo haya adivinado:
Proposición 4.4. Sea {T j | j ≥ 1} un proceso estocástico como en la Proposición

4.2, entonces, se tiene que

n − 1 k n−k
P{Tk = n} = pq paran = k, k + 1, . . .
k−1
En lo anterior se establece que cada Tk en la secuencia aleatoria {T j | j ≥ 1} se

distribuye según la ley binomial negativa. Existen varias formas de demostrar esto,
la más expedita para nosotros es tomar en cuenta que este proceso es, después de
todo, una caminata aleatoria; cada variable Tk es una sumatoria de k incrementos
independientes e idénticamente distribuidos, es decir:
Tk = (Tk − Tk−1 ) + (Tk−1 − Tk−2 ) + ... + T1 − T0
Como damos por hecho que los incrementos se distribuyen según la misma ley
geométrica, entonces la función caracterı́stica de Tk es:
k
peiu
ϕTk (u) =
1 − qeiu
la cual corresponde a la función caracterı́stica de la binomial negativa y por lo tanto

(vease la Tabla 1.1 en la Unidad 1):
n−1

k−1 pk qn−k si n ≥ k
pTk (n) =
0 si n < k
Como en la sección precedente, vamos a simular trayectorias del proceso {Ti }

para afianzar el aprendizaje:
1 # ----------------------------------------------------------------
2 # 4_2. R
3 # simulacion de una trayectoria de una caminata aleatoria
4 # basada en el numero de ensayos de Bernoulli hasta alcanzar el
5 # i - esimo exito .
7 # fecha : 16/8/2011
8 # ----------------------------------------------------------------
9 pe <- 0.4 # pe es la probabilidad de exito en cada ensayo
10 b <- sample(size=20 ,c(0 ,1) ,prob=c(1 -pe,pe),replace=TRUE)
11 Ti <- c(0 ,which(b==1))
12 ensayo <- 0:(length(Ti) -1)
13 png(" bernoulli2 . png ")
14 plot(ensayo,Ti,type="S" ,xlab=" exito \n(i)" ,
15 ylab=expression(T[i] - ensayos),lwd=6 ,axes=FALSE)
16 ejex <- ensayo
17 ejey <- 0:max(Ti)
18 axis(1 ,at=ejex,labels=ejex,pos=0)
19 axis(2 ,at=ejey,labels=ejey,pos=0)
20 # dibuja las lineas del reticulado
21 abline(v=1:(length(Ti) -1) ,lty=3 ,col=" black ")
22 abline(h=1:max(Ti),lty=3 ,col=" black ")
4.4. PROBLEMAS RESUELTOS PARA LAS SECCIONES 4.1 - 4.3 93
23 # dibuja la curva de la funcion de valor medio

24 abline(a=0 ,b=1/pe,col=" darkgreen " ,lwd=2)
Como elemento novedoso en el script precedente, observamos la función de R

which, la cual devuelve un vector con los ı́ndices de los elementos que satisfacen
la expresión lógica en su argumento. En este caso, which devuelve los ı́ndices de
aquellos elementos de b donde observamos éxitos - se trata efectivamente de un
vector con los números de ensayos en los cuales se alcanzan los éxitos sucesivos.
Como en la simulación anterior, la lı́nea verde representa la curva de la función de
valor medio. La gráfica resultante se tiene en la figura 4.2.
Figura 4.2: Trayectoria generada por simulación de una caminata aleatoria basada en un proceso
de Bernoulli: cantidad de ensayos hasta el i-ésimo éxito. La probabilidad de éxito es p = 0, 4 y la
i
curva verde se corresponde a la función de valor medio (mS (i) = 0,4 )
4.4. Problemas resueltos para las secciones 4.1 - 4.3
Para reforzar el aprendizaje del contenido de las secciones 4.1 - 4.3 se plantean
los ejercicios a continuación. En lo que sigue, se asume que {Si |i ≥ 1} se refiere
a una caminata aleatoria basada en un proceso de Bernoulli con probabilidad de
éxito en cada ensayo igual a p y cuyas variables aleatorias Si se corresponden a la
cantidad de éxitos en i ensayos.

Calcule lo siguiente:
(a) P{S7 − S3 = 2}.
(b) P{S3 = 2, S5 = 4, S1 1 = 7}.
(c) P{S3 = 2, S5 = 4, S6 = 3}.
(d) E[S3 S5 ].
Solución
(a) En virtud de las observaciones en la página 87 y según la Proposición 4.1, se

tiene:

4 2 2
P{S7 − S3 = 2} = P{S4 = 2} = p q = 6p2 q2
2
(b)
P{S3 = 2, S5 = 4, S1 1 = 7} = P{S3 = 2, S5 − S3 = 2, S1 1 − S5 = 3}
Los incrementos en la probabilidad anterior son todos independientes entre sı́,

de modo que la expresión anterior es igual a:
P{S3 = 2} · P{S5 − S3 = 2} · P{S1 1 − S5 = 3}

= P{S3 = 2} · P{S2 = 2} · P{S6 = 3}

3 2 1 2 2 0 6 3 3
= p q p q p q
2 2 3
= 45p7 q4
Se entiende que las probabilidades en P{S3 = 2} · P{S2 = 2} · P{S6 = 3} se

refieren a variables Si consideradas por separado e independientes unas de
otras, es decir, S3 , S2 y S5 no se refieren a la misma trayectoria de la caminata
aleatoria.
4.4. PROBLEMAS RESUELTOS PARA LAS SECCIONES 4.1 - 4.3 95
(c) De igual forma que en el problema anterior:
P{S3 = 2, S5 = 4, S6 = 3} = P{S3 = 2} · P{S2 = 2} · P{S1 = −1}
Pero la probabilidad P{S1 = −1} en la expresión anterior es igual a cero, por-

que los incrementos en una caminata aleatoria basada en un proceso de Ber-
noulli siempre son positivos. Por lo tanto, la probabilidad P{S3 = 2, S5 = 4, S6 =
3} es igual a cero.
(d) E[S3 S5 ] = E[S3 · (S3 + S5 − S3 )] = E[S3 S3 ] + E[S3 (S5 − S3 )]. Pero por la inde-
pendencia de los incrementos, la expresión anterior es equivalente a:
E[S3 S3 ] + E[S3 (S5 − S3 )] = V [S3 ] + E 2 [S3 ] + E[S3 ] · E[S5 − S3]

= 3pq + (3p)2 + 3p · 2p = 3pq + 15p2
Para los siguientes problemas resueltos, referentes a la sección 4.3, se asume

que {T j | j ≥ 1} caracteriza a los tiempos (número de ensayos) hasta los respec-
tivos j-ésimos éxitos, donde cada ensayo se basa en un proceso de Bernoulli con
probabilidad de éxito igual a p.

Calcular lo siguiente:
(a) P{T2 = 3, T3 = 6}.
(b) E[T6 |T1 , T2 , T3 ].
Solución
(a)
P{T2 = 3, T3 = 6} = P{T2 = 3, T3 − T2 = 3} = P{T2 = 3} · P{T3 − T2 = 3}

3 − 1 2 3−2 3−1
= p q · q p = 2p3 q3
2−1
Tengamos en cuenta que T2 es binomial negativa y T3 −T2 es geométricamente
distribuida.
(b) En lo sucesivo téngase en cuenta las propiedades 1 a 6 de la esperanza con-

dicional que aparecen en la sección 3.2:
E[T6 |T1 , T2 , T3 ] = E[T6 |T3 ] ➒ propiedad de Markov de {T j | j ≥ 1}
= E[T6 − T3 + T3 |T3 ]
propiedad 1 de la esperanza condicional
= E[T6 − T3 |T3 ] + E[T3 |T3 ] ➒ (linealidad)
= E[T6 − T3 ] + T3 ➒ Proposición 4.2 y propiedad 2
3
= + T3 ➒ T6 − T3 es binom. negativa con r = 3
p
4.5. La ruina del jugador
Consideremos un juego donde en cada apuesta, un jugador gana un BF con

probabilidad p y pierde un BF con probabilidad 1 − p. Claramente, la fortuna del
jugador luego de n apuestas se puede modelar mediante una caminata aleatoria
{Fn |n ∈ N}, donde
n
Fn = ∑ Xi
i=0
es la suma de n + 1 variables aleatorias independientes e idénticamente distribui-

das, teniéndose que X0 = x es la fortuna inicial del jugador (antes de apostar) y
los Xi sucesivos son los incrementos en BF luego de la respectiva apuesta, cuya
distribución de probabilidad viene dada por:
P{Xi = 1} = p y P{Xi = −1} = 1 − p = q
Supóngase además que el jugador, partiendo de un capital inicial x, juega con-

tra un adversario que dispone de un capital y (el adversario puede ser la “casa” u
otro jugador), de modo que en cada partida, si el jugador gana 1 BF, el adversario
pierde la misma cantidad y vice-versa. Para colocar las cosas más en perspectiva,
entre el jugador y la casa, siempre hay un capital total de T = x + y BF, por ser
la sumatoria de la ganancia de los participantes igual a cero (en términos de la
4.5. LA RUINA DEL JUGADOR 97
Teorı́a de Juegos, se trata de un juego de suma cero1 . Asumamos que este juego
de suma cero termina cuando alguno de los participantes se arruina, lo cual ocurre
cuando la fortuna del jugador alcanza los T BF, en cuyo caso se arruinó la casa, o
la fortuna del jugador llega a 0 BF, en cuyo caso se arruinó él. Los estados 0 y T
de la fortuna del jugador se denominan barreras absorbentes , porque una vez que
la trayectoria toca alguno de esos estados, jamás sale de ellos.
Una pregunta interesante en torno a este juego es la siguiente: partiendo de

un capital inicial de x BF, ¿cual es la probabilidad de que el jugador se arruine?
Esta pregunta constituye el problema de la ruina del jugador . Para abordar este
problema, comencemos por la siguiente definición:
Definición (Probabilidad de ruina del jugador Rx ). Sea Rx la probabilidad de ruina

del jugador partiendo de un capital inicial x siendo 1 ≤ x ≤ T − 1. Además, se
define R0 = 1 y RT = 0.
Rx es lo que se quiere hallar y establecemos la siguiente relación:
Rx = pRx+1 + qRx−1 (4.5.1)
Dicha relación se motiva en el siguiente razonamiento: si la fortuna del jugador

es x, luego de un turno, habrá ganado 1 BF con probabilidad p (en cuyo caso
su fortuna será de x + 1) o habrá perdido 1 BF con probabilidad q (en cuyo caso
continua el juego con x − 1 BF). Si lo anterior no es lo suficientemente claro aún,
definamos Rx como una probabilidad condicional y procedamos simbólicamente:
• Rx = P (ruina|{Fn = x}) para algún n (4.5.2)

• {Xn+1 = 1}, {Xn+1 = −1} son eventos mutuamente dis-
juntos y complementarios: forman una partición de Ω.
Luego:
1
Los juegos en los que los intereses de los jugadores son diametralmente opuestos se llaman de
suma cero. El término “suma cero” se deriva de los juegos de salón tales como el poker en el que la
riqueza ni se crea ni se destruye. Ası́ pues, un jugador gana dinero siempre a expensas de los otros
jugadores. Para ampliar más sobre la teorı́a de juegos, ver Davis (1971), p. 28.

P ruina ∩ {Fn = x}

= P ruina ∩ {Fn = x} ∩ {Xn+1 = 1} ∪ {Xn+1 = −1}

= P ruina ∩ {Fn = x} ∩ {Xn+1 = 1}

+ P ruina ∩ {Fn = x} ∩ {Xn+1 = −1}
Por otro lado, utilizando en la ecuación precedente la definición de la probabilidad

condicional, que establece que P{A ∩ B} = P{A|B}P{B}, se tiene

P ruina{Fn = x} · P{Fn = x} (4.5.3)

= P ruina {Fn = x} ∩ {Xn+1 = 1} · P {Fn = x} ∩ {Xn+1 = 1}

+ P ruina{Fn = x} ∩ {Xn+1 = −1} · P {Fn = x} ∩ {Xn+1 = −1}

= P ruina{Fn = x} ∩ {Xn+1 = 1} P{Fn = x}P{Xn+1 = 1}

+ P ruina{Fn = X} ∩ {Xn+1 = −1} P{Fn = x}P{Xn+1 = −1}
La última igualdad en (4.5.3) se debe a la independencia entre Xn+1 y Fn . Aunado

a eso:
• {Fn = x} ∩ {Xn+1 = 1} = {Fn+1 = x + 1}

• {Fn = x} ∩ {Xn+1 = −1} = {Fn+1 = x − 1}
Las ecuaciones precedentes se conjugan con la expresión simbólica para la pro-

babilidad de ruina (ecuación (4.5.2)), obteniendo:

• P ruina

{Fn = x} ∩ {Xn+1 = 1}

= P ruina{Fn+1 = x + 1} = Rx+1
(4.5.4)
• P ruina

{Fn = x} ∩ {Xn+1 = −1}

= P ruina{Fn+1 = x − 1} = Rx−1
Por lo tanto, eliminando el factor común P{Fn = x} de ambos lados de la ecuación

(4.5.3), sustituyendo las expresiones de las ecuaciones (4.5.4) en (4.5.3) y las defi-
niciones respectivas de p y q, se concluye que Rx = pRx+1 + qRx−1 , demostrando
ası́ la validez de la fórmula recursiva dada en (4.5.1).
Ecuaciones como la (4.5.1) se denominan ecuaciones en diferencias , sobre

las cuales es oportuno hacer una breve digresión. Las ecuaciones en diferencias
se refieren a ecuaciones que involucran secuencias, o funciones definidas para
valores enteros. Si una secuencia an está definida explı́citamente en función de su
argumento entero n, determinar su valor en n es un asunto trivial. Sin embargo, a
veces las secuencias se definen de forma recursiva, relacionando an con términos
anteriores como an−1 en la misma ecuación. Por ejemplo, la siguiente ecuación
an = α · an−1 + β (4.5.5)
es una ecuación en diferencias lineal de primer orden y generaliza las denomina-

das progresiones aritméticas/geométricas que el estudiante seguramente vio en
bachillerato. Obsérvese además el parecido de esta terminologı́a con la termino-
logı́a de las ecuaciones diferenciales, que también se clasifican según su orden y
según la linealidad. Si le interesa profundizar más sobre este tema puedes con-
sultar la bibliografı́a anexa2 . Por lo demás, se recomienda resolver los problemas
propuestos correspondientes (problemas propuestos N° 6 y 8) al final de este ca-
pitulo referentes a la solución de la ecuación (4.5.5), que es el resultado que se
utilizará seguidamente.
Retomando el problema de la ruina del jugador, se puede expresar la ecuación

(4.5.1) de la probabilidad de ruina, que es una ecuación en diferencias lineal de
segundo orden, como una ecuación en diferencias lineal de primer orden. Teniendo
en cuenta que p + q = 1, tenemos
q
Rx+1 − Rx = (Rx − Rx−1 ) (4.5.6)
p
A partir de la ecuación de arriba y mediante la formula de sucesión an = r · an−1

hallada en el problema propuesto N° 5, es fácil comprobar que
x−1
q
Rx − Rx−1 = (R1 − R0 )
p
Con respecto a este resultado, se observan dos inconvenientes: 1) todavı́a se

desconoce R1 y 2) Podrı́amos resolver la ecuación en diferencias resultante, pero el
término al lado derecho de la ecuación anterior depende de x (no es una constante
β). Para solventar esta situación utilizamos la propiedad telescópica de las series:
2
Ver NEUMAN.
T x−1
T
q
RT − R0 = ∑ Rx − Rx−1 = ∑ (R1 − R0 )
x=1 x=1 p
El panorama tiende a aclararse porque R0 y RT son conocidos: R0 = 1 y RT = 0.

Por lo tanto
T −1 x
q
−1 = RT − R0 = (R1 − R0 ) ∑ p
x=0
A partir de la ecuación precedente, y según el valor de p, se tiene:
1
Si p = q = 12 (R1 − R0 ) = − (4.5.7a)
T
1 − qp
Si p 6= q (R1 − R0 ) = T (4.5.7b)
q
p −1
La última equación ((4.5.7b)) se deduce de la serie ∑ni=0 xi (ver problema propuesto

N° 7). Para calcular en definitiva el valor de la probabilidad de ruina, volvemos a
emplear la propiedad telescópica de las sumas, pero esta vez con miras a hallar Rx
:
x i−1
x
q
Rx − R0 = ∑ Ri − Ri−1 = ∑ (R1 − R0 ) →
i=1 i=1 p
x i−1 x−1 i
q q
Rx = R0 + ∑ (R1 − R0 ) = 1 + (R1 − R0 ) ∑
i=1 p i=0 p
Nuevamente, ya que la expresión R1 − R0 depende de la igualdad de p y q, según

se tiene en las ecuaciones (4.5.7), se tiene:
1 x T −x
Si p = q = , Rx = 1 − = (4.5.8a)
2 T T
x T x
1 − qp q
p − qp
Si p 6= q, R x = 1 + T = T (4.5.8b)
q q
p −1 p −1
La deducción de las ecuaciones (4.5.8a) y (4.5.8b) quizás parezca un tanto

tortuosa. Nuevamente, aunque la simulación no sea un sucedáneo del todo equi-
valente a deducir este tipo de resultados analı́ticamente, nos ayuda a confirmar la
validez del los resultados anteriores. Planteamos en lenguaje R un programa para
simular la probabilidad de ruina de un jugador con un capital inicial entre 0 y 10,
para distintas probabilidades p de ganar en cada turno:
1 # ----------------------------------------------------------------
2 # 4_3. R
3 # probabilidad de la ruina de un jugador
5 # fecha :29/7/2007
6 # ----------------------------------------------------------------
7 # Ruina : funcion que arroja 1 si el resultado de una caminata
8 # aleatoria es la ruina , 0 en caso contrario .
9 # argumentos :
10 # x= capital inicial del jugador ,
11 # T= capital total
12 # p= probabilidad de ganar 1 en cada turno
13 Ruina <- function (x,T,p) {
14 j <- x # asigna capital inicial
15 while (j %in % 1:(T-1))
16 j <- j + sample(c( -1 ,1) ,1 ,replace=TRUE,c(1 -p,p))
17 if (j==0) return(1) else return(0)
18 }
19
20 # Probabilidad_ruina : funcion que arroja la probabilidad de

21 # ruina para :
22 # x= capital inicial del jugador
23 # T= capital total
24 # p= probabilidad de ganar 1 en cada turno
25 Probabilidad_ruina <- function (x,T,p) {
26 cnt <- replicate(1000 ,Ruina(x,T,p))
27 return(mean(cnt))
28 }
29 # Vector_empirico : funcion que arroja un vector correspondiente
30 # a las probabilidades de ruina para cada capital inicial entre

31 # 0 y T
32 Vector_empirico <- function (T,p) {
33 X <- sapply(0:T,function(x) Probabilidad_ruina(x,T=T,p=p))
34 return(X)
35 }
36
37 # Vector_teorico : funcion que arroja un vector correspondiente

38 # a las probabilidades ( teoricas ) de ruina para cada capital
39 # entre 0 y T
40 Vector_teorico <- function (T,p) {
41 ro <- (1 -p)/p
42 X <- sapply(0:T,
43 function(x)
44 if (p==0.5) (T-x)/T
45 else (roˆx-roˆT)/(1 -roˆT)
46 )
47 return(X)
48 }
49 # Graficar
50 # genera la grafica de comparacion
51 Graficar <- function(T,p) {
52 plot(x=c(0:T,0:T),
53 y=c(Vector_teorico(T,p),Vector_empirico(T,p)) ,
54 xlab=" capital inicial " ,ylab=" probabilidad de ruina " ,
55 main=paste("T=" ,T," p=" ,p),
56 type="p" ,
57 pch=19 ,
58 col=c(rep(" red " ,times=T+1) ,rep(" blue " ,times=T+1))
59 )
60 if (p<=0.5) {xleyenda=2; yleyenda=0.3}
61 else {xleyenda=6; yleyenda=0.5}
62 legend(x=xleyenda,y=yleyenda,
63 fill=c(" red " ," blue "),
64 legend=c(" teorica " ," empirica " ))
65 }
66
67 # A continuacion se generan dos graficos para distintos valores

68 # de p , exportandolos a archivos . png
69 png(file=" ruina %02d. png ")
70 Graficar(10 ,0.5)
71 Graficar(10 ,0.6)
En el script 4 3.R hay algunos elementos interesantes que vale la pena ex-
plicar en más detalle. Primeramente, se dan ejemplos de cómo definir funciones
mediante el operador de asignación (<-) y la palabra reservada function seguida
de los argumentos formales entre paréntesis y un conjunto de expresiones ence-
rradas entre corchetes ({}). El valor que retornará la función será equivalente a
la última expresión del grupo de expresiones entre corchetes o aquél que se indi-
que mediante el return. Las funciones replicate (lı́nea 26) y sapply (lı́nea 33
y lı́neas 42-46) son caracterı́sticas de la programación funcional y junto con otras
funciones como lapply, tapply, mapply, Vectorize y otras afines, aplican la
función dada en su argumento a través de todos los elementos de una estructura
de datos compuesta (vector, lista, etc.) proporcionada como argumento. La prime-
ra, replicate, se invoca con dos argumentos: replicate(n,expr). La función
entonces evalúa la expresión indicada por expr n veces y devuelve un vector de
longitud n cuyos componentes son el resultado de la evaluación reiterada de expr.
El uso de replicate es mucho más eficiente que emplear un for e ir concatenan-
do progresivamente las expresiones a un vector mediante llamadas a c en cada
ciclo del for. La función sapply(X,FUN) aplica la función proporcionada como ar-
gumento FUN a cada elemento del vector X, devolviendo un vector de igual longitud
que X. Nótese que la función FUN se puede definir ad hoc, como se muestra en las
lı́neas 33 y 43-45.
Figura 4.3: Probabilidades de ruina para distintos capitales iniciales. El capital total
es T = 10 y la probabilidad de ganar 1 BF en cada turno es p = 0,5
Figura 4.4: Probabilidades de ruina para distintos capitales iniciales. El capital total
es T = 10 y la probabilidad de ganar 1 BF en cada turno es p = 0,6
Se muestran mediante las figuras 4.3 y 4.4 gráficas en donde se comparan

las probabilidades de ruina halladas mediante simulación y mediante las formulas
(4.5.8a) y (4.5.8b), respectivamente. La primera gráfica (Fig, 4.3 corresponde a las
probabilidades de ruina para distintos niveles de capital inicial (entre 0 y 10) con
una probabilidad p = 0, 5 de ganar en cada turno. En este caso, la fórmula de la
probabilidad de ruina que aplica es la (4.5.8a). La segunda gráfica es similar pero
con un valor p = 0, 6. La fórmula que aplica es en este caso la (4.5.8b).
4.6. Duración promedio del juego y otras consideracio-

nes sobre el problema de la ruina del jugador
Pueden hacerse otras preguntas en torno al juego descrito en la sección ante-

rior. Una de ellas es: ¿Cuántos turnos dura, en promedio, el juego? Recordemos
que el juego termina cuando alguno de los jugadores se arruina (el jugador o la
casa). Si el capital total es finito, supondremos que el juego siempre terminará en
4.6. DURACIÓN PROMEDIO DEL JUEGO 105
una cantidad finita de partidas, aún cuando es posible concebir, por ejemplo, una
trayectoria del juego donde las partidas resulten +1,-1,+1,-1, ad infinitum. La finitud
de la duración del juego no es algo que se pretende demostrar formalmente aquı́-
el autor solo se limita a señalar la evidencia empı́rica: el programa de la simula-
ción en R anterior, en donde se simulan series de 1000 partidas para cada nivel
de capital inicial del jugador, eventualmente termina. Quizás a modo de apologı́a,
téngase en cuenta además que uno de los objetivos básicos que nos trazamos en
este curso es el de complementar la verificación formal con la verificación empı́rica
(la simulación), o valerse de la investigación empı́rica para inferir hechos que no se
está en capacidad de demostrar formalmente.
Volviendo a la pregunta que planteamos en esta sección: ¿Cuál es la duración

promedio del juego?, debemos especificar aún más: ¿Cuál es la duración promedio
del juego, partiendo de un capital inicial X ? Si, como en la sección anterior, el
jugador tiene un capital inicial de X y su oponente un capital inicial de Y , y entre
los dos un capital total T = X +Y que no se altera, sabemos que el juego termina
cuando el capital del jugador sea 0 o T . Podemos ahora responder parcialmente
la pregunta: la duración del juego partiendo de un capital inicial de 0 o de T es
igual a cero. Partiendo de cualquier suma de dinero distinta entre 0 y T , el juego
puede durar una cantidad aleatoria e indeterminada de partidas. Denotemos por TX
duración del juego partiendo de un capital X y aclaremos desde ya que TX no es un
proceso estocástico - es una variable aleatoria que resume un aspecto del juego,
visto éste como una trayectoria de un proceso estocástico. Estamos interesados en
determinar el promedio de la duración del juego, es decir, nos interesa hallar:
Dx = E[Tx ]
A tal fin, vamos a proceder como lo hicimos en la sección anterior, partiendo de

la siguiente ecuación en diferencias:
Dx = pDx+1 + qDx−1 + 1 para 0 < x < T, con D0 = DT = 0 (4.6.1)
Las condiciones de extremos en la expresión (4.6.1) son simplemente la formu-

lación matemática de lo dicho anteriormente sobre un juego en donde el jugador
comienza con un capital de 0 o T . Nos interesa más bien entender en que se ba-
sa la ecuación (4.6.1) en sı́. La clave de este asunto es escindir el juego en dos
etapas:
1. La variable X1 que pudiendo valer +1 o -1 representa el resultado para el

jugador del primer turno y
2. El resto del juego.
Partiendo de un capital inicial x, si en el primer turno el jugador gana 1, el

resto del juego continua como si se partiera de un capital inicial de x + 1. Si por el
contrario el jugador pierde 1 en el primer turno, debe continuar con un capital de
x − 1. En ambos casos, como ha transcurrido un turno se adiciona en uno la cuenta
de turnos y por lo tanto las esperanzas condicionales de Tx dado el resultado X1
del primer turno son:
E[Tx |X1 = +1] = Dx+1 + 1

(4.6.2)
E[Tx |X1 = −1] = Dx−1 + 1
Las ecuaciones en (4.6.2) se utilizan ahora en el desarrollo de la ecuación

(4.6.1):
Dx = E[Tx ] = ∑ bP{Tx = b} =
b
= ∑ b(P{Tx = b ∩ X1 = +1} + P{Tx = b ∩ X1 = +1}) =
b
= ∑ b(pP{Tx = b|X1 = +1} + qP{Tx = b|X1 = −1}) =
b
= p ∑ bP{Tx = b|X1 = +1} + q · ∑ bP{Tx = b|X1 = −1} =
b b
= pE[Tx |X1 = +1] + qE[Tx |X1 = −1] =
= p(Dx+1 + 1) + q(Dx−1 + 1) =
= pDx+1 + qDx−1 + 1 (4.6.3)
La demostración anterior ((4.6.3)) representa la jusificacion de la Ecuacion

(4.6.1). Habiendo fundamentado la ecuación (4.6.1), procederemos a resolverla de
la misma forma que lo hicimos con la probabilidad de ruina en la sección anterior
(ver páginas 97-101), transformándola primero a una forma más amena:
q 1
Dx+1 − Dx = (Dx − Dx−1 ) − (4.6.4)
p p
4.6. DURACIÓN PROMEDIO DEL JUEGO 107
Esta forma se parece mucho a la ecuación (4.5.6), salvo por el sumando de c,

lo cual conlleva a abordarla mediante una ecuación en diferencias finitas como la
(4.5.5) (ver problema propuesto Nro 6). Desde el principio señalamos que deben
considerarse dos casos: p = q y p 6= q . Entonces se tiene:
para p 6= q:
x
x 1 − qp
q
Dx+1 − Dx = p (D1 − D0 ) −
p 1 − qp
x
q
x 1− p
q
= p (D1 − D0 ) − (4.6.5a)
p−q
y para p = q:
x
Dx+1 − Dx = (D1 − D0 ) − = (D1 − D0 ) − 2x (4.6.5b)
p
Vamos a abordar primero el caso en que p 6= q , que parece ser el más sencillo
(modo irónico on). Como en el problema de la ruina del jugador, no conocemos
D1 − D0 , pero sustituyendo la expresión para Dx+1 − Dx hallada en el desarrollo
anterior nos permitirá a su vez hallar D1 − D0 :
T −1
0 = DT − D0 = ∑ Dk+1 − Dk
k=0
k
q
T −1 k 1− p
q
= ∑ p (D1 − D0 ) −
p−q
=⇒
k=0
T −1
T 1 k
q
p−q
= D1 − D0 + ∑
p − q k=0 p

1− q T
1 p
= D1 − D0 + =⇒
p−q 1 − qp
T 1
D1 − D0 = T − p − q
p 1 − qp
Teniendo D1 − D0 , se desarrolla Dx por series telescópicas según la fórmula

(4.6.5a):
k
q
x−1 x−1 k 1− p
q
Dx = Dx − D0 = ∑ Dk+1 − Dk = ∑ p (D1 − D0 ) −
p−q
k=0 k=0
x−1
k
−x 1 q
=
p−q
+ D1 − D0 + ∑ p
p − q k=0
  x
q
 T  1 − p x
= T  q −
 1 − p − q
p 1 − qp p
x
T 1 − qp x
= T − p − q (4.6.6a)
(p − q) 1 − qp
La ecuación(4.6.6a) permite calcular la duración promedio del juego partien-

do de un capital x y en el caso p 6= q . A riesgo de parecer repetitivos, vamos a
calcular seguidamente la duración promedio del juego en el caso p = q . Primero
obtenemos la fórmula para D1 − D0 :
T −1
0 = DT − D0 = ∑ Dk+1 − Dk
k=0
T −1
= ∑ (D1 − D0 ) − 2k = T (D1 − D0 ) − T (T − 1) =⇒
k=0
D1 − D0 = T − 1
y sustituyendo esta expresión en la fórmula (4.6.5b) desarrollada en series te-

lescópicas:
4.7. OTRAS CARACTERÍSTICAS DE LAS CAMINATAS ALEATORIAS 109
x−1 x−1
Dx = Dx − D0 = ∑ Dk+1 − Dk = ∑ (D1 − D0 − 2k)
k=0 k=0
x−1
= ∑ (T − 1 − 2k)
k=0
= x(T − 1) − x(x − 1) = x(T − x) (4.6.6b)
Si le interesa ver una forma alternativa de deducir las formulas para la duración
promedio del juego o la probabilidad de ruina del jugador, puede consultar el libro
de la UNA3 . También es posible deducir estas fórmulas mediante los métodos de
resolución de ecuaciones en diferencias de segundo orden. En lo tangente a las
fórmulas (4.6.6a) y (4.6.6b), se deja al lector como ejercicio la verificación empı́rica
mediante una simulación en lenguaje R (ver problema propuesto N° 16).
4.7. Otras caracterı́sticas de las caminatas aleatorias
Los cálculos de la probabilidad de ruina del jugador y de la duración prome-

dio del juego realizados en la secciones anteriores parecieran no ser de mucho
interés práctico si se consideran estrictamente en el contexto literal y especı́fico de
la fluctuación del capital de un jugador apostando una unidad monetaria en cada
turno. Sin embargo, son después de todo caracterı́sticas de un grupo de fenómenos
dinámicos denominados como caminatas aleatorias, las cuales como se ha dicho
son procesos estocásticos en donde el estado de una partı́cula (capital, precio de
una acción, posición o distancia al origen, etc.) sufre incrementos o decrementos
unitarios de forma aleatoria. En este contexto más amplio, hablar de la probabili-
dad de ruina es referirse a la probabilidad con la que una partı́cula efectuando una
caminata aleatoria alcanza una barrera absorbente en vez de la otra y “termina el
juego”. Hablar de la duración promedio del juego es referirse a la cantidad prome-
dio de desplazamientos de una caminata aleatoria hasta que la partı́cula alcance
alguna de las dos barreras absorbentes.
Es oportuno señalar que algunos autores definen caminata aleatoria (o random

walk) de un modo más estricto que la caracterización que se ha dado aquı́ del
concepto. Según estos autores, una caminata aleatoria es una trayectoria en el
espacio para la cual:
3
Ver Ortega, J. (1995), secciones 14 y 15.
Hay un punto de partida, que es el origen.
Los pasos son de longitud constante.
La dirección en que se toma cada paso es aleatoria: ninguna dirección es

más probable que las otras.
Decimos que esta caracterización es más estricta porque se asume que la

dirección de cada paso de la caminata aleatoria es equiprobable. En el problema
de la probabilidad de ruina del jugador o la duración promedio del juego, los cuales
se dan en el contexto de una caminata aleatoria unidimensional, hemos asumido el
caso general bajo el cual las dos direcciones de cada paso no son necesariamente
equiprobables. Sin embargo, como en la definición alternativa, hemos asumido que
los pasos son de longitud constante (y unitaria). Para modelar la caminata aleatoria
de algunos de los fenómenos dados como ejemplos en el párrafo inicial de esta
sección, debemos de relajar un poco la condición de “pasos de longitud constante
y unitaria” y generalizarla para incluir la posibilidad de que la longitud de los pasos
no sea constante, sino aleatoria también. Esto lo haremos seguidamente en este
capitulo al referirnos a los procesos de Wiener o de movimiento browniano.
(a) (b)
Figura 4.5: Dos ejemplos de simulación de caminatas aleatorias bidimensionales

realizadas en R.
Antes de referirnos al movimiento browniano en la siguiente sección, vamos

a considerar someramente las caminatas aleatorias en espacios con más de una
4.7. OTRAS CARACTERÍSTICAS DE LAS CAMINATAS ALEATORIAS 111
dimensión. A fin de motivar algunas preguntas en torno a caminatas aleatorias de

dimensionalidad mayor que uno incluimos unos ejemplos gráficos de simulación
de caminatas aleatorias bidimensionales en la figura 4.5. En estas simulaciones,
la cantidad de pasos es n = 100000. El punto de partida en el origen y el punto
final, al cabo de n pasos se señalan en la figura 4.5 mediante un punto verde y
un punto rojo respectivamente. Los pasos son de longitud unitaria y de direcciones
equiprobables en cada eje (X y Y).
El lector con un poco de “curiosidad cientı́fica” puede, al observar estas gráfi-

cas, plantearse algunas preguntas como las siguientes:
Para tales caminatas aleatorias de dimensión 2 y con direcciones de paso

equiprobables, ¿cual es la distribución de probabilidad de la distancia máxi-
ma desde el origen alcanzada en n pasos?
¿Cual es el la distancia máxima al origen promedio en caminatas aleatorias

de n pasos?
¿Cual es la probabilidad de un eventual retorno al origen en n pasos?
El abordaje analı́tico de las preguntas antecedentes requiere de un mayor nivel

matemático que el utilizado en este libro. El lector interesado en ampliar sobre esto
puede consultar el Capı́tulo 12 sobre caminatas aleatorias en el libro “Introduc-
tion to Probability” de Grinstead y Snell o el libro de “An Introduction to Probability
Theory and Its Applications - Volume I” de Feller. Por cierto, en el primero de es-
tos libros se expone un resultado interesante que vamos a dar seguidamente sin
demostración:
Si no hay barreras absorbentes en una caminata aleatoria, la probabi-

lidad de retornar al punto de origen en una caminata aleatoria de una
o dos dimensiones es uno. En cambio, en tres dimensiones, la pro-
babilidad de un retorno eventual al punto de partida es estrictamente
menor que uno - es de hecho aproximadamente igual a 0,654 .
El resultado anterior responde una de las preguntas planteadas anteriormen-

te. Se invita al lector a investigar las respuestas a las otras preguntas mediante
simulaciones estocásticas.
4
Grinstead, C. (1997), pp. 475-478.
Figura 4.6: Robert Brown (1773-1858)
Robert Brown fue un cientı́fico botánico escocés, conocido por re-

colectar la flora australiana y autor de nombramiento de unas 1200
especies de Australia occidental. En 1827, examinando granos de
polen y esporas de musgos, observa diminutas partı́culas ejecutan-
do un movimiento aleatorio. Posteriores experimentos confirmaron
que este movimiento no se debı́a al animismo o a corrientes exter-
nas de aire o fluidos, aunque Brown pudo determinar la causa del
fenómeno que lleva su nombre. Fuente: http://es.wikipedia.
org/wiki/Robert_Brown
4.8. Movimiento browniano
El término movimiento browniano se debe a Robert Brown (ver figura 4.6),

un cientı́fico botánico escoces. Si bien Robert Brown no fue quien descubrió el
fenómeno que lleva su nombre, fue él el primero en observarlo detalladamente por
medio del método cientı́fico. En un manuscrito que relata estas investigaciones5 ,
Robert Brown (1828), luego de efectuar minuciosamente varios experimentos que
involucraban la observación bajo microscopio de partı́culas de polen provenien-
tes de material vegetal vivo o muerto, y posteriormente, de varios tipos de mate-
ria inorgánica, concluye que: 1) este movimiento es exhibido por partı́culas solidas
muy pequeñas inmersas en un fluido acuoso, independientemente de su naturaleza
orgánica o inorgánica , 2) por su irregularidad y aparente autonomı́a, el movimien-
to de estas partı́culas se asemeja al de los microorganismos, 3) este movimiento
no se produce por corrientes o evaporación del fluido, capilaridad, desprendimien-
to de burbujas de aire u otras causas exógenas. Las investigaciones de Brown no
fueron conclusivas en cuanto a lo que realmente origina el movimiento browniano,
pero su importancia radica en defenestrar la hipótesis vitalista como la causa del
fenómeno6 .
Robert Brown no fue el primero en constatar el fenómeno del movimiento brow-

niano, aunque si fue el primero en estudiarlo detallada y cientı́ficamente. Quizás la
más antigua mención que se tiene del movimiento browniano se atribuye a Lucre-
cio, poeta y filósofo romano del siglo I a.C. Es a él a quien se cita en el epı́grafe
al principio del capı́tulo, con un pasaje en latı́n extraı́do de un poema titulado De
5
Ver Brown (1828).
6
Ver Nelson (2001), p. 8
4.8. MOVIMIENTO BROWNIANO 113
rerum natura7 (Sobre la naturaleza de las cosas), que se traduce en los siguientes
términos:
Volved vuestra mirada sobre estos corpúsculos

Que aquı́ se ven dando volteretas en la luz.
Porque tales volteretas atestiguan
Que movimientos primordiales,
secretos e invisibles, subyacen todo.
De los átomos primordiales procede este movimiento,
estos empujando a corpúsculos mayores, próximos a ellos,
y estos a su vez, incitando al movimiento
a cuerpos de mayor tamaño,
y ası́, el movimiento asciende desde los átomos primordiales,
de etapa en etapa, hasta que emergen al nivel de los sentidos,
cuando apreciamos aquellos corpúsculos
moviéndose en la luz solar,
aunque no vemos los golpes que los incitan a ello.
Con impresionante perspicacia, Lucrecio se adelantaba a las ideas expues-

tas en un trabajo de Albert Einstein sobre el movimiento browniano publicado en
19058 , año en que también publicó su artı́culo sobre la teorı́a de la relatividad y
otro artı́culo sobre el efecto fotoeléctrico, que le valdrı́a el Premio Nobel en 1923
9
. Basándose en la hipótesis atómica, y ampliando los resultados derivados por
Maxwell, según los cuales las partı́culas del fluido no tenı́an todas la misma ve-
locidad, sino una distribución de velocidades, Einstein explica matemáticamente el
movimiento browniano de una partı́cula más grande como un efecto apreciable pro-
ducto de innumerables colisiones con partı́culas atómicas. Las colisiones en si son
impredecibles, dada la gran magnitud con que ocurren, pero debido a que ocurren
constante y continuamente, la velocidad de la partı́cula en suspensión se altera de
forma continua, tanto en magnitud como dirección 10 .
La importancia del trabajo de Einstein sobre el movimiento browniano no se

puede soslayar: aunque sus argumentos no dan pie a una teorı́a de la dinámica
de las partı́culas en movimiento browniano, determinan la naturaleza estadı́stica
7
Texto en latin disponible en http://www.thelatinlibrary.com/lucretius.html.
8
ver Einstein, A. (1905). “Über die von der molekularkinetischen Theorie der Wärme geforderte
Bewegung von in ruhenden Flüssigkeiten suspendierten Teilchen.” Ann. Phys. 17, 549.
9
Ver Cazás Pernas, D. y otros (2004).
10
Consultar Cazás Pernas, D. y otros (2004).
del fenómeno y el valor del coeficiente de difusión11 . Eventualmente, a partir de

estos resultados, Perrin halları́a el número de Avogrado experimentalmente, por lo
cual le fue otorgado el Premio Nobel en 192612 . No menos importante es “haber
demostrado, de una manera visible y concreta, la existencia real de los átomos”13 .
El proceso de Wiener14 , también conocido como proceso de Wiener-Levy, pro-

ceso de movimiento browniano o alternativamente, proceso de difusión, se origina
como un proceso estocástico para modelar matemáticamente el movimiento brow-
niano. El desplazamiento, o posición relativa de una partı́cula con respecto a su
posición inicial15 , en un determinado instante de tiempo t se modela mediante una
secuencia de variables aleatorias {X(t)|t ≥ 0}- un proceso estocástico pues. Pa-
ra simplificar la discusión, se asume en lo sucesivo que estos desplazamientos se
refieren a trayectorias a lo largo de una recta (son unidimensionales), aunque se
podrı́a considerar trayectorias en espacios de dimensión superior representándolas
mediante variables aleatorias n-dimensionales.
Definición (Proceso de Wiener). Sea {X(t)|t ≥ 0} un proceso estocástico de

parámetro continuo. {X(t)|t ≥ 0} es un proceso de Wiener si:
(I) X(0) = 0.
(II) X(t) es casi seguro continuo.
(III) X(t) es de incrementos independientes, estacionarios

y normalmente distri-
buidos: X(t) − X(s) ∼ Normal 0, σ2 (t − s) .
En el apartado (ii) de la definición, “casi seguro continuo” es un término que

ha de interpretarse en el contexto de la teorı́a de la medida y se refiere a que el
conjunto de valores donde X(t) no es continuo es de medida cero. A fin de contri-
buir a esclarecer este modelo de movimiento browniano, se empleará un enfoque16
similar a aquel seguido por Feller17 . Considérese pues, una partı́cula suspendida
11
Ver Nelson (2001), p. 16.
12
Ver Parzen (1962), p. 29.
13
Ver Nelson (2001), p. 17.
14
Este proceso es homónimo de Norbert Wiener (1894,1964), matemático estadounidense, quien
lo definió en 1923.
15
La posición inicial es el origen, o cero (ver apartado (i) en la definición.
16
Feller acota que esta aproximación fue seguida por L. Bachelier y posteriormente motivo a A.
Kolmogorov a desarrollar los fundamentos formales de los procesos de Markov. Bachelier fue el
primer investigador en modelar matemáticamente la dinámica del movimiento browniano, aplicándolo
a la evaluación de precios en los mercados de valores. Aquı́ se expone una versión más simplificada
de dicho enfoque.
17
Ver Feller (1968), XIV.6.
en un fluido y sometida a constante bombardeo por partı́culas atómicas. En cada

unidad de tiempo, supóngase que ocurre cierta cantidad n muy grande de colisio-
nes, y que en cada colisión, la partı́cula grande se desplaza hacia la derecha o
hacia la izquierda cierta distancia δ infinitesimalmente corta. Estas suposiciones
son quizás demasiado simplificadoras, pero, recordando que se trata de un modelo
matemático, tienen su justificación: si bien incluso a nivel atómico las colisiones no
generan desplazamientos constantes en cualquiera de las dos direcciones, estos
se pueden promediar. Por otra parte, es concebible subdividir el tiempo, que es
una magnitud continua, en lapsos infinitesimalmente cortos de modo que en cada
uno se registre a lo sumo una colisión. Esto supone además que existe un numero
enorme de átomos en el fluido que colisionan constantemente con la partı́cula.
El modelo en cuestión es una caminata aleatoria basada en ensayos de Ber-

noulli: en cada instante infinitesimalmente corto de tiempo se tiene una colisión
que, según de donde provenga, ocasiona un desplazamiento Zi de +δ con proba-
bilidad p o de −δ con probabilidad q = 1 − p. El desplazamiento de magnitud ±δ
resultante en cada ensayo de Bernoulli se supone además estocásticamente inde-
pendiente del resultado de otros ensayos. El desplazamiento total de la partı́cula
al cabo de una unidad de tiempo- X(t + 1) − X(t) es el resultado acumulado de n
ensayos de Bernoulli discretizados mutuamente independientes entre sı́- una ca-
minata aleatoria.
n
X(t + 1) − X(t) = ∑ Zi
i=1
Estrictamente hablando, las variables aleatorias Zi no siguen una distribución

de Bernoulli, pues por definición estas últimas toman solo dos valores: 0 o 1. Pero
se pueden definir los Zi en función de una sucesión variables aleatorias Bi del
siguiente modo:
Zi = δ (2Bi − 1)
P{Zi = −δ} = q = 1 − p (4.8.1)
P{Zi = +δ} = p
Interesa determinar la esperanza y la varianza del incremento X(t + 1) − X(t),

para lo cual es conveniente tener en cuenta que este se puede expresar como una
función lineal de una suma de n variables aleatorias independientes de Bernoulli
(una v.a. binomial, denotada abajo por Sn ):
n
X(t + 1) − X(t) = ∑ Zi
i=1
n
= ∑ δ (2Bi − 1) = δ (2Sn − n)
i=1
Se tiene entonces la esperanza y la varianza de dicho incremento:
E [X(t + 1) − X(t)] = nδ (2p − 1)

(4.8.2)
V [X(t + 1 − X(t)] = 4nδ2 pq
En el fenómeno bajo consideración, se puede suponer que el sistema esta en

equilibrio y que, a la larga, la cantidad de colisiones por la derecha y por la izquier-
da son iguales, de donde p = q = 1/2. Por otra parte, tomando en cuenta que el
número de colisiones es muy grande (n → ∞), que el desplazamiento producido
por cada colisión individual es infinitesimal (δ → 0) y que, por razones de homo-
geneidad, nδ2 permanece constante y se define igual a σ2 , se tiene, en virtud del
Teorema Central del Lı́mite, que el incremento X(t + 1) − X(t) es normalmente
distribuido con media cero y varianza σ2 :

X(t + 1) − X(t) ∼ Normal 0, σ2
Los incrementos más generales, como por ejemplo X(t) − X(s), para 0 ≤ s ≤ t ,
se expresan como sumas de n (t − s)18 variables aleatorias de tipo Zi . Efectuando
los cálculos correspondientes y basándose en razonamientos similares a los utili-
zados anteriormente, se determina que:

X(t) − X(s) ∼ Normal 0, σ2 (t − s)
Como los ensayos de tipo binomial representados por los Zi son estocástica-
mente independientes y equidistribuidos, y en virtud de que dos incrementos no
superpuestos de tipo X(t) − X(s) se componen de series de ensayos Zi no super-
puestos y por lo tanto independientes, se sigue que el {X(t)|t ≥ 0} ası́ caracteriza-
do, es un proceso de incrementos independientes y estacionarios. Adicionalmente
18
Se requiere que n (t − s) sea entero, pero t − s es real. Esto no presenta mayores problemas
porque n es un número muy grande.
vale la tercera condición de la definición de proceso de Wiener, concluyendo que

este proceso, caracterizado por una serie muy grande de ensayos de tipo binomial,
es un proceso de Wiener.
Es oportuno dilucidar algunos aspectos, el primero siendo el significado de la

constante σ2 . Esta constante representa la variabilidad de los incrementos de tiem-
2 19 . El segundo es que,
po unitario y se podrı́a estimar empı́ricamente mediante Sn−1
según la forma en que se construye el proceso de Wiener, se puede constatar que
el desplazamiento futuro de una partı́cula que efectúa un movimiento browniano no
depende de su trayectoria pasada, y que el mecanismo aleatorio que genera estos
desplazamientos permanece inalterable a lo largo del tiempo. En presencia de un
fenómeno cuya variación aleatoria en cada unidad de tiempo es producto del efec-
to aditivo que tiene una cantidad muy grande de “shocks” sobre el objeto en movi-
miento, tiene sentido basarse en el Teorema Central del Lı́mite para modelar estas
variaciones aleatorias mediante una distribución de probabilidad normal. Aparte
del fenómeno de “partı́culas atómicas en colisión con un corpúsculo”, existe una
amplia gama de contextos donde esta suposición sobre el efecto aditivo es razona-
ble. Por último, si se supone que las probabilidades p y q son distintas, se rompe
el equilibrio y la partı́cula efectúa lentamente, aunque con pequeñas fluctuaciones
hacia arriba o hacia abajo, un desplazamiento en una dirección determinada.
Para este último caso, se generaliza la definición del proceso de Wiener dada
anteriormente definiendo un nuevo proceso estocástico, denominado proceso de
Wiener generalizado u homogéneo con desplazamiento, en función del proceso de
Wiener con media nula:
Definición (Proceso de Wiener homogéneo con desplazamiento). Sea {W (t)|t ≥

0} un proceso estocástico de parámetro continuo.{W (t)|t ≥ 0} es un proceso de
Wiener homogéneo con desplazamiento µ si:
W (t) = µt + X(t) para cada t ≥ 0
en donde X(t) es un proceso de Wiener.
n
∑ (Xi −X)2
19 2
Por Sn−1 se denota la varianza muestral insesgada, definida como i=1
.
n−1
4.9. El problema de la ruina del jugador en el contexto del

Movimiento browniano
La deducción informal de un proceso de Wiener mediante el paso al lı́mite de

una caminata aleatoria, tal como se hizo en la sección anterior, insinúa la posibili-
dad de aplicar al modelo de Wiener ciertos resultados establecidos con respecto a
las caminatas aleatorias, a fin de calcular lo siguiente:
1. Una partı́cula que efectúa un movimiento browniano unidimensional parte de

cierta posición inicial x0 , acotada por dos extremos a y b (a ≤ x0 ≤ b). ¿Cuál
es la probabilidad de que dicha partı́cula alcance el extremo a antes que el
extremo b? O conversamente, ¿Con qué probabilidad alcanza a b antes que
a a?20
2. ¿Cual es la duración promedio necesaria para que una partı́cula en movi-

miento browniano alcance alguna de las barreras absorbentes?
Estas cuestiones nos remiten de nuevo al problema de la ruina del jugador, que
ya hemos visto en secciones precedentes. Recordemos que las fórmulas (4.5.8) y
(4.6.6) para la probabilidades de ruina y la duración promedio del juego, respecti-
vamente, fueron deducidas a partir de los siguientes supuestos:
1. Los montos de los capitales (x, y y T ) son siempre cantidades enteras ma-
yores o iguales a cero. En el contexto del movimiento browniano, esto serı́a
equivalente a limitar la posición de la partı́cula a puntos enteros durante toda
su trayectoria a lo largo de la recta real.
2. En cada instante discretizado de tiempo, el capital del jugador (la posición de

la partı́cula, respectivamente) aumenta o disminuye en una unidad. Nueva-
mente, esto presenta ciertas dificultades para la aplicabilidad al estudio del
movimiento browniano. Por una parte, los incrementos de ±1 implican un
movimiento discontinuo, cuando el proceso de Wiener que modela al movi-
miento browniano es, por definición, casi siempre continuo. Por otra parte,
los incrementos unitarios fijos no capturan adecuadamente la variabilidad de
los incrementos en un movimiento browniano, cuyas desviaciones de cero
son mayores en magnitud a medida que el parámetro σ2 se hace mayor.
20
Los extremos a y b se conocen como barreras absorbentes.
4.9. MOVIMIENTO BROWNIANO Y LA RUINA DEL JUGADOR 119
Por las razones expuestas anteriormente, el modelo de ruina del jugador, en su

forma original, es de escasa aplicabilidad para calcular la probabilidad de que una
partı́cula que efectúa un movimiento browniano llegue a una barrera absorbente
o el tiempo promedio hasta llegar a alguna barrera absorbente. La deducción del
proceso de Wiener a partir del paso al lı́mite del modelo discretizado de cami-
nata aleatoria plantea una posibilidad de aplicar las formulas (4.5.8) y (4.6.6) al
cálculo de la probabilidad de alcanzar una u otra barrera absorbente en un mo-
vimiento browniano unidimensional, ası́ como la duración de tiempo promedio de
dicha trayectoria. A tal fin, se definen los parámetros δ y p de la variable aleato-
ria de Bernoulli transformada, caracterizada en las expresiones ((4.8.1)), de modo
que coincidan los primeros y segundos momentos no centrales de las variables
Zi , que se supone representan los incrementos por fracción de unidad de tiempo,
y los correspondientes incrementos X(t + n1 ) − X(t) del proceso de Wiener. Para
ello, se vale de la propiedad de homogeneidad del proceso de Wiener, mediante la
cual se tiene que la esperanza (respectivamente, la varianza) de un incremento de
amplitud n1 es función lineal de la esperanza (respectivamente, la varianza) del in-
cremento de amplitud unitaria X(t + 1) − X(t). La idea es reminiscente del método
de los momentos de Pearson21 .
µ
E[Zi ] = −δ(1 − p) + δp = δ(2p − 1) =
n
σ2 µ 2
E[Zi2 ] 2
=δ = +
n n
A partir de estas ecuaciones se determinan las ecuaciones para δ y p:
1
p
δ = nnσ2 + µ2
√ (4.9.1)
µ+ nσ2 +µ2
p = √ 2 2
2 nσ +µ
En el contexto general de un movimiento browniano, interesa calcular las pro-

babilidades de alcanzar alguna barrera absorbente y la duración promedio de la
trayectoria cuando la partı́cula parte de una posición inicial x0 que está acotada
entre las barreras absorbentes a y b (a < x0 < b), siendo a, b y x0 valores reales
cualesquiera. Sin embargo, en el contexto del problema de la ruina del jugador,
la barrera absorbente inferior siempre es 0 y tanto la barrera superior T , como
21
Ver Rios (1977), p. 327.
también el capital inicial x son cantidades enteras positivas. Por otra parte, δ no
será necesariamente igual a 1. Para sortear estos inconveniente, se transforman
las coordenadas a, b y x0 a las correspondientes coordenadas (números naturales)
que son los parámetros del problema de la ruina del jugador. En lo que sigue, [·]
denota la función de redondeo de un real al entero más cercano:
" #
b−a
T =n p
2 2
" nσ + µ # (4.9.2)
x0 − a
x =n p
nσ2 + µ2
En las ecuaciones de traslación ((4.9.2)), la división por δ es un cambio de

escala de los parámetros para “traducir” el movimiento browniano a una caminata
aleatoria con desplazamientos unitarios a la derecha o a la izquierda. Se expresa
ahora las ecuaciones para la probabilidad de ruina ((4.5.8)), que en el contexto del
proceso de Wiener representa la probabilidad de que la partı́cula alcance el punto
a antes que b partiendo de una posición inicial x0 , utilizando las expresiones para
p, T y x deducidas anteriormente (ver ecuaciones (4.9.1) y (4.9.2)):

p !n √ b−a p !n √ x0 −a
nσ2 +µ2 nσ2 +µ2
nσ2 + µ2 − µ nσ2 + µ2 − µ
p − p
nσ2 + µ2 + µ nσ2 + µ2 + µ
Rx0 = (4.9.3)
p !n √ b−a
nσ2 +µ2
nσ2 + µ2 − µ
p −1
nσ2 + µ2 + µ
Tomando lı́mites cuando n → ∞, se obtiene la probabilidad de ruina para el proceso

de Wiener generalizado de parámetro continuo:
2
e2(b−x0 )µ/σ − 1
Rx0 = 2(b−a)µ/σ2 (4.9.4)
e −1
Es interesante notar lo que sucede que cuando µ → 0, que serı́a el análogo conti-
nuo de p = q:
b − x0
lı́m Rx0 = (4.9.5)
µ→0 b−a
Esta última expresión es completamente similar a la que figura en la ecuación

((4.5.8a)), para el caso en que p = q. De forma análoga, se plantean las formu-
las para Dx0 . Es preciso aclarar que cuando se subdivide la unidad de tiempo en
n subintervalos, y dado que la ecuación ((4.6.6a)) indica la duración promedio en
términos de subintervalos discretos infinitesimales de tiempo, se debe dividir la
correspondiente expresión de Dx entre n para obtener la duración promedio expre-
sada en unidades de tiempo:

(b − a) 1 − e 2(a−x0 )µ/σ2
1 x0 − a
Dx0 = lı́m Dx = 2(a−b)µ/σ 2
− (4.9.6)
n→∞ n µ 1−e µ
Nuevamente, si µ → 0, se obtiene una expresión para Dx0 completamente equiva-

lente a la fórmula (4.6.6b)) para el caso en que p = q:
(x0 − a)(b − x0 )
lı́m Dx0 = (4.9.7)
µ→0 σ2
1. Una fábrica produce recipientes cuya capacidad se verifica al finalizar el pro-

ceso de producción, y se consideran defectuosos aquellos cuya capacidad
está por debajo de los 0,975 lt. o por encima de 1,025 lt. Pruebas estadı́sti-
cas sugieren que la capacidad de un recipiente producido tiene distribución
normal con media 1 lt. y desviación estándar 0,01. Define el proceso alea-
torio de Bernoulli que modele esta situación. ¿Cuáles suposiciones deben
hacerse sobre el proceso de fabricación para que el modelo de Bernoulli sea
adecuado?
2. Para el problema anterior, calcule la probabilidad de que al tomar una mues-

tra aleatoria de 10 recipientes producidos en la fábrica, a lo sumo 4 sean
defectuosos.
3. Sea {Si |i ≥ 1} el número de éxitos en un proceso de Bernoulli con probabi-

lidad de éxito p.
a) Calcule E[Sn+m |Sn ].

b) Calcule P{S7 = 4, S8 = 7}.
4. Sea {Ti |i ≥ 1} la caminata aleatoria asociada al número de ensayos de Ber-

noulli hasta observar un i-ésimo éxito (con probabilidad de éxito p).
a) Calcule P{T2 = 4, T3 = 5, T6 = 8}.

b) Calcule P{T3 = 5, T5 = 3}.
c) Calcule P{T7 = 3, T8 = 12}.
5. En el contexto de las preguntas 1 y 2, ¿cuantos recipientes se deberı́an de

muestrear, en promedio, para observar 4 recipientes defectuosos?
6. Encuentre la solución para la siguiente ecuación general en diferencias de

primer orden: an = r · an−1 . Asuma que se conoce el valor inicial de la se-
cuencia (a0 ) y exprese la solución en términos de a0 .
7. Utilice la propiedad telescópica de las series para demostrar que
n
1 − xn+1
∑ xi = 1−x
si x 6= 1
i=0
8. Demuestre que la solución para la siguiente ecuación general en diferencias

de primer orden dada en (4.5.5) (an = αan−1 + β), es:
an = a0 + nβ si α = 1
n
an = αn a0 + β 1−α
a−α si α 6= 1
9. Una partı́cula efectúa una caminata aleatoria partiendo desde un punto 0.

En cada instante de tiempo, se desplaza hacia la izquierda un paso con
probabilidad q = 0, 5 o hacia la derecha un paso con probabilidad p = 0, 5.
Si X(t) representa la posición de la partı́cula en el instante t ,
a) Defina el espacio de estados para t = 0, 1, 2, 3, 4.

b) Encuentre la distribución de probabilidades de X(1), X(2), X(3) y X(4).
c) ¿Es {X(t)|t ≥ 0} un proceso estacionario?
10. Desde donde está situado, un borracho está a solo un paso de caer a un
precipicio. El borracho camina de forma aleatoria: toma un paso hacia el
precipicio con probabilidad de 13 y un paso alejándose del precipicio con pro-
babilidad de 23 . ¿Con qué probabilidad se escapa el borracho de caer al
precipicio?
11. Un ludopata varado en Margarita tiene solo 20 BF y necesita conseguir 20

BF adicionales para tomar el ferry de regreso a casa, pero siente pena de
llamar a su esposa para que le envı́e más dinero. Decide jugar a la ruleta (de
la cual no es muy aficionado) y considera dos estrategias: apostar los 20 BF
a números negros todos de una vez o apostar 1 BF a un número negro cada
vez hasta que haya completado o perdido los 20 BF que tenı́a. Compare
los méritos de ambas estrategias. (Nota: una ruleta tiene 38 números de los
cuales 18 son negros, en cada turno de ruleta se gana lo que se apuesta con
18 20
probabilidad p = 38 o se pierde con probabilidad q = 38 ).
12. En el contexto del problema anterior, supóngase adicionalmente que el ju-

gador decide apostar 1 BF a la vez, y cada turno en la ruleta toma aproxi-
madamente 3 minutos. ¿Cuánto tiempo durará en promedio el jugador hasta
terminar el juego? ¿Cree Ud. que el jugador pueda emprender el viaje en
ferry a su casa ese mismo dı́a si comienza a jugar al mediodı́a? (Nota: el
último ferry a tierra firme sale a las 8pm)
13. En el contexto de la pregunta anterior, realice una simulación en R para de-

terminar la probabilidad de que el ludopata varado en Margarita pueda tomar
un ferry a su casa ese mismo dı́a si aplica la estrategia de apostar 1 BF por
turno.
14. Justifique detalladamente y haciendo referencia a las definiciones y propie-

dades sobre las probabilidades y esperanzas condicionales, cada uno de los
pasos en la justificación de la ecuación (4.6.1) dados en el desarrollo de las
ecuaciones en (4.6.3) del texto.
15. En el problema de la ruina del jugador, si p = q , ¿cuál es el nivel de capital

inicial x que maximiza la duración promedio del juego?
16. Verifique mediante una simulación en R las formulas (4.6.6a) y (4.6.6b) refe-
rentes a la duración promedio del juego. Para el caso en que p 6= q, asuma
que p = 13 . En ambos casos asuma un capital total T = 10.
17. Un beduino sale de un oasis en el desierto y se pierde. Para encontrar el

camino de vuelta al oasis, decide efectuar una caminata aleatoria bidimen-
sional. Sin considerar el tiempo que le tome esta caminata aleatoria, ¿cuál es
la probabilidad de eventualmente regresar al oasis? Si un loro que lo acom-
paña en el desierto emprende el viaje de vuelta al oasis efectuando una
caminata aleatoria en tres dimensiones, ¿tiene mejores probabilidades de
eventualmente regresar?
Unidad 5
El procesos de Poisson
homogéneo
La vida sirve sólo para dos cosas: descu-

brir matemáticas y enseñar matemáticas.
Simeon Denis Poisson (1781 - 1840)
Si tuviera que irme a una isla desierta,

y sı́ sólo pudiera llevar conmigo a una
distribución, elegirı́a la Distribución de
Poisson.
T RES M UNDOS
Litografı́a - 1955 Prof. Howard Taylor
M.C. Escher (autor de varios libros sobre procesos estocásticos)
125
126 UNIDAD 5. EL PROCESOS DE POISSON HOMOGÉNEO
El objetivo general de esta Unidad es hacer una exposición de los procesos de

Poisson homogéneos, sus caracterı́sticas, propiedades y relación con otros pro-
cesos o distribuciones a fin de poder aplicarlos al estudio de fenómenos reales y
realizar simulaciones que involucren estos procesos. Para lograr este objetivo, se
requiere a su vez el dominio de los siguientes objetivos especı́ficos:
Identificar las condiciones que definen al proceso de Poisson homogéneo.
Deducir el proceso de Poisson homogéneo mediante el paso al lı́mite de

la cantidad de éxitos en n ensayos cuando n → ∞ y p → 0 pero np = λ es
constante y aplicar este resultado en el cálculo aproximado de probabilidades
binomiales.
Aplicar la distribución de Poisson al estudio de fenómenos en los cuales los

objetos de cierta clase se distribuyen aleatoriamente en el espacio según un
proceso de Poisson homogéneo.
Deducir la distribución del tiempo transcurrido entre dos eventos en un pro-

ceso de Poisson homogéneo y aplicar este resultado para simular procesos
de Poisson que ocurren en el tiempo.
Relacionar las distribuciones de probabilidad asociadas al proceso de Pois-

son homogéneo como casos lı́mites de las distribuciones de probabilidad que
surgen en el estudio de la cantidad de éxitos basados en n ensayos de tipo
Bernoulli.
Estudiar la relación entre el proceso de Poisson homogéneo y la distribución

uniforme y aplicar esto en la simulación de procesos de Poisson espaciales.
5.1. DERIVACIÓN DEL PROCESO DE POISSON 127
5.1. El proceso de Poisson como caso lı́mite de la cami-

nata aleatoria binomial
En el capitulo anterior estudiamos la evolución aleatoria de procesos cuyos

cambios de estado ocurren en instantes de tiempo discretos, que se suponen re-
gularmente espaciados pero cuya ubicación temporal no esta del todo determina-
da, o no es relevante. Hablábamos entonces de ensayos (procesos de Bernoulli) o
pasos (en las caminatas aleatorias), aunque no especificábamos los instantes de
tiempo precisos en los cuales ocurrı́a cada ensayo o paso porque sencillamente no
era relevante. Sin embargo, en muchos fenómenos reales no podemos considerar
que los eventos de un proceso ocurren o no en instantes discretizados de tiempo.
En estos casos, los procesos de Bernoulli no son modelos adecuados.
Consideremos por ejemplo una central telefónica en la cual se han recibido

270 llamadas en un periodo de tres horas (180 minutos). Consecuentemente, se
reciben en promedio 1,5 llamadas por minuto y basándonos en esta evidencia,
deseamos calcular la probabilidad de recibir 0, 1, 2 o más llamadas en los próxi-
mos 3 minutos. Podrı́amos dividir el lapso de 3 minutos en 9 subintervalos de 20
segundos cada uno y si suponemos que las probabilidades de que ocurran llama-
das en cada subintervalo permanecen constantes, esto nos conduce a aproximar
las probabilidades buscadas mediante la distribución binomial. Nuestra aproxima-
ción consiste en considerar cada uno de los nueve subintervalos como ensayos de
Bernoulli en los cuales observamos una llamada telefónica (éxito) o ninguna (fra-
20
caso), con probabilidad de éxito p = (1, 5) · 60 = 0, 5. Pero un poco de reflexión
nos hace concluir que cuando mucho, este modelo es una aproximación bastante
inexacta de la situación, porque estamos ignorando la posibilidad de que ocurran
dos o más llamadas en cada subintervalo de 20 segundos y el uso del modelo de
Bernoulli supone una dicotomı́a en cada ensayo: o ocurre una llamada o no ocurre
ninguna.
No obstante, para minimizar la probabilidad de que ocurra dos o más llamadas

en cada subintervalo de tiempo, podrı́amos subdividir el lapso de 3 minutos en una
mayor cantidad de subintervalos más cortos. Podemos también observar si las pro-
babilidades calculadas tienden hacia algún valor a medida que tenemos una mayor
cantidad de intervalos: hicimos el ejercicio de calcular las probabilidades de recibir
k llamadas en un lapso de 3 minutos manteniendo el número promedio de llamadas
(E[X] = np = 1, 5) constante. En la tabla 5.1, se muestra en las celdas respectivas
dichas probabilidades aproximadas mediante la distribución de Bernoulli.
En la tabla 5.1, los valores de n y de p se multiplican y se dividen respectiva-

Tabla 5.1: Calculo de las probabilidades de recibir K llamadas en 3 minutos me-

diante aproximaciones sucesivas por medio del modelo binomial.
Variable aleatoria: X = número de llamadas recibidas en un lapso de 3 minutos.

n k
Ley de probabilidad binomial: P(X = k) = p (1 − p)n−k
k
n=9 n = 72 n = 576 n = 4608 n = 368649
k p = 0, 5 p = 0, 0625 p = 0, 0078125 p = 0, 0009766 p = 0, 0001224
0 0,001953125 0,009592502 0,010914422 0,011084598 0,011105946
1 0,017578125 0,046044010 0,049501632 0,049929451 0,049982856
2 0,070312500 0,108970823 0,112060781 0,112426676 0,112472106
3 0,164062500 0,169510170 0,168826478 0,168731600 0,168719601
4 0,246093750 0,194936695 0,190428291 0,189884897 0,189817275
5 0,246093750 0,176742603 0,171535406 0,170914969 0,170837865
6 0,164062500 0,131575049 0,128538998 0,128172304 0,128126661
7 0,070312500 0,082704317 0,082415331 0,082369633 0,082363787
8 0,017578125 0,044798171 0,046155830 0,046307757 0,046326488
9 0,001953125 0,021237652 0,022936580 0,023136275 0,023161045
10 0,000000000 0,008919814 0,010240190 0,010401146 0,010421198
11 0,000000000 0,003351688 0,004148853 0,004249931 0,004262581
≥ 12 0,000000000 0,001616506 0,002297208 0,002390768 0,002402592
mente por un factor de 8 en forma sucesiva, de modo que n tiende a infinito y p

tiende a cero, pero np permanece constante. Observamos que las probabilidades
respectivas se “estabilizan” alrededor de ciertos valores no varı́an mucho más a
medida que seguimos aumentando el número n de ensayos. Esto nos motiva a
formular la siguiente pregunta: ¿Cuál es la ley de probabilidad hacia la cual tiende
la binomial a medida que n → ∞ y p → 0 de modo que np permanece constante,
digamos np = λ?
En los cálculos siguientes se determina la respuesta exacta a esta pregunta.

Considerando pues la función de probabilidad binomial:

n k n!
P{X = K} = p (1 − p)n−k = pk (1 − p)n−k
k k!(n − k)!
k f actores
z }| {
n(n − 1)(n − 2) · · · (n − k + 1) k
= p (1 − p)n−k
k!
Primero de define λ = np, de modo que p = λn y 1 − p = 1 − λn . Sustituyendo

en la ecuación anterior todos los términos que involucren p por sus expresiones
equivalentes en λ obtenemos:

n(n − 1)(n − 2) · · · (n − k + 1) λ k λ n−k
P{X = K} = 1−
k! n n
k n−k
λ λ n(n − 1)(n − 2) . . . (n − k + 1)
= 1−
k! n n| · n{z· · · n}
k f actores
k n−k

λ λ 1 2 k−1
= 1− 1· 1− · 1− ··· 1−
k! n n n n
k n −k
λ λ λ 1 2 k−1
= 1− 1− 1· 1− · 1− ··· 1−
k! n n n n n
Ahora tomando el limite de la expresión de arriba cuando n → ∞ y p → 0 de modo

que np = λ permanece constante, obtenemos lo siguiente:
lı́m P{X = k}
n→∞
λ k n −k
= lı́m 1 − λn 1 − λn 1 · 1 − n1 · 1 − n2 · · · 1 − k−1
n
n→∞ k!
k
λ −λ
= e
k!
(5.1.1)
Ya que, según lo recordado en nuestra clase de sexto grado de primaria cuando

estudiábamos limites:

λ n λ −k c
lı́m 1 − = e−λ , lı́m 1 − =1 y lı́m 1 − =1
n→∞ n n→∞ n n→∞ n
De esta forma demostramos el siguiente teorema:
Teorema 5.1 (Ley de las Probabilidades Pequeñas). Sea X una variable aleatoria
discreta distribuida según la ley binomial con parámetros n y p respectivos. Si
n → ∞ y p → 0 de forma que np permanece constante e igual a λ, entonces, bajo
estas condiciones:
λk
lı́m P{X = k} = e−λ
n→∞ k!
Este resultado es muy importante por varias razones. Una razón es que nos
permite calcular aproximadamente las probabilidades asociadas a la distribución
binomial para un número n muy grande de ensayos y una probabilidad p de éxi-
to casi nula. El estudiante que haya intentado calcular probabilidades binomiales
que involucran números combinatorios elevadı́simos que multiplican potencias de
p que tienden a cero sabrá apreciar la valı́a de esta aproximación. Es por esto que
el resultado anterior se conoce como la Ley de las Probabilidades Pequeñas. De la
misma forma que el Teorema de DeMoivre-Laplace (una variante de la Ley de los
Grandes Números) aproxima mediante la distribución normal las probabilidades bi-
nomiales cuando n → ∞ y p no tiende a cero o a uno, la Ley de las Probabilidades
Pequeñas aproxima las probabilidades binomiales bajo las condiciones ya citadas
mediante una distribución de probabilidad que el estudiante seguramente ha identi-
ficado ya- la distribución de Poisson. Como regla práctica, se puede confiar en esta
aproximación si n ≥ 100, p ≤ 0, 01 y np ≤ 201 .
Como se indica en la Tabla 1.1, la variable aleatoria Poisson representa el

número de eventos que ocurren en un instante de tiempo de amplitud fija cuan-
do la tasa promedio de eventos en ese intervalo de tiempo es λ. Su función de
probabilidad es:
 x
 λ e−λ si x ∈ N+
PX (x) = x!

0 / N+
si x ∈
Se le sugiere al estudiante que demostrar que en efecto, la distribución de

Poisson es una distribución de probabilidad válida (Problema propuesto N° 1). De
hecho, esto se realiza expresando eλ como una serie de Taylor.
Históricamente, la ley de probabilidad de Poisson está asociada al estudio de la

cantidad de eventos de cierto tipo que ocurren entre una población muy numerosa
cuando la frecuencia del fenómeno es muy rara, como por ejemplo, la cantidad de
personas en una ciudad de 10 millones de habitantes que padecen de una enfer-
medad muy rara que afecta en promedio a uno entre cada millón de individuos en
una población. Siméon-Denis Poisson (1781-1840) formuló en 1837 la distribución
homónima en conexión con largas series de observaciones de eventos que ocurren
raramente. Por ejemplo, una de tales series dadas era la distribución de frecuencias
del número de bajas anuales en cada cuerpo de la caballerı́a del ejercito Prusiano
debidas a patadas de caballos2 . La distribución de frecuencias de el número de
bajas anuales de esta serie fue la siguiente:
1
Ver Devore (2001), p. 131.
2
Ver Rietz (1927), p. 39
Figura 5.1: Siméon Denis Poisson (1781-1840)
Poisson es conocido por sus trabajos sobre electricidad y magnetis-

mo, geometrı́a diferencial, integrales, astronomı́a y probabilidades,
sobre lo cual versa su escrito Rerecherchés sur la probabilite des
jugements, publicado en 1837. En este trabajo desarrolla su famosa
Ley de los Eventos Raros. Fuente: http://es.wikipedia.org/
wiki/Sim%C3%A9on_Denis_Poisson
Bajas Anuales 0 1 2 3 4 o más

Frecuencias 109 65 22 3 1
Si suponemos que las probabilidades de k muertes accidentales por patadas

de caballo se mantienen constantes en el tiempo y a través de todos los cuerpos de
la caballerı́a del ejercito Prusiano, estos datos nos permitirı́an calcular las frecuen-
cias relativas (que se asemejan a dichas probabilidades), dividiendo las frecuencias
absolutas respectivas entre el número total de observaciones, o sea n = 200. Si en
base a estas probabilidades calculamos el número promedio de muertes anuales
en cada cuerpo de caballerı́a, obtenemos una estimación del parámetro λ, que
resulta ser igual a 0,61. Con el parámetro λ, calculamos las probabilidades respec-
tivas según la ley de distribución de Poisson y con estas probabilidades, calculamos
las frecuencias absolutas que cabrı́a esperarse según este modelo teórico, resu-
miendo los calculos en la siguiente tabla:
Bajas anuales 0 1 2 3 4 o más

Observaciones de frecuencias absolutas (evidencia empı́rica)
Frecuencias 109 65 22 3 1
absolutas
Frecuencias 0,545 0,325 0,110 0,015 0,005
relativas
Observaciones esperadas según el modelo de Poisson

Probabilidades 0,543 0,331 0,101 0,021 0,004
esperadas
Frecuencias
absolutas 108,6 66,2 20,2 4,2 0,6
esperadas
Como se puede observar, la ley de probabilidad de Poisson modela de forma

bastante fiel el fenómeno estudiado.
5.2. Derivación axiomática del proceso de Poisson.
Llegados a este punto, podemos entender que la ley de distribución de Poisson

se adecua a una amplia gama de fenómenos aleatorios de la vida real porque es
un caso lı́mite del modelo Binomial, que también se asoma en muchas situaciones.
De hecho, la distribución de Poisson, junto con la normal y la binomial, son las tres
distribuciones principales de la teorı́a de las probabilidades, debido a su universa-
lidad y grandes ramificaciones por todo el corpus teórico3 . Sin duda, la distribución
de Poisson merece un análisis profundo por sus propios meritos. Surgen dos pre-
guntas: ¿Cómo sabemos si se reúnen las condiciones para aplicar el modelo de
Poisson a un determinado fenómeno real? ¿Como relacionamos la distribución de
Poisson y los procesos estocásticos?
Intentamos dar una respuesta a la primera pregunta haciendo algunas conside-

raciones sobre la distribución binomial, a partir de la cual la distribución de Poisson
surge como caso lı́mite. En efecto, para que la binomial sirva de modelo adecuado
de un determinado fenómeno, debemos verificar que las probabilidad p de éxito se
mantenga constante a través de todos los ensayos y que los ensayos se realizan
de forma independiente entre sı́. Si consideramos que la distribución de Poisson es
un caso lı́mite de la binomial, entonces se vislumbra una respuesta a la segunda
pregunta.
En efecto, supóngase que estamos interesados en contar la cantidad de even-

tos de cierto tipo que han sucedido hasta un instante de tiempo t . Para tal fenómeno,
hacemos las siguientes suposiciones:
1. La ocurrencia adicional de eventos a partir de ese instante es independiente

de la cantidad de eventos acaecidos hasta entonces (los ensayos de Bernou-
lli son independientes entre sı́). Más precisamente, para intervalos de tiempo
disjuntos (no superpuestos), las cantidades de eventos que ocurren en cada
intervalo son independientes entre sı́. Esto es una manera de decir que el
proceso de Poisson es un proceso con incrementos independientes.
2. Se verifica que la tasa promedio de eventos, expresada como un cociente

de la cantidad de eventos en promedio que suceden en un lapso de tiempo
fijo, es constante (la probabilidad de éxito p en cada ensayo de Bernoulli es
constante). Por lo tanto, dos intervalos de tiempo de igual amplitud tendrán
la misma distribución de probabilidades, en cuanto a la cantidad de eventos
3
Ver Feller (1968), p. 156
5.2. DERIVACIÓN AXIOMÁTICA DEL PROCESO DE POISSON. 133
que sucede en cada intervalo, sin importar cuan distantes en el tiempo sean
esos intervalos uno del otro. Según la terminologı́a de la Unidad 3, el proceso
de Poisson es un proceso con incrementos estacionarios.
3. Según las deducciones que culminan en la fórmula 5.1.1, vemos que subdi-
vidiendo el número de ensayos del modelo binomial en lapsos temporales de
amplitud infinitesimalmente pequeña, de modo que la probabilidad de ocu-
rrencia de dos o más eventos en cada lapso temporal sea casi nula y man-
teniendo constante el promedio de eventos quesuceden a lo largo del lapso
temporal total, la distribución de probabilidad de eventos que suceden en un
intervalo de tiempo es la distribución de Poisson.
La Ley de las Probabilidades Pequeñas es una posible vı́a para definir el pro-
ceso de Poisson. A continuación vamos a tomar otra vı́a más rigurosa, planteamos
un conjunto de axiomas o condiciones que debe cumplir el proceso y verificamos
que necesariamente, esto conduce a la distribución de Poisson. Antes definimos la
terminologı́a mediante la cual denotaremos formalmente el proceso de Poisson:
El proceso aleatorio de Poisson es una colección de variables aleatorias in-

dexadas por un parámetro temporal continuo: {Z(t)|t ≥ 0}. Para cada instante t ,
Z(t) denota la cantidad de eventos de cierto tipo que se producen en el lapso de
tiempo [0,t), por lo cual Z(t) es un proceso de conteo y representa una cantidad
entera. Además la secuencia {Z(t)|t ≥ 0} debe satisfacer los axiomas dados a
continuación.
Axioma 1 Para intervalos de tiempo disjuntos (no superpuestos), las cantidades

de eventos que ocurren en cada intervalo son independientes entre sı́. El
proceso de Poisson es un proceso con incrementos independientes.
Axioma 2 Defı́nase Z(x + ∆t) − Z(x) como la cantidad de eventos que ocurren en
un intervalo de tiempo [x, x + ∆t) y Z(y + ∆t) − Z(y) como la cantidad de
eventos que ocurren en otro intervalo de tiempo [y, y + ∆t), siendo ambos
intervalos de tiempo de la misma amplitud. Entonces, Z(x + ∆t) − Z(x) y
Z(y + ∆t) − Z(y) tendrán la misma distribución de probabilidades. El proceso
de Poisson es un proceso con incrementos estacionarios.
Axioma 3 Considérese una subdivisión de un intervalo de tiempo de longitud uni-

taria en N subintervalos, cada uno de longitud ∆t = 1/N . Para N suficiente-
mente grande, las probabilidades de que se produzcan cero o un evento en
cualquiera de esos subintervalos son respectivamente4 :
4
En lo sucesivo, los términos Pi (t) se definen como Pi (t) = P{Z(t) = i}.
PZ(t + ∆t) − Z(t) = 0 = P0 (∆t) = 1 − λ∆t + o(∆t) (5.2.1a)
PZ(t + ∆t) − Z(t) = 1 = P1 (∆t) = λ∆t + o(∆t) (5.2.1b)
donde o(∆t) es una cantidad de un orden de magnitud mucho más pequeña

0(∆t)
que ∆t de modo que lı́m = 0. Obsérvese que las probabilidades P0 (∆t)
∆t→0 ∆t
y P1 (∆t) son complementarias, de modo que la probabilidad que se produz-
can dos o más eventos en un lapso de tiempo infinitesimalmente corto es
despreciable. En lo anterior, λ es un parámetro constante que representa la
cantidad promedio de eventos que se producen en un intervalo de tiempo de
longitud unitaria:
E[Z(1)] = E[N · Z(∆t)] = N · E[Z(∆t)] = N · (λ∆t + o(∆t))

1
= (λ∆t + o(∆t)) = λ
∆t
El parámetro λ también se conoce como intensidad de flujo .
Axioma 4 Se impone la siguiente condición inicial: P{Z(0) = 0} = P0 (0) = 1. Esto

equivale a decir que P1 (0) = P2 (0) = · · ·= 0.
A partir de estos cuatro axiomas, pretendemos deducir la función de probabi-

lidad de las variables aleatorias {Z(t)|t ≥ 0}, a saber:P{Z(t) = n} = Pn (t). Co-
mencemos considerando P0 (t + ∆t), la probabilidad de que ocurran cero eventos
en el lapso de tiempo [0,t + ∆t).Para que suceda tal cosa, debe acontecer que se
produzcan cero eventos en [0,t) y cero eventos en [t,t + ∆t). En virtud del Axioma
1, estos sucesos son independientes, pues [0,t) y [t,t + ∆t) no son intervalos de
tiempo superpuestos. Por otro lado, en virtud del Axioma 2, la probabilidad de que
se produzcan cero eventos en el intervalo de tiempo [t,t + ∆t) es igual a la proba-
bilidad de que se produzcan cero eventos en el intervalo de tiempo [0, ∆t), pues el
proceso es de incrementos estacionarios. En suma, tenemos lo siguiente:
P0 (t + ∆t) = P0 (t) · P0 (∆t) = P0 (t)(1 − λ∆t + o(∆t)) =⇒

P0 (t + ∆t) − P0 (∆t) = P0 (t) (−λ∆t + o(∆t))
5.2. DERIVACIÓN AXIOMÁTICA DEL PROCESO DE POISSON. 135
y que por lo tanto, tomando la derivada de P0 (t):
P0 (t + ∆t) − P0 (t) −λ∆t + 0(∆t)

P0′ (t) = lı́m = lı́m P0 (t) = −λ · P0 (t) =⇒
∆t→0 ∆t ∆t→0 ∆t
P0′ (t)
= −λ
P0 (t)
Integrando esta ecuación diferencial sencilla y tomando en cuenta el Axioma 4 que

establece una condición inicial P{Z(0) = 0} = P0 (0) = 1, deducimos finalmente
que:
P0 (t) = e−λt (5.2.2)
Ahora procederemos a calcular Pn (t) para n ≥ 1. De manera análoga al razo-

namiento recién expuesto, calculamos primero Pn (t + ∆t), tomando en cuenta que
para producirse n eventos en el intervalo de tiempo [0,t + ∆t), debe ocurrir alguno
de estos dos sucesos, que son mutuamente excluyentes:
1. Que se produzcan n−1 eventos en el intervalo [0,t) y 1 evento en el intervalo

[t,t + ∆t), o
2. Se producen n eventos en [0,t) y ningún evento en [t,t + ∆t).
De modo que:
Pn (t + ∆t) = Pn−1 (t) · P1 (∆t) + Pn (t) · P0 (∆t)

= Pn−1 (t) · (λ∆t + o(∆t)) + Pn (t) · (1 − λ∆t + o(∆t))
y de modo similar a como hicimos los cálculos precedentes, podemos encontrar la

derivada de Pn (t):
Pn′ (t) = λ(Pn−1 (t) − Pn (t)) =⇒ Pn′ (t) + λPn (t) = λPn−1 (t) (5.2.3)
La ecuación 5.2.3 es una ecuación diferencial lineal de orden uno no-homogénea.

Una fórmula para resolver tales ecuaciones diferenciales es la siguiente 5 :
5
Orellana, M. (1995), pp. 84-86
La solución a la ecuación diferencial no homogénea

y′ + p(x)y = q(x) viene dada por
R
Z R

− p(x)dx p(x)dx
y=e C + q(x) e dx
Donde C es una constante que depende del valor de

y en un punto dado (condición inicial).
Sustituyendo los términos correspondientes en la formula anterior, recordando

que en este caso la variable independiente es t (no x) y teniendo en cuenta el Axio-
ma 4 que establece las condiciones iniciales P1 (0) = P2 (0) = . . . = 0, procedemos
a resolver la ecuación 5.2.3:
Zt
Pn (t) = e −λt
· λ · Pn−1 (x) ·λx dx (5.2.4)
0
Conociendo P0 (t) podemos hallar algunos de los Pn (t) para n ≥ 1:
Z
P1 (t) = e−λt · λ · e−λt eλt dt = (λt)e−λt
Z
(λt)2 −λt
P2 (t) = e −λt
· λ · λte−λt eλt dt =
e
2
Z
(λt)2 −λt λt (λt)3 −λt
P3 (t) = e−λt · λ · e e dt = e
2 6
..
.
(λt)n
No cuesta mucho trabajo deducir que, en general, Pn (t) = e−λt · n! .
Claro está, esto se puede demostrar por el método de inducción, lo cual se

deja como ejercicio propuesto para el estudiante (problema propuesto N° 15). Re-
cuerde que si se quiere demostrar cierta premisa An para todo n ≥ 0, el método de
inducción consiste en demostrar que A0 es cierto y que An ⇒ An+1 .
En resumen, hemos visto en esta primera parte del presente capitulo las con-
diciones o premisas bajo las cuales se produce un proceso estocástico de Poisson
5.3. PROCESOS DE POISSON ESPACIALES. 137
homogéneo. La palabra homogéneo se refiere a que la intensidad de flujo λ es

una constante en el tiempo, esto queda establecido por el Axioma 2 referente a los
incrementos estacionarios.
Ahora estamos en condiciones de volver a plantear la definición de un proceso

de Poisson homogéneo:
Definición (Proceso de Poisson homogéneo). Un proceso de conteo {N(t),t ≥

0} es un proceso de Poisson homogéneo con tasa media constante (o intensidad)
λ si cumple las condiciones a continuación:
(I) {N(t),t ≥ 0} tiene incrementos estacionarios e independientes.
(II) Para dos instantes de tiempo s y t tales que s < t , la cuenta de eventos
N(t) − N(s) acaecidos en el intervalo de tiempo (s,t) es distribuida según
la ley de Poisson con media λ(t − s). A saber:
(λ(t − s))k
P{N(t) − N(s) = k} = e−λ(t−s)
k!
Se espera haber facilitado la comprensión de cuales son las condiciones que
dan origen a tales procesos, porqué el número de eventos que se producen en un
intervalo de tiempo es distribuido según Poisson y las razones por las cuales este
proceso surge con mucha frecuencia en el estudio de ciertos fenómenos aleatorios.
5.3. Procesos de Poisson espaciales.
Las condiciones o postulados axiomáticos que dan origen al proceso de Pois-

son se pueden extrapolar a la definición de otro tipo de proceso de Poisson si se
cambia la dimensión temporal por la dimensión espacial. De este modo, cuando
hablamos de lapsos de tiempo en los axiomas 1 a 4, ahora hablaremos de distan-
cias, áreas o volúmenes en el caso en que el proceso se desarrolla en una, dos o
tres dimensiones espaciales respectivamente. Los eventos de tipo Poisson, en vez
de estar distribuidos sobre la recta temporal (porque se suceden en el tiempo), se
conceptúan más bien como puntos distribuidos sobre una superficie o un volumen.
A modo de ejemplo, imagı́nese que estamos viendo una colonia de bacterias en un
plato de Petri a través del microscopio (ver Fig. 5.2).
Respecto a la figura 5.2, los puntos oscuros (de color verde oliva) representan
Figura 5.2: Esporas en un plato de petri vistas a través de un microscopio.
las bacterias. Se ha incluido un reticulado sobre la gráfica, que divide el área en

pequeños cuadrantes de igual tamaño, para fines referenciales. Se han contado las
bacterias en cada uno de los cuadrantes sombreados de amarillo, dentro del plato
de Petri, cuya cantidad de bacterias se indican en números en la figura. En base a lo
observado, podemos contar cuantos cuadrantes contienen un determinado número
de bacterias, lo cual nos da las frecuencias absolutas empı́ricas (hay n = 32 obser-
vaciones). Acto seguido calculamos el promedio (estimado) de bacterias por cada
cuadrante, lo cual nos permite calcular las frecuencias relativas teóricas (ajustadas
al modelo de Poisson) y de ahı́, multiplicando dichas frecuencias relativas teóri-
cas por el número total de observaciones, determinamos las frecuencias absolutas
teóricas, las cuales cabria esperarse si el fenómeno en cuestión fuese realmente
un proceso de Poisson. Todo lo dicho se resume en la siguiente tabla:
El parámetro λ, con el cual se calculan las probabilidades de Poisson respecti-

Tabla 5.2: Ajuste de las observaciones de la Fig. 5.2 a un proceso de Poisson

espacial.
Frecuencia Frec. relativa teórica

Frec. absoluta
k absoluta (obtenida mediante
esperada
(empı́rica) ajuste)
0 1 0.099013408 3.1684291
1 7 0.228968507 7.3269922
2 13 0.264744836 8.4718348
3 6 0.204074144 6.5303726
4 4 0.117980365 3.7753717
5 0 0.054565919 1.7461094
6 0 0.021030614 0.6729797
7 1 0.006947614 0.2223236
vas (las de la columna de frecuencias relativas teóricas), fue estimado del siguiente
modo:
7
∑ i · xi
i=0 0 · 1 + 1 · 7 + 2 · 13 + 3 · 6 + 4 · 4 + 5 · 0 + 6 · 0 + 7 · 1
λ̂ = 7
= = 2, 3125
32
∑ xi
i=0
Según lo que hemos desarrollado para este ejemplo hasta ahora, surgen algu-
nas preguntas, que se dejan como problemas propuestos al final de esta sección6 :
¿Qué representa el parámetro λ?
Si el circulo de la figura 5.2 es de 1 cm de diámetro, ¿cuál es el área de

cada cuadrante y cómo se interpretarı́a la estimación del parámetro λ (en
este caso, λ̂ = 2, 3125)?
¿Porqué se han considerado solamente los 32 cuadrantes sombreados en

amarillo (ver figura 5.2) para elaborar las estadı́sticas de la tabla 5.2?
Una variable aleatoria de tipo Poisson, por ser discreta, siempre asume va-
lores enteros. ¿Cómo explica Ud. que en la columna “Frecuencias absolutas
esperadas” de la tabla 5.2, los valores no sean enteros?
6
Antes de intentar responder estas preguntas, se le sugiere al lector terminar de estudiar esta
sección.
Si asumimos que las frecuencias absolutas empı́ricas son lo bastante aproxi-

madas a las frecuencias absolutas teóricas, entonces el modelo de Poisson parece
ser adecuado para describir el fenómeno de las colonias de bacterias observadas
en el plato de Petri. La verificación de la bondad de ajuste se realiza matemáti-
camente mediante técnicas de inferencia estadı́stica que se ven en otros cursos.
Por ahora, dejemos la verificación de bondad de ajuste a un lado y abordemos las
implicaciones que se desprenden de ser este fenómeno un proceso de Poisson.
Por ejemplo, el axioma 4 establecerı́a que en un área o volumen nulo hay ce-
ro bacterias con certeza total. Esto tiene bastante sentido- las bacterias necesitan
cierta cantidad mı́nima de espacio para desarrollarse y en un espacio de área nula
no puede haber bacterias. Los axiomas 1 y 2 establecerı́an que en áreas no super-
puestas de igual tamaño, las cantidades de bacterias en cada área son variables
independientes e idénticamente distribuidas. Esto quiere decir que la cantidad de
bacterias observadas en una esquina del plato Petri es independiente de la canti-
dad de bacterias observadas en otra esquina. Más aún, tienen la misma distribución
probabilı́stica, lo cual quiere decir que las condiciones requeridas para el desarrollo
de las actividades bacteriales son iguales en toda el área del plato Petri. Por ejem-
plo, colocar un sustrato más nutritivo para las bacterias en alguna esquina del plato
Petri harı́a que las bacterias se concentrasen en ese sector- se estarı́a violando la
condición de estacionariedad de las superficies no superpuestas de igual tamaño
y el fenómeno ya no serı́a un proceso de Poisson homogéneo. Dicho de otro modo,
los axiomas 1 y 2 parecen indicar que los eventos en un proceso de Poisson se
distribuyen uniformemente en el tiempo (o el espacio en este caso), pero esto es
una cuestión que abordaremos posteriormente. Por último, el axioma 3 plantea la
existencia de un parámetro λ que representa la cantidad promedio de eventos que
se producen en un intervalo de tiempo de longitud unitaria y que permanece cons-
tante en el tiempo. En el caso de un proceso de Poisson espacial homogéneo como
el que estamos tratando, λ viene a representar la cantidad promedio de bacterias
por cuadrante (de área unitaria) observados en el plato de Petri.
Una consideración importante en el estudio de los procesos de Poisson espa-

ciales es la distancia entre un punto y su vecino más cercano. Se da a continuación
un teorema que especifica la distribución de la distancia7 :
7
Ver Parzen (1962), pp. 32-33
Teorema 5.2 (Distribución de la distancia al vecino más cercano en la distribución

de partı́culas según un proceso de Poisson espacial). Sea D la distancia entre
una partı́cula y su vecino más cercano en una distribución de partı́culas en el
plano según un proceso de Poisson espacial con tasa promedio de λ partı́culas
por unidad de área, entonces la función de densidad de D es:
2
fD (y) = 2λπ.e−λπy (5.3.1)
En el caso en que las partı́culas se distribuyen en el espacio tridimensional con

una tasa promedio de λ partı́culas por unidad de volumen, entonces la función de
densidad de D es:
4 3
fD (y) = 4λπy2 .e− 3 λπy (5.3.2)
Demostración
(caso bidimensional)
Primero, obsérvese que P{D > y} denota la probabilidad de que un circulo de

radio y con área πy2 contenga cero partı́culas por lo tanto
2
P{D > y} = P{N(πy2 )} = 0} = e−πλy
Ahora bien, el evento P{D > y} es complementario al evento P{D ≤ y} de donde

podemos obtener la expresión para la función de distribución de probabilidad de D:
2
FD (y) = P{D ≤ y} = 1 − P{D > y} = 1 − e−πλy
Y si derivamos con respecto a y obtenemos la función de densidad:
2
fD (y) = FD′ (y) = 2λπy · e−πλy
La función de densidad de D para el proceso de Poisson tridimension al se

obtiene mediante un procedimiento similar. Observando la forma funcional 4.8a (el
caso tridimensional es parecido) nos damos cuenta que D sigue una distribución
de Weibull 8 , cuya función de densidad se caracteriza por dos parámetros α y β:
8
Ver Devore (2001), p. 176
α
α x
−
f (x; α, β) = α xα−1 · e β
β
para x ≥ 0 , cuya esperanza y varianza son:

E[D] = β · Γ 1 + α1
y
2
V [D] = β2 · Γ 1 + α2 − Γ 1 + α1
Γ es, como sabemos, la archiconocida función gamma cuya definición y propieda-

des se dan en la Tabla 1.2. Todo encaja a la perfección si α = 2 y β = √1 .
π.λ
5.4. Distribución del tiempo inter-eventos en un proceso

de Poisson
Una forma alternativa de estudiar un proceso de Poisson es mediante la obser-

vación de los tiempos que transcurren entre eventos sucesivos, en contraposición a
observar la cantidad de eventos que se producen en un lapso de
tiempo de longitud fija, como hemos venido ha-
ciendo hasta ahora. Para ilustrar esto, supónga-
se que estamos interesados en estudiar el pro-
ceso asociado a la llegada de clientes a un ban-
co. Es este contexto, consideraremos que se
produce un evento cuando un cliente entra por
la puerta principal del banco. ¿Es razonable su-
poner que estos eventos se producen conforme
a un proceso de Poisson? Vamos a analizar la
situación (de la llegada de clientes a un banco)
a la luz de los axiomas que definen al proce-
so de Poisson y verificar, a grosso modo y de “Petroleum & Cactus bank”
manera intuitiva, si se cumplen las condiciones Viñeta en “Tintin en America”
mencionadas. Herge
5.4. DISTRIBUCIÓN DEL TIEMPO INTER-EVENTOS 143
Una de las condiciones para que el fenómeno bajo estudio califique como un
proceso de Poisson es que los incrementos sean independientes (Axioma 1). Ha-
biendo definido “evento” como la llegada de un cliente al banco, un incremento serı́a
la cantidad de clientes que llegan al banco entre dos instantes de tiempo determi-
nados. En circunstancias normales, las personas acuden al banco para realizar
diligencias independientemente de otras personas que también acuden a realizar
tramites al banco. En otras palabras, normalmente las llegadas de clientes al ban-
co se producen por causas externas al funcionamiento del banco. Esto es algo
caracterı́stico de otros fenómenos, como por ejemplo las fallas que se producen
en componentes eléctricos, que se deben generalmente en picos de voltaje (altos
o bajos) y no al tiempo que lleva funcionando el componente (cuando el funcio-
namiento del componente no supone desgaste del mismo). En contraposición, las
fallas debido a desgaste mecánico (por ejemplo, un motor a gasolina) no tienen
esta caracterı́stica. En general, cuando los eventos se producen debido a causas
ajenas al funcionamiento del sistema bajo estudio, se cumple la condición de incre-
mentos independientes exigida por el Axioma 1. Podemos, no obstante, hacer un
pequeño ejercicio de imaginación para enumerar algunas situaciones en las cuales
las llegadas de clientes a un banco en intervalos de tiempo no supérpuestos no
fuesen independientes:
Entre las 9:00 y 9:15 am llegaron muchos clientes al banco. Un cliente que
llega después, digamos a las 9:23am, observa que el banco está lleno y
decide no entrar al banco para volver luego cuando no haya tanta cola. Aún
ası́, a las 9:23am se produjo efectivamente una llegada de cliente al banco
y los motivos por los cuales ese cliente fue al banco eran independientes de
las razones que tenian los clientes que llegaron más temprano.
Algunos de los clientes que llegaron al banco en ese lapso de tiempo (en-
tre 9:00 y 9:15am), al ver que el banco estaba llenándose, le avisaron a
sus allegados para informarles que habı́a mucha gente en el banco. Con-
secuentemente, la tasa de llegadas al banco durante el resto de la mañana
disminuyó. Uno pudiése preguntarse: ¿cuál es la proporción de clientes que
llegan a un banco y conocen otros que tengan que hacer diligencias en ese
mismo banco ese mismo dı́a?
Algunos de los clientes que llegaron al banco esa mañana no eran clientes
normales, sinó hampones que vinieron a atracar el banco. En consecuencia,
durante el atraco y el posterior despliegue de fuerzas de seguridad alrededor
del banco, no llegaron más clientes al banco esa mañana. Sin embargo, ¿con
qué frecuencia ocurren atracos a una misma agencia de un banco?
Algunos clientes no llegan solos, sino en grupo. En este caso, los motivos por
los cuales esos clientes fueron al banco no son independientes. En efecto,
si llegan varios clientes al mismo tiempo, se estarı́a violando además las
condiciones pleanteadas en el Axioma 3, según el cual la probabilidad de que
dos o más eventos ocurran en un mismo lapso de tiempo infinitesimalmente
corto es virtualmente nula.
La segunda condición se refiere a la estacionariedad de los incrementos. Tra-

ducido al contexto de la llegada de clientes a un banco, esto quiere decir que la tasa
de llegada (también llamada intensidad de flujo, dada por el parámetro λ) debe ser
constante durante el periodo de tiempo considerado. Atención, esto no quiere decir
que siempre llegará la misma cantidad de clientes por hora al banco. Si fuese ası́,
no se tratarı́a de un proceso estocástico. Evidentemente, la llegada de clientes al
banco es variable y aleatoria, pero si la tasa de llegada es constante, el promedio
de clientes por hora que llegan al banco sı́ es constante. En un dı́a de banco “nor-
mal”, esto ocurre. Sin embargo, no cuesta mucho imaginarse escenarios donde la
tasa de llegada de clientes a un banco varı́a de un momento a otro:
Durante los dı́as de quincena o los viernes (pago semanal de obreros), llegan
más clientes al banco para cobrar su salario.
En un dı́a normal, la tasa de llegada de clientes puede variar según la ho-

ra, produciéndose más llegadas en horas pico, cuando la gente sale de su
trabajo, por ejemplo.
Según el Axioma 3, la probabilidad de que dos o más eventos ocurran en un

mismo lapso de tiempo infinitesimalmente corto es virtualmente nula. Sin embargo,
no es difı́cil imaginarse momentos en los cuales entran varios clientes al banco al
mismo tiempo, como por ejemplo aquél que mencionamos arriba de varios clientes
que llegan en grupo. No obstante, por razones de seguridad la mayorı́a de los ban-
cos restringen la entrada a una persona a la vez y en efecto los clientes terminan
no entrando todos al mismo tiempo.
Los ejemplos que citamos arriba de condiciones bajo las cuales se violan los
supuestos teóricos de los procesos de Poisson son de hecho desviaciones del
proceso de Poisson homogéneo que venimos estudiando ahora y conducen a otros
tipos de Procesos de Poisson (compuestos, no homogéneos, etc.) que se verán
luego. Por ahora supongámos que la llegada de clientes al banco se da según
un proceso de Poisson simple, u homogéneo. ¿Cuales otras caracterı́sticas tiene
este proceso? Claramente, el tiempo que transcurre entre dos llegadas de clientes
sucesivas varı́a de manera aleatoria, pero, ¿cómo se distribuye en tiempo entre
llegadas sucesivas? Vamos a considerar pues el proceso estocástico asociado a
los tiempos inter-eventos (el tiempo que transcurre entre dos llegadas sucesivas de
clientes):
{Tn |n ∈ N+ }
La secuencia aleatoria {Tn |n ∈ N+ } es de parámetro dicreto, porque Tn denota

el tiempo transcurrido entre la llegada del n − 1-ésimo cliente y el n ésimo cliente.
Sin embargo, cada una de estas variables debe tener una distribución continua.
Supongamos pues que {Tn |n ∈ N + } es una secuencia de variables mutuamen-
te independientes e idénticamente distribuidas según una distribución exponencial
con parámetro λ (ver problema propuesto N° 18). La función de densidad de pro-
babilidad para cada Tn es entonces:
fTn (t) = λe−λt , λ,t > 0
Si estamos interesados en conocer la probabilidad de esperar t segundos o menos

hasta que entre el siguiente cliente por la puerta del banco, dicha probabilidad
podrá calcularse mediante la función de distribución de probabilidad acumulada de
la exponencial:
P(Tn ≤ t) = 1 − e−λt , λ,t > 0
Recordemos además que si los Tn son exponencialmente distribuidos, cabrı́a

esperar en promedio λ1 minutos (o cualquier otra unidad de tiempo conveniente)
entre llegadas sucesivas de clientes porque E[Tn ] = λ1 . Obsérvese que mientras
mayor es λ menor es, en promedio, el lapso de tiempo transcurrido entre dos lle-
gadas sucesivas de clientes. Por esta razón, λ es conocida como la intensidad de
flujo o frecuencia del tráficointensidad de flujo 9 . En base a {Tn |n ∈ N+ } podemos
definir una caminata aleatoria {Sn |n ∈ N+ } del siguiente modo:
n
Sn = ∑ Ti
i=1
9
Ver sección 5.2 en la descripción del axioma 3.
Cada Sn representa el tiempo total que transcurre desde un instante 0 hasta la

llegada del n-ésimo cliente. ¿Se puede deducir de algún modo la distribución de
probabilidad de los Sn ? Teniendo en cuenta que Sn es una suma de n variables
independientes e idénticamente distribuidas, se puede deducir mediante el uso de
la función caracterı́stica o el desarrollo de las convulsiones que Sn es una variable
distribuida según la ley de Erlang (ver tabla 1.2 , distribución Gamma). Por lo tanto,
su función de densidad es:
λ
fSn (t) = (λt)n−1 e−λt , λ,t > 0
(n − 1)!
La pregunta crucial es: Si N(t) es un proceso de conteo que representa la

cuenta total de clientes que han entrado al banco hasta el instante de tiempo t ,
¿Cómo se distribuye N(t) si los tiempos inter-arribos son independientes e idénti-
camente distribuidos según la ley exponencial? Veamos: N(t) = n representa el
suceso que se produce cuando han entrado exactamente n clientes al banco en
el transcurso de [0,t] minutos. Este suceso es equivalente al siguiente: “El tiempo
hasta que llega el n-ésimo cliente es menor que t y el siguiente cliente (el n + 1 ési-
mo) llega después de t ”. Entonces, tenemos una equivalencia entre los siguientes
dos sucesos (que se debe demostrar en el problema propuesto N° 19):
{N(t) = n} = {Sn ≤ t} − {Sn+1 ≤ t}
Por ser ambos sucesos equivalentes, sus probabilidades son iguales y se tiene que
P{N(t) = n} = P{Sn ≤ t} − P{Sn+1 ≤ t}

Zt Zt
λ λ
= (λx)n−1 e−λx dx − (λx)n e−λx dx
(n − 1)! n!
0 0
Integrando por partes la expresión en el extremo derecho tenemos:
Zt Zt
λ (λt)n λ
P{N(t) = n} = (λx)n−1 e−λx dx + e−λt − (λx)n−1 e−λx dx
(n − 1)! n! (n − 1)!
0 0
(λt)n
= e−λt
n!
Acabamos de establecer que cuando los tiempos de espera inter-eventos son

exponencialmente distribuidos con el mismo parámetro λ (la misma intensidad de
tráfico), el proceso resultante es un proceso de Poisson. Se puede demostrar tam-
bién, aunque no se hará en esta exposición, que los tiempos inter-eventos de un
proceso de Poisson homogéneo son exponencialmente distribuidos con el mismo
parámetro λ. En resumen, establecemos el siguiente teorema:
Teorema 5.3 (Sobre la distribución de los tiempos inter-eventos en un proceso

de Poisson homogéneo). Sea {N(t)|t > 0} un proceso de Poisson homogéneo
con tasa de intensidad de flujo igual a λ. Entonces, el tiempo entre dos eventos
sucesivos se distribuye según una ley de probabilidad exponencial con densidad
fTn (t) dada por:
fTn (t) = λe−λt , λ,t > 0
Recı́procamente, un proceso estocástico en el cual los tiempos entre eventos se
distribuyen según una ley de probabilidad exponencial es un proceso de Poisson
homogéneo.
Esta caracterización del proceso de Poisson tiene una consecuencia de capital

importancia práctica para nosotros: para simular un proceso de Poisson en el
tiempo, debemos generar una secuencia de números aleatorios exponencial-
mente distribuidos. La suma acumulada de dicha secuencia representará en-
tonces los tiempos exactos en que suceden los eventos de tipo Poisson.
Ya desde el comienzo de esta unidad planteamos la relación que existe entre

el proceso estocástico asociado a la cantidad de éxitos en n ensayos de bernoulli
(ver la sección 4.2) y el proceso de Poisson homogéneo, sintetizada en el Teorema
5.1. Pero en la siguiente sección en la unidad sobre caminatas aleatorias de este
libro10 , se estableció que la cantidad de ensayos entre dos éxitos sucesivos se
distribuye según una ley de probabilidad geométrica11 . En esta sección, acabamos
de plantear que en un proceso de Poisson, los tiempos inter-eventos se distribuyen
exponencialmente. Todo esto nos induce a preguntarnos, ¿de qué manera están
relacionadas la distribución geométrica y la distribución exponencial?
Una relación entre ambas distribuciones es que ambas gozan de la propie-

dad de “falta de memoria”12 : un éxito (respectivamente, un evento) puede ocurrir
en cualquier momento independientemente de cuantos ensayos (respectivamen-
te, tiempo) ha transcurrido sin que haya transcurrido desde el éxito (resp. evento)
10
Ver sección 4.3.
11
Ver la Proposición 4.2.
12
Ver problemas propuestos N° 6 y N° 7 de la unidad 3.
pasado. Tanto para la caminata aleatoria basada en el número de éxitos en ensa-

yos de Bernoulli o el proceso de Poisson homogéneo, esto es coherente con las
propiedades definitorias de estos procesos, una de las cuales es que los tiempos
de espera (o la cantidad de ensayos que transcurren) entre eventos sucesivos son
independientes entre sı́.
La otra relación es que la distribución exponencial se deduce como caso lı́mite

de la distribución geométrica, completamente análogo con lo que plantea el Teore-
ma 5.1:
Proposición 5.4 (La distribución exponencial como caso lı́mite de la distribución

geométrica). En una caminata aleatoria basada en ensayos de Bernoulli, sea X
la cantidad de ensayos entre dos éxitos sucesivos una variable aleatoria distribui-
da geométricamente. Supóngase además que la unidad de tiempo se subdivide
de tal forma que la cantidad n de ensayos realizados de manera constante en
una unidad de tiempo tiende al infinito, pero la proporción de éxitos por unidad de
tiempo permanece constante (λ = np). Entonces, si cada ensayo se realiza en n1
unidades de tiempo, el tiempo T que transcurre entre dos éxitos es exponencial-
mente distribuido con parámetro λ.
Demostración
Consideramos la relación entre el número de ensayos x que se realizan y el tiempo
t en que se realizan los ensayos dada por
x
t = h(x) =
n
−1
x = h (t) = tn
Además, teniendo en cuenta que mientras n → ∞, la tasa de intensidad de flujo

λ = np permanece constante, esto implica que p → 0, pues p = λn . Se aplicará en-
tonces el Teorema 1.1 para determinar la función de densidad de probabilidad del
tiempo T que transcurre entre dos eventos sucesivos a partir del paso al lı́mite de
la función de probabilidad geométrica correspondiente al número de ensayos entre
dos éxitos, la cual, recordando el repaso de la unidad 1 es
gX (x) = (1 − p)x−1 p

−1
dx
fT (t) = n→∞
lı́m gX h (t)
λ=np
dt

λ tn−1 λ
= lı́m 1 − n
n→∞ n n
= λ · e−λt
En consecuencia, la distribución de T es la exponencial, como se querı́a demostrar.
Podemos resumir la relación entre el proceso de Poisson homogéneo y las

caminatas aleatorias basadas en ensayos de Bernoulli mediante la siguiente tabla:
Tabla 5.3: El proceso de Poisson homogéneo como paso al lı́mite de las caminatas
aleatorias basadas en ensayos de Bernoulli
Tiempo
Tiempo continuo
Tiempo discreto
Caracterı́stica (segundos, minutos,
(numero de ensayos)
etc.)
Cantidad de éxitos (resp.
Distribución Distribución
eventos) en n ensayos (resp.
binomial de Poisson
en un lapso de tiempo t )
Cantidad de ensayos entre
Distribución Distribución
éxitos (resp. tiempo entre
geométrica exponencial
eventos)
Cantidad de ensayos hasta Distribución Distribución
el r-ésimo éxito (resp. tiem- binomial de Erlang
po entre r eventos) negativa (Gamma)
5.5. La distribución uniforme de los tiempos de ocurren-

cia de sucesos en un proceso de Poisson
En las caracterizaciones del proceso de Poisson homogéneo que hemos plan-

teado, se ha insinuado que los axiomas 1 y 2 referentes a la independencia y esta-
cionariedad de los incrementos causan una distribución uniforme y completamente
aleatoria de los sucesos en la dimensión temporal (o espacial, si se quiere). De
hecho, el proceso de Poisson homogéneo se conoce como el proceso completa-
mente aleatorio ya que distribuye los sucesos sobre el intervalo temporal infinito
[0, ∞) de la misma forma en que se distribuyen puntos sobre un intervalo finito bajo
la distribución uniforme. Vamos a ilustrar mediante un ejemplo lo que se pretende
establecer. Supóngase que en un horizonte de 0 a 20 unidades de tiempo observa-
mos un proceso de Poisson y que además, en esa “ventana de tiempo” ocurrieron
exactamente k sucesos de cierto tipo, tal como se muestra en la gráfica a continua-
ción (Fig. 5.3). Adicionalmente, el suceso N°k + 1 ocurrió después del instante de
tiempo t = 20.
Figura 5.3: Una realización de un proceso de Poisson donde se observan k eventos

que ocurrieron en el horizonte de tiempo de 0 a 20.
El resultado que se pretende establecer es el siguiente: si distribuimos la misma

cantidad k de puntos de forma aleatoria y según la distribución uniforme sobre el
intervalo temporal de 0 a 20, el resultado que vamos a observar es muy similar al
de la Fig. 5.3:
Figura 5.4: Distribución de k puntos sobre el intervalo[0,20], según la distribución

uniforme.
5.5. EL PROCESO DE POISSON Y LA DISTRIBUCIÓN UNIFORME 151
Es instructivo ojear el código de R que genera estas gráficas:
1 # ----------------------------------------------------------------
2 # 5_1. R
3 # Distribucion de aleatoria de puntos sobre una recta , segun
4 # a) la distribucion uniforme
5 # b) la distancia entre puntos es exponencial ( Poisson )
7 # fecha : 24/08/2011
8 # ----------------------------------------------------------------
9 png(" poisson -y - uniforme %02d. png ")
10 # primero se simula el proceso de poisson desde 0 a tmax unidades
11 # de tiempo
12 alfa <- 1
13 tmax <- 20/alfa
14 tiempos.de.llegada <- NULL
15 tiempo <- 0
16 while (tiempo < tmax) {
17 tiempo <- tiempo + rexp(alfa)
18 tiempos.de.llegada <- c(tiempos.de.llegada,tiempo)
19 }
20 l <- length(tiempos.de.llegada)
21 tiempos.de.llegada <- tiempos.de.llegada[1:(l-1)]
22 plot(x=c( -2 ,tmax+2) ,y=c(0 ,0) ,type="n" ,axes=FALSE,xlab="" ,
23 ylab="")
24 points(x=tiempos.de.llegada,y=rep(0 ,l-1) ,col=" steelblue2 " ,
25 cex=1.5 ,bg=" steelblue4 " ,pch=21)
26 axis(1 ,pos=0 ,at=seq(from=0 ,to=tmax,by=5) ,
27 labels=seq(from=0 ,to=tmax,by=5))
28 # se distribuye la misma cantidad de eventos sobre la recta
29 # mediante la distribucion uniforme
30 uniforme <- runif(n=l-1 ,min=0 ,max=tmax)
31 plot(x=c( -2 ,tmax+2) ,y=c(0 ,0) ,type="n" ,axes=FALSE,xlab="" ,
32 ylab="")
33 points(x=uniforme,y=rep(0 ,l-1) ,col=" tomato " ,
34 cex=1.5 ,bg=" tomato4 " ,pch=21)
35 axis(1 ,pos=0 ,at=seq(from=0 ,to=tmax,by=5) ,
36 labels=seq(from=0 ,to=tmax,by=5))
En este programa estamos incorporando la lección más importante aprendida

en el aparte anterior: para obtener los tiempos de ocurrencia de los eventos en
la simulación de un proceso de Poisson, deben obtenerse muestras de números
aleatorios exponencialmente distribuidos. En efecto, esto es lo que se realiza en
la primera parte del código, donde se generan los “tiempos de llegada” dentro de
una ventana temporal entre 0 y tmax . Viendo las dos gráficas, se podrá notar lo
siguiente:
1. La distribución de los puntos en una gráfica y en otra no son idénticas, pe-

ro son muy similares. Esto se debe a que el mecanismo aleatorio que las
genera es idéntico en una y en otra, resultado que pretendemos demostrar
matemáticamente en lo que sigue.
2. Hay cierta tendencia en ambas figuras a que los puntos se aglomeren unos
muy cercanos a otros. De hecho, hay algunos puntos que casi coinciden (son
aquellos cı́rculos muy pegados unos de otros). En la realización del proce-
so de Poisson esto tiene una explicación muy sencilla: la distancia (tiempo)
que media entre dos sucesos consecutivos es distribuida exponencialmen-
te, como se demostró en la sección anterior. La distribución exponencial es
muy sesgada hacia la izquierda, de modo que es más frecuente tener distan-
cias entre puntos muy cortas. Lo mismo ocurrirá con la distribución uniforme,
pues como se va a demostrar, se trata del mismo fenómeno aleatorio.
Previo a la demostración, vamos a introducir una idea que quizás no le sea fa-
miliar: el concepto de lo que es un estadı́stico de orden. Supongamos que tenemos
una secuencia de k variables aleatorias idénticamente distribuidas e independien-
tes entre sı́. En el ámbito de la inferencia estadı́stica, tal secuencia se conoce como
muestra aleatoria, porque se supone que las variables se corresponden a obser-
vaciones hechas a una población. Para hacer inferencias a partir de una mues-
tra, componemos los valores de la misma para calcular lo que se conoce como
estadı́stico, que no es más que una función (multivariada) de la muestra, compo-
nemos los valores de la misma para calcular lo que se conoce como estadı́stico,
que no es más que una función (multivariada) de la muestra.Los estadı́sticos de
orden son simplemente un ordenamiento de menor a mayor de los elementos de la
muestra. Ası́, para una secuencia de k variables aleatorias U1 ,U2 , . . . ,Uk , los es-
tadı́sticos de orden U(1) ,U(2) , . . . ,U(k) se obtienen ordenando la secuencia original
según su magnitud, de modo que siempre se cumple que: U(1) ≤ U(2) ≤ . . . ≤ U(k) .
En particular, estaremos interesados en conocer cual es la función de densidad
conjunta de los estadı́sticos de orden basados en una muestra aleatoria tomada de
una población uniformemente distribuida en el intervalo [0, T ]:
k!
fU(1) ,U(2) ,...,U(k) (t1 ,t2 , . . . ,tk ) = cuando 0 ≤ t1 ≤ t2 ≤ . . . ≤ tk ≤ T (5.5.1)
Tk
El término T1k al lado derecho de la ecuación proviene del hecho de ser los
U(1) ,U(2) , . . . ,U(k) uniformemente distribuidos en el intervalo [0, T ] y de ser mutua-
mente independientes (la función de densidad conjunta es la productoria de las
respectivas funciones de densidad). El termino k! proviene de observar que hay

k! posibles ordenamientos (o permutaciones, si se quiere) de los elementos de la
secuencia U1 ,U2 , . . . ,Uk y todos generan la misma secuencia U( 1),U( 2), . . . ,U( k).
Por otro lado, supongamos que N(T ) = k, lo que equivale a decir que has-
ta el instante de tiempo T , han ocurrido exactamente k sucesos de tipo Poisson.
Más precisamente, dado que N(T ) = k, la probabilidad (condicional) de que en ca-
da uno de los subintervalos [t1 ,t1 + ∆t1 ], . . . , [tk ,tk + ∆tk ] del intervalo [0, T ] ocurra
exactamente un suceso y fuera de estos subintervalos no ocurra ningún suceso es:
λ∆t1 e−λ∆T1 · · · λ∆tk e−λ∆tk · e−λ(T −∆t 1−...−∆tk ) ∆t1 · · · ∆tk · k!

k =
e−λT · (λTk!) Tk
Esta probabilidad se puede expresar en función de los instantes S1 < S2 < ... <
Sk < T en que se producen los k sucesos, de modo que:

P t1 ≤ S1 ≤ t1 + ∆t1 , . . . ,tk ≤ Sk ≤ tk + ∆tk |N(T ) = K k!
=
∆t1 · · · ∆tk Tk
La notación “delta-t” en los subintervalos [t1 ,t1 + ∆t1 ], . . . , [tk ,tk + ∆t] se uti-
lizó con el propósito expreso de sugerir que la expresión a la izquierda de 4.11 es
una función de densidad conjunta (condicional) si hacemos tender los ∆ti a cero
(recordemos que la función de densidad es la derivada de la función de distribución
de probabilidad). Con todo esto, tenemos en definitiva que:
K!
fS1 ,S2 , ..., Sk t1 ,t2 , ...,tk |N(T ) = K = k cuando 0 ≤ t1 ≤ t2 ≤ .... ≤ tk ≤ T
T
(5.5.2)
Y esto es exactamente igual a la expresión en 5.5.1. Hemos demostrado el

siguiente teorema:
Teorema 5.5 (Relación entre el proceso de Poisson y la distribución uniforme).

Sea {N(t)|t ≥ 0} un proceso de Poisson homogéneo con parámetro λ. Bajo
la condicion N(T ) = K , los tiempos en que ocurren los k sucesos de poisson
S1 < S2 < . . . < Sk son variables aleatorias con la misma distribución que los
estadı́sticos de orden correspondientes a k variables aleatorias independientes
U1 ,U2 , . . . ,Uk distribuidas uniformemente en el intervalo [0, T ]
Con esta información, vamos a echar un segundo vistazo al problema del en-
cuentro visto en la sección 2.4. Recordemos que el problema era determinar con
cual probabilidad se encuentran dos personas si el tiempo de llegada de cada uno
es uniformemente distribuido en el lapso de una hora e independiente del otro y
además el que llega primero no espera mas de 10 minutos (1/6 de hora) por el
otro. No es que hayamos abordado el problema mal en aquella oportunidad, pe-
ro ahora, mediante una simulación e interpretando el Teorema 5.5, lo haremos de
nuevo.
Simulando los tiempos de ocurrencia de eventos en un proceso de Poisson

con una tasa lambda arbitraria (en la simulación realizamos corridas con distintos
valores de lambda), consideramos solo los casos en los cuales el segundo suceso
haya sucedido antes de la hora y el tercero después de la hora. Esto redunda en
que se cumple la hipótesis del teorema, a saber, que han sucedido dos eventos de
tipo Poisson en el lapso de una hora, o N(1) = 2 . El Teorema 5.5 nos asegura que
bajo esta condición, los tiempos de ocurrencia de los dos sucesos 0 < S1 < S2 < 1
se distribuyen igual que los estadı́sticos de orden correspondientes a dos variables
aleatorias independientes y uniformemente distribuidas entre 0 y 1. La tesis del
teorema es la que nos permite calcular la probabilidad requerida: tan solo tenemos
que calcular la proporción de casos de la simulación (que cumplen la hipótesis)
donde el tiempo de ocurrencia del segundo evento dista en menos de 10 minutos
(1/6 de hora) del tiempo del primer evento.
Cabe preguntarse si el valor del parámetro del proceso de Poisson no afecta

el resultado. El siguiente código simuló N=10000 corridas en las cuales ocurrı́an
exactamente dos sucesos de Poisson en una hora para cada λ ∈ {2, 4, 6, 8, 10}.
Sorprendentemente, las probabilidades no varı́an según el valor de lambda y en
conjunto, no difieren mucho del valor teórico calculado en la sección 2.4 (que era
de 0, 3055).
> N <- 10000
> for (lambda in seq(from=2,to=10,by=2)) {
+ cnt <- 0
+ muestra <- NULL
+ while (cnt<N) {
+ x <- cumsum(rexp(lambda,n=3))
+ if ((x[2]<1)&(x[3]>1)) {
+ muestra <- c(muestra,x[2]-x[1])
+ cnt <- cnt+1
+ }
+ }
+ cat("lambda=",lambda,"probabilidad=",
+ mean((muestra<1/6)),"\n")
+ }
lambda= 2 probabilidad= 0.3078

>
Para darle más sustento empı́rico al Teorema 5.5, se obtuvo un histograma

de frecuencias contrastando las densidades empı́ricas con la función de densidad
teórica (la lı́nea roja) mediante el script 5 2.R de abajo. Dicho gráfico se incluye en
la Fig. 5.5: llama la atención la similitud entre este y el de la sección 2.4. Por su-
puesto, el abordaje que se le hizo a este problema en la sección 2.4 es más natural
y más directo que el que hicimos ahora. Además, el script 5 2.R es muchı́simo más
lento que el script 2 5.R, debido al uso del while, que es mucho más ineficiente
que la generación vectorizada de la muestra en el script 2 5.R. Con todo, la idea es
afianzar el conocimiento intuitivo sobre lo que establece el Teorema 5.5 y sobre las
condiciones necesarias para su validez. Se vuelve a recalcar que el valor particular
del parámetro λ no esta entre estas condiciones necesarias.
1 # ----------------------------------------------------------------
2 # 5_2. R
3 # El problema del encuentro revisitado .
5 # fecha : 24/08/2011
6 # ----------------------------------------------------------------
7 png(" encuentro2_r. png ")
8 N <- 1000000
9 lambda <- 2
10 dif <- NULL
11 cnt <- 0
12 while (cnt < N) {
13 x <- cumsum(rexp(lambda,n=3))
14 if (x[2] <1 & x[3] >1) {
15 dif <- c(dif,x[2] -x[1])
16 cnt <- cnt + 1
17 }
18 }
19 hist(dif,br=60 ,right=FALSE,freq=FALSE,
20 main=" Histograma de frecuencia " ,
21 ylab=" denisdad de probabilidad empirica ")
22 abline(a=2 ,b= -2 ,col=" red ")
23 legend(x=0.4 ,y=1.5 ,legend=" Funcion de densidad teorica " ,
24 fill=" red ")
Las implicaciones del Teorema 5.5 se pueden enlazar con todo lo que hemos
visto hasta ahora del proceso de Poisson homogéneo, en particular,las considera-
Figura 5.5: Densidades empı́rica y teórica para el problema del encuentro en la

sección 2.4. calculadas haciendo uso de la relación entre la distribución uniforme y
el proceso de Poisson homogéneo.
ciones que hicimos para los procesos de Poisson espaciales. De hecho, las con-
diciones de estacionariedad e independencia de los incrementos, que caracterizan
al proceso de Poisson homogéneo implican que en cualquier punto de una deter-
minada área existe igual probabilidad de ocurrir un suceso que en otro lugar.En la
terminologı́a del Teorema 5.5, dirı́amos que el proceso de Poisson espacial distri-
buye puntos sobre un área o volumen uniformemente.
Hemos visto como obtener los momentos de ocurrencia (en el tiempo) de su-
cesos de un proceso de Poisson para hacer simulaciones. Pero, ¿cómo podrı́amos
obtener los lugares de ocurrencia para hacer simulaciones de procesos de Poisson
espaciales? Esto nos trae de vuelta a la figura 5.2 de la sección 5.3, en la cual se
representaba una supuesta colonia de bacterias vistas a través de un microscopio.
En realidad, la imagen fue generada por un script en R que simula la distribución
de puntos en el espacio cuando esa distribución se da conforme a un proceso de

Poisson espacial. Se le sugiere al lector revisar dicho script detenidamente:
1 # ---------------------------------------------------------------
2 # 5_3. R Simulacion de una colonia de bacterias en un plato
3 # de Petri .
5 # fecha : 22/08/2011
6 # ---------------------------------------------------------------
7 # revisa " colors ()" para una lista de colores
8 png(" platopetri . png ")
9 plot(x=c( -2 ,2) ,y=c( -2 ,2) ,
10 type="n" ,xlab="" ,ylab="" ,asp=1 ,axes=FALSE)
11 # dibuja el plato de petri
12 curve(sqrt(4 -xˆ2) ,from= -2 ,to=2 ,col=" darkgray " ,lwd=4 ,add=TRUE)
13 curve(-sqrt(4 -xˆ2) ,from= -2 ,to=2 ,col=" darkgray " ,lwd=4 ,add=TRUE)
14 # resalta los cuadros internos
15 rect(xleft= -1 ,ytop=1.5 ,xright=1 ,ybottom= -1.5 ,border=NA,
16 col=" khaki ")
17 rect(xleft= -1.5 ,ytop=1 ,xright=1.5 ,ybottom= -1 ,border=NA,
18 col=" khaki ")
19 # dibuja el reticulado
20 abline(v=seq(from= -2 ,to=2 ,by=0.5) ,lty=3 ,lwd=1.5 ,col=" steelblue ")
21 abline(h=seq(from= -2 ,to=2 ,by=0.5) ,lty=3 ,lwd=1.5 ,col=" steelblue ")
22 # dibuja las bacterias
23 N <- 80
24 x <- runif(n=N* 2,min= -2 ,max=2)
25 y <- runif(n=N* 2,min= -2 ,max=2)
26 xd <- x[which(xˆ2 + yˆ2 <= 3.8)]
27 yd <- y[which(xˆ2 + yˆ2 <= 3.8)]
28 points(xd,yd,pch=19 ,col=" darkolivegreen " ,
29 cex=rnorm(n=length(xd),mean=0.6 ,sd=0.1))
30 # cuentalas
31 cuenta <- function(x0,x1,y0,y1) {
32 cnt <- sum(as.numeric((xd>=x0 & xd<x1 & yd>=y0 & yd <y1)))
33 text(x=mean(c(x0,x1)) ,y=mean(c(y0,y1)) ,
34 as.character(cnt),col=" black " ,cex=1.2 ,
35 family=" mono " ,font=2)
36 }
37 for (x in c( -1 , -0.5 ,0 ,0.5))
38 for (y in c(1 ,0.5 ,0 , -0.5 , -1 , -1.5))
39 cuenta(x,x+0.5 ,y,y+0.5)
40 for (y in c(0.5 ,0 , -0.5 , -1)) {
41 cuenta( -1.5 , -1 ,y,y+0.5)
42 cuenta(1 ,1.5 ,y,y+0.5)
43 }
Por otro lado, vista la relación entre la uniforme y la exponencial que se da en el

proceso de Poisson, cuando se distribuyen puntos en el espacio de forma comple-
tamente aleatoria y uniforme, ocurre cierto aglutinamiento, como el que se observa

en las colonias de bacterias de la figura 5.2 o en las figuras 5.3 y 5.4. ¿Quizás
por eso es que las estrellas y otros cuerpos celestes forman conglomerados como
galaxias y constelaciones?
5.6. Problemas resueltos

Cierta enfermedad no contagiosa afecta en promedio a una persona de cada mil en
la población. ¿Cuál es la probabilidad de que ocurran al menos dos casos, ningún
caso y exactamente un caso en un pueblo de 3000 habitantes?
Solución
Como la enfermedad es no contagiosa, su presencia en cualquier habitante del
pueblo es independiente del resto de las personas. Por lo tanto un modelo razo-
nable de la situación es suponer que se trata de 3000 ensayos de Bernoulli con
probabilidad de éxito de 0,001. Usamos en este caso la aproximación de Poisson
con parámetro λ = np = 3, de donde obtenemos:
P{X = 0} = e−λ = e−3 = 0, 0498

P{X = 1} = e−λ · λ = 3e−3 = 0, 1494
P{X ≥ 2} = 1 − (P{X = 0} + P{X = 1}) = 0, 8008

Sea {N(t)|t ≥ 0} un proceso de Poisson homogéneo con parámetro λ = 8. Calcule
P{N(2, 5) = 15, N(3, 2) = 19, N(4, 5) = 32}.
Solución
El evento cuya probabilidad deseamos calcular se puede escribir como P{N(2, 5) =
15, N(3, 2) − N(2, 5) = 4, N(4, 5) − N(3, 2) = 13} y sabemos que una de las ca-
racterı́sticas del proceso de Poisson es la de poseer incrementos estacionarios e
5.6. PROBLEMAS RESUELTOS 159
independientes, de donde la probabilidad que deseamos calcular es:
P{N(2, 5) = 15} · P{N(0, 7) = 4} · P{N(1, 3) = 13}

2015 · (5, 6)4 · (10, 4)13
= e−8(2,5+0,7+1,3 · = (2, 34) · 10−6
17!4!13!

Los clientes llegan a la sucursal de un banco de acuerdo con un proceso de Pois-
son homogéneo de intensidad λ. Se sabe que en el intervalo [0, T ] ha llegado
exactamente un cliente. Determine cuál es la distribución de la variable aleatoria X
que representa el instante en el que llega el cliente, condicionada a la información
de la que disponemos.
Solución
Para determinar completamente la distribución de la variable aleatoria X , basta con
determinar el valor del parámetro λ, pues se sabe que {X(t)|t ≥ 0} es un proceso
de Poisson homogéneo. Una forma de abordar el problema serı́a ası́:
λ representa la cantidad de eventos, en promedio, que ocurren en una unidad de

tiempo. En base a la evidencia, ocurrió un evento en T unidades de tiempo. Por lo
tanto, para estimar λ en base a esta información podrı́amos utilizar una regla de
tres:
1 es a T como λ es a 1, de donde λ = T1 .
Este planteamiento podrı́a no parecer lo bastante “cientı́fico”, por lo cuál hablare-

mos brevemente de un procedimiento de la inferencia estadı́stica llamado estima-
ción puntual por el método de la máxima verosimilitud. Básicamente, dicho método
consiste en determinar el estimador (valor) del parámetro como aquel que maximi-
za la verosimilitud, o probabilidad, de observar determinado valor de la muestra. En
nuestro caso, la probabilidad de observar 1 suceso en todo el intervalo [0, T ] es:
λT
P{X(T ) = 1} = e−λT
1
Encontrar el valor de λ que maximiza esta probabilidad es equivalente a encontrar

el valor de λ que maximiza el logaritmo neperiano de dicha probabilidad, porque el
logaritmo es una función monótona creciente. Por lo tanto, tenemos que:

∂ ∂ −λT λT ∂ 1
log P{X(T ) = 1} = log e = (−λT +log λ+log T ) = −T +
∂λ ∂λ 1 ∂λ λ
e igualando dicha derivada a cero (para hallar el punto crı́tico), se tiene que λ = T1 ,
como habı́amos concluido antes.

Considere la confección de Galletas “La Abuela”, en la que el número de pasas en
cada galleta de avena es una variable aleatoria de tipo Poisson con un promedio
de 1,5 pasas por galleta.
(a) ¿Cuál es la probabilidad de tener una o más pasas en una galleta de avena
seleccionada al azar?
(b) En vista de que los clientes han protestado, la Abuela ha dado instrucciones
a sus empleados que desechen las galletas de avena sin pasas. ¿Cual es la
esperanza matemática y la varianza del número de pasas por galleta en las
galletas restantes?
Solución
Sea X el número de pasas de una galleta escogida al azar, donde
(1, 5)k
P{X = k} = e−1,5
k!
Por lo tanto P{X = 0} = e−1,5 = 0, 2231 y en consecuencia P{X ≥ 1} = 1−P{X =
0} = 0, 7769, lo cual responde la primera parte de la pregunta.
Esta probabilidad de 0,7769 será considerada como la probabilidad total en la

distribución de pasas en las galletas remanentes, que contendrán como mı́nimo
una pasa. Por lo tanto, la distribución de probabilidad (truncada) de la cantidad de
pasas en las galletas cono por lo menos una pasa será:
( k
(1,5)
′ e−1,5 0,7769·k! para k ≥ 1
P{X = k} =
0 caso contrario
De ahı́, la esperanza de X ′ es
∞ ∞
(1, 5)k 1, 5 (1, 5)k
E[X ′ ] = ∑ e−1,5 0, 7769 · k! · k = 0, 7769 e−1,5 ∑ = 1, 9308
k=1 k=0 k!
Y la varianza es
∞
1, 5k
E[X ′2 − X ′ ] = E[X ′ (X ′ − 1)] = ∑ e−1,5 0, 7769 k! · k(k − 1)
k=1
∞
(1, 5)k
= ∑ e−1,5 0, 7769 k! · k(k − 1)
k=2
∞
(1, 5)2 (1, 5)k−2
= e−1,5 ∑
0, 7769 k=2 (k − 2)!
∞
(1, 5)2 (1, 5)k (1, 5)2
= e−1,5 ∑ =
0, 7769 k=0 k! 0, 7769
(1,5)2
de donde E[X ′2 ] = 0,7769 + 1, 9308 = 4, 8269 y finalmente:
V [X ′ ] = E[X ′2 ] − E 2 [X ′ ] = 4, 8269 − 1, 93082 = 1,0989
1. Demuestre que la siguiente función es una función de probabilidad y deduzca

la esperanza matemática y la varianza de la variable aleatoria correspondien-
te: (
λx −λ
x! e x∈N≥0
pX (x) =
0 x<0
2. Sea p(x; λ) la función de probabilidad de Poisson con parámetro λ. Demues-

tre la siguiente fórmula de recursión:
λ
p(x + 1; λ) = p(x; λ)
x+1
3. El número de partı́culas emitidas de una fuente radioactiva durante un pe-

riodo de tiempo es una variable aleatoria con distribución de Poisson y la
probabilidad de que no haya emisiones es de 13 . Calcule la probabilidad de
tener 2 o más emisiones en ese lapso de tiempo.
4. Considérese el torneo de fútbol americano que se efectúa entre los 28 equi-

pos que constituyen la Liga Nacional de Fútbol (NFL) donde nos interesa el
número de anotaciones (touchdowns) de cada equipo por juego. En base a
la siguiente tabla, que muestra la estadı́stica de frecuencias del número de
anotaciones por equipo por juego, ajuste el número de anotaciones a una va-
riable aleatoria distribuida según Poisson. En base a este ajuste, ¿se puede
considerar que la distribución de Poisson es un modelo matemático adecua-
do para este fenómeno?
Número de veces
Número de
observada
anotaciones por
(frecuencia
equipo y juego
absoluta)
0 35
1 99
2 104
3 110
4 62
5 25
6 10
7 o más 3
Totales 448
5. Supóngase que en un recipiente que contiene 10.000 partı́culas, la proba-

bilidad de que se escape una es de 0,0004 y cada escape ocurre de forma
independiente. ¿Cuál es la probabilidad de que en ese recipiente ocurran 5
o más escapes?
6. Supóngase que una operadora de tele-mercadeo recibe una llamada con

probabilidad 0,01 y ninguna llamada con probabilidad 0,99 en un segundo.
Utilice la aproximación de Poisson para calcular la probabilidad de que la
operadora no reciba llamadas si se ausenta durante 5 minutos para tomarse
un café y compárela con la probabilidad binomial correspondiente.
7. En un artı́culo publicado en una revista médica especializada se reporta

que para un paciente diabético, insulina-dependiente de edad entre 30 y 40
años, la probabilidad anual de contraer retinopatı́a diabética (ceguera) es de
0,0067. En un grupo de 1000 pacientes con estas condiciones, ¿cuál es la
probabilidad de que se den 4 o más casos de ceguera causada por diabetes

el próximo año?
8. En un hospital, se le hicieron pruebas a 3741 recién nacidos de los cuales 30

resultaron HIV-positivos. En una muestra aleatoria de 500 pacientes tomados
de esta población, ¿cuál es la probabilidad de que exactamente 10 de ellos
resulten HIV-positivos? Justifique el uso de la distribución hipergeométrica
para encontrar dicha probabilidad y aproxime esta probabilidad mediante la
función de Poisson.
9. Supóngase que el 1,5 % de las familias en Caracas tienen un ingreso anual

por encima de los 30.000,00 Bs. F. Calcule la probabilidad de que al selec-
cionar una muestra aleatoria de 60 familias caraqueñas, a lo sumo 2 tienen
ingresos superiores a los 30.000,00 BF.
10. Al transmitir números binarios de n dı́gitos mediante un componente electróni-

co, se introducen errores en la transmisión de cada bit de forma independien-
te y aleatoria con una probabilidad constante p = 0,0002. Si se transmiten
1000 números binarios de 64 bits cada uno por microsegundo, determine:
a) ¿Cuál es la probabilidad de transmitir un número de 64 bits con cero,

uno o más errores?
b) ¿Cuál es la probabilidad de que se transmitan exactamente diez núme-
ros incorrectamente en el transcurso de un microsegundo?
11. En una manufactura de botellas de vidrio pueden encontrarse partı́culas ex-

trañas en el vidrio fundido. Si una de tales partı́culas se encuentra en el vidrio
de una botella, dicha botella es defectuosa y debe ser descartada. Supone-
mos que estas partı́culas se encuentran distribuidas en el vidrio fundido de
forma uniforme y aleatoria, y que en promedio, se tienen 30 partı́culas por
cada 100 kg. de vidrio fundido y que se requiere 1 kg. de vidrio fundido para
fabricar cada una de las botellas. Determine qué porcentaje de las botellas
deben ser descartadas. (Ayuda: la respuesta no es 30 %)
12. En un consultorio médico llegan en promedio 15 pacientes diarios según un

proceso de Poisson. ¿Cuántos pacientes deben ser admitidos diariamente a
consulta si la gerencia desea estar segura con un 85 % de confianza de no
dejar de atender pacientes en un dı́a?
13. Considere un proceso de Poisson homogéneo {N(t)|t > 0}. Demuestre que
para s < t , N(s)|N(t) = n es una variable aleatoria Binomial con n ensayos
y probabilidad de éxito s/t .
14. Considérese un proceso de Poisson homogéneo {N(t)|t > 0} con tasa λ.

Calcule su núcleo de covarianza K(s, s + t) con s,t > 0.
(λt)n
15. Demuestre por el método de inducción completa que Pn (t) = e−λt · n! , par-
tiendo de la ecuación 5.2.4 dada en este capitulo.
16. Como ejemplo de una distribución aleatoria de puntos en el espacio, se da

a continuación una tabla basada en estadı́sticas referentes a la cantidad de
impactos de bombas volantes alemanas tipo V-2 sobre Londres durante la
segunda guerra mundial. El área total expuesta a bombardeo se subdivi-
dió en 576 áreas pequeñas de 41 km2 cada una, registrando el número de
áreas Nk en que hay exactamente k impactos.
k 0 1 2 3 4 5 o más Total
Nk 229 211 93 35 7 1 576
a) ¿Cuántos impactos de bombas volantes se registraron en total, según

la estadı́stica anterior?
b) Determine el promedio de impactos por área de 14 km2 .
c) Determine el ajuste de impactos por área de 14 km2 a una distribución de
Poisson y verifique que el modelo de Poisson se ajusta adecuadamente
a este fenómeno.
d) Según las condiciones que dan origen al proceso de Poisson, inter-
prete y deduzca las implicaciones de que el fenómeno descrito sea un
proceso de Poisson homogéneo.
17. En el bosque de Nunca Jamás, los árboles se distribuyen según un proceso

Poisson espacial homogéneo en dos dimensiones a razón de 50 árboles
por hectárea. ¿Cuál es la distancia promedio entre un árbol y el árbol más
cercano?
18. Sea {Tn |n ∈ N+ } una secuencia de variables mutuamente independientes e

idénticamente distribuidas según una distribución exponencial con parámetro
λ. ¿Qué tipo de proceso estocástico es {Tn |n ∈ N+ }? ¿Es estrictamente
estacionario? ¿Es débilmente estacionario? Razone su respuesta.
19. Supóngase que los tiempos entre eventos de un proceso (que llamaremos
incrementos) son mutuamente independientes e idénticamente distribuidos
y defı́nase una caminata aleatoria {Sn |n ∈ N+ } del modo usual como la su-
ma de n incrementos positivos independientes. Sea {N(t) = n} el suceso
siguiente: “Hasta el momento t , han ocurrido exactamente n eventos”. Utilice
el álgebra de conjuntos y los axiomas básicos de la probabilidad para de-

mostrar la siguiente equivalencia: P{N(t) = n} = P{Sn ≤ t} − P{Sn+1 ≤ t}.
20. Considérese un proceso de Poisson homogéneo {N(t)|t > 0} con tasa λ y la

secuencia aleatoria {Sn |n ∈ N+ } son los tiempos de ocurrencia de eventos
asociados a este proceso de Poisson. Calcule P{S3 ≤ x|N(t) = 10} con 0 ≤
x ≤ t.
21. Realice una simulación por computadora de un proceso de Poisson con in-
tensidad promedio de 2 sucesos por unidad de tiempo. Utilizando dicha si-
mulación estime:
a) P{N[2,4] = 2}, donde N[2,4] representa la cantidad de sucesos ocurridos

en el intervalo [2, 4].
b) P{3 ≤ S3 ≤ 5}, donde S3 es el instante en que ocurre el tercer suceso.
22. Un vendedor de perrocalientes observa que aún cuando sus clientes asi-
duos no llegan en intervalos de tiempo regulares, no obstante arriban según
un proceso de Poisson con una tasa de llegada promedio de un cliente por
minuto. Un dı́a le dice a un amigo que le haga guardia en su carrito de perro
calientes mientras el se ausenta por 5 minutos. A su regreso, el amigo le di-
ce que en los cinco minutos llegaron 4 clientes. “Descrı́bemelos por alguna
caracterı́stica única a cada uno y te diré el momento en el cual llegaron”, le
respondió el perrero. Calcule la probabilidad de que el perrero pueda iden-
tificar correctamente los tiempos de llegada de cada cliente, si para cada
cliente se indica un intervalo de dos minutos dentro del cual se asegura que
ese cliente llegó.
Unidad 6
Cadenas de Markov
Las cadenas de Markov son los modelos ma-

temáticos más sencillos para representar fenóme-
nos aleatorios que evolucionan en el tiempo.
. . . Ciertamente, la teorı́a de los procesos es-
tocásticos puede verse como una generalización,
de una forma u otra, de las cadenas de Markov.
F UEGO EN EL ATARDECER
Oleo - 1929 Norris, J. R.
Paul Klee prefacio del libro “Markov Chains”
167
168 UNIDAD 6. CADENAS DE MARKOV
El objetivo general de esta Unidad es hacer una exposición de las cadenas de

Markov como un modelo matemático adecuado a una amplia gama de fenómenos
aleatorios. Al término de la misma, se quiere que el estudiante logre los siguientes
objetivos especı́ficos:
6.1. Definición, notación, ejemplos y un poco de historia
Muchos procesos aleatorios evolucionan en el tiempo de modo que solamente

la información más reciente es determinante para el estado futuro del proceso. Lo
anterior se resume matemáticamente mediante la propiedad de Markov, que ya
mencionamos en la Unidad 3 y que recordamos seguidamente:
Definición (Propiedad de Markov). Un proceso estocástico {X(t)|t ∈ T } verifica

la propiedad de Markov cuando se cumple que:
P{X(tn+1 ) ∈ A|X(tn ) = an , . . . , X(t0 ) = a0 } = P{X(tn+1 ) ∈ A|X(tn ) = an }
En esta unidad nos ocuparemos principalmente de las denominadas cadenas

de Markov de parámetro discreto, que son procesos estocásticos de parámetro
discreto y de espacio de estados discreto que verifican la propiedad de Markov.
Definición (Cadena de Markov de parámetro discreto homogénea). Un proce-

so estocástico {Xi |i ∈ T } de parámetro discreto es una cadena de Markov ho-
mogénea si para todo i0 , i1 , . . . , in , j ∈ E (E es el espacio de estados) se verifica
la propiedad de Markov:
P(Xn+1 = j|X0 = i0 , X1 = i1 , . . . , Xn = in ) = P(Xn+1 = j|Xn = in ) (6.1.1)
Las probabilidades P(Xn+1 = j|Xn = i) se denominan probabilidades de tran-

sición porque mediante ellas se determina la transición de un estado a otro entre
dos instantes de tiempo sucesivos en una cadena de Markov. Es de observar que
las probabilidades de transición son probabilidades condicionales, pero no están
condicionadas por parámetro temporal alguno y son estacionarias (permanecen in-
variantes a lo largo de toda la evolución del proceso en el tiempo), razón por la cual
la cadena de Markov que acabamos de definir tiene el calificativo de “homogénea”.
Vale aclarar también que la propiedad Markov (ecuación 6.1.1) en la definición de
6.1. DEFINICIÓN, NOTACIÓN, EJEMPLOS Y UN POCO DE HISTORIA 169
arriba no implica que el siguiente estado (futuro) en una secuencia de variables

aleatorias solo depende del estado presente y es independiente de la historia pa-
sada del proceso. De hecho, Xn+k y Xn no son independientes y la propiedad de
Markov en la definición ha de interpretarse bajo los siguientes términos: la pro-
piedad de Markov implica que, en una cadena de Markov, el estado presente del
proceso incorpora en sı́ toda la información necesaria para determinar los estados
futuros, por lo cual, al haber información sobre el estado presente, se hace innece-
sario disponer de información sobre el pasado para determinar las probabilidades
de transición del siguiente estado.
Debido a que las probabilidades de transición de un estado a otro entre ins-

tantes discretos de tiempo sucesivos no dependen del ı́ndice temporal (homoge-
neidad) ni del estado del proceso en instantes pasados (propiedad de Markov),
podemos abreviar escribiendo pi, j = P(Xn+1 = j|Xn = i). La abreviatura hace po-
sible representar las probabilidades de transición en forma matricial, mediante lo
que se denomina una matriz de transición :
 
p1,1 p1,2 · · · p1,n
 p2,1
 p2,2 · · · p2,n 

P= . .. .. .. 
 .. . . . 
pn,1 pn,2 · · · pn,n
En la matriz de transición, el elemento de la i-ésima fila y la i-esima columna

representa la probabilidad de que el sistema cambie del estado i al estado j en
una transición. La representación matricial de las cadenas de Markov facilita en
algo el estudio de estas últimas permitiendo el uso de algunas herramientas del
álgebra lineal, como veremos seguidamente. También es evocativo de las matrices
de adyacencia de los grafos. De hecho, una forma alternativa de representar las
cadenas de Markov serı́a mediante un grafo dirigido: los vértices se corresponden
a los estados y los arcos dirigidos (ponderados) a las probabilidades de transición.
Volveremos sobre esto seguidamente también, pero primero vamos a dar algunos
ejemplos de cadenas de Markov.
Algunos ejemplos
1. Un virus con N cepas muta constantemente, siendo 1 − α la probabilidad

α
de que el virus no haga mutación y N−1 la probabilidad con la que el virus
muta a cualquiera de las otras N − 1 cepas. Se tiene entonces para cada
α
i ∈ {1, . . . , N} que pi,i = 1−α y pi, j = N−1 para i 6= j. La matriz de transición
serı́a:
 α α 
1−α N−1 ··· N−1
α α

 N−1 1−α ··· N−1


P= .. .. .. .. 
 . . . . 
α α
N−1 N−1 ··· 1−α
2. El problema de la ruina del jugador visto en la Unidad 4 se puede representar

mediante una cadena de Markov, en la cual los estados se corresponden al
capital del jugador en un momento dado. Si entre el jugador y el adversario se
tiene un capital total de T y las probabilidades de ganar o perder un Bolivar
en cada turno son p y 1 − p respectivamente, se tendrı́a la siguiente matriz
de transición:
 
1 0 0 0 ··· 0 0 0

 1− p 0 p 0 ··· 0 0 0  

 0 1− p 0 p ··· 0 0 0  
P= .. .. .. .. .. .. .. .. 
 . . . . . . . . 
 
 0 0 0 0 ··· 1− p 0 p 
0 0 0 0 ··· 0 0 1
Para un capital total T , la fortuna del jugador fluctúa entre 0 y T , lo cual

implica que la cadena de Markov correspondiente serı́a representada por
una matriz de orden T + 1 × T + 1. Los estados 0 y T son absorbentes, de
donde las respectivas probabilidades de transición p1,1 y pT,T son iguales a
1.
3. En un planeta llamado Eden habı́a dos ciudades, “Adán” y “Eva”. De estas

dos, Adán era la ciudad más antigua y en un pasado remoto, algunos de sus
habitantes fueron exilados y fundaron Eva, después de lo cual los habitantes
de Edén estaban en el hábito de migrar constantemente de una ciudad a otra
según las siguientes probabilidades:
En cada periodo migratorio, el 70 % de los habitantes de Adán perma-

necı́a en Adán y el resto emigraba a Eva.
Analogamente, el 40 % de los habitantes de Eva se quedaban en Eva
y el restante 60 % salı́a a Adán.
6.1. DEFINICIÓN, NOTACIÓN, EJEMPLOS Y UN POCO DE HISTORIA 171
De esta forma, los habitantes de Adán y Eva fueron mezclándose según una
cadena de Markov cuya matriz de transición era la siguiente:
Adán Eva
P= Adán 0, 7 0, 3
Eva 0, 6 0, 4
En lo precedente se han identificado las filas y las columnas de la matriz
de transición mediante los nombres de las ciudades correspondientes, pa-
ra resaltar que las probabilidades de transición se refieren a la migración
entre una ciudad y otra. En todo esto, se ha considerado el estado de un
habitante de Edén como la ciudad en la cual se encuentra en un momento
determinado. Una pregunta interesante en torno a la situación descrita serı́a
la siguiente - partiendo de una distribución inicial de individuos en Adán y
Eva, ¿cómo se distribuirán los habitantes del planeta a la larga?
La cadena de Markov es
Apéndice A
Como leer un texto matemático
Leer un libro, escuchar un concierto, ir al cine - todas son actividades que supo-
nen un protocolo adecuado al genero de literatura que estamos leyendo, el tipo
de música que escuchamos o el género cinematográfico que vemos. No se puede
escuchar un concierto de Mahler de la misma forma que un concierto de Dj Tiestö,
o ver una pelicula de Tarkovsky como si estuviesemos viendo “Duro de Matar”. De
la misma forma, este libro no se puede leer como se leerı́an las historietas de Con-
dorito (aunque seguramente hará “¡plop!” varias veces mientras estudia con él).
Sin caer en juicios de valor sobre cuál género de literatura, música o cine es me-
jor, el punto que se intenta establecer, aunque parezca una perogrullada, es que
cualquier lectura, música o pelicula puede ser mejor apreciada si sabemos como
apreciarla. Hablamos de literatura y aunque sea dı́ficil de creer, textos como éste
son literatura también. De hecho, este tipo de textos pertenecen al género de “no-
ficción”. Pero volviendo a la idea de apreciación literaria, ¿qué significa apreciar
una lectura? ¿Cómo podriamos apreciar una lectura tan árida como ésta?
Antes de abordar la última pregunta, vamos a abordar la pregunta anterior, que

es más general. Piensese por ejemplo en una novela, que pertenece al género de
ficción y en la cual uno puede leer pasajes como éste a continuación 1 :
El zumbido obstinado de las abejas, abriéndose camino entre el alto

césped sin segar, o dando vueltas con monótona insistencia en torno
1
La cita es de la novela “Retrato de Dorian Gray” de Oscar Wilde.
173
174 APÉNDICE A. COMO LEER UN TEXTO MATEMÁTICO
a los polvorientos cuernos dorados de las desordenadas madreselvas,

parecı́an hacer más opresiva la quietud, mientras los ruidos confusos
de Londres eran como las notas graves de un órgano lejano.
Hay por lo menos dos niveles de apreciación lectora para una obra como la ci-
tada arriba. Una es la apreciación estética, que tiene que ver con el buen uso de las
palabras para construir imágenes. La apreciación en este nivel es, podrı́a decirse,
un asunto sensorial, más o menos como saborear un buen Cabernet Sauvignon
para acompañar un roast beef. Por ejemplo, en el pasaje citado arriba podriamos
apreciar como el escritor describe de una manera exacta y muy elegante el zum-
bido monotono que uno puede escuchar en cualquier gran ciudad. Frases como
estas convierten a un texto en una obra de arte literaria y nos proveen el disfrute
estético de la lectura. Sin embargo, generalmente aportan poco cuando se trata de
entender la trama de la novela, lo cual nos trae al otro nivel de apreciación de una
lectura, que es la apreciación de la trama.
Una novela es una historia y toda historia es un cuento de algo. La trama es

la forma en que el escritor va desarrollando ese cuento. Cuando la trama de una
novela nos atrapa, no nos paramos a analizar cada palabra detenidamente. Más
bien, las palabras son como pinceladas que van pintando una escena que se va
revelando poco a poco; lo revelado es la trama. En el pasaje citado arriba, por
ejemplo, no nos pondrı́amos a analizar porqué no se habı́a cortado el cesped entre
el cual revoloteaban las abejas o en qué se basa el autor para afirmar que los
“cuernos dorados de las desordenadas madreselvas” son polvorientos- esto serı́a
una necedad, completamente fuera de lugar e innecesario. El lenguaje novelesco
está lleno de redundáncias e imprecisiones porque a veces la imprecisión es un
efecto que el autor quiere justamente lograr. Y porque un buen escritor de novelas
sabe que un buen lector no analizará cada frase detenidamente para comprender la
trama, introduce redundancias, metáforas, hipérboles y toda esa legión de figuras
de expresión que veiamos en Lengua y Literatura en bachillerato para enfatizar
elementos de la trama o resaltar aspectos de los personajes que son importantes
para su comprensión.
En un texto sobre matemáticas también hay una trama y se podrá encontrar

algo de estética, pero la apreciación de la estética y la trama es totalmente distinta
a la de una novela, porque el lenguaje matemático funciona de una forma total-
mente distinta. El lenguaje matemático es muy sucinto. La notación y los sı́mbolos
que usamos hoy en dı́a para escribir en lenguaje matemático son el producto de
siglos de depuración para lograr expresar las ideas de la manera más breve posi-
ble y sin redundáncias ni imprecisiones. Una fórmula matemática de una sóla lı́nea
175
puede condensar tal cantidad de información que requerirı́a varios párrafos para
expresarla en lenguaje natural. Cuando leemos lenguaje matemático, es importan-
te detenerse a analizar cada sı́mbolo, cada igualdad, cada punto, porqué todo lo
que está escrito en una fórmula es importante para su debida comprensión- nada
es redundante. Por eso, la primera recomendación es
Primer consejo
Tómese el tiempo de leer detenidamente cada sı́mbolo de cada fórmula o

ecuación, ası́ como los razonamientos o explicaciones en lenguaje natural
sobre ellos.
Ciertamente, cuando una novela nos atrapa podemos leer decenas de páginas
en una sola lectura, pero si leemos un texto de matemática, a veces avanzamos
unas diez páginas por lectura, cuando mucho. Pero leer detenidamente el texto no
garantiza su comprensión si no nos hacemos con el habito de cuestionar y ana-
lizar todo lo que se lee. Cuando hablábamos sobre la apreciación de la trama en
la literatura de ficción y citábamos aquel pasaje de “Retrato de Dorian Gray” como
ejemplo, decı́amos que era una necedad analizar frases descriptivas o cuestionar
los basamentos del autor para calificar las cosas de cierto modo, pues nada agre-
gaba esto a nuestra comprensión de la trama. Sin embargo, cuando leemos un
texto matemático, este hábito de cuestionar y analizar todo cuanto se lee no es
una necedad, sino una absoluta necesidad si se quiere comprender el texto. Es
por eso que la lectura de este tipo de textos es mucho más lenta que la lectura
de novelas- hay que cuestionar y analizar todo. Para ilustrar en que consiste este
cuestionamiento constante, pongamos un ejemplo. Supóngase que leyendo este
libro, se encuentra con la siguiente fórmula:
n
n(n + 1)
∑i = 2
i=0
El lector debe ante todo asumir una actitud activa, no pasiva. Esto pasa por
asumir constantemente el rol de ser su propio profesor. Si Ud. fuese un profesor y
está interesado en saber si el estudiante ha comprendido lo que recién acaba de
leer, ¿cuáles preguntas harı́a? En este punto, serı́a oportuno preguntarse primero
si comprende cada uno de los sı́mbolos en la fórmula. Por ejemplo, ¿qué significa el
∑? ¿Qué significan las expresiones arriba y abajo de ese sı́mbolo? ¿Qué significa
la i al lado de esto? Si no sabemos las respuestas a estas preguntas debemos
buscar apoyo de otros libros o consultar rápidamente con la Profesora Wikipedia
o el Profesor Google, o mejor aún anotar la pregunta y hacérsela al profesor del

curso (en la próxima clase o por correo electrónico, que para eso sirve).
Una vez que se ha comprendido que la expresión a la izquierda del signo =

denota la suma de todos los números enteros consecutivos desde el 0 hasta n,
estamos en capacidad de proceder con el auto-cuestionario. Las ecuaciones como
esta, que contienen un signo =, claman por una demostración o una explicación.
Cuando yo escribo que A = B, el lector debe preguntarse: ¿es siempre A igual a B?
¿en qué se basa el autor para decir que A siempre es igual a B? etc. En el ejemplo
anterior, este tipo de auto-cuestionamiento podrı́a llevarnos a realizar la siguiente
secuencia de razonamientos mentales, no necesariamente en el orden en que los
exponemos:
1. Tomamos un papel y lápiz, comenzamos a darle valores a n y evaluamos las

expresiones a ambos lados de la igualdad para ver si se verifica la igualdad
en algunos casos. Esto no es una demostración matemática de este hecho,
pero ayuda a entender lo que está sucediendo.
2. En un ejercicio de sano escepticismo, observamos que cómo la sumatoria

involucra suma de números enteros, la expresión a la izquierda de la igualdad
siempre será un número entero. Sin embargo, a la derecha tenemos una
fracción donde el denominador es dos. Podrı́amos preguntarnos entonces
si en algunos casos la expresión de la derecha no será un número entero.
Reflexionando un poco al respecto, nos damos cuenta que n es siempre o
par o impar, por lo tanto, alguno de los dos factores del denominador (n o
n + 1) siempre será divisible entre dos y de ahı́, la expresión a la derecha de
la igualdad siempre será un número entero también.
3. Las dos actividades anteriores nos convencen de manera intuitiva que la

igualdad podrı́a ser cierta para todo n. Sin embargo, aún no la hemos de-
mostrado. Es el momento de hacerlo.
Todas estas preguntas, razonamientos y verificaciones con papel y lápiz ocu-

rren cuando un buen lector matemático se topa con una ecuación como esta. Es
muy probable que las preguntas que uno debe hacerse cuando se estudia un texto
de matemáticas serán justamente las preguntas que saldrán en el examen. Estas
ideas se resumen en nuestra segunda recomendación:
177
Segundo consejo
Cuestione y analice todo cuanto lea. Hágase preguntas a modo de auto-

evaluación constantemente para que, cuando le hagan esas mismas pre-
guntas en el examen, salga airoso del evento.
Otra manera de expresar esto es que el estudio o lectura de textos de estas

materias no es un deporte de espectador, más bien hay que involucrarse activa-
mente, con otros libros, papel y lápiz a la mano. Naturalmente, esto es extenuante.
Permı́tame el lector una breve digresión. En mis cursos siempre he escuchado de
los estudiantes que el problema con estas materias es un “problema de mala base
en matemáticas”, pero nunca he tenido claro en qué punto de la vida académica
de un estudiante comienza este problema de “mala base”. En algunos casos me
consta que cierto grupo de estudiantes han tenido buenos profesores y sin embar-
go, persiste el problema de la mala base. Pues he aquı́ que el problema de la mala
base no es otro que un problema de malos hábitos de estudio. El estudiante nunca
aprendió a estudiar de esta forma, cuestionando todo cuanto lee y por lo tanto, los
conocimientos matemáticos nunca se fijaron. Pero practicar estos hábitos de estu-
dio es como hacer ejercicios; al cabo de un tiempo, ya uno no se cansa tanto y se
convierte en un hábito natural. Deberı́a intentarlo.
Además del mito de la “mala base”, existe otra creencia errónea en torno a las
matemáticas, según la cual la matemática es una materia práctica porque involucra
cálculos, en contraposición a otras materias “teóricas”. La matemática es la materia
teórica por excelencia y ası́ lo atestiguan los orı́genes etimológicos de la palabra.
“Matemática” proviene del antiguo griego µαθηµατικά (mathematika, “lo que se
aprende”), el cual a su vez deriva de µαθηµα (máthēma, “campo de estudio o ins-
trucción’) y, más remotamente, del verbo griego µανθάνω (mantháno, que signifi-
ca “instruirse, aprender, llegar a conocer”)2 . Etimológicamente y morfológicamente,
matemática es afı́n a tema o campo de estudio, que no es otra cosa que ciencia y
teorı́a. Hay que entender un poco sobre la mentalidad de los antiguos griegos para
saber que lo que ellos llamaban ciencia no tenı́a nada que ver con experimentación
o derivación del conocimiento por medios experimentales o prácticos, sino todo lo
contrario. La ciencia, según los griegos, era concebida como un saber que se al-
canzaba por medio del pensamiento y el raciocinio. Naturalmente, esto ya no es
del todo cierto porque el conocimiento cientı́fico moderno se verifica experimental-
mente. Pero aún ahora, la matemática sigue siendo un producto del pensamiento
2
Ver González˜Recio (2007), p. 354.
puro; es, pues, netamente teórica.
Ésta es la razón por la cual los griegos consideraban que las matemáticas eran
algo sobre lo cual habı́a que instruirse para llegar a aprenderlas. Estaban recono-
ciendo con ello que la matemática era algo difı́cil, que no se aprendı́a espontánea-
mente como aprender a caminar o a hablar y que por ello requerı́a de instrucción
y de iniciación previa. Las matemáticas no son reducibles al lenguaje ordinario que
se aprende espontáneamente. Más bien, la historia de las matemáticas es una his-
toria de cómo el lenguaje matemático se ha perfeccionado a través de los siglos
deviniendo en un vehı́culo para alcanzar verdades eternas a través del pensamien-
to puro. Por eso es que un texto de matemáticas no se puede leer rápidamente
y debemos de poner especial atención a la notación matemática, la definición de
términos y los enunciados de los teoremas.
Sobre la notación, ya hemos comentado que por ser el lenguaje matemático

tan preciso y conciso, cada sı́mbolo, cada signo en una expresión matemática es
imprescindible y le confiere un sentido exacto a la expresión. También los conceptos
y términos en matemática tienen una precisión mucho mayor que en el lenguaje
natural. Puesto que la actividad matemática consiste en su mayor parte en tratar
de establecer o deducir verdades absolutas respecto a ciertos objetos definidos
matemáticamente, las definiciones matemáticas son de extrema importancia en un
texto matemático. Son mucho más importante que las descripciones de personas o
lugares en una novela y no en vano se han resaltado a lo largo del texto mediante
cajas sombreadas como ésta .
Una definición matemática, para ser útil, tiene que redactarse de tal modo de
poder establecer resultados matemáticos respecto a lo que se define y en definiti-
va, permitir decidir si cualquier objeto en el universo pertenece a la clase definida o
no. En el uso cotidiano del lenguaje natural, nosotros no estamos acostumbrados
a manejarnos en este nivel de precisión. Por ejemplo, la palabra “información”, tal
como la utilizamos en nuestro lenguaje cotidiano, es muy imprecisa. Pero definida
matemáticamente, en el marco de la Teorı́a de la Información de Claude Shannon,
permite comparar, en orden de magnitud, la cantidad de información que se trans-
mite en un canal de comunicación u otro. Desde luego, la información matemática
no se corresponde enteramente con el término información del lenguaje natural.
Este último es mucho más ambivalente e incluye por ejemplo la acepción de infor-
mación como conocimiento que no abarca el término matemático correspondiente.
Sin embargo, gracias a la precisión del lenguaje matemático, se han podido esta-
blecer una serie de resultados en torno a los sistemas de comunicación que han
permitido crear, por citar un ejemplo, los famosos algoritmos de compresión como
el mp3 que usamos hoy en dı́a.
179
Pongamos las cosas en perspectiva mediante un ejemplo. Supóngase que es-

tamos interesados en demostrar que para todo n ∈ N, la expresión 5n + 7n es un
número par. Lo primero que deberı́amos hacer es preguntarnos “¿qué es un núme-
ro par?”. De ahı́ nos damos cuenta que uno de los problemas de “base” en nuestra
formación matemática es que no hemos entendido debidamente la importancia de
las definiciones y es esto justamente el mayor obstáculo para la comprensión de
textos matemáticos. Quizás el lector esté pensando ahora: “pero yo sé lo que es un
número par- 2,4,6,8 y ası́ sucesivamente son números pares”. En tal caso, habrı́a
dado cuatro ejemplos de números pares, pero no una definición. Además, una ca-
racterización como esa de los números pares no lo ayudarı́a mucho a demostrar lo
requerido. En un nivel mayor de sofisticación matemática, otro lector pensarı́a que
“un número par es aquel que es divisible entre dos”. Aún cuando esto fuese una
definición satisfactoria en lenguaje ordinario, tampoco ayudarı́a a demostrar lo que
se tiene en manos. Un profesor empleando la mayeutica socrática, que es como
jugar a abogado del diablo, le preguntarı́a a este lector: “bien, pero ¿que significa
ser divisible entre dos?”.
Procediendo ası́ llegarı́amos a una definición matemática de “número par” muy

parecida a esta:
x ∈ Z es un número par ⇔ ∃k ∈ Z|x = 2k
La concisión de una definición como ésta no radica solamente en la poca can-

tidad de caracteres requerida para su escritura, sino en la precisión del concepto y
todo lo demás que encierra “entre lı́neas”. Pero para leer entre lı́neas hay que co-
nocer muy bien los sı́mbolos matemáticos y tomarse el tiempo de leer la definición
muy detenidamente, haciéndose preguntas conforme a la segunda recomendación
y recordando siempre que toda definición debe permitir decidir inequı́vocamente
si cualquier objeto pertenece a la clase de objetos que estamos definiendo. Por
ejemplo, ¿es 32 un número par? La respuesta serı́a no, porque 23 ∈ / Z y estaba es-
crito entre lı́neas que sólo los números enteros pueden ser pares (fı́jese bien en
la definición). Por otro lado, 112 sı́ es un número par porque puede ser expresado
como producto de un entero por dos (de hecho, 112 = 2 · 56). Esto también estaba
planteado en la definición. Entonces, para puntualizar, daremos el
Tercer consejo
Preste especial atención a las definiciones y lealas muy detenidamente.

Cualquier término (fuera del que se esté definiendo) o sı́mbolo que figu-
ra en la definición debe ser completamente aclarado. Recuerde que toda
definición matemática debe permitir decidir inequı́vocamente si cualquier
cosa pertenece o no a la clase de objetos que se está definiendo. De mo-
do tal que tras leer la definición debe intentar dar ejemplos de cosas que
pertenecen a la clase definida y cosas que no.
Cuando se encuentre un problema como aquel en la Unidad 3 que pide “de-

mostrar que el valor esperado de un incremento en una martingala es necesa-
riamente igual a cero”, no desespere ni entre en pánico. Recuerde que avanzará en
la solución del problema en la medida en que aclare los términos matemáticos que
figuran en el enunciado (y que aquı́ hemos resaltado de la misma manera que se
han resaltado las definiciones a lo largo del texto para recordarle que debe remitirse
a ellas). En este caso tendrı́a que suponer un proceso estocástico {Xi |i ∈ T } que
fuese a la vez martingala. En virtud de la definición de martingala, puede suponer
también que se cumple E(Xn ) < ∞ para todo n y que E(Xn+1 |X0 , X1 , . . . , Xn ) = Xn , a
partir de lo cual procederı́a a demostrar lo requerido recordando que como entre las
propiedades de la martingala figuran expresiones que involucran esperanzas con-
dicionales, debe tomar en cuenta las propiedades de las esperanzas condicionales
también. Ahora volvamos al problema que habı́amos propuesto como ejemplo.
¿Como podemos demostrar que para todo n ∈ N, 5n + 7n es un número par?

Podemos explorar lo que sucede para algunos valores de n, haciendo una tabla
como esta:
n 5n + 7n ¿Es par?
0 50 + 70 = 2 si
1 51 + 71 = 12 si
2 52 + 72 = 74 si
.. ..
. . ?
Pero no habrı́amos demostrado nada. Tan solo hemos verificado que 5n + 7n

es par para n = 0, 1 y 2 pero el conjunto N es infinitamente grande. En cambio, si
podemos demostrar que para todo n ∈ N, 5n +7n se puede expresar como producto
de 2 por un entero cualquiera, habremos demostrado, según nuestra definición
matemática de número par, que 5n + 7n es un número par. Hay por lo menos dos
vı́as para hacerlo. Esta es una:
181
5n + 7n = 5n + (5 + 2)n ➒ 7=5+2
n
n i n−i expansión del binomio (5 + 2)n (ver Teo-
n
=5 +∑ 52 ➒ rema binomial de Newton)
i=0 i
n−1
n n n i n−i
= 5 +5 + ∑ 52
i=0 i
n−1
n i n−i−1 factorizacion de los sumandos en la su-
n
= 2·5 +2 ∑ 52 ➒
matoria
i=0 i
!
n−1
n
= 2 5n + ∑ 5i 2n−i−1
i=0 i
= 2k, donde k ∈ Z
El precedente es un ejemplo de como utilizar una definición matemática para

demostrar algo. Nótese también que todo paso en una demostración se justifica por
medio de alguna propiedad, axioma o definición. En la demostración precedente
y en algunas otras de este libro hemos justificado algunas igualdades al margen
derecho. Estas justificaciones se han incluido aquı́ por razones de didáctica, pero
normalmente los libros de matemática suponen que el lector tiene suficiente nivel
matemático para explicar él mismo cada paso de una demostración. Desde luego,
este no es su caso porque si lo fuese, ¡no estarı́a leyendo esto!
Cuarto consejo
Las demostraciones tienen un alto valor instructivo. Antes de demostrar al-

go formalmente, reflexione sobre lo que se pretende establecer. Explore
algunos casos para verificar la proposición a demostrar e intente entender
intuitivamente el porqué de su validez. Luego, para demostrar la proposi-
ción matemáticamente, haga uso de las definiciones, axiomas y otros re-
sultados establecidos previamente (propiedades, teoremas, proposiciones,
etc.).
Las matemáticas no son un asunto de sacar cuentas de bodega o meros cálcu-

los. En el fondo, es una ciencia en la cual cada nuevo conocimiento se establece
como una consecuencia lógica de otros conocimientos establecidos o demostrados
previamente. Como admirablemente lo expresaba Bertrand Russell en su Principia
mathematica: “La matemática es la clase de todas las proposiciones de tipo p im-

plica q.”3 . No deja de haber cierta belleza- y he aquı́ el elemento de apreciación
estética en el estudio de las matemáticas - en la forma en que poco a poco se ha
construido este magna opus del conocimiento humano sobre tan pocos supuestos
(los axiomas). También se puede encontrar la belleza en la manera en que algunos
matemáticos han formalizado nociones imprecisas a través de definiciones ma-
temáticas concisas y luego constatar como estas permiten deducir resultados que
se corresponden muy de cerca con los fenómenos reales.
Para terminar con el ejemplo sobre los números pares, se intentará demostrar
que 5n + 7n es un número par a través del método de la inducción completa , en el
cuál se define una proposición lógica que depende de n. Para nosotros esta serı́a:
Pn ≡ 5n + 7n es un número par.
Entonces, primero demostrarı́amos que Pn es válida para un n inicial, diga-

mos n = 0, lo cual ya hicimos cuando verificamos arriba que 50 + 70 = 2 es un
número par. Seguidamente, suponemos que Pn es cierto (hipótesis inductiva ). Si
demostramos que como consecuencia lógica de la hipótesis inductiva, Pn+1 es cier-
to también, habremos demostrado que Pn es verdad para cualquier n ∈ N. Esto lo
haremos seguidamente:
5n + 7n = 2k para algún k ∈ Z ⇒ ➒ Hipótesis inductiva

multiplicando ambos lados de la
7 · 5n + 7n+1 = 14k ⇒ ➒ ecuación por 7
7=5+2 y se reagrupan los térmi-
5n+1 + 7n+1 = 14k − 2 · 5n ⇒ ➒
nos.
5 n+1
+7 n+1 n
= 2(7k − 5 ) = 2k ′
⇒ ➒ k′ = 7k − 5n ∈ Z
Se cumple Pn+1
3
En este conjunto de obras, Russell se proponia derivar la mayor parte de los conocimientos ma-
temáticos a partir de un conjunto pequeño de axiomas. Con el Teorema de Incompletitud de Kurt
Gödel, quedo demostrado que ningún conjunto de axiomas puede ser completo (en el sentido en
que permita establecer la validez o no validez de cualquier proposición) y consistente (en el sentido
en que los axiomas no sean contradictorios) a la vez. Esto significa que se demostró la existencia
de proposiciones no demostrables. Sin embargo, los matemáticos aún siguen demostrando proposi-
ciones y otros más ambiciosos siguen en su lucha prometeica por conquistar lo imposible. Esta es
una de las historias más apasionantes de la matemática, sobre la cual existe una novela titulada “El
Tio Petros y la conjetura de Goldbach” escrita por el griego Apostolos Doxiadis, la cual recomiendo
ampliamente.
183
Ya que se mencionó el método de la inducción completa, también existe otro

método de uso muy frecuente en demostraciones matemáticas, que es el de reduc-
ción al absurdo . La reducción al absurdo parte de negar la premisa que se quiere
demostrar y a través de una secuencia de implicaciones lógicas válidas, se llega a
una contradicción. Dicha contradicción (el absurdo) no puede ser consecuencia de
premisas lógicamente válidas, sino que se desprende de negar la premisa que se
querı́a demostrar, con lo cual se demuestra que dicha premisa es verdadera (por-
que no puede ser falsa). No es este el lugar para hacer una exposición completa
sobre métodos de demostración matemática, pero si es oportuno sugerir una lista
de temas que deberı́an conformar la “base matemática” del estudiante para poder
entender el lenguaje matemático y en la cuyos elementos todas las ramas de la
matemática encuentran su modo de expresión:
Quinto consejo
Con la finalidad de adquirir unas bases sólidas del lenguaje matemático,

haga un repaso de los siguientes temas:
Lógica matemática
Teorı́a de Conjuntos
Métodos de demostración matemática

Índice alfabético
álgebra, 3 independientes vs. mutuamente ex-

sigma álgebra, 4 cluyentes, 26
mutuamente excluyentes, 3
axiomas de Kolmogorov, 5 experimentos aleatorios, 3
barreras absorbentes, 97 función caracterı́stica, 16

Brown, R., 112 propiedades, 16
función de distribución
cadena de Markov, 76, 168 de primer y segundo orden, 64
probabilidad de transición, 168 finito-dimensional, 64
caminata aleatoria, 75 función de distribución de probabilidad,
coeficiente de correlación, 28 11
convolución, 29 función de valor medio, 71
covarianza, 28 función generatriz, 17
propiedades, 18
ecuaciones en diferencias, 99
espacio de estados, 63 grafos
espacio de probabilidad, 5 matriz de adyacencia, 169
espacio muestral, 3 representación de cadenas de Mar-
espacio probabilizado, 5 kov, 169
esperanza
definición, 13 hipótesis inductiva, 182
propiedades, 14
incrementos
esperanza condicional, 66
estacionarios, 74
estimación puntual, 159
independientes, 72
estocástico
indentación (en la programación), 48
origen de la palabra, 62
intensidad de flujo, 134, 145
evento
complementario, 3 Kolmogorov, A.N., 4
evento elemental, 3
eventos, 3 Laplace, P.S, 7, 77
independientes, 26 ley de los grandes números, 8
185
186 ÍNDICE ALFABÉTICO
método de la inducción completa, 182 length, 45

martingala, 75 paste, 43
matriz de transición, 169 replicate, 103
momento de orden uno, 13 return, 103
momento factorial de orden k, 18 runif, 55
movimiento Browniano, 77 sample, 52
sapply, 103
núcleo de covarianza, 71 seq, 45
Poisson, S. D., 131 setdiff, 52
probabilidad, 4, 7 sqrt, 43
definición frecuentista, 9 union, 52
definición según Laplace, 8 which, 93
probabilidad condicional, 65 while, 47
problema de la ruina del jugador, 97 asignación (<-), 44
proceso de conteo, 76 comentarios (#), 47
proceso de Markov, 76 constantes lógicas, 42
proceso de Poisson generación de números aleatorios,
intensidad de flujo, 145 57
simulación, 147 identificadores, 44
tiempo inter-eventos, 145 indexación, 46
proceso de Poisson homogéneo, 76 operadores lógicos, 44
proceso de Wiener, 78 operadores lógicos de comparación,
proceso estocástico 44
débilmente estacionario, 74 vectorizar, 48
de parámetro discreto o continuo, 63 reducción al absurdo, 183
definición, 63 ruido blanco, 75
estrictamente estacionario, 74 series de tiempo, 63
estrictamente estacionario de orden
n, 74 tabla de contingencia, 32
trayectoria, 63 Tchebyschev, cota de, 15
propiedad de Markov, 76, 168 teorema
Central del Lı́mite, 77
R Levy, 17
NA, 46
cat, 52 valor medio, 13
cumsum, 89 variable aleatoria, 10
c, 45 continua, 12
function, 102 discreta, 12
hist, 55 independientes, 27
ifelse, 52 n-dimensional, 23
ÍNDICE ALFABÉTICO 187
varianza, 14
propiedades, 15
vector aleatorio, 23
Wiener, N., 77
188 ÍNDICE ALFABÉTICO
Bibliografı́a
B ROWN, R. (1828). ‘A brief account of microscopical observations made in the

months of June, July and August, 1827, on the particles contained in the pollen of
plants; and on the general existence of active molecules in organic and inorganic
bodies.’ Edinburg new Philosophical Journal, pp. 358–371. Disponible en: http:
//sciweb.nybg.org/science2/pdfs/dws/Brownian.pdf.
C ANAVOS, G. (1988). Probabilidad y Estadı́stica - Aplicaciones y métodos.

McGraw-Hill/Interamericana de Mexico, México.
C AZ ÁS P ERNAS , D.; S OUTO AGUI ÓN , P.; T EIJEIRO B ARJAS , C. y V I -

LAR C ASTRO, C. (2004). ‘Fractales - Movimiento Browniano’. Dis-
ponible en: http://sabia.tic.udc.es/gc/Contenidos%20adicionales/
trabajos/Imagenyvideo/fractales/movimiento_browniano.htm.
C HING , W., N G , M. (2006). Markov Chains: Models, Algorithms and Applications.

Springer Science+Business Media, Inc..
DAVIS, M. (1971). Introducción a la teorı́a de juegos. Alianza Editorial.
D EVORE, J. (2001). Probabilidad y estadı́stica para ingenierı́a y ciencias. Interna-

cional Thomson Editores, S.A. de C.V., Mexico, 5ªedición.
F ELLER, W. (1968). An Introduction to Probability Theory and Its Applications -

Volume I. John Wiley & Sons, 3ªedición.
F ERN ÁNDEZ, B.. ‘La Ley de los Eventos Raros, legado de Simeon
Denis Poisson’. Disponible en: www.cimat.mx/Eventos/vpec10/img/
ArticuloBegonaFernandez.pdf.
G ONZ ÁLEZ R ECIO, J. (2007). Átomos, almas y estrellas: estudios sobre la ciencia
griega. Plaza y Valdes, S.A. de C.V., México.
189
190 BIBLIOGRAFÍA
G RINSTEAD, C., S NELL , J. (1997). Introduction to Probability. American Mathema-

tical Society, 2ªedición.
http://www.dartmouth.edu/˜chance/teaching_aids/books_articles/
probability_book/book.html
L APLACE, P.S. (1886). Théorie Analytique des Probabilités. Gauthier-Villars, Paris.
L UCRETIUS. ‘De rerum natura’. Disponible en: http://www.thelatinlibrary.

com/lucretius.html.
N AUMOV, V., B ASHARIN , G. L ANGVILLE , A.. ‘The life and work of A. A. Mar-
kov’. Disponible en: https://netfiles.uiuc.edu/meyn/www/spm_files/
Markov-Work-and-life.pdf % finalpoint
N ELSON, E. (2001). Dynamic Theories of Brownian Motion. 2ªedición. Disponible

en: http://www.math.princeton.edu/˜nelson/books/bmotion.pdf.
N ORRIS, J. R. (1998). Markov Chains. Cambridge University Press.
O RELLANA , M., Y OTROS (1995). Ecuaciones Diferenciales - Tomo I. Universidad

Nacional Abierta, Caracas, 3ªedición.
O RTEGA , J., Q UIDEL , P. (1995). Procesos Estocásticos - Tomo I. Universidad

Nacional Abierta, Caracas, 4ªedición.
PARADIS, E. (2002). R para principiantes. Traducido por: J. Ahumada.

http://cran.r-project.org/doc/contrib/rdebuts_es.pdf
PARZEN, E. (1962). Stochastic Processes. Holden-Day, San Francisco.
Q UIDEL , P., G ONZ ÁLEZ , J. (1984). Introducción a la teorı́a de la probabilidad. Uni-

versidad Nacional Abierta, Caracas.
R D EVELOPMENT C ORE T EAM (2008). R: A Language and Environment for Statis-

tical Computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN
3-900051-07-0.
http://www.R-project.org
R EBOLLEDO, R. (2002). ‘El azar y sus modelos’. En: IV Jornadas Rolando Chuaqui
Kettlun, .
www.mat.puc.cl/˜rrebolle/Azar/azar-foils.pdf
R ESNICK, S. (2005). Adventures in stochastic processes. Birkhäuser Boston, New

York.
BIBLIOGRAFÍA 191
R IETZ, H. L (1927). Mathematical Statistics. Carus Mathematical Monographs.

Open Court Publishing Co..
R INC ÓN, L. (2011). Introducción a los procesos estocásticos. Mexico.
R IOS, S. (1977). Métodos Estadı́sticos. Ediciones del Castillo, S.A., Madrid,

2ªedición.
R OMERO PALMA, J. L. (2009). ‘Modelos de caminata aleatoria con paso uni-

tario y procesos de Wiener generalizados equivalentes a un proceso de
movimiento browniano’. Disponible en: https://sites.google.com/site/
unamatematicaseltigre/.
S IEGEL, S. (1974). Estadı́stica no paramétrica aplicada a las ciencias de la con-

ducta. Editorial Trillas, México, 2ªedición.
S IMONSON , S. y G OUVEA , F. (2003). ‘How to Read Mathematics’. Disponible en:

www.ed.sc.edu/raisse/pdf/MathArticles/HowtoReadMathematics.pdf.

Introducción a los Procesos Estocásticos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Introducción a los Procesos Estocásticos

Cargado por

Copyright:

Formatos disponibles

I NTRODUCCI ÓN A LOS

Tus miembros serán estimados,

Si fueras ¡ay! un animal

Y vendrán tus hijos a visitarte:

¡Cuánto avanza el progreso!

¿Qué hicimos de los naturales,

Oda a los Procesos Estocásticos III

1. Repaso de teorı́a de probabilidades 1

1.1. Espacios probabilizados . . . . . . . . . . . . . . . . . . . . . . . 3

1.2. Álgebra de eventos. Otras definiciones de probabilidad . . . . . . . 5

1.3. Variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.4. Valores esperados . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.5. Función caracterı́stica y generatriz. Distribuciones . . . . . . . . . 15

1.6. Variables aleatorias n-dimensionales . . . . . . . . . . . . . . . . 22

1.7. Variables aleatorias independientes . . . . . . . . . . . . . . . . . 25

1.8. Ejemplo para las secciones 1.6 y 1.7 . . . . . . . . . . . . . . . . 30

1.9. Problemas propuestos . . . . . . . . . . . . . . . . . . . . . . . . 33

2.1. ¿Para qué la simulación? Breve introducción al R . . . . . . . . . . 38

2.2. Cómo conseguir el interprete R . . . . . . . . . . . . . . . . . . . 39

2.3. Breve introducción al lenguaje R . . . . . . . . . . . . . . . . . . . 41

2.4. Dos problemas de simulación . . . . . . . . . . . . . . . . . . . . 50

2.5. Problemas propuestos . . . . . . . . . . . . . . . . . . . . . . . . 57

3. Introducción a los procesos estocásticos 61

3.1. Definición y ejemplos de procesos estocásticos. . . . . . . . . . . 62

3.2. Probabiliad y esperanza condicional . . . . . . . . . . . . . . . . . 65

3.3. Valor medio y núcleo de covarianza . . . . . . . . . . . . . . . . . 70

3.4. Incrementos y estacionariedad . . . . . . . . . . . . . . . . . . . . 72

3.5. Algunos tipos de procesos aleatorios . . . . . . . . . . . . . . . . 75

3.6. Problemas resueltos . . . . . . . . . . . . . . . . . . . . . . . . . 78

3.7. Problemas propuestos . . . . . . . . . . . . . . . . . . . . . . . . 80

4. Caminatas Aleatorias y Movimiento Browniano 85

4.1. El proceso de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . 86

4.2. La cantidad de éxitos . . . . . . . . . . . . . . . . . . . . . . . . . 87

4.3. Cantidad de ensayos hasta r éxitos . . . . . . . . . . . . . . . . . 90

4.4. Problemas resueltos para las secciones 4.1 - 4.3 . . . . . . . . . . 93

4.5. La ruina del jugador . . . . . . . . . . . . . . . . . . . . . . . . . 96

4.6. Duración promedio del juego . . . . . . . . . . . . . . . . . . . . . 104

4.7. Otras caracterı́sticas de las caminatas aleatorias . . . . . . . . . . 109

4.8. Movimiento browniano . . . . . . . . . . . . . . . . . . . . . . . . 112

4.9. Movimiento browniano y la ruina del jugador . . . . . . . . . . . . 118

4.10.Problemas propuestos . . . . . . . . . . . . . . . . . . . . . . . . 121

5. El procesos de Poisson homogéneo 125

Objetivos de la Unidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

5.1. Derivación del proceso de Poisson . . . . . . . . . . . . . . . . . . 127

5.2. Derivación axiomática del proceso de Poisson. . . . . . . . . . . . 132

5.3. Procesos de Poisson espaciales. . . . . . . . . . . . . . . . . . . 137

5.4. Distribución del tiempo inter-eventos . . . . . . . . . . . . . . . . . 142

5.5. El proceso de Poisson y la distribución uniforme . . . . . . . . . . 150

5.6. Problemas resueltos . . . . . . . . . . . . . . . . . . . . . . . . . 158

5.7. Problemas propuestos . . . . . . . . . . . . . . . . . . . . . . . . 161

6. Cadenas de Markov 167

Objetivos de la Unidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 168

6.1. Definición, notación, ejemplos y un poco de historia . . . . . . . . . 168

A. Como leer un texto matemático 173

Índice Alfabético 188

El aporte original en el presente tratamiento del tema es el énfasis en la si-

El texto esta organizado en seis unidades. En la primera unidad se da un repaso

mienta de apoyo pedagógico para esclarecer algunos resultados que se expondrán

El nivel de conocimientos previo requerido por parte del alumno equivale al

cuesta trabajo entender a las personas no iniciadas en el tema - el analista de

El Tigre, 27 de agosto 2011

On peut même dire, à parler en rigueur, que

GEOMETR ÍA Y PROBABILIDAD

(II) SiAi es una sucesión de conjuntos disjuntos dos a dos, entonces