Está en la página 1de 203

I NTRODUCCI ÓN A LOS

PROCESOS
ESTOC ÁSTICOS
José Loreto Romero Palma
II
Oda a los Procesos Estocásticos

Pasará el tiempo
y crecerán tus variables
con un paso lento
continuo e integrable,
¿escucharé tu lamento
de fiel dato amable?
¿Por qué te encajonan
en parámetros mudables?

Explicarás la cortisona,
las mareas, la polución,
los estratos, las personas,
toda una población.
Te vestirán de ricas sedas:
de estacionariedad
que acorte tu penas,
de inversibilidad
que invierta tus ternas.

Tus miembros serán estimados,


daremos forma a tu ser
y serás ARIMA o ruido blanco,
serás espejo del suceder.
Tú eres futuro, eres mañana,
eres oráculo
de dı́as, semanas
que con tentáculos
a tu orden atrapas.

III
IV

Si fueras ¡ay! un animal


serpiente voraz serı́as,
creciendo cada vez más
y tu propia cola morderı́as
-¡autorregresiva fatal!-
que tendrı́as tu guarida
bajo la loma de una Normal.

Y vendrán tus hijos a visitarte:


todas las series temporales
que querrán a ti adaptarse
con parámetros formales.

¡Cuánto avanza el progreso!

¿Qué hicimos de los naturales,


reales, quebrados y enteros?
¿Qué de Pitágoras y Thales?
Todo era tan sencillo...
que tú... ¿de dónde coño sales?

Julián Roas
del libro “Vendrán Nuestros Besos”
Índice general

Oda a los Procesos Estocásticos III

Prefacio IX

1. Repaso de teorı́a de probabilidades 1

Objetivos de la Unidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.1. Espacios probabilizados . . . . . . . . . . . . . . . . . . . . . . . 3

1.2. Álgebra de eventos. Otras definiciones de probabilidad . . . . . . . 5

1.3. Variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.4. Valores esperados . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.5. Función caracterı́stica y generatriz. Distribuciones . . . . . . . . . 15

1.6. Variables aleatorias n-dimensionales . . . . . . . . . . . . . . . . 22

1.7. Variables aleatorias independientes . . . . . . . . . . . . . . . . . 25

1.8. Ejemplo para las secciones 1.6 y 1.7 . . . . . . . . . . . . . . . . 30

1.9. Problemas propuestos . . . . . . . . . . . . . . . . . . . . . . . . 33

2. Introducción a la simulación y al R 37

Objetivos de la Unidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.1. ¿Para qué la simulación? Breve introducción al R . . . . . . . . . . 38

V
VI ÍNDICE GENERAL

2.2. Cómo conseguir el interprete R . . . . . . . . . . . . . . . . . . . 39

2.3. Breve introducción al lenguaje R . . . . . . . . . . . . . . . . . . . 41

2.4. Dos problemas de simulación . . . . . . . . . . . . . . . . . . . . 50

2.5. Problemas propuestos . . . . . . . . . . . . . . . . . . . . . . . . 57

3. Introducción a los procesos estocásticos 61

Objetivos de la Unidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

3.1. Definición y ejemplos de procesos estocásticos. . . . . . . . . . . 62

3.2. Probabiliad y esperanza condicional . . . . . . . . . . . . . . . . . 65

3.3. Valor medio y núcleo de covarianza . . . . . . . . . . . . . . . . . 70

3.4. Incrementos y estacionariedad . . . . . . . . . . . . . . . . . . . . 72

3.5. Algunos tipos de procesos aleatorios . . . . . . . . . . . . . . . . 75

3.6. Problemas resueltos . . . . . . . . . . . . . . . . . . . . . . . . . 78

3.7. Problemas propuestos . . . . . . . . . . . . . . . . . . . . . . . . 80

4. Caminatas Aleatorias y Movimiento Browniano 85

Objetivos de la Unidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

4.1. El proceso de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . 86

4.2. La cantidad de éxitos . . . . . . . . . . . . . . . . . . . . . . . . . 87

4.3. Cantidad de ensayos hasta r éxitos . . . . . . . . . . . . . . . . . 90

4.4. Problemas resueltos para las secciones 4.1 - 4.3 . . . . . . . . . . 93

4.5. La ruina del jugador . . . . . . . . . . . . . . . . . . . . . . . . . 96

4.6. Duración promedio del juego . . . . . . . . . . . . . . . . . . . . . 104

4.7. Otras caracterı́sticas de las caminatas aleatorias . . . . . . . . . . 109

4.8. Movimiento browniano . . . . . . . . . . . . . . . . . . . . . . . . 112

4.9. Movimiento browniano y la ruina del jugador . . . . . . . . . . . . 118


ÍNDICE GENERAL VII

4.10.Problemas propuestos . . . . . . . . . . . . . . . . . . . . . . . . 121

5. El procesos de Poisson homogéneo 125

Objetivos de la Unidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

5.1. Derivación del proceso de Poisson . . . . . . . . . . . . . . . . . . 127

5.2. Derivación axiomática del proceso de Poisson. . . . . . . . . . . . 132

5.3. Procesos de Poisson espaciales. . . . . . . . . . . . . . . . . . . 137

5.4. Distribución del tiempo inter-eventos . . . . . . . . . . . . . . . . . 142

5.5. El proceso de Poisson y la distribución uniforme . . . . . . . . . . 150

5.6. Problemas resueltos . . . . . . . . . . . . . . . . . . . . . . . . . 158

5.7. Problemas propuestos . . . . . . . . . . . . . . . . . . . . . . . . 161

6. Cadenas de Markov 167

Objetivos de la Unidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 168

6.1. Definición, notación, ejemplos y un poco de historia . . . . . . . . . 168

A. Como leer un texto matemático 173

Índice Alfabético 188

Bibliografı́a 189
VIII ÍNDICE GENERAL
Prefacio

El presente material surgió originalmente para ser utilizado como texto princi-
pal de consulta para el curso de Procesos Estocásticos de la carrera de Ingenierı́a
de Sistemas que dicto en la UNEFA. Aún cuando existe abundante bibliografı́a y
material disponible en Internet sobre este tema, considero que existen sobradas
razones que justifican la elaboración del presente texto. En primer lugar, los libros
que versan sobre el tema están pensados para un público matemáticamente más
maduro, generalmente para estudiantes a nivel de postgrado, además que, por ser
estos libros muy especializados, son demasiado escasos en las librerı́as venezo-
lanas. Por otro lado, navegar a través del Internet en búsqueda de bibliografı́a en
lı́nea puede resultar una tarea hercúlea para el estudiante de pregrado cuya pri-
mera exposición al tema es ésta. En fin, la bibliografı́a existente es muy dispersa,
escasa y no adecuada a las necesidades del estudiante venezolano, por lo cual
considero que este texto viene a llenar un vacı́o.

El aporte original en el presente tratamiento del tema es el énfasis en la si-


mulación estocástica. Incorporar el aspecto de la verificación empı́rica del méto-
do cientı́fico en la exposición de un tema de la matemática, que es una ciencia
netamente teórica, puede parecer un disparate. No obstante, se piensa que es-
te enfoque puede rendir muchos dividendos, sobre todo instruccionales. Con los
abundantes ejemplos de simulación en código R se pretende familiarizar al estu-
diante con un lenguaje de programación de libre distribución que está adquiriendo
cada vez más relevancia en el mundo de la investigación estocástica. Por otro lado,
con la exposición del alumnado a herramientas de software libre se pretende hacer
un modesto aporte hacı́a el logro de la soberanı́a tecnológica nacional.

El texto esta organizado en seis unidades. En la primera unidad se da un repaso


de la teorı́a de las probabilidades y además de presentan algunos elementos de la
teorı́a que posiblemente se obviaron en asignaturas anteriores. La segunda unidad
es una introducción al lenguaje de programación R y a la simulación como herra-

IX
X ÍNDICE GENERAL

mienta de apoyo pedagógico para esclarecer algunos resultados que se expondrán


en el resto del texto. La tercera unidad es quizás la más abstracta de todo el texto.
Comienza con la definición de lo que es un proceso estocástico y prepara todo el
andamiaje conceptual para caracterizar sus tipos y propiedades. En la cuarta uni-
dad se aborda el estudio de las caminatas aleatorias y el problema de la ruina del
jugador. En la segunda parte de la unidad, se relaciona el movimiento browniano
continuo con los procesos de parámetro discreto vistos en la primera parte de la
unidad. La quinta unidad versa sobre los procesos de Poisson homogéneos, tan
ubicuos en el modelamiento de fenómenos reales. Por último, en el sexto capı́tulo,
se tratan las cadenas de Markov de parámetro discreto.

El nivel de conocimientos previo requerido por parte del alumno equivale al


de un estudiante que haya cursado alguna asignatura de probabilidad elemental y
los respectivos cursos de matemáticas del ciclo básico de ingenierı́a, que abarcan
temas de cálculo diferencial e integral, series y ecuaciones diferenciales. Desgra-
ciadamente, es frecuente que en la impartición de los pensa matemáticos se haga
demasiado énfasis en el aspecto de cómo calcular y se soslaye el cómo cons-
truir modelos matemáticos y resolver problemas a través de ellos. En el fondo, se
está obviando un aspecto importantı́simo de las matemáticas, que es el de la ma-
temática como un lenguaje. ¿Como leer, interpretar y comprender este lenguaje?
¿Qué significa demostrar algo matemáticamente? Para compensar esta omisión
en la didáctica de las matemáticas, se ha incluido en el apéndice un breve artı́cu-
lo sobre como leer textos matemáticos, con orientaciones para el estudio de este
curso. Se recomienda primero leer este apéndice antes de abordar el estudio del
curso como tal. Otro elemento de ayuda al estudiante en este libro es el uso de la
técnica de simulación utilizada como herramienta didáctica. Con ello se pretende
motivar al auto-estudio, inculcar el espı́ritu investigativo y fomentar una actitud crı́ti-
ca y positiva hacia el estudio de la estocástica, lo cual sin duda facilitará el estudio
de estos temas tan abstractos. Mi recomendación general al estudiante es estudiar
detenidamente los problemas resueltos y la implementación de las simulaciones en
el texto para posteriormente realizar los problemas propuestos.

Desde una perspectiva más amplia, el contenido de este texto esta enmarcado
dentro de un componente importante en el pensum de la ingenierı́a de sistemas
y de las ciencias de la computación. Me refiero al conglomerado de materias ta-
les como investigación de operaciones, matemáticas discretas, probabilidades y
estadı́stica, métodos numéricos y simulación y modelos matemáticos. A mi juicio,
dicho componente es medular para la formación integral de un analista de siste-
mas, quién debe apuntar más allá de ser un simple tecnócrata operario de TICs
(Tecnologı́as de Información y Comunicación). Más bien - y esto es algo que le
ÍNDICE GENERAL XI

cuesta trabajo entender a las personas no iniciadas en el tema - el analista de


sistemas debe estar en capacidad de analizar cualquier sistema, sea éste una em-
presa, una red de tráfico vehicular, la economı́a nacional o la sociedad. Con las
materias de este componente se pretende dotar al estudiante de herramientas pa-
ra el análisis matemático de los sistemas, cuyo fin ulterior es el de apoyar la toma
racional de decisiones y permitir medir el desempeño del decisor en aras de lo-
grar progresivamente un mayor bienestar colectivo. En un paı́s como Venezuela,
es verdaderamente acuciante capacitar profesionales con estas destrezas; nuestro
desarrollo como nación depende de ello.

Quiero en estas lı́neas agradecer a los profesores y autores que de manera di-
recta o indirecta contribuyeron en mi propia formación. En particular, extiendo mis
agradecimientos a Luis A. Azocar Bates, quien fue mi profesor en la Universidad
Nacional Abierta, ası́ como también a mis colegas y compañeros docentes, Elai-
ne J. Pérez Bracho, José T. Gomez Barreto y Rafael A. Rofriguez Toledo, quienes
además han contribuido con importantes sugerencias en la redacción de este ma-
terial. Debo incluir palabras de reconocimiento y de agradecimiento a mis alumnos
de la UNEFA, quienes han contribuido también con sugerencias y a quienes este
libro está dedicado. Aspiro inculcar en ellos una pasión por los temas de la investi-
gación de operaciones y el modelamiento matemático para que sean ellos mismos
los que sigan investigando, formándose y siempre estando a la vanguardia en esta
Era de la Información. Que su nivel de conocimientos rebase muchas veces el mı́o
propio, que éstos sirvan al bienestar de nuestra nación y que ésta reconozca la
importancia del saber que ellos portan son mis deseos.

El Tigre, 27 de agosto 2011


XII ÍNDICE GENERAL
Unidad 1

Repaso de teorı́a de
probabilidades

On peut même dire, à parler en rigueur, que


presque toutes nos connaissances ne sont que
probables; et dans le petit nombre des choses
que nous pouvons savoir avec certitude dans les
scı̀ences mathématiques elles-mêmes, les prici-
paux moyens de parvenir à la vérité, l’induction et
l’analogie, se fondent sur les probabilités ...

GEOMETR ÍA Y PROBABILIDAD


Tinta y lápiz sobre papel Laplace, P.S.
Anatoli Fomenko Theorie de Probabilité

1
2 UNIDAD 1. REPASO DE TEORÍA DE PROBABILIDADES

Objetivos de la Unidad

El objetivo general de esta Unidad es hacer un repaso de la teorı́a de probabili-


dades a fin de que el estudiante domine los conceptos fundamentales necesarios
para acometer el estudio de los procesos estocásticos. Para lograr este objetivo, se
requiere a su vez el dominio de los siguientes objetivos especı́ficos:

Determinar el espacio muestral asociado a un experimento aleatorio.

Resolver problemas de cálculo de probabilidades mediante los axiomas de


Kolmogorov y el álgebra de eventos.

Manejar el concepto de independencia estocástica y resolver problemas que


involucran eventos independientes.

Manejar el concepto de variable aleatoria discreta o continua y calcular sus


valores esperados.

Aplicar las distintas distribuciones de probabilidad discretas o continuas al


modelado de diversos fenómenos y calcular probabilidades referidos a ellos.

Aplicar la función generatrı́z y la función caracterı́stica para el cálculo de


momentos de una variable aleatoria y para determinar la distribución de una
variable aleatoria.

Manejar los conceptos de vector aleatorio, función de probabilidad conjunta,


variables aleatorias independientes y aplicarlos en la resolución de proble-
mas.
1.1. ESPACIOS PROBABILIZADOS 3

1.1. Experimento aleatorio. Espacio muestral. Eventos ele-


mentales. Probabilidad

El objetivo fundamental de la teorı́a de la probabilidad es la descripción ma-


temática de experimentos aleatorios , que son procesos cuyos resultados no se
pueden predecir con exactitud. Las dificultades en manejar matemáticamente algo
que es por naturaleza impredecible se superan si abordamos la identificación de
todos los resultados posibles que puede arrojar un experimento aleatorio. Con esto
habremos definido el espacio muestral . El espacio muestral es un conjunto, en el
sentido matemático de la palabra, y sus elementos constituyentes son los resul-
tados posibles del experimento aleatorio, que también se conocen como eventos
elementales. Usualmente se denota el espacio muestral mediante la letra griega
omega mayúscula (Ω) y los eventos elementales mediante la omega minúscula
con algún subı́ndice (ωi ) para distinguirlos entre sı́ 1 . Para mantener la consisten-
cia en la notación, se aclara que por evento elemental se entiende cada resultado
posible del experimento aleatorio (los elementos constituyentes de Ω) o los sub-
conjuntos unitarios de Ω formados por los elementos de Ω correspondientes. Es
de notar que la colección de eventos elementales, bajo la acepción de subconjuntos
unitarios, forman una partición de Ω: su unión es el conjunto Ω y son mutuamente
disjuntos 2 dos a dos.

Los eventos elementales se pueden componer mediante uniones para formar


eventos , que son subconjuntos del espacio muestral. La colección de eventos del
espacio muestral es un álgebra de conjuntos, porque es cerrada bajo uniones finitas
y complementos. En términos más sencillos, si A y B son dos eventos cualesquiera,
A ∪ B y A son eventos también. A ∪ B es el evento que se verifica cuando se verifica
el evento A o el evento B y A3 es el evento que se verifica cuando no se verifica
A. Como A ∩ B = A ∪ B, el álgebra de eventos es cerrada bajo las intersecciones
finitas también. Denotaremos por ℑ la clase de todos los eventos, o álgebra del
espacio muestral.

Por razones que van más allá del alcance teórico de este recuento, es preciso
exigir una condición adicional sobre ℑ: Si {An } es una sucesión numerable de
eventos, entonces su unión infinita también es un evento -

1
La notación ωi para designar a los eventos elementales se utiliza cuando el espacio muestral Ω
es un conjunto numerable.
2
Dos eventos son mutuamente disjuntos o mutuamente excluyentes si su intersección es vacia:
A ∩ B = 0/ .
3
A se denomina evento complementario de A.
4 UNIDAD 1. REPASO DE TEORÍA DE PROBABILIDADES

Figura 1.1: Andrei Nikolaevich Kolmogorov (1903-1987)

Matemático ruso, estudió bajo Nikolai Luzón en la Universidad de Estatal


de Moscú, obteniendo su Ph D en 1929.Sus más importantes contribu-
ciones fueron en el área de las probabilidades y los procesos estocásti-
cos, a los cuales les confirió una sólida fundación matemática. Desa-
rrollo una ecuación de capital importancia en el campo de los proce-
sos estocásticos: la ecuación de Chapman-Kolmogorov. Fuente: http:
//en.wikipedia.org/wiki/Andrey_Nikolaevich_Kolmogorov

[

An ∈ ℑ
n=1

Un álgebra que satisface esta condición más fuerte se denomina σ-álgebra. Por
/ Ω} y ℘(Ω) (esta última se lee “partes de omega”, que es la clase de
ejemplo, {0,
todos los subconjuntos posibles de Ω) son σ-álgebras. En resumen, se ha asociado
a un experimento aleatorio un conjunto de resultados posibles y una estructura
matemática para definir todos los eventos posibles.

A modo de ejemplo, si el experimento aleatorio consiste en escoger al azar una


persona y observar su dı́a de cumpleaños, para definir el espacio muestral debe-
mos identificar cada dı́a del año de una forma conveniente. Se podrı́a asociar el 1
al primero de enero, el 2 al segundo de enero y ası́ sucesivamente. Descartando
el caso de las personas nacidas el 29 de febrero, el espacio muestral esta definido
por el conjunto de números naturales del 1 al 365 y Ω = {1, 2, · · · , 365}. Podemos
observar que el espacio muestral es un conjunto numerable y finito. Si estamos
interesados en el evento “la persona es nacida en el mes de enero”, este evento
se podrı́a definir como E = {1, 2, · · · , 31}. Análogamente, si estamos interesados
en el evento “la persona es de signo acuario en el zodiaco” (21 de enero al 19 de
febrero), este se definirı́a por E = {21, 22, · · · , 50}.

Las bases matemáticas de la teorı́a de probabilidades moderna se deben a


elaboraciones sobre la teorı́a de la medida, que primordialmente se ocupa de cómo
asignar cantidades numéricas a cada conjunto de una σ-álgebra. En nuestro caso
esto es muy oportuno porque nos preocupa asociar probabilidades a eventos, y
las probabilidades son valores numéricos que cuantifican el grado de certidumbre
sobre la ocurrencia de algún evento en la realización de un experimento aleatorio.
En el lenguaje de la teorı́a de la medida, la probabilidad es una medida, o función
que le asigna a cada conjunto de una σ-álgebra un valor real positivo o nulo:
1.2. ÁLGEBRA DE EVENTOS. OTRAS DEFINICIONES DE PROBABILIDAD 5

Definición (Axiomas de Kolmogorov). Sea (Ω, ℑ) un espacio muestral con su


respectiva σ-álgebra de eventos. Una función P : ℑ −→ [0, 1] es una medida de
probabilidad si satisface las condiciones siguientes:

(I) P (Ω) = 1

(II) SiAi es una sucesión de conjuntos disjuntos dos a dos, entonces


S
∞ ∞
P An = ∑ P(An ) Esta es la propiedad de σ-aditividad
n=1 n=1

En este caso se dice que (Ω, ℑ, P) es un espacio de probabilidad o espacio


probabilizado .

1.2. Álgebra de eventos. Otras definiciones de probabili-


dad

A pesar de que los axiomas de Kolmogorov son pocos, permiten, mediante un


uso juicioso del álgebra de eventos (vale decir, la teorı́a de conjuntos, sobre la cual
estos axiomas están fundamentados), demostrar toda una serie de resultados refe-
rentes al cálculo de probabilidades. Por ejemplo, el primer axioma establece que la
probabilidad de que se verifique cualquiera de los resultados posibles de un expe-
rimento aleatorio es igual a uno (P(Ω) = 1). Este axioma es coherente con nuestra
intuición - siempre que realizamos un experimento aleatorio, se verificará alguno
de los resultados posibles. Ahora bien, ¿cuál es la probabilidad de que se verifique
/ ? Intuitivamente, deberı́a ser cero, pues tras la realización de
el evento vacı́o: P(0)
un experimento aleatorio siempre se verificará alguno de los resultados posibles y
nunca “sucederá nada”. Sin embargo, ¿podrı́amos demostrarlo matemáticamente?

Problema Resuelto 1.1


/ = 0.
Demostrar que P(0)

Solución
Según las leyes algebraicas de conjuntos, se tiene que:

(I) Ω ∪ 0/ = Ω.

(II) Ω ∩ 0/ = 0/ , lo cual implica que Ω y 0/ son mutuamente excluyentes.


6 UNIDAD 1. REPASO DE TEORÍA DE PROBABILIDADES

El espacio muestral Ω es el conjunto universal y además, según el axioma 1, se


tiene que P(Ω) = 1. Por otro lado, el hecho de que Ω y 0/ sean mutuamente exclu-
yentes implica que podemos usar el axioma 2:

/
P(Ω) = P(Ω ∪ 0) ➒ según (i)
Ω y 0/ son mutuamente excluyentes y
/
= P(Ω) + P(0) ➒ aplica el axioma 2
/
= 1 + P(0) ➒ P(Ω) = 1 según el axioma 1
Aplicando nuevamente el axioma 1 a la
=1 ➒ primera igualdad

/ = 1, implica necesariamente que


Lo establecido en la última igualdad, 1 + P(0)
/
P(0) = 0, como se querı́a demostrar.

Con argumentos completamente análogos a los de la demostración anterior,


se puede demostrar también que, dado un evento A, la probabilidad del evento
complementario A viene dada por P(A) = 1−P(A). Otra fórmula bastante conocida
es la de la probabilidad del evento A ∪ B: P(A ∪ B) = P(A) + P(B) − P(A ∩ B). Esta
fórmula es más general que la del segundo axioma de Kolmogorov. En particular,
si A y B son dos eventos mutuamente excluyentes, entonces P(A ∩ B) = P(0) / =
0 y se estarı́a en el caso del segundo axioma de Kolmogorov. Un diagrama de
Venn en el cual se representan los dos eventos A y B con su intersección puede
aclarar como demostrar esta fórmula. Todas estas demostraciones se dejan como
ejercicios propuestos al final del capı́tulo.

Lo que se pretende con la demostración precedente y las otras similares que


se sugieren como ejercicios para el lector es hacer evidente que, mediante los
axiomas de Kolmogorov y la teorı́a de conjuntos, se puede calcular la probabilidad
de cualquier evento siempre y cuando éste se pueda representar mediante una
expresión algebraica que involucre otros eventos cuyas probabilidades sean cono-
cidas. Esto pareciera soslayar una limitación de la teorı́a de la probabilidad según
las bases axiomáticas de Kolmogorov, pero se debe tener en cuenta que la ten-
dencia histórica del desarrollo de las matemáticas siempre ha apuntado hacia una
abstracción progresiva. Para ser históricamente exactos, la teorı́a de las probabili-
dades surge mucho antes de los trabajos de Kolmogorov durante la primera mitad
del siglo XX.

Los orı́genes de la teorı́a de las probabilidades están indisolublemente ligados


al estudio de los juegos de azar y a los trabajos del Marqués de Laplace que datan
1.2. ÁLGEBRA DE EVENTOS. OTRAS DEFINICIONES DE PROBABILIDAD 7

Figura 1.2: Pierre Simon de Laplace (1749-1827)

Laplace, también conocido como el “Newton francés” hizo nume-


rosos e importantes aportes a las matemáticas, la astronomı́a y
la ciencia en general. En su obra “Theorie Analytique des Proba-
bilités” sentó las bases cientı́ficas de la teorı́a matemática de la
probabilidad. Laplace también elaboró sobre el papel central que
juega la distribución normal en la teorı́a de la probabilidad y a él
se le atribuye el haber descubierto y demostrado el Teorema Cen-
tral del Lı́mite. Fuente: http://thales.cica.es/rd/Recursos/
rd97/Biografias/52-4-b-laplace.html

del siglo XVIII. Términos como “el problema de la ruina del jugador” y otras frases
que usaremos a lo largo de este libro delatan estos orı́genes históricos, aún cuando
sus aplicaciones hoy en dı́a trascienden en mucho el contexto de los casinos. Es
natural para nosotros como estudiantes del tema remontarnos a estos orı́genes y
considerar otras definiciones del concepto de probabilidad.

Laplace, en su obra titulada “Théorie Analytique des Probabilités” que publicó en


17954 , define probabilidad en los siguientes términos: La teorı́a del azar consiste
en reducir todos los eventos de un mismo género a un cierto número de casos
igualmente posibles, es decir, tales que estemos igualmente indecisos sobre su
ocurrencia, y a determinar el número de casos favorables al evento cuya proba-
bilidad se busca. La relación de ese número con respecto a la cantidad de todos
los casos posibles es la medida de dicha probabilidad, que de este modo es una
fracción cuyo numerador se corresponde al número de casos favorables al evento
y cuyo denominador es el número de casos posibles5 .

4
Ver Laplace (1886), p. viii.
5
La théorie des hasards consiste à réduire tous les événements du mème genre à un certain
nombre de cas également posibles, c’est à-dire- tels que nous soyons également indecis sur leur
existence, et à déterminer le nombre de cas favorables a l’événment dont on cherche la probabilité.
Le rapport de ce nombre à celui de tous les cas possibles est la mésure de cette probabilité, qui n’est
ainsi qu’une fraction dont le numérateur est le nombre de cas favorables, et dont le dénominateur est
le nombre de tous les cas possibles.
8 UNIDAD 1. REPASO DE TEORÍA DE PROBABILIDADES

Definición (Probabilidad según Laplace). Si n es el número total de casos po-


sibles y equiprobables de un experimento aleatorio y nA es el número de casos
para los cuales se verifica cierto evento A, entonces la probabilidad del evento A
viene dada por

nA
P(A) =
n
Podemos identificar en esta definición clásica de la probabilidad según Laplace
algunos de los conceptos que ya hemos visto, tales como “espacio muestral” y
“evento”. Sin embargo, Laplace enfatiza que los casos que componen el espacio
muestral deben ser “igualmente posibles”. Esta suposición un tanto simplificadora,
pero sustentada en nuestra intuición común de las cosas, era válida para la mayorı́a
de los juegos de azar. Piénsese por ejemplo en el lanzamiento de un dado no
cargado: si las seis caras del dado son igualmente posibles, la probabilidad de que
salga un cinco al lanzar el dado es pues 61 . Sin embargo, al pretender aplicar la
teorı́a de la probabilidad al estudio de algunos sistemas de partı́culas cuánticas,
por ejemplo, se vio que las leyes probabilı́sticas de estas no se conformaban a la
intuición “natural” o a las suposiciones laplacianas de casos igualmente posibles y a
su vez hubo que plantear otros de modelos probabilı́sticos como el de Fermi-Dirac
o el de Bose-Einstein6 . Lo cierto es que esto derivó en la necesidad de replantear el
concepto de probabilidad de una manera más abstracta, como lo hizo Kolmogorov.
Dicho sea de paso, la definición de la probabilidad de un evento A como la fracción
nA
n es consona con los axiomas de Kolmogorov, pues como 0 ≤ nA ≤ n, siempre se
tendrá que 0 ≤ P(A) ≤ 1 y además P(Ω) = nn = 1.

Otro enfoque al definir el concepto de probabilidad es el frecuentista. Como


se vio anteriormente, no siempre ocurre que todos los eventos elementales del
espacio muestral sean equiprobables. Ante la ausencia de suposiciones bien sus-
tentadas sobre un fenómeno aleatorio, vale decir, ante la ausencia de un modelo
matemático que permita precisar dichas probabilidades, la alternativa es hallar es-
tas de manera empı́rica, repitiendo el experimento aleatorio muchas veces bajo
las mismas condiciones. A medida que se repite el experimento un mayor núme-
ro de veces, la proporción de veces en los que se verifica un determinado evento
con respecto al número total de realizaciones del experimento aleatorio se acer-
cará cada vez más a su probabilidad. Esto se conoce también como la ley de los
grandes números , y la idea descansa en la repetibilidad, siempre bajo idénticas
condiciones, del experimento aleatorio.

6
Ver Feller (1968), p. 5
1.2. ÁLGEBRA DE EVENTOS. OTRAS DEFINICIONES DE PROBABILIDAD 9

Definición (Probabilidad como frecuencia relativa). Supóngase que se repite un


experimento aleatorio n veces bajo idénticas condiciones y de entre estás repeti-
ciones, cierto evento A se verifica nA veces. Entonces, el lı́mite de la proporción
nA /n conforme n se hace muy grande es la probabilidad del evento A:
nA
P(A) = lı́m
n→∞ n

A lo largo de este libro, haremos uso de este enfoque empı́rico para calcular,
de manera aproximada, algunas probabilidades. Las repeticiones de los experi-
mentos aleatorios se harán en computadora mediante programas de simulación.
Para afianzar las ideas recién expuestas, considere el siguiente problema resuelto.

Problema Resuelto 1.2

En el barrio “El Engaño” hay 164 señoras. 96


de entre ellas son chismosas, 84 son envidio-
sas y 100 son chismosas o envidiosas. Si en
el mercado municipal me encuentro una mujer
del barrio por casualidad (al azar), ¿cual es la
probabilidad de que sea chismosa pero no en-
vidiosa?

“Daum Marries Her Pedantic Automaton George in May 1920, John Heartfield is Very Glad of It”,
1920, pintura de George Grosz.

Solución
Primero identificamos el espacio muestral y los eventos pertinentes:

Ω es el conjunto de todas las mujeres del barrio “El Engaño”.

A es el conjunto de mujeres chismosas.

B es el conjunto de mujeres envidiosas.

Tropezarse con una señora del barrio por casualidad (o al azar, si se quiere),
equivale a seleccionar aleatoriamente una entre las 164 mujeres del barrio. Esto a
su vez quiere decir que es igualmente probable encontrarse con una u otra- aplica la
definición de probabilidad de Laplace (número de casos favorables entre el número
total de casos) para determinar las probabilidades a partir del enunciado:
10 UNIDAD 1. REPASO DE TEORÍA DE PROBABILIDADES

96
“96 de entre ellas son chismosas” → P(A) = 164 ≈ 0, 5854.
84
“... 84 son envidiosas ...” → P(B) = 164 ≈ 0, 5122.
100
“... 100 son chismosas o envidiosas.” → P(A ∪ B) = 164 ≈ 0, 6098.

La probabilidad que se quiere calcular, expresada en términos de los eventos


definidos anteriormente, es P(A ∩ B). A partir de los datos arriba podemos hacer
uso del álgebra de eventos para encontrar dicha probabilidad:

P(A) = P(A ∩ B) + P(A ∩ B) → ➒ (¿porqué?)

P(A ∩ B) = P(A) − P(A ∩ B)

Pero por otra parte:

P(A ∪ B) = P(A) + P(B) − P(A ∩ B) →


P(A ∩ B) = P(A) + P(B) − P(A ∪ B) ≈ 0, 5854 + 0, 5122 − 0, 6098 = 0, 4878

Sustituyendo en la ecuación anterior para P(A ∩ B):

P(A ∩ B) ≈ 0, 5854 − 0, 4878 = 0,0976

1.3. Variable aleatoria. Distribución de probabilidad. Ti-


pos de variables aleatorias. Densidad de probabili-
dad

El concepto de variable aleatoria es esencial y de mucha utilidad en el estudio


matemático de los fenómenos aleatorios porque es un mecanismo para “traducir”
los objetos del espacio muestral, que no necesariamente se identifican de forma
numérica, a elementos de algún conjunto numérico. Esto facilita enormemente la
1.3. VARIABLES ALEATORIAS 11

cuantificación en el estudio de la aleatoriedad, y conlleva eventualmente a estable-


cer caracterı́sticas importantes que resumen numéricamente el comportamiento
del fenómeno aleatorio, como la esperanza y la varianza.

Definición (Variable Aleatoria). Sea (Ω, ℑ, P) un espacio de probabilidad. La


variable aleatoria X(ω) es una función X : Ω −→ R que asigna a cada elemento
del espacio muestral un valor real. Adicionalmente, la variable aleatoria es una
función medible, porque deber verificar que {ω|X(ω) < α} ∈ ℑ.

Aún cuando esta caracterı́stica de las variables aleatorias como funciones me-
dibles no se menciona en los textos elementales de probabilidades con los que Ud.
probablemente estudió esta materia, se incluye en la definición anterior porque es
justamente esta caracterı́stica la que posibilita el cálculo de probabilidades asocia-
das a intervalos reales, la definición de funciones de distribución de probabilidad y
consecuentemente, la función de densidad de probabilidad.

La variable aleatoria traduce eventos en el espacio muestral a intervalos o sub-


conjuntos numéricos con la finalidad de calcular la probabilidad asociada a estos
subconjuntos numéricos. Es decir, convierte la medida de probabilidad de eventos
a distribuciones de probabilidad en conjuntos numéricos, definiendo ası́ la llamada
función de distribución de probabilidad :

Definición (Función de Distribución de Probabilidad). Sea (Ω, ℑ, P) un espacio


de probabilidad y X(ω) una variable aleatoria definida sobre este espacio. La
función de distribución F(x) de una variable aleatoria se define como sigue:

F(x) = P{X ≤ x} = P{ω|X(ω) ≤ α}

Habiendo hecho esta definición, se esclarece el comentario anterior sobre la


propiedad de la variable aleatoria como función medible - si {ω|X(ω) < α} ∈ /ℑ,
dicho evento no tendrı́a probabilidad asociada y por lo tanto se indefinirı́a la función
de distribución de probabilidad, porque solo tienen probabilidad aquellos eventos
definidos en ℑ. Entre algunas propiedades de la función de distribución de proba-
bilidad, que también se denomina a veces función acumulada de probabilidad, se
mencionan:

1. F es una función creciente que toma valores en [0, 1].

2. F(−∞) = 0 y F(+∞) = 1.

Según la naturaleza del conjunto de valores que toma X , se tienen dos tipos
12 UNIDAD 1. REPASO DE TEORÍA DE PROBABILIDADES

de variables aleatorias. Las variables aleatorias discretas se caracterizan por ser el


conjunto de valores de X finito o por lo menos numerable. Si el conjunto de valores
de X es infinito e innumerable, X es una variable aleatoria continua. Esta distinción
es muy importante porque determina la forma en que definimos las probabilidades
puntuales: para una variable aleatoria discreta, P{X = x} es un valor positivo si x
esta dentro del rango de valores donde el evento {ω|X(ω) = x} asume probabilidad
positiva. En cambio, si X es una variable continua, P{X = x} es invariablemente
igual a cero para cualquier valor x porque si X toma valores en un conjunto infinito,
ninguna probabilidad puntual puede ser distinta de cero.

Cuando X es una variable aleatoria, podemos definir su función de probabilidad


del modo usual:

p(x) = P{X = x} = P{ω|X(ω) = x}

La función de probabilidad de una variable discreta es mayor o igual a cero para


todo x y verifica que la suma de las probabilidades puntuales a través del conjunto
imagen de X es igual a uno:


∀x ∈ R | p(x) ≥ 0 y ∑ p(x) = 1
x=−∞

A veces, p(x) se denota por px , para enfatizar la naturaleza discreta de la va-


riable aleatoria ( p tiene un subı́ndice porque los valores posibles de X son nume-
rables). Si X es una variable continua, no tiene sentido hablar de probabilidades
puntuales porque todas son iguales a cero. Se define entonces la función de den-
sidad de probabilidad f , que se corresponde a la derivada Radon-Nikodym de la
función de distribución. Una variable aleatoria que tiene asociada una tal función de
densidad se denomina absolutamente continua, y dicha función de densidad f (x)
verifica lo siguiente:

Zx
∀x ∈ R | f (x) ≥ 0 y F(x) = f (t) dt
−∞

Es de notar que en el caso continuo, f (x) no representa una probabilidad pun-


tual, pues ya hemos establecido que las probabilidades puntuales son necesaria-
mente iguales a cero; en cambio f (x) asume valores mayores o iguales a cero.
1.4. VALORES ESPERADOS 13

Una vez establecidas las definiciones básicas de variable aleatoria, distribución


de probabilidad, función de probabilidad y función de densidad de probabilidad, es
preciso mencionar que en la teorı́a de la probabilidad se estudian diversas dis-
tribuciones o leyes de probabilidad que pretenden modelar una amplia gama de
fenómenos aleatorios. El estudiante que haya cursado cualquier curso elemental
de probabilidades conoce algunas de estas leyes de probabilidad y sus caracterı́sti-
cas más importantes. En las tablas 1.1 y 1.2 se describen las leyes de probabilidad
más usuales.

Por último, se establece un teorema que nos será de utilidad más adelante.
El teorema establece la forma de la función de densidad de probabilidad de una
variable aleatoria expresada como función de otra y se da a continuación sin de-
mostrarlo7 :

Teorema 1.1 (La distribución de una función de variable aleatoria). Sea X una va-
riable aleatoria continua con función de densidad de probabilidad fX (x) y defı́nase
Y = g(X). Si y = g(x) y x = g−1 (y) son funciones univaluadas, continuas y dife-
renciables y si y = g(x) es una función creciente o decreciente de x, la función de
densidad de probabilidad de Y está determinada por:

 −1  dx
fY (y) = fX g (y)
dy
en donde la cantidad J = |dx/dy| recibe el nombre de Jacobiano de la transfor-
mación.

1.4. Valores esperados: esperanza y varianza

Dos caracterı́sticas importantes de una variable aleatoria son su tendencia cen-


tral y su dispersión media con respecto a la tendencia central. Ambas están dadas
por la esperanza y la varianza respectivamente. La esperanza matemática de una
variable aleatoria, también conocida como momento de orden uno o valor medio,
se define del siguiente modo:

Z∞
E[X] = x dF(x)
−∞

Para el caso de la variable absolutamente continua se tiene que su esperanza


7
Ver Teorema 5.2 de Canavos (1988), sección 5.8, pp. 168-169.
14 UNIDAD 1. REPASO DE TEORÍA DE PROBABILIDADES

es:

Z∞
E[X] = x f (x) dx
−∞

en donde los lı́mites de integración se definen convenientemente según el es-


pacio de valores donde f (x) es positiva. La esperanza matemática de una variable
aleatoria discreta con función de probabilidad p(x) se define como:


E[X] = ∑ x p(x)
−∞

en donde, una vez más, los lı́mites de integración se definen de forma con-
veniente. El valor esperado de una variable aleatoria, su media poblacional, fre-
cuentemente se designa mediante la letra µ del alfabeto griego. A continuación se
enuncian sin demostración algunas propiedades importantes de la esperanza:

1. Si X es una variable aleatoria degenerada (que asume un valor constante C


con probabilidad uno), entonces E[X] = C.

2. Sea C una constante y X una variable aleatoria, entonces E[CX] = C · E[X].

3. Sea X una variable aleatoria y sea Y = h(X) otra variable aleatoria que es
función de X . Entonces, el valor esperado de Y es:

Z∞
E[Y ] = E[h(X)] = h(x)dF(x)
−∞

observando que los lı́mites de integración se redefinen de acuerdo a los lı́mi-


tes de integración para la variable X y en atención a la función h. Si la va-
riable X es discreta, Y también lo es y su esperanza se define mediante una
sumatoria.

La varianza , que indica el grado de dispersión de una variable aleatoria res-


pecto a su media, también es un valor esperado. De hecho, la varianza de una
1.5. FUNCIÓN CARACTERÍSTICA Y GENERATRIZ. DISTRIBUCIONES 15

variable aleatoria X es el valor esperado de la diferencia cuadrática de X respecto


a su media y en su cálculo interviene la fórmula anterior:
Z∞
2
V [X] = E[(X − µ) ] = (X − µ)2 dF(x)
−∞

Algunas de sus propiedades notables son:

1. Para toda variable aleatoria X , V [X] ≥ 0

2. Si C es una constante, V [CX] = C2 ·V [X].

3. Si A es una constante, V [X + A] = V [X].

4. V [X] = E[X 2 ] − E 2 [X]. Esta última formula es particularmente útil para el


cálculo de la varianza.

Finalmente, como última nota en este aparte, se menciona la cota de Tchebys-


chev , que involucra la esperanza y la varianza de una variable y es de utilidad para
acotar de forma muy aproximada ciertas probabilidades cuando no se tiene ningún
conocimiento sobre la ley de probabilidad de una variable aleatoria. Este resultado
se da en sus dos formas sin demostración:

V [X]
P [|X − µ| ≥ ε] ≤
ε2

y, recı́procamente,

V [X]
P [|X − µ| < ε] > 1 −
ε2

1.5. Función caracterı́stica y función generatriz. Propie-


dades y tablas de las principales distribuciones.

El interés en la Estadı́stica de la función generatriz de una variable discreta y la


función caracterı́stica de una variable discreta o contı́nua radica en el cálculo de los
momentos y en el cálculo de las distribuciones muestrales, siendo estas particular-
mente útiles para el cálculo de la suma de n variables aleatorias independientes e
16 UNIDAD 1. REPASO DE TEORÍA DE PROBABILIDADES

idénticamente distribuidas. Otro caso donde son de utilidad es cuando se tiene una
composición de variables aleatorias de distintas distribuciones. Ahı́ entonces se
puede deducir la ley de probabilidad de la variable compuesta a través del análisis
de su función caracterı́stica o generadora.

La función caracterı́stica de una variable aleatoria X tiene una definición bas-


tante sencilla: es la esperanza de eiuX , en donde u es una variable real. Se tiene,
pues:

Z∞
iuX
ϕx (u) = E[e ]= eiuX dF(x)
−∞

Como eiuX = cos ux + i · sin ux, esta función es integrable para cada u y con-
secuentemente, ϕ(u) posee una parte real y una parte imaginaria. ϕX (u) también
es conocida como la transformada deZFourier de F(x). Si la variable X es absolu-

tamente continua, entonces ϕX (u) = eiux f (x)dx, con los lı́mites de integración
−∞
definidos donde f (x) sea positiva.

Si X es una variable aleatoria discreta, se tiene por definición que ϕX (u) =


∑ eiux p(x) con los lı́mites de la sumatoria definidos en aquellos puntos donde la
función de probabilidad p(x) sea positiva.

Las funciones caracterı́sticas de algunas variables aleatorias discretas y con-


tinuas más comunes se dan en las tablas 1.1 y 1.2. Es importante recalcar que la
función caracterı́stica depende del parámetro u, por lo tanto, cuando se hable de su
derivada de orden k subsecuentemente, se refiere a la diferenciación con respecto
a u. Por los momentos se indican algunas propiedades de la función caracterı́stica
que son de utilidad, aclarando que en lo sucesivo omitimos el subı́ndice X en ϕX (u)
para ganar claridad tipográfica.

Sea X una variable aleatoria con función caracterı́stica ϕ(u), entonces:

ϕ(0) = 1
|ϕ(t)| ≤ 1
ϕ(k) (0)
E[X k ] = ik

Esta última propiedad es particularmente útil, podemos calcular el momento de


orden k de una variable X derivando k veces su función caracterı́stica, evaluándola
1.5. FUNCIÓN CARACTERÍSTICA Y GENERATRIZ. DISTRIBUCIONES 17

en cero y dividiendo entre ik . Generalmente, en este tipo de cálculos surgen inde-


terminaciones de tipo 0/0 que se pueden resolver mediante el respectivo lı́mite y
la regla de L’Hospital.

Otra propiedad interesante de la función caracterı́stica es que existe una co-


rrespondencia unı́voca entre ésta y la ley de probabilidad de la variable aleatoria
subyacente. Existen varias fórmulas de “inversión” que sirven a tales efectos, como
el teorema de Levy. Dichas formulas se establecen en lo que sigue sin demostra-
ción8 :

Sean F(x) y ϕ(u) la función de distribución y la función caracterı́stica de una


variable aleatoria X respectivamente. Si x1 y x2 son dos puntos de continuidad de
F(x) se tiene:

Z T −iux1
1 e − e−iux2
F(x2 ) − F(x1 ) = lı́m ϕ(u)du
T →∞ 2π −T iu

Como consecuencia de este teorema, se tienen los siguientes resultados:

Si X es discreta, entonces:

Z T
1
px (x) = lı́m e−iux ϕ(u)du
T →∞ 2T −T

En el caso continuo, la función de densidad de X es dada por:

Z T
1
fx (x) = e−iux ϕ(u)du
2π −T

Por último es importante notar, aún adelantándose a la exposición de la in-


dependencia estocástica y la convolución de variables aleatorias, que la función
caracterı́stica sirve para obtener la distribución de una suma de variables indepen-
dientes. Esto se desprende del hecho de que el valor esperado de un producto de
variables aleatorias independientes es igual al producto de los valores esperados
de las variables respectivas, pero este punto se tratará en mayor detalle posterior-
mente.

En el caso en que la variable aleatoria X sea discreta y tome valores positivos,


se puede definir su función generatriz del siguiente modo:
8
RIOS, pp. 96-97
18 UNIDAD 1. REPASO DE TEORÍA DE PROBABILIDADES


g(u) = E[ux ] = ∑ p(k)ux
k=0

Siempre y cuando u este dentro del radio de convergencia de dicha serie infini-
ta. Algunas propiedades notables de la función generatriz son las siguientes:

g(k) (0)
1. p(k) = k! para k = 0, 1, 2, ...

2. E[X(X − 1)...(X − k + 1)] = g(k) (1), para k = 1, 2, .... La expresión E[X(X −


1)...(X − k + 1)] se conoce como momento factorial de orden k para la va-
riable X .

Como la función caracterı́stica, la función generatriz determina unı́vocamente


la ley de probabilidad de una variable aleatoria y también sirve a efectos de determi-
nar la distribución de la suma de variables aleatorias independientes. Las funciones
generatrices de diversas variables aleatorias discretas se dan en la tabla 1.1.

Tabla 1.1: Leyes de probabilidad discretas más frecuentes y sus caracterı́sticas

Bernoulli
En un ensayo de Bernoulli se observa un éxito con probabilidad p o un fracaso con
probabilidad q = 1 − p. 0 ≤ p ≤ 1

Función de probabilidad: Valores Esperados:



 1− p x = 0


px (x) = p x=1 E[X] = p V [X] = pq



0 x∈
/ {0, 1}
Función Generadora: Función Caracterı́stica:
g(z) = q + pz ϕx (u) = q + peiu
1.5. FUNCIÓN CARACTERÍSTICA Y GENERATRIZ. DISTRIBUCIONES 19

Tabla 1.1: Leyes de probabilidad discretas más frecuentes y sus caracterı́sticas


(continuación)

Binomial
Es la suma de n variables aleatorias de Bernoulli independientes e idénticamente
distribuidas con parámetro p. Representa también el número de éxitos en n ensa-
yos independientes. En lo que sigue 0 ≤ p ≤ 1, q = 1 − p, n ∈ N +
Función de probabilidad: Valores Esperados:
 
n

x px qn−x si x ∈ {0, . . . , n}
pX (x) = E[X] = np V [X] = npq
 0 si x ∈
/ {0, ..., n}
Función Generadora: Función Caracterı́stica:
g(z) = (q + pz)n ϕx (u) = (q + peiu )n
Geométrica
La variable aleatoria geométrica es el número de ensayos de tipo Bernoulli que se
requieren hasta observar el primer éxito.En lo que sigue, 0 ≤ p ≤ 1, q = 1 − p.

Función de probabilidad: Valores Esperados:



 pqx−1 si x ∈ N+
1 q
px (x) = E[X] = p V [X] = p2
 0 / N+
si x ∈

Función Generadora: Función Caracterı́stica:


pz peiu
g(z) = 1−qz ϕx (u) = 1−qeiu
Binomial Negativa
La variable aleatoria binomial negativa representa el número de ensayos hasta
observar la r-ésima ocurrencia de un éxito (r es un número fijo).

Función de probabilidad: Valores Esperados:


 
x−1

r−1 pr qx−r si x ≥ r r rq
pX (x) = E(X) = p V (X) = p2
 0 si x < r
Función Generadora: Función Caracterı́stica:
 r  r
pz peiu
g(z) = 1−qz ϕx (u) = 1−qeiu
20 UNIDAD 1. REPASO DE TEORÍA DE PROBABILIDADES

Tabla 1.1: Leyes de probabilidad discretas más frecuentes y sus caracterı́sticas


(continuación)

Poisson
La variable aleatoria Poisson representa el número de eventos que ocurren en un
instante de tiempo de amplitud fija cuando la tasa media de eventos en ese intervalo
de tiempo es λ.
Función de probabilidad: Valores Esperados:
 x
 e−λ λ si x ∈ N ≥ 0
pX (x) = x! E(X) = λ V (X) = λ

0 si x < 0
Función Generadora: Función Caracterı́stica:
iu −1)
g(z) = eλ(z−1) ϕx (u) = eλ(e

Tabla 1.2: Leyes de probabilidad continuas más frecuentes y sus caracterı́sticas

Uniforme
Es la variable aleatoria continua uniformemente distribuida sobre un intervalo (a, b).
La probabilidad de que la variable aleatoria uniforme se encuentre dentro de algún
subintervalo de (a, b) es proporcional a la amplitud de dicho subintervalo.
Función de densidad: Valores esperados:

1

b−a si a < x < b a+b (b−a)2
fx (x) = E[X] = 2 V [X] = 12
 0 en caso contrario
Función caracterı́stica:
eiub − eiua
ϕx (u) =
iu(b − a)
Normal
El número de éxitos en n ensayos independientes de Bernoulli obedece aproxima-
damente una ley Normal a medida que n tiende a infinito. Según el teorema central
del lı́mite, toda suma de n variables independientes e idénticamente distribuidas
es normal cuando n tiende a infinito. La ley normal modela adecuadamente una
amplia gama de fenómenos aleatorios porque generalmente, las desviaciones de
una variable con respecto a un punto central se deben a la suma de una cantidad
indefinidamente grande de perturbaciones aleatorias idénticamente distribuidas e
independientes entre sı́. En lo que sigue σ, µ ∈ R σ > 0.
1.5. FUNCIÓN CARACTERÍSTICA Y GENERATRIZ. DISTRIBUCIONES 21

Tabla 1.2: Leyes de probabilidad continuas más frecuentes y sus caracterı́sticas


(continuación)

(Normal - continuación)

Función de densidad: Valores esperados:


 
√1 exp x−µ 2
fX (x) = σ 2π
− 12 σ E[X] = µ V [X] = σ2
Función caracterı́stica:

ϕx (u) = exp iuµ − 12 u2 σ2
Exponencial
La variable aleatoria exponencial juega un papel análogo en el caso continuo a la
geométrica y representa el tiempo que transcurre hasta que falla un componente.
Como la geométrica, la variable aleatoria exponencial tiene la propiedad de no
poseer memoria: el haber esperado una cantidad de tiempo determinado sin que
haya ocurrido la falla o el suceso en cuestión no condiciona el tiempo adicional de
espera en el futuro. El único parámetro de esta distribución λ está relacionado con
la tasa media de eventos por unidad de tiempo y tiene la restricción de ser un valor
real positivo.
Función de densidad: Valores esperados:

 λe−xλ si x > 0
1 1
fX (x) = E[X] = λ V [X] = λ2
 0 en caso contrario

Función caracterı́stica:
−1
ϕx (u) = 1 − iuλ
Gamma
La variable aleatoria gamma representa el tiempo de espera hasta la r-ésima ocu-
rrencia de un fallo o evento cuando los eventos ocurren independientemente entre
sı́ con una tasa promedio de λ por unidad de tiempo, con los tiempos inter-eventos
distribuidos exponencialmente con el mismo parámetro. Un caso especifico de la
gamma es la distribución de Erlang, que representa la suma de r variables aleato-
rias independientes distribuidas exponencialmente (en este caso, r es un número
entero positivo). La distribución ji-cuadrado, la Weibull y la exponencial también se
pueden definir como casos particulares de la gamma. Las restricciones sobre los
parámetros son λ, r > 0.
22 UNIDAD 1. REPASO DE TEORÍA DE PROBABILIDADES

Tabla 1.2: Leyes de probabilidad continuas más frecuentes y sus caracterı́sticas


(continuación)

(Normal - continuación)

Función de densidad: Valores esperados:



λ r−1 e−λx
Γ(r) (λx) si x > 0

r r
fx (x) = E[X] = λ V [X] = λ2
 0 en caso contrario
Función caracterı́stica:
−r
ϕx (u) = 1 − iuλ
Nota: La función Γ(r) es la función gamma, que se define a continua-
ción:
R
Γ(r) = 0∞ ur−1 e−u du, r > 0
Esta función tiene las siguientes propiedades:

1. Γ(n + 1) = nΓ(n), n > 0.

2. Γ(n + 1) = n!, si n es un numero entero positivo.

1.6. Variables aleatorias bidimensionales y n-dimensionales.


Función de distribución conjunta. Función de densi-
dad conjunta.

Sucede muy comúnmente que estamos interesados en investigar las relacio-


nes que hay entre dos o más caracterı́sticas de los individuos de una población-
esto da pie a la definición de las variables aleatorias bidimensionales y, de forma
más general, a las n-dimensionales. Este concepto pretende dar respuestas a pre-
guntas tales como: ¿Cuál relación existe entre la estatura y el peso corporal de
cada persona? ¿Existe algún vı́nculo entre el grado de desarrollo tecnológico y el
porcentaje de la población que son cientı́ficos en un paı́s? Es importante recalcar
que las variables aleatorias conjuntas se refieren a dos o más caracterı́sticas que
se observan simultáneamente en cada individuo de una población; están, pues,
asociadas al mismo espacio muestral (ver Fig. 1.3). Ası́ por ejemplo, si estamos
interesados en comparar las destrezas matemáticas de estudiantes de uno y otro
liceo a partir de las notas de matemática de una muestra de veinte alumnos de ca-
da liceo, no se puede instituir en base a esto una variable aleatoria bidimensional
1.6. VARIABLES ALEATORIAS N-DIMENSIONALES 23

porque los alumnos no provienen de la misma población (dos liceos) ni tampoco un


par de notas se refieren al mismo individuo.

Definición (Variable aleatoria bidimensional y n-dimensional). Sea (Ω, ℑ, P) un


espacio de probabilidad y X = X(ω) e Y = Y (ω) dos variables aleatorias defini-
das sobre ese mismo espacio probabilizado. El par (X,Y ) constituye una variable
aleatoria bidimensional, a veces denominada vector aleatorio . Análogamente, si
X1 = X1 (ω), . . . , Xn = Xn (ω) son n variables aleatorias definidas sobre el mis-
mo espacio, entonces es una variable aleatoria n-dimensional (vector aleatorio
n-dimensional).

Figura 1.3: Las variables aleatorias conjuntas están asociadas al mismo espacio
muestral

Ω X(Ω)✬ ✩

X(ω)


✟✟
✫✪
X ✟✟

✟ ✟


✟✟
✬✩

✟✟
✈ ✲ ✈
ω ✟✟
Y
Y (ω)

✫✪
Y (Ω)

Como en el caso unidimesional, las variables aleatorias multidimensionales (n-


dimensionales) son discretas o continuas y poseen función de distribución y función
de probabilidad o función de densidad de probabilidad según sea el caso. Los vec-
tores aleatorios son discretos si el producto cartesiano es un conjunto finito o nu-
merable; en caso contrario, el vector aleatorio es continuo. Sin más preámbulos, se
especifican seguidamente las particularidades salientes de los vectores aleatorios:
24 UNIDAD 1. REPASO DE TEORÍA DE PROBABILIDADES

Función de probabilidad conjunta en caso discreto Al vector aleatorio discreto


(X1 , . . . , Xn ) se asocia una función de probabilidad f (x1 , . . . , xn ) que repre-
senta la respectiva probabilidad P{ω|X1 (ω) = x1 , . . . , Xn (ω) = xn } definida
en el espacio probabilizado y que cumple las siguientes condiciones:

1. p (x1 , . . . , xn ) ≥ 0 para todo (x1 , . . . , xn )


∞ ∞
2. ∑ · · · ∑ p (x1 , . . . , xn ) = 1
x1 =−∞ xn =−∞

La segunda condición establece que la masa de probabilidad total sumada a


través de la región de valores donde p (x1 , . . . , xn ) ≥ 0 es igual a uno. Como
en el caso unidimensional, esta condición es de hecho la que caracteriza a
cualquier función de probabilidad o de densidad.

Función de densidad de probabilidad conjunta (caso continuo) Al vector alea-


torio continuo (X1 , . . . , Xn ) se asocia una función de densidad de probabilidad
f (x1 , . . . , xn ) que, asumiendo valores positivos en alguna región R del espa-
cio n-dimensional, cumple las siguientes condiciones:

1. f (x1 , . . . , xn ) ≥ 0 para todo (x1 , . . . , xn )


inRf ty R∞
2. ··· f (x1 , . . . , xn ) dx1 . . . dxn = 1
x1 =−∞ xn =−∞

Función de distribución de probabilidad conjunta Un vector aleatorio (X1 , . . . , Xn )


basado en un espacio de probabilidad (Ω, ℑ, P) tiene una función de distri-
bución conjunta definida del siguiente modo:

FX1 ,...,Xn (x1 , . . . , xn ) = P{ω|X1 (ω) ≤ x1 , . . . , Xn (ω) ≤ xn }

Se calcula esta expresión mediante sumatorias o integrales múltiples según


sea el vector aleatorio discreto o continuo respectivamente. Las expresiones
para los momentos de los vectores aleatorios se obtienen de forma análoga
al caso unidimensional. Cabe destacar por último la expresión para la función
caracterı́stica de un vector aleatorio:

Función caracterı́stica conjunta Sea (X1 , . . . , Xn ) un vector aleatorio basado en


un espacio de probabilidad (Ω, ℑ, P). Su función caracterı́stica conjunta esta
dada por:
1.7. VARIABLES ALEATORIAS INDEPENDIENTES 25

h i
ϕX1 ,...,Xn (u1 , . . . , un ) = E ei(u1 X1 +···+un Xn
Z Z
= ··· ei(u1 X1 +···+un Xn f (x1 , . . . , xn ) dx1 . . . dxn
Rn

Ha de entenderse la última integral de esta expresión como una sumatoria


en el caso en que sea un vector aleatorio discreto.

Como último punto en este aparte, cabe observar que cada una de las varia-
bles aleatorias Xi que conforman el vector aleatorio (X1 , . . . , Xn ) está asociada a
un mismo espacio probabilizado, por lo cual cada una de estas variables tiene su
propia función de probabilidad (de densidad de probabilidad, si es continua). En el
contexto de las variables aleatorias multidimensionales, la función de probabilidad
(o de densidad) de cada variable aleatoria por separado se conoce como función
de probabilidad (densidad) marginal y se obtiene a partir de la función de proba-
bilidad conjunta sumando (o integrando) a través de las otras variables aleatorias
restantes.

Ası́ por ejemplo, si tenemos el vector aleatorio (X,Y ) con su función de pro-
babilidad conjunta p(x, y) (o función de densidad f (x, y) si es continua), podemos
obtener la función de probabilidad marginal del siguiente modo:

Z
pX (x) = ∑ p(x, y) o fX (x) = f (x, y)dy si (X,Y ) es continua
y∈RangoY
R

En el caso de variables aleatorias de más de dos dimensiones, tendremos su-


matorias o integrales múltiples, a fin de sumar a través de las variables aleatorias
restantes.

1.7. Variables aleatorias independientes y su caracteriza-


ción. Covarianza. Distribución de la suma de dos o
más variables aleatorias independientes. Convolución.

El análisis de las relaciones entre las variables aleatorias de un modelo proba-


bilı́stico tiene mucho que ver con el concepto de la independencia entre variables
26 UNIDAD 1. REPASO DE TEORÍA DE PROBABILIDADES

aleatorias. Intuitivamente, decimos que dos variables aleatorias son independientes


si el resultado observado de una variable no afecta la ocurrencia del valor observa-
do en la otra variable. Otra manera intuitiva de abordar la idea es considerando que
si dos variables aleatorias son independientes, la distribución de probabilidades de
una de ellas permanece igual a través de todos los posibles valores que asuma
la otra variable, lo cual guarda relación directa con la posibilidad de factorizar la
función de probabilidad conjunta como el producto de las respectivas funciones de
probabilidad marginales.

A modo de ilustrar, se considera el siguiente ejemplo: en una población, se


observa la raza o grupo étnico de cada persona conjuntamente con su nivel de
inteligencia medida a través del coeficiente intelectual. Si el nivel de inteligencia de
un individuo es independiente de su grupo racial u origen étnico, se observará que
las proporciones de individuos inteligentes, normales y subnormales permanecerán
iguales sin importar el grupo racial o étnico considerado. Valga este ejemplo para
señalar otro aspecto importante sobre las relaciones de dependencia entre varia-
bles aleatorias: la estadı́stica se limita a discernir si ciertos niveles de una variable
van acompañados por ciertos niveles de otra variable - las técnicas estadı́sticas
clásicas no permiten discernir sobre las relaciones de causalidad de unas varia-
bles sobre otras. En nuestro ejemplo, si encontrásemos que el origen racial no es
independiente del nivel de inteligencia de un individuo, no por esto pudiésemos
concluir que ciertas razas son “más inteligentes” que otras o dicho de otro modo,
que el origen racial de un individuo explica su bajo o alto coeficiente intelectual.
Más bien, en este caso, el investigador deberı́a evaluar si el instrumento de medi-
ción de la inteligencia está o no diseñado de forma sesgada para favorecer a los
individuos de cierta raza por sobre los individuos de otras razas. En todo caso, si
la dependencia estocástica es equivalente a la causalidad, eso es algo que debe
responderse fuera del ámbito probabilı́stico.

El concepto de variables aleatorias independientes y todas sus caracterizacio-


nes que veremos seguidamente están fundamentadas en el concepto de eventos
independientes, el cual se da a continuación:

Definición (Eventos independientes). Dos eventos A y B son independientes si


y solo si P(A ∩ B) = P(A) · P(B).

Un error común en cuanto al concepto probabilı́stico de independencia, por lo


menos en base a la experiencia docente del autor, es aquel de señalar dos even-
tos mutuamente excluyentes como aquellos que son independientes entre sı́. De
hecho, se da justamente lo contrario: si dos eventos son mutuamente exclusivos,
la ocurrencia de uno determina con absoluta certeza la no ocurrencia del otro, por
1.7. VARIABLES ALEATORIAS INDEPENDIENTES 27

lo cual jamás pueden considerarse eventos independientes. Es importante aclarar


todos estos puntos en torno a la noción de independencia estocástica porque un
aspecto importante en el análisis de los procesos estocásticos es determinar si el
estado del proceso en un instante de tiempo es independiente de su estado en otro
instante. Como se verá, la suposición de la independencia entre los estados del
sistema en distintos instantes de tiempo simplifica bastante el análisis del proceso
estocástico.

Seguidamente se dan algunas caracterizaciones de la independencia de las


variables aleatorias conjuntamente distribuidas:

I. Caracterización de la independencia en términos de sus funciones de


probabilidad
Un conjunto de variables aleatorias conjuntamente distribuidas se dice ser in-
dependiente si y solo si su función de probabilidad conjunta se puede factorizar
como el producto de las funciones de probabilidad de cada variable:

p(X1 , . . . , Xn ) = pX1 (x1 ) · . . . · pXn (xn )

Si el vector aleatorio es continuo, se intercambia “función de probabilidad” por


“función de densidad” en esta caracterización.

II . Caracterización de la independencia en términos de sus funciones de


distribución
Para toda n-pla de valores (x1 , · · · , xn ), se tiene que

FX1 ,...,Xn (x1 , · · · , xn ) = FX1 (x1 ) · . . . · FXn (xn )

III . Caracterización de la independencia en términos de la esperanza ma-


temática
Para toda n-pla de funciones (g1 , · · · , gn ) donde existan los respectivos valores
esperados en la siguiente ecuación:

E[g1 (X1 ) · . . . · gn (Xn )] = E[g1 (X1 )] · . . . · E[gn (Xn )]

En palabras: la esperanza del producto de variables aleatorias conjuntamente


distribuidas es igual al producto de los valores esperados de cada variable. De
esta caracterización de independencia se deduce que la varianza de la suma
28 UNIDAD 1. REPASO DE TEORÍA DE PROBABILIDADES

de variables aleatorias conjuntamente distribuidas e independientes es igual a


la suma de las respectivas varianzas:

V [X1 + . . . + Xn ] = V [X1 ] + . . . +V [Xn ]

IV . Caracterización de la independencia en términos de su función carac-


terı́stica
La función caracterı́stica de un vector aleatorio conjuntamente distribuido es
igual al producto de las funciones caracterı́sticas de cada variable aleatoria
respectiva cuando estas son independientes. Dicha caracterización se infie-
re de la propiedad anterior para el valor esperado del producto de variables
aleatorias independientes.

ϕX1 ,...,Xn (u1 , · · · , un ) = ϕX1 (u1 ) · . . . · ϕXn (un )

Esta caracterización de independencia es muy útil. Permite por ejemplo con-


cluir que la suma de n variables exponenciales idénticamente distribuidas e
independientes es una variable aleatoria gamma.

Según las distintas caracterizaciones de independencia vistas, se tiene que dos


variables aleatorias, o son independientes o no lo son. Pero si hemos de establecer
un grado o la magnitud de la dependencia entre dos variables, una medida serı́a la
covarianza , cuya definición es:

cov[X,Y ] = E[(X − E[X])(Y − E[Y ])] = E[X ·Y ] − E[X] · E[Y ]

Es de notar que si dos variables aleatorias X e Y son independientes, las es-


peranzas en la expresión del extremo derecho de estas igualdades se cancela -
consecuentemente, si dos variables aleatorias son independientes, su covarianza
es cero, aunque no podemos establecer de modo general la implicación contraria.
La covarianza puede ser negativa o positiva, sin embargo, a fin de acotar la cova-
rianza y establecer comparaciones entre los grados de dependencia de dos o más
pares de variables aleatorias se define a partir de la covarianza el coeficiente de
correlación :

cov[X,Y ]
ρ[X,Y ] = p
V [X] ·V [Y ]
1.7. VARIABLES ALEATORIAS INDEPENDIENTES 29

el cual se puede demostrar que está acotado entre -1 y 19 . En realidad, el coe-


ficiente de correlación mide el grado de linealidad en la relación de dos variables.
Si ρ es -1, se tiene que entre X e Y existe una relación lineal decreciente perfecta:
una variable se puede expresar como función afı́n de la otra y si una variable crece,
la otra decrece. En cambio ρ = 1 representa una relación lineal creciente perfec-
ta: una variable aleatoria es función afı́n de la otra y ambas decrecen o crecen
simultáneamente. Si ρ es cero, no existe ninguna relación de linealidad entre una
y otra variable, pero como ya se dijo anteriormente, esto no implica necesariamen-
te que las variables en cuestión sean independientes. Dicho sea de paso, existen
otras medidas de correlación un tanto más robustas que no toman la linealidad en
cuenta, como por ejemplo el coeficiente de correlación de rango de Spearman y el
coeficiente de correlación de rango τ de Kendall entre otros10 .

El concepto de independencia entre dos variables y sus caracterizaciones en


términos de la esperanza matemática de su producto tienen como consecuencia
un método sencillo para obtener la distribución de probabilidad de la suma de dos
o más variables aleatorias. Se puede demostrar que si X e Y son dos variables
aleatorias continuas e independientes entonces su función de densidad está dada
por:

Z ∞
fX+Y (y) = fX (x) · fY (y − x)dx
−∞

Para el caso continuo, la función de probabilidad de X + Y para dos variables


independientes es:

pX+Y (y) = ∑ pX (x) · pY (y − x)


x

Integrales como la de arriba se denominan bajo el nombre de convolución . En


algunos textos de matemáticas la convolución de dos funciones f y g se escribe
f ∗ g, de modo que fX+Y (y) = fX ∗ fY . El cálculo de tales integrales (o sumatorias
en el caso discreto) puede resultar algo tedioso - es de este punto de donde las
funciones caracterı́sticas derivan su importancia. Ya que la esperanza del producto
de dos variables aleatorias independientes es igual producto de sus respectivas
esperanzas, se tiene que:

9
Ver la demostración del Teorema 7.11 en MEYER, p. 145
10
Ver el capitulo 9 de Siegel (1974).
30 UNIDAD 1. REPASO DE TEORÍA DE PROBABILIDADES

E[eiu(X+Y ) ] = E[eiuX · eiuY ] = E[eiuX ] · E[eiuY ]

y en consecuencia ϕX+Y (u) = ϕX (u) · ϕY (u). En base a esta fórmula, se pue-


de determinar la distribución de la suma de variables aleatorias independientes
observando la función caracterı́stica de la suma. Con este resultado, se explica
fácilmente porqué la suma de variables exponenciales independientes de idéntico
parámetro tiene una distribución gamma, por ejemplo. Esta formula será de utilidad
en el análisis de ciertos procesos estocásticos.

1.8. Ejemplo para las secciones 1.6 y 1.7

A fin de consolidar su aprendizaje de los conceptos expuestos en las seccio-


nes anteriores sobre variables multidimensionales e independencia, considere el
problema a continuación:

Problema Resuelto 1.3


Se lanzan dos dados y en atención al resultado, se definen las dos variables alea-
torias siguientes:

X representa la suma de las dos caras resultantes en el lanzamiento de los


dados.

Y es una variable aleatoria dicotómica que asume el valor de 1 si la cara del


primer dado es divisible entre 2 o 3, y 0 si no lo es.

Determine la función de probabilidad conjunta de la variable aleatoria bidimen-


sional (X,Y ) ası́ como la funciones de probabilidad marginales de X y de Y . Adicio-
nalmente, indique si las dos variables aleatorias en cuestión son independientes.

Solución
Primero, debemos identificar el espacio muestral subyacente al experimento alea-
torio asociado al lanzamiento de los dos dados. Dicho espacio muestral se puede
definir (o modelar, si prefiere) mediante el siguiente conjunto de pares ordenados:

Ω = {(d1 , d2 ) | d1 , d2 ∈ N, 1 ≤ d1 , d2 ≤ 6}
1.8. EJEMPLO PARA LAS SECCIONES 1.6 Y 1.7 31

En palabras, Ω es el conjunto de todos los pares ordenados de números tal


que cada número representa una de las posibles seis caras del dado respectivo.
Dicho conjunto tiene 36 elementos y asumiendo que los dados son justos y que el
lanzamiento de un dado no condiciona el lanzamiento del otro, cada uno de estos
36 eventos elementales del espacio muestral tiene una probabilidad asociada de
1
36 . Traducción al castellano: todos los posibles resultados de lanzar dos dados son
equiprobables.

A partir de este conjunto Ω definimos las dos variables aleatorias como en el


enunciado del problema. Estas variables pueden considerarse como caracterı́sti-
cas numéricas que estarán asociadas a cada evento elemental o individuo de la
población. En conjunto, se esquematiza todo esto en una tabla:

i ωi X(ωi ) Y (ωi ) i ωi X(ωi ) Y (ωi )


1 (1,1) 2 0 19 (4,1) 5 1
2 (1,2) 3 0 20 (4,2) 6 1
3 (1,3) 4 0 21 (4,3) 7 1
4 (1,4) 5 0 22 (4,4) 8 1
5 (1,5) 6 0 23 (4,5) 9 1
6 (1,6) 7 0 24 (4,6) 10 1
7 (2,1) 3 1 25 (5,1) 6 0
8 (2,2) 4 1 26 (5,2) 7 0
9 (2,3) 5 1 27 (5,3) 8 0
10 (2,4) 6 1 28 (5,4) 9 0
11 (2,5) 7 1 29 (5,5) 10 0
12 (2,6) 8 1 30 (5,6) 11 0
13 (3,1) 4 1 31 (6,1) 7 1
14 (3,2) 5 1 32 (6,2) 8 1
15 (3,3) 6 1 33 (6,3) 9 1
16 (3,4) 7 1 34 (6,4) 10 1
17 (3,5) 8 1 35 (6,5) 11 1
18 (3,6) 9 1 36 (6,6) 12 1

Observamos que la V.A. X asume valores entre 2 y 12 (11 posibles valores),


mientras que Y asume dos posibles valores 0 y 1. Para obtener las probabilidades
conjuntas, construimos una tabla de 11 columnas (cada columna representa un
posible valor de X ) y 2 filas (los dos posibles valores de Y ). En cada celda, se
indica la probabilidad respectiva con que ocurre el valor (x, y). Estas probabilidades
se obtienen a partir de la tabla anterior. Por ejemplo, el par (X,Y ) = (8, 1) ocurre
32 UNIDAD 1. REPASO DE TEORÍA DE PROBABILIDADES

4 veces en 36 casos. Por lo tanto su probabilidad es igual a 4/6 y este valor es


el que colocamos en la celda respectiva. Para variables aleatorias bidimensionales
discretas, dicha tabla se conoce como tabla de contingencia :

X
2 3 4 5 6 7 8 9 10 11 12
1 1 1 1 2 2 1 1 1 1
0 36 36 36 36 36 36 36 36 36 36 0
Y 1 2 3 3 4 4 3 2 1 1
1 0 36 36 36 36 36 36 36 36 36 36

A esta tabla de contingencia podemos agregarle las respectivas funciones de


probabilidad marginales (que son fX (x) y fY (y)) totalizando las probabilidades de
las celdas y de las columnas:

X Totales

2 3 4 5 6 7 8 9 10 11 12 fY (y)
1 1 1 1 2 2 1 1 1 1 12
0 36 36 36 36 36 36 36 36 36 36 0 36
Y
1 2 3 3 4 4 3 2 1 1 24
1 0 36 36 36 36 36 36 36 36 36 36 36
1 2 3 4 5 6 5 4 3 2 1
fX (x) 36 36 36 36 36 36 36 36 36 36 36 1

Con las funciones de probabilidad marginales de X e Y podemos verificar si


estas variables son independientes. Recordemos que una de las definiciones o ca-
racterizaciones de independencia requiere que la función de probabilidad conjunta
sea factorizable por las respectivas funciones de probabilidad marginales, es decir,
que se cumpla p(x, y) = pX (x) · pY (y) para todo x,y.
1
Si tomamos, por ejemplo, x = 3 e y = 0, tenemos p(x, y) = p(3, 0) = 36 , pero
12 2 1
pX (x) · pY (y) = 36 · 36 = 54 y claramente se tiene que p(x, y) 6= pX (x) · pY (y) y por
lo tanto X e Y no son independientes.

Han podido considerarse otras instancias de x e y, pero basta que no se cumpla


p(x, y) = pX (x) · pY (y) para una instancia para que el par X , Y no sea independien-
te. Este resultado tiene una lectura intuitiva: para que la suma X sea 2, es necesario
que D1 no sea divisible entre 2 o 3. Por otro lado, para que X sea 12, es necesario
que D1 sea divisible entre 2 y 3, porque tanto D1 como D2 son necesariamente
iguales a 6. Por lo tanto, vemos que la divisibilidad de D1 por 2 o 3 condiciona la
suma X ; de hecho, se observa que para distintos valores de X las proporciones de
1.9. PROBLEMAS PROPUESTOS 33

las probabilidades conjuntas para los casos Y = 0 o Y = 1 son distintas. Todo esto
confirma que X e Y son mutuamente dependientes, aunque el grado de dependen-
cia no es total. Otra cosa que seguramente habrás notado es la razón por la cual
las funciones de probabilidad individuales de X y de Y se denominan funciones de
probabilidad marginales: siendo totales de columnas y de filas, se especifican en
los márgenes de la tabla de contingencia.

1.9. Problemas propuestos

1. Defina, en sus propias palabras, los siguientes conceptos:

a) Espacio muestral
b) Evento
c) Variable aleatoria
d) Función de distribución de probabilidades
e) Función de densidad de probabilidades
f ) Funcion de probabilidad

2. Defina el espacio muestral asociado al siguiente experimento aleatorio: Un


lote contiene 10 artı́culos, 3 de los cuales son defectuosos. Se extrae un
artı́culo a la vez de este lote, sin reemplazo, hasta haber obtenido todos los
artı́culos defectuosos y se observa la cantidad de artı́culos que quedan en el
lote.

3. Si A y B son dos eventos asociados a un espacio muestral, ¿cómo se inter-


preta A ∪ B? ¿A ∩ B? ¿A?

4. Demuestre que para dos eventos A y B cualesquiera, P(A ∪ B) = P(A) +


P(B) − P(A ∩ B).

5. Para un evento cualquiera A asociado a un espacio muestral Ω, demuestre


que P(A) = 1 − P(A).

6. Un jugador italiano expresó su sorpresa a Galileo por observar que al jugar


con tres dados, la suma 10 aparece con más frecuencia que la 9. Según el
jugador los casos favorables al 9 y al 10 serı́an respectivamente:
34 UNIDAD 1. REPASO DE TEORÍA DE PROBABILIDADES

Casos favora- Casos favora-


bles al 9 bles al 10
126 136
135 145
144 226
225 235
234 244
333 334

Pero Galileo, en su libro Considerazione sopra il giuoco dei dadi, vio que es-
tas combinaciones no se pueden considerar igualmente probables. Explique
porqué y calcule las probabilidades correspondientes.

7. La correspondencia epistolar entre Pascal y Fermat, dos grandes matemáti-


cos del siglo XVII, que jugó un papel histórico determinante en el desarrollo
de la teorı́a de la probabilidad, fué motivada por algunos problemas relativos
a los juegos de azar. Se dice que el Chevalier de Mère, un aristocrata francés
aficcionado a los juegos de dado, solicitó la ayuda de ellos para esclarecer
si era más ventajoso apostar a que un seis salga por lo menos una vez en 4
lanzamientos de un dado o apostar a que en 24 lanzamientos de dos dados,
salga un doble seis por lo menos una vez. ¿Cómo hubiese aconsejado Ud.
a de Mère?

8. Defina “independencia entre eventos” y “eventos mutuamente excluyentes”.


¿Cuál es la diferencia entre estos dos conceptos?

9. Si A y B son dos eventos mutuamente independientes, ¿lo son también A y


B? Demuestrelo o verifique lo contrario mediante un contraejemplo.

10. Sean A y B dos eventos asociados a un espacio muestral. Justifique la si-


guiente igualdad: P(A) = P(A ∩ B) + P(A ∩ B).

11. Si A y B son dos eventos independientes, ¿son mutuamente excluyentes


también? Demuestrelo o verifique lo contrario mediante un contraejemplo.

12. Tanto en la definición frecuentista de la probabilidad como en la definición


clásica (según Laplace) de la probabilidad se caracteriza la probabilidad de
un evento A como el cociente nnA . ¿Cual es la diferencia entre ambas defini-
ciones entonces?

13. En la definición del concepto de variable aleatoria, ¿porqué es necesaria la


condición de que la variable aleatoria sea una función medible?
1.9. PROBLEMAS PROPUESTOS 35

14. Sea X una variable aleatoria y F su función de distribución de probabilidad.


Demuestre que F(+∞) = 1.

15. Sea X una variable aleatoria contı́nua y f (x) su función de densidad de


probabilidad. Explique porqué f (x) y la probabilidad puntual P{X = x} no
son lo mismo.

16. Se lanza una moneda repetidas veces hasta obtener tres caras en sucesión
y se observa el número total de lanzamientos efectuados (X ).

a) Defina el espacio muestral.


b) Calcule las siguientes probabilidades P(X = 3), P(X = 4) y P(X = 5).

17. San Pedro llega muy borracho a su casa todas las noches. Para poderse
acostar a dormir en su cuarto, tiene que abrir dos puertas cerradas con llave.
Desgraciadamente (es San Pedro después de todo), su llavero consta de
100 llaves, y está tan borracho que debe tantear las llaves en cada cerradura
de manera aleatoria (cada llave tiene igual probabilidad de usarse en cada
tanteo. Todas las noches su esposa lo observa en este trance. Como buena
cuaima, ella decide que San Pedro dormirá en el sofá si tiene que tantear
más de 7 llaves (pues en ese caso ella considera que estarı́a demasiado
borracho). Esta noche, San Pedro llega a su casa totalmente empapado en
ron- ¿cual es la probabilidad de que le toque dormir en el sofá?

18. En una lı́nea de producción de una fábrica en China se produce cierto tipo
de artı́culo y de esta producción, el 10 % de los artı́culos salen defectuosos.
Debido a la naturaleza del proceso de fabricación, esta probabilidad es cons-
tante para cada artı́culo individual en la lı́nea de producción. Un inspector de
calidad visita la fabrica y toma una muestra aleatoria de 4 artı́culos. ¿Cuál es
la probabilidad de que encuentre uno o más artı́culos defectuosos?

19. En la República Bolivariana de Venezuela se producen en promedio 200 ca-


sos de corrupción administrativa semanalmente, según un proceso de Pois-
son. De estos casos de corrupción, solo el 1 % concluye en cárcel para los
culpables. ¿Cuál es la probabilidad de que en la próxima semana se produz-
can 2 o más delitos de corrupción punibles?

20. Sea T el tiempo de vida en horas de un componente distribuido exponen-


cialmente con tiempo de vida promedio de 5 horas. Calcule las siguientes
probabilidades:

a) P{T > 3}.


36 UNIDAD 1. REPASO DE TEORÍA DE PROBABILIDADES

b) P{T = 5}.
c) P{4 ≤ T < 6}.

21. ¿Cuál es la probabilidad de que una variable aleatoria exponencialmente


distribuida tome valores mayores a su media?

22. Un estudiante de procesos estocásticos desea realizar una encuesta a 10


estudiantes de ingenierı́a de sistemas, para lo cual se para en el portón de la
UNEFA a fin de seleccionar los 10 primeros alumnos de sistemas que pasen
por ahı́. Si N es la variable aleatoria que se define como el número total de
estudiantes que pasan por el portón (sean de sistemas o no), hasta obtener
la muestra de los 10 alumnos de sistemas, y p es la probabilidad de que un
estudiante cualquiera que pasa por el portón sea un alumno de sistemas,
demuestre que el valor esperado de N es 10/p. (Ayuda: Encuentre primero
la función caracterı́stica o generadora de momentos de N ).

23. Sea X una variable aleatoria uniformemente distribuida en (0, 1). Demuestre
que la variable aleatoria Y = −2log(X) tiene una distribución χ2 con dos
grados de libertad. Ayuda: la función de densidad de la χ2 con k grados de
libertad es:
 1

k
 x(k/2−1) e(−x/2) x > 0
f (x; k) = Γ 2 2k/2

0 x≤0
Unidad 2

Introducción a la simulación
estocástica mediante R

Definimos simulación como el proceso de diseñar


un modelo de un sistema real y conducir experi-
mentos con este modelo a fin de entender el com-
portamiento del sistema y/o evaluar varias estrate-
gias para la operación del sistema. Por lo tanto es
un punto crucial que el modelo sea diseñado de tal
manera que imite las respuestas del sistema real
a eventos que ocurren en el tiempo.

PARALL ÈLLES I NT ÉRFERENTES


1952 Robert Shannon
Jesus Soto Introducción al arte de la simulación

37
38 UNIDAD 2. INTRODUCCIÓN A LA SIMULACIÓN Y AL R

Objetivos de la Unidad

El objetivo general de esta Unidad es servir de introducción a la simulación es-


tocástica como una herramienta para afianzar el aprendizaje de los contenidos de
la teorı́a de la probabilidad y los procesos estocásticos que se cubren en este libro.
Al término de la misma, se quiere que el estudiante logre los siguientes objetivos
especı́ficos:

Instalar o acceder al interprete de comandos del lenguaje R, que será el


lenguaje con el cual se implementarán las simulaciones en este libro.

Aprender y practicar los aspectos básicos de la sintaxis, los tipos de datos y


las estructuras de control fundamentales de R.

Construir scripts en R para resolver, mediante la simulación, problemas de


cálculo de probabilidades o valores esperados.

2.1. ¿Para qué la simulación? Breve introducción al R

El uso de la teorı́a de la probabilidad para deducir algunas propiedades de un


modelo aleatorio entraña cierta dificultad- se presenta casos en donde el análisis
teórico de un matemático experimentado sobre alguna situación que involucra el
azar es errado. Si además nuestra formación teórica sobre las probabilidades es
deficiente (lamentablemente este es el caso más común), entonces se dificulta aún
más el abordaje de ciertos problemas. Pero teniendo una computadora, contamos
con un instrumento epistemológico que nos permite obtener conocimiento sobre
el modelo aleatorio de forma experimental- este es el objetivo fundamental de la
denominada simulación.

La simulación, como la programación misma, es un arte. No existe un procedi-


miento mecánico para hacer simulaciones. Lo que se requiere del analista es de-
terminar detalladamente las reglas y la secuencia de acciones que rigen el compor-
tamiento de los componentes del sistema a simular. Se deben establecer bien las
relaciones de dependencia entre los componentes y deslindar aquellos comporta-
mientos de componentes que son independientes de los demás comportamientos.
Esta secuencia de acciones y comportamientos conforma un ciclo, análogo a una
2.2. CÓMO CONSEGUIR EL INTERPRETE R 39

partida de un juego. Como en las simulaciones se pretende determinar las proba-


bilidades o los valores esperados, se deben realizar muchas iteraciones de estos
ciclos para ver cual es su comportamiento “a la larga”. Es en este punto donde
estriba el poder del computador como instrumento epistemológico- el computador
realiza esta mirı́ada de cálculos rápidamente, obteniendo la probabilidad o el valor
esperado deseado a través de la fuerza de computo bruto.

Existen diversos entornos de programación para la investigación numérica o


estocástica. Entre estos, se escogió el lenguaje R para desarrollar los ejemplos y
trabajos prácticos de este curso. El lenguaje R es un sistema para el análisis es-
tadı́stico y gráfico, a la vez un entorno de programación y aplicación basado en el
lenguaje S desarrollado por los Laboratorios AT&T Bell1 . Uno de los atractivos prin-
cipales de R es que se distribuye libremente bajo los términos de la GNU General
Public License. Aunado a esto, existen muchos programas en S disponibles a través
del Internet que se pueden ejecutar directamente bajo R2 . El lenguaje R, siendo un
lenguaje de programación orientado a objetos, incorpora sentencias básicas de
bucles y condicionamiento junto con herramientas sofisticadas de alto nivel para el
análisis estadı́stico, lo cual le da una enorme flexibilidad. Por todas estas razones,
el lenguaje R tiene cada vez más preponderancia en el mundo académico y en la
investigación estocástica.

2.2. Cómo conseguir el interprete R

Los binarios para la instalación de R para los sistemas operativos más comunes
(Linux, Windows, MacOs o Solaris) se encuentran disponibles para su descarga en
la página principal del proyecto R (CRAN): http://cran.r-project.org/. Si se
ha de usar el R bajo una instalación Linux, que es lo que el autor recomienda, se
sugiere también instalar un IDE3 como el Geany, el cual es bastante fácil de usar.
Junto con este libro se ha incluido un Live CD4 de Linux con R, algunas librerı́as
de utilidad y el Geany instalado. En el apéndice se incluye un breve tutorial sobre
el uso de Geany. La instalación de R para Windows incluye un editor de scripts y
1
Ver Paradis (2002).
2
Consultar en http://stat.cmu.edu/S/.
3
Los IDE son entornos de desarrollo integrados para la edición, compilación, ejecución y depura-
ción de programas en varios lenguajes.
4
El Live CD es un CD de arranque para el sistema operativo Linux, e incluye, además del sistema
operativo, otras aplicaciones, como en este caso R y las librerı́as. Arrancando el computador desde
un Live CD en la unidad lectora, el sistema operativo se monta en memoria RAM y el usuario puede
trabajar sin afectar los contenidos del disco duro de la máquina.
40 UNIDAD 2. INTRODUCCIÓN A LA SIMULACIÓN Y AL R

una consola de comandos.

Figura 2.1: Encabezado de un servidor RWeb. El recuadro de comandos se en-


cuentra más abajo en la página.

También existe la posibilidad de usar el R desde un servidor RWeb (Ver Fig.


2.1). A través de un servidor RWeb, el usuario puede ejecutar scripts de R sin ne-
cesidad de instalar el intérprete R como se indica arriba. No obstante, si es nece-
sario disponer de una conexión internet para navegar a alguna de las páginas que
hospedan servidores RWeb. El procedimiento para esto se indica a continuación:

1. Mediante el navegador web, acceda a alguna página con servidor RWeb.


Algunas de estas son:

http://www.mzandee.net/˜zandee/statistiek/rweb/
http://pbil.univ-lyon1.fr/Rweb/ - del Pôle Bioinformatique Lyon-
nais, adscrito a la Universidad de Lyon en Francia, corriendo R 2.11.1.
http://claree.univ-lille1.fr/Rweb/ - de la Universitée Lille1 co-
rriendo R versión 2.9.0.
http://data-engine.tama.ac.jp/Rweb/Rweb.general.html - Ta-
ma University, versión 2.12.1 de R. Este servidor tiene la versión más
actualizada de R.
http://www.unt.edu/rss/Rinterface.htm - University of North Te-
xas corriendo R versión 2.5.1. Este servidor contiene muchos paquetes
complementarios.

2. Se escribe el código R del script a ejecutar en el recuadro correspondiente


que se muestra en la página (ver Fig. 2.2).
2.3. BREVE INTRODUCCIÓN AL LENGUAJE R 41

Figura 2.2: Recuadro de comandos de un tı́pico servidor RWeb.

3. Para ejecutar el código, presione el botón Submit debajo del recuadro


para colocar el código, tal como se muestra en la figura.

4. Debe esperar cierto tiempo para que el servidor RWeb ejecute el script su-
ministrado. Luego se cargará una página web con los resultados.

2.3. Breve introducción al lenguaje R

R es un lenguaje de programación con todas las de la ley. A pesar de que su


fuerte es el cómputo numérico y el procesamiento estadı́stico de datos, es un len-
guaje de propósito general y es multiparadigma - lo cual quiere decir que soporta la
programación orientada a objetos (mediante el sistema S4) y la programación fun-
cional (gracias a su herencia de Scheme y otros lenguajes basados en Lisp). Desde
luego, R soporta la programación procedimental y estructurada, lo cual quiere decir
que el lenguaje posee las estructuras de control usuales en otros lenguajes: for,
while, if, etc. En esta sección daremos una breve introducción al lenguaje R, que
no pretende ser un curso completo.
42 UNIDAD 2. INTRODUCCIÓN A LA SIMULACIÓN Y AL R

En primer lugar, debemos aclarar que R es un lenguaje interpretado, no compi-


lado. Esto quiere decir que el usuario puede ingresar expresiones o comandos de
R tras el caracter de petición5 que inmediatamente serán evaluados, devolviendo el
intérprete un resultado. El usuario puede, si lo desea, encadenar una secuencia de
instrucciones o expresiones en R para crear lo que se conoce como un programa -
solo que en R no los llamamos programas, sino scripts, porque R es un lenguaje in-
terpretado. Dichos scripts se crean como un archivo de texto plano en un editor de
textos como Notepad, gedit o el editor de scripts que se incluye en la versión para
Windows de R6 . Los archivos con los scripts de R siempre tendrán como extensión
el sufijo .R.

En R, los tres tipos básicos de datos7 son el numérico (constantes numéricas


reales o enteras, indistintamente), las cadenas de caracteres (que se encierran
entre comillas ) y los lógicos o booleanos8 . A modo de ejemplo, indicaremos se-
guidamente algunas expresiones numéricas junto con las salidas correspondientes
del interprete R:
> 2/4

[1] 0.5

> 2/3+1

[1] 1.666667

> 2/(3+1)

[1] 0.5

> sqrt(2)

[1] 1.414214

> 1.414214ˆ2

[1] 2.000001

5
El caracter de petición, o prompt, usualmente es >.
6
Para los usuarios de Linux con Geany, véase el apéndice.
7
Existen también los factores, que se utilizan para codificar valores de una variable categórica. Sin
embargo, en este curso no nos ocuparemos de este tipo de datos.
8
Las dos constantes lógicas para verdadero y falso son, respectivamente TRUE o T y FALSE o F.
La sintaxis de R es sensible a mayusculas y minúsculas, de modo que usar true o True en vez de
TRUE generarı́a un error.
2.3. BREVE INTRODUCCIÓN AL LENGUAJE R 43

En lo anterior se ilustra el uso de paréntesis como operadores de precedencia


aritmética (nótese la diferencia entre 2/3+1 y 2/(3+1)9 ), ası́ como el uso de funcio-
nes como sqrt para calcular la raı́z cuadrada de su argumento y la exponenciación
mediante el operador ˆ. Desde luego, R posee muchas otras funciones matemáti-
cas como log, sin, cos disponibles en cualquier lenguaje de programación (y otras
más especificas que no están incluidas en cualquier lenguaje de programación). A
continuación algunos ejemplos de expresiones con cadenas de caracteres:
> paste("procesos","estocasticos")

[1] "procesos estocasticos"

> paste("aritmetica",2+2)

[1] "aritmetica 4"

> paste("procesos","estocasticos",sep="")

[1] "procesosestocasticos"

La función paste() toma sus argumentos, los convierte a cadenas y concatena


las cadenas en una sola. Cuando no se indica el caracter de separación (mediante
el argumento sep como se indica arriba), el caracter de separación por defecto
es un espacio en blanco (sep=). A continuación algunas expresiones con datos
lógicos:
> 2+2==4

[1] TRUE

> 2+2!=5

[1] TRUE

> 3>5

[1] FALSE

> TRUE & FALSE

[1] FALSE

> TRUE | FALSE

[1] TRUE
9
Además de los paréntesis (), también se pueden utilizar las llaves {}.
44 UNIDAD 2. INTRODUCCIÓN A LA SIMULACIÓN Y AL R

> !TRUE

[1] FALSE

En lo anterior, observe los operadores de comparación lógicos (==, !=, >, etc.),
ası́ como también los operadores booleanos propiamente dichos (| es el operador
de disyunción lógica, & es el operador de conjunción lógica y ! es el operador de
negación).

Las variables en R se denotan mediante identificadores. Un identificador váli-


do en R comienza por una letra (mayúscula o minúscula), seguido de dı́gitos y/u
otras letras. Los caracteres . y también se pueden usar (nunca al comienzo del
identificador) y son útiles para indicar separaciones entre palabras o elementos
del identificador. Las variables pueden ser asignadas a constantes (literales) o a
otras variables mediante el operador de asignación (<-). Observe los ejemplos a
continuación:
> raiz2 <- sqrt(2)

> raiz2

[1] 1.414214

> raiz2ˆ2

[1] 2

> raiz2ˆ2==2

[1] FALSE

El identificador “raiz2” denota una variable a la cual se le ha asignado el valor


numérico de la función sqrt(2). Observe que aún cuando raiz2ˆ2 se visualiza
como “2”, no es exactamente igual a 2, debido a errores inherentes en la precisión
de la representación numérica.

En todo lo anterior, el lector se habrá preguntado porqué aparece un [1] antes


de los resultados que arroja el interprete R. La explicación de esto tiene que ver
con una estructura de datos fundamental en R: el vector. Un vector es una lista
o arreglo que consta de datos de un mismo tipo (numérico, lógico o cadenas de
caracteres). Los vectores en R pueden crecer o decrecer dinámicamente - no hay
que alocarlos en memoria de antemano, como ocurre en PASCAL por ejemplo. La
función R para construir vectores es c(), que coerciona los argumentos al mismo
tipo y los concatena:
2.3. BREVE INTRODUCCIÓN AL LENGUAJE R 45

> vec <- c("a","b","c",1,2,3)


> vec

[1] "a" "b" "c" "1" "2" "3"

> length(vec)

[1] 6

> vec <- c(vec,"c","b","a")


> vec

[1] "a" "b" "c" "1" "2" "3" "c" "b" "a"

> length(vec)

[1] 9

Aquı́ asignamos a la variable vec un vector cuyos tres primeros elementos


son cadenas de caracteres y cuyos tres últimos elementos son números. Como se
intenta concatenar elementos de distintos tipos y los vectores son, por definición,
secuencias de datos del mismo tipo, se convierten todos los datos a cadenas de
caracteres. La función length() devuelve la longitud (cantidad de elementos) del
vector en su argumento, que en este punto es 6. La segunda llamada a la función
c() concatena tres elementos de cadena adicionales al vector vec. Esto ilustra
que los argumentos de c() pueden ser tanto vectores como datos elementales.
Finalmente, invocamos a la función length(vec) para constatar que ahora vec
consta de 9 elementos.

Otra manera de generar vectores es mediante secuencias, con el uso de :


entre dos números enteros, que indican desde donde hasta donde se genera la se-
cuencia o mediante la función seq(from,to,by). Sobre esta última, el argumento
from indica el número de inicio de la secuencia, el argumento to indica el número
final de la secuencia y el argumento by indica el paso, o incremento de la sucesión.
Veamos:
> 1:100

[1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14
[15] 15 16 17 18 19 20 21 22 23 24 25 26 27 28
[29] 29 30 31 32 33 34 35 36 37 38 39 40 41 42
[43] 43 44 45 46 47 48 49 50 51 52 53 54 55 56
[57] 57 58 59 60 61 62 63 64 65 66 67 68 69 70
[71] 71 72 73 74 75 76 77 78 79 80 81 82 83 84
[85] 85 86 87 88 89 90 91 92 93 94 95 96 97 98
[99] 99 100
46 UNIDAD 2. INTRODUCCIÓN A LA SIMULACIÓN Y AL R

> seq(0,1,0.1)

[1] 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

Este último ejemplo ayuda a dilucidar un poco la pregunta que nos hicimos an-
teriormente sobre el [1] al comienzo de las expresiones de salida en los primeros
ejemplos. El 1 en [1] representa el primer elemento del vector10 . A lo largo de
todos estos ejemplos, inclusive aquellas expresiones que generaban un solo da-
to elemental, el interprete R devuelve vectores al evaluar dichas expresiones, aún
cuando en los primeros casos, los vectores eran de longitud 1.

Seguidamente vamos a dar ejemplos sobre como acceder o referirnos a los


elementos individuales de un vector, lo cual se conoce como indexación. La inde-
xación en R se realiza colocando el o los elementos ı́ndices entre los corchetes []
que siguen al identificador del vector:
> a <- seq(2,100,2)
> a[1]

[1] 2

> a[50]

[1] 100

> a[80]

[1] NA

> a[5:9]

[1] 10 12 14 16 18

> a[a>22 & a<50]

[1] 24 26 28 30 32 34 36 38 40 42 44 46 48

Observamos que el vector a solo tiene 50 elementos, por lo cual al tratar de


acceder al elemento número 80 (a[80]), el interprete devuelve un “NA” como salida,
indicando efectivamente que el elemento en referencia no existe (NA significa not
available). La expresión que sigue, a[5:9], devuelve todos los elementos de a,
desde el quinto al noveno. La última expresión es más interesante e ilustra el poder
10
A diferencia del lenguaje C, donde el primer elemento de un arreglo es aquel cuyo ı́ndice es 0,
en R el ı́ndice del primer elemento es 1.
2.3. BREVE INTRODUCCIÓN AL LENGUAJE R 47

de la indexación en R. La expresión de indexación entre corchetes puede ser una


condición lógica- entonces el interprete R devuelve todos los elementos del vector
que satisfacen dicha condición. En este caso, como a es la secuencia de los 50
primeros números pares positivos, a[a>22 & a<50] serı́a todos aquellos números
pares mayores a 22 y menores a 50.

Vamos a ilustrar ahora el uso de estructuras de control mediante otro ejemplo:


supóngase que queremos calcular los cuadrados de los 10 primeros números en-
teros (del 1 al 10). Una primera forma de hacerlo, que no serı́a muy eficiente por
cierto, serı́a generar la secuencia de los 10 primeros números, recorrerla con un
while e ir concatenando el cuadrado de cada elemento a otro vector:
1 # -------------------------------------------------------------
2 # 2_1. R
3 # script para generar el cuadrado de los únmeros del 1 al 10
4 # autor : éJos L. Romero P.
5 # fecha : 13/08/2011
6 # -------------------------------------------------------------
7 # inicializamos las variables : a es la secuencia de únmeros del
8 #1 al 10 , b es inicialmente un vector vacio e i es el indice ,
9 # que inicialmente apunta al primer elemento de a
10 a <- 1:10
11 b <- NULL
12 i <- 1
13 # recorremos el vector a elevando cada elemento al cuadrado
14 #y concatenandoselo al vector b
15 while (i<=10) {
16 b <- c(b,a[i]ˆ2)
17 i <- i + 1
18 }
19 # finalmente hacemos que el interprete devuelva el vector b:
20 b

[1] 1 4 9 16 25 36 49 64 81 100

El de arriba fue nuestro primer script. Observe que los comentarios se indi-
can colocando el caractér numeral (#) como primer caractér - a partir del sı́mbolo
numeral, el resto de la lı́nea será considerada como comentario. Es una buena
práctica colocar comentarios abundantemente. Más aún, una buena práctica pa-
ra programar consiste en elaborar el algoritmo en seudocódigo, colocándolo como
comentarios, y luego rellenar el esqueleto del programa con código verdadero en
el lenguaje de programación. El while se sigue de una expresión entre paréntesis
que indica la condición lógica que ha de cumplirse para seguir en el bucle. Des-
pués de la condición lógica entre paréntesis, todo el cuerpo del bucle se indica
encerrándolo entre llaves { ...}, tal como se hace en C. Aún cuando la indenta-
48 UNIDAD 2. INTRODUCCIÓN A LA SIMULACIÓN Y AL R

ción11 del código no es necesaria en R, es una buena práctica indentar el cuerpo


interno de las estructuras de control. De esta forma, el programador puede visuali-
zar fácilmente el nivel de anidamiento de un código dentro de un programa, lo cual
a su vez facilita enormemente su depuración.

Ya que estamos pontificando sobre las buenas prácticas en programación, de-


bemos observar nuevamente que recorrer un vector de longitud conocida mediante
un while no es precisamente lo más eficiente - es mejor usar un for. Más aún,
como la variable ı́ndice del for asume justamente los valores numéricos que que-
remos elevar al cuadrado, no es preciso crear la secuencia a como al principio del
script anterior:
1 # -------------------------------------------------------------
2 # 2_2. R
3 # script para generar el cuadrado de los únmeros del 1 al 10
4 # autor : éJos L. Romero P.
5 # fecha : 13/08/2011
6 # -------------------------------------------------------------
7 # inicializamos las variables : b es inicialmente un vector
8 # vacio , i es el indice del bucle for .
9 b <- NULL
10 # elevamos cada únmero i al cuadrado y lo concatenamos al
11 # vector b
12 for (i in 1:10) {
13 b <- c(b,iˆ2)
14 }
15 # finalmente hacemos que el interprete devuelva el vector b:
16 b

[1] 1 4 9 16 25 36 49 64 81 100

No solo es el script 2 2.R más elegante y más breve (menos lı́neas de código)-
es también más rápido que el script 2 1.R, aunque la diferencia entre un while
y un for realmente se nota cuando se recorren secuencias mucho más largas.
El uso del for como estructura de control para iterar en un bucle una cantidad
predeterminada de veces es algo estándar en los lenguajes de programación pro-
cedimentales, pero en R, tampoco es lo más eficiente (o elegante).

Cuando se está aprendiendo a programar en R, uno muchas veces lee en fo-


ros de ayuda o en manuales sobre la “vectorización” del código. En el argot de los
programadores de R, vectorizar significa recorrer secuencias o vectores sin usar
el for. Una forma de vectorizar es mediante la indexación con expresiones lógi-
11
La indentación se refiere a la práctica de colocar espacios en blanco al principio de una lı́nea de
código.
2.3. BREVE INTRODUCCIÓN AL LENGUAJE R 49

cas, como vimos arriba. Otra forma es aplicar una función directamente a través
de todos los elementos de un vector, lo cual es posible porque R soporta la pro-
gramación funcional. De hecho, casi todas las funciones definidas o definibles en
R son vectorizables. En nuestro caso, para hallar los cuadrados de los 10 primeros
números naturales, solo tendrı́amos que ejecutar lo siguiente:
1 # -------------------------------------------------------------
2 # 2_3. R
3 # script para generar el cuadrado de los únmeros del 1 al 10
4 # autor : éJos L. Romero P.
5 # fecha : 13/08/2011
6 # -------------------------------------------------------------
7 b <- (1:10)ˆ2
8 b

[1] 1 4 9 16 25 36 49 64 81 100

Se han expuesto los rudimentos del lenguaje R. Aunque todavı́a hay muchas
funcionalidades del lenguaje por ver, estamos en condiciones de abordar un primer
problema de simulación.
50 UNIDAD 2. INTRODUCCIÓN A LA SIMULACIÓN Y AL R

2.4. Dos problemas de simulación: El juego de Monty Hall


y el encuentro

A modo de ilustrar lo que es una simulación, se comienza con un ejemplo ex-


traı́do de un concurso en un programa de televisión británico que consiste en lo
siguiente:

Problema Resuelto 2.1 (El juego de Monty Hall)

El concursante se encuentra ante tres puertas entre las


cuales debe escoger una. Detrás de una de las puer-
tas se encuentra un carro y detrás de cada una de las
otras dos un apestoso animal (una cabra). El trato es
el siguiente, el animador (que sabe donde se encuentra
el carro) abre una puerta obviamente diferente a la que
el jugador escogió y a la que contiene el carro, revelan-
do una flamante cabra. Luego se le pregunta al concur-
sante si desea abrir otra puerta o mantiene su elección.
¿Que es más ventajoso para el concursante? ¿Cuál es
la probabilidad de ganar si el jugador cambia de puerta?

“La Respuesta Inesperada” - Óleo sobre tela, 1933 - René Magritte

Solución
Muchas personas, inclusive matemáticos, concluyen erróneamente que no es parti-
cularmente más ventajoso cambiar de puerta razonando que una vez que el anima-
dor abre una de las puertas que no contiene el carro, las probabilidades de ganar o
perder son iguales ( 21 ) si se cambia de puerta o no. Sin embargo, un análisis cuida-
doso de las probabilidades demuestra que la probabilidad de ganar cambiando de
puerta es de 23 . Se deja como tarea verificar esto de forma teórica. En lo que sigue
nos interesa más bien simular la situación. Para esto debemos especificar lo más
detalladamente posible la secuencia de pasos en cada juego:

Paso 1 Primero, se esconde (aleatoriamente) el carro detrás de una de las tres


puertas.

Paso 2 El jugador selecciona una de las tres puertas (escoge al azar).


2.4. DOS PROBLEMAS DE SIMULACIÓN 51

Paso 3 El animador (Monty Hall), sabiendo donde está el carro, escoge una puerta
que no sea la que optó el concursante ni la que contiene el carro y la abre,
revelando que hay una cabra detrás de esa puerta. Si queda una sola puerta
elegible con esas condiciones, Monty la escoge. De lo contrario, si hay dos
puertas elegibles, Monty escoge cualquiera de las dos al azar.

Paso 4 Como en la simulación queremos determinar la probabilidad de ganar si el


concursante cambia de puerta, hacemos que el jugador opte una segunda
vez por la puerta distinta a la que seleccionó la primera vez y a la puerta que
acaba de abrir Monty.

Paso 5 Si la segunda puerta que escogió el concursante al cambiar de puerta


en el paso anterior es igual a la puerta detrás de la cual estaba el carro el
concursante gana.

Este ciclo se repite un número N arbitrariamente elevado de veces a fin de


determinar la proporción de veces que el concursante gana. Según la ley de los
grandes números, si el número de iteraciones es lo bastante elevado, esta propor-
ción se acercará a probabilidad verdadera de 32 . A continuación se indica el código
en R para esta simulación junto con el resultado arrojado por la misma, que es de
0.6688, lo cual como se podrá apreciar, se acerca bastante a 23 .
1 # --------------------------------------------------------------
2 # 2_4. R
3 # simulacion del concurso de Monty Hall
4 # autor : Jose L. Romero P.
5 # fecha : 10/8/2007
6 # --------------------------------------------------------------
7 cnt <-0
8 puertas <- c(1 ,2 ,3)
9 N <- 10000
10 for (i in 1:N) {
11 puerta.premio <- sample(puertas,size=1 ,replace=TRUE)
12 puerta1.jugador <- sample(puertas,size=1 ,replace=TRUE)
13 otras.puertas <-
14 setdiff(puertas,union(puerta.premio,puerta1.jugador))
15 ifelse((length(otras.puertas)==1) ,
16 monty.abre.puerta <- otras.puertas,
17 monty.abre.puerta <-
18 sample(otras.puertas,size=1 ,replace=TRUE)
19 )
20 puerta2.jugador <-
21 setdiff(puertas,union(puerta1.jugador,monty.abre.puerta))
22 if (puerta2.jugador==puerta.premio) cnt <- cnt+1
23 }
52 UNIDAD 2. INTRODUCCIÓN A LA SIMULACIÓN Y AL R

24 cat(" La probabilidad de ganar en N=" ,N," ensayos del juego es " ,


25 cnt/N," .\ n")

La probabilidad de ganar en N=10000 ensayos del juego es 0.6688.

Vale destacar algunos elementos en el código precedente:

sample - Esta función se utiliza para generar muestras aleatorias a partir de


un espacio muestral (el conjunto se representa como un vector). Mediante los
otros argumentos se puede indicar el tamaño de la muestra, si el muestreo es
con o sin reemplazo y el vector de probabilidades de los eventos elementales
correspondientes del espacio muestral.

ifelse - Esta función evalúa la condición lógica de su primer argumento


y devuelve la expresión del segundo argumento si la condición es TRUE o la
expresión del tercer argumento si la condición es FALSE. ifelse es vectori-
zable, lo cual quiere decir que el primer argumento (la condición) puede ser
un vector lógico. En tal caso, para cada componente lógico del vector con-
dición, se devuelve un vector de la misma longitud que el vector condición
cuyos componentes correspondientes serán el segundo argumento o el ter-
cer argumento según el valor del elemento correspondiente de la condición.

setdiff - Esta función considera a los vectores suministrados en sus ar-


gumentos como conjuntos, devolviendo la diferencia de conjuntos entre el
primer argumento y el segundo. Ası́ por ejemplo, si A y B son dos vectores
que representan conjuntos, setdiff(A,B) devuelve un vector que repre-
senta el conjunto A − B = A ∩ B.

union - Esta función devuelve un vector que representa la unión de todos


los conjuntos suministrados en sus argumentos.

cat - Es una función que concatena las cadenas en sus argumentos e im-
prime el resultado al terminal. Es una función de E/S básica del R.

Otro ejemplo de cómo determinar probabilidades mediante simulaciones se


desarrolla a partir del siguiente problema:
2.4. DOS PROBLEMAS DE SIMULACIÓN 53

Problema Resuelto 2.2 (El Encuentro)

Dos hombres de negocios deciden


encontrarse en algún lugar entre las
12 y la 1 pm, cada uno acordando no
esperar más de 10 minutos por el otro.

¿Cuál es la probabilidad de que se


encuentren si cada uno llega indepen-
dientemente del otro y en cualquier
instante aleatorio en el lapso de esa
hora? “El Encuentro” - Litografı́a 1944 - M.C. Escher

Solución
Para comenzar, denotemos por X e Y el instante de tiempo dentro de una hora a
la cual llega cada empresario respectivamente. Según la última parte del enuncia-
do que establece que “cada uno llega independientemente del otro y en cualquier
instante aleatorio en el lapso de esa hora”, se desprende que tanto X como Y son
variables aleatorias continuas independientes y uniformemente distribuidas entre 0
y 60 (se trabajará el problema en base al lapso de 60 minutos). Para que los em-
presarios se encuentren, la diferencia en valor absoluto de los tiempos de llegada
de uno y otro debe ser menor o igual a 10 minutos. Es decir, se quiere calcular
P{|X −Y | ≤ 10}. Claramente, esta diferencia en valor absoluto varia entre 0 y 60
minutos, pero aún no se ha determinado la distribución de probabilidad de |X −Y |.

Quizás haya podido llegar a este punto de la solución, aunque quizás no se-
pa como proceder a partir de ahı́- es precisamente en ayudar a dilucidar este tipo
de situaciones en que radica la valı́a de la simulación. Para el problema en cues-
tión, ésta va a consistir básicamente en generar una distribución empı́rica de un
número suficientemente grande de valores |X − Y | basados en números aleato-
rios uniformemente distribuidos según lo expuesto en el análisis anterior. Sin más
preámbulos, se da el código de la simulación en R a continuación:
1 # ---------------------------------------------------------------
2 # 2_5. R ( El encuentro )
3 # autor : Jose L. Romero P.
4 # fecha : 18/08/2007
5 # ---------------------------------------------------------------
6 N <- 1000000 # numero de repeticiones
7 # determina la distribucion de |X -Y| cuando
54 UNIDAD 2. INTRODUCCIÓN A LA SIMULACIÓN Y AL R

8 # X e Y son Unif (0 ,60) e independientes .


9 x <-abs(runif(n=N,min=0 ,max=60) -runif(n=N,min=0 ,max=60))
10 png(filename=" encuentro_r. png ")
11 hist(x,br=60 ,right=FALSE,freq=FALSE,
12 main=" Histograma de frecuencia " ,
13 ylab=" denisdad de probabilidad empirica ")
14 abline(a=(60/1800) ,b= -1/1800 ,col=" red ")
15 legend(x=25 ,y=0.033 ,legend=" Funcion de densidad teorica " ,
16 fill=" red ")
17 # cual es la probabilidad requerida ?
18 probabilidad <- mean(as.integer(x<=10))
19 cat(" Probabilidad de que las dos personas se encuentren : " ,
20 probabilidad,"\n")

Probabilidad de que las dos personas se encuentren: 0.305262

Figura 2.3: Histograma de frecuencias generado por la simulación. La curva roja


representa la función de densidad de probabilidad teórica.

¿Cómo se realizó la simulación y qué significa la lı́nea roja en el histograma


e la Fig. 2.3? En primer lugar, se genero una muestra de N = 1000000 de valo-
2.4. DOS PROBLEMAS DE SIMULACIÓN 55

res |X − Y | aleatorios. Como X e Y son uniformemente distribuidos, las muestras


de números aleatorios uniformemente distribuidos fueron generadas mediante las
funciones runif. Seguidamente, se graficó el histograma de frecuencias con el
método hist de R. Esto generó el histograma de la Fig. 2.3, pero sin la lı́nea roja
aún. Obsérvese que los rectángulos son levemente irregulares, pero sus alturas
decrecen en forma sorprendentemente regular y lineal. La lı́nea roja, como función
de densidad teórica, parece ajustarse bien, por lo menos intuitivamente, a lo obser-
vado. En este punto nos damos cuenta que la función de densidad de la variable
|X − Y | debe ser un segmento de recta decreciente entre 0 y 60, como la lı́nea
roja en el gráfico. Un análisis más profundo revela que la función de densidad de
probabilidad de |X −Y | esta dada por

Z
60−d
1 60 − d
f|X−Y | (d) = 2 · 2
dt = ,donde d asume valores entre 0 y 60
60 1800
0

La motivación de dicha fórmula viene de notar que el evento correspondiente a


“la diferencia |X −Y | es exactamente igual a d ” se verifica para X ∈ [0, 60 − d], Y =
X + d (suponiendo X mayor o igual a Y ), la integral viene a representar la masa de
probabilidad total para cada uno de estos casos. El factor de 2 a la izquierda de la
integral se debe a que X ≥ Y o Y ≥ X . Dicha función evidencia ser una función de
densidad legı́tima pues su integral a través de los valores posibles de d es igual a
uno:

Z60 Z60
60 − z
f|X−Y | (z)dz = dz
1800
0 0
z z2 60
= − =1
30 3600 0

Observando el código R de la simulación, se evidencia que el segmento lineal


rojo trazado sobre el histograma de frecuencias empı́ricas se corresponde a la fun-
ción lineal f|X−Y | (d), a partir de la cual se puede calcular fácilmente la probabilidad
deseada:
56 UNIDAD 2. INTRODUCCIÓN A LA SIMULACIÓN Y AL R

Z10
z z2 10
P{|X −Y | ≤ 10} = f|X−Y | (z)dz = −
30 3600 0
0
1 1 11
= − = = 0, 3055
3 36 36

Como se puede ver, el resultado de la simulación (0,305262) se corresponde


con bastante exactitud al resultado teórico.

En este curso se hará un uso intensivo de simulaciones como estas para apoyar
resultados sobre los procesos estocásticos deducidos teóricamente. La discusión
detallada sobre las técnicas de simulación per se es marginal a los objetivos prin-
cipales de curso y se cubre en el curso de Simulación y Modelos. Sin embargo, en
vista de los objetivos que se persiguen en este curso, es importante puntualizar las
siguientes ideas sobre la técnica de simulación, tal como la emplearemos a lo largo
del libro:

Los programas de simulación sirven para calcular, de modo aproximado, pro-


babilidades, valores esperados o medidas de variabilidad.

Siempre será mejor realizar los cálculos de probabilidades, valores espe-


rados o medidas de variabilidad por medios analı́ticos (sin simulación). Sin
embargo, cuando la complejidad de los mismos rebasa la capacidad de nues-
tras herramientas matemáticas, simular es la única forma de determinar tales
caracterı́sticas de un fenómeno aleatorio, aunque solo de forma aproximada.
En este libro se hace uso de las simulaciones para fines didácticos - la si-
mulación apoyará o complementará ciertos resultados teóricos deducidos
analı́ticamente.

La simulación es esencialmente la repetición, siempre bajo idénticas condi-


ciones y un número elevado de veces, de un experimento aleatorio. A partir
de los resultados se generan estadı́sticas con las cuales se estiman las ca-
racterı́sticas poblacionales del fenómeno aleatorio bajo estudio.

Mientras mayor cantidad de veces se repite el experimento aleatorio en una


simulación, más exactitud se tendrá en los cálculos de las probabilidades o
valores esperados.
2.5. PROBLEMAS PROPUESTOS 57

La simulación de un experimento aleatorio en el computador requiere gene-


rar números aleatorios. Para ello, R tiene funciones como sample y la familia
de funciones r*, donde el asterisco denota alguna distribución (rexp gene-
ra números aleatorios exponencialmente distribuidos, runif números unifor-
memente distribuidos, rpois números aleatorios distribuidos según Poisson,
rnorm números aleatorios normalmente distribuidos, etc.). Estas funciones
son vectorizables.

Es importante seguir con detenimiento la exposición de cada uno de los ejem-


plos de implementación de simulaciones y tratar de compaginar esto con el desa-
rrollo teórico de cada problema. Ası́ mismo, se invita al lector a dilucidar cualquier
otro aspecto teórico de la teorı́a de la probabilidad y de los procesos estocásticos
por si mismo implementando simulaciones.

2.5. Problemas propuestos

1. ¿Qué es simulación, en qué consiste y para qué sirve?

2. ¿Porqué es mejor calcular probabilidades o valores esperados por medios


analı́ticos, siempre y cuando esto sea posible?

3. ¿Porqué mejora la precisión de los cálculos en una simulación a medida que


aumenta el número de veces que se repite el experimento aleatorio?

4. ¿Qué significa “vectorizar” el código en R?

5. Considere el siguiente script en R que recorre todos los números del vector
vec y suma aquellos números que sean divisibles por 3:
vec <- c(2 ,6 ,15 ,17 ,5 ,9 ,18 ,3 ,1 ,7) # vector de prueba
suma <- 0
for (i in 1:length(vec)) {
if (vec[i] % %3==0) suma <- suma+vec[i]
}
suma

[1] 51

¿Cómo vectorizarı́a este código?

6. En una simulación, ¿para qué se quiere optimizar el tiempo de ejecución de


los bucles o mejor aún, vectorizar el código?
58 UNIDAD 2. INTRODUCCIÓN A LA SIMULACIÓN Y AL R

7. Respecto al problema propuesto N° 7, calcule mediante una simulación en


R las probabilidades de ganar apostando a que por lo menos un seis salga
en 4 lanzamientos de un dado y de ganar apostando a que por lo menos un
doble seis sale en 24 lanzamientos de dos dados.

8. Cuatro caballos, Pedro poco dientes, Tres pelos, El burro Machey y Mi potro
siniestro han corrido juntos en el Clásico de Múcura muchas veces. A conti-
nuación se dan las frecuencias relativas con las que cada caballo ha ganado
la carrera:

Frecuencia con la
Caballo
que ha ganado
Pedro poco dientes 0,40
Tres pelos 0,10
El burro Machey 0,30
Mi potro Siniestro 0,20

Elabore un script en R que simule el resultado para n carreras de caballos


con estos cuatro ejemplares.

9. Dos bolas idénticas se distribuyen de manera aleatoria en tres urnas nume-


radas. Este experimento aleatorio tiene 6 resultados posibles, representados
mediante vectores de tres componentes que indican la cantidad de bolas en
cada urna. Los resultados y sus respectivas probabilidades son:

Resultado Probabilidad
(2,0,0) 1/9
(0,1,1) 2/9
(1,1,0) 2/9
(0,2,0) 1/9
(1,0,1) 2/9
(0,0,2) 1/9

Elabore un programa en R que calcule de forma aproximada la probabilidad


de observar el resultado (2,0,0). Dicho programa debe simular el experimen-
to aleatorio descrito un numero N suficientemente grande de veces y estimar
dicha probabilidad mediante la proporción de veces que se obtiene el resul-
tado (2,0,0) con respecto al número total de ensayos N .

10. En una partida de raquetball, un jugador continúa sirviendo mientras vaya


ganando. Un jugador gana un punto sólo cuando ha ganado el turno que ha
2.5. PROBLEMAS PROPUESTOS 59

servido y el primero en alcanzar los 21 puntos gana la partida. Si el jugador


A comienza la partida sirviendo y tiene una probabilidad de 0,6 de ganar
cuando ha servido el turno y de 0,40 cuando no ha servido el turno, calcule,
mediante una simulación, la probabilidad de que el jugador A gane la partida.

11. Se efectúa un curioso duelo con pistolas entre tres personas, cada uno con
una determinada probabilidad de acertar el tiro según se indica a continua-
ción:

Participante Probabilidad de
del duelo acertar el tiro
A 0,3
B 1
C 0,5

En este duelo, comienza el participante A, luego le toca el turno a B y por ulti-


mo a C. Comienza la ronda nuevamente en el mismo orden hasta que quede
un solo hombre en pié, eliminando sucesivamente a aquellos que reciban un
tiro.
El participante A debe escoger entre dos estrategias al comienzo del duelo:
disparar a B o disparar al aire. Si dispara al aire, no elimina a nadie. Tocándo-
le el turno a B, este elimina a C y cuando le toque el turno a A nuevamente,
este tiene una probabilidad de 0,3 de eliminar a B y ası́ ganar el duelo. Si le
dispara primero a B, podrı́a eliminarlo e intercambiar disparos indefinidamen-
te con C hasta eliminarlo. ¿Cuál es la probabilidad de que A gane el duelo si
emplea esta segunda estrategia? ¿Es menor o mayor que la probabilidad de
ganar disparando al aire la primera vez? Determine esta probabilidad analı́ti-
camente y mediante una simulación en R.

12. Partiendo desde su casa en el vértice O, una persona decide visitar a sus
amigos, ubicados en los vértices A, B, C y D del siguiente grafo:

t t
A B


❅Ot


t ❅t

C D
60 UNIDAD 2. INTRODUCCIÓN A LA SIMULACIÓN Y AL R

Al salir de su casa, escoge al azar uno de los cuatro caminos que conducen
a la casa de algún amigo. Desde allı́, escoge al azar uno de los tres caminos,
que lo llevan a la casa de otro amigo o de vuelta al vértice O12 . El tour conti-
nua hasta que regresa de nuevo a su casa en el vértice O. Escriba un script
en R para calcular, por medio de una simulación, el promedio de la cantidad
de amigos que se visitan antes de regresar a casa.

12
Suponga que sus amigos nunca se cansan de recibir sus visitas.
Unidad 3

Introducción a los procesos


estocásticos. Terminologı́a y
nociones preeliminares

Pregunta en un foro del Guardian Weekly:


“¿Cuál es la probabilidad de que un chim-
pancé con una máquina de escribir y con dispo-
nibilidad de tiempo infinita escriba las obras com-
pletas de Shakespeare, convirtiéndose en una es-
pecie de Shakespeare estocástico?”

Respuesta de un lector:
“He tenido problemas anteriormente con esos si-
mios estocásticos. Tan pronto aprenden a escribir
un ensayo de 12 lı́neas, como ’Qué hice duran-
te las vacaciones de verano’, piensan que tienen
un don de Dios para la literatura y antes de que
pueda decir ’To be or not to be’, se marchan pa-
ra Hollywood a conseguir trabajo como guionistas,
donde sobran personas que les brinden daiquiris
de banana. Después de un tiempo se aburren y
buscan trabajo como actores en peliculas de Tar-
zan. A partir de ahı́ comienza el declive...”

T EPUY I
2008
Ini Toledo

61
62 UNIDAD 3. INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS

Objetivos de la Unidad

El objetivo general de esta Unidad es definir los conceptos básicos referentes a


los procesos estocásticos, ası́ como algunas de sus caracterı́sticas. Al término de
la misma, se quiere que el estudiante logre los siguientes objetivos especı́ficos:

Definir los procesos estocásticos y caracterizarlos según su espacio de es-


tados y espacio de parámetros.

Definir las funciones de probabilidad condicional y las esperanzas condicio-


nales, ası́ como manejar sus propiedades y aplicarlas en la resolución de
problemas y demostraciones matemáticas.

Definir e identificar los distintos tipos de procesos estocásticos.

3.1. Definición y ejemplos de procesos estocásticos.

Los procesos estocásticos son básicamente fenómenos cuyo comportamiento


se desarrolla en el tiempo y se rige por las leyes de las probabilidades1 . Ejemplos
de tales fenómenos son: el movimiento browniano de una partı́cula, el crecimiento
de una población tal como una colonia bacterial, el tamaño de una cola en una
estación cliente/servidor, la recepción de una señal en presencia de ruido o pertur-
baciones, los precios de un bien en un lapso de tiempo, las fluctuaciones de fortuna
en un juego de azar, etc. Existen caracterizaciones de procesos estocásticos cuya
variable no es el tiempo, sino la ubicación espacial. Ejemplos de estos procesos
estocásticos espaciales son la distribución geográfica de especies de plantas o
animales y es estudio de epidemias, donde el contagio de una enfermedad en un
sitio depende de su proximidad con otros sitios infectados. El interés principal de
este curso es más bien sobre los procesos estocásticos temporales y no sobre los
1
La palabra “estocásticos” es de origen griego, proviene de “Stokhos”, que significa objetivo, o
blanco en el juego de dardos. “Stokhastikos” como adjetivo, alude a apuntar bien, a quién es hábil
para conjeturar. El adjetivo “estocástico” fue incorporado al léxico matemático en 1953- no está del
todo claro como adquirió la acepción pertinente a “aleatorio” usada hoy en dı́a. Rebolledo (2002), p.
5
3.1. DEFINICIÓN Y EJEMPLOS DE PROCESOS ESTOCÁSTICOS. 63

espaciales.

Otro concepto relacionado es el de series cronológicas. Estas se refieren a


las observaciones o realizaciones en el tiempo de un proceso estocástico implı́cito
y son objeto de estudio para los economistas principalmente. Habiendo hecho la
suposición que una serie cronológica (correspondiente a los precios de una acción
en la bolsa de valores, por ejemplo) es una realización de un proceso estocástico,
los investigadores tratan de inferir estadı́sticamente a partir de las observaciones,
las leyes que gobiernan el proceso a fin de predecir ciclos o valores futuros.

Para efectos matemáticos, un proceso estocástico es una sucesión de variables


aleatorias, cada una de las cuales describe el estado del sistema en un instante de
tiempo dado. Esta definición es adecuada porque abarca los siguientes aspectos:
1) el estado del sistema en un tiempo determinado es variable, y su variabilidad se
debe a mecanismos aleatorios, 2) la variable aleatoria del estado del sistema es
una función que depende del tiempo y en consecuencia, su distribución está deter-
minada por el instante de tiempo que se considere, 3) si se consideran los estados
de un sistema en distintos instantes de tiempo conjuntamente, se puede concep-
tuar un proceso estocástico como un vector aleatorio n-dimensional. Resumiendo:

Definición (Proceso estocástico). Un proceso estocástico es una sucesión o con-


junto de variables aleatorias {X(t)|t ∈ T } definidas sobre un espacio de probabi-
lidad común (Ω, ℑ, P).

En esta definición, t es el parámetro de tiempo, el cuál toma valores en un


conjunto T denominado conjunto ı́ndice. Según sea T un conjunto numerable o
no, el proceso estocástico será de parámetro discreto o continuo respectivamente.
Usualmente, el valor ı́nfimo de T es 0, pues se analizarán los procesos estocásti-
cos a partir de un instante de tiempo 0. Los procesos estocásticos de parámetro
discreto se denotan por {Xi |i = 0, 1, 2 . . .}. Las variables aleatorias X(t) toman va-
lores en un espacio medible llamado espacio de estados (state-space en ingles).
Si se tiene un proceso estocástico y se fija algún ω ∈ Ω la función t → Xt (ω) se
llama trayectoria del proceso estocástico X . Para aclarar un poco estos conceptos,
considérese el siguiente ejemplo: se cuenta el número de personas que entran a
un banco entre las 9 y 10 am. Definimos el conjunto ı́ndice como el conjunto de
todos los posibles instantes de tiempo entre las 9 y 10am el proceso estocástico
es por lo tanto de parámetro continuo. Considerando que estamos interesados en
la cantidad de personas que han entrado en cierto instante de tiempo, definirı́amos
el espacio de estados como el conjunto de todos los valores enteros no negativos.
Por último, si consideramos una realización del proceso estocástico antes descri-
to para un dı́a especı́fico, digamos el 29 de agosto de este año, tendrı́amos una
64 UNIDAD 3. INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS

trayectoria del proceso.



Dado un conjunto finito de n ı́ndices en T {t1 , . . . ,tn }, X(t1 ), . . . , X(tn ) es un
vector aleatorio n-dimensional que genera la función de distribución en Rn dada a
continuación:


Ft1 ,...,tn x1 , . . . , xn = P{X(t1 ) ≤ x1 , . . . , X(tn ) ≤ xn }

Tales funciones de distribución se conocen como las funciones de distribución


finito-dimensionales del proceso estocástico y generalmente, un proceso estocásti-
co se determina conociendo todas sus funciones de distribución finito dimensiona-
les, aunque esto no es siempre cierto, como se evidencia en el siguiente contra-
ejemplo.

Sea Ω = [0, 1] y P la distribución uniforme en [0, 1], de modo que el experimento


básico consiste en escoger un número al azar en [0, 1]. Sobre este espacio de
probabilidades se definen dos procesos:

a. {X(t),t ∈ [0, 1]} definido por X(t, ω) = 0 para todo t ,ω.



0 si t 6= ω
b. {Y (t),t ∈ [0, 1]} definido por X(t, ω) =
1 si t = ω

Y (t) se puede considerar como un proceso que da un salto discontinuo en un


instante de tiempo aleatorio marcando la ocurrencia de algún evento en ese ins-
tante, tal como por ejemplo una explosión. Se puede ver intuitivamente que ambos
procesos X e Y tienen las mismas funciones de distribución finito dimensionales y
sin embargo, no son el mismo proceso.

En la práctica, es muy difı́cil, sino imposible, obtener las funciones finito- dimen-
sionales para todo conjunto de ı́ndices (t1 ,. . .,tn ) y todo n, por lo cual se definen las
funciones de distribución de primer y segundo orden. La función de distribución de
primer orden se corresponde a la distribución de la variable aleatoria en un tiempo
determinado:

Ft0 (x) = P{X(t0 ) ≤ x}

Si estamos interesados en relacionar el comportamiento de un proceso es-


tocástico en dos instantes de tiempo utilizamos la función de distribución de segun-
do orden:
3.2. PROBABILIAD Y ESPERANZA CONDICIONAL 65

Ft1 ,t2 (x1 , x2 ) = P{X(t1 ) ≤ x1 , X(t2 ) ≤ x2 }

3.2. Probabilidad y esperanza condicional. Definiciones y


propiedades.

Las nociones de probabilidad y esperanza condicional juegan un papel impor-


tante dentro del estudio de los procesos estocásticos. Seguramente el lector esta
familiarizado con las nociones de probabilidad condicional relativas a eventos y de
algunos resultados consecuentes como el teorema de la probabilidad total y el teo-
rema de Bayes- estas nociones generalmente se exponen en las primeras partes
de cualquier curso elemental de probabilidades. Repasando, la probabilidad condi-
cional de que ocurra un evento A conociendo la ocurrencia de un evento B es:

T
P (A B)
P (A | B) =
P (B)

la cual tiene sentido si la probabilidad de B es no-nula. Esta noción se puede ex-


tender al condicionamiento de una variable Y por otra variable X si X e Y son
discretas.

P{Y = yn ∩ X = xm } pX,Y (xm , yn )


P (Y = yn |X = xm ) = = (3.2.1)
P{X = xm } pX (xm )

donde pX,Y es la función de probabilidad conjunta del par aleatorio (X,Y ). La varia-
ble aleatoria discreta que tiene tal función de probabilidad se denota por Y |X = xm .
Se recalca que Y |X = xm es una variable aleatoria que asume valores yn con las
probabilidades condicionales indicadas arriba. Además, si X e Y son independien-
tes, Y |X = xm e Y tienen la misma distribución. Siendo Y |X = xm una variable
aleatoria, tiene su esperanza matemática asociada, que es:

E [Y |X = xm ] = ∑ y · P (Y = y|X = xm )
sobre y

y que está definida para pX (xm ) no nulo.


66 UNIDAD 3. INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS

A medida que xm varia a través del espacio de probabilidad inducido por X ,


la esperanza anterior asume los valores correspondientes por lo cual se puede
considerar ésta como una función dependiente de las instancias particulares de X:

f (α) = E [Y |X = α] = ∑ y · P (Y = y|X = α) (3.2.2)


sobre y

La expresión (3.2.2) se lee “esperanza condicional de Y dado que X vale α”.


Como α representa los posibles valores que toma la variable aleatoria X , se tiene
que f (X) es una variable aleatoria también. f (X), mejor denotada por E [Y |X] ,
es de hecho la esperanza condicional de la variable aleatoria Y condicionada por
X . Se enfatiza que E [Y |X] es una variable aleatoria, lo cual le puede parecer a
primera vista extraño al lector si está acostumbrado a considerar el valor esperado
como una caracterı́stica numérica fija de la distribución. No obstante, para que esta
definición nos sea de utilidad en el estudio de los procesos estocásticos, debemos
generalizarla aún más:

Definición (Esperanza condicional de Y dadas X1 , . . . , Xn ). Sean X1 , . . . , Xn varia-


bles aleatorias que toman valores en un conjunto E y sea Y otra variable aleatoria.
La esperanza condicional de Y dada la sucesión X1 , . . . , Xn es:

E [Y |X1 , . . . , Xn ] = f (X1 , . . . , Xn )
donde f esta definida para cualquier vector (α1 , . . . , αn ), con αi ∈ E por

f (α1 , . . . , αn ) = E[Y |X1 = α1 , . . . , Xn = αn ]


= ∑ y · P(Y = y|X1 = α1 , . . . , Xn = αn )
sobre y

Esta definición de esperanza condicional se puede extender al caso de condi-


cionamiento por variables aleatorias continuas si consideramos la función de den-
sidad de probabilidad condicional en vez de la función de probabilidad dada en la
ecuación (3.2.1). En efecto

fX1 ,...,Xn ,Y (x1 , . . . , xn , y)


fY |X1 ,...,Xn (y|x1 , . . . , xn ) = (3.2.3)
fX1 ,...,Xn (x1 ,...,xn )

La consecuente redefinición de la esperanza condicional para el caso de las X1 , . . . , Xn


continuas es dada a partir de
3.2. PROBABILIAD Y ESPERANZA CONDICIONAL 67

Z
g(α1 , . . . , αn ) = E [Y |X1 = α1 , . . . , Xn = αn ] = y · f (y|α1 , . . . , αn ) dy (3.2.4)
sobre y

La esperanza condicional comparte muchas de las propiedades de la esperan-


za matemática que se trata en los cursos elementales de probabilidad, tales como:

Propiedad 1 (Linealidad del operador esperanza)

E [c1Y1 + . . . + cnYn | X1 , . . . , Xm ] =c1 E [Y1 |X1 , . . . , Xm ]


+ . . . + cn E [Yn |X1 , . . . , Xm ]

Propiedad 2
Si Y puede escribirse como función de X1 , . . . , Xn , es decir Y = f (X1 , . . . , Xn ),
entonces E [Y |X1 , . . . , Xn ] = Y

Propiedad 3
Como
 E [Y |X1 , . . . , Xn ] es una variable aleatoria, esta tiene esperanza y es
E E[Y |X1 , . . . , Xn ] = E[Y ]

Propiedad 4
Para n, m ≥ 1 se tiene E [E [Y |X1 , . . . , Xn+m ] |X1 , . . . , Xn ] = E [Y | X1 , . . . , Xn ]

Propiedad 5
Sean X1 , . . . , Xn y Y1 , . . . ,Ym dos conjuntos de variables aleatorias tales que
si se conoce los valores de uno se puede determinar los valores del otro,
entonces, para cualquier Y se tiene E [Y |X1 , . . . , Xn ] = E [Y |Y1 , . . . ,Ym ].

Propiedad 6
Si X e Y son independientes, entonces E[X|Y ] = E[X] y E[Y |X] = E[Y ], casi
siempre.

Los conceptos de probabilidad y esperanza condicional son imprescindibles pa-


ra caracterizar los diversos tipos de procesos aleatorios- es a través de las probabi-
lidades y la esperanza condicional que se definen las relaciones de dependencia (o
de independencia) entre los estados de un proceso aleatorio en distintos instantes
de tiempo. Además, la esperanza condicional y las probabilidades condicionales
68 UNIDAD 3. INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS

permiten abordar problemas como el que se enuncia a continuación:

Problema Resuelto 3.1 (El Ladrón de Bagdad)


El Ladrón de Bagdad se encuentra en un cala-
bozo con tres puertas. Una de las puertas con-
duce a un túnel que luego de un dı́a de camino
regresa al mismo punto de partida. Otra de las
puertas conduce a un túnel similar al anterior
cuya travesı́a toma tres dı́as. La tercera puerta
conduce a la libertad. Asumiendo que el Ladrón
escoge cualquiera de las tres puertas aleatoria-
mente con igual probabilidad y que cada vez que va a escoger una puerta se le ha
olvidado las escogencias pasadas 2 , encuentre la cantidad de dı́as en promedio
que el ladrón pasará encerrado en el calabozo desde el momento en que primero
escoge entre las tres puertas hasta que haya escogido la puerta que lo lleva a la
libertad.

Solución
Cada vez que el Ladrón de Bagdad escoge una de las tres puertas constituye un
ensayo de Bernoulli con 1/3 probabilidad de éxito, entendiendo por éxito abrir la
puerta que conduce a la libertad. Un primer abordaje del problema nos motiva
a considerar el número de ensayos N que realiza el ladrón antes de conseguir su
libertad, lo cual serı́a una variable aleatoria geométricamente distribuida. Pero acla-
rando que N representa el número de ensayos fallidos antes de escoger la puerta
hacia la libertad, por lo cual su función de probabilidad y su valor esperado son los
que se dan a continuación:

pN (n) = pqn para n = 0, 1, 2, . . .


∞ ∞ ∞ ∞
∂ 1 
E[N] = ∑ npqn = p ∑ nqn = pq ∑ nqn−1 = pq ∑ nqn−1 = pq · ∂q 1−q
n=0 n=1 n=1 n=0
1 q 1 2
= pq 2
= = 2 , ya que p = , q =
(1 − q) p 3 3

La variable geométrica difiere un poco de la indicada en la tabla 1.1 porque


2
Es un ladrón desmemoriado y además, tampoco tiene GPS ni mucho menos GoogleMaps.
3.2. PROBABILIAD Y ESPERANZA CONDICIONAL 69

en este contexto, la variable aleatoria de interés es el número de ensayos fallidos


antes de conseguir el primer éxito. En cambio en la tabla 1.1, se plantea la variable
geométrica como el número total de ensayos efectuados hasta conseguir el primer
éxito. En aquellos ensayos fallidos, el ladrón escoge una puerta que adiciona 1 dı́a
de permanencia en el calabozo u otra puerta que adiciona 3 dı́as de permanencia
en el calabozo. Por lo tanto la variable de interés es

Sn = X1 + . . . + XN

Donde N es la variable aleatoria geométricamente distribuida que se men-


cionó anteriormente y los Xi son cada uno variables aleatorias independientes se-
mejantes a las de tipo Bernoulli con

1
P{Xi = 1} = P{Xi = 3} =
2

 En términos
 de esperanzas condicionales,
 estamos interesados en encontrar
E E[Sn |N] = E E[Xi + . . . + Xn |N] . Habida cuenta que E[Sn |N] es una variable
aleatoria, que los Xi son variables aleatorias independientes con igual esperanza y
que a su vez son independientes de N , se tiene que:

 
    q 1 1
E E[Sn |N] = E E[X1 + . . . + Xn | | N] = E[N] · E[Xi ] = · 1 · + 3 ·
p 2 2
= 2·2 = 4

La cantidad esperada de dı́as que el Ladrón de Bagdad permanecerá en el


calabozo antes de salir libre es de cuatro dı́as. Veamos si la simulación confirma el
resultado hallado analı́ticamente:
1 # ---------------------------------------------------------------
2 # 3_1. R : Simulacion del problema del Ladron de Bagdad
3 # autor : Jose L. Romero P.
4 # fecha : 23/08/2007
5 # ---------------------------------------------------------------
6 N <- 100000
7

8 # el siguiente codigo genera un vector de longitud N


9 # con la cantidad de dias que el ladron pasa en la cueva
10 # por cada ciclo de simulacion
11 x <- NULL
70 UNIDAD 3. INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS

12 for (i in 1:N) {
13 total.dias <- 0
14 dia.i <- sample(c(0 ,1 ,3) ,1 ,replace=TRUE)
15 while (dia.i!=0) {
16 total.dias <- total.dias+dia.i
17 dia.i <- sample(c(0 ,1 ,3) ,1 ,replace=TRUE)
18 }
19 x<-c(x,total.dias)
20 }
21

22 # el siguiente codigo es equivalente al anterior , observando que


23 # la cantidad de ensayos de puertas es una variable aleatoria
24 # geometrica con probabilidad de exito igual a 1/3. La cantidad
25 # de dias que se adicionan en cada ensayo no exitoso en 1 o 3,
26 # con igual probabilidad para ambos valores .
27 x <- NULL
28 for (i in 1:N) {
29 x<-c(x,sum(sample(c(1 ,3) ,rgeom(1 ,p=1/3) ,replace=TRUE)))
30 }
31 cat(" Cantidad esperada de dias en el calabozo : " ,mean(x))

Cantidad esperada de dias en el calabozo: 4.012

3.3. Caracterización de los procesos aleatorios: valor me-


dio y núcleo de covarianza.

Para caracterizar completamente un proceso estocástico se requiere cono-


cer sus funciones de distribución finito-dimensionales. Sin embargo, existen carac-
terı́sticas de los procesos aleatorios que resumen, por lo menos parcialmente, su
comportamiento. En el caso de la variable aleatoria que estudiamos en los cursos
de probabilidades, la esperanza y la varianza juegan este papel. De forma análo-
ga, para los procesos estocásticos se tiene la función de valor medio y el núcleo de
covarianza.
3.3. VALOR MEDIO Y NÚCLEO DE COVARIANZA 71

Definición (Función de valor medio). Sea {X(t),t ∈ T } un proceso estocástico.


Su función de valor medio se denota por mx (t) y se define por:
Z
mx (t) = E[X(t)] = x fx(t) (x)dx

donde fx(t) (x) es la función de densidad de primer orden del proceso. Es de


notar que mx (t) es una función determinista, dependiente a lo sumo del instante
de tiempo t.

Definición (Núcleo de covarianza). Sea {X(t),t ∈ T } un proceso estocástico


con segundo momento finito. Su núcleo de covarianza, denotado por K(s,t), se
define como:

K(s,t) = Cov[X(s), X(t)] = E[(X(s) − mx (s))(X(t) − mx (t))]

Muchos procesos surgen como función de un número finito de variables alea-


torias. Por ejemplo, supóngase que X(t) representa la posición de una partı́cula
en movimiento rectilı́neo no acelerado con velocidad constante. X(t) se define en
función de una posición inicial X0 y una velocidad V de la siguiente forma:

X(t) = X0 +V · t

Si X0 y V son variables aleatorias, X(t) es en efecto un proceso estocástico.


Su función de valor medio y su núcleo de covarianza se calculan a continuación:

mx (t) = E[X(t)] = E[X0 +V · t] = E[X0 ] + t · E[V ]

K(s,t) = Cov[X(s), X(t)] = E[(X(s) − mx (s))(X(t) − mx (t))]


= E[(X0 + sV − E[X0 ] − sE[V ])(X0 + tV − E[X0 ] − tE[V ])]
= E[(X0 − E[X0 ])2 + (s + t) · (X0 − E[X0 ])(V − E[V ]) + st(V − E[V ])2 ]
= V [X0 ] + (s + t)Cov[X0 ,V ] + st ·V [V ]

Observamos que para calcular la función de valor medio y el núcleo de cova-


rianza no se requiere conocer la ley de probabilidad conjunta de X0 y V , basta con
conocer los valores esperados, las varianzas y la covarianza de X0 y V . Mediante
este ejemplo tomado de la fı́sica se aclaran aún más las ideas expuestas hasta
72 UNIDAD 3. INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS

ahora. La trayectoria del proceso aleatorio serı́a el desplazamiento de una partı́cu-


la ω determinada (su gráfica de movimiento). Tanto la trayectoria como la función
de valor medio y el núcleo de covarianza son caracterı́sticas deterministas del pro-
ceso estocástico en el sentido en que solo dependen de los instantes de tiempo
considerados.

3.4. Incrementos independientes y estacionarios. Proce-


sos estacionarios.

Frecuentemente, es más natural describir un proceso estocástico a través de


una caracterización de cómo este evoluciona en el tiempo, pues los incrementos,
o cambios de estado de un proceso generalmente poseen propiedades más sen-
cillas que las variables mismas de la secuencia aleatoria. Primero debemos definir
qué entendemos por “incremento”:

Definición (Incremento). Dado un proceso aleatorio {X(t),t ∈ T }, un incremento


representa la evolución o cambio de estado de un proceso en un lapso de tiempo,
lo cual se expresa matemáticamente por X(t + ∆t) − X(t) para t, ∆ ∈ T .
Para un proceso de parámetro discreto, incremento se refiere a como cambia
el proceso en un paso de tiempo (∆t = 1), siendo m-incremento el cambio del
proceso en m pasos de tiempo.

Consideremos un proceso estocástico {X(t),t ∈ T } de tiempo continuo y una


colección de parámetros en T linealmente ordenados, t1 , . . . ,tn , que satisface t1 <
. . . < tn . Se dice que X(t) es un proceso con incrementos independientes si las
variables aleatorias X(t2 ) − X(t1 ), . . . , X(tn ) − X(tn−1 ) son independientes.

Algunos autores definen los incrementos independientes con condiciones más


fuertes: Si el conjunto de parámetros temporales tiene un mı́nimo t0 , también debe-
mos suponer la independencia de X(t0 ), X(t1 ) − X(t0 ), . . . , X(tn ) − X(tn−1 ) en un
proceso con incrementos independientes. Usualmente se define t0 = 0 porque el
instante cuando comenzamos a observar el proceso aleatorio es el instante cero.
Incluso por convención,se asume que X(t0 ) = 0, ya que en el instante cero no ha
sucedido nada (el estado inicial de un proceso aleatorio en el instante cero es cero
y los incrementos sucesivos determinan cuán lejos se desvı́a el proceso aleatorio
con respecto a ese cero).

Definiendo los incrementos como una sucesión de variables aleatorias inde-


pendientes Y (t0 ) = X(t0 ), Y (ti ) = X(ti )−X(ti−1 ) para i ≥ 1 se hace evidente (por lo
3.4. INCREMENTOS Y ESTACIONARIEDAD 73

menos intuitivamente) que si conocemos las distribuciones de Y (t0 ),Y (t1 ), . . . ,Y (tn )
podemos determinar la distribución conjunta de X(t0 ), X(t1 ), . . . , X(tn ). Esto se
puede verificar mediante la función caracterı́stica conjunta y la propiedad de in-
dependencia de los incrementos. Por una parte, según esto último:

  
ϕY (t0 ),...,Y (tn ) u0 , · · · , un = ϕY (t0 ) u0 · · · ϕY (tn ) un (3.4.1)

Por otra parte, se tiene:

  
u0 X(t0 )+u1 (X(t1 )−X(t0 ))+...+un (X(tn )−X(tn−1 ))
ϕY (t0 ),...,Y (tn ) u0 , · · · , un = E ei
 
= E ei (u0 −u1 )X(t0 )+(u1 −u2 )X(t1 )+...+(un−1 −un )X(tn−1 )+un X(tn−1 )
= ϕX(t0 ),...,X(tn ) (u0 − u1 , · · · , un−1 − un , un ) (3.4.2)

Mediante la siguiente transformación de los parámetros de la función carac-


terı́stica:

z0 = u0 − u1 , ... , zn−1 = un−1 − un , zn = un

o equivalentemente:

u0 = z0 + . . . + zn , u1 = z1 + . . . + zn , ... , un = zn

podemos combinar las ecuaciones (3.4.1) y (3.4.2) en una sola:

ϕX(t0 ),...,X(tn ) (z0 , . . . , zn )


= ϕX(t0 ) (z0 + z1 + . . . + zn ) · ϕX(t1 )−X(t0 ) (z1 + . . . + zn ) · · · ϕX(tn )−X(tn−1 ) (zn )
(3.4.3)

Esto implica que en efecto, la ley de probabilidad conjunta de la secuencia


aleatoria {X(t)|t ∈ T } se determina a partir de las leyes de probabilidad de los
incrementos respectivos.

Otro concepto de importancia para la clasificación de los procesos estocásti-


cos es el de incrementos estacionarios y el de la estacionariedad. Básicamente,
74 UNIDAD 3. INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS

la estacionariedad de un fenómeno aleatorio se refiere a que el mecanismo que lo


produce permanece invariante en el tiempo.

Definición (Incrementos estacionarios). Un proceso es de incrementos estacio-


narios si la distribución de probabilidad de los incrementos X(t1 + h) − X(t1 ) y
X(t2 + h) − X(t2 ) es igual para valores positivos cualesquiera de t1 ,t2 y h.

De esta definición se puede colegir que la distribución de los incrementos esta-


cionarios solo depende de la amplitud del intervalo de tiempo h. La idea de estacio-
nariedad se puede extender a la secuencia de variables aleatorias que conforman
el proceso estocástico en sı́.

Definición (Proceso estocástico estrictamente estacionario de orden n). Sea T


un conjunto de ı́ndices de linealmente ordenados tal que la suma de dos miem-
bros cualesquiera de T también pertenece a T y consideremos un proceso es-
tocástico {X(t)|t ∈ T } definido sobre ese conjunto de ı́ndices temporales. Se
dice que {X(t)|t ∈ T } es un proceso estrictamente estacionario de orden n si la
distribución conjunta de un par de vectores aleatorios de dimensi  ón n arbitraria
X(t1 ), X(t2 ), . . . , X(tn ) y X(t1 + h), X(t2 + h), . . . , X(tn + h) es la misma para
todo t1 , t2 , . . . , tn y h en T .

Un proceso estocástico es estrictamente estacionario si es estrictamente es-


tacionario de orden n para todo entero positivo n. Esta condición plantea que un
proceso estrictamente estacionario está en equilibrio probabilı́stico y que los ins-
tantes particulares en los cuales se observan el proceso no tienen relevancia. En
particular, la distribución de X(t) es la misma para todo t .

Definición (Proceso estocástico débilmente estacionario). Un proceso {X(t)|t ∈


T } es débilmente estacionario o estacionario en el sentido amplio si tiene mo-
mentos finitos de segundo orden, si mt (t) = m es constante para todo t y si

Cov[X(t), X(t +h)] = E[X(t)X(t +h)]−E[X(t)]E[X(t +h)] = E[X(t)X(t +h)]−m2

depende solo de h para todo t .

Todo proceso estrictamente estacionario es también débilmente estacionario


pero lo contrario no es cierto.
3.5. ALGUNOS TIPOS DE PROCESOS ALEATORIOS 75

3.5. Algunos tipos de procesos aleatorios: caminata alea-


toria, martingalas, procesos de Markov, procesos de
Poisson, procesos de Wiener

Con la terminologı́a definida anteriormente en este capitulo, se está en condi-


ciones de definir algunos tipos de procesos estocásticos. El primer tipo de proceso
que vamos a definir es el ruido blanco:

Definición (Ruido Blanco). Un proceso estocástico de parámetro discreto cons-


tituido por una secuencia de variables aleatorias independientes e idénticamente
distribuidas Z0 , Z1 , . . . , Zn , se conoce como ruido blanco (white noise en inglés).

Si adicionalmente E[Zi ] = 0, el proceso estocástico se denomina ruido blanco


con media cero. Un proceso de ruido blanco es simétrico si además la distribución
de los Zi es una distribución simétrica, como por ejemplo la uniforme, la normal o la
t-Student. En base a un proceso estocástico de ruido blanco se define el siguiente
proceso:

Definición (Caminata aleatoria). Sea Z0 , Z1 , . . . , Zn un proceso estocástico de


ruido blanco, con el cual se define
n
Sn = S0 + ∑ Zi
i=1

con alguna condición inicial S0 = s0 o si S0 tiene alguna distribución especifica. El


proceso correspondiente {St |t = 0, 1, 2, . . .} es una caminata aleatoria.

En la definición precedente, los Zi se denominan los pasos o incrementos de


la caminata aleatoria; para que {St |t = 0, 1, 2, . . .} sea efectivamente una camina-
ta aleatoria, {Zt |t = 1, 2, . . .} debe ser un proceso de ruido blanco. Este tipo de
procesos se discutirá con más detalle en el próximo capitulo.

Definición (Martingala). Un proceso de parámetro discreto {Xt |t = 0, 1, 2, . . .} es


una martingala si satisface las siguientes dos propiedades:

(I) E[Xn ] < ∞

(II) E[Xn+1 |X0 , X1 , . . . , Xn ] = Xn

La primera de estas condiciones es más bien para facilitar un poco las ma-
temáticas en el manejo de las martingalas y la segunda si resume en esencia lo
76 UNIDAD 3. INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS

que es la martingala- establece que el valor esperado del próximo estado futuro del
proceso dado toda su historia pasada es simplemente el estado actual del proceso.

En el contexto del juego de apuestas, el proceso de martingala se denomina


a veces “juego justo”, ya que sirve para modelar la riqueza de un jugador en el
tiempo cuando la ganancia o perdida esperada en cada turno es cero. En realidad,
el término “martingala” proviene del un nombre francés que aludı́a a una estrategia
de juego consistente en duplicar las apuestas hasta ganar con seguridad3 .

Definición (Proceso de Markov). Un proceso de Markov {X(t)|t ∈ T } es aquel


cuyos estado futuro solo depende del estado presente y no del pasado. Los pro-
cesos de Markov verifican la propiedad de Markov , que establece que

P{X(tn+1 ) ∈ A|X(tn ) = an , . . . , X(t0 ) = a0 } = P{X(tn+1 ) ∈ A|X(tn ) = an }

En los procesos de Markov, el estado actual del proceso incorpora toda la in-
formación que necesitamos para estimar el estado futuro y la probabilidad de un
comportamiento futuro no se altera si incorporamos información sobre el pasado
del proceso. Un proceso de Markov con espacio de estado finito o numerable se
denomina cadena de Markov , que se estudiará posteriormente en este curso.

Antes de definir el proceso de Poisson, es preciso definir lo que es un proceso


de conteo (o counting process en inglés), del cual el proceso de Poisson es una
instancia particular. Un proceso de conteo {N(t)|t ∈ T } es aquel cuyo espacio
de estados es el conjunto de números naturales y con él se pretende modelar la
cantidad de eventos discretos que han ocurrido en un tiempo t . Se enuncia, pues,
la siguiente definición:

Definición (Proceso de Poisson homogéneo). Un proceso de conteo {N(t)|t ≥


0} es un proceso de Poisson con tasa media constante (o intensidad) λ si cumple
las condiciones a continuación:

(I) {N(t)|t ≥ 0} tiene incrementos estacionarios e independientes.

(II) Para dos instantes de tiempo s y t tales que s < t , la cuenta de eventos
N(t) − N(s) acaecidos en el intervalo de tiempo (s,t) es distribuida según
la ley de Poisson con media λ(t − s). A saber:
k
−λ(t−s) λ(t − s)
P{N(t) − N(s) = k} = e
k!

3
Ver QUIDEL, p. 440
3.5. ALGUNOS TIPOS DE PROCESOS ALEATORIOS 77

Figura 3.1: Norbert Wiener (1894-1964)

Nacido estadounidense e hijo de un inmigrante ruso, Norbert


Wiener obtuvo su Ph.D en Harvard a la edad de 18 años, tras
lo cual estudió Filosofı́a, Lógica y Matemáticas en Cambrid-
ge y Göttingen bajo Bertrand Russel y David Hilbert. Sus tra-
bajos fueron variados y versan sobre el modelamiento ma-
temático del movimiento browniano, la fı́sica matemática (la
mecánica cuántica y la teorı́a relativista cuántica) e investiga-
ciones sobre la transmisión de la información. Sin embargo,
es más conocido por ser el padre de la cibernética. Fuente:
http://www.isss.org/lumwiener.htm

Existen conjuntos alternativos de suposiciones que conllevan al proceso de


Poisson. No obstante, las condiciones que dan origen a un proceso de Poisson se
verifican con mucha frecuencia- de ahı́ la enorme importancia de los procesos de
Poisson. Ejemplos de procesos de Poisson son: fallas de componentes eléctricos,
decaimiento de partı́culas radioactivas, llamadas recibidas en una central telefóni-
ca, etc.

Por último, mencionamos el proceso de Wiener, nombrado en honor a N. Wie-


ner, quien fue entre los primeros en considerar matemáticamente el fenómeno
del movimiento Browniano. El movimiento Browniano consiste en lo siguiente: una
partı́cula que inicialmente se encuentra en determinada posición (por definición se
asume X(0) = 0) es sometida a innumerables y continuos impactos en su entorno,
gracias a lo cual está en constante y perpetuo movimiento. El desplazamiento de
la partı́cula en un intervalo de tiempo (s,t), el cual es amplio comparado con el
tiempo medio entre impactos, puede ser considerado como la suma de un núme-
ro indeterminadamente grande de pequeños desplazamientos, por lo cual parece
razonable suponer, en virtud del Teorema Central del Lı́mite, que X(t) − X(s) es
normalmente distribuido. Más aún, es razonable suponer que los desplazamientos
en dos intervalos de tiempo de la misma longitud son idénticamente distribuidos,
ya que se supone que el entorno de la partı́cula esta en equilibrio. El hecho de
que el desplazamiento de la partı́cula se deba a impactos muy frecuentes e irre-
gulares se traduce matemáticamente estableciendo que los desplazamientos en
lapsos de tiempo no coincidentes son independientes entre sı́, ya que el número y
la magnitud de los impactos en cada intervalo de tiempo es independiente del otro
intervalo. En consecuencia, los incrementos del proceso de Movimiento Browniano
son independientes y estacionarios. Resumiendo, tenemos la siguiente definición
para el proceso de Wiener:
78 UNIDAD 3. INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS

Definición (Proceso de Wiener). Un proceso estocástico de parámetro continuo


{X(t)|t ≥ 0} es un proceso de Wiener si:

(I) {X(t)|t ≥ 0} tiene incrementos estacionarios e independientes.

(II) Para cada t > 0, X(t) es normalmente distribuido.

(III) Para cada t > 0, E[X(t)] = 0.

(IV) X(0) = 0.

3.6. Problemas resueltos

Problema Resuelto 3.1


Demostrar que si X e Y son variables aleatorias discretas e independientes tales
que X ∼ Binomial(m, p) e Y ∼ Binomial(n, p), entonces

 n 
X|X +Y = s ∼ Hipergeométrica n + m, s,
n+m
Solución
La suma X +Y de dos variables aleatorias binomiales e independientes es una va-
riable aleatoria binomial:

m n m+n
ϕX+Y (u) = ϕX (u)ϕY (u) = q + p eiu · q + p eiu = q + p eiu

Especı́ficamente, X + Y ∼ Binomial(n + m, p). Por lo tanto, la probabilidad condi-


cional P{X = s|X +Y = s} es:

P{X = s, X +Y = s} P{X = s,Y = s − x}


P{X = s|X +Y = s} = =
P{X +Y = s} P{X +Y = s}

n x n−x m
 s−x n−(s−x)
pq p q
= x s−x
m+n s m+n−s
pq
n
 s
= m
x m+n
s−x s
3.6. PROBLEMAS RESUELTOS 79

para x = 0, 1, . . . , m y s = 0, 1, . . . , m + n. Se evidencia entonces que

 n 
X|X +Y = s ∼ Hipergeométrica n + m, s,
n+m

como se querı́a demostrar.

Problema Resuelto 3.2


Sea {X(t)|t ≥ 0} un proceso aleatorio con incrementos independientes y función
de valor medio mX (t) = E[X(t)] finita. Si 0 < t1 < . . . < tn < tn+1 , demuestre que
E[X(tn+1 )|X(t1 ), . . . , X(tn )] = X(tn ) + mX (tn+1 ) − mX (tn ).

Solución
Para este problema se utilizarán las seis propiedades de la esperanza condicional
(ver sección 3.2) y la independencia de los incrementos.

E[X(tn+1 )|X(t1 ), . . . , X(tn )]


= E[X(tn ) + X(tn+1 ) − X(tn )|X(t1 ), . . . , X(tn )] ➒ Propiedad 1
= E[X(tn )|X(t1 ), . . . , X(tn )]
+ E[X(tn+1 ) − X(tn )|X(t1 ), . . . , X(tn )] ➒ Propiedad 2
Por independencia
de los incrementos y
= X(tn ) + E[X(tn+1 ) − X(tn )] ➒ por las propiedades
5y6
= X(tn ) + mX (tn+1 ) − mX (tn )

Problema Resuelto 3.3


Sea {Xn |n = 1, 2, . . .} una sucesión de variables aleatorias independientes con va-
lor medio mX (n) = E[Xn ] = 0 para todo n. Se define la sucesión {Sn |n = 1, 2, . . .}
como
n
Sn = ∑ Xi
i=1

Demuestre que {Sn |n = 1, 2, . . .} es una martingala.

Solución
80 UNIDAD 3. INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS

Se pretende demostrar que E[Sn+1 |S1 = s1 , S2 = s2 , . . . , Sn = sn ] = sn . Teniendo en


cuenta la independencia de la sucesión {Xn |n = 1, 2, . . .} y que Sn+1 = Sn + Xn+1 ,
se puede escribir:

E[Sn+1 |S1 = s1 , S2 = s2 , . . . , Sn = sn ]
= E[Sn + Xn+1 |S1 = s1 , S2 = s2 , . . . , Sn = sn ] ➒ definición de Sn
= E[Sn |S1 = s1 , S2 = s2 , . . . , Sn = sn ]
+E[Xn+1 |S1 = s1 , S2 = s2 , . . . , Sn = sn ] ➒ Propiedad 1 de la esperanza
condicional
= sn + E[Xn+1 ] ➒ Propiedad 2; Propiedad 6
= sn + 0 = sn ➒ E[Xn ] = 0 para todo n

3.7. Problemas propuestos

1. La Bella Durmiente, cuando duerme, se encuentra en una de estas tres po-


siciones:

a) De cúbito supino y las manos cruzadas sobre su pecho, viéndose bella


y radiante a los ojos del Prı́ncipe.
b) Boca abajo, roncando de manera muy sonora.
c) En posición fetal y chupándose el dedo gordo- bella sólo para el orto-
doncista.

A lo largo de la noche, cambia continuamente de posición de manera alea-


toria. ¿Qué clase de proceso estocástico es este en cuanto a su espacio de
estados y su espacio de parámetros?

2. Se coloca un termómetro en medio del desierto de Gobi para registrar la


temperatura durante las 24 horas del dı́a, todos los dı́as del año. ¿Qué cla-
se de proceso estocástico es este en cuanto a su espacio de estados y su
espacio de parámetros? ¿Dirı́a usted que este proceso es de incrementos
estacionarios? Explique.

3. Supóngase que pedidos de cantidades variables (N ) de artı́culos arriban dia-


riamente a un almacén según la siguiente distribución de probabilidades:
n 10 11 12 13 14 15
P(N = n) 0,05 0,15 0,30 0,30 0,15 0,05
3.7. PROBLEMAS PROPUESTOS 81

La probabilidad de que un artı́culo en particular sea defectuoso es de 0,10 ,


independientemente de la presencia de defectos en los otros artı́culos. Cal-
cule el valor esperado de artı́culos X que se reciben en un dı́a.

4. Demuestre que si X e Y son variables aleatorias discretas e independientes


distribuidas según la ley de Poisson con parámetros λ1 y λ2 respectivamente,
entonces

λ1 
X|X +Y = s ∼ Binomial s,
λ1 + λ2
5. Demuestre que si X ∼ Poisson(λ) y si Y |X = x ∼ Binomial(x, p), entonces
Y ∼ Poisson(λ p).
6. Demuestre que si X ∼ Geométrica(p), entonces P{X = m + n|X > m} =
P{X = n}. Esto confirmarı́a la propiedad de “falta de memoria” de la distri-
bución geométrica: la información que no hubo éxitos en m pruebas (X > m)
es olvidada si se realizan más pruebas (X = m + n).

7. De manera análoga al ejercicio anterior, demuestre que si T ∼ Exponencial(λ),


entonces P{T > m + n|T > m} = P{T > n} (propiedad de falta de memoria
de la exponencial).

8. Considérese el proceso aleatorio X(t) = At + B donde A es una variable


aleatoria que toma los valores 3 y 4 con probabilidades 14 y 34 , respectiva-
mente y B es una variable aleatoria con función de probabilidad P{B = 1} =
P{B = 2} = 12 . A y B son variables aleatorias independientes. Obtenga la
función de valor medio y el núcleo de covarianza del proceso aleatorio.

9. Sea X (t) = At + B un proceso aleatorio para el cual A y B son variables


aleatorias independientes, de esperanza cero y E[A2 ] = σ2A , E[B2 ] = σ2B ¿Es
{X(t)} un proceso estacionario?
10. Considere el proceso X(t) = A cos ωt + B sin ωt donde ω ∈ [0, 1], A y B
son variables aleatorias no correlacionadas, de esperanza 0 y varianza 1.
Demuestre que este proceso es débilmente estacionario.

11. Demuestre que los incrementos de una caminata aleatoria son independien-
tes y estacionarios.

12. Sea S0 = 0 y Sn = X1 + · · · + Xn , donde X1 , X2 , . . . son variables aleatorias


independientes con esperanza 0 y varianza σ2 (caminata aleatoria simétri-
ca). Calcule la función de valor medio y el núcleo de covarianzas del proceso
{Sn }.
82 UNIDAD 3. INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS

13. Sea {Zn |n ∈ N} un proceso de ruido blanco con Zn ∼ Normal(µ = 1, σ = 2).


Encuentre las siguientes probabilidades:

a) P{Zi > 5}
b) P{−3 < Zi < 5}
c) P{Zi = 1}

14. Demuestre que el valor esperado de un incremento en una martingala es


necesariamente igual a cero.

15. (La cadena de Ehrenfest) Motivado por problemas relacionados con la mecáni-
ca estadı́stica T. Ehrenfest describió un experimento con 2 urnas, dentro de
las cuales están distribuidas N moléculas. En cada paso del experimento,
se escoge al azar una molécula, esta es removida de la urna en la cual se
encuentra y es colocada en la otra urna. Ası́, si se escoge una molécula de
la urna A, esta es removida de A y colocada en B y viceversa. El estado
del proceso está determinado por el número de moléculas presentes en la
urna A a cada paso del experimento. Justifique que el proceso estocástico
{Xn |n ∈ N} definido por Xn = cantidad de moléculas presentes en la urna A
al instante n, n ∈ N, es una cadena de Markov. Dé su espacio de estados.

16. Sea {Xn |n ∈ N} un proceso estocástico de parámetro discreto tal que X0 = 1,


0 < p < 1 y P{Xt+1 = Xt |Xt } = 1 − pXt .
Demuestre que {Xn |n ∈ N} es una cadena de Markov pero no una martin-
gala.

17. Demuestre que un proceso de ruido blanco con parámetro discreto tiene
incrementos independientes.

18. Determine las condiciones bajo las cuales un proceso de ruido blanco es una
martingala.

19. Determine las condiciones bajo las cuales una caminata aleatoria es una
martingala.

20. La martingala, como estrategia de apuestas, consiste en doblar la apuesta


si uno pierde y retirarse del juego cuando se gana. El jugador sigue esta
estrategia: apuesta inicialmente 1 unidad, luego 2, luego 4 y ası́ continua
doblando su apuesta hasta que gane. Supóngase que en cada jugada tiene
igual probabilidad de ganar o perder.
3.7. PROBLEMAS PROPUESTOS 83

a) Modele la ganancia de un jugador que emplee esta estrategia plantean-


do un proceso estocástico y definiendo su espacio de estados.
b) Demuestre que el jugador siempre se retira del juego con una ganancia
de 1 unidad a su favor con probabilidad 1 (ie. casi siempre).
c) Explique por que no se permite esta estrategia de apuestas en los ca-
sinos modernos (i.e. el croupier se niega a recibir apuestas de aquellos
que aparentemente practican esta estrategia)

21. Escriba un programa en R que simule y represente una trayectoria de un


proceso de movimiento Browniano en dos dimensiones.

22. Considere el proceso determinista: xn = r · xn−1 (1 − xn−1 ), x0 = 0, 01. Me-


diante un programa en R, investigue el comportamiento a la larga de dicho
proceso (para valores de n grandes) utilizando valores para r de 2,7 3 y
3,5 respectivamente. Indique sus hallazgos y analice las implicaciones de
los mismos. (Este ejemplo de sistema caótico se debe a Robert May en su
estudio de crecimiento poblacional)
84 UNIDAD 3. INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS
Unidad 4

Caminatas Aleatorias y
Movimiento Browniano

H OC ETIAM MAGIS HAEC ANIMUM TE ADVERTERE PAR EST


CORPORA QUAE IN SOLIS RADIIS TURBARE VIDENTUR ,
QUOD TALES TURBAE MOTUS QUOQUE MATERIAI
SIGNIFICANT CLANDESTINOS CAECOSQUE SUBESSE .
MULTA VIDEBIS ENIM PLAGIS IBI PERCITA CAECIS
COMMUTARE VIAM RETROQUE REPULSA REVERTI
NUNC HUC NUNC ILLUC IN CUNCTAS UNDIQUE PARTIS .
SCILICET HIC A PRINCIPIIS EST OMNIBUS ERROR .
PRIMA MOVENTUR ENIM PER SE PRIMORDIA RERUM ,
INDE EA QUAE PARVO SUNT CORPORA CONCILIATU
ET QUASI PROXIMA SUNT AD VIRIS PRINCIPIORUM ,
ICTIBUS ILLORUM CAECIS INPULSA CIENTUR ,
IPSAQUE PROPORRO PAULO MAIORA LACESSUNT.
SIC A PRINCIPIIS ASCENDIT MOTUS ET EXIT
PAULATIM NOSTROS AD SENSUS , UT MOVEANTUR
ILLA QUOQUE , IN SOLIS QUAE LUMINE CERNERE QUIMUS
NEC QUIBUS ID FACIANT PLAGIS APPARET APERTE .

U NA FLOR PARA EL DESIERTO


Ensamblaje en aluminio y acero - 1985 Lucretius (c. 94 - c. 49 A.C.)
Alejandro Otero D E RERVM NATURA , LIBER II, 125-141

85
86 UNIDAD 4. CAMINATAS ALEATORIAS Y MOVIMIENTO BROWNIANO

Objetivos de la Unidad

El objetivo general de esta Unidad es hacer una exposición de una familia de proce-
sos estocásticos denominados como caminata aleatoria. Ası́ mismo, se hace una
exposición del movimiento browniano y de su relación con la caminata aleatoria.
Al término de la misma, se quiere que el estudiante logre los siguientes objetivos
especı́ficos:

Definir los procesos de caminata aleatoria basados en procesos de Bernoulli,


identificar sus caracterı́sticas y aplicar esto a la solución de problemas.

Analizar el problema de la ruina del jugador en cuanto a la probabilidad de


ruina y la duración promedio del juego.

Definir los procesos de movimiento browniano, identificar sus caracterı́sticas


y relacionarlos con el problema de la ruina del jugador.

4.1. El proceso de Bernoulli

El proceso de Bernoulli es un proceso estocástico de parámetro discreto cuya


estructura es muy sencilla: en cada paso, se observa la ocurrencia o no ocurrencia
de un determinado evento cuya probabilidad se mantiene constante y el en cual ca-
da observación es independiente de todas las observaciones anteriores. El proceso
de Bernoulli es en efecto un proceso estocástico de tipo ruido blanco. Ejemplos de
procesos de Bernoulli son:

(a) Un inspector de calidad verifica si los productos de una lı́nea de ensamblaje son
defectuosos observando una secuencia de productos. Si el i-ésimo producto
es defectuoso, registra Xi = 1, de lo contrario anota Xi = 0 . Si los defectos
se deben a causas aleatorias de modo que la presencia de defectos en un
producto es independiente de la presencia de defectos en los otros productos,
y si además, la proporción p de artı́culos defectuosos se mantiene constante a
través de todas las observaciones, {Xi |i ≥ 1} es un proceso de Bernoulli.
4.2. LA CANTIDAD DE ÉXITOS 87

(b) Se monta una alcabala policial en un determinado punto y se paran a todos los
conductores que por ella transitan para verificar si portan armas, conducen un
vehı́culo robado o presentan alguna otra irregularidad. Bajo condiciones simila-
res a las del ejemplo anterior, si la probabilidad de que un conductor presente
alguna irregularidad es constante e independiente entre los conductores que
van transitando por la alcabala, la situación descrita se puede modelar adecua-
damente mediante un proceso de Bernoulli.

En todos estos casos, las variables constituyentes del proceso de Bernoulli re-
presentan experimentos aleatorios con dos posibles resultados- éxito o fracaso. En
un proceso de Bernoulli, las variables aleatorias constituyentes son idénticamen-
te distribuidas e independientes entre sı́. Este modelo estocástico básico da pié a
otros tipos de procesos estocásticos que se describirán a continuación.

4.2. La cantidad de éxitos. Caminatas aleatorias basadas


en procesos de Bernoulli.

Si en un proceso de Bernoulli {Xi |i ≥ 1} , observamos la cantidad de éxitos


ocurridos en el n-ésimo ensayo y los n − 1 ensayos anteriores, se define un nue-
vo proceso aleatorio que es una caminata aleatoria, pues lo que sucede en cada
observación se puede modelar mediante la secuencia aleatoria {Si |i ≥ 1} definida
como:

n
Sn = ∑ Xi (4.2.1)
i=1

En el capitulo anterior se sugirió que la caminata aleatoria es un proceso con


incrementos independientes y estacionarios (ver los problemas propuestos de ese
capitulo). Este hecho tiene algunas implicaciones importantes que serı́a convenien-
te resaltar:

A partir de un instante n dado, la cantidad de éxitos que se registren en los


próximos m ensayos de un proceso de Bernoulli (Sn+m − Sn ) es independien-
te de la cantidad de éxitos registrados en los n − 1 ensayos anteriores.

Por ser los incrementos estacionarios, la probabilidad de que en las próximas


m observaciones se tenga sm éxitos solo depende de m y es igual a la pro-
babilidad de que, observando desde el principio los m ensayos, se tenga sm
88 UNIDAD 4. CAMINATAS ALEATORIAS Y MOVIMIENTO BROWNIANO

éxitos. Matemáticamente: P{Sn+m − Sn = sm |S1 = s1 , S2 = s2 , . . . , Sn = sn } =


P{Sm = sm }.

Además, por ser Sn definida como la suma de n incrementos no negativos


(los Xi son siempre iguales a 0 o a 1), Sn es una secuencia creciente. Por
ejemplo, no podrı́a ser cierto que, habiendo observado 5 éxitos en los prime-
ros 8 ensayos, tengamos 3 éxitos en los primeros 10 ensayos.

Podemos calcular el valor esperado y la varianza de Sn sin haber determinado


aún su distribución de probabilidad, pues valiéndonos de la definición de Sn como
una suma de n variables aleatorias independientes e idénticamente distribuidas
según la Ley de Bernoulli:

 n  n n
E[Sn ] = E ∑ Xi = ∑ E[Xi ] = ∑ p = np (4.2.2)
i=1 i=1 i=1
 n  n n
V [Sn ] = V ∑ Xi = ∑ V [Xi ] = ∑ pq = npq (4.2.3)
i=1 i=1 i=1

La ecuación (4.2.2) revela inmediatamente la función de valor medio para este


tipo de procesos. De hecho, para aclarar todo esto, vamos a simular en R una
trayectoria de esta caminata aleatoria basada en un proceso de Bernoulli:
1 # ----------------------------------------------------------------
2 # 4_1. R
3 # simulacion de una trayectoria de una caminata aleatoria
4 # basada en el numero de exitos en i ensayos de Bernoulli .
5 # autor : Jose L. Romero P.
6 # fecha : 16/8/2011
7 # ----------------------------------------------------------------
8 pe <- 0.4 # pe es la probabilidad de exito en cada ensayo
9 b <- sample(size=15 ,c(0 ,1) ,prob=c(1 -pe,pe),replace=TRUE)
10 s <- c(0 ,cumsum(b))
11 tiempo <- 0:15
12 png(" bernoulli1 . png ")
13 plot(tiempo,s,type="s" ,xlab=" tiempo \n(i)" ,
14 ylab=expression(S[i]) ,lwd=6 ,axes=FALSE)
15 ejex <- 0:15
16 ejey <- 0:max(s)
17 axis(1 ,at=ejex,labels=ejex,pos=0)
18 axis(2 ,at=ejey,labels=ejey,pos=0)
19 # dibuja las lineas del reticulado
20 abline(v=1:15 ,lty=3 ,col=" black ")
4.2. LA CANTIDAD DE ÉXITOS 89

21 abline(h=1:max(s),lty=3 ,col=" black ")


22 # dibuja la curva de la funcion de valor medio
23 abline(a=0 ,b=pe,col=" darkgreen " ,lwd=2)

Esta simulación genera una trayectoria del proceso simular a la de la figura 4.1.
La lı́nea verde oscura representa la función de valor medio del proceso estocástico
y se verifica que la trayectoria (representada por las lı́neas negras tipo “escalera”)
se acercará, en promedio, a la curva de la función de valor medio. Observese que
primero se genera la trayectoria (simulada) de {Xi |1 ≤ i ≤ n} a la cual corresponde
el vector b (lı́nea 9 del script). Seguidamente, el vector s (trayectoria de {Si |1 ≤ i ≤
n} se genera mediante la función en R cumsum, la cual acumula progresivamente
los elementos del vector b (cumsum significa “suma acumulada”). Por supuesto,
S0 = 0 siempre.

Figura 4.1: Trayectoria generada por simulación de una caminata aleatoria basada en un proceso
de Bernoulli: cantidad de éxitos en el i-ésimo ensayo. La probabilidad de éxito es p = 0, 4 y la curva
verde se corresponde a la función de valor medio (mS (i) = 0, 4 · i)

El siguiente tema en nuestra ocupada agenda es determinar las respectivas


probabilidades P{Sm = s}, es decir, la distribución de probabilidad de los {Si |i ≥
1}. Existen diversas maneras de deducir esto, la vı́a más directa para nosotros
es recurrir a nuestro extenso conocimiento sobre las funciones caracterı́sticas. En
efecto, como los {Si |i ≥ 1} son esencialmente sumas de variables aleatorias de
tipo Bernoulli con igual parámetro p y mutuamente independientes, se tiene que:
90 UNIDAD 4. CAMINATAS ALEATORIAS Y MOVIMIENTO BROWNIANO

n
ϕSn (u) = ϕX1 +X2 +...+Xn (u) = ϕXi (u)n = q + peiu

Esta función caracterı́stica se corresponde a la función caracterı́stica de una


Binomial con n ensayos. Con esto demostramos la siguiente proposición:

Proposición 4.1. Sea {Si |i ≥ 1} una caminata aleatoria basada en experimentos


de Bernoulli como aquella definida en la ecuación (4.2.1). La distribución de cada
Sn es binomial y se tiene que:
 
n s n−s
P{Sn = s} = p q , para 0 ≤ s ≤ n
s

En la práctica, la fórmula de la Proposición 4.1, en conjunción con las obser-


vaciones hechas anteriormente sobre la independencia y estacionariedad de los
incrementos son de mucha utilidad para el cálculo de probabilidades referentes a
los estados de una caminata aleatoria basada en el proceso de Bernoulli, tal como
se hace en algunos problemas resueltos que se plantearán posteriormente.

4.3. La cantidad de ensayos hasta r éxitos: más sobre las


caminatas aleatorias basadas en procesos de Ber-
noulli.

Si en una sucesión {Xi , i ≥ 1} de variables aleatorias independientese idéntica-


mente distribuidas según la ley de Bernoulli (un proceso de Bernoulli) nos referimos
a la cantidad de ensayos hasta ocurrir r éxitos (r es fijo), tenemos otros proceso
aleatorio basado en un proceso de Bernoulli en el cual la secuencia de variables
aleatorias representa los instantes o ensayos en los cuales ocurre los éxitos sucesi-
vos. Intentemos esquematizar esto matemáticamente. Si por ejemplo tenemos una
trayectoria de un proceso de Bernoulli como esta: x1 = 0, x2 = 0, x3 = 1, x4 = 0,
x5 = 1, . . . , la trayectoria del proceso que estamos definiendo serı́a t1 = 3, t2 = 5,
. . . , porque el primer éxito ocurre en el tercer ensayo y el segundo éxito ocurre al
quinto ensayo. De forma general, si {Ti |i ≥ 1} es el proceso que estamos definien-
do, entonces, en función de la secuencia aleatoria {Xk |k ≥ 1}, Ti (ω) será igual al
ı́ndice k de aquella secuencia donde ocurre el i-ésimo éxito.

¿Qué podemos decir sobre el comportamiento de esta secuencia aleatoria?


En primer lugar, debe ser una secuencia estrictamente creciente, porque el i-ési-
4.3. CANTIDAD DE ENSAYOS HASTA R ÉXITOS 91

mo éxito ocurre en el ensayo Ti , el siguiente éxito necesariamente ocurre después


y se tiene que Ti+1 > Ti para cualquier i. De modo intuitivo, constatamos que los
incrementos de este proceso son idependientes y estacionarios (esto se puede
demostrar). El razonamiento de ello es a grandes rasgos el siguiente: el mecanis-
mo subyacente que produce la secuencia {T j | j ≥ 1} es el proceso de Bernoulli
{Xi |i ≥ 1}, que es una sucesión de variables independientes cuyo parámetro p es
invariante en el tiempo. Además, si el incremento Ti+1 − Ti = n, con n > 0, es por-
que después del Ti -ésimo éxito ocurren n − 1 fracasos sucesivos, luego de los cua-
les ocurre el Ti+1 -ésimo éxito.La probabilidad de ello es qn−1 p. En otras palabras,
los incrementos se distribuyen según la ley de probabilidad geométrica. Tratemos
de esquematizar lo enunciado hasta ahora:

Proposición 4.2. Si {T j | j ≥ 1} representa un proceso estocástico que caracte-


riza el número de ensayos de Bernoulli hasta el j-ésimo éxito, entonces

P{Tk+1 − Tk = n|T1 , . . . , Tk } = P{Tk+1 − Tk = n} = qn−1 p

Esta proposición establece que los incrementos son estacionarios, ya que la


anterior probabilidad no depende de k. Además, lo dicho sobre la independencia
de los incrementos se vuelve a expresar en la siguiente proposición, que se da sin
demostración:

Proposición 4.3. Sea {T j | j ≥ 1} un proceso estocástico como en la Proposición


4.2, entonces, para k ∈ N + y n ≥ k, se tiene que:

0 si Tk ≥ n
P{Tk+1 = n|T1 , T2 , . . . , Tk } = P{Tk+1 = n|Tk } =
qn−1−Tk p si Tk < n

Esto además demuestra que el proceso estocástico {T j | j ≥ 1} goza de la pro-


piedad de Markov. Antes de proceder aclararemos de una vez que T0 = 0 porque
con el 0-ésimo éxito ocurre el 0-ésimo ensayo con probabilidad uno. Ahora surge
la pregunta: ¿Cómo se distribuyen los {T j , j ≥ 1}?. Si ha leı́do atentamente esta
exposición , muy probablemente ya lo haya adivinado:

Proposición 4.4. Sea {T j | j ≥ 1} un proceso estocástico como en la Proposición


4.2, entonces, se tiene que
 
n − 1 k n−k
P{Tk = n} = pq paran = k, k + 1, . . .
k−1

En lo anterior se establece que cada Tk en la secuencia aleatoria {T j | j ≥ 1} se


distribuye según la ley binomial negativa. Existen varias formas de demostrar esto,
92 UNIDAD 4. CAMINATAS ALEATORIAS Y MOVIMIENTO BROWNIANO

la más expedita para nosotros es tomar en cuenta que este proceso es, después de
todo, una caminata aleatoria; cada variable Tk es una sumatoria de k incrementos
independientes e idénticamente distribuidos, es decir:

Tk = (Tk − Tk−1 ) + (Tk−1 − Tk−2 ) + ... + T1 − T0

Como damos por hecho que los incrementos se distribuyen según la misma ley
geométrica, entonces la función caracterı́stica de Tk es:

 k
peiu
ϕTk (u) =
1 − qeiu

la cual corresponde a la función caracterı́stica de la binomial negativa y por lo tanto


(vease la Tabla 1.1 en la Unidad 1):

 n−1

k−1 pk qn−k si n ≥ k
pTk (n) =
0 si n < k

Como en la sección precedente, vamos a simular trayectorias del proceso {Ti }


para afianzar el aprendizaje:
1 # ----------------------------------------------------------------
2 # 4_2. R
3 # simulacion de una trayectoria de una caminata aleatoria
4 # basada en el numero de ensayos de Bernoulli hasta alcanzar el
5 # i - esimo exito .
6 # autor : Jose L. Romero P.
7 # fecha : 16/8/2011
8 # ----------------------------------------------------------------
9 pe <- 0.4 # pe es la probabilidad de exito en cada ensayo
10 b <- sample(size=20 ,c(0 ,1) ,prob=c(1 -pe,pe),replace=TRUE)
11 Ti <- c(0 ,which(b==1))
12 ensayo <- 0:(length(Ti) -1)
13 png(" bernoulli2 . png ")
14 plot(ensayo,Ti,type="S" ,xlab=" exito \n(i)" ,
15 ylab=expression(T[i] - ensayos),lwd=6 ,axes=FALSE)
16 ejex <- ensayo
17 ejey <- 0:max(Ti)
18 axis(1 ,at=ejex,labels=ejex,pos=0)
19 axis(2 ,at=ejey,labels=ejey,pos=0)
20 # dibuja las lineas del reticulado
21 abline(v=1:(length(Ti) -1) ,lty=3 ,col=" black ")
22 abline(h=1:max(Ti),lty=3 ,col=" black ")
4.4. PROBLEMAS RESUELTOS PARA LAS SECCIONES 4.1 - 4.3 93

23 # dibuja la curva de la funcion de valor medio


24 abline(a=0 ,b=1/pe,col=" darkgreen " ,lwd=2)

Como elemento novedoso en el script precedente, observamos la función de R


which, la cual devuelve un vector con los ı́ndices de los elementos que satisfacen
la expresión lógica en su argumento. En este caso, which devuelve los ı́ndices de
aquellos elementos de b donde observamos éxitos - se trata efectivamente de un
vector con los números de ensayos en los cuales se alcanzan los éxitos sucesivos.
Como en la simulación anterior, la lı́nea verde representa la curva de la función de
valor medio. La gráfica resultante se tiene en la figura 4.2.

Figura 4.2: Trayectoria generada por simulación de una caminata aleatoria basada en un proceso
de Bernoulli: cantidad de ensayos hasta el i-ésimo éxito. La probabilidad de éxito es p = 0, 4 y la
i
curva verde se corresponde a la función de valor medio (mS (i) = 0,4 )

4.4. Problemas resueltos para las secciones 4.1 - 4.3

Para reforzar el aprendizaje del contenido de las secciones 4.1 - 4.3 se plantean
los ejercicios a continuación. En lo que sigue, se asume que {Si |i ≥ 1} se refiere
a una caminata aleatoria basada en un proceso de Bernoulli con probabilidad de
éxito en cada ensayo igual a p y cuyas variables aleatorias Si se corresponden a la
cantidad de éxitos en i ensayos.
94 UNIDAD 4. CAMINATAS ALEATORIAS Y MOVIMIENTO BROWNIANO

Problema Resuelto 4.1


Calcule lo siguiente:

(a) P{S7 − S3 = 2}.

(b) P{S3 = 2, S5 = 4, S1 1 = 7}.

(c) P{S3 = 2, S5 = 4, S6 = 3}.

(d) E[S3 S5 ].

Solución

(a) En virtud de las observaciones en la página 87 y según la Proposición 4.1, se


tiene:

 
4 2 2
P{S7 − S3 = 2} = P{S4 = 2} = p q = 6p2 q2
2

(b)
P{S3 = 2, S5 = 4, S1 1 = 7} = P{S3 = 2, S5 − S3 = 2, S1 1 − S5 = 3}

Los incrementos en la probabilidad anterior son todos independientes entre sı́,


de modo que la expresión anterior es igual a:

P{S3 = 2} · P{S5 − S3 = 2} · P{S1 1 − S5 = 3}


= P{S3 = 2} · P{S2 = 2} · P{S6 = 3}
     
3 2 1 2 2 0 6 3 3
= p q p q p q
2 2 3
= 45p7 q4

Se entiende que las probabilidades en P{S3 = 2} · P{S2 = 2} · P{S6 = 3} se


refieren a variables Si consideradas por separado e independientes unas de
otras, es decir, S3 , S2 y S5 no se refieren a la misma trayectoria de la caminata
aleatoria.
4.4. PROBLEMAS RESUELTOS PARA LAS SECCIONES 4.1 - 4.3 95

(c) De igual forma que en el problema anterior:

P{S3 = 2, S5 = 4, S6 = 3} = P{S3 = 2} · P{S2 = 2} · P{S1 = −1}

Pero la probabilidad P{S1 = −1} en la expresión anterior es igual a cero, por-


que los incrementos en una caminata aleatoria basada en un proceso de Ber-
noulli siempre son positivos. Por lo tanto, la probabilidad P{S3 = 2, S5 = 4, S6 =
3} es igual a cero.
(d) E[S3 S5 ] = E[S3 · (S3 + S5 − S3 )] = E[S3 S3 ] + E[S3 (S5 − S3 )]. Pero por la inde-
pendencia de los incrementos, la expresión anterior es equivalente a:

E[S3 S3 ] + E[S3 (S5 − S3 )] = V [S3 ] + E 2 [S3 ] + E[S3 ] · E[S5 − S3]


= 3pq + (3p)2 + 3p · 2p = 3pq + 15p2

Para los siguientes problemas resueltos, referentes a la sección 4.3, se asume


que {T j | j ≥ 1} caracteriza a los tiempos (número de ensayos) hasta los respec-
tivos j-ésimos éxitos, donde cada ensayo se basa en un proceso de Bernoulli con
probabilidad de éxito igual a p.

Problema Resuelto 4.2


Calcular lo siguiente:

(a) P{T2 = 3, T3 = 6}.

(b) E[T6 |T1 , T2 , T3 ].

Solución

(a)

P{T2 = 3, T3 = 6} = P{T2 = 3, T3 − T2 = 3} = P{T2 = 3} · P{T3 − T2 = 3}


 
3 − 1 2 3−2 3−1
= p q · q p = 2p3 q3
2−1
Tengamos en cuenta que T2 es binomial negativa y T3 −T2 es geométricamente
distribuida.
96 UNIDAD 4. CAMINATAS ALEATORIAS Y MOVIMIENTO BROWNIANO

(b) En lo sucesivo téngase en cuenta las propiedades 1 a 6 de la esperanza con-


dicional que aparecen en la sección 3.2:

E[T6 |T1 , T2 , T3 ] = E[T6 |T3 ] ➒ propiedad de Markov de {T j | j ≥ 1}

= E[T6 − T3 + T3 |T3 ]
propiedad 1 de la esperanza condicional
= E[T6 − T3 |T3 ] + E[T3 |T3 ] ➒ (linealidad)
= E[T6 − T3 ] + T3 ➒ Proposición 4.2 y propiedad 2
3
= + T3 ➒ T6 − T3 es binom. negativa con r = 3
p

4.5. La ruina del jugador

Consideremos un juego donde en cada apuesta, un jugador gana un BF con


probabilidad p y pierde un BF con probabilidad 1 − p. Claramente, la fortuna del
jugador luego de n apuestas se puede modelar mediante una caminata aleatoria
{Fn |n ∈ N}, donde

n
Fn = ∑ Xi
i=0

es la suma de n + 1 variables aleatorias independientes e idénticamente distribui-


das, teniéndose que X0 = x es la fortuna inicial del jugador (antes de apostar) y
los Xi sucesivos son los incrementos en BF luego de la respectiva apuesta, cuya
distribución de probabilidad viene dada por:

P{Xi = 1} = p y P{Xi = −1} = 1 − p = q

Supóngase además que el jugador, partiendo de un capital inicial x, juega con-


tra un adversario que dispone de un capital y (el adversario puede ser la “casa” u
otro jugador), de modo que en cada partida, si el jugador gana 1 BF, el adversario
pierde la misma cantidad y vice-versa. Para colocar las cosas más en perspectiva,
entre el jugador y la casa, siempre hay un capital total de T = x + y BF, por ser
la sumatoria de la ganancia de los participantes igual a cero (en términos de la
4.5. LA RUINA DEL JUGADOR 97

Teorı́a de Juegos, se trata de un juego de suma cero1 . Asumamos que este juego
de suma cero termina cuando alguno de los participantes se arruina, lo cual ocurre
cuando la fortuna del jugador alcanza los T BF, en cuyo caso se arruinó la casa, o
la fortuna del jugador llega a 0 BF, en cuyo caso se arruinó él. Los estados 0 y T
de la fortuna del jugador se denominan barreras absorbentes , porque una vez que
la trayectoria toca alguno de esos estados, jamás sale de ellos.

Una pregunta interesante en torno a este juego es la siguiente: partiendo de


un capital inicial de x BF, ¿cual es la probabilidad de que el jugador se arruine?
Esta pregunta constituye el problema de la ruina del jugador . Para abordar este
problema, comencemos por la siguiente definición:

Definición (Probabilidad de ruina del jugador Rx ). Sea Rx la probabilidad de ruina


del jugador partiendo de un capital inicial x siendo 1 ≤ x ≤ T − 1. Además, se
define R0 = 1 y RT = 0.

Rx es lo que se quiere hallar y establecemos la siguiente relación:

Rx = pRx+1 + qRx−1 (4.5.1)

Dicha relación se motiva en el siguiente razonamiento: si la fortuna del jugador


es x, luego de un turno, habrá ganado 1 BF con probabilidad p (en cuyo caso
su fortuna será de x + 1) o habrá perdido 1 BF con probabilidad q (en cuyo caso
continua el juego con x − 1 BF). Si lo anterior no es lo suficientemente claro aún,
definamos Rx como una probabilidad condicional y procedamos simbólicamente:

• Rx = P (ruina|{Fn = x}) para algún n (4.5.2)


• {Xn+1 = 1}, {Xn+1 = −1} son eventos mutuamente dis-
juntos y complementarios: forman una partición de Ω.

Luego:

1
Los juegos en los que los intereses de los jugadores son diametralmente opuestos se llaman de
suma cero. El término “suma cero” se deriva de los juegos de salón tales como el poker en el que la
riqueza ni se crea ni se destruye. Ası́ pues, un jugador gana dinero siempre a expensas de los otros
jugadores. Para ampliar más sobre la teorı́a de juegos, ver Davis (1971), p. 28.
98 UNIDAD 4. CAMINATAS ALEATORIAS Y MOVIMIENTO BROWNIANO


P ruina ∩ {Fn = x}
 
= P ruina ∩ {Fn = x} ∩ {Xn+1 = 1} ∪ {Xn+1 = −1}

= P ruina ∩ {Fn = x} ∩ {Xn+1 = 1}

+ P ruina ∩ {Fn = x} ∩ {Xn+1 = −1}

Por otro lado, utilizando en la ecuación precedente la definición de la probabilidad


condicional, que establece que P{A ∩ B} = P{A|B}P{B}, se tiene


P ruina {Fn = x} · P{Fn = x} (4.5.3)
 
= P ruina {Fn = x} ∩ {Xn+1 = 1} · P {Fn = x} ∩ {Xn+1 = 1}

 
+ P ruina {Fn = x} ∩ {Xn+1 = −1} · P {Fn = x} ∩ {Xn+1 = −1}

= P ruina {Fn = x} ∩ {Xn+1 = 1} P{Fn = x}P{Xn+1 = 1}

+ P ruina {Fn = X} ∩ {Xn+1 = −1} P{Fn = x}P{Xn+1 = −1}

La última igualdad en (4.5.3) se debe a la independencia entre Xn+1 y Fn . Aunado


a eso:

• {Fn = x} ∩ {Xn+1 = 1} = {Fn+1 = x + 1}


• {Fn = x} ∩ {Xn+1 = −1} = {Fn+1 = x − 1}

Las ecuaciones precedentes se conjugan con la expresión simbólica para la pro-


babilidad de ruina (ecuación (4.5.2)), obteniendo:


• P ruina

{Fn = x} ∩ {Xn+1 = 1}

= P ruina {Fn+1 = x + 1} = Rx+1
 (4.5.4)
• P ruina

{Fn = x} ∩ {Xn+1 = −1}

= P ruina {Fn+1 = x − 1} = Rx−1

Por lo tanto, eliminando el factor común P{Fn = x} de ambos lados de la ecuación


(4.5.3), sustituyendo las expresiones de las ecuaciones (4.5.4) en (4.5.3) y las defi-
niciones respectivas de p y q, se concluye que Rx = pRx+1 + qRx−1 , demostrando
ası́ la validez de la fórmula recursiva dada en (4.5.1).
4.5. LA RUINA DEL JUGADOR 99

Ecuaciones como la (4.5.1) se denominan ecuaciones en diferencias , sobre


las cuales es oportuno hacer una breve digresión. Las ecuaciones en diferencias
se refieren a ecuaciones que involucran secuencias, o funciones definidas para
valores enteros. Si una secuencia an está definida explı́citamente en función de su
argumento entero n, determinar su valor en n es un asunto trivial. Sin embargo, a
veces las secuencias se definen de forma recursiva, relacionando an con términos
anteriores como an−1 en la misma ecuación. Por ejemplo, la siguiente ecuación

an = α · an−1 + β (4.5.5)

es una ecuación en diferencias lineal de primer orden y generaliza las denomina-


das progresiones aritméticas/geométricas que el estudiante seguramente vio en
bachillerato. Obsérvese además el parecido de esta terminologı́a con la termino-
logı́a de las ecuaciones diferenciales, que también se clasifican según su orden y
según la linealidad. Si le interesa profundizar más sobre este tema puedes con-
sultar la bibliografı́a anexa2 . Por lo demás, se recomienda resolver los problemas
propuestos correspondientes (problemas propuestos N° 6 y 8) al final de este ca-
pitulo referentes a la solución de la ecuación (4.5.5), que es el resultado que se
utilizará seguidamente.

Retomando el problema de la ruina del jugador, se puede expresar la ecuación


(4.5.1) de la probabilidad de ruina, que es una ecuación en diferencias lineal de
segundo orden, como una ecuación en diferencias lineal de primer orden. Teniendo
en cuenta que p + q = 1, tenemos

q
Rx+1 − Rx = (Rx − Rx−1 ) (4.5.6)
p

A partir de la ecuación de arriba y mediante la formula de sucesión an = r · an−1


hallada en el problema propuesto N° 5, es fácil comprobar que

 x−1
q
Rx − Rx−1 = (R1 − R0 )
p

Con respecto a este resultado, se observan dos inconvenientes: 1) todavı́a se


desconoce R1 y 2) Podrı́amos resolver la ecuación en diferencias resultante, pero el
término al lado derecho de la ecuación anterior depende de x (no es una constante
β). Para solventar esta situación utilizamos la propiedad telescópica de las series:
2
Ver NEUMAN.
100 UNIDAD 4. CAMINATAS ALEATORIAS Y MOVIMIENTO BROWNIANO

T  x−1
T
q
RT − R0 = ∑ Rx − Rx−1 = ∑ (R1 − R0 )
x=1 x=1 p

El panorama tiende a aclararse porque R0 y RT son conocidos: R0 = 1 y RT = 0.


Por lo tanto

T −1  x
q
−1 = RT − R0 = (R1 − R0 ) ∑ p
x=0

A partir de la ecuación precedente, y según el valor de p, se tiene:

1
Si p = q = 12 (R1 − R0 ) = − (4.5.7a)
T
1 − qp
Si p 6= q (R1 − R0 ) =  T (4.5.7b)
q
p −1

La última equación ((4.5.7b)) se deduce de la serie ∑ni=0 xi (ver problema propuesto


N° 7). Para calcular en definitiva el valor de la probabilidad de ruina, volvemos a
emplear la propiedad telescópica de las sumas, pero esta vez con miras a hallar Rx
:

x  i−1
x
q
Rx − R0 = ∑ Ri − Ri−1 = ∑ (R1 − R0 ) →
i=1 i=1 p
x  i−1 x−1  i
q q
Rx = R0 + ∑ (R1 − R0 ) = 1 + (R1 − R0 ) ∑
i=1 p i=0 p

Nuevamente, ya que la expresión R1 − R0 depende de la igualdad de p y q, según


se tiene en las ecuaciones (4.5.7), se tiene:
4.5. LA RUINA DEL JUGADOR 101

1 x T −x
Si p = q = , Rx = 1 − = (4.5.8a)
2 T T

 x  T   x
1 − qp q
p − qp
Si p 6= q, R x = 1 +  T =  T (4.5.8b)
q q
p −1 p −1

La deducción de las ecuaciones (4.5.8a) y (4.5.8b) quizás parezca un tanto


tortuosa. Nuevamente, aunque la simulación no sea un sucedáneo del todo equi-
valente a deducir este tipo de resultados analı́ticamente, nos ayuda a confirmar la
validez del los resultados anteriores. Planteamos en lenguaje R un programa para
simular la probabilidad de ruina de un jugador con un capital inicial entre 0 y 10,
para distintas probabilidades p de ganar en cada turno:
1 # ----------------------------------------------------------------
2 # 4_3. R
3 # probabilidad de la ruina de un jugador
4 # autor : Jose L. Romero P.
5 # fecha :29/7/2007
6 # ----------------------------------------------------------------
7 # Ruina : funcion que arroja 1 si el resultado de una caminata
8 # aleatoria es la ruina , 0 en caso contrario .
9 # argumentos :
10 # x= capital inicial del jugador ,
11 # T= capital total
12 # p= probabilidad de ganar 1 en cada turno
13 Ruina <- function (x,T,p) {
14 j <- x # asigna capital inicial
15 while (j %in % 1:(T-1))
16 j <- j + sample(c( -1 ,1) ,1 ,replace=TRUE,c(1 -p,p))
17 if (j==0) return(1) else return(0)
18 }
19

20 # Probabilidad_ruina : funcion que arroja la probabilidad de


21 # ruina para :
22 # x= capital inicial del jugador
23 # T= capital total
24 # p= probabilidad de ganar 1 en cada turno
25 Probabilidad_ruina <- function (x,T,p) {
26 cnt <- replicate(1000 ,Ruina(x,T,p))
27 return(mean(cnt))
28 }
29 # Vector_empirico : funcion que arroja un vector correspondiente
102 UNIDAD 4. CAMINATAS ALEATORIAS Y MOVIMIENTO BROWNIANO

30 # a las probabilidades de ruina para cada capital inicial entre


31 # 0 y T
32 Vector_empirico <- function (T,p) {
33 X <- sapply(0:T,function(x) Probabilidad_ruina(x,T=T,p=p))
34 return(X)
35 }
36

37 # Vector_teorico : funcion que arroja un vector correspondiente


38 # a las probabilidades ( teoricas ) de ruina para cada capital
39 # entre 0 y T
40 Vector_teorico <- function (T,p) {
41 ro <- (1 -p)/p
42 X <- sapply(0:T,
43 function(x)
44 if (p==0.5) (T-x)/T
45 else (roˆx-roˆT)/(1 -roˆT)
46 )
47 return(X)
48 }
49 # Graficar
50 # genera la grafica de comparacion
51 Graficar <- function(T,p) {
52 plot(x=c(0:T,0:T),
53 y=c(Vector_teorico(T,p),Vector_empirico(T,p)) ,
54 xlab=" capital inicial " ,ylab=" probabilidad de ruina " ,
55 main=paste("T=" ,T," p=" ,p),
56 type="p" ,
57 pch=19 ,
58 col=c(rep(" red " ,times=T+1) ,rep(" blue " ,times=T+1))
59 )
60 if (p<=0.5) {xleyenda=2; yleyenda=0.3}
61 else {xleyenda=6; yleyenda=0.5}
62 legend(x=xleyenda,y=yleyenda,
63 fill=c(" red " ," blue "),
64 legend=c(" teorica " ," empirica " ))
65 }
66

67 # A continuacion se generan dos graficos para distintos valores


68 # de p , exportandolos a archivos . png
69 png(file=" ruina %02d. png ")
70 Graficar(10 ,0.5)
71 Graficar(10 ,0.6)

En el script 4 3.R hay algunos elementos interesantes que vale la pena ex-
plicar en más detalle. Primeramente, se dan ejemplos de cómo definir funciones
mediante el operador de asignación (<-) y la palabra reservada function seguida
de los argumentos formales entre paréntesis y un conjunto de expresiones ence-
4.5. LA RUINA DEL JUGADOR 103

rradas entre corchetes ({}). El valor que retornará la función será equivalente a
la última expresión del grupo de expresiones entre corchetes o aquél que se indi-
que mediante el return. Las funciones replicate (lı́nea 26) y sapply (lı́nea 33
y lı́neas 42-46) son caracterı́sticas de la programación funcional y junto con otras
funciones como lapply, tapply, mapply, Vectorize y otras afines, aplican la
función dada en su argumento a través de todos los elementos de una estructura
de datos compuesta (vector, lista, etc.) proporcionada como argumento. La prime-
ra, replicate, se invoca con dos argumentos: replicate(n,expr). La función
entonces evalúa la expresión indicada por expr n veces y devuelve un vector de
longitud n cuyos componentes son el resultado de la evaluación reiterada de expr.
El uso de replicate es mucho más eficiente que emplear un for e ir concatenan-
do progresivamente las expresiones a un vector mediante llamadas a c en cada
ciclo del for. La función sapply(X,FUN) aplica la función proporcionada como ar-
gumento FUN a cada elemento del vector X, devolviendo un vector de igual longitud
que X. Nótese que la función FUN se puede definir ad hoc, como se muestra en las
lı́neas 33 y 43-45.

Figura 4.3: Probabilidades de ruina para distintos capitales iniciales. El capital total
es T = 10 y la probabilidad de ganar 1 BF en cada turno es p = 0,5
104 UNIDAD 4. CAMINATAS ALEATORIAS Y MOVIMIENTO BROWNIANO

Figura 4.4: Probabilidades de ruina para distintos capitales iniciales. El capital total
es T = 10 y la probabilidad de ganar 1 BF en cada turno es p = 0,6

Se muestran mediante las figuras 4.3 y 4.4 gráficas en donde se comparan


las probabilidades de ruina halladas mediante simulación y mediante las formulas
(4.5.8a) y (4.5.8b), respectivamente. La primera gráfica (Fig, 4.3 corresponde a las
probabilidades de ruina para distintos niveles de capital inicial (entre 0 y 10) con
una probabilidad p = 0, 5 de ganar en cada turno. En este caso, la fórmula de la
probabilidad de ruina que aplica es la (4.5.8a). La segunda gráfica es similar pero
con un valor p = 0, 6. La fórmula que aplica es en este caso la (4.5.8b).

4.6. Duración promedio del juego y otras consideracio-


nes sobre el problema de la ruina del jugador

Pueden hacerse otras preguntas en torno al juego descrito en la sección ante-


rior. Una de ellas es: ¿Cuántos turnos dura, en promedio, el juego? Recordemos
que el juego termina cuando alguno de los jugadores se arruina (el jugador o la
casa). Si el capital total es finito, supondremos que el juego siempre terminará en
4.6. DURACIÓN PROMEDIO DEL JUEGO 105

una cantidad finita de partidas, aún cuando es posible concebir, por ejemplo, una
trayectoria del juego donde las partidas resulten +1,-1,+1,-1, ad infinitum. La finitud
de la duración del juego no es algo que se pretende demostrar formalmente aquı́-
el autor solo se limita a señalar la evidencia empı́rica: el programa de la simula-
ción en R anterior, en donde se simulan series de 1000 partidas para cada nivel
de capital inicial del jugador, eventualmente termina. Quizás a modo de apologı́a,
téngase en cuenta además que uno de los objetivos básicos que nos trazamos en
este curso es el de complementar la verificación formal con la verificación empı́rica
(la simulación), o valerse de la investigación empı́rica para inferir hechos que no se
está en capacidad de demostrar formalmente.

Volviendo a la pregunta que planteamos en esta sección: ¿Cuál es la duración


promedio del juego?, debemos especificar aún más: ¿Cuál es la duración promedio
del juego, partiendo de un capital inicial X ? Si, como en la sección anterior, el
jugador tiene un capital inicial de X y su oponente un capital inicial de Y , y entre
los dos un capital total T = X +Y que no se altera, sabemos que el juego termina
cuando el capital del jugador sea 0 o T . Podemos ahora responder parcialmente
la pregunta: la duración del juego partiendo de un capital inicial de 0 o de T es
igual a cero. Partiendo de cualquier suma de dinero distinta entre 0 y T , el juego
puede durar una cantidad aleatoria e indeterminada de partidas. Denotemos por TX
duración del juego partiendo de un capital X y aclaremos desde ya que TX no es un
proceso estocástico - es una variable aleatoria que resume un aspecto del juego,
visto éste como una trayectoria de un proceso estocástico. Estamos interesados en
determinar el promedio de la duración del juego, es decir, nos interesa hallar:

Dx = E[Tx ]

A tal fin, vamos a proceder como lo hicimos en la sección anterior, partiendo de


la siguiente ecuación en diferencias:

Dx = pDx+1 + qDx−1 + 1 para 0 < x < T, con D0 = DT = 0 (4.6.1)

Las condiciones de extremos en la expresión (4.6.1) son simplemente la formu-


lación matemática de lo dicho anteriormente sobre un juego en donde el jugador
comienza con un capital de 0 o T . Nos interesa más bien entender en que se ba-
sa la ecuación (4.6.1) en sı́. La clave de este asunto es escindir el juego en dos
etapas:
106 UNIDAD 4. CAMINATAS ALEATORIAS Y MOVIMIENTO BROWNIANO

1. La variable X1 que pudiendo valer +1 o -1 representa el resultado para el


jugador del primer turno y

2. El resto del juego.

Partiendo de un capital inicial x, si en el primer turno el jugador gana 1, el


resto del juego continua como si se partiera de un capital inicial de x + 1. Si por el
contrario el jugador pierde 1 en el primer turno, debe continuar con un capital de
x − 1. En ambos casos, como ha transcurrido un turno se adiciona en uno la cuenta
de turnos y por lo tanto las esperanzas condicionales de Tx dado el resultado X1
del primer turno son:

E[Tx |X1 = +1] = Dx+1 + 1


(4.6.2)
E[Tx |X1 = −1] = Dx−1 + 1

Las ecuaciones en (4.6.2) se utilizan ahora en el desarrollo de la ecuación


(4.6.1):

Dx = E[Tx ] = ∑ bP{Tx = b} =
b
= ∑ b(P{Tx = b ∩ X1 = +1} + P{Tx = b ∩ X1 = +1}) =
b
= ∑ b(pP{Tx = b|X1 = +1} + qP{Tx = b|X1 = −1}) =
b
= p ∑ bP{Tx = b|X1 = +1} + q · ∑ bP{Tx = b|X1 = −1} =
b b
= pE[Tx |X1 = +1] + qE[Tx |X1 = −1] =
= p(Dx+1 + 1) + q(Dx−1 + 1) =
= pDx+1 + qDx−1 + 1 (4.6.3)

La demostración anterior ((4.6.3)) representa la jusificacion de la Ecuacion


(4.6.1). Habiendo fundamentado la ecuación (4.6.1), procederemos a resolverla de
la misma forma que lo hicimos con la probabilidad de ruina en la sección anterior
(ver páginas 97-101), transformándola primero a una forma más amena:

q 1
Dx+1 − Dx = (Dx − Dx−1 ) − (4.6.4)
p p
4.6. DURACIÓN PROMEDIO DEL JUEGO 107

Esta forma se parece mucho a la ecuación (4.5.6), salvo por el sumando de c,


lo cual conlleva a abordarla mediante una ecuación en diferencias finitas como la
(4.5.5) (ver problema propuesto Nro 6). Desde el principio señalamos que deben
considerarse dos casos: p = q y p 6= q . Entonces se tiene:

para p 6= q:
 x
 x 1 − qp
q
Dx+1 − Dx = p (D1 − D0 ) −  
p 1 − qp
 x
q
 x 1− p
q
= p (D1 − D0 ) − (4.6.5a)
p−q
y para p = q:
x
Dx+1 − Dx = (D1 − D0 ) − = (D1 − D0 ) − 2x (4.6.5b)
p

Vamos a abordar primero el caso en que p 6= q , que parece ser el más sencillo
(modo irónico on). Como en el problema de la ruina del jugador, no conocemos
D1 − D0 , pero sustituyendo la expresión para Dx+1 − Dx hallada en el desarrollo
anterior nos permitirá a su vez hallar D1 − D0 :

T −1
0 = DT − D0 = ∑ Dk+1 − Dk
k=0
 k
q
T −1  k 1− p
q
= ∑ p (D1 − D0 ) −
p−q
=⇒
k=0

  T −1  
T 1 k
q
p−q
= D1 − D0 + ∑
p − q k=0 p
 
  1− q T
1 p
= D1 − D0 + =⇒
p−q 1 − qp

T 1
D1 − D0 =   T  − p − q
p 1 − qp
108 UNIDAD 4. CAMINATAS ALEATORIAS Y MOVIMIENTO BROWNIANO

Teniendo D1 − D0 , se desarrolla Dx por series telescópicas según la fórmula


(4.6.5a):

 k
q
x−1 x−1  k 1− p
q
Dx = Dx − D0 = ∑ Dk+1 − Dk = ∑ p (D1 − D0 ) −
p−q
k=0 k=0
  x−1 
k
−x 1 q
=
p−q
+ D1 − D0 + ∑ p
p − q k=0
   x
q
 T  1 − p x
=   T   q −
 1 − p − q
p 1 − qp p

  x 
T 1 − qp x
=   T  − p − q (4.6.6a)
(p − q) 1 − qp

La ecuación(4.6.6a) permite calcular la duración promedio del juego partien-


do de un capital x y en el caso p 6= q . A riesgo de parecer repetitivos, vamos a
calcular seguidamente la duración promedio del juego en el caso p = q . Primero
obtenemos la fórmula para D1 − D0 :

T −1
0 = DT − D0 = ∑ Dk+1 − Dk
k=0
T −1
= ∑ (D1 − D0 ) − 2k = T (D1 − D0 ) − T (T − 1) =⇒
k=0
D1 − D0 = T − 1

y sustituyendo esta expresión en la fórmula (4.6.5b) desarrollada en series te-


lescópicas:
4.7. OTRAS CARACTERÍSTICAS DE LAS CAMINATAS ALEATORIAS 109

x−1 x−1
Dx = Dx − D0 = ∑ Dk+1 − Dk = ∑ (D1 − D0 − 2k)
k=0 k=0
x−1
= ∑ (T − 1 − 2k)
k=0

= x(T − 1) − x(x − 1) = x(T − x) (4.6.6b)

Si le interesa ver una forma alternativa de deducir las formulas para la duración
promedio del juego o la probabilidad de ruina del jugador, puede consultar el libro
de la UNA3 . También es posible deducir estas fórmulas mediante los métodos de
resolución de ecuaciones en diferencias de segundo orden. En lo tangente a las
fórmulas (4.6.6a) y (4.6.6b), se deja al lector como ejercicio la verificación empı́rica
mediante una simulación en lenguaje R (ver problema propuesto N° 16).

4.7. Otras caracterı́sticas de las caminatas aleatorias

Los cálculos de la probabilidad de ruina del jugador y de la duración prome-


dio del juego realizados en la secciones anteriores parecieran no ser de mucho
interés práctico si se consideran estrictamente en el contexto literal y especı́fico de
la fluctuación del capital de un jugador apostando una unidad monetaria en cada
turno. Sin embargo, son después de todo caracterı́sticas de un grupo de fenómenos
dinámicos denominados como caminatas aleatorias, las cuales como se ha dicho
son procesos estocásticos en donde el estado de una partı́cula (capital, precio de
una acción, posición o distancia al origen, etc.) sufre incrementos o decrementos
unitarios de forma aleatoria. En este contexto más amplio, hablar de la probabili-
dad de ruina es referirse a la probabilidad con la que una partı́cula efectuando una
caminata aleatoria alcanza una barrera absorbente en vez de la otra y “termina el
juego”. Hablar de la duración promedio del juego es referirse a la cantidad prome-
dio de desplazamientos de una caminata aleatoria hasta que la partı́cula alcance
alguna de las dos barreras absorbentes.

Es oportuno señalar que algunos autores definen caminata aleatoria (o random


walk) de un modo más estricto que la caracterización que se ha dado aquı́ del
concepto. Según estos autores, una caminata aleatoria es una trayectoria en el
espacio para la cual:
3
Ver Ortega, J. (1995), secciones 14 y 15.
110 UNIDAD 4. CAMINATAS ALEATORIAS Y MOVIMIENTO BROWNIANO

Hay un punto de partida, que es el origen.

Los pasos son de longitud constante.

La dirección en que se toma cada paso es aleatoria: ninguna dirección es


más probable que las otras.

Decimos que esta caracterización es más estricta porque se asume que la


dirección de cada paso de la caminata aleatoria es equiprobable. En el problema
de la probabilidad de ruina del jugador o la duración promedio del juego, los cuales
se dan en el contexto de una caminata aleatoria unidimensional, hemos asumido el
caso general bajo el cual las dos direcciones de cada paso no son necesariamente
equiprobables. Sin embargo, como en la definición alternativa, hemos asumido que
los pasos son de longitud constante (y unitaria). Para modelar la caminata aleatoria
de algunos de los fenómenos dados como ejemplos en el párrafo inicial de esta
sección, debemos de relajar un poco la condición de “pasos de longitud constante
y unitaria” y generalizarla para incluir la posibilidad de que la longitud de los pasos
no sea constante, sino aleatoria también. Esto lo haremos seguidamente en este
capitulo al referirnos a los procesos de Wiener o de movimiento browniano.

(a) (b)

Figura 4.5: Dos ejemplos de simulación de caminatas aleatorias bidimensionales


realizadas en R.

Antes de referirnos al movimiento browniano en la siguiente sección, vamos


a considerar someramente las caminatas aleatorias en espacios con más de una
4.7. OTRAS CARACTERÍSTICAS DE LAS CAMINATAS ALEATORIAS 111

dimensión. A fin de motivar algunas preguntas en torno a caminatas aleatorias de


dimensionalidad mayor que uno incluimos unos ejemplos gráficos de simulación
de caminatas aleatorias bidimensionales en la figura 4.5. En estas simulaciones,
la cantidad de pasos es n = 100000. El punto de partida en el origen y el punto
final, al cabo de n pasos se señalan en la figura 4.5 mediante un punto verde y
un punto rojo respectivamente. Los pasos son de longitud unitaria y de direcciones
equiprobables en cada eje (X y Y).

El lector con un poco de “curiosidad cientı́fica” puede, al observar estas gráfi-


cas, plantearse algunas preguntas como las siguientes:

Para tales caminatas aleatorias de dimensión 2 y con direcciones de paso


equiprobables, ¿cual es la distribución de probabilidad de la distancia máxi-
ma desde el origen alcanzada en n pasos?

¿Cual es el la distancia máxima al origen promedio en caminatas aleatorias


de n pasos?

¿Cual es la probabilidad de un eventual retorno al origen en n pasos?

El abordaje analı́tico de las preguntas antecedentes requiere de un mayor nivel


matemático que el utilizado en este libro. El lector interesado en ampliar sobre esto
puede consultar el Capı́tulo 12 sobre caminatas aleatorias en el libro “Introduc-
tion to Probability” de Grinstead y Snell o el libro de “An Introduction to Probability
Theory and Its Applications - Volume I” de Feller. Por cierto, en el primero de es-
tos libros se expone un resultado interesante que vamos a dar seguidamente sin
demostración:

Si no hay barreras absorbentes en una caminata aleatoria, la probabi-


lidad de retornar al punto de origen en una caminata aleatoria de una
o dos dimensiones es uno. En cambio, en tres dimensiones, la pro-
babilidad de un retorno eventual al punto de partida es estrictamente
menor que uno - es de hecho aproximadamente igual a 0,654 .

El resultado anterior responde una de las preguntas planteadas anteriormen-


te. Se invita al lector a investigar las respuestas a las otras preguntas mediante
simulaciones estocásticas.
4
Grinstead, C. (1997), pp. 475-478.
112 UNIDAD 4. CAMINATAS ALEATORIAS Y MOVIMIENTO BROWNIANO

Figura 4.6: Robert Brown (1773-1858)

Robert Brown fue un cientı́fico botánico escocés, conocido por re-


colectar la flora australiana y autor de nombramiento de unas 1200
especies de Australia occidental. En 1827, examinando granos de
polen y esporas de musgos, observa diminutas partı́culas ejecutan-
do un movimiento aleatorio. Posteriores experimentos confirmaron
que este movimiento no se debı́a al animismo o a corrientes exter-
nas de aire o fluidos, aunque Brown pudo determinar la causa del
fenómeno que lleva su nombre. Fuente: http://es.wikipedia.
org/wiki/Robert_Brown

4.8. Movimiento browniano

El término movimiento browniano se debe a Robert Brown (ver figura 4.6),


un cientı́fico botánico escoces. Si bien Robert Brown no fue quien descubrió el
fenómeno que lleva su nombre, fue él el primero en observarlo detalladamente por
medio del método cientı́fico. En un manuscrito que relata estas investigaciones5 ,
Robert Brown (1828), luego de efectuar minuciosamente varios experimentos que
involucraban la observación bajo microscopio de partı́culas de polen provenien-
tes de material vegetal vivo o muerto, y posteriormente, de varios tipos de mate-
ria inorgánica, concluye que: 1) este movimiento es exhibido por partı́culas solidas
muy pequeñas inmersas en un fluido acuoso, independientemente de su naturaleza
orgánica o inorgánica , 2) por su irregularidad y aparente autonomı́a, el movimien-
to de estas partı́culas se asemeja al de los microorganismos, 3) este movimiento
no se produce por corrientes o evaporación del fluido, capilaridad, desprendimien-
to de burbujas de aire u otras causas exógenas. Las investigaciones de Brown no
fueron conclusivas en cuanto a lo que realmente origina el movimiento browniano,
pero su importancia radica en defenestrar la hipótesis vitalista como la causa del
fenómeno6 .

Robert Brown no fue el primero en constatar el fenómeno del movimiento brow-


niano, aunque si fue el primero en estudiarlo detallada y cientı́ficamente. Quizás la
más antigua mención que se tiene del movimiento browniano se atribuye a Lucre-
cio, poeta y filósofo romano del siglo I a.C. Es a él a quien se cita en el epı́grafe
al principio del capı́tulo, con un pasaje en latı́n extraı́do de un poema titulado De

5
Ver Brown (1828).
6
Ver Nelson (2001), p. 8
4.8. MOVIMIENTO BROWNIANO 113

rerum natura7 (Sobre la naturaleza de las cosas), que se traduce en los siguientes
términos:

Volved vuestra mirada sobre estos corpúsculos


Que aquı́ se ven dando volteretas en la luz.
Porque tales volteretas atestiguan
Que movimientos primordiales,
secretos e invisibles, subyacen todo.
De los átomos primordiales procede este movimiento,
estos empujando a corpúsculos mayores, próximos a ellos,
y estos a su vez, incitando al movimiento
a cuerpos de mayor tamaño,
y ası́, el movimiento asciende desde los átomos primordiales,
de etapa en etapa, hasta que emergen al nivel de los sentidos,
cuando apreciamos aquellos corpúsculos
moviéndose en la luz solar,
aunque no vemos los golpes que los incitan a ello.

Con impresionante perspicacia, Lucrecio se adelantaba a las ideas expues-


tas en un trabajo de Albert Einstein sobre el movimiento browniano publicado en
19058 , año en que también publicó su artı́culo sobre la teorı́a de la relatividad y
otro artı́culo sobre el efecto fotoeléctrico, que le valdrı́a el Premio Nobel en 1923
9
. Basándose en la hipótesis atómica, y ampliando los resultados derivados por
Maxwell, según los cuales las partı́culas del fluido no tenı́an todas la misma ve-
locidad, sino una distribución de velocidades, Einstein explica matemáticamente el
movimiento browniano de una partı́cula más grande como un efecto apreciable pro-
ducto de innumerables colisiones con partı́culas atómicas. Las colisiones en si son
impredecibles, dada la gran magnitud con que ocurren, pero debido a que ocurren
constante y continuamente, la velocidad de la partı́cula en suspensión se altera de
forma continua, tanto en magnitud como dirección 10 .

La importancia del trabajo de Einstein sobre el movimiento browniano no se


puede soslayar: aunque sus argumentos no dan pie a una teorı́a de la dinámica
de las partı́culas en movimiento browniano, determinan la naturaleza estadı́stica
7
Texto en latin disponible en http://www.thelatinlibrary.com/lucretius.html.
8
ver Einstein, A. (1905). “Über die von der molekularkinetischen Theorie der Wärme geforderte
Bewegung von in ruhenden Flüssigkeiten suspendierten Teilchen.” Ann. Phys. 17, 549.
9
Ver Cazás Pernas, D. y otros (2004).
10
Consultar Cazás Pernas, D. y otros (2004).
114 UNIDAD 4. CAMINATAS ALEATORIAS Y MOVIMIENTO BROWNIANO

del fenómeno y el valor del coeficiente de difusión11 . Eventualmente, a partir de


estos resultados, Perrin halları́a el número de Avogrado experimentalmente, por lo
cual le fue otorgado el Premio Nobel en 192612 . No menos importante es “haber
demostrado, de una manera visible y concreta, la existencia real de los átomos”13 .

El proceso de Wiener14 , también conocido como proceso de Wiener-Levy, pro-


ceso de movimiento browniano o alternativamente, proceso de difusión, se origina
como un proceso estocástico para modelar matemáticamente el movimiento brow-
niano. El desplazamiento, o posición relativa de una partı́cula con respecto a su
posición inicial15 , en un determinado instante de tiempo t se modela mediante una
secuencia de variables aleatorias {X(t)|t ≥ 0}- un proceso estocástico pues. Pa-
ra simplificar la discusión, se asume en lo sucesivo que estos desplazamientos se
refieren a trayectorias a lo largo de una recta (son unidimensionales), aunque se
podrı́a considerar trayectorias en espacios de dimensión superior representándolas
mediante variables aleatorias n-dimensionales.

Definición (Proceso de Wiener). Sea {X(t)|t ≥ 0} un proceso estocástico de


parámetro continuo. {X(t)|t ≥ 0} es un proceso de Wiener si:

(I) X(0) = 0.

(II) X(t) es casi seguro continuo.

(III) X(t) es de incrementos independientes, estacionarios


 y normalmente distri-
buidos: X(t) − X(s) ∼ Normal 0, σ2 (t − s) .

En el apartado (ii) de la definición, “casi seguro continuo” es un término que


ha de interpretarse en el contexto de la teorı́a de la medida y se refiere a que el
conjunto de valores donde X(t) no es continuo es de medida cero. A fin de contri-
buir a esclarecer este modelo de movimiento browniano, se empleará un enfoque16
similar a aquel seguido por Feller17 . Considérese pues, una partı́cula suspendida

11
Ver Nelson (2001), p. 16.
12
Ver Parzen (1962), p. 29.
13
Ver Nelson (2001), p. 17.
14
Este proceso es homónimo de Norbert Wiener (1894,1964), matemático estadounidense, quien
lo definió en 1923.
15
La posición inicial es el origen, o cero (ver apartado (i) en la definición.
16
Feller acota que esta aproximación fue seguida por L. Bachelier y posteriormente motivo a A.
Kolmogorov a desarrollar los fundamentos formales de los procesos de Markov. Bachelier fue el
primer investigador en modelar matemáticamente la dinámica del movimiento browniano, aplicándolo
a la evaluación de precios en los mercados de valores. Aquı́ se expone una versión más simplificada
de dicho enfoque.
17
Ver Feller (1968), XIV.6.
4.8. MOVIMIENTO BROWNIANO 115

en un fluido y sometida a constante bombardeo por partı́culas atómicas. En cada


unidad de tiempo, supóngase que ocurre cierta cantidad n muy grande de colisio-
nes, y que en cada colisión, la partı́cula grande se desplaza hacia la derecha o
hacia la izquierda cierta distancia δ infinitesimalmente corta. Estas suposiciones
son quizás demasiado simplificadoras, pero, recordando que se trata de un modelo
matemático, tienen su justificación: si bien incluso a nivel atómico las colisiones no
generan desplazamientos constantes en cualquiera de las dos direcciones, estos
se pueden promediar. Por otra parte, es concebible subdividir el tiempo, que es
una magnitud continua, en lapsos infinitesimalmente cortos de modo que en cada
uno se registre a lo sumo una colisión. Esto supone además que existe un numero
enorme de átomos en el fluido que colisionan constantemente con la partı́cula.

El modelo en cuestión es una caminata aleatoria basada en ensayos de Ber-


noulli: en cada instante infinitesimalmente corto de tiempo se tiene una colisión
que, según de donde provenga, ocasiona un desplazamiento Zi de +δ con proba-
bilidad p o de −δ con probabilidad q = 1 − p. El desplazamiento de magnitud ±δ
resultante en cada ensayo de Bernoulli se supone además estocásticamente inde-
pendiente del resultado de otros ensayos. El desplazamiento total de la partı́cula
al cabo de una unidad de tiempo- X(t + 1) − X(t) es el resultado acumulado de n
ensayos de Bernoulli discretizados mutuamente independientes entre sı́- una ca-
minata aleatoria.

n
X(t + 1) − X(t) = ∑ Zi
i=1

Estrictamente hablando, las variables aleatorias Zi no siguen una distribución


de Bernoulli, pues por definición estas últimas toman solo dos valores: 0 o 1. Pero
se pueden definir los Zi en función de una sucesión variables aleatorias Bi del
siguiente modo:

Zi = δ (2Bi − 1)
P{Zi = −δ} = q = 1 − p (4.8.1)
P{Zi = +δ} = p

Interesa determinar la esperanza y la varianza del incremento X(t + 1) − X(t),


para lo cual es conveniente tener en cuenta que este se puede expresar como una
función lineal de una suma de n variables aleatorias independientes de Bernoulli
(una v.a. binomial, denotada abajo por Sn ):
116 UNIDAD 4. CAMINATAS ALEATORIAS Y MOVIMIENTO BROWNIANO

n
X(t + 1) − X(t) = ∑ Zi
i=1
n
= ∑ δ (2Bi − 1) = δ (2Sn − n)
i=1

Se tiene entonces la esperanza y la varianza de dicho incremento:

E [X(t + 1) − X(t)] = nδ (2p − 1)


(4.8.2)
V [X(t + 1 − X(t)] = 4nδ2 pq

En el fenómeno bajo consideración, se puede suponer que el sistema esta en


equilibrio y que, a la larga, la cantidad de colisiones por la derecha y por la izquier-
da son iguales, de donde p = q = 1/2. Por otra parte, tomando en cuenta que el
número de colisiones es muy grande (n → ∞), que el desplazamiento producido
por cada colisión individual es infinitesimal (δ → 0) y que, por razones de homo-
geneidad, nδ2 permanece constante y se define igual a σ2 , se tiene, en virtud del
Teorema Central del Lı́mite, que el incremento X(t + 1) − X(t) es normalmente
distribuido con media cero y varianza σ2 :


X(t + 1) − X(t) ∼ Normal 0, σ2

Los incrementos más generales, como por ejemplo X(t) − X(s), para 0 ≤ s ≤ t ,
se expresan como sumas de n (t − s)18 variables aleatorias de tipo Zi . Efectuando
los cálculos correspondientes y basándose en razonamientos similares a los utili-
zados anteriormente, se determina que:


X(t) − X(s) ∼ Normal 0, σ2 (t − s)

Como los ensayos de tipo binomial representados por los Zi son estocástica-
mente independientes y equidistribuidos, y en virtud de que dos incrementos no
superpuestos de tipo X(t) − X(s) se componen de series de ensayos Zi no super-
puestos y por lo tanto independientes, se sigue que el {X(t)|t ≥ 0} ası́ caracteriza-
do, es un proceso de incrementos independientes y estacionarios. Adicionalmente
18
Se requiere que n (t − s) sea entero, pero t − s es real. Esto no presenta mayores problemas
porque n es un número muy grande.
4.8. MOVIMIENTO BROWNIANO 117

vale la tercera condición de la definición de proceso de Wiener, concluyendo que


este proceso, caracterizado por una serie muy grande de ensayos de tipo binomial,
es un proceso de Wiener.

Es oportuno dilucidar algunos aspectos, el primero siendo el significado de la


constante σ2 . Esta constante representa la variabilidad de los incrementos de tiem-
2 19 . El segundo es que,
po unitario y se podrı́a estimar empı́ricamente mediante Sn−1
según la forma en que se construye el proceso de Wiener, se puede constatar que
el desplazamiento futuro de una partı́cula que efectúa un movimiento browniano no
depende de su trayectoria pasada, y que el mecanismo aleatorio que genera estos
desplazamientos permanece inalterable a lo largo del tiempo. En presencia de un
fenómeno cuya variación aleatoria en cada unidad de tiempo es producto del efec-
to aditivo que tiene una cantidad muy grande de “shocks” sobre el objeto en movi-
miento, tiene sentido basarse en el Teorema Central del Lı́mite para modelar estas
variaciones aleatorias mediante una distribución de probabilidad normal. Aparte
del fenómeno de “partı́culas atómicas en colisión con un corpúsculo”, existe una
amplia gama de contextos donde esta suposición sobre el efecto aditivo es razona-
ble. Por último, si se supone que las probabilidades p y q son distintas, se rompe
el equilibrio y la partı́cula efectúa lentamente, aunque con pequeñas fluctuaciones
hacia arriba o hacia abajo, un desplazamiento en una dirección determinada.

Para este último caso, se generaliza la definición del proceso de Wiener dada
anteriormente definiendo un nuevo proceso estocástico, denominado proceso de
Wiener generalizado u homogéneo con desplazamiento, en función del proceso de
Wiener con media nula:

Definición (Proceso de Wiener homogéneo con desplazamiento). Sea {W (t)|t ≥


0} un proceso estocástico de parámetro continuo.{W (t)|t ≥ 0} es un proceso de
Wiener homogéneo con desplazamiento µ si:

W (t) = µt + X(t) para cada t ≥ 0

en donde X(t) es un proceso de Wiener.

n
∑ (Xi −X)2
19 2
Por Sn−1 se denota la varianza muestral insesgada, definida como i=1
.
n−1
118 UNIDAD 4. CAMINATAS ALEATORIAS Y MOVIMIENTO BROWNIANO

4.9. El problema de la ruina del jugador en el contexto del


Movimiento browniano

La deducción informal de un proceso de Wiener mediante el paso al lı́mite de


una caminata aleatoria, tal como se hizo en la sección anterior, insinúa la posibili-
dad de aplicar al modelo de Wiener ciertos resultados establecidos con respecto a
las caminatas aleatorias, a fin de calcular lo siguiente:

1. Una partı́cula que efectúa un movimiento browniano unidimensional parte de


cierta posición inicial x0 , acotada por dos extremos a y b (a ≤ x0 ≤ b). ¿Cuál
es la probabilidad de que dicha partı́cula alcance el extremo a antes que el
extremo b? O conversamente, ¿Con qué probabilidad alcanza a b antes que
a a?20

2. ¿Cual es la duración promedio necesaria para que una partı́cula en movi-


miento browniano alcance alguna de las barreras absorbentes?

Estas cuestiones nos remiten de nuevo al problema de la ruina del jugador, que
ya hemos visto en secciones precedentes. Recordemos que las fórmulas (4.5.8) y
(4.6.6) para la probabilidades de ruina y la duración promedio del juego, respecti-
vamente, fueron deducidas a partir de los siguientes supuestos:

1. Los montos de los capitales (x, y y T ) son siempre cantidades enteras ma-
yores o iguales a cero. En el contexto del movimiento browniano, esto serı́a
equivalente a limitar la posición de la partı́cula a puntos enteros durante toda
su trayectoria a lo largo de la recta real.

2. En cada instante discretizado de tiempo, el capital del jugador (la posición de


la partı́cula, respectivamente) aumenta o disminuye en una unidad. Nueva-
mente, esto presenta ciertas dificultades para la aplicabilidad al estudio del
movimiento browniano. Por una parte, los incrementos de ±1 implican un
movimiento discontinuo, cuando el proceso de Wiener que modela al movi-
miento browniano es, por definición, casi siempre continuo. Por otra parte,
los incrementos unitarios fijos no capturan adecuadamente la variabilidad de
los incrementos en un movimiento browniano, cuyas desviaciones de cero
son mayores en magnitud a medida que el parámetro σ2 se hace mayor.
20
Los extremos a y b se conocen como barreras absorbentes.
4.9. MOVIMIENTO BROWNIANO Y LA RUINA DEL JUGADOR 119

Por las razones expuestas anteriormente, el modelo de ruina del jugador, en su


forma original, es de escasa aplicabilidad para calcular la probabilidad de que una
partı́cula que efectúa un movimiento browniano llegue a una barrera absorbente
o el tiempo promedio hasta llegar a alguna barrera absorbente. La deducción del
proceso de Wiener a partir del paso al lı́mite del modelo discretizado de cami-
nata aleatoria plantea una posibilidad de aplicar las formulas (4.5.8) y (4.6.6) al
cálculo de la probabilidad de alcanzar una u otra barrera absorbente en un mo-
vimiento browniano unidimensional, ası́ como la duración de tiempo promedio de
dicha trayectoria. A tal fin, se definen los parámetros δ y p de la variable aleato-
ria de Bernoulli transformada, caracterizada en las expresiones ((4.8.1)), de modo
que coincidan los primeros y segundos momentos no centrales de las variables
Zi , que se supone representan los incrementos por fracción de unidad de tiempo,
y los correspondientes incrementos X(t + n1 ) − X(t) del proceso de Wiener. Para
ello, se vale de la propiedad de homogeneidad del proceso de Wiener, mediante la
cual se tiene que la esperanza (respectivamente, la varianza) de un incremento de
amplitud n1 es función lineal de la esperanza (respectivamente, la varianza) del in-
cremento de amplitud unitaria X(t + 1) − X(t). La idea es reminiscente del método
de los momentos de Pearson21 .

µ
E[Zi ] = −δ(1 − p) + δp = δ(2p − 1) =
n

σ2  µ 2
E[Zi2 ] 2
=δ = +
n n

A partir de estas ecuaciones se determinan las ecuaciones para δ y p:

1
p
δ = nnσ2 + µ2
√ (4.9.1)
µ+ nσ2 +µ2
p = √ 2 2
2 nσ +µ

En el contexto general de un movimiento browniano, interesa calcular las pro-


babilidades de alcanzar alguna barrera absorbente y la duración promedio de la
trayectoria cuando la partı́cula parte de una posición inicial x0 que está acotada
entre las barreras absorbentes a y b (a < x0 < b), siendo a, b y x0 valores reales
cualesquiera. Sin embargo, en el contexto del problema de la ruina del jugador,
la barrera absorbente inferior siempre es 0 y tanto la barrera superior T , como
21
Ver Rios (1977), p. 327.
120 UNIDAD 4. CAMINATAS ALEATORIAS Y MOVIMIENTO BROWNIANO

también el capital inicial x son cantidades enteras positivas. Por otra parte, δ no
será necesariamente igual a 1. Para sortear estos inconveniente, se transforman
las coordenadas a, b y x0 a las correspondientes coordenadas (números naturales)
que son los parámetros del problema de la ruina del jugador. En lo que sigue, [·]
denota la función de redondeo de un real al entero más cercano:

" #
b−a
T =n p
2 2
" nσ + µ # (4.9.2)
x0 − a
x =n p
nσ2 + µ2

En las ecuaciones de traslación ((4.9.2)), la división por δ es un cambio de


escala de los parámetros para “traducir” el movimiento browniano a una caminata
aleatoria con desplazamientos unitarios a la derecha o a la izquierda. Se expresa
ahora las ecuaciones para la probabilidad de ruina ((4.5.8)), que en el contexto del
proceso de Wiener representa la probabilidad de que la partı́cula alcance el punto
a antes que b partiendo de una posición inicial x0 , utilizando las expresiones para
p, T y x deducidas anteriormente (ver ecuaciones (4.9.1) y (4.9.2)):

   
p !n √ b−a p !n √ x0 −a
nσ2 +µ2 nσ2 +µ2
nσ2 + µ2 − µ nσ2 + µ2 − µ
p − p
nσ2 + µ2 + µ nσ2 + µ2 + µ
Rx0 =   (4.9.3)
p !n √ b−a
nσ2 +µ2
nσ2 + µ2 − µ
p −1
nσ2 + µ2 + µ

Tomando lı́mites cuando n → ∞, se obtiene la probabilidad de ruina para el proceso


de Wiener generalizado de parámetro continuo:

2
e2(b−x0 )µ/σ − 1
Rx0 = 2(b−a)µ/σ2 (4.9.4)
e −1

Es interesante notar lo que sucede que cuando µ → 0, que serı́a el análogo conti-
nuo de p = q:

b − x0
lı́m Rx0 = (4.9.5)
µ→0 b−a
4.10. PROBLEMAS PROPUESTOS 121

Esta última expresión es completamente similar a la que figura en la ecuación


((4.5.8a)), para el caso en que p = q. De forma análoga, se plantean las formu-
las para Dx0 . Es preciso aclarar que cuando se subdivide la unidad de tiempo en
n subintervalos, y dado que la ecuación ((4.6.6a)) indica la duración promedio en
términos de subintervalos discretos infinitesimales de tiempo, se debe dividir la
correspondiente expresión de Dx entre n para obtener la duración promedio expre-
sada en unidades de tiempo:

 
(b − a) 1 − e 2(a−x0 )µ/σ2
1 x0 − a
Dx0 = lı́m Dx = 2(a−b)µ/σ 2
 − (4.9.6)
n→∞ n µ 1−e µ

Nuevamente, si µ → 0, se obtiene una expresión para Dx0 completamente equiva-


lente a la fórmula (4.6.6b)) para el caso en que p = q:

(x0 − a)(b − x0 )
lı́m Dx0 = (4.9.7)
µ→0 σ2

4.10. Problemas propuestos

1. Una fábrica produce recipientes cuya capacidad se verifica al finalizar el pro-


ceso de producción, y se consideran defectuosos aquellos cuya capacidad
está por debajo de los 0,975 lt. o por encima de 1,025 lt. Pruebas estadı́sti-
cas sugieren que la capacidad de un recipiente producido tiene distribución
normal con media 1 lt. y desviación estándar 0,01. Define el proceso alea-
torio de Bernoulli que modele esta situación. ¿Cuáles suposiciones deben
hacerse sobre el proceso de fabricación para que el modelo de Bernoulli sea
adecuado?

2. Para el problema anterior, calcule la probabilidad de que al tomar una mues-


tra aleatoria de 10 recipientes producidos en la fábrica, a lo sumo 4 sean
defectuosos.

3. Sea {Si |i ≥ 1} el número de éxitos en un proceso de Bernoulli con probabi-


lidad de éxito p.

a) Calcule E[Sn+m |Sn ].


b) Calcule P{S7 = 4, S8 = 7}.
122 UNIDAD 4. CAMINATAS ALEATORIAS Y MOVIMIENTO BROWNIANO

4. Sea {Ti |i ≥ 1} la caminata aleatoria asociada al número de ensayos de Ber-


noulli hasta observar un i-ésimo éxito (con probabilidad de éxito p).

a) Calcule P{T2 = 4, T3 = 5, T6 = 8}.


b) Calcule P{T3 = 5, T5 = 3}.
c) Calcule P{T7 = 3, T8 = 12}.

5. En el contexto de las preguntas 1 y 2, ¿cuantos recipientes se deberı́an de


muestrear, en promedio, para observar 4 recipientes defectuosos?

6. Encuentre la solución para la siguiente ecuación general en diferencias de


primer orden: an = r · an−1 . Asuma que se conoce el valor inicial de la se-
cuencia (a0 ) y exprese la solución en términos de a0 .

7. Utilice la propiedad telescópica de las series para demostrar que

n
1 − xn+1
∑ xi = 1−x
si x 6= 1
i=0

8. Demuestre que la solución para la siguiente ecuación general en diferencias


de primer orden dada en (4.5.5) (an = αan−1 + β), es:

an = a0 + nβ si α = 1
n
an = αn a0 + β 1−α
a−α si α 6= 1

9. Una partı́cula efectúa una caminata aleatoria partiendo desde un punto 0.


En cada instante de tiempo, se desplaza hacia la izquierda un paso con
probabilidad q = 0, 5 o hacia la derecha un paso con probabilidad p = 0, 5.
Si X(t) representa la posición de la partı́cula en el instante t ,

a) Defina el espacio de estados para t = 0, 1, 2, 3, 4.


b) Encuentre la distribución de probabilidades de X(1), X(2), X(3) y X(4).
c) ¿Es {X(t)|t ≥ 0} un proceso estacionario?

10. Desde donde está situado, un borracho está a solo un paso de caer a un
precipicio. El borracho camina de forma aleatoria: toma un paso hacia el
precipicio con probabilidad de 13 y un paso alejándose del precipicio con pro-
babilidad de 23 . ¿Con qué probabilidad se escapa el borracho de caer al
precipicio?
4.10. PROBLEMAS PROPUESTOS 123

11. Un ludopata varado en Margarita tiene solo 20 BF y necesita conseguir 20


BF adicionales para tomar el ferry de regreso a casa, pero siente pena de
llamar a su esposa para que le envı́e más dinero. Decide jugar a la ruleta (de
la cual no es muy aficionado) y considera dos estrategias: apostar los 20 BF
a números negros todos de una vez o apostar 1 BF a un número negro cada
vez hasta que haya completado o perdido los 20 BF que tenı́a. Compare
los méritos de ambas estrategias. (Nota: una ruleta tiene 38 números de los
cuales 18 son negros, en cada turno de ruleta se gana lo que se apuesta con
18 20
probabilidad p = 38 o se pierde con probabilidad q = 38 ).

12. En el contexto del problema anterior, supóngase adicionalmente que el ju-


gador decide apostar 1 BF a la vez, y cada turno en la ruleta toma aproxi-
madamente 3 minutos. ¿Cuánto tiempo durará en promedio el jugador hasta
terminar el juego? ¿Cree Ud. que el jugador pueda emprender el viaje en
ferry a su casa ese mismo dı́a si comienza a jugar al mediodı́a? (Nota: el
último ferry a tierra firme sale a las 8pm)

13. En el contexto de la pregunta anterior, realice una simulación en R para de-


terminar la probabilidad de que el ludopata varado en Margarita pueda tomar
un ferry a su casa ese mismo dı́a si aplica la estrategia de apostar 1 BF por
turno.

14. Justifique detalladamente y haciendo referencia a las definiciones y propie-


dades sobre las probabilidades y esperanzas condicionales, cada uno de los
pasos en la justificación de la ecuación (4.6.1) dados en el desarrollo de las
ecuaciones en (4.6.3) del texto.

15. En el problema de la ruina del jugador, si p = q , ¿cuál es el nivel de capital


inicial x que maximiza la duración promedio del juego?

16. Verifique mediante una simulación en R las formulas (4.6.6a) y (4.6.6b) refe-
rentes a la duración promedio del juego. Para el caso en que p 6= q, asuma
que p = 13 . En ambos casos asuma un capital total T = 10.

17. Un beduino sale de un oasis en el desierto y se pierde. Para encontrar el


camino de vuelta al oasis, decide efectuar una caminata aleatoria bidimen-
sional. Sin considerar el tiempo que le tome esta caminata aleatoria, ¿cuál es
la probabilidad de eventualmente regresar al oasis? Si un loro que lo acom-
paña en el desierto emprende el viaje de vuelta al oasis efectuando una
caminata aleatoria en tres dimensiones, ¿tiene mejores probabilidades de
eventualmente regresar?
124 UNIDAD 4. CAMINATAS ALEATORIAS Y MOVIMIENTO BROWNIANO
Unidad 5

El procesos de Poisson
homogéneo

La vida sirve sólo para dos cosas: descu-


brir matemáticas y enseñar matemáticas.

Simeon Denis Poisson (1781 - 1840)

Si tuviera que irme a una isla desierta,


y sı́ sólo pudiera llevar conmigo a una
distribución, elegirı́a la Distribución de
Poisson.

T RES M UNDOS
Litografı́a - 1955 Prof. Howard Taylor
M.C. Escher (autor de varios libros sobre procesos estocásticos)

125
126 UNIDAD 5. EL PROCESOS DE POISSON HOMOGÉNEO

Objetivos de la Unidad

El objetivo general de esta Unidad es hacer una exposición de los procesos de


Poisson homogéneos, sus caracterı́sticas, propiedades y relación con otros pro-
cesos o distribuciones a fin de poder aplicarlos al estudio de fenómenos reales y
realizar simulaciones que involucren estos procesos. Para lograr este objetivo, se
requiere a su vez el dominio de los siguientes objetivos especı́ficos:

Identificar las condiciones que definen al proceso de Poisson homogéneo.

Deducir el proceso de Poisson homogéneo mediante el paso al lı́mite de


la cantidad de éxitos en n ensayos cuando n → ∞ y p → 0 pero np = λ es
constante y aplicar este resultado en el cálculo aproximado de probabilidades
binomiales.

Aplicar la distribución de Poisson al estudio de fenómenos en los cuales los


objetos de cierta clase se distribuyen aleatoriamente en el espacio según un
proceso de Poisson homogéneo.

Deducir la distribución del tiempo transcurrido entre dos eventos en un pro-


ceso de Poisson homogéneo y aplicar este resultado para simular procesos
de Poisson que ocurren en el tiempo.

Relacionar las distribuciones de probabilidad asociadas al proceso de Pois-


son homogéneo como casos lı́mites de las distribuciones de probabilidad que
surgen en el estudio de la cantidad de éxitos basados en n ensayos de tipo
Bernoulli.

Estudiar la relación entre el proceso de Poisson homogéneo y la distribución


uniforme y aplicar esto en la simulación de procesos de Poisson espaciales.
5.1. DERIVACIÓN DEL PROCESO DE POISSON 127

5.1. El proceso de Poisson como caso lı́mite de la cami-


nata aleatoria binomial

En el capitulo anterior estudiamos la evolución aleatoria de procesos cuyos


cambios de estado ocurren en instantes de tiempo discretos, que se suponen re-
gularmente espaciados pero cuya ubicación temporal no esta del todo determina-
da, o no es relevante. Hablábamos entonces de ensayos (procesos de Bernoulli) o
pasos (en las caminatas aleatorias), aunque no especificábamos los instantes de
tiempo precisos en los cuales ocurrı́a cada ensayo o paso porque sencillamente no
era relevante. Sin embargo, en muchos fenómenos reales no podemos considerar
que los eventos de un proceso ocurren o no en instantes discretizados de tiempo.
En estos casos, los procesos de Bernoulli no son modelos adecuados.

Consideremos por ejemplo una central telefónica en la cual se han recibido


270 llamadas en un periodo de tres horas (180 minutos). Consecuentemente, se
reciben en promedio 1,5 llamadas por minuto y basándonos en esta evidencia,
deseamos calcular la probabilidad de recibir 0, 1, 2 o más llamadas en los próxi-
mos 3 minutos. Podrı́amos dividir el lapso de 3 minutos en 9 subintervalos de 20
segundos cada uno y si suponemos que las probabilidades de que ocurran llama-
das en cada subintervalo permanecen constantes, esto nos conduce a aproximar
las probabilidades buscadas mediante la distribución binomial. Nuestra aproxima-
ción consiste en considerar cada uno de los nueve subintervalos como ensayos de
Bernoulli en los cuales observamos una llamada telefónica (éxito) o ninguna (fra-
20
caso), con probabilidad de éxito p = (1, 5) · 60 = 0, 5. Pero un poco de reflexión
nos hace concluir que cuando mucho, este modelo es una aproximación bastante
inexacta de la situación, porque estamos ignorando la posibilidad de que ocurran
dos o más llamadas en cada subintervalo de 20 segundos y el uso del modelo de
Bernoulli supone una dicotomı́a en cada ensayo: o ocurre una llamada o no ocurre
ninguna.

No obstante, para minimizar la probabilidad de que ocurra dos o más llamadas


en cada subintervalo de tiempo, podrı́amos subdividir el lapso de 3 minutos en una
mayor cantidad de subintervalos más cortos. Podemos también observar si las pro-
babilidades calculadas tienden hacia algún valor a medida que tenemos una mayor
cantidad de intervalos: hicimos el ejercicio de calcular las probabilidades de recibir
k llamadas en un lapso de 3 minutos manteniendo el número promedio de llamadas
(E[X] = np = 1, 5) constante. En la tabla 5.1, se muestra en las celdas respectivas
dichas probabilidades aproximadas mediante la distribución de Bernoulli.

En la tabla 5.1, los valores de n y de p se multiplican y se dividen respectiva-


128 UNIDAD 5. EL PROCESOS DE POISSON HOMOGÉNEO

Tabla 5.1: Calculo de las probabilidades de recibir K llamadas en 3 minutos me-


diante aproximaciones sucesivas por medio del modelo binomial.

Variable aleatoria: X = número de llamadas recibidas en un lapso de 3 minutos.


 
n k
Ley de probabilidad binomial: P(X = k) = p (1 − p)n−k
k
n=9 n = 72 n = 576 n = 4608 n = 368649
k p = 0, 5 p = 0, 0625 p = 0, 0078125 p = 0, 0009766 p = 0, 0001224
0 0,001953125 0,009592502 0,010914422 0,011084598 0,011105946
1 0,017578125 0,046044010 0,049501632 0,049929451 0,049982856
2 0,070312500 0,108970823 0,112060781 0,112426676 0,112472106
3 0,164062500 0,169510170 0,168826478 0,168731600 0,168719601
4 0,246093750 0,194936695 0,190428291 0,189884897 0,189817275
5 0,246093750 0,176742603 0,171535406 0,170914969 0,170837865
6 0,164062500 0,131575049 0,128538998 0,128172304 0,128126661
7 0,070312500 0,082704317 0,082415331 0,082369633 0,082363787
8 0,017578125 0,044798171 0,046155830 0,046307757 0,046326488
9 0,001953125 0,021237652 0,022936580 0,023136275 0,023161045
10 0,000000000 0,008919814 0,010240190 0,010401146 0,010421198
11 0,000000000 0,003351688 0,004148853 0,004249931 0,004262581
≥ 12 0,000000000 0,001616506 0,002297208 0,002390768 0,002402592

mente por un factor de 8 en forma sucesiva, de modo que n tiende a infinito y p


tiende a cero, pero np permanece constante. Observamos que las probabilidades
respectivas se “estabilizan” alrededor de ciertos valores no varı́an mucho más a
medida que seguimos aumentando el número n de ensayos. Esto nos motiva a
formular la siguiente pregunta: ¿Cuál es la ley de probabilidad hacia la cual tiende
la binomial a medida que n → ∞ y p → 0 de modo que np permanece constante,
digamos np = λ?

En los cálculos siguientes se determina la respuesta exacta a esta pregunta.


Considerando pues la función de probabilidad binomial:
 
n k n!
P{X = K} = p (1 − p)n−k = pk (1 − p)n−k
k k!(n − k)!
k f actores
z }| {
n(n − 1)(n − 2) · · · (n − k + 1) k
= p (1 − p)n−k
k!

Primero de define λ = np, de modo que p = λn y 1 − p = 1 − λn . Sustituyendo


en la ecuación anterior todos los términos que involucren p por sus expresiones
equivalentes en λ obtenemos:
5.1. DERIVACIÓN DEL PROCESO DE POISSON 129

   
n(n − 1)(n − 2) · · · (n − k + 1) λ k λ n−k
P{X = K} = 1−
k! n n
k n−k
λ λ n(n − 1)(n − 2) . . . (n − k + 1)
= 1−
k! n n| · n{z· · · n}
k f actores
k n−k 
     
λ λ 1 2 k−1
= 1− 1· 1− · 1− ··· 1−
k! n n n n
k n  −k       
λ λ λ 1 2 k−1
= 1− 1− 1· 1− · 1− ··· 1−
k! n n n n n

Ahora tomando el limite de la expresión de arriba cuando n → ∞ y p → 0 de modo


que np = λ permanece constante, obtenemos lo siguiente:

lı́m P{X = k}
n→∞
λ k n  −k    
= lı́m 1 − λn 1 − λn 1 · 1 − n1 · 1 − n2 · · · 1 − k−1
n
n→∞ k!
k
λ −λ
= e
k!
(5.1.1)

Ya que, según lo recordado en nuestra clase de sexto grado de primaria cuando


estudiábamos limites:

   
λ n λ −k  c
lı́m 1 − = e−λ , lı́m 1 − =1 y lı́m 1 − =1
n→∞ n n→∞ n n→∞ n

De esta forma demostramos el siguiente teorema:

Teorema 5.1 (Ley de las Probabilidades Pequeñas). Sea X una variable aleatoria
discreta distribuida según la ley binomial con parámetros n y p respectivos. Si
n → ∞ y p → 0 de forma que np permanece constante e igual a λ, entonces, bajo
estas condiciones:
λk
lı́m P{X = k} = e−λ
n→∞ k!
130 UNIDAD 5. EL PROCESOS DE POISSON HOMOGÉNEO

Este resultado es muy importante por varias razones. Una razón es que nos
permite calcular aproximadamente las probabilidades asociadas a la distribución
binomial para un número n muy grande de ensayos y una probabilidad p de éxi-
to casi nula. El estudiante que haya intentado calcular probabilidades binomiales
que involucran números combinatorios elevadı́simos que multiplican potencias de
p que tienden a cero sabrá apreciar la valı́a de esta aproximación. Es por esto que
el resultado anterior se conoce como la Ley de las Probabilidades Pequeñas. De la
misma forma que el Teorema de DeMoivre-Laplace (una variante de la Ley de los
Grandes Números) aproxima mediante la distribución normal las probabilidades bi-
nomiales cuando n → ∞ y p no tiende a cero o a uno, la Ley de las Probabilidades
Pequeñas aproxima las probabilidades binomiales bajo las condiciones ya citadas
mediante una distribución de probabilidad que el estudiante seguramente ha identi-
ficado ya- la distribución de Poisson. Como regla práctica, se puede confiar en esta
aproximación si n ≥ 100, p ≤ 0, 01 y np ≤ 201 .

Como se indica en la Tabla 1.1, la variable aleatoria Poisson representa el


número de eventos que ocurren en un instante de tiempo de amplitud fija cuan-
do la tasa promedio de eventos en ese intervalo de tiempo es λ. Su función de
probabilidad es:
 x
 λ e−λ si x ∈ N+
PX (x) = x!

0 / N+
si x ∈

Se le sugiere al estudiante que demostrar que en efecto, la distribución de


Poisson es una distribución de probabilidad válida (Problema propuesto N° 1). De
hecho, esto se realiza expresando eλ como una serie de Taylor.

Históricamente, la ley de probabilidad de Poisson está asociada al estudio de la


cantidad de eventos de cierto tipo que ocurren entre una población muy numerosa
cuando la frecuencia del fenómeno es muy rara, como por ejemplo, la cantidad de
personas en una ciudad de 10 millones de habitantes que padecen de una enfer-
medad muy rara que afecta en promedio a uno entre cada millón de individuos en
una población. Siméon-Denis Poisson (1781-1840) formuló en 1837 la distribución
homónima en conexión con largas series de observaciones de eventos que ocurren
raramente. Por ejemplo, una de tales series dadas era la distribución de frecuencias
del número de bajas anuales en cada cuerpo de la caballerı́a del ejercito Prusiano
debidas a patadas de caballos2 . La distribución de frecuencias de el número de
bajas anuales de esta serie fue la siguiente:
1
Ver Devore (2001), p. 131.
2
Ver Rietz (1927), p. 39
5.1. DERIVACIÓN DEL PROCESO DE POISSON 131

Figura 5.1: Siméon Denis Poisson (1781-1840)

Poisson es conocido por sus trabajos sobre electricidad y magnetis-


mo, geometrı́a diferencial, integrales, astronomı́a y probabilidades,
sobre lo cual versa su escrito Rerecherchés sur la probabilite des
jugements, publicado en 1837. En este trabajo desarrolla su famosa
Ley de los Eventos Raros. Fuente: http://es.wikipedia.org/
wiki/Sim%C3%A9on_Denis_Poisson

Bajas Anuales 0 1 2 3 4 o más


Frecuencias 109 65 22 3 1

Si suponemos que las probabilidades de k muertes accidentales por patadas


de caballo se mantienen constantes en el tiempo y a través de todos los cuerpos de
la caballerı́a del ejercito Prusiano, estos datos nos permitirı́an calcular las frecuen-
cias relativas (que se asemejan a dichas probabilidades), dividiendo las frecuencias
absolutas respectivas entre el número total de observaciones, o sea n = 200. Si en
base a estas probabilidades calculamos el número promedio de muertes anuales
en cada cuerpo de caballerı́a, obtenemos una estimación del parámetro λ, que
resulta ser igual a 0,61. Con el parámetro λ, calculamos las probabilidades respec-
tivas según la ley de distribución de Poisson y con estas probabilidades, calculamos
las frecuencias absolutas que cabrı́a esperarse según este modelo teórico, resu-
miendo los calculos en la siguiente tabla:

Bajas anuales 0 1 2 3 4 o más


Observaciones de frecuencias absolutas (evidencia empı́rica)
Frecuencias 109 65 22 3 1
absolutas
Frecuencias 0,545 0,325 0,110 0,015 0,005
relativas

Observaciones esperadas según el modelo de Poisson


Probabilidades 0,543 0,331 0,101 0,021 0,004
esperadas
Frecuencias
absolutas 108,6 66,2 20,2 4,2 0,6
esperadas

Como se puede observar, la ley de probabilidad de Poisson modela de forma


bastante fiel el fenómeno estudiado.
132 UNIDAD 5. EL PROCESOS DE POISSON HOMOGÉNEO

5.2. Derivación axiomática del proceso de Poisson.

Llegados a este punto, podemos entender que la ley de distribución de Poisson


se adecua a una amplia gama de fenómenos aleatorios de la vida real porque es
un caso lı́mite del modelo Binomial, que también se asoma en muchas situaciones.
De hecho, la distribución de Poisson, junto con la normal y la binomial, son las tres
distribuciones principales de la teorı́a de las probabilidades, debido a su universa-
lidad y grandes ramificaciones por todo el corpus teórico3 . Sin duda, la distribución
de Poisson merece un análisis profundo por sus propios meritos. Surgen dos pre-
guntas: ¿Cómo sabemos si se reúnen las condiciones para aplicar el modelo de
Poisson a un determinado fenómeno real? ¿Como relacionamos la distribución de
Poisson y los procesos estocásticos?

Intentamos dar una respuesta a la primera pregunta haciendo algunas conside-


raciones sobre la distribución binomial, a partir de la cual la distribución de Poisson
surge como caso lı́mite. En efecto, para que la binomial sirva de modelo adecuado
de un determinado fenómeno, debemos verificar que las probabilidad p de éxito se
mantenga constante a través de todos los ensayos y que los ensayos se realizan
de forma independiente entre sı́. Si consideramos que la distribución de Poisson es
un caso lı́mite de la binomial, entonces se vislumbra una respuesta a la segunda
pregunta.

En efecto, supóngase que estamos interesados en contar la cantidad de even-


tos de cierto tipo que han sucedido hasta un instante de tiempo t . Para tal fenómeno,
hacemos las siguientes suposiciones:

1. La ocurrencia adicional de eventos a partir de ese instante es independiente


de la cantidad de eventos acaecidos hasta entonces (los ensayos de Bernou-
lli son independientes entre sı́). Más precisamente, para intervalos de tiempo
disjuntos (no superpuestos), las cantidades de eventos que ocurren en cada
intervalo son independientes entre sı́. Esto es una manera de decir que el
proceso de Poisson es un proceso con incrementos independientes.

2. Se verifica que la tasa promedio de eventos, expresada como un cociente


de la cantidad de eventos en promedio que suceden en un lapso de tiempo
fijo, es constante (la probabilidad de éxito p en cada ensayo de Bernoulli es
constante). Por lo tanto, dos intervalos de tiempo de igual amplitud tendrán
la misma distribución de probabilidades, en cuanto a la cantidad de eventos
3
Ver Feller (1968), p. 156
5.2. DERIVACIÓN AXIOMÁTICA DEL PROCESO DE POISSON. 133

que sucede en cada intervalo, sin importar cuan distantes en el tiempo sean
esos intervalos uno del otro. Según la terminologı́a de la Unidad 3, el proceso
de Poisson es un proceso con incrementos estacionarios.

3. Según las deducciones que culminan en la fórmula 5.1.1, vemos que subdi-
vidiendo el número de ensayos del modelo binomial en lapsos temporales de
amplitud infinitesimalmente pequeña, de modo que la probabilidad de ocu-
rrencia de dos o más eventos en cada lapso temporal sea casi nula y man-
teniendo constante el promedio de eventos quesuceden a lo largo del lapso
temporal total, la distribución de probabilidad de eventos que suceden en un
intervalo de tiempo es la distribución de Poisson.

La Ley de las Probabilidades Pequeñas es una posible vı́a para definir el pro-
ceso de Poisson. A continuación vamos a tomar otra vı́a más rigurosa, planteamos
un conjunto de axiomas o condiciones que debe cumplir el proceso y verificamos
que necesariamente, esto conduce a la distribución de Poisson. Antes definimos la
terminologı́a mediante la cual denotaremos formalmente el proceso de Poisson:

El proceso aleatorio de Poisson es una colección de variables aleatorias in-


dexadas por un parámetro temporal continuo: {Z(t)|t ≥ 0}. Para cada instante t ,
Z(t) denota la cantidad de eventos de cierto tipo que se producen en el lapso de
tiempo [0,t), por lo cual Z(t) es un proceso de conteo y representa una cantidad
entera. Además la secuencia {Z(t)|t ≥ 0} debe satisfacer los axiomas dados a
continuación.

Axioma 1 Para intervalos de tiempo disjuntos (no superpuestos), las cantidades


de eventos que ocurren en cada intervalo son independientes entre sı́. El
proceso de Poisson es un proceso con incrementos independientes.

Axioma 2 Defı́nase Z(x + ∆t) − Z(x) como la cantidad de eventos que ocurren en
un intervalo de tiempo [x, x + ∆t) y Z(y + ∆t) − Z(y) como la cantidad de
eventos que ocurren en otro intervalo de tiempo [y, y + ∆t), siendo ambos
intervalos de tiempo de la misma amplitud. Entonces, Z(x + ∆t) − Z(x) y
Z(y + ∆t) − Z(y) tendrán la misma distribución de probabilidades. El proceso
de Poisson es un proceso con incrementos estacionarios.

Axioma 3 Considérese una subdivisión de un intervalo de tiempo de longitud uni-


taria en N subintervalos, cada uno de longitud ∆t = 1/N . Para N suficiente-
mente grande, las probabilidades de que se produzcan cero o un evento en
cualquiera de esos subintervalos son respectivamente4 :
4
En lo sucesivo, los términos Pi (t) se definen como Pi (t) = P{Z(t) = i}.
134 UNIDAD 5. EL PROCESOS DE POISSON HOMOGÉNEO

PZ(t + ∆t) − Z(t) = 0 = P0 (∆t) = 1 − λ∆t + o(∆t) (5.2.1a)

PZ(t + ∆t) − Z(t) = 1 = P1 (∆t) = λ∆t + o(∆t) (5.2.1b)

donde o(∆t) es una cantidad de un orden de magnitud mucho más pequeña


0(∆t)
que ∆t de modo que lı́m = 0. Obsérvese que las probabilidades P0 (∆t)
∆t→0 ∆t
y P1 (∆t) son complementarias, de modo que la probabilidad que se produz-
can dos o más eventos en un lapso de tiempo infinitesimalmente corto es
despreciable. En lo anterior, λ es un parámetro constante que representa la
cantidad promedio de eventos que se producen en un intervalo de tiempo de
longitud unitaria:

E[Z(1)] = E[N · Z(∆t)] = N · E[Z(∆t)] = N · (λ∆t + o(∆t))


1
= (λ∆t + o(∆t)) = λ
∆t

El parámetro λ también se conoce como intensidad de flujo .

Axioma 4 Se impone la siguiente condición inicial: P{Z(0) = 0} = P0 (0) = 1. Esto


equivale a decir que P1 (0) = P2 (0) = · · ·= 0.

A partir de estos cuatro axiomas, pretendemos deducir la función de probabi-


lidad de las variables aleatorias {Z(t)|t ≥ 0}, a saber:P{Z(t) = n} = Pn (t). Co-
mencemos considerando P0 (t + ∆t), la probabilidad de que ocurran cero eventos
en el lapso de tiempo [0,t + ∆t).Para que suceda tal cosa, debe acontecer que se
produzcan cero eventos en [0,t) y cero eventos en [t,t + ∆t). En virtud del Axioma
1, estos sucesos son independientes, pues [0,t) y [t,t + ∆t) no son intervalos de
tiempo superpuestos. Por otro lado, en virtud del Axioma 2, la probabilidad de que
se produzcan cero eventos en el intervalo de tiempo [t,t + ∆t) es igual a la proba-
bilidad de que se produzcan cero eventos en el intervalo de tiempo [0, ∆t), pues el
proceso es de incrementos estacionarios. En suma, tenemos lo siguiente:

P0 (t + ∆t) = P0 (t) · P0 (∆t) = P0 (t)(1 − λ∆t + o(∆t)) =⇒


P0 (t + ∆t) − P0 (∆t) = P0 (t) (−λ∆t + o(∆t))
5.2. DERIVACIÓN AXIOMÁTICA DEL PROCESO DE POISSON. 135

y que por lo tanto, tomando la derivada de P0 (t):

P0 (t + ∆t) − P0 (t) −λ∆t + 0(∆t)


P0′ (t) = lı́m = lı́m P0 (t) = −λ · P0 (t) =⇒
∆t→0 ∆t ∆t→0 ∆t
P0′ (t)
= −λ
P0 (t)

Integrando esta ecuación diferencial sencilla y tomando en cuenta el Axioma 4 que


establece una condición inicial P{Z(0) = 0} = P0 (0) = 1, deducimos finalmente
que:

P0 (t) = e−λt (5.2.2)

Ahora procederemos a calcular Pn (t) para n ≥ 1. De manera análoga al razo-


namiento recién expuesto, calculamos primero Pn (t + ∆t), tomando en cuenta que
para producirse n eventos en el intervalo de tiempo [0,t + ∆t), debe ocurrir alguno
de estos dos sucesos, que son mutuamente excluyentes:

1. Que se produzcan n−1 eventos en el intervalo [0,t) y 1 evento en el intervalo


[t,t + ∆t), o
2. Se producen n eventos en [0,t) y ningún evento en [t,t + ∆t).

De modo que:

Pn (t + ∆t) = Pn−1 (t) · P1 (∆t) + Pn (t) · P0 (∆t)


= Pn−1 (t) · (λ∆t + o(∆t)) + Pn (t) · (1 − λ∆t + o(∆t))

y de modo similar a como hicimos los cálculos precedentes, podemos encontrar la


derivada de Pn (t):

Pn′ (t) = λ(Pn−1 (t) − Pn (t)) =⇒ Pn′ (t) + λPn (t) = λPn−1 (t) (5.2.3)

La ecuación 5.2.3 es una ecuación diferencial lineal de orden uno no-homogénea.


Una fórmula para resolver tales ecuaciones diferenciales es la siguiente 5 :
5
Orellana, M. (1995), pp. 84-86
136 UNIDAD 5. EL PROCESOS DE POISSON HOMOGÉNEO

La solución a la ecuación diferencial no homogénea


y′ + p(x)y = q(x) viene dada por
R
 Z R

− p(x)dx p(x)dx
y=e C + q(x) e dx

Donde C es una constante que depende del valor de


y en un punto dado (condición inicial).

Sustituyendo los términos correspondientes en la formula anterior, recordando


que en este caso la variable independiente es t (no x) y teniendo en cuenta el Axio-
ma 4 que establece las condiciones iniciales P1 (0) = P2 (0) = . . . = 0, procedemos
a resolver la ecuación 5.2.3:

Zt
Pn (t) = e −λt
· λ · Pn−1 (x) ·λx dx (5.2.4)
0

Conociendo P0 (t) podemos hallar algunos de los Pn (t) para n ≥ 1:

Z
P1 (t) = e−λt · λ · e−λt eλt dt = (λt)e−λt
Z
(λt)2 −λt
P2 (t) = e −λt
· λ · λte−λt eλt dt =
e
2
Z
(λt)2 −λt λt (λt)3 −λt
P3 (t) = e−λt · λ · e e dt = e
2 6
..
.

(λt)n
No cuesta mucho trabajo deducir que, en general, Pn (t) = e−λt · n! .

Claro está, esto se puede demostrar por el método de inducción, lo cual se


deja como ejercicio propuesto para el estudiante (problema propuesto N° 15). Re-
cuerde que si se quiere demostrar cierta premisa An para todo n ≥ 0, el método de
inducción consiste en demostrar que A0 es cierto y que An ⇒ An+1 .

En resumen, hemos visto en esta primera parte del presente capitulo las con-
diciones o premisas bajo las cuales se produce un proceso estocástico de Poisson
5.3. PROCESOS DE POISSON ESPACIALES. 137

homogéneo. La palabra homogéneo se refiere a que la intensidad de flujo λ es


una constante en el tiempo, esto queda establecido por el Axioma 2 referente a los
incrementos estacionarios.

Ahora estamos en condiciones de volver a plantear la definición de un proceso


de Poisson homogéneo:

Definición (Proceso de Poisson homogéneo). Un proceso de conteo {N(t),t ≥


0} es un proceso de Poisson homogéneo con tasa media constante (o intensidad)
λ si cumple las condiciones a continuación:

(I) {N(t),t ≥ 0} tiene incrementos estacionarios e independientes.

(II) Para dos instantes de tiempo s y t tales que s < t , la cuenta de eventos
N(t) − N(s) acaecidos en el intervalo de tiempo (s,t) es distribuida según
la ley de Poisson con media λ(t − s). A saber:

(λ(t − s))k
P{N(t) − N(s) = k} = e−λ(t−s)
k!
Se espera haber facilitado la comprensión de cuales son las condiciones que
dan origen a tales procesos, porqué el número de eventos que se producen en un
intervalo de tiempo es distribuido según Poisson y las razones por las cuales este
proceso surge con mucha frecuencia en el estudio de ciertos fenómenos aleatorios.

5.3. Procesos de Poisson espaciales.

Las condiciones o postulados axiomáticos que dan origen al proceso de Pois-


son se pueden extrapolar a la definición de otro tipo de proceso de Poisson si se
cambia la dimensión temporal por la dimensión espacial. De este modo, cuando
hablamos de lapsos de tiempo en los axiomas 1 a 4, ahora hablaremos de distan-
cias, áreas o volúmenes en el caso en que el proceso se desarrolla en una, dos o
tres dimensiones espaciales respectivamente. Los eventos de tipo Poisson, en vez
de estar distribuidos sobre la recta temporal (porque se suceden en el tiempo), se
conceptúan más bien como puntos distribuidos sobre una superficie o un volumen.
A modo de ejemplo, imagı́nese que estamos viendo una colonia de bacterias en un
plato de Petri a través del microscopio (ver Fig. 5.2).

Respecto a la figura 5.2, los puntos oscuros (de color verde oliva) representan
138 UNIDAD 5. EL PROCESOS DE POISSON HOMOGÉNEO

Figura 5.2: Esporas en un plato de petri vistas a través de un microscopio.

las bacterias. Se ha incluido un reticulado sobre la gráfica, que divide el área en


pequeños cuadrantes de igual tamaño, para fines referenciales. Se han contado las
bacterias en cada uno de los cuadrantes sombreados de amarillo, dentro del plato
de Petri, cuya cantidad de bacterias se indican en números en la figura. En base a lo
observado, podemos contar cuantos cuadrantes contienen un determinado número
de bacterias, lo cual nos da las frecuencias absolutas empı́ricas (hay n = 32 obser-
vaciones). Acto seguido calculamos el promedio (estimado) de bacterias por cada
cuadrante, lo cual nos permite calcular las frecuencias relativas teóricas (ajustadas
al modelo de Poisson) y de ahı́, multiplicando dichas frecuencias relativas teóri-
cas por el número total de observaciones, determinamos las frecuencias absolutas
teóricas, las cuales cabria esperarse si el fenómeno en cuestión fuese realmente
un proceso de Poisson. Todo lo dicho se resume en la siguiente tabla:

El parámetro λ, con el cual se calculan las probabilidades de Poisson respecti-


5.3. PROCESOS DE POISSON ESPACIALES. 139

Tabla 5.2: Ajuste de las observaciones de la Fig. 5.2 a un proceso de Poisson


espacial.

Frecuencia Frec. relativa teórica


Frec. absoluta
k absoluta (obtenida mediante
esperada
(empı́rica) ajuste)
0 1 0.099013408 3.1684291
1 7 0.228968507 7.3269922
2 13 0.264744836 8.4718348
3 6 0.204074144 6.5303726
4 4 0.117980365 3.7753717
5 0 0.054565919 1.7461094
6 0 0.021030614 0.6729797
7 1 0.006947614 0.2223236

vas (las de la columna de frecuencias relativas teóricas), fue estimado del siguiente
modo:

7
∑ i · xi
i=0 0 · 1 + 1 · 7 + 2 · 13 + 3 · 6 + 4 · 4 + 5 · 0 + 6 · 0 + 7 · 1
λ̂ = 7
= = 2, 3125
32
∑ xi
i=0

Según lo que hemos desarrollado para este ejemplo hasta ahora, surgen algu-
nas preguntas, que se dejan como problemas propuestos al final de esta sección6 :

¿Qué representa el parámetro λ?

Si el circulo de la figura 5.2 es de 1 cm de diámetro, ¿cuál es el área de


cada cuadrante y cómo se interpretarı́a la estimación del parámetro λ (en
este caso, λ̂ = 2, 3125)?

¿Porqué se han considerado solamente los 32 cuadrantes sombreados en


amarillo (ver figura 5.2) para elaborar las estadı́sticas de la tabla 5.2?

Una variable aleatoria de tipo Poisson, por ser discreta, siempre asume va-
lores enteros. ¿Cómo explica Ud. que en la columna “Frecuencias absolutas
esperadas” de la tabla 5.2, los valores no sean enteros?
6
Antes de intentar responder estas preguntas, se le sugiere al lector terminar de estudiar esta
sección.
140 UNIDAD 5. EL PROCESOS DE POISSON HOMOGÉNEO

Si asumimos que las frecuencias absolutas empı́ricas son lo bastante aproxi-


madas a las frecuencias absolutas teóricas, entonces el modelo de Poisson parece
ser adecuado para describir el fenómeno de las colonias de bacterias observadas
en el plato de Petri. La verificación de la bondad de ajuste se realiza matemáti-
camente mediante técnicas de inferencia estadı́stica que se ven en otros cursos.
Por ahora, dejemos la verificación de bondad de ajuste a un lado y abordemos las
implicaciones que se desprenden de ser este fenómeno un proceso de Poisson.

Por ejemplo, el axioma 4 establecerı́a que en un área o volumen nulo hay ce-
ro bacterias con certeza total. Esto tiene bastante sentido- las bacterias necesitan
cierta cantidad mı́nima de espacio para desarrollarse y en un espacio de área nula
no puede haber bacterias. Los axiomas 1 y 2 establecerı́an que en áreas no super-
puestas de igual tamaño, las cantidades de bacterias en cada área son variables
independientes e idénticamente distribuidas. Esto quiere decir que la cantidad de
bacterias observadas en una esquina del plato Petri es independiente de la canti-
dad de bacterias observadas en otra esquina. Más aún, tienen la misma distribución
probabilı́stica, lo cual quiere decir que las condiciones requeridas para el desarrollo
de las actividades bacteriales son iguales en toda el área del plato Petri. Por ejem-
plo, colocar un sustrato más nutritivo para las bacterias en alguna esquina del plato
Petri harı́a que las bacterias se concentrasen en ese sector- se estarı́a violando la
condición de estacionariedad de las superficies no superpuestas de igual tamaño
y el fenómeno ya no serı́a un proceso de Poisson homogéneo. Dicho de otro modo,
los axiomas 1 y 2 parecen indicar que los eventos en un proceso de Poisson se
distribuyen uniformemente en el tiempo (o el espacio en este caso), pero esto es
una cuestión que abordaremos posteriormente. Por último, el axioma 3 plantea la
existencia de un parámetro λ que representa la cantidad promedio de eventos que
se producen en un intervalo de tiempo de longitud unitaria y que permanece cons-
tante en el tiempo. En el caso de un proceso de Poisson espacial homogéneo como
el que estamos tratando, λ viene a representar la cantidad promedio de bacterias
por cuadrante (de área unitaria) observados en el plato de Petri.

Una consideración importante en el estudio de los procesos de Poisson espa-


ciales es la distancia entre un punto y su vecino más cercano. Se da a continuación
un teorema que especifica la distribución de la distancia7 :

7
Ver Parzen (1962), pp. 32-33
5.3. PROCESOS DE POISSON ESPACIALES. 141

Teorema 5.2 (Distribución de la distancia al vecino más cercano en la distribución


de partı́culas según un proceso de Poisson espacial). Sea D la distancia entre
una partı́cula y su vecino más cercano en una distribución de partı́culas en el
plano según un proceso de Poisson espacial con tasa promedio de λ partı́culas
por unidad de área, entonces la función de densidad de D es:

2
fD (y) = 2λπ.e−λπy (5.3.1)

En el caso en que las partı́culas se distribuyen en el espacio tridimensional con


una tasa promedio de λ partı́culas por unidad de volumen, entonces la función de
densidad de D es:
4 3
fD (y) = 4λπy2 .e− 3 λπy (5.3.2)

Demostración
(caso bidimensional)

Primero, obsérvese que P{D > y} denota la probabilidad de que un circulo de


radio y con área πy2 contenga cero partı́culas por lo tanto

2
P{D > y} = P{N(πy2 )} = 0} = e−πλy

Ahora bien, el evento P{D > y} es complementario al evento P{D ≤ y} de donde


podemos obtener la expresión para la función de distribución de probabilidad de D:

2
FD (y) = P{D ≤ y} = 1 − P{D > y} = 1 − e−πλy

Y si derivamos con respecto a y obtenemos la función de densidad:

2
fD (y) = FD′ (y) = 2λπy · e−πλy

La función de densidad de D para el proceso de Poisson tridimension al se


obtiene mediante un procedimiento similar. Observando la forma funcional 4.8a (el
caso tridimensional es parecido) nos damos cuenta que D sigue una distribución
de Weibull 8 , cuya función de densidad se caracteriza por dos parámetros α y β:

8
Ver Devore (2001), p. 176
142 UNIDAD 5. EL PROCESOS DE POISSON HOMOGÉNEO

 α
α x

f (x; α, β) = α xα−1 · e β
β

para x ≥ 0 , cuya esperanza y varianza son:

 
E[D] = β · Γ 1 + α1
 y
 2 
V [D] = β2 · Γ 1 + α2 − Γ 1 + α1

Γ es, como sabemos, la archiconocida función gamma cuya definición y propieda-


des se dan en la Tabla 1.2. Todo encaja a la perfección si α = 2 y β = √1 .
π.λ

5.4. Distribución del tiempo inter-eventos en un proceso


de Poisson

Una forma alternativa de estudiar un proceso de Poisson es mediante la obser-


vación de los tiempos que transcurren entre eventos sucesivos, en contraposición a
observar la cantidad de eventos que se producen en un lapso de
tiempo de longitud fija, como hemos venido ha-
ciendo hasta ahora. Para ilustrar esto, supónga-
se que estamos interesados en estudiar el pro-
ceso asociado a la llegada de clientes a un ban-
co. Es este contexto, consideraremos que se
produce un evento cuando un cliente entra por
la puerta principal del banco. ¿Es razonable su-
poner que estos eventos se producen conforme
a un proceso de Poisson? Vamos a analizar la
situación (de la llegada de clientes a un banco)
a la luz de los axiomas que definen al proce-
so de Poisson y verificar, a grosso modo y de “Petroleum & Cactus bank”
manera intuitiva, si se cumplen las condiciones Viñeta en “Tintin en America”
mencionadas. Herge
5.4. DISTRIBUCIÓN DEL TIEMPO INTER-EVENTOS 143

Una de las condiciones para que el fenómeno bajo estudio califique como un
proceso de Poisson es que los incrementos sean independientes (Axioma 1). Ha-
biendo definido “evento” como la llegada de un cliente al banco, un incremento serı́a
la cantidad de clientes que llegan al banco entre dos instantes de tiempo determi-
nados. En circunstancias normales, las personas acuden al banco para realizar
diligencias independientemente de otras personas que también acuden a realizar
tramites al banco. En otras palabras, normalmente las llegadas de clientes al ban-
co se producen por causas externas al funcionamiento del banco. Esto es algo
caracterı́stico de otros fenómenos, como por ejemplo las fallas que se producen
en componentes eléctricos, que se deben generalmente en picos de voltaje (altos
o bajos) y no al tiempo que lleva funcionando el componente (cuando el funcio-
namiento del componente no supone desgaste del mismo). En contraposición, las
fallas debido a desgaste mecánico (por ejemplo, un motor a gasolina) no tienen
esta caracterı́stica. En general, cuando los eventos se producen debido a causas
ajenas al funcionamiento del sistema bajo estudio, se cumple la condición de incre-
mentos independientes exigida por el Axioma 1. Podemos, no obstante, hacer un
pequeño ejercicio de imaginación para enumerar algunas situaciones en las cuales
las llegadas de clientes a un banco en intervalos de tiempo no supérpuestos no
fuesen independientes:

Entre las 9:00 y 9:15 am llegaron muchos clientes al banco. Un cliente que
llega después, digamos a las 9:23am, observa que el banco está lleno y
decide no entrar al banco para volver luego cuando no haya tanta cola. Aún
ası́, a las 9:23am se produjo efectivamente una llegada de cliente al banco
y los motivos por los cuales ese cliente fue al banco eran independientes de
las razones que tenian los clientes que llegaron más temprano.

Algunos de los clientes que llegaron al banco en ese lapso de tiempo (en-
tre 9:00 y 9:15am), al ver que el banco estaba llenándose, le avisaron a
sus allegados para informarles que habı́a mucha gente en el banco. Con-
secuentemente, la tasa de llegadas al banco durante el resto de la mañana
disminuyó. Uno pudiése preguntarse: ¿cuál es la proporción de clientes que
llegan a un banco y conocen otros que tengan que hacer diligencias en ese
mismo banco ese mismo dı́a?

Algunos de los clientes que llegaron al banco esa mañana no eran clientes
normales, sinó hampones que vinieron a atracar el banco. En consecuencia,
durante el atraco y el posterior despliegue de fuerzas de seguridad alrededor
del banco, no llegaron más clientes al banco esa mañana. Sin embargo, ¿con
qué frecuencia ocurren atracos a una misma agencia de un banco?
144 UNIDAD 5. EL PROCESOS DE POISSON HOMOGÉNEO

Algunos clientes no llegan solos, sino en grupo. En este caso, los motivos por
los cuales esos clientes fueron al banco no son independientes. En efecto,
si llegan varios clientes al mismo tiempo, se estarı́a violando además las
condiciones pleanteadas en el Axioma 3, según el cual la probabilidad de que
dos o más eventos ocurran en un mismo lapso de tiempo infinitesimalmente
corto es virtualmente nula.

La segunda condición se refiere a la estacionariedad de los incrementos. Tra-


ducido al contexto de la llegada de clientes a un banco, esto quiere decir que la tasa
de llegada (también llamada intensidad de flujo, dada por el parámetro λ) debe ser
constante durante el periodo de tiempo considerado. Atención, esto no quiere decir
que siempre llegará la misma cantidad de clientes por hora al banco. Si fuese ası́,
no se tratarı́a de un proceso estocástico. Evidentemente, la llegada de clientes al
banco es variable y aleatoria, pero si la tasa de llegada es constante, el promedio
de clientes por hora que llegan al banco sı́ es constante. En un dı́a de banco “nor-
mal”, esto ocurre. Sin embargo, no cuesta mucho imaginarse escenarios donde la
tasa de llegada de clientes a un banco varı́a de un momento a otro:

Durante los dı́as de quincena o los viernes (pago semanal de obreros), llegan
más clientes al banco para cobrar su salario.

En un dı́a normal, la tasa de llegada de clientes puede variar según la ho-


ra, produciéndose más llegadas en horas pico, cuando la gente sale de su
trabajo, por ejemplo.

Según el Axioma 3, la probabilidad de que dos o más eventos ocurran en un


mismo lapso de tiempo infinitesimalmente corto es virtualmente nula. Sin embargo,
no es difı́cil imaginarse momentos en los cuales entran varios clientes al banco al
mismo tiempo, como por ejemplo aquél que mencionamos arriba de varios clientes
que llegan en grupo. No obstante, por razones de seguridad la mayorı́a de los ban-
cos restringen la entrada a una persona a la vez y en efecto los clientes terminan
no entrando todos al mismo tiempo.

Los ejemplos que citamos arriba de condiciones bajo las cuales se violan los
supuestos teóricos de los procesos de Poisson son de hecho desviaciones del
proceso de Poisson homogéneo que venimos estudiando ahora y conducen a otros
tipos de Procesos de Poisson (compuestos, no homogéneos, etc.) que se verán
luego. Por ahora supongámos que la llegada de clientes al banco se da según
un proceso de Poisson simple, u homogéneo. ¿Cuales otras caracterı́sticas tiene
5.4. DISTRIBUCIÓN DEL TIEMPO INTER-EVENTOS 145

este proceso? Claramente, el tiempo que transcurre entre dos llegadas de clientes
sucesivas varı́a de manera aleatoria, pero, ¿cómo se distribuye en tiempo entre
llegadas sucesivas? Vamos a considerar pues el proceso estocástico asociado a
los tiempos inter-eventos (el tiempo que transcurre entre dos llegadas sucesivas de
clientes):

{Tn |n ∈ N+ }

La secuencia aleatoria {Tn |n ∈ N+ } es de parámetro dicreto, porque Tn denota


el tiempo transcurrido entre la llegada del n − 1-ésimo cliente y el n ésimo cliente.
Sin embargo, cada una de estas variables debe tener una distribución continua.
Supongamos pues que {Tn |n ∈ N + } es una secuencia de variables mutuamen-
te independientes e idénticamente distribuidas según una distribución exponencial
con parámetro λ (ver problema propuesto N° 18). La función de densidad de pro-
babilidad para cada Tn es entonces:

fTn (t) = λe−λt , λ,t > 0

Si estamos interesados en conocer la probabilidad de esperar t segundos o menos


hasta que entre el siguiente cliente por la puerta del banco, dicha probabilidad
podrá calcularse mediante la función de distribución de probabilidad acumulada de
la exponencial:

P(Tn ≤ t) = 1 − e−λt , λ,t > 0

Recordemos además que si los Tn son exponencialmente distribuidos, cabrı́a


esperar en promedio λ1 minutos (o cualquier otra unidad de tiempo conveniente)
entre llegadas sucesivas de clientes porque E[Tn ] = λ1 . Obsérvese que mientras
mayor es λ menor es, en promedio, el lapso de tiempo transcurrido entre dos lle-
gadas sucesivas de clientes. Por esta razón, λ es conocida como la intensidad de
flujo o frecuencia del tráficointensidad de flujo 9 . En base a {Tn |n ∈ N+ } podemos
definir una caminata aleatoria {Sn |n ∈ N+ } del siguiente modo:

n
Sn = ∑ Ti
i=1

9
Ver sección 5.2 en la descripción del axioma 3.
146 UNIDAD 5. EL PROCESOS DE POISSON HOMOGÉNEO

Cada Sn representa el tiempo total que transcurre desde un instante 0 hasta la


llegada del n-ésimo cliente. ¿Se puede deducir de algún modo la distribución de
probabilidad de los Sn ? Teniendo en cuenta que Sn es una suma de n variables
independientes e idénticamente distribuidas, se puede deducir mediante el uso de
la función caracterı́stica o el desarrollo de las convulsiones que Sn es una variable
distribuida según la ley de Erlang (ver tabla 1.2 , distribución Gamma). Por lo tanto,
su función de densidad es:

λ
fSn (t) = (λt)n−1 e−λt , λ,t > 0
(n − 1)!

La pregunta crucial es: Si N(t) es un proceso de conteo que representa la


cuenta total de clientes que han entrado al banco hasta el instante de tiempo t ,
¿Cómo se distribuye N(t) si los tiempos inter-arribos son independientes e idénti-
camente distribuidos según la ley exponencial? Veamos: N(t) = n representa el
suceso que se produce cuando han entrado exactamente n clientes al banco en
el transcurso de [0,t] minutos. Este suceso es equivalente al siguiente: “El tiempo
hasta que llega el n-ésimo cliente es menor que t y el siguiente cliente (el n + 1 ési-
mo) llega después de t ”. Entonces, tenemos una equivalencia entre los siguientes
dos sucesos (que se debe demostrar en el problema propuesto N° 19):

{N(t) = n} = {Sn ≤ t} − {Sn+1 ≤ t}

Por ser ambos sucesos equivalentes, sus probabilidades son iguales y se tiene que

P{N(t) = n} = P{Sn ≤ t} − P{Sn+1 ≤ t}


Zt Zt
λ λ
= (λx)n−1 e−λx dx − (λx)n e−λx dx
(n − 1)! n!
0 0

Integrando por partes la expresión en el extremo derecho tenemos:

Zt Zt
λ (λt)n λ
P{N(t) = n} = (λx)n−1 e−λx dx + e−λt − (λx)n−1 e−λx dx
(n − 1)! n! (n − 1)!
0 0

(λt)n
= e−λt
n!
5.4. DISTRIBUCIÓN DEL TIEMPO INTER-EVENTOS 147

Acabamos de establecer que cuando los tiempos de espera inter-eventos son


exponencialmente distribuidos con el mismo parámetro λ (la misma intensidad de
tráfico), el proceso resultante es un proceso de Poisson. Se puede demostrar tam-
bién, aunque no se hará en esta exposición, que los tiempos inter-eventos de un
proceso de Poisson homogéneo son exponencialmente distribuidos con el mismo
parámetro λ. En resumen, establecemos el siguiente teorema:

Teorema 5.3 (Sobre la distribución de los tiempos inter-eventos en un proceso


de Poisson homogéneo). Sea {N(t)|t > 0} un proceso de Poisson homogéneo
con tasa de intensidad de flujo igual a λ. Entonces, el tiempo entre dos eventos
sucesivos se distribuye según una ley de probabilidad exponencial con densidad
fTn (t) dada por:
fTn (t) = λe−λt , λ,t > 0
Recı́procamente, un proceso estocástico en el cual los tiempos entre eventos se
distribuyen según una ley de probabilidad exponencial es un proceso de Poisson
homogéneo.

Esta caracterización del proceso de Poisson tiene una consecuencia de capital


importancia práctica para nosotros: para simular un proceso de Poisson en el
tiempo, debemos generar una secuencia de números aleatorios exponencial-
mente distribuidos. La suma acumulada de dicha secuencia representará en-
tonces los tiempos exactos en que suceden los eventos de tipo Poisson.

Ya desde el comienzo de esta unidad planteamos la relación que existe entre


el proceso estocástico asociado a la cantidad de éxitos en n ensayos de bernoulli
(ver la sección 4.2) y el proceso de Poisson homogéneo, sintetizada en el Teorema
5.1. Pero en la siguiente sección en la unidad sobre caminatas aleatorias de este
libro10 , se estableció que la cantidad de ensayos entre dos éxitos sucesivos se
distribuye según una ley de probabilidad geométrica11 . En esta sección, acabamos
de plantear que en un proceso de Poisson, los tiempos inter-eventos se distribuyen
exponencialmente. Todo esto nos induce a preguntarnos, ¿de qué manera están
relacionadas la distribución geométrica y la distribución exponencial?

Una relación entre ambas distribuciones es que ambas gozan de la propie-


dad de “falta de memoria”12 : un éxito (respectivamente, un evento) puede ocurrir
en cualquier momento independientemente de cuantos ensayos (respectivamen-
te, tiempo) ha transcurrido sin que haya transcurrido desde el éxito (resp. evento)

10
Ver sección 4.3.
11
Ver la Proposición 4.2.
12
Ver problemas propuestos N° 6 y N° 7 de la unidad 3.
148 UNIDAD 5. EL PROCESOS DE POISSON HOMOGÉNEO

pasado. Tanto para la caminata aleatoria basada en el número de éxitos en ensa-


yos de Bernoulli o el proceso de Poisson homogéneo, esto es coherente con las
propiedades definitorias de estos procesos, una de las cuales es que los tiempos
de espera (o la cantidad de ensayos que transcurren) entre eventos sucesivos son
independientes entre sı́.

La otra relación es que la distribución exponencial se deduce como caso lı́mite


de la distribución geométrica, completamente análogo con lo que plantea el Teore-
ma 5.1:

Proposición 5.4 (La distribución exponencial como caso lı́mite de la distribución


geométrica). En una caminata aleatoria basada en ensayos de Bernoulli, sea X
la cantidad de ensayos entre dos éxitos sucesivos una variable aleatoria distribui-
da geométricamente. Supóngase además que la unidad de tiempo se subdivide
de tal forma que la cantidad n de ensayos realizados de manera constante en
una unidad de tiempo tiende al infinito, pero la proporción de éxitos por unidad de
tiempo permanece constante (λ = np). Entonces, si cada ensayo se realiza en n1
unidades de tiempo, el tiempo T que transcurre entre dos éxitos es exponencial-
mente distribuido con parámetro λ.

Demostración
Consideramos la relación entre el número de ensayos x que se realizan y el tiempo
t en que se realizan los ensayos dada por

x
t = h(x) =
n
−1
x = h (t) = tn

Además, teniendo en cuenta que mientras n → ∞, la tasa de intensidad de flujo


λ = np permanece constante, esto implica que p → 0, pues p = λn . Se aplicará en-
tonces el Teorema 1.1 para determinar la función de densidad de probabilidad del
tiempo T que transcurre entre dos eventos sucesivos a partir del paso al lı́mite de
la función de probabilidad geométrica correspondiente al número de ensayos entre
dos éxitos, la cual, recordando el repaso de la unidad 1 es

gX (x) = (1 − p)x−1 p
5.4. DISTRIBUCIÓN DEL TIEMPO INTER-EVENTOS 149


−1
 dx
fT (t) = n→∞
lı́m gX h (t)
λ=np
dt

 
λ tn−1 λ
= lı́m 1 − n
n→∞ n n

= λ · e−λt

En consecuencia, la distribución de T es la exponencial, como se querı́a demostrar.

Podemos resumir la relación entre el proceso de Poisson homogéneo y las


caminatas aleatorias basadas en ensayos de Bernoulli mediante la siguiente tabla:

Tabla 5.3: El proceso de Poisson homogéneo como paso al lı́mite de las caminatas
aleatorias basadas en ensayos de Bernoulli

Tiempo
Tiempo continuo
Tiempo discreto
Caracterı́stica (segundos, minutos,
(numero de ensayos)
etc.)
Cantidad de éxitos (resp.
Distribución Distribución
eventos) en n ensayos (resp.
binomial de Poisson
en un lapso de tiempo t )
Cantidad de ensayos entre
Distribución Distribución
éxitos (resp. tiempo entre
geométrica exponencial
eventos)
Cantidad de ensayos hasta Distribución Distribución
el r-ésimo éxito (resp. tiem- binomial de Erlang
po entre r eventos) negativa (Gamma)
150 UNIDAD 5. EL PROCESOS DE POISSON HOMOGÉNEO

5.5. La distribución uniforme de los tiempos de ocurren-


cia de sucesos en un proceso de Poisson

En las caracterizaciones del proceso de Poisson homogéneo que hemos plan-


teado, se ha insinuado que los axiomas 1 y 2 referentes a la independencia y esta-
cionariedad de los incrementos causan una distribución uniforme y completamente
aleatoria de los sucesos en la dimensión temporal (o espacial, si se quiere). De
hecho, el proceso de Poisson homogéneo se conoce como el proceso completa-
mente aleatorio ya que distribuye los sucesos sobre el intervalo temporal infinito
[0, ∞) de la misma forma en que se distribuyen puntos sobre un intervalo finito bajo
la distribución uniforme. Vamos a ilustrar mediante un ejemplo lo que se pretende
establecer. Supóngase que en un horizonte de 0 a 20 unidades de tiempo observa-
mos un proceso de Poisson y que además, en esa “ventana de tiempo” ocurrieron
exactamente k sucesos de cierto tipo, tal como se muestra en la gráfica a continua-
ción (Fig. 5.3). Adicionalmente, el suceso N°k + 1 ocurrió después del instante de
tiempo t = 20.

Figura 5.3: Una realización de un proceso de Poisson donde se observan k eventos


que ocurrieron en el horizonte de tiempo de 0 a 20.

El resultado que se pretende establecer es el siguiente: si distribuimos la misma


cantidad k de puntos de forma aleatoria y según la distribución uniforme sobre el
intervalo temporal de 0 a 20, el resultado que vamos a observar es muy similar al
de la Fig. 5.3:

Figura 5.4: Distribución de k puntos sobre el intervalo[0,20], según la distribución


uniforme.
5.5. EL PROCESO DE POISSON Y LA DISTRIBUCIÓN UNIFORME 151

Es instructivo ojear el código de R que genera estas gráficas:

1 # ----------------------------------------------------------------
2 # 5_1. R
3 # Distribucion de aleatoria de puntos sobre una recta , segun
4 # a) la distribucion uniforme
5 # b) la distancia entre puntos es exponencial ( Poisson )
6 # autor : Jose L. Romero P.
7 # fecha : 24/08/2011
8 # ----------------------------------------------------------------
9 png(" poisson -y - uniforme %02d. png ")
10 # primero se simula el proceso de poisson desde 0 a tmax unidades
11 # de tiempo
12 alfa <- 1
13 tmax <- 20/alfa
14 tiempos.de.llegada <- NULL
15 tiempo <- 0
16 while (tiempo < tmax) {
17 tiempo <- tiempo + rexp(alfa)
18 tiempos.de.llegada <- c(tiempos.de.llegada,tiempo)
19 }
20 l <- length(tiempos.de.llegada)
21 tiempos.de.llegada <- tiempos.de.llegada[1:(l-1)]
22 plot(x=c( -2 ,tmax+2) ,y=c(0 ,0) ,type="n" ,axes=FALSE,xlab="" ,
23 ylab="")
24 points(x=tiempos.de.llegada,y=rep(0 ,l-1) ,col=" steelblue2 " ,
25 cex=1.5 ,bg=" steelblue4 " ,pch=21)
26 axis(1 ,pos=0 ,at=seq(from=0 ,to=tmax,by=5) ,
27 labels=seq(from=0 ,to=tmax,by=5))
28 # se distribuye la misma cantidad de eventos sobre la recta
29 # mediante la distribucion uniforme
30 uniforme <- runif(n=l-1 ,min=0 ,max=tmax)
31 plot(x=c( -2 ,tmax+2) ,y=c(0 ,0) ,type="n" ,axes=FALSE,xlab="" ,
32 ylab="")
33 points(x=uniforme,y=rep(0 ,l-1) ,col=" tomato " ,
34 cex=1.5 ,bg=" tomato4 " ,pch=21)
35 axis(1 ,pos=0 ,at=seq(from=0 ,to=tmax,by=5) ,
36 labels=seq(from=0 ,to=tmax,by=5))

En este programa estamos incorporando la lección más importante aprendida


en el aparte anterior: para obtener los tiempos de ocurrencia de los eventos en
la simulación de un proceso de Poisson, deben obtenerse muestras de números
aleatorios exponencialmente distribuidos. En efecto, esto es lo que se realiza en
la primera parte del código, donde se generan los “tiempos de llegada” dentro de
una ventana temporal entre 0 y tmax . Viendo las dos gráficas, se podrá notar lo
siguiente:
152 UNIDAD 5. EL PROCESOS DE POISSON HOMOGÉNEO

1. La distribución de los puntos en una gráfica y en otra no son idénticas, pe-


ro son muy similares. Esto se debe a que el mecanismo aleatorio que las
genera es idéntico en una y en otra, resultado que pretendemos demostrar
matemáticamente en lo que sigue.

2. Hay cierta tendencia en ambas figuras a que los puntos se aglomeren unos
muy cercanos a otros. De hecho, hay algunos puntos que casi coinciden (son
aquellos cı́rculos muy pegados unos de otros). En la realización del proce-
so de Poisson esto tiene una explicación muy sencilla: la distancia (tiempo)
que media entre dos sucesos consecutivos es distribuida exponencialmen-
te, como se demostró en la sección anterior. La distribución exponencial es
muy sesgada hacia la izquierda, de modo que es más frecuente tener distan-
cias entre puntos muy cortas. Lo mismo ocurrirá con la distribución uniforme,
pues como se va a demostrar, se trata del mismo fenómeno aleatorio.

Previo a la demostración, vamos a introducir una idea que quizás no le sea fa-
miliar: el concepto de lo que es un estadı́stico de orden. Supongamos que tenemos
una secuencia de k variables aleatorias idénticamente distribuidas e independien-
tes entre sı́. En el ámbito de la inferencia estadı́stica, tal secuencia se conoce como
muestra aleatoria, porque se supone que las variables se corresponden a obser-
vaciones hechas a una población. Para hacer inferencias a partir de una mues-
tra, componemos los valores de la misma para calcular lo que se conoce como
estadı́stico, que no es más que una función (multivariada) de la muestra, compo-
nemos los valores de la misma para calcular lo que se conoce como estadı́stico,
que no es más que una función (multivariada) de la muestra.Los estadı́sticos de
orden son simplemente un ordenamiento de menor a mayor de los elementos de la
muestra. Ası́, para una secuencia de k variables aleatorias U1 ,U2 , . . . ,Uk , los es-
tadı́sticos de orden U(1) ,U(2) , . . . ,U(k) se obtienen ordenando la secuencia original
según su magnitud, de modo que siempre se cumple que: U(1) ≤ U(2) ≤ . . . ≤ U(k) .
En particular, estaremos interesados en conocer cual es la función de densidad
conjunta de los estadı́sticos de orden basados en una muestra aleatoria tomada de
una población uniformemente distribuida en el intervalo [0, T ]:

k!
fU(1) ,U(2) ,...,U(k) (t1 ,t2 , . . . ,tk ) = cuando 0 ≤ t1 ≤ t2 ≤ . . . ≤ tk ≤ T (5.5.1)
Tk

El término T1k al lado derecho de la ecuación proviene del hecho de ser los
U(1) ,U(2) , . . . ,U(k) uniformemente distribuidos en el intervalo [0, T ] y de ser mutua-
mente independientes (la función de densidad conjunta es la productoria de las
5.5. EL PROCESO DE POISSON Y LA DISTRIBUCIÓN UNIFORME 153

respectivas funciones de densidad). El termino k! proviene de observar que hay


k! posibles ordenamientos (o permutaciones, si se quiere) de los elementos de la
secuencia U1 ,U2 , . . . ,Uk y todos generan la misma secuencia U( 1),U( 2), . . . ,U( k).

Por otro lado, supongamos que N(T ) = k, lo que equivale a decir que has-
ta el instante de tiempo T , han ocurrido exactamente k sucesos de tipo Poisson.
Más precisamente, dado que N(T ) = k, la probabilidad (condicional) de que en ca-
da uno de los subintervalos [t1 ,t1 + ∆t1 ], . . . , [tk ,tk + ∆tk ] del intervalo [0, T ] ocurra
exactamente un suceso y fuera de estos subintervalos no ocurra ningún suceso es:

λ∆t1 e−λ∆T1 · · · λ∆tk e−λ∆tk · e−λ(T −∆t 1−...−∆tk ) ∆t1 · · · ∆tk · k!


k =
e−λT · (λTk!) Tk

Esta probabilidad se puede expresar en función de los instantes S1 < S2 < ... <
Sk < T en que se producen los k sucesos, de modo que:

 
P t1 ≤ S1 ≤ t1 + ∆t1 , . . . ,tk ≤ Sk ≤ tk + ∆tk |N(T ) = K k!
=
∆t1 · · · ∆tk Tk

La notación “delta-t” en los subintervalos [t1 ,t1 + ∆t1 ], . . . , [tk ,tk + ∆t] se uti-
lizó con el propósito expreso de sugerir que la expresión a la izquierda de 4.11 es
una función de densidad conjunta (condicional) si hacemos tender los ∆ti a cero
(recordemos que la función de densidad es la derivada de la función de distribución
de probabilidad). Con todo esto, tenemos en definitiva que:

  K!
fS1 ,S2 , ..., Sk t1 ,t2 , ...,tk |N(T ) = K = k cuando 0 ≤ t1 ≤ t2 ≤ .... ≤ tk ≤ T
T
(5.5.2)

Y esto es exactamente igual a la expresión en 5.5.1. Hemos demostrado el


siguiente teorema:

Teorema 5.5 (Relación entre el proceso de Poisson y la distribución uniforme).


Sea {N(t)|t ≥ 0} un proceso de Poisson homogéneo con parámetro λ. Bajo
la condicion N(T ) = K , los tiempos en que ocurren los k sucesos de poisson
S1 < S2 < . . . < Sk son variables aleatorias con la misma distribución que los
estadı́sticos de orden correspondientes a k variables aleatorias independientes
U1 ,U2 , . . . ,Uk distribuidas uniformemente en el intervalo [0, T ]
154 UNIDAD 5. EL PROCESOS DE POISSON HOMOGÉNEO

Con esta información, vamos a echar un segundo vistazo al problema del en-
cuentro visto en la sección 2.4. Recordemos que el problema era determinar con
cual probabilidad se encuentran dos personas si el tiempo de llegada de cada uno
es uniformemente distribuido en el lapso de una hora e independiente del otro y
además el que llega primero no espera mas de 10 minutos (1/6 de hora) por el
otro. No es que hayamos abordado el problema mal en aquella oportunidad, pe-
ro ahora, mediante una simulación e interpretando el Teorema 5.5, lo haremos de
nuevo.

Simulando los tiempos de ocurrencia de eventos en un proceso de Poisson


con una tasa lambda arbitraria (en la simulación realizamos corridas con distintos
valores de lambda), consideramos solo los casos en los cuales el segundo suceso
haya sucedido antes de la hora y el tercero después de la hora. Esto redunda en
que se cumple la hipótesis del teorema, a saber, que han sucedido dos eventos de
tipo Poisson en el lapso de una hora, o N(1) = 2 . El Teorema 5.5 nos asegura que
bajo esta condición, los tiempos de ocurrencia de los dos sucesos 0 < S1 < S2 < 1
se distribuyen igual que los estadı́sticos de orden correspondientes a dos variables
aleatorias independientes y uniformemente distribuidas entre 0 y 1. La tesis del
teorema es la que nos permite calcular la probabilidad requerida: tan solo tenemos
que calcular la proporción de casos de la simulación (que cumplen la hipótesis)
donde el tiempo de ocurrencia del segundo evento dista en menos de 10 minutos
(1/6 de hora) del tiempo del primer evento.

Cabe preguntarse si el valor del parámetro del proceso de Poisson no afecta


el resultado. El siguiente código simuló N=10000 corridas en las cuales ocurrı́an
exactamente dos sucesos de Poisson en una hora para cada λ ∈ {2, 4, 6, 8, 10}.
Sorprendentemente, las probabilidades no varı́an según el valor de lambda y en
conjunto, no difieren mucho del valor teórico calculado en la sección 2.4 (que era
de 0, 3055).
> N <- 10000
> for (lambda in seq(from=2,to=10,by=2)) {
+ cnt <- 0
+ muestra <- NULL
+ while (cnt<N) {
+ x <- cumsum(rexp(lambda,n=3))
+ if ((x[2]<1)&(x[3]>1)) {
+ muestra <- c(muestra,x[2]-x[1])
+ cnt <- cnt+1
+ }
+ }
+ cat("lambda=",lambda,"probabilidad=",
+ mean((muestra<1/6)),"\n")
+ }
5.5. EL PROCESO DE POISSON Y LA DISTRIBUCIÓN UNIFORME 155

lambda= 2 probabilidad= 0.3078


lambda= 4 probabilidad= 0.306
lambda= 6 probabilidad= 0.3082
lambda= 8 probabilidad= 0.2967
lambda= 10 probabilidad= 0.3069
>

Para darle más sustento empı́rico al Teorema 5.5, se obtuvo un histograma


de frecuencias contrastando las densidades empı́ricas con la función de densidad
teórica (la lı́nea roja) mediante el script 5 2.R de abajo. Dicho gráfico se incluye en
la Fig. 5.5: llama la atención la similitud entre este y el de la sección 2.4. Por su-
puesto, el abordaje que se le hizo a este problema en la sección 2.4 es más natural
y más directo que el que hicimos ahora. Además, el script 5 2.R es muchı́simo más
lento que el script 2 5.R, debido al uso del while, que es mucho más ineficiente
que la generación vectorizada de la muestra en el script 2 5.R. Con todo, la idea es
afianzar el conocimiento intuitivo sobre lo que establece el Teorema 5.5 y sobre las
condiciones necesarias para su validez. Se vuelve a recalcar que el valor particular
del parámetro λ no esta entre estas condiciones necesarias.
1 # ----------------------------------------------------------------
2 # 5_2. R
3 # El problema del encuentro revisitado .
4 # autor : Jose L. Romero P.
5 # fecha : 24/08/2011
6 # ----------------------------------------------------------------
7 png(" encuentro2_r. png ")
8 N <- 1000000
9 lambda <- 2
10 dif <- NULL
11 cnt <- 0
12 while (cnt < N) {
13 x <- cumsum(rexp(lambda,n=3))
14 if (x[2] <1 & x[3] >1) {
15 dif <- c(dif,x[2] -x[1])
16 cnt <- cnt + 1
17 }
18 }
19 hist(dif,br=60 ,right=FALSE,freq=FALSE,
20 main=" Histograma de frecuencia " ,
21 ylab=" denisdad de probabilidad empirica ")
22 abline(a=2 ,b= -2 ,col=" red ")
23 legend(x=0.4 ,y=1.5 ,legend=" Funcion de densidad teorica " ,
24 fill=" red ")

Las implicaciones del Teorema 5.5 se pueden enlazar con todo lo que hemos
visto hasta ahora del proceso de Poisson homogéneo, en particular,las considera-
156 UNIDAD 5. EL PROCESOS DE POISSON HOMOGÉNEO

Figura 5.5: Densidades empı́rica y teórica para el problema del encuentro en la


sección 2.4. calculadas haciendo uso de la relación entre la distribución uniforme y
el proceso de Poisson homogéneo.

ciones que hicimos para los procesos de Poisson espaciales. De hecho, las con-
diciones de estacionariedad e independencia de los incrementos, que caracterizan
al proceso de Poisson homogéneo implican que en cualquier punto de una deter-
minada área existe igual probabilidad de ocurrir un suceso que en otro lugar.En la
terminologı́a del Teorema 5.5, dirı́amos que el proceso de Poisson espacial distri-
buye puntos sobre un área o volumen uniformemente.

Hemos visto como obtener los momentos de ocurrencia (en el tiempo) de su-
cesos de un proceso de Poisson para hacer simulaciones. Pero, ¿cómo podrı́amos
obtener los lugares de ocurrencia para hacer simulaciones de procesos de Poisson
espaciales? Esto nos trae de vuelta a la figura 5.2 de la sección 5.3, en la cual se
representaba una supuesta colonia de bacterias vistas a través de un microscopio.
En realidad, la imagen fue generada por un script en R que simula la distribución
5.5. EL PROCESO DE POISSON Y LA DISTRIBUCIÓN UNIFORME 157

de puntos en el espacio cuando esa distribución se da conforme a un proceso de


Poisson espacial. Se le sugiere al lector revisar dicho script detenidamente:
1 # ---------------------------------------------------------------
2 # 5_3. R Simulacion de una colonia de bacterias en un plato
3 # de Petri .
4 # autor : Jose L. Romero P.
5 # fecha : 22/08/2011
6 # ---------------------------------------------------------------
7 # revisa " colors ()" para una lista de colores
8 png(" platopetri . png ")
9 plot(x=c( -2 ,2) ,y=c( -2 ,2) ,
10 type="n" ,xlab="" ,ylab="" ,asp=1 ,axes=FALSE)
11 # dibuja el plato de petri
12 curve(sqrt(4 -xˆ2) ,from= -2 ,to=2 ,col=" darkgray " ,lwd=4 ,add=TRUE)
13 curve(-sqrt(4 -xˆ2) ,from= -2 ,to=2 ,col=" darkgray " ,lwd=4 ,add=TRUE)
14 # resalta los cuadros internos
15 rect(xleft= -1 ,ytop=1.5 ,xright=1 ,ybottom= -1.5 ,border=NA,
16 col=" khaki ")
17 rect(xleft= -1.5 ,ytop=1 ,xright=1.5 ,ybottom= -1 ,border=NA,
18 col=" khaki ")
19 # dibuja el reticulado
20 abline(v=seq(from= -2 ,to=2 ,by=0.5) ,lty=3 ,lwd=1.5 ,col=" steelblue ")
21 abline(h=seq(from= -2 ,to=2 ,by=0.5) ,lty=3 ,lwd=1.5 ,col=" steelblue ")
22 # dibuja las bacterias
23 N <- 80
24 x <- runif(n=N* 2,min= -2 ,max=2)
25 y <- runif(n=N* 2,min= -2 ,max=2)
26 xd <- x[which(xˆ2 + yˆ2 <= 3.8)]
27 yd <- y[which(xˆ2 + yˆ2 <= 3.8)]
28 points(xd,yd,pch=19 ,col=" darkolivegreen " ,
29 cex=rnorm(n=length(xd),mean=0.6 ,sd=0.1))
30 # cuentalas
31 cuenta <- function(x0,x1,y0,y1) {
32 cnt <- sum(as.numeric((xd>=x0 & xd<x1 & yd>=y0 & yd <y1)))
33 text(x=mean(c(x0,x1)) ,y=mean(c(y0,y1)) ,
34 as.character(cnt),col=" black " ,cex=1.2 ,
35 family=" mono " ,font=2)
36 }
37 for (x in c( -1 , -0.5 ,0 ,0.5))
38 for (y in c(1 ,0.5 ,0 , -0.5 , -1 , -1.5))
39 cuenta(x,x+0.5 ,y,y+0.5)
40 for (y in c(0.5 ,0 , -0.5 , -1)) {
41 cuenta( -1.5 , -1 ,y,y+0.5)
42 cuenta(1 ,1.5 ,y,y+0.5)
43 }

Por otro lado, vista la relación entre la uniforme y la exponencial que se da en el


proceso de Poisson, cuando se distribuyen puntos en el espacio de forma comple-
158 UNIDAD 5. EL PROCESOS DE POISSON HOMOGÉNEO

tamente aleatoria y uniforme, ocurre cierto aglutinamiento, como el que se observa


en las colonias de bacterias de la figura 5.2 o en las figuras 5.3 y 5.4. ¿Quizás
por eso es que las estrellas y otros cuerpos celestes forman conglomerados como
galaxias y constelaciones?

5.6. Problemas resueltos

Problema Resuelto 5.1


Cierta enfermedad no contagiosa afecta en promedio a una persona de cada mil en
la población. ¿Cuál es la probabilidad de que ocurran al menos dos casos, ningún
caso y exactamente un caso en un pueblo de 3000 habitantes?

Solución
Como la enfermedad es no contagiosa, su presencia en cualquier habitante del
pueblo es independiente del resto de las personas. Por lo tanto un modelo razo-
nable de la situación es suponer que se trata de 3000 ensayos de Bernoulli con
probabilidad de éxito de 0,001. Usamos en este caso la aproximación de Poisson
con parámetro λ = np = 3, de donde obtenemos:

P{X = 0} = e−λ = e−3 = 0, 0498


P{X = 1} = e−λ · λ = 3e−3 = 0, 1494
P{X ≥ 2} = 1 − (P{X = 0} + P{X = 1}) = 0, 8008

Problema Resuelto 5.2


Sea {N(t)|t ≥ 0} un proceso de Poisson homogéneo con parámetro λ = 8. Calcule
P{N(2, 5) = 15, N(3, 2) = 19, N(4, 5) = 32}.

Solución
El evento cuya probabilidad deseamos calcular se puede escribir como P{N(2, 5) =
15, N(3, 2) − N(2, 5) = 4, N(4, 5) − N(3, 2) = 13} y sabemos que una de las ca-
racterı́sticas del proceso de Poisson es la de poseer incrementos estacionarios e
5.6. PROBLEMAS RESUELTOS 159

independientes, de donde la probabilidad que deseamos calcular es:

P{N(2, 5) = 15} · P{N(0, 7) = 4} · P{N(1, 3) = 13}


2015 · (5, 6)4 · (10, 4)13
= e−8(2,5+0,7+1,3 · = (2, 34) · 10−6
17!4!13!

Problema Resuelto 5.3


Los clientes llegan a la sucursal de un banco de acuerdo con un proceso de Pois-
son homogéneo de intensidad λ. Se sabe que en el intervalo [0, T ] ha llegado
exactamente un cliente. Determine cuál es la distribución de la variable aleatoria X
que representa el instante en el que llega el cliente, condicionada a la información
de la que disponemos.

Solución
Para determinar completamente la distribución de la variable aleatoria X , basta con
determinar el valor del parámetro λ, pues se sabe que {X(t)|t ≥ 0} es un proceso
de Poisson homogéneo. Una forma de abordar el problema serı́a ası́:

λ representa la cantidad de eventos, en promedio, que ocurren en una unidad de


tiempo. En base a la evidencia, ocurrió un evento en T unidades de tiempo. Por lo
tanto, para estimar λ en base a esta información podrı́amos utilizar una regla de
tres:

1 es a T como λ es a 1, de donde λ = T1 .

Este planteamiento podrı́a no parecer lo bastante “cientı́fico”, por lo cuál hablare-


mos brevemente de un procedimiento de la inferencia estadı́stica llamado estima-
ción puntual por el método de la máxima verosimilitud. Básicamente, dicho método
consiste en determinar el estimador (valor) del parámetro como aquel que maximi-
za la verosimilitud, o probabilidad, de observar determinado valor de la muestra. En
nuestro caso, la probabilidad de observar 1 suceso en todo el intervalo [0, T ] es:

λT
P{X(T ) = 1} = e−λT
1

Encontrar el valor de λ que maximiza esta probabilidad es equivalente a encontrar


el valor de λ que maximiza el logaritmo neperiano de dicha probabilidad, porque el
logaritmo es una función monótona creciente. Por lo tanto, tenemos que:
160 UNIDAD 5. EL PROCESOS DE POISSON HOMOGÉNEO

 
∂ ∂ −λT λT ∂ 1
log P{X(T ) = 1} = log e = (−λT +log λ+log T ) = −T +
∂λ ∂λ 1 ∂λ λ

e igualando dicha derivada a cero (para hallar el punto crı́tico), se tiene que λ = T1 ,
como habı́amos concluido antes.

Problema Resuelto 5.4


Considere la confección de Galletas “La Abuela”, en la que el número de pasas en
cada galleta de avena es una variable aleatoria de tipo Poisson con un promedio
de 1,5 pasas por galleta.

(a) ¿Cuál es la probabilidad de tener una o más pasas en una galleta de avena
seleccionada al azar?

(b) En vista de que los clientes han protestado, la Abuela ha dado instrucciones
a sus empleados que desechen las galletas de avena sin pasas. ¿Cual es la
esperanza matemática y la varianza del número de pasas por galleta en las
galletas restantes?

Solución
Sea X el número de pasas de una galleta escogida al azar, donde

(1, 5)k
P{X = k} = e−1,5
k!
Por lo tanto P{X = 0} = e−1,5 = 0, 2231 y en consecuencia P{X ≥ 1} = 1−P{X =
0} = 0, 7769, lo cual responde la primera parte de la pregunta.

Esta probabilidad de 0,7769 será considerada como la probabilidad total en la


distribución de pasas en las galletas remanentes, que contendrán como mı́nimo
una pasa. Por lo tanto, la distribución de probabilidad (truncada) de la cantidad de
pasas en las galletas cono por lo menos una pasa será:

( k
(1,5)
′ e−1,5 0,7769·k! para k ≥ 1
P{X = k} =
0 caso contrario
5.7. PROBLEMAS PROPUESTOS 161

De ahı́, la esperanza de X ′ es

∞ ∞
(1, 5)k 1, 5 (1, 5)k
E[X ′ ] = ∑ e−1,5 0, 7769 · k! · k = 0, 7769 e−1,5 ∑ = 1, 9308
k=1 k=0 k!
Y la varianza es


1, 5k
E[X ′2 − X ′ ] = E[X ′ (X ′ − 1)] = ∑ e−1,5 0, 7769 k! · k(k − 1)
k=1

(1, 5)k
= ∑ e−1,5 0, 7769 k! · k(k − 1)
k=2

(1, 5)2 (1, 5)k−2
= e−1,5 ∑
0, 7769 k=2 (k − 2)!

(1, 5)2 (1, 5)k (1, 5)2
= e−1,5 ∑ =
0, 7769 k=0 k! 0, 7769

(1,5)2
de donde E[X ′2 ] = 0,7769 + 1, 9308 = 4, 8269 y finalmente:

V [X ′ ] = E[X ′2 ] − E 2 [X ′ ] = 4, 8269 − 1, 93082 = 1,0989

5.7. Problemas propuestos

1. Demuestre que la siguiente función es una función de probabilidad y deduzca


la esperanza matemática y la varianza de la variable aleatoria correspondien-
te: (
λx −λ
x! e x∈N≥0
pX (x) =
0 x<0

2. Sea p(x; λ) la función de probabilidad de Poisson con parámetro λ. Demues-


tre la siguiente fórmula de recursión:
λ
p(x + 1; λ) = p(x; λ)
x+1
162 UNIDAD 5. EL PROCESOS DE POISSON HOMOGÉNEO

3. El número de partı́culas emitidas de una fuente radioactiva durante un pe-


riodo de tiempo es una variable aleatoria con distribución de Poisson y la
probabilidad de que no haya emisiones es de 13 . Calcule la probabilidad de
tener 2 o más emisiones en ese lapso de tiempo.

4. Considérese el torneo de fútbol americano que se efectúa entre los 28 equi-


pos que constituyen la Liga Nacional de Fútbol (NFL) donde nos interesa el
número de anotaciones (touchdowns) de cada equipo por juego. En base a
la siguiente tabla, que muestra la estadı́stica de frecuencias del número de
anotaciones por equipo por juego, ajuste el número de anotaciones a una va-
riable aleatoria distribuida según Poisson. En base a este ajuste, ¿se puede
considerar que la distribución de Poisson es un modelo matemático adecua-
do para este fenómeno?
Número de veces
Número de
observada
anotaciones por
(frecuencia
equipo y juego
absoluta)
0 35
1 99
2 104
3 110
4 62
5 25
6 10
7 o más 3
Totales 448

5. Supóngase que en un recipiente que contiene 10.000 partı́culas, la proba-


bilidad de que se escape una es de 0,0004 y cada escape ocurre de forma
independiente. ¿Cuál es la probabilidad de que en ese recipiente ocurran 5
o más escapes?

6. Supóngase que una operadora de tele-mercadeo recibe una llamada con


probabilidad 0,01 y ninguna llamada con probabilidad 0,99 en un segundo.
Utilice la aproximación de Poisson para calcular la probabilidad de que la
operadora no reciba llamadas si se ausenta durante 5 minutos para tomarse
un café y compárela con la probabilidad binomial correspondiente.

7. En un artı́culo publicado en una revista médica especializada se reporta


que para un paciente diabético, insulina-dependiente de edad entre 30 y 40
años, la probabilidad anual de contraer retinopatı́a diabética (ceguera) es de
0,0067. En un grupo de 1000 pacientes con estas condiciones, ¿cuál es la
5.7. PROBLEMAS PROPUESTOS 163

probabilidad de que se den 4 o más casos de ceguera causada por diabetes


el próximo año?

8. En un hospital, se le hicieron pruebas a 3741 recién nacidos de los cuales 30


resultaron HIV-positivos. En una muestra aleatoria de 500 pacientes tomados
de esta población, ¿cuál es la probabilidad de que exactamente 10 de ellos
resulten HIV-positivos? Justifique el uso de la distribución hipergeométrica
para encontrar dicha probabilidad y aproxime esta probabilidad mediante la
función de Poisson.

9. Supóngase que el 1,5 % de las familias en Caracas tienen un ingreso anual


por encima de los 30.000,00 Bs. F. Calcule la probabilidad de que al selec-
cionar una muestra aleatoria de 60 familias caraqueñas, a lo sumo 2 tienen
ingresos superiores a los 30.000,00 BF.

10. Al transmitir números binarios de n dı́gitos mediante un componente electróni-


co, se introducen errores en la transmisión de cada bit de forma independien-
te y aleatoria con una probabilidad constante p = 0,0002. Si se transmiten
1000 números binarios de 64 bits cada uno por microsegundo, determine:

a) ¿Cuál es la probabilidad de transmitir un número de 64 bits con cero,


uno o más errores?
b) ¿Cuál es la probabilidad de que se transmitan exactamente diez núme-
ros incorrectamente en el transcurso de un microsegundo?

11. En una manufactura de botellas de vidrio pueden encontrarse partı́culas ex-


trañas en el vidrio fundido. Si una de tales partı́culas se encuentra en el vidrio
de una botella, dicha botella es defectuosa y debe ser descartada. Supone-
mos que estas partı́culas se encuentran distribuidas en el vidrio fundido de
forma uniforme y aleatoria, y que en promedio, se tienen 30 partı́culas por
cada 100 kg. de vidrio fundido y que se requiere 1 kg. de vidrio fundido para
fabricar cada una de las botellas. Determine qué porcentaje de las botellas
deben ser descartadas. (Ayuda: la respuesta no es 30 %)

12. En un consultorio médico llegan en promedio 15 pacientes diarios según un


proceso de Poisson. ¿Cuántos pacientes deben ser admitidos diariamente a
consulta si la gerencia desea estar segura con un 85 % de confianza de no
dejar de atender pacientes en un dı́a?

13. Considere un proceso de Poisson homogéneo {N(t)|t > 0}. Demuestre que
para s < t , N(s)|N(t) = n es una variable aleatoria Binomial con n ensayos
y probabilidad de éxito s/t .
164 UNIDAD 5. EL PROCESOS DE POISSON HOMOGÉNEO

14. Considérese un proceso de Poisson homogéneo {N(t)|t > 0} con tasa λ.


Calcule su núcleo de covarianza K(s, s + t) con s,t > 0.
(λt)n
15. Demuestre por el método de inducción completa que Pn (t) = e−λt · n! , par-
tiendo de la ecuación 5.2.4 dada en este capitulo.

16. Como ejemplo de una distribución aleatoria de puntos en el espacio, se da


a continuación una tabla basada en estadı́sticas referentes a la cantidad de
impactos de bombas volantes alemanas tipo V-2 sobre Londres durante la
segunda guerra mundial. El área total expuesta a bombardeo se subdivi-
dió en 576 áreas pequeñas de 41 km2 cada una, registrando el número de
áreas Nk en que hay exactamente k impactos.

k 0 1 2 3 4 5 o más Total
Nk 229 211 93 35 7 1 576

a) ¿Cuántos impactos de bombas volantes se registraron en total, según


la estadı́stica anterior?
b) Determine el promedio de impactos por área de 14 km2 .
c) Determine el ajuste de impactos por área de 14 km2 a una distribución de
Poisson y verifique que el modelo de Poisson se ajusta adecuadamente
a este fenómeno.
d) Según las condiciones que dan origen al proceso de Poisson, inter-
prete y deduzca las implicaciones de que el fenómeno descrito sea un
proceso de Poisson homogéneo.

17. En el bosque de Nunca Jamás, los árboles se distribuyen según un proceso


Poisson espacial homogéneo en dos dimensiones a razón de 50 árboles
por hectárea. ¿Cuál es la distancia promedio entre un árbol y el árbol más
cercano?

18. Sea {Tn |n ∈ N+ } una secuencia de variables mutuamente independientes e


idénticamente distribuidas según una distribución exponencial con parámetro
λ. ¿Qué tipo de proceso estocástico es {Tn |n ∈ N+ }? ¿Es estrictamente
estacionario? ¿Es débilmente estacionario? Razone su respuesta.

19. Supóngase que los tiempos entre eventos de un proceso (que llamaremos
incrementos) son mutuamente independientes e idénticamente distribuidos
y defı́nase una caminata aleatoria {Sn |n ∈ N+ } del modo usual como la su-
ma de n incrementos positivos independientes. Sea {N(t) = n} el suceso
siguiente: “Hasta el momento t , han ocurrido exactamente n eventos”. Utilice
5.7. PROBLEMAS PROPUESTOS 165

el álgebra de conjuntos y los axiomas básicos de la probabilidad para de-


mostrar la siguiente equivalencia: P{N(t) = n} = P{Sn ≤ t} − P{Sn+1 ≤ t}.

20. Considérese un proceso de Poisson homogéneo {N(t)|t > 0} con tasa λ y la


secuencia aleatoria {Sn |n ∈ N+ } son los tiempos de ocurrencia de eventos
asociados a este proceso de Poisson. Calcule P{S3 ≤ x|N(t) = 10} con 0 ≤
x ≤ t.

21. Realice una simulación por computadora de un proceso de Poisson con in-
tensidad promedio de 2 sucesos por unidad de tiempo. Utilizando dicha si-
mulación estime:

a) P{N[2,4] = 2}, donde N[2,4] representa la cantidad de sucesos ocurridos


en el intervalo [2, 4].
b) P{3 ≤ S3 ≤ 5}, donde S3 es el instante en que ocurre el tercer suceso.

22. Un vendedor de perrocalientes observa que aún cuando sus clientes asi-
duos no llegan en intervalos de tiempo regulares, no obstante arriban según
un proceso de Poisson con una tasa de llegada promedio de un cliente por
minuto. Un dı́a le dice a un amigo que le haga guardia en su carrito de perro
calientes mientras el se ausenta por 5 minutos. A su regreso, el amigo le di-
ce que en los cinco minutos llegaron 4 clientes. “Descrı́bemelos por alguna
caracterı́stica única a cada uno y te diré el momento en el cual llegaron”, le
respondió el perrero. Calcule la probabilidad de que el perrero pueda iden-
tificar correctamente los tiempos de llegada de cada cliente, si para cada
cliente se indica un intervalo de dos minutos dentro del cual se asegura que
ese cliente llegó.
166 UNIDAD 5. EL PROCESOS DE POISSON HOMOGÉNEO
Unidad 6

Cadenas de Markov

Las cadenas de Markov son los modelos ma-


temáticos más sencillos para representar fenóme-
nos aleatorios que evolucionan en el tiempo.
. . . Ciertamente, la teorı́a de los procesos es-
tocásticos puede verse como una generalización,
de una forma u otra, de las cadenas de Markov.

F UEGO EN EL ATARDECER
Oleo - 1929 Norris, J. R.
Paul Klee prefacio del libro “Markov Chains”

167
168 UNIDAD 6. CADENAS DE MARKOV

Objetivos de la Unidad

El objetivo general de esta Unidad es hacer una exposición de las cadenas de


Markov como un modelo matemático adecuado a una amplia gama de fenómenos
aleatorios. Al término de la misma, se quiere que el estudiante logre los siguientes
objetivos especı́ficos:

6.1. Definición, notación, ejemplos y un poco de historia

Muchos procesos aleatorios evolucionan en el tiempo de modo que solamente


la información más reciente es determinante para el estado futuro del proceso. Lo
anterior se resume matemáticamente mediante la propiedad de Markov, que ya
mencionamos en la Unidad 3 y que recordamos seguidamente:

Definición (Propiedad de Markov). Un proceso estocástico {X(t)|t ∈ T } verifica


la propiedad de Markov cuando se cumple que:
P{X(tn+1 ) ∈ A|X(tn ) = an , . . . , X(t0 ) = a0 } = P{X(tn+1 ) ∈ A|X(tn ) = an }

En esta unidad nos ocuparemos principalmente de las denominadas cadenas


de Markov de parámetro discreto, que son procesos estocásticos de parámetro
discreto y de espacio de estados discreto que verifican la propiedad de Markov.

Definición (Cadena de Markov de parámetro discreto homogénea). Un proce-


so estocástico {Xi |i ∈ T } de parámetro discreto es una cadena de Markov ho-
mogénea si para todo i0 , i1 , . . . , in , j ∈ E (E es el espacio de estados) se verifica
la propiedad de Markov:
P(Xn+1 = j|X0 = i0 , X1 = i1 , . . . , Xn = in ) = P(Xn+1 = j|Xn = in ) (6.1.1)

Las probabilidades P(Xn+1 = j|Xn = i) se denominan probabilidades de tran-


sición porque mediante ellas se determina la transición de un estado a otro entre
dos instantes de tiempo sucesivos en una cadena de Markov. Es de observar que
las probabilidades de transición son probabilidades condicionales, pero no están
condicionadas por parámetro temporal alguno y son estacionarias (permanecen in-
variantes a lo largo de toda la evolución del proceso en el tiempo), razón por la cual
la cadena de Markov que acabamos de definir tiene el calificativo de “homogénea”.
Vale aclarar también que la propiedad Markov (ecuación 6.1.1) en la definición de
6.1. DEFINICIÓN, NOTACIÓN, EJEMPLOS Y UN POCO DE HISTORIA 169

arriba no implica que el siguiente estado (futuro) en una secuencia de variables


aleatorias solo depende del estado presente y es independiente de la historia pa-
sada del proceso. De hecho, Xn+k y Xn no son independientes y la propiedad de
Markov en la definición ha de interpretarse bajo los siguientes términos: la pro-
piedad de Markov implica que, en una cadena de Markov, el estado presente del
proceso incorpora en sı́ toda la información necesaria para determinar los estados
futuros, por lo cual, al haber información sobre el estado presente, se hace innece-
sario disponer de información sobre el pasado para determinar las probabilidades
de transición del siguiente estado.

Debido a que las probabilidades de transición de un estado a otro entre ins-


tantes discretos de tiempo sucesivos no dependen del ı́ndice temporal (homoge-
neidad) ni del estado del proceso en instantes pasados (propiedad de Markov),
podemos abreviar escribiendo pi, j = P(Xn+1 = j|Xn = i). La abreviatura hace po-
sible representar las probabilidades de transición en forma matricial, mediante lo
que se denomina una matriz de transición :

 
p1,1 p1,2 · · · p1,n
 p2,1
 p2,2 · · · p2,n 

P= . .. .. .. 
 .. . . . 
pn,1 pn,2 · · · pn,n

En la matriz de transición, el elemento de la i-ésima fila y la i-esima columna


representa la probabilidad de que el sistema cambie del estado i al estado j en
una transición. La representación matricial de las cadenas de Markov facilita en
algo el estudio de estas últimas permitiendo el uso de algunas herramientas del
álgebra lineal, como veremos seguidamente. También es evocativo de las matrices
de adyacencia de los grafos. De hecho, una forma alternativa de representar las
cadenas de Markov serı́a mediante un grafo dirigido: los vértices se corresponden
a los estados y los arcos dirigidos (ponderados) a las probabilidades de transición.
Volveremos sobre esto seguidamente también, pero primero vamos a dar algunos
ejemplos de cadenas de Markov.

Algunos ejemplos

1. Un virus con N cepas muta constantemente, siendo 1 − α la probabilidad


α
de que el virus no haga mutación y N−1 la probabilidad con la que el virus
muta a cualquiera de las otras N − 1 cepas. Se tiene entonces para cada
170 UNIDAD 6. CADENAS DE MARKOV

α
i ∈ {1, . . . , N} que pi,i = 1−α y pi, j = N−1 para i 6= j. La matriz de transición
serı́a:

 α α 
1−α N−1 ··· N−1
α α

 N−1 1−α ··· N−1


P= .. .. .. .. 
 . . . . 
α α
N−1 N−1 ··· 1−α

2. El problema de la ruina del jugador visto en la Unidad 4 se puede representar


mediante una cadena de Markov, en la cual los estados se corresponden al
capital del jugador en un momento dado. Si entre el jugador y el adversario se
tiene un capital total de T y las probabilidades de ganar o perder un Bolivar
en cada turno son p y 1 − p respectivamente, se tendrı́a la siguiente matriz
de transición:

 
1 0 0 0 ··· 0 0 0

 1− p 0 p 0 ··· 0 0 0  

 0 1− p 0 p ··· 0 0 0  
P= .. .. .. .. .. .. .. .. 
 . . . . . . . . 
 
 0 0 0 0 ··· 1− p 0 p 
0 0 0 0 ··· 0 0 1

Para un capital total T , la fortuna del jugador fluctúa entre 0 y T , lo cual


implica que la cadena de Markov correspondiente serı́a representada por
una matriz de orden T + 1 × T + 1. Los estados 0 y T son absorbentes, de
donde las respectivas probabilidades de transición p1,1 y pT,T son iguales a
1.

3. En un planeta llamado Eden habı́a dos ciudades, “Adán” y “Eva”. De estas


dos, Adán era la ciudad más antigua y en un pasado remoto, algunos de sus
habitantes fueron exilados y fundaron Eva, después de lo cual los habitantes
de Edén estaban en el hábito de migrar constantemente de una ciudad a otra
según las siguientes probabilidades:

En cada periodo migratorio, el 70 % de los habitantes de Adán perma-


necı́a en Adán y el resto emigraba a Eva.
Analogamente, el 40 % de los habitantes de Eva se quedaban en Eva
y el restante 60 % salı́a a Adán.
6.1. DEFINICIÓN, NOTACIÓN, EJEMPLOS Y UN POCO DE HISTORIA 171

De esta forma, los habitantes de Adán y Eva fueron mezclándose según una
cadena de Markov cuya matriz de transición era la siguiente:

Adán Eva
P= Adán 0, 7 0, 3
Eva 0, 6 0, 4
En lo precedente se han identificado las filas y las columnas de la matriz
de transición mediante los nombres de las ciudades correspondientes, pa-
ra resaltar que las probabilidades de transición se refieren a la migración
entre una ciudad y otra. En todo esto, se ha considerado el estado de un
habitante de Edén como la ciudad en la cual se encuentra en un momento
determinado. Una pregunta interesante en torno a la situación descrita serı́a
la siguiente - partiendo de una distribución inicial de individuos en Adán y
Eva, ¿cómo se distribuirán los habitantes del planeta a la larga?

La cadena de Markov es
172 UNIDAD 6. CADENAS DE MARKOV
Apéndice A

Como leer un texto matemático

Leer un libro, escuchar un concierto, ir al cine - todas son actividades que supo-
nen un protocolo adecuado al genero de literatura que estamos leyendo, el tipo
de música que escuchamos o el género cinematográfico que vemos. No se puede
escuchar un concierto de Mahler de la misma forma que un concierto de Dj Tiestö,
o ver una pelicula de Tarkovsky como si estuviesemos viendo “Duro de Matar”. De
la misma forma, este libro no se puede leer como se leerı́an las historietas de Con-
dorito (aunque seguramente hará “¡plop!” varias veces mientras estudia con él).
Sin caer en juicios de valor sobre cuál género de literatura, música o cine es me-
jor, el punto que se intenta establecer, aunque parezca una perogrullada, es que
cualquier lectura, música o pelicula puede ser mejor apreciada si sabemos como
apreciarla. Hablamos de literatura y aunque sea dı́ficil de creer, textos como éste
son literatura también. De hecho, este tipo de textos pertenecen al género de “no-
ficción”. Pero volviendo a la idea de apreciación literaria, ¿qué significa apreciar
una lectura? ¿Cómo podriamos apreciar una lectura tan árida como ésta?

Antes de abordar la última pregunta, vamos a abordar la pregunta anterior, que


es más general. Piensese por ejemplo en una novela, que pertenece al género de
ficción y en la cual uno puede leer pasajes como éste a continuación 1 :

El zumbido obstinado de las abejas, abriéndose camino entre el alto


césped sin segar, o dando vueltas con monótona insistencia en torno
1
La cita es de la novela “Retrato de Dorian Gray” de Oscar Wilde.

173
174 APÉNDICE A. COMO LEER UN TEXTO MATEMÁTICO

a los polvorientos cuernos dorados de las desordenadas madreselvas,


parecı́an hacer más opresiva la quietud, mientras los ruidos confusos
de Londres eran como las notas graves de un órgano lejano.

Hay por lo menos dos niveles de apreciación lectora para una obra como la ci-
tada arriba. Una es la apreciación estética, que tiene que ver con el buen uso de las
palabras para construir imágenes. La apreciación en este nivel es, podrı́a decirse,
un asunto sensorial, más o menos como saborear un buen Cabernet Sauvignon
para acompañar un roast beef. Por ejemplo, en el pasaje citado arriba podriamos
apreciar como el escritor describe de una manera exacta y muy elegante el zum-
bido monotono que uno puede escuchar en cualquier gran ciudad. Frases como
estas convierten a un texto en una obra de arte literaria y nos proveen el disfrute
estético de la lectura. Sin embargo, generalmente aportan poco cuando se trata de
entender la trama de la novela, lo cual nos trae al otro nivel de apreciación de una
lectura, que es la apreciación de la trama.

Una novela es una historia y toda historia es un cuento de algo. La trama es


la forma en que el escritor va desarrollando ese cuento. Cuando la trama de una
novela nos atrapa, no nos paramos a analizar cada palabra detenidamente. Más
bien, las palabras son como pinceladas que van pintando una escena que se va
revelando poco a poco; lo revelado es la trama. En el pasaje citado arriba, por
ejemplo, no nos pondrı́amos a analizar porqué no se habı́a cortado el cesped entre
el cual revoloteaban las abejas o en qué se basa el autor para afirmar que los
“cuernos dorados de las desordenadas madreselvas” son polvorientos- esto serı́a
una necedad, completamente fuera de lugar e innecesario. El lenguaje novelesco
está lleno de redundáncias e imprecisiones porque a veces la imprecisión es un
efecto que el autor quiere justamente lograr. Y porque un buen escritor de novelas
sabe que un buen lector no analizará cada frase detenidamente para comprender la
trama, introduce redundancias, metáforas, hipérboles y toda esa legión de figuras
de expresión que veiamos en Lengua y Literatura en bachillerato para enfatizar
elementos de la trama o resaltar aspectos de los personajes que son importantes
para su comprensión.

En un texto sobre matemáticas también hay una trama y se podrá encontrar


algo de estética, pero la apreciación de la estética y la trama es totalmente distinta
a la de una novela, porque el lenguaje matemático funciona de una forma total-
mente distinta. El lenguaje matemático es muy sucinto. La notación y los sı́mbolos
que usamos hoy en dı́a para escribir en lenguaje matemático son el producto de
siglos de depuración para lograr expresar las ideas de la manera más breve posi-
ble y sin redundáncias ni imprecisiones. Una fórmula matemática de una sóla lı́nea
175

puede condensar tal cantidad de información que requerirı́a varios párrafos para
expresarla en lenguaje natural. Cuando leemos lenguaje matemático, es importan-
te detenerse a analizar cada sı́mbolo, cada igualdad, cada punto, porqué todo lo
que está escrito en una fórmula es importante para su debida comprensión- nada
es redundante. Por eso, la primera recomendación es

Primer consejo

Tómese el tiempo de leer detenidamente cada sı́mbolo de cada fórmula o


ecuación, ası́ como los razonamientos o explicaciones en lenguaje natural
sobre ellos.

Ciertamente, cuando una novela nos atrapa podemos leer decenas de páginas
en una sola lectura, pero si leemos un texto de matemática, a veces avanzamos
unas diez páginas por lectura, cuando mucho. Pero leer detenidamente el texto no
garantiza su comprensión si no nos hacemos con el habito de cuestionar y ana-
lizar todo lo que se lee. Cuando hablábamos sobre la apreciación de la trama en
la literatura de ficción y citábamos aquel pasaje de “Retrato de Dorian Gray” como
ejemplo, decı́amos que era una necedad analizar frases descriptivas o cuestionar
los basamentos del autor para calificar las cosas de cierto modo, pues nada agre-
gaba esto a nuestra comprensión de la trama. Sin embargo, cuando leemos un
texto matemático, este hábito de cuestionar y analizar todo cuanto se lee no es
una necedad, sino una absoluta necesidad si se quiere comprender el texto. Es
por eso que la lectura de este tipo de textos es mucho más lenta que la lectura
de novelas- hay que cuestionar y analizar todo. Para ilustrar en que consiste este
cuestionamiento constante, pongamos un ejemplo. Supóngase que leyendo este
libro, se encuentra con la siguiente fórmula:

n
n(n + 1)
∑i = 2
i=0

El lector debe ante todo asumir una actitud activa, no pasiva. Esto pasa por
asumir constantemente el rol de ser su propio profesor. Si Ud. fuese un profesor y
está interesado en saber si el estudiante ha comprendido lo que recién acaba de
leer, ¿cuáles preguntas harı́a? En este punto, serı́a oportuno preguntarse primero
si comprende cada uno de los sı́mbolos en la fórmula. Por ejemplo, ¿qué significa el
∑? ¿Qué significan las expresiones arriba y abajo de ese sı́mbolo? ¿Qué significa
la i al lado de esto? Si no sabemos las respuestas a estas preguntas debemos
buscar apoyo de otros libros o consultar rápidamente con la Profesora Wikipedia
176 APÉNDICE A. COMO LEER UN TEXTO MATEMÁTICO

o el Profesor Google, o mejor aún anotar la pregunta y hacérsela al profesor del


curso (en la próxima clase o por correo electrónico, que para eso sirve).

Una vez que se ha comprendido que la expresión a la izquierda del signo =


denota la suma de todos los números enteros consecutivos desde el 0 hasta n,
estamos en capacidad de proceder con el auto-cuestionario. Las ecuaciones como
esta, que contienen un signo =, claman por una demostración o una explicación.
Cuando yo escribo que A = B, el lector debe preguntarse: ¿es siempre A igual a B?
¿en qué se basa el autor para decir que A siempre es igual a B? etc. En el ejemplo
anterior, este tipo de auto-cuestionamiento podrı́a llevarnos a realizar la siguiente
secuencia de razonamientos mentales, no necesariamente en el orden en que los
exponemos:

1. Tomamos un papel y lápiz, comenzamos a darle valores a n y evaluamos las


expresiones a ambos lados de la igualdad para ver si se verifica la igualdad
en algunos casos. Esto no es una demostración matemática de este hecho,
pero ayuda a entender lo que está sucediendo.

2. En un ejercicio de sano escepticismo, observamos que cómo la sumatoria


involucra suma de números enteros, la expresión a la izquierda de la igualdad
siempre será un número entero. Sin embargo, a la derecha tenemos una
fracción donde el denominador es dos. Podrı́amos preguntarnos entonces
si en algunos casos la expresión de la derecha no será un número entero.
Reflexionando un poco al respecto, nos damos cuenta que n es siempre o
par o impar, por lo tanto, alguno de los dos factores del denominador (n o
n + 1) siempre será divisible entre dos y de ahı́, la expresión a la derecha de
la igualdad siempre será un número entero también.

3. Las dos actividades anteriores nos convencen de manera intuitiva que la


igualdad podrı́a ser cierta para todo n. Sin embargo, aún no la hemos de-
mostrado. Es el momento de hacerlo.

Todas estas preguntas, razonamientos y verificaciones con papel y lápiz ocu-


rren cuando un buen lector matemático se topa con una ecuación como esta. Es
muy probable que las preguntas que uno debe hacerse cuando se estudia un texto
de matemáticas serán justamente las preguntas que saldrán en el examen. Estas
ideas se resumen en nuestra segunda recomendación:
177

Segundo consejo

Cuestione y analice todo cuanto lea. Hágase preguntas a modo de auto-


evaluación constantemente para que, cuando le hagan esas mismas pre-
guntas en el examen, salga airoso del evento.

Otra manera de expresar esto es que el estudio o lectura de textos de estas


materias no es un deporte de espectador, más bien hay que involucrarse activa-
mente, con otros libros, papel y lápiz a la mano. Naturalmente, esto es extenuante.
Permı́tame el lector una breve digresión. En mis cursos siempre he escuchado de
los estudiantes que el problema con estas materias es un “problema de mala base
en matemáticas”, pero nunca he tenido claro en qué punto de la vida académica
de un estudiante comienza este problema de “mala base”. En algunos casos me
consta que cierto grupo de estudiantes han tenido buenos profesores y sin embar-
go, persiste el problema de la mala base. Pues he aquı́ que el problema de la mala
base no es otro que un problema de malos hábitos de estudio. El estudiante nunca
aprendió a estudiar de esta forma, cuestionando todo cuanto lee y por lo tanto, los
conocimientos matemáticos nunca se fijaron. Pero practicar estos hábitos de estu-
dio es como hacer ejercicios; al cabo de un tiempo, ya uno no se cansa tanto y se
convierte en un hábito natural. Deberı́a intentarlo.

Además del mito de la “mala base”, existe otra creencia errónea en torno a las
matemáticas, según la cual la matemática es una materia práctica porque involucra
cálculos, en contraposición a otras materias “teóricas”. La matemática es la materia
teórica por excelencia y ası́ lo atestiguan los orı́genes etimológicos de la palabra.
“Matemática” proviene del antiguo griego µαθηµατικά (mathematika, “lo que se
aprende”), el cual a su vez deriva de µαθηµα (máthēma, “campo de estudio o ins-
trucción’) y, más remotamente, del verbo griego µανθάνω (mantháno, que signifi-
ca “instruirse, aprender, llegar a conocer”)2 . Etimológicamente y morfológicamente,
matemática es afı́n a tema o campo de estudio, que no es otra cosa que ciencia y
teorı́a. Hay que entender un poco sobre la mentalidad de los antiguos griegos para
saber que lo que ellos llamaban ciencia no tenı́a nada que ver con experimentación
o derivación del conocimiento por medios experimentales o prácticos, sino todo lo
contrario. La ciencia, según los griegos, era concebida como un saber que se al-
canzaba por medio del pensamiento y el raciocinio. Naturalmente, esto ya no es
del todo cierto porque el conocimiento cientı́fico moderno se verifica experimental-
mente. Pero aún ahora, la matemática sigue siendo un producto del pensamiento

2
Ver González˜Recio (2007), p. 354.
178 APÉNDICE A. COMO LEER UN TEXTO MATEMÁTICO

puro; es, pues, netamente teórica.

Ésta es la razón por la cual los griegos consideraban que las matemáticas eran
algo sobre lo cual habı́a que instruirse para llegar a aprenderlas. Estaban recono-
ciendo con ello que la matemática era algo difı́cil, que no se aprendı́a espontánea-
mente como aprender a caminar o a hablar y que por ello requerı́a de instrucción
y de iniciación previa. Las matemáticas no son reducibles al lenguaje ordinario que
se aprende espontáneamente. Más bien, la historia de las matemáticas es una his-
toria de cómo el lenguaje matemático se ha perfeccionado a través de los siglos
deviniendo en un vehı́culo para alcanzar verdades eternas a través del pensamien-
to puro. Por eso es que un texto de matemáticas no se puede leer rápidamente
y debemos de poner especial atención a la notación matemática, la definición de
términos y los enunciados de los teoremas.

Sobre la notación, ya hemos comentado que por ser el lenguaje matemático


tan preciso y conciso, cada sı́mbolo, cada signo en una expresión matemática es
imprescindible y le confiere un sentido exacto a la expresión. También los conceptos
y términos en matemática tienen una precisión mucho mayor que en el lenguaje
natural. Puesto que la actividad matemática consiste en su mayor parte en tratar
de establecer o deducir verdades absolutas respecto a ciertos objetos definidos
matemáticamente, las definiciones matemáticas son de extrema importancia en un
texto matemático. Son mucho más importante que las descripciones de personas o
lugares en una novela y no en vano se han resaltado a lo largo del texto mediante
cajas sombreadas como ésta .

Una definición matemática, para ser útil, tiene que redactarse de tal modo de
poder establecer resultados matemáticos respecto a lo que se define y en definiti-
va, permitir decidir si cualquier objeto en el universo pertenece a la clase definida o
no. En el uso cotidiano del lenguaje natural, nosotros no estamos acostumbrados
a manejarnos en este nivel de precisión. Por ejemplo, la palabra “información”, tal
como la utilizamos en nuestro lenguaje cotidiano, es muy imprecisa. Pero definida
matemáticamente, en el marco de la Teorı́a de la Información de Claude Shannon,
permite comparar, en orden de magnitud, la cantidad de información que se trans-
mite en un canal de comunicación u otro. Desde luego, la información matemática
no se corresponde enteramente con el término información del lenguaje natural.
Este último es mucho más ambivalente e incluye por ejemplo la acepción de infor-
mación como conocimiento que no abarca el término matemático correspondiente.
Sin embargo, gracias a la precisión del lenguaje matemático, se han podido esta-
blecer una serie de resultados en torno a los sistemas de comunicación que han
permitido crear, por citar un ejemplo, los famosos algoritmos de compresión como
el mp3 que usamos hoy en dı́a.
179

Pongamos las cosas en perspectiva mediante un ejemplo. Supóngase que es-


tamos interesados en demostrar que para todo n ∈ N, la expresión 5n + 7n es un
número par. Lo primero que deberı́amos hacer es preguntarnos “¿qué es un núme-
ro par?”. De ahı́ nos damos cuenta que uno de los problemas de “base” en nuestra
formación matemática es que no hemos entendido debidamente la importancia de
las definiciones y es esto justamente el mayor obstáculo para la comprensión de
textos matemáticos. Quizás el lector esté pensando ahora: “pero yo sé lo que es un
número par- 2,4,6,8 y ası́ sucesivamente son números pares”. En tal caso, habrı́a
dado cuatro ejemplos de números pares, pero no una definición. Además, una ca-
racterización como esa de los números pares no lo ayudarı́a mucho a demostrar lo
requerido. En un nivel mayor de sofisticación matemática, otro lector pensarı́a que
“un número par es aquel que es divisible entre dos”. Aún cuando esto fuese una
definición satisfactoria en lenguaje ordinario, tampoco ayudarı́a a demostrar lo que
se tiene en manos. Un profesor empleando la mayeutica socrática, que es como
jugar a abogado del diablo, le preguntarı́a a este lector: “bien, pero ¿que significa
ser divisible entre dos?”.

Procediendo ası́ llegarı́amos a una definición matemática de “número par” muy


parecida a esta:

x ∈ Z es un número par ⇔ ∃k ∈ Z|x = 2k

La concisión de una definición como ésta no radica solamente en la poca can-


tidad de caracteres requerida para su escritura, sino en la precisión del concepto y
todo lo demás que encierra “entre lı́neas”. Pero para leer entre lı́neas hay que co-
nocer muy bien los sı́mbolos matemáticos y tomarse el tiempo de leer la definición
muy detenidamente, haciéndose preguntas conforme a la segunda recomendación
y recordando siempre que toda definición debe permitir decidir inequı́vocamente
si cualquier objeto pertenece a la clase de objetos que estamos definiendo. Por
ejemplo, ¿es 32 un número par? La respuesta serı́a no, porque 23 ∈ / Z y estaba es-
crito entre lı́neas que sólo los números enteros pueden ser pares (fı́jese bien en
la definición). Por otro lado, 112 sı́ es un número par porque puede ser expresado
como producto de un entero por dos (de hecho, 112 = 2 · 56). Esto también estaba
planteado en la definición. Entonces, para puntualizar, daremos el
180 APÉNDICE A. COMO LEER UN TEXTO MATEMÁTICO

Tercer consejo

Preste especial atención a las definiciones y lealas muy detenidamente.


Cualquier término (fuera del que se esté definiendo) o sı́mbolo que figu-
ra en la definición debe ser completamente aclarado. Recuerde que toda
definición matemática debe permitir decidir inequı́vocamente si cualquier
cosa pertenece o no a la clase de objetos que se está definiendo. De mo-
do tal que tras leer la definición debe intentar dar ejemplos de cosas que
pertenecen a la clase definida y cosas que no.

Cuando se encuentre un problema como aquel en la Unidad 3 que pide “de-


mostrar que el valor esperado de un incremento en una martingala es necesa-
riamente igual a cero”, no desespere ni entre en pánico. Recuerde que avanzará en
la solución del problema en la medida en que aclare los términos matemáticos que
figuran en el enunciado (y que aquı́ hemos resaltado de la misma manera que se
han resaltado las definiciones a lo largo del texto para recordarle que debe remitirse
a ellas). En este caso tendrı́a que suponer un proceso estocástico {Xi |i ∈ T } que
fuese a la vez martingala. En virtud de la definición de martingala, puede suponer
también que se cumple E(Xn ) < ∞ para todo n y que E(Xn+1 |X0 , X1 , . . . , Xn ) = Xn , a
partir de lo cual procederı́a a demostrar lo requerido recordando que como entre las
propiedades de la martingala figuran expresiones que involucran esperanzas con-
dicionales, debe tomar en cuenta las propiedades de las esperanzas condicionales
también. Ahora volvamos al problema que habı́amos propuesto como ejemplo.

¿Como podemos demostrar que para todo n ∈ N, 5n + 7n es un número par?


Podemos explorar lo que sucede para algunos valores de n, haciendo una tabla
como esta:

n 5n + 7n ¿Es par?
0 50 + 70 = 2 si
1 51 + 71 = 12 si
2 52 + 72 = 74 si
.. ..
. . ?

Pero no habrı́amos demostrado nada. Tan solo hemos verificado que 5n + 7n


es par para n = 0, 1 y 2 pero el conjunto N es infinitamente grande. En cambio, si
podemos demostrar que para todo n ∈ N, 5n +7n se puede expresar como producto
de 2 por un entero cualquiera, habremos demostrado, según nuestra definición
matemática de número par, que 5n + 7n es un número par. Hay por lo menos dos
vı́as para hacerlo. Esta es una:
181

5n + 7n = 5n + (5 + 2)n ➒ 7=5+2
n  
n i n−i expansión del binomio (5 + 2)n (ver Teo-
n
=5 +∑ 52 ➒ rema binomial de Newton)
i=0 i
n−1  
n n n i n−i
= 5 +5 + ∑ 52
i=0 i
n−1  
n i n−i−1 factorizacion de los sumandos en la su-
n
= 2·5 +2 ∑ 52 ➒
matoria
i=0 i
!
n−1  
n
= 2 5n + ∑ 5i 2n−i−1
i=0 i
= 2k, donde k ∈ Z

El precedente es un ejemplo de como utilizar una definición matemática para


demostrar algo. Nótese también que todo paso en una demostración se justifica por
medio de alguna propiedad, axioma o definición. En la demostración precedente
y en algunas otras de este libro hemos justificado algunas igualdades al margen
derecho. Estas justificaciones se han incluido aquı́ por razones de didáctica, pero
normalmente los libros de matemática suponen que el lector tiene suficiente nivel
matemático para explicar él mismo cada paso de una demostración. Desde luego,
este no es su caso porque si lo fuese, ¡no estarı́a leyendo esto!

Cuarto consejo

Las demostraciones tienen un alto valor instructivo. Antes de demostrar al-


go formalmente, reflexione sobre lo que se pretende establecer. Explore
algunos casos para verificar la proposición a demostrar e intente entender
intuitivamente el porqué de su validez. Luego, para demostrar la proposi-
ción matemáticamente, haga uso de las definiciones, axiomas y otros re-
sultados establecidos previamente (propiedades, teoremas, proposiciones,
etc.).

Las matemáticas no son un asunto de sacar cuentas de bodega o meros cálcu-


los. En el fondo, es una ciencia en la cual cada nuevo conocimiento se establece
como una consecuencia lógica de otros conocimientos establecidos o demostrados
previamente. Como admirablemente lo expresaba Bertrand Russell en su Principia
182 APÉNDICE A. COMO LEER UN TEXTO MATEMÁTICO

mathematica: “La matemática es la clase de todas las proposiciones de tipo p im-


plica q.”3 . No deja de haber cierta belleza- y he aquı́ el elemento de apreciación
estética en el estudio de las matemáticas - en la forma en que poco a poco se ha
construido este magna opus del conocimiento humano sobre tan pocos supuestos
(los axiomas). También se puede encontrar la belleza en la manera en que algunos
matemáticos han formalizado nociones imprecisas a través de definiciones ma-
temáticas concisas y luego constatar como estas permiten deducir resultados que
se corresponden muy de cerca con los fenómenos reales.

Para terminar con el ejemplo sobre los números pares, se intentará demostrar
que 5n + 7n es un número par a través del método de la inducción completa , en el
cuál se define una proposición lógica que depende de n. Para nosotros esta serı́a:

Pn ≡ 5n + 7n es un número par.

Entonces, primero demostrarı́amos que Pn es válida para un n inicial, diga-


mos n = 0, lo cual ya hicimos cuando verificamos arriba que 50 + 70 = 2 es un
número par. Seguidamente, suponemos que Pn es cierto (hipótesis inductiva ). Si
demostramos que como consecuencia lógica de la hipótesis inductiva, Pn+1 es cier-
to también, habremos demostrado que Pn es verdad para cualquier n ∈ N. Esto lo
haremos seguidamente:

5n + 7n = 2k para algún k ∈ Z ⇒ ➒ Hipótesis inductiva


multiplicando ambos lados de la
7 · 5n + 7n+1 = 14k ⇒ ➒ ecuación por 7
7=5+2 y se reagrupan los térmi-
5n+1 + 7n+1 = 14k − 2 · 5n ⇒ ➒
nos.
5 n+1
+7 n+1 n
= 2(7k − 5 ) = 2k ′
⇒ ➒ k′ = 7k − 5n ∈ Z
Se cumple Pn+1

3
En este conjunto de obras, Russell se proponia derivar la mayor parte de los conocimientos ma-
temáticos a partir de un conjunto pequeño de axiomas. Con el Teorema de Incompletitud de Kurt
Gödel, quedo demostrado que ningún conjunto de axiomas puede ser completo (en el sentido en
que permita establecer la validez o no validez de cualquier proposición) y consistente (en el sentido
en que los axiomas no sean contradictorios) a la vez. Esto significa que se demostró la existencia
de proposiciones no demostrables. Sin embargo, los matemáticos aún siguen demostrando proposi-
ciones y otros más ambiciosos siguen en su lucha prometeica por conquistar lo imposible. Esta es
una de las historias más apasionantes de la matemática, sobre la cual existe una novela titulada “El
Tio Petros y la conjetura de Goldbach” escrita por el griego Apostolos Doxiadis, la cual recomiendo
ampliamente.
183

Ya que se mencionó el método de la inducción completa, también existe otro


método de uso muy frecuente en demostraciones matemáticas, que es el de reduc-
ción al absurdo . La reducción al absurdo parte de negar la premisa que se quiere
demostrar y a través de una secuencia de implicaciones lógicas válidas, se llega a
una contradicción. Dicha contradicción (el absurdo) no puede ser consecuencia de
premisas lógicamente válidas, sino que se desprende de negar la premisa que se
querı́a demostrar, con lo cual se demuestra que dicha premisa es verdadera (por-
que no puede ser falsa). No es este el lugar para hacer una exposición completa
sobre métodos de demostración matemática, pero si es oportuno sugerir una lista
de temas que deberı́an conformar la “base matemática” del estudiante para poder
entender el lenguaje matemático y en la cuyos elementos todas las ramas de la
matemática encuentran su modo de expresión:

Quinto consejo

Con la finalidad de adquirir unas bases sólidas del lenguaje matemático,


haga un repaso de los siguientes temas:

Lógica matemática

Teorı́a de Conjuntos

Métodos de demostración matemática


184 APÉNDICE A. COMO LEER UN TEXTO MATEMÁTICO
Índice alfabético

álgebra, 3 independientes vs. mutuamente ex-


sigma álgebra, 4 cluyentes, 26
mutuamente excluyentes, 3
axiomas de Kolmogorov, 5 experimentos aleatorios, 3

barreras absorbentes, 97 función caracterı́stica, 16


Brown, R., 112 propiedades, 16
función de distribución
cadena de Markov, 76, 168 de primer y segundo orden, 64
probabilidad de transición, 168 finito-dimensional, 64
caminata aleatoria, 75 función de distribución de probabilidad,
coeficiente de correlación, 28 11
convolución, 29 función de valor medio, 71
covarianza, 28 función generatriz, 17
propiedades, 18
ecuaciones en diferencias, 99
espacio de estados, 63 grafos
espacio de probabilidad, 5 matriz de adyacencia, 169
espacio muestral, 3 representación de cadenas de Mar-
espacio probabilizado, 5 kov, 169
esperanza
definición, 13 hipótesis inductiva, 182
propiedades, 14
incrementos
esperanza condicional, 66
estacionarios, 74
estimación puntual, 159
independientes, 72
estocástico
indentación (en la programación), 48
origen de la palabra, 62
intensidad de flujo, 134, 145
evento
complementario, 3 Kolmogorov, A.N., 4
evento elemental, 3
eventos, 3 Laplace, P.S, 7, 77
independientes, 26 ley de los grandes números, 8

185
186 ÍNDICE ALFABÉTICO

método de la inducción completa, 182 length, 45


martingala, 75 paste, 43
matriz de transición, 169 replicate, 103
momento de orden uno, 13 return, 103
momento factorial de orden k, 18 runif, 55
movimiento Browniano, 77 sample, 52
sapply, 103
núcleo de covarianza, 71 seq, 45
Poisson, S. D., 131 setdiff, 52
probabilidad, 4, 7 sqrt, 43
definición frecuentista, 9 union, 52
definición según Laplace, 8 which, 93
probabilidad condicional, 65 while, 47
problema de la ruina del jugador, 97 asignación (<-), 44
proceso de conteo, 76 comentarios (#), 47
proceso de Markov, 76 constantes lógicas, 42
proceso de Poisson generación de números aleatorios,
intensidad de flujo, 145 57
simulación, 147 identificadores, 44
tiempo inter-eventos, 145 indexación, 46
proceso de Poisson homogéneo, 76 operadores lógicos, 44
proceso de Wiener, 78 operadores lógicos de comparación,
proceso estocástico 44
débilmente estacionario, 74 vectorizar, 48
de parámetro discreto o continuo, 63 reducción al absurdo, 183
definición, 63 ruido blanco, 75
estrictamente estacionario, 74 series de tiempo, 63
estrictamente estacionario de orden
n, 74 tabla de contingencia, 32
trayectoria, 63 Tchebyschev, cota de, 15
propiedad de Markov, 76, 168 teorema
Central del Lı́mite, 77
R Levy, 17
NA, 46
cat, 52 valor medio, 13
cumsum, 89 variable aleatoria, 10
c, 45 continua, 12
function, 102 discreta, 12
hist, 55 independientes, 27
ifelse, 52 n-dimensional, 23
ÍNDICE ALFABÉTICO 187

varianza, 14
propiedades, 15
vector aleatorio, 23

Wiener, N., 77
188 ÍNDICE ALFABÉTICO
Bibliografı́a

B ROWN, R. (1828). ‘A brief account of microscopical observations made in the


months of June, July and August, 1827, on the particles contained in the pollen of
plants; and on the general existence of active molecules in organic and inorganic
bodies.’ Edinburg new Philosophical Journal, pp. 358–371. Disponible en: http:
//sciweb.nybg.org/science2/pdfs/dws/Brownian.pdf.

C ANAVOS, G. (1988). Probabilidad y Estadı́stica - Aplicaciones y métodos.


McGraw-Hill/Interamericana de Mexico, México.

C AZ ÁS P ERNAS , D.; S OUTO AGUI ÓN , P.; T EIJEIRO B ARJAS , C. y V I -


LAR C ASTRO, C. (2004). ‘Fractales - Movimiento Browniano’. Dis-
ponible en: http://sabia.tic.udc.es/gc/Contenidos%20adicionales/
trabajos/Imagenyvideo/fractales/movimiento_browniano.htm.

C HING , W., N G , M. (2006). Markov Chains: Models, Algorithms and Applications.


Springer Science+Business Media, Inc..

DAVIS, M. (1971). Introducción a la teorı́a de juegos. Alianza Editorial.

D EVORE, J. (2001). Probabilidad y estadı́stica para ingenierı́a y ciencias. Interna-


cional Thomson Editores, S.A. de C.V., Mexico, 5ªedición.

F ELLER, W. (1968). An Introduction to Probability Theory and Its Applications -


Volume I. John Wiley & Sons, 3ªedición.

F ERN ÁNDEZ, B.. ‘La Ley de los Eventos Raros, legado de Simeon
Denis Poisson’. Disponible en: www.cimat.mx/Eventos/vpec10/img/
ArticuloBegonaFernandez.pdf.

G ONZ ÁLEZ R ECIO, J. (2007). Átomos, almas y estrellas: estudios sobre la ciencia
griega. Plaza y Valdes, S.A. de C.V., México.

189
190 BIBLIOGRAFÍA

G RINSTEAD, C., S NELL , J. (1997). Introduction to Probability. American Mathema-


tical Society, 2ªedición.
http://www.dartmouth.edu/˜chance/teaching_aids/books_articles/
probability_book/book.html

L APLACE, P.S. (1886). Théorie Analytique des Probabilités. Gauthier-Villars, Paris.

L UCRETIUS. ‘De rerum natura’. Disponible en: http://www.thelatinlibrary.


com/lucretius.html.

N AUMOV, V., B ASHARIN , G. L ANGVILLE , A.. ‘The life and work of A. A. Mar-
kov’. Disponible en: https://netfiles.uiuc.edu/meyn/www/spm_files/
Markov-Work-and-life.pdf % finalpoint

N ELSON, E. (2001). Dynamic Theories of Brownian Motion. 2ªedición. Disponible


en: http://www.math.princeton.edu/˜nelson/books/bmotion.pdf.

N ORRIS, J. R. (1998). Markov Chains. Cambridge University Press.

O RELLANA , M., Y OTROS (1995). Ecuaciones Diferenciales - Tomo I. Universidad


Nacional Abierta, Caracas, 3ªedición.

O RTEGA , J., Q UIDEL , P. (1995). Procesos Estocásticos - Tomo I. Universidad


Nacional Abierta, Caracas, 4ªedición.

PARADIS, E. (2002). R para principiantes. Traducido por: J. Ahumada.


http://cran.r-project.org/doc/contrib/rdebuts_es.pdf

PARZEN, E. (1962). Stochastic Processes. Holden-Day, San Francisco.

Q UIDEL , P., G ONZ ÁLEZ , J. (1984). Introducción a la teorı́a de la probabilidad. Uni-


versidad Nacional Abierta, Caracas.

R D EVELOPMENT C ORE T EAM (2008). R: A Language and Environment for Statis-


tical Computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN
3-900051-07-0.
http://www.R-project.org

R EBOLLEDO, R. (2002). ‘El azar y sus modelos’. En: IV Jornadas Rolando Chuaqui
Kettlun, .
www.mat.puc.cl/˜rrebolle/Azar/azar-foils.pdf

R ESNICK, S. (2005). Adventures in stochastic processes. Birkhäuser Boston, New


York.
BIBLIOGRAFÍA 191

R IETZ, H. L (1927). Mathematical Statistics. Carus Mathematical Monographs.


Open Court Publishing Co..

R INC ÓN, L. (2011). Introducción a los procesos estocásticos. Mexico.

R IOS, S. (1977). Métodos Estadı́sticos. Ediciones del Castillo, S.A., Madrid,


2ªedición.

R OMERO PALMA, J. L. (2009). ‘Modelos de caminata aleatoria con paso uni-


tario y procesos de Wiener generalizados equivalentes a un proceso de
movimiento browniano’. Disponible en: https://sites.google.com/site/
unamatematicaseltigre/.

S IEGEL, S. (1974). Estadı́stica no paramétrica aplicada a las ciencias de la con-


ducta. Editorial Trillas, México, 2ªedición.

S IMONSON , S. y G OUVEA , F. (2003). ‘How to Read Mathematics’. Disponible en:


www.ed.sc.edu/raisse/pdf/MathArticles/HowtoReadMathematics.pdf.

También podría gustarte