Está en la página 1de 195

Introducción a la Teorı́a de Probabilidad y Métricas

Probabilı́sticas con Aplicaciones en Seguros y


Finanzas.

Evgueni I. Gordienko y X. Itxel Popoca-Jiménez.

21 de julio de 2014
Prólogo

El presente libro es un complemento a los cursos estándares de la teorı́a de la probabi-


lidad. Los primeros tres capı́tulos del libro ofrecen una introducción concisa, no formal, a
la teorı́a de probabilidad contemporánea, y pueden servir en la preparación de exámenes
de cursos introductorios o intermedios de probabilidad. En otra parte del libro se puede
encontrar el moderno y fuerte método de métricas probabilı́sticas, en donde se muestran
algunas aplicaciones para el estudio de algunos modelos en seguros y finanzas. En par-
ticular, se considera el modelo de riesgo de Cramer-Lundberg (con resultados sobre su
estabilidad) y también un modelo simplificado de inversión (portafolio) óptima.

A pesar de la brevedad del libro, se expone con bastante profundidad (en comparación
con la mayorı́a de los cursos introductorios) la Ley Fuerte de los Grandes Números y los
Teoremas Centrales del Lı́mite. En este último tema nos enfocamos en el uso del método
métrico y de las aplicaciones reales, en particular, a los procesos de riesgo. Además con-
sideramos que los dos temas mencionados tienen un valor conceptual en la formación de
estudiantes dedicados a cualquier ciencia.

Para comprender el contenido del libro, es suficiente tener un manejo de álgebra ele-
mental y de cálculo diferencial e integral básico. Los ejemplos y ejercicios presentados
(frecuentemente no estándares) constituyen un integrante esencial del texto, y sirven para
ampliar y profundizar el material expuesto, incluso algunas veces revelan propiedades sor-
prendentes de los objetos aleatorios. Alrededor del 35 % de los ejercicios y una cantidad
significativa de los ejemplos, son originales.

i
Lista de abreviaturas y de notaciones estándares

a.c. - absolutamente continua;


f.d. - función de distribución;
i.e. - “id est” es decir;
i.i.d. - independientes e idénticamente distribuidas;
v.a. - variable(s) aleatoria(s);
LFGN - Ley Fuerte de los Grandes Números;
Resp. - respuesta;
sys - si y sólo si;
TCL - Teorema(s) Central(es) del Lı́mite;
R - el conjunto de los números reales;
N - el conjunto de los números naturales;
Ω - espacio muestral;
P - probabilidad;
FX - función distribución (f.d.) de la v.a. X;
fX - densidad de la v.a. a.c. X;
EX - esperanza de la v.a. X;
V ar(X) - varianza de la v.a. X;
:= - “por definición”;
f :A→B - función f definida del conjunto A y que toma va-
lores en el conjunto B.

Alfabeto griego

α alfa ι iota ρ, % ro
β beta κ kappa σ sigma
Γ, γ gamma λ lambda τ tao
∆, δ delta µ mi υ ı́psilon
ε,  épsilon ν ni φ, ϕ fi
ζ zeta ξ xi χ ji
η eta o ómicron ψ psi
θ theta π pi Ω, ω omega.

ii
Índice general

Prólogo I

Introducción VII

1. Espacio de probabilidad 1
1.1. Espacio de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Variables aleatorias y sus distribuciones . . . . . . . . . . . . . . . . . . . . 5
1.3. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2. Independencia 21
2.1. Independencia de eventos y variables aleatorias . . . . . . . . . . . . . . . 21
2.2. Fórmula de probabilidad total. . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

3. Esperanza y varianza 39
3.1. Esperanza. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.2. Varianza y desigualdad de Chebyshev . . . . . . . . . . . . . . . . . . . . . 43
3.3. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

4. Esperanza condicional 59
4.1. Esperanza condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.2. Caminatas aleatorias simples . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.2.1. Caminata aleatoria con dos barreras absorbentes. . . . . . . . . . . 67
4.2.2. Caminata aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.3. Proceso de Poisson. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.4. Modelo clásico de riesgo (de Cramér-Lundberg) . . . . . . . . . . . . . . . 73
4.4.1. Descripción del modelo y el capital promedio. . . . . . . . . . . . . 73
4.4.2. Probabilidad de ruina. . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

iii
ÍNDICE GENERAL

5. Esperanza geométrica 87
5.1. Esperanza geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.2. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

6. Ley fuerte de los grandes números e inversiones óptimas 93


6.1. Convergencia con probabilidad uno . . . . . . . . . . . . . . . . . . . . . . 93
6.2. Primeras aplicaciones de la LFGN . . . . . . . . . . . . . . . . . . . . . . . 101
6.3. Un modelo simplificado de optimización de inversiones . . . . . . . . . . . 105
6.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

7. Convergencia débil 121


7.1. Convergencia débil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
7.2. Espacios métricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
7.3. Métricas probabilı́sticas y convergencia débil . . . . . . . . . . . . . . . . . 129
7.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

8. Teorema Central del Lı́mite 143


8.1. Observaciones introductorias . . . . . . . . . . . . . . . . . . . . . . . . . . 143
8.2. Teoremas Centrales del Lı́mite . . . . . . . . . . . . . . . . . . . . . . . . . 146
8.3. Notas sobre la exactitud de la aproximación Normal . . . . . . . . . . . . . 153
8.4. ¿Por qué en los TCL la distribución del lı́mite es Normal? . . . . . . . . . 157
8.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162

9. Estabilidad de algunos modelos estocásticos aplicados 167


9.1. Desigualdades de estabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . 167
9.2. Estimación de la estabilidad en el modelo de riesgo de Cramér-Lundberg . 172
9.3. Estimación de la estabilidad en otros modelos . . . . . . . . . . . . . . . . 176
9.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178

Bibliografı́a. 181

iv
Índice de figuras

1.1. Espacio de Probabilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2


1.2. Intersección y complemento. . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3. A subconjunto (o subevento) de B. . . . . . . . . . . . . . . . . . . . . . . 4
1.4. Lanzamiento en el cuadrado. . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.5. Función distribución FX (x). . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Rb
1.6. El área rayada = a fX (x)dx = P (X ∈ [a, b]). . . . . . . . . . . . . . . . . . 9
1.7. Interpretación de la densidad. . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.8. Densidad de la v.a. exponencial. . . . . . . . . . . . . . . . . . . . . . . . . 11
1.9. Función distribución de la v.a. exponencial. . . . . . . . . . . . . . . . . . . 12
1.10. Campanas de Gauss (densidad Normal). . . . . . . . . . . . . . . . . . . . 13
1.11. La densidad uniforme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.12. Punto de caı́da aleatoria. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.1. Eventos dependientes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22


2.2. D = el rectángulo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.3. D = el cı́rculo de radio r. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.4. Densidad conjunta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.1. Esperanza y varianza de la v.a. Normal. . . . . . . . . . . . . . . . . . . . 46


2 2
3.2. Función impar: f (y) = ye−y /2σ . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.3. Dos densidades uniformes. . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.4. La densidad de una v.a. X con varianza pequeña. . . . . . . . . . . . . . . 48
3.5. Ilustración de la desigualdad de Chebyshev. . . . . . . . . . . . . . . . . . 50
3.6. “Regla 3σ”para v.a. normales P (a − 3σ ≤ X ≤ a + 3σ) ≈ 0.9974 es cercana
a 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.7. Densidad uniforme en (0, 120). . . . . . . . . . . . . . . . . . . . . . . . . . 51

4.1. Caminata aleatoria simple. . . . . . . . . . . . . . . . . . . . . . . . . . . . 65


4.2. Caminata con dos barreras absorbentes. . . . . . . . . . . . . . . . . . . . 67

v
ÍNDICE DE FIGURAS

4.3. Con x = 5 hay más chances de alcanzar primero el punto 0 (ruina) que el
punto a = 1000. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.4. Ruina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.5. La trayectoria tı́pica de un proceso de Poisson. . . . . . . . . . . . . . . . . 71
4.6. Modelo clásico de riesgo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4.7. Capital promedio de una compañı́a de seguros. . . . . . . . . . . . . . . . . 75
4.8. Una trayectoria posible del capital corriente. . . . . . . . . . . . . . . . . . 76
4.9. Capital inicial nuevo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

6.1. La “ilustración” de convergencia de v.a. con probabilidad 1 (casi segura). . 96


6.2. Densidad de Cauchy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
6.3. Gráfica de ψ(q). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
6.4. Gráfica de ϕ(q). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

7.1. Aproximación de la f.d. de v.a. degeneradas. . . . . . . . . . . . . . . . . . 123


7.2. Espacio métrico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
7.3. Una sucesión numérica convergente. . . . . . . . . . . . . . . . . . . . . . . 126
7.4. Métrica uniforme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
7.5. Ilustración de la diferencia entre máximo y supremo. . . . . . . . . . . . . 128
7.6. La distancia uniforme entre las f.d. . . . . . . . . . . . . . . . . . . . . . . 129

8.1. Campana de Gauss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144


8.2. La distribución Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
8.3. La densidad Normal estándar. . . . . . . . . . . . . . . . . . . . . . . . . . 147
8.4. La aproximación de la f.d. FYn por la Normal Φ. . . . . . . . . . . . . . . . 149
8.5. Distribución de Bernoulli asimétrica. . . . . . . . . . . . . . . . . . . . . . 155

vi
Introducción
A pesar de que el presente libro es conciso, sus finalidades son múltiples. La primera, es
dar una introducción no formal y extremadamente breve a los conceptos más importantes
de la teorı́a de probabilidad moderna. De lo cual, las definiciones y proposiciones se ilus-
tran a partir de ejemplos transparentes e intuitivos. Además, no siempre se proporcionan
las demostraciones de los teoremas. Sin embargo, se les acompaña de alguna explicación
sobre las ideas de la prueba, se ilustran a partir de ejemplos y se pone énfasis en las apli-
caciones de modelos estocásticos sencillos de carácter práctico (juegos de azar, modelos
de riesgo, entre otros).

La segunda finalidad es dar una introducción corta a un relativamente nuevo y fuerte


método de la teorı́a de probabilidad, llamado el método de métricas probabilı́sticas. Has-
ta donde conocemos, este tema no está cubierto en los libros de texto (incluyendo libros
en inglés). Entre muchas otras cosas, el método ofrece breves demostraciones intuitiva-
mente claras de los Teoremas Centrales del Lı́mite. Dichas demostraciones nos brindan,
también, una correcta estimación de la tasa de convergencia a la distribución Gaussiana,
y revelan por qué ésta funciona como la distribución del lı́mite para sumas de variables
aleatorias independientes con varianzas finitas. Este método también permite desarrollar
desigualdades para estimar las perturbaciones de las distribuciones de sumas de variables
aleatorias no Gaussianas.

La presentación de ciertas desigualdades mencionadas y sus aplicaciones en evaluacio-


nes de estabilidad (robustez) de los modelos de riesgo conforman la tercera finalidad del
libro. Especı́ficamente, se estudia la estabilidad del modelo de riesgo de Cramer-Lundberg.

Otro objetivo del libro es ofrecer un conjunto de ejercicios selectos, los cuales ayudan
a profundizar el aprendizaje del material expuesto, y algunas veces proveen propiedades
o respuestas intuitivamente inesperadas. La mayorı́a de los ejercicios son bastante sim-
ples, y pocos de ellos recurren a los cálculos de rutina. Una cantidad significativa de los
ejemplos y alrededor del 35 % de los ejercicios son originales. Cabe mencionar que algunos
ejercicios necesitarán para su solución material aún no visto en el capı́tulo respectivo, sin

vii
embargo se le recomienda al lector intentarlos y en su defecto esperar resolverlos hasta la
adquisición del nuevo material.

La presente obra no está diseñada para ser un libro de texto en los cursos tradicionales,
mas bien tiene como objetivo ser un material complementario y de apoyo para los cursos
introductorios o intermedios de probabilidad y de probabilidad aplicada. Para entender-
lo son suficientes conocimientos sobre cálculo diferencial e integral y álgebra elemental.
Algunas nociones un poco más avanzadas, como la suma de una serie infinita, se aclaran
brevemente en el libro. Puntualizamos que para comprender este breve libro es suficiente
tener voluntad, algo de imaginación y un manejo del cálculo.

En este texto, también, introducimos de manera más profunda los Teoremas Centrales
del Lı́mite de la teorı́a de probabilidad, dirigiendo la atención a los puntos claves en sus
formulaciones y demostraciones. Como se mencionó en el prólogo, la Ley de los Grandes
Números y el Teorema Central del Lı́mite juegan un papel conceptualmente importante
y en ese sentido salen del marco de la teorı́a de probabilidad por sı́ misma. Entonces,
la diferencia con casi todos los textos introductorios a la teorı́a de probabilidad son las
palabras clave en los capı́tulos del 6 al 9: “teorema del lı́mite” y “convergencia”.

Si algún lector desea entender más cosas interesantes sobre la teorı́a de la probabili-
dad, pero le parece que el presente libro es difı́cil, puede leer buenos libros como el Hoel
et al (1971) y el Pitman (1993). Si por el contrario, el lector con una preparación sólida
en matemáticas desea profundizar en algunos temas, puede consultar el curso avanzado
expuesto en el Durrett (1991); o un buen curso intermedio en Meester (2003). De entre
los textos sobre procesos de riesgo en seguros, recomendamos el libro Rincón (2012) o el
muy completo texto de Rolski et al (1999). El libro de Korn & Korn (2001) da una buena
introducción al tema de optimización de polı́ticas de inversiones (control de portafolios)
y a otros temas importantes de la matemática financiera moderna. El lector puede en-
contrar algunas notas sobre interpretaciones del concepto de probabilidad en las ciencias
naturales en Gordienko (2011).

Finalmente queremos agradecer a todos aquellos que nos ayudaron a la realización del
presente libro, muy particular a Guadalupe Franco, y por sus valiosos comentarios al Dr.
Adolfo Minjarez Sosa y al Dr. Andrey Novikov.

viii
Capı́tulo 1

Espacio de probabilidad, variable


aleatoria y su distribución

1.1. Espacio de probabilidad.


La teorı́a de probabilidad es una rama de las matemáticas creada para el estudio de
los fenómenos aleatorios, es decir, fenómenos impredecibles de alguna forma. Los concep-
tos básicos de la teorı́a son probabilidad y variable aleatoria (v.a.), y para definirlos
se usa un modelo axiomático llamado espacio de probabilidad. A pesar de que esta
construcción es puramente abstracta, algunas veces es posible (y muy útil) interpretarla
en términos de “experimentos aleatorios”. Por ejemplo, al lanzar un dado simétrico (bien
balanceado), el espacio muestral Ω = {ω1 , ω2 , . . . , ω6 } se usa para describir todos los
resultados posibles del experimento, donde ωk “representa el puntaje k del dado” con
k = 1, 2, . . . , 6.

Los eventos son subconjuntos del espacio muestral Ω. Por ejemplo, en el lanzamien-
to de un dado simétrico podemos considerar el evento A = {sale un puntaje mayor que
4} = {ω5 , ω6 }. La probabilidad P asignada a cada evento es una medida numérica de la
posibilidad de la ocurrencia del evento. En el caso del dado simétrico, una probabilidad
asignada al evento A es P (A) = 26 = 13 . Más adelante, en el Ejemplo 1.1, se analizará el
caso cuando se realizan dos lanzamientos de un dado simétrico. Más aún, en el Ejemplo
1.3 definimos X := el puntaje sumado, lo cual es un ejemplo de una variable aleatoria.
Otro ejemplo, es el tiempo de vida (o edad, medida en años) que tendrá un recién nacido.
De acuerdo con las estadı́sticas de mortalidad en épocas recientes se sabe que la probabi-
lidad de que un individuo viva entre 60 y 100 años es cercana a uno; esto último se denota
como P (60 6 Y 6 100) ≈ 1, donde P es la función denominada probabilidad y Y es
la v.a. que representa el tiempo de vida de un individuo. Esta última expresión significa

1
1.1. Espacio de probabilidad

que la probabilidad es cercana a “1” o al 100 %, lo cual representa el valor máximo de


la probabilidad. Las estadı́sticas, también tienen como resultado que las probabilidades
P (Y < 0.01) o P (Y > 110) son cercanas a cero. Todos estos conceptos serán definidos de
manera más precisa en el presente capı́tulo.

Definición 1.1 Un espacio de probabilidad es la tripleta (Ω, F, P ), donde


1. Ω es un conjunto llamado espacio muestral;

2. F = {A1 , A2 , A3 , . . . } es una familia de subconjuntos de Ω, donde A1 , A2 , A3 , . . .


se denominan eventos (con la propiedad de que la unión A1 ∪ A2 ∪ A3 ∪ . . . , la
intersección A1 ∩A2 ∩A3 ∩. . . y los complementos Ai = Ω\Ai , también son eventos,
para cada colección finita o numerable de los eventos A1 , A2 , A3 . . . );

3. P es una función (regla de correspondencia) que asigna a cada evento A ∈ F, el


número P (A) ∈ [0, 1], llamado la probabilidad del evento A. Esta función P
denominada probabilidad debe satisfacer las siguiente condiciones:

(i) P (Ω) = 1;
(ii) P (A1 ∪ A2 ∪ A3 ∪ . . . ) = P (A1 ) + P (A2 ) + P (A3 ) + . . .

cuando los eventos A1 , A2 , A3 , . . . sean disjuntos, es decir, los eventos no tengan


elementos en común Ai ∩ Aj = ∅ (conjunto vacı́o) para cada i 6= j(en la Figura 1.1,
por ejemplo, A1 y A4 no son disjuntos, pero A2 y A3 sı́ lo son).

Ω
A4
A1
A2
A3
0 P(A1) P(A2) 1

Figura 1.1: Espacio de Probabilidad.

Notemos que [0, 1] denota al conjunto de todos los números reales entre 0 y 1 (in-
cluyendo a éstos), pero la notación {x1 , x2 , . . . , xk , . . . } indica que se incluyen sólo los
números reales x1 , x2 , . . . , xk . . . En particular, el conjunto {0, 1} consiste solamente de
los números 0 y 1.

2
CAPÍTULO 1. ESPACIO DE PROBABILIDAD

Ejemplo 1.1 Un dado simétrico se lanza dos veces. A este “experimento” corresponde
el siguiente espacio de probabilidad:
Espacio muestral: Ω = {ω = (i, j); i, j = 1, 2, . . . , 6};
Eventos: F = {todos los subconjuntos de Ω};
# de ω ∈ A # de ω ∈ A
Probabilidad: P (A) := = .
# de ω ∈ Ω 36
En este ejemplo, Ω es un conjunto finito que representa todos los resultados del expe-
rimento aleatorio, donde, i, j son los puntajes correspondientes al primer y al segundo
lanzamiento, respectivamente. Por ejemplo, considérense los eventos:
A := {la suma del puntaje es 10} = {(4, 6), (6, 4), (5, 5)} y
B := {el producto del puntaje es > 24} = {(4, 6), (6, 4), (5, 5), (5, 6), (6, 5), (6, 6)}. En-
3 1 6
tonces se tiene que P (A) = 36 = 12 y P (B) = 36 = 16 .

Nota 1.1 (a) Para recordar las operaciones con conjuntos: unión A ∪ B, intersección
A ∩ B y complemento A = Ω\A, vea las siguientes Figuras, donde A ∪ B es la

Ω Ω

Β _
A'B Α
Α Α
ω

Figura 1.2: Intersección y complemento.

imagen resaltada con \\\, A ∩ B está resaltada con × × × y A se resalta con ///.
También A\B consta de los elementos de A que no pertenecen a B.
(b) Cuando ω ∈ A, diremos que ocurre el evento A. En el ejemplo anterior, si resulta
que ω = (6, 4), se dice que ocurre A, pero si ω = (4, 1), entonces ocurre A, puesto
que ω ∈/ A, o bien ω ∈ A. El caso en que ω ∈ A ∪ B se refiere a la ocurrencia de A
o B. Si ω ∈ A ∩ B, entonces se tiene la ocurrencia simultánea de los eventos A y B.
En el Ejemplo 1.1, A ⊂ B (i.e. A es un subconjunto de B o bien la ocurrencia del
evento A implica la ocurrencia del evento B, véase la Figura 1.3), y por eso en este
caso A ∪ B = B, A ∩ B = A.

(c) Observe que en la Figura 1.3 los eventos A y C son disjuntos, es decir A ∩ C = ∅.
Esto significa que A y C no tienen elementos en común y por eso no pueden ocurrir
simultáneamente.

3
1.1. Espacio de probabilidad


B
A
C

Figura 1.3: A subconjunto (o subevento) de B.

Ejemplo 1.2 Un “punto” se “lanza” al azar dentro del cuadrado unitario. A este expe-
rimento (puramente imaginario) corresponde el siguiente espacio de probabilidad:

y
1

ωy ω
X(ω)

x
0 ωx 1

Figura 1.4: Lanzamiento en el cuadrado.

Espacio muestral. Todos los “puntos”del cuadrado unitario los cuales forman un
conjunto infinito y no numerable, (i.e. no contable por 1, 2, 3, . . . ), es decir

Ω = {todos los puntos ω del cuadrado en la Figura 1.4}.

Eventos.
F = {todos los subconjuntos A de Ω para los cuales el área de A está bien definida}.

Probabilidad. P (A) := el área de A, (para todos los eventos de F).

4
CAPÍTULO 1. ESPACIO DE PROBABILIDAD

y
1 De la Figura tenemos por ejemplo: P (A) = la pro-

babilidad de que el ‘punto’ va a caer dentro del
B
1/2 conjunto A = área de A = 41 . Por otro lado, P (B)
= área de B es un número bastante cercano a cero
A
x (hay pocas oportunidades de caer dentro de B).
0 1/2 1

Nota 1.2 Existen algunos subconjuntos del cuadrado para los cuales su área no está de-
finida.
De la Definición 1.1 se siguen directamente las siguientes propiedades:

(a) P (A) = 1−P (A) y P (A) = 1−P (A) ya que 1 = P (Ω) = P (A∪A) = P (A)+P (A) ;
(b) P (A) 6 P (B), si A ⊂ B;
(c) P (A ∪ B) = P (A) + P (B) − P (A ∩ B). Para eventos disjuntos A y B, P (A ∩ B) =
P (∅) = P (Ω) = 1 − 1 = 0.
11
En el Ejemplo 1.1, P (A) = P (la suma del puntaje es 6= 10) = 1 − P (A) = 12
.

1.2. Variables aleatorias y sus distribuciones


Definición 1.2 Una variable aleatoria (v.a.) X definida en un espacio de probabilidad
(Ω, F, P ) es una función (“medible”)1 que asigna a cada ω ∈ Ω un número real X(ω),
llamado el valor de la v.a. X.
Habitualmente se usarán letras mayúsculas como X, Y, . . . para denotar v.a.

Ejemplo 1.3 (a) Teniendo en cuenta el Ejemplo 1.1 consideremos que X(ω) = X (i, j) :=
i+j (la suma de los puntajes). En este caso la v.a. X puede tomar valores en {2, 3, . . . , 12},
y
 1
P (X = 2) = P (1, 1) = ,
36 (1.2.1)
 2 1
P (X = 3) = P (1, 2) o (2, 1) = = , etc.
36 18
1
La Medibilidad de X significa que para cada número real r > 0 el conjunto {ω ∈ Ω : X(ω) 6 r} es
un evento, es decir éste pertenece a la colección de eventos F.

5
1.2. Variables aleatorias y sus distribuciones

(b) En el Ejemplo 1.2, X(ω) := la distancia


√ entre 0 y ω es una v.a. que puede tomar
todos los valores reales en el intervalo [0, 2] (véase la Figura 1.4 ).

Definición 1.3 (a) Una v.a. X se llama discreta si el conjunto de sus valores:
{x1 , x2 , . . . , xk , . . . , } (1.2.2)
es finito o numerable (en el caso numerable los elementos se pueden contar mediante
1, 2, 3, . . . , pero sin terminar el proceso de conteo).

(b) Los números P (X = xk ) representan las probabilidades de que la v.a. X tome


los valores xk (k = 1, 2, . . . ). La distribución de una v.a. discreta X es el conjunto de
valores en (1.2.2) y las probabilidades de los valores:

P (X = xk ) > 0, k = 1, 2, . . . , (1.2.3)

que se definen de forma semejante al caso particular (1.2.1).


Ejemplo 1.4 (a) La v.a. de Bernoulli 2 con parámetro p ∈ [0, 1] toma sólo dos va-
lores el 0 y el 1 (es decir, sus valores son el conjunto {0, 1}). Y sus probabilidades son
P (X = 0) = 1 − p y P (X = 1) = p. En este caso escribiremos: X ∼ Bern(p).

(b) Sean n > 1 un entero dado y X1 , X2 ,. . . ,Xn v. a. independientes (véase Capı́tulo


2) donde Xk ∼ Bern(p) para cada k = 1, 2, . . . Si Sn := X1 + X2 + · · · + Xn , entonces se
demuestra que la probabilidad de los valores k = 0, 1, 2, . . . , n de Sn está dada por:
n!
pk (1 − p)n−k .

P Sn = k = (1.2.4)
k!(n − k)!

La v.a. Sn se llama Binomial, con parámetros n y p. Al conjunto de probabilidades en


(1.2.4) se le denomina la distribución binomial (recordemos que m! = 1 · 2 · 3 · · · · · m
y 0! := 1). En este caso escribimos: Sn ∼ Bin(n, p).

(c) La v.a. Y con valores {0, 1, 2, . . . , k, . . . } y cuyas probabilidades (distribución) se


determinan por la fórmula:

λk −λ
P (Y = k) = e , k = 0, 1, 2, . . . ,
k!
2
Nombre del matemático suizo Jacob Bernoulli (1654-1705), reconocido por sus contribuciones al
cálculo de variaciones, a la teorı́a de probabilidad, a la geometrı́a analı́tica, entre otras.

6
CAPÍTULO 1. ESPACIO DE PROBABILIDAD

se llama v.a de Poisson 3 con parámetro λ, el cual puede ser cualquier número positivo
(λ > 0). En este caso escribimos Y ∼ P oiss(λ).

(d) La v.a. geométrica X ∼ Geom(p) con parámetro p ∈ (0, 1) toma sus valores en
el conjunto {1, 2, . . . , k, . . . }. Las probabilidades de sus valores están dadas por:

P (X = k) = p(1 − p)k−1 , k = 1, 2, 3, . . .

(Consulte el Ejercicio 2.12 acerca del origen de la v.a. geometrica).

Nota 1.3 Las v.a. de los ejemplos 1.3 (a) y 1.4 son discretas, sin embargo la v.a. del
Ejemplo 1.3 (b) no es discreta.

Ejemplo 1.5 Un dado simétrico se lanza 10 veces. Sea X la v.a. que representa el número
de veces que resulta el puntaje “6”. Para i = 1, 2, . . . , 10 introducimos las v.a. Xi de
Bernoulli independientes (véase Capı́tulo 2 para la definición de independencia),
(
1, si en el i-ésimo lanzamiento resulta ‘6´,
Xi =
0, si resulta cualquier otro puntaje.

Entonces Xi ∼ Bern(p = 1/6) y X ≡ S10 = X1 + X2 + · · · + X10 , ya que S10 es igual a


la cantidad de sumandos iguales a 1, donde cada valor igual a 1 corresponde a una salida
del “6”.

1

Por lo tanto, X ∼ Bin n = 10, p = 6
, y de (1.2.4), por ejemplo
 3  7  3  7
10! 1 5 8 · 9 · 10 1 5
P (X = 3) = = ≈ 0.15505.
3!7! 6 6 1·2·3 6 6

En otras palabras, hay alrededor del 15 % de “oportunidades” de que en 10 lanzamientos


el “6 ” resulte tres veces.

3
Distribución descubierta por el matemático francés Simeón Denis Poisson (1781-1840), se le atribuyen
trabajos en geometrı́a diferencial y teorı́a de probabilidad.

7
1.2. Variables aleatorias y sus distribuciones

Nota 1.4 Puesto que los valores de las v.a. son números reales, se pueden considerar las
sumas, productos y cocientes de v.a. Además, frecuentemente, se estudian las v.a. como
funciones de otras v.a., X 2 , eX , etc. (por ejemplo un valor de la v.a. Y = eX es e1 = e,
cuando la v.a. X toma el valor 1). En el Ejemplo 1.3 (a), se puede escribir X = Z + Y
donde la v.a. Z representa el puntaje del primer lanzamiento y Y el del segundo.

Definición 1.4 La función FX : R → [0, 1] definida como



FX (x) := P X 6 x , x ∈ R ≡ (−∞, ∞) (1.2.5)

se llama la función de distribución (f.d.) de la v.a. X.

De (1.2.5) y del hecho que P (A) 6 P (B), si A ⊂ B, se sigue que FX (x) es no


decreciente. Además, sus valores se aproximan a 1, cuando x → ∞; y se aproximan a 0,
cuando x → −∞.

y
1
FX (x)
x
0

Figura 1.5: Función distribución FX (x).

Definición 1.5 Una variable aleatoria X se denomina absolutamente continua (a.c.)


si existe una función fX : R → [0, ∞), llamada la densidad de la v.a. X, tal que
Z x
FX (x) = fX (t) dt, x∈R. (1.2.6)
−∞

La igualdad (1.2.6) implica que FX es continua (i.e. no tiene saltos como en la Figura
1.5) y además es derivable,
FX0 (x) = fX (x), (1.2.7)
en “casi todos” los puntos x ∈ R, en particular, en todas las x donde fX (x) es continua.

8
CAPÍTULO 1. ESPACIO DE PROBABILIDAD

Proposición 1.1 Sea I ⊂ R un intervalo cualquiera (o un subconjunto más general).


Entonces se cumple lo siguiente.

(a) Si X es una v.a. discreta entonces


X
P (X ∈ I) = P (X = xk ). (1.2.8)
xk ∈I

(b) Si X es v.a. a.c. con densidad fX (x), entonces


Z b
P (X ∈ I) = fX (x)dx. (1.2.9)
a

y
fX (x)

x
0 a b
Rb
Figura 1.6: El área rayada = a
fX (x)dx = P (X ∈ [a, b]).

Demostración. (b) Si I = (a, b], entonces



P (X ∈ I) = P (a < X 6 b) = P {X 6 b}\{X 6 a} = P (X 6 b) − P (X 6 a)
= FX (b) − FX (a) por (1.2.5), o bien

P a < X 6 b = FX (b) − FX (a). (1.2.10)

Luego por (1.2.6) se tiene que


Z b Z a
FX (b) − FX (a) = fX (x)dx − fX (x)dx
−∞ −∞
Z b
= fX (x)dx = el área rayada en la Figura 1.6.
a

9
1.2. Variables aleatorias y sus distribuciones

Nota 1.5 De las ecuaciones (1.2.10) y (1.2.6) y de la Definición 1.3 se obtiene fácilmente
que:

(a) Para v.a. discretas existe una correspondencia uno a uno entre la f.d. FX y la distri-
bución de X.
(b) Para v.a. X a.c. existe una correspondencia uno a uno entre la f.d. FX y la densidad
fX de X (tomando en cuenta ciertos convenios relacionados con el hecho de que dos
funciones fX y feX que difieren, por ejemplo, en un subconjunto finito de R tienen
los mismos valores de sus integrales en (1.2.6).

Nota 1.6 (a) A diferencia de (1.2.3) para una v.a. X a.c., por (1.2.9) se tiene que:
Z a
P (X = a) = fX (x)dx = 0, para cada a ∈ R.
a

En particular una v.a. discreta no puede tener densidad con la propiedades dadas en
(1.2.6) y (1.2.9). (Entonces el término “densidad de una v.a. discreta” que se usa en
varios manuales tiene un sentido diferente).

(b) Si ∆x = [x − ε, x + ε] es un intervalo “pequeño” y la densidad fX es continua en x,


entonces P (“la Zv.a. X tome valores alrededor de x”) := P (x − ε 6 X 6 x + ε) =
x+
(por (1.2.9)) = fX (t)dt = el área rayada de la Figura 1.7 ≈ fX (x)|∆x| (donde
x−ε
|∆x| = 2ε es la longitud de ∆x).

y
fX (x)
f (x)
X

x
x-ε x+ε
0 1 2 x

Figura 1.7: Interpretación de la densidad.

En este sentido, para la v.a. X con la densidad fX que se observa en la Figura 1.7,
“los valores más probables” están alrededor de x = 2, mientras que los valores de x < 1

10
CAPÍTULO 1. ESPACIO DE PROBABILIDAD

tienen probabilidad cero. En general, una v.a. a.c. X toma sus valores solamente en los
“intervalos” donde la densidad fX es positiva (esto, si no hablamos de una forma com-
pletamente estricta).

Ejemplo 1.6 (continuación del Ejemplo 1.5)


Aplicando (1.2.8), tenemos que P (resulte “6 ” a lo más 3 veces)= P (X 6 3), la cual se
obtiene de la siguiente manera:
P (X ≤ 3) = P (X ∈ [0, 3])
= P (X = 0) + P (X = 1) + P (X = 2) + P (X = 3) = (por (1.2.4))
 0  10  1  9  2  8  3  7
10! 1 5 10! 1 5 10! 1 5 10! 1 5
= + + +
0!10! 6 6 1!9! 6 6 2!8! 6 6 3!7! 6 6
≈ 0.93027.
Por otro lado, P (resulte “6 ” más de 3 veces)= P (X > 3) = 1 − P (X 6 3) ≈ 0.06973.

Ejemplo 1.7 La variable aleatoria X se llama exponencial con parámetro λ > 0:


X ∼ Exp(λ), si su función de densidad es la siguiente:
(
λe−λx , si x > 0,
fX (x) = (1.2.11)
0, si x 6 0.

y
λ

fX (x)

x
0 (con λ=3)

Figura 1.8: Densidad de la v.a. exponencial.


Por (1.2.6) se tiene que la función de distribución (f.d.) de X es (véase Figura 1.9):
(
1 − e−λx , si x > 0,
FX (x) = (1.2.12)
0, si x 6 0.

11
1.2. Variables aleatorias y sus distribuciones

y
λ
FX (x)

x
0 (con λ=3)

Figura 1.9: Función distribución de la v.a. exponencial.

Nota 1.7 En la teorı́a de probabilidad existe la costumbre de usar términos diferentes


(pero relacionados) para los mismos objetos. Por ejemplo, se usará la siguiente termino-
logı́a:

(i.) v.a. Binomial o v.a. con distribución Binomial;


(ii.) v.a. de Poisson o v.a. con distribución de Poisson;
(iii.) v.a. exponencial o v.a. con densidad exponencial o con distribución exponencial;
(iv.) v.a. Normal o v.a con densidad Normal o con distribución Normal; etc.

Es decir, las expresiones “v.a. de Poisson” y “ v.a. con la distribución de Poisson” las
vamos a interpretar como equivalentes. Y en ambos casos se escribirá X ∼ P oiss(λ).

Ejemplo 1.8 De fı́sica sabemos que un átomo del isótopo (radiactivo) 283 de Uranio
tiene un tiempo de “vida” hasta su desintegración representado por la v.a. X ∼ Exp(λ)
con λ ≈ 1.53896 · 10−10 (1/año). Si queremos calcular la probabilidad de que un átomo de
uranio “vivirá ” más de 5 · 105 años tendremos entonces lo siguiente:

P X > 5 · 109 = 1 − P X 6 5 · 109 = (por (1.2.5) = 1 − FX (5 · 109 )


  
9 −10 ·5·109
= (por (1.2.12)) = e−λ·5·10 = e−1.53896·10 ≈ 0.46325.

Por lo tanto, hay alrededor de 46 % de “posibilidades” de que un átomo de Uranio-283


“viva”más de 5 · 109 años.

Nota 1.8 El tiempo de existencia de la Tierra se estima entre 4.5 × 109 y 4.8 × 109
años. Comparando con los cálculos en el Ejemplo 1.8 podemos concluir que una cantidad
considerable (casi la mitad) de átomos de Uranio-283 existı́an antes del origen de la Tierra.

12
CAPÍTULO 1. ESPACIO DE PROBABILIDAD

Ejemplo 1.9 Para a ∈ R y σ > 0, definimos la función de densidad Normal como:

(x − a)2
 
1
fX (x) = √ exp − , x ∈ R. (1.2.13)
2πσ 2σ 2

Una v.a. a.c. con esta densidad se llama Normal (o Gaussiana4 ) con parámetros a y
σ (donde a = EX es el promedio de X, y σ es la desviación estándar, , véase Capı́tulo
3). Lo cual denotaremos X ∼ N orm(a, σ) . En particular, si a = 0 y σ = 1 entonces la
v.a. η ∼ N orm(0, 1) se denomina Normal estándar.

y y 2 2
1/(2π)1/2 1 - (x-a) /2σ
fη(x) = 1 - x 2/2
e fX (x) = e
2π σ

(estándar)
con a=2
x x y σ=1.5
0 0 2

Figura 1.10: Campanas de Gauss (densidad Normal).

Debido a (1.2.6) se tiene que la f.d. de la v.a. Normal estándar es:


Z x
1 t2
Fη (x) ≡ Φ(x) = √ e− 2 dt.
−∞ 2π
Esta integral (tradicionalmente denotada por Φ(x)) no se calcula explı́citamente, i.e. en
términos de funciones elementales. Para diferentes valores de x, Φ(x) (calculada numéri-
camente) se encuentra en tablas estándares.

Ejemplo 1.10 En la década 1970-1980 estuvo de moda medir el coeficiente intelectual


(I.Q.) de las personas por medio de pruebas (con escala de 0 a 200 puntos). Utilizando
estadı́sticas de cierto paı́s se sabe que el I.Q. de una persona elegida al azar se aproxima
por la v.a. X ∼ N orm(a = 100, σ = 17.2). Calculemos entonces la probabilidad de que
una persona elegida al azar sea “muy lista”, es decir,
   
X −a 140 − a X −a
P (X > 140) = P > ≈1−P 6 2.33 .
σ σ σ
4
Densidad estudiada, no por primera vez, por el prolı́fico matemático, fı́sico, astrónomo alemán Carl
Friedrich Gauss (1777-1855), cuyas contribuciones se destacan en análisis matemático, teorı́a de números,
geometrı́a, estadı́stica, entre otras.

13
1.2. Variables aleatorias y sus distribuciones

X −a
Es fácil ver que (consulte Ejercicio 1.19) la v.a. η = es Normal estándar, por
σ
tanto: P (X > 140) ≈ 1 − P (η 6 2.33) = 1 − Φ(2.33) ≈ 0.0099, i.e. alrededor de 1 persona
de cada 100 puede considerarse “muy lista”(véase la ley de los grandes números en el
Capı́tulo 6 para la justificación de la relación entre probabilidad y “frecuencia”).

Nota 1.9 De la densidad de la v.a. X Normal (1.2.13) se sigue que el conjunto de valores
de X es toda la recta numérica (−∞, ∞) (puesto que la densidad fX es positiva en toda la
recta R). Sin embargo, las v.a. normales se usan ampliamente para modelar magnitudes
aleatorias no negativas y/o acotadas como, por ejemplo: la estatura de una persona adul-
ta elegida al azar, los precios de algunos valores en el mercado financiero, etc. La amplia
difusión de las v.a. normales en ciencias, ingenierı́a y estadı́stica está relacionada con los
Teoremas Centrales del Lı́mite estudiados en el Capı́tulo 8. Sin embargo, una pregunta que
surge es ¿cómo una variable aleatoria normal puede servir para aproximar una magnitud
aleatoria no negativa y acotada? Respuestas: Por un lado, la densidad normal en (1.2.13)
se anula muy rápido Z cuando |x| →
−x Z ∞. Esto implica que las probabilidades de las “co-

las” P (|X| > x) = fX (y)dy + fX (y)dy, desaparecen muy rápido, cuando x → ∞.
−∞ x

En el Ejemplo 1.10 la v.a. del I.Q. toma sus valores (“puntos”) en el intervalo [0, 200] y a
pesar de esto se modela mediante la v.a. X ∼ N orm(a = 100, σ =  17.2). Estimamosque
   X − a 100
P X ∈ / [0, 200] = P X − a ∈ / [−100, 100] = P |X| > 100 = P > ≈

 σ 17.2 
 X − a
P |η| > 5.814 , donde η ∼ N orm(0, 1), y por (1.3.15) se tiene P > 5.814 6
σ
2 (5.814)2
√ e− 2 ≈ 1.196 · 10−7 . (En realidad la parte izquierda de la última desigualdad
5.814 2π
es mucho menor que la parte derecha).

Cabe mencionar que para algunas magnitudes aleatorias, dentro de su rango de varia-
ción, el uso de la aproximación normal provee resultados bien sustentados por estudios
estadı́sticos de mediciones fı́sicas, económicas, etc.

Ejemplo 1.11 Sean −∞ < a < b < ∞ dos números dados. Se dice que la v.a X es
uniforme en (a, b), si X es a.c. y tiene la siguiente densidad (véase Figura 1.11):

 1 , si x ∈ (a, b),

fX (x) = b − a (1.2.14)
0, si x ∈
/ (a, b).

14
CAPÍTULO 1. ESPACIO DE PROBABILIDAD

y
1 fX (x)
b−a

x
a 0 b

Figura 1.11: La densidad uniforme.

En este caso escribiremos: X ∼ U (a, b).

15
1.3. Ejercicios

1.3. EJERCICIOS
1.1 Considere en el Ejemplo 1.1 el evento A:= “en el primer lanzamiento sale un puntaje
mayor que en el segundo”. Calcular P (A).
Resp. : P (A) = 15/36.

1.2 ¿Cuál es la probabilidad de ganar el primer premio en el “Melate” comprando un


boleto?
44! 1
Resp. : 1/ 6!(44−6)! = 7059052
; donde m! = m(m − 1)(m − 2) · · · 2 · 1.
(Según la interpretación de probabilidad dada en el Ejemplo 6.1 del Capı́tulo 6,
usted tendrı́a casi el 100 % de posibilidades de ganar el primer premio comprando
alrededor de 7 millones de boletos.)
Sugerencia: Usar el hecho (no difı́cil de demostrar) de que el número total de
diferentes maneras de escoger k 6 n objetos de n > 1 dados, se calcula como
n!
k!(n−k)!
.

1.3 Un “punto” se “lanza al azar” dentro del intervalo (0, 1).

X
( )
0 1

Figura 1.12: Punto de caı́da aleatoria.

(a) Construir un espacio de probabilidad adecuado para este “experimento”.


(b) Sea X el punto de caı́da en la Figura 1.12. Explicar el hecho de que X es una
v.a. y para el espacio construido en (a) calcule P (X 6 1/2) y muestre que
P (X = 1/2) = P (X ∈ Q) = 0 (a pesar de que los conjuntos {1/2} y Q :=
todos los racionales de (0, 1) no son vacı́os y son muy distintos).
(c) Muestre que X ∼ U (0, 1).

1.4 Un vendedor descubre que la probabilidad de hacer una venta en una sola entrevista
telefónica con el cliente es 0.03 aproximadamente. Si éste entrevista a 110 posibles
clientes, ¿cuál es la probabilidad de hacer por lo menos dos ventas?
Resp. : = 0.8456.

16
CAPÍTULO 1. ESPACIO DE PROBABILIDAD

1.5 Una nueva familia está planeando el número n de hijos que desean tener. Esta familia
quiere tener no menos de dos varones. ¿Cuál es el número mı́nimo n para que se
cumpla que: P (nacerán por lo menos 2 varones)> 0.99?
Resp. : n = 11.
Sugerencia: Use la distribución Binomial y P (nace un varón) ≈ 0.512. Además,
haga cálculos numéricos en orden creciente de n = 3, 4, 5, . . . hasta encontrar la
solución.

Nota 1.10 De hecho el uso de la distribución Binomial no es completamente ade-


cuado para resolver este problema (puesto que los sexos de los hijos en una familia
no siempre son independientes).

1.6 Dos personas (digamos I y II) tienen la misma capacidad para jugar un juego
de tipo ajedrez . Suponga que en el juego no se consideran empates. ¿Qué es más
probable:

(a) que I gana (a II) 2 partidas de 3?; o


(b) que I gana 3 partidas de 6?

Resp. : Es más probable la ocurrencia de (a) que la ocurrencia de (b) (¿Contradice


esto a su intuición?).
Sugerencia: Usar las distribuciones Binomiales con p = 0.5 y n = 3 y n = 6,
respectivamente.

1.7 Considerando el Ejemplo 1.10 con X = I.Q. calcule aproximadamente P (80 6 X 6


120).
Resp. : 0.754.

1.8 Sean X ∼ Exp(λ = 1) y [X] la parte entera de X (i.e. un número entero más
cercano y menor o igual a X). Calcule P ([X] sea un número par ).
Resp. : e(1 + e)−1 ≈ 0.73106.
Sugerencia: [X] es v.a. discreta. Determine la probabilidad de tomar un sólo valor
par fijo y después use la fórmula (1.2.8).

1.9 Sea la variable aleatoria a.c. X ∼ U (a, b) determine la f.d. FX de X. Realice la


grafica de la f.d. FX , en particular, para la v.a. X ∼ U (0, 1).

 0, si x 6 a,

Resp. : FX (x) = x−a b−a
, si x ∈ (a, b),

1, si x > b.

17
1.3. Ejercicios

1.10 Mostrar que si X ∼ U (a, b) (véase (1.2.14)), entonces para cualquier intervalo ∆ ⊂
(a, b), P (X ∈ ∆) depende sólo de la longitud |∆| de ∆, pero no de la posición de ∆
en (a, b).

1.11 (Una “mezcla” de distribuciones discretas y continuas.) Sea X ∼ Exp(λ = 1). Se


lanza una moneda simétrica y se define la v.a. Y :
(
X, si resulta ‘águila’,
Y =
0, si resulta ‘sol’.

Trazar la f.d. FY de Y y mostrar que la v.a. Y no es discreta ni es absolutamente


continua.
Sugerencia: Usar la fórmula de probabilidad total (2.2.12) del Capı́tulo 2.

1.12 Sea X la v.a. discreta que toma posibles valores: 1, 2, . . . , k, . . . , y con probabilidades
dadas por: P (X = k) = π62 k12 , k = 1, 2, . . . Mostrar que la v.a. Y := |sen( πX 2
)| ∼
Bern(p) y calcular el parámetro p.

Resp. : p = 3/4.
Sugerencia: Determine el valor de Y para X = un número par y X =un número
impar. Después calcule
P∞sus 1correspondientes probabilidades utilizando (1.2.8) y la
π2
suma infinita (serie) k=1 k2 = 6 .

1.13 (a) Dar un ejemplo de algunas v.a. a.c. X y Y tales que P (X 6= Y ) = 1, pero
FX (x) = FY (x) para toda x ∈ R.
Sugerencia: Si X ∼ U (0, 1), entonces Y = 1 − X ∼ U (0, 1).
(b) Encontrar un ejemplo de tres v.a. X, Y , Z tales que FX = FY , pero FXZ 6= FY Z .
Z ∞
1.14 Sea fX la densidad de una v.a. X. Mostrar que fX (x)dx = 1.
−∞

1.15 Sea X la v.a. con f.d.: (


1
1− xλ
, x > 1,
FX (x) =
0, x 6 1,
(donde λ > 0) y sea Y = ln X. Mostrar que Y ∼ Exp(λ). Calcular P (Y > 2) para
λ = 1.
Resp. : P (Y > 2) = e−2 ≈ 0.13534.

18
CAPÍTULO 1. ESPACIO DE PROBABILIDAD

 
1.16 Sea X ∼ U (−c, c). Supongamos que P |X| > 1 = P |X| < 1 . Determine el valor
de c.
Resp. : c = 2.
2
1.17 Sea fη (x) = √12π e−x /2 , x ∈ R la densidad normal estándar. Demostrar que
Z ∞
1 2
√ e−x /2 dx = 1.
−∞ 2π
R∞ R∞ x2 +y 2
Sugerencia: Usar coordenadas polares para calcular −∞ −∞ e− 2 dx dy.

1.18 Un número X del 1 al 1000 se escoge al azar. ¿Cuál es la probabilidad de que los
dos últimos dı́gitos de X 3 sean 1?
Resp. : 0.01.
X−a
1.19 Sean X ∼ N orm(a, σ) y Y = σ
. Demostrar que Y ≡ η ∼ N orm(0, 1) (normal
estándar).

1.20 Sea η ∼ N orm(0, 1) (normal estándar). Demostrar que para cada x > 0,
2 x2
P |η| > x 6 √ e− 2 .

(1.3.15)
x 2π
Z ∞
1 y2
Sugerencia: En la parte derecha de la ecuación P (η > x) = √ e 2 dy,
x 2π
realizar integración por partes.

19
1.3. Ejercicios

20
Capı́tulo 2

Independencia

2.1. Independencia de eventos y variables aleatorias


Una palabra clave en la teorı́a de probabilidad es la “independencia”. En términos
muy generales la independecia entre un evento A y otro evento B significa que la ocu-
rrencia (o no ocurrencia) del evento B no afecta a la probabilidad de A. En lo subsi-
guiente se verá que de hecho este concepto es simétrico, es decir, la ocurrencia de B
no afecta a la probabilidad de A si y sólo si la ocurrencia de A no afecta a la proba-
bilidad de B. En el caso de que no haya independencia entre A y B se dice que los
eventos son dependientes. Por ejemplo al lanzar un dado simétrico dos veces es natu-
ral pensar que los siguientes eventos A := {en el primer lanzamiento resulta el “6”} y
B := {en el segundo lanzamiento resulta el “6”} son independientes. Pero obviamente
que A y el evento C := {la suma de los puntaje es mayor a 10} son dependientes, ya que
el saber la ocurrencia del evento A aumenta la probabilidad del evento C.

Para expresar el efecto de la ocurrencia de un evento B en la probabilidad de otro


evento A se introduce el concepto de la probabilidad condicional.

Definición 2.1 Sean A y B eventos con P (B) > 0. La probabilidad condicional del
evento A dado (la ocurrencia de) el evento B, denotada P (A|B), se define como:

P (A ∩ B)
P (A|B) := . (2.1.1)
P (B)

21
2.1. Independencia de eventos y variables aleatorias

b d
1
_
B
B c
A

0 a 1

Figura 2.1: Eventos dependientes.

Ejemplo 2.1 (Consultar el Ejemplo 1.2) Sean B = 20ab1 (rectángulo con vértices 0ab1),
A =M 01d (triángulo con vértices 01d), (véase Figura 2.1)

Por (2.1.1) se tiene que:

el área de M 0ac 1/8 1 el área de a1dc 3/8 3


P (A|B) = = = y P (A|B) = = = .
el área de 2 0ab1 1/2 4 el área de 2 a1db 1/2 4
Mientras que P (A) = el área de M 01d = 1/2.

Observemos en este ejemplo que P (A|B) < P (A), i.e. el evento B no es favorable
para A. Sin embargo, P (A|B) > P (A), i.e. B es favorable para A, esto es, el saber que el
“punto” ha caı́do dentro de B aumenta la posibilidad de que el “punto” caerá en A; (véase
la Figura 2.1). En tal caso, es razonable decir que A y B son eventos dependientes.

Por otro lado, en un espacio de probabilidad los eventos A y C se interpretan como


independientes, si P (A|C) = P (A) o por (2.1.1), P P(A∩C)
(C)
= P (A), o bien P (A ∩ C) =
P (A)P (C).

Entonces se tiene la siguiente definición:

Definición 2.2 En un espacio de probabilidad (Ω, F, P ) dos eventos A y C se llaman


independientes si
P (A ∩ C) = P (A)P (C). (2.1.2)

22
CAPÍTULO 2. INDEPENDENCIA

Por ejemplo, se lanzan dos monedas simétricas. Sean A := {en la primer moneda
resulta “sol” } y C := {en la segunda moneda resulta “águila”}. Entonces A y C son
eventos independientes. De hecho el espacio muestral que modela este experimento es
Ω = {ω1 = (s, s), ω2 = (s, a), ω3 = (a, s), ω4 = (a, a)}, por simetrı́a (de la mone-
 1  1
da) se sabe que P {ωi } = para i = 1, 2, 3, 4. Por tanto P (A) = P {ω1 , ω2 } = ,
4 2
 1  1
P (C) = P {ω2 , ω4 } = y P (A ∩ C) = P {ω2 } = .
2 4
Sea ahora B := {en ambas monedas resulta “sol”} = {ω1 }. Entonces los eventos A y B
P A∩B P (B) 1
son dependientes puesto que (B ⊂ A) P (A |B) = = = 1 y P (A) = .
P (B) P (B) 2
1 1 1 1
En otros términos P (A ∩ B) = P (B) = y P (A)P (B) = · = , de lo que resulta
2 2 2 4
P (A ∩ B) 6= P (A)P (B). Intuitivamente es evidente que la ocurrencia del evento A au-
menta la probabilidad del evento B.

Ahora, las v.a. X y Y se llaman independientes si (análogamente a (2.1.2)) se tiene


que:
P (X ∈ I, Y ∈ J) = P (X ∈ I)P (Y ∈ J), (2.1.3)
para cada par de intervalos I, J ⊂ R. O bien, por (2.1.1) se tiene que
P (X ∈ I| Y ∈ J) = P (X ∈ I) si P (Y ∈ J) > 0, (2.1.4)
i.e. la información sobre los valores de Y no afecta a las probabilidades de los valores de
X.
Nota 2.1 La coma (,) dentro de la probabilidad en (2.1.3) denota la intersección (la
ocurrencia simultánea) de los eventos {X ∈ I} y {Y ∈ J}.
Al tomar en (2.1.3) a I = (−∞, x] y a J = (−∞, y] con x, y ∈ R se obtiene para las
v.a. independientes X e Y :


FX,Y (x, y) := P X 6 x, Y 6 y = P (X 6 x)P (Y 6 y) = FX (x)FY (y). (2.1.5)

A la función FX,Y (x, y) = P X 6 x, Y 6 y (de dos variables reales) se le denomina
la f.d. conjunta de X y Y.

No es difı́cil demostrar que la igualdad en (2.1.3) se cumple para todos los I, J ⊂ R si


y sólo si la igualdad en (2.1.5) se cumple para todos los x, y ∈ R. Entonces la definición
básica (y más simple) de independencia de variables aleatorias es la siguiente.

23
2.1. Independencia de eventos y variables aleatorias

Definición 2.3 Las v.a. X y Y se llaman independientes, si (2.1.5) se cumple para


cada x, y ∈ R.

Si las v.a. X y Y NO son independientes, a éstas se les llama v.a. dependientes.


Notemos que para establecer la dependencia entre v.a. X y Y es suficiente encontrar un
par de números reales x, y para los cuales (2.1.5) no se cumpla.
Ahora de manera semejante a (1.2.6) definimos el concepto de continuidad absoluta para
un par de v.a.

Definición 2.4 El par de v.a. (X, Y ) se llama absolutamente continuo (a.c.) con la fun-
ción de densidad conjunta fX,Y (x, y), si la f.d. conjunta de X y Y se representa como
sigue:
Z x Z y
FX,Y (x, y) = fX,Y (s, t) ds dt, x, y ∈ R.
−∞ −∞

En este caso, para “casi todos” los puntos (x, y) en el plano:

∂2
fX,Y (x, y) = FX,Y (x, y). (2.1.6)
∂x∂y

Si, además, las v.a. a.c. X y Y son independientes entonces de (2.1.5) y (1.2.6) se
obtiene que:
fX,Y (x, y) = fX (x) · fY (y), x, y ∈ R. (2.1.7)

Ejemplo 2.2 (La densidad uniforme bidimensional en D) Sea D ⊂ R2 un con-


junto acotado con su área, denotada ar(D), bien definida. La función de densidad conjunta

 1 , si (x, y) ∈ D,

fX,Y (x, y) := ar(D)


0, si (x, y) ∈
/ D,

se llama uniforme en D.
Considerando los siguientes casos particulares se demuestra que (consulte el Ejercicio
2.2):

(a) X y Y son independientes (es decir, se cumple (2.1.5) o (1.2.7)), si D es un


rectángulo como en la Figura 2.2;

24
CAPÍTULO 2. INDEPENDENCIA

y
b
(X,Y)
Y
x
0 X a

Figura 2.2: D = el rectángulo.

(X,Y)
Y
ρ
θ
X r x

Figura 2.3: D = el cı́rculo de radio r.

(b) X y Y son dependientes, si D no es un rectángulo, por ejemplo si D es el cı́rculo


de radio r como en la Figura 2.3.

Sin embargo, en (b) (vea el Ejercicio 2.3) las v.a. ρ y θ (coordenadas polares de
(X, Y )) son independientes. Es decir, las funciones de variables aleatorias depen-
dientes podrı́an, a veces, ser independientes.
Por otro lado, de (2.1.5) se demuestra que:

Las funciones de v.a. independientes siempre son independientes. (2.1.8)

Ejemplo 2.3 El par de v.a. (ζ, η) se llama Normal estándar bidimensional con el
coeficiente de correlación ρ ∈ (−1, 1), si la densidad conjunta de (ζ, η) es:
 
1 1 2 2
fζ,η (x, y) = p exp − (x − 2ρxy + y ) ; x, y ∈ R. (2.1.9)
2π 1 − ρ2 2(1 − ρ2 )

25
2.2. Fórmula de probabilidad total.

1 2 1 2
Cuando ρ = 0, se tiene que fζ,η (x, y) = √ e−x /2 · √ e−y /2 , x, y ∈ R, y de (2.1.7)
2π 2π
se concluye que las v.a. ζ y η son normales estándares e independientes.

En los siguientes párrafos, y con frecuencia, se aplicará la siguiente definición.

Definición 2.5 Sea {Xn } = X1 , X2 , . . . , Xn , . . . una sucesión de v.a. Se dice que las v.a.
son independientes e idénticamente distribuidas (i.i.d. en lo subsiguiente) si:

(a) FX1 ≡ FX2 ≡ · · · ≡ FXn ≡ · · · ; (2.1.10)

(b) para cada n = 1, 2, . . . , análogamente a (2.1.5), la f.d. conjunta de X1 , X2 , . . . , Xn se


factoriza como producto de las f.d. (marginales) FX1 , FX2 , . . . , FXn de X1 , X2 , . . . , Xn .

Ejemplo 2.4 Sean X1 , X2 , . . . v.a. independientes con Xk ∼ Bern(p) para cada k =


1, 2, . . . Entonces, X1 , X2 , . . . , Xk , . . . son v.a. i.i.d.; además, no es difı́cil demostrar por
inducción que para cada n > 1, Sn = X1 + X2 + · · · + Xn ∼ Bin(n, p) (véase el Ejemplo
1.4).

Nota 2.2 (a) Si X = Y en el sentido de que X(ω) = Y (ω) para cada ω ∈ Ω, entonces
P (X 6 x) = P (Y 6 x), x ∈ R, o bien FX ≡ FY . Por otro lado, si FX ≡ FY
i.e. FX (x) = FY (x) para cada x ∈ R, entonces no siempre sucederá que X = Y
(consultar el ejercicio 1.13). Además, si FX ≡ FY y X y Y son independientes,
entonces X 6= Y (cuando X e Y no son constantes).
(b) Según un teorema de la teorı́a de la probabilidad avanzada para cualquier sucesión
de f.d. FX1 , FX2 , . . . , FXn , . . . , existe un espacio de probabilidad (Ω, F, P ), y v.a.
X1 , X2 , . . . , Xn , . . . , definidas en este espacio tales que la f.d. de Xn es FXn para
toda n y X1 , X2 , . . . , Xn , . . . , son v.a. independientes.

2.2. Fórmula de probabilidad total. Distribuciones y


densidades condicionales.
Sea (Ω, F, P ) un espacio de probabilidad, A un evento y B1 , B2 , . . . eventos disjuntos
que separan a Ω en subconjuntos disjuntos, i.e. Ω = B1 ∪ B2 ∪ . . . , y tales que P (Bk ) > 0

26
CAPÍTULO 2. INDEPENDENCIA

para cada k = 1, 2, . . . De la Definición 1.1 y de (2.1.1) se obtiene la fórmula de pro-


babilidad total:
X∞

P (A) = P A|Bk P (Bk ). (2.2.11)
k=1

Ω La suma en (2.2.11) podrı́a contener un número finito


o infinito de sumandos, dependiendo del número de los
B1 AB1 A eventos B1 , B2 , . . . involucrados en dicha partición. Por
A B2 ejemplo, si B1 ∪ B2 = Ω (i.e. B2 = B 1 ), entonces A =
B2 (A ∩ B1 ) ∪ (A ∩ B2 ), y P (A) = P (A ∩ B1 ) + P (A ∩ B2 ) =
P (A|B1 )P (B1 ) + P (A|B2 )P (B2 ) por (2.1.1). O bien:

P (A) = P (A|B1 )P (B1 ) + P (A|B2 )P (B2 ), (2.2.12)

que es un caso particular de (2.2.11).

Ejemplo 2.5 La población de Nicosia (Chipre) está conformada de la siguiente manera:


75 % es griega y 25 % es turca. Supongamos que el 35 % de los griegos y el 25 % de los
turcos hablan inglés. Si un visitante de Inglaterra hace una pregunta a alguien en la calle,
¿cuál es la probabilidad de que suceda el evento: A = {la persona sabe hablar inglés}.
Introduciendo B1 = {la persona es griega} y B2 = {la persona es turca}, obtenemos por
(2.2.12) que:
P (A) = (0.35)(0.75) + (0.25)(0.25) = 0.325.

Si en (2.2.11) se escoge A = {Z ∈ B} (donde B es un subconjunto de R “bastante


bueno”, por ejemplo, un intervalo y Z es una v.a.) y Bk = {Y = yk } para otra v.a.
discreta Y con los valores {y1 , y2 , . . . , yk , . . . }, se obtiene:

X
P (Z ∈ B) = P (Z ∈ B|Y = yk )P (Y = yk ). (2.2.13)
k=1

Cuando Y es una v.a. a.c. con la densidad fY , entonces (2.2.11) no se aplica di-
rectamente para definir P (Z ∈ B|Y = y) como P (Z=B,Y =y)
P (Y =y)
, ya que, según la Nota 1.6,
P (Y = y) = 0. Sin embargo, bajo ciertas condiciones, podrı́amos proceder de la siguiente
forma:
 
P Z ∈ B|Y = y := lı́m P Z ∈ B|Y ∈ (y − ∆y, y + ∆y) .
∆y→0

27
2.2. Fórmula de probabilidad total.

Entonces, es posible reemplazar en (2.2.13) a la v.a. discreta Y por una v.a. a.c. Y con
su densidad fY . En este caso, la suma en (2.2.13) se convierte en integral y análogamente
P (Y = yk ) en (2.2.13) se convierte en fY (y) dy, de lo que resulta la siguiente fórmula:
Z ∞
P (Z ∈ B) = P (Z ∈ B|Y = y)fY (y)dy. (2.2.14)
−∞

Definición 2.6 (a) Sea Z una v.a. discreta con valores {z1 , z2 , . . . , zn , . . . }. Tomando en
(2.1.1) B = {Z = zn } para los valores zn , n = 1, 2, . . . , las probabilidades condicionales:

P (Z = zn , Y = yk )
P (Z = zn | Y = yk ) := , n = 1, 2, . . . , (2.2.15)
P (Y = yk )

definen la distribución condicional de la v.a. Z dado un valor fijo yk de la v.a. discreta


Y.
(b) Sea (Z, Y ) un par de v.a. a.c. con la densidad conjunta fZ,Y (z, y). Sea el valor de
la v.a. Y = y fijo, la densidad condicional de la v.a. Z, denotada fZ|Y =y (z), se define
para cada z ∈ R como:

f (z, y)

 Z,Y
 , si fY (y) > 0,
fZ|Y =y (z) := f Y (y) (2.2.16)

0, si fY (y) = 0.

Nota 2.3 (a) Análogamente a la observación en la Nota 1.6-(b), fZ,Y (z, y)∆z∆y repre-
senta, aproximadamente, la probabilidad de que la v.a. Z tome un valor “cercano a
z” y al mismo tiempo la v.a. Y tome un valor “cercano a y”. Es por esto que (2.2.16)
es un análogo de (2.2.15). También nótese que:
  Z
P (Z, Y ) ∈ D∆ = f (z, y)dzdy ≈ f (z, y)∆z∆y,
D∆

donde D∆ es el rectángulo (véase Figura 2.4) con centro en el punto (z, y) y de


longitudes de lados, respectivamente, ∆z y ∆y.
(b) La distribución condicional P (Z = zn |Y = yk ) y la densidad condicional fZ|Y =y (z)
dependen de los valores de la v.a. Y . En este sentido, ellas son funciones de la v.a.
Y.

28
CAPÍTULO 2. INDEPENDENCIA

w
fZ,Y (z,y)

z z
y
y
D∆ con área: ∆z∆y

Figura 2.4: Densidad conjunta.

(c) Si Z y Y son independientes, entonces por (2.2.15), (2.2.16), (2.1.5) y (2.1.7) se tiene
que:
P (Z = zn |Y = yk ) = P (Z = zn ), n = 1, 2, . . . , (caso discreto)
fZ|Y =y = fZ (z), z ∈ R, (caso continuo).
Esto significa que de la independencia de las variables resulta la igualdad entre las
distribuciones condicionales y las distribuciones originales (sin condiciones).

Ejemplo 2.6 (a) Tomando en cuenta las notaciones del Ejemplo 1.3(a), sea Z el puntaje
sumado de los dos lanzamientos, y sea Y el puntaje del primer lanzamiento. Entonces,
por ejemplo, 
 P (Z = 12, Y = 6) P (6, 6) 1/36 1
P Z = 12 |Y = 6 = = = = .
P (Y = 6) P (Y = 6) 1/6 6
Del mismo modo:
(
1
 , si n = 6, 7, . . . , 12;
P Z = n |Y = 6 = 6
0, si n = 2, 3, . . . , 5.

(De hecho, por ejemplo P (Z = 5, Y = 6) = 0, ya que si en el primer lanzamiento salio 6,


la suma de ambos valores no podrá ser 5).

1

Pero P (Z = 2) = P sale(1, 1) = 36
. Entonces las v.a. Z y Y son dependientes.

(b) Consúltese el Ejercicio 2.16 para el cálculo de algunas densidades condicionales.

De manera similar a la noción de densidad conjunta fX,Y de un par de v.a. a.c. X


y Y (véase Definición 2.4) se introduce la distribución conjunta P X = xk , Y = Yn

29
2.2. Fórmula de probabilidad total.

con k = 1, 2, . . . ; n = 1, 2, . . . para las v.a. discretas con valores {x1 , x2 , . . . , xk , . . . } y


{y1 , y2 , . . . , yn , . . . }, respectivamente. Al considerar un par de v.a. (X, Y ) con su distri-
bución conjunta P X = xk , Y = Yn (en el caso de v.a. discretas) o con su densidad
conjunta fX,Y (x, y) (en el caso de v.a a.c.) las distribuciones de X y Y (o sus densidades,
para v.a. a.c.) frecuentemente se llaman distribuciones (densidades) marginales. La
siguiente proposición ofrece una fórmula para determinar las distribuciones (densidades)
marginales a partir de la distribución (densidad) conjunta.

Proposición 2.1 (a) Sea el par de v.a. discretas (X, Y ) con la función de distribución
conjunta P X = xk , Y = Yn , con k, n = 1, 2, . . . Entonces:

 X 
para cada xk P X = xk = P X = xk , Y = Y n y
n=1


X
 
para cada yn P Y = yn = P X = xk , Y = Y n .
k=1

(b) Sea el par de v.a. a.c. (X, Y ) con la densidad conjunta fX,Y (x, y). Entonces:
Z ∞
para cada x ∈ R fX (x) = fX,Y (x, y) dy; y
−∞

Z ∞
para cada y ∈ R fY (y) = fX,Y (x, y) dx.
−∞

Para demostrar, por ejemplo, el inciso (a) notemos que:



X  
P (X = xk ) = (2.2.13) = P X = xk |Y = yn P Y = yn
n=1

X 
= (por (2.2.15)) = P X = xk , Y = y n .
n=1

Proposición 2.2 Sean X, Y v.a. independientes tales que la densidad de Y es fY , y


Z := ϕ(X, Y ), donde ϕ es una función (“medible”, por ejemplo continua) de dos variables.
Entonces, para conjuntos “medibles”(por ejemplo intervalos) B ⊂ R,
Z ∞

P (Z ∈ B) = P ϕ(X, y) ∈ B fY (y)dy. (2.2.17)
−∞

30
CAPÍTULO 2. INDEPENDENCIA

En efecto, P (ϕ(X, Y ) ∈ B|Y = y) = P (ϕ(X, y) ∈ B|Y = y) = (por la independencia


de X y Y ) = P (ϕ(X, y) ∈ B). Faltarı́a aplicar (2.2.14).

Al aplicar (2.2.17) a la suma Z = X + Y de las v.a. independientes y a.c. con


B = (−∞, z], z ∈ R, se obtiene que:

FZ (z) = (por (1.2.5)) = P (Z ∈ (−∞, z]) =


Z ∞ Z ∞
= P (X + y 6 z)fY (y)dy = P (X 6 z − y)fY (y)dy.
−∞ −∞

d d
Derivando con respecto a z y teniendo en cuenta que dz P (Z 6 z − y) = F (z − y)
dz X
=
(por (1.2.7)) = fX (z − y), llegamos a la siguiente afirmación.

Teorema 2.1 Para v.a. X, Y independientes y absolutamente continuas se tiene (la fórmu-
la de convolución):
Z ∞
fX+Y (x) = fX (x − y)fY (y)dy; x ∈ R. (2.2.18)
−∞

Luego, si se aplica (1.2.13) y (2.2.18) se obtiene por inducción y cálculos de integrales


el siguiente teorema.

Teorema 2.2 Sean (con n > 2) η1 , η2 , . . . , ηn v.a. i.i.d. y ηk ∼ N orm(0, 1), (k =


1, 2, . . . , n). Entonces:

η1 + η2 + · · · + ηn
√ ∼ N orm(0, 1). (2.2.19)
n

31
2.3. Ejercicios

2.3. EJERCICIOS
2.1 Sean A y B eventos en un espacio de probabilidad, tales que P (B) > 0 y P (B) > 0.
Muestre que si P (A|B) > P (A) entonces P (A|B) < P (A).

2.2 Muestre que en el Ejemplo 2.2(a), X y Y son independientes, pero en el Ejemplo


2.2(b), X y Y son dependientes (por ejemplo: Y = r resultará que X = 0).

2.3 Encuentre Fρ,θ y fρ,θ para las v.a. ρ, θ en el Ejemplo 2.2(b) y establezca que éstas
son independientes.

2.4 Sean X y Y v.a. independientes de Poisson respectivamente con parámetros λ y


µ, X ∼ P oiss(λ), Y ∼ P oiss(µ), donde λ, µ > 0, (consulte el Ejemplo 1.4(c)).
Demostar que X + Y ∼ P oiss(λ + µ).

Pn n!
Sugerencia: Use (2.2.13) y la fórmula (a + b)n = k=0 k!(n−k)! a
n−k
bk .

2.5 (a) Sean X y Y v.a. i.i.d. con valores en el conjunto {0, 1, 2, 3, . . . }. Demuestre que
P (X + Y sea un número par )> 1/2.
(b) Supongamos que X y Y son v.a. donde X ∼ P oiss(λ = 12 ), Y ∼ P oiss(µ = 12 ).
Calcule P (X + Y sea un numero par).
Sugerencia:

(a) Use (2.2.13).


P∞ xk
(b) Use el Ejercicio 2.4 y la fórmula k=0 k! = ex , aplicada a e1 + e−1 .
1+e−2
Resp. : (b) : 2
≈ 0.568.

2.6 Un dado simétrico se lanza n veces. Considere el evento An := {en n lanzamientos


sale por lo menos un “6”}. Demuestre que P (An ) → 1 cuando n → ∞.

2.7 Una moneda simétrica se lanza 100 veces. Sea A := {sólo salen águilas}. Establezca
1
que P (A) = 2100 , i.e. A es un “evento raro”. Sin embargo, cualquier otro resultado
1
particular de 100 lanzamientos tiene la misma probabilidad de 2100 .

2.8 Sean X1 , X2 , . . . , Xn v.a. independientes con Xk ∼ Exp(λk ), para cada k = 1, 2, . . . , n.


Demuestre que mı́n(X1 , X2 , . . . , Xn ) ∼ Exp(λ = λ1 + λ2 + · · · + λn ).
Sugerencia: Para x > 0 determine 1−FYn (x) y tome en cuenta que para cualquier
c > 0, min(a, b) > c si y sólo si a > c y b > c.

32
CAPÍTULO 2. INDEPENDENCIA

2.9 Sean r > 0 un número arbitrariamente grande, pero fijo y Sr,n := {x = (x1 , x2 , . . . , xn ) ∈
Rn tal que (x21 + x22 + · · · + x2n )1/2 6 r} (la esfera en Rn de radio r). Sean también
X1 , X2 , . . . , Xn v.a. i.i.d. con distribución
 N orm(0, 1). Demuestre que
lı́mn→∞ P (X1 , X2 , . . . , Xn ) ∈ Sr,n = 0.
2.10 Suponga que el número Y de partı́culas cósmicas que golpean al contador de Geiger
(en una unidad de tiempo) es una v.a. con la distribución de Poisson con parámetro
λ = 1. Cada partı́cula se registra por el contador con la probabilidad 2/3 (inde-
pendiente para distintas partı́culas). Calcular P (X = 0), donde X es el número de
partı́culas registradas en una unidad de tiempo.
Sugerencia: Usar (2.2.13).
Resp. : e−2/3 ≈ 0.51342.
2.11 Sean η1 , η2 v.a. i.i.d. con distribución N orm(0, 1). Demuestre que la densidad de la
v.a. X = ηη21 está dada por la siguiente fórmula (densidad de Cauchy, gran ma-
temático francés Augustin-Louis Cauchy (1789-1857), pionero del rigor en el análisis
matemático, y comenzó la creación sistemática de la teorı́a de grupos):
1
fX (x) = , x ∈ R. (2.3.20)
π(x2 + 1)
Sugerencia: Para determinar la densidad de X, tome en cuenta que fX (x) =
d
F (x), y para determinar FX (x) utilice la simetrı́a de la densidad normal y la
dx X
fórmula (2.2.17) con Z = X y Y = η2 .
2.12 (a) Un dado simétrico se lanza sucesivamente hasta la primer salida del “6”. Sea X el
número de lanzamientos. Demostrar que X es una v.a. geométrica con parámetro
p = 1/6, i.e. X puede tomar los valores {1, 2, 3, . . . , k, . . . } con las probabilidades:
P (X = k) = p(1 − p)k−1 , k = 1, 2, 3, . . . (2.3.21)

En este caso se escribe: X ∼ Geom(p).

(b) Calcular P (X > 10) y P (X toma un valor par).

Resp. : (b) ≈ 0.16151 y ≈ 0.45455.


Sugerencias: (a) Introducir las v.a. independientes de Bernoulli Xk , k = 1, 2, . . .
tales que:
(
1, si en el k-ésimo lanzamiento resulta el “6”,
Xk =
0, si en el k-ésimo lanzamiento resulta otro puntaje.

33
2.3. Ejercicios

Observar que para k > 1, P (X = k) = P (X1 = 0, X2 = 0, . . . , Xk−1 = 0, Xk = 1) y


aplicar la independencia.
(b) Usar (1.2.8) y la siguiente suma infinita (serie):

X 1
αn = , si 0 < α < 1. (2.3.22)
n=0
1−α

Nota 2.4 La ecuación (2.3.22) se obtiene como el lı́mite cuando k → ∞ en la


siguiente fórmula elemental:

k
X
n1 − αk+1
Sk := α = . (2.3.23)
n=0
1−α

1
Por ejemplo, para α = 1/2, 1−α = 2. Aplicando (2.3.23) calculamos, S5 = 1.96875,
S10 = 1.999023438, S20 = 1.999999046, que evidentemente sePaproximan al valor de
∞ 1 n 1

2 cuando se aumenta el número de sumandos. Es decir S := n=0 2 = 1−1/2 = 2.

2.13 Una moneda simétrica se lanza dos veces. Sean X := el número de salidas de “sol”;
Y := el número de salidas de “águila”. Demostrar que:
(a) X y Y son idénticamente distribuidas;
(b) X y Y son dependientes; y
(c) P (X 6= Y ) = 1/2.

2.14 Sea X > 0 una v.a. a.c. Demuestre que para cada t, s > 0, P (X > t + s|X >
s) = P (X > t) (“ausencia de la memoria”) sys (si y sólo si) existe λ > 0 tal que
X ∼ Exp(λ).

Nota 2.5 El Ejercicio 2.14 dice que entre todas las v.a. a.c. y no negativas solamente
la v.a. X ∼ Exp(λ) tiene la siguiente propiedad:

P X > t + s | X > s = P (X > t), (2.3.24)

para todas t, s > 0. Si por un minuto se supone que X representa el “tiempo de vida”
de una especie o de un mecanismo hasta su falla, entonces por (2.3.24) resulta que di-
cho mecanismo (o especie) “no envejece” (i.e. es lo mismo usado que nuevo). Si, por
ejemplo, se supone absurdamente que X modela el tiempo de vida de un ser humano,
entonces de (2.3.24) se tiene: P (de vivir más de 100 años | se tiene más de 50) =
P (de que un recién nacido vivirá más de 50 años). Esto nos muestra que hay que

34
CAPÍTULO 2. INDEPENDENCIA

tener cuidado en los “ejemplos de aplicación”, en los cuales se comience con “su-
ponga que la duración del funcionamiento hasta la falla es una v.a. exponencial. . . ”.
Mientras que el “tiempo de vida” de los átomos radioactivos (hasta su desintegra-
ción) sı́ es modelado por un tiempo aleatorio exponencial.

2.15 Sean X y Y dos v.a. independientes y Y = X 2 . Demostrar que existe un número


x0 ∈ R tal que P (X = x0 ) + P (X = −x0 ) = 1.


Sugerencia: Para x > 0, defina la función p(x) := P X 2 6 x2 = FY (x2 ) la cual
es igual a P X 2 6 x2 , −x 6 X 6 x . Después utilice la independencia y resuelva la
ecuación p(x) = (p(x))2 . Finalmente utilice la propiedad de monotonı́a de la f.d.

2.16 Supongamos que las v.a. X, Y tienen la siguiente densidad conjunta (densidad
uniforme en T ):
(
2, (x, y) ∈ T,
fX,Y (x, y) =
0, (x, y) ∈
/ T.

y
1 (a) Determine las f.d. marginales FX (x) y FY (y).
(b) Muestre que X y Y son dependientes.
T
x (c) Encuentre la densidad condicional fX|Y =y (x).
0 1

( (
2x − x2 , si x ∈ (0, 1), 2y − y 2 , si y ∈ (0, 1),
Resp. : (b) FX (x) = FY (y) =
0, si x ∈
/ (0, 1). 0, si y ∈
/ (0, 1).

(
1
1−y
, si x ∈ (0, 1 − y),
(c) para y ∈ (0, 1), fX|Y =y (x) =
0, si x ∈
/ (0, 1 − y).

2.17 Una moneda simétrica se lanza hasta la primera aparición de “sol”, después otra
moneda se lanza hasta la primera aparición de “sol”. Sean X y Y las variables que
representan el número de lanzamientos respectivos. Calcular P (X = Y ).
Sugerencia: Usar la distribución geométrica, la fórmula de probabilidad total
(2.2.13) y (2.3.22).
Resp. : 1/3.

35
2.3. Ejercicios

2.18 Un dado bien balanceado (simétrico) se lanza dos veces. Sean X y Y las v.a. que
representan los puntajes en el primer y en el segundo lanzamiento respectivamente.
Calcular P (X · Y sea un número par ).
Sugerencia: Calcule primero P (X · Y sea un número impar ), usando la fórmula
de probabilidad total (2.2.13) y la independencia entre X y Y .

2.19 Sean A y B dos eventos tales que P (A) = P (B) = 2/3. Demostrar que P (A|B) > 12 .

2.20 Sean X y Y v.a. a.c. i.i.d. con la siguiente densidad:


(
√ 1√ , si 0 < x < 2,
fX (x) = fY (x) = 2 2 x
0, si x ∈
/ (0, 2).

Sea T := máx{X, Y }. Demostrar que T ∼ U (0, 2).


X
2.21 Sean X ∼ Exp(λ), Y ∼ Exp(λ) v.a. independientes. Demostrar que Z := ∼
X +Y
U (0, 1).
Sugerencia: Para calcular P (Z 6 x) usar (2.2.17).

2.22 Sean N > 1 y n > 1 dos números enteros dados y X1 , X2 , . . . , Xn v.a. i.i.d. con
valores en el conjunto {1, 2, . . . , N }. Sea Sn = X1 + X2 + · · · + Xn . Demostrar que
1
P (Sn sea divisible entre n) > N n−1 .
Sugerencia: Calcular los posibles valores de Sn y usar argumentos de simetrı́a
(que se justifican por la propiedad de ser i.i.d. las v.a.).

2.23 Para el par de v.a. (ζ, η) con la densidad Normal estándar bidimensional en (2.1.9)
demuestre que para cada y ∈ R:

1 (x−ρy)2

fζ|η=y (x) = √ p e 2(1−ρ2 ) , x ∈ R, (2.3.25)
2π 1 − ρ2
p
es la densidad Normal con a = ρy y σ = 1 − ρ2 .

2.24 (Un ejercicio de broma) En un paı́s, el 10 % de la población de hombres adultos son


ricos, el 3 % son ladrones (en un sentido amplio, tomando en cuenta, por ejemplo,
la corrupción) y el 2 % son ricos y ladrones. Si se escoge al azar a un hombre de esta
población:

(a) ¿cuál es la probabilidad condicional de que la persona sea rica dado que es un
ladrón?;

36
CAPÍTULO 2. INDEPENDENCIA

(b) ¿cuál es la probabilidad condicional de que la persona sea rica, si no es un


ladrón?

Resp. : (a) 0.66667; (b) 0.08247.

2.25 Sean A y B dos eventos en el espacio de probabilidad (Ω, F, P ), tales que P (B) > 0
y P (B) > 0. Demostrar que A y B son independientes si y sólo si P (A|B) = P (A|B).

37
2.3. Ejercicios

38
Capı́tulo 3

Esperanza y Varianza de Variables


Aleatorias

3.1. Esperanza.
Los valores promedio de algunas v.a. se usan frecuentemente en la vida cotidiana.
Entre algunos ejemplos están: la temperatura promedio a medio dı́a en Acapulco en el
mes de Agosto; el tiempo promedio de vida de los hombres en cierto paı́s, etc. Estos
promedios se calculan a partir de datos estadı́sticos que se manejan con base en la teorı́a
de probabilidad. El concepto de “promedio” se formaliza en términos de esperanza (o
esperanza matemática) de una v.a. X, que es un número (“promedio”) obtenido al
sumar todos los valores de X ponderados por sus probabilidades. Por ejemplo, si en un
sorteo pueden ganarse mil pesos con probabilidad 1/1000 y perder 5 pesos (o bien “ganar
−5” pesos, por ejemplo, comprando un boleto de este precio) con probabilidad 999/1000,
entonces la “ganancia - pérdida”se representa por la v.a.
(
1000, con probabilidad 1/1000,
X=
−5, con probabilidad 999/1000,

y el valor de su esperanza (“ganancia” promedio esperada):


   
1 999
EX = 1000 + (−5) = −3.995.
1000 1000
Es decir, el juego es injusto y en promedio hay que esperar perder alrededor de 4 pesos
al participar en dicho sorteo.

39
3.1. Esperanza.

Generalmente (en la teorı́a avanzada) para una v.a. X definida en un espacio de


probabilidad (Ω, F, P ), tal que
Z

X(ω) dP (ω) < ∞, (3.1.1)

la esperanza de X se define como el número real siguiente:


Z
a ≡ EX := X(ω) dP (ω). (3.1.2)

En particular, si Ω = {ω1 , ω2 , . . . , ωn } es finito, entonces la integral en (3.1.2) nos da


(considerando que X(ωk ) = xk ):
n
X n
X
EX = X(ωk )P (ωk ) = xk P (X = xk ). (3.1.3)
k=1 k=1

En el caso general, suponiendo que se tiene (3.1.1), en (3.1.2) aparece una integral
abstracta (la integral de Lebesgue1 ), que de hecho no necesitamos usar en este curso, ya
que al tomar el cambio de variables x = X(ω) se demuestra que (3.1.2) se convierte en:

X
EX = xk P (X = xk ); si X es discreta, (3.1.4)
k=1

Z ∞
EX = x fX (x)dx; si X es a.c. (3.1.5)
−∞

Ejemplo 3.1 (a) Se lanza un dado simétrico (i.e., bien balanceado). Sea X la v.a. que
representa el puntaje del lanzamiento. Por (3.1.4) tenemos que:
6 6  
X X 1
EX = kP (X = k) = k = 3.5.
k=1 k=1
6
Obsérvese que el resultado es una fracción a pesar de que los valores de X son enteros.
De forma similar se obtiene que en México la tasa de fecundidad de una mujer entre 15
y 49 años (información del año 2013, INEGI) es 2.2 hijos (es decir, en promedio, una
mujer mexicana entre 15 y 49 años “tiene” 2.2 hijos).

1
Henri Léon Lebesgue (1875-1941) matemático francés conocido por sus aportaciones en la teorı́a de
la medida y de la integral.

40
CAPÍTULO 3. ESPERANZA Y VARIANZA

(b) Supongamos (razonablemente) que el número de clientes que entran a una sucursal
de Banamex entre las 12 y las 13 hrs. es la v.a. X ∼ P oiss(λ = 35) (consulte el Ejemplo
1.4(c)). ¿Cuántas personas, en promedio, entran en esa hora? Por (3.1.4) tenemos que:
∞ ∞ ∞
X λk −λ −λ
X λk−1 −λ
X λn
EX = k e = λe = λe = λe−λ eλ = λ,
k=1
k! k=1
(k − 1)! n=0
n!

puesto que de cálculo sabemos que el “desarrollo de Taylor para la función f (x) = ex ” es:

X xn
= ex para cada x ∈ R.
n=0
n!

xn
La suma infinita se interpreta en el sentido de que las sumas finitas SN = N
P
n=0 n! se
x
aproximan al número
Pe5 cuando N → ∞. Por ejemplo, para x = 1, ex = e ≈ 2.718281828
10
y veamos que S5 = n=0 n!1 ≈ 2.7166 y S10 = n=0 n!1 ≈ 2.71828.
P
Por lo tanto,
EX = λ, si X ∼ P oiss(λ), (3.1.6)
y el número promedio de clientes es EX = λ = 35.

(c) Una persona que debe esperar un autobús, supone que el tiempo de espera se da
por la v.a. X ∼ U (0, 20) (en minutos, véase el Ejemplo 1.11). Entonces,
(
1/20, si x ∈ (0, 20),
fX (x) =
0, si x ∈
/ (0, 20),

y por (3.1.5) el tiempo promedio de espera es:


20
20
1 x2
Z
1
EX = x dx = = 10(min).
0 20 20 2 0

Con cálculos análogos obtenemos que:

a+b
EX = , si X ∼ U (a, b). (3.1.7)
2

Es decir la esperanza, EX, de una v.a. uniforme en (a, b) es el punto medio de dicho
intervalo.

41
3.1. Esperanza.

Nota 3.1 La condición (3.1.1) de la existencia de esperanza finita implica que la suma
o la integral en (3.1.4) y (3.1.5) debe converger absolutamente, es decir, debe tener un
X∞ Z ∞
valor finito |xk | P (X = xk ) o |x|fX (x)dx. Más adelante se verá que no todas
k=1 −∞
las v.a. tienen esperanza. Por otro lado, cuando X > 0 (X toma valores no negativos) y
la suma o la integral en
P (3.1.4) o en (3.1.5) diverge (i.e. si las sumas parciales tienden a
infinito, por ejemplo, ∞ k=1 xk P (X = xk ) = ∞), se convendrá en definir: EX = ∞.

Ejemplo 3.2 Sea X la v.a. del Ejercicio 1.12. Por (3.1.4) se tiene:
∞ ∞
6 1
X 6 X1
EX = k 2 2 = 2 =∞
k=1
π k π k=1 k
N Z N
X 1 1
ya que al aproximar las sumas parciales mediante la integral dx se tiene que:
k=0
k 1 x
N
X 1
≈ ln(N ) → ∞, cuando N → ∞.
k=1
k

Ahora, sean X una v.a. y g : R → R una función, tales que Y = g(X) es una v.a.
(con g continua, como ejemplo particular). Es claro que Y toma el valor g(x) cuando
X = x. Supongamos también que Eg(X) existe, entonces por (3.1.4) y (3.1.5) se tiene
que la esperanza de una función es:

X 
Eg(X) = g(xk )P X = xk , si X es discreta. (3.1.8)
k=1

Z ∞
Eg(X) = g(x)fX (x) dx, si X es a.c. (3.1.9)
−∞

1

Ejemplo 3.3 (a) Sea X ∼ P oiss(λ). Calculemos E 1+X . Por el inciso (c) del Ejemplo
1.4 y (3.1.8) tenemos que:
∞ ∞
"∞ #
1 λk −λ e−λ X λk+1 e−λ X λn
 
1 X
E = e = = −1
1+X k=0
1 + k k! λ k=0
(k + 1)! λ n=0
n!
e−λ λ  1 − e−λ
= e −1 = (≈ 0.63212 para λ = 1).
λ λ
42
CAPÍTULO 3. ESPERANZA Y VARIANZA

(b) Sea X ∼ U (0, 1). Por (3.1.9) e integrando por partes, se tiene:
Z 1 1 Z 1
x
E[ln X] = ln x dx = (ln x) x − dx = −1 6= ln[EX] = ln(1/2) ≈ −0.69315.

0 0 0 x

En general, para la mayorı́a de funciones g y de v.a. X, se tiene que Eg(X) 6= g(EX).

La siguiente tabla resume y compara algunos conceptos relacionados con v.a. discretas
y absolutamente continuas.

Una v.a. discreta X Una v.a. absolutamente continua X


1. Conjunto de valores {x1 , x2 , . . . , xk , . . . } 1*. Un subconjunto de R no numerable
(finito o numerable). (tı́picamente intervalos acotados o no)
donde la densidad es positiva.
2. Probabilidades de los valores: p1 , p2 , . . . 2*. La densidad fX : R → [0, ∞) con
. . . , pk , . . . , con pk = P (X = xk ), P X ∈ (x − 12 ∆x, x + 12 ∆x) ≈ fX (x)∆x.
para toda k = 1, 2, . . .

X Z ∞
3. pk > 0, k = 1, 2, 3, . . . , pk = 1. 3*. fX (x) > 0, x ∈ R, fX (x)dx = 1.
k=1 −∞
X Z
4. P (X ∈ I) = P (X = xk ) 4*. P (X ∈ I) = fX (x)dx.
xk ∈I I
P
= xk ∈I pk .
5. La esperanza de X (el valor promedio): 5*. La esperanza de X:
X∞ Z ∞
EX = xk P (X = xk ). EX = x fX (x)dx.
k=1 −∞
6. La esperanza de g(X): 6*. Esperanza de g(X):
X∞ Z ∞
Eg(X) = g(xk )P (X = xk ). Eg(X) = g(x) fX (x)dx.
k=1 −∞

3.2. Varianza y desigualdad de Chebyshev.


Un caso particular muy importante para (3.1.8) y (3.1.9) es cuando g(X) = (X −EX)2
(suponiendo que EX existe y es finita).

43
3.2. Varianza y desigualdad de Chebyshev

La varianza de la v.a. X, denotada V ar(X), es el número no negativo definido por

V ar(X) := E(X − EX)2 = E(X 2 ) − (EX)2 . (3.2.10)

La última igualdad es cierta debido a que E[X 2 − 2XEX + (EX)2 ] = E(X 2 ) − (EX)2 .
En el siguiente lema se observa que la varianza existe y es finita si y sólo si E(X 2 ) < ∞.

Lema 3.1 Sea X una v.a. cualquiera con EX < ∞ , entonces


q 
E X 6 E X 2 .

Para demostrar esta desigualdad, es suficiente observar (ver la Proposición 3.1, abajo)
 2
que para α ∈ R E |X|−α > 0, o bien E(X 2 )−2αE|X|+α2 > 0 y considerar α = E|X|.

Por el Lema 3.1 tenemos que EX existe, si E(X 2 ) < ∞, (el recı́proco no siempre
es cierto, véase el Ejercicio 3.18). De forma parecida se demuestra que si E|X|3 < ∞,
entonces E(X)2 < ∞, E|X| < ∞ y por lo tanto EX y V ar(X) existen y son finitas.

Las propiedades de la esperanza (de las cuales la más importante es la linealidad) y


de la varianza son consecuencia de las propiedades comunes de las integrales.

Proposición 3.1 Sean X y Y v.a. para las cuales EX 2 < ∞, EY 2 < ∞ y c ∈ R una
constante (ésta se puede interpretar como la v.a. con el único valor c). Entonces, las
esperanzas y varianzas tienen las siguientes propiedades:
Propiedades de la esperanza: Propiedades de la varianza:
Ec = c. V ar(c) = 0.
E(c X) = c EX. V ar(c X) = c2 V ar(X).
E(X + c) = EX + c. V ar(X + c) = V ar(X).
E(X + Y ) = EX + EY. V ar(X + Y ) = V ar(X) + V ar(Y ),
si X y Y son independientes.
EX > 0, si X > 0. V ar(X) = 0 sys P (X = c) = 1.
|EX| 6 E|X|.

Nota 3.2 (a) En general (con X, Y dependientes) puede suceder que V ar(X + Y ) 6=
V ar(X) + V ar(Y ), (véase el Ejercicio 3.1).
p
(b) σ(X) := V ar(X) se denomina la desviación estándar de la v.a. X.

44
CAPÍTULO 3. ESPERANZA Y VARIANZA

(c) Se dice que una variable aleatoria X es degenerada, si existe un valor c ∈ R, tal
que P (X = c) = 1, es decir casi seguramente la v.a X toma como único valor a c. En este
caso usando que la f.d. FX es no decreciente es fácil obtener que FX (x) = 0, si x < c y
FX (x) = 1, si x > c.

Teorema 3.1 Sean X, Y v.a. independientes para las cuales existen EX y EY . Entonces
E(X · Y ) = (EX)(EY ). (3.2.11)

Por ejemplo, si X, Y tienen, respectivamente, densidades fX y fY , entonces por (2.1.7)


se tiene la densidad conjunta fX,Y = fX fY . De (3.1.5) se tiene,
Z ∞  Z ∞ 
(EX)(EY ) = xfX (x)dx y fY (y)dy =
−∞ −∞
Z ∞Z ∞
= x yfX,Y (x, y) dx dy = E(X · Y ),
−∞ −∞

por analogı́a a (3.1.5).

Corolario 3.1 Si X y Y son independientes y EX 2 < ∞, EY 2 < ∞, entonces


V ar(X + Y ) = V ar(X) + V ar(Y ). (3.2.12)

Para simplificar los cálculos, suponemos que EX = EY = 0 (como es fácil esto no


conlleva a una perdida de generalidad). Entonces, por la Proposición 3.1 E(X + Y ) = 0
y por (3.2.10), (3.2.11),
V ar(X + Y ) = E(X + Y )2 = E(X 2 + 2XY + Y 2 )
= EX 2 + 2E(XY ) + EY 2 = EX 2 + 2EXEY + EY 2
= EX 2 + EY 2 = V ar(X) + V ar(Y ).

Ejemplo 3.4 (a) Para X ∼ Bern(p) tenemos por (3.1.4) que EX = 0(1−p)+1·p = p,
de lo cual EX = p . De (3.2.10) y (3.1.8) se obtiene V ar(X) = p(1 − p).

(b) Utilizando la Proposición 3.1 con Yn = X1 + · · · + Xn ∼ Bin(n, p),

EYn = np y V ar(Yn ) = np(1 − p). (3.2.13)

Por ejemplo, al lanzar un dado 10 veces, en promedio, el “6 ” sale 10 16 ≈ 1.66666


veces.

45
3.2. Varianza y desigualdad de Chebyshev

Ejemplo 3.5 (a) Para X ∼ Exp(λ), aplicando (3.1.5), (3.1.9), (3.2.10), y mediante
integración simple se obtiene:
1 1
EX = y V ar(X) = . (3.2.14)
λ λ2

(b) Para X ∼ N orm(a, σ) (véase Figura 3.1),


EX = a y V ar(X) = σ 2 . (3.2.15)

y y
2 2
1 -(x-a) /2σ
1 -(x-a) 2 /2σ
2
fX (x)= 2π σ e
fX (x)= 2π σ e
1
con Var(X) = σ 2 = 0.1 con Var(X) = σ 2 = 10
1
ya=1 ya=1
x [ ]
x
[ ]
0 a=1 c d 0 a=1 c d

Figura 3.1: Esperanza y varianza de la v.a. Normal.

Por ejemplo, por (3.1.5) se tiene:


Z ∞
1 (x−a)2
EX = x√ e− 2σ2 dx
2πσ
Z−∞
∞ Z ∞
1 −
(x−a)2 1 (x−a)2
= (x − a) √ e 2σ dx + a
2 √ e− 2σ2 dx,
−∞ 2πσ −∞ 2πσ
2 2
donde la integral del primer sumando es igual a cero puesto que la función ye−y /2σ es
impar (véase la Figura 3.2). Mientras que en el segundo sumando la integral es 1, ya que
es la integral de una densidad (ver los Ejercicios 1.14 y 1.17).

Nota 3.3 Mientras que el valor de EX indica el “centro de los valores de X pondera-
dos por sus probabilidades”; la varianza (V ar(X)) es una medida de “dispersión de los
valores”. Para la distribución Normal las áreas resaltadas en la Figura 3.1 representan
(por (1.2.9)) las probabilidades P (X ∈ [c, d]) para un intervalo [c, d]. Si este intervalo es
distante de la esperanza a = 1, entonces P (X ∈ [c, d]) es casi cero cuando la varianza es
pequeña (imagen de la izquierda en la Figura 3.1); la misma probabilidad P (X ∈ [c, d])
es bastante distinta de cero cuando la varianza es mayor (imagen de la derecha). En el
siguiente ejemplo con densidades uniformes se observa este fenómeno con más claridad.

46
CAPÍTULO 3. ESPERANZA Y VARIANZA

z -y2/2σ 2
f (y)=ye

+
y

2 /2σ 2
Figura 3.2: Función impar: f (y) = ye−y .

Ejemplo 3.6 Sean X ∼ U (−0.1, 0.1) y Y ∼ U (−10, 10) (véase (1.2.14)) entonces sus
densidades tienen las gráficas que se muestran en la Figura 3.3 (las gráficas no están a
la misma escala).

y
1/0.2
fX (x)

fY (x)
1/20 x
x
-0.1 0 0.1 -10 0 10

Figura 3.3: Dos densidades uniformes.

De (3.1.7) resulta que EX = EY = 0. Es fácil calcular a partir de (3.2.10) y (3.1.9)


que
(b − a)2
V ar(Z) = , si Z ∼ U (a, b). (3.2.16)
12
Por tal V ar(X) ≈ 0.0033, V ar(Y ) ≈ 33.3333, y teniendo en cuenta que una v.a.
Z ∼ U (a, b) toma sus valores en el intervalo (a, b) de una manera “uniforme”, conclui-

47
3.2. Varianza y desigualdad de Chebyshev

mos que los valores de Y son “bastante dispersos”, mientras que los valores de X están
concentrados cerca de la esperanza EX = 0 (véase Figura 3.3).

Es importante destacar que para cualquier ε > 0 (puede ser pequeña) se tiene que:

Cuando V ar(X) se aproxima a 0,


P (EX − ε 6 X 6 EX + ε) =
(3.2.17)
R∞el área resaltada en la Figura 3.4 se aproxima a
−∞ X
f (x)dx = (por(1.2.9)) = P (−∞ < X < ∞) = 1

fX (x)

x
EX-ε EX EX+ε

Figura 3.4: La densidad de una v.a. X con varianza pequeña.

Es decir, al “anular” la V ar(X), la v.a. X con probabilidad casi igual a 1, toma


valores muy cercanos al valor promedio (esperanza) EX.

Para justificar la observación (3.2.17), se probará la siguiente versión de la desigualdad


de Chebyshev (matemático ruso (1821-1894) que realizó importantes trabajos en la teorı́a
de aproximación y en la teorı́a de probabilidad; se le considera el iniciador de la teorı́a de
probabilidad moderna).

Proposición 3.2 (Desigualdad de Chebyshev) Sea X una v.a. para la cual su va-
rianza σ 2 := V ar(X) es finita. Entonces para cualquier ε > 0 se tiene:

  σ2
P |X − EX| 6 ε ≥ 1 − 2 . (3.2.18)
ε

48
CAPÍTULO 3. ESPERANZA Y VARIANZA

Denotando a := EX y suponiendo, por ejemplo, que X tiene una densidad fX , al usar


la monotonı́a de la integral y las fórmulas (3.2.10), (3.1.9) y (1.2.9) se tiene lo siguiente:
Z ∞
2 2
|x − a|2 fX (x) dx

σ = E |X − a| =
−∞
Z Z
2 2
> |x − a| fX (x) dx > ε fX (x)dx = ε2 P (|X − a| > ε).
x:|x−a|>ε x:|x−a|>ε

Faltarı́a dividir entre ε2 y pasar al complemento del evento {|X − a| > ε}.

Ejemplo 3.7 Supongamos que se debe medir una magnitud fı́sica a desconocida. Para
disminuir el error, tal magnitud se mide n veces obteniendo los resultados: X1 , X2 , . . . , Xn .
Con frecuencia es razonable considerar que X1 , X2 , . . . , Xn son v.a. i.i.d., con EXk = a
y V ar(Xk ) = σ 2 < ∞, (k = 1, . . . , n). (Como las v.a. son idénticamente distribuidas,
obsérvese que se tiene la igualdad de esperanzas y varianzas). Para tener una estimación
del valor desconocido a se usa la v.a. Sn /n, donde

Sn = X1 + X2 + · · · + Xn . (3.2.19)
Sn
Con respecto al error de la estimación de define δn := n
− a, y de lo cual se tiene que
(consulte la Proposición 3.1):

1 na
Eδn = E(X1 + · · · + Xn ) − Ea = − a = 0, (3.2.20)
n n
   
Sn Sn 1 
y V ar(δn ) = V ar − a = V ar = 2 V ar X1 + · · · + Xn = (por independen-
n n n
2
1 σ
cia) = 2 nσ 2 = , i.e.
n n
σ2
V ar(δn ) = . (3.2.21)
n
Por consiguiente, al aumentar el número de mediciones resulta que V ar(δn ) → 0, y por
lo tanto los valores del estimador Snn son cercanos al valor desconocido a. En efecto, para
cualquier ε > 0 (podrı́a ser muy pequeña, como ε = 0.000001), de (3.2.18), (3.2.20) y
σ2
(3.2.21) se sigue que 1 > P (|δn − a| 6 ε) > 1 − 2 → 1 cuando el número de mediciones

(o sumandos en (3.2.19)) crece ilimitadamente (n → ∞). Luego, en el Capı́tulo 6 se
verá que es cierta la siguiente afirmación (más fuerte): δn → a (converge o se aproxima
a a), cuando n → ∞ con probabilidad uno.

49
3.2. Varianza y desigualdad de Chebyshev

Nota 3.4 Al tomar x > 0 en lugar de ε en (3.2.18) se puede observar que cuando el
2
cociente σx2 es cercano a cero, con probabilidad cercana a 1, la v.a. X toma sus valores
en el intervalo [EX − x, EX + x]. Este caso se ilustra en la Figura R3.5, donde X una v.a.

a.c. y el área rayada = P (EX − x 6 X 6 EX + x) es cercana a −∞ fX (x)dx = 1.

y
fX (x)

x
EX-x 0 EX EX+x

Figura 3.5: Ilustración de la desigualdad de Chebyshev.

En particular, cuando se toma x = 3σ, por (3.2.18), se tiene que P (EX − 3σ 6 X 6


EX +3σ) > 8/9. En el caso de X ∼ N orm(a, σ), se puede calcular precisamente la última
probabilidad:
 
  X −a
P a − 3σ 6 X 6 a + 3σ = P − 3σ 6 X − a 6 3σ = P −3 6 63 .
σ
X −a
Dado que ∼ N orm(0, 1) (véase el Ejercicio 1.19), por (1.2.9),
σ
  Z 3
X −a 1 2
P −3 6 63 = √ e−t /2 dt = Fη (3) − Fη (−3)
σ −3 2π

≡ Φ(3) − Φ(−3) = por tablas de la función Φ(x) ≈ 0.9974.

Por ejemplo, según datos estadı́sticos de Karl Pearson (1857-1936) (véase Pitman (1993)),
a finales del siglo XIX en Inglaterra, la estatura (en centı́metros) de un hombre elegido al
azar, aproximadamente, se representaba por la v.a. X ∼ N orm(a = 175.26, σ = 5.08). In-
terpretando la probabilidad en términos de la “frecuencia” (véase Capı́tulo 6), lo anterior
(“regla 3σ”) nos indica que alrededor del 99.7 % de la población masculina tenı́a (en esa
época) una estatura que se encontraba en el intervalo [a − 3σ, a + 3σ] = [160.02, 190.5].

Ejemplo 3.8 Este ejemplo muestra la importancia del uso de procesos aleatorios en al-
gunos modelos estocásticos.

50
CAPÍTULO 3. ESPERANZA Y VARIANZA

y 1
2
- (x-a) /2σ
2

fX (x) = e
2π σ

∼99.7%
x
a-3σ 0 EX=a a+3σ

Figura 3.6: “Regla 3σ”para v.a. normales P (a − 3σ ≤ X ≤ a + 3σ) ≈ 0.9974 es cercana


a 1.

fV (x)
y
1/120
x
0 EV=60 120(km/h)

Figura 3.7: Densidad uniforme en (0, 120).

Imaginemos que un señor maneja de su casa a la oficina (en dı́as hábiles) con una
velocidad aleatoria V que tiene, supongamos, la densidad uniforme U (0, 120):
Por (3.1.7), la velocidad promedio es EV = 60(km/h). Supongamos que la distancia
entre la casa y la oficina es S = 30km. ¿Cuál es el tiempo promedio por viaje?

Denotemos por T la v.a. que representa el tiempo (aleatorio, puesto que la velocidad
es aleatoria) de un viaje. Entonces la respuesta a la pregunta se tendrá al estimar ET .
Usando las ecuaciones:
S = V T o T = S/V, (3.2.22)

intuitivamente se piensa que ET = 0.5(hr). Tal resultado también se obtiene de (3.2.22),


si se aplica la “igualdad”:
 
S ES 30
ET = E = = . (3.2.23)
V EV 60

Sin embargo, se verá que la segunda igualdad en (3.2.23) es falsa (parecido al Ejemplo

51
3.2. Varianza y desigualdad de Chebyshev

3.3). Aplicando (3.2.22) y (3.1.9) con g(x) = 1/x, se tiene que:


Z 120
1 120 dx
Z
1 1
ET = 30 E(1/V ) = 30 dx =
0 x 120 4 0 x
= (integral impropia de la función 1/x no acotada en 0)
Z 120
1 dx 1  
= lı́m = lı́m ln(120) − ln(ε) = ∞,
4 ε→0 ε x 4 ε→0

(dado que ln(x) → −∞ cuando x → 0+ ).

Entonces en lugar de 0.5 hr. se ha obtenido el resultado absurdo ET = ∞. La explica-


ción es la siguiente. Nuestro modelo del manejo con velocidad aleatoria no es adecuado,
pues la aplicación de la ecuación (3.2.22) es válida cuando la velocidad V es constante
durante todo el viaje. Entonces se ha obtenido el resultado ET = ∞ por la posibilidad
de tener valores pequeños para velocidades constantes durante todo el viaje, por ejemplo,
una velocidad constante de 0.1 mm/h.
En realidad la velocidad V es una v.a. que depende del tiempo (t) que transcurre
durante el viaje (la cual es nula frente a un semáforo en rojo y es grande en algunos otros
instantes). Es decir, V = V (t, ω) es un proceso aleatorio (estocástico). Al cambiar
(3.2.22) por una ecuación con velocidad variable, dS = V dt e integrando se tiene:
Z T
S= V (ω, t)dt. (3.2.24)
0

Cuando S → ∞ y la velocidad es acotada se tiene que T (ω) → ∞ con probabilidad


RT
uno. Bajo ciertas condiciones (de ergodicidad), el promedio en el tiempo T1 0 V (ω, t)dt
se acerca, cuando T → ∞, al promedio en ω: EV (ω, t) = 60(km/h). O bien, por (3.2.24),
S S
T
≈ EV = 60, o T ≈ 60 , que resulta del hecho de que la v.a. T toma valores cercanos al
valor constante S/60. Por lo tanto ET ≈ E(S/60) = 0.5(hr).
Esto recupera nuestra suposición intuitiva, de que el tiempo promedio por viaje debe
ser alrededor de media hora. Sin embargo, tales conclusiones son ciertas solamente para
distancias S “relativamente grandes”.

52
CAPÍTULO 3. ESPERANZA Y VARIANZA

3.3. EJERCICIOS
3.1 Sea X = η ∼ N orm(0, 1) y Y = −X. Muestre que V ar(X + Y ) = 0, pero V ar(X) +
V ar(Y ) = 2.

3.2 Sea X una v.a. a.c. simétrica i.e. fX (−x) = fX (x), x ∈ R.

(a) Muestre que si E|X| < ∞ (i.e. la esperanza existe y es finita), entonces
EX = 0.
Rc
(b) Para la densidad simétrica de Cauchy en (2.3.20), muestre que −c xfX (x)dx = 0
para cada c > 0, pero E|X| = ∞ y por lo tanto EX no existe.

3.3 Encuentre un ejemplo de dos v.a. no negativas X y Y tales que P (0 6 X 6 Y ) =


1 − 10−100 , pero EX = ∞ y EY < ∞.
Sugerencia: Considere X = |ξ|, donde ξ tiene la densidad de Cauchy (2.3.20).

3.4 Un dado simétrico se lanza 6 veces. ¿Cuál es el número esperado de lados que no
salen ni una sola vez?
Resp. : 56 /65 ≈ 2.00093879.

3.5 Cierto rı́o tiene crecimientos anuales. Supongamos que la marca del nivel bajo se
sitúa en 1m y que la marca del crecimiento X es la v.a. con la siguiente f.d.
(
1 − 1/x3 , si x > 1,
FX (x) =
0, si x < 1.

Supongamos que los daños materiales (representados en millones de pesos) por cre-
cida X, se dan por la v.a. Y = g(X) con:
(
0, si x 6 2,
g(x) = 2
0.7(x − 2) , si x > 2.

Calcule los daños promedio EY .


Resp. : 0.35 millones de pesos.

3.6 Sean X y Y v.a. i.i.d. con densidad (véase Ejercicio 2.20):


(
√ 1√ , si 0 < x < 2,
2 2 x
fX (x) =
0, si x ∈
/ (0, 2).

53
3.3. Ejercicios


Sea T = máx(X, Y ). Calcular ET, E(1/ T ), E(1/T ).

Resp. : 1; 2; ∞.
Sugerencia: Usar el resultado del Ejercicio 2.20.
3.7 En el movimiento térmico de un gas en equilibrio, el módulo de la velocidad de cada
molécula es la v.a. V con la densidad de Maxwell:
( 2
√4 λ3/2 x2 e−λx , si x > 0,
π
fV (x) =
0, si x 6 0,
m
donde λ = 2κT , m es la masa de la molécula, κ es la constante de Bolzmann y T
es la temperatura del gas. Calcule la energı́a cinética promedio de la molecula:
mV 2

E .
2
Resp. : 23 κ T (es decir, el calor o frı́o que sentimos es proporcional a la energı́a
promedio de las moléculas en el aire.)
R∞ √
2
Sugerencia: Utilizar integración por partes y el resultado: 0 e−x dx = 2π .
3.8 Un “optimista” juega diariamente el juego de azar que se describe en el ejemplo
5.2 del Capı́tulo 5 (pagando 100 pesos por cada vez que participa). Su finalidad es
ganar en un dı́a más de 1 millón de pesos. Sea N := {el número de dı́as hasta la
primera vez que gana una cantidad mayor a 1 millón de pesos}. Calcule EN .
Sugerencia: Primero, estime p = P (ganar más de un millón en un solo juego).
Después muestre que:
P (N = n) = p(1 − p)n−1 , n = 1, 2, . . . (3.3.25)
(que es la distribución geométrica con parámetro p introducida en (2.3.21)).
Finalmente, use (3.1.4) y verifique que:

EN = 1/p, si N ∼ Geom(p).

Resp. : EN = 524288 dı́as ≈ 1436 años. Hay pocas posibilidades de sobrevivir has-
ta este afortunado dı́a, pero suponiendo que sucede, hay que pagar la participación
en todos los juegos hasta ese dı́a que es aproximadamente 52 millones de pesos. Sin
embargo, el juego es “extremadamente favorable” de forma que con un capital de
100 pesos, puede “ganarse en promedio” un capital infinito (vea el Ejemplo 5.2, en
el Capı́tulo 5). De un teorema lı́mite de la teorı́a de probabilidad seguirá que con
n = 524288 repeticiones del juego pueden, en total, ganarse alrededor de 10 millones
de pesos, que es mucho menos que el pago promedio de 52 millones (pagando 100
pesos por cada juego).

54
CAPÍTULO 3. ESPERANZA Y VARIANZA

3.9 ¿Cuántas veces en promedio hay que lanzar un dado simétrico hasta la primer salida
de “6”?
Sugerencia: Mostrar que el número de lanzamientos es la v.a. N ∼ Geom(p =
1/6), y verificar como en el Ejercicio 3.8 que

EN = 1/p. (3.3.26)

Resp. : 6.
3.10 Dar un ejemplo de dos v.a. X y Y tales que EX y EY no existen, pero E(X + Y )
sı́ existe.
Sugerencia: Usar el resultado del Ejercicio 3.2 (b).

3.11 Supongamos que un televisor tiene una duración de “vida” (hasta la primer falla) re-
presentada por la v.a. T (en años) con la siguiente densidad Gamma con parámetros
α = 2, λ = 0.15, (la distribución general Gamma se encuentra en la Nota 3.5)
(
λ2 xe−λx , si x > 0,
fT (x) =
0, si x 6 0.

Esta es denotada T ∼ Gamma α = 2, λ = 0.15 .

(a) Calcular las probabilidades: P (T > 5) y P (T > 5 + 2 | T > 2).


(b) Calcular la duración del tiempo de “vida” promedio ET .
Resp. : (a) ≈ 0.82664 y 0.74489; (b) ≈ 13.3333 años.

Nota 3.5 En general la densidad Gamma con dos parámetros positivos α y


λ es:  α−1
λe−λx (λx) , si x > 0,
fX (x) = Γ(α)
0, si x 6 0,

donde Γ(α) es una constante. Cuando una v.a. X tiene la densidad Gamma se escri-
be X ∼ Gamma(α, λ) . La constante Γ(α) es el valor en el punto α de la función
Z ∞
Gama Γ(y) := ty−1 e−t dt, definida para cualquier y > 0. En particular para
0
α ∈ N (número natural) se tiene que Γ(α) = (α − 1)!.

55
3.3. Ejercicios

Cabe mencionar que para α = 1 la densidad Gamma es la densidad exponencial,


i.e. la distribución exponencial es un caso particular de la distribución Gamma.
Sin embargo, a diferencia de una v.a. exponencial (consulte el Ejercicio 2.14), en
el Ejercicio 3.11 donde T tiene la distribución Gamma con α = 2 se obtuvo que
P T > 5 + 2 | T > 2 < P (T > 5) (“envejecimiento”).

3.12 Sean X, Y v.a. i.i.d. con distribución U (0, 1). Mostrar que: (a) EX/EY = 1; (b)
E(X/Y ) = ∞.

3.13 Sea X > 0 una v.a. a.c. con f.d. FX . Demostrar que
Z ∞  
EX = 1 − FX (x) dx. (3.3.27)
0

R∞ R∞
Sugerencia: 0 x fX (x)dx = − 0 x d[1 − FX (x)]dx.
 Usar integración por partes
y mostrar que si EX < ∞, entonces x 1 − FX (x) → 0 cuando x → ∞.

3.14 Sean n > 1, X1 , X2 , . . . , Xn v.a. i.i.d. con distribución Exp(λ), (i.e Xk ∼ Exp(λ),
para
 toda k = 1, . . . , n), y sea Tn := máx(X1 , X2 , . . . , Xn ). Demostrar que ETn =
1 1 1 1 1 1
1 + + + ··· + ≈ [ln n + + c], donde c ≈ 0.57722 es la constante de
λ 2 3 n λ 2n
Euler.

Sugerencia: Usar la independencia y verificar lo siguiente: FTn (x) = (1 − e−λx )n ,


x > 0. Usar la fórmula (3.3.27) del Ejercicio 3.13 y el cambio de variable: z = 1−e−λx .

Nota 3.6 El resultado del Ejercicio 3.14 se utiliza en la Teorı́a de Confiabilidad


(en la ingenierı́a). Como un ejemplo, supongamos que un sistema de control de una
instalación potencialmente peligrosa (como una estación de energı́a nuclear) incluye
un microchip muy importante. Para aumentar la confiabilidad del sistema a veces se
utiliza la estrategia de reservación conocida como “redundancia activa” (consulte,
por ejemplo, Gnedenko et al. (1969), Capı́tulo 5). Tal estrategia sugiere que un
conjunto de n > 1 microchips idénticos se pongan en funcionamiento permanente
(a pesar de que sólo un microchip del conjunto se utiliza en el funcionamiento
del sistema de control). Todos los otros microchips están en “estado activo” para
hacer reemplazo inmediato en el caso de una falla del componente utilizado. Si
X1 , X2 , . . . , Xn denotan los tiempos de funcionamiento (hasta su primer falla) de los
n microchips, entonces el tiempo total del funcionamiento del sistema redundante
con n repuestos se representa mediante la v.a. Tn = máx X1 , X2 , . . . , Xn . Según

56
CAPÍTULO 3. ESPERANZA Y VARIANZA

la fórmula para ETn encontrada en el ejercicio anterior, si, por ejemplo, n = 10


entonces el tiempo promedio del funcionamiento aumenta aproximadamente en 2.9
veces (comparado con el tiempo cuando se tiene un solo microchip).

3.15 Supongamos que E(X 2 ) < ∞, definamos la función: ϕ(c) := E(X − c)2 , c ∈ R.
Mostrar que mı́n ϕ(c) = E(X − EX)2 = V ar(X).
c∈R

3.16 (Varianza de v.a. degenerada) Mostrar que V ar(X)=0 si y sólo si P (X = c) = 1


con c = EX.

Sugerencia: Usar (3.2.18) para estimar P |X − EX| 6 1/n para n = 1, 2, 3, . . .

3.17 Sean n > 1, p > 0 y X1 , X2 , . . . , Xn v.a. i.i.d. con valores positivos. Mostrar que
para cada k : 1 6 k 6 n,
 p
X1 + X2p + · · · + Xkp

k
E p p p = .
X1 + X2 + · · · + X n n

3.18 Sean X y Y v.a. independientes, tales que X ∼ Exp(λ = 1) y Y tiene la siguiente


f.d. (
0, si x < 1,
FY (x) = 1
1 − x , si x > 1.

Sea también Z := X Y . Calcular EZ y mostrar que V ar(Z) es infinita.

3.19 (a) Sea X ∼ P oiss(λ). Demostrar que

V ar(X) = EX = λ. (3.3.28)

(b) Sea Y ∼ Gamma(α, λ) (véase Nota 3.5). Demostrar que

α α
EY = y V ar(Y ) = .
λ λ2

Sugerencia: (a) Para EX véase el Ejemplo 3.1(b). Para determinar la V ar(X)


 2
utilice la siguiente relación V ar(X) = E X(X − 1) + EX − EX .
(b) Para EY utilice integración por partes y la definición de la función gamma Γ(α)
(véase Nota 3.5).

57
3.3. Ejercicios

3.20 Sean B un subconjunto (“medible”) de R, y X una v.a. Definimos la v.a. (indica-


dora): (
1, si X ∈ B,
IB (X) =
0, si X ∈
/ B.
Demostrar que
EIB (X) = P (X ∈ B). (3.3.29)

Nota 3.7 La igualdad (3.3.29) es trivial, sin embargo es importante y será utilizada
en el resto del libro.

3.21 (a) Sean X y Y v.a. idénticamente distribuidas, i.e. FX (x) = FY (x), x ∈ R, tales
que E(X 2 ) < ∞. Demostrar que

EX = EY y V ar(X) = V ar(Y ). (3.3.30)

(b) Dar un ejemplo de v.a. X y Y tales que (3.3.30) se cumple, pero FX (x) 6= FY (x)
para toda x ∈ R.

Sugerencia: (b) Sea X ∼ Gamma(α = 9, λ = 3) (véase, Nota 3.5 y Ejercicio


3.19(b)) y sea Y = 2 + ξ con ξ ∼ Exp(λ = 1).

3.22 Sea T la v.a. con la siguiente distribución de Weibull con parámetros λ y α = 2


(esta distribución recibe el nombre del matemático e ingeniero sueco Ernst Hjalmar
Waloddi Weibull (1887-1979), reconocido por sus trabajos en estadı́stica):
( 2
1 − e−λx , si x > 0,
FT (x) =
0, si x ≤ 0.

donde λ > 0 es un parámetro. Calcular ET .


Z ∞
1 x2 1
Sugerencia: Use (3.3.27) y el hecho de que √ e− 2 dx = .
2π 0 2
r
1 π
Resp. : ET = . (3.3.31)
2 λ

58
Capı́tulo 4

Esperanza condicional, caminatas


aleatorias y modelo de riesgo de
Cramér-Lundberg

4.1. Esperanza condicional de una variable aleatoria.


Pensemos en una ciudad en donde las v.a. Z y Y representan (respectivamente) el peso
y la estatura de un hombre adulto elegido al azar. Es claro que Z y Y son v.a. dependientes.
Supongamos que el peso promedio EZ = 81kg. Si consideramos la subpoblación de los
hombres que tienen estatura Y = 195cm, resultará que el peso promedio en ese subgrupo
es mayor que 81kg, es decir, la esperanza condicional E(Z|Y = 195) > EZ. Del mismo
modo E(Z|Y = 160) < EZ = 81.

Es evidente que la esperanza condicional debe estar relacionada con las nociones de
distribución y densidad condicionales de Capı́tulo 2. La siguiente definición da una versión
condicional de (3.1.4) y (3.1.5).

Definición 4.1 Sean Z y Y v.a. para las cuales EZ existe. La esperanza condicional
de Z dado que Y = y, se define como sigue.

(a) Si Z y Y son discretas, entonces


X
E(Z|Y = yk ) := zn P (Z = zn |Y = yk ), (4.1.1)
n=1

59
4.1. Esperanza condicional

donde {z1 , z2 , . . . } son los valores de Z; y yk es un valor arbitrario, pero fijo de Y .


Además P (Z = zn |Y = yk ), n = 1, 2, . . . es la distribución condicional definida en
(2.2.15).

(b) Si el par de v.a. Z y Y es absolutamente continuo, entonces la esperanza condi-


cional es: Z ∞
E(Z|Y = y) := z fZ|Y =y (z) dz, (4.1.2)
−∞

donde y es un valor arbitrario de la v.a. Y , pero fijo (con fY (y) > 0) y fZ|Y =y es la
densidad condicional introducida en (2.2.16).

Nota 4.1 (a) La esperanza condicional hereda todas las propiedades básicas de la es-
peranza habitual. En particular,
  
E Z + X|Y = y = E Z|Y = y + E X|Y = y . (4.1.3)

(b) Es claro que el número E(Z|Y = y), en general depende del valor y que toma la
v.a. Y . Ası́ pues, la esperanza condicional es una función ϕ(Y ) de la v.a. Y y puede
escribirse como ϕ(Y ) = E(Z|Y ). Donde para cada valor y de Y el correspondiente
valor de dicha función es ϕ(y) = E(Z |Y = y) con esta última definida en (4.1.1) o
(4.1.2).
(c) Para v.a. Z y Y independientes, E(Z|Y = y) = EZ (ya que, por ejemplo, fZ|Y =y =
fZ , véase Capı́tulo 2).

Ejemplo 4.1 Al lanzar dos dados simétricos, sea Y la v.a. que representa el puntaje del
primer dado, Ye el puntaje que resulta del segundo dado; y sea Z = Y + Ye la suma de los
puntajes. Del Ejemplo 3.1, se tiene que

EZ = EY + E Ye = 3.5 + 3.5 = 7.

Por otro lado, E(Z|Y = k) = E(Y + Ye |Y = k) = (por (4.1.3)) =


= E(Y |Y = k) + E(Ye |Y = k) = (por independencia de Y
fy Y ) =
= k + E Ye = k + 3.5, k = 1, 2, . . . , 6.

Por ejemplo, E(Z|Y = 1) = 4.5, pero E(Z|Y = 6) = 9.5 (un resultado muy intuitivo).

60
CAPÍTULO 4. ESPERANZA CONDICIONAL

Para presentar el siguiente ejemplo, necesitamos un resultado simple el cual también


se usará en otras partes del libro.

Proposición 4.1 Sea X una v.a. para la cual existen a := EX y σ 2 := V ar(X) con
X −a
0 < σ < ∞. Entonces, para la v.a. estandarizada Y := se tiene que
σ

EY = 0 y V ar(Y ) = 1.

Por ejemplo, por propiedades de la varianza (véase la Proposición 3.1) se tiene que:

σ2
 
1 1 1
V ar(Y ) = V ar (X − a) = 2 V ar(X − a) = 2 V ar(X) = 2 = 1.
σ σ σ σ

Ejemplo 4.2 Los estadı́sticos Galton 1 y Pearson 2 estudiaron, en Inglaterra, la seme-


janza entre la estatura Y de un padre y la estatura Z de su hijo (de una familia escogida
al azar). Ellos establecieron (según datos presentados en Pitman(1993)) que (en centı́me-
tros) Y ∼ N orm(aY = 175.26, σY = 5.08), Z ∼ N orm(aZ = 177.8, σZ = 5.08), o bien,
EY = aY = 175.26 cm y EZ = aZ = 177.8 cm; y que la densidad conjunta de las v.a.
estandarizadas η = Y σ−aY
Y
, ξ = Z−a
σZ
Z
es bidimensional Normal estándar con el coeficiente
de correlación ρ = 0.5 (véase (2.1.9)).
Calculemos E(Z|Y = y) = E(σZ ξ + aZ |Y = y) = σZ E(ξ |Y = y) + aZ =
 
y − aY
= σZ E ξ η = + aZ . (4.1.4)

σY

p Por el Ejercicio 2.23 se sabe que fξ|η=y es la densidad


0 Normal con a = ρy 0 y σ =
1 − ρ2 . Debido a esto y por (3.2.15) se tiene E(ξ|η = y−a
σY
Y
) = ρ y−a
σY
Y
, entonces susti-
tuyendo en (4.1.4) se obtiene:
σZ
E(Z|Y = y) = ρ σY
(y − aY ) + aZ . (4.1.5)

Como ejemplos de la aplicación de (4.1.5) se tiene:


5.08
E(Z|Y = 190) = 0.5 5.08
(190 − 175.26) + 177.8 = 185.17(cm). (4.1.6)
1
Francis Galton (1822-1911) fue un estadı́stico británico, pionero en el uso de la ditribución normal,
introdujo el concepto de correlación, entre otros conceptos.
2
Karl Pearson(1857-1936) genetista británico fundador de la estadı́stica matemática y bioestadı́stica,
aplicando métodos estadı́sticos a la biologı́a.

61
4.1. Esperanza condicional

5.08
E(Z|Y = 160) = 0.5 5.08
(160 − 175.26) + 177.8 = 170.17(cm) y también (4.1.7)
E(Z|Y = EY = 175.26) = EZ = 177.8.
A la disminución en la amplitud de la variación de estaturas de la siguiente genera-
ción, expresada en (4.1.6) y en (4.1.7), F. Galton la denominó “regresión al promedio”.
Tal “regresión”se
p debe al hecho de que la densidad condicional fξ|η=y0 es Normal con
σ = 1 − ρ : y las varianzas condicionales V ar(ξ|η = y 0 ) = σ 2 = 1 − ρ2 = 0.75 y
2

V ar(Z|Y = y) = V ar(σZ ξ + aZ |Y = y) = σZ2 V ar(ξ|η = y 0 ) = σZ2 (1 − ρ2 ) = 19.3548,


son menores que V ar(Z) = σZ2 = 25.8064. Es decir, al fijar la estatura del padre Y , la
dispersión de los valores de la v.a. que dan las estaturas de los hijos, decrece.

A primera vista se podrı́a pensar que han existido cambios generacionales en la estatu-
ra, y que toda la población tendrı́a una altura cercana a la estatura promedio (disminución
de la varianza). Tal interpretación, un tanto engañosa, no era singular en la época de F.
Galton. En realidad, al promediar V ar(Z|Y = y) sobre todos los valores y de Y (mediante
una versión de la fórmula (4.1.9) de abajo), se obtiene que V ar(Z) = σZ2 = 25.8064, la
cual es igual a la varianza de estatura de la generación anterior.

Proposición 4.2 Sean Z y Y v.a. tales que EZ existe. Entonces:


(a) para el caso de v.a. Z y Y discretas,

X
EZ = E(Z|Y = yk )P (Y = yk ); (4.1.8)
k=1

(b) y para el caso de v.a. Z y Y conjuntamente absolutamente continuas,


Z ∞
EZ = E(Z|Y = y)fY (y) dy. (4.1.9)
−∞

Demostración de (4.1.8). Sean Z y Y v.a. discretas tal que EZ existe. De la definición


de esperanza (3.1.4) se tiene:
∞ ∞ ∞
!
X X X 
EZ = zn P Z = zn ) = (por (2.2.13)) = zn P Z = zn |Y = yk P Y = yk )
n=1 n=1 k=1
∞ ∞
!
X X 
= (intercambiando las sumas) = zn P Z = zn |Y = yk P Y = yk )
k=1 n=1

X 
= (por (4.1.1)) = E Z|Y = yk P Y = yk ).
k=1

62
CAPÍTULO 4. ESPERANZA CONDICIONAL

Análogamente se demuestra (4.1.9).

Nota 4.2 (a) Las fórmulas (4.1.8) y (4.1.9) son parecidas a (2.2.13) y (2.2.14).
(b) En la teorı́a avanzada de probabilidad se demuestra que (4.1.8) y (4.1.9) son co-
rrectas para cualquier v.a. Z (discreta, a.c. u otra). Posteriormente se usará tal
generalización.
Ejemplo 4.3 ¿Cuánto tiempo hay que esperar para recibir una oferta mejor que la pri-
mera?.
Una persona quiere vender su coche y recibe ofertas sucesivas: X0 , X1 , X2 , . . . que se
supone (en este ejemplo) son v.a. i.i.d. (no negativas) con una densidad común continua
fX y f.d. común FX . Supongamos que el vendedor ha rechazado la primera oferta X0 y ha
decidido esperar hasta una oferta mejor, i.e. hasta el primer n tal que Xn > X0 . Sea
N := mı́n{n > 1 tal que Xn > X0 },
el numero aleatorio de ofertas que hay que esperar hasta que la oferta inicial X0 sea
mejorada. Calcularemos el promedio EN .
Para n = 1, 2, . . . , y para cualquier y > 0 se tiene,
 
P N > n | X 0 = y = P X 1 6 X0 , X 2 6 X0 , . . . , X n 6 X0 | X 0 = y

= P X1 6 y, X2 6 y, . . . , Xn 6 y | X0 = y = (por independencia de X0 y X1 , X2 , . . . )

= P X1 6 y, X2 6 y, . . . , Xn 6 y =
= (por independencia de X1 , . . . , Xn y la n-dimensional versión de (2.1.5))
  
= P X1 6 y P X2 6 y · · · P Xn 6 y = (por (1.2.5)) =
 n
= FX1 (y)FX2 (y) · · · FXn (y) = FX (y) . (4.1.10)
Aplicando a (4.1.10) la fórmula (2.2.14) se obtiene:
Z ∞ Z ∞
  n  n
P N >n = FX (y) fX (y) dy = FX (y) dFX (y) =
0 0
= (por cambio de variable: z = FX (y))
Z 1
1
= z n dz = , n = 1, 2, . . . (4.1.11)
0 n+1
De (4.1.11) se ve que para n = 1, 2 . . . ,
     
P N =n = P N >n−1 \ N >n =P N >n−1 −P N >n
1 1
= − , (4.1.12)
n n+1

63
4.2. Caminatas aleatorias simples

(puesto que {N > n} ⊂ {N > n − 1} y P (N > 0) = 1). Entonces



P (N < ∞) = P {N = 1} ∪ {N = 2} ∪ · · · ∪ {N = n} ∪ · · · =
∞ ∞  
X X 1 1
= P (N = n) = (por (4.1.12)) = − = 1. (4.1.13)
n=1 n=1
n n + 1

La igualdad anterior (4.1.13) muestra que la v.a. N es finita con probabilidad uno.
Es decir, casi seguramente el vendedor del coche va a obtener una mejor oferta que la
primera. Ahora, para calcular EN apliquemos el resultado del Ejercicio 4.1 y la ecuación
(4.1.11), y resulta:

X 1
EN = = (consulta el ejemplo 3.2) = ∞.
n=1
n + 1

Por lo tanto EN = ∞ , el número promedio de las ofertas que debe esperar el vendedor
para llegar a una oferta mejor que la primera es infinito. Este resultado no es optimista
para el vendedor, pero en la vida real, la hipótesis de independencia entre las ofertas no
se cumple.

4.2. Caminatas aleatorias simples


Una caminata aleatoria “simple” es un modelo útil en la teorı́a de probabilidad y tiene
muchas aplicaciones. Este modelo puede ser interpretado en términos del movimiento
aleatorio de una “partı́cula” sobre el conjunto Z := {. . . , −3, −2, −1, 0, 1, 2, 3, . . . } de
todos los enteros en la recta R = (−∞, ∞). El modelo se define como sigue. Supongamos
que los enteros n = 0, 1, 2, . . . se interpretan como el “tiempo discreto” del movimiento y
{X1 , X2 , . . . , Xk , . . . } son v.a. i.i.d. con distribución:

P (Xk = 1) = P (Xk = −1) = 1/2, (k = 1, 2, . . . ). (4.2.14)

Para un x ∈ Z fijo, se define:

S0 (x) := x, Sn (x) := x + Sn , n = 1, 2, 3, . . . , (4.2.15)

donde (como en (3.2.19)),

Sn = X1 + X2 + X3 + · · · + Xn , n = 1, 2, . . . (4.2.16)

64
CAPÍTULO 4. ESPERANZA CONDICIONAL

A la sucesión de las v.a. (sumas) en (4.2.15) se le llama caminata aleatoria (con el


origen en el punto x). De (4.2.15) y (4.2.16) se tiene que:

Sn (x) = Sn−1 (x) + Xn , n > 1. (4.2.17)

En términos de “movimiento”, en el “instante” n = 0 la “partı́cula” está en el punto


S0 = x (que es un número entero). Si en el “instante” n − 1 (con n ≥ 1) la posición de
la “partı́cula” es y = Sn−1 (x), entonces, por (4.2.14) y (4.2.17), la “partı́cula” se mueve
(salta) en el “instante” n o bien al punto entero y + 1 de la derecha o a la izquierda en el
punto y − 1 con la misma probabilidad 1/2 para los dos casos (véase la Figura 4.1).

Sn
origen: x=3
x
p=1/2 p=1/2

-1 -2 -3 0 1 2 3 y-1 y y+1
Sn-1(x)=y

Figura 4.1: Caminata aleatoria simple.

La dirección del movimiento depende del valor 1 o -1 que tome la v.a. Xn en (4.2.17),
y no depende del movimiento ocurrido en todos los “instantes” anteriores a n, puesto
que Xn no depende de Sn−1 = X1 + X2 + · · · + Xn−1 . Es entonces con el crecimiento del
“tiempo” n que la “partı́cula” se mueve sobre Z de forma aleatoria.

Nota 4.3 De (3.1.4) y (4.2.14) se tiene que EXk = 0 (la caminata es simétrica), y por
la Proposición 3.1 ESn (x) = x (o bien ESn = 0, cuando el punto de origen es x = 0).
Esto no significa que Sn (x) se mueve relativamente cerca del punto inicial x, sino al con-
trario debido a que (véase (3.2.10)) V ar(Xk ) = EXk2 = 1 y V ar(Sn ) = n → ∞ (consulte
la Proposición 3.1), resulta que Sn hace oscilaciones cada vez más grandes, visitando
cualquier punto a la derecha o a la izquierda de x cuando n aumenta infinitamente.

Proposición 4.3 (a) Con probabilidad uno, |Sn (x)| → ∞ cuando n → ∞.

(b) Con probabilidad uno, entre los valores de {S0 (x), S1 (x), . . . , Sn (x), . . . } se encuen-
tran cantidades infinitas de números tanto negativos como positivos.

En lugar de una demostración formal, veamos algunos argumentos intuitivos que apo-
yan esta Proposición. Para mayor simplicidad, escojamos x = 0. Al suponer que para

65
4.2. Caminatas aleatorias simples

algún número finito b se cumple que −b 6 Sn 6 b, n = 1, 2, 3, . . . con probabilidad positi-


−b Sn b
va tendremos que para toda n = 1, 2, 3, . . . , √ 6 √ 6 √ . Entonces, con probabilidad
n n n
Sn
positiva también, las v.a. n se acercan a cero. Pero por el Teorema Central del Lı́mite en

Sn
Capı́tulo 8, cuando n → ∞ la distribución de √ n
se aproxima a la distribución de la v.a.
a.c. η ∼ N orm(0, 1), para la cual P (η = 0) = 0. De aquı́ se deduce que, con probabilidad
1 la sucesión {Sn , n = 1, 2, . . . } no está acotada.

Para “justificar” el inciso (b) es suficiente observar, según los argumentos de arriba, que
Sn

n
se comporta como η ∼ N orm(0, 1), pero P (η < 0) = P (η > 0) = 12 , por (1.2.13). Por
lo cual Sn tiene la misma probabilidad de tomar tanto valores positivos como negativos.
Corolario 4.1 La caminata aleatoria {Sn (x), n = 0, 1, 2, . . . } visita cada punto entero
y ∈ Z un número infinito de veces (con probabilidad 1).
Consideremos el caso cuando x = 0, de (4.2.14) y (4.2.15) se tiene que al moverse de
algún y ∈ Z a otro y 0 ∈ Z, la caminata debe visitar todos los puntos enteros entre y
y y 0 (ver la Figura 4.1). Entonces, por la Proposición 4.3(b), la caminata visita el punto
0 ∈ Z un número infinito de veces. Por otro lado, de la misma proposición se sigue que
la caminata alcanza (seguramente, i.e. con probabilidad 1) cualquier otro punto z ∈ Z,
z 6= 0. Entonces,
Cuando en algún instante (aleatorio) τy el punto y se alcanza,
para n = τy + 1, τy + 2, τy + 3, . . . , la caminata se comporta de
(4.2.18)
la misma forma que se comporta la caminata original con el nuevo
origen S0 = y, para n = 1, 2, 3, . . .
Esto es consecuencia de la independencia de Xn y Sn−1 (x) en (4.2.17).
Nota 4.4 Sean x = 0 y d > 1 un número entero dado. Introduciendo para m = 1, 2, . . . , d,
sucesiones independientes de v.a. i.i.d. con la distribución dada en (4.2.14) {X1m , X2m , . . . ,
Xkm , . . . } y definiendo: Snm := X1m +X2m +· · ·+Xnm , n = 1, 2, . . . ; m = 1, 2, . . . , d, se puede
considerar la caminata aleatoria simple d−dimencional. Esta caminata se define como la
(1) (2) (d) 
sucesión de vectores aleatorios (con componentes enteros): S n = Sn , Sn , . . . , Sn ,
n = 1, 2, . . . (con, por ejemplo, S 0 := 0, 0, . . . , 0)).
Se puede demostrar (fuera del alcance de este libro) que para d = 2 (en el plano), la
caminata regresa al origen (0, 0) un número infinito de veces (con probabilidad 1). Sin
embargo, para d > 3 (por ejemplo, en el espacio R3 ) con probabilidad uno la caminata
regresará al origen con un número finito de veces y hay una probabilidad positiva de que
la caminata nunca regresará al origen.

66
CAPÍTULO 4. ESPERANZA CONDICIONAL

4.2.1. Caminata aleatoria con dos barreras absorbentes.



Sean x > 0 y Sn (x), n = 0, 1, 2, . . . la caminata aleatoria con el origen en x. Fijando
un entero a > x, supongamos que la caminata se detiene una vez que ha alcanzado el
punto 0 o el punto a.

1 1/2 1/2 1/2 1/2 1 !


0 1 2 x-1 x x+1 a

Figura 4.2: Caminata con dos barreras absorbentes.

Para tener una interpretación más transparente, imaginemos que un jugador con un
capital inicial de x (pesos), apuesta sucesivamente (en los “instantes” n = 1, 2, 3, . . . ) en
una serie de lanzamientos de una moneda simétrica. En el instante n, el jugador gana
un peso si sale “águila” y pierde un peso (i.e. “gana” -1 pesos) si sale “sol” (es decir, el
resultado de una apuesta se determina por la v.a. Xk en (4.2.14)). Después de n lanza-
mientos, su capital será Sn (x) = x + X1 + X2 + · · · + Xn , y el movimiento del capital con
n = 1, 2, . . . es la caminata aleatoria.

Supongamos que el jugador apuesta hasta el instante aleatorio Tx , cuando su capital


sea cero (la ruina del jugador) o cuando sea a (i.e., el jugador se detiene cuando tiene
ganancia neta de a−x pesos). Por la Proposición 4.3, la v.a. Tx es finita con probabilidad 1
(i.e., el jugador seguramente terminará su serie de apuestas con la ruina o con la ganancia).
Aplicando el resultado del Ejercicio 4.6,

P (de ruina) = P (de acabar en 0) = P (STx (x) = 0) = 1 − xa . (4.2.19)

Por ejemplo, si x = 5 pesos y a = 1000 pesos (el objetivo del jugador), entonces
P (de ruina) = 0.995 (cercana a 1). Pero si x = 990 pesos y a = 1000 pesos (una meta
modesta: ganar 10 pesos), entonces por (4.2.19), P (de ruina) = 0.01 (cercana a 0).

1/2 1/2

0 x=5 es el capital inicial . . . a =1000

Figura 4.3: Con x = 5 hay más chances de alcanzar primero el punto 0 (ruina) que el
punto a = 1000.

67
4.2. Caminatas aleatorias simples

Nota 4.5 La ganancia-pérdida final se representa por la v.a.:


(
−x, con la probabilidad 1 − xa ,
Y =
(a − x), con la probabilidad xa ;
(ya que el evento {pararse en a} es el complemento del evento {pararse en 0}). Entonces,
por (3.1.4), EY = (−x)(1 − xa ) + (a − x) xa = 0, es decir, el juego es “justo” (a diferencia
de cualquier juego en un casino).
Vamos a encontrar la duración promedio ETx de la serie de apuestas, donde
Tx := mı́n{n > 0 tal que Sn (x) = 0 o Sn (x) = a}. Mostraremos que da como resultado:
ETx = x(a − x). (4.2.20)
Nota 4.6 Elegimos, por ejemplo, x = 1 (peso) como el capital inicial y a = 106 (pesos)
como la meta del jugador. Por (4.2.19), P (de ruina) = 1 − 10−6 ≈ 1 y es claro que la serie
de apuestas se termina muy pronto con la ruina del jugador (por ejemplo, P (Tx = 1) =
1/2, P (Tx = 3) = 1/8, etc.). Sin embargo, de (4.2.20) se llega a que la serie en promedio
tiene una duración de 106 − 1 apuestas.
Esto significa que la duración del juego Tx puede tomar valores muy grandes (la caminata
se aleja hacia la derecha), con probabilidades muy pequeñas, pero suficientes para hacer
que el valor promedio sea grande.

Al elegir en (4.1.8) Z = Tx , y Y = X1 , se obtiene:


 
ETx = E Tx |X1 = 1 1/2 + E Tx |X1 = −1 1/2
  (4.2.21)
= 1/2 (1 + ETx+1 ) + (1 + ETx−1 ) .
La segunda igualdad en (4.2.21) es cierta, porque, por ejemplo, si sucede que X1 = 1,
entonces ya se ha realizado una apuesta y la caminata se mueve al punto x + 1. Tomando
en cuenta (4.2.18), la caminata “renueva” su comportamiento en el instante n = 1 (para
n > 1) con un capital inicial en x + 1. Es por esto que E(Tx |X1 = 1) = ETx+1 . Si ahora
definimos, ϕ(x) := ETx , con 0 6 x 6 a, resulta que para 0 < x < a, la ecuación (4.2.21)
nos lleva a:

ϕ(x) = 1 + 1/2[ϕ(x + 1) + ϕ(x − 1)]. (4.2.22)


Al sustituir la función ϕ(x) = cx − x2 en ambas partes de (4.2.22) veremos que ϕ es
la solución general de esta ecuación en diferencias (donde c es una constante arbitraria).
Observemos que para x = a, Tx = 0 (el paro inmediato) y ϕ(a) = ETa = ca − a2 = 0 de
lo cual, resulta que c = a.

68
CAPÍTULO 4. ESPERANZA CONDICIONAL

4.2.2. Caminata aleatoria con una barrera absorbente.


En la caminata descrita en la sección anterior, consideremos ahora que a = ∞, es decir,
solamente la ruina puede parar la serie de apuestas. De (4.2.19) y (4.2.20), formalmente
se sigue que para cada capital inicial x > 0 (podrı́a ser muy grande),

P (de ruina) = 1, o bien, P (Tx < ∞) = 1, pero ETx = ∞, (4.2.23)

donde Tx := mı́n{n > 0 : Sn (x) = 0} es el tiempo transcurrido hasta la ruina del jugador.
Cabe mencionar que es necesario justificar el paso al lı́mite a → ∞ en las fórmulas men-
cionadas. En el Ejercicio 4.7 se sugiere verificar que para a = ∞, el sistema de ecuaciones
(4.2.21) no tiene ninguna solución finita, por lo que se tendrı́a ETx = ∞. Por otro lado,
por la Proposición 4.3 se puede ver que al comenzar en x > 0, con probabilidad uno la
caminata alcanza el punto 0 (la ruina).

Nota 4.7 (a) El resultado ETx = ∞ es aún más sorprendente que lo que mencionamos
en la Nota 4.6. Supongamos que x = 1 peso, entonces, P (Tx = 1) = 1/2, P (Tx =
3) = 1/8, P (Tx = 5) = 1/32, etc. (y 1/2 + 1/8 + 1/32 = 0.65), es decir con
probabilidad bastante cercana a 1, la serie de apuestas se termina (con la ruina) con
pocas apuestas

1/2 1/2
!
0 1 2 3
1/2 1/2

Figura 4.4: Ruina

Además, de (4.2.23), P (T1 < ∞) = P (de alcanzar 0 con un número finito de apues-
tas) = 1. Sin embargo, en promedio, el jugador disfrutará jugando “un tiempo
infinito”.
(b) El comentario anterior, en particular explica que no siempre la esperanza es un
parámetro adecuado para “promediar los valores de una v.a.” (véanse también los
problemas relacionados en Capı́tulo 6).

69
4.3. Proceso de Poisson.

4.3. Proceso de Poisson.


Aunque en este libro no se desarrolla la teorı́a de procesos estocásticos, es muy útil
tener información acerca de un proceso estocástico muy importante en la teorı́a de proba-
bilidad y en sus aplicaciones, como lo es el proceso de Poisson. Básicamente, se usará para
introducir el modelo clásico de riesgo (en la siguiente sección). Como se ha comentado
en el Ejemplo 3.8, un proceso estocástico (o aleatorio) es una familia de variables alea-
torias X(t) = X(t, ω) que dependen del tiempo t ∈ [0, ∞). En el ejemplo mencionado,
el proceso toma valores reales no negativos, mientras que el proceso de Poisson de-
notado por N (t) = N (t, ω), t > 0 toma sus valores en {0, 1, 2, 3 . . . } y frecuentemente
sirve para contar el número de ocurrencias de algunos eventos que suceden durante el pe-
riodo [0, t] (como el número de entradas de clientes en un banco, véase el Ejemplo 3.1 (b)).

Imaginemos la ocurrencia de algunos eventos en los instantes aleatorios T1 = τ1 , T2 =


τ1 + τ2 , T3 = τ1 + τ2 + τ3 , . . . (con τn representando los intervalos entre los eventos).
El número total de ocurrencias del evento durante el intervalo [0, t], t > 0 se modela
frecuentemente por el siguiente proceso estocástico.

Definición 4.2 Sean {τ1 , τ2 , τ3 , . . . , τk , . . . } variables aleatorias i.i.d. con la distribución


Exp(λ), λ > 0,

Tn = τ1 + τ2 + · · · + τn , n = 1, 2, 3, . . . ; T0 := 0, N (0) := 0 y (4.3.24)

N (t) := máx{n : Tn 6 t}, t > 0. (4.3.25)


El proceso estocástico definido por (4.3.25) se llama el proceso de Poisson con in-
tensidad λ.

La equación en (4.3.25) se entiende como sigue: para cada t > 0 fijo, las variables
aleatorias T0 = 0, T1 = τ1 , T2 = τ1 + τ2 , T3 = τ1 + τ2 + τ3 , . . . etc. en (4.3.24) se comparan
con t para encontrar la n máxima, tal que

Tn 6 t, y t < Tn+1 . (4.3.26)


Es decir, N (t) = 0 para t < T1 . En el instante t = T1 , N (t) salta hacia arriba, al valor
N (t) = 1 (puesto que T1 6 t en (4.3.25)), luego N (t) permanece constante (=1) en el
intervalo T1 6 t < T2 , salta hacia arriba al valor N (t) = 2 en el instante t = T2 (ya que
en (4.3.25) T2 6 t), etc. (véase la Figura 4.5).

Entonces N (t) toma valores enteros en {0, 1, 2, . . . }, y cualquier trayectoria suya


(i.e. la función del tiempo t : N (t) = N (t, ω) fijando el factor aleatorio ω ∈ Ω) es una

70
CAPÍTULO 4. ESPERANZA CONDICIONAL

6
5
N(t)=5
4
3
2
1
τ1 τ2 τ3 t
0 τ1 τ1+τ2 τ1+τ2+τ3 t
T1 2 T T3

Figura 4.5: La trayectoria tı́pica de un proceso de Poisson.

“escalera” no decreciente con saltos de longitud uno, en los instantes T1 = τ1 , T2 =


τ1 + τ2 , T3 = τ1 + τ2 + τ3 , . . . Los intervalos entre los saltos son las v.a. τ1 , τ2 , τ3 , . . . De la
Definición 4.2, para cada t > 0, N (t) = # de saltos en [0, t] = # de eventos ocurridos al
tiempo t (caracterizando cada salto como un suceso observado en el instante Tn , por
ejemplo la entrada de un cliente a una sucursal bancaria). Notemos que (véase (1.2.5) y
(1.2.12))
(λt)0 −λt
P N (t) = 0 = P (t < T1 ) = P (t < τ1 ) = 1 − Fτ1 (t) = e−λt =

e .
0!
De forma parecida (pero más complicada) se demuestra que para cualquier k > 0, (véase
(4.3.26))
 (λt)k −λt
P N (t) = k = P (Tk 6 t, t < Tk+1 ) = e .
k!
Es decir, (véase el Ejemplo 1.4 (c))

N (t) ∼ P oiss(λt), t > 0.

O dicho de otra manera, para cada t > 0, N (t) es la v.a. de Poisson con parámetro λt y
de (3.1.6),
E[N (t)] = λt, t > 0. (4.3.27)

Nota 4.8 Es fácil demostrar que para cualesquiera 0 < t1 < t2 < ∞, el incremento del
processo N (t2 ) − N (t1 ) tiene la distribución de P oiss(λ(t2 − t1 )), por lo cual, E[N (t2 ) −
N (t1 )] = λ(t2 − t1 ).

71
4.3. Proceso de Poisson.

Eligiendo t2 − t1 = 1, vemos que λ es el incremento promedio del proceso N (t) por unidad
de tiempo. Es por eso que λ se llama intensidad del proceso.

Ejemplo 4.4 Imaginemos que en un experimento fı́sico se usan 0.5 miligramos del isóto-
po radiactivo Uranio 238. Sea N (t) el número de α−partı́culas emitidas en el intervalo
[0, t] (cada partı́cula se emite como resultado de la desintegración de un átomo de Uranio).
De fı́sica se sabe que los intervalos entre las emisiones de α−partı́culas son v.a. i.i.d. con
distribución Exp(λ) y con λ ≈ 6.1488 (para la cantidad de materia dada arriba). Con-
secuentemente, N (t) es el proceso de Poisson con λ mencionada. Si el experimento dura
t = 30 segundos, entonces, por ejemplo
200
X 
P (N (30) > 200) = 1 − P (N (30) 6 200) = 1 − P N (30) = k ,
k=0
k
donde N (30) ∼ P oiss(30λ). Si Y ∼ P oiss(µ), es decir P (Y = k) = µk! e−µ con k > 0, es
fácil ver que:
λ
P (Y = k + 1) = P (Y = k), k = 0, 1, 2, . . . (4.3.28)
k+1
Al utilizar ecuaciones recurrentes en (4.3.28), la suma anterior se calcula usando algún
programa computacional simple. El resultado es:

P N (30) > 200 ≈ 0.119739.

Nota 4.9 Sean n > 1 y {X1 , X2 , X3 , . . . , Xn } v.a. i.i.d. con la distribución Bern(p), las
cuales indican la ocurrencia de algún suceso en n pruebas realizadas en el intervalo [0, t].
Es decir, para k = 1, 2, . . . , n,
(
1, si en la k -ésima “prueba” ocurre el evento,
Xk =
0, si en la k -ésima “prueba” no ocurre el evento.

Entonces, Sn (t) = X1 + X2 + · · · + Xn ∼ Bin(n, p) es el número de sucesos. De acuerdo al


Ejercicio 7.5 (del Capı́tulo 7), la distribución de Sn (t) se aproxima mediante la distribución
P oiss(λ) con λ = np, cuando n es grande y p es cercana a cero. La aproximación de Sn (t)
mediante un proceso de Poisson se utiliza en una amplia difusión de modelos aplicados
en la teorı́a de probabilidad. (En el Ejemplo 4.4, n = # de átomos ≈ 1.26 · 1018 , p = la
probabilidad de desintegración de un átomo durante 30 seg ≈ 1.464 · 10−16 ).

72
CAPÍTULO 4. ESPERANZA CONDICIONAL

4.4. Modelo clásico de riesgo (de Cramér-Lundberg)


4.4.1. Descripción del modelo y el capital promedio.
Es un modelo simple de movimiento (de balance de ingresos y egresos) de una parte del
capital de una compañı́a aseguradora. Al denotar por X(t), t > 0 al proceso estocástico
que representa el capital en el instante t; el modelo se define mediante la siguiente
ecuación:
N (t)
X
X(t) = x + γt − ξn , t > 0, (4.4.29)
n=1

en donde:
(i.) x = X(0) es el capital inicial (x > 0);
(ii.) γ > 0 es la prima acumulada (de todos los clientes) por unidad de tiempo;
(iii.) N (t) es el número de reclamaciones a la compañı́a en el intervalo [0, t]. En este
modelo se supone que N (t) es un proceso de Poisson con intensidad λ > 0; y
(iv.) {ξ1 , ξ2 , . . . } son los tamaños sucesivos de las reclamaciones que, se suponen, son v.a.
i.i.d. no negativas tales que Eξk = a < ∞.
También se supondrá en este modelo que N (t) no depende de {ξ1 , ξ2 , . . . }.
0
X
Nótese que en (4.4.29) se utiliza el convenio ξn = 0.
n=0
El proceso de (4.4.29) a veces se denomina proceso de riesgo (o modelo de Cramér3 -
N (t)
X
4
Lundberg ). El término S(t) = ξn − γt, con t > 0 es conocido como proceso de
n=1
superávit.

De acuerdo con el modelo X(0) = x, en el intervalo [0, T1 ) el capital crece como


x + γt (linealmente), y en el instante T1 que es cuando sucede la primera reclamación, la
compañı́a paga al cliente la cantidad ξ1 (ocurre un salto de X(t) hacia abajo, de tamaño
ξ1 ). Luego, X(t) sigue creciendo linealmente hasta que sucede en T2 la segunda reclamación
de tamaño ξ2 , etc. (véase Figura 4.6).

3
Carl Harald Cramér(1893-1985) fue un matemático sueco especialista en estadı́stica matemática;
contribuyó a la teorı́a de números probabilı́stica y a procesos estocásticos estacionarios.
4
Ernest Filip Oskar Lundberg(1876-1965) actuario sueco, fundador de la teorı́a de riesgo matemático.

73
4.4. Modelo clásico de riesgo (de Cramér-Lundberg)

X(t)

ξ1
X(0)=x ξ2

t
0
T1 T2 T3

Figura 4.6: Modelo clásico de riesgo.

Calcularemos el capital corriente promedio,


 
N (t)
X
EX(t) = x + γt + E  ξn  . (4.4.30)
n=1

N (t)
X
Por (4.1.8), con Z = ξn y Y = N (t) se tendrá:
n=1
 
N (t)
X  ∞ N (t)
X X 
E ξn = E ξn | N (t) = k  P N (t) = k
n=1 k=1 n=1
∞ k
!
X X 
= E ξn |N (t) = k P N (t) = k = (por independencia de N y ξ1 , ξ2 , . . . )
k=1 n=1
∞ k
!
X X 
= E ξn P N (t) = k = (por linealidad de la esperanza)
k=1 n=1
X∞
 
= a k P N (t) = k = por(3.1.4) = a EN (t)
k=1

= por(4.3.27) = aλt. (4.4.31)

Al usar esto último y (4.4.30), resultará que

EX(t) = x + (γ − aλ)t. (4.4.32)

74
CAPÍTULO 4. ESPERANZA CONDICIONAL

Entonces EX(t) crece (linealmente), si

γ > aλ. (4.4.33)

La condición (4.4.33) denominada como “la condición de la ganancia neta”, significa que
por unidad de tiempo, la compañı́a gana en promedio más de lo que gasta, ya que aλ = el
pago promedio por una reclamación × el número promedio de reclamaciones por unidad
de tiempo (consulte la Nota 4.8).

EX(t)

c c+(γ-aλ)t
t
0

Figura 4.7: Capital promedio de una compañı́a de seguros.

4.4.2. Probabilidad de ruina.


A pesar de que en el caso (4.4.33), EX(t) → ∞, de la Definición (4.4.29) se sigue que,
existe una posibilidad no nula de que una trayectoria de X(t) bajará de tal modo que en
algún instante puede ocurrir que X(t) < 0. En este caso se estarı́a hablando de la ruina
(de la compañı́a).

En la Figura 4.8, T1 , T2 , . . . son los instantes (aleatorios) en que se reciben las


sucesivas reclamaciones.

Intuitivamente es claro que para un c > 0 “bastante grande”, y bajo la condición


(4.4.33), la mayorı́a de las trayectorias X(t) en (4.4.29) nunca cruzan el eje de las abscisas
t. Sin embargo, para este proceso es posible demostrar que cuando las v.a. ξ1 , ξ2 , . . . no
son degeneradas con valor c = 0 (véase Nota 3.2 (c)), la probabilidad de ruina es mayor
a cero. Dicha probabilidad se define como:

P (de ruina) := P ı́nf X(t) 6 0 . (4.4.34)
06t<∞

75
4.4. Modelo clásico de riesgo (de Cramér-Lundberg)

X(t)

x+γ(t)

c T4 es el momento
de la ruina

T4 t
0 T1 T2 T3

Figura 4.8: Una trayectoria posible del capital corriente.

En este modelo, llegar a la ruina significa que en algún instante aleatorio, X(t) en
(4.4.29) toma un valor negativo o cero. En la práctica, esos sucesos son raros (consulte
el Ejemplo 4.5, abajo) y normalmente no se da la bancarrota de la compañia (debido a
ciertos lineamientos financieros). Como se explica en la Nota 4.13 y en el Ejemplo 4.6, las
estimaciones de la probabilidad de ruina son útiles para controlar los valores de la prima
γ en las situaciones cuando los precios en el mercado cambian con el tiempo (y es por
esto que se cambia la distribución de ξn en (4.4.29)).

El cálculo de P (de ruina), en general no es un problema fácil. Más adelante, se con-


siderará brevemente un enfoque del que, en particular, resulta la fórmula explı́cita de
P (de ruina) cuando los tamaños de las reclamaciones sean exponenciales.

Nota 4.10 En el ejemplo 6.8 del capı́tulo 6, se verá que si la condición (4.4.33) no se
cumple, i.e. si γ < aλ, entonces para el proceso de riesgo en (4.4.29), con probabilidad
uno se tiene que Xt → −∞ cuando t → ∞, o bien, P (de ruina) = 1. La probabilidad de
ruina es también 1, si γ = aλ.

Si se considera el evento: “la compañia nunca llegará a la ruina” = {X(t) > 0 para toda t >
0}, que es el complemento de {X(t) 6 0 para alguna t > 0}, se introduce la probabili-
dad de supervivencia:
p(x) := 1 − P (de ruina), (4.4.35)
donde x > 0 es el capital inicial de la compañia de seguros. Denotamos por F (x), x > 0 la
f.d. común de las v.a. ξ1 , ξ2 , . . . (los tamaños de las reclamaciones) y también suponemos
que F tiene una densidad f continua en [0, ∞].
Se subraya que esta última suposición se toma solamente para simplificar el bosquejo de
la demostración. Las condiciones más generales para ecuaciones integro-diferenciables e

76
CAPÍTULO 4. ESPERANZA CONDICIONAL

integrales para la función p(x) el lector podrı́a encontrarlas en Rolski et al (1999).

Proposición 4.4 La probabilidad de supervivencia p(x), x > 0 satisface la ecuación:


 Z x 
0 λ
p (x) = p(x) − p(x − y)f (y) dy , x > 0. (4.4.36)
γ 0

Nota 4.11 La ecuación (4.4.36) significa que al sustituir p(x), definida en (4.4.35), se
obtendrá (luego de calcular la derivada y la integral) la misma función tanto en la parte
derecha como en la izquierda (es decir, p(x) satisface (4.4.36)). Por otro lado, si en-
contramos una función r(x) que satisfaga la ecuación (4.4.36) y la condición: r(x) → 1
cuando x → ∞ (“no se da la ruina, si el capital es infinito”), entonces, r(x) = p(x), i.e.
r(x) será la probabilidad de supervivencia definida en (4.4.35).

Esquema de la demostración de la Proposición 4.4.

Sean ξ1 (con densidad f ) y T1 , respectivamente, el tamaño y el instante de la primera


reclamación. Puesto que N (t) es un proceso de Poisson con intensidad λ, T1 ∼ Exp(λ)
(véase la Definición 4.2). Para cualquier z > 0 se define el evento: Az = {no se dará la
ruina, si el capital inicial es z} y se considera un número h > 0 pequeño.

X(t) X(t)
x+γt x+γt
x x y

t t
0 0
h T1 T1 h

Figura 4.9: Capital inicial nuevo.

Se tiene que:
 
p(x) = P (Ax ) = P Ax , T1 > h + P Ax , T1 6 h . (4.4.37)

77
4.4. Modelo clásico de riesgo (de Cramér-Lundberg)

Observemos que el primer sumando en la última igualdad es:


    
P Ax , T1 > h = P Ax |T1 > h P T1 > h = P Ax |T1 > h 1 − FT1 (h)
= P Ax |T1 > h e−λh .

(4.4.38)

Por otro lado, bajo la condición T1 > h, en el instante t = h el capital es z = x + γh


(véase Figura 4.9). También el proceso X(t) con este “nuevo capital” se comporta, pa-
ra t > h como  el procesooriginal con el capital inicial igual a z = x + γh. Es decir,
P Ax |T1 > h = P Ax+γh = p(x + γh).

Ahora para la probabilidad P Ax , T1 6 h en (4.4.37) se puede usar una ecuación
bidimensional análoga a (2.2.14) (utilizando la independencia entre T1 y ξ1 ):
Z hZ ∞
 
P Ax , T1 6 h = P Ax , T1 6 h |T1 = t, ξ1 = y fT1 (t)fξ1 (y) dtdy, (4.4.39)
0 0

donde fT1 (t) = λe−λt y fξ1 (y) = f (y).

Observemos también que para y > x + γt, P (Ax , T1 6 h |T1 = t, ξ1 = y) = 0 debido a


que se tiene ruina en t = T1 , (véase la Figura 4.9), y para y 6 x + γt y t 6 h, se tiene que
 
P Ax , T1 6 h | T1 = t, ξ1 = y = P Ax |T1 = t, ξ1 = y = p(x + γt − y),

(ya que en el instante T1 = t con ξ1 = y, el “nuevo capital inicial” es x + γt − y, véase la


figura 4.9). Al juntar (4.4.37), (4.4.38), (4.4.39) y la última igualdad se tiene:

Z h Z x+γt
−λh
p(x) = p(x + γh) e + p(x + γt − y) f (y) dy λe−λt dt, (4.4.40)
0 0

o bien, restando p(x + γh) en ambas partes de la igualdad y dividiendo entre h, se obtiene:

γ[p(x) − p(x + γh)]


=
γh
e−λh − 1 1 h x+γt
Z Z
= p(x + γh) + p(x + γt − y)f (y) dy λe−λt dt. (4.4.41)
h h 0 0
Intuitivamente, es suficientemente claro que la función p(z) = P (Az ) con z > 0 es con-
tinua (es decir, al cambiar un poco el capital inicial z, la probabilidad de sobrevivencia
p(z) también varı́a poco; en efecto, esta afirmación podrı́a demostrarse usando (4.4.40)).

78
CAPÍTULO 4. ESPERANZA CONDICIONAL

1 h
Z
Al usar un teorema, conocido, del cálculo que dice: si ϕ es continua, entonces ϕ(t)dt
h 0
→ ϕ(0) cuando h → 0; se puede, por tanto, pasar al lı́mite en la parte derecha de
(4.4.41), cuando h → 0. Esto es, tomando en cuenta que para t 6 h, γt → 0 y λt → 0,
cuando h → 0. De lo cual se obtiene que el último sumando en (4.4.41) converge a
Z x
λ p(x − y)f (y)dy.
0

Por lo tanto, existe el lı́mite de la parte izquierda de (4.4.41) y es −γp0 (x). Finalmente,
de (4.4.41) se obtiene (4.4.36). 2

Corolario 4.2 Supongamos que los tamaños de las reclamaciones tienen distribución ex-
ponencial Exp(µ), entonces para cada x > 0,

λ −(µ− λγ )x
p(x) = 1 − e , (4.4.42)
γµ
λ −(µ− λγ )x
P (de ruina) = e . (4.4.43)
γµ

Este corolario se demuestra al sustituir la función de (4.4.42) en la ecuación (4.4.36)


y al verificar que ella es su solución. Hay que resolver el Ejercicio 4.8 para obtener los
cálculos correspondientes.

Nota 4.12 Puesto que en el corolario 4.2, a = Eξ1 = 1/µ , la condición (4.4.33) se con-
vierte en µλ < γ, o bien µ > λγ .

Ejemplo 4.5 Supogamos que en el modelo de riesgo (4.4.29), λ = 1000 (reclamaciones


al mes), ξk ∼ Exp(µ = 10−4 ), i.e. a = µ1 = 10000 (en pesos), γ = 1.05 · 107 (pesos).
Entonces, por (4.4.43):
(a) para el capital inicial x = 106 (pesos), P (de ruina) ≈ 0.0081422;

(b) para el capital inicial x = 107 (pesos),

P (de ruina) ≈ 1.98665 · 10−21 . (4.4.44)

Obsérvese que en el último caso P (de ruina) es prácticamente cero. (En general, las
empresas pequeñas se arruinan más frecuentemente que las empresas grandes.)

79
4.4. Modelo clásico de riesgo (de Cramér-Lundberg)

Nota 4.13 La última respuesta señala que en el caso de reclamaciones representadas por
v.a. exponenciales, para un capital inicial “razonablemente grande” (como 10 millones
de pesos como en el último ejemplo) resulta una probabilidad de ruina “excesivamente
pequeña.” Las estimaciones de las probabilidades de ruina son útiles para recalcular (en
algunos periodos) las primas que se cobran a los clientes de la compañı́a. La razón para
hacerlo podrá ser que por el crecimiento de precios el parámetro a = Eξk aumenta y de
ahı́, (para reclamaciones exponenciales, y también en casos más generales), el exponente
λ 1 λ
µ − = − en (4.4.43) se aproxima a cero. Esto podrı́a aumentar la probabilidad de
γ a γ
ruina hasta un “nivel peligroso” para la compañia de seguros. En el siguiente ejemplo se
ilustra esto.

Ejemplo 4.6 Conservemos todos los parámetros dados en el ejemplo 4.5, excepto el valor
de a. Entonces sean x = 107 y a = 10490 (un crecimiento de precios menor del 5 %).
Nuevamente, aplicando (4.4.43) se obtiene que

P (de ruina) ≈ 0.40299. (4.4.45)

El valor de la probabilidad de ruina en (4.4.45) no es comparable (y hasta “peligroso”)


con lo obtenido en (4.4.44) . El crecimiento de los precios de los contratos de seguros que
provoca el cambio de la prima acumulada γ que va de 1.05 · 107 (como en el Ejemplo
4.5) hasta 1.09 · 107 (el 3.8 %), evita el aumento del riesgo. En efecto, por (4.4.43) con
a = 10490 y γ = 1.09 · 107 obtenemos (en lugar de (4.4.45)) un valor completamente
admisible de la probabilidad de ruina: 2.57376 · 10−16 .

80
CAPÍTULO 4. ESPERANZA CONDICIONAL

4.5. EJERCICIOS
4.1 Sea N una v.a. con valores en {0, 1, 2, . . . } demuestre que:

X
EN = P (N > k).
k=0

4.2 Sean X1 , X2 , . . . v.a. i.i.d. con la distribución Exp(λ), N una v.a. independiente de
X1 , X2 , . . . Supongamos que P (N = n) = 1/2n , n = 1, 2, . . . , y se define la función
R(λ) := E(X1 · X2 · . . . · XN ), λ > 0. Determine los valores de R(λ).
Resp. :
(
1
2λ−1
, si λ > 1/2,
R(λ) =
∞, si λ 6 1/2.

4.3 Sean X, Y v.a. idénticamente distribuidas.


X Y
(a) Encuentre un ejemplo que muestre que en general, E( X+Y ) 6= E( X+Y ).
X
(b) Demuestre que, si, además, X y Y son independientes, entonces E( X+Y ) =
Y
E( X+Y ).
Sugerencia: En (b) suponer, por ejemplo, que X y Y son v.a. a.c. y aplicar (4.1.9).
4.4 Sean X, Y y N v.a. independientes y N ∼ P oiss(λ). Supongamos que X y Y son
a.c. con la siguiente densidad:
(
1

2 x
, x ∈ (0, 1],
fX (x) = fY (x) =
0, x∈/ (0, 1].

Calcular E[máx(X, Y )]N .


1
Resp.: [1 − e−λ ].
λ
Sugerencia: Primero mostrar que máx(X, Y ) ∼ U (0, 1) y segundo usar (4.1.8).

4.5 (Una broma con cálculos) Imaginemos a una persona de 50 años de edad la cual
tiene n órganos principales que pueden ser transplantados (como el corazón, hı́gado,
córnea, etc.). Actualmente n se considera en 20 órganos aproximadamente. Supon-
gamos que cada año (después de la edad de 50 años) deja de funcionar un órgano y
se hace un transplante. Supongamos también que los órganos dejan de funcionar de
forma independiente unos de otros y que no importa si son propios o transplantados.

81
4.5. Ejercicios

Sea N la v.a. (con valores enteros) tal que a la edad de 50+N años, por primera vez,
los n órganos de la persona mencionada se han cambiado por órganos transplantados.
Calcule EN .
Resp. : EN = n(1 + 12 + 13 + · · · + n1 ), EN ≈ 72 años para n = 20.

4.6 Mostrar la fórmula (4.2.19).


Sugerencia: Use la fórmula de probabilidad total para p(x) = P (de ruina con el
capital inicial x) se obtienen las ecuaciones:
1h i
p(x) = p(x + 1) + p(x − 1) , y 0 < x < a.
2

4.7 Mostrar que para a = ∞ (una barrera absorbente en 0), el sistema de ecuaciones
(4.2.21) tiene solamente la solución ETx = ∞, x > 0.
Sugerencia: Para ϕ(x) = ETx − ETx−1 , demostrar que ϕ(x + 1) = ϕ(x) − 2, x =
1, 2, 3, . . . De aquı́, ETx − ETx−1 < 0 para alguna x suficientemente grande. Hay
que entender que lo último contradice la monotonı́a de la esperanza.

4.8 Verificar que la función p(x) en (4.4.42) satisface a la ecuación (4.4.36).


Sugerencia: Calcular la derivada y la integral en (4.4.36).

4.9 Para la caminata aleatoria S0 (0) ≡ Sn en (4.2.17), se define la v.a. T := mı́n{n >
1 : Sn = 0} que representa el tiempo hasta el primer regreso al origen.
Demostrar:

(a) P (T < ∞) = 1;
(b) ET = ∞.

Sugerencia: Considerando ET = E(T | X1 = 1)P (X1 = 1) + E(T | X1 =


−1)P (X1 = −1), reducir el problema a calcular el tiempo promedio hasta que se
dé la ruina, con estado inicial x = 1 y barrera absorbente en 0.

4.10 De acuerdo a las tablas de mortalidad publicadas en el año de 1693 por Edmond
Halley (1653-1742), la duración promedio de vida era de 26 años. Por otro lado,
una persona tenı́a las mismas oportunidades de vivir menos que 8 años y más que
8 años. Suponiendo (no muy realista) que la distribución de la duración de vida en
esa época se representa por la v.a. T definida como:

T = Xξ + (1 − ξ)(X + Y ),

82
CAPÍTULO 4. ESPERANZA CONDICIONAL

donde las v.a. ξ, X, Y son independientes; ξ ∼ Bern(p), X ∼ U (0, 2), y Y ∼


Gamma(α = 2, λ) (consulte el Ejercicio 3.11).

(a) Encontrar los valores de p y λ que corresponden a los datos de arriba (con
ET = 26).
(b) Calcular E(T | T > 2).

4.11 Sean X y N v.a. independientes tales que X ∼ U (0, 1) y N ∼ P oiss(λ = 1).


Calcular E(X N ).
Resp.: 1 − e−1 ≈ 0.63212.

4.12 Considere la caminata aleatoria simple no simétrica dada por (4.2.15) y (4.2.16).
Sean (en lugar de (4.2.14)) las v.a. i.i.d. X1 , X2 , . . . con la distribución P (Xk =
1) = p y P (Xk = −1) = q, suponiendo que p > q. Demostrar que Sn → ∞ con
probabilidad uno. Justificar que esto resulta del hecho que con probabilidad uno,
cada punto entero es visitado por Sn (x) un número finito de veces (incluso cero
veces).
Sugerencia: Usar la Ley Fuerte de los Grandes Números del Capı́tulo 6.

4.13 Sea N (t) el proceso de Poisson con intensidad λ. Mostrar que con probabilidad uno,
N (t)
t
→ λ (i.e. se aproxima al valor de λ) cuando t → ∞.
Sugerencia: De (4.3.24),(4.3.25) para t grandes los valores de TN (t) = τ1 + τ2 +
τ1 + · · · + τN (t)
· · · + τN (t) son relativamente cercanos a t. Entonces, ≈ Nt(t) . Faltarı́a
N (t)
usar Ley Fuerte de los Grandes Números del Capı́tulo 6.

4.14 Supongamos (no muy realistamente) que el número total N de hijos e hijas en una
familia tiene la distribución geométrica: N ∼ Geom(p) (véase el Ejercicio 2.12). Sean
X y Y las v.a. que representan el número de varones y mujeres, respectivamente,
en la familia mencionada. Bajo la hipótesis de que el nacimiento de un varón o una
mujer es equiprobable, calcular E(X|Y = 0).
2
Resp.: 1+p
.
Sugerencia: E(N − Y |Y = 0) = E(N |Y = 0). Para calcular la última esperanza,
aplicar (4.1.1) y en su turno, usar P (N = n|Y = 0) = P (Y =0|N =n)P (N =n)
P (Y =0)
y P (Y =
1 n
0|N = n) = ( 2 ) . Para hallar P (Y = 0) use (2.2.13). Utilice también la serie


X 1
k xk−1 = , (4.5.46)
k=1
(1 − x)2

83
4.5. Ejercicios

donde 0 < x < 1 es cualquiera. Esta serie se obtiene de la serie dada en (2.3.22), al
derivarla en ambos lados.

Nota 4.14 Si p = 0.45, entonces EN = 1/p = 2.2 (véase (3.3.26)) que es la tasa
de fecundidad en México en el año 2013, de mujeres entre 15 y 49 años de edad
(INEGI 2013). Para tal p, E(X|Y = 0) ≈ 1.3793. Es interesante notar que cuando
p → 0, EN = 1/p → ∞ pero E(X|Y = 0) → 2, a pesar de que N = X + Y y
EN = EX + EY → ∞.

4.15 Sean X el peso (en kilogramos) de un hombre escogido al azar y Y su estatura (en
centı́metros). Según datos estadı́sticos, en 2002 para Estados Unidos, EX = 86.1
(kg), EY = 178.5 (cm), σX = 2.63 (kg), σY = 6.59 (cm) y la distribución conjunta
de las v.a. estandarizadas: ξ = X−EX σX
, η = Y −EY
σY
es aproximadamente normal
bidimensional (véase (2.1.9)) con el coeficiente de correlación ρ ≈ 0.7.
Calcular (a) E(X|Y = 160), (b) E(X|Y = EY ) y (c) E(X|Y = 200) (véase Ejemplo
4.2).
Resp.: (a)≈ 80.9318, (b)aX = 86.1 y (c)≈ 92.1063.

Nota 4.15 (a) En el caso de la densidad Normal bidimensional (2.1.9) mediante


integración directa (aunque es un procedimiento largo) se demuestra que el
coeficiente de correlación ρ es:

ρ = E(ζ η).

También de la fórmula (2.1.9) se sigue que para el caso del par de v.a. (ζ, η)
Normal bidimensional ζ y η son independientes si y sólo si el coeficiente de
correlación ρ = 0.
2
(b) En general, sean X, Y cualquier par de v.a con 0 < V ar(X) := σX < ∞ y
2
0 < V ar(Y ) := σY < ∞. El coeficiente de correlación ρX,Y se define como:

1 h i
ρX,Y ≡ E (X − EX)(Y − EY ) . (4.5.47)
σX σY
Por el Teorema 3.1 se tiene que si X y Y son independientes entonces ρX,Y = 0.
Desafortunadamente, el recı́proco no es cierto, i.e. existen casos para los cuales
ρ = 0 y X y Y son dependientes (como se ve en el siguiente ejercicio). O de
manera equivalente no es cierto que la dependencia de X y Y implique ρ 6= 0.

84
CAPÍTULO 4. ESPERANZA CONDICIONAL

4.16 Sean X ∼ N orm(0, 1) y Y = |X| (son v.a. muy dependientes entre sı́ pues se sabe
el valor de Y sólo conociendo el valor de X). Mostrar que ρX,Y = 0.

Sugerencia: Puesto que EX = 0, E[(X Z ∞−EX)(Y −EY )] = E(XY )−E[X EY ] =


1 2
E(X |X|) y (por (3.1.9)) E(X |X|) = x |x| √ e−x /2 dx = 0, siendo la integral
−∞ 2π
de una función impar.

85
4.5. Ejercicios

86
Capı́tulo 5

5.1. Esperanza geométrica


Esta noción simple, casi no se encuentra en libros de texto, pero es muy útil en el
estudio de los productos de v.a. positivas y algunos modelos aplicados (véase el capı́tulo
6).

Definición 5.1 Sea X > 0 una v.a. (con valores positivos) tal que E| ln X| < ∞. La
esperanza geométrica, Eg X, de X se define como:

Eg X := eE(ln X) . (5.1.1)

Ejemplo 5.1 Sean x1 , x2 , . . . , xm números positivos dados y X la v.a. tal que P (X =


xk ) = 1/m, k = 1, 2, . . . , m. Entonces por (3.1.4),

1 
EX = x1 + x2 + · · · + xm ,
m
(el promedio aritmético); y por (5.1.1) y (3.1.8),

( m
)
1 X
Eg X = exp ln xk
m k=1
m  
Y 1 1
= exp ln xk = x1 · x2 · . . . · xm m , (5.1.2)
k=1
m

(el promedio geométrico). La igualdad (5.1.2) explica el nombre “esperanza geométrica”.

87
5.1. Esperanza geométrica

Ejemplo 5.2 (La paradoja de Petersburgo) Consideremos el siguiente juego de azar. Una
moneda simétrica se lanza sucesivamente hasta que por primera vez salga “águila”. Sea
X el número de lanzamientos. Como en el Ejercicio 2.12 se establece que X ∼ Geom(p =
 k−1
1 1 1
1/2), o bien, por (2.3.21) P (X = k) = 1− = k , k = 1, 2, 3, . . . En este juego,
2 2 2
el jugador gana 2k pesos cuando X = k. Es decir, la ganancia neta es Y = 2X . Según
(3.1.8), la “ganancia promedio” es
∞ ∞
X 1 X
EY = 2k = 1 = ∞. (5.1.3)
k=1
2k k=1

Pero, si alguien desea conocer la “ganancia promedio” mediante el uso de la esperanza


geométrica, entonces por (5.1.1) y (3.1.8),
∞ ∞
!
k
k ln 2
P
X
X
E(ln 2 ) ln 2EX 2k
Eg Y = e =e = exp k
= 2k=1 = 22 = 4, (5.1.4)
k=1
2

X k
ya que = 2, por el Ejercicio 5.2.
k=1
2k

Nota 5.1 Explicaremos por qué el resultado (5.1.3) se interpreta como una paradoja.
Según el concepto común, un juego de azar se denomina “justo”, si el pago por la partici-
pación en el juego coincide con la ganancia promedio. De (5.1.3), se supone que cualquier
pago finito por una participación será “injusto”. Por otro lado, no muchas personas están
de acuerdo en pagar 100 pesos por participar en el juego. Por supuesto, si alguien apuesta
100 pesos como pago inicial, entonces tendrá la posibilidad (con una probabilidad positi-
va) de ganar más de 250 ≈ 1.12580·1015 = 1125800 millares de pesos.
P50 Pero la probabilidad
1 k
de que hsuceda ese evento es P (X > 50) = 1 − P (X 6 50) = 1 − k=1 ( 2 ) = (por (2.3.23))
1−( 12 )51
i
= 1− 1− 21
− 1 = (1/2)50 ≈ 0.88818 · 10−15 , que es prácticamente cero. Por cálculos
1
semejantes se obtiene que P (de recuperar 100 pesos) = P (2X > 100) = P (X > 6) = 26
=
1
64
(“una posibilidad de 64”).
Este ejemplo muestra que la esperanza de la ganancia no siempre refleja el comporta-
miento de la ganancia real. Si alguien jugará solamente una vez, entonces, el pago por
participación de 4 pesos, dado por la esperanza geométrica (véase (5.1.4)) en algún sen-
tido es “justo”, pues P (ganar 4 pesos o más) = 1 − P (X = 1) = 1/2 y P (ganar al
menos 4 pesos) = P (X = 1) = 1/2. (Puede también consultarse el Ejercicio 3.8 que
está relacionado con este ejemplo.)

88
CAPÍTULO 5. ESPERANZA GEOMÉTRICA

Tomando en cuenta la Definición 5.1, las siguientes propiedades de la esperanza geométri-


ca (cuando existe), se siguen de las propiedades de la esperanza “habitual”, dadas en la
proposición 3.1 (c ∈ R se interpreta como la v.a. con el único valor c, o v.a degenerada).

1. Eg c = c; 2. Eg (cX) = cEg X; 3. si X > Y entonces Eg X > Eg Y ;

4. Eg (X1 · X2 · · · Xn ) = Eg (X1 )Eg (X2 ) · · · Eg (Xn ); (5.1.5)


5. Eg (X p ) = [Eg (X)]p para cada p > 0. (5.1.6)

La demostración de (5.1.5) es evidente, pues ln(X1 · X2 · . . . · Xn ) = ln X1 + ln X2 +


· · · + ln Xn y E(Y1 + Y2 + . . . ) = EY1 + EY2 + . . .

Nota 5.2 (a) A diferencia de (3.2.11), en (5.1.5) no se necesita la independencia de


las v.a. X1 , X2 , . . . , Xn .
(b) En contraste con la esperanza habitual, con frecuencia Eg (X + Y ) 6= Eg X + Eg Y
(véase el Ejercicio 5.3).

Ejemplo 5.3 Según el Ejercicio 3.12, para las v.a. independientes X ∼ U (0, 1) y Y ∼
U (0, 1), E(X/Y ) = ∞. Por otro lado, sin importar que X y Y sean independientes o
no, Eg (X/Y ) = exp[E ln(X/Y )] = eE(ln X)−E(ln Y ) = e0 = 1 (tomando en cuenta que
Z 1
E(ln X) = ln x dx = −1).
0

Ejemplo 5.4 Supongamos que una persona al principio del año deposita en un banco la
cantidad de Y0 > 0 pesos (una cantidad no aleatoria), entonces al final del año el valor
nominal de su depósito será Y0 (1 + ξ), donde ξ ∈ (0, 1) es una tasa de interés aleatoria
(1 + ξ)
(en particular, fija). Sin embargo, el valor real del depósito al final del año es Y0 ,
(1 + η)
donde η ∈ (0, 1) es la v.a. que representa el coeficiente de inflación.

Supongamos que la persona tiene su cuenta en el mismo banco para los años i =
1, 2, 3, . . . , n, con el depósito inicial en Y0 pesos. Entonces, en caso de no hacer retiros, el
valor real de su capital al final del n−ésimo año será:
n
Y 1 + ξi
Yn = Y0 , n = 1, 2, 3 . . . (5.1.7)
i=1
1 + ηi

89
5.1. Esperanza geométrica

Puesto que (1 + ξi ), (1 + ηi ) ∈ (1, 2), las esperanzas E(1 + ξi ), E(1 + ηi ), Eg (1 +


ξi ) y Eg (1 + ηi ) existen.

Ahora consideremos los siguientes escenarios:

Primero: supongamos que para cada i fijo las v.a. ξi y ηi tienen distribuciones tales
que E ln(1 + ξi ) = E ln(1 + ηi ), i = 1, 2, . . . , n. Entonces, por (5.1.5) y el Ejercicio 5.1 se
obtiene:

Eg Yn = Y0 , n = 1, 2, 3, . . . (5.1.8)
Segundo: Además, supongamos que ξ1 , ξ2 , . . . , ξn ; η1 , η2 , . . . , ηn son v.a. i.i.d. con
la distribución U (0, α), donde α > 0 es un número bastante cercano a cero (como suele
ocurrir en la realidad). Por la independencia, identidad de distribuciones y por el Teorema
3.1, se tiene que:
n    n  n
Y 1 + ξi 1 + ξ1 1
EYn = Y0 E = Y0 E = Y0 E(1 + ξ1 )E . (5.1.9)
i=1
1 + ηi 1 + η1 1 + η1
  Z α
α 1 1 1 1
De (3.1.7), E(1 + ξ1 ) = 1 + y por (3.1.9) E = dx = ln(1 +
2 1 + η1 0 1+x α α
2
α α
α) ≈ 1 − + , para pequeñas α (ya que, al usar el desarrollo de Taylor para la
2 3 2 3 4
función ln(1 + x) se obtiene que ln(1 + x) = x − x2 + x3 − x4 + . . . , y quitando los
3 4
términos de orden
 α , α, etc. los cuales
 son prácticamente iguales a cero). Es por esto
α α2 α2

1  α
que E(1 + ξ1 ) E ≈ 1+ 1− + ≈ 1+ (ignorando el término de
1 + η1 2 2 3 12
orden α3 , el cual es casi nulo). Finalmente, por (5.1.9) obtenemos que:
n
α2

EYn ≈ Y0 1 + → ∞, cuando n → ∞, (5.1.10)
12

(puesto que para cualquier c > 1, cn = c| · c ·{z. . . · }c → ∞, si n → ∞).


n−veces

Esto significa que el “valor real promedio” de capital, crece sin cota con el tiempo.
Esta conclusión puede sonar un poco extraña. Al calcular el “valor real promedio” por la
esperanza geométrica se obtiene un resultado más razonable dado en (5.1.8).

90
CAPÍTULO 5. ESPERANZA GEOMÉTRICA

5.2. EJERCICIOS
5.1 Sean X, Y v.a. positivas para las cuales la esperanza geométrica existe y E ln(X) =
E ln(Y ) (en particular, si X y Y son idénticamente distribuidas). Mostrar que:
 
X
(a) Eg = 1.
Y
 
EX X
(b) Si X, Y ∼ Exp(λ) y son independientes, entonces 6= E = ∞.
EY Y
 
X
(c) Para las v.a. X, Y ∼ Exp(λ), Eg = 1.
Y

X α
5.2 Demostrar que para 0 < α < 1, k αk = .
k=1
(1 − α)2
P∞ 1
Sugerencia: De (2.3.22), k=0 αk = 1−α , para cualquier 0 < α < 1. Calcule la
derivada de ambas partes de esa igualdad.

5.3 Encontrar dos v.a. X, Y positivas e independientes tales que Eg (X + Y ) 6= Eg (X) +


Eg (Y ).
Sugerencia: Sean, por ejemplo, X ≡ 1, Y ∼ U (0, 1).

5.4 Encontrar un ejemplo de una v.a. X positiva con EX < ∞, EX 2 = ∞ y Eg X < ∞.


(Entonces, por (5.1.6), Eg (X p ) = [Eg X]p < ∞ para cada p > 0).

5.5 Mostrar que la igualdad aproximada en (5.1.10) también es cierta si P (ξi = 0) =


P (ξi = α) = P (ηi = 0) = P (ηi = α) = 1/2 y ξ1 , ξ2 , . . . ; η1 , η2 , . . . son independien-
tes.

5.6 La v.a. X = eη , donde η ∼ N orm(0, 1), se llama v.a lognormal estándar (utiliza-
da ampliamente en matemáticas financieras y otros campos). Sean n > 1 un entero
y X1 , X2 , . . . , Xn las v.a. lognormales estándar. Mostrar que:

(a) Eg (X1 · X2 · · · Xn ) = 1.
(b) Si X1 , X2 , . . . , Xn son independientes, entonces E(X1 · X2 · . . . · Xn ) = en/2
(→ ∞ cuando n → ∞).
R∞ x x2
Sugerencia: Para el inciso (b) usar el Teorema 3.1 y calcular EeX1 = √e
−∞ 2π
e− 2 dx.

91
5.2. Ejercicios

92
Capı́tulo 6

Ley fuerte de los grandes


números(LFGN) y algunos modelos
de inversión óptima simplificados

6.1. Convergencia con probabilidad uno y LFGN


Entre un sinnúmero de resultados en la teorı́a de probabilidad moderna, dos clases de
teoremas juegan un papel muy importante, a saber: la(s) ley(es) de los grandes números
y el(los) teorema(s) central(es) del lı́mite. Estos resultados cuentan con dos tipos bási-
cos de convergencia de v.a.: convergencia de v.a. con probabilidad uno (o en otros
términos, convergencia casi segura) y convergencia débil, que es la convergencia de
las distribuciones de las v.a.

A pesar de que estos teoremas son muy valiosos en la teorı́a y tienen aplicaciones
importantes en diversas áreas, en los cursos introductorios de probabilidad casi nunca se
les da suficiente atención.

Ejemplo 6.1 Imaginemos que una moneda simétrica se lanza n veces. Para el k-ésimo
lanzamiento sea: (
1, si resulta “águila”,
Xk = (6.1.1)
0, si resulta “sol”.
Sn
Entonces, Sn = X1 + X2 + · · · + Xn es el número de “águilas” que resultan y es
n
la frecuencia relativa del número de águilas.

93
6.1. Convergencia con probabilidad uno

Ahora bien, tenemos que P (resulte “águila” ) = P (Xk = 1) = 1/2 = a := EXk


(véase el Ejemplo 3.4). Es decir, por la simetrı́a de que “águila” y “sol ” tienen la
misma posibilidad de salir y el razonamiento intuitivo de que la frecuencia de un even-
to (resulte “águila”, en este caso) debe ser cercano a la probabilidad de dicho evento.
Por tanto, se podrı́a pensar que para toda n suficientemente grande se espera que
Sn
n
≈ 12 = P (resulte “águila”) = a = EXk .

En efecto, en el siguiente Teorema 6.1 se obtiene que con probabilidad uno (o casi
seguramente),
Sn 1
→ = a, cuando n → ∞. (6.1.2)
n 2

¿Cómo se entienden las palabras “con probabilidad uno”?

Sea (Ω, F, P ) un espacio de probabilidad en donde son definidas las v.a. X1 , X2 , . . . , Xk , . . .


que aparecen en (6.1.1). Con base en la Definición 1.2 (del Capı́tulo 1) para cada k =
1, 2, . . . , Xk es un función definida en Ω con valores en R, i.e. Xk (ω) ∈ R, para ω ∈ Ω.
S1 S2 Sn
Resulta que las v.a. , , . . . , , . . . también están definidas en (Ω, F, P ), o bien, para
1 2 n
cada elemento ω ∈ Ω del espacio muestral Ω, los valores correspondientes de estas v.a.
son:
S1 (ω) S2 (ω) Sn (ω)
, ,..., ,..., (6.1.3)
1 2 n
que son números reales, enumerados por los números naturales n = 1, 2, 3, . . . Entonces
en (6.1.3) se tiene una sucesión numérica. La convergencia con probabilidad uno
(o la convergencia casi segura, “c.s.”) de la sucesión (6.1.3) al número 1/2, significa
que:
 
Sn (ω)
P ω ∈ Ω tales que → 1/2 = 1. (6.1.4)
n
De (6.1.4) al tomar su complemento se sigue que:

Sn (ω) 
P ω ∈ Ω tales que n
9 1/2 = 0. (6.1.5)
Considerando el caso general, llegamos a la siguiente definición.

Definición 6.1 Sean X y X1 , X2 , . . . , Xn , . . . v.a. definidas en un espacio de probabilidad


(Ω, F, P ). Se dice que Xn converge a X con probabilidad uno (o casi seguro) si

P ω : Xn (ω) → X(ω) = 1. (6.1.6)

94
CAPÍTULO 6. LEY FUERTE DE LOS GRANDES NÚMEROS E
INVERSIONES ÓPTIMAS
En este caso se escribe:

Xn → X con probabilidad 1.

Nota 6.1 (a) Cuando una sucesión numérica z1 , z2 , z3 , . . . , zn , . . . converge a un núme-


ro a ∈ R, esto se escribe: zn → a , cuando n → ∞. Esto significa que, para toda
n suficientemente grande, los números zn están arbitrariamente cercanos a “a”. Por
ejemplo, si zn = 1 − 1/n, n = 1, 2, 3, . . . entonces zn → 1 (ya que 1/n → 0 con el
aumento sin cota de n). Sin embargo, las siguientes sucesiones no convergen:
1) zn = (−1)n − 1/n, ya que para n grandes, zn está cerca de 1 para n pares y cerca
de −1 para n impares. i.e. no hay lı́mite único;
2) zn = ln(1/n), ya que ln(x) → −∞ cuando x → 0+ .

(b) En el Ejemplo 6.1 es posible elegir Ω = {ω = (i1 , i2 , . . . , ik , . . . )}, donde cada ik =


“águila” o “sol” indica el resultado del k-ésimo lanzamiento. Entonces  la convergen-
cia en (6.1.2) no se tiene para toda ω ∈ Ω. Por ejemplo, si ω = (“águila”, “águila”,
Sn
. . . , “águila”, . . . ) , entonces para cada n se tiene que Sn = n y = 1 9 1/2.
n
Por otro lado, es posible demostrar que la probabilidad total de todas las ω “exclu-
Sn (ω) 1
sivas” tales que 9 es cero (como está marcado en (6.1.5)). En particular,
n 2
por la independencia de X1 , X2 , . . . , se tiene que:

P (sólo resulten“águilas”) = P (X1 = 1, X2 = 1, . . . , Xk = 1, . . . ) =


 
= lı́m P (X1 = 1)P (X2 = 1) · · · P (Xn = 1)
n→∞
 n
1
= lı́m = 0.
n→∞ 2
Estos argumentos aclaran el porqué en la teorı́a de probabilidad se usa la convergen-
cia casi segura, es decir, para “casi todo” ω ∈ Ω, pero no para todas ω ∈ Ω. Otra
manera, poco formal, de ilustrar la convergencia casi segura (con probabilidad 1) se
da en la Figura 6.1.

En el resto del texto se usará la siguente notación:


X1 , X2 , X3 , . . . , Xk , . . . denota una sucesión de v.a. i.i.d.

a = EXk , k = 1, 2, 3, . . . es su esperanza común (cuando ésta existe).

95
6.1. Convergencia con probabilidad uno

La tropa que se
aproxima a la
fortaleza

Fortaleza Fortaleza

Un guerrero
cobarde:

a) Convergencia "segura". b) Convergencia "casi segura".

Figura 6.1: La “ilustración” de convergencia de v.a. con probabilidad 1 (casi segura).

σ 2 = V ar(Xk ), k = 1, 2, . . . es su varianza común (cuando existe).

Sn = X1 + X2 + · · · + Xn , n = 1, 2, 3, . . .

El resultado principal de este capı́tulo es la siguiente afirmación.

Teorema 6.1 (LFGN) Sean X1 , X2 , . . . v.a. i.i.d.

(a) Si E|X1 | < ∞ (es decir, a = EXk existe y es finita), entonces

Sn
→ a = EX1 con probabilidad 1. (6.1.7)
n

(b) Si E|X1 | = ∞, entonces la sucesión


 
Sn
, n = 1, 2, 3, . . . diverge con probabilidad 1. (6.1.8)
n

Sn X1 + X 2 + · · · + Xn
Nota 6.2 El cociente ≡ algunas veces es llamado “promedio
n n
muestral”. La afirmación en (6.1.7) significa que los promedios muestrales convergen al
valor esperado (o “promedio teórico”) a ≡ EX1 , cuando n → ∞.

96
CAPÍTULO 6. LEY FUERTE DE LOS GRANDES NÚMEROS E
INVERSIONES ÓPTIMAS

Aunque la demostración (bastante complicada y profunda) de este teorema está fuera


del alcance de nuestro libro, puntualizamos algunos argumentos que apoyan la afirmación
en (6.1.7). En general (como en el Teorema 6.1), para (6.1.7) no es necesario suponer la
existencia de la varianza finita de las v.a. Xk . Sin embargo, supondremos la existencia
de las varianzas (solamente para ilustrarla idea
 de la demostración). En el Ejemplo 3.7
2
 
Sn Sn σ
se ha calculado que para cada n > 1, E = a, V ar = (véanse (3.2.20) y
n n n 
Sn
(3.2.21)). O bien, con el crecimiento sin cota de n, se tiene que V ar → 0, y por
n
Sn
tanto la probabilidad de que los valores de la v.a. estén en una vecindad pequeña de
n
a = E Snn converge a 1. Más explicitamente, al sustituir en la desigualdad de Chebyshev

Sn 1
(3.2.18), X = , EX = a y ε = n1/3 → 0 (cuando n → ∞), se obtiene que:
n
σ2
σ2
 
Sn 1
P − a 6 1/3 > 1 − n1 = 1 − 1/3 → 1, cuando n → ∞. (6.1.9)
n n 1/3
(n ) 2 n

Al aplicar algunas desigualdades más precisas que la de Chebyshev y desarrollando


argumentos como en (6.1.9), es posible demostrar (por ejemplo, en el caso particular de
v.a. Xk acotadas) que existe una v.a. N con valores finitos en {1, 2, . . . } tal que,
 
Sn 1
P − a 6 1/3 para toda n > N = 1.

n n

Lo último significa que Snn → a con probabilidad uno. Después, se considera el caso
general utilizando algunos trucos interesantes, pero ello no es muy importante para este
libro. En particular, para pasar de v.a. generales (posiblemente con varianzas infinitas) a
unas v.a. acotadas se utiliza el procedimiento de “truncación” como en la fórmula (6.1.12).

Nota 6.3 En el Teorema 6.1, las hipótesis dicen que los sumandos X1 , X2 , X3 , . . . son
v.a. independientes e idénticamente distribuidas. Estos supuestos podrı́an sustituirse por
algunas condiciones menos restrictivas (como una dependencia “bastante ligera”), pero
hipótesis de este tipo no pueden quitarse por completo. Algo referente se muestra en el
siguiente ejemplo.

Ejemplo 6.2 (a) Sean X ∼ U (0, 1) y X = X1 = X2 = X3 = . . . que son las v.a.


estrictamente dependientes. Entonces, Sn = nX, Snn = X no aproxima a = EX1 =
1/2.

97
6.1. Convergencia con probabilidad uno

(b) Sean X1 , X2 , . . . , Xk , . . . v.a. independientes tales que Xk ∼ N orm (0, k), k =


1, 2, 3, . . . De una extensión del Teorema 2.2 se sigue que Sn ∼ N orm(0, σn ), n =
1, 2, 3, . . . donde por independencia y por una fórmula aritmética,
n n
X X n(n + 1)(2n + 1)
σn2 = V ar(Sn ) = V ar(Xk ) = k2 = ,
k=1 k=1
6

Sn
o bien ∼ N orm(0, σ n ), donde
n
 
2 Sn n(n + 1)(2n + 1)
σ n = V ar = ,
n 6n2

que se comporta como n/3, cuando n → ∞.


Entonces, para cualquier c > 0, de (1.2.9) y (1.2.13),
  Z c  
Sn 1 −x2 /2σ 2n x
P −c 6 6c = √ e dx, haciendo el cambio y = ,
n −c 2π σ n σn
Z c/σn Z 3c/n
1 −y 2 /2 1 2
√ e dy ≈ √ e−y /2 dy −→ 0, (6.1.10)
−c/σ n 2π −3c/n 2π

cuando n → ∞, puesto que las longitudes de los intervalos [− 3c


n n
, 3c ] se aproximan a
cero cuando n → ∞.
Por otro lado, E( Snn ) = 0, n = 1, 2, 3, . . . y por (6.1.10), la afirmación (6.1.7) en
la Ley Fuerte de los Grandes Números (LFGN) no se cumple. Además, los valores
de los promedios muestrales Snn “se van al infinito”, ya que para cualquier inter-
por (6.1.10): P Snn ∈

valo [−c, c] (que puede ser muy grande) se tiene / [−c, c] =
P Snn > c o Snn < −c = 1 − P Snn ∈ [−c, c] → 1 cuando n → ∞.


Ejemplo 6.3 Supongamos que se lanza sucesivamente un dado bien balanceado. Para
k = 1, 2, . . . sean
(
1, si en el k-ésimo lanzamiento resulta “6”,
Xk =
0, si en el k-ésimo lanzamiento resulta otro puntaje.

Entonces la v.a. Sn = X1 + X2 + · · · + Xn representa el número de veces que resulta


el “6” en los n primeros lanzamientos. Se puede suponer que X1 , X2 , . . . son i.i.d. con

98
CAPÍTULO 6. LEY FUERTE DE LOS GRANDES NÚMEROS E
INVERSIONES ÓPTIMAS

EX1 = 1 · P (resulte “6”) + 0 · P (no resulte “6”) = 1/6.

Por (6.1.7), con probabilidad uno (cuando n → ∞), la frecuencia del “6”, Sn /n se
aproxima a 1/6 = P (resulte “6”). Se enfoca en este sentido la interpretación frecuentista
de la probabilidad: al repetir muchas veces “las pruebas” independientes (donde un evento
puede realizarse o no), la frecuencia del evento se aproxima a la probabilidad
de ese evento.

Ejemplo 6.4 Sean X1 , X2 , . . . v.a. i.i.d. con la densidad de Cauchy:

1
fX (x) = , x ∈ R. (6.1.11)
π(1 + x2 )

1/π

x
-c 0 c

Figura 6.2: Densidad de Cauchy.

Por la simetrı́a de esta densidad, se podrı́a pensar que Snn = X1 +X2n+···+Xn → 0, cuando
n → ∞ (cada sumando Xk , k = 1, 2, . . . , n tiene la misma posibilidad de ser positivo o
negativo). Sin embargo, (consulte el Ejercicio 3.2 (b))
Z ∞
dx
E|X1 | = |x| =∞,
−∞ π(1 + x2 )

y por (6.1.8) la sucesión {Sn /n, n = 1, 2, . . . } diverge con probabilidad uno. En particular,
se demuestra que:  
Sn
P sup = ∞ = 1.

n>1 n

99
6.1. Convergencia con probabilidad uno

Ahora al usar el hecho de que:


Z ∞
fX (x)dx = el área bajo la gráfica de la densidad = 1,
−∞

seleccionemos c tal que,


Z
P (|X| > c) = fX (x)dx = el área resaltada en la Figura 6.2 = 10−1000 ,
|x|>c

e introducimos las v.a. X


e1 , X
e2 , . . . definidas de la forma:
(
Xek = Xk , si |Xk | 6 c, (6.1.12)
0, si |Xk | > c.

Las v.a. X e1 , X
e2 , . . . son i.i.d. (ya que son funciones de las v.a. i.i.d. X1 , X2 , . . . , vea
(2.1.8)) y debido a la Proposición 3.1, |EXk | 6 E|Xk | 6 Ec = c < ∞. Además, por si-
metrı́a, E X
ek = 0. Por lo tanto el teorema 6.1 inciso (a) se cumple para las v.a. X e1 , Xe2 , . . .
Sen Xe1 + · · · + X
en
con a = 0. Aplicando (6.1.7) se tiene que = → 0, cuando n → ∞ con
n n
probabilidad uno. Por (6.1.12) se obtiene que P (X ek 6= Xk ) = P (|Xk | > c) = 10−1000 , i.e.
las v.a. Xk y X ek son “prácticamente indistinguibles”.
A pesar de esto, el comportamiento asintótico (cuando el número de sumandos crece
Sn Sen
sin cota) de las v.a. (“promedios muestrales”) y son muy diferentes. Mientras que
n n
Sen Sn
→ 0 casi seguramente, la v.a. , como es posible demostrar, tiene la densidad de
n n
Cauchy (6.1.11) para toda n = 1, 2, 3 . . .
En particular,
    Z 1
Sn Sn dx
P ∈
/ [−1, 1] = 1 − P ∈ [−1, 1] = 1 − 2
= 0.5.
n n −1 π(1 + x )

El Ejemplo 6.4 tiene un “valor teórico”. Sin embargo, en algunas aplicaciones de la


teorı́a de la probabilidad (por ejemplo, en fı́sica) a veces aparecen sucesiones de v.a. i.i.d
X1 , X2 , . . . , Xk , . . . , con E|X1 | = ∞. Para tales sucesiones la relación en (6.1.7) no se
cumple, i.e los promedios muestrales Snn NO convergen.

100
CAPÍTULO 6. LEY FUERTE DE LOS GRANDES NÚMEROS E
INVERSIONES ÓPTIMAS

6.2. Primeras aplicaciones de la LFGN


En esta sección se trabajarán algunos ejemplos simples, pero ilustrativos sobre la
LFGN.
Ejemplo 6.5 (Ocurrencia “casi segura” de algunos eventos raros.)

Enumeremos los dı́as futuros, a partir de hoy, de forma que k = 1, 2, 3, . . . representa


cada dı́a. Consideremos un vuelo comercial: México D.F. - Nueva York, el cual se realiza
diariamente. Para cada dı́a futuro, k = 1, 2, 3, . . . , introducimos las v.a., Bernoulli, i.i.d.
X1 , X2 , X3 , , . . . , Xk , . . . tales que:
(
1, si en el k-ésimo dı́a ocurre alguna catástrofe con el vuelo,
Xk =
0, si se realiza un vuelo seguro.
Con base en datos estadı́sticos referentes a catástrofes de aviones comerciales se sabe que

p = P (de una catástrofe en un vuelo comercial) = P (Xk = 1) ≈ 9 · 10−8


(que desafortunadamente es mayor que cero). Por otro lado, la probabilidad de morir en
un accidente automovilı́stico es aproximadamente de 2 · 10−4 , estos datos según el sitio en
internet “Airplane Disasters and Plane Crash Statistics”.

Como Sn = X1 + X2 + · · · + Xn representa el número de catástrofes en n dı́as, para los


vuelos D.F. - N.Y. mencionados; y a = EXk = p > 0, entonces por (6.1.7) se tiene que,
con probabilidad uno, Snn → p > 0, cuando n → ∞. Esto nos dice que casi seguramente
(con probabilidad 1) a partir de un n grande , Sn ≈ np > 0, es decir, Sn es estrictamen-
te positivo, lo cual nos dice que Sn tiene, al menos, un sumando igual a uno (Xk = 1),
i.e., en un futuro hay que esperar una catástrofe en dicha ruta. Para tranquilizar a los
usuarios potenciales, observemos que análogamente al Ejercicio 2.12, se establece que la
v.a. N := {el número de dı́as hasta la primera catástrofe} (en vuelos con ruta y horario
fijos) tiene la distribución Geom(p), por lo tanto, el tiempo promedio hasta la primera
catástrofe es EN = p1 ≈ 1.1 · 107 dı́as ≈ 30 mil años.
Veamos, por ejemplo, que P (la primera catástrofe occurra no antes de
P100 años) = Pk−1 (N >
36500) = 1 − P (N 6 36500) = (por (2.3.21) y (2.3.23)) = 1 − 36500 k=1 p (1 − p) =
 1−(1−p)36500 
1 − p 1−(1−p) = (1 − p)36500 ≈ 0.99672.

Finalmente se puede observar que argumentos como los de este ejemplo son “dema-
siado teóricos” y no están sustentados para ser utilizados como modelos adecuados de
procesos reales.

101
6.2. Primeras aplicaciones de la LFGN

Ejemplo 6.6 (Casino.) Este ejemplo es de otro tipo en el cual la aplicación de la LFGN
refleja perfectamente los fenómenos reales que caracterizan a la mayorı́a de los juegos de
azar utilizados.
Los casinos, al igual que algunas empresas, existen y prosperan debido al hecho de que
cualquier juego que se ofrece al publico es injusto. Es decir, el resultado X de cualquier
apuesta de un jugador tiene esperanza negativa:
EX = a < 0. (6.2.13)
Imaginemos que un jugador repite sucesivamente las mismas apuestas en algún juego en
un casino, entonces, su capital después de n apuestas será:
Cn = C0 + X1 + X2 + · · · + Xn = C0 + Sn ,
donde C0 es su capital inicial y X1 , X2 , . . . son v.a. i.i.d. que representan los resultados
(ganancia o pérdida) de cada apuesta. Supongamos que el jugador es una persona “per-
sistente”, es decir, sigue apostando si todavı́a tiene capital. Veamos que con probabilidad
uno, tarde o temprano el jugador deberá dejar de apostar debido a su ruina, i.e. a la ocu-
rrencia del evento {Cn < 0} (donde n puede ser un valor aleatorio). En efecto, puesto que
C0 Cn C0 Sn
→ 0 cuando n → ∞, de (6.1.7) se sigue que casi seguramente = + → a < 0,
n n n n
de lo que resulta que Cn < 0 a partir de un n.

Nota 6.4 Imaginemos que el jugador puede seguir jugando incluso después de su ruina
(obteniendo un préstamo, por ejemplo) y que, como en el Ejemplo 8.3 del Capı́tulo 8,
repite sus apuestas de 5 dólares porp“rojo” en la ruleta americana (véase Ejercicio 6.6).
Entonces, a = EXk = −5/19, σ = V ar(Xk ) ≈5.
Por el Teorema Central del Lı́mite (Capı́tulo 8) y la “ regla 3σ” (véase la Figura 3.6),
obtenemos que para la ganancia-pérdida Sn , en n apuestas con un n “bastante grande”,
se cumple que P (−3σ 6 Sn√−nan
6 3σ) ≈ 0.9974, o bien,
√ √ 
P na − 3σ n 6 Sn 6 na + 3σ n ≈ 0.9974. (6.2.14)
Por ejemplo, para n = 202 = 400 y de (6.2.14):
P (−405.3 6 Sn 6 194.7) ≈ 0.9974.

Además, según (6.2.14), para n grande la deuda del jugador crece con velocidad: −na ±
√ 5 15
3σ n = n( ± √ ). Para n = 10000, con probabilidad cercana a 0.8384, la deuda
19 n
está en el intervalo [−3632, −1632].

102
CAPÍTULO 6. LEY FUERTE DE LOS GRANDES NÚMEROS E
INVERSIONES ÓPTIMAS

Ejemplo 6.7 (Estimación estadı́stica de un parámetro desconocido en una distribución.)


(a) Supongamos que un productor de cierta fábrica de focos eléctricos sabe (por expe-
riencia anterior) que la duración del funcionamiento (hasta fundirse) de un foco es
la v.a. T con la siguiente distribución de Weibull:
( 2
1 − e−λx , x > 0,
FT (x) =
0 x 6 0.

Sin embargo, el fabricante desconoce el valor del parámetro λ > 0. Para estimar-
lo, hace un experimento en el cual pone a prueba n focos y observa sus respectivos
tiempos de funcionamiento T1 , T2 , . . . , Tn , que pueden considerarse (con una apro-
piada realización del experimento) variables aleatorias i.i.d. con distribución común
FT . De (6.1.7) y (3.3.31) se tiene que para toda n “suficientemente grande”, con
probabilidad 1, se cumple la siguiente aproximación:
T1 + T2 + · · · + Tn 1  π  12
≈ ET1 = , (6.2.15)
n 2 λ
Sn  π  12
o bien (Sn := T1 +T2 +· · ·+Tn ), 2 ≈ . Finalmente (puesto que las funciones
n λ
g1 (x) = x2 y g2 (x) = x1 , x > 0 son continuas) al resolver (6.2.15) se obtiene que:

π n2
λ≈ .
4 Sn2

Por lo tanto, la parte derecha de la última aproximación (que es función de da-


tos observados T1 , T2 , . . . , Tn ) sirve como estimación estadı́stica del parámetro
desconocido λ.
(b) Imaginemos que se observan n valores X1 , X2 , . . . , Xn i.i.d. de la v.a. N orm(0, σ),
y que el valor de la desviación estándar σ es desconocido.
De (2.1.8), las v.a. X12 , X22 , . . . , Xn2 son i.i.d. y por LFGN (6.1.7) , para n grande,
con probabilidad 1 se tiene que,
X12 + X22 + · · · + Xn2
≈ E(Xk2 ) = V ar(Xk ) = σ 2 .
n

Por lo tanto, puesto que x es una función continua, se tiene que:
r
X12 + X22 + · · · + Xn2
σ≈ .
n

103
6.2. Primeras aplicaciones de la LFGN

Ejemplo 6.8 (Ruina, con probabilidad 1, en el modelo de riesgo de Cramér-Lundberg,


cuando no se cumple la condición del beneficio neto.)

En el Capı́tulo 4 la condición γ > aλ (4.4.33) expresa el hecho de que la ganancia γ


por recaudación de primas es mayor al gasto promedio por cobertura de reclamaciones.
Supongamos ahora, que γ < aλ y reescribamos la ecuación (4.4.29) como sigue sumando
y restando − γ Nλ(t) :


  XN (t) h
N (t) γi
X(t) = x + γ t − − ξn − . (6.2.16)
λ n=1
λ

Por el Ejercicio 4.13 sabemos que Nt(t) → λ, cuando t → ∞ con probabilidad 1, de lo cual
resulta que N (t) → ∞; y para cualquier ε > 0 (pequeña) y para toda t suficientemente
grande se tiene que:

N (t) N (t) 6 εt.


t − λ 6 ε, o bien, t −
λ λ
γ γ
Por otro lado, para Yn := ξn − λ
se tiene que EYn = a − λ
> 0, y como consecuencia
de (6.1.7),
N (t)
1 X γ
Yn → b := a − > 0.
N (t) n=1 λ

N (t)
X γ
Entonces, para t grande en (6.2.16), [ξn − ] se comporta como bN (t) ≈ bt. Pero como
n=1
λ
t
bt → ∞ crece más rápido que ε λ → ∞ (ya que ε puede ser escogido con un valor muy
cercano a cero). Es por esto que en (6.2.16) con probabilidad uno,

  XN (t) h
N (t) γi
X(t) := γ t −
e − ξn − → −∞,
λ n=1
λ

y consecuentemente para toda t suficientemente grande, X(t) e < x, o bien en (6.2.16)


X(t) < 0, lo que significa la ruina de la compañı́a (con probabilidad 1).

104
CAPÍTULO 6. LEY FUERTE DE LOS GRANDES NÚMEROS E
INVERSIONES ÓPTIMAS

6.3. Un modelo simplificado de optimización de in-


versiones
Al comparar con algunos modelos de optimización de inversiones considerados en la
matemática financiera (véase, por ejemplo Korn & Korn (2001)), el modelo de esta sec-
ción está extremadamente simplificado hasta el punto en que nos permite valernos sólo
de cálculos sencillos, aunque todavı́a nos permite ver algunas propiedades caracterı́sticas
de los modelos más realistas y sofisticados. Primero, se verá una versión de LFGN (6.1.7)
para productos de v.a. i.i.d. positivas.

Proposición 6.1 Sean X1 , X2 , . . . v.a. positivas i.i.d. para las cuales existe (y es finita)
b := Eg X1 (= Eg X2 = Eg X3 = . . . ). Entonces, con probabilidad 1,
 1/n
X1 · X2 · . . . · Xn → b, cuando n → ∞. (6.3.17)

Para demostrar (6.3.17) es suficiente tomar el logaritmo y usar (6.1.7) y (5.1.1).

Ejemplo 6.9 Sean X1 , X2 , . . . v.a. i.i.d. con la distribución U (0, 1). Como E ln(X1 ) =
Z 1
ln(x)dx = −1, entonces [X1 · X2 · . . . · Xn ]1/n → 1/e, cuando n → ∞.
0

De aquı́, es casi seguro que Yn := X1 · X2 · . . . · Xn es del orden (1/e)n → 0, por lo


tanto Yn → 0.

Ahora se describirá el modelo simplificado de optimización de inversiones. Se medirá el


tiempo en años, indicándolo con t = 0, 1, 2, . . .

Al principio de un año (t = 0) una persona tiene un capital inicial Y0 > 0 y planea


usarlo dividiendo Y0 en dos tipos de inversiones:
- La “no riesgosa”(como un depósito en el banco), donde por cada peso invertido
obtendrá al final del año α > 1 pesos;

- La “riesgosa”(como comprar acciones), donde por cada peso invertido resulta al fi-
nal del año la cantidad aleatoria X1 > 0 (que es ganancia si X1 > 1 o es pérdida si
X1 < 1).

105
6.3. Un modelo simplificado de optimización de inversiones

Supongamos que el inversionista escoge cierto número q ∈ [0, 1] (un parámetro “con-
trolable”) y gasta qY0 por la inversión no riesgosa y (1 − q)Y0 por la riesgosa. Entonces al
final del año (o al principio del siguiente (t = 1)) su capital (aleatorio) será:

Y1 = αqY0 + X1 (1 − q)Y0 = Y0 [qα + (1 − q)X1 ]. (6.3.18)

Al principio del siguiente año (t = 1) el inversionista usa el mismo valor de q para


ahora repartir la cantidad Y1 en los dos tipos de inversión y por lo tanto al inicio del año
t = 2 su capital será:

Y2 = Y1 [qα + (1 − q)X2 ] = Y0 [qα + (1 − q)X1 ][qα + (1 − q)X2 ], (6.3.19)

donde X2 es la v.a. que representa el movimiento de precios de acciones en el segundo


año (se supone que α permanece constante en todos los años).

Suponiendo que el inversionista maneja su capital de la misma forma en los años


t = 2, 3, . . . , por (6.3.18) y (6.3.19) se tendrá que al principio del t − ésimo año su capital
será:
Yt
Yt = Y0 [qα + (1 − q)Xk ], t = 1, 2, . . . . (6.3.20)
k=1

Suposición 6.3.1 (a) Las v.a. X1 , X2 , . . . son i.i.d. con valores positivos;
(b) La esperanza a = EXk existe y es finita, y además

a > α > 1; (6.3.21)

(i.e. en promedio la inversión riesgosa es más lucrativa, lo que normalmente se cumple


en el mercado financiero).

La idea general del problema de optimización de inversiones en este modelo es la elec-


ción de una “q”que provoque un crecimiento más rápido de Yt cuando t aumente.

La aleatoriedad de Yt no nos permite hacer esto para todas las trayectorias de Yt si-
multáneamente. Es por esto que se necesita un criterio de optimización “promedio”que se
pueda escoger de diferentes maneras. Veamos los siguientes dos planteamientos.

Pl. I ≡ Planteamiento I. (Maximización del capital promedio EYt ).

106
CAPÍTULO 6. LEY FUERTE DE LOS GRANDES NÚMEROS E
INVERSIONES ÓPTIMAS

Por (6.3.20) y el Teorema 3.1:

t
Y
EYt = Y0 [qα + (1 − q)EXk ] = Y0 [qα + (1 − q)a]t . (6.3.22)
k=1

Puesto que para t = 1, 2, . . . la función g(x) = xt con x > 0 es creciente, el máximo de la


esperanza en (6.3.22) (¡para cada t = 1, 2, . . . !) se alcanza en un punto donde la función
lineal ψ(q) := qα + (1 − q)a, q ∈ [0, 1] es máxima. La gráfica de ψ(q) es la Figura 6.3 que,
por (6.3.21), es una función decreciente.

y
y(q)
a
a

q
0 1

Figura 6.3: Gráfica de ψ(q).

El parámetro óptimo, en el sentido del Pl.I, resulta de elegir q = q0 = 0, o bien, usar


todo el capital en una inversión riesgosa. Al usar q0 = 0, por (6.3.22) se tiene:

EYt = Y0 at , t = 1, 2, . . . , (6.3.23)

lo que garantiza el crecimiento exponencial (con el máximo exponente posible) de la ri-


queza promedio. Veamos que en algunas situaciones dicha polı́tica de inversión podrı́a
ser demasiado “riesgosa”, y en realidad, para t suficientemente grande sucederá la ruina
del inversionista.

Consideremos, por ejemplo:


(
3, con probabilidad 0.9,
X1 = −12
(6.3.24)
10 , con probabilidad 0.1.

(El último valor, prácticamente representa la anulación del precio de las acciones, pero
en el modelo estudiado Xk debe ser estrictamente positivo.) Entonces, en promedio, los

107
6.3. Un modelo simplificado de optimización de inversiones

precios aumentan el valor de a = EX1 ≈ 2.7 que es mucho mayor que α ≈ 1.02 − 1.1 y
por (6.3.23) se obtiene:

EYt = Y0 (2.7)t (↑ ∞, cuando t → ∞). (6.3.25)

Por ejemplo, con Y0 = 1000 y t = 50,

EY50 ≈ 3.69988 · 1024 pesos ≈ 3.7 cuatrillones. (6.3.26)

Por otro lado, con q = q0 = 0 en (6.3.20), se obtiene:


t
Y
Yt = Y0 Xk , t = 1, 2, 3, . . . (6.3.27)
k=1

De (6.3.27) y de la Proposición 6.1 se tiene que cuando t → ∞, con probabilidad 1,

(Y0 )−1/t (Yt )1/t → Eg X1 = (por (5.1.1) y (3.1.8)) = exp{0.9 ln 3 + 0.1 ln(10−12 )}
≈ e−1.77435 ≈ 0.16959. (6.3.28)

Luego, ln(Y0 )−1/t = − 1t ln Y0 → 0 cuando t → ∞, por lo tanto, (Y0 )−1/t → 1. Al elegir


entonces una ε > 0 (pequeña) y de (6.3.28) se tiene que con probabilidad 1, para toda t su-
ficientemente grande (Yt )1/t 6 0.16959+ε, o bien, Yt 6 (0.16959+ε)t → 0 cuando t → ∞.

Consecuentemente, por (6.3.25) el capital promedio EYt crece sin cota, mientras
que el capital “real” Yt con probabilidad 1 se anula cuando t → ∞.

Esto último nos refiere a la ruina del inversionista (que se da de forma asintótica). Es
claro que ésto se debe a la ocasional (con probabilidad 0.1) aparición en (6.3.27) del valor
de Xk igual a 10−12 (véase (6.3.24)).

Estimaremos ahora los valores de Y50 y sus probabilidades. Podrı́a parecer práctico
elevar la expresión (6.3.28) a la potencia t para tratar de obtener Y50 ≈ Y0 (0.16959)50 .
Sin embargo, al hacerlo aumentarı́amos considerablemente el error de la aproximación en
(6.3.28) y no se obtendrı́a un resultado confiable.

Sean t = 50 y N el número de apariciones del valor 10−12 entre las v.a. X1 , X2 , . . . , X50 .
Es claro que N ∼ Bin(n = 50, p = 0.1), (véase (6.3.24)). Entonces (consulte el Ejemplo
1.4(a)):
1. P (N = 0) = (1 − p)n ≈ 0.0051538, con esa probabilidad y por (6.3.27) (con Y0 =
1000) Y50 = Y0 · 350 ≈ 7.17898 · 1026 pesos. (¡Un montón de dinero!)

108
CAPÍTULO 6. LEY FUERTE DE LOS GRANDES NÚMEROS E
INVERSIONES ÓPTIMAS

2. P (N = 1) = n p (1 − p)n−1 ≈ 0.028632 y con esa probabilidad


Y50 = Y0 · 349 · 10−12 ≈ 2.39299 · 1014 pesos.

3. P (N = 2) = n(n−1)
2
p2 (1 − p)n−2 ≈ 0.077943 y con esa probabilidad
48 −12 2
Y50 = Y0 · 3 · (10 ) ≈ 79.7664 pesos.

4. P (N > 3) = 1−P (N = 0)−P (N = 1)−P (N = 2) ≈ 0.88827 y con esa probabilidad


Y50 6 Y0 · 347 · (10−12 )3 ≈ 2.65888 · 10−11 = 0 pesos.

Por lo tanto, en casi el 89 % de los casos el inversionista se arruinará completamente en


el transcurso de 50 años y aproximadamente en el 97 % de los casos, el inversionista va
a perder casi todo su capital inicial. Se recomienda comparar este resultado con (6.3.26),
(6.3.37) y (6.3.38).

Pl. II ≡ Planteamiento II. (Maximización de la esperanza geométrica Eg Yt de los


capitales o el uso de utilidad logarı́tmica.)
De (6.3.20) se obtiene que:
( t
!)
Y
Eg Yt = exp E ln Y0 [qα + (1 − q)Xk ]
k=1
( t
)
X
= exp ln Y0 + E ln[qα + (1 − q)Xk ]
k=1
= Y0 exp{tE ln[aα + (1 − q)X1 ]},

puesto que X1 , X2 , . . . tienen la misma distribución, es decir:

Eg Yt = Y0 exp{tE ln[qα + (1 − q)X1 ]}. (6.3.29)


Como f (x) = etx es una función creciente, para encontrar máxq Eg Yt es suficiente
buscar:
máx{E ln[qα + (1 − q)X1 ]}. (6.3.30)
q

Suposición 6.3.2  
1
E < ∞. (6.3.31)
X12

Como sugiere la solución del Ejercicio 6.14, las condiciones (6.3.21) y (6.3.31) garanti-
zan que E| ln[qα + (1 − q)X1 ]| < ∞, q ∈ [0, 1] (i.e. las esperanzas involucradas en (6.3.29)

109
6.3. Un modelo simplificado de optimización de inversiones

m j(q)

q
0 q* 1

Figura 6.4: Gráfica de ϕ(q).

y (6.3.30) existen) y la función ϕ(q) := E ln[qα + (1 − q)X1 ], q ∈ [0, 1] tiene segunda


derivada negativa como se muestra en la Figura 6.4
Entonces existe un único q∗ ∈ [0, 1] para el cual la función ϕ(q) alcanza el máximo
global en [0, 1] y como ϕ(1) = ln α > 0, se tiene que,
µ := ϕ(q∗ ) = máx E ln[qα + (1 − q)X1 ] > 0. (6.3.32)
q∈[0,1]

¿Cuáles serán los resultados al usar q∗ en el procedimiento de inversión?

Al sustituir q∗ en (6.3.20) y al aplicar la Proposición 6.1 obtenemos (véase (6.3.29) y


(6.3.32)) que cuando t → ∞, con probabilidad 1
−1/t 1/t
Y0 Yt → Eg [q∗ α + (1 − q∗ )X1 ] = eµ , con µ > 0. (6.3.33)
Nuevamente, al elegir una ε > 0 suficientemente pequeña, de forma que µ−ε > 0, y por
(6.3.33) obtenemos que para toda t suficientemente grande, se tiene que con probabilidad
1, (Yt )1/t > eµ e−ε = eµ−ε , o bien,

Yt > e(µ−ε)t → ∞, cuando t → ∞. (6.3.34)


Además, debido a (6.3.32) la tasa de crecimiento de los capitales en (6.3.33) y
(6.3.34) es la máxima entre todas las posibles.

Ahora bien, calculando la esperanza de (6.3.20) con q = q∗ y tomando en cuenta que


por (6.3.21)
q∗ α + (1 − q∗ )a := λ > 1, (6.3.35)
tendremos el siguiente crecimiento exponencial para capitales promedio (al usar q∗ para
las inversiones planeadas),
EYt = Y0 λt → ∞, cuando t → ∞. (6.3.36)

110
CAPÍTULO 6. LEY FUERTE DE LOS GRANDES NÚMEROS E
INVERSIONES ÓPTIMAS

Regresemos al ejemplo donde la distribución de precios es la dada en (6.3.24). Fijemos,


por ejemplo, el valor α = 1.05 (el 5 % de la tasa anual). Por (3.1.8) se tendrá que:

ϕ(q) = E ln[qα + (1 − q)X1 ] = 0.9 ln[1.05q + 3(1 − q)] + 0.1 ln[1.05q + 10−12 (1 − q)].

Al resolver la ecuación ϕ0 (q) = 0 (consulte el Ejercicio 6.15), se obtiene que en (6.3.32)


q∗ ≈ 0.15385 y µ = 0.71163; y en (6.3.35) λ ≈ 2.44615. El valor q∗ = 0.15385 significa
que la polı́tica de inversión correspondiente sugiere depositar alrededor del 15 % del ca-
pital corriente en una cuenta bancaria (es decir, hacer una inversión “no riesgosa”). En
ese sentido q∗ es una polı́tica “precavida”que no ignora grandes descensos de precios en
el mercado de acciones.

Por (6.3.36) se tiene que si Y0 = 1000, entonces EY50 ≈ 2.65555 · 1022 , que es me-
nor comparado con el valor promedio de (6.3.26) (cuando se aplicó la polı́tica riesgosa
q = q0 = 0).

Veamos ahora qué valores reales toma la v.a Y50 (el capital real después de 50 años)
en el ejemplo ya mencionado, al aplicar la polı́tica q∗ = 0.15385. Al igual que en los
cálculos anteriores, sea N el número (aleatorio)Qde apariciones del valor Xk = 10−12 entre
las v.a. X1 , X2 , . . . , X50 . Por (6.3.20) Y50 = Y0 50
k=1 [q∗ α + (1 − q∗ )Xk ], donde:
(
2.69999 si Xk = 3,
q∗ α + (1 − q∗ )Xk ≈
0.16154 si Xk = 10−12 .

De acuerdo a los cálculos anteriores:

1. Y50 = 1000(2.69999)50 ≈ 3.69920 · 1024 con probabilidad 0.0051538 (N = 0);

2. Y50 = 1000(2.69999)49 · 0.16154 ≈ 2.21323 · 1023 con probabilidad 0.028632 (N = 1);

3. Y50 = 103 (2.69999)48 (0.16154)2 ≈ 1.32417 · 1022 con probabilidad 0.077943 (N = 2).

Luego, de acuerdo a la LFGN (6.1.7), el cociente N/50 no debe diferir mucho de


p = P (Xk = 10−12 ) = 0.1. Entonces, los valores más probables para N están alrededor de
0.1 · 50 = 5 (o bien, 2, 3, 4, 5, 6, 7, 8). Para valores de este rango se obtiene:

(a) Para N = 5,

Y50 = 1000(2.69999)45 (0.16154)5 ≈ 2.83594 · 1018 ; (6.3.37)

111
6.3. Un modelo simplificado de optimización de inversiones

(b) Para N = 8,
Y50 = 1000(2.69999)42 (0.16154)8 ≈ 6.07367 · 1014 ; (6.3.38)
(≈ 600 billones de pesos).
Finalmente, utilizando la distribución Bin(n = 50, p = 0.1) es fácil calcular P (N > 8),
la cual resulta muy cercana a cero.

Comparando las polı́ticas de inversión al usar q0 = 0 y q∗ > 0 se puede observar que


cuando la variación de los costos de valores es tan grande como en (6.3.24) (con una
disminución no muy probable, pero que casi es cero), la polı́tica de inversión q0 = 0 que
maximiza el promedio del capital, es “demasiado riesgosa”. El decrecimiento del capital,
hasta la ruina, se explica con el hecho siguiente: con q = q0 = 0, (6.3.20) se convierte
en (6.3.27) y este producto disminuye drásticamente cuando aparecen uno o más factores
Xk iguales a 10−12 (véase (6.3.24)). Por otro lado, de la aplicación de la polı́tica q∗ que
optimiza la esperanza geométrica del capital resulta que los factores en (6.3.20) sean muy
diferentes de cero en situaciones crı́ticas (por el depósito hecho en el banco). Es decir, se
trata de una polı́tica “cuidadosa”que ayuda a evitar los factores muy cercanos a cero en
la ecuación (6.3.20).

La siguiente nota aclara el porqué el Planteamiento II se reduce al uso de la función


de utilidad logarı́tmica en la búsqueda de la polı́tica óptima q∗ .

Nota 6.5 Al utilizar un valor q ∈ [0, 1] para realizar el proceso de inversión descrito
arriba, el término G := qα + (1 − q)Xk representa la ganancia (si G > 1) o la pérdida
(si G < 1) durante un año por cada peso invertido. En el Pl.I se busca máxq EG (véase
(6.3.22)) y en el Pl.II, máxq E ln(G) (véanse (6.3.30) y (6.3.32)). Esto significa que en el
segundo caso se usa la función de utilidad: f (x) = ln x. Es decir, el “valor real” de la
ganancia de x pesos se estima no como x, sino como ln x.
Sobre las diferentes aplicaciones en economı́a de las funciones de utilidad de este tipo
se pueden consultar en Rolski et al (1999).

Comentemos ahora algo sobre los modelos más serios de inversiones óptimas que se
usan en matemática financiera moderna (véase, por ejemplo, Korn & Korn (2001)). En
la mayorı́a de los libros y los artı́culos la evolución del mercado y de las inversiones del
capital se consideran con un tiempo t continuo (en particular, para hacer uso de la teorı́a
muy bien desarrollada de ecuaciones diferenciales estocásticas). Para modelos con tiempo
discreto t = 0, 1, 2, . . . , la generalización de nuestro “modelo” se realiza en las siguientes
direcciones:

112
CAPÍTULO 6. LEY FUERTE DE LOS GRANDES NÚMEROS E
INVERSIONES ÓPTIMAS

1. Se toma en cuenta el uso de una parte del capital por consumo.

2. Se considera más de una inversión riesgosa (i.e., por ejemplo, se adquieren acciones
de diferentes tipos).

3. En cada instante actual t, la polı́tica de inversiones (de control de recursos) puede,


en general, depender de t, del estado actual del capital y de todos los estados y
controles anteriores.

4. La validez del capital se estima medinate una función de utilidad más o menos
arbitraria.

5. Se introduce el coeficiente de descuento β, 0 < β < 1, para tomar en cuenta la


devaluación de la moneda en el transcurso del tiempo.

En un modelo de este tipo, la polı́tica de inversión (o de inversión-consumo) es una


sucesión de vectores: π = {q 0 , q 1 , . . . , q t , . . . }, donde el control en la etapa t:
(1) (2) (m)
q t = (ct , qt , qt , qt , . . . , qt ), (6.3.39)

en general, puede depender del tiempo, del capital actual Yt−1 y de inversiones y capitales
anteriores. En (6.3.39), ct (0 6 ct 6 Yt−1 ) es el consumo en el periodo t, qt (Yt−1 − ct ) es
(1) (2)
la parte del capital con que se hizo una inversión no riesgosa y qt (Yt−1 − ct ), qt (Yt−1 −
(m)
ct ), . . . , qt (Yt−1 − ct ) son las reparticiones entre m inversiones riesgosas (tales que qt +
Pm (j)
j=1 qt = 1).

En nuestro “modelo” el movimiento de capitales (6.3.20) se puede reescribir como


sigue: Yt = Yt−1 [qα + (1 − q)Xt ], t = 1, 2, . . . En algunos modelos más generales (véase
por ejemplo Gordienko et al (2008)) las ecuaciones que describen la dinámica del capital
Yt , t > 0 tienen una estructura parecida a:
h m
X i
(j) (j)
Yt = (Yt−1 − ct ) qt αt + qt Xt , t = 1, 2, . . . (6.3.40)
j=1

Un problema tı́pico de optimización de inversión-consumo (con el horizonte del tiem-


po infinito) es el siguiente problema de búsqueda de una polı́tica π∗ óptima (entre otras
polı́ticas π de inversión-consumo) que proporcione el valor máximo del consumo pro-
medio descontado:

X
C(π, Y0 ) := β t−1 Eu(ct ). (6.3.41)
t=1

113
6.3. Un modelo simplificado de optimización de inversiones

En (6.3.41) se tiene el “consumo” en el sentido generalizado, reestimando ct mediante


una función de utilidad u dada.
(1)
Se sabe1 que si u(c) = c0 · cγ (0 < γ < 1, α < β1 ) y E[X1 ]γ < β1 (considerando en
(6.3.40) m = 1 y αt = α =constante), entonces la polı́tica óptima π∗ , i.e. la polı́tica tal que
C(π∗ , Y0 ) = máxπ C(π, Y0 ) tiene una estructura muy simple. En otras palabras, existen (y
se pueden encontrar) los valores r∗ ∈ [0, 1] y q∗ ∈ [0, 1] tales que π∗ = {q ∗ , q ∗ , . . . }, donde
q ∗ = {r∗ Y ; q∗ ; 1 − q∗ }. O bien, las decisiones sobre inversión-consumo en el instante t no
dependen de t y tampoco de inversiones anteriores a t − 1. Esa polı́tica (óptima) sugiere,
en los periodos t = 1, 2, . . . , gastar por consumo una proporción fija r∗ Yt−1 de Yt−1 , y al
capital restante Yt−1 − r∗ Yt−1 repartirlo en dos tipos de inversión: determinar la cantidad
de q∗ Yt−1 (1 − r∗ ) en una inversión “no riesgosa” y poner la cantidad de (1 − q∗ )Yt−1 (1 − r∗ )
en la inversión riesgosa.

Obsérvese que, con excepción de la presencia del consumo, la estructura descrita en


la polı́tica óptima conlleva al regreso del modelo simplificado (6.3.20), si en lugar de
considerar las utilidades u(y) = y y u(y) = ln(y) se usa la utilidad u(y) = c0 y γ .

1
Puede consultarse Korn & Korn (2001) para el modelo similar con tiempo continuo.

114
CAPÍTULO 6. LEY FUERTE DE LOS GRANDES NÚMEROS E
INVERSIONES ÓPTIMAS

6.4. EJERCICIOS
6.1 Sean X1 , X2 , . . . v.a. i.i.d. con distribución Bernoulli con p = 1/2 (modelo de los
lanzamientos sucesivos de una moneda simétrica, véase el Ejemplo 6.1). Muestre
que:
(a) P (Sn /n → 1/2) = 1;

(b) P (Sn /n = 1/2) ≈ 1/ 2πn → 0, cuando n → ∞.
Sugerencia:
√ Para (b) use el Ejemplo 1.4 (b) y la fórmula de Stirling: n! ∼
n
2πn (n/e) , cuando n → ∞.
6.2 Al considerar los valores X1 , X2 , . . . , Xn de v.a. i.i.d.con la f.d. FX , se define la f.d.
1
empı́rica: Fbn (x) := (# de Xk tales que Xk 6 x), x ∈ R.
n
(a) Para los valores de X1 , X2 , . . . , Xn fijos, trace la gráfica de Fbn (x), x ∈ R.
(b) Demuestre que para cada x ∈ R con probabilidad 1, Fbn (x) → FX (x), cuando
n → ∞. (Entonces, Fbn sirve como estimación estadı́stica de FX ).
6.3 Supongamos que Xn → 1 y Yn → 1 con probabilidad 1. Demostrar que Xn + Yn →
X + Y , Xn Yn → XY y g(Xn ) → g(X) con probabilidad 1, para cualquier función
continua g : R → R.
6.4 Encontrar una sucesión de v.a. X1 , X2 , . . . , Xn , . . . tal que Xn → 0 con probabilidad
1, pero EXn → ∞.
Sugerencia: Para n = 1, 2, 3, . . . defina: Xn = n2 I{X6 1 } , donde X ∼ U (0, 1) e
n
(
1, si X 6 n1 ,
I{X6 1 } =
n
0, si X > n1 .

6.5 Sea la v.a. X con la siguiente f.d.:


(
1 − x1 , x > 1,
FX (x) =
0, x < 1;

y sean Xn := (1+ Xn )n , n = 1, 2, . . . Dé un cálculo aproximado para P (X10000 > 10).


Sugerencia: Use el hecho de que (1 + nx )n → ex , x ∈ R, cuando n → ∞ para
demostrar que Xn → eX con probabilidad 1.
Resp.: ≈ 1/ ln(10) ≈ 0.43429.

115
6.4. Ejercicios

6.6 (Ruleta americana) La ruleta americana está dividida en 38 sectores iguales de


los cuales 18 son rojos, 18 negros y 2 verdes. En un juego, la ruleta se empuja y ello
la hace girar muchas veces; a su vez una bola pequeña se mueve sobre la ruleta y
ésta cae sobre algún sector, cuando la ruleta se detiene. Dicha bola tiene la misma
probabilidad (1/38) de caer en cada sector. El hecho de apostar x > 0 dólares por
“rojo” significa que el jugador gana x dólares si “sale” rojo y pierde x dólares en
caso contrario.

Una persona intenta “ganar” en la ruleta americana aplicando la siguiente estra-


tegia: la persona primero observa, sin apostar, y cuando nota que han ocurrido 6
apariciones seguidas de sectores negros, apuesta por “rojo” en el próximo juego. La
persona considera que debido a la LFGN esta estrategia aumentará la probabilidad
de que salga un sector rojo, en comparación con la probabilidad 18/38. Explicar
por qué la argumentación de dicha persona es falsa. (véase también el siguiente
ejercicio.)

Nota 6.6 Es interesante notar que el famoso novelista E. A. Poe en su novela “‘El
misterio de Marie Rogêt” haya presentado argumentos falsos sobre “la dependencia
del pasado” al igual que la persona del ejercicio anterior (aunque en diferentes
circunstancias).

Nota 6.7 Para las v.a. X1 , X2 , . . . i.i.d del Ejemplo 6.1 (los lanzamientos sucesivos
X 1 + X2 + · · · + Xn #de salidas de “águila” 1
de una moneda), ≡ → con probabi-
n n 2
lidad 1 debido a (6.1.7). Al razonar esto un poco, se observa que la diferencia entre
el número de águilas y el número de soles que resultan es relativamente menor
comparada con el número de lanzamientos n. Esto no prohibe que haya grandes
diferencias entre tales cantidades y de hecho, por el contrario, existe la probabilidad
positiva de series de salidas de águila de cualquier longitud.

6.7 Con los datos del Ejemplo 6.1, calcular P (X1001 = 1 |X1 = 0, X2 = 0, . . . , X1000 =
0).

6.8 Sean X1 , X2 , . . . , Xn v.a. i.i.d. (observaciones de algún experimento estadı́stico) con


la distribución U (−c, c), donde el parámetro c es desconocido. Encontrar la estima-
ción estadı́stica de c, es decir, hallar funciones gn tales que gn (X1 , X2 , . . . , Xn ) → c,
cuando n → ∞, con probabilidad 1.

6.9 Para cada n dado, sean los valores X1 , X2 , . . . Xn de v.a. i.i.d. con la densidad de
Cauchy como en (6.1.11). Para cada x ∈ R fija, se define L(x) := {#deXi : tal

116
CAPÍTULO 6. LEY FUERTE DE LOS GRANDES NÚMEROS E
INVERSIONES ÓPTIMAS

que Xi 6 x, i = 1, 2 . . . , n}. Para números pares n = 2k, k = 1, 2, . . . se define la


mediana muestral de la forma: m b n := mı́n{x ∈ R : tal que L(x) = n2 }. Proponer
argumentos (no necesariamente formales) que muestren que cuando n → ∞, m bn → 0
con probabilidad 1. (Comparar con el Ejemplo 6.4 y consultar la Figura 6.2).
Sugerencia: Para cualquier ε > 0, P (existe alguna m tal que Xm ∈ (−ε, ε)) =
1 − P (XR1 ∈/ (−ε, ε), X2 ∈/ (−ε, ε), . . . , Xn ∈
/ (−ε, / (−ε, ε))]n =
ε)) = 1 − [P (X1 ∈
ε dx n
R ε dx
1 − [1 − −ε π (1+x)2] = 1 − γεn , donde γε = 1 − −ε π (1+x) 2 < 1.

6.10 (Método de Monte Carlo.) Sean X1 , X2 , . . . v.a. i.i.d. con la distribución U (0, 1)
y g : [0, 1] → R una función integrable.

(a) Demostrar que con probabilidad 1,


1
g(X1 ) + g(X2 ) + · · · + g(Xn )
Z
→ g(x) dx, cuando n → ∞. (6.4.42)
n 0

(b) Considere la función g(x) = sen(5000 π x) , x ∈ [0, 1] con
Z 1
2
g(x) dx = ≈ 0.6366197724. (6.4.43)
0 π
R1
Aproximar para n = 20, 21, 5000, 9999 y 10000 la integral 0 g(x) dx de (6.4.43),
de dos maneras. Por un lado utilizando (6.4.42) y por otro lado usando la apro-
Z 1 X n
ximación por sumas de Riemann: g(x)dx = g(xi ) ∆xi , ∆xi = 1/n.
0 i=1

Sugerencia: Para el inciso (b) usar una computadora y en particular hacer una
simulación de las v.a. con la distribución U (0, 1).

n Por sumas de Riemann Por Monte Carlo (6.4.42)


20 0.0000000166 0.6169580261
21 0.6354320279 0.6260877488
Resp.: (b)
5000 0.0000035789 0.6411273218
9999 0.6366196870 0.6345035685
10000 0.5000042056 0.6353294368.

Nota 6.8 Cabe mencionar que cuando se tiene una función integrable g la cual
es muy oscilante (o “muy irregular”) el método del cálculo de integrales mediante
sumas de Riemann es extremadamente sensible a la elección del paso ∆x = 1/n,

117
6.4. Ejercicios

(como se puede notar en la tabla de arriba en las aproximaciones con n = 20 y n = 21


o con n = 9999 y n = 10000). Por otro lado como, en particular, se observa en la
tabla de arriba el método estocástico de Monte Carlo no es sensible (es “robusto”)
a las irregularidades de funciones integrables.

6.11 Para el Ejemplo 6.6, usando C0 = 100 y Xk , k = 1, 2, 3, . . . como en la Nota 6.4,


hacer las simulaciones (en computadora) de varias trayectorias del capital Cn con
n = 1, 2, . . . , 10000. A partir de los resultados obtenidos de la simulación (después
de suficientes repeticiones) utilizando promedios muestrales y la LFGN estimar el
tiempo promedio hasta la ocurrencia de la ruina del jugador.

X ξk (X)
6.12 Sea X ∼ U (0, 1) y X = k
su desarrollo decimal (el cual para valores
k=1
10
racionales de X se usa la versión del desarrollo con sólo un número finito del dı́gito
“9”). Demostrar que para cada i ∈ {0, 1, 2, . . . , 9},
# de veces que aparece el dı́gito i entre ξ1 (X), ξ2 (X), . . . , ξn (X) 1
→ ,
n 10
cuando n → ∞, con probabilidad 1.

Sugerencia: Aunque es largo, no es difı́cil demostrar que ξ1 (X), ξ2 (X), . . . son v.a.
i.i.d. con la distribución uniforme discreta en {0, 1, 2, . . . , 9}. Aplique la LFGN.

6.13 Sean X1 , X2 , . . . v.a. i.i.d. con la siguiente densidad:

 1 , 1 6 x 6 2,

fX1 (x) = ln(2)x


0, x∈ / [1, 2],

y Yn := X1 · X2 · · · Xn , n = 1, 2, . . .

(a) Demostrar que existe una constante c > 0 tal que (Yn )5/n → c cuando n → ∞
con probabilidad 1.
(b) Encontrar el valor de c.

Resp.: (b) c = 25/2 ≈ 5.65685.

6.14 Demostar que en el modelo de inversión de la Sección 6.3, bajo las condiciones
(6.3.21) y (6.3.31) se cumple que:

(a) E ln[qα + (1 − q)X1 ] < ∞, q ∈ [0, 1];

118
CAPÍTULO 6. LEY FUERTE DE LOS GRANDES NÚMEROS E
INVERSIONES ÓPTIMAS

(b) la función
ϕ(q) := E ln[qα + (1 − q)X1 ], (6.4.44)
q ∈ [0, 1] tiene la segunda derivada estrictamente negativa.

Sugerencias:

(a) Verificar (por ejemplo, trazando las gráficas) que



x, x > 1,


ln(x) 6 (6.4.45)
 1 , 0 < x < 1.

x

(b) Usar (6.4.45) y (6.3.31) y verificar que la esperanza del valor absoluto de la
d2 00
segunda derivada dq 2 {ln[qα + (1 − q)X1 ]} es finita. Eso permite hallar ϕ (q)

derivando bajo el signo de la esperanza en (6.4.44).

6.15 Para el modelo de inversión de la Sección 6.3 con X1 dado en (6.3.24) y α = 1.05,
demostrar que el máximo en (6.3.30) se alcanza con q∗ ≈ 0.15385.
Sugerencia: Use (3.1.8), calcule ϕ(q) en (6.4.44) y después su derivada.

6.16 Sean η1 , η2 , . . . v.a. i.i.d. con la distribución N orm(0, 1). Para los vectores aleatorios
X n = (η1 , η2 , . . . , ηn ) demuestre que con probabilidad 1,

|X n |
√ → 1, cuando n → ∞, (6.4.46)
n
p
donde |X n | := η12 + η22 + · · · + ηn2 .

Nota 6.9 En (6.4.46) se observa que para grandes


√ n los valores del vector Xn están
concentrados en un anillo estrecho de radio n. Al parecer, esto contradice a la
intuición porque la densidad conjunta de (η1 , η2 , . . . , ηn ), por independencia (véase
(1.2.13) y (2.1.7)) es,

1 x2 +x2 +···+x2
n
− 1 22
f(η1 ,η2 ,...,ηn ) (x1 , x2 , . . . , xn ) = n/2
e ,
(2π)

y ésta alcanza su máximo en el origen (0, 0, . . . , 0).

119
6.4. Ejercicios

120
Capı́tulo 7

Convergencia débil de variables


aleatorias y métricas probabilı́sticas

7.1. Convergencia débil


La convergencia débil es una noción muy importante en la teorı́a de probabilidad mo-
derna. Este tipo de convergencia difiere de la convergencia con probabilidad 1 debido a que
en la primera, en lugar de la convergencia de los valores de v.a., se da la aproximación a las
distribuciones (“probabilidades de los valores”) de las v.a. Para resolver varios problemas
(teóricos y prácticos) relacionados con el comportamiento asintótico de las distribuciones
de v.a. y vectores aleatorios la convergencia débil es una herramienta fundamental.

Por otro lado, la convergencia débil puede expresarse como la convergencia con respecto
a algunas métricas en el espacio de funciones de distribución. La relativamente joven teorı́a
de métricas probabilı́sticas ha probado su utilidad y eficiencia en la teorı́a de probabilidad,
en la teorı́a de procesos estocásticos y en sus aplicaciones. Hasta donde conocemos, no
existen muchos libros de texto sobre probabilidad que contengan la introducción al enfoque
métrico.

Definición 7.1 Se dice que la sucesión de v.a. X1 , X2 , . . . , Xn , . . . converge débilmente


a la v.a. X, si
FXn (x) → FX (x) (7.1.1)
cuando n → ∞, en cada punto x donde la f.d. FX es continua. En este caso se denota:

Xn ⇒ X. (7.1.2)

121
7.1. Convergencia débil

Nota 7.1 (a) Para cada x ∈ R fijo, los valores de las f.d. FX1 (x), FX2 (x), . . . conforman
una sucesión numérica. Entonces, (7.1.1) se entiende como la convergencia (aproxi-
mación) de esta sucesión al valor FX (x) de la f.d. FX de la v.a. X.

(b) Para cada a, b ∈ R con a < b donde la f.d. FX es continua, de (7.1.1) se sigue
(consulte (1.2.10)) que

P (a < Xn 6 b) = FXn (b) − FXn (a) → FX (b) − FX (a) = P (a < X 6 b). (7.1.3)

Ahora utilizando (7.1.3) es posible demostrar que:

Si Xn ⇒ X, entonces P (Xn ∈ B) → P (X ∈ B). (7.1.4)

para una clase muy grande de conjuntos


 B (subconjuntos en R) tales que
P X pertenezca a la frontera de B = 0.
(c) Según la Definición 7.1 la convergencia débil de v.a es, en efecto, la convergencia de
sus f.d. Entonces, a veces, en lugar de Xn ⇒ X se escribe FXn ⇒ FX . También la
convergencia débil, con frecuencia, es referida como convergencia en distribución.

(d) La palabra “débil” no representa algo desfavorable. El origen de este término se


explica con la siguiente proposición.

Proposición 7.1 Si Xn → X con probabilidad 1, entonces Xn ⇒ X.

(El Ejercicio 7.1 muestra que la afirmación inversa no es cierta.)

La demostración de la Proposición 7.1 se basa en el hecho de que si los valores de Xn


son cercanos a los valores de X, entonces, para cada x ∈ R fija, los valores de FXn (x) =
P (Xn 6 x), con el crecimiento de n, se aproximan a FX (x) = P (X 6 x).

Ejemplo 7.1 Para una sucesión numérica convergente: zn → z, consideramos las v.a.
Z1 , Z2 , . . . ; Z tales que Zn toma el único valor zn (para cada n = 1, 2, . . . ) (i.e. Zn es v.a.
degenerada con valor zn , véase Nota 3.2 (c)) y Z toma el único valor z. Mostremos que
Zn ⇒ Z.

Supongamos, por ejemplo, que z < zn , para toda n = 1, 2, . . . Entonces las f.d. respec-
tivas son:

122
CAPÍTULO 7. CONVERGENCIA DÉBIL

( (
0,
 x < zn , 0, x < z,
FZn (x) = P Zn (x) 6 x = y FZ (x) =
1, x > zn ; 1, x > z.

y
FZ (x)
FZn(x)
1

x
x
0 z zn

Figura 7.1: Aproximación de la f.d. de v.a. degeneradas.

Puesto que zn → z, para cada x > z, entonces FZn (x) = 1 = FZ (x) para toda n sufi-
cientemente grande. También FZn (x) = FZ (x) = 0 para todas las x < z y n = 1, 2, . . . Sin
embargo, la convergencia no tiene lugar en el punto x = z, ya que FZ (z) = 1, y FZn (z) = 0
para toda n. Nótamos que en el punto z la f.d. FZ no es continua (véase Figura 7.1).

Nota 7.2 Lo que se ha observado en el ejemplo anterior, aclara el porqué en la Definición


7.1 se excluyen los puntos de discontinuidad de la f.d. FX .

Ejemplo 7.2 (Algunas razones que explican el uso de la distribución de Weibull en la


teorı́a de confiabilidad en ingenierı́a.)

Supongamos que un dispositivo (por ejemplo un televisor) consta de una cantidad n


de componentes. Sea la v.a. Xk no negativa que representa la duración (hasta la prime-
ra falla) del k-ésimo componente (k = 1, 2, . . . , n). Supongamos, también, que la falla de
cualquier componente provoca la falla del dispositivo. Entonces, la duración del dispositivo
se da por la v.a. Tn = mı́n(X1 , X2 , . . . , Xn ).

Admitimos que las v.a. X1 , X2 , . . . , Xn son independientes, con las f.d. FXk , k =
1, 2, . . . , n, tales que existen los números λ > 0, α > 0 para los cuales:
FXk (x) = λxα − ϕk (xα ), x > 0, k = 1, 2, . . . , n, (7.1.5)

123
7.1. Convergencia débil

donde ϕk (y), con y > 0, son funciones cualesquiera tales que


ϕk (y)
→ 0 cuando y → 0+ . (7.1.6)
y

(Por ejemplo, ϕk (y) = y, ϕk (y) = ln2 (y), etc.)

+
En el caso de (7.1.6) se escribe ϕk = o(y) cuando y →  0 y se lee: ϕk (y) es “o”-
pequeña de la función f (y) = y. En general, ϕ(x) = o g(x) cuando x → b (se lee “ϕ(x)
es o pequeña de g(x)”) expresa la comparación infinitesimal entre las funciones (consulte,
por ejemplo, Kudrı́avtsev (1988), comparación de funciones) y significa que ϕ(x) g(x)
→ 0,
cuando x → b.

Ahora, se mostrará que Yn = n1/α Tn ⇒ T , donde la v.a. a.c. T tiene la distribución


de Weibull: ( α
1 − e−λx , x > 0,
FT (x) = (7.1.7)
0, x 6 0.

Para cada 0 < x, se tiene:


 x x x 
1 − FYn (x) = P (Yn > x) = P X1 > , X2 > 1/α , . . . , Xn > 1/α
n1/α n n
= (por la independencia entre X1 , X2 , . . . , Xn )
 x   x   x 
= P X1 > 1/α P X2 > 1/α . . . P Xn > 1/α = (por (7.1.5)) =
n  α n n  αnn
α α

λx x λx x
= 1− − ϕk = 1− −o =
n n n n
n
λxα

α
≈ (por (7.1.6), para n grandes) ≈ 1 − → e−λx =
n
= (por (7.1.7)) = 1 − FT (x).

O bien, FYn (x) → FT (x) que significa la convergencia débil.

La siguiente propiedad es importante debido a que relaciona la convergencia débil con la


operación de la suma de v.a. independientes.

Proposición 7.2 Supongamos que para cada n = 1, 2, . . . , las v.a. Xn y Yn son indepen-
dientes, y Xn ⇒ X, Yn ⇒ Y . Entonces, Xn + Yn ⇒ X + Y .

124
CAPÍTULO 7. CONVERGENCIA DÉBIL

Nota 7.3 La demostración se pide en el Ejercicio 7.3. El Ejercicio 7.4 muestra que sin la
condición de independencia, en general el hecho de que Xn ⇒ X y Yn ⇒ Y no implica
que Xn + Yn ⇒ X + Y .

7.2. Espacios métricos


A pesar de lo abstracto de este tı́tulo, que en ocasiones puede resultar pavoroso, la
noción de espacio métrico no es tan difı́cil.

Definición 7.2 Un par (X , d) se llama espacio métrico si:

(a) X es un conjunto; y

(b) d : X × X → [0, ∞] es una función denominada métrica que asigna a cada par de
puntos x, y ∈ X , la distancia d(x, y) entre x y y.

La métrica d satisface los siguientes axiomas:

1. d(x, y) = 0 sys x = y;

2. d(x, y) = d(y, x);

3. d(x, y) 6 d(x, z) + d(z, y) (la desigualdad del triángulo);

para cualesquiera x, y, z ∈ X .

d(x,y) y

Figura 7.2: Espacio métrico.

Es importante subrayar que la distancia se expresa con números no negativos (inclu-


yendo en algunas ocasiones el valor infinito ∞).

125
7.2. Espacios métricos

Definición 7.3 Sean (X , d) un espacio métrico, x ∈ X y x1 , x2 , . . . , xn , · · · ∈ X . Se dice


que la sucesión {xn , n = 1, 2, . . . } converge a x respecto a la métrica d, si

d xn , x → 0, cuando n → ∞. (7.2.8)

d
La convergencia en (7.2.8), frecuentemente se denota como xn −→ x.

Ejemplo 7.3 (a) Sean X = R y d(x, y) := |x − y|, con x, y ∈ R la métrica habitual en


R:

d(x,y) = |x-y| = la longitud del segmento xy


!
0 x y

d
Entonces, la convergencia xn −→ x significa que conforme
n aumenta, xn se apro-
xima al punto x (en el sentido de la distancia x − xn , por ejemplo, véase Figura
7.3).

x7 x6 !
0 x x5 x4 x3 x2 x1

Figura 7.3: Una sucesión numérica convergente.

sen(n) d
Por ejemplo, xn = −→ 0 (ya que | sen (n)| 6 1).
n
(b) Sea X = R con la métrica discreta:
(
0, si x = y,
d∗ (x, y) =
1, si x 6= y.

∗ d
Es claro que xn −→ x sys xn = x para toda n suficientemente grande.

126
CAPÍTULO 7. CONVERGENCIA DÉBIL

Ejemplo 7.4 Sea X = C[0, 1] el conjunto que consta de todas las funciones ϕ = ϕ(t), t ∈
[0, 1] continuas en el intervalo [0, 1]. Es decir, cada elemento x (“punto”) del conjunto
X = C[0, 1] es una función x = ϕ(t), t ∈ [0, 1] continua en [0, 1] .

e ∈ C[0, 1] definimos la distancia ρ(ϕ, ϕ)
Si para cualesquiera ϕ, ϕ e := máx ϕ(t)− ϕ(t)
e ,
t∈[0,1]
entonces C[0, 1] es un espacio métrico. Dicha métrica ϕ es conocida como la métrica
uniforme y es la máxima diferencia entre los valores de ϕ(t) y ϕ(t),
e con t ∈ [0, 1] (véase
Figura 7.4)

 ∼)
r(j, j
j(t)


j(t)
t
0 1

Figura 7.4: Métrica uniforme.


ρ
La convergencia ϕn → ϕ, significa que máxt∈[0,1] |ϕn (t) − ϕ(t)| → 0, cuando n → ∞,
o bien, los valores de ϕn aproximan a los valores de ϕ uniformemente sobre t ∈ [0, 1].

sen (t)
Por ejemplo, si ϕn (t) = t2 + y ϕ(t) = t2 , entonces
n
sen (t) 1
ρ(ϕn , ϕ) = máx t2 + − t2 = máx sen (t) → 0, cuando n → ∞. Por lo cual
t∈[0,1] n n t∈[0,1]
ρ
ϕn → ϕ.

Nota 7.4 (Sobre máximos y supremos.) Las nociones de máximo y supremo son
conceptos muy cercanos. Por ejemplo, si se considera la función g(x) = 1 − e−x para x > 0
(Figura 7.5):
Es fácil observar que máx g(x) = g(1) = 1 − e−1 . También es claro que los valores de g(x)
x∈[0,1]
se aproximan a 1 cuando x → ∞ (ya que e−x = 1/ex → 0). Sin embargo, no se puede
decir que máx g(x) = 1. La razón de ello es que no existe un punto x∗ tal que g(x∗ ) = 1
x∈[0,∞)
(siempre g(x) < 1 pues e−x > 0). Lo que se debe escribir en tal caso es sup g(x) = 1.
x∈[0,∞)

127
7.2. Espacios métricos

1
-1 g(x)
1- e

x
0 1

Figura 7.5: Ilustración de la diferencia entre máximo y supremo.

Consideremos por ejemplo, el conjunto que consta de todas las funciones continuas en [0, 1]
tales que 0 6 ϕ(t) 6 1, t ∈Z [0, 1], i.e. Φ = {ϕ : [0, 1] → [0, 1] : ϕ es continua}. Si ϕ ∈ Φ,
1
entonces se define G(ϕ) := [1−ϕ(t)]dt. Es evidente que el valor máximo de G se alcanza
0 Z 1
para ϕ ≡ 0, es por esto que se puede escribir: sup G(ϕ) = máx G(ϕ) = G(0) = 1 dt = 1.
ϕ∈Φ ϕ∈Φ 0


Ahora, sea Φ1 = ϕn (t) = tn , t ∈ [0, 1], n = 1, 2, . . . .

y
1
Para grandes n, la gráfica de ϕn (t) con t ∈ [0, 1) está muy
n(t) cercana al eje 0t y de hecho tn → 0 cuando n → ∞ para cada
0 6 t < 1.
t
0 1

Z 1
1
Entonces, se tiene que lı́m G(ϕn ) = lı́m [1 − tn ]dt = 1 − lı́m
= 1. Por lo
n→∞ n→∞ 0 n→∞ n + 1
tanto, sup G(ϕ) = 1, pero no existe un ϕ ∈ Φ1 tal que G(ϕ) = 1. Por esto la expresión
ϕ∈Φ1
máx G(ϕ) = 1 es incorrecta (a pesar de que sup G(ϕ) = 1).
ϕ∈Φ1 ϕ∈Φ1

128
CAPÍTULO 7. CONVERGENCIA DÉBIL

7.3. Métricas probabilı́sticas y convergencia débil


Definición 7.4 Sea F = {FX } el conjunto de las funciones distribución (f.d.) FX de
todas las v.a. X con valores en R. Cualquier métrica d en F (i.e. la distancia entre las
f.d.) se llama métrica probabilı́stica.

Ejemplo 7.5 (Métrica uniforme o de Kolmogórov1 .)


Para cualesquiera dos v.a. X y Y con sus f.d. FX y FY se define la distancia ρ
(métrica) uniforme (vea Figura 7.6):

ρ(FX , FY ) := sup FX (x) − FY (x) . (7.3.9)
x∈R

1
y

FY (x)
r(FX , FY )
FX (x) x
0

Figura 7.6: La distancia uniforme entre las f.d.

ρ
Por (7.3.9) la convergencia FXn −→ FX significa que los valores de FXn (x) se aproxi-
man uniformemente con x ∈ R a los valores de la f.d. FX .

Nota 7.5 (a) En la teorı́a de métricas probabilı́sticas2 , las métricas que satisfacen la
Definición 7.4 se llaman distancias (métricas) simples, lo que significa que esta
distancia está completamente determinada por las f.d. FX y FY de X y Y y no
depende de la f.d. conjunta FX,Y .

1
Nombre del matemático ruso Andréi Nikoláyevich Kolmogórov (1903-1987), quien estructuró el siste-
ma axiomático de la teorı́a de probabilidad, obtuvo muchos resultados fundamentales para dicho campo y
para procesos estocásticos modernos; además tuvo aportaciones en topologı́a, lógica (teorı́a de conjuntos),
entre otras (véase Gordienko (2011)).
2
Consultar por ejemplo Rachev (1991) y Zolotarev (1997).

129
7.3. Métricas probabilı́sticas y convergencia débil

En general, los valores de las métricas probabilı́sticas dependen de la distribución con-


junta de las v.a. Por ejemplo, si X, Y ∼ U (0, 1), entonces d(X, Y ) := E|X − Y | > 0
si X, Y ∼ U (0, 1) son independientes y d(X, Y ) = 0, si X = Y .

(b) En este libro se consideran solamente métricas probabilı́sticas simples (omitiendo la


palabra “simple”).

Por otro lado, frecuentemente suele ser más práctico escribir d(X, Y ) en lugar de
d(FX , FY ) (interpretando la distancia entre las v.a. X y Y como la distancia corres-
pondiente d(FX , FY ) entre sus f.d. FX y FY ). Establecemos, entonces, el siguiente
convenio. Si d es una métrica probabilı́stica (simple), entonces

d(X, Y ) := d(FX , FY ).

También escribiremos:
d d
Xn −→ X, o bien d(Xn , X) → 0 en lugar de: FXn −→ FX
o en lugar de d(FXn , FX ) → 0 cuando n → ∞.

De (7.3.9) y por la Definición 7.1 se sigue inmediatamente la siguiente afirmación.

ρ
Proposición 7.3 Xn −→ X implica Xn ⇒ X.

Del Ejemplo 7.1 vemos que la afirmación inversa no siempre es correcta, sin embargo,
no es tan difı́cil demostrar lo siguiente:

Proposición 7.4 Si FX es continua, entonces:

ρ
si Xn ⇒ X entonces Xn −→ X. (7.3.10)

Notemos que (7.3.10) expresa el hecho de que la métrica uniforme en (7.3.9) metriza
la convergencia débil en la clase de funciones distribuciones continuas.
Una pregunta natural es: ¿la convergencia de cuál métrica es equivalente a la convergen-
cia débil? La respuesta se da con la siguiente afirmación que aceptamos sin demostración.

130
CAPÍTULO 7. CONVERGENCIA DÉBIL

Teorema 7.1
0 d
Xn ⇒ X si y sólo si Xn −→ X, (7.3.11)
donde
d0 (X, Y ) ≡ d(FX , FY ) := sup Eϕ(X) − Eϕ(Y ) . (7.3.12)
ϕ∈L

y L es la clase de todas las funciones ϕ : R → R acotadas por 1 (i.e. |ϕ(x)| 6 1, x ∈ R) y


que satisfacen la condición de Lipschitz3 : |ϕ(x) − ϕ(y)| 6 |x − y|; x, y ∈ R. Formalmente

L := ϕ : R → R t.q. |ϕ(x)| 6 1 y |ϕ(x) − ϕ(y)| 6 |x − y|, x, y ∈ R . (7.3.13)

La métrica d0 en (7.3.12) se denomina la métrica de Fortet-Mourier.

Nota 7.6 Las esperanzas Eϕ(X) y Eϕ(Y ) en (7.3.12) se determinan por FX y FY res-
pectivamente (véanse (3.1.8) y (3.1.9)), por lo cual d0 (X, Y ) = d0 (FX , FY ). Se aplica la
misma observación a otras métricas de la forma d(X, Y ) = sup |Eϕ(X) − Eϕ(Y )| (para
ϕ∈Φ
alguna clase de funciones Φ).

Ejemplo 7.6 Sean X ≡ 0 y Xn ∼ Exp(λ


n = n), n = 1, 2, . . . Para cualquier ϕ ∈ L tene-
mos en (7.3.12) que Eϕ(X) − Eϕ(Xn ) 6 E|ϕ(0) − ϕ(Xn )| 6 (por (7.3.13)) 6 E|Xn | =
1 1 1
EXn = (por (3.2.14)) = = . Por lo tanto, en (7.3.12), d0 (X, Xn ) 6 → 0 cuando
λn n n
n → ∞, y por el Teorema 7.1 Xn ⇒ 0.

Nota 7.7 Las métricas uniformes ρ, de Fortet-Mourier, y ζ2 , ζ3 de Zolotarev, que se intro-


ducirán más adelante, están relacionadas con la convergencia débil. Es por esto razonable
caracterizarlas como débiles.

Un ejemplo de métrica fuerte es la distancia de variación total:



V(X, Y ) ≡ V(FX , FY ) := sup Eϕ(X) − Eϕ(Y ) , (7.3.14)
ϕ∈B

3

En general, la condición de Lipschitz es f (x)−f (y) 6 K x−y , donde K es conocida como constante
de Lipschitz.

131
7.3. Métricas probabilı́sticas y convergencia débil

donde B = {ϕ : R → R t.q. |ϕ(x)| 6 1, x ∈ R} ≡ {todas las funciones integrables con


el valor absoluto acotado por 1 }.

Como se puede observar de (7.3.12) y (7.3.13), L ⊂ B, entonces,



sup Eϕ(X) − Eϕ(Y ) 6 sup Eϕ(X) − Eϕ(Y ) ,
ϕ∈L ϕ∈B

(pues el “máximo” sobre un conjunto más “amplio”, debe ser más grande). Entonces,
d0 (X, Y ) 6 V(X, Y ) y V(Xn , X) → ∞ implica que d0 (Xn , X) → 0. Es decir, la conver-
gencia en V conlleva a la convergencia con respecto a la métrica d0 , o bien, la convergencia
débil. La afirmación reciproca frecuentemente no es cierta, como lo muestra el Ejercicio
7.20.

A continuación, se introducirán dos métricas de Zolotarev 4 : ζ2 y ζ3 muy usadas en


la teorı́a de probabilidad contemporánea. Su importancia se debe a las propiedades dadas
en la Proposición 7.6 y consecuentemente, por su efectividad en el estudio de los teoremas
centrales del lı́mite (véase Capı́tulo 8).

Definición 7.5 Las métricas de Zolotarev ζ2 , ζ3 (de orden 2 y 3, respectivamente) se


definen como sigue:

ζ2 (X, Y ) := sup Eϕ(X) − Eϕ(Y ) , (7.3.15)
ϕ∈D2


ζ3 (X, Y ) := sup Eϕ(X) − Eϕ(Y ) , (7.3.16)
ϕ∈D3

donde:
D2 := ϕ : R → R t.q. |ϕ00 (x)| 6 1, x ∈ R ,

(7.3.17)

D3 := ϕ : R → R t.q. |ϕ(3) (x)| 6 1, x ∈ R .



(7.3.18)

Las métricas introducidas anteriormente ρ, d0 y V son acotadas, debido a que ρ 6


1, d0 6 2 y V 6 2. Sin embargo, las métricas ζ2 y ζ3 podrı́an tomar el valor infinito (véase
más adelante la Nota 7.8).

4
Vladı́mir Mikhailovich Zolotarev (1931- ) matemático ruso, cuyas contribuciones se encuentran en
la teorı́a de probabilidad, con especialidad en distribuciones estables, entre otras; ganador del premio
Markov, y uno de los fundadores de la teorı́a de métricas probabilı́sticas.

132
CAPÍTULO 7. CONVERGENCIA DÉBIL

Proposición 7.5

(a) Si EX = EY, EX 2 < ∞ y EY 2 < ∞, (7.3.19)

entonces ζ2 (X, Y ) < ∞.

(b) Si EX = EY, EX 2 = EY 2 , E|X|3 y E|Y |3 < ∞, (7.3.20)

entonces ζ3 (X, Y ) < ∞.

La demostración se sigue del desarrollo de Taylor para ϕ. Por ejemplo en (b):

ϕ00 (0) 2 ϕ(3) (τX ) 3


ϕ(X) = ϕ(0) + ϕ0 (0)X + X + X ,
2 6
ϕ00 (0) 2 ϕ(3) (τY ) 3
ϕ(Y ) = ϕ(0) + ϕ0 (0)Y + Y + Y .
2 6
Al sustituir esto en (7.3.16) y aplicando (7.3.20) se obtiene:

ϕ(3) (τX ) 3 (3)



ϕ (τ Y ) 3

ζ3 (X, Y ) 6 sup E X −E Y . (7.3.21)
ϕ∈D3 6 6

Pero |ϕ(3) | 6 1 y E|X|3 , E|Y |3 < ∞.

Nota 7.8 (a) Si EX 6= EY , entonces ζ2 (X, Y ) = ∞.


(b) Si EX 6= EY o EX 2 6= EY 2 , entonces ζ3 (X, Y ) = ∞ (consulte el Ejercicio 7.15).
(c) Se conocen las siguientes cotas superiores para las métricas de Zolotarev:
Z ∞
ζ2 (X, Y ) 6 |x| FX (x) − FY (x) dx ,
−∞

siempre que EX = EY ;
Z ∞
1
ζ3 (X, Y ) 6 x2 FX (x) − FY (x) dx,
2 −∞

siempre que EX = EY y EX 2 = EY 2 .

133
7.3. Métricas probabilı́sticas y convergencia débil

En Zolotarev(1997) también se demuestra la representación integral de la métrica ζ2 ,


Z ∞ Z ∞ Z ∞

ζ2 (X, Y ) =
[1 − F X (t)]dt − [1 − F Y (t)]dt dx.
(7.3.22)
−∞ x x

Ejemplo 7.7 En la teorı́a de confiabilidad, para modelar el tiempo de funcionamiento de


algún aparato (eléctrico, por ejemplo), con frecuencia se utilizan v.a. no negativas T
que satisfacen una condición de “envejecimiento” (CE), descrita más adelante.

Supongamos que ET 2 < ∞. Denotando por “a” la esperanza de T , se tiene por (3.3.27)
que Z ∞
a = ET = [1 − FT (t)]dt. (7.3.23)
0
Consideremos la v.a. X ∼ Exp(λ) con
1
EX = = a = ET . (7.3.24)
λ
La condición CE expresa que para cada x > 0,
Z ∞ Z ∞
[1 − FT (t)]dt 6 [1 − FX (t)]dt = (por (1.2.12) y (7.3.24)) = a e−x/a . (7.3.25)
x x

Observemos que la desigualdad (7.3.25) expresa el “envejecimiento” de un dispositivo


con tiempo de vida T de tal manera que (véase (7.3.24)) el “promedio restado” de T en
(7.3.25) es menor que el “promedio restado” de la v.a. exponencial con esperanza igual a
ET . (Recordemos que X no afecta al “envejecimiento” debido a la igualdad que encon-
tramos en el Ejercicio 2.14.)

Frecuentemente, en las aplicaciones en ingenierı́a es importante saber qué tan cercana


es la f.d. FT a la f.d. exponencial FX . Para dar una estimación, calcularemos la distancia
de Zolotarev ζ2 (X, T ) (que
Z es finita por la
Z Proposición 7.5). De (7.3.22) y (7.3.25) se
∞ Z ∞ ∞
obtiene que ζ2 (X, T ) = a e−x/a dx − [1 − FT (t)]dt dx = (integrando por
Z ∞ 0 0 x
2
x 1 − FT (x) dx = (por el Ejercicio 7.18) = a2 − 12 E(T 2 ) = (por
 
partes) = a −
0
(3.2.14) y (3.2.10)) = 21 V ar(X) − V ar(T ) , o bien
 

1
 
ζ2 (X, T ) = 2
V ar(X) − V ar(T ) . (7.3.26)

134
CAPÍTULO 7. CONVERGENCIA DÉBIL

El hermoso resultado en (7.3.26) indica que bajo las condiciones (7.3.23) y (7.3.25),
para estimar la cercanı́a de la FT a la d.f. exponencial FX es suficiente calcular (o acotar)
la diferencia entre las varianzas.

La utilidad de la métrica ζ3 en el estudio de los teoremas centrales del lı́mite en la


teorı́a de probabilidad, se explica con las siguientes propiedades de ζ3 .

Proposición 7.6 Para cualquier α > 0 se tiene:

(a) ζ3 (αX, αY ) 6 α3 ζ3 (X, Y ). (7.3.27)

(b) ζ3 (X + Y, Z + Y ) 6 ζ3 (X, Z), (7.3.28)


para cualesquiera v.a. X, Y, Z tales que Z no depende de X ni de Y .

Para demostrar (a) es suficiente observar que si ϕ ∈ D3 (véase (7.3.18)), entonces la


3
función ψ(x) := α13 ϕ(αx) ∈ D3 , ya que ψ (3) (x) = αα3 ϕ(3) (αx) = ϕ(3) (αx) es acotada por 1.
Entonces,
h i
3
1 i h1
sup Eϕ(αX) − Eϕ(αY ) = α sup E 3 ϕ(αX) − E 3 ϕ(αY ) =
ϕ∈D3 ϕ∈D3 α α
= α3 sup |Eψ(X) − Eψ(Y )| 6 α3 ζ3 (X, Y ).
ψ∈D3

En el caso de (b), se fija un arbitrario ϕ ∈ D3 . Luego por la Nota 4.2(b) y (4.1.9)


(suponiendo, por ejemplo, que Y es Za.c.) se tiene
∞  

Eϕ(X + Y ) − Eϕ(Z + Y ) = E ϕ(X + Y ) − ϕ(Z + Y ) | Y = y f Y (y)dy =

−∞ Z ∞
 
(por la independencia de Y con X y Z) = Eϕ(X + y) − Eϕ(Z + y) fY (y)dy 6
Z ∞ −∞

Eϕ(X + y) − Eϕ(Z + y) fY (y)dy.
−∞

Pero para cada yZ∈ R fijo, ψ(x) := ϕ(x+y) ∈ D3 . Entonces Eϕ(X +y)−Eϕ(Z +y) 6

ζ3 (X, Z) y además fY (y)dy = 1.
−∞

Al combinar (7.3.27) y (7.3.28) en la Proposición 7.6 y aplicando inducción se llega al


siguiente resultado.

135
7.3. Métricas probabilı́sticas y convergencia débil

Teorema 7.2 Sean n > 1, α > 0, y X1 , X2 , . . . , Xn ; Y1 , Y2 , . . . , Yn v.a. independientes.


Entonces !
Xn n
X n
X
3
ζ3 α Xk , α Yk 6 α ζ3 (Xk , Yk ). (7.3.29)
k=1 k=1 k=1

ζ3
Teorema 7.3 (Consulte Zolotarev (1997)) Si Xn → X (i.e. ζ3 (Xn , X) → 0), entonces
Xn ⇒ X. Es decir, la convergencia en la métrica ζ3 implica la convergencia débil

La demostración está basada en los siguientes hechos: primero observemos que FXn (x) =
EI{Xn 6x} , y segundo que la función g(y) := I{y6x} (para x fijo) puede ser aproximada me-
diante funciones ϕ que pertenecen a D3 .

136
CAPÍTULO 7. CONVERGENCIA DÉBIL

7.4. EJERCICIOS
7.1 Una moneda simétrica se lanza 3 veces. Sean X := # de veces que resulta águila y
Y := # de veces que resulta sol. Mostrar que:
(a) P (X = Y ) = 0.
(b) Las v.a. X y Y tienen las mismas distribuciones.
(c) Usando (a) y (b), construir un ejemplo de v.a. X, Xn para n > 1 tales que
Xn ⇒ X pero P (Xn → X) = 0.
Sugerencias: Para (b) argumentar sin usar cálculos y usando la hipótesis de si-
metrı́a de la moneda. Para (c) elegir Xn = Y, n = 1, 2, . . .
7.2 En el Ejemplo 7.2, sean Xk ∼ U (0, 1), k = 1, 2, . . . , n. Mostrar que Yn ⇒ T ∼
Exp(λ = 1).
7.3 Demostrar la Proposición 7.2.
Sugerencia: Sea d0 la métrica definida en (7.3.12) y (7.3.13); y sea ξ una v.a. que
no depende de las v.a. X, Y . Utilice la Nota 4.2(b) y demuestre que d0 (X+ξ, Y +ξ) 6
d0 (X, Y ). Finalmente use la desigualdad del triángulo.
7.4 Encontrar sucesiones {Xn , n = 1, 2, 3, . . . }, {Yn , n = 1, 2, 3, . . . }, y v.a. X, Y tales
que Xn ⇒ X, Yn ⇒ Y pero Xn + Yn ; X + Y .
Sugerencia: Escoger v.a. X y Y independientes con la distribución U (−1, 1) y
para n = 1, 2, 3, . . . Xn = X, Yn = −X.
(n) (n) (n)
7.5 (La aproximación de Poisson). Para n = 1, 2, 3, . . . sea Sn = X1 +X2 +· · ·+Xn ,
(n) (n) (n)
donde X1 , X2 , . . . , Xn son v.a. i.i.d. con la distribución Bern(pn ). Demostrar
que si npn → λ > 0, entonces Sn ⇒ Y ∼ P oiss(λ).

Sugerencias: Primero, hay que entender que para las v.a. X; Xn , n > 1 con
valores en {0, 1, 2, . . . }, la convergencia (7.1.1) equivale a lo siguiente: para cada
k = 0, 1, 2, . . . , P (Xn = k) → P (X = k) cuando n → ∞.
Para k = 0, según el Ejemplo 1.4(b) P (Xn = 0) = (1 − pn )n ≈ (1 − nλ )n → e−λ .
Para k > 0, usando las probabilidades del Ejemplo 1.4(b), simplificar el cociente
P (Sn =k+1)
P (Sn =k)
y aplicar inducción con k = 0, 1, 2, . . .

7.6 Para n = 1, 2, . . . sea Yn = Xn /n, donde Xn ∼ Geom(pn ) (véase (2.3.21)). Demos-


trar que si npn → λ > 0, entonces Yn ⇒ Y ∼ Exp(λ).

137
7.4. Ejercicios

Sugerencia: P (Yn > x) = P (Xn > nx) = P (Xn > [nx]) = (1 − pn )[nx] , donde [nx]
es la parte entera del número nx.

7.7 (a) Sean X1 , X2 , . . . , Xn , . . . v.a. i.i.d. con la f.d. común F tal que xα [1 − F (x)] →
b cuando x → ∞ para algunos números α > 0, b > 0. Se define Yn :=
(bn)−1/α máx{X1 , X2 , . . . , Xn }, demostrar que Yn ⇒ Z, donde Z es la v.a.
con la f.d.: ( −α
e−x , x > 0,
FZ (x) =
0, x 6 0.

(b) En términos de α, b, c∗ , aproximar P (máx{X1 , X2 , . . . , X365 } > c∗ ), donde Xk


es el nivel de ozono en México D.F. en el k-ésimo dı́a del próximo año.

7.8 Encontrar una sucesión {ϕn , n = 1, 2, 3, . . . } de funciones continuas en [0, 1] tal


que ϕn (t) → ϕ0 ≡ 0 cuando n → ∞ para cada t ∈ [0, 1], pero ρ(ϕn , ϕ0 ) =
máxt∈[0,1] |ϕn (t)| → ∞ cuando n → ∞.

7.9 En el plano R2 := {(x, y) : x ∈ R, y ∈ R} definimos: d (x1 , y1 ), (x2 , y2 ) :=
p
(x1 − x2 )2 + (y1 − y2 )2 . Demostrar que d es una métrica en R2 .
Sugerencia: La suma de dos lados de un triángulo es mayor que la magnitud del
tercero.
−λx

7.10 Consideremos la familia de funciones:
Z ∞ Φ := ϕ(x) = e : λ ∈ (0, ∞) y definimos
para cada ϕ ∈ Φ, G(ϕ) := 1 − ϕ(x)dx. Demostrar que sup G(ϕ) = 1, pero no
0 ϕ∈Φ
existe ϕ ∈ Φ tal que G(ϕ) = 1.
 
1 2 n−1
7.11 Para n = 1, 2, 3, . . . , consideremos la v.a. Xn ∈ 0, , , . . . , con
  n n n
k 1
P Xn = = para k = 0, 1, 2, . . . , n − 1 (la distribución uniforme discreta).
n n
(a) Demostrar que ρ(Xn , X) = 1/n, n = 1, 2, . . . , donde ρ es la métrica uniforme
(7.3.9) y X ∼ U (0, 1). (Entonces Xn ⇒ X por la Proposición 7.3.)
(b) Demostrar que:

Para cualquier función continua y acotada ϕ : R → R se cumple


(7.4.30)
que Eϕ(Xn ) → Eϕ(X) cuando n → ∞.

Sugerencias:

138
CAPÍTULO 7. CONVERGENCIA DÉBIL

(a) Trazar las gráficas de las f.d. FXn y FX .


(b) Usar (3.1.8), (3.1.9) y la definición de la integral (a partir de sumas de Rie-
mann).

Nota 7.9 Es posible demostrar que en el caso general, Xn ⇒ X si y sólo si se


cumple (7.4.30).

7.12 Supongamos que X ∼ U (0, a) y Y ∼ U (0, a + ), a > 0,  > 0. Demostrar que (la
ε
métrica uniforme) ρ(X, Y ) = (y se aproxima a cero cuando ε → 0).
a+

Sugerencia: Usar el Ejemplo 1.11, calcular FX , FY y trazar sus gráficas.

7.13 Sean X ≡ 0, Yε ∼ Exp(1/ε), ε > 0. Mostrar que (la métrica de Fortet-Mourier en


(7.3.12))
d0 (X, Yε ) 6 ε. (7.4.31)
(Nótese que EY = ε → 0 cuando ε → 0.)

7.14 Para alguna a ∈ R y ε > 0 considere las v.a. Xa y Xa+ε tales que Xa toma el único
valor a y Xa+ε toma el único valor a + ε. Demostrar que:

(a) ρ(Xa , Xa+ε ) = 1, para toda ε > 0;


(b) d0 (Xa , Xa+ε ) 6 ε (→ 0, cuando ε → 0).

7.15 Demostrar que si EX 6= EY , entonces ζ2 (X, Y ) = ∞ (ζ2 es la métrica de Zolotarev


de orden dos definida en (7.3.15)).
Sugerencia: Por (7.3.17), la función ϕc := cx ∈ D2 para cada c ∈ R. Entonces,
ζ2 (X, Y ) > sup |Eϕc (X) − Eϕc (Y )| = sup |EcX − EcY | = sup |c||EX − EY | = ∞.
ϕc c∈R c∈R

7.16 Sean X ≡ 0, Xn ∼ N orm(a = 0, σ = 1/n), n = 1, 2, . . . Mostrar que ζ2 (X, Xn ) 6


1/n2 , n = 1, 2, . . . En particular, Xn ⇒ X. (Nótese que las v.a. a.c. pueden conver-
ger a una v.a. discreta y viceversa.)

7.17 (a) Consideremos las v.a. X1 , X2 , . . . , Xn i.i.d. y las v.a. Y1 , Y2 , . . . , Yn i.i.d. tales
que existen a = EX1 = EY1 , y V ar(X1 ) < ∞, V ar(Y1 ) < ∞. Además, supon-
gamos que {Xn , n > 1} no depende de {Yn , n > 1}. Considere, también, los

139
7.4. Ejercicios

X1 + X2 + · · · + Xn Y1 + Y2 + · · · + Yn
promedios muestrales, Zn := , y Z n := .
n n
Demostrar que existe una constante c < ∞ tal que
 c
ζ2 Zn , Z n 6 , n = 1, 2, . . . (7.4.32)
n

(b) Supongamos además que las varianzas son iguales: V ar(X1 ) = V ar(Y1 ) y
X1 + X2 + · · · + Xn
E|X1 |3 < ∞, E|Y1 |3 < ∞. Definimos Yn := √ y Y n :=
n
Y1 + Y2 + · · · + Yn
√ . Mostrar que existe una constante c1 < ∞ tal que:
n
c1
ζ3 (Yn , Y n ) 6 √ , n = 1, 2, . . . (7.4.33)
n

Sugerencias:En (b), usar (7.3.29) y la Proposición 7.5. Para (a), usar la misma
proposición y demostrar el análogo de (7.3.29) para la métrica ζ2 :

n n
! n
X X X
ζ2 α Xk , α Yk 6 α2 ζ2 (Xk , Yk ),
k=1 k=1 k=1

que se cumple bajo las hipótesis del Teorema 7.2.

Nota 7.10 Según el Teorema 6.1 ambos promedios muestrales en (7.4.32) convergen
casi seguramente a la esperanza común a = EX1 = EY1 . De (7.4.33) se sigue que
cuando n → ∞, Yn y Y n se aproximan débilmente una a la otra. Mas, no es cierto
que estas v.a. convergen a una constante (consulte el Teorema Central del Lı́mite
en el Capı́tulo 8).
2
Z ∞ ) < ∞. Mostrar que
7.18 Sea X una v.a. no negativa con E(X
E X2 = 2
  
x 1 − FX (x) dx.
0
Sugerencia: Para simplificar la demostración, suponer adicionalmente que X es
a.c. Usar integración por partes y verificar que x2 [1 − FX (x)] → 0 cuando x → ∞.

7.19 Para n = 5, 50, 100, 1000, 5000, 10000 calcular los elementos correspondientes de la
sucesión numérica xn := (1 + n1 )n , n = 1, 2, . . . , para ver que la sucesión converge
al número e1 = e ≈ 2.718281828.

140
CAPÍTULO 7. CONVERGENCIA DÉBIL

7.20 Encontrar la v.a. X y las v.a. Xn , n = 1, 2, . . . , tales que ρ(Xn , X) → 0 (y por lo


tanto Xn ⇒ X, véase la Proposición 7.3) pero para la métrica de variación total
(7.3.14) se cumpla que V(Xn , X) > 1, n = 1, 2, . . .
Sugerencia: Usar las v.a. X y Xn (n = 1, 2, . . . ) del Ejercicio 7.11 y tener en
cuenta que por (7.3.14), V(Xn , X) > |Eϕn (Xn ) − Eϕn (X)| = 1, donde ϕn ∈ B y
(
1, si x ∈ 0, n1 , n2 , . . . , n−1

n
,
ϕn (x) =
0, en el caso contrario.

7.21 Sean Xn ∼ N orm(0, σn ), n = 1, 2, . . . , X ∼ N orm(0, σ) v.a. tales que Xn ⇒ X.


Mostrar que σn → σ cuando n → ∞.

141
7.4. Ejercicios

142
Capı́tulo 8

Teorema Central del Lı́mite

8.1. Observaciones introductorias

El Teorema Central del Lı́mite (TCL) es en realidad una clase bastante amplia de teo-
remas relacionados con el estudio de distribuciones de sumas de v.a., cuando el número
de sumandos crece sin cota. Estos teoremas son muy importantes en la teorı́a de proba-
bilidad, ası́ como en diversas y profundas aplicaciones (en estadı́stica, fı́sica, ingenierı́a,
matemática financiera, etc.). Los autores de este libro han escuchado la opinión de que
este teorema (en su versión básica) ha sido el más citado en el mundo de la ciencia.
Creemos también que el TCL tiene un valor conceptual en la formación de estudiantes e
investigadores dedicados a las ciencias. Básicamente, el teorema (o teoremas) afirma que
la suma de una gran cantidad de factores aleatorios poco dependientes y en algún sentido
“no grandes”, se aproxima a la distribución Normal , i.e. a la distribución de la v.a.
absolutamente continua Y con la densidad Normal:

1 −(x−a)2
fY (x) = √ e 2σ2 , x ∈ R, (8.1.1)
2π σ

cuya gráfica (también conocida como “campana de Gauss”) aparece en la Figura 8.1.

143
8.1. Observaciones introductorias

1
y
2π σ
fY (x)

x
0 a (con a=4, σ=1)

Figura 8.1: Campana de Gauss

Los teoremas centrales del lı́mite son universales en el sentido de que bajo ciertas
condiciones, la distribución del lı́mite (cuando n → ∞) de sumas:
(n) (n)
Sn = X1 + X2 + · · · + Xn(n) , n > 1, (8.1.2)
(n)
de factores aleatorios Xk , es la misma: la Normal con la densidad dada en (8.1.1). En
(n)
otras palabras, al suponer la finitud de las varianzas de Xk , algunas condiciones como
independencia (o “dependencia ligera”) y no una grande variación entre las f.d. de los
sumandos, entonces la distribución del lı́mite de sumas NO depende de las distribucio-
(n) (n) (n)
nes particulares de los sumandos X1 , X2 , . . . , Xn . En varios problemas de la teorı́a
de la probabilidad (tanto teóricos como prácticos) las distribuciones de los sumandos
(n)
Xk , k = 1, 2, . . . , n , frecuentemente no son conocidas, pero a pesar de ello, el carácter
universal de la distribución del lı́mite Normal permite investigar efectivamente muchos
fenómenos aleatorios y hacer cálculos sobre aproximaciones importantes en estadı́stica y
otras aplicaciones prácticas.

Por estas razones, las v.a. normales tienen una enorme difusión en ciencias y fenóme-
nos naturales y sociales. Algunos ejemplos son: las componentes de la velocidad en el
movimiento térmico, la estatura de un hombre elegido al azar, las variaciones de precios
en el mercado financiero, los resultados de mediciones en ingenierı́a o fı́sica, etc.

Para tener una idea de cómo es que la suma de “muchas” v.a. debe tener una distri-
bución cercana a la Normal, regresemos al Ejemplo 1.4-(b), donde X1 , X2 , . . . , Xn son v.a.
Bernoulli i.i.d. con el parámetro p y la suma Sn = X1 + X2 + · · · + Xn tiene la distribución
binomial dada por la siguiente fórmula:

n!
P (Sn = k) = pk (1 − p)n−k , k = 0, 1, . . . , n. (8.1.3)
k!(n − k)!

144
CAPÍTULO 8. TEOREMA CENTRAL DEL LÍMITE

Si elegimos, por ejemplo, p = 1/2 y n = 50, con la ayuda de una computadora se deter-
minan los valores de P (Xn = k), k = 0, 1, . . . , n usando (8.1.3). Al gráficarlos como las
alturas de barras verticales se obtiene la gráfica de la Figura 8.2.

P(Sn = k)

k
0 25 50

Figura 8.2: La distribución Binomial

Al comparar las Figuras 8.1 y 8.2 se observa una evidente semejanza entre ellas (a
pesar de que la v.a. Y es a.c. y en cambio Sn es discreta).

Claro que no siempre sucede que un fenómeno (representado con un valor) aleatorio
sea el resultado de sumas de v.a. (como en (8.1.2)). El caso más general es cuando el
(n) (n) (n)
valor que interesa, denotado por Yn , es Yn = g(ξ1 , ξ2 , . . . , ξn ), donde g es una función
suave, que puede ser desconocida (aunque esto último no es importante para la aplicación
(n)
cualitativa del TCL). Al suponer que ξk , k = 1, 2, . . . , n son v.a. “bastante cercanas
a cero” (eligiendo un sistema de coordenadas con el origen en un punto apropiado), se
obtiene, con ayuda de fórmulas del cálculo de varias variables, que Yn ≈ g(0, 0, . . . , 0) +
n
X ∂g (n)
(0, 0, . . . , 0) ξk (que es un análogo multidimencional a la fórmula: f (x) ≈ f (x0 )+
k=1
∂xk
0
f (x0 )(x − x0 )). Luego, denotando Y0 = g(0, 0, . . . , 0) y las derivadas ya descritas como ck
se obtiene que:
Xn
(n)
Yn − Y0 ≈ ck ξk , (8.1.4)
k=1

lo cual nos lleva de regreso a las sumas de v.a. como en (8.1.2), y a la posibilidad de
aplicar el TCL (suponiendo la independencia o una “dependencia ligera” de los sumandos
en (8.1.4)).

La aplicación de métricas probabilı́sticas es muy efectiva en el estudio de los TCL. En


primer lugar permite, sin necesidad de desarrollar la teorı́a de funciones caracterı́sticas (el
método más usado para la demostración de los TCL), dar una sencilla demostración de

145
8.2. Teoremas Centrales del Lı́mite

diversas versiones del TCL que incluyen las estimaciones de la tasa de convergencia en la
aproximación Normal.

En segundo lugar, con la aplicación del enfoque métrico es muy fácil caracterizar
la distribución Normal en términos de la propiedad (2.2.19) en el Teorema 2.2 y como
consecuencia, comprender el porqué en los TCL aparece como distribución del lı́mite la
distribución Normal y no otra (al suponer que existen las varianzas finitas de los suman-
dos). En tercer lugar, el uso de métricas da una oportunidad de extender estimaciones
de la tasa de convergencia en el TCL a situaciones más generales, con el propósito de
investigar la estabilidad de algunos modelos aplicados (consultar Capı́tulo 9).

8.2. Teoremas Centrales del Lı́mite


Recordemos las notaciones estándares anteriores del Capı́tulo 6. Supongamos que
X1 , X2 , . . . , Xk son v.a. i.i.d. tales que E(Xk2 ) < ∞, lo que garantiza la existencia de
la esperanza a y la varianza finita σ 2 (comunes para todas las v.a. X1 , X2 , . . . );

a = EXk y 0 < σ 2 = V ar(Xk ) < ∞. (8.2.5)

En (8.2.5) hemos supuesto que V ar(Xk ) > 0, lo cual significap que Xk no es una constante
(o v.a. degenerada, véase el Ejercicio 3.16). Además, σ = V ar(Xk ) denota la desvia-
ción estándar (común para todas X1 , X2 , . . . ). Luego, como antes, la suma de n v.a.
X1 , X2 , . . . , Xn se denota como:

S n = X 1 + X2 + · · · + Xn , n = 1, 2, . . . (8.2.6)

De la Proposición 3.1 se tiene que:

ESn = na y V ar(Sn ) = nσ 2 . (8.2.7)



Puesto que en (8.2.7) ESn → ∞ (si a 6= 0) y V ar(Sn ) → ∞, cuando n → ∞, ası́ no es
factible esperar que las distribuciones de las Sn se acerque a una distribución del lı́mite
cuando n → ∞. La situación se recupera, si se utiliza la estandarización introducida en
la Proposición 4.1, o bien, se consideran las v.a. estandarizadas:

Sn − na
Yn := √ , n = 1, 2, . . . (8.2.8)
σ n

146
CAPÍTULO 8. TEOREMA CENTRAL DEL LÍMITE

Por (8.2.7) y (8.2.8) se tiene:

EYn = 0 y V ar(Yn ) = 1, para toda n = 1, 2, . . . (8.2.9)

Por otro lado, la v.a Normal estándar η ∼ N orm(0, 1) tiene la densidad (compare
con (8.1.1))
1 2
fη (x) = √ e−x /2 , x ∈ R, (8.2.10)

y por (3.2.15) Eη = 0 y V ar(η) = 1 (las mismas que para Yn en (8.2.8) y (8.2.9)) (véase
la Figura 8.3).

y 2

fη (x) = 1 e
1 - x /2
2π 2π

Eη=0;
σ = Var(η) = 1.
x
0

Figura 8.3: La densidad Normal estándar.

Para lo siguiente, es práctico escribir las sumas estandarizadas Yn en (8.2.8) de la


siguiente forma equivalente (véase, también, (8.2.6)):
n
(X1 − a) + (X2 − a) + · · · + (Xn − a) 1 X
Yn = √ =√ ξk , (8.2.11)
σ n n k=1

donde
Xk − a
ξk = , k = 1, 2, . . . , n, (8.2.12)
σ
son los sumandos estandarizados, para los cuales se tiene (véase (8.2.5) y la Proposición
4.1):
Eξk = 0, y V ar(ξk ) = 1, para k = 1, 2, . . . , n. (8.2.13)
Entre la gran clase de los TCL se encuentra la siguiente versión moderna del teorema
clásico central del lı́mite de A. Lyapunov1 .

1
Aleksandr Mijáilovich Liapunov (1857-1918) matemático y fı́sico ruso, trabajó en las áreas de estabi-
lidad de ecuaciones diferenciales y teorı́a de probabilidad, entre otras. Autor de la primera versión general
del TCL.

147
8.2. Teoremas Centrales del Lı́mite

Teorema 8.1 Supongamos que X1 , X2 , . . . son v.a. i.i.d. y

E|X1 |3 < ∞. (8.2.14)

Entonces
ζ3 (ξ1 , η)
ζ3 (Yn , η) 6 √ , n = 1, 2, . . . , (8.2.15)
n
y
" r #
1 E(X1 − a)3 2
ζ3 (ξ1 , η) 6 3
+2 < ∞. (8.2.16)
6 σ π

Aquı́, ζ3 es la métrica de Zolotarev de orden 3 (consulte la Definición 7.5), η ∼ N orm(0, 1)


y las v.a. Yn y ξ1 están especificadas en (8.2.8), (8.2.11) y (8.2.12).

Del Teorema 7.3, la Proposición 7.4, la Definición 7.1 y del hecho de que la f.d. de η
(denotada tradicionalmente por Φ)
Z x
1 2
Fη (x) ≡ Φ(x) = √ e−t /2 dt , x ∈ R, (8.2.17)
−∞ 2π

es una función continua y se obtiene la siguiente afirmación.

Corolario 8.1 Bajo las hipótesis del Teorema 8.1, cuando n → ∞ se tiene que:

(a) Yn ⇒ η; (8.2.18)
(b) ρ(Yn , η) → 0; (8.2.19)
(c) FYn (x) → Φ(x) para cada x ∈ R. (8.2.20)

Nota 8.1 (a) Bajo las condiciones del Teorema 8.1, FYn se aproxima a Φ en (8.2.19) y
(8.2.20), sin importar cuales sean las distribuciones de los sumandos Xk , k =
1, 2, . . . en (8.2.6) y (8.2.8). Las v.a. Xk podrı́an ser a.c., discretas u otras.
(b) Por (7.3.9) y (8.2.19) vemos que la aproximación Normal en (8.2.20) es uniforme
sobre x ∈ R, i.e., para cualquier ε > 0 y para toda n suficientemente grande, se tiene
que |FYn (x) − Φ(x)| < ε para toda x ∈ R.

148
CAPÍTULO 8. TEOREMA CENTRAL DEL LÍMITE

1 y

Φ(x)
FYn(x) (el caso de los sumandos
discretos: X 1 , X 2 , ...)

0
x

Figura 8.4: La aproximación de la f.d. FYn por la Normal Φ.

(c) De (7.1.3) y (7.1.4) se sigue que a partir de (8.2.18) se implica

P (Yn ∈ I) → P (ηn ∈ I), (8.2.21)

cuando n → ∞ y para cualquier intervalo I (incluso para muchos otros subconjuntos,


más generales de la recta, pero no todos).
(d) Bajo las condiciones del Teorema 8.1 o del siguiente Teorema 8.2, para toda n su-
Sn − na
ficientemente grande , la distribución de √ ≈ la distribución de η. De esto
σ n
último es fácil ver que:

la distribución de Sn ≈ la distribución de Zn = σ n η + na, (8.2.22)

y (consulte la Proposición 3.1), para Zn := σ√ n η + na se tiene que EZn = na y
V ar(Zn ) = σ 2 n. Entonces, Zn ∼ N orm(na, σ n) y por esta relación (8.2.22) sirve
como soporte para nuestra argumentación (dada al principio del Capı́tulo) acerca de
la aproximación de las sumas de v.a. a una distribución Normal.

Demostración del Teorema 8.1.


Sean η1 , η2 , . . . , ηn ∼ N orm(0, 1) v.a. i.i.d. e independientes de las v.a. ξ1 , ξ2 , . . . , ξn
dadas en (8.2.12). De (8.2.11) ! y (2.2.19) en el Teorema 2.2, obtenemos que ζ3 (Yn , η) =
n n  3 Xn
1 X 1 X 1
ζ3 √ ξk , √ ηk 6 (por (7.3.29)) 6 √ ζ3 (ξk , ηk ) = (por la igualdad
n k=1 n k=1 n k=1
1 ζ3 (ξ1 , η1 )
de distribuciones) = √ n ζ3 (ξ1 , η1 ) = √ . De esto se obtiene (8.2.15).
nn n
Para demostrar (8.2.16) es suficiente tomar en cuenta (8.2.13), la Proposición 7.5 y obser-
1h i
var que de (7.3.21) se obtiene que ζ3 (ξ1 , η1 ) 6 E|ξ1 |3 +E|η1 |3 . Finalmente, por (8.2.12)
6

149
8.2. Teoremas Centrales del Lı́mite

r
2
y (8.2.14), E|ξ1 |3 < ∞. Por último, utilizando (3.1.9) es fácil calcular que E|η1 |3 = 2 .
π
2

¿Hasta qué punto las condiciones del Teorema 8.1 son esenciales para la convergencia
débil de las sumas estandarizadas Yn , n = 1, 2, . . . a la v.a. Normal η? Primero, sin
preocuparnos por la tasa de convergencia, la condición (8.2.14) no es necesaria. De hecho,
se cumple el siguiente teorema (demostrado, por primera vez, en el caso particular de v.a.
Bernoulli en (8.2.6) por A. De Moivre2 con una edad de más de 60 años; y en el caso
general, por P. Lévy.3 ).

Teorema 8.2 Sean X1 , X2 , . . . v.a. i.i.d. con EXk = a y la varianza σ 2 = V ar(Xk ) finita
X1 + · · · + Xn − na
y positiva. Sean Yn = √ para n = 1, 2, . . . , entonces
σ n

Yn ⇒ η ∼ N orm(0, 1). (8.2.23)

Nota 8.2 Por (3.2.10), se tiene que V ar(X1 ) < ∞ si y sólo si EX12 < ∞, que es una
condición menos limitada que (8.2.14). Sin embargo, la suposición (8.2.14) es esencial para
obtener en (8.2.15) la estimación de la tasa de convergencia, para la que se establece√
que ζ3 (Yn , η) se anula, cuando n → ∞, con rápidez no más lenta que la sucesión c/ n.

La condición de identidad de distribuciones de los sumandos X1 , X2 , . . . en el Teorema


8.1, puede ser sustituida por algo menos restrictivo. Esto se realiza en la variante del TCL
de Lyapunov enunciada en el Teorema 8.3.

Para v.a. X1 , X2 , . . . , Xk , . . . independientes se denota (suponiendo que existen sus


2
esperanzas y varianzas finitas Pn y positivas): ak = EXk , k = 1, 2, . . . , Bn := V ar(Sn ) =
(por la independencia) = k=1 V ar(Xk ),
p p
Bn := Bn2 ≡ V ar(Sn ), n = 1, 2, . . . (8.2.24)
2
Abraham de Moivre (1667-1754) matemático francés, reconocido por la fórmula de Moivre en el
análisis complejo y primera versión, en la historia, del TCL.
3
Paul Pierre Lévy (1886-1971) matemático fránces, considerado entre los más destacados del campo
de la teorı́a de la probabilidad moderna; introdujo teoremas de lı́mites para sumas de v.a. y el concepto
de martingala, entre otros.

150
CAPÍTULO 8. TEOREMA CENTRAL DEL LÍMITE

Por analogı́a con la Definición (8.2.8) se introducen las sumas estandarizadas:


Pn
k=1 (Xk − ak )
Y n := , n = 1, 2, . . . , (8.2.25)
Bn

con EY n = 0 y V ar(Y n ) = 1, n = 1, 2, . . .

3
Teorema 8.3 Sean X1 , X2 , . . . , Xn , . . . v.a. independientes y suponga que existe E Xk <
∞, k = 1, 2, . . . Suponga, también, que
Pn 3
k=1 E X k − ak
Ln := −→ 0, cuando n → ∞. (8.2.26)
Bn3

Entonces existe una constante c (que no depende de las distribuciones de Xk ) tal que,

ρ Y n , η 6 c Ln , n = 1, 2, . . . ,

donde η ∼ N orm(0, 1).


Si, además, X1 , X2 , . . . son idénticamente distribuidas con a = EX1 y σ 2 = V ar(X1 ) ∈
(0, ∞), entonces existe una constante c (que no depende de las distribuciones de Xk ) tal
que,
3
 c E X 1 − a
ρ Y n, η 6 √ , n = 1, 2, . . . (8.2.27)
n σ3

En particular, bajo las condiciones de arriba Y n ⇒ η ∼ N orm(0, 1), con Y n definada


en (8.2.25).

Nota 8.3 (a) En la conclusión del Teorema 8.3 (en particular en (8.2.27)), ρ es la métri-
ca uniforme definida en (7.3.9).
(b) La condición (8.2.26) (un caso particular de la condición de Lyapunov) demanda que
las distribuciones de los sumandos X1 , X2 , . . . , Xn , . . . en (8.2.25), en algún sentido,
“no cambian demasiado”.
nE|X1 − a|3 1 E|X1 − a|3
Para sumandos i.i.d., con E|X1 |3 < ∞, Ln = √ 3 = √ → 0,
(σ n) n σ3
cuando n → ∞; lo cual implica que la cota de la tasa de convergencia de (8.2.27) es
de orden √cn ).

151
8.2. Teoremas Centrales del Lı́mite


El Ejercicio 8.19 muestra que para v.a. i.i.d. en el TCL la distancia uniforme ρ Y n , η ,
constante
en caso general, no puede anularse, con n → ∞, más rápido que √ .
n
En el Ejemplo 8.1, a continuación, se encuentra la sucesión de v.a. X1 , X2 , . . . inde-
pendientes que no satisfacen (8.2.26) y tampoco cualquier versión del TCL.
(c) Los TCL “clásicos” 8.2 y 8.3 afirman que las sumas estandarizadas convergen débil-
mente (en distribución) a la v.a. Normal estándar, cuando el número de sumandos
n crece sin cota. El Teorema 8.1 provee la misma propiedad y además, debido a la
presencia de la métrica ζ3 (ξ1 , η) en la parte derecha de (8.2.15), resulta que para
cada n fijo, ζ3 (Yn , η) se aproxima a cero cuando ζ3 (ξ1 , η) se aproxima a cero. Es de-
cir, además de la convergencia con n → ∞, las f.d. FYn de las sumas estandarizadas
Yn son cercanas a las Normales, si (para cualquier n fijo) las distribuciones de los
Xk − a
sumandos ξk = en (8.2.12) son próximas a las Normales.
σ
Sn − na
(d) Para el caso de v.a. X1 , X2 , . . . i.i.d. de (8.2.25) y (8.2.8) se sigue que Y = √ ,
σ n
(n = 1, 2, . . . ). Según algunas investigaciones recientes la constante c en (8.2.27) es
menor que 0.7656. Pero, por otro lado (compare con el Ejercicio 8.19) se sabe que
c > 0.4096.

 
1
Ejemplo 8.1 (a) Sean X1 , X2 , . . . , Xk , . . . v.a. independientes y Xk ∼ P oiss λk = k ,
2
1
k = 1, 2, . . . Por (3.1.6) y (3.3.28) ak = EXk = k = V ar(Xk ). Entonces, en
!1/2 2
n
X 1 n n
X X 1
(8.2.24), Bn = (por (2.3.23)) → 1 y a k = → 1, cuando
k=1
2k k=1 k=1
2k
n → ∞. Entonces en (8.2.25) para n suficientemente grande se tiene:
Pn Pn n
k=1 X k − k=1 ak
X
Yn = ≈ Xk − 1.
Bn k=1

Del Ejercicio 8.7, Y n ⇒ Y − 1, donde Y ∼ P oiss(λ = 1). Por lo tanto, las sumas
estandarizadas Y n no pueden converger a una v.a. Normal (i.e., no se cumple el
TCL). La condición (8.2.26) no se cumple en este ejemplo porque Bn → 1 y no
podrı́a suceder que Ln → 0.
(b) Sean X1 ∼ U (−1, 1) y Xk = X1 , k > 2 (las v.a. son fuertemente dependientes).
1
Entonces (véase (3.1.7) y (3.2.16)), EXk = 0, V ar(Xk ) = y en (8.2.8) las sumas
3

152
CAPÍTULO 8. TEOREMA CENTRAL DEL LÍMITE

√ √
3 Sn 3 nX1 √ √ √ 
estandarizadas Yn = √ = √ = 3 nX1 ∼ U 0, 3n no convergen
n n
débilmente. Es decir, cualquier versión del TCL no es cierta para esta sucesión de
v.a.

Nota 8.4 El inciso (b) del ejemplo anterior se muestra que la hipótesis de independen-
cia de los sumandos es importante y no pude ser excluida. Sin embargo, esta hipótesis
podrı́a ser sustituida por una especie de “dependencia ligera”. Resulta que en la teorı́a
moderna, los TCL se demuestran para muchas clases de sucesiones de v.a. X1 , X2 , . . .
dependientes (estacionarias, cadenas de Markov, marginales, etc.). Pero cada vez, se usan
algunas condiciones que garantizan que la dependencia entre Xn y Xn+m desaparece con
el crecimiento de m.

8.3. Notas sobre la exactitud de la aproximación Nor-


mal
Nos detendremos un poco en las cuestiones de estimación de la tasa de convergencia
en los TCL debido a que son muy importantes (y en algunas ocasiones, dudosas) en las
aplicaciones de estos teoremas. Algunas de estas aplicaciones están basadas en afirmacio-
nes como ésta (véanse los ejemplos que siguen): para toda n “suficientemente grande” en
(8.2.8)

la distribución de Yn ≈ la distribución de η ∼ N orm(0, 1). (8.3.28)

La afirmación en (8.3.28) se sigue de los Teoremas 8.1 y 8.2, pero ¿qué significa “su-
ficientemente grande” para obtener una exactitud “razonable” en la aproximación en
(8.3.28)? La respuesta depende de la rapidez (o tasa) de acercamiento de la parte
izquierda en (8.3.28) a la parte derecha (con el crecimiento de n). A pesar de que la dis-
tribución del lı́mite (distribución Normal) es universal y no depende de las propiedades
de las distribuciones de los sumandos, las últimas afectan crucialmente a la rapidez de
convergencia.

En un sentido general, la convergencia es lenta, si los sumandos son discretos (y muy


lenta, si ellos, además, son asimétricos con respecto a la esperanza). La tasa de conver-
gencia es rápida, si los sumandos son v.a. a.c. (y muy rápida, si, además los suman-
dos, son simétricos con respecto al valor promedio). Nótese que la densidad del lı́mite

153
8.3. Notas sobre la exactitud de la aproximación Normal

2 /2
fη (x) = √1

e−x es simétrica respecto a su esperanza (Eη = 0) (véase la Figura 8.3).

Las desigualdades (8.2.15) y (8.2.27) (entre una gran variedad de desigualdades de


este tipo) ofrecen una cota superior para la tasa de convergencia en el TCL. En algunos
casos, estas desigualdades dan la velocidad correcta de la aproximación de FYn a Fη ≡ Φ
(para v.a. discretas), pero para sumandos Xk en (8.2.8) a.c. como regla la rapidez de
convergencia es mucho más alta que la de constante

n
.

En el libro Breiman (1969) se ofrecen algunas gráficas, bastante ilustrativas, que com-
paran las f.d. FYn de sumas estandarizadas con la de la Normal Φ, para diferentes n
y distintas distribuciones de los sumandos Xk en (8.2.6). Estas gráficas dan una buena
idea acerca de la tasa de convergencia en el TCL. De ellas se sigue que para obtener
una aproximación Normal “bastante buena”, en el caso de sumandos discretos (“más o
menos” simétricos), es suficiente tener de 2-4 centenas de sumandos; pero, por ejemplo,
para Xk ∼ U (0, 1) las distribuciones de Yn con n entre 5 y 6 se aproxima perfectamente
mediante la distribución Normal.

Nota 8.5 Otra vez subrayamos que las cotas superiores para el error de aproximación en
(8.2.15) y (8.2.27) son universales y por eso, necesariamente deben tomarse en cuenta las
“peores distribuciones” de los sumandos (consulte el Ejercicio 8.19). Por esta razón estas
cotas en muchos casos no son muy prácticos, sin embargo nos dan una idea general sobre
la tasa de convergencia en los TCL.

Ejemplo 8.2 (a) Sean n = 400 y X1 , X2 , . . . , Xn ∼ Bern(p = 0.001) v.a. i.i.d. Del
Ejemplo 1.4(b), Sn ∼ Bin(n = 400, p = 0.001) y P (Sn < 1) = P (Sn = 0) =
(1 − p)n ≈ 0.670185906.

p p
Por otro lado, de (3.2.13), a = EX1 = p = 0.001, σ = V ar(X  1 ) = p(1 − p) ≈
Sn − na 1 − 0.4
0.031606961 y P (Sn < 1) = P √ < = P (Yn < 0.94916)
σ n (0.031606961)(20)
≈ (por (8.2.20)) ≈ P (η < 0.94916) ≈ (por tablas de la distribución normal estándar)
≈ 0.8264.
Concluı́mos que, a pesar de que el número de sumandos n = 400 parece “bastante
grande”, el error absoluto δ ≈ |0.6702−0.8264| = 0.1562 de la aproximación Normal
es demasiado grande. Todavı́a menos satisfactorio es el error relativo δ/P (Sn < 1) ≈
0.1562
0.6702
≈ 0.2331 (como el 23 %).

154
CAPÍTULO 8. TEOREMA CENTRAL DEL LÍMITE

La situación descrita se debe al hecho de que la distribución de Xk es discreta y


además “asimétrica” con respecto de la esperanza EXk = 0.001 (véase la Figura
8.5).

P(Xk =0)=0.999

P(Xk=1)=0.001

0 EX = 0.001 1
k

Figura 8.5: Distribución de Bernoulli asimétrica.

Nota 8.6 (a) Como ya se notó en el Capı́tulo 1, la integral en (8.2.17) no se calcula


en términos de funciones elementales. Por esto, para encontrar los valores de
Φ(x) se usan tablas (obtenidas por integración numérica).
(b) Por
Z ∞ la simetrı́a de la densidad fη (véase la Figura 8.3) y por (3.1.9), Eη 3 =
1 x2
x3 √ e− 2 dx = 0 (la integral de una función impar):
−∞ 2π

Por otro lado para las v.a. Xk estandarizadas del Ejemplo 8.2 (a) obtenemos
que (véase (3.1.8)):
 3  3  3
Xk − a −0.001 1 − 0.001
E ≈ 0.999 + 0.001 ≈ 31.57821, (8.3.29)
σ 0.031606 0.031606

155
8.3. Notas sobre la exactitud de la aproximación Normal

que es muy distinta de cero.


Existen métodos efectivos para mejorar la exactitud de la aproximación Nor-
mal en (8.2.20) o en (8.3.28) tomando en cuenta el “parámetro de asimetrı́a”
3
expresado en los términos de E Xk − a (consulte, por ejemplo Pitman(1993),
Capı́tulo 2 donde se presenta una muy buena exposición de técnicas de mejora-
miento “asimétrico” de la aproximación Normal para distribuciones binomiales).

Sin embargo, en situaciones como la del Ejemplo 8.2 (a) (n “grande” y p es


cercano a 0) la aproximación de Poisson es más efectiva.
Aplicando la aproximación de Poisson del Ejercicio 7.5, se obtiene que P (Sn <
1) ≈ P (X = 0), donde X ∼ P oiss(λ = np), y del Ejemplo 1.4(c), P (X =
0
0) = λ0! e−λ = e−np = e0.4 ≈ 0.670320046, de lo que resulta un error relativo de
≈ 0.02 %.

(b) (Segunda parte del Ejemplo 8.2) Sean X1 , X2 , X3 , X4 ∼ U (0, 1) v.a. i.i.d., al aplicar
la fórmula de convolución (2.2.18) no es tan difı́cil obtener (integrando) la f.d. FS4
(ver Feller(1978), página 55):

4
 X (−1)k  4
máx{0, (x − k)} si x ∈ [0, 4],





k=0
k!(4 − k)!
FS4 (x) =

 0 si x < 0,



 1 si x > 4.

Por esta fórmula se calcula P (S4 6 1.5) = FS4 (1.5) = 0.200520833.


Ahora, consideremos la aproximación Normal para Pq (Sn 6 1.5) con n = 4. De
p 1
(3.1.7) y (3.2.16), a = EXk = 0.5; σ = V ar(Xk ) = 12 ≈ 0.2887 y por (8.2.20),
 
Sn − na 1.5 − na
P (Sn 6 1.5) = P √ 6 √ = P (Yn 6 −0.8660) ≈ P (Yn 6 −0.87) ≈
σ n σ n
P (η 6 −0.87) = Φ(−0.87) ≈ (por tablas) ≈ 0.1922.

Entonces, con el número de sumandos n = 4 se obtiene la sorprendentemente buena


aproximación Normal con el error absoluto de ≈ 0.0083208 (y con un error relativo
de ≈ 0.0415 (4 %)). La causa detrás de tal resultado es el hecho que la v.a. Xk tiene
la densidad fXk que es simétrica con respecto a la esperanza EXk = 0.5.

156
CAPÍTULO 8. TEOREMA CENTRAL DEL LÍMITE

y fX (x)
k

x
0 EX k=0.5 1

8.4. ¿Por qué en los TCL la distribución del lı́mite


es Normal?
Una clave para encontrar la respuesta a dicha pregunta está en la propiedad de las
v.a. Normales (2.2.19) en el Teorema 2.2. Limitándonos al caso en que n = 2, mostramos
que esta propiedad caracteriza a las v.a. Normales, i.e., bajo hipótesis de amplia consi-
deración, solamente las v.a. Normales poseen la propiedad (2.2.19).

Teorema 8.4 Sea ε > 0 un número dado, y sean ξ, ξ1 y ξ2 v.a. i.i.d. tales que: Eξ =
Eξ1 = Eξ2 = 0; V ar(ξ) = V ar(ξ1 ) = V ar(ξ2 ) = 1; E|ξ|3 < ∞, E|ξ1 |3 < ∞, E|ξ2 |3 < ∞.
Supongamos que (ζ3 es la métrica de Zolotarev de orden 3 definida en (7.3.16))
 
ξ1 + ξ2
ζ3 ξ, √ 6 ε. (8.4.30)
2

Entonces
1
ζ3 (ξ, η) 6 ε, donde η ∼ N orm(0, 1). (8.4.31)
1 − √12

Demostración.
Sean η1 , η2 ∼ N orm(0, 1) v.a. i.i.d. Por (2.2.19) F η1√+η2 = Fη , por lo tanto, ζ3 (ξ, η) =
  2  
η1 + η2 ξ1 + ξ2
ζ3 ξ, √ 6 (por la desigualdad del triángulo en la Definición 7.2) 6 ζ3 ξ, √
 2  2
ξ1 + ξ2 η1 + η2 1 h i
+ζ3 √ , √ 6 (por (8.4.30) y (7.3.29)) 6 ε + √ ζ3 (ξ1 , η1 ) + ζ3 (ξ2 , η2 ) =
2 2 ( 2)3

157
8.4. ¿Por qué en los TCL la distribución del lı́mite es Normal?

1
(por igualdad de distribuciones) = ε + √ ζ3 (ξ, η) < ∞, por las condiciones del teorema
2
1
y la Proposición 7.5(b). O bien, ζ3 (ξ, η) 6 ε + √ ζ3 (ξ, η), de lo que sigue (8.4.31). 2
2
Al tomar ε = 0 en (8.4.30) y (8.4.31) y considerando que para cualesquiera v.a. X, Y ,
si ζ3 (X, Y ) = 0, entonces FX = FY , obtenemos el siguiente resultado.

Corolario 8.2 Bajo las hipótesis del Teorema 8.4, si

Fξ ≡ F ξ1√+ξ2 , (8.4.32)
2

entonces, ξ ∼ N orm(0, 1).

Nota 8.7 De la desigualdad (8.4.31) resulta que si (8.4.30) se cumple con un ε cercano
a cero, entonces la distribución de ξ se aproxima la Normal.

Estamos listos para explicar el papel de la distribución Normal en los TCL. Para
simplificar las notaciones consideraremos el caso cuando en (8.2.5) y (8.2.7) a = 0, σ = 1.
n
1 X
Entonces en (8.2.8), Yn = √ Xk , con EXk = 0 y V ar(Xk ) = 1, k = 1, 2, . . . , n.
n k=1

Teorema 8.5 Supongamos que X1 , X2 , . . . , Xk , . . . son v.a. i.i.d. con E|X1 |3 < ∞, y que
Yn ⇒ ξ. Entonces ξ ∼ N orm(0, 1).

Demostración.
Considerando n = 2m con m = 1, 2, . . . tenemos que
X1 + X2 + · · · + Xn
Yn = √ =
n
1 X1 + X 2 + · · · + Xm 1 Xm+1 + Xm+2 + · · · + X2m
= √ √ +√ √ , (8.4.33)
2 m 2 m

donde, por las condiciones del teorema,

Yn ⇒ ξ, (8.4.34)

158
CAPÍTULO 8. TEOREMA CENTRAL DEL LÍMITE

X1 + X2 + · · · + Xm Xm+1 + Xm+2 + · · · + X2m


Zn := √ ⇒ ξ1 , Zn0 := √ ⇒ ξ2 , por lo cual
m m
Fξ = Fξ1 = Fξ2 . (8.4.35)
Las v.a. Zn y Zn0 son independientes (ası́ como las funciones de v.a. independientes),
1
y por la Proposición 7.2 y (8.4.33) se obtiene que Yn ⇒ √ (ξ1 + ξ2 ) donde ξ1 y ξ2 son
2
independientes como lı́mites débiles de v.a. independientes. Comparando lo último con
(8.4.34) se concluye que Fξ = F ξ1√+ξ2 , es decir, se cumplen las condiciones del Corolario
2
8.2, por lo tanto ξ ∼ N orm(0, 1). 2
Hay otros argumentos que aclaran la presencia de la distribución Normal en los TCL. Si
X es una v.a. tal que P (X = 0) = 0.0001, P (X = 1) = 0.9999 y un observador afirma que
X tomó el valor 1, entonces estamos recibiendo un poco de información. En la misma
situación, la información crece considerablemente, si P (X = 0) = P (X = 1) = 1/2
(“incertidumbre máxima”). En este sencillo caso la cantidad de información se mide
por I(p) = (1 − p) ln(1 − p) + p ln p y el valor opuesto (no negativo) −I(p) := Ent(p) se
llama la entropı́a (de la distribución de X), que se usa en probabilidad y fı́sica como una
medida de incertidumbre.
Ent(p)

Entmax (p) ∼
∼ 0.34657 Ent(p)
p
0 1/2 1

Para una v.a. X a.c. con suZdensidad fX , la entropı́a se define similarmente de la



siguiente manera: Ent(fX ) := − ln[fX (x)] fX (x) dx, (donde ln(0) · 0 := 0).
−∞

No es difı́cil demostrar que entre todas las v.a. a.c. X con EX = 0 y V ar(X) = 1,
la v.a. η ∼ N orm(0, 1) tiene la máxima entropı́a. Es posible, también, demostrar que
para las sumas estandarizadas en (8.2.8) la entropı́a crece con el aumento de n. Entonces
es razonable pensar (¡y demostrar bajo la condición EXk2 < ∞!) que la distribución de
Yn se aproxima a la Normal y que tiene incertidumbre máxima. (Admitiendo expresiones
vagas, la v.a. Normal es sobre todo “aleatoria” porque asintóticamente adquiere “aleato-
riedades” de diferentes tipos que se encuentran entre los sumandos de Sn = X1 +· · ·+Xn .)

159
8.4. ¿Por qué en los TCL la distribución del lı́mite es Normal?

Luego del párrafo teórico anterior, nos relajáremos un poco con el siguiente ejemplo.

Ejemplo 8.3 (Ruleta americana.) Consideremos el juego de la ruleta americana (véase


Ejercicio 6.6 del Capı́tulo 6). Se sabe que el hecho de apostar x > 0 dólares por “rojo”
significa que el jugador gana x dólares, si “sale” rojo y pierde x dólares en caso contrario.
Es decir, la ganancia - pérdida se representa por la v.a.:
(
18 9
x, con probabilidad 38 = 19 ,
X= 20 10
(8.4.36)
−x, con probabilidad 38 = 19 .

Notemos que el juego (como todos los juegos en un casino) es injusto en el sentido de que
9 10 x
EX = x + (−x) = − < 0, (8.4.37)
19 19 19
y al apostar un número grande de veces, la serie de juegos seguramente (con probabilidad
1) terminará, por la ruina del jugador (como hemos mostrado en el Ejemplo 6.6).

Admitimos que en el caso de ruina, el jugador puede recibir un préstamo y seguir


apostando. Consideremos los resultados posibles de una serie de apuestas bastante larga,
pero finita.

Supongamos que un jugador apuesta 5 dólares (que en algunos casinos de las Vegas
es la mı́nima cantidad para apostar) por “rojo”, n = (19)2 = 361 veces. Su ganancia -
pérdida neta es Sn = X1 + · · · + Xn , con x = 5 en (8.4.36) y (8.4.37). Estimemos ahora
a partir del TCL las siguientes probabilidades:
1. P (Sn > 0) (de ganar algo).
2. P (Sn > 100) (de ganar al menos 100 dólares).
3. P (Sn 6 −100) (de perder por lo menos 100 dólares).
5
Primero, por (8.4.37) con x = 5 se tiene a = EX1 = − , y por (3.2.10) σ 2 = V ar(X1 ) =
19  5 2
E(X12 ) − (EX1 )2 = (ya que por (8.4.36), X 2 = x2 con probabilidad 1) = 25 − ≈ 25,
p 19
o bien σ = V ar(X1 ) ≈ 5.
 
Sn − na 100 − na
Para el caso 2, tenemos que P (Sn > 100) = P √ > √ = (véase
σ n σ n
5
100 + 192 ( 19
 
)
(8.2.8)) = P Yn > ≈ P (Yn > 2.05) ≈ (por (8.2.21)) ≈ P (η > 2.05) =
5 · 19

160
CAPÍTULO 8. TEOREMA CENTRAL DEL LÍMITE

1 − P (η < 2.05) = (pues η es a.c.) = 1 − Φ(2.05) ≈ (por los valores en tablas) ≈ 0.0202.

Con un procedimiento semejante al último inciso, se tiene finalmente que:


1. P (Sn > 0) ≈ 0.1587.
2. P (Sn > 100) ≈ 0.0202.
3. P (Sn 6 −100) ≈ 0.4801.

Nota 8.8 (a) La estrategia “precavida” de juego que realiza el jugador en el ejemplo de
arriba, da resultados poco promisorios pues tiene tan sólo el 16 % (aproximadamente)
de posibilidades de ganar algo, pero casi la mitad de probabilidades de perder más de
100 dólares, y muy pocas posibilidades (2 %) de ganar más de 100 dólares. Por otro
lado, una estrategia “arriesgada” como apostar 100 dólares por rojo una sola vez,
nos da una probabilidad de 18/38≈ 0.4737 de ganar 100 dólares y se perderı́a esta
misma cantidad con una probabilidad de 20/38 ≈ 0.5263. Por eso esta estrategia es
mucho mejor que la primera. Aunque usándola, el jugador se pierde la oportunidad
de gozar del juego durante 10 horas.
(b) Para alguien que planea visitar Las Vegas se sugiere usar la estrategia siguiente como
opción, para ganar mil dólares con probabilidad 1 jugando en la ruleta:
- Primero: Apostar mil dólares por rojo.
- Segundo: Si gana, entonces salga.
Si pierde, entonces apueste dos mil dólares por “rojo”.
- Tercero: Si gana, salga.
Si pierde, apueste cuatro mil dólares por “rojo”.
- Siga duplicando sus apuestas hasta que salga por primera vez el “rojo”.
En ese instante deje de jugar y salga con la ganancia de mil dólares.
Sin embargo existen dos obstáculos para la realización de tan “excelente” estrategia:
1) Para el desarrollo del juego necesitará (con probabilidad positiva) poder adquirir
como préstamo una cantidad de dólares arbitrariamente grande.
2) En los casinos no se permiten apuestas mayores a una cantidad establecida. (Pero
en el caso de 12 salidas sucesivas de “negro”, para lo que hay una probabilidad
positiva, usted deberá apostar alrededor de más de 4 millones de dólares.

161
8.5. Ejercicios

8.5. EJERCICIOS
8.1 La probabilidad de que un recién nacido sea varón es aproximadamente p = 0.512.
Suponga que los sexos de los recién nacidos son independientes entre sı́, entonces
estime la probabilidad de que entre 1000 bebés que nacerán el próximo mes en el
D.F., el número de mujeres será mayor que el número de varones (a) mediante la
distribución Binomial, y (b) utilizando el TCL.
Resp. : (a) ≈ 0.2145 y (b) ≈ 0.2236.

8.2 Sean X1 , X2 , . .√
. v.a. no
√ negativas i.i.d. para cuales EX1 = 1 y V ar(X1 ) = 1.
Mostrar que 2 Sn − n ⇒ η ∼ N orm(0, 1).
√ √
Sugerencia: Multiplicar y dividir por ( Sn + n). Usar (6.1.7) en la LFGN y mos-
trar el siguiente hecho intuitivamente claro: si Zn ⇒ Z y ξn → 1 con probabilidad
1, entonces ξn Zn ⇒ Z.

8.3 Sean X1 , X2 , . . . v.a. i.i.d. con EX1 = 0 y V ar(X1 ) = 1. Demostrar que


Sn
p ⇒ η ∼ N orm(0, 1).
X1 + X22 + · · · + Xn2
2

Sugerencia: La misma del Ejercicio 8.2.

8.4 Un dado simétrico se lanza 36 veces. Sea Sn el número de veces que resulta el “6”.
Estimar P (Sn 6 2):
(a) de forma precisa (a partir de la distribución Binomial), y
(b) aproximadamente (a partir del TCL).
Resp. : (a) 0.04712177; (b) ≈ 0.0367.

Nota 8.9 Las respuestas del Ejercicio 8.4 indican que el número de sumandos n =
36 (de v.a. discretas, en este caso) en Sn = X1 + · · · + Xn (donde Xk es la indicadora
de las salidas de “6”), no es suficientemente grande para obtener una buena aproxi-
mación a la Normal. De hecho, el error relativo es 0.04712177−0.0367
0.04712177
≈ 0.22117(≈ 22 %).

8.5 Al llegar a una oficina, un cliente se encuentra con que hay 40 clientes en fila
esperando servicio. Supongamos que los tiempos de servicio son las v.a. a.c. i.i.d.
X1 , X2 , . . . con promedio a = EX1 = 1.4 min. y con desviación estándar σ = 0.7.
Estimar la probabilidad de que el cliente recién llegado tendrá que esperar más de
una hora para ser atendido.
Resp. : ≈ 0.1841.

162
CAPÍTULO 8. TEOREMA CENTRAL DEL LÍMITE

Nota 8.10 A diferencia del caso de v.a. discretas (ver el Ejercicio 8.4), para un
número de sumandos n = 40 con v.a. a.c. el TCL como regla da una aproximación
bastante buena (véase el Ejemplo 8.2 (b)).

8.6 Demostrar la siguiente generalización del Teorema 8.1: Sean X1 , X2 , . . . , Xk , . . .


v.a. independientes tales que sup E|Xk |3 < ∞, ak = EXk , σk2 = V ar(Xk ) > 0
k>1
X k − ak
y ξk := con k = 1, 2, . . . Entonces para cada n = 1, 2, . . . se tiene que
σk !
n n
1 X 1 1 X
ζ3 √ ξk , η 6 √ máx ζ3 (ξk , η). En particular, √ ξk ⇒ η.
n k=1 n 16k6n n k=1

8.7 Sean X1 , X2 , . . . , Xn , . . . v.a. tales que Xn ∼ P oiss(λn ). Demostrar que si λn →


λ > 0 (cuando n → ∞), entonces Xn ⇒ X ∼ P oiss(λ).

λkn −λn λk −λ
Sugerencias: P (Xn = k) = e → e , cuando n → ∞, por la continui-
k! k!
dad de la función xk e−x .

8.8 Sean X1 , X2 , . . . , Xk , . . . v.a. i.i.d. con la densidad de Cauchy (6.1.11). Al usar el


hecho (aceptado sin demostración) de que para cada n = 1, 2, . . . la v.a. Snn tiene la
Sn
distribución de Cauchy, demostrar que , n = 1, 2, . . . no converge débilmente a
bn
una v.a. Normal para cualquier sucesión numérica {bn , n = 1, 2, . . . }.

Nota 8.11 El Ejercicio 8.8 indica que la finitud de la varianza σ 2 = V ar(Xk ) de


los sumandos es importante en (la mayorı́a de) los TCL. Si X1 , X2 , . . . son v.a. i.i.d.
con V ar(X1 ) = ∞, y que satisfacen ciertas condiciones, entonces existe una sucesión
Sn
numérica {bn : n = 1, 2, . . . } tal que ⇒ Z, donde Z no es una v.a. Normal (en
bn
un caso particular Z es Cauchy con densidad (6.1.11)).

8.9 Sean X1 , X2 , . . . ; Y1 , Y2 , . . . v.a. i.i.d. con la densidad exponencial, con parámetro


λ = 1, y Sn = (X1 − Y1 ) + (X2 − Y2 ) + · · · + (Xn − Yn ), n = 1, 2, . . . Calcular los
siguientes lı́mites:

(b) lı́m P Sn < n1/3 ; (c) lı́m P Sn < n2/3 .
 
(a) lı́m P (Sn < n);
n→∞ n→∞ n→∞

Resp. : (a)≈ 0.7611; (b) =0.5; (c) =1.

163
8.5. Ejercicios

8.10 Sean X1 , X2 , . . . v.a. i.i.d. con a = EXk = 0, 0 < σ 2 = V ar(Xk ) y E|Xk |3 < ∞.
Mostrar que para cualesquiera a, b tales que −∞ < a < b < ∞ y para cada α tal
que 0 6 α < 1/2 se cumple que nα P (a 6 Sn 6 b) → 0, cuando n → ∞, .
Sugerencia: Usar la Definición de ρ en (7.3.9) y la desigualdad (8.2.27).
1 1
Nota 8.12 Bajo ciertas condiciones adicionales, n 2 P (a 6 Sn 6 b) → √2π σ
(b − a),
con a, b ∈ R. Este hecho podrı́a ser usado para explicar el porqué cada molécu-
la de un gas en equilibrio en su movimiento térmico tiene una posición aleatoria
representada por un vector aleatorio con una distribución uniforme dentro de un
recipiente.

8.11 Ofrecer algunos argumentos no formales (intuitivos) que sugieran que para una
t relativamente grande, la v.a. X(t) (el capital corriente) en el modelo de riesgo
(4.4.29), tendrá una distribución cercana a la Normal.
Sugerencia: Ver el Ejercicio 4.13 y la Nota 8.1 (d).

8.12 (Un uso del método de Monte Carlo en el Medievo.)


En el Medievo, para obtener una longitud estándar de la medida llamada “pie” se
utilizó el siguiente procedimiento. Se seleccionó a los 16 primeros hombres que salı́an
de una iglesia y se les pidió uno de sus zapatos. Los zapatos se colocaron sobre una
lı́nea recta y se adaptó una cuerda a la longitud total que abarcaban los zapatos en
la lı́nea. Finalmente, la cuerda se dobló a la mitad y después cuatro veces obteniendo
ası́ la medida estándar de “1 pie” (≈ 30.48cm). Al suponer que lasp longitudes de los
zapatos X1 , X2 , . . . , X16 son v.a. i.i.d con a = EXk = 30.48, σ = V ar(Xk ) = 1.2
X1 + X2 + · · · + X16
(cm), y utilizando la medida descrita de un 1 pie como Z := ,
 16
aproximar utilizando el TCL P |Z − a| 6 0.5(cm) .
Resp.: = 0.905 (es decir, una precisión sorprendentemente alta considerando el
“rústico” procedimiento).

8.13 Sean X1 , X2 , . . . , Xk , . . . v.a. independientes, tales que para cada k = 1, 2, . . . ,



1
√ con la probabilidad 1/2,


Xk = k
1
− √ con la probabilidad 1/2.


k
Sn
Mostrar que ⇒ η ∼ N orm(0, 1).
ln n

164
CAPÍTULO 8. TEOREMA CENTRAL DEL LÍMITE

n n
X X 1
Sugerencia: Checar que V ar(Xk ) = se comporta como ln n, cuando
k=1 k=1
k
n → ∞. Para Y n como en (8.2.25) verificar la condición (8.2.26) y usar el Teorema
8.3.

8.14 Imaginemos que una compañı́a de seguros tiene 1,000,000 de automóviles asegura-
dos. El pago mensual para el k-ésimo asegurado (k = 1, 2, . . . , 100000) es la v.a.
(
ξk con la probabilidad p,
Xk =
0 con la probabilidad 1 − p,

donde p = 0.003 es la probabilidad de que ocurra un incidente durante un mes


(descartando la probabilidad de que suceda más de un incidente en p un mes). Supo-
niendo que X1 , X2 , . . . , X100000 son v.a. i.i.d. con Eξk = 2500, σ = V ar(Xk ) = 700
(pesos), aproximar la probabilidad de que el pago total mensual de la compañá a
sus asegurados sea mayor a 0.8 millones.
Resp.: 0.1271.
100
!
Y
8.15 Sean X1 , X2 , · · · ∼ U (0, 1) v.a. i.i.d. Dar una aproximación de P Xk < 10 · 2−100 .
k=1
Resp.: ≈ 0.99951.
Sugerencia: Tomar el logaritmo y aplicar el TCL.

Nota. Se recomienda comparar este resultado con el Ejemplo 6.9.

densidad fXk (x) = 12 e−|x| , x


8.16 Sean X1 , X2 , . . . , Xn v.a. i.i.d. con la   ∈ R, y n = 400.
X + X + · · · + X
1 2 n
Encontrar una constante c tal que P 6 c ≈ 0.95
n
Resp.: c ≈ 0.1386.

8.17 Supongamos que una persona aplica la siguiente estrategia para jugar en la ruleta
americana (ver el Ejemplo 8.3). Primero, apuesta 5 dólares por el “rojo”, si gana
entonces sale; si pierde, apuesta 10 dólares por rojo. La persona sale del juego
después del segundo intento (independientemente del resultado). Sea Z la ganancia-
perdida final. Mostrar que:

(a) P (Z > 0) ≈ 0.72299 > 0.5 (y el juego es “favorable” en este sentido).


(b) EZ ≈ −0.7407 (y el juego no es favorable en este sentido).

165
8.5. Ejercicios

Sugerencia: Escribir Z = Z1 + Z2 para los dos intentos y usar (2.2.13) y (4.1.8)


con (
1, si gana en la primera apuesta,
Y =
0, si pierde en la primera apuesta.

8.18 En el Ejemplo 8.3, sea n el número de apuestas realizadas. Mostrar que para cual-
quier ε > 0 (podrı́a ser muy pequeña), existe la constante
√ K tal que para toda n
5
suficientemente grande se cumple que P (Sn < − 19 n + nK) > 1 − ε.
Sugerencia: Usar el TCL.
5
√ que − 19 n se aproxima a −∞ más
Nota 8.13 Para el Ejercicio 8.18, obsérvese
rápido de lo que puede crecer el término n K.

8.19 Sean X1 , X2 , . . . , Xn . . . v.a. i.i.d. con la siguiente distribución:


  1
P X1 = 1 = P X1 = −1 = .
2
Sean η ∼ N orm(0, 1) y ρ la métrica uniforme definida en (7.3.9). Al igual que (8.2.8)
Yn , n = 1, 2, . . . denotan las correspondientes sumas estandarizadas. Demostrar que
existe una constante c0 > 0 tal que
 c0
ρ Yn , η > √ , n = 1, 2, . . . (8.5.38)
n

Sugerencia: Al igual que en el Ejercicio 6.1, aproxime la distribución de Sn uti-


lizando la distribución binomial y la fórmula de Stirling. También en la estimación
de ρ use el hecho de que las distribuciones de η y de X1 (y consecuentemente de Sn )
son simétricas respecto al origen.

Nota 8.14 El resultado en (8.5.38) muestra que para v.a. i.i.d. la tasa de conver-
gencia a la distribución Normal dada por la parte derecha de la desigualdad en
(8.2.27), en general, no puede ser mejorada, es decir, en el caso general en la parte
derecha de (8.2.27) no es posible poner una sucesión {an : n = 1, 2, . . . } que se anule
constante
más rápido que la sucesión √ n = 1, 2, . . .
n

166
Capı́tulo 9

Comparación de distribuciones de
sumas de variables aleatorias y
estabilidad de algunos modelos
estocásticos aplicados

9.1. Desigualdades de estabilidad para sumas de va-


riables aleatorias i.i.d.
En este último capı́tulo se verá de forma concisa algunos resultados recientes que, por
un lado, utilizan un enfoque métrico para generalizar estimaciones de la tasa de conver-
gencia en los TCL, y por otro lado, proveen herramientas para investigar la estabilidad
de los modelos que involucran sumas de v.a.

Las sumas de v.a. independientes son elementos importantes en muchos modelos apli-
cados. Por mencionar algunos, señalamos los procesos de riesgo (véase la Sección 4.4),
procesos de almacenamiento, procesos de regularización del nivel de agua en presas, mo-
delos de colas (filas de espera), procesos de optimización en el reemplazo de equipo, etc.
(consúltese por ejemplo Asmussen (1987) y Tijms (1994)). El siguiente problema surge en
el estudio de la estabilidad (robustez) de modelos de este tipo.

Sean X1 , X2 , . . . y X
f1 , X
f2 , . . . dos sucesiones de v.a. i.i.d. con f.d. F y Fe, respectiva-
mente, y sean para n = 1, 2, . . .

Sn = X1 + · · · + Xn ; e1 + · · · + X
Sen = X en . (9.1.1)

167
9.1. Desigualdades de estabilidad

El problema consiste en establecer desigualdades de la forma


    
e1 ) ≡ g µ(F, Fe) ,
ρ Sn , Sen 6 g µ(X1 , X (9.1.2)

donde ρ es la métrica uniforme (de Kolmogórov) definida en (7.3.9), µ es una métrica


probabilı́stica adecuada, y g(x) con x > 0 es una función que se anula, cuando x → 0. En
c
algunos casos (que son “mejores”, véase más adelante) g(x) = cn g∗ (x), donde cn = √ →
n
0, cuando n → ∞. El uso en (9.1.2) de la métrica uniforme se explica por su comodidad
en aplicaciones prácticas. De hecho, según (7.3.9), (1.2.5), (1.2.10), la cercanı́a a cero de
la distancia ρ(X, X)
e (i.e. ρ(X, X)
e 6 ε para alguna ε > 0 pequeña) resulta que

P (X ∈ I) − P (Xe ∈ I) 6 2ε (9.1.3)
para cualquier intervalo I ⊂ R, y las desigualdades como (9.1.3) son convenientes para
comparar las distribuciones de las v.a. X y X
e en problemas aplicados.

Es fácil ver que cuando en (9.1.1) EX1 6= E X e1 , entonces no es posible llegar a una
desigualdad razonable como en (9.1.2) con las propiedades de la función g(x) que se han
mencionado (debido a que ESn − E Sen = n(EX1 − E X e1 ) → ∞ cuando n → ∞, si por
ejemplo, EX1 > E X e1 ). Por esto, en el resto del texto, se aplicará la siguiente condición.

Suposición 9.1.1 Existen las esperanzas EX1 , E X


e1 , y

a := EX1 = E X
e1 . (9.1.4)

No es tan fácil, pero es factible, dar algunos ejemplos en los que se cumple (9.1.4), y
ρ Sn , Sen > ∆ > 0, para n = 1, 2, . . . , a pesar que µ F, Fe → 0 para una clase amplia de
las métricas µ. Estos ejemplos indican que para obtener (9.1.2) hay que buscar algunas
restricciones adicionales para las distribuciones de las v.a. X1 y X e1 .

Primero intentaremos usar el TCL. Supongamos, además que


3
E|X1 |3 < ∞, e1 < ∞
E X y e1 ) = σ 2 .
0 < V ar(X1 ) = V ar(X (9.1.5)

Al usar las notaciones introducidas en (8.2.11) y (8.2.12), sean, para n = 1, 2, . . . ,


n n
Sn − na 1 X Sen − na 1 Xe
Yn = √ =√ ξk y Yen = √ =√ ξk , (9.1.6)
σ n n k=1 σ n n k=1

168
CAPÍTULO 9. ESTABILIDAD DE ALGUNOS MODELOS
ESTOCÁSTICOS APLICADOS

Xk − a ek − a
X
donde ξk = y ξek = para k = 1, 2, . . . , n.
σ σ
En el libro Senatov (1998) se ha demostrado el siguiente teorema, que es, en efecto,
un ingenioso desarrollo del TCL 8.1.

Teorema 9.1 Sean X1 , X2 , . . . , Xk , . . . v.a. i.i.d. para las cuales la condición (9.1.5) se
cumple. Entonces, existe una constante C tal que para n = 1, 2, . . .

 C 
ρ Yn , η 6 √ máx ρ(ξ1 , η), ζ3 (ξ1 , η) . (9.1.7)
n

En (9.1.7), Yn y ξ1 están definidas en (9.1.6), η ∼ N orm(0, 1) y ζ3 es la métrica de


Zolotarev definida en (7.3.16).

Ahora, según el Ejercicio 9.1, la métrica uniforme tiene la siguiente propiedad



ρ αX + b, αY + b = ρ(X, Y ), (9.1.8)

para cualesquiera números reales α 6= 0 y b. Entonces, bajo la Suposición 9.1.1 y la


condición (9.1.5) se obtiene: para las sumas en (9.1.1) y para cada n fija,
!
Sn na S na
√ − √ , √n − √
 e 
ρ Sn , Sen = (por (9.1.8)) = ρ ≡ ρ Yn , Yen
σ n σ n σ n σ n
6 (por la desigualdad del triángulo para la métrica ρ)
6 ρ(Yn , η) + ρ(η, Yen ) (por (9.1.7) y por su análogo para Yen ).

O bien,
 C h   i
ρ Sn , Sn 6
e √ máx ρ(ξ1 , η), ζ3 (ξ1 , η) + máx ρ(ξ1 , η), ζ3 (ξ1 , η) ,
e e (9.1.9)
n

donde η ∼ N orm(0, 1).

La parte derecha de la desigualdad (9.1.9) se anula cuando n → ∞ (lo cual es una


buena propiedad), sin embargo, al hacer una comparación con (9.1.2), se puede ver
que en (9.1.9) se ha perdido el factor esencial de “cercanı́a” de sumandos en (9.1.1),
µ(X1 , X
e1 ) = µ(F, Fe). Este factor es importante para nuestros propósitos, puesto que, co-
mo veremos en la Sección 9.2, para estudiar la estabilidad de algunos modelos es necesario

169
9.1. Desigualdades de estabilidad

tener una cercanı́a entre las distribuciones de Sn y Sen , para toda n = 1, 2, . . . , cuando en
(9.1.1) la distribución de X
ek se aproxima a la distribución de Xk .

Sean η1 , η2 , . . . , ηn ∼ N orm(0, 1) v.a. i.i.d. Al usar las notaciones en (9.1.6), el Teorema


2.2 y (9.1.8), se puede reescribir la parte izquierda de (9.1.7) como sigue:
n
! n
!
 1  Sn − na  1 X Sn − na X
ρ Yn , η = ρ √ ,√ ηk = ρ , ηk
n σ n k=1 σ k=1
n
!
X
= ρ Sn − na, σ ηk .
k=1

n
!
 X
O bien, ρ Yn , η = ρ S n , (σ ηk + a) , (9.1.10)
k=1

donde debido a que E(σ ηk + a) = a, V ar(σ ηk + a) = σ 2 , la v.a Zk := σ ηk + a ∼


N orm(a, σ). Entonces, con estas notaciones, se obtiene por (9.1.10) y (9.1.7) la siguiente
desigualdad, para n = 1, 2, . . .
n n
!   
X X C X1 − a Z1 − a
ρ Xk , Zk 6 √ máx ρ(X1 , Z1 ), ζ3 , . (9.1.11)
k=1 k=1
n σ σ

El propósito de los siguientes resultados (publicados en Gordienko (2004) y presenta-


dos en este texto sin demostración), es ofrecer algunas versiones de las desigualdades en
(9.1.11) en las cuales las v.a. Normales Z1 , Z2 , . . . , Zn , se sustituyen por v.a. generales
absolutamente continuas. Esto conllevará a las desigualdades de estabilidad del tipo
(9.1.2) que se cumplen, por ejemplo, bajo la siguiente hipótesis.

Suposición 9.1.2 Existe un entero m > 1 para el cual las v.a. X1 + X2 + · · · + Xm y


X e2 + · · · + X
e1 + X em tienen densidades derivables fX y f e respectivamente, y tales que
X
Z ∞ Z ∞
0 0
fX (x) dx < ∞ y f e (x) dx < ∞. (9.1.12)
X
−∞ −∞

Nota 9.1 La Suposición 9.1.2 se satisface para la mayorı́a de las densidades de uso habi-
tual. Por ejemplo, la densidad exponencial, cuya gráfica se puede ver en la Figura 1.8, no
es derivable en el punto x = 0; sin embargo, la v.a Z = X1 + X2 + X3 con Xi ∼ Exp(λ)
independientes para i = 1, 2, 3, tiene densidad (Gamma (α = 3, λ)) que satisface (9.1.12).

170
CAPÍTULO 9. ESTABILIDAD DE ALGUNOS MODELOS
ESTOCÁSTICOS APLICADOS

Teorema 9.2 (Gordienko (2004)) Admitamos que las Suposiciones 9.1.1 y 9.1.2 se cum-
plen, y que EX12 < ∞, E X e 2 < ∞. Entonces existe una constante C1 tal que para cada
1
n = 1, 2, . . .
 n  o
ρ Sn , Sn 6 C1 máx ρ X1 , X1 , ζ2 X1 , X1 .
e e e (9.1.13)

Teorema 9.3 (Gordienko (2004)) Admitamos que las Suposiciones 9.1.1 y 9.1.2 se cum-
plen, y además supongamos que
 
e2 ,
E X12 = E X 1 (9.1.14)

E|X1 |3 < ∞ y E|X


e1 |3 < ∞. Entonces existe una constante C2 tal que para cada n =
1, 2, . . . ,
 C2 n  o
ρ Sn , Sen 6 √ máx ρ X1 , X
e1 , ζ3 X1 , X
e1 . (9.1.15)
n

En (9.1.13) y (9.1.14) ζ2 y ζ3 son las métricas de Zolotarev definidas respectivamente


en (7.3.15) y (7.3.16).

Nota 9.2 Las constantes C1 y C2 en (9.1.13) y (9.1.15) se calculan explı́citamente en


términos de ciertas caracterı́sticas de las distribuciones de X1 y X e1 . En el caso general, no
es posible quitar los términos ζ2 (X1 , X1 ) y ζ3 (X1 , X1 ) en las partes derechas de (9.1.13)
e e
y (9.1.15) respectivamente (ver el Ejercicio 9.3). Si se cumplen las condiciones de los Teo-
remas 9.2 y 9.3, entonces por la Proposición 7.5 dichas distancias son finitas.

1
El factor √ en la parte derecha de (9.1.15) implica que para n grandes las sumas Sn y
n
Sen tienen distribuciones muy parecidas (a pesar de que las distribuciones de los sumandos
Xk y X ek en (9.1.1) podrı́an ser muy distintas).
Al considerar en (9.1.15) Sen = Z1 + Z2 + · · · + Zn con Zk ∼ N orm(a, σ), k = 1, 2, . . . , y
usando el Teorema 2.2, según el cual Sen tiene distribución Normal, vemos que, en este caso
particular, la expresión de (9.1.15) se convierte en la estimación de la tasa de convergencia
en el TCL dada en (9.1.11). De resultados bien conocidos sobre esta última estimación se
siguen dos afirmaciones:

1. En el caso general, los factores 1/ √n de (9.1.15) no pueden ser sustituidos por factores
que se anulen más rápido que 1/ n (cuando n → ∞).

171
9.2. Estimación de la estabilidad en el modelo de riesgo de
Cramér-Lundberg


2. Para obtener los factores 1/ n, n = 1, 2, . . . en (9.1.15), la igualdad de los segundos
momentos (o varianzas) en (9.1.14) es esencial y no puede cambiarse por alguna
condición menos restrictiva.

9.2. Estimación de estabilidad en el modelo de riesgo


de Cramér-Lundberg
Regresando al modelo de riesgo de la Sección 4.4, supongamos que la f.d. común F
de las v.a. i.i.d. ξ1 , ξ2 , . . . (tamaño de reclamaciones) involucradas en la ecuación (4.4.29)
del modelo clásico de riesgo

N (t)
X
X(t) = x + γt − ξk , t > 0. (9.2.16)
k=1

es desconocida. Esta situación es tı́pica en la práctica y en tal caso se usa una f.d. Fe como
una aproximación de F , obtenida por estimaciones estadı́sticas o simplificaciones teóricas.

Sean ξe1 , ξe2 v.a. i.i.d. con la f.d. Fe. Entonces, un investigador no puede trabajar con el
modelo “real” (9.2.16), pero puede estudiar el modelo aproximado

N (t)
X
e = x + γt −
X(t) ξek , t > 0. (9.2.17)
k=1

(Aquı́ no se está considerando lo referente a la aproximación de N (t); consúltese la Nota


9.4 (b), más adelante.)

El siguiente teorema provee las desigualdades de estabilidad (o robustez) en


el modelo considerado. Dichas desigualdades permiten estimar la cercanı́a, mediante la
métrica ρ, de las distribuciones de X(t) y X(t)e en (9.2.16) y (9.2.17), en términos de la
desviación entre la f.d. F (de las v.a. ξk ) y la f.d. F (de las v.a. ξk ). La desviación de la
e e
cual se habla se mide mediante el máximo entre la distancia uniforme y las distancias de
Zolotarev.

172
CAPÍTULO 9. ESTABILIDAD DE ALGUNOS MODELOS
ESTOCÁSTICOS APLICADOS

Teorema 9.4 Admitimos que las v.a. ξ1 , ξ2 , . . . y ξe1 , ξe2 , . . . satisfacen las Suposiciones
9.1.1 y 9.1.2 (con ξk , ξek en lugar de Xk , X
ek ).
 
(a) Si E ξ 2 < ∞ y E ξe2 < ∞, entonces, para toda t > 0
1 1

  n o
ρ X(t), X(t)
e 6 C1 máx ρ(ξ1 , ξe1 ), ζ2 (ξ1 , ξe1 ) . (9.2.18)

(b) Si E|ξ1 |3 < ∞, E|ξe1 |3 < ∞ y V ar(ξ1 ) = V ar(ξe1 ), entonces, para toda t > 0
  C2 n o
ρ X(t), X(t)
e 6 √ √ máx ρ(ξ1 , ξe1 ), ζ3 (ξ1 , ξe1 ) , (9.2.19)
λ t

donde C1 y C2 son las constantes que aparecen en (9.1.13) y (9.1.15), y λ es la


intensidad del proceso de Poisson N (t) en (9.2.16) y (9.2.17).

Antes de demostrar este teorema se tengamos en cuenta los siguientes comentarios.

Nota 9.3 (a) Las distancias ζ2 (ξ1 , ξe1 ) en (9.2.18) y ζ3 (ξ1 , ξe1 ) en (9.2.19) son finitas de-
bido a las hipótesis del Teorema 9.4 y de la Proposición 7.5.
(b) La desigualdad (9.2.18) afirma que, si del modelo (9.2.17) se obtiene una buena
aproximación para el modelo real (9.2.16) de forma que Eξ1 = E ξe1 , y la distancia
 
máx ρ(ξ1 , ξe1 ), ζ2 (ξ1 , ξe1 ) ≡ máx ρ(F, Fe), ζ2 (F, Fe) es pequeña, entonces la distan-
cia uniforme entre los procesos de riesgo es

ρ X(t), X(t) e = sup P (X(t) 6 x) − P (X(t)
e 6 x)
x∈R

también será pequeña para toda t > 0.


Por ejemplo, si se sabe que con una ε > 0 pequeña

máx ρ(F, Fe), ζ2 (F, Fe) 6 ε,

entonces |P (X(t) ∈ I) − P (X(t)


e ∈ I)| 6 2C1 ε para cada intervalo en R y para cada
t > 0.
(c) La desigualdad (9.2.19) se cumple, cuando los promedios y las varianzas de la v.a.
ξ1 y su aproximación ξe1 son iguales. Esta fuerte restricción nos da la ventaja de
que la parte derecha de (9.2.19) se anula cuando t → ∞. Por lo tanto, las f.d. de
X(t) y X(t)
e son cercanas para t grandes,
 incluso si las f.d. de ξ1 y ξ1 son bastante
e
diferentes. Sin embargo, cuando máx ρ(F, Fe), ζ3 (F, Fe) se aproxima a cero y t → ∞,
la desigualdad (9.2.19) garantiza “un efecto doble de estabilidad”.

173
9.2. Estimación de la estabilidad en el modelo de riesgo de
Cramér-Lundberg

(d) La desigualdad (9.2.19) da una mejor cota de estabilidad del proceso de riesgo que
la demostrada en el libro de Rachev(1991).

Nos limitamos a la demostración de (9.2.19). De (9.2.16), (9.2.17) y la propiedad (9.1.8)


de la métrica ρ, se obtiene:
 
N (t) N (t)
  X X
ρ X(t), X(t)
e = ρ ξk , ξek  = (por (7.3.9) y (1.2.5))
k=1 k=1
   
N (t) N (t)
X X
= sup P  ξk 6 x − P  ξek 6 x = (por (2.2.13))
x∈R
k=1 k=1
∞ n
!
X X 
= sup P ξk 6 x N (t) = n · P N (t) = n −

x∈R n=1
k=1
∞ n
!
X X 
− P ξek 6 x N (t) = n · P N (t) = n

n=1 k=1

6 (por la independencia entre N (t) con ξ1 , ξ2 , . . . , y ξe1 , ξe2 , . . . ),


"∞ n
! n
! #
X X X
6 sup P ξk 6 x − P ξek 6 x · P (N (t) = n) . (9.2.20)

x∈R n=1
k=1 k=1
P P
Esta última desigualdad es debido a que | xk | 6 |xk |.
n
X n
X
Sean Sn := ξk y Sen := ξek . Para cada x ∈ R arbitrario pero fijo, se tiene
k=1 k=1
! !
n n

X X  
P ξk 6 x − P ξek 6 x = P Sn 6 x − P Sen 6 x


k=1 k=1

6 sup FSn (x) − FSen (x) = (por (7.3.9)) = ρ Sn , Sen 6 (por (9.1.15))
x∈R
C2 n o
6 √ máx ρ(ξ1 , ξe1 ), ζ3 (ξ1 , ξe1 ) . (9.2.21)
n
De (9.2.20) y (9.2.21) se obtiene


   X 1 
ρ X(t), X(t)
e 6 C2 máx ρ(ξ1 , ξe1 ), ζ3 (ξ1 , ξe1 ) · √ P N (t) = n . (9.2.22)
n=1
n

174
CAPÍTULO 9. ESTABILIDAD DE ALGUNOS MODELOS
ESTOCÁSTICOS APLICADOS

Ahora consideremos la v.a.


(
Nb (t) = N (t) si N (t) > 1,
1 si N (t) = 0.
 

1   X 1 
Por (3.1.8) se tiene que E q
 = 1 · P N (t) = 0 + √ P N (t) = n . Entonces
n
N
b (t) n=1
 

X 1  1  1 1
√ P N (t) = n < E  q 6 (según el Ejercicio 9.4) 6 q 6p ,
n EN (t)
n=1 N (t)
b E N (t)
b
∞ ∞
 X  X
puesto que de (3.1.4) E N (t) = 1 · P N (t) = 0 +
b n P N (t) = n > n P N (t) =
 n=1 n=0
n = EN (t) = (por (4.3.27)) = λ t. Por tanto,

X 1 1
√ P (N (t) = n) < √ . (9.2.23)
n=1
n λt
Finalmente, al combinar (9.2.23) y (9.2.22) se obtiene (9.2.19). 2

Veamos ahora un sencillo ejemplo un poco artificial, pero que sirve para ilustrar la
desigualdad (9.2.18).

Ejemplo 9.1 Sea ξ1 ∼ U (1 + ε, 3 − ε) con ε ∈ (0, 1/2) (un parámetro “pequeño”). Se


aproxima ξ1 mediante la v.a. ξe1 ∼ U (1, 3). Por (3.1.7) se tiene que Eξ1 = E ξe1 = 2, y
además es evidente que E(ξ1 )2 < ∞, E(ξe1 )2 < ∞. Al usar la fórmula de convolución
(2.2.18) no es difı́cil verificar que la Suposición 9.1.2 se cumple con m = 3. De lo anterior
se tiene que se satisfacen las hipótesis del Teorema 9.4 (a).

Mediante cálculos directos (ver el Ejercicio 9.7) y al graficar las f.d. Fξ1 y Fξe1 , se
Z ∞
 ε
puede ver que ρ ξ1 , ξe1 = . Luego, usando la desigualdad ζ2 (X, Y ) 6 |x| |FX (x) −
2 −∞
FY (x)| dx (ver la Nota 7.8) y por cálculos elementales (ver el Ejercicio 9.7) se obtiene
ε
que ζ2 (ξ1 , ξ2 ) 6 6 2ε (pues ε < 0.5).
1−ε
Por lo tanto, de la desigualdad (9.1.15) resulta que para toda t > 0,
 
ρ X(t), X(t)
e 6 2C1 ε.

175
9.3. Estimación de la estabilidad en otros modelos

Esta desigualdad, en particular, significa que cuando ε → 0 las f.d. FX(t)


e (x) se aproximan
a la f.d. FX(t) (x) uniformemente para x > 0 y t > 0.

Nota 9.4 (a) Como se obtiene de la demostración del Teorema 9.4, las desigualdades
(9.2.18) y (9.2.19) también son ciertas para cualquier proceso de recibimiento de re-
clamaciones N (t) (ver la Sección 4.4) que es independiente de ξ1 , ξ2 , . . . y de ξe1 , ξe2 , . . .
Entonces, en el Teorema 9.4, N (t) podrı́a ser un proceso distinto a uno de Poisson.
El único cambio necesario será sustituir en (9.2.19) el factor √1λ t por √ 1 .
E(N (t))

(b) Los métodos desarrollados en Roos & Pfeifer(2003) donde se comparan las distribu-
ciones de v.a. discretas, se pueden usar para generalizar las desigualdades de estabili-
dad (9.2.18) y (9.2.19), extendiendolas a los casos en que, en lugar de (9.2.17) aparece
= x+γ t− N
Pb
X(t)
e
k=1 (t)ξk , donde N (t) es el proceso que sirve para aproximar un
e b
proceso no completamente conocido N (t) en el modelo “real” (9.2.16).

9.3. Observaciones acerca de la estimación de la es-


tabilidad en otros modelos aplicados
Las desigualdades (9.1.13) y (9.1.15) tienen una amplia área de aplicaciones en la
investigación de la estabilidad de los modelos que involucran las sumas de v.a. Por ejemplo,
en el modelo de riesgo de Cramér-Lundberg, considerado arriba, la desigualdad (9.1.13)
sirve para estimar la estabilidad de la ruina definida en (4.4.34). La clave para realizar
esta aplicación, está en la siguiente ecuación bastante conocida (ver Rolski et al (1999)):
ν
!
X
P (de ruina) = (1 − q)P Xk > x ,
k=1

donde x es el capital inicial, q = 1 − λa


γ
< 1, la v.a. ν no depende de X1 , X2 , . . . y
ν ∼ Geom(q) (ver (2.3.21)). Además, las v.a. i.i.d. X1 , X2 , . . . tienen la siguiente f.d.
común:
1 x
Z

FX1 (x) = 1 − Fξ1 (t) dt x > 0, (a = Eξ1 ).
a 0
Entre otras aplicaciones de las desigualdades (9.1.13), (9.1.15) y sus versiones con la
métrica de variación total (7.3.14), mencionamos: el estudio de estabilidad

176
CAPÍTULO 9. ESTABILIDAD DE ALGUNOS MODELOS
ESTOCÁSTICOS APLICADOS

- de la distribución del tiempo aleatorio de espera en la teorı́a de colas;

- de las polı́ticas óptimas de reemplazo del equipo;

- de algunos procesos de control del nivel del agua en presas;

- de algunos procesos de almacenamiento;

- entre otras.

Es necesario resaltar que un desarrollo con el enfoque métrico al estudio de la es-


tabilidad (robustez) de procesos de Markov a tiempo discreto controlables ha resuelto
las estimaciones de estabilidad de polı́ticas óptimas de control de procesos de Markov.
Por ejemplo, el artı́culo Gordienko et al (2008) contiene una estimación de estabilidad de
polı́ticas de inversiones óptimas para un modelo de inversión-consumo a tiempo discreto
descrito en (6.3.40). En este caso, un papel decisivo lo juega la métrica de Kantoróvich1 :
Z ∞

`(X, Y ) := FX (x) − FY (x) dx. (9.3.24)
−∞

`
La convergencia Xn → X equivale a Xn ⇒ X (la convergencia débil) junto con
E|Xn | → E|X| (consultar el Ejercicio 9.2).

Nota 9.5 En este libro (en los Capı́tulos 7–9) hemos considerado seis métricas proba-
bilı́sticas diferentes, a saber:

- ρ, uniforme (de Kolmogórov);


- d0 , de Fortet-Mourier;
- V, de variación total;
- ζ2 , de Zolotarev de orden 2;
- ζ3 , de Zolotarev de orden 3; y
- `, de Kantoróvich.

Mientras que, por ejemplo, en el libro de Rachev (1991) se consideran alrededor de 100
métricas probabilı́sticas diferentes.

1
Leonid V. Kantoróvich (1912-1986) economista y matemático soviético, ganador del premio Nobel en
economı́a. Es considerado como uno de los creadores de la programación lineal.

177
9.4. Ejercicios

9.4. EJERCICIOS
9.1 Sea ρ la métrica uniforme definida en (7.3.9). Demostrar que para cualesquiera v.a.
X y Y ypara cualesquiera números reales α 6= 0, b ∈ R se cumple que ρ αX +
b, αY + b = ρ(X, Y ).
Sugerencia: Verificar que FαX+b (x) = FX αx − αb y observar que para cualquier


función ϕ : R → R se cumple que supx∈R ϕ(x) = supx∈R ϕ( αx − αb ) ya que la


aplicación x → αx − αb es uno a uno (inyectiva).
9.2 Sea ` la métrica
 de Kantoróvich definida en (9.3.24) y X, Xn , n = 1, 2, . . . v.a. tales
que ` Xn , X → 0 cuando n → ∞.
(a) Dar argumentos convincentes, no necesariamente formales, que sugieran que
Xn ⇒ X.
(b) Suponga que X > 0, Xn > 0, n = 1, 2, . . . Demostrar que EXn → EX cuando
n → ∞.
R
Sugerencia:
R Para (b), usar la fórmula (3.3.27) y el hecho de que | ϕ(x) dx| 6
|ϕ(x)| dx.

9.3 Sean X1 , X2 , · · · ∼ N orm(0, 1) v.a. i.i.d., y X


e1 , X
e2 , . . . v.a. i.i.d. con la distribución
siguiente: 
η1 con probabilidad (1 − ε),
X
e1 := η
 2 con probabilidad ε,
ε
donde η1 , η2 ∼ N orm(0, 1) son v.a. i.i.d. y ε ∈ (0, 1) es un número arbitrario dado.
e1 = 0; σ 2 = V ar(X1 ) = 1 y
(a) Mostrar que para cualquier ε: a = EX1 = E X
1
σε2 = V ar(X
e1 ) = (1 − ε) + → ∞ cuando ε → 0. (9.4.25)
ε
(b) Comprobar que
e1 ) → 0 cuando ε → 0.
ρ(X1 , X (9.4.26)
(c) Sean para cada n = 1, 2, . . . , Sn = X1 + · · · + Xn , Sen = X
e1 + · · · + X
en . Verificar
que se satisfacen todas las hipótesis del Teorema 9.2.
(d) Mostrar que existe una constante K > 0 tal que para cualquier ε > 0 y para
toda n suficientemente grande, se tiene que:

ρ(Sn , Sen ) > K. (9.4.27)

178
CAPÍTULO 9. ESTABILIDAD DE ALGUNOS MODELOS
ESTOCÁSTICOS APLICADOS

Sugerencias: Para (a) y (b) usar la fórmula de probabilidad total.


!
 S n S
e n
Para (d): ρ Sn , Sen = (por (9.1.8)) = ρ √ , √ = (por (2.2.19))
σε n σε n
!
Sen
= ρ ηε , √ , (9.4.28)
σε n

donde ηε ∼ N orm(0, 1/σε ). Luego, por el TCL, ρ η, σεS√n n → 0 cuando n → ∞,


e 

donde η ∼ N orm(0, 1). De (9.4.25), 1/σε → 0 cuando ε → 0 y, como es fácil ver


que esto implica que ηε ⇒ 0 cuando ε → 0. Es por esto que existe δ > 0 tal que
para toda ε < δ se cumple que 2K 6 ρ(η, ηε ) 6 (por la desigualdad del triángulo !
Sen  Sen  Sen
para la métrica ρ) 6 ρ η, √ + ρ √ , ηε = (por (9.4.28)) = ρ η, √ +
σε n σε n σε n

ρ Sn , Sen . Como el primer sumando en la parte derecha de la última desigualdad
tiende a cero, entonces, para toda n suficientemente grande se tiene que ρ(Sn , Sen ) >
K.

Nota 9.6 En el último ejercicio, por (9.1.13) se tiene que



ρ(Sn , Sen ) 6 C1 máx ρ(X1 , X
e1 ), ζ2 (X1 , X
e1 ) ,

e1 ) → 0 cuando n → ∞. La comparación de la última desigual-


y por (9.4.26), ρ(X1 , X
e1 ) no se aproxima a cero cuando ε → 0. Por lo
dad con (9.4.27) sugiere que ζ2 (X1 , X
tanto, el ejemplo muestra que la presencia de la métrica de Zolotarev ζ2 en la parte
derecha de la desigualdad de estabilidad (9.1.13), se da, en general, inevitablemente.

9.4 Demostrar la siguiente versión particular de la desigualdad de Jensen2 :

Sea X una v.a. con los valores en un intervalo (acotado o no) I y sea g : I → R
una función tal que g 00 (x) 6 0, para todo x ∈ I. Suponiendo que EX y Eg(X)
existen, demostrar que
Eg(X) 6 g[EX],
 
1 1
en particular, E √ 6√ para una v.a. X > 0.
X EX
2
Johan L. W. V. Jensen (1859-1925) matemático e ingeniero danés, conocido por su desigualdad.

179
9.4. Ejercicios

Sugerencia: Usando el desarrollo de Taylor con 00el “centro” en x0 = EX ∈ I,


obtenemos que g(X) = g(EX)+g 0 (EX)(X−EX)+ g 2(τ ) (X−EX)2 , donde τ = τ (X)
es una v.a. Faltarı́a tomar la esperanza de ambas partes de la última desigualdad y
ver que E[g 00 (τ )(X − EX)2 ] 6 0.

9.5 Sean X y Y v.a. con valores positivos. Demostrar que ρ(X, Y ) = ρ(ln X, ln Y ).
Sugerencia: La función ϕ(x) = ex hace la correspondencia uno a uno entre
(−∞, ∞) y (0, ∞).

9.6 Sean X1 , X2 , . . . v.a. positivas i.i.d. tales que existen (y son finitas) E ln(X1 ) < ∞
y E[ln(X1 )]2 < ∞. Sean también X e1 , X
e2 , . . . v.a. i.i.d. con las mismas propiedades
y N una v.a. con valores en {1, 2, . . . , k, . . . } que no depende de X1 , X2 , . . . ni de
X e2 , . . . Demostrar que para Y := X1 · X2 · . . . · XN ; Ye := X
e1 , X e ·Xe2 · . . . · X
eN se
 n  o 1
cumple que ρ Y, Ye 6 C1 máx ρ(X1 , X e1 ), ζ2 ln(X1 ), ln(X e1 ) .

Sugerencia: Tomar el logaritmo de las v.a., utilizar el Ejercicio 9.5, la desigualdad


(9.1.13) y el método usado en la prueba del Teorema 9.4.

9.7 Sean X ∼ U (1, 3) y Xε ∼ U (1 + ε, 3 − ε) para ε ∈ (0, 1). Mostar que


ε ε
(a) ρ(X, Y ) = y (b) ζ2 (X, Y ) 6 .
2 1−ε

Sugerencia: (a) Calcular las f.d. FX y FXε y trazar sus gráficas.


(b) Usar la cota superior para ζ2 dada en la Nota 7.8.

180
Bibliografı́a

[1] Asmussen, S., (1987), Applied Probability and Queues, Wiley, New York.
[2] Breiman, L. (1969), Probability and Stochastic Processes: with a View Toward Appli-
cations, Houghton Mifflin, Series in Statistics, Boston.
[3] Durrett, R. (1991), Probability: Theory and Examples, Wadsworth & Brooks, Pacific,
California.
[4] Feller, W. (1978), Introducción a la Teorı́a de Probabilidades y sus Aplicaciones, Vol.
II, Limusa, México.
[5] Gnedenko, B.V., Belyayev, Y. K. and Solovyev, A.D. (1969), Mathematical Methods
of Reliability Theory, Academic Press, New York.
[6] Gordienko, E. (2004), Stability estimates of generalized geometric sums and their
applications, Kybernetika, 40, 257-272.
[7] Gordienko, E. (2011), Andrey Kolmogorov: El último gran matemático universal,
Miscelánea Matemática, 52, 1-29.
[8] Gordienko, E., Lemus-Rodrı́guez, E., y Montes-de-Oca, R. (2008), Discounted cost
optimality problem: stability with respect to weak metrics, Math. Meth. Oper. Res.,
68, 77-96.
[9] Hoel, P., Port, S., and Stone, C. (1971), Introduction to Probability Theory, Houghton
Mifflin, Series in Statistics, Boston.
[10] Kalashnikov, V. V. and Rachev, S.T. (1990), Mathematical Methods for Construction
of Queueing Models, Wadsworth, Pacific Grove, California.
[11] Korn, R. and Korn, E. (2001), Option Pricing and Portfolio Optimization, American
Math. Society, Providence.
[12] Kudrı́avtsev, L.D. (1988), Curso de Análisis Matemático, MIR, Moscú.

181
BIBLIOGRAFÍA

[13] Meester, R. (2003), A Natural Introduction to Probability Theory, Birkhäuser Verlag,


Basel.

[14] Pitman, J. (1993), Probability, Springer-Verlag, New York.

[15] Prokhorov, A.V., Ushakov, V. G., and Ushakov, N. G. (1986), Exercises in Probability
Theory. Main concepts, Limit Theorems, Random Proceses, “Nauka”, Moscow, (in
Russian).

[16] Rachev, S.T. (1991), Probability Metrics and the Stability of Stochastic Models, Wiley,
New York.

[17] Rincón, L. (2012), Introducción a la Teorı́a del Riesgo, Facultad de Ciencias, UNAM,
México.

[18] Rolski, T., Schmidli, H., Schmidt, V. and Teugels, J. (1999), Stochastic Processes for
Insurance and Finance, John Wiley and Sons, Chichester.

[19] Roos, B. and Pfeifer, D. (2003), On the Distance between the Distributions of Random
Sums, J. Appl. Probab., 40, 87-106.

[20] Senatov, V. V. (1998), Normal Approximation: New Results, Methods and Problems,
VSP, Utrecht.

[21] Tijms, H. C. (1994), Stochastic Models: an Algorithmic Approach, John Wiley and
Sons, Chichester, pp. 375.

[22] Zolotarev, V. M. (1997), Modern Theory of Summation of Random Variables, VSP,


Utrecht.

182
Índice Analı́tico

Caminata aleatoria, 65 del triángulo, 125


con dos barreras absorbentes, 67–68 desigualdades
con una barrera absorbente, 69 de estabilidad o robustez, 172
simple d-dimensional, 66 distancia
tiempo de primer regreso, 82 en R, 126
caminatas aleatorias simples, 64–69 entre v.a., véase métrica
campana de Gauss, 143 distribución
capital binomial, 6
promedio, 108 condicional, 28
real, 108 de Bernoulli, 6, 18
coeficiente de correlación, 25, 84 de Cauchy, 33, 99
condición de Lyapunov, 151 de la suma de v.a.
convergencia a.c. e independientes, véase
casi segura, véase convergencia con convolución
probabilidad uno exponenciales, 170
con probabilidad uno, 94 normales, 31
débil de v.a., 121 Poisson, 32
respecto a una métrica, 126 uniformes, 156
de Maxwell, 54
Densidad de Poisson, 7, 137
de una v.a. a.c., 8 de una v.a. discreta, 6
condicional, 28 de Weibull, 58, 124
conjunta, 24 degenerada, 45, 122
marginal, 30 entropı́a de la-, 159
normal estándar bidimensional, 25 exponencial, 11
uniforme bidimensional, 24 ausencia de memoria de-, 34
desigualdad Gamma, 55
de Chebyshev, 48 ausencia de memoria de-, 56
de Jensen, 179 geométrica, 7

183
ÍNDICE ANALÍTICO

lognormal estándar, 91 evento(s), 1, 2


marginal, 30 disjuntos, 2, 3
normal, 13, 36, 143 independientes, 22
estándar, 13, 147 ocurrencia de un-, 3
estándar bidimensional, 25
simétrica, 53 Fórmula
uniforme, 14, 18 de convolución, 31
discreta, 138 de probabilidad total, 27
frecuencia relativa, 93
Espacio función
de probabilidad, 1, 2 de distribución, 8
métrico, 125 conjunta, 23
muestral, 1, 2 de la exponencial, 11
esperanza, 39–43 de la normal estándar, 13, 148
condicional, 59–64 de la uniforme, 17
de v.a. a.c., 60 de Weibull, 58, 103
de v.a. discretas, 59 degenerada, 45
de una función, 42 empı́rica, 115
de una v.a., 40, 62 marginal, 30
absolutamente continua, 40, 62 de probabilidad, 2
Bernoulli, 45 de utilidad logarı́tmica, 109, 112
binomial, 45 Gama, 55
Cauchy, 53 indicadora, 58
discreta, 40, 62 Ley fuerte de los grandes números, 96
estandarizada, 61 aplicaciones, 101–104
exponencial, 46
Gamma, 57 Método de Monte Carlo, 117, 164
geométrica, 54 métrica
indicadora, 58 de Fortet-Mourier, 131
Maxwell, 54 cota superior de la-, 132
normal, 46 de Kantoróvich, 177
Poisson, 41, 57 de Kolmogórov, 129, 130, 178
uniforme, 41 cota superior de la-, 132
Weibull, 58 de variación total, 131
del producto de v.a., 45 cota superior de la-, 132
geométrica, 87–90 de Zolotarev, 132
definición de-, 87 cotas superiores para la-, 133
propiedades de la-, 44 de orden 2, 132
estimación estadı́stica, 103 de orden 3, 132, 148, 169

184
ÍNDICE ANALÍTICO

definición de-, 125 geométrico, 87


discreta, 126 muestral, 96
probabilı́stica, 129, 130, 145 teórico, véase esperanza
simple, 129
uniforme, 129, 130, 178 Teorema Central del Lı́mite, 143, 152
mediana muestral, 117 de Lévy, 150
modelo de Lyapunov, 148
clásico de riesgo, 73–75 tasa de convergencia del-, 153
capital promedio del-, 74 Teoremas Centrales del Lı́mite, 146–153
estimación de la estabilidad en-, Variable aleatoria, 1, 5
172–176 absolutamente continua, 8, 10
probabilidad de ruina, 75, 79 binomial, 6
ruina con probabilidad 1 del-, 104 de Bernoulli, 6
de Crámer-Lundberg, véase modelo de Poisson, 7, 137
clásico de riesgo degenerada, 45, 122
polı́tica de inversión, 113 desviación estándar de-, 13, 44, 146
simplificado de optimización de discreta, 6
inversiones, 105–114 entropı́a de la-, 159
esperanza de una-, 40
Probabilidad, 1, 2 estandarizada, 61, 146
condicional, 21 indicadora, 58
de ruina del modelo de riesgo, 75, 79 lognormal estándar, 91
de supervivencia, 76 normal, 13, 143
de un evento, 2 estándar, 13, 147
de un intervalo, 9 simétrica, 53
propiedades de la-, 5 variables aleatorias
teorı́a de-, 1 convergencia débil de-, 121
total, 26–31 dependientes, 24, 85
proceso distribución de la suma de-
de Poisson, 70–72 a.c. e independientes, véase
definición, 70 convolución
intensidad del-, 72 exponenciales, 170
trayectoria de un-, 70 normales, 31
de riesgo, 73 Poisson, 32
de superávit, 73 uniformes, 156
estocástico, 52, 70 independientes, 21–26
promedio e idénticamente distribuidas, 26
aritmético, 87 operaciones con-, 8
de la energı́a cinética, 54 Poisson

185
ÍNDICE ANALÍTICO

aproximación de-, 137 degenerada, 57


suma de- estandarizada, 61
Bernoulli, 6 exponencial, 46
sumas estandarizadas de-, 151
Gamma, 57
varianza, 43–50
normal, 46
de la suma de v.a. independientes, 45
de una v.a., 44 Poisson, 57
Bernoulli, 45 uniforme, 47
binomial, 45 propiedades de la-, 44

186

También podría gustarte