Introducci On A La Teor Ia de Probabilidad y M Etricas Probabil Isticas Con Aplicaciones en Seguros y Finanzas

Introducción a la Teorı́a de Probabilidad y Métricas
Probabilı́sticas con Aplicaciones en Seguros y

Finanzas.
Evgueni I. Gordienko y X. Itxel Popoca-Jiménez.
21 de julio de 2014
Prólogo
El presente libro es un complemento a los cursos estándares de la teorı́a de la probabi-

lidad. Los primeros tres capı́tulos del libro ofrecen una introducción concisa, no formal, a
la teorı́a de probabilidad contemporánea, y pueden servir en la preparación de exámenes
de cursos introductorios o intermedios de probabilidad. En otra parte del libro se puede
encontrar el moderno y fuerte método de métricas probabilı́sticas, en donde se muestran
algunas aplicaciones para el estudio de algunos modelos en seguros y finanzas. En par-
ticular, se considera el modelo de riesgo de Cramer-Lundberg (con resultados sobre su
estabilidad) y también un modelo simplificado de inversión (portafolio) óptima.
A pesar de la brevedad del libro, se expone con bastante profundidad (en comparación
con la mayorı́a de los cursos introductorios) la Ley Fuerte de los Grandes Números y los
Teoremas Centrales del Lı́mite. En este último tema nos enfocamos en el uso del método
métrico y de las aplicaciones reales, en particular, a los procesos de riesgo. Además con-
sideramos que los dos temas mencionados tienen un valor conceptual en la formación de
estudiantes dedicados a cualquier ciencia.
Para comprender el contenido del libro, es suficiente tener un manejo de álgebra ele-
mental y de cálculo diferencial e integral básico. Los ejemplos y ejercicios presentados
(frecuentemente no estándares) constituyen un integrante esencial del texto, y sirven para
ampliar y profundizar el material expuesto, incluso algunas veces revelan propiedades sor-
prendentes de los objetos aleatorios. Alrededor del 35 % de los ejercicios y una cantidad
significativa de los ejemplos, son originales.
i
Lista de abreviaturas y de notaciones estándares
a.c. - absolutamente continua;

f.d. - función de distribución;
i.e. - “id est” es decir;
i.i.d. - independientes e idénticamente distribuidas;
v.a. - variable(s) aleatoria(s);
LFGN - Ley Fuerte de los Grandes Números;
Resp. - respuesta;
sys - si y sólo si;
TCL - Teorema(s) Central(es) del Lı́mite;
R - el conjunto de los números reales;
N - el conjunto de los números naturales;
Ω - espacio muestral;
P - probabilidad;
FX - función distribución (f.d.) de la v.a. X;
fX - densidad de la v.a. a.c. X;
EX - esperanza de la v.a. X;
V ar(X) - varianza de la v.a. X;
:= - “por definición”;
f :A→B - función f definida del conjunto A y que toma va-
lores en el conjunto B.
Alfabeto griego
α alfa ι iota ρ, % ro
β beta κ kappa σ sigma
Γ, γ gamma λ lambda τ tao
∆, δ delta µ mi υ ı́psilon
ε, épsilon ν ni φ, ϕ fi
ζ zeta ξ xi χ ji
η eta o ómicron ψ psi
θ theta π pi Ω, ω omega.
ii
Índice general
Prólogo I
Introducción VII
1. Espacio de probabilidad 1
1.1. Espacio de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Variables aleatorias y sus distribuciones . . . . . . . . . . . . . . . . . . . . 5
1.3. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2. Independencia 21
2.1. Independencia de eventos y variables aleatorias . . . . . . . . . . . . . . . 21
2.2. Fórmula de probabilidad total. . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3. Esperanza y varianza 39
3.1. Esperanza. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.2. Varianza y desigualdad de Chebyshev . . . . . . . . . . . . . . . . . . . . . 43
3.3. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4. Esperanza condicional 59
4.1. Esperanza condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.2. Caminatas aleatorias simples . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.2.1. Caminata aleatoria con dos barreras absorbentes. . . . . . . . . . . 67
4.2.2. Caminata aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.3. Proceso de Poisson. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.4. Modelo clásico de riesgo (de Cramér-Lundberg) . . . . . . . . . . . . . . . 73
4.4.1. Descripción del modelo y el capital promedio. . . . . . . . . . . . . 73
4.4.2. Probabilidad de ruina. . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
iii
ÍNDICE GENERAL
5. Esperanza geométrica 87
5.1. Esperanza geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.2. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
6. Ley fuerte de los grandes números e inversiones óptimas 93

6.1. Convergencia con probabilidad uno . . . . . . . . . . . . . . . . . . . . . . 93
6.2. Primeras aplicaciones de la LFGN . . . . . . . . . . . . . . . . . . . . . . . 101
6.3. Un modelo simplificado de optimización de inversiones . . . . . . . . . . . 105
6.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
7. Convergencia débil 121

7.1. Convergencia débil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
7.2. Espacios métricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
7.3. Métricas probabilı́sticas y convergencia débil . . . . . . . . . . . . . . . . . 129
7.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
8. Teorema Central del Lı́mite 143

8.1. Observaciones introductorias . . . . . . . . . . . . . . . . . . . . . . . . . . 143
8.2. Teoremas Centrales del Lı́mite . . . . . . . . . . . . . . . . . . . . . . . . . 146
8.3. Notas sobre la exactitud de la aproximación Normal . . . . . . . . . . . . . 153
8.4. ¿Por qué en los TCL la distribución del lı́mite es Normal? . . . . . . . . . 157
8.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
9. Estabilidad de algunos modelos estocásticos aplicados 167

9.1. Desigualdades de estabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . 167
9.2. Estimación de la estabilidad en el modelo de riesgo de Cramér-Lundberg . 172
9.3. Estimación de la estabilidad en otros modelos . . . . . . . . . . . . . . . . 176
9.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
Bibliografı́a. 181
iv
Índice de figuras
1.1. Espacio de Probabilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2. Intersección y complemento. . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3. A subconjunto (o subevento) de B. . . . . . . . . . . . . . . . . . . . . . . 4
1.4. Lanzamiento en el cuadrado. . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.5. Función distribución FX (x). . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Rb
1.6. El área rayada = a fX (x)dx = P (X ∈ [a, b]). . . . . . . . . . . . . . . . . . 9
1.7. Interpretación de la densidad. . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.8. Densidad de la v.a. exponencial. . . . . . . . . . . . . . . . . . . . . . . . . 11
1.9. Función distribución de la v.a. exponencial. . . . . . . . . . . . . . . . . . . 12
1.10. Campanas de Gauss (densidad Normal). . . . . . . . . . . . . . . . . . . . 13
1.11. La densidad uniforme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.12. Punto de caı́da aleatoria. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.1. Eventos dependientes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.2. D = el rectángulo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.3. D = el cı́rculo de radio r. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.4. Densidad conjunta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.1. Esperanza y varianza de la v.a. Normal. . . . . . . . . . . . . . . . . . . . 46

2 2
3.2. Función impar: f (y) = ye−y /2σ . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.3. Dos densidades uniformes. . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.4. La densidad de una v.a. X con varianza pequeña. . . . . . . . . . . . . . . 48
3.5. Ilustración de la desigualdad de Chebyshev. . . . . . . . . . . . . . . . . . 50
3.6. “Regla 3σ”para v.a. normales P (a − 3σ ≤ X ≤ a + 3σ) ≈ 0.9974 es cercana
a 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.7. Densidad uniforme en (0, 120). . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.1. Caminata aleatoria simple. . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

4.2. Caminata con dos barreras absorbentes. . . . . . . . . . . . . . . . . . . . 67
v
ÍNDICE DE FIGURAS
4.3. Con x = 5 hay más chances de alcanzar primero el punto 0 (ruina) que el
punto a = 1000. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.4. Ruina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.5. La trayectoria tı́pica de un proceso de Poisson. . . . . . . . . . . . . . . . . 71
4.6. Modelo clásico de riesgo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4.7. Capital promedio de una compañı́a de seguros. . . . . . . . . . . . . . . . . 75
4.8. Una trayectoria posible del capital corriente. . . . . . . . . . . . . . . . . . 76
4.9. Capital inicial nuevo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
6.1. La “ilustración” de convergencia de v.a. con probabilidad 1 (casi segura). . 96

6.2. Densidad de Cauchy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
6.3. Gráfica de ψ(q). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
6.4. Gráfica de ϕ(q). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
7.1. Aproximación de la f.d. de v.a. degeneradas. . . . . . . . . . . . . . . . . . 123

7.2. Espacio métrico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
7.3. Una sucesión numérica convergente. . . . . . . . . . . . . . . . . . . . . . . 126
7.4. Métrica uniforme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
7.5. Ilustración de la diferencia entre máximo y supremo. . . . . . . . . . . . . 128
7.6. La distancia uniforme entre las f.d. . . . . . . . . . . . . . . . . . . . . . . 129
8.1. Campana de Gauss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

8.2. La distribución Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
8.3. La densidad Normal estándar. . . . . . . . . . . . . . . . . . . . . . . . . . 147
8.4. La aproximación de la f.d. FYn por la Normal Φ. . . . . . . . . . . . . . . . 149
8.5. Distribución de Bernoulli asimétrica. . . . . . . . . . . . . . . . . . . . . . 155
vi
Introducción
A pesar de que el presente libro es conciso, sus finalidades son múltiples. La primera, es
dar una introducción no formal y extremadamente breve a los conceptos más importantes
de la teorı́a de probabilidad moderna. De lo cual, las definiciones y proposiciones se ilus-
tran a partir de ejemplos transparentes e intuitivos. Además, no siempre se proporcionan
las demostraciones de los teoremas. Sin embargo, se les acompaña de alguna explicación
sobre las ideas de la prueba, se ilustran a partir de ejemplos y se pone énfasis en las apli-
caciones de modelos estocásticos sencillos de carácter práctico (juegos de azar, modelos
de riesgo, entre otros).
La segunda finalidad es dar una introducción corta a un relativamente nuevo y fuerte

método de la teorı́a de probabilidad, llamado el método de métricas probabilı́sticas. Has-
ta donde conocemos, este tema no está cubierto en los libros de texto (incluyendo libros
en inglés). Entre muchas otras cosas, el método ofrece breves demostraciones intuitiva-
mente claras de los Teoremas Centrales del Lı́mite. Dichas demostraciones nos brindan,
también, una correcta estimación de la tasa de convergencia a la distribución Gaussiana,
y revelan por qué ésta funciona como la distribución del lı́mite para sumas de variables
aleatorias independientes con varianzas finitas. Este método también permite desarrollar
desigualdades para estimar las perturbaciones de las distribuciones de sumas de variables
aleatorias no Gaussianas.
La presentación de ciertas desigualdades mencionadas y sus aplicaciones en evaluacio-

nes de estabilidad (robustez) de los modelos de riesgo conforman la tercera finalidad del
libro. Especı́ficamente, se estudia la estabilidad del modelo de riesgo de Cramer-Lundberg.
Otro objetivo del libro es ofrecer un conjunto de ejercicios selectos, los cuales ayudan
a profundizar el aprendizaje del material expuesto, y algunas veces proveen propiedades
o respuestas intuitivamente inesperadas. La mayorı́a de los ejercicios son bastante sim-
ples, y pocos de ellos recurren a los cálculos de rutina. Una cantidad significativa de los
ejemplos y alrededor del 35 % de los ejercicios son originales. Cabe mencionar que algunos
ejercicios necesitarán para su solución material aún no visto en el capı́tulo respectivo, sin
vii
embargo se le recomienda al lector intentarlos y en su defecto esperar resolverlos hasta la
adquisición del nuevo material.
La presente obra no está diseñada para ser un libro de texto en los cursos tradicionales,
mas bien tiene como objetivo ser un material complementario y de apoyo para los cursos
introductorios o intermedios de probabilidad y de probabilidad aplicada. Para entender-
lo son suficientes conocimientos sobre cálculo diferencial e integral y álgebra elemental.
Algunas nociones un poco más avanzadas, como la suma de una serie infinita, se aclaran
brevemente en el libro. Puntualizamos que para comprender este breve libro es suficiente
tener voluntad, algo de imaginación y un manejo del cálculo.
En este texto, también, introducimos de manera más profunda los Teoremas Centrales
del Lı́mite de la teorı́a de probabilidad, dirigiendo la atención a los puntos claves en sus
formulaciones y demostraciones. Como se mencionó en el prólogo, la Ley de los Grandes
Números y el Teorema Central del Lı́mite juegan un papel conceptualmente importante
y en ese sentido salen del marco de la teorı́a de probabilidad por sı́ misma. Entonces,
la diferencia con casi todos los textos introductorios a la teorı́a de probabilidad son las
palabras clave en los capı́tulos del 6 al 9: “teorema del lı́mite” y “convergencia”.
Si algún lector desea entender más cosas interesantes sobre la teorı́a de la probabili-
dad, pero le parece que el presente libro es difı́cil, puede leer buenos libros como el Hoel
et al (1971) y el Pitman (1993). Si por el contrario, el lector con una preparación sólida
en matemáticas desea profundizar en algunos temas, puede consultar el curso avanzado
expuesto en el Durrett (1991); o un buen curso intermedio en Meester (2003). De entre
los textos sobre procesos de riesgo en seguros, recomendamos el libro Rincón (2012) o el
muy completo texto de Rolski et al (1999). El libro de Korn & Korn (2001) da una buena
introducción al tema de optimización de polı́ticas de inversiones (control de portafolios)
y a otros temas importantes de la matemática financiera moderna. El lector puede en-
contrar algunas notas sobre interpretaciones del concepto de probabilidad en las ciencias
naturales en Gordienko (2011).
Finalmente queremos agradecer a todos aquellos que nos ayudaron a la realización del
presente libro, muy particular a Guadalupe Franco, y por sus valiosos comentarios al Dr.
Adolfo Minjarez Sosa y al Dr. Andrey Novikov.
viii
Capı́tulo 1
Espacio de probabilidad, variable

aleatoria y su distribución
1.1. Espacio de probabilidad.

La teorı́a de probabilidad es una rama de las matemáticas creada para el estudio de
los fenómenos aleatorios, es decir, fenómenos impredecibles de alguna forma. Los concep-
tos básicos de la teorı́a son probabilidad y variable aleatoria (v.a.), y para definirlos
se usa un modelo axiomático llamado espacio de probabilidad. A pesar de que esta
construcción es puramente abstracta, algunas veces es posible (y muy útil) interpretarla
en términos de “experimentos aleatorios”. Por ejemplo, al lanzar un dado simétrico (bien
balanceado), el espacio muestral Ω = {ω1 , ω2 , . . . , ω6 } se usa para describir todos los
resultados posibles del experimento, donde ωk “representa el puntaje k del dado” con
k = 1, 2, . . . , 6.
Los eventos son subconjuntos del espacio muestral Ω. Por ejemplo, en el lanzamien-
to de un dado simétrico podemos considerar el evento A = {sale un puntaje mayor que
4} = {ω5 , ω6 }. La probabilidad P asignada a cada evento es una medida numérica de la
posibilidad de la ocurrencia del evento. En el caso del dado simétrico, una probabilidad
asignada al evento A es P (A) = 26 = 13 . Más adelante, en el Ejemplo 1.1, se analizará el
caso cuando se realizan dos lanzamientos de un dado simétrico. Más aún, en el Ejemplo
1.3 definimos X := el puntaje sumado, lo cual es un ejemplo de una variable aleatoria.
Otro ejemplo, es el tiempo de vida (o edad, medida en años) que tendrá un recién nacido.
De acuerdo con las estadı́sticas de mortalidad en épocas recientes se sabe que la probabi-
lidad de que un individuo viva entre 60 y 100 años es cercana a uno; esto último se denota
como P (60 6 Y 6 100) ≈ 1, donde P es la función denominada probabilidad y Y es
la v.a. que representa el tiempo de vida de un individuo. Esta última expresión significa
1
1.1. Espacio de probabilidad
que la probabilidad es cercana a “1” o al 100 %, lo cual representa el valor máximo de

la probabilidad. Las estadı́sticas, también tienen como resultado que las probabilidades
P (Y < 0.01) o P (Y > 110) son cercanas a cero. Todos estos conceptos serán definidos de
manera más precisa en el presente capı́tulo.
Definición 1.1 Un espacio de probabilidad es la tripleta (Ω, F, P ), donde

1. Ω es un conjunto llamado espacio muestral;
2. F = {A1 , A2 , A3 , . . . } es una familia de subconjuntos de Ω, donde A1 , A2 , A3 , . . .

se denominan eventos (con la propiedad de que la unión A1 ∪ A2 ∪ A3 ∪ . . . , la
intersección A1 ∩A2 ∩A3 ∩. . . y los complementos Ai = Ω\Ai , también son eventos,
para cada colección finita o numerable de los eventos A1 , A2 , A3 . . . );
3. P es una función (regla de correspondencia) que asigna a cada evento A ∈ F, el

número P (A) ∈ [0, 1], llamado la probabilidad del evento A. Esta función P
denominada probabilidad debe satisfacer las siguiente condiciones:
(i) P (Ω) = 1;
(ii) P (A1 ∪ A2 ∪ A3 ∪ . . . ) = P (A1 ) + P (A2 ) + P (A3 ) + . . .
cuando los eventos A1 , A2 , A3 , . . . sean disjuntos, es decir, los eventos no tengan

elementos en común Ai ∩ Aj = ∅ (conjunto vacı́o) para cada i 6= j(en la Figura 1.1,
por ejemplo, A1 y A4 no son disjuntos, pero A2 y A3 sı́ lo son).
Ω
A4
A1
A2
A3
0 P(A1) P(A2) 1
Figura 1.1: Espacio de Probabilidad.
Notemos que [0, 1] denota al conjunto de todos los números reales entre 0 y 1 (in-
cluyendo a éstos), pero la notación {x1 , x2 , . . . , xk , . . . } indica que se incluyen sólo los
números reales x1 , x2 , . . . , xk . . . En particular, el conjunto {0, 1} consiste solamente de
los números 0 y 1.
2
CAPÍTULO 1. ESPACIO DE PROBABILIDAD
Ejemplo 1.1 Un dado simétrico se lanza dos veces. A este “experimento” corresponde
el siguiente espacio de probabilidad:
Espacio muestral: Ω = {ω = (i, j); i, j = 1, 2, . . . , 6};
Eventos: F = {todos los subconjuntos de Ω};
# de ω ∈ A # de ω ∈ A
Probabilidad: P (A) := = .
# de ω ∈ Ω 36
En este ejemplo, Ω es un conjunto finito que representa todos los resultados del expe-
rimento aleatorio, donde, i, j son los puntajes correspondientes al primer y al segundo
lanzamiento, respectivamente. Por ejemplo, considérense los eventos:
A := {la suma del puntaje es 10} = {(4, 6), (6, 4), (5, 5)} y
B := {el producto del puntaje es > 24} = {(4, 6), (6, 4), (5, 5), (5, 6), (6, 5), (6, 6)}. En-
3 1 6
tonces se tiene que P (A) = 36 = 12 y P (B) = 36 = 16 .
Nota 1.1 (a) Para recordar las operaciones con conjuntos: unión A ∪ B, intersección
A ∩ B y complemento A = Ω\A, vea las siguientes Figuras, donde A ∪ B es la
Ω Ω
Β _
A'B Α
Α Α
ω
Figura 1.2: Intersección y complemento.
imagen resaltada con \\\, A ∩ B está resaltada con × × × y A se resalta con ///.
También A\B consta de los elementos de A que no pertenecen a B.
(b) Cuando ω ∈ A, diremos que ocurre el evento A. En el ejemplo anterior, si resulta
que ω = (6, 4), se dice que ocurre A, pero si ω = (4, 1), entonces ocurre A, puesto
que ω ∈/ A, o bien ω ∈ A. El caso en que ω ∈ A ∪ B se refiere a la ocurrencia de A
o B. Si ω ∈ A ∩ B, entonces se tiene la ocurrencia simultánea de los eventos A y B.
En el Ejemplo 1.1, A ⊂ B (i.e. A es un subconjunto de B o bien la ocurrencia del
evento A implica la ocurrencia del evento B, véase la Figura 1.3), y por eso en este
caso A ∪ B = B, A ∩ B = A.
(c) Observe que en la Figura 1.3 los eventos A y C son disjuntos, es decir A ∩ C = ∅.
Esto significa que A y C no tienen elementos en común y por eso no pueden ocurrir
simultáneamente.
3
1.1. Espacio de probabilidad
Ω
B
A
C
Figura 1.3: A subconjunto (o subevento) de B.
Ejemplo 1.2 Un “punto” se “lanza” al azar dentro del cuadrado unitario. A este expe-
rimento (puramente imaginario) corresponde el siguiente espacio de probabilidad:
y
1
Ω
ωy ω
X(ω)
x
0 ωx 1
Figura 1.4: Lanzamiento en el cuadrado.
Espacio muestral. Todos los “puntos”del cuadrado unitario los cuales forman un
conjunto infinito y no numerable, (i.e. no contable por 1, 2, 3, . . . ), es decir
Ω = {todos los puntos ω del cuadrado en la Figura 1.4}.
Eventos.
F = {todos los subconjuntos A de Ω para los cuales el área de A está bien definida}.
Probabilidad. P (A) := el área de A, (para todos los eventos de F).
4
y
1 De la Figura tenemos por ejemplo: P (A) = la pro-
Ω
babilidad de que el ‘punto’ va a caer dentro del
B
1/2 conjunto A = área de A = 41 . Por otro lado, P (B)
= área de B es un número bastante cercano a cero
A
x (hay pocas oportunidades de caer dentro de B).
0 1/2 1
Nota 1.2 Existen algunos subconjuntos del cuadrado para los cuales su área no está de-
finida.
De la Definición 1.1 se siguen directamente las siguientes propiedades:

(a) P (A) = 1−P (A) y P (A) = 1−P (A) ya que 1 = P (Ω) = P (A∪A) = P (A)+P (A) ;
(b) P (A) 6 P (B), si A ⊂ B;
(c) P (A ∪ B) = P (A) + P (B) − P (A ∩ B). Para eventos disjuntos A y B, P (A ∩ B) =
P (∅) = P (Ω) = 1 − 1 = 0.
11
En el Ejemplo 1.1, P (A) = P (la suma del puntaje es 6= 10) = 1 − P (A) = 12
.
1.2. Variables aleatorias y sus distribuciones

Definición 1.2 Una variable aleatoria (v.a.) X definida en un espacio de probabilidad
(Ω, F, P ) es una función (“medible”)1 que asigna a cada ω ∈ Ω un número real X(ω),
llamado el valor de la v.a. X.
Habitualmente se usarán letras mayúsculas como X, Y, . . . para denotar v.a.

Ejemplo 1.3 (a) Teniendo en cuenta el Ejemplo 1.1 consideremos que X(ω) = X (i, j) :=
i+j (la suma de los puntajes). En este caso la v.a. X puede tomar valores en {2, 3, . . . , 12},
y
1
P (X = 2) = P (1, 1) = ,
36 (1.2.1)
2 1
P (X = 3) = P (1, 2) o (2, 1) = = , etc.
36 18
1
La Medibilidad de X significa que para cada número real r > 0 el conjunto {ω ∈ Ω : X(ω) 6 r} es
un evento, es decir éste pertenece a la colección de eventos F.
5
(b) En el Ejemplo 1.2, X(ω) := la distancia

√ entre 0 y ω es una v.a. que puede tomar
todos los valores reales en el intervalo [0, 2] (véase la Figura 1.4 ).
Definición 1.3 (a) Una v.a. X se llama discreta si el conjunto de sus valores:
{x1 , x2 , . . . , xk , . . . , } (1.2.2)
es finito o numerable (en el caso numerable los elementos se pueden contar mediante
1, 2, 3, . . . , pero sin terminar el proceso de conteo).
(b) Los números P (X = xk ) representan las probabilidades de que la v.a. X tome

los valores xk (k = 1, 2, . . . ). La distribución de una v.a. discreta X es el conjunto de
valores en (1.2.2) y las probabilidades de los valores:
P (X = xk ) > 0, k = 1, 2, . . . , (1.2.3)
que se definen de forma semejante al caso particular (1.2.1).

Ejemplo 1.4 (a) La v.a. de Bernoulli 2 con parámetro p ∈ [0, 1] toma sólo dos va-
lores el 0 y el 1 (es decir, sus valores son el conjunto {0, 1}). Y sus probabilidades son
P (X = 0) = 1 − p y P (X = 1) = p. En este caso escribiremos: X ∼ Bern(p).
(b) Sean n > 1 un entero dado y X1 , X2 ,. . . ,Xn v. a. independientes (véase Capı́tulo

2) donde Xk ∼ Bern(p) para cada k = 1, 2, . . . Si Sn := X1 + X2 + · · · + Xn , entonces se
demuestra que la probabilidad de los valores k = 0, 1, 2, . . . , n de Sn está dada por:
n!
pk (1 − p)n−k .

P Sn = k = (1.2.4)
k!(n − k)!
La v.a. Sn se llama Binomial, con parámetros n y p. Al conjunto de probabilidades en

(1.2.4) se le denomina la distribución binomial (recordemos que m! = 1 · 2 · 3 · · · · · m
y 0! := 1). En este caso escribimos: Sn ∼ Bin(n, p).
(c) La v.a. Y con valores {0, 1, 2, . . . , k, . . . } y cuyas probabilidades (distribución) se

determinan por la fórmula:
λk −λ
P (Y = k) = e , k = 0, 1, 2, . . . ,
k!
2
Nombre del matemático suizo Jacob Bernoulli (1654-1705), reconocido por sus contribuciones al
cálculo de variaciones, a la teorı́a de probabilidad, a la geometrı́a analı́tica, entre otras.
6
se llama v.a de Poisson 3 con parámetro λ, el cual puede ser cualquier número positivo
(λ > 0). En este caso escribimos Y ∼ P oiss(λ).
(d) La v.a. geométrica X ∼ Geom(p) con parámetro p ∈ (0, 1) toma sus valores en
el conjunto {1, 2, . . . , k, . . . }. Las probabilidades de sus valores están dadas por:
P (X = k) = p(1 − p)k−1 , k = 1, 2, 3, . . .
(Consulte el Ejercicio 2.12 acerca del origen de la v.a. geometrica).
Nota 1.3 Las v.a. de los ejemplos 1.3 (a) y 1.4 son discretas, sin embargo la v.a. del
Ejemplo 1.3 (b) no es discreta.
Ejemplo 1.5 Un dado simétrico se lanza 10 veces. Sea X la v.a. que representa el número
de veces que resulta el puntaje “6”. Para i = 1, 2, . . . , 10 introducimos las v.a. Xi de
Bernoulli independientes (véase Capı́tulo 2 para la definición de independencia),
(
1, si en el i-ésimo lanzamiento resulta ‘6´,
Xi =
0, si resulta cualquier otro puntaje.
Entonces Xi ∼ Bern(p = 1/6) y X ≡ S10 = X1 + X2 + · · · + X10 , ya que S10 es igual a

la cantidad de sumandos iguales a 1, donde cada valor igual a 1 corresponde a una salida
del “6”.
1

Por lo tanto, X ∼ Bin n = 10, p = 6
, y de (1.2.4), por ejemplo
3 7 3 7
10! 1 5 8 · 9 · 10 1 5
P (X = 3) = = ≈ 0.15505.
3!7! 6 6 1·2·3 6 6
En otras palabras, hay alrededor del 15 % de “oportunidades” de que en 10 lanzamientos

el “6 ” resulte tres veces.
3
Distribución descubierta por el matemático francés Simeón Denis Poisson (1781-1840), se le atribuyen
trabajos en geometrı́a diferencial y teorı́a de probabilidad.
7
Nota 1.4 Puesto que los valores de las v.a. son números reales, se pueden considerar las
sumas, productos y cocientes de v.a. Además, frecuentemente, se estudian las v.a. como
funciones de otras v.a., X 2 , eX , etc. (por ejemplo un valor de la v.a. Y = eX es e1 = e,
cuando la v.a. X toma el valor 1). En el Ejemplo 1.3 (a), se puede escribir X = Z + Y
donde la v.a. Z representa el puntaje del primer lanzamiento y Y el del segundo.
Definición 1.4 La función FX : R → [0, 1] definida como

FX (x) := P X 6 x , x ∈ R ≡ (−∞, ∞) (1.2.5)
se llama la función de distribución (f.d.) de la v.a. X.
De (1.2.5) y del hecho que P (A) 6 P (B), si A ⊂ B, se sigue que FX (x) es no

decreciente. Además, sus valores se aproximan a 1, cuando x → ∞; y se aproximan a 0,
cuando x → −∞.
y
1
FX (x)
x
0
Figura 1.5: Función distribución FX (x).
Definición 1.5 Una variable aleatoria X se denomina absolutamente continua (a.c.)

si existe una función fX : R → [0, ∞), llamada la densidad de la v.a. X, tal que
Z x
FX (x) = fX (t) dt, x∈R. (1.2.6)
−∞
La igualdad (1.2.6) implica que FX es continua (i.e. no tiene saltos como en la Figura
1.5) y además es derivable,
FX0 (x) = fX (x), (1.2.7)
en “casi todos” los puntos x ∈ R, en particular, en todas las x donde fX (x) es continua.
8
Proposición 1.1 Sea I ⊂ R un intervalo cualquiera (o un subconjunto más general).

Entonces se cumple lo siguiente.
(a) Si X es una v.a. discreta entonces

X
P (X ∈ I) = P (X = xk ). (1.2.8)
xk ∈I
(b) Si X es v.a. a.c. con densidad fX (x), entonces

Z b
P (X ∈ I) = fX (x)dx. (1.2.9)
a
y
fX (x)
x
0 a b
Rb
Figura 1.6: El área rayada = a
fX (x)dx = P (X ∈ [a, b]).
Demostración. (b) Si I = (a, b], entonces

P (X ∈ I) = P (a < X 6 b) = P {X 6 b}\{X 6 a} = P (X 6 b) − P (X 6 a)
= FX (b) − FX (a) por (1.2.5), o bien

P a < X 6 b = FX (b) − FX (a). (1.2.10)
Luego por (1.2.6) se tiene que

Z b Z a
FX (b) − FX (a) = fX (x)dx − fX (x)dx
−∞ −∞
Z b
= fX (x)dx = el área rayada en la Figura 1.6.
a
9
Nota 1.5 De las ecuaciones (1.2.10) y (1.2.6) y de la Definición 1.3 se obtiene fácilmente
que:
(a) Para v.a. discretas existe una correspondencia uno a uno entre la f.d. FX y la distri-
bución de X.
(b) Para v.a. X a.c. existe una correspondencia uno a uno entre la f.d. FX y la densidad
fX de X (tomando en cuenta ciertos convenios relacionados con el hecho de que dos
funciones fX y feX que difieren, por ejemplo, en un subconjunto finito de R tienen
los mismos valores de sus integrales en (1.2.6).
Nota 1.6 (a) A diferencia de (1.2.3) para una v.a. X a.c., por (1.2.9) se tiene que:
Z a
P (X = a) = fX (x)dx = 0, para cada a ∈ R.
a
En particular una v.a. discreta no puede tener densidad con la propiedades dadas en
(1.2.6) y (1.2.9). (Entonces el término “densidad de una v.a. discreta” que se usa en
varios manuales tiene un sentido diferente).
(b) Si ∆x = [x − ε, x + ε] es un intervalo “pequeño” y la densidad fX es continua en x,

entonces P (“la Zv.a. X tome valores alrededor de x”) := P (x − ε 6 X 6 x + ε) =
x+
(por (1.2.9)) = fX (t)dt = el área rayada de la Figura 1.7 ≈ fX (x)|∆x| (donde
x−ε
|∆x| = 2ε es la longitud de ∆x).
y
fX (x)
f (x)
X
x
x-ε x+ε
0 1 2 x
Figura 1.7: Interpretación de la densidad.
En este sentido, para la v.a. X con la densidad fX que se observa en la Figura 1.7,
“los valores más probables” están alrededor de x = 2, mientras que los valores de x < 1
10
tienen probabilidad cero. En general, una v.a. a.c. X toma sus valores solamente en los
“intervalos” donde la densidad fX es positiva (esto, si no hablamos de una forma com-
pletamente estricta).
Ejemplo 1.6 (continuación del Ejemplo 1.5)

Aplicando (1.2.8), tenemos que P (resulte “6 ” a lo más 3 veces)= P (X 6 3), la cual se
obtiene de la siguiente manera:
P (X ≤ 3) = P (X ∈ [0, 3])
= P (X = 0) + P (X = 1) + P (X = 2) + P (X = 3) = (por (1.2.4))
0 10 1 9 2 8 3 7
10! 1 5 10! 1 5 10! 1 5 10! 1 5
= + + +
0!10! 6 6 1!9! 6 6 2!8! 6 6 3!7! 6 6
≈ 0.93027.
Por otro lado, P (resulte “6 ” más de 3 veces)= P (X > 3) = 1 − P (X 6 3) ≈ 0.06973.
Ejemplo 1.7 La variable aleatoria X se llama exponencial con parámetro λ > 0:

X ∼ Exp(λ), si su función de densidad es la siguiente:
(
λe−λx , si x > 0,
fX (x) = (1.2.11)
0, si x 6 0.
y
λ
fX (x)
x
0 (con λ=3)
Figura 1.8: Densidad de la v.a. exponencial.

Por (1.2.6) se tiene que la función de distribución (f.d.) de X es (véase Figura 1.9):
(
1 − e−λx , si x > 0,
FX (x) = (1.2.12)
0, si x 6 0.
11
y
λ
FX (x)
x
0 (con λ=3)
Figura 1.9: Función distribución de la v.a. exponencial.
Nota 1.7 En la teorı́a de probabilidad existe la costumbre de usar términos diferentes

(pero relacionados) para los mismos objetos. Por ejemplo, se usará la siguiente termino-
logı́a:
(i.) v.a. Binomial o v.a. con distribución Binomial;

(ii.) v.a. de Poisson o v.a. con distribución de Poisson;
(iii.) v.a. exponencial o v.a. con densidad exponencial o con distribución exponencial;
(iv.) v.a. Normal o v.a con densidad Normal o con distribución Normal; etc.
Es decir, las expresiones “v.a. de Poisson” y “ v.a. con la distribución de Poisson” las
vamos a interpretar como equivalentes. Y en ambos casos se escribirá X ∼ P oiss(λ).
Ejemplo 1.8 De fı́sica sabemos que un átomo del isótopo (radiactivo) 283 de Uranio
tiene un tiempo de “vida” hasta su desintegración representado por la v.a. X ∼ Exp(λ)
con λ ≈ 1.53896 · 10−10 (1/año). Si queremos calcular la probabilidad de que un átomo de
uranio “vivirá ” más de 5 · 105 años tendremos entonces lo siguiente:
P X > 5 · 109 = 1 − P X 6 5 · 109 = (por (1.2.5) = 1 − FX (5 · 109 )

9 −10 ·5·109
= (por (1.2.12)) = e−λ·5·10 = e−1.53896·10 ≈ 0.46325.
Por lo tanto, hay alrededor de 46 % de “posibilidades” de que un átomo de Uranio-283

“viva”más de 5 · 109 años.
Nota 1.8 El tiempo de existencia de la Tierra se estima entre 4.5 × 109 y 4.8 × 109
años. Comparando con los cálculos en el Ejemplo 1.8 podemos concluir que una cantidad
considerable (casi la mitad) de átomos de Uranio-283 existı́an antes del origen de la Tierra.
12
Ejemplo 1.9 Para a ∈ R y σ > 0, definimos la función de densidad Normal como:
(x − a)2

1
fX (x) = √ exp − , x ∈ R. (1.2.13)
2πσ 2σ 2
Una v.a. a.c. con esta densidad se llama Normal (o Gaussiana4 ) con parámetros a y
σ (donde a = EX es el promedio de X, y σ es la desviación estándar, , véase Capı́tulo
3). Lo cual denotaremos X ∼ N orm(a, σ) . En particular, si a = 0 y σ = 1 entonces la
v.a. η ∼ N orm(0, 1) se denomina Normal estándar.
y y 2 2
1/(2π)1/2 1 - (x-a) /2σ
fη(x) = 1 - x 2/2
e fX (x) = e
2π σ
2π
(estándar)
con a=2
x x y σ=1.5
0 0 2
Figura 1.10: Campanas de Gauss (densidad Normal).
Debido a (1.2.6) se tiene que la f.d. de la v.a. Normal estándar es:

Z x
1 t2
Fη (x) ≡ Φ(x) = √ e− 2 dt.
−∞ 2π
Esta integral (tradicionalmente denotada por Φ(x)) no se calcula explı́citamente, i.e. en
términos de funciones elementales. Para diferentes valores de x, Φ(x) (calculada numéri-
camente) se encuentra en tablas estándares.
Ejemplo 1.10 En la década 1970-1980 estuvo de moda medir el coeficiente intelectual

(I.Q.) de las personas por medio de pruebas (con escala de 0 a 200 puntos). Utilizando
estadı́sticas de cierto paı́s se sabe que el I.Q. de una persona elegida al azar se aproxima
por la v.a. X ∼ N orm(a = 100, σ = 17.2). Calculemos entonces la probabilidad de que
una persona elegida al azar sea “muy lista”, es decir,

X −a 140 − a X −a
P (X > 140) = P > ≈1−P 6 2.33 .
σ σ σ
4
Densidad estudiada, no por primera vez, por el prolı́fico matemático, fı́sico, astrónomo alemán Carl
Friedrich Gauss (1777-1855), cuyas contribuciones se destacan en análisis matemático, teorı́a de números,
geometrı́a, estadı́stica, entre otras.
13
X −a
Es fácil ver que (consulte Ejercicio 1.19) la v.a. η = es Normal estándar, por
σ
tanto: P (X > 140) ≈ 1 − P (η 6 2.33) = 1 − Φ(2.33) ≈ 0.0099, i.e. alrededor de 1 persona
de cada 100 puede considerarse “muy lista”(véase la ley de los grandes números en el
Capı́tulo 6 para la justificación de la relación entre probabilidad y “frecuencia”).
Nota 1.9 De la densidad de la v.a. X Normal (1.2.13) se sigue que el conjunto de valores
de X es toda la recta numérica (−∞, ∞) (puesto que la densidad fX es positiva en toda la
recta R). Sin embargo, las v.a. normales se usan ampliamente para modelar magnitudes
aleatorias no negativas y/o acotadas como, por ejemplo: la estatura de una persona adul-
ta elegida al azar, los precios de algunos valores en el mercado financiero, etc. La amplia
difusión de las v.a. normales en ciencias, ingenierı́a y estadı́stica está relacionada con los
Teoremas Centrales del Lı́mite estudiados en el Capı́tulo 8. Sin embargo, una pregunta que
surge es ¿cómo una variable aleatoria normal puede servir para aproximar una magnitud
aleatoria no negativa y acotada? Respuestas: Por un lado, la densidad normal en (1.2.13)
se anula muy rápido Z cuando |x| →
−x Z ∞. Esto implica que las probabilidades de las “co-
∞
las” P (|X| > x) = fX (y)dy + fX (y)dy, desaparecen muy rápido, cuando x → ∞.
−∞ x
En el Ejemplo 1.10 la v.a. del I.Q. toma sus valores (“puntos”) en el intervalo [0, 200] y a
pesar de esto se modela mediante la v.a. X ∼ N orm(a = 100, σ = 17.2). Estimamosque
X − a 100
P X ∈ / [0, 200] = P X − a ∈ / [−100, 100] = P |X| > 100 = P > ≈

σ 17.2
X − a
P |η| > 5.814 , donde η ∼ N orm(0, 1), y por (1.3.15) se tiene P > 5.814 6
σ
2 (5.814)2
√ e− 2 ≈ 1.196 · 10−7 . (En realidad la parte izquierda de la última desigualdad
5.814 2π
es mucho menor que la parte derecha).
Cabe mencionar que para algunas magnitudes aleatorias, dentro de su rango de varia-
ción, el uso de la aproximación normal provee resultados bien sustentados por estudios
estadı́sticos de mediciones fı́sicas, económicas, etc.
Ejemplo 1.11 Sean −∞ < a < b < ∞ dos números dados. Se dice que la v.a X es
uniforme en (a, b), si X es a.c. y tiene la siguiente densidad (véase Figura 1.11):
 1 , si x ∈ (a, b),

fX (x) = b − a (1.2.14)
0, si x ∈
/ (a, b).

14
y
1 fX (x)
b−a
x
a 0 b
Figura 1.11: La densidad uniforme.
En este caso escribiremos: X ∼ U (a, b).
15
1.3. Ejercicios
1.3. EJERCICIOS
1.1 Considere en el Ejemplo 1.1 el evento A:= “en el primer lanzamiento sale un puntaje
mayor que en el segundo”. Calcular P (A).
Resp. : P (A) = 15/36.
1.2 ¿Cuál es la probabilidad de ganar el primer premio en el “Melate” comprando un

boleto?
44! 1
Resp. : 1/ 6!(44−6)! = 7059052
; donde m! = m(m − 1)(m − 2) · · · 2 · 1.
(Según la interpretación de probabilidad dada en el Ejemplo 6.1 del Capı́tulo 6,
usted tendrı́a casi el 100 % de posibilidades de ganar el primer premio comprando
alrededor de 7 millones de boletos.)
Sugerencia: Usar el hecho (no difı́cil de demostrar) de que el número total de
diferentes maneras de escoger k 6 n objetos de n > 1 dados, se calcula como
n!
k!(n−k)!
.
1.3 Un “punto” se “lanza al azar” dentro del intervalo (0, 1).
X
( )
0 1
Figura 1.12: Punto de caı́da aleatoria.
(a) Construir un espacio de probabilidad adecuado para este “experimento”.

(b) Sea X el punto de caı́da en la Figura 1.12. Explicar el hecho de que X es una
v.a. y para el espacio construido en (a) calcule P (X 6 1/2) y muestre que
P (X = 1/2) = P (X ∈ Q) = 0 (a pesar de que los conjuntos {1/2} y Q :=
todos los racionales de (0, 1) no son vacı́os y son muy distintos).
(c) Muestre que X ∼ U (0, 1).
1.4 Un vendedor descubre que la probabilidad de hacer una venta en una sola entrevista
telefónica con el cliente es 0.03 aproximadamente. Si éste entrevista a 110 posibles
clientes, ¿cuál es la probabilidad de hacer por lo menos dos ventas?
Resp. : = 0.8456.
16
1.5 Una nueva familia está planeando el número n de hijos que desean tener. Esta familia
quiere tener no menos de dos varones. ¿Cuál es el número mı́nimo n para que se
cumpla que: P (nacerán por lo menos 2 varones)> 0.99?
Resp. : n = 11.
Sugerencia: Use la distribución Binomial y P (nace un varón) ≈ 0.512. Además,
haga cálculos numéricos en orden creciente de n = 3, 4, 5, . . . hasta encontrar la
solución.
Nota 1.10 De hecho el uso de la distribución Binomial no es completamente ade-

cuado para resolver este problema (puesto que los sexos de los hijos en una familia
no siempre son independientes).
1.6 Dos personas (digamos I y II) tienen la misma capacidad para jugar un juego
de tipo ajedrez . Suponga que en el juego no se consideran empates. ¿Qué es más
probable:
(a) que I gana (a II) 2 partidas de 3?; o

(b) que I gana 3 partidas de 6?
Resp. : Es más probable la ocurrencia de (a) que la ocurrencia de (b) (¿Contradice

esto a su intuición?).
Sugerencia: Usar las distribuciones Binomiales con p = 0.5 y n = 3 y n = 6,
respectivamente.
1.7 Considerando el Ejemplo 1.10 con X = I.Q. calcule aproximadamente P (80 6 X 6

120).
Resp. : 0.754.
1.8 Sean X ∼ Exp(λ = 1) y [X] la parte entera de X (i.e. un número entero más
cercano y menor o igual a X). Calcule P ([X] sea un número par ).
Resp. : e(1 + e)−1 ≈ 0.73106.
Sugerencia: [X] es v.a. discreta. Determine la probabilidad de tomar un sólo valor
par fijo y después use la fórmula (1.2.8).
1.9 Sea la variable aleatoria a.c. X ∼ U (a, b) determine la f.d. FX de X. Realice la

grafica de la f.d. FX , en particular, para la v.a. X ∼ U (0, 1).

 0, si x 6 a,

Resp. : FX (x) = x−a b−a
, si x ∈ (a, b),

1, si x > b.

17
1.3. Ejercicios
1.10 Mostrar que si X ∼ U (a, b) (véase (1.2.14)), entonces para cualquier intervalo ∆ ⊂
(a, b), P (X ∈ ∆) depende sólo de la longitud |∆| de ∆, pero no de la posición de ∆
en (a, b).
1.11 (Una “mezcla” de distribuciones discretas y continuas.) Sea X ∼ Exp(λ = 1). Se

lanza una moneda simétrica y se define la v.a. Y :
(
X, si resulta ‘águila’,
Y =
0, si resulta ‘sol’.
Trazar la f.d. FY de Y y mostrar que la v.a. Y no es discreta ni es absolutamente

continua.
Sugerencia: Usar la fórmula de probabilidad total (2.2.12) del Capı́tulo 2.
1.12 Sea X la v.a. discreta que toma posibles valores: 1, 2, . . . , k, . . . , y con probabilidades
dadas por: P (X = k) = π62 k12 , k = 1, 2, . . . Mostrar que la v.a. Y := |sen( πX 2
)| ∼
Bern(p) y calcular el parámetro p.
Resp. : p = 3/4.
Sugerencia: Determine el valor de Y para X = un número par y X =un número
impar. Después calcule
P∞sus 1correspondientes probabilidades utilizando (1.2.8) y la
π2
suma infinita (serie) k=1 k2 = 6 .
1.13 (a) Dar un ejemplo de algunas v.a. a.c. X y Y tales que P (X 6= Y ) = 1, pero
FX (x) = FY (x) para toda x ∈ R.
Sugerencia: Si X ∼ U (0, 1), entonces Y = 1 − X ∼ U (0, 1).
(b) Encontrar un ejemplo de tres v.a. X, Y , Z tales que FX = FY , pero FXZ 6= FY Z .
Z ∞
1.14 Sea fX la densidad de una v.a. X. Mostrar que fX (x)dx = 1.
−∞
1.15 Sea X la v.a. con f.d.: (

1
1− xλ
, x > 1,
FX (x) =
0, x 6 1,
(donde λ > 0) y sea Y = ln X. Mostrar que Y ∼ Exp(λ). Calcular P (Y > 2) para
λ = 1.
Resp. : P (Y > 2) = e−2 ≈ 0.13534.
18

1.16 Sea X ∼ U (−c, c). Supongamos que P |X| > 1 = P |X| < 1 . Determine el valor
de c.
Resp. : c = 2.
2
1.17 Sea fη (x) = √12π e−x /2 , x ∈ R la densidad normal estándar. Demostrar que
Z ∞
1 2
√ e−x /2 dx = 1.
−∞ 2π
R∞ R∞ x2 +y 2
Sugerencia: Usar coordenadas polares para calcular −∞ −∞ e− 2 dx dy.
1.18 Un número X del 1 al 1000 se escoge al azar. ¿Cuál es la probabilidad de que los
dos últimos dı́gitos de X 3 sean 1?
Resp. : 0.01.
X−a
1.19 Sean X ∼ N orm(a, σ) y Y = σ
. Demostrar que Y ≡ η ∼ N orm(0, 1) (normal
estándar).
1.20 Sea η ∼ N orm(0, 1) (normal estándar). Demostrar que para cada x > 0,
2 x2
P |η| > x 6 √ e− 2 .

(1.3.15)
x 2π
Z ∞
1 y2
Sugerencia: En la parte derecha de la ecuación P (η > x) = √ e 2 dy,
x 2π
realizar integración por partes.
19
1.3. Ejercicios
20
Capı́tulo 2
Independencia
2.1. Independencia de eventos y variables aleatorias

Una palabra clave en la teorı́a de probabilidad es la “independencia”. En términos
muy generales la independecia entre un evento A y otro evento B significa que la ocu-
rrencia (o no ocurrencia) del evento B no afecta a la probabilidad de A. En lo subsi-
guiente se verá que de hecho este concepto es simétrico, es decir, la ocurrencia de B
no afecta a la probabilidad de A si y sólo si la ocurrencia de A no afecta a la proba-
bilidad de B. En el caso de que no haya independencia entre A y B se dice que los
eventos son dependientes. Por ejemplo al lanzar un dado simétrico dos veces es natu-
ral pensar que los siguientes eventos A := {en el primer lanzamiento resulta el “6”} y
B := {en el segundo lanzamiento resulta el “6”} son independientes. Pero obviamente
que A y el evento C := {la suma de los puntaje es mayor a 10} son dependientes, ya que
el saber la ocurrencia del evento A aumenta la probabilidad del evento C.
Para expresar el efecto de la ocurrencia de un evento B en la probabilidad de otro

evento A se introduce el concepto de la probabilidad condicional.
Definición 2.1 Sean A y B eventos con P (B) > 0. La probabilidad condicional del
evento A dado (la ocurrencia de) el evento B, denotada P (A|B), se define como:
P (A ∩ B)
P (A|B) := . (2.1.1)
P (B)
21
b d
1
_
B
B c
A
0 a 1
Figura 2.1: Eventos dependientes.
Ejemplo 2.1 (Consultar el Ejemplo 1.2) Sean B = 20ab1 (rectángulo con vértices 0ab1),
A =M 01d (triángulo con vértices 01d), (véase Figura 2.1)
Por (2.1.1) se tiene que:
el área de M 0ac 1/8 1 el área de a1dc 3/8 3

P (A|B) = = = y P (A|B) = = = .
el área de 2 0ab1 1/2 4 el área de 2 a1db 1/2 4
Mientras que P (A) = el área de M 01d = 1/2.
Observemos en este ejemplo que P (A|B) < P (A), i.e. el evento B no es favorable
para A. Sin embargo, P (A|B) > P (A), i.e. B es favorable para A, esto es, el saber que el
“punto” ha caı́do dentro de B aumenta la posibilidad de que el “punto” caerá en A; (véase
la Figura 2.1). En tal caso, es razonable decir que A y B son eventos dependientes.
Por otro lado, en un espacio de probabilidad los eventos A y C se interpretan como

independientes, si P (A|C) = P (A) o por (2.1.1), P P(A∩C)
(C)
= P (A), o bien P (A ∩ C) =
P (A)P (C).
Entonces se tiene la siguiente definición:
Definición 2.2 En un espacio de probabilidad (Ω, F, P ) dos eventos A y C se llaman

independientes si
P (A ∩ C) = P (A)P (C). (2.1.2)
22
CAPÍTULO 2. INDEPENDENCIA
Por ejemplo, se lanzan dos monedas simétricas. Sean A := {en la primer moneda
resulta “sol” } y C := {en la segunda moneda resulta “águila”}. Entonces A y C son
eventos independientes. De hecho el espacio muestral que modela este experimento es
Ω = {ω1 = (s, s), ω2 = (s, a), ω3 = (a, s), ω4 = (a, a)}, por simetrı́a (de la mone-
1 1
da) se sabe que P {ωi } = para i = 1, 2, 3, 4. Por tanto P (A) = P {ω1 , ω2 } = ,
4 2
1 1
P (C) = P {ω2 , ω4 } = y P (A ∩ C) = P {ω2 } = .
2 4
Sea ahora B := {en ambas monedas resulta “sol”} = {ω1 }. Entonces los eventos A y B
P A∩B P (B) 1
son dependientes puesto que (B ⊂ A) P (A |B) = = = 1 y P (A) = .
P (B) P (B) 2
1 1 1 1
En otros términos P (A ∩ B) = P (B) = y P (A)P (B) = · = , de lo que resulta
2 2 2 4
P (A ∩ B) 6= P (A)P (B). Intuitivamente es evidente que la ocurrencia del evento A au-
menta la probabilidad del evento B.
Ahora, las v.a. X y Y se llaman independientes si (análogamente a (2.1.2)) se tiene

que:
P (X ∈ I, Y ∈ J) = P (X ∈ I)P (Y ∈ J), (2.1.3)
para cada par de intervalos I, J ⊂ R. O bien, por (2.1.1) se tiene que
P (X ∈ I| Y ∈ J) = P (X ∈ I) si P (Y ∈ J) > 0, (2.1.4)
i.e. la información sobre los valores de Y no afecta a las probabilidades de los valores de
X.
Nota 2.1 La coma (,) dentro de la probabilidad en (2.1.3) denota la intersección (la
ocurrencia simultánea) de los eventos {X ∈ I} y {Y ∈ J}.
Al tomar en (2.1.3) a I = (−∞, x] y a J = (−∞, y] con x, y ∈ R se obtiene para las
v.a. independientes X e Y :

FX,Y (x, y) := P X 6 x, Y 6 y = P (X 6 x)P (Y 6 y) = FX (x)FY (y). (2.1.5)

A la función FX,Y (x, y) = P X 6 x, Y 6 y (de dos variables reales) se le denomina
la f.d. conjunta de X y Y.
No es difı́cil demostrar que la igualdad en (2.1.3) se cumple para todos los I, J ⊂ R si

y sólo si la igualdad en (2.1.5) se cumple para todos los x, y ∈ R. Entonces la definición
básica (y más simple) de independencia de variables aleatorias es la siguiente.
23
Definición 2.3 Las v.a. X y Y se llaman independientes, si (2.1.5) se cumple para

cada x, y ∈ R.
Si las v.a. X y Y NO son independientes, a éstas se les llama v.a. dependientes.

Notemos que para establecer la dependencia entre v.a. X y Y es suficiente encontrar un
par de números reales x, y para los cuales (2.1.5) no se cumpla.
Ahora de manera semejante a (1.2.6) definimos el concepto de continuidad absoluta para
un par de v.a.
Definición 2.4 El par de v.a. (X, Y ) se llama absolutamente continuo (a.c.) con la fun-
ción de densidad conjunta fX,Y (x, y), si la f.d. conjunta de X y Y se representa como
sigue:
Z x Z y
FX,Y (x, y) = fX,Y (s, t) ds dt, x, y ∈ R.
−∞ −∞
En este caso, para “casi todos” los puntos (x, y) en el plano:
∂2
fX,Y (x, y) = FX,Y (x, y). (2.1.6)
∂x∂y
Si, además, las v.a. a.c. X y Y son independientes entonces de (2.1.5) y (1.2.6) se
obtiene que:
fX,Y (x, y) = fX (x) · fY (y), x, y ∈ R. (2.1.7)
Ejemplo 2.2 (La densidad uniforme bidimensional en D) Sea D ⊂ R2 un con-

junto acotado con su área, denotada ar(D), bien definida. La función de densidad conjunta
 1 , si (x, y) ∈ D,

fX,Y (x, y) := ar(D)

0, si (x, y) ∈
/ D,

se llama uniforme en D.
Considerando los siguientes casos particulares se demuestra que (consulte el Ejercicio
2.2):
(a) X y Y son independientes (es decir, se cumple (2.1.5) o (1.2.7)), si D es un

rectángulo como en la Figura 2.2;
24
y
b
(X,Y)
Y
x
0 X a
Figura 2.2: D = el rectángulo.
(X,Y)
Y
ρ
θ
X r x
Figura 2.3: D = el cı́rculo de radio r.
(b) X y Y son dependientes, si D no es un rectángulo, por ejemplo si D es el cı́rculo

de radio r como en la Figura 2.3.
Sin embargo, en (b) (vea el Ejercicio 2.3) las v.a. ρ y θ (coordenadas polares de
(X, Y )) son independientes. Es decir, las funciones de variables aleatorias depen-
dientes podrı́an, a veces, ser independientes.
Por otro lado, de (2.1.5) se demuestra que:
Las funciones de v.a. independientes siempre son independientes. (2.1.8)
Ejemplo 2.3 El par de v.a. (ζ, η) se llama Normal estándar bidimensional con el
coeficiente de correlación ρ ∈ (−1, 1), si la densidad conjunta de (ζ, η) es:

1 1 2 2
fζ,η (x, y) = p exp − (x − 2ρxy + y ) ; x, y ∈ R. (2.1.9)
2π 1 − ρ2 2(1 − ρ2 )
25
2.2. Fórmula de probabilidad total.
1 2 1 2
Cuando ρ = 0, se tiene que fζ,η (x, y) = √ e−x /2 · √ e−y /2 , x, y ∈ R, y de (2.1.7)
2π 2π
se concluye que las v.a. ζ y η son normales estándares e independientes.
En los siguientes párrafos, y con frecuencia, se aplicará la siguiente definición.
Definición 2.5 Sea {Xn } = X1 , X2 , . . . , Xn , . . . una sucesión de v.a. Se dice que las v.a.
son independientes e idénticamente distribuidas (i.i.d. en lo subsiguiente) si:
(a) FX1 ≡ FX2 ≡ · · · ≡ FXn ≡ · · · ; (2.1.10)
(b) para cada n = 1, 2, . . . , análogamente a (2.1.5), la f.d. conjunta de X1 , X2 , . . . , Xn se

factoriza como producto de las f.d. (marginales) FX1 , FX2 , . . . , FXn de X1 , X2 , . . . , Xn .
Ejemplo 2.4 Sean X1 , X2 , . . . v.a. independientes con Xk ∼ Bern(p) para cada k =

1, 2, . . . Entonces, X1 , X2 , . . . , Xk , . . . son v.a. i.i.d.; además, no es difı́cil demostrar por
inducción que para cada n > 1, Sn = X1 + X2 + · · · + Xn ∼ Bin(n, p) (véase el Ejemplo
1.4).
Nota 2.2 (a) Si X = Y en el sentido de que X(ω) = Y (ω) para cada ω ∈ Ω, entonces
P (X 6 x) = P (Y 6 x), x ∈ R, o bien FX ≡ FY . Por otro lado, si FX ≡ FY
i.e. FX (x) = FY (x) para cada x ∈ R, entonces no siempre sucederá que X = Y
(consultar el ejercicio 1.13). Además, si FX ≡ FY y X y Y son independientes,
entonces X 6= Y (cuando X e Y no son constantes).
(b) Según un teorema de la teorı́a de la probabilidad avanzada para cualquier sucesión
de f.d. FX1 , FX2 , . . . , FXn , . . . , existe un espacio de probabilidad (Ω, F, P ), y v.a.
X1 , X2 , . . . , Xn , . . . , definidas en este espacio tales que la f.d. de Xn es FXn para
toda n y X1 , X2 , . . . , Xn , . . . , son v.a. independientes.
2.2. Fórmula de probabilidad total. Distribuciones y

densidades condicionales.
Sea (Ω, F, P ) un espacio de probabilidad, A un evento y B1 , B2 , . . . eventos disjuntos
que separan a Ω en subconjuntos disjuntos, i.e. Ω = B1 ∪ B2 ∪ . . . , y tales que P (Bk ) > 0
26
para cada k = 1, 2, . . . De la Definición 1.1 y de (2.1.1) se obtiene la fórmula de pro-

babilidad total:
X∞

P (A) = P A|Bk P (Bk ). (2.2.11)
k=1
Ω La suma en (2.2.11) podrı́a contener un número finito

o infinito de sumandos, dependiendo del número de los
B1 AB1 A eventos B1 , B2 , . . . involucrados en dicha partición. Por
A B2 ejemplo, si B1 ∪ B2 = Ω (i.e. B2 = B 1 ), entonces A =
B2 (A ∩ B1 ) ∪ (A ∩ B2 ), y P (A) = P (A ∩ B1 ) + P (A ∩ B2 ) =
P (A|B1 )P (B1 ) + P (A|B2 )P (B2 ) por (2.1.1). O bien:
P (A) = P (A|B1 )P (B1 ) + P (A|B2 )P (B2 ), (2.2.12)
que es un caso particular de (2.2.11).
Ejemplo 2.5 La población de Nicosia (Chipre) está conformada de la siguiente manera:

75 % es griega y 25 % es turca. Supongamos que el 35 % de los griegos y el 25 % de los
turcos hablan inglés. Si un visitante de Inglaterra hace una pregunta a alguien en la calle,
¿cuál es la probabilidad de que suceda el evento: A = {la persona sabe hablar inglés}.
Introduciendo B1 = {la persona es griega} y B2 = {la persona es turca}, obtenemos por
(2.2.12) que:
P (A) = (0.35)(0.75) + (0.25)(0.25) = 0.325.
Si en (2.2.11) se escoge A = {Z ∈ B} (donde B es un subconjunto de R “bastante

bueno”, por ejemplo, un intervalo y Z es una v.a.) y Bk = {Y = yk } para otra v.a.
discreta Y con los valores {y1 , y2 , . . . , yk , . . . }, se obtiene:
∞
X
P (Z ∈ B) = P (Z ∈ B|Y = yk )P (Y = yk ). (2.2.13)
k=1
Cuando Y es una v.a. a.c. con la densidad fY , entonces (2.2.11) no se aplica di-
rectamente para definir P (Z ∈ B|Y = y) como P (Z=B,Y =y)
P (Y =y)
, ya que, según la Nota 1.6,
P (Y = y) = 0. Sin embargo, bajo ciertas condiciones, podrı́amos proceder de la siguiente
forma:

P Z ∈ B|Y = y := lı́m P Z ∈ B|Y ∈ (y − ∆y, y + ∆y) .
∆y→0
27
Entonces, es posible reemplazar en (2.2.13) a la v.a. discreta Y por una v.a. a.c. Y con
su densidad fY . En este caso, la suma en (2.2.13) se convierte en integral y análogamente
P (Y = yk ) en (2.2.13) se convierte en fY (y) dy, de lo que resulta la siguiente fórmula:
Z ∞
P (Z ∈ B) = P (Z ∈ B|Y = y)fY (y)dy. (2.2.14)
−∞
Definición 2.6 (a) Sea Z una v.a. discreta con valores {z1 , z2 , . . . , zn , . . . }. Tomando en
(2.1.1) B = {Z = zn } para los valores zn , n = 1, 2, . . . , las probabilidades condicionales:
P (Z = zn , Y = yk )
P (Z = zn | Y = yk ) := , n = 1, 2, . . . , (2.2.15)
P (Y = yk )
definen la distribución condicional de la v.a. Z dado un valor fijo yk de la v.a. discreta

Y.
(b) Sea (Z, Y ) un par de v.a. a.c. con la densidad conjunta fZ,Y (z, y). Sea el valor de
la v.a. Y = y fijo, la densidad condicional de la v.a. Z, denotada fZ|Y =y (z), se define
para cada z ∈ R como:
f (z, y)

 Z,Y
 , si fY (y) > 0,
fZ|Y =y (z) := f Y (y) (2.2.16)

0, si fY (y) = 0.

Nota 2.3 (a) Análogamente a la observación en la Nota 1.6-(b), fZ,Y (z, y)∆z∆y repre-
senta, aproximadamente, la probabilidad de que la v.a. Z tome un valor “cercano a
z” y al mismo tiempo la v.a. Y tome un valor “cercano a y”. Es por esto que (2.2.16)
es un análogo de (2.2.15). También nótese que:
Z
P (Z, Y ) ∈ D∆ = f (z, y)dzdy ≈ f (z, y)∆z∆y,
D∆
donde D∆ es el rectángulo (véase Figura 2.4) con centro en el punto (z, y) y de

longitudes de lados, respectivamente, ∆z y ∆y.
(b) La distribución condicional P (Z = zn |Y = yk ) y la densidad condicional fZ|Y =y (z)
dependen de los valores de la v.a. Y . En este sentido, ellas son funciones de la v.a.
Y.
28
w
fZ,Y (z,y)
z z
y
y
D∆ con área: ∆z∆y
Figura 2.4: Densidad conjunta.
(c) Si Z y Y son independientes, entonces por (2.2.15), (2.2.16), (2.1.5) y (2.1.7) se tiene
que:
P (Z = zn |Y = yk ) = P (Z = zn ), n = 1, 2, . . . , (caso discreto)
fZ|Y =y = fZ (z), z ∈ R, (caso continuo).
Esto significa que de la independencia de las variables resulta la igualdad entre las
distribuciones condicionales y las distribuciones originales (sin condiciones).
Ejemplo 2.6 (a) Tomando en cuenta las notaciones del Ejemplo 1.3(a), sea Z el puntaje
sumado de los dos lanzamientos, y sea Y el puntaje del primer lanzamiento. Entonces,
por ejemplo,
P (Z = 12, Y = 6) P (6, 6) 1/36 1
P Z = 12 |Y = 6 = = = = .
P (Y = 6) P (Y = 6) 1/6 6
Del mismo modo:
(
1
, si n = 6, 7, . . . , 12;
P Z = n |Y = 6 = 6
0, si n = 2, 3, . . . , 5.
(De hecho, por ejemplo P (Z = 5, Y = 6) = 0, ya que si en el primer lanzamiento salio 6,

la suma de ambos valores no podrá ser 5).
1

Pero P (Z = 2) = P sale(1, 1) = 36
. Entonces las v.a. Z y Y son dependientes.
(b) Consúltese el Ejercicio 2.16 para el cálculo de algunas densidades condicionales.
De manera similar a la noción de densidad conjunta fX,Y de un par de v.a. a.c. X

y Y (véase Definición 2.4) se introduce la distribución conjunta P X = xk , Y = Yn
29
con k = 1, 2, . . . ; n = 1, 2, . . . para las v.a. discretas con valores {x1 , x2 , . . . , xk , . . . } y

{y1 , y2 , . . . , yn , . . . }, respectivamente. Al considerar un par de v.a. (X, Y ) con su distri-
bución conjunta P X = xk , Y = Yn (en el caso de v.a. discretas) o con su densidad
conjunta fX,Y (x, y) (en el caso de v.a a.c.) las distribuciones de X y Y (o sus densidades,
para v.a. a.c.) frecuentemente se llaman distribuciones (densidades) marginales. La
siguiente proposición ofrece una fórmula para determinar las distribuciones (densidades)
marginales a partir de la distribución (densidad) conjunta.
Proposición 2.1 (a) Sea el par de v.a. discretas (X, Y ) con la función de distribución
conjunta P X = xk , Y = Yn , con k, n = 1, 2, . . . Entonces:
∞
X
para cada xk P X = xk = P X = xk , Y = Y n y
n=1
∞
X

para cada yn P Y = yn = P X = xk , Y = Y n .
k=1
(b) Sea el par de v.a. a.c. (X, Y ) con la densidad conjunta fX,Y (x, y). Entonces:
Z ∞
para cada x ∈ R fX (x) = fX,Y (x, y) dy; y
−∞
Z ∞
para cada y ∈ R fY (y) = fX,Y (x, y) dx.
−∞
Para demostrar, por ejemplo, el inciso (a) notemos que:

∞
X
P (X = xk ) = (2.2.13) = P X = xk |Y = yn P Y = yn
n=1
∞
X
= (por (2.2.15)) = P X = xk , Y = y n .
n=1
Proposición 2.2 Sean X, Y v.a. independientes tales que la densidad de Y es fY , y

Z := ϕ(X, Y ), donde ϕ es una función (“medible”, por ejemplo continua) de dos variables.
Entonces, para conjuntos “medibles”(por ejemplo intervalos) B ⊂ R,
Z ∞

P (Z ∈ B) = P ϕ(X, y) ∈ B fY (y)dy. (2.2.17)
−∞
30
En efecto, P (ϕ(X, Y ) ∈ B|Y = y) = P (ϕ(X, y) ∈ B|Y = y) = (por la independencia

de X y Y ) = P (ϕ(X, y) ∈ B). Faltarı́a aplicar (2.2.14).
Al aplicar (2.2.17) a la suma Z = X + Y de las v.a. independientes y a.c. con

B = (−∞, z], z ∈ R, se obtiene que:
FZ (z) = (por (1.2.5)) = P (Z ∈ (−∞, z]) =

Z ∞ Z ∞
= P (X + y 6 z)fY (y)dy = P (X 6 z − y)fY (y)dy.
−∞ −∞
d d
Derivando con respecto a z y teniendo en cuenta que dz P (Z 6 z − y) = F (z − y)
dz X
=
(por (1.2.7)) = fX (z − y), llegamos a la siguiente afirmación.
Teorema 2.1 Para v.a. X, Y independientes y absolutamente continuas se tiene (la fórmu-
la de convolución):
Z ∞
fX+Y (x) = fX (x − y)fY (y)dy; x ∈ R. (2.2.18)
−∞
Luego, si se aplica (1.2.13) y (2.2.18) se obtiene por inducción y cálculos de integrales

el siguiente teorema.
Teorema 2.2 Sean (con n > 2) η1 , η2 , . . . , ηn v.a. i.i.d. y ηk ∼ N orm(0, 1), (k =

1, 2, . . . , n). Entonces:
η1 + η2 + · · · + ηn
√ ∼ N orm(0, 1). (2.2.19)
n
31
2.3. Ejercicios
2.3. EJERCICIOS
2.1 Sean A y B eventos en un espacio de probabilidad, tales que P (B) > 0 y P (B) > 0.
Muestre que si P (A|B) > P (A) entonces P (A|B) < P (A).
2.2 Muestre que en el Ejemplo 2.2(a), X y Y son independientes, pero en el Ejemplo

2.2(b), X y Y son dependientes (por ejemplo: Y = r resultará que X = 0).
2.3 Encuentre Fρ,θ y fρ,θ para las v.a. ρ, θ en el Ejemplo 2.2(b) y establezca que éstas
son independientes.
2.4 Sean X y Y v.a. independientes de Poisson respectivamente con parámetros λ y

µ, X ∼ P oiss(λ), Y ∼ P oiss(µ), donde λ, µ > 0, (consulte el Ejemplo 1.4(c)).
Demostar que X + Y ∼ P oiss(λ + µ).
Pn n!
Sugerencia: Use (2.2.13) y la fórmula (a + b)n = k=0 k!(n−k)! a
n−k
bk .
2.5 (a) Sean X y Y v.a. i.i.d. con valores en el conjunto {0, 1, 2, 3, . . . }. Demuestre que
P (X + Y sea un número par )> 1/2.
(b) Supongamos que X y Y son v.a. donde X ∼ P oiss(λ = 12 ), Y ∼ P oiss(µ = 12 ).
Calcule P (X + Y sea un numero par).
Sugerencia:
(a) Use (2.2.13).

P∞ xk
(b) Use el Ejercicio 2.4 y la fórmula k=0 k! = ex , aplicada a e1 + e−1 .
1+e−2
Resp. : (b) : 2
≈ 0.568.
2.6 Un dado simétrico se lanza n veces. Considere el evento An := {en n lanzamientos

sale por lo menos un “6”}. Demuestre que P (An ) → 1 cuando n → ∞.
2.7 Una moneda simétrica se lanza 100 veces. Sea A := {sólo salen águilas}. Establezca
1
que P (A) = 2100 , i.e. A es un “evento raro”. Sin embargo, cualquier otro resultado
1
particular de 100 lanzamientos tiene la misma probabilidad de 2100 .
2.8 Sean X1 , X2 , . . . , Xn v.a. independientes con Xk ∼ Exp(λk ), para cada k = 1, 2, . . . , n.

Demuestre que mı́n(X1 , X2 , . . . , Xn ) ∼ Exp(λ = λ1 + λ2 + · · · + λn ).
Sugerencia: Para x > 0 determine 1−FYn (x) y tome en cuenta que para cualquier
c > 0, min(a, b) > c si y sólo si a > c y b > c.
32
2.9 Sean r > 0 un número arbitrariamente grande, pero fijo y Sr,n := {x = (x1 , x2 , . . . , xn ) ∈
Rn tal que (x21 + x22 + · · · + x2n )1/2 6 r} (la esfera en Rn de radio r). Sean también
X1 , X2 , . . . , Xn v.a. i.i.d. con distribución
N orm(0, 1). Demuestre que
lı́mn→∞ P (X1 , X2 , . . . , Xn ) ∈ Sr,n = 0.
2.10 Suponga que el número Y de partı́culas cósmicas que golpean al contador de Geiger
(en una unidad de tiempo) es una v.a. con la distribución de Poisson con parámetro
λ = 1. Cada partı́cula se registra por el contador con la probabilidad 2/3 (inde-
pendiente para distintas partı́culas). Calcular P (X = 0), donde X es el número de
partı́culas registradas en una unidad de tiempo.
Sugerencia: Usar (2.2.13).
Resp. : e−2/3 ≈ 0.51342.
2.11 Sean η1 , η2 v.a. i.i.d. con distribución N orm(0, 1). Demuestre que la densidad de la
v.a. X = ηη21 está dada por la siguiente fórmula (densidad de Cauchy, gran ma-
temático francés Augustin-Louis Cauchy (1789-1857), pionero del rigor en el análisis
matemático, y comenzó la creación sistemática de la teorı́a de grupos):
1
fX (x) = , x ∈ R. (2.3.20)
π(x2 + 1)
Sugerencia: Para determinar la densidad de X, tome en cuenta que fX (x) =
d
F (x), y para determinar FX (x) utilice la simetrı́a de la densidad normal y la
dx X
fórmula (2.2.17) con Z = X y Y = η2 .
2.12 (a) Un dado simétrico se lanza sucesivamente hasta la primer salida del “6”. Sea X el
número de lanzamientos. Demostrar que X es una v.a. geométrica con parámetro
p = 1/6, i.e. X puede tomar los valores {1, 2, 3, . . . , k, . . . } con las probabilidades:
P (X = k) = p(1 − p)k−1 , k = 1, 2, 3, . . . (2.3.21)
En este caso se escribe: X ∼ Geom(p).
(b) Calcular P (X > 10) y P (X toma un valor par).
Resp. : (b) ≈ 0.16151 y ≈ 0.45455.

Sugerencias: (a) Introducir las v.a. independientes de Bernoulli Xk , k = 1, 2, . . .
tales que:
(
1, si en el k-ésimo lanzamiento resulta el “6”,
Xk =
0, si en el k-ésimo lanzamiento resulta otro puntaje.
33
2.3. Ejercicios
Observar que para k > 1, P (X = k) = P (X1 = 0, X2 = 0, . . . , Xk−1 = 0, Xk = 1) y

aplicar la independencia.
(b) Usar (1.2.8) y la siguiente suma infinita (serie):
∞
X 1
αn = , si 0 < α < 1. (2.3.22)
n=0
1−α
Nota 2.4 La ecuación (2.3.22) se obtiene como el lı́mite cuando k → ∞ en la

siguiente fórmula elemental:
k
X
n1 − αk+1
Sk := α = . (2.3.23)
n=0
1−α
1
Por ejemplo, para α = 1/2, 1−α = 2. Aplicando (2.3.23) calculamos, S5 = 1.96875,
S10 = 1.999023438, S20 = 1.999999046, que evidentemente sePaproximan al valor de
∞ 1 n 1

2 cuando se aumenta el número de sumandos. Es decir S := n=0 2 = 1−1/2 = 2.
2.13 Una moneda simétrica se lanza dos veces. Sean X := el número de salidas de “sol”;
Y := el número de salidas de “águila”. Demostrar que:
(a) X y Y son idénticamente distribuidas;
(b) X y Y son dependientes; y
(c) P (X 6= Y ) = 1/2.
2.14 Sea X > 0 una v.a. a.c. Demuestre que para cada t, s > 0, P (X > t + s|X >
s) = P (X > t) (“ausencia de la memoria”) sys (si y sólo si) existe λ > 0 tal que
X ∼ Exp(λ).
Nota 2.5 El Ejercicio 2.14 dice que entre todas las v.a. a.c. y no negativas solamente
la v.a. X ∼ Exp(λ) tiene la siguiente propiedad:

P X > t + s | X > s = P (X > t), (2.3.24)
para todas t, s > 0. Si por un minuto se supone que X representa el “tiempo de vida”
de una especie o de un mecanismo hasta su falla, entonces por (2.3.24) resulta que di-
cho mecanismo (o especie) “no envejece” (i.e. es lo mismo usado que nuevo). Si, por
ejemplo, se supone absurdamente que X modela el tiempo de vida de un ser humano,
entonces de (2.3.24) se tiene: P (de vivir más de 100 años | se tiene más de 50) =
P (de que un recién nacido vivirá más de 50 años). Esto nos muestra que hay que
34
tener cuidado en los “ejemplos de aplicación”, en los cuales se comience con “su-
ponga que la duración del funcionamiento hasta la falla es una v.a. exponencial. . . ”.
Mientras que el “tiempo de vida” de los átomos radioactivos (hasta su desintegra-
ción) sı́ es modelado por un tiempo aleatorio exponencial.
2.15 Sean X y Y dos v.a. independientes y Y = X 2 . Demostrar que existe un número

x0 ∈ R tal que P (X = x0 ) + P (X = −x0 ) = 1.

Sugerencia: Para x > 0, defina la función p(x) := P X 2 6 x2 = FY (x2 ) la cual
es igual a P X 2 6 x2 , −x 6 X 6 x . Después utilice la independencia y resuelva la
ecuación p(x) = (p(x))2 . Finalmente utilice la propiedad de monotonı́a de la f.d.
2.16 Supongamos que las v.a. X, Y tienen la siguiente densidad conjunta (densidad
uniforme en T ):
(
2, (x, y) ∈ T,
fX,Y (x, y) =
0, (x, y) ∈
/ T.
y
1 (a) Determine las f.d. marginales FX (x) y FY (y).
(b) Muestre que X y Y son dependientes.
T
x (c) Encuentre la densidad condicional fX|Y =y (x).
0 1
( (
2x − x2 , si x ∈ (0, 1), 2y − y 2 , si y ∈ (0, 1),
Resp. : (b) FX (x) = FY (y) =
0, si x ∈
/ (0, 1). 0, si y ∈
/ (0, 1).
(
1
1−y
, si x ∈ (0, 1 − y),
(c) para y ∈ (0, 1), fX|Y =y (x) =
0, si x ∈
/ (0, 1 − y).
2.17 Una moneda simétrica se lanza hasta la primera aparición de “sol”, después otra
moneda se lanza hasta la primera aparición de “sol”. Sean X y Y las variables que
representan el número de lanzamientos respectivos. Calcular P (X = Y ).
Sugerencia: Usar la distribución geométrica, la fórmula de probabilidad total
(2.2.13) y (2.3.22).
Resp. : 1/3.
35
2.3. Ejercicios
2.18 Un dado bien balanceado (simétrico) se lanza dos veces. Sean X y Y las v.a. que
representan los puntajes en el primer y en el segundo lanzamiento respectivamente.
Calcular P (X · Y sea un número par ).
Sugerencia: Calcule primero P (X · Y sea un número impar ), usando la fórmula
de probabilidad total (2.2.13) y la independencia entre X y Y .
2.19 Sean A y B dos eventos tales que P (A) = P (B) = 2/3. Demostrar que P (A|B) > 12 .
2.20 Sean X y Y v.a. a.c. i.i.d. con la siguiente densidad:

(
√ 1√ , si 0 < x < 2,
fX (x) = fY (x) = 2 2 x
0, si x ∈
/ (0, 2).
Sea T := máx{X, Y }. Demostrar que T ∼ U (0, 2).

X
2.21 Sean X ∼ Exp(λ), Y ∼ Exp(λ) v.a. independientes. Demostrar que Z := ∼
X +Y
U (0, 1).
Sugerencia: Para calcular P (Z 6 x) usar (2.2.17).
2.22 Sean N > 1 y n > 1 dos números enteros dados y X1 , X2 , . . . , Xn v.a. i.i.d. con
valores en el conjunto {1, 2, . . . , N }. Sea Sn = X1 + X2 + · · · + Xn . Demostrar que
1
P (Sn sea divisible entre n) > N n−1 .
Sugerencia: Calcular los posibles valores de Sn y usar argumentos de simetrı́a
(que se justifican por la propiedad de ser i.i.d. las v.a.).
2.23 Para el par de v.a. (ζ, η) con la densidad Normal estándar bidimensional en (2.1.9)
demuestre que para cada y ∈ R:
1 (x−ρy)2
−
fζ|η=y (x) = √ p e 2(1−ρ2 ) , x ∈ R, (2.3.25)
2π 1 − ρ2
p
es la densidad Normal con a = ρy y σ = 1 − ρ2 .
2.24 (Un ejercicio de broma) En un paı́s, el 10 % de la población de hombres adultos son

ricos, el 3 % son ladrones (en un sentido amplio, tomando en cuenta, por ejemplo,
la corrupción) y el 2 % son ricos y ladrones. Si se escoge al azar a un hombre de esta
población:
(a) ¿cuál es la probabilidad condicional de que la persona sea rica dado que es un
ladrón?;
36
(b) ¿cuál es la probabilidad condicional de que la persona sea rica, si no es un

ladrón?
Resp. : (a) 0.66667; (b) 0.08247.
2.25 Sean A y B dos eventos en el espacio de probabilidad (Ω, F, P ), tales que P (B) > 0
y P (B) > 0. Demostrar que A y B son independientes si y sólo si P (A|B) = P (A|B).
37
2.3. Ejercicios
38
Capı́tulo 3
Esperanza y Varianza de Variables

Aleatorias
3.1. Esperanza.
Los valores promedio de algunas v.a. se usan frecuentemente en la vida cotidiana.
Entre algunos ejemplos están: la temperatura promedio a medio dı́a en Acapulco en el
mes de Agosto; el tiempo promedio de vida de los hombres en cierto paı́s, etc. Estos
promedios se calculan a partir de datos estadı́sticos que se manejan con base en la teorı́a
de probabilidad. El concepto de “promedio” se formaliza en términos de esperanza (o
esperanza matemática) de una v.a. X, que es un número (“promedio”) obtenido al
sumar todos los valores de X ponderados por sus probabilidades. Por ejemplo, si en un
sorteo pueden ganarse mil pesos con probabilidad 1/1000 y perder 5 pesos (o bien “ganar
−5” pesos, por ejemplo, comprando un boleto de este precio) con probabilidad 999/1000,
entonces la “ganancia - pérdida”se representa por la v.a.
(
1000, con probabilidad 1/1000,
X=
−5, con probabilidad 999/1000,
y el valor de su esperanza (“ganancia” promedio esperada):

1 999
EX = 1000 + (−5) = −3.995.
1000 1000
Es decir, el juego es injusto y en promedio hay que esperar perder alrededor de 4 pesos
al participar en dicho sorteo.
39
3.1. Esperanza.
Generalmente (en la teorı́a avanzada) para una v.a. X definida en un espacio de

probabilidad (Ω, F, P ), tal que
Z

X(ω) dP (ω) < ∞, (3.1.1)
Ω
la esperanza de X se define como el número real siguiente:

Z
a ≡ EX := X(ω) dP (ω). (3.1.2)
Ω
En particular, si Ω = {ω1 , ω2 , . . . , ωn } es finito, entonces la integral en (3.1.2) nos da

(considerando que X(ωk ) = xk ):
n
X n
X
EX = X(ωk )P (ωk ) = xk P (X = xk ). (3.1.3)
k=1 k=1
En el caso general, suponiendo que se tiene (3.1.1), en (3.1.2) aparece una integral
abstracta (la integral de Lebesgue1 ), que de hecho no necesitamos usar en este curso, ya
que al tomar el cambio de variables x = X(ω) se demuestra que (3.1.2) se convierte en:
∞
X
EX = xk P (X = xk ); si X es discreta, (3.1.4)
k=1
Z ∞
EX = x fX (x)dx; si X es a.c. (3.1.5)
−∞
Ejemplo 3.1 (a) Se lanza un dado simétrico (i.e., bien balanceado). Sea X la v.a. que
representa el puntaje del lanzamiento. Por (3.1.4) tenemos que:
6 6
X X 1
EX = kP (X = k) = k = 3.5.
k=1 k=1
6
Obsérvese que el resultado es una fracción a pesar de que los valores de X son enteros.
De forma similar se obtiene que en México la tasa de fecundidad de una mujer entre 15
y 49 años (información del año 2013, INEGI) es 2.2 hijos (es decir, en promedio, una
mujer mexicana entre 15 y 49 años “tiene” 2.2 hijos).
1
Henri Léon Lebesgue (1875-1941) matemático francés conocido por sus aportaciones en la teorı́a de
la medida y de la integral.
40
CAPÍTULO 3. ESPERANZA Y VARIANZA
(b) Supongamos (razonablemente) que el número de clientes que entran a una sucursal
de Banamex entre las 12 y las 13 hrs. es la v.a. X ∼ P oiss(λ = 35) (consulte el Ejemplo
1.4(c)). ¿Cuántas personas, en promedio, entran en esa hora? Por (3.1.4) tenemos que:
∞ ∞ ∞
X λk −λ −λ
X λk−1 −λ
X λn
EX = k e = λe = λe = λe−λ eλ = λ,
k=1
k! k=1
(k − 1)! n=0
n!
puesto que de cálculo sabemos que el “desarrollo de Taylor para la función f (x) = ex ” es:
∞
X xn
= ex para cada x ∈ R.
n=0
n!
xn
La suma infinita se interpreta en el sentido de que las sumas finitas SN = N
P
n=0 n! se
x
aproximan al número
Pe5 cuando N → ∞. Por ejemplo, para x = 1, ex = e ≈ 2.718281828
10
y veamos que S5 = n=0 n!1 ≈ 2.7166 y S10 = n=0 n!1 ≈ 2.71828.
P
Por lo tanto,
EX = λ, si X ∼ P oiss(λ), (3.1.6)
y el número promedio de clientes es EX = λ = 35.
(c) Una persona que debe esperar un autobús, supone que el tiempo de espera se da
por la v.a. X ∼ U (0, 20) (en minutos, véase el Ejemplo 1.11). Entonces,
(
1/20, si x ∈ (0, 20),
fX (x) =
0, si x ∈
/ (0, 20),
y por (3.1.5) el tiempo promedio de espera es:

20
20
1 x2
Z
1
EX = x dx = = 10(min).
0 20 20 2 0
Con cálculos análogos obtenemos que:
a+b
EX = , si X ∼ U (a, b). (3.1.7)
2
Es decir la esperanza, EX, de una v.a. uniforme en (a, b) es el punto medio de dicho
intervalo.
41
3.1. Esperanza.
Nota 3.1 La condición (3.1.1) de la existencia de esperanza finita implica que la suma
o la integral en (3.1.4) y (3.1.5) debe converger absolutamente, es decir, debe tener un
X∞ Z ∞
valor finito |xk | P (X = xk ) o |x|fX (x)dx. Más adelante se verá que no todas
k=1 −∞
las v.a. tienen esperanza. Por otro lado, cuando X > 0 (X toma valores no negativos) y
la suma o la integral en
P (3.1.4) o en (3.1.5) diverge (i.e. si las sumas parciales tienden a
infinito, por ejemplo, ∞ k=1 xk P (X = xk ) = ∞), se convendrá en definir: EX = ∞.
Ejemplo 3.2 Sea X la v.a. del Ejercicio 1.12. Por (3.1.4) se tiene:
∞ ∞
6 1
X 6 X1
EX = k 2 2 = 2 =∞
k=1
π k π k=1 k
N Z N
X 1 1
ya que al aproximar las sumas parciales mediante la integral dx se tiene que:
k=0
k 1 x
N
X 1
≈ ln(N ) → ∞, cuando N → ∞.
k=1
k
Ahora, sean X una v.a. y g : R → R una función, tales que Y = g(X) es una v.a.
(con g continua, como ejemplo particular). Es claro que Y toma el valor g(x) cuando
X = x. Supongamos también que Eg(X) existe, entonces por (3.1.4) y (3.1.5) se tiene
que la esperanza de una función es:
∞
X
Eg(X) = g(xk )P X = xk , si X es discreta. (3.1.8)
k=1
Z ∞
Eg(X) = g(x)fX (x) dx, si X es a.c. (3.1.9)
−∞
1

Ejemplo 3.3 (a) Sea X ∼ P oiss(λ). Calculemos E 1+X . Por el inciso (c) del Ejemplo
1.4 y (3.1.8) tenemos que:
∞ ∞
"∞ #
1 λk −λ e−λ X λk+1 e−λ X λn

1 X
E = e = = −1
1+X k=0
1 + k k! λ k=0
(k + 1)! λ n=0
n!
e−λ λ 1 − e−λ
= e −1 = (≈ 0.63212 para λ = 1).
λ λ
42
(b) Sea X ∼ U (0, 1). Por (3.1.9) e integrando por partes, se tiene:
Z 1 1 Z 1
x
E[ln X] = ln x dx = (ln x) x − dx = −1 6= ln[EX] = ln(1/2) ≈ −0.69315.

0 0 0 x
En general, para la mayorı́a de funciones g y de v.a. X, se tiene que Eg(X) 6= g(EX).
La siguiente tabla resume y compara algunos conceptos relacionados con v.a. discretas
y absolutamente continuas.
Una v.a. discreta X Una v.a. absolutamente continua X

1. Conjunto de valores {x1 , x2 , . . . , xk , . . . } 1*. Un subconjunto de R no numerable
(finito o numerable). (tı́picamente intervalos acotados o no)
donde la densidad es positiva.
2. Probabilidades de los valores: p1 , p2 , . . . 2*. La densidad fX : R → [0, ∞) con
. . . , pk , . . . , con pk = P (X = xk ), P X ∈ (x − 12 ∆x, x + 12 ∆x) ≈ fX (x)∆x.
para toda k = 1, 2, . . .
∞
X Z ∞
3. pk > 0, k = 1, 2, 3, . . . , pk = 1. 3*. fX (x) > 0, x ∈ R, fX (x)dx = 1.
k=1 −∞
X Z
4. P (X ∈ I) = P (X = xk ) 4*. P (X ∈ I) = fX (x)dx.
xk ∈I I
P
= xk ∈I pk .
5. La esperanza de X (el valor promedio): 5*. La esperanza de X:
X∞ Z ∞
EX = xk P (X = xk ). EX = x fX (x)dx.
k=1 −∞
6. La esperanza de g(X): 6*. Esperanza de g(X):
X∞ Z ∞
Eg(X) = g(xk )P (X = xk ). Eg(X) = g(x) fX (x)dx.
k=1 −∞
3.2. Varianza y desigualdad de Chebyshev.

Un caso particular muy importante para (3.1.8) y (3.1.9) es cuando g(X) = (X −EX)2
(suponiendo que EX existe y es finita).
43
3.2. Varianza y desigualdad de Chebyshev
La varianza de la v.a. X, denotada V ar(X), es el número no negativo definido por
V ar(X) := E(X − EX)2 = E(X 2 ) − (EX)2 . (3.2.10)
La última igualdad es cierta debido a que E[X 2 − 2XEX + (EX)2 ] = E(X 2 ) − (EX)2 .
En el siguiente lema se observa que la varianza existe y es finita si y sólo si E(X 2 ) < ∞.
Lema 3.1 Sea X una v.a. cualquiera con EX < ∞ , entonces

q
E X 6 E X 2 .
Para demostrar esta desigualdad, es suficiente observar (ver la Proposición 3.1, abajo)
2
que para α ∈ R E |X|−α > 0, o bien E(X 2 )−2αE|X|+α2 > 0 y considerar α = E|X|.
Por el Lema 3.1 tenemos que EX existe, si E(X 2 ) < ∞, (el recı́proco no siempre
es cierto, véase el Ejercicio 3.18). De forma parecida se demuestra que si E|X|3 < ∞,
entonces E(X)2 < ∞, E|X| < ∞ y por lo tanto EX y V ar(X) existen y son finitas.
Las propiedades de la esperanza (de las cuales la más importante es la linealidad) y

de la varianza son consecuencia de las propiedades comunes de las integrales.
Proposición 3.1 Sean X y Y v.a. para las cuales EX 2 < ∞, EY 2 < ∞ y c ∈ R una
constante (ésta se puede interpretar como la v.a. con el único valor c). Entonces, las
esperanzas y varianzas tienen las siguientes propiedades:
Propiedades de la esperanza: Propiedades de la varianza:
Ec = c. V ar(c) = 0.
E(c X) = c EX. V ar(c X) = c2 V ar(X).
E(X + c) = EX + c. V ar(X + c) = V ar(X).
E(X + Y ) = EX + EY. V ar(X + Y ) = V ar(X) + V ar(Y ),
si X y Y son independientes.
EX > 0, si X > 0. V ar(X) = 0 sys P (X = c) = 1.
|EX| 6 E|X|.
Nota 3.2 (a) En general (con X, Y dependientes) puede suceder que V ar(X + Y ) 6=
V ar(X) + V ar(Y ), (véase el Ejercicio 3.1).
p
(b) σ(X) := V ar(X) se denomina la desviación estándar de la v.a. X.
44
(c) Se dice que una variable aleatoria X es degenerada, si existe un valor c ∈ R, tal
que P (X = c) = 1, es decir casi seguramente la v.a X toma como único valor a c. En este
caso usando que la f.d. FX es no decreciente es fácil obtener que FX (x) = 0, si x < c y
FX (x) = 1, si x > c.
Teorema 3.1 Sean X, Y v.a. independientes para las cuales existen EX y EY . Entonces
E(X · Y ) = (EX)(EY ). (3.2.11)
Por ejemplo, si X, Y tienen, respectivamente, densidades fX y fY , entonces por (2.1.7)

se tiene la densidad conjunta fX,Y = fX fY . De (3.1.5) se tiene,
Z ∞ Z ∞
(EX)(EY ) = xfX (x)dx y fY (y)dy =
−∞ −∞
Z ∞Z ∞
= x yfX,Y (x, y) dx dy = E(X · Y ),
−∞ −∞
por analogı́a a (3.1.5).
Corolario 3.1 Si X y Y son independientes y EX 2 < ∞, EY 2 < ∞, entonces

V ar(X + Y ) = V ar(X) + V ar(Y ). (3.2.12)
Para simplificar los cálculos, suponemos que EX = EY = 0 (como es fácil esto no

conlleva a una perdida de generalidad). Entonces, por la Proposición 3.1 E(X + Y ) = 0
y por (3.2.10), (3.2.11),
V ar(X + Y ) = E(X + Y )2 = E(X 2 + 2XY + Y 2 )
= EX 2 + 2E(XY ) + EY 2 = EX 2 + 2EXEY + EY 2
= EX 2 + EY 2 = V ar(X) + V ar(Y ).
Ejemplo 3.4 (a) Para X ∼ Bern(p) tenemos por (3.1.4) que EX = 0(1−p)+1·p = p,
de lo cual EX = p . De (3.2.10) y (3.1.8) se obtiene V ar(X) = p(1 − p).
(b) Utilizando la Proposición 3.1 con Yn = X1 + · · · + Xn ∼ Bin(n, p),
EYn = np y V ar(Yn ) = np(1 − p). (3.2.13)
Por ejemplo, al lanzar un dado 10 veces, en promedio, el “6 ” sale 10 16 ≈ 1.66666

veces.
45
Ejemplo 3.5 (a) Para X ∼ Exp(λ), aplicando (3.1.5), (3.1.9), (3.2.10), y mediante
integración simple se obtiene:
1 1
EX = y V ar(X) = . (3.2.14)
λ λ2
(b) Para X ∼ N orm(a, σ) (véase Figura 3.1),

EX = a y V ar(X) = σ 2 . (3.2.15)
y y
2 2
1 -(x-a) /2σ
1 -(x-a) 2 /2σ
2
fX (x)= 2π σ e
fX (x)= 2π σ e
1
con Var(X) = σ 2 = 0.1 con Var(X) = σ 2 = 10
1
ya=1 ya=1
x [ ]
x
[ ]
0 a=1 c d 0 a=1 c d
Figura 3.1: Esperanza y varianza de la v.a. Normal.
Por ejemplo, por (3.1.5) se tiene:

Z ∞
1 (x−a)2
EX = x√ e− 2σ2 dx
2πσ
Z−∞
∞ Z ∞
1 −
(x−a)2 1 (x−a)2
= (x − a) √ e 2σ dx + a
2 √ e− 2σ2 dx,
−∞ 2πσ −∞ 2πσ
2 2
donde la integral del primer sumando es igual a cero puesto que la función ye−y /2σ es
impar (véase la Figura 3.2). Mientras que en el segundo sumando la integral es 1, ya que
es la integral de una densidad (ver los Ejercicios 1.14 y 1.17).
Nota 3.3 Mientras que el valor de EX indica el “centro de los valores de X pondera-
dos por sus probabilidades”; la varianza (V ar(X)) es una medida de “dispersión de los
valores”. Para la distribución Normal las áreas resaltadas en la Figura 3.1 representan
(por (1.2.9)) las probabilidades P (X ∈ [c, d]) para un intervalo [c, d]. Si este intervalo es
distante de la esperanza a = 1, entonces P (X ∈ [c, d]) es casi cero cuando la varianza es
pequeña (imagen de la izquierda en la Figura 3.1); la misma probabilidad P (X ∈ [c, d])
es bastante distinta de cero cuando la varianza es mayor (imagen de la derecha). En el
siguiente ejemplo con densidades uniformes se observa este fenómeno con más claridad.
46
z -y2/2σ 2
f (y)=ye
+
y
2 /2σ 2
Figura 3.2: Función impar: f (y) = ye−y .
Ejemplo 3.6 Sean X ∼ U (−0.1, 0.1) y Y ∼ U (−10, 10) (véase (1.2.14)) entonces sus
densidades tienen las gráficas que se muestran en la Figura 3.3 (las gráficas no están a
la misma escala).
y
1/0.2
fX (x)
fY (x)
1/20 x
x
-0.1 0 0.1 -10 0 10
Figura 3.3: Dos densidades uniformes.
De (3.1.7) resulta que EX = EY = 0. Es fácil calcular a partir de (3.2.10) y (3.1.9)

que
(b − a)2
V ar(Z) = , si Z ∼ U (a, b). (3.2.16)
12
Por tal V ar(X) ≈ 0.0033, V ar(Y ) ≈ 33.3333, y teniendo en cuenta que una v.a.
Z ∼ U (a, b) toma sus valores en el intervalo (a, b) de una manera “uniforme”, conclui-
47
mos que los valores de Y son “bastante dispersos”, mientras que los valores de X están
concentrados cerca de la esperanza EX = 0 (véase Figura 3.3).
Es importante destacar que para cualquier ε > 0 (puede ser pequeña) se tiene que:
Cuando V ar(X) se aproxima a 0,

P (EX − ε 6 X 6 EX + ε) =
(3.2.17)
R∞el área resaltada en la Figura 3.4 se aproxima a
−∞ X
f (x)dx = (por(1.2.9)) = P (−∞ < X < ∞) = 1
fX (x)
x
EX-ε EX EX+ε
Figura 3.4: La densidad de una v.a. X con varianza pequeña.
Es decir, al “anular” la V ar(X), la v.a. X con probabilidad casi igual a 1, toma

valores muy cercanos al valor promedio (esperanza) EX.
Para justificar la observación (3.2.17), se probará la siguiente versión de la desigualdad

de Chebyshev (matemático ruso (1821-1894) que realizó importantes trabajos en la teorı́a
de aproximación y en la teorı́a de probabilidad; se le considera el iniciador de la teorı́a de
probabilidad moderna).
Proposición 3.2 (Desigualdad de Chebyshev) Sea X una v.a. para la cual su va-
rianza σ 2 := V ar(X) es finita. Entonces para cualquier ε > 0 se tiene:
σ2
P |X − EX| 6 ε ≥ 1 − 2 . (3.2.18)
ε
48
Denotando a := EX y suponiendo, por ejemplo, que X tiene una densidad fX , al usar

la monotonı́a de la integral y las fórmulas (3.2.10), (3.1.9) y (1.2.9) se tiene lo siguiente:
Z ∞
2 2
|x − a|2 fX (x) dx

σ = E |X − a| =
−∞
Z Z
2 2
> |x − a| fX (x) dx > ε fX (x)dx = ε2 P (|X − a| > ε).
x:|x−a|>ε x:|x−a|>ε
Faltarı́a dividir entre ε2 y pasar al complemento del evento {|X − a| > ε}.
Ejemplo 3.7 Supongamos que se debe medir una magnitud fı́sica a desconocida. Para
disminuir el error, tal magnitud se mide n veces obteniendo los resultados: X1 , X2 , . . . , Xn .
Con frecuencia es razonable considerar que X1 , X2 , . . . , Xn son v.a. i.i.d., con EXk = a
y V ar(Xk ) = σ 2 < ∞, (k = 1, . . . , n). (Como las v.a. son idénticamente distribuidas,
obsérvese que se tiene la igualdad de esperanzas y varianzas). Para tener una estimación
del valor desconocido a se usa la v.a. Sn /n, donde
Sn = X1 + X2 + · · · + Xn . (3.2.19)
Sn
Con respecto al error de la estimación de define δn := n
− a, y de lo cual se tiene que
(consulte la Proposición 3.1):
1 na
Eδn = E(X1 + · · · + Xn ) − Ea = − a = 0, (3.2.20)
n n

Sn Sn 1
y V ar(δn ) = V ar − a = V ar = 2 V ar X1 + · · · + Xn = (por independen-
n n n
2
1 σ
cia) = 2 nσ 2 = , i.e.
n n
σ2
V ar(δn ) = . (3.2.21)
n
Por consiguiente, al aumentar el número de mediciones resulta que V ar(δn ) → 0, y por
lo tanto los valores del estimador Snn son cercanos al valor desconocido a. En efecto, para
cualquier ε > 0 (podrı́a ser muy pequeña, como ε = 0.000001), de (3.2.18), (3.2.20) y
σ2
(3.2.21) se sigue que 1 > P (|δn − a| 6 ε) > 1 − 2 → 1 cuando el número de mediciones
nε
(o sumandos en (3.2.19)) crece ilimitadamente (n → ∞). Luego, en el Capı́tulo 6 se
verá que es cierta la siguiente afirmación (más fuerte): δn → a (converge o se aproxima
a a), cuando n → ∞ con probabilidad uno.
49
Nota 3.4 Al tomar x > 0 en lugar de ε en (3.2.18) se puede observar que cuando el
2
cociente σx2 es cercano a cero, con probabilidad cercana a 1, la v.a. X toma sus valores
en el intervalo [EX − x, EX + x]. Este caso se ilustra en la Figura R3.5, donde X una v.a.
∞
a.c. y el área rayada = P (EX − x 6 X 6 EX + x) es cercana a −∞ fX (x)dx = 1.
y
fX (x)
x
EX-x 0 EX EX+x
Figura 3.5: Ilustración de la desigualdad de Chebyshev.
En particular, cuando se toma x = 3σ, por (3.2.18), se tiene que P (EX − 3σ 6 X 6

EX +3σ) > 8/9. En el caso de X ∼ N orm(a, σ), se puede calcular precisamente la última
probabilidad:

X −a
P a − 3σ 6 X 6 a + 3σ = P − 3σ 6 X − a 6 3σ = P −3 6 63 .
σ
X −a
Dado que ∼ N orm(0, 1) (véase el Ejercicio 1.19), por (1.2.9),
σ
Z 3
X −a 1 2
P −3 6 63 = √ e−t /2 dt = Fη (3) − Fη (−3)
σ −3 2π

≡ Φ(3) − Φ(−3) = por tablas de la función Φ(x) ≈ 0.9974.
Por ejemplo, según datos estadı́sticos de Karl Pearson (1857-1936) (véase Pitman (1993)),
a finales del siglo XIX en Inglaterra, la estatura (en centı́metros) de un hombre elegido al
azar, aproximadamente, se representaba por la v.a. X ∼ N orm(a = 175.26, σ = 5.08). In-
terpretando la probabilidad en términos de la “frecuencia” (véase Capı́tulo 6), lo anterior
(“regla 3σ”) nos indica que alrededor del 99.7 % de la población masculina tenı́a (en esa
época) una estatura que se encontraba en el intervalo [a − 3σ, a + 3σ] = [160.02, 190.5].
Ejemplo 3.8 Este ejemplo muestra la importancia del uso de procesos aleatorios en al-
gunos modelos estocásticos.
50
y 1
2
- (x-a) /2σ
2
fX (x) = e
2π σ
∼99.7%
x
a-3σ 0 EX=a a+3σ
Figura 3.6: “Regla 3σ”para v.a. normales P (a − 3σ ≤ X ≤ a + 3σ) ≈ 0.9974 es cercana

a 1.
fV (x)
y
1/120
x
0 EV=60 120(km/h)
Figura 3.7: Densidad uniforme en (0, 120).
Imaginemos que un señor maneja de su casa a la oficina (en dı́as hábiles) con una
velocidad aleatoria V que tiene, supongamos, la densidad uniforme U (0, 120):
Por (3.1.7), la velocidad promedio es EV = 60(km/h). Supongamos que la distancia
entre la casa y la oficina es S = 30km. ¿Cuál es el tiempo promedio por viaje?
Denotemos por T la v.a. que representa el tiempo (aleatorio, puesto que la velocidad
es aleatoria) de un viaje. Entonces la respuesta a la pregunta se tendrá al estimar ET .
Usando las ecuaciones:
S = V T o T = S/V, (3.2.22)
intuitivamente se piensa que ET = 0.5(hr). Tal resultado también se obtiene de (3.2.22),

si se aplica la “igualdad”:

S ES 30
ET = E = = . (3.2.23)
V EV 60
Sin embargo, se verá que la segunda igualdad en (3.2.23) es falsa (parecido al Ejemplo
51
3.3). Aplicando (3.2.22) y (3.1.9) con g(x) = 1/x, se tiene que:

Z 120
1 120 dx
Z
1 1
ET = 30 E(1/V ) = 30 dx =
0 x 120 4 0 x
= (integral impropia de la función 1/x no acotada en 0)
Z 120
1 dx 1
= lı́m = lı́m ln(120) − ln(ε) = ∞,
4 ε→0 ε x 4 ε→0
(dado que ln(x) → −∞ cuando x → 0+ ).
Entonces en lugar de 0.5 hr. se ha obtenido el resultado absurdo ET = ∞. La explica-

ción es la siguiente. Nuestro modelo del manejo con velocidad aleatoria no es adecuado,
pues la aplicación de la ecuación (3.2.22) es válida cuando la velocidad V es constante
durante todo el viaje. Entonces se ha obtenido el resultado ET = ∞ por la posibilidad
de tener valores pequeños para velocidades constantes durante todo el viaje, por ejemplo,
una velocidad constante de 0.1 mm/h.
En realidad la velocidad V es una v.a. que depende del tiempo (t) que transcurre
durante el viaje (la cual es nula frente a un semáforo en rojo y es grande en algunos otros
instantes). Es decir, V = V (t, ω) es un proceso aleatorio (estocástico). Al cambiar
(3.2.22) por una ecuación con velocidad variable, dS = V dt e integrando se tiene:
Z T
S= V (ω, t)dt. (3.2.24)
0
Cuando S → ∞ y la velocidad es acotada se tiene que T (ω) → ∞ con probabilidad

RT
uno. Bajo ciertas condiciones (de ergodicidad), el promedio en el tiempo T1 0 V (ω, t)dt
se acerca, cuando T → ∞, al promedio en ω: EV (ω, t) = 60(km/h). O bien, por (3.2.24),
S S
T
≈ EV = 60, o T ≈ 60 , que resulta del hecho de que la v.a. T toma valores cercanos al
valor constante S/60. Por lo tanto ET ≈ E(S/60) = 0.5(hr).
Esto recupera nuestra suposición intuitiva, de que el tiempo promedio por viaje debe
ser alrededor de media hora. Sin embargo, tales conclusiones son ciertas solamente para
distancias S “relativamente grandes”.
52
3.3. EJERCICIOS
3.1 Sea X = η ∼ N orm(0, 1) y Y = −X. Muestre que V ar(X + Y ) = 0, pero V ar(X) +
V ar(Y ) = 2.
3.2 Sea X una v.a. a.c. simétrica i.e. fX (−x) = fX (x), x ∈ R.
(a) Muestre que si E|X| < ∞ (i.e. la esperanza existe y es finita), entonces
EX = 0.
Rc
(b) Para la densidad simétrica de Cauchy en (2.3.20), muestre que −c xfX (x)dx = 0
para cada c > 0, pero E|X| = ∞ y por lo tanto EX no existe.
3.3 Encuentre un ejemplo de dos v.a. no negativas X y Y tales que P (0 6 X 6 Y ) =

1 − 10−100 , pero EX = ∞ y EY < ∞.
Sugerencia: Considere X = |ξ|, donde ξ tiene la densidad de Cauchy (2.3.20).
3.4 Un dado simétrico se lanza 6 veces. ¿Cuál es el número esperado de lados que no
salen ni una sola vez?
Resp. : 56 /65 ≈ 2.00093879.
3.5 Cierto rı́o tiene crecimientos anuales. Supongamos que la marca del nivel bajo se
sitúa en 1m y que la marca del crecimiento X es la v.a. con la siguiente f.d.
(
1 − 1/x3 , si x > 1,
FX (x) =
0, si x < 1.
Supongamos que los daños materiales (representados en millones de pesos) por cre-
cida X, se dan por la v.a. Y = g(X) con:
(
0, si x 6 2,
g(x) = 2
0.7(x − 2) , si x > 2.
Calcule los daños promedio EY .

Resp. : 0.35 millones de pesos.
3.6 Sean X y Y v.a. i.i.d. con densidad (véase Ejercicio 2.20):

(
√ 1√ , si 0 < x < 2,
2 2 x
fX (x) =
0, si x ∈
/ (0, 2).
53
3.3. Ejercicios
√
Sea T = máx(X, Y ). Calcular ET, E(1/ T ), E(1/T ).
√
Resp. : 1; 2; ∞.
Sugerencia: Usar el resultado del Ejercicio 2.20.
3.7 En el movimiento térmico de un gas en equilibrio, el módulo de la velocidad de cada
molécula es la v.a. V con la densidad de Maxwell:
( 2
√4 λ3/2 x2 e−λx , si x > 0,
π
fV (x) =
0, si x 6 0,
m
donde λ = 2κT , m es la masa de la molécula, κ es la constante de Bolzmann y T
es la temperatura del gas. Calcule la energı́a cinética promedio de la molecula:
mV 2

E .
2
Resp. : 23 κ T (es decir, el calor o frı́o que sentimos es proporcional a la energı́a
promedio de las moléculas en el aire.)
R∞ √
2
Sugerencia: Utilizar integración por partes y el resultado: 0 e−x dx = 2π .
3.8 Un “optimista” juega diariamente el juego de azar que se describe en el ejemplo
5.2 del Capı́tulo 5 (pagando 100 pesos por cada vez que participa). Su finalidad es
ganar en un dı́a más de 1 millón de pesos. Sea N := {el número de dı́as hasta la
primera vez que gana una cantidad mayor a 1 millón de pesos}. Calcule EN .
Sugerencia: Primero, estime p = P (ganar más de un millón en un solo juego).
Después muestre que:
P (N = n) = p(1 − p)n−1 , n = 1, 2, . . . (3.3.25)
(que es la distribución geométrica con parámetro p introducida en (2.3.21)).
Finalmente, use (3.1.4) y verifique que:
EN = 1/p, si N ∼ Geom(p).
Resp. : EN = 524288 dı́as ≈ 1436 años. Hay pocas posibilidades de sobrevivir has-
ta este afortunado dı́a, pero suponiendo que sucede, hay que pagar la participación
en todos los juegos hasta ese dı́a que es aproximadamente 52 millones de pesos. Sin
embargo, el juego es “extremadamente favorable” de forma que con un capital de
100 pesos, puede “ganarse en promedio” un capital infinito (vea el Ejemplo 5.2, en
el Capı́tulo 5). De un teorema lı́mite de la teorı́a de probabilidad seguirá que con
n = 524288 repeticiones del juego pueden, en total, ganarse alrededor de 10 millones
de pesos, que es mucho menos que el pago promedio de 52 millones (pagando 100
pesos por cada juego).
54
3.9 ¿Cuántas veces en promedio hay que lanzar un dado simétrico hasta la primer salida
de “6”?
Sugerencia: Mostrar que el número de lanzamientos es la v.a. N ∼ Geom(p =
1/6), y verificar como en el Ejercicio 3.8 que
EN = 1/p. (3.3.26)
Resp. : 6.
3.10 Dar un ejemplo de dos v.a. X y Y tales que EX y EY no existen, pero E(X + Y )
sı́ existe.
Sugerencia: Usar el resultado del Ejercicio 3.2 (b).
3.11 Supongamos que un televisor tiene una duración de “vida” (hasta la primer falla) re-
presentada por la v.a. T (en años) con la siguiente densidad Gamma con parámetros
α = 2, λ = 0.15, (la distribución general Gamma se encuentra en la Nota 3.5)
(
λ2 xe−λx , si x > 0,
fT (x) =
0, si x 6 0.

Esta es denotada T ∼ Gamma α = 2, λ = 0.15 .
(a) Calcular las probabilidades: P (T > 5) y P (T > 5 + 2 | T > 2).

(b) Calcular la duración del tiempo de “vida” promedio ET .
Resp. : (a) ≈ 0.82664 y 0.74489; (b) ≈ 13.3333 años.
Nota 3.5 En general la densidad Gamma con dos parámetros positivos α y

λ es:  α−1
λe−λx (λx) , si x > 0,
fX (x) = Γ(α)
0, si x 6 0,

donde Γ(α) es una constante. Cuando una v.a. X tiene la densidad Gamma se escri-
be X ∼ Gamma(α, λ) . La constante Γ(α) es el valor en el punto α de la función
Z ∞
Gama Γ(y) := ty−1 e−t dt, definida para cualquier y > 0. En particular para
0
α ∈ N (número natural) se tiene que Γ(α) = (α − 1)!.
55
3.3. Ejercicios
Cabe mencionar que para α = 1 la densidad Gamma es la densidad exponencial,

i.e. la distribución exponencial es un caso particular de la distribución Gamma.
Sin embargo, a diferencia de una v.a. exponencial (consulte el Ejercicio 2.14), en
el Ejercicio 3.11 donde T tiene la distribución Gamma con α = 2 se obtuvo que
P T > 5 + 2 | T > 2 < P (T > 5) (“envejecimiento”).
3.12 Sean X, Y v.a. i.i.d. con distribución U (0, 1). Mostrar que: (a) EX/EY = 1; (b)
E(X/Y ) = ∞.
3.13 Sea X > 0 una v.a. a.c. con f.d. FX . Demostrar que
Z ∞
EX = 1 − FX (x) dx. (3.3.27)
0
R∞ R∞
Sugerencia: 0 x fX (x)dx = − 0 x d[1 − FX (x)]dx.
Usar integración por partes
y mostrar que si EX < ∞, entonces x 1 − FX (x) → 0 cuando x → ∞.
3.14 Sean n > 1, X1 , X2 , . . . , Xn v.a. i.i.d. con distribución Exp(λ), (i.e Xk ∼ Exp(λ),
para
toda k = 1, . . . , n), y sea Tn := máx(X1 , X2 , . . . , Xn ). Demostrar que ETn =
1 1 1 1 1 1
1 + + + ··· + ≈ [ln n + + c], donde c ≈ 0.57722 es la constante de
λ 2 3 n λ 2n
Euler.
Sugerencia: Usar la independencia y verificar lo siguiente: FTn (x) = (1 − e−λx )n ,

x > 0. Usar la fórmula (3.3.27) del Ejercicio 3.13 y el cambio de variable: z = 1−e−λx .
Nota 3.6 El resultado del Ejercicio 3.14 se utiliza en la Teorı́a de Confiabilidad

(en la ingenierı́a). Como un ejemplo, supongamos que un sistema de control de una
instalación potencialmente peligrosa (como una estación de energı́a nuclear) incluye
un microchip muy importante. Para aumentar la confiabilidad del sistema a veces se
utiliza la estrategia de reservación conocida como “redundancia activa” (consulte,
por ejemplo, Gnedenko et al. (1969), Capı́tulo 5). Tal estrategia sugiere que un
conjunto de n > 1 microchips idénticos se pongan en funcionamiento permanente
(a pesar de que sólo un microchip del conjunto se utiliza en el funcionamiento
del sistema de control). Todos los otros microchips están en “estado activo” para
hacer reemplazo inmediato en el caso de una falla del componente utilizado. Si
X1 , X2 , . . . , Xn denotan los tiempos de funcionamiento (hasta su primer falla) de los
n microchips, entonces el tiempo total del funcionamiento del sistema redundante
con n repuestos se representa mediante la v.a. Tn = máx X1 , X2 , . . . , Xn . Según
56
la fórmula para ETn encontrada en el ejercicio anterior, si, por ejemplo, n = 10

entonces el tiempo promedio del funcionamiento aumenta aproximadamente en 2.9
veces (comparado con el tiempo cuando se tiene un solo microchip).
3.15 Supongamos que E(X 2 ) < ∞, definamos la función: ϕ(c) := E(X − c)2 , c ∈ R.
Mostrar que mı́n ϕ(c) = E(X − EX)2 = V ar(X).
c∈R
3.16 (Varianza de v.a. degenerada) Mostrar que V ar(X)=0 si y sólo si P (X = c) = 1

con c = EX.

Sugerencia: Usar (3.2.18) para estimar P |X − EX| 6 1/n para n = 1, 2, 3, . . .
3.17 Sean n > 1, p > 0 y X1 , X2 , . . . , Xn v.a. i.i.d. con valores positivos. Mostrar que
para cada k : 1 6 k 6 n,
p
X1 + X2p + · · · + Xkp

k
E p p p = .
X1 + X2 + · · · + X n n
3.18 Sean X y Y v.a. independientes, tales que X ∼ Exp(λ = 1) y Y tiene la siguiente

f.d. (
0, si x < 1,
FY (x) = 1
1 − x , si x > 1.
√
Sea también Z := X Y . Calcular EZ y mostrar que V ar(Z) es infinita.
3.19 (a) Sea X ∼ P oiss(λ). Demostrar que
V ar(X) = EX = λ. (3.3.28)
(b) Sea Y ∼ Gamma(α, λ) (véase Nota 3.5). Demostrar que
α α
EY = y V ar(Y ) = .
λ λ2
Sugerencia: (a) Para EX véase el Ejemplo 3.1(b). Para determinar la V ar(X)

2
utilice la siguiente relación V ar(X) = E X(X − 1) + EX − EX .
(b) Para EY utilice integración por partes y la definición de la función gamma Γ(α)
(véase Nota 3.5).
57
3.3. Ejercicios
3.20 Sean B un subconjunto (“medible”) de R, y X una v.a. Definimos la v.a. (indica-

dora): (
1, si X ∈ B,
IB (X) =
0, si X ∈
/ B.
Demostrar que
EIB (X) = P (X ∈ B). (3.3.29)
Nota 3.7 La igualdad (3.3.29) es trivial, sin embargo es importante y será utilizada
en el resto del libro.
3.21 (a) Sean X y Y v.a. idénticamente distribuidas, i.e. FX (x) = FY (x), x ∈ R, tales
que E(X 2 ) < ∞. Demostrar que
EX = EY y V ar(X) = V ar(Y ). (3.3.30)
(b) Dar un ejemplo de v.a. X y Y tales que (3.3.30) se cumple, pero FX (x) 6= FY (x)
para toda x ∈ R.
Sugerencia: (b) Sea X ∼ Gamma(α = 9, λ = 3) (véase, Nota 3.5 y Ejercicio

3.19(b)) y sea Y = 2 + ξ con ξ ∼ Exp(λ = 1).
3.22 Sea T la v.a. con la siguiente distribución de Weibull con parámetros λ y α = 2

(esta distribución recibe el nombre del matemático e ingeniero sueco Ernst Hjalmar
Waloddi Weibull (1887-1979), reconocido por sus trabajos en estadı́stica):
( 2
1 − e−λx , si x > 0,
FT (x) =
0, si x ≤ 0.
donde λ > 0 es un parámetro. Calcular ET .

Z ∞
1 x2 1
Sugerencia: Use (3.3.27) y el hecho de que √ e− 2 dx = .
2π 0 2
r
1 π
Resp. : ET = . (3.3.31)
2 λ
58
Capı́tulo 4
Esperanza condicional, caminatas

aleatorias y modelo de riesgo de
Cramér-Lundberg
4.1. Esperanza condicional de una variable aleatoria.

Pensemos en una ciudad en donde las v.a. Z y Y representan (respectivamente) el peso
y la estatura de un hombre adulto elegido al azar. Es claro que Z y Y son v.a. dependientes.
Supongamos que el peso promedio EZ = 81kg. Si consideramos la subpoblación de los
hombres que tienen estatura Y = 195cm, resultará que el peso promedio en ese subgrupo
es mayor que 81kg, es decir, la esperanza condicional E(Z|Y = 195) > EZ. Del mismo
modo E(Z|Y = 160) < EZ = 81.
Es evidente que la esperanza condicional debe estar relacionada con las nociones de
distribución y densidad condicionales de Capı́tulo 2. La siguiente definición da una versión
condicional de (3.1.4) y (3.1.5).
Definición 4.1 Sean Z y Y v.a. para las cuales EZ existe. La esperanza condicional
de Z dado que Y = y, se define como sigue.
(a) Si Z y Y son discretas, entonces
∞
X
E(Z|Y = yk ) := zn P (Z = zn |Y = yk ), (4.1.1)
n=1
59
4.1. Esperanza condicional
donde {z1 , z2 , . . . } son los valores de Z; y yk es un valor arbitrario, pero fijo de Y .

Además P (Z = zn |Y = yk ), n = 1, 2, . . . es la distribución condicional definida en
(2.2.15).
(b) Si el par de v.a. Z y Y es absolutamente continuo, entonces la esperanza condi-

cional es: Z ∞
E(Z|Y = y) := z fZ|Y =y (z) dz, (4.1.2)
−∞
donde y es un valor arbitrario de la v.a. Y , pero fijo (con fY (y) > 0) y fZ|Y =y es la
densidad condicional introducida en (2.2.16).
Nota 4.1 (a) La esperanza condicional hereda todas las propiedades básicas de la es-
peranza habitual. En particular,

E Z + X|Y = y = E Z|Y = y + E X|Y = y . (4.1.3)
(b) Es claro que el número E(Z|Y = y), en general depende del valor y que toma la
v.a. Y . Ası́ pues, la esperanza condicional es una función ϕ(Y ) de la v.a. Y y puede
escribirse como ϕ(Y ) = E(Z|Y ). Donde para cada valor y de Y el correspondiente
valor de dicha función es ϕ(y) = E(Z |Y = y) con esta última definida en (4.1.1) o
(4.1.2).
(c) Para v.a. Z y Y independientes, E(Z|Y = y) = EZ (ya que, por ejemplo, fZ|Y =y =
fZ , véase Capı́tulo 2).
Ejemplo 4.1 Al lanzar dos dados simétricos, sea Y la v.a. que representa el puntaje del
primer dado, Ye el puntaje que resulta del segundo dado; y sea Z = Y + Ye la suma de los
puntajes. Del Ejemplo 3.1, se tiene que
EZ = EY + E Ye = 3.5 + 3.5 = 7.
Por otro lado, E(Z|Y = k) = E(Y + Ye |Y = k) = (por (4.1.3)) =

= E(Y |Y = k) + E(Ye |Y = k) = (por independencia de Y
fy Y ) =
= k + E Ye = k + 3.5, k = 1, 2, . . . , 6.
Por ejemplo, E(Z|Y = 1) = 4.5, pero E(Z|Y = 6) = 9.5 (un resultado muy intuitivo).
60
CAPÍTULO 4. ESPERANZA CONDICIONAL
Para presentar el siguiente ejemplo, necesitamos un resultado simple el cual también

se usará en otras partes del libro.
Proposición 4.1 Sea X una v.a. para la cual existen a := EX y σ 2 := V ar(X) con
X −a
0 < σ < ∞. Entonces, para la v.a. estandarizada Y := se tiene que
σ
EY = 0 y V ar(Y ) = 1.
Por ejemplo, por propiedades de la varianza (véase la Proposición 3.1) se tiene que:
σ2

1 1 1
V ar(Y ) = V ar (X − a) = 2 V ar(X − a) = 2 V ar(X) = 2 = 1.
σ σ σ σ
Ejemplo 4.2 Los estadı́sticos Galton 1 y Pearson 2 estudiaron, en Inglaterra, la seme-

janza entre la estatura Y de un padre y la estatura Z de su hijo (de una familia escogida
al azar). Ellos establecieron (según datos presentados en Pitman(1993)) que (en centı́me-
tros) Y ∼ N orm(aY = 175.26, σY = 5.08), Z ∼ N orm(aZ = 177.8, σZ = 5.08), o bien,
EY = aY = 175.26 cm y EZ = aZ = 177.8 cm; y que la densidad conjunta de las v.a.
estandarizadas η = Y σ−aY
Y
, ξ = Z−a
σZ
Z
es bidimensional Normal estándar con el coeficiente
de correlación ρ = 0.5 (véase (2.1.9)).
Calculemos E(Z|Y = y) = E(σZ ξ + aZ |Y = y) = σZ E(ξ |Y = y) + aZ =

y − aY
= σZ E ξ η = + aZ . (4.1.4)

σY
p Por el Ejercicio 2.23 se sabe que fξ|η=y es la densidad

0 Normal con a = ρy 0 y σ =
1 − ρ2 . Debido a esto y por (3.2.15) se tiene E(ξ|η = y−a
σY
Y
) = ρ y−a
σY
Y
, entonces susti-
tuyendo en (4.1.4) se obtiene:
σZ
E(Z|Y = y) = ρ σY
(y − aY ) + aZ . (4.1.5)
Como ejemplos de la aplicación de (4.1.5) se tiene:

5.08
E(Z|Y = 190) = 0.5 5.08
(190 − 175.26) + 177.8 = 185.17(cm). (4.1.6)
1
Francis Galton (1822-1911) fue un estadı́stico británico, pionero en el uso de la ditribución normal,
introdujo el concepto de correlación, entre otros conceptos.
2
Karl Pearson(1857-1936) genetista británico fundador de la estadı́stica matemática y bioestadı́stica,
aplicando métodos estadı́sticos a la biologı́a.
61
4.1. Esperanza condicional
5.08
E(Z|Y = 160) = 0.5 5.08
(160 − 175.26) + 177.8 = 170.17(cm) y también (4.1.7)
E(Z|Y = EY = 175.26) = EZ = 177.8.
A la disminución en la amplitud de la variación de estaturas de la siguiente genera-
ción, expresada en (4.1.6) y en (4.1.7), F. Galton la denominó “regresión al promedio”.
Tal “regresión”se
p debe al hecho de que la densidad condicional fξ|η=y0 es Normal con
σ = 1 − ρ : y las varianzas condicionales V ar(ξ|η = y 0 ) = σ 2 = 1 − ρ2 = 0.75 y
2
V ar(Z|Y = y) = V ar(σZ ξ + aZ |Y = y) = σZ2 V ar(ξ|η = y 0 ) = σZ2 (1 − ρ2 ) = 19.3548,

son menores que V ar(Z) = σZ2 = 25.8064. Es decir, al fijar la estatura del padre Y , la
dispersión de los valores de la v.a. que dan las estaturas de los hijos, decrece.
A primera vista se podrı́a pensar que han existido cambios generacionales en la estatu-
ra, y que toda la población tendrı́a una altura cercana a la estatura promedio (disminución
de la varianza). Tal interpretación, un tanto engañosa, no era singular en la época de F.
Galton. En realidad, al promediar V ar(Z|Y = y) sobre todos los valores y de Y (mediante
una versión de la fórmula (4.1.9) de abajo), se obtiene que V ar(Z) = σZ2 = 25.8064, la
cual es igual a la varianza de estatura de la generación anterior.
Proposición 4.2 Sean Z y Y v.a. tales que EZ existe. Entonces:

(a) para el caso de v.a. Z y Y discretas,
∞
X
EZ = E(Z|Y = yk )P (Y = yk ); (4.1.8)
k=1
(b) y para el caso de v.a. Z y Y conjuntamente absolutamente continuas,

Z ∞
EZ = E(Z|Y = y)fY (y) dy. (4.1.9)
−∞
Demostración de (4.1.8). Sean Z y Y v.a. discretas tal que EZ existe. De la definición

de esperanza (3.1.4) se tiene:
∞ ∞ ∞
!
X X X
EZ = zn P Z = zn ) = (por (2.2.13)) = zn P Z = zn |Y = yk P Y = yk )
n=1 n=1 k=1
∞ ∞
!
X X
= (intercambiando las sumas) = zn P Z = zn |Y = yk P Y = yk )
k=1 n=1
∞
X
= (por (4.1.1)) = E Z|Y = yk P Y = yk ).
k=1
62
Análogamente se demuestra (4.1.9).
Nota 4.2 (a) Las fórmulas (4.1.8) y (4.1.9) son parecidas a (2.2.13) y (2.2.14).
(b) En la teorı́a avanzada de probabilidad se demuestra que (4.1.8) y (4.1.9) son co-
rrectas para cualquier v.a. Z (discreta, a.c. u otra). Posteriormente se usará tal
generalización.
Ejemplo 4.3 ¿Cuánto tiempo hay que esperar para recibir una oferta mejor que la pri-
mera?.
Una persona quiere vender su coche y recibe ofertas sucesivas: X0 , X1 , X2 , . . . que se
supone (en este ejemplo) son v.a. i.i.d. (no negativas) con una densidad común continua
fX y f.d. común FX . Supongamos que el vendedor ha rechazado la primera oferta X0 y ha
decidido esperar hasta una oferta mejor, i.e. hasta el primer n tal que Xn > X0 . Sea
N := mı́n{n > 1 tal que Xn > X0 },
el numero aleatorio de ofertas que hay que esperar hasta que la oferta inicial X0 sea
mejorada. Calcularemos el promedio EN .
Para n = 1, 2, . . . , y para cualquier y > 0 se tiene,

P N > n | X 0 = y = P X 1 6 X0 , X 2 6 X0 , . . . , X n 6 X0 | X 0 = y

= P X1 6 y, X2 6 y, . . . , Xn 6 y | X0 = y = (por independencia de X0 y X1 , X2 , . . . )

= P X1 6 y, X2 6 y, . . . , Xn 6 y =
= (por independencia de X1 , . . . , Xn y la n-dimensional versión de (2.1.5))

= P X1 6 y P X2 6 y · · · P Xn 6 y = (por (1.2.5)) =
n
= FX1 (y)FX2 (y) · · · FXn (y) = FX (y) . (4.1.10)
Aplicando a (4.1.10) la fórmula (2.2.14) se obtiene:
Z ∞ Z ∞
n n
P N >n = FX (y) fX (y) dy = FX (y) dFX (y) =
0 0
= (por cambio de variable: z = FX (y))
Z 1
1
= z n dz = , n = 1, 2, . . . (4.1.11)
0 n+1
De (4.1.11) se ve que para n = 1, 2 . . . ,

P N =n = P N >n−1 \ N >n =P N >n−1 −P N >n
1 1
= − , (4.1.12)
n n+1
63
4.2. Caminatas aleatorias simples
(puesto que {N > n} ⊂ {N > n − 1} y P (N > 0) = 1). Entonces

P (N < ∞) = P {N = 1} ∪ {N = 2} ∪ · · · ∪ {N = n} ∪ · · · =
∞ ∞
X X 1 1
= P (N = n) = (por (4.1.12)) = − = 1. (4.1.13)
n=1 n=1
n n + 1
La igualdad anterior (4.1.13) muestra que la v.a. N es finita con probabilidad uno.
Es decir, casi seguramente el vendedor del coche va a obtener una mejor oferta que la
primera. Ahora, para calcular EN apliquemos el resultado del Ejercicio 4.1 y la ecuación
(4.1.11), y resulta:
∞
X 1
EN = = (consulta el ejemplo 3.2) = ∞.
n=1
n + 1
Por lo tanto EN = ∞ , el número promedio de las ofertas que debe esperar el vendedor
para llegar a una oferta mejor que la primera es infinito. Este resultado no es optimista
para el vendedor, pero en la vida real, la hipótesis de independencia entre las ofertas no
se cumple.

Una caminata aleatoria “simple” es un modelo útil en la teorı́a de probabilidad y tiene
muchas aplicaciones. Este modelo puede ser interpretado en términos del movimiento
aleatorio de una “partı́cula” sobre el conjunto Z := {. . . , −3, −2, −1, 0, 1, 2, 3, . . . } de
todos los enteros en la recta R = (−∞, ∞). El modelo se define como sigue. Supongamos
que los enteros n = 0, 1, 2, . . . se interpretan como el “tiempo discreto” del movimiento y
{X1 , X2 , . . . , Xk , . . . } son v.a. i.i.d. con distribución:
P (Xk = 1) = P (Xk = −1) = 1/2, (k = 1, 2, . . . ). (4.2.14)
Para un x ∈ Z fijo, se define:
S0 (x) := x, Sn (x) := x + Sn , n = 1, 2, 3, . . . , (4.2.15)
donde (como en (3.2.19)),
Sn = X1 + X2 + X3 + · · · + Xn , n = 1, 2, . . . (4.2.16)
64
A la sucesión de las v.a. (sumas) en (4.2.15) se le llama caminata aleatoria (con el

origen en el punto x). De (4.2.15) y (4.2.16) se tiene que:
Sn (x) = Sn−1 (x) + Xn , n > 1. (4.2.17)
En términos de “movimiento”, en el “instante” n = 0 la “partı́cula” está en el punto

S0 = x (que es un número entero). Si en el “instante” n − 1 (con n ≥ 1) la posición de
la “partı́cula” es y = Sn−1 (x), entonces, por (4.2.14) y (4.2.17), la “partı́cula” se mueve
(salta) en el “instante” n o bien al punto entero y + 1 de la derecha o a la izquierda en el
punto y − 1 con la misma probabilidad 1/2 para los dos casos (véase la Figura 4.1).
Sn
origen: x=3
x
p=1/2 p=1/2
-1 -2 -3 0 1 2 3 y-1 y y+1
Sn-1(x)=y
Figura 4.1: Caminata aleatoria simple.
La dirección del movimiento depende del valor 1 o -1 que tome la v.a. Xn en (4.2.17),
y no depende del movimiento ocurrido en todos los “instantes” anteriores a n, puesto
que Xn no depende de Sn−1 = X1 + X2 + · · · + Xn−1 . Es entonces con el crecimiento del
“tiempo” n que la “partı́cula” se mueve sobre Z de forma aleatoria.
Nota 4.3 De (3.1.4) y (4.2.14) se tiene que EXk = 0 (la caminata es simétrica), y por
la Proposición 3.1 ESn (x) = x (o bien ESn = 0, cuando el punto de origen es x = 0).
Esto no significa que Sn (x) se mueve relativamente cerca del punto inicial x, sino al con-
trario debido a que (véase (3.2.10)) V ar(Xk ) = EXk2 = 1 y V ar(Sn ) = n → ∞ (consulte
la Proposición 3.1), resulta que Sn hace oscilaciones cada vez más grandes, visitando
cualquier punto a la derecha o a la izquierda de x cuando n aumenta infinitamente.
Proposición 4.3 (a) Con probabilidad uno, |Sn (x)| → ∞ cuando n → ∞.
(b) Con probabilidad uno, entre los valores de {S0 (x), S1 (x), . . . , Sn (x), . . . } se encuen-
tran cantidades infinitas de números tanto negativos como positivos.
En lugar de una demostración formal, veamos algunos argumentos intuitivos que apo-
yan esta Proposición. Para mayor simplicidad, escojamos x = 0. Al suponer que para
65
algún número finito b se cumple que −b 6 Sn 6 b, n = 1, 2, 3, . . . con probabilidad positi-

−b Sn b
va tendremos que para toda n = 1, 2, 3, . . . , √ 6 √ 6 √ . Entonces, con probabilidad
n n n
Sn
positiva también, las v.a. n se acercan a cero. Pero por el Teorema Central del Lı́mite en
√
Sn
Capı́tulo 8, cuando n → ∞ la distribución de √ n
se aproxima a la distribución de la v.a.
a.c. η ∼ N orm(0, 1), para la cual P (η = 0) = 0. De aquı́ se deduce que, con probabilidad
1 la sucesión {Sn , n = 1, 2, . . . } no está acotada.
Para “justificar” el inciso (b) es suficiente observar, según los argumentos de arriba, que
Sn
√
n
se comporta como η ∼ N orm(0, 1), pero P (η < 0) = P (η > 0) = 12 , por (1.2.13). Por
lo cual Sn tiene la misma probabilidad de tomar tanto valores positivos como negativos.
Corolario 4.1 La caminata aleatoria {Sn (x), n = 0, 1, 2, . . . } visita cada punto entero
y ∈ Z un número infinito de veces (con probabilidad 1).
Consideremos el caso cuando x = 0, de (4.2.14) y (4.2.15) se tiene que al moverse de
algún y ∈ Z a otro y 0 ∈ Z, la caminata debe visitar todos los puntos enteros entre y
y y 0 (ver la Figura 4.1). Entonces, por la Proposición 4.3(b), la caminata visita el punto
0 ∈ Z un número infinito de veces. Por otro lado, de la misma proposición se sigue que
la caminata alcanza (seguramente, i.e. con probabilidad 1) cualquier otro punto z ∈ Z,
z 6= 0. Entonces,
Cuando en algún instante (aleatorio) τy el punto y se alcanza,
para n = τy + 1, τy + 2, τy + 3, . . . , la caminata se comporta de
(4.2.18)
la misma forma que se comporta la caminata original con el nuevo
origen S0 = y, para n = 1, 2, 3, . . .
Esto es consecuencia de la independencia de Xn y Sn−1 (x) en (4.2.17).
Nota 4.4 Sean x = 0 y d > 1 un número entero dado. Introduciendo para m = 1, 2, . . . , d,
sucesiones independientes de v.a. i.i.d. con la distribución dada en (4.2.14) {X1m , X2m , . . . ,
Xkm , . . . } y definiendo: Snm := X1m +X2m +· · ·+Xnm , n = 1, 2, . . . ; m = 1, 2, . . . , d, se puede
considerar la caminata aleatoria simple d−dimencional. Esta caminata se define como la
(1) (2) (d)
sucesión de vectores aleatorios (con componentes enteros): S n = Sn , Sn , . . . , Sn ,
n = 1, 2, . . . (con, por ejemplo, S 0 := 0, 0, . . . , 0)).
Se puede demostrar (fuera del alcance de este libro) que para d = 2 (en el plano), la
caminata regresa al origen (0, 0) un número infinito de veces (con probabilidad 1). Sin
embargo, para d > 3 (por ejemplo, en el espacio R3 ) con probabilidad uno la caminata
regresará al origen con un número finito de veces y hay una probabilidad positiva de que
la caminata nunca regresará al origen.
66
4.2.1. Caminata aleatoria con dos barreras absorbentes.

Sean x > 0 y Sn (x), n = 0, 1, 2, . . . la caminata aleatoria con el origen en x. Fijando
un entero a > x, supongamos que la caminata se detiene una vez que ha alcanzado el
punto 0 o el punto a.
1 1/2 1/2 1/2 1/2 1 !

0 1 2 x-1 x x+1 a
Figura 4.2: Caminata con dos barreras absorbentes.
Para tener una interpretación más transparente, imaginemos que un jugador con un
capital inicial de x (pesos), apuesta sucesivamente (en los “instantes” n = 1, 2, 3, . . . ) en
una serie de lanzamientos de una moneda simétrica. En el instante n, el jugador gana
un peso si sale “águila” y pierde un peso (i.e. “gana” -1 pesos) si sale “sol” (es decir, el
resultado de una apuesta se determina por la v.a. Xk en (4.2.14)). Después de n lanza-
mientos, su capital será Sn (x) = x + X1 + X2 + · · · + Xn , y el movimiento del capital con
n = 1, 2, . . . es la caminata aleatoria.
Supongamos que el jugador apuesta hasta el instante aleatorio Tx , cuando su capital

sea cero (la ruina del jugador) o cuando sea a (i.e., el jugador se detiene cuando tiene
ganancia neta de a−x pesos). Por la Proposición 4.3, la v.a. Tx es finita con probabilidad 1
(i.e., el jugador seguramente terminará su serie de apuestas con la ruina o con la ganancia).
Aplicando el resultado del Ejercicio 4.6,
P (de ruina) = P (de acabar en 0) = P (STx (x) = 0) = 1 − xa . (4.2.19)
Por ejemplo, si x = 5 pesos y a = 1000 pesos (el objetivo del jugador), entonces
P (de ruina) = 0.995 (cercana a 1). Pero si x = 990 pesos y a = 1000 pesos (una meta
modesta: ganar 10 pesos), entonces por (4.2.19), P (de ruina) = 0.01 (cercana a 0).
1/2 1/2

0 x=5 es el capital inicial . . . a =1000
Figura 4.3: Con x = 5 hay más chances de alcanzar primero el punto 0 (ruina) que el
punto a = 1000.
67
Nota 4.5 La ganancia-pérdida final se representa por la v.a.:

(
−x, con la probabilidad 1 − xa ,
Y =
(a − x), con la probabilidad xa ;
(ya que el evento {pararse en a} es el complemento del evento {pararse en 0}). Entonces,
por (3.1.4), EY = (−x)(1 − xa ) + (a − x) xa = 0, es decir, el juego es “justo” (a diferencia
de cualquier juego en un casino).
Vamos a encontrar la duración promedio ETx de la serie de apuestas, donde
Tx := mı́n{n > 0 tal que Sn (x) = 0 o Sn (x) = a}. Mostraremos que da como resultado:
ETx = x(a − x). (4.2.20)
Nota 4.6 Elegimos, por ejemplo, x = 1 (peso) como el capital inicial y a = 106 (pesos)
como la meta del jugador. Por (4.2.19), P (de ruina) = 1 − 10−6 ≈ 1 y es claro que la serie
de apuestas se termina muy pronto con la ruina del jugador (por ejemplo, P (Tx = 1) =
1/2, P (Tx = 3) = 1/8, etc.). Sin embargo, de (4.2.20) se llega a que la serie en promedio
tiene una duración de 106 − 1 apuestas.
Esto significa que la duración del juego Tx puede tomar valores muy grandes (la caminata
se aleja hacia la derecha), con probabilidades muy pequeñas, pero suficientes para hacer
que el valor promedio sea grande.
Al elegir en (4.1.8) Z = Tx , y Y = X1 , se obtiene:

ETx = E Tx |X1 = 1 1/2 + E Tx |X1 = −1 1/2
(4.2.21)
= 1/2 (1 + ETx+1 ) + (1 + ETx−1 ) .
La segunda igualdad en (4.2.21) es cierta, porque, por ejemplo, si sucede que X1 = 1,
entonces ya se ha realizado una apuesta y la caminata se mueve al punto x + 1. Tomando
en cuenta (4.2.18), la caminata “renueva” su comportamiento en el instante n = 1 (para
n > 1) con un capital inicial en x + 1. Es por esto que E(Tx |X1 = 1) = ETx+1 . Si ahora
definimos, ϕ(x) := ETx , con 0 6 x 6 a, resulta que para 0 < x < a, la ecuación (4.2.21)
nos lleva a:
ϕ(x) = 1 + 1/2[ϕ(x + 1) + ϕ(x − 1)]. (4.2.22)

Al sustituir la función ϕ(x) = cx − x2 en ambas partes de (4.2.22) veremos que ϕ es
la solución general de esta ecuación en diferencias (donde c es una constante arbitraria).
Observemos que para x = a, Tx = 0 (el paro inmediato) y ϕ(a) = ETa = ca − a2 = 0 de
lo cual, resulta que c = a.
68
4.2.2. Caminata aleatoria con una barrera absorbente.

En la caminata descrita en la sección anterior, consideremos ahora que a = ∞, es decir,
solamente la ruina puede parar la serie de apuestas. De (4.2.19) y (4.2.20), formalmente
se sigue que para cada capital inicial x > 0 (podrı́a ser muy grande),
P (de ruina) = 1, o bien, P (Tx < ∞) = 1, pero ETx = ∞, (4.2.23)
donde Tx := mı́n{n > 0 : Sn (x) = 0} es el tiempo transcurrido hasta la ruina del jugador.
Cabe mencionar que es necesario justificar el paso al lı́mite a → ∞ en las fórmulas men-
cionadas. En el Ejercicio 4.7 se sugiere verificar que para a = ∞, el sistema de ecuaciones
(4.2.21) no tiene ninguna solución finita, por lo que se tendrı́a ETx = ∞. Por otro lado,
por la Proposición 4.3 se puede ver que al comenzar en x > 0, con probabilidad uno la
caminata alcanza el punto 0 (la ruina).
Nota 4.7 (a) El resultado ETx = ∞ es aún más sorprendente que lo que mencionamos
en la Nota 4.6. Supongamos que x = 1 peso, entonces, P (Tx = 1) = 1/2, P (Tx =
3) = 1/8, P (Tx = 5) = 1/32, etc. (y 1/2 + 1/8 + 1/32 = 0.65), es decir con
probabilidad bastante cercana a 1, la serie de apuestas se termina (con la ruina) con
pocas apuestas
1/2 1/2
!
0 1 2 3
1/2 1/2
Figura 4.4: Ruina
Además, de (4.2.23), P (T1 < ∞) = P (de alcanzar 0 con un número finito de apues-
tas) = 1. Sin embargo, en promedio, el jugador disfrutará jugando “un tiempo
infinito”.
(b) El comentario anterior, en particular explica que no siempre la esperanza es un
parámetro adecuado para “promediar los valores de una v.a.” (véanse también los
problemas relacionados en Capı́tulo 6).
69
4.3. Proceso de Poisson.

Aunque en este libro no se desarrolla la teorı́a de procesos estocásticos, es muy útil
tener información acerca de un proceso estocástico muy importante en la teorı́a de proba-
bilidad y en sus aplicaciones, como lo es el proceso de Poisson. Básicamente, se usará para
introducir el modelo clásico de riesgo (en la siguiente sección). Como se ha comentado
en el Ejemplo 3.8, un proceso estocástico (o aleatorio) es una familia de variables alea-
torias X(t) = X(t, ω) que dependen del tiempo t ∈ [0, ∞). En el ejemplo mencionado,
el proceso toma valores reales no negativos, mientras que el proceso de Poisson de-
notado por N (t) = N (t, ω), t > 0 toma sus valores en {0, 1, 2, 3 . . . } y frecuentemente
sirve para contar el número de ocurrencias de algunos eventos que suceden durante el pe-
riodo [0, t] (como el número de entradas de clientes en un banco, véase el Ejemplo 3.1 (b)).
Imaginemos la ocurrencia de algunos eventos en los instantes aleatorios T1 = τ1 , T2 =

τ1 + τ2 , T3 = τ1 + τ2 + τ3 , . . . (con τn representando los intervalos entre los eventos).
El número total de ocurrencias del evento durante el intervalo [0, t], t > 0 se modela
frecuentemente por el siguiente proceso estocástico.
Definición 4.2 Sean {τ1 , τ2 , τ3 , . . . , τk , . . . } variables aleatorias i.i.d. con la distribución

Exp(λ), λ > 0,
Tn = τ1 + τ2 + · · · + τn , n = 1, 2, 3, . . . ; T0 := 0, N (0) := 0 y (4.3.24)
N (t) := máx{n : Tn 6 t}, t > 0. (4.3.25)

El proceso estocástico definido por (4.3.25) se llama el proceso de Poisson con in-
tensidad λ.
La equación en (4.3.25) se entiende como sigue: para cada t > 0 fijo, las variables
aleatorias T0 = 0, T1 = τ1 , T2 = τ1 + τ2 , T3 = τ1 + τ2 + τ3 , . . . etc. en (4.3.24) se comparan
con t para encontrar la n máxima, tal que
Tn 6 t, y t < Tn+1 . (4.3.26)

Es decir, N (t) = 0 para t < T1 . En el instante t = T1 , N (t) salta hacia arriba, al valor
N (t) = 1 (puesto que T1 6 t en (4.3.25)), luego N (t) permanece constante (=1) en el
intervalo T1 6 t < T2 , salta hacia arriba al valor N (t) = 2 en el instante t = T2 (ya que
en (4.3.25) T2 6 t), etc. (véase la Figura 4.5).
Entonces N (t) toma valores enteros en {0, 1, 2, . . . }, y cualquier trayectoria suya

(i.e. la función del tiempo t : N (t) = N (t, ω) fijando el factor aleatorio ω ∈ Ω) es una
70
6
5
N(t)=5
4
3
2
1
τ1 τ2 τ3 t
0 τ1 τ1+τ2 τ1+τ2+τ3 t
T1 2 T T3
Figura 4.5: La trayectoria tı́pica de un proceso de Poisson.
“escalera” no decreciente con saltos de longitud uno, en los instantes T1 = τ1 , T2 =

τ1 + τ2 , T3 = τ1 + τ2 + τ3 , . . . Los intervalos entre los saltos son las v.a. τ1 , τ2 , τ3 , . . . De la
Definición 4.2, para cada t > 0, N (t) = # de saltos en [0, t] = # de eventos ocurridos al
tiempo t (caracterizando cada salto como un suceso observado en el instante Tn , por
ejemplo la entrada de un cliente a una sucursal bancaria). Notemos que (véase (1.2.5) y
(1.2.12))
(λt)0 −λt
P N (t) = 0 = P (t < T1 ) = P (t < τ1 ) = 1 − Fτ1 (t) = e−λt =

e .
0!
De forma parecida (pero más complicada) se demuestra que para cualquier k > 0, (véase
(4.3.26))
(λt)k −λt
P N (t) = k = P (Tk 6 t, t < Tk+1 ) = e .
k!
Es decir, (véase el Ejemplo 1.4 (c))
N (t) ∼ P oiss(λt), t > 0.
O dicho de otra manera, para cada t > 0, N (t) es la v.a. de Poisson con parámetro λt y
de (3.1.6),
E[N (t)] = λt, t > 0. (4.3.27)
Nota 4.8 Es fácil demostrar que para cualesquiera 0 < t1 < t2 < ∞, el incremento del
processo N (t2 ) − N (t1 ) tiene la distribución de P oiss(λ(t2 − t1 )), por lo cual, E[N (t2 ) −
N (t1 )] = λ(t2 − t1 ).
71
Eligiendo t2 − t1 = 1, vemos que λ es el incremento promedio del proceso N (t) por unidad
de tiempo. Es por eso que λ se llama intensidad del proceso.
Ejemplo 4.4 Imaginemos que en un experimento fı́sico se usan 0.5 miligramos del isóto-
po radiactivo Uranio 238. Sea N (t) el número de α−partı́culas emitidas en el intervalo
[0, t] (cada partı́cula se emite como resultado de la desintegración de un átomo de Uranio).
De fı́sica se sabe que los intervalos entre las emisiones de α−partı́culas son v.a. i.i.d. con
distribución Exp(λ) y con λ ≈ 6.1488 (para la cantidad de materia dada arriba). Con-
secuentemente, N (t) es el proceso de Poisson con λ mencionada. Si el experimento dura
t = 30 segundos, entonces, por ejemplo
200
X
P (N (30) > 200) = 1 − P (N (30) 6 200) = 1 − P N (30) = k ,
k=0
k
donde N (30) ∼ P oiss(30λ). Si Y ∼ P oiss(µ), es decir P (Y = k) = µk! e−µ con k > 0, es
fácil ver que:
λ
P (Y = k + 1) = P (Y = k), k = 0, 1, 2, . . . (4.3.28)
k+1
Al utilizar ecuaciones recurrentes en (4.3.28), la suma anterior se calcula usando algún
programa computacional simple. El resultado es:

P N (30) > 200 ≈ 0.119739.
Nota 4.9 Sean n > 1 y {X1 , X2 , X3 , . . . , Xn } v.a. i.i.d. con la distribución Bern(p), las
cuales indican la ocurrencia de algún suceso en n pruebas realizadas en el intervalo [0, t].
Es decir, para k = 1, 2, . . . , n,
(
1, si en la k -ésima “prueba” ocurre el evento,
Xk =
0, si en la k -ésima “prueba” no ocurre el evento.
Entonces, Sn (t) = X1 + X2 + · · · + Xn ∼ Bin(n, p) es el número de sucesos. De acuerdo al

Ejercicio 7.5 (del Capı́tulo 7), la distribución de Sn (t) se aproxima mediante la distribución
P oiss(λ) con λ = np, cuando n es grande y p es cercana a cero. La aproximación de Sn (t)
mediante un proceso de Poisson se utiliza en una amplia difusión de modelos aplicados
en la teorı́a de probabilidad. (En el Ejemplo 4.4, n = # de átomos ≈ 1.26 · 1018 , p = la
probabilidad de desintegración de un átomo durante 30 seg ≈ 1.464 · 10−16 ).
72
4.4. Modelo clásico de riesgo (de Cramér-Lundberg)

4.4.1. Descripción del modelo y el capital promedio.
Es un modelo simple de movimiento (de balance de ingresos y egresos) de una parte del
capital de una compañı́a aseguradora. Al denotar por X(t), t > 0 al proceso estocástico
que representa el capital en el instante t; el modelo se define mediante la siguiente
ecuación:
N (t)
X
X(t) = x + γt − ξn , t > 0, (4.4.29)
n=1
en donde:
(i.) x = X(0) es el capital inicial (x > 0);
(ii.) γ > 0 es la prima acumulada (de todos los clientes) por unidad de tiempo;
(iii.) N (t) es el número de reclamaciones a la compañı́a en el intervalo [0, t]. En este
modelo se supone que N (t) es un proceso de Poisson con intensidad λ > 0; y
(iv.) {ξ1 , ξ2 , . . . } son los tamaños sucesivos de las reclamaciones que, se suponen, son v.a.
i.i.d. no negativas tales que Eξk = a < ∞.
También se supondrá en este modelo que N (t) no depende de {ξ1 , ξ2 , . . . }.
0
X
Nótese que en (4.4.29) se utiliza el convenio ξn = 0.
n=0
El proceso de (4.4.29) a veces se denomina proceso de riesgo (o modelo de Cramér3 -
N (t)
X
4
Lundberg ). El término S(t) = ξn − γt, con t > 0 es conocido como proceso de
n=1
superávit.
De acuerdo con el modelo X(0) = x, en el intervalo [0, T1 ) el capital crece como

x + γt (linealmente), y en el instante T1 que es cuando sucede la primera reclamación, la
compañı́a paga al cliente la cantidad ξ1 (ocurre un salto de X(t) hacia abajo, de tamaño
ξ1 ). Luego, X(t) sigue creciendo linealmente hasta que sucede en T2 la segunda reclamación
de tamaño ξ2 , etc. (véase Figura 4.6).
3
Carl Harald Cramér(1893-1985) fue un matemático sueco especialista en estadı́stica matemática;
contribuyó a la teorı́a de números probabilı́stica y a procesos estocásticos estacionarios.
4
Ernest Filip Oskar Lundberg(1876-1965) actuario sueco, fundador de la teorı́a de riesgo matemático.
73
X(t)
ξ1
X(0)=x ξ2
t
0
T1 T2 T3
Figura 4.6: Modelo clásico de riesgo.
Calcularemos el capital corriente promedio,

 
N (t)
X
EX(t) = x + γt + E  ξn  . (4.4.30)
n=1
N (t)
X
Por (4.1.8), con Z = ξn y Y = N (t) se tendrá:
n=1
 
N (t)
X ∞ N (t)
X X
E ξn = E ξn | N (t) = k  P N (t) = k
n=1 k=1 n=1
∞ k
!
X X
= E ξn |N (t) = k P N (t) = k = (por independencia de N y ξ1 , ξ2 , . . . )
k=1 n=1
∞ k
!
X X
= E ξn P N (t) = k = (por linealidad de la esperanza)
k=1 n=1
X∞

= a k P N (t) = k = por(3.1.4) = a EN (t)
k=1

= por(4.3.27) = aλt. (4.4.31)
Al usar esto último y (4.4.30), resultará que
EX(t) = x + (γ − aλ)t. (4.4.32)
74
Entonces EX(t) crece (linealmente), si
γ > aλ. (4.4.33)
La condición (4.4.33) denominada como “la condición de la ganancia neta”, significa que
por unidad de tiempo, la compañı́a gana en promedio más de lo que gasta, ya que aλ = el
pago promedio por una reclamación × el número promedio de reclamaciones por unidad
de tiempo (consulte la Nota 4.8).
EX(t)
c c+(γ-aλ)t
t
0
Figura 4.7: Capital promedio de una compañı́a de seguros.
4.4.2. Probabilidad de ruina.

A pesar de que en el caso (4.4.33), EX(t) → ∞, de la Definición (4.4.29) se sigue que,
existe una posibilidad no nula de que una trayectoria de X(t) bajará de tal modo que en
algún instante puede ocurrir que X(t) < 0. En este caso se estarı́a hablando de la ruina
(de la compañı́a).
En la Figura 4.8, T1 , T2 , . . . son los instantes (aleatorios) en que se reciben las

sucesivas reclamaciones.
Intuitivamente es claro que para un c > 0 “bastante grande”, y bajo la condición

(4.4.33), la mayorı́a de las trayectorias X(t) en (4.4.29) nunca cruzan el eje de las abscisas
t. Sin embargo, para este proceso es posible demostrar que cuando las v.a. ξ1 , ξ2 , . . . no
son degeneradas con valor c = 0 (véase Nota 3.2 (c)), la probabilidad de ruina es mayor
a cero. Dicha probabilidad se define como:

P (de ruina) := P ı́nf X(t) 6 0 . (4.4.34)
06t<∞
75
X(t)
x+γ(t)
c T4 es el momento
de la ruina
T4 t
0 T1 T2 T3
Figura 4.8: Una trayectoria posible del capital corriente.
En este modelo, llegar a la ruina significa que en algún instante aleatorio, X(t) en
(4.4.29) toma un valor negativo o cero. En la práctica, esos sucesos son raros (consulte
el Ejemplo 4.5, abajo) y normalmente no se da la bancarrota de la compañia (debido a
ciertos lineamientos financieros). Como se explica en la Nota 4.13 y en el Ejemplo 4.6, las
estimaciones de la probabilidad de ruina son útiles para controlar los valores de la prima
γ en las situaciones cuando los precios en el mercado cambian con el tiempo (y es por
esto que se cambia la distribución de ξn en (4.4.29)).
El cálculo de P (de ruina), en general no es un problema fácil. Más adelante, se con-

siderará brevemente un enfoque del que, en particular, resulta la fórmula explı́cita de
P (de ruina) cuando los tamaños de las reclamaciones sean exponenciales.
Nota 4.10 En el ejemplo 6.8 del capı́tulo 6, se verá que si la condición (4.4.33) no se
cumple, i.e. si γ < aλ, entonces para el proceso de riesgo en (4.4.29), con probabilidad
uno se tiene que Xt → −∞ cuando t → ∞, o bien, P (de ruina) = 1. La probabilidad de
ruina es también 1, si γ = aλ.
Si se considera el evento: “la compañia nunca llegará a la ruina” = {X(t) > 0 para toda t >
0}, que es el complemento de {X(t) 6 0 para alguna t > 0}, se introduce la probabili-
dad de supervivencia:
p(x) := 1 − P (de ruina), (4.4.35)
donde x > 0 es el capital inicial de la compañia de seguros. Denotamos por F (x), x > 0 la
f.d. común de las v.a. ξ1 , ξ2 , . . . (los tamaños de las reclamaciones) y también suponemos
que F tiene una densidad f continua en [0, ∞].
Se subraya que esta última suposición se toma solamente para simplificar el bosquejo de
la demostración. Las condiciones más generales para ecuaciones integro-diferenciables e
76
integrales para la función p(x) el lector podrı́a encontrarlas en Rolski et al (1999).
Proposición 4.4 La probabilidad de supervivencia p(x), x > 0 satisface la ecuación:

Z x
0 λ
p (x) = p(x) − p(x − y)f (y) dy , x > 0. (4.4.36)
γ 0
Nota 4.11 La ecuación (4.4.36) significa que al sustituir p(x), definida en (4.4.35), se
obtendrá (luego de calcular la derivada y la integral) la misma función tanto en la parte
derecha como en la izquierda (es decir, p(x) satisface (4.4.36)). Por otro lado, si en-
contramos una función r(x) que satisfaga la ecuación (4.4.36) y la condición: r(x) → 1
cuando x → ∞ (“no se da la ruina, si el capital es infinito”), entonces, r(x) = p(x), i.e.
r(x) será la probabilidad de supervivencia definida en (4.4.35).
Esquema de la demostración de la Proposición 4.4.
Sean ξ1 (con densidad f ) y T1 , respectivamente, el tamaño y el instante de la primera

reclamación. Puesto que N (t) es un proceso de Poisson con intensidad λ, T1 ∼ Exp(λ)
(véase la Definición 4.2). Para cualquier z > 0 se define el evento: Az = {no se dará la
ruina, si el capital inicial es z} y se considera un número h > 0 pequeño.
X(t) X(t)
x+γt x+γt
x x y
t t
0 0
h T1 T1 h
Figura 4.9: Capital inicial nuevo.
Se tiene que:

p(x) = P (Ax ) = P Ax , T1 > h + P Ax , T1 6 h . (4.4.37)
77
Observemos que el primer sumando en la última igualdad es:

P Ax , T1 > h = P Ax |T1 > h P T1 > h = P Ax |T1 > h 1 − FT1 (h)
= P Ax |T1 > h e−λh .

(4.4.38)
Por otro lado, bajo la condición T1 > h, en el instante t = h el capital es z = x + γh

(véase Figura 4.9). También el proceso X(t) con este “nuevo capital” se comporta, pa-
ra t > h como el procesooriginal con el capital inicial igual a z = x + γh. Es decir,
P Ax |T1 > h = P Ax+γh = p(x + γh).

Ahora para la probabilidad P Ax , T1 6 h en (4.4.37) se puede usar una ecuación
bidimensional análoga a (2.2.14) (utilizando la independencia entre T1 y ξ1 ):
Z hZ ∞

P Ax , T1 6 h = P Ax , T1 6 h |T1 = t, ξ1 = y fT1 (t)fξ1 (y) dtdy, (4.4.39)
0 0
donde fT1 (t) = λe−λt y fξ1 (y) = f (y).
Observemos también que para y > x + γt, P (Ax , T1 6 h |T1 = t, ξ1 = y) = 0 debido a

que se tiene ruina en t = T1 , (véase la Figura 4.9), y para y 6 x + γt y t 6 h, se tiene que

P Ax , T1 6 h | T1 = t, ξ1 = y = P Ax |T1 = t, ξ1 = y = p(x + γt − y),
(ya que en el instante T1 = t con ξ1 = y, el “nuevo capital inicial” es x + γt − y, véase la

figura 4.9). Al juntar (4.4.37), (4.4.38), (4.4.39) y la última igualdad se tiene:
Z h Z x+γt
−λh
p(x) = p(x + γh) e + p(x + γt − y) f (y) dy λe−λt dt, (4.4.40)
0 0
o bien, restando p(x + γh) en ambas partes de la igualdad y dividiendo entre h, se obtiene:
γ[p(x) − p(x + γh)]

=
γh
e−λh − 1 1 h x+γt
Z Z
= p(x + γh) + p(x + γt − y)f (y) dy λe−λt dt. (4.4.41)
h h 0 0
Intuitivamente, es suficientemente claro que la función p(z) = P (Az ) con z > 0 es con-
tinua (es decir, al cambiar un poco el capital inicial z, la probabilidad de sobrevivencia
p(z) también varı́a poco; en efecto, esta afirmación podrı́a demostrarse usando (4.4.40)).
78
1 h
Z
Al usar un teorema, conocido, del cálculo que dice: si ϕ es continua, entonces ϕ(t)dt
h 0
→ ϕ(0) cuando h → 0; se puede, por tanto, pasar al lı́mite en la parte derecha de
(4.4.41), cuando h → 0. Esto es, tomando en cuenta que para t 6 h, γt → 0 y λt → 0,
cuando h → 0. De lo cual se obtiene que el último sumando en (4.4.41) converge a
Z x
λ p(x − y)f (y)dy.
0
Por lo tanto, existe el lı́mite de la parte izquierda de (4.4.41) y es −γp0 (x). Finalmente,
de (4.4.41) se obtiene (4.4.36). 2
Corolario 4.2 Supongamos que los tamaños de las reclamaciones tienen distribución ex-
ponencial Exp(µ), entonces para cada x > 0,
λ −(µ− λγ )x
p(x) = 1 − e , (4.4.42)
γµ
λ −(µ− λγ )x
P (de ruina) = e . (4.4.43)
γµ
Este corolario se demuestra al sustituir la función de (4.4.42) en la ecuación (4.4.36)

y al verificar que ella es su solución. Hay que resolver el Ejercicio 4.8 para obtener los
cálculos correspondientes.
Nota 4.12 Puesto que en el corolario 4.2, a = Eξ1 = 1/µ , la condición (4.4.33) se con-
vierte en µλ < γ, o bien µ > λγ .
Ejemplo 4.5 Supogamos que en el modelo de riesgo (4.4.29), λ = 1000 (reclamaciones

al mes), ξk ∼ Exp(µ = 10−4 ), i.e. a = µ1 = 10000 (en pesos), γ = 1.05 · 107 (pesos).
Entonces, por (4.4.43):
(a) para el capital inicial x = 106 (pesos), P (de ruina) ≈ 0.0081422;
(b) para el capital inicial x = 107 (pesos),
P (de ruina) ≈ 1.98665 · 10−21 . (4.4.44)
Obsérvese que en el último caso P (de ruina) es prácticamente cero. (En general, las
empresas pequeñas se arruinan más frecuentemente que las empresas grandes.)
79
Nota 4.13 La última respuesta señala que en el caso de reclamaciones representadas por
v.a. exponenciales, para un capital inicial “razonablemente grande” (como 10 millones
de pesos como en el último ejemplo) resulta una probabilidad de ruina “excesivamente
pequeña.” Las estimaciones de las probabilidades de ruina son útiles para recalcular (en
algunos periodos) las primas que se cobran a los clientes de la compañı́a. La razón para
hacerlo podrá ser que por el crecimiento de precios el parámetro a = Eξk aumenta y de
ahı́, (para reclamaciones exponenciales, y también en casos más generales), el exponente
λ 1 λ
µ − = − en (4.4.43) se aproxima a cero. Esto podrı́a aumentar la probabilidad de
γ a γ
ruina hasta un “nivel peligroso” para la compañia de seguros. En el siguiente ejemplo se
ilustra esto.
Ejemplo 4.6 Conservemos todos los parámetros dados en el ejemplo 4.5, excepto el valor
de a. Entonces sean x = 107 y a = 10490 (un crecimiento de precios menor del 5 %).
Nuevamente, aplicando (4.4.43) se obtiene que
P (de ruina) ≈ 0.40299. (4.4.45)
El valor de la probabilidad de ruina en (4.4.45) no es comparable (y hasta “peligroso”)

con lo obtenido en (4.4.44) . El crecimiento de los precios de los contratos de seguros que
provoca el cambio de la prima acumulada γ que va de 1.05 · 107 (como en el Ejemplo
4.5) hasta 1.09 · 107 (el 3.8 %), evita el aumento del riesgo. En efecto, por (4.4.43) con
a = 10490 y γ = 1.09 · 107 obtenemos (en lugar de (4.4.45)) un valor completamente
admisible de la probabilidad de ruina: 2.57376 · 10−16 .
80
4.5. EJERCICIOS
4.1 Sea N una v.a. con valores en {0, 1, 2, . . . } demuestre que:
∞
X
EN = P (N > k).
k=0
4.2 Sean X1 , X2 , . . . v.a. i.i.d. con la distribución Exp(λ), N una v.a. independiente de
X1 , X2 , . . . Supongamos que P (N = n) = 1/2n , n = 1, 2, . . . , y se define la función
R(λ) := E(X1 · X2 · . . . · XN ), λ > 0. Determine los valores de R(λ).
Resp. :
(
1
2λ−1
, si λ > 1/2,
R(λ) =
∞, si λ 6 1/2.
4.3 Sean X, Y v.a. idénticamente distribuidas.

X Y
(a) Encuentre un ejemplo que muestre que en general, E( X+Y ) 6= E( X+Y ).
X
(b) Demuestre que, si, además, X y Y son independientes, entonces E( X+Y ) =
Y
E( X+Y ).
Sugerencia: En (b) suponer, por ejemplo, que X y Y son v.a. a.c. y aplicar (4.1.9).
4.4 Sean X, Y y N v.a. independientes y N ∼ P oiss(λ). Supongamos que X y Y son
a.c. con la siguiente densidad:
(
1
√
2 x
, x ∈ (0, 1],
fX (x) = fY (x) =
0, x∈/ (0, 1].
Calcular E[máx(X, Y )]N .

1
Resp.: [1 − e−λ ].
λ
Sugerencia: Primero mostrar que máx(X, Y ) ∼ U (0, 1) y segundo usar (4.1.8).
4.5 (Una broma con cálculos) Imaginemos a una persona de 50 años de edad la cual
tiene n órganos principales que pueden ser transplantados (como el corazón, hı́gado,
córnea, etc.). Actualmente n se considera en 20 órganos aproximadamente. Supon-
gamos que cada año (después de la edad de 50 años) deja de funcionar un órgano y
se hace un transplante. Supongamos también que los órganos dejan de funcionar de
forma independiente unos de otros y que no importa si son propios o transplantados.
81
4.5. Ejercicios
Sea N la v.a. (con valores enteros) tal que a la edad de 50+N años, por primera vez,
los n órganos de la persona mencionada se han cambiado por órganos transplantados.
Calcule EN .
Resp. : EN = n(1 + 12 + 13 + · · · + n1 ), EN ≈ 72 años para n = 20.
4.6 Mostrar la fórmula (4.2.19).

Sugerencia: Use la fórmula de probabilidad total para p(x) = P (de ruina con el
capital inicial x) se obtienen las ecuaciones:
1h i
p(x) = p(x + 1) + p(x − 1) , y 0 < x < a.
2
4.7 Mostrar que para a = ∞ (una barrera absorbente en 0), el sistema de ecuaciones
(4.2.21) tiene solamente la solución ETx = ∞, x > 0.
Sugerencia: Para ϕ(x) = ETx − ETx−1 , demostrar que ϕ(x + 1) = ϕ(x) − 2, x =
1, 2, 3, . . . De aquı́, ETx − ETx−1 < 0 para alguna x suficientemente grande. Hay
que entender que lo último contradice la monotonı́a de la esperanza.
4.8 Verificar que la función p(x) en (4.4.42) satisface a la ecuación (4.4.36).

Sugerencia: Calcular la derivada y la integral en (4.4.36).
4.9 Para la caminata aleatoria S0 (0) ≡ Sn en (4.2.17), se define la v.a. T := mı́n{n >
1 : Sn = 0} que representa el tiempo hasta el primer regreso al origen.
Demostrar:
(a) P (T < ∞) = 1;
(b) ET = ∞.
Sugerencia: Considerando ET = E(T | X1 = 1)P (X1 = 1) + E(T | X1 =

−1)P (X1 = −1), reducir el problema a calcular el tiempo promedio hasta que se
dé la ruina, con estado inicial x = 1 y barrera absorbente en 0.
4.10 De acuerdo a las tablas de mortalidad publicadas en el año de 1693 por Edmond
Halley (1653-1742), la duración promedio de vida era de 26 años. Por otro lado,
una persona tenı́a las mismas oportunidades de vivir menos que 8 años y más que
8 años. Suponiendo (no muy realista) que la distribución de la duración de vida en
esa época se representa por la v.a. T definida como:
T = Xξ + (1 − ξ)(X + Y ),
82
donde las v.a. ξ, X, Y son independientes; ξ ∼ Bern(p), X ∼ U (0, 2), y Y ∼

Gamma(α = 2, λ) (consulte el Ejercicio 3.11).
(a) Encontrar los valores de p y λ que corresponden a los datos de arriba (con
ET = 26).
(b) Calcular E(T | T > 2).
4.11 Sean X y N v.a. independientes tales que X ∼ U (0, 1) y N ∼ P oiss(λ = 1).

Calcular E(X N ).
Resp.: 1 − e−1 ≈ 0.63212.
4.12 Considere la caminata aleatoria simple no simétrica dada por (4.2.15) y (4.2.16).
Sean (en lugar de (4.2.14)) las v.a. i.i.d. X1 , X2 , . . . con la distribución P (Xk =
1) = p y P (Xk = −1) = q, suponiendo que p > q. Demostrar que Sn → ∞ con
probabilidad uno. Justificar que esto resulta del hecho que con probabilidad uno,
cada punto entero es visitado por Sn (x) un número finito de veces (incluso cero
veces).
Sugerencia: Usar la Ley Fuerte de los Grandes Números del Capı́tulo 6.
4.13 Sea N (t) el proceso de Poisson con intensidad λ. Mostrar que con probabilidad uno,
N (t)
t
→ λ (i.e. se aproxima al valor de λ) cuando t → ∞.
Sugerencia: De (4.3.24),(4.3.25) para t grandes los valores de TN (t) = τ1 + τ2 +
τ1 + · · · + τN (t)
· · · + τN (t) son relativamente cercanos a t. Entonces, ≈ Nt(t) . Faltarı́a
N (t)
usar Ley Fuerte de los Grandes Números del Capı́tulo 6.
4.14 Supongamos (no muy realistamente) que el número total N de hijos e hijas en una
familia tiene la distribución geométrica: N ∼ Geom(p) (véase el Ejercicio 2.12). Sean
X y Y las v.a. que representan el número de varones y mujeres, respectivamente,
en la familia mencionada. Bajo la hipótesis de que el nacimiento de un varón o una
mujer es equiprobable, calcular E(X|Y = 0).
2
Resp.: 1+p
.
Sugerencia: E(N − Y |Y = 0) = E(N |Y = 0). Para calcular la última esperanza,
aplicar (4.1.1) y en su turno, usar P (N = n|Y = 0) = P (Y =0|N =n)P (N =n)
P (Y =0)
y P (Y =
1 n
0|N = n) = ( 2 ) . Para hallar P (Y = 0) use (2.2.13). Utilice también la serie
∞
X 1
k xk−1 = , (4.5.46)
k=1
(1 − x)2
83
4.5. Ejercicios
donde 0 < x < 1 es cualquiera. Esta serie se obtiene de la serie dada en (2.3.22), al
derivarla en ambos lados.
Nota 4.14 Si p = 0.45, entonces EN = 1/p = 2.2 (véase (3.3.26)) que es la tasa
de fecundidad en México en el año 2013, de mujeres entre 15 y 49 años de edad
(INEGI 2013). Para tal p, E(X|Y = 0) ≈ 1.3793. Es interesante notar que cuando
p → 0, EN = 1/p → ∞ pero E(X|Y = 0) → 2, a pesar de que N = X + Y y
EN = EX + EY → ∞.
4.15 Sean X el peso (en kilogramos) de un hombre escogido al azar y Y su estatura (en
centı́metros). Según datos estadı́sticos, en 2002 para Estados Unidos, EX = 86.1
(kg), EY = 178.5 (cm), σX = 2.63 (kg), σY = 6.59 (cm) y la distribución conjunta
de las v.a. estandarizadas: ξ = X−EX σX
, η = Y −EY
σY
es aproximadamente normal
bidimensional (véase (2.1.9)) con el coeficiente de correlación ρ ≈ 0.7.
Calcular (a) E(X|Y = 160), (b) E(X|Y = EY ) y (c) E(X|Y = 200) (véase Ejemplo
4.2).
Resp.: (a)≈ 80.9318, (b)aX = 86.1 y (c)≈ 92.1063.
Nota 4.15 (a) En el caso de la densidad Normal bidimensional (2.1.9) mediante

integración directa (aunque es un procedimiento largo) se demuestra que el
coeficiente de correlación ρ es:
ρ = E(ζ η).
También de la fórmula (2.1.9) se sigue que para el caso del par de v.a. (ζ, η)
Normal bidimensional ζ y η son independientes si y sólo si el coeficiente de
correlación ρ = 0.
2
(b) En general, sean X, Y cualquier par de v.a con 0 < V ar(X) := σX < ∞ y
2
0 < V ar(Y ) := σY < ∞. El coeficiente de correlación ρX,Y se define como:
1 h i
ρX,Y ≡ E (X − EX)(Y − EY ) . (4.5.47)
σX σY
Por el Teorema 3.1 se tiene que si X y Y son independientes entonces ρX,Y = 0.
Desafortunadamente, el recı́proco no es cierto, i.e. existen casos para los cuales
ρ = 0 y X y Y son dependientes (como se ve en el siguiente ejercicio). O de
manera equivalente no es cierto que la dependencia de X y Y implique ρ 6= 0.
84
4.16 Sean X ∼ N orm(0, 1) y Y = |X| (son v.a. muy dependientes entre sı́ pues se sabe
el valor de Y sólo conociendo el valor de X). Mostrar que ρX,Y = 0.
Sugerencia: Puesto que EX = 0, E[(X Z ∞−EX)(Y −EY )] = E(XY )−E[X EY ] =

1 2
E(X |X|) y (por (3.1.9)) E(X |X|) = x |x| √ e−x /2 dx = 0, siendo la integral
−∞ 2π
de una función impar.
85
4.5. Ejercicios
86
Capı́tulo 5
5.1. Esperanza geométrica

Esta noción simple, casi no se encuentra en libros de texto, pero es muy útil en el
estudio de los productos de v.a. positivas y algunos modelos aplicados (véase el capı́tulo
6).
Definición 5.1 Sea X > 0 una v.a. (con valores positivos) tal que E| ln X| < ∞. La
esperanza geométrica, Eg X, de X se define como:
Eg X := eE(ln X) . (5.1.1)
Ejemplo 5.1 Sean x1 , x2 , . . . , xm números positivos dados y X la v.a. tal que P (X =

xk ) = 1/m, k = 1, 2, . . . , m. Entonces por (3.1.4),
1
EX = x1 + x2 + · · · + xm ,
m
(el promedio aritmético); y por (5.1.1) y (3.1.8),
( m
)
1 X
Eg X = exp ln xk
m k=1
m
Y 1 1
= exp ln xk = x1 · x2 · . . . · xm m , (5.1.2)
k=1
m
(el promedio geométrico). La igualdad (5.1.2) explica el nombre “esperanza geométrica”.
87
Ejemplo 5.2 (La paradoja de Petersburgo) Consideremos el siguiente juego de azar. Una
moneda simétrica se lanza sucesivamente hasta que por primera vez salga “águila”. Sea
X el número de lanzamientos. Como en el Ejercicio 2.12 se establece que X ∼ Geom(p =
k−1
1 1 1
1/2), o bien, por (2.3.21) P (X = k) = 1− = k , k = 1, 2, 3, . . . En este juego,
2 2 2
el jugador gana 2k pesos cuando X = k. Es decir, la ganancia neta es Y = 2X . Según
(3.1.8), la “ganancia promedio” es
∞ ∞
X 1 X
EY = 2k = 1 = ∞. (5.1.3)
k=1
2k k=1
Pero, si alguien desea conocer la “ganancia promedio” mediante el uso de la esperanza

geométrica, entonces por (5.1.1) y (3.1.8),
∞ ∞
!
k
k ln 2
P
X
X
E(ln 2 ) ln 2EX 2k
Eg Y = e =e = exp k
= 2k=1 = 22 = 4, (5.1.4)
k=1
2
∞
X k
ya que = 2, por el Ejercicio 5.2.
k=1
2k
Nota 5.1 Explicaremos por qué el resultado (5.1.3) se interpreta como una paradoja.
Según el concepto común, un juego de azar se denomina “justo”, si el pago por la partici-
pación en el juego coincide con la ganancia promedio. De (5.1.3), se supone que cualquier
pago finito por una participación será “injusto”. Por otro lado, no muchas personas están
de acuerdo en pagar 100 pesos por participar en el juego. Por supuesto, si alguien apuesta
100 pesos como pago inicial, entonces tendrá la posibilidad (con una probabilidad positi-
va) de ganar más de 250 ≈ 1.12580·1015 = 1125800 millares de pesos.
P50 Pero la probabilidad
1 k
de que hsuceda ese evento es P (X > 50) = 1 − P (X 6 50) = 1 − k=1 ( 2 ) = (por (2.3.23))
1−( 12 )51
i
= 1− 1− 21
− 1 = (1/2)50 ≈ 0.88818 · 10−15 , que es prácticamente cero. Por cálculos
1
semejantes se obtiene que P (de recuperar 100 pesos) = P (2X > 100) = P (X > 6) = 26
=
1
64
(“una posibilidad de 64”).
Este ejemplo muestra que la esperanza de la ganancia no siempre refleja el comporta-
miento de la ganancia real. Si alguien jugará solamente una vez, entonces, el pago por
participación de 4 pesos, dado por la esperanza geométrica (véase (5.1.4)) en algún sen-
tido es “justo”, pues P (ganar 4 pesos o más) = 1 − P (X = 1) = 1/2 y P (ganar al
menos 4 pesos) = P (X = 1) = 1/2. (Puede también consultarse el Ejercicio 3.8 que
está relacionado con este ejemplo.)
88
CAPÍTULO 5. ESPERANZA GEOMÉTRICA
Tomando en cuenta la Definición 5.1, las siguientes propiedades de la esperanza geométri-

ca (cuando existe), se siguen de las propiedades de la esperanza “habitual”, dadas en la
proposición 3.1 (c ∈ R se interpreta como la v.a. con el único valor c, o v.a degenerada).
1. Eg c = c; 2. Eg (cX) = cEg X; 3. si X > Y entonces Eg X > Eg Y ;
4. Eg (X1 · X2 · · · Xn ) = Eg (X1 )Eg (X2 ) · · · Eg (Xn ); (5.1.5)

5. Eg (X p ) = [Eg (X)]p para cada p > 0. (5.1.6)
La demostración de (5.1.5) es evidente, pues ln(X1 · X2 · . . . · Xn ) = ln X1 + ln X2 +

· · · + ln Xn y E(Y1 + Y2 + . . . ) = EY1 + EY2 + . . .
Nota 5.2 (a) A diferencia de (3.2.11), en (5.1.5) no se necesita la independencia de

las v.a. X1 , X2 , . . . , Xn .
(b) En contraste con la esperanza habitual, con frecuencia Eg (X + Y ) 6= Eg X + Eg Y
(véase el Ejercicio 5.3).
Ejemplo 5.3 Según el Ejercicio 3.12, para las v.a. independientes X ∼ U (0, 1) y Y ∼
U (0, 1), E(X/Y ) = ∞. Por otro lado, sin importar que X y Y sean independientes o
no, Eg (X/Y ) = exp[E ln(X/Y )] = eE(ln X)−E(ln Y ) = e0 = 1 (tomando en cuenta que
Z 1
E(ln X) = ln x dx = −1).
0
Ejemplo 5.4 Supongamos que una persona al principio del año deposita en un banco la
cantidad de Y0 > 0 pesos (una cantidad no aleatoria), entonces al final del año el valor
nominal de su depósito será Y0 (1 + ξ), donde ξ ∈ (0, 1) es una tasa de interés aleatoria
(1 + ξ)
(en particular, fija). Sin embargo, el valor real del depósito al final del año es Y0 ,
(1 + η)
donde η ∈ (0, 1) es la v.a. que representa el coeficiente de inflación.
Supongamos que la persona tiene su cuenta en el mismo banco para los años i =
1, 2, 3, . . . , n, con el depósito inicial en Y0 pesos. Entonces, en caso de no hacer retiros, el
valor real de su capital al final del n−ésimo año será:
n
Y 1 + ξi
Yn = Y0 , n = 1, 2, 3 . . . (5.1.7)
i=1
1 + ηi
89
Puesto que (1 + ξi ), (1 + ηi ) ∈ (1, 2), las esperanzas E(1 + ξi ), E(1 + ηi ), Eg (1 +

ξi ) y Eg (1 + ηi ) existen.
Ahora consideremos los siguientes escenarios:
Primero: supongamos que para cada i fijo las v.a. ξi y ηi tienen distribuciones tales
que E ln(1 + ξi ) = E ln(1 + ηi ), i = 1, 2, . . . , n. Entonces, por (5.1.5) y el Ejercicio 5.1 se
obtiene:
Eg Yn = Y0 , n = 1, 2, 3, . . . (5.1.8)
Segundo: Además, supongamos que ξ1 , ξ2 , . . . , ξn ; η1 , η2 , . . . , ηn son v.a. i.i.d. con
la distribución U (0, α), donde α > 0 es un número bastante cercano a cero (como suele
ocurrir en la realidad). Por la independencia, identidad de distribuciones y por el Teorema
3.1, se tiene que:
n n n
Y 1 + ξi 1 + ξ1 1
EYn = Y0 E = Y0 E = Y0 E(1 + ξ1 )E . (5.1.9)
i=1
1 + ηi 1 + η1 1 + η1
Z α
α 1 1 1 1
De (3.1.7), E(1 + ξ1 ) = 1 + y por (3.1.9) E = dx = ln(1 +
2 1 + η1 0 1+x α α
2
α α
α) ≈ 1 − + , para pequeñas α (ya que, al usar el desarrollo de Taylor para la
2 3 2 3 4
función ln(1 + x) se obtiene que ln(1 + x) = x − x2 + x3 − x4 + . . . , y quitando los
3 4
términos de orden
α , α, etc. los cuales
son prácticamente iguales a cero). Es por esto
α α2 α2

1 α
que E(1 + ξ1 ) E ≈ 1+ 1− + ≈ 1+ (ignorando el término de
1 + η1 2 2 3 12
orden α3 , el cual es casi nulo). Finalmente, por (5.1.9) obtenemos que:
n
α2

EYn ≈ Y0 1 + → ∞, cuando n → ∞, (5.1.10)
12
(puesto que para cualquier c > 1, cn = c| · c ·{z. . . · }c → ∞, si n → ∞).

n−veces
Esto significa que el “valor real promedio” de capital, crece sin cota con el tiempo.
Esta conclusión puede sonar un poco extraña. Al calcular el “valor real promedio” por la
esperanza geométrica se obtiene un resultado más razonable dado en (5.1.8).
90
CAPÍTULO 5. ESPERANZA GEOMÉTRICA
5.2. EJERCICIOS
5.1 Sean X, Y v.a. positivas para las cuales la esperanza geométrica existe y E ln(X) =
E ln(Y ) (en particular, si X y Y son idénticamente distribuidas). Mostrar que:

X
(a) Eg = 1.
Y

EX X
(b) Si X, Y ∼ Exp(λ) y son independientes, entonces 6= E = ∞.
EY Y

X
(c) Para las v.a. X, Y ∼ Exp(λ), Eg = 1.
Y
∞
X α
5.2 Demostrar que para 0 < α < 1, k αk = .
k=1
(1 − α)2
P∞ 1
Sugerencia: De (2.3.22), k=0 αk = 1−α , para cualquier 0 < α < 1. Calcule la
derivada de ambas partes de esa igualdad.
5.3 Encontrar dos v.a. X, Y positivas e independientes tales que Eg (X + Y ) 6= Eg (X) +

Eg (Y ).
Sugerencia: Sean, por ejemplo, X ≡ 1, Y ∼ U (0, 1).
5.4 Encontrar un ejemplo de una v.a. X positiva con EX < ∞, EX 2 = ∞ y Eg X < ∞.

(Entonces, por (5.1.6), Eg (X p ) = [Eg X]p < ∞ para cada p > 0).
5.5 Mostrar que la igualdad aproximada en (5.1.10) también es cierta si P (ξi = 0) =

P (ξi = α) = P (ηi = 0) = P (ηi = α) = 1/2 y ξ1 , ξ2 , . . . ; η1 , η2 , . . . son independien-
tes.
5.6 La v.a. X = eη , donde η ∼ N orm(0, 1), se llama v.a lognormal estándar (utiliza-
da ampliamente en matemáticas financieras y otros campos). Sean n > 1 un entero
y X1 , X2 , . . . , Xn las v.a. lognormales estándar. Mostrar que:
(a) Eg (X1 · X2 · · · Xn ) = 1.
(b) Si X1 , X2 , . . . , Xn son independientes, entonces E(X1 · X2 · . . . · Xn ) = en/2
(→ ∞ cuando n → ∞).
R∞ x x2
Sugerencia: Para el inciso (b) usar el Teorema 3.1 y calcular EeX1 = √e
−∞ 2π
e− 2 dx.
91
5.2. Ejercicios
92
Capı́tulo 6
Ley fuerte de los grandes

números(LFGN) y algunos modelos
de inversión óptima simplificados
6.1. Convergencia con probabilidad uno y LFGN

Entre un sinnúmero de resultados en la teorı́a de probabilidad moderna, dos clases de
teoremas juegan un papel muy importante, a saber: la(s) ley(es) de los grandes números
y el(los) teorema(s) central(es) del lı́mite. Estos resultados cuentan con dos tipos bási-
cos de convergencia de v.a.: convergencia de v.a. con probabilidad uno (o en otros
términos, convergencia casi segura) y convergencia débil, que es la convergencia de
las distribuciones de las v.a.
A pesar de que estos teoremas son muy valiosos en la teorı́a y tienen aplicaciones
importantes en diversas áreas, en los cursos introductorios de probabilidad casi nunca se
les da suficiente atención.
Ejemplo 6.1 Imaginemos que una moneda simétrica se lanza n veces. Para el k-ésimo
lanzamiento sea: (
1, si resulta “águila”,
Xk = (6.1.1)
0, si resulta “sol”.
Sn
Entonces, Sn = X1 + X2 + · · · + Xn es el número de “águilas” que resultan y es
n
la frecuencia relativa del número de águilas.
93
6.1. Convergencia con probabilidad uno
Ahora bien, tenemos que P (resulte “águila” ) = P (Xk = 1) = 1/2 = a := EXk

(véase el Ejemplo 3.4). Es decir, por la simetrı́a de que “águila” y “sol ” tienen la
misma posibilidad de salir y el razonamiento intuitivo de que la frecuencia de un even-
to (resulte “águila”, en este caso) debe ser cercano a la probabilidad de dicho evento.
Por tanto, se podrı́a pensar que para toda n suficientemente grande se espera que
Sn
n
≈ 12 = P (resulte “águila”) = a = EXk .
En efecto, en el siguiente Teorema 6.1 se obtiene que con probabilidad uno (o casi
seguramente),
Sn 1
→ = a, cuando n → ∞. (6.1.2)
n 2
¿Cómo se entienden las palabras “con probabilidad uno”?
Sea (Ω, F, P ) un espacio de probabilidad en donde son definidas las v.a. X1 , X2 , . . . , Xk , . . .

que aparecen en (6.1.1). Con base en la Definición 1.2 (del Capı́tulo 1) para cada k =
1, 2, . . . , Xk es un función definida en Ω con valores en R, i.e. Xk (ω) ∈ R, para ω ∈ Ω.
S1 S2 Sn
Resulta que las v.a. , , . . . , , . . . también están definidas en (Ω, F, P ), o bien, para
1 2 n
cada elemento ω ∈ Ω del espacio muestral Ω, los valores correspondientes de estas v.a.
son:
S1 (ω) S2 (ω) Sn (ω)
, ,..., ,..., (6.1.3)
1 2 n
que son números reales, enumerados por los números naturales n = 1, 2, 3, . . . Entonces
en (6.1.3) se tiene una sucesión numérica. La convergencia con probabilidad uno
(o la convergencia casi segura, “c.s.”) de la sucesión (6.1.3) al número 1/2, significa
que:

Sn (ω)
P ω ∈ Ω tales que → 1/2 = 1. (6.1.4)
n
De (6.1.4) al tomar su complemento se sigue que:
Sn (ω)
P ω ∈ Ω tales que n
9 1/2 = 0. (6.1.5)
Considerando el caso general, llegamos a la siguiente definición.
Definición 6.1 Sean X y X1 , X2 , . . . , Xn , . . . v.a. definidas en un espacio de probabilidad

(Ω, F, P ). Se dice que Xn converge a X con probabilidad uno (o casi seguro) si

P ω : Xn (ω) → X(ω) = 1. (6.1.6)
94
CAPÍTULO 6. LEY FUERTE DE LOS GRANDES NÚMEROS E
INVERSIONES ÓPTIMAS
En este caso se escribe:
Xn → X con probabilidad 1.
Nota 6.1 (a) Cuando una sucesión numérica z1 , z2 , z3 , . . . , zn , . . . converge a un núme-

ro a ∈ R, esto se escribe: zn → a , cuando n → ∞. Esto significa que, para toda
n suficientemente grande, los números zn están arbitrariamente cercanos a “a”. Por
ejemplo, si zn = 1 − 1/n, n = 1, 2, 3, . . . entonces zn → 1 (ya que 1/n → 0 con el
aumento sin cota de n). Sin embargo, las siguientes sucesiones no convergen:
1) zn = (−1)n − 1/n, ya que para n grandes, zn está cerca de 1 para n pares y cerca
de −1 para n impares. i.e. no hay lı́mite único;
2) zn = ln(1/n), ya que ln(x) → −∞ cuando x → 0+ .
(b) En el Ejemplo 6.1 es posible elegir Ω = {ω = (i1 , i2 , . . . , ik , . . . )}, donde cada ik =

“águila” o “sol” indica el resultado del k-ésimo lanzamiento. Entonces la convergen-
cia en (6.1.2) no se tiene para toda ω ∈ Ω. Por ejemplo, si ω = (“águila”, “águila”,
Sn
. . . , “águila”, . . . ) , entonces para cada n se tiene que Sn = n y = 1 9 1/2.
n
Por otro lado, es posible demostrar que la probabilidad total de todas las ω “exclu-
Sn (ω) 1
sivas” tales que 9 es cero (como está marcado en (6.1.5)). En particular,
n 2
por la independencia de X1 , X2 , . . . , se tiene que:
P (sólo resulten“águilas”) = P (X1 = 1, X2 = 1, . . . , Xk = 1, . . . ) =

= lı́m P (X1 = 1)P (X2 = 1) · · · P (Xn = 1)
n→∞
n
1
= lı́m = 0.
n→∞ 2
Estos argumentos aclaran el porqué en la teorı́a de probabilidad se usa la convergen-
cia casi segura, es decir, para “casi todo” ω ∈ Ω, pero no para todas ω ∈ Ω. Otra
manera, poco formal, de ilustrar la convergencia casi segura (con probabilidad 1) se
da en la Figura 6.1.
En el resto del texto se usará la siguente notación:

X1 , X2 , X3 , . . . , Xk , . . . denota una sucesión de v.a. i.i.d.
a = EXk , k = 1, 2, 3, . . . es su esperanza común (cuando ésta existe).
95
La tropa que se
aproxima a la
fortaleza
Fortaleza Fortaleza
Un guerrero
cobarde:
a) Convergencia "segura". b) Convergencia "casi segura".
Figura 6.1: La “ilustración” de convergencia de v.a. con probabilidad 1 (casi segura).
σ 2 = V ar(Xk ), k = 1, 2, . . . es su varianza común (cuando existe).
Sn = X1 + X2 + · · · + Xn , n = 1, 2, 3, . . .
El resultado principal de este capı́tulo es la siguiente afirmación.
Teorema 6.1 (LFGN) Sean X1 , X2 , . . . v.a. i.i.d.
(a) Si E|X1 | < ∞ (es decir, a = EXk existe y es finita), entonces
Sn
→ a = EX1 con probabilidad 1. (6.1.7)
n
(b) Si E|X1 | = ∞, entonces la sucesión

Sn
, n = 1, 2, 3, . . . diverge con probabilidad 1. (6.1.8)
n
Sn X1 + X 2 + · · · + Xn
Nota 6.2 El cociente ≡ algunas veces es llamado “promedio
n n
muestral”. La afirmación en (6.1.7) significa que los promedios muestrales convergen al
valor esperado (o “promedio teórico”) a ≡ EX1 , cuando n → ∞.
96
Aunque la demostración (bastante complicada y profunda) de este teorema está fuera

del alcance de nuestro libro, puntualizamos algunos argumentos que apoyan la afirmación
en (6.1.7). En general (como en el Teorema 6.1), para (6.1.7) no es necesario suponer la
existencia de la varianza finita de las v.a. Xk . Sin embargo, supondremos la existencia
de las varianzas (solamente para ilustrarla idea
de la demostración). En el Ejemplo 3.7
2

Sn Sn σ
se ha calculado que para cada n > 1, E = a, V ar = (véanse (3.2.20) y
n n n
Sn
(3.2.21)). O bien, con el crecimiento sin cota de n, se tiene que V ar → 0, y por
n
Sn
tanto la probabilidad de que los valores de la v.a. estén en una vecindad pequeña de
n
a = E Snn converge a 1. Más explicitamente, al sustituir en la desigualdad de Chebyshev

Sn 1
(3.2.18), X = , EX = a y ε = n1/3 → 0 (cuando n → ∞), se obtiene que:
n
σ2
σ2

Sn 1
P − a 6 1/3 > 1 − n1 = 1 − 1/3 → 1, cuando n → ∞. (6.1.9)
n n 1/3
(n ) 2 n
Al aplicar algunas desigualdades más precisas que la de Chebyshev y desarrollando

argumentos como en (6.1.9), es posible demostrar (por ejemplo, en el caso particular de
v.a. Xk acotadas) que existe una v.a. N con valores finitos en {1, 2, . . . } tal que,

Sn 1
P − a 6 1/3 para toda n > N = 1.

n n
Lo último significa que Snn → a con probabilidad uno. Después, se considera el caso
general utilizando algunos trucos interesantes, pero ello no es muy importante para este
libro. En particular, para pasar de v.a. generales (posiblemente con varianzas infinitas) a
unas v.a. acotadas se utiliza el procedimiento de “truncación” como en la fórmula (6.1.12).
Nota 6.3 En el Teorema 6.1, las hipótesis dicen que los sumandos X1 , X2 , X3 , . . . son
v.a. independientes e idénticamente distribuidas. Estos supuestos podrı́an sustituirse por
algunas condiciones menos restrictivas (como una dependencia “bastante ligera”), pero
hipótesis de este tipo no pueden quitarse por completo. Algo referente se muestra en el
siguiente ejemplo.
Ejemplo 6.2 (a) Sean X ∼ U (0, 1) y X = X1 = X2 = X3 = . . . que son las v.a.

estrictamente dependientes. Entonces, Sn = nX, Snn = X no aproxima a = EX1 =
1/2.
97
(b) Sean X1 , X2 , . . . , Xk , . . . v.a. independientes tales que Xk ∼ N orm (0, k), k =

1, 2, 3, . . . De una extensión del Teorema 2.2 se sigue que Sn ∼ N orm(0, σn ), n =
1, 2, 3, . . . donde por independencia y por una fórmula aritmética,
n n
X X n(n + 1)(2n + 1)
σn2 = V ar(Sn ) = V ar(Xk ) = k2 = ,
k=1 k=1
6
Sn
o bien ∼ N orm(0, σ n ), donde
n

2 Sn n(n + 1)(2n + 1)
σ n = V ar = ,
n 6n2
que se comporta como n/3, cuando n → ∞.

Entonces, para cualquier c > 0, de (1.2.9) y (1.2.13),
Z c
Sn 1 −x2 /2σ 2n x
P −c 6 6c = √ e dx, haciendo el cambio y = ,
n −c 2π σ n σn
Z c/σn Z 3c/n
1 −y 2 /2 1 2
√ e dy ≈ √ e−y /2 dy −→ 0, (6.1.10)
−c/σ n 2π −3c/n 2π
cuando n → ∞, puesto que las longitudes de los intervalos [− 3c

n n
, 3c ] se aproximan a
cero cuando n → ∞.
Por otro lado, E( Snn ) = 0, n = 1, 2, 3, . . . y por (6.1.10), la afirmación (6.1.7) en
la Ley Fuerte de los Grandes Números (LFGN) no se cumple. Además, los valores
de los promedios muestrales Snn “se van al infinito”, ya que para cualquier inter-
por (6.1.10): P Snn ∈

valo [−c, c] (que puede ser muy grande) se tiene / [−c, c] =
P Snn > c o Snn < −c = 1 − P Snn ∈ [−c, c] → 1 cuando n → ∞.

Ejemplo 6.3 Supongamos que se lanza sucesivamente un dado bien balanceado. Para
k = 1, 2, . . . sean
(
1, si en el k-ésimo lanzamiento resulta “6”,
Xk =
0, si en el k-ésimo lanzamiento resulta otro puntaje.
Entonces la v.a. Sn = X1 + X2 + · · · + Xn representa el número de veces que resulta

el “6” en los n primeros lanzamientos. Se puede suponer que X1 , X2 , . . . son i.i.d. con
98
EX1 = 1 · P (resulte “6”) + 0 · P (no resulte “6”) = 1/6.
Por (6.1.7), con probabilidad uno (cuando n → ∞), la frecuencia del “6”, Sn /n se
aproxima a 1/6 = P (resulte “6”). Se enfoca en este sentido la interpretación frecuentista
de la probabilidad: al repetir muchas veces “las pruebas” independientes (donde un evento
puede realizarse o no), la frecuencia del evento se aproxima a la probabilidad
de ese evento.
Ejemplo 6.4 Sean X1 , X2 , . . . v.a. i.i.d. con la densidad de Cauchy:
1
fX (x) = , x ∈ R. (6.1.11)
π(1 + x2 )
1/π
x
-c 0 c
Figura 6.2: Densidad de Cauchy.
Por la simetrı́a de esta densidad, se podrı́a pensar que Snn = X1 +X2n+···+Xn → 0, cuando
n → ∞ (cada sumando Xk , k = 1, 2, . . . , n tiene la misma posibilidad de ser positivo o
negativo). Sin embargo, (consulte el Ejercicio 3.2 (b))
Z ∞
dx
E|X1 | = |x| =∞,
−∞ π(1 + x2 )
y por (6.1.8) la sucesión {Sn /n, n = 1, 2, . . . } diverge con probabilidad uno. En particular,
se demuestra que:
Sn
P sup = ∞ = 1.

n>1 n
99
Ahora al usar el hecho de que:

Z ∞
fX (x)dx = el área bajo la gráfica de la densidad = 1,
−∞
seleccionemos c tal que,

Z
P (|X| > c) = fX (x)dx = el área resaltada en la Figura 6.2 = 10−1000 ,
|x|>c
e introducimos las v.a. X

e1 , X
e2 , . . . definidas de la forma:
(
Xek = Xk , si |Xk | 6 c, (6.1.12)
0, si |Xk | > c.
Las v.a. X e1 , X
e2 , . . . son i.i.d. (ya que son funciones de las v.a. i.i.d. X1 , X2 , . . . , vea
(2.1.8)) y debido a la Proposición 3.1, |EXk | 6 E|Xk | 6 Ec = c < ∞. Además, por si-
metrı́a, E X
ek = 0. Por lo tanto el teorema 6.1 inciso (a) se cumple para las v.a. X e1 , Xe2 , . . .
Sen Xe1 + · · · + X
en
con a = 0. Aplicando (6.1.7) se tiene que = → 0, cuando n → ∞ con
n n
probabilidad uno. Por (6.1.12) se obtiene que P (X ek 6= Xk ) = P (|Xk | > c) = 10−1000 , i.e.
las v.a. Xk y X ek son “prácticamente indistinguibles”.
A pesar de esto, el comportamiento asintótico (cuando el número de sumandos crece
Sn Sen
sin cota) de las v.a. (“promedios muestrales”) y son muy diferentes. Mientras que
n n
Sen Sn
→ 0 casi seguramente, la v.a. , como es posible demostrar, tiene la densidad de
n n
Cauchy (6.1.11) para toda n = 1, 2, 3 . . .
En particular,
Z 1
Sn Sn dx
P ∈
/ [−1, 1] = 1 − P ∈ [−1, 1] = 1 − 2
= 0.5.
n n −1 π(1 + x )
El Ejemplo 6.4 tiene un “valor teórico”. Sin embargo, en algunas aplicaciones de la

teorı́a de la probabilidad (por ejemplo, en fı́sica) a veces aparecen sucesiones de v.a. i.i.d
X1 , X2 , . . . , Xk , . . . , con E|X1 | = ∞. Para tales sucesiones la relación en (6.1.7) no se
cumple, i.e los promedios muestrales Snn NO convergen.
100
6.2. Primeras aplicaciones de la LFGN

En esta sección se trabajarán algunos ejemplos simples, pero ilustrativos sobre la
LFGN.
Ejemplo 6.5 (Ocurrencia “casi segura” de algunos eventos raros.)
Enumeremos los dı́as futuros, a partir de hoy, de forma que k = 1, 2, 3, . . . representa

cada dı́a. Consideremos un vuelo comercial: México D.F. - Nueva York, el cual se realiza
diariamente. Para cada dı́a futuro, k = 1, 2, 3, . . . , introducimos las v.a., Bernoulli, i.i.d.
X1 , X2 , X3 , , . . . , Xk , . . . tales que:
(
1, si en el k-ésimo dı́a ocurre alguna catástrofe con el vuelo,
Xk =
0, si se realiza un vuelo seguro.
Con base en datos estadı́sticos referentes a catástrofes de aviones comerciales se sabe que
p = P (de una catástrofe en un vuelo comercial) = P (Xk = 1) ≈ 9 · 10−8

(que desafortunadamente es mayor que cero). Por otro lado, la probabilidad de morir en
un accidente automovilı́stico es aproximadamente de 2 · 10−4 , estos datos según el sitio en
internet “Airplane Disasters and Plane Crash Statistics”.
Como Sn = X1 + X2 + · · · + Xn representa el número de catástrofes en n dı́as, para los

vuelos D.F. - N.Y. mencionados; y a = EXk = p > 0, entonces por (6.1.7) se tiene que,
con probabilidad uno, Snn → p > 0, cuando n → ∞. Esto nos dice que casi seguramente
(con probabilidad 1) a partir de un n grande , Sn ≈ np > 0, es decir, Sn es estrictamen-
te positivo, lo cual nos dice que Sn tiene, al menos, un sumando igual a uno (Xk = 1),
i.e., en un futuro hay que esperar una catástrofe en dicha ruta. Para tranquilizar a los
usuarios potenciales, observemos que análogamente al Ejercicio 2.12, se establece que la
v.a. N := {el número de dı́as hasta la primera catástrofe} (en vuelos con ruta y horario
fijos) tiene la distribución Geom(p), por lo tanto, el tiempo promedio hasta la primera
catástrofe es EN = p1 ≈ 1.1 · 107 dı́as ≈ 30 mil años.
Veamos, por ejemplo, que P (la primera catástrofe occurra no antes de
P100 años) = Pk−1 (N >
36500) = 1 − P (N 6 36500) = (por (2.3.21) y (2.3.23)) = 1 − 36500 k=1 p (1 − p) =
1−(1−p)36500
1 − p 1−(1−p) = (1 − p)36500 ≈ 0.99672.
Finalmente se puede observar que argumentos como los de este ejemplo son “dema-
siado teóricos” y no están sustentados para ser utilizados como modelos adecuados de
procesos reales.
101
Ejemplo 6.6 (Casino.) Este ejemplo es de otro tipo en el cual la aplicación de la LFGN
refleja perfectamente los fenómenos reales que caracterizan a la mayorı́a de los juegos de
azar utilizados.
Los casinos, al igual que algunas empresas, existen y prosperan debido al hecho de que
cualquier juego que se ofrece al publico es injusto. Es decir, el resultado X de cualquier
apuesta de un jugador tiene esperanza negativa:
EX = a < 0. (6.2.13)
Imaginemos que un jugador repite sucesivamente las mismas apuestas en algún juego en
un casino, entonces, su capital después de n apuestas será:
Cn = C0 + X1 + X2 + · · · + Xn = C0 + Sn ,
donde C0 es su capital inicial y X1 , X2 , . . . son v.a. i.i.d. que representan los resultados
(ganancia o pérdida) de cada apuesta. Supongamos que el jugador es una persona “per-
sistente”, es decir, sigue apostando si todavı́a tiene capital. Veamos que con probabilidad
uno, tarde o temprano el jugador deberá dejar de apostar debido a su ruina, i.e. a la ocu-
rrencia del evento {Cn < 0} (donde n puede ser un valor aleatorio). En efecto, puesto que
C0 Cn C0 Sn
→ 0 cuando n → ∞, de (6.1.7) se sigue que casi seguramente = + → a < 0,
n n n n
de lo que resulta que Cn < 0 a partir de un n.
Nota 6.4 Imaginemos que el jugador puede seguir jugando incluso después de su ruina
(obteniendo un préstamo, por ejemplo) y que, como en el Ejemplo 8.3 del Capı́tulo 8,
repite sus apuestas de 5 dólares porp“rojo” en la ruleta americana (véase Ejercicio 6.6).
Entonces, a = EXk = −5/19, σ = V ar(Xk ) ≈5.
Por el Teorema Central del Lı́mite (Capı́tulo 8) y la “ regla 3σ” (véase la Figura 3.6),
obtenemos que para la ganancia-pérdida Sn , en n apuestas con un n “bastante grande”,
se cumple que P (−3σ 6 Sn√−nan
6 3σ) ≈ 0.9974, o bien,
√ √
P na − 3σ n 6 Sn 6 na + 3σ n ≈ 0.9974. (6.2.14)
Por ejemplo, para n = 202 = 400 y de (6.2.14):
P (−405.3 6 Sn 6 194.7) ≈ 0.9974.
Además, según (6.2.14), para n grande la deuda del jugador crece con velocidad: −na ±
√ 5 15
3σ n = n( ± √ ). Para n = 10000, con probabilidad cercana a 0.8384, la deuda
19 n
está en el intervalo [−3632, −1632].
102
Ejemplo 6.7 (Estimación estadı́stica de un parámetro desconocido en una distribución.)

(a) Supongamos que un productor de cierta fábrica de focos eléctricos sabe (por expe-
riencia anterior) que la duración del funcionamiento (hasta fundirse) de un foco es
la v.a. T con la siguiente distribución de Weibull:
( 2
1 − e−λx , x > 0,
FT (x) =
0 x 6 0.
Sin embargo, el fabricante desconoce el valor del parámetro λ > 0. Para estimar-
lo, hace un experimento en el cual pone a prueba n focos y observa sus respectivos
tiempos de funcionamiento T1 , T2 , . . . , Tn , que pueden considerarse (con una apro-
piada realización del experimento) variables aleatorias i.i.d. con distribución común
FT . De (6.1.7) y (3.3.31) se tiene que para toda n “suficientemente grande”, con
probabilidad 1, se cumple la siguiente aproximación:
T1 + T2 + · · · + Tn 1 π 12
≈ ET1 = , (6.2.15)
n 2 λ
Sn π 12
o bien (Sn := T1 +T2 +· · ·+Tn ), 2 ≈ . Finalmente (puesto que las funciones
n λ
g1 (x) = x2 y g2 (x) = x1 , x > 0 son continuas) al resolver (6.2.15) se obtiene que:
π n2
λ≈ .
4 Sn2
Por lo tanto, la parte derecha de la última aproximación (que es función de da-

tos observados T1 , T2 , . . . , Tn ) sirve como estimación estadı́stica del parámetro
desconocido λ.
(b) Imaginemos que se observan n valores X1 , X2 , . . . , Xn i.i.d. de la v.a. N orm(0, σ),
y que el valor de la desviación estándar σ es desconocido.
De (2.1.8), las v.a. X12 , X22 , . . . , Xn2 son i.i.d. y por LFGN (6.1.7) , para n grande,
con probabilidad 1 se tiene que,
X12 + X22 + · · · + Xn2
≈ E(Xk2 ) = V ar(Xk ) = σ 2 .
n
√
Por lo tanto, puesto que x es una función continua, se tiene que:
r
X12 + X22 + · · · + Xn2
σ≈ .
n
103
Ejemplo 6.8 (Ruina, con probabilidad 1, en el modelo de riesgo de Cramér-Lundberg,

cuando no se cumple la condición del beneficio neto.)
En el Capı́tulo 4 la condición γ > aλ (4.4.33) expresa el hecho de que la ganancia γ

por recaudación de primas es mayor al gasto promedio por cobertura de reclamaciones.
Supongamos ahora, que γ < aλ y reescribamos la ecuación (4.4.29) como sigue sumando
y restando − γ Nλ(t) :

XN (t) h
N (t) γi
X(t) = x + γ t − − ξn − . (6.2.16)
λ n=1
λ
Por el Ejercicio 4.13 sabemos que Nt(t) → λ, cuando t → ∞ con probabilidad 1, de lo cual
resulta que N (t) → ∞; y para cualquier ε > 0 (pequeña) y para toda t suficientemente
grande se tiene que:

N (t) N (t) 6 εt.

t − λ 6 ε, o bien, t −
λ λ
γ γ
Por otro lado, para Yn := ξn − λ
se tiene que EYn = a − λ
> 0, y como consecuencia
de (6.1.7),
N (t)
1 X γ
Yn → b := a − > 0.
N (t) n=1 λ
N (t)
X γ
Entonces, para t grande en (6.2.16), [ξn − ] se comporta como bN (t) ≈ bt. Pero como
n=1
λ
t
bt → ∞ crece más rápido que ε λ → ∞ (ya que ε puede ser escogido con un valor muy
cercano a cero). Es por esto que en (6.2.16) con probabilidad uno,
XN (t) h
N (t) γi
X(t) := γ t −
e − ξn − → −∞,
λ n=1
λ
y consecuentemente para toda t suficientemente grande, X(t) e < x, o bien en (6.2.16)

X(t) < 0, lo que significa la ruina de la compañı́a (con probabilidad 1).
104
6.3. Un modelo simplificado de optimización de in-

versiones
Al comparar con algunos modelos de optimización de inversiones considerados en la
matemática financiera (véase, por ejemplo Korn & Korn (2001)), el modelo de esta sec-
ción está extremadamente simplificado hasta el punto en que nos permite valernos sólo
de cálculos sencillos, aunque todavı́a nos permite ver algunas propiedades caracterı́sticas
de los modelos más realistas y sofisticados. Primero, se verá una versión de LFGN (6.1.7)
para productos de v.a. i.i.d. positivas.
Proposición 6.1 Sean X1 , X2 , . . . v.a. positivas i.i.d. para las cuales existe (y es finita)
b := Eg X1 (= Eg X2 = Eg X3 = . . . ). Entonces, con probabilidad 1,
1/n
X1 · X2 · . . . · Xn → b, cuando n → ∞. (6.3.17)
Para demostrar (6.3.17) es suficiente tomar el logaritmo y usar (6.1.7) y (5.1.1).
Ejemplo 6.9 Sean X1 , X2 , . . . v.a. i.i.d. con la distribución U (0, 1). Como E ln(X1 ) =
Z 1
ln(x)dx = −1, entonces [X1 · X2 · . . . · Xn ]1/n → 1/e, cuando n → ∞.
0
De aquı́, es casi seguro que Yn := X1 · X2 · . . . · Xn es del orden (1/e)n → 0, por lo

tanto Yn → 0.
Ahora se describirá el modelo simplificado de optimización de inversiones. Se medirá el

tiempo en años, indicándolo con t = 0, 1, 2, . . .
Al principio de un año (t = 0) una persona tiene un capital inicial Y0 > 0 y planea

usarlo dividiendo Y0 en dos tipos de inversiones:
- La “no riesgosa”(como un depósito en el banco), donde por cada peso invertido
obtendrá al final del año α > 1 pesos;
- La “riesgosa”(como comprar acciones), donde por cada peso invertido resulta al fi-
nal del año la cantidad aleatoria X1 > 0 (que es ganancia si X1 > 1 o es pérdida si
X1 < 1).
105
6.3. Un modelo simplificado de optimización de inversiones
Supongamos que el inversionista escoge cierto número q ∈ [0, 1] (un parámetro “con-
trolable”) y gasta qY0 por la inversión no riesgosa y (1 − q)Y0 por la riesgosa. Entonces al
final del año (o al principio del siguiente (t = 1)) su capital (aleatorio) será:
Y1 = αqY0 + X1 (1 − q)Y0 = Y0 [qα + (1 − q)X1 ]. (6.3.18)
Al principio del siguiente año (t = 1) el inversionista usa el mismo valor de q para

ahora repartir la cantidad Y1 en los dos tipos de inversión y por lo tanto al inicio del año
t = 2 su capital será:
Y2 = Y1 [qα + (1 − q)X2 ] = Y0 [qα + (1 − q)X1 ][qα + (1 − q)X2 ], (6.3.19)
donde X2 es la v.a. que representa el movimiento de precios de acciones en el segundo

año (se supone que α permanece constante en todos los años).
Suponiendo que el inversionista maneja su capital de la misma forma en los años

t = 2, 3, . . . , por (6.3.18) y (6.3.19) se tendrá que al principio del t − ésimo año su capital
será:
Yt
Yt = Y0 [qα + (1 − q)Xk ], t = 1, 2, . . . . (6.3.20)
k=1
Suposición 6.3.1 (a) Las v.a. X1 , X2 , . . . son i.i.d. con valores positivos;
(b) La esperanza a = EXk existe y es finita, y además
a > α > 1; (6.3.21)
(i.e. en promedio la inversión riesgosa es más lucrativa, lo que normalmente se cumple

en el mercado financiero).
La idea general del problema de optimización de inversiones en este modelo es la elec-

ción de una “q”que provoque un crecimiento más rápido de Yt cuando t aumente.
La aleatoriedad de Yt no nos permite hacer esto para todas las trayectorias de Yt si-
multáneamente. Es por esto que se necesita un criterio de optimización “promedio”que se
pueda escoger de diferentes maneras. Veamos los siguientes dos planteamientos.
Pl. I ≡ Planteamiento I. (Maximización del capital promedio EYt ).
106
Por (6.3.20) y el Teorema 3.1:
t
Y
EYt = Y0 [qα + (1 − q)EXk ] = Y0 [qα + (1 − q)a]t . (6.3.22)
k=1
Puesto que para t = 1, 2, . . . la función g(x) = xt con x > 0 es creciente, el máximo de la

esperanza en (6.3.22) (¡para cada t = 1, 2, . . . !) se alcanza en un punto donde la función
lineal ψ(q) := qα + (1 − q)a, q ∈ [0, 1] es máxima. La gráfica de ψ(q) es la Figura 6.3 que,
por (6.3.21), es una función decreciente.
y
y(q)
a
a
q
0 1
Figura 6.3: Gráfica de ψ(q).
El parámetro óptimo, en el sentido del Pl.I, resulta de elegir q = q0 = 0, o bien, usar

todo el capital en una inversión riesgosa. Al usar q0 = 0, por (6.3.22) se tiene:
EYt = Y0 at , t = 1, 2, . . . , (6.3.23)
lo que garantiza el crecimiento exponencial (con el máximo exponente posible) de la ri-

queza promedio. Veamos que en algunas situaciones dicha polı́tica de inversión podrı́a
ser demasiado “riesgosa”, y en realidad, para t suficientemente grande sucederá la ruina
del inversionista.
Consideremos, por ejemplo:

(
3, con probabilidad 0.9,
X1 = −12
(6.3.24)
10 , con probabilidad 0.1.
(El último valor, prácticamente representa la anulación del precio de las acciones, pero
en el modelo estudiado Xk debe ser estrictamente positivo.) Entonces, en promedio, los
107
precios aumentan el valor de a = EX1 ≈ 2.7 que es mucho mayor que α ≈ 1.02 − 1.1 y
por (6.3.23) se obtiene:
EYt = Y0 (2.7)t (↑ ∞, cuando t → ∞). (6.3.25)
Por ejemplo, con Y0 = 1000 y t = 50,
EY50 ≈ 3.69988 · 1024 pesos ≈ 3.7 cuatrillones. (6.3.26)
Por otro lado, con q = q0 = 0 en (6.3.20), se obtiene:

t
Y
Yt = Y0 Xk , t = 1, 2, 3, . . . (6.3.27)
k=1
De (6.3.27) y de la Proposición 6.1 se tiene que cuando t → ∞, con probabilidad 1,
(Y0 )−1/t (Yt )1/t → Eg X1 = (por (5.1.1) y (3.1.8)) = exp{0.9 ln 3 + 0.1 ln(10−12 )}
≈ e−1.77435 ≈ 0.16959. (6.3.28)
Luego, ln(Y0 )−1/t = − 1t ln Y0 → 0 cuando t → ∞, por lo tanto, (Y0 )−1/t → 1. Al elegir

entonces una ε > 0 (pequeña) y de (6.3.28) se tiene que con probabilidad 1, para toda t su-
ficientemente grande (Yt )1/t 6 0.16959+ε, o bien, Yt 6 (0.16959+ε)t → 0 cuando t → ∞.
Consecuentemente, por (6.3.25) el capital promedio EYt crece sin cota, mientras
que el capital “real” Yt con probabilidad 1 se anula cuando t → ∞.
Esto último nos refiere a la ruina del inversionista (que se da de forma asintótica). Es
claro que ésto se debe a la ocasional (con probabilidad 0.1) aparición en (6.3.27) del valor
de Xk igual a 10−12 (véase (6.3.24)).
Estimaremos ahora los valores de Y50 y sus probabilidades. Podrı́a parecer práctico
elevar la expresión (6.3.28) a la potencia t para tratar de obtener Y50 ≈ Y0 (0.16959)50 .
Sin embargo, al hacerlo aumentarı́amos considerablemente el error de la aproximación en
(6.3.28) y no se obtendrı́a un resultado confiable.
Sean t = 50 y N el número de apariciones del valor 10−12 entre las v.a. X1 , X2 , . . . , X50 .
Es claro que N ∼ Bin(n = 50, p = 0.1), (véase (6.3.24)). Entonces (consulte el Ejemplo
1.4(a)):
1. P (N = 0) = (1 − p)n ≈ 0.0051538, con esa probabilidad y por (6.3.27) (con Y0 =
1000) Y50 = Y0 · 350 ≈ 7.17898 · 1026 pesos. (¡Un montón de dinero!)
108
2. P (N = 1) = n p (1 − p)n−1 ≈ 0.028632 y con esa probabilidad

Y50 = Y0 · 349 · 10−12 ≈ 2.39299 · 1014 pesos.
3. P (N = 2) = n(n−1)
2
p2 (1 − p)n−2 ≈ 0.077943 y con esa probabilidad
48 −12 2
Y50 = Y0 · 3 · (10 ) ≈ 79.7664 pesos.
4. P (N > 3) = 1−P (N = 0)−P (N = 1)−P (N = 2) ≈ 0.88827 y con esa probabilidad

Y50 6 Y0 · 347 · (10−12 )3 ≈ 2.65888 · 10−11 = 0 pesos.
Por lo tanto, en casi el 89 % de los casos el inversionista se arruinará completamente en

el transcurso de 50 años y aproximadamente en el 97 % de los casos, el inversionista va
a perder casi todo su capital inicial. Se recomienda comparar este resultado con (6.3.26),
(6.3.37) y (6.3.38).
Pl. II ≡ Planteamiento II. (Maximización de la esperanza geométrica Eg Yt de los

capitales o el uso de utilidad logarı́tmica.)
De (6.3.20) se obtiene que:
( t
!)
Y
Eg Yt = exp E ln Y0 [qα + (1 − q)Xk ]
k=1
( t
)
X
= exp ln Y0 + E ln[qα + (1 − q)Xk ]
k=1
= Y0 exp{tE ln[aα + (1 − q)X1 ]},
puesto que X1 , X2 , . . . tienen la misma distribución, es decir:
Eg Yt = Y0 exp{tE ln[qα + (1 − q)X1 ]}. (6.3.29)

Como f (x) = etx es una función creciente, para encontrar máxq Eg Yt es suficiente
buscar:
máx{E ln[qα + (1 − q)X1 ]}. (6.3.30)
q
Suposición 6.3.2
1
E < ∞. (6.3.31)
X12
Como sugiere la solución del Ejercicio 6.14, las condiciones (6.3.21) y (6.3.31) garanti-
zan que E| ln[qα + (1 − q)X1 ]| < ∞, q ∈ [0, 1] (i.e. las esperanzas involucradas en (6.3.29)
109
m j(q)
q
0 q* 1
Figura 6.4: Gráfica de ϕ(q).
y (6.3.30) existen) y la función ϕ(q) := E ln[qα + (1 − q)X1 ], q ∈ [0, 1] tiene segunda

derivada negativa como se muestra en la Figura 6.4
Entonces existe un único q∗ ∈ [0, 1] para el cual la función ϕ(q) alcanza el máximo
global en [0, 1] y como ϕ(1) = ln α > 0, se tiene que,
µ := ϕ(q∗ ) = máx E ln[qα + (1 − q)X1 ] > 0. (6.3.32)
q∈[0,1]
¿Cuáles serán los resultados al usar q∗ en el procedimiento de inversión?
Al sustituir q∗ en (6.3.20) y al aplicar la Proposición 6.1 obtenemos (véase (6.3.29) y

(6.3.32)) que cuando t → ∞, con probabilidad 1
−1/t 1/t
Y0 Yt → Eg [q∗ α + (1 − q∗ )X1 ] = eµ , con µ > 0. (6.3.33)
Nuevamente, al elegir una ε > 0 suficientemente pequeña, de forma que µ−ε > 0, y por
(6.3.33) obtenemos que para toda t suficientemente grande, se tiene que con probabilidad
1, (Yt )1/t > eµ e−ε = eµ−ε , o bien,
Yt > e(µ−ε)t → ∞, cuando t → ∞. (6.3.34)

Además, debido a (6.3.32) la tasa de crecimiento de los capitales en (6.3.33) y
(6.3.34) es la máxima entre todas las posibles.
Ahora bien, calculando la esperanza de (6.3.20) con q = q∗ y tomando en cuenta que

por (6.3.21)
q∗ α + (1 − q∗ )a := λ > 1, (6.3.35)
tendremos el siguiente crecimiento exponencial para capitales promedio (al usar q∗ para
las inversiones planeadas),
EYt = Y0 λt → ∞, cuando t → ∞. (6.3.36)
110
Regresemos al ejemplo donde la distribución de precios es la dada en (6.3.24). Fijemos,

por ejemplo, el valor α = 1.05 (el 5 % de la tasa anual). Por (3.1.8) se tendrá que:
ϕ(q) = E ln[qα + (1 − q)X1 ] = 0.9 ln[1.05q + 3(1 − q)] + 0.1 ln[1.05q + 10−12 (1 − q)].
Al resolver la ecuación ϕ0 (q) = 0 (consulte el Ejercicio 6.15), se obtiene que en (6.3.32)

q∗ ≈ 0.15385 y µ = 0.71163; y en (6.3.35) λ ≈ 2.44615. El valor q∗ = 0.15385 significa
que la polı́tica de inversión correspondiente sugiere depositar alrededor del 15 % del ca-
pital corriente en una cuenta bancaria (es decir, hacer una inversión “no riesgosa”). En
ese sentido q∗ es una polı́tica “precavida”que no ignora grandes descensos de precios en
el mercado de acciones.
Por (6.3.36) se tiene que si Y0 = 1000, entonces EY50 ≈ 2.65555 · 1022 , que es me-
nor comparado con el valor promedio de (6.3.26) (cuando se aplicó la polı́tica riesgosa
q = q0 = 0).
Veamos ahora qué valores reales toma la v.a Y50 (el capital real después de 50 años)
en el ejemplo ya mencionado, al aplicar la polı́tica q∗ = 0.15385. Al igual que en los
cálculos anteriores, sea N el número (aleatorio)Qde apariciones del valor Xk = 10−12 entre
las v.a. X1 , X2 , . . . , X50 . Por (6.3.20) Y50 = Y0 50
k=1 [q∗ α + (1 − q∗ )Xk ], donde:
(
2.69999 si Xk = 3,
q∗ α + (1 − q∗ )Xk ≈
0.16154 si Xk = 10−12 .
De acuerdo a los cálculos anteriores:
1. Y50 = 1000(2.69999)50 ≈ 3.69920 · 1024 con probabilidad 0.0051538 (N = 0);
2. Y50 = 1000(2.69999)49 · 0.16154 ≈ 2.21323 · 1023 con probabilidad 0.028632 (N = 1);
3. Y50 = 103 (2.69999)48 (0.16154)2 ≈ 1.32417 · 1022 con probabilidad 0.077943 (N = 2).
Luego, de acuerdo a la LFGN (6.1.7), el cociente N/50 no debe diferir mucho de

p = P (Xk = 10−12 ) = 0.1. Entonces, los valores más probables para N están alrededor de
0.1 · 50 = 5 (o bien, 2, 3, 4, 5, 6, 7, 8). Para valores de este rango se obtiene:
(a) Para N = 5,
Y50 = 1000(2.69999)45 (0.16154)5 ≈ 2.83594 · 1018 ; (6.3.37)
111
(b) Para N = 8,
Y50 = 1000(2.69999)42 (0.16154)8 ≈ 6.07367 · 1014 ; (6.3.38)
(≈ 600 billones de pesos).
Finalmente, utilizando la distribución Bin(n = 50, p = 0.1) es fácil calcular P (N > 8),
la cual resulta muy cercana a cero.
Comparando las polı́ticas de inversión al usar q0 = 0 y q∗ > 0 se puede observar que

cuando la variación de los costos de valores es tan grande como en (6.3.24) (con una
disminución no muy probable, pero que casi es cero), la polı́tica de inversión q0 = 0 que
maximiza el promedio del capital, es “demasiado riesgosa”. El decrecimiento del capital,
hasta la ruina, se explica con el hecho siguiente: con q = q0 = 0, (6.3.20) se convierte
en (6.3.27) y este producto disminuye drásticamente cuando aparecen uno o más factores
Xk iguales a 10−12 (véase (6.3.24)). Por otro lado, de la aplicación de la polı́tica q∗ que
optimiza la esperanza geométrica del capital resulta que los factores en (6.3.20) sean muy
diferentes de cero en situaciones crı́ticas (por el depósito hecho en el banco). Es decir, se
trata de una polı́tica “cuidadosa”que ayuda a evitar los factores muy cercanos a cero en
la ecuación (6.3.20).
La siguiente nota aclara el porqué el Planteamiento II se reduce al uso de la función

de utilidad logarı́tmica en la búsqueda de la polı́tica óptima q∗ .
Nota 6.5 Al utilizar un valor q ∈ [0, 1] para realizar el proceso de inversión descrito
arriba, el término G := qα + (1 − q)Xk representa la ganancia (si G > 1) o la pérdida
(si G < 1) durante un año por cada peso invertido. En el Pl.I se busca máxq EG (véase
(6.3.22)) y en el Pl.II, máxq E ln(G) (véanse (6.3.30) y (6.3.32)). Esto significa que en el
segundo caso se usa la función de utilidad: f (x) = ln x. Es decir, el “valor real” de la
ganancia de x pesos se estima no como x, sino como ln x.
Sobre las diferentes aplicaciones en economı́a de las funciones de utilidad de este tipo
se pueden consultar en Rolski et al (1999).
Comentemos ahora algo sobre los modelos más serios de inversiones óptimas que se
usan en matemática financiera moderna (véase, por ejemplo, Korn & Korn (2001)). En
la mayorı́a de los libros y los artı́culos la evolución del mercado y de las inversiones del
capital se consideran con un tiempo t continuo (en particular, para hacer uso de la teorı́a
muy bien desarrollada de ecuaciones diferenciales estocásticas). Para modelos con tiempo
discreto t = 0, 1, 2, . . . , la generalización de nuestro “modelo” se realiza en las siguientes
direcciones:
112
1. Se toma en cuenta el uso de una parte del capital por consumo.
2. Se considera más de una inversión riesgosa (i.e., por ejemplo, se adquieren acciones
de diferentes tipos).
3. En cada instante actual t, la polı́tica de inversiones (de control de recursos) puede,

en general, depender de t, del estado actual del capital y de todos los estados y
controles anteriores.
4. La validez del capital se estima medinate una función de utilidad más o menos
arbitraria.
5. Se introduce el coeficiente de descuento β, 0 < β < 1, para tomar en cuenta la

devaluación de la moneda en el transcurso del tiempo.
En un modelo de este tipo, la polı́tica de inversión (o de inversión-consumo) es una

sucesión de vectores: π = {q 0 , q 1 , . . . , q t , . . . }, donde el control en la etapa t:
(1) (2) (m)
q t = (ct , qt , qt , qt , . . . , qt ), (6.3.39)
en general, puede depender del tiempo, del capital actual Yt−1 y de inversiones y capitales
anteriores. En (6.3.39), ct (0 6 ct 6 Yt−1 ) es el consumo en el periodo t, qt (Yt−1 − ct ) es
(1) (2)
la parte del capital con que se hizo una inversión no riesgosa y qt (Yt−1 − ct ), qt (Yt−1 −
(m)
ct ), . . . , qt (Yt−1 − ct ) son las reparticiones entre m inversiones riesgosas (tales que qt +
Pm (j)
j=1 qt = 1).
En nuestro “modelo” el movimiento de capitales (6.3.20) se puede reescribir como

sigue: Yt = Yt−1 [qα + (1 − q)Xt ], t = 1, 2, . . . En algunos modelos más generales (véase
por ejemplo Gordienko et al (2008)) las ecuaciones que describen la dinámica del capital
Yt , t > 0 tienen una estructura parecida a:
h m
X i
(j) (j)
Yt = (Yt−1 − ct ) qt αt + qt Xt , t = 1, 2, . . . (6.3.40)
j=1
Un problema tı́pico de optimización de inversión-consumo (con el horizonte del tiem-

po infinito) es el siguiente problema de búsqueda de una polı́tica π∗ óptima (entre otras
polı́ticas π de inversión-consumo) que proporcione el valor máximo del consumo pro-
medio descontado:
∞
X
C(π, Y0 ) := β t−1 Eu(ct ). (6.3.41)
t=1
113
En (6.3.41) se tiene el “consumo” en el sentido generalizado, reestimando ct mediante

una función de utilidad u dada.
(1)
Se sabe1 que si u(c) = c0 · cγ (0 < γ < 1, α < β1 ) y E[X1 ]γ < β1 (considerando en
(6.3.40) m = 1 y αt = α =constante), entonces la polı́tica óptima π∗ , i.e. la polı́tica tal que
C(π∗ , Y0 ) = máxπ C(π, Y0 ) tiene una estructura muy simple. En otras palabras, existen (y
se pueden encontrar) los valores r∗ ∈ [0, 1] y q∗ ∈ [0, 1] tales que π∗ = {q ∗ , q ∗ , . . . }, donde
q ∗ = {r∗ Y ; q∗ ; 1 − q∗ }. O bien, las decisiones sobre inversión-consumo en el instante t no
dependen de t y tampoco de inversiones anteriores a t − 1. Esa polı́tica (óptima) sugiere,
en los periodos t = 1, 2, . . . , gastar por consumo una proporción fija r∗ Yt−1 de Yt−1 , y al
capital restante Yt−1 − r∗ Yt−1 repartirlo en dos tipos de inversión: determinar la cantidad
de q∗ Yt−1 (1 − r∗ ) en una inversión “no riesgosa” y poner la cantidad de (1 − q∗ )Yt−1 (1 − r∗ )
en la inversión riesgosa.
Obsérvese que, con excepción de la presencia del consumo, la estructura descrita en

la polı́tica óptima conlleva al regreso del modelo simplificado (6.3.20), si en lugar de
considerar las utilidades u(y) = y y u(y) = ln(y) se usa la utilidad u(y) = c0 y γ .
1
Puede consultarse Korn & Korn (2001) para el modelo similar con tiempo continuo.
114
6.4. EJERCICIOS
6.1 Sean X1 , X2 , . . . v.a. i.i.d. con distribución Bernoulli con p = 1/2 (modelo de los
lanzamientos sucesivos de una moneda simétrica, véase el Ejemplo 6.1). Muestre
que:
(a) P (Sn /n → 1/2) = 1;
√
(b) P (Sn /n = 1/2) ≈ 1/ 2πn → 0, cuando n → ∞.
Sugerencia:
√ Para (b) use el Ejemplo 1.4 (b) y la fórmula de Stirling: n! ∼
n
2πn (n/e) , cuando n → ∞.
6.2 Al considerar los valores X1 , X2 , . . . , Xn de v.a. i.i.d.con la f.d. FX , se define la f.d.
1
empı́rica: Fbn (x) := (# de Xk tales que Xk 6 x), x ∈ R.
n
(a) Para los valores de X1 , X2 , . . . , Xn fijos, trace la gráfica de Fbn (x), x ∈ R.
(b) Demuestre que para cada x ∈ R con probabilidad 1, Fbn (x) → FX (x), cuando
n → ∞. (Entonces, Fbn sirve como estimación estadı́stica de FX ).
6.3 Supongamos que Xn → 1 y Yn → 1 con probabilidad 1. Demostrar que Xn + Yn →
X + Y , Xn Yn → XY y g(Xn ) → g(X) con probabilidad 1, para cualquier función
continua g : R → R.
6.4 Encontrar una sucesión de v.a. X1 , X2 , . . . , Xn , . . . tal que Xn → 0 con probabilidad
1, pero EXn → ∞.
Sugerencia: Para n = 1, 2, 3, . . . defina: Xn = n2 I{X6 1 } , donde X ∼ U (0, 1) e
n
(
1, si X 6 n1 ,
I{X6 1 } =
n
0, si X > n1 .
6.5 Sea la v.a. X con la siguiente f.d.:

(
1 − x1 , x > 1,
FX (x) =
0, x < 1;
y sean Xn := (1+ Xn )n , n = 1, 2, . . . Dé un cálculo aproximado para P (X10000 > 10).

Sugerencia: Use el hecho de que (1 + nx )n → ex , x ∈ R, cuando n → ∞ para
demostrar que Xn → eX con probabilidad 1.
Resp.: ≈ 1/ ln(10) ≈ 0.43429.
115
6.4. Ejercicios
6.6 (Ruleta americana) La ruleta americana está dividida en 38 sectores iguales de

los cuales 18 son rojos, 18 negros y 2 verdes. En un juego, la ruleta se empuja y ello
la hace girar muchas veces; a su vez una bola pequeña se mueve sobre la ruleta y
ésta cae sobre algún sector, cuando la ruleta se detiene. Dicha bola tiene la misma
probabilidad (1/38) de caer en cada sector. El hecho de apostar x > 0 dólares por
“rojo” significa que el jugador gana x dólares si “sale” rojo y pierde x dólares en
caso contrario.
Una persona intenta “ganar” en la ruleta americana aplicando la siguiente estra-

tegia: la persona primero observa, sin apostar, y cuando nota que han ocurrido 6
apariciones seguidas de sectores negros, apuesta por “rojo” en el próximo juego. La
persona considera que debido a la LFGN esta estrategia aumentará la probabilidad
de que salga un sector rojo, en comparación con la probabilidad 18/38. Explicar
por qué la argumentación de dicha persona es falsa. (véase también el siguiente
ejercicio.)
Nota 6.6 Es interesante notar que el famoso novelista E. A. Poe en su novela “‘El
misterio de Marie Rogêt” haya presentado argumentos falsos sobre “la dependencia
del pasado” al igual que la persona del ejercicio anterior (aunque en diferentes
circunstancias).
Nota 6.7 Para las v.a. X1 , X2 , . . . i.i.d del Ejemplo 6.1 (los lanzamientos sucesivos
X 1 + X2 + · · · + Xn #de salidas de “águila” 1
de una moneda), ≡ → con probabi-
n n 2
lidad 1 debido a (6.1.7). Al razonar esto un poco, se observa que la diferencia entre
el número de águilas y el número de soles que resultan es relativamente menor
comparada con el número de lanzamientos n. Esto no prohibe que haya grandes
diferencias entre tales cantidades y de hecho, por el contrario, existe la probabilidad
positiva de series de salidas de águila de cualquier longitud.
6.7 Con los datos del Ejemplo 6.1, calcular P (X1001 = 1 |X1 = 0, X2 = 0, . . . , X1000 =
0).
6.8 Sean X1 , X2 , . . . , Xn v.a. i.i.d. (observaciones de algún experimento estadı́stico) con

la distribución U (−c, c), donde el parámetro c es desconocido. Encontrar la estima-
ción estadı́stica de c, es decir, hallar funciones gn tales que gn (X1 , X2 , . . . , Xn ) → c,
cuando n → ∞, con probabilidad 1.
6.9 Para cada n dado, sean los valores X1 , X2 , . . . Xn de v.a. i.i.d. con la densidad de
Cauchy como en (6.1.11). Para cada x ∈ R fija, se define L(x) := {#deXi : tal
116
que Xi 6 x, i = 1, 2 . . . , n}. Para números pares n = 2k, k = 1, 2, . . . se define la

mediana muestral de la forma: m b n := mı́n{x ∈ R : tal que L(x) = n2 }. Proponer
argumentos (no necesariamente formales) que muestren que cuando n → ∞, m bn → 0
con probabilidad 1. (Comparar con el Ejemplo 6.4 y consultar la Figura 6.2).
Sugerencia: Para cualquier ε > 0, P (existe alguna m tal que Xm ∈ (−ε, ε)) =
1 − P (XR1 ∈/ (−ε, ε), X2 ∈/ (−ε, ε), . . . , Xn ∈
/ (−ε, / (−ε, ε))]n =
ε)) = 1 − [P (X1 ∈
ε dx n
R ε dx
1 − [1 − −ε π (1+x)2] = 1 − γεn , donde γε = 1 − −ε π (1+x) 2 < 1.
6.10 (Método de Monte Carlo.) Sean X1 , X2 , . . . v.a. i.i.d. con la distribución U (0, 1)
y g : [0, 1] → R una función integrable.
(a) Demostrar que con probabilidad 1,

1
g(X1 ) + g(X2 ) + · · · + g(Xn )
Z
→ g(x) dx, cuando n → ∞. (6.4.42)
n 0

(b) Considere la función g(x) = sen(5000 π x), x ∈ [0, 1] con
Z 1
2
g(x) dx = ≈ 0.6366197724. (6.4.43)
0 π
R1
Aproximar para n = 20, 21, 5000, 9999 y 10000 la integral 0 g(x) dx de (6.4.43),
de dos maneras. Por un lado utilizando (6.4.42) y por otro lado usando la apro-
Z 1 X n
ximación por sumas de Riemann: g(x)dx = g(xi ) ∆xi , ∆xi = 1/n.
0 i=1
Sugerencia: Para el inciso (b) usar una computadora y en particular hacer una
simulación de las v.a. con la distribución U (0, 1).
n Por sumas de Riemann Por Monte Carlo (6.4.42)

20 0.0000000166 0.6169580261
21 0.6354320279 0.6260877488
Resp.: (b)
5000 0.0000035789 0.6411273218
9999 0.6366196870 0.6345035685
10000 0.5000042056 0.6353294368.
Nota 6.8 Cabe mencionar que cuando se tiene una función integrable g la cual
es muy oscilante (o “muy irregular”) el método del cálculo de integrales mediante
sumas de Riemann es extremadamente sensible a la elección del paso ∆x = 1/n,
117
6.4. Ejercicios
(como se puede notar en la tabla de arriba en las aproximaciones con n = 20 y n = 21

o con n = 9999 y n = 10000). Por otro lado como, en particular, se observa en la
tabla de arriba el método estocástico de Monte Carlo no es sensible (es “robusto”)
a las irregularidades de funciones integrables.
6.11 Para el Ejemplo 6.6, usando C0 = 100 y Xk , k = 1, 2, 3, . . . como en la Nota 6.4,

hacer las simulaciones (en computadora) de varias trayectorias del capital Cn con
n = 1, 2, . . . , 10000. A partir de los resultados obtenidos de la simulación (después
de suficientes repeticiones) utilizando promedios muestrales y la LFGN estimar el
tiempo promedio hasta la ocurrencia de la ruina del jugador.
∞
X ξk (X)
6.12 Sea X ∼ U (0, 1) y X = k
su desarrollo decimal (el cual para valores
k=1
10
racionales de X se usa la versión del desarrollo con sólo un número finito del dı́gito
“9”). Demostrar que para cada i ∈ {0, 1, 2, . . . , 9},
# de veces que aparece el dı́gito i entre ξ1 (X), ξ2 (X), . . . , ξn (X) 1
→ ,
n 10
cuando n → ∞, con probabilidad 1.
Sugerencia: Aunque es largo, no es difı́cil demostrar que ξ1 (X), ξ2 (X), . . . son v.a.
i.i.d. con la distribución uniforme discreta en {0, 1, 2, . . . , 9}. Aplique la LFGN.
6.13 Sean X1 , X2 , . . . v.a. i.i.d. con la siguiente densidad:
 1 , 1 6 x 6 2,

fX1 (x) = ln(2)x

0, x∈ / [1, 2],

y Yn := X1 · X2 · · · Xn , n = 1, 2, . . .
(a) Demostrar que existe una constante c > 0 tal que (Yn )5/n → c cuando n → ∞
con probabilidad 1.
(b) Encontrar el valor de c.
Resp.: (b) c = 25/2 ≈ 5.65685.
6.14 Demostar que en el modelo de inversión de la Sección 6.3, bajo las condiciones
(6.3.21) y (6.3.31) se cumple que:

(a) E ln[qα + (1 − q)X1 ] < ∞, q ∈ [0, 1];
118
(b) la función
ϕ(q) := E ln[qα + (1 − q)X1 ], (6.4.44)
q ∈ [0, 1] tiene la segunda derivada estrictamente negativa.
Sugerencias:
(a) Verificar (por ejemplo, trazando las gráficas) que


x, x > 1,


ln(x) 6 (6.4.45)
 1 , 0 < x < 1.

x
(b) Usar (6.4.45) y (6.3.31) y verificar que la esperanza del valor absoluto de la
d2 00
segunda derivada dq 2 {ln[qα + (1 − q)X1 ]} es finita. Eso permite hallar ϕ (q)
derivando bajo el signo de la esperanza en (6.4.44).
6.15 Para el modelo de inversión de la Sección 6.3 con X1 dado en (6.3.24) y α = 1.05,
demostrar que el máximo en (6.3.30) se alcanza con q∗ ≈ 0.15385.
Sugerencia: Use (3.1.8), calcule ϕ(q) en (6.4.44) y después su derivada.
6.16 Sean η1 , η2 , . . . v.a. i.i.d. con la distribución N orm(0, 1). Para los vectores aleatorios
X n = (η1 , η2 , . . . , ηn ) demuestre que con probabilidad 1,
|X n |
√ → 1, cuando n → ∞, (6.4.46)
n
p
donde |X n | := η12 + η22 + · · · + ηn2 .
Nota 6.9 En (6.4.46) se observa que para grandes

√ n los valores del vector Xn están
concentrados en un anillo estrecho de radio n. Al parecer, esto contradice a la
intuición porque la densidad conjunta de (η1 , η2 , . . . , ηn ), por independencia (véase
(1.2.13) y (2.1.7)) es,
1 x2 +x2 +···+x2
n
− 1 22
f(η1 ,η2 ,...,ηn ) (x1 , x2 , . . . , xn ) = n/2
e ,
(2π)
y ésta alcanza su máximo en el origen (0, 0, . . . , 0).
119
6.4. Ejercicios
120
Capı́tulo 7
Convergencia débil de variables

aleatorias y métricas probabilı́sticas
7.1. Convergencia débil

La convergencia débil es una noción muy importante en la teorı́a de probabilidad mo-
derna. Este tipo de convergencia difiere de la convergencia con probabilidad 1 debido a que
en la primera, en lugar de la convergencia de los valores de v.a., se da la aproximación a las
distribuciones (“probabilidades de los valores”) de las v.a. Para resolver varios problemas
(teóricos y prácticos) relacionados con el comportamiento asintótico de las distribuciones
de v.a. y vectores aleatorios la convergencia débil es una herramienta fundamental.
Por otro lado, la convergencia débil puede expresarse como la convergencia con respecto
a algunas métricas en el espacio de funciones de distribución. La relativamente joven teorı́a
de métricas probabilı́sticas ha probado su utilidad y eficiencia en la teorı́a de probabilidad,
en la teorı́a de procesos estocásticos y en sus aplicaciones. Hasta donde conocemos, no
existen muchos libros de texto sobre probabilidad que contengan la introducción al enfoque
métrico.
Definición 7.1 Se dice que la sucesión de v.a. X1 , X2 , . . . , Xn , . . . converge débilmente

a la v.a. X, si
FXn (x) → FX (x) (7.1.1)
cuando n → ∞, en cada punto x donde la f.d. FX es continua. En este caso se denota:
Xn ⇒ X. (7.1.2)
121
Nota 7.1 (a) Para cada x ∈ R fijo, los valores de las f.d. FX1 (x), FX2 (x), . . . conforman
una sucesión numérica. Entonces, (7.1.1) se entiende como la convergencia (aproxi-
mación) de esta sucesión al valor FX (x) de la f.d. FX de la v.a. X.
(b) Para cada a, b ∈ R con a < b donde la f.d. FX es continua, de (7.1.1) se sigue
(consulte (1.2.10)) que
P (a < Xn 6 b) = FXn (b) − FXn (a) → FX (b) − FX (a) = P (a < X 6 b). (7.1.3)
Ahora utilizando (7.1.3) es posible demostrar que:
Si Xn ⇒ X, entonces P (Xn ∈ B) → P (X ∈ B). (7.1.4)
para una clase muy grande de conjuntos

B (subconjuntos en R) tales que
P X pertenezca a la frontera de B = 0.
(c) Según la Definición 7.1 la convergencia débil de v.a es, en efecto, la convergencia de
sus f.d. Entonces, a veces, en lugar de Xn ⇒ X se escribe FXn ⇒ FX . También la
convergencia débil, con frecuencia, es referida como convergencia en distribución.
(d) La palabra “débil” no representa algo desfavorable. El origen de este término se

explica con la siguiente proposición.
Proposición 7.1 Si Xn → X con probabilidad 1, entonces Xn ⇒ X.
(El Ejercicio 7.1 muestra que la afirmación inversa no es cierta.)
La demostración de la Proposición 7.1 se basa en el hecho de que si los valores de Xn

son cercanos a los valores de X, entonces, para cada x ∈ R fija, los valores de FXn (x) =
P (Xn 6 x), con el crecimiento de n, se aproximan a FX (x) = P (X 6 x).
Ejemplo 7.1 Para una sucesión numérica convergente: zn → z, consideramos las v.a.
Z1 , Z2 , . . . ; Z tales que Zn toma el único valor zn (para cada n = 1, 2, . . . ) (i.e. Zn es v.a.
degenerada con valor zn , véase Nota 3.2 (c)) y Z toma el único valor z. Mostremos que
Zn ⇒ Z.
Supongamos, por ejemplo, que z < zn , para toda n = 1, 2, . . . Entonces las f.d. respec-
tivas son:
122
CAPÍTULO 7. CONVERGENCIA DÉBIL
( (
0,
x < zn , 0, x < z,
FZn (x) = P Zn (x) 6 x = y FZ (x) =
1, x > zn ; 1, x > z.
y
FZ (x)
FZn(x)
1
x
x
0 z zn
Figura 7.1: Aproximación de la f.d. de v.a. degeneradas.
Puesto que zn → z, para cada x > z, entonces FZn (x) = 1 = FZ (x) para toda n sufi-
cientemente grande. También FZn (x) = FZ (x) = 0 para todas las x < z y n = 1, 2, . . . Sin
embargo, la convergencia no tiene lugar en el punto x = z, ya que FZ (z) = 1, y FZn (z) = 0
para toda n. Nótamos que en el punto z la f.d. FZ no es continua (véase Figura 7.1).
Nota 7.2 Lo que se ha observado en el ejemplo anterior, aclara el porqué en la Definición

7.1 se excluyen los puntos de discontinuidad de la f.d. FX .
Ejemplo 7.2 (Algunas razones que explican el uso de la distribución de Weibull en la

teorı́a de confiabilidad en ingenierı́a.)
Supongamos que un dispositivo (por ejemplo un televisor) consta de una cantidad n

de componentes. Sea la v.a. Xk no negativa que representa la duración (hasta la prime-
ra falla) del k-ésimo componente (k = 1, 2, . . . , n). Supongamos, también, que la falla de
cualquier componente provoca la falla del dispositivo. Entonces, la duración del dispositivo
se da por la v.a. Tn = mı́n(X1 , X2 , . . . , Xn ).
Admitimos que las v.a. X1 , X2 , . . . , Xn son independientes, con las f.d. FXk , k =
1, 2, . . . , n, tales que existen los números λ > 0, α > 0 para los cuales:
FXk (x) = λxα − ϕk (xα ), x > 0, k = 1, 2, . . . , n, (7.1.5)
123
donde ϕk (y), con y > 0, son funciones cualesquiera tales que

ϕk (y)
→ 0 cuando y → 0+ . (7.1.6)
y
√
(Por ejemplo, ϕk (y) = y, ϕk (y) = ln2 (y), etc.)
+
En el caso de (7.1.6) se escribe ϕk = o(y) cuando y → 0 y se lee: ϕk (y) es “o”-
pequeña de la función f (y) = y. En general, ϕ(x) = o g(x) cuando x → b (se lee “ϕ(x)
es o pequeña de g(x)”) expresa la comparación infinitesimal entre las funciones (consulte,
por ejemplo, Kudrı́avtsev (1988), comparación de funciones) y significa que ϕ(x) g(x)
→ 0,
cuando x → b.
Ahora, se mostrará que Yn = n1/α Tn ⇒ T , donde la v.a. a.c. T tiene la distribución

de Weibull: ( α
1 − e−λx , x > 0,
FT (x) = (7.1.7)
0, x 6 0.
Para cada 0 < x, se tiene:

x x x
1 − FYn (x) = P (Yn > x) = P X1 > , X2 > 1/α , . . . , Xn > 1/α
n1/α n n
= (por la independencia entre X1 , X2 , . . . , Xn )
x x x
= P X1 > 1/α P X2 > 1/α . . . P Xn > 1/α = (por (7.1.5)) =
n α n n αnn
α α

λx x λx x
= 1− − ϕk = 1− −o =
n n n n
n
λxα

α
≈ (por (7.1.6), para n grandes) ≈ 1 − → e−λx =
n
= (por (7.1.7)) = 1 − FT (x).
O bien, FYn (x) → FT (x) que significa la convergencia débil.
La siguiente propiedad es importante debido a que relaciona la convergencia débil con la

operación de la suma de v.a. independientes.
Proposición 7.2 Supongamos que para cada n = 1, 2, . . . , las v.a. Xn y Yn son indepen-
dientes, y Xn ⇒ X, Yn ⇒ Y . Entonces, Xn + Yn ⇒ X + Y .
124
Nota 7.3 La demostración se pide en el Ejercicio 7.3. El Ejercicio 7.4 muestra que sin la
condición de independencia, en general el hecho de que Xn ⇒ X y Yn ⇒ Y no implica
que Xn + Yn ⇒ X + Y .
7.2. Espacios métricos

A pesar de lo abstracto de este tı́tulo, que en ocasiones puede resultar pavoroso, la
noción de espacio métrico no es tan difı́cil.
Definición 7.2 Un par (X , d) se llama espacio métrico si:
(a) X es un conjunto; y
(b) d : X × X → [0, ∞] es una función denominada métrica que asigna a cada par de
puntos x, y ∈ X , la distancia d(x, y) entre x y y.
La métrica d satisface los siguientes axiomas:
1. d(x, y) = 0 sys x = y;
2. d(x, y) = d(y, x);
3. d(x, y) 6 d(x, z) + d(z, y) (la desigualdad del triángulo);
para cualesquiera x, y, z ∈ X .
d(x,y) y
Figura 7.2: Espacio métrico.
Es importante subrayar que la distancia se expresa con números no negativos (inclu-

yendo en algunas ocasiones el valor infinito ∞).
125
Definición 7.3 Sean (X , d) un espacio métrico, x ∈ X y x1 , x2 , . . . , xn , · · · ∈ X . Se dice

que la sucesión {xn , n = 1, 2, . . . } converge a x respecto a la métrica d, si

d xn , x → 0, cuando n → ∞. (7.2.8)
d
La convergencia en (7.2.8), frecuentemente se denota como xn −→ x.
Ejemplo 7.3 (a) Sean X = R y d(x, y) := |x − y|, con x, y ∈ R la métrica habitual en

R:
d(x,y) = |x-y| = la longitud del segmento xy

!
0 x y
d
Entonces, la convergencia xn −→ x significa que conforme
n aumenta, xn se apro-
xima al punto x (en el sentido de la distancia x − xn , por ejemplo, véase Figura
7.3).
x7 x6 !
0 x x5 x4 x3 x2 x1
Figura 7.3: Una sucesión numérica convergente.
sen(n) d
Por ejemplo, xn = −→ 0 (ya que | sen (n)| 6 1).
n
(b) Sea X = R con la métrica discreta:
(
0, si x = y,
d∗ (x, y) =
1, si x 6= y.
∗ d
Es claro que xn −→ x sys xn = x para toda n suficientemente grande.
126
Ejemplo 7.4 Sea X = C[0, 1] el conjunto que consta de todas las funciones ϕ = ϕ(t), t ∈
[0, 1] continuas en el intervalo [0, 1]. Es decir, cada elemento x (“punto”) del conjunto
X = C[0, 1] es una función x = ϕ(t), t ∈ [0, 1] continua en [0, 1] .

e ∈ C[0, 1] definimos la distancia ρ(ϕ, ϕ)
Si para cualesquiera ϕ, ϕ e := máx ϕ(t)− ϕ(t)
e ,
t∈[0,1]
entonces C[0, 1] es un espacio métrico. Dicha métrica ϕ es conocida como la métrica
uniforme y es la máxima diferencia entre los valores de ϕ(t) y ϕ(t),
e con t ∈ [0, 1] (véase
Figura 7.4)
 ∼)
r(j, j
j(t)
∼
j(t)
t
0 1
Figura 7.4: Métrica uniforme.

ρ
La convergencia ϕn → ϕ, significa que máxt∈[0,1] |ϕn (t) − ϕ(t)| → 0, cuando n → ∞,
o bien, los valores de ϕn aproximan a los valores de ϕ uniformemente sobre t ∈ [0, 1].
sen (t)
Por ejemplo, si ϕn (t) = t2 + y ϕ(t) = t2 , entonces
n
sen (t) 1
ρ(ϕn , ϕ) = máx t2 + − t2 = máx sen (t) → 0, cuando n → ∞. Por lo cual
t∈[0,1] n n t∈[0,1]
ρ
ϕn → ϕ.
Nota 7.4 (Sobre máximos y supremos.) Las nociones de máximo y supremo son
conceptos muy cercanos. Por ejemplo, si se considera la función g(x) = 1 − e−x para x > 0
(Figura 7.5):
Es fácil observar que máx g(x) = g(1) = 1 − e−1 . También es claro que los valores de g(x)
x∈[0,1]
se aproximan a 1 cuando x → ∞ (ya que e−x = 1/ex → 0). Sin embargo, no se puede
decir que máx g(x) = 1. La razón de ello es que no existe un punto x∗ tal que g(x∗ ) = 1
x∈[0,∞)
(siempre g(x) < 1 pues e−x > 0). Lo que se debe escribir en tal caso es sup g(x) = 1.
x∈[0,∞)
127
1
-1 g(x)
1- e
x
0 1
Figura 7.5: Ilustración de la diferencia entre máximo y supremo.
Consideremos por ejemplo, el conjunto que consta de todas las funciones continuas en [0, 1]
tales que 0 6 ϕ(t) 6 1, t ∈Z [0, 1], i.e. Φ = {ϕ : [0, 1] → [0, 1] : ϕ es continua}. Si ϕ ∈ Φ,
1
entonces se define G(ϕ) := [1−ϕ(t)]dt. Es evidente que el valor máximo de G se alcanza
0 Z 1
para ϕ ≡ 0, es por esto que se puede escribir: sup G(ϕ) = máx G(ϕ) = G(0) = 1 dt = 1.
ϕ∈Φ ϕ∈Φ 0

Ahora, sea Φ1 = ϕn (t) = tn , t ∈ [0, 1], n = 1, 2, . . . .
y
1
Para grandes n, la gráfica de ϕn (t) con t ∈ [0, 1) está muy
n(t) cercana al eje 0t y de hecho tn → 0 cuando n → ∞ para cada
0 6 t < 1.
t
0 1
Z 1
1
Entonces, se tiene que lı́m G(ϕn ) = lı́m [1 − tn ]dt = 1 − lı́m
= 1. Por lo
n→∞ n→∞ 0 n→∞ n + 1
tanto, sup G(ϕ) = 1, pero no existe un ϕ ∈ Φ1 tal que G(ϕ) = 1. Por esto la expresión
ϕ∈Φ1
máx G(ϕ) = 1 es incorrecta (a pesar de que sup G(ϕ) = 1).
ϕ∈Φ1 ϕ∈Φ1
128
7.3. Métricas probabilı́sticas y convergencia débil

Definición 7.4 Sea F = {FX } el conjunto de las funciones distribución (f.d.) FX de
todas las v.a. X con valores en R. Cualquier métrica d en F (i.e. la distancia entre las
f.d.) se llama métrica probabilı́stica.
Ejemplo 7.5 (Métrica uniforme o de Kolmogórov1 .)

Para cualesquiera dos v.a. X y Y con sus f.d. FX y FY se define la distancia ρ
(métrica) uniforme (vea Figura 7.6):

ρ(FX , FY ) := sup FX (x) − FY (x). (7.3.9)
x∈R
1
y
FY (x)
r(FX , FY )
FX (x) x
0
Figura 7.6: La distancia uniforme entre las f.d.
ρ
Por (7.3.9) la convergencia FXn −→ FX significa que los valores de FXn (x) se aproxi-
man uniformemente con x ∈ R a los valores de la f.d. FX .
Nota 7.5 (a) En la teorı́a de métricas probabilı́sticas2 , las métricas que satisfacen la
Definición 7.4 se llaman distancias (métricas) simples, lo que significa que esta
distancia está completamente determinada por las f.d. FX y FY de X y Y y no
depende de la f.d. conjunta FX,Y .
1
Nombre del matemático ruso Andréi Nikoláyevich Kolmogórov (1903-1987), quien estructuró el siste-
ma axiomático de la teorı́a de probabilidad, obtuvo muchos resultados fundamentales para dicho campo y
para procesos estocásticos modernos; además tuvo aportaciones en topologı́a, lógica (teorı́a de conjuntos),
entre otras (véase Gordienko (2011)).
2
Consultar por ejemplo Rachev (1991) y Zolotarev (1997).
129
En general, los valores de las métricas probabilı́sticas dependen de la distribución con-

junta de las v.a. Por ejemplo, si X, Y ∼ U (0, 1), entonces d(X, Y ) := E|X − Y | > 0
si X, Y ∼ U (0, 1) son independientes y d(X, Y ) = 0, si X = Y .
(b) En este libro se consideran solamente métricas probabilı́sticas simples (omitiendo la

palabra “simple”).
Por otro lado, frecuentemente suele ser más práctico escribir d(X, Y ) en lugar de
d(FX , FY ) (interpretando la distancia entre las v.a. X y Y como la distancia corres-
pondiente d(FX , FY ) entre sus f.d. FX y FY ). Establecemos, entonces, el siguiente
convenio. Si d es una métrica probabilı́stica (simple), entonces
d(X, Y ) := d(FX , FY ).
También escribiremos:
d d
Xn −→ X, o bien d(Xn , X) → 0 en lugar de: FXn −→ FX
o en lugar de d(FXn , FX ) → 0 cuando n → ∞.
De (7.3.9) y por la Definición 7.1 se sigue inmediatamente la siguiente afirmación.
ρ
Proposición 7.3 Xn −→ X implica Xn ⇒ X.
Del Ejemplo 7.1 vemos que la afirmación inversa no siempre es correcta, sin embargo,
no es tan difı́cil demostrar lo siguiente:
Proposición 7.4 Si FX es continua, entonces:
ρ
si Xn ⇒ X entonces Xn −→ X. (7.3.10)
Notemos que (7.3.10) expresa el hecho de que la métrica uniforme en (7.3.9) metriza
la convergencia débil en la clase de funciones distribuciones continuas.
Una pregunta natural es: ¿la convergencia de cuál métrica es equivalente a la convergen-
cia débil? La respuesta se da con la siguiente afirmación que aceptamos sin demostración.
130
Teorema 7.1
0 d
Xn ⇒ X si y sólo si Xn −→ X, (7.3.11)
donde
d0 (X, Y ) ≡ d(FX , FY ) := sup Eϕ(X) − Eϕ(Y ). (7.3.12)
ϕ∈L
y L es la clase de todas las funciones ϕ : R → R acotadas por 1 (i.e. |ϕ(x)| 6 1, x ∈ R) y

que satisfacen la condición de Lipschitz3 : |ϕ(x) − ϕ(y)| 6 |x − y|; x, y ∈ R. Formalmente

L := ϕ : R → R t.q. |ϕ(x)| 6 1 y |ϕ(x) − ϕ(y)| 6 |x − y|, x, y ∈ R . (7.3.13)
La métrica d0 en (7.3.12) se denomina la métrica de Fortet-Mourier.
Nota 7.6 Las esperanzas Eϕ(X) y Eϕ(Y ) en (7.3.12) se determinan por FX y FY res-
pectivamente (véanse (3.1.8) y (3.1.9)), por lo cual d0 (X, Y ) = d0 (FX , FY ). Se aplica la
misma observación a otras métricas de la forma d(X, Y ) = sup |Eϕ(X) − Eϕ(Y )| (para
ϕ∈Φ
alguna clase de funciones Φ).
Ejemplo 7.6 Sean X ≡ 0 y Xn ∼ Exp(λ

n = n), n = 1, 2, . . . Para cualquier ϕ ∈ L tene-
mos en (7.3.12) que Eϕ(X) − Eϕ(Xn ) 6 E|ϕ(0) − ϕ(Xn )| 6 (por (7.3.13)) 6 E|Xn | =
1 1 1
EXn = (por (3.2.14)) = = . Por lo tanto, en (7.3.12), d0 (X, Xn ) 6 → 0 cuando
λn n n
n → ∞, y por el Teorema 7.1 Xn ⇒ 0.
Nota 7.7 Las métricas uniformes ρ, de Fortet-Mourier, y ζ2 , ζ3 de Zolotarev, que se intro-

ducirán más adelante, están relacionadas con la convergencia débil. Es por esto razonable
caracterizarlas como débiles.
Un ejemplo de métrica fuerte es la distancia de variación total:

V(X, Y ) ≡ V(FX , FY ) := sup Eϕ(X) − Eϕ(Y ), (7.3.14)
ϕ∈B
3

En general, la condición de Lipschitz es f (x)−f (y) 6 K x−y , donde K es conocida como constante
de Lipschitz.
131
donde B = {ϕ : R → R t.q. |ϕ(x)| 6 1, x ∈ R} ≡ {todas las funciones integrables con

el valor absoluto acotado por 1 }.
Como se puede observar de (7.3.12) y (7.3.13), L ⊂ B, entonces,

sup Eϕ(X) − Eϕ(Y ) 6 sup Eϕ(X) − Eϕ(Y ),
ϕ∈L ϕ∈B
(pues el “máximo” sobre un conjunto más “amplio”, debe ser más grande). Entonces,
d0 (X, Y ) 6 V(X, Y ) y V(Xn , X) → ∞ implica que d0 (Xn , X) → 0. Es decir, la conver-
gencia en V conlleva a la convergencia con respecto a la métrica d0 , o bien, la convergencia
débil. La afirmación reciproca frecuentemente no es cierta, como lo muestra el Ejercicio
7.20.
A continuación, se introducirán dos métricas de Zolotarev 4 : ζ2 y ζ3 muy usadas en

la teorı́a de probabilidad contemporánea. Su importancia se debe a las propiedades dadas
en la Proposición 7.6 y consecuentemente, por su efectividad en el estudio de los teoremas
centrales del lı́mite (véase Capı́tulo 8).
Definición 7.5 Las métricas de Zolotarev ζ2 , ζ3 (de orden 2 y 3, respectivamente) se

definen como sigue:

ζ2 (X, Y ) := sup Eϕ(X) − Eϕ(Y ), (7.3.15)
ϕ∈D2

ζ3 (X, Y ) := sup Eϕ(X) − Eϕ(Y ), (7.3.16)
ϕ∈D3
donde:
D2 := ϕ : R → R t.q. |ϕ00 (x)| 6 1, x ∈ R ,

(7.3.17)
D3 := ϕ : R → R t.q. |ϕ(3) (x)| 6 1, x ∈ R .

(7.3.18)
Las métricas introducidas anteriormente ρ, d0 y V son acotadas, debido a que ρ 6

1, d0 6 2 y V 6 2. Sin embargo, las métricas ζ2 y ζ3 podrı́an tomar el valor infinito (véase
más adelante la Nota 7.8).
4
Vladı́mir Mikhailovich Zolotarev (1931- ) matemático ruso, cuyas contribuciones se encuentran en
la teorı́a de probabilidad, con especialidad en distribuciones estables, entre otras; ganador del premio
Markov, y uno de los fundadores de la teorı́a de métricas probabilı́sticas.
132
Proposición 7.5
(a) Si EX = EY, EX 2 < ∞ y EY 2 < ∞, (7.3.19)
entonces ζ2 (X, Y ) < ∞.
(b) Si EX = EY, EX 2 = EY 2 , E|X|3 y E|Y |3 < ∞, (7.3.20)
entonces ζ3 (X, Y ) < ∞.
La demostración se sigue del desarrollo de Taylor para ϕ. Por ejemplo en (b):
ϕ00 (0) 2 ϕ(3) (τX ) 3

ϕ(X) = ϕ(0) + ϕ0 (0)X + X + X ,
2 6
ϕ00 (0) 2 ϕ(3) (τY ) 3
ϕ(Y ) = ϕ(0) + ϕ0 (0)Y + Y + Y .
2 6
Al sustituir esto en (7.3.16) y aplicando (7.3.20) se obtiene:
ϕ(3) (τX ) 3 (3)

ϕ (τ Y ) 3

ζ3 (X, Y ) 6 sup E X −E Y . (7.3.21)
ϕ∈D3 6 6
Pero |ϕ(3) | 6 1 y E|X|3 , E|Y |3 < ∞.
Nota 7.8 (a) Si EX 6= EY , entonces ζ2 (X, Y ) = ∞.

(b) Si EX 6= EY o EX 2 6= EY 2 , entonces ζ3 (X, Y ) = ∞ (consulte el Ejercicio 7.15).
(c) Se conocen las siguientes cotas superiores para las métricas de Zolotarev:
Z ∞
ζ2 (X, Y ) 6 |x| FX (x) − FY (x)dx ,
−∞
siempre que EX = EY ;
Z ∞
1
ζ3 (X, Y ) 6 x2 FX (x) − FY (x)dx,
2 −∞
siempre que EX = EY y EX 2 = EY 2 .
133
En Zolotarev(1997) también se demuestra la representación integral de la métrica ζ2 ,

Z ∞ Z ∞ Z ∞

ζ2 (X, Y ) =
[1 − F X (t)]dt − [1 − F Y (t)]dt dx.
(7.3.22)
−∞ x x
Ejemplo 7.7 En la teorı́a de confiabilidad, para modelar el tiempo de funcionamiento de

algún aparato (eléctrico, por ejemplo), con frecuencia se utilizan v.a. no negativas T
que satisfacen una condición de “envejecimiento” (CE), descrita más adelante.
Supongamos que ET 2 < ∞. Denotando por “a” la esperanza de T , se tiene por (3.3.27)
que Z ∞
a = ET = [1 − FT (t)]dt. (7.3.23)
0
Consideremos la v.a. X ∼ Exp(λ) con
1
EX = = a = ET . (7.3.24)
λ
La condición CE expresa que para cada x > 0,
Z ∞ Z ∞
[1 − FT (t)]dt 6 [1 − FX (t)]dt = (por (1.2.12) y (7.3.24)) = a e−x/a . (7.3.25)
x x
Observemos que la desigualdad (7.3.25) expresa el “envejecimiento” de un dispositivo

con tiempo de vida T de tal manera que (véase (7.3.24)) el “promedio restado” de T en
(7.3.25) es menor que el “promedio restado” de la v.a. exponencial con esperanza igual a
ET . (Recordemos que X no afecta al “envejecimiento” debido a la igualdad que encon-
tramos en el Ejercicio 2.14.)
Frecuentemente, en las aplicaciones en ingenierı́a es importante saber qué tan cercana

es la f.d. FT a la f.d. exponencial FX . Para dar una estimación, calcularemos la distancia
de Zolotarev ζ2 (X, T ) (que
Z es finita por la
Z Proposición 7.5). De (7.3.22) y (7.3.25) se
∞ Z ∞ ∞
obtiene que ζ2 (X, T ) = a e−x/a dx − [1 − FT (t)]dt dx = (integrando por
Z ∞ 0 0 x
2
x 1 − FT (x) dx = (por el Ejercicio 7.18) = a2 − 12 E(T 2 ) = (por

partes) = a −
0
(3.2.14) y (3.2.10)) = 21 V ar(X) − V ar(T ) , o bien

1

ζ2 (X, T ) = 2
V ar(X) − V ar(T ) . (7.3.26)
134
El hermoso resultado en (7.3.26) indica que bajo las condiciones (7.3.23) y (7.3.25),
para estimar la cercanı́a de la FT a la d.f. exponencial FX es suficiente calcular (o acotar)
la diferencia entre las varianzas.
La utilidad de la métrica ζ3 en el estudio de los teoremas centrales del lı́mite en la

teorı́a de probabilidad, se explica con las siguientes propiedades de ζ3 .
Proposición 7.6 Para cualquier α > 0 se tiene:
(a) ζ3 (αX, αY ) 6 α3 ζ3 (X, Y ). (7.3.27)
(b) ζ3 (X + Y, Z + Y ) 6 ζ3 (X, Z), (7.3.28)

para cualesquiera v.a. X, Y, Z tales que Z no depende de X ni de Y .
Para demostrar (a) es suficiente observar que si ϕ ∈ D3 (véase (7.3.18)), entonces la

3
función ψ(x) := α13 ϕ(αx) ∈ D3 , ya que ψ (3) (x) = αα3 ϕ(3) (αx) = ϕ(3) (αx) es acotada por 1.
Entonces,
h i
3
1 i h1
sup Eϕ(αX) − Eϕ(αY ) = α sup E 3 ϕ(αX) − E 3 ϕ(αY ) =
ϕ∈D3 ϕ∈D3 α α
= α3 sup |Eψ(X) − Eψ(Y )| 6 α3 ζ3 (X, Y ).
ψ∈D3
En el caso de (b), se fija un arbitrario ϕ ∈ D3 . Luego por la Nota 4.2(b) y (4.1.9)

(suponiendo, por ejemplo, que Y esZa.c.) se tiene
∞

Eϕ(X + Y ) − Eϕ(Z + Y ) = E ϕ(X + Y ) − ϕ(Z + Y ) | Y = y f Y (y)dy =

−∞ Z ∞

(por la independencia de Y con X y Z) = Eϕ(X + y) − Eϕ(Z + y) fY (y)dy 6
Z ∞ −∞

Eϕ(X + y) − Eϕ(Z + y)fY (y)dy.
−∞

Pero para cada yZ∈ R fijo, ψ(x) := ϕ(x+y) ∈ D3 . Entonces Eϕ(X +y)−Eϕ(Z +y) 6
∞
ζ3 (X, Z) y además fY (y)dy = 1.
−∞
Al combinar (7.3.27) y (7.3.28) en la Proposición 7.6 y aplicando inducción se llega al

siguiente resultado.
135
Teorema 7.2 Sean n > 1, α > 0, y X1 , X2 , . . . , Xn ; Y1 , Y2 , . . . , Yn v.a. independientes.

Entonces !
Xn n
X n
X
3
ζ3 α Xk , α Yk 6 α ζ3 (Xk , Yk ). (7.3.29)
k=1 k=1 k=1
ζ3
Teorema 7.3 (Consulte Zolotarev (1997)) Si Xn → X (i.e. ζ3 (Xn , X) → 0), entonces
Xn ⇒ X. Es decir, la convergencia en la métrica ζ3 implica la convergencia débil
La demostración está basada en los siguientes hechos: primero observemos que FXn (x) =
EI{Xn 6x} , y segundo que la función g(y) := I{y6x} (para x fijo) puede ser aproximada me-
diante funciones ϕ que pertenecen a D3 .
136
7.4. EJERCICIOS
7.1 Una moneda simétrica se lanza 3 veces. Sean X := # de veces que resulta águila y
Y := # de veces que resulta sol. Mostrar que:
(a) P (X = Y ) = 0.
(b) Las v.a. X y Y tienen las mismas distribuciones.
(c) Usando (a) y (b), construir un ejemplo de v.a. X, Xn para n > 1 tales que
Xn ⇒ X pero P (Xn → X) = 0.
Sugerencias: Para (b) argumentar sin usar cálculos y usando la hipótesis de si-
metrı́a de la moneda. Para (c) elegir Xn = Y, n = 1, 2, . . .
7.2 En el Ejemplo 7.2, sean Xk ∼ U (0, 1), k = 1, 2, . . . , n. Mostrar que Yn ⇒ T ∼
Exp(λ = 1).
7.3 Demostrar la Proposición 7.2.
Sugerencia: Sea d0 la métrica definida en (7.3.12) y (7.3.13); y sea ξ una v.a. que
no depende de las v.a. X, Y . Utilice la Nota 4.2(b) y demuestre que d0 (X+ξ, Y +ξ) 6
d0 (X, Y ). Finalmente use la desigualdad del triángulo.
7.4 Encontrar sucesiones {Xn , n = 1, 2, 3, . . . }, {Yn , n = 1, 2, 3, . . . }, y v.a. X, Y tales
que Xn ⇒ X, Yn ⇒ Y pero Xn + Yn ; X + Y .
Sugerencia: Escoger v.a. X y Y independientes con la distribución U (−1, 1) y
para n = 1, 2, 3, . . . Xn = X, Yn = −X.
(n) (n) (n)
7.5 (La aproximación de Poisson). Para n = 1, 2, 3, . . . sea Sn = X1 +X2 +· · ·+Xn ,
(n) (n) (n)
donde X1 , X2 , . . . , Xn son v.a. i.i.d. con la distribución Bern(pn ). Demostrar
que si npn → λ > 0, entonces Sn ⇒ Y ∼ P oiss(λ).
Sugerencias: Primero, hay que entender que para las v.a. X; Xn , n > 1 con
valores en {0, 1, 2, . . . }, la convergencia (7.1.1) equivale a lo siguiente: para cada
k = 0, 1, 2, . . . , P (Xn = k) → P (X = k) cuando n → ∞.
Para k = 0, según el Ejemplo 1.4(b) P (Xn = 0) = (1 − pn )n ≈ (1 − nλ )n → e−λ .
Para k > 0, usando las probabilidades del Ejemplo 1.4(b), simplificar el cociente
P (Sn =k+1)
P (Sn =k)
y aplicar inducción con k = 0, 1, 2, . . .
7.6 Para n = 1, 2, . . . sea Yn = Xn /n, donde Xn ∼ Geom(pn ) (véase (2.3.21)). Demos-

trar que si npn → λ > 0, entonces Yn ⇒ Y ∼ Exp(λ).
137
7.4. Ejercicios
Sugerencia: P (Yn > x) = P (Xn > nx) = P (Xn > [nx]) = (1 − pn )[nx] , donde [nx]
es la parte entera del número nx.
7.7 (a) Sean X1 , X2 , . . . , Xn , . . . v.a. i.i.d. con la f.d. común F tal que xα [1 − F (x)] →
b cuando x → ∞ para algunos números α > 0, b > 0. Se define Yn :=
(bn)−1/α máx{X1 , X2 , . . . , Xn }, demostrar que Yn ⇒ Z, donde Z es la v.a.
con la f.d.: ( −α
e−x , x > 0,
FZ (x) =
0, x 6 0.
(b) En términos de α, b, c∗ , aproximar P (máx{X1 , X2 , . . . , X365 } > c∗ ), donde Xk

es el nivel de ozono en México D.F. en el k-ésimo dı́a del próximo año.
7.8 Encontrar una sucesión {ϕn , n = 1, 2, 3, . . . } de funciones continuas en [0, 1] tal

que ϕn (t) → ϕ0 ≡ 0 cuando n → ∞ para cada t ∈ [0, 1], pero ρ(ϕn , ϕ0 ) =
máxt∈[0,1] |ϕn (t)| → ∞ cuando n → ∞.

7.9 En el plano R2 := {(x, y) : x ∈ R, y ∈ R} definimos: d (x1 , y1 ), (x2 , y2 ) :=
p
(x1 − x2 )2 + (y1 − y2 )2 . Demostrar que d es una métrica en R2 .
Sugerencia: La suma de dos lados de un triángulo es mayor que la magnitud del
tercero.
−λx

7.10 Consideremos la familia de funciones:
Z ∞ Φ := ϕ(x) = e : λ ∈ (0, ∞) y definimos
para cada ϕ ∈ Φ, G(ϕ) := 1 − ϕ(x)dx. Demostrar que sup G(ϕ) = 1, pero no
0 ϕ∈Φ
existe ϕ ∈ Φ tal que G(ϕ) = 1.

1 2 n−1
7.11 Para n = 1, 2, 3, . . . , consideremos la v.a. Xn ∈ 0, , , . . . , con
n n n
k 1
P Xn = = para k = 0, 1, 2, . . . , n − 1 (la distribución uniforme discreta).
n n
(a) Demostrar que ρ(Xn , X) = 1/n, n = 1, 2, . . . , donde ρ es la métrica uniforme
(7.3.9) y X ∼ U (0, 1). (Entonces Xn ⇒ X por la Proposición 7.3.)
(b) Demostrar que:
Para cualquier función continua y acotada ϕ : R → R se cumple

(7.4.30)
que Eϕ(Xn ) → Eϕ(X) cuando n → ∞.
Sugerencias:
138
(a) Trazar las gráficas de las f.d. FXn y FX .

(b) Usar (3.1.8), (3.1.9) y la definición de la integral (a partir de sumas de Rie-
mann).
Nota 7.9 Es posible demostrar que en el caso general, Xn ⇒ X si y sólo si se

cumple (7.4.30).
7.12 Supongamos que X ∼ U (0, a) y Y ∼ U (0, a + ), a > 0, > 0. Demostrar que (la
ε
métrica uniforme) ρ(X, Y ) = (y se aproxima a cero cuando ε → 0).
a+
Sugerencia: Usar el Ejemplo 1.11, calcular FX , FY y trazar sus gráficas.
7.13 Sean X ≡ 0, Yε ∼ Exp(1/ε), ε > 0. Mostrar que (la métrica de Fortet-Mourier en

(7.3.12))
d0 (X, Yε ) 6 ε. (7.4.31)
(Nótese que EY = ε → 0 cuando ε → 0.)
7.14 Para alguna a ∈ R y ε > 0 considere las v.a. Xa y Xa+ε tales que Xa toma el único
valor a y Xa+ε toma el único valor a + ε. Demostrar que:
(a) ρ(Xa , Xa+ε ) = 1, para toda ε > 0;

(b) d0 (Xa , Xa+ε ) 6 ε (→ 0, cuando ε → 0).
7.15 Demostrar que si EX 6= EY , entonces ζ2 (X, Y ) = ∞ (ζ2 es la métrica de Zolotarev

de orden dos definida en (7.3.15)).
Sugerencia: Por (7.3.17), la función ϕc := cx ∈ D2 para cada c ∈ R. Entonces,
ζ2 (X, Y ) > sup |Eϕc (X) − Eϕc (Y )| = sup |EcX − EcY | = sup |c||EX − EY | = ∞.
ϕc c∈R c∈R
7.16 Sean X ≡ 0, Xn ∼ N orm(a = 0, σ = 1/n), n = 1, 2, . . . Mostrar que ζ2 (X, Xn ) 6

1/n2 , n = 1, 2, . . . En particular, Xn ⇒ X. (Nótese que las v.a. a.c. pueden conver-
ger a una v.a. discreta y viceversa.)
7.17 (a) Consideremos las v.a. X1 , X2 , . . . , Xn i.i.d. y las v.a. Y1 , Y2 , . . . , Yn i.i.d. tales
que existen a = EX1 = EY1 , y V ar(X1 ) < ∞, V ar(Y1 ) < ∞. Además, supon-
gamos que {Xn , n > 1} no depende de {Yn , n > 1}. Considere, también, los
139
7.4. Ejercicios
X1 + X2 + · · · + Xn Y1 + Y2 + · · · + Yn
promedios muestrales, Zn := , y Z n := .
n n
Demostrar que existe una constante c < ∞ tal que
c
ζ2 Zn , Z n 6 , n = 1, 2, . . . (7.4.32)
n
(b) Supongamos además que las varianzas son iguales: V ar(X1 ) = V ar(Y1 ) y
X1 + X2 + · · · + Xn
E|X1 |3 < ∞, E|Y1 |3 < ∞. Definimos Yn := √ y Y n :=
n
Y1 + Y2 + · · · + Yn
√ . Mostrar que existe una constante c1 < ∞ tal que:
n
c1
ζ3 (Yn , Y n ) 6 √ , n = 1, 2, . . . (7.4.33)
n
Sugerencias:En (b), usar (7.3.29) y la Proposición 7.5. Para (a), usar la misma
proposición y demostrar el análogo de (7.3.29) para la métrica ζ2 :
n n
! n
X X X
ζ2 α Xk , α Yk 6 α2 ζ2 (Xk , Yk ),
k=1 k=1 k=1
que se cumple bajo las hipótesis del Teorema 7.2.
Nota 7.10 Según el Teorema 6.1 ambos promedios muestrales en (7.4.32) convergen
casi seguramente a la esperanza común a = EX1 = EY1 . De (7.4.33) se sigue que
cuando n → ∞, Yn y Y n se aproximan débilmente una a la otra. Mas, no es cierto
que estas v.a. convergen a una constante (consulte el Teorema Central del Lı́mite
en el Capı́tulo 8).
2
Z ∞ ) < ∞. Mostrar que
7.18 Sea X una v.a. no negativa con E(X
E X2 = 2

x 1 − FX (x) dx.
0
Sugerencia: Para simplificar la demostración, suponer adicionalmente que X es
a.c. Usar integración por partes y verificar que x2 [1 − FX (x)] → 0 cuando x → ∞.
7.19 Para n = 5, 50, 100, 1000, 5000, 10000 calcular los elementos correspondientes de la
sucesión numérica xn := (1 + n1 )n , n = 1, 2, . . . , para ver que la sucesión converge
al número e1 = e ≈ 2.718281828.
140
7.20 Encontrar la v.a. X y las v.a. Xn , n = 1, 2, . . . , tales que ρ(Xn , X) → 0 (y por lo

tanto Xn ⇒ X, véase la Proposición 7.3) pero para la métrica de variación total
(7.3.14) se cumpla que V(Xn , X) > 1, n = 1, 2, . . .
Sugerencia: Usar las v.a. X y Xn (n = 1, 2, . . . ) del Ejercicio 7.11 y tener en
cuenta que por (7.3.14), V(Xn , X) > |Eϕn (Xn ) − Eϕn (X)| = 1, donde ϕn ∈ B y
(
1, si x ∈ 0, n1 , n2 , . . . , n−1

n
,
ϕn (x) =
0, en el caso contrario.
7.21 Sean Xn ∼ N orm(0, σn ), n = 1, 2, . . . , X ∼ N orm(0, σ) v.a. tales que Xn ⇒ X.

Mostrar que σn → σ cuando n → ∞.
141
7.4. Ejercicios
142
Capı́tulo 8
Teorema Central del Lı́mite
8.1. Observaciones introductorias
El Teorema Central del Lı́mite (TCL) es en realidad una clase bastante amplia de teo-
remas relacionados con el estudio de distribuciones de sumas de v.a., cuando el número
de sumandos crece sin cota. Estos teoremas son muy importantes en la teorı́a de proba-
bilidad, ası́ como en diversas y profundas aplicaciones (en estadı́stica, fı́sica, ingenierı́a,
matemática financiera, etc.). Los autores de este libro han escuchado la opinión de que
este teorema (en su versión básica) ha sido el más citado en el mundo de la ciencia.
Creemos también que el TCL tiene un valor conceptual en la formación de estudiantes e
investigadores dedicados a las ciencias. Básicamente, el teorema (o teoremas) afirma que
la suma de una gran cantidad de factores aleatorios poco dependientes y en algún sentido
“no grandes”, se aproxima a la distribución Normal , i.e. a la distribución de la v.a.
absolutamente continua Y con la densidad Normal:
1 −(x−a)2
fY (x) = √ e 2σ2 , x ∈ R, (8.1.1)
2π σ
cuya gráfica (también conocida como “campana de Gauss”) aparece en la Figura 8.1.
143
8.1. Observaciones introductorias
1
y
2π σ
fY (x)
x
0 a (con a=4, σ=1)
Figura 8.1: Campana de Gauss
Los teoremas centrales del lı́mite son universales en el sentido de que bajo ciertas
condiciones, la distribución del lı́mite (cuando n → ∞) de sumas:
(n) (n)
Sn = X1 + X2 + · · · + Xn(n) , n > 1, (8.1.2)
(n)
de factores aleatorios Xk , es la misma: la Normal con la densidad dada en (8.1.1). En
(n)
otras palabras, al suponer la finitud de las varianzas de Xk , algunas condiciones como
independencia (o “dependencia ligera”) y no una grande variación entre las f.d. de los
sumandos, entonces la distribución del lı́mite de sumas NO depende de las distribucio-
(n) (n) (n)
nes particulares de los sumandos X1 , X2 , . . . , Xn . En varios problemas de la teorı́a
de la probabilidad (tanto teóricos como prácticos) las distribuciones de los sumandos
(n)
Xk , k = 1, 2, . . . , n , frecuentemente no son conocidas, pero a pesar de ello, el carácter
universal de la distribución del lı́mite Normal permite investigar efectivamente muchos
fenómenos aleatorios y hacer cálculos sobre aproximaciones importantes en estadı́stica y
otras aplicaciones prácticas.
Por estas razones, las v.a. normales tienen una enorme difusión en ciencias y fenóme-
nos naturales y sociales. Algunos ejemplos son: las componentes de la velocidad en el
movimiento térmico, la estatura de un hombre elegido al azar, las variaciones de precios
en el mercado financiero, los resultados de mediciones en ingenierı́a o fı́sica, etc.
Para tener una idea de cómo es que la suma de “muchas” v.a. debe tener una distri-
bución cercana a la Normal, regresemos al Ejemplo 1.4-(b), donde X1 , X2 , . . . , Xn son v.a.
Bernoulli i.i.d. con el parámetro p y la suma Sn = X1 + X2 + · · · + Xn tiene la distribución
binomial dada por la siguiente fórmula:
n!
P (Sn = k) = pk (1 − p)n−k , k = 0, 1, . . . , n. (8.1.3)
k!(n − k)!
144
CAPÍTULO 8. TEOREMA CENTRAL DEL LÍMITE
Si elegimos, por ejemplo, p = 1/2 y n = 50, con la ayuda de una computadora se deter-
minan los valores de P (Xn = k), k = 0, 1, . . . , n usando (8.1.3). Al gráficarlos como las
alturas de barras verticales se obtiene la gráfica de la Figura 8.2.
P(Sn = k)
k
0 25 50
Figura 8.2: La distribución Binomial
Al comparar las Figuras 8.1 y 8.2 se observa una evidente semejanza entre ellas (a
pesar de que la v.a. Y es a.c. y en cambio Sn es discreta).
Claro que no siempre sucede que un fenómeno (representado con un valor) aleatorio
sea el resultado de sumas de v.a. (como en (8.1.2)). El caso más general es cuando el
(n) (n) (n)
valor que interesa, denotado por Yn , es Yn = g(ξ1 , ξ2 , . . . , ξn ), donde g es una función
suave, que puede ser desconocida (aunque esto último no es importante para la aplicación
(n)
cualitativa del TCL). Al suponer que ξk , k = 1, 2, . . . , n son v.a. “bastante cercanas
a cero” (eligiendo un sistema de coordenadas con el origen en un punto apropiado), se
obtiene, con ayuda de fórmulas del cálculo de varias variables, que Yn ≈ g(0, 0, . . . , 0) +
n
X ∂g (n)
(0, 0, . . . , 0) ξk (que es un análogo multidimencional a la fórmula: f (x) ≈ f (x0 )+
k=1
∂xk
0
f (x0 )(x − x0 )). Luego, denotando Y0 = g(0, 0, . . . , 0) y las derivadas ya descritas como ck
se obtiene que:
Xn
(n)
Yn − Y0 ≈ ck ξk , (8.1.4)
k=1
lo cual nos lleva de regreso a las sumas de v.a. como en (8.1.2), y a la posibilidad de
aplicar el TCL (suponiendo la independencia o una “dependencia ligera” de los sumandos
en (8.1.4)).
La aplicación de métricas probabilı́sticas es muy efectiva en el estudio de los TCL. En

primer lugar permite, sin necesidad de desarrollar la teorı́a de funciones caracterı́sticas (el
método más usado para la demostración de los TCL), dar una sencilla demostración de
145
8.2. Teoremas Centrales del Lı́mite
diversas versiones del TCL que incluyen las estimaciones de la tasa de convergencia en la
aproximación Normal.
En segundo lugar, con la aplicación del enfoque métrico es muy fácil caracterizar
la distribución Normal en términos de la propiedad (2.2.19) en el Teorema 2.2 y como
consecuencia, comprender el porqué en los TCL aparece como distribución del lı́mite la
distribución Normal y no otra (al suponer que existen las varianzas finitas de los suman-
dos). En tercer lugar, el uso de métricas da una oportunidad de extender estimaciones
de la tasa de convergencia en el TCL a situaciones más generales, con el propósito de
investigar la estabilidad de algunos modelos aplicados (consultar Capı́tulo 9).

Recordemos las notaciones estándares anteriores del Capı́tulo 6. Supongamos que
X1 , X2 , . . . , Xk son v.a. i.i.d. tales que E(Xk2 ) < ∞, lo que garantiza la existencia de
la esperanza a y la varianza finita σ 2 (comunes para todas las v.a. X1 , X2 , . . . );
a = EXk y 0 < σ 2 = V ar(Xk ) < ∞. (8.2.5)
En (8.2.5) hemos supuesto que V ar(Xk ) > 0, lo cual significap que Xk no es una constante
(o v.a. degenerada, véase el Ejercicio 3.16). Además, σ = V ar(Xk ) denota la desvia-
ción estándar (común para todas X1 , X2 , . . . ). Luego, como antes, la suma de n v.a.
X1 , X2 , . . . , Xn se denota como:
S n = X 1 + X2 + · · · + Xn , n = 1, 2, . . . (8.2.6)
De la Proposición 3.1 se tiene que:
ESn = na y V ar(Sn ) = nσ 2 . (8.2.7)

Puesto que en (8.2.7) ESn → ∞ (si a 6= 0) y V ar(Sn ) → ∞, cuando n → ∞, ası́ no es
factible esperar que las distribuciones de las Sn se acerque a una distribución del lı́mite
cuando n → ∞. La situación se recupera, si se utiliza la estandarización introducida en
la Proposición 4.1, o bien, se consideran las v.a. estandarizadas:
Sn − na
Yn := √ , n = 1, 2, . . . (8.2.8)
σ n
146
Por (8.2.7) y (8.2.8) se tiene:
EYn = 0 y V ar(Yn ) = 1, para toda n = 1, 2, . . . (8.2.9)
Por otro lado, la v.a Normal estándar η ∼ N orm(0, 1) tiene la densidad (compare
con (8.1.1))
1 2
fη (x) = √ e−x /2 , x ∈ R, (8.2.10)
2π
y por (3.2.15) Eη = 0 y V ar(η) = 1 (las mismas que para Yn en (8.2.8) y (8.2.9)) (véase
la Figura 8.3).
y 2
fη (x) = 1 e
1 - x /2
2π 2π
Eη=0;
σ = Var(η) = 1.
x
0
Figura 8.3: La densidad Normal estándar.
Para lo siguiente, es práctico escribir las sumas estandarizadas Yn en (8.2.8) de la

siguiente forma equivalente (véase, también, (8.2.6)):
n
(X1 − a) + (X2 − a) + · · · + (Xn − a) 1 X
Yn = √ =√ ξk , (8.2.11)
σ n n k=1
donde
Xk − a
ξk = , k = 1, 2, . . . , n, (8.2.12)
σ
son los sumandos estandarizados, para los cuales se tiene (véase (8.2.5) y la Proposición
4.1):
Eξk = 0, y V ar(ξk ) = 1, para k = 1, 2, . . . , n. (8.2.13)
Entre la gran clase de los TCL se encuentra la siguiente versión moderna del teorema
clásico central del lı́mite de A. Lyapunov1 .
1
Aleksandr Mijáilovich Liapunov (1857-1918) matemático y fı́sico ruso, trabajó en las áreas de estabi-
lidad de ecuaciones diferenciales y teorı́a de probabilidad, entre otras. Autor de la primera versión general
del TCL.
147
Teorema 8.1 Supongamos que X1 , X2 , . . . son v.a. i.i.d. y
E|X1 |3 < ∞. (8.2.14)
Entonces
ζ3 (ξ1 , η)
ζ3 (Yn , η) 6 √ , n = 1, 2, . . . , (8.2.15)
n
y
" r #
1 E(X1 − a)3 2
ζ3 (ξ1 , η) 6 3
+2 < ∞. (8.2.16)
6 σ π
Aquı́, ζ3 es la métrica de Zolotarev de orden 3 (consulte la Definición 7.5), η ∼ N orm(0, 1)

y las v.a. Yn y ξ1 están especificadas en (8.2.8), (8.2.11) y (8.2.12).
Del Teorema 7.3, la Proposición 7.4, la Definición 7.1 y del hecho de que la f.d. de η
(denotada tradicionalmente por Φ)
Z x
1 2
Fη (x) ≡ Φ(x) = √ e−t /2 dt , x ∈ R, (8.2.17)
−∞ 2π
es una función continua y se obtiene la siguiente afirmación.
Corolario 8.1 Bajo las hipótesis del Teorema 8.1, cuando n → ∞ se tiene que:
(a) Yn ⇒ η; (8.2.18)
(b) ρ(Yn , η) → 0; (8.2.19)
(c) FYn (x) → Φ(x) para cada x ∈ R. (8.2.20)
Nota 8.1 (a) Bajo las condiciones del Teorema 8.1, FYn se aproxima a Φ en (8.2.19) y
(8.2.20), sin importar cuales sean las distribuciones de los sumandos Xk , k =
1, 2, . . . en (8.2.6) y (8.2.8). Las v.a. Xk podrı́an ser a.c., discretas u otras.
(b) Por (7.3.9) y (8.2.19) vemos que la aproximación Normal en (8.2.20) es uniforme
sobre x ∈ R, i.e., para cualquier ε > 0 y para toda n suficientemente grande, se tiene
que |FYn (x) − Φ(x)| < ε para toda x ∈ R.
148
1 y
Φ(x)
FYn(x) (el caso de los sumandos
discretos: X 1 , X 2 , ...)
0
x
Figura 8.4: La aproximación de la f.d. FYn por la Normal Φ.
(c) De (7.1.3) y (7.1.4) se sigue que a partir de (8.2.18) se implica
P (Yn ∈ I) → P (ηn ∈ I), (8.2.21)
cuando n → ∞ y para cualquier intervalo I (incluso para muchos otros subconjuntos,

más generales de la recta, pero no todos).
(d) Bajo las condiciones del Teorema 8.1 o del siguiente Teorema 8.2, para toda n su-
Sn − na
ficientemente grande , la distribución de √ ≈ la distribución de η. De esto
σ n
último es fácil ver que:
√
la distribución de Sn ≈ la distribución de Zn = σ n η + na, (8.2.22)
√
y (consulte la Proposición 3.1), para Zn := σ√ n η + na se tiene que EZn = na y
V ar(Zn ) = σ 2 n. Entonces, Zn ∼ N orm(na, σ n) y por esta relación (8.2.22) sirve
como soporte para nuestra argumentación (dada al principio del Capı́tulo) acerca de
la aproximación de las sumas de v.a. a una distribución Normal.
Demostración del Teorema 8.1.

Sean η1 , η2 , . . . , ηn ∼ N orm(0, 1) v.a. i.i.d. e independientes de las v.a. ξ1 , ξ2 , . . . , ξn
dadas en (8.2.12). De (8.2.11) ! y (2.2.19) en el Teorema 2.2, obtenemos que ζ3 (Yn , η) =
n n 3 Xn
1 X 1 X 1
ζ3 √ ξk , √ ηk 6 (por (7.3.29)) 6 √ ζ3 (ξk , ηk ) = (por la igualdad
n k=1 n k=1 n k=1
1 ζ3 (ξ1 , η1 )
de distribuciones) = √ n ζ3 (ξ1 , η1 ) = √ . De esto se obtiene (8.2.15).
nn n
Para demostrar (8.2.16) es suficiente tomar en cuenta (8.2.13), la Proposición 7.5 y obser-
1h i
var que de (7.3.21) se obtiene que ζ3 (ξ1 , η1 ) 6 E|ξ1 |3 +E|η1 |3 . Finalmente, por (8.2.12)
6
149
r
2
y (8.2.14), E|ξ1 |3 < ∞. Por último, utilizando (3.1.9) es fácil calcular que E|η1 |3 = 2 .
π
2
¿Hasta qué punto las condiciones del Teorema 8.1 son esenciales para la convergencia
débil de las sumas estandarizadas Yn , n = 1, 2, . . . a la v.a. Normal η? Primero, sin
preocuparnos por la tasa de convergencia, la condición (8.2.14) no es necesaria. De hecho,
se cumple el siguiente teorema (demostrado, por primera vez, en el caso particular de v.a.
Bernoulli en (8.2.6) por A. De Moivre2 con una edad de más de 60 años; y en el caso
general, por P. Lévy.3 ).
Teorema 8.2 Sean X1 , X2 , . . . v.a. i.i.d. con EXk = a y la varianza σ 2 = V ar(Xk ) finita
X1 + · · · + Xn − na
y positiva. Sean Yn = √ para n = 1, 2, . . . , entonces
σ n
Yn ⇒ η ∼ N orm(0, 1). (8.2.23)
Nota 8.2 Por (3.2.10), se tiene que V ar(X1 ) < ∞ si y sólo si EX12 < ∞, que es una
condición menos limitada que (8.2.14). Sin embargo, la suposición (8.2.14) es esencial para
obtener en (8.2.15) la estimación de la tasa de convergencia, para la que se establece√
que ζ3 (Yn , η) se anula, cuando n → ∞, con rápidez no más lenta que la sucesión c/ n.
La condición de identidad de distribuciones de los sumandos X1 , X2 , . . . en el Teorema

8.1, puede ser sustituida por algo menos restrictivo. Esto se realiza en la variante del TCL
de Lyapunov enunciada en el Teorema 8.3.
Para v.a. X1 , X2 , . . . , Xk , . . . independientes se denota (suponiendo que existen sus

2
esperanzas y varianzas finitas Pn y positivas): ak = EXk , k = 1, 2, . . . , Bn := V ar(Sn ) =
(por la independencia) = k=1 V ar(Xk ),
p p
Bn := Bn2 ≡ V ar(Sn ), n = 1, 2, . . . (8.2.24)
2
Abraham de Moivre (1667-1754) matemático francés, reconocido por la fórmula de Moivre en el
análisis complejo y primera versión, en la historia, del TCL.
3
Paul Pierre Lévy (1886-1971) matemático fránces, considerado entre los más destacados del campo
de la teorı́a de la probabilidad moderna; introdujo teoremas de lı́mites para sumas de v.a. y el concepto
de martingala, entre otros.
150
Por analogı́a con la Definición (8.2.8) se introducen las sumas estandarizadas:

Pn
k=1 (Xk − ak )
Y n := , n = 1, 2, . . . , (8.2.25)
Bn
con EY n = 0 y V ar(Y n ) = 1, n = 1, 2, . . .
3
Teorema 8.3 Sean X1 , X2 , . . . , Xn , . . . v.a. independientes y suponga que existe E Xk <
∞, k = 1, 2, . . . Suponga, también, que
Pn 3
k=1 E X k − ak
Ln := −→ 0, cuando n → ∞. (8.2.26)
Bn3
Entonces existe una constante c (que no depende de las distribuciones de Xk ) tal que,

ρ Y n , η 6 c Ln , n = 1, 2, . . . ,
donde η ∼ N orm(0, 1).

Si, además, X1 , X2 , . . . son idénticamente distribuidas con a = EX1 y σ 2 = V ar(X1 ) ∈
(0, ∞), entonces existe una constante c (que no depende de las distribuciones de Xk ) tal
que,
3
c E X 1 − a
ρ Y n, η 6 √ , n = 1, 2, . . . (8.2.27)
n σ3
En particular, bajo las condiciones de arriba Y n ⇒ η ∼ N orm(0, 1), con Y n definada

en (8.2.25).
Nota 8.3 (a) En la conclusión del Teorema 8.3 (en particular en (8.2.27)), ρ es la métri-
ca uniforme definida en (7.3.9).
(b) La condición (8.2.26) (un caso particular de la condición de Lyapunov) demanda que
las distribuciones de los sumandos X1 , X2 , . . . , Xn , . . . en (8.2.25), en algún sentido,
“no cambian demasiado”.
nE|X1 − a|3 1 E|X1 − a|3
Para sumandos i.i.d., con E|X1 |3 < ∞, Ln = √ 3 = √ → 0,
(σ n) n σ3
cuando n → ∞; lo cual implica que la cota de la tasa de convergencia de (8.2.27) es
de orden √cn ).
151

El Ejercicio 8.19 muestra que para v.a. i.i.d. en el TCL la distancia uniforme ρ Y n , η ,
constante
en caso general, no puede anularse, con n → ∞, más rápido que √ .
n
En el Ejemplo 8.1, a continuación, se encuentra la sucesión de v.a. X1 , X2 , . . . inde-
pendientes que no satisfacen (8.2.26) y tampoco cualquier versión del TCL.
(c) Los TCL “clásicos” 8.2 y 8.3 afirman que las sumas estandarizadas convergen débil-
mente (en distribución) a la v.a. Normal estándar, cuando el número de sumandos
n crece sin cota. El Teorema 8.1 provee la misma propiedad y además, debido a la
presencia de la métrica ζ3 (ξ1 , η) en la parte derecha de (8.2.15), resulta que para
cada n fijo, ζ3 (Yn , η) se aproxima a cero cuando ζ3 (ξ1 , η) se aproxima a cero. Es de-
cir, además de la convergencia con n → ∞, las f.d. FYn de las sumas estandarizadas
Yn son cercanas a las Normales, si (para cualquier n fijo) las distribuciones de los
Xk − a
sumandos ξk = en (8.2.12) son próximas a las Normales.
σ
Sn − na
(d) Para el caso de v.a. X1 , X2 , . . . i.i.d. de (8.2.25) y (8.2.8) se sigue que Y = √ ,
σ n
(n = 1, 2, . . . ). Según algunas investigaciones recientes la constante c en (8.2.27) es
menor que 0.7656. Pero, por otro lado (compare con el Ejercicio 8.19) se sabe que
c > 0.4096.

1
Ejemplo 8.1 (a) Sean X1 , X2 , . . . , Xk , . . . v.a. independientes y Xk ∼ P oiss λk = k ,
2
1
k = 1, 2, . . . Por (3.1.6) y (3.3.28) ak = EXk = k = V ar(Xk ). Entonces, en
!1/2 2
n
X 1 n n
X X 1
(8.2.24), Bn = (por (2.3.23)) → 1 y a k = → 1, cuando
k=1
2k k=1 k=1
2k
n → ∞. Entonces en (8.2.25) para n suficientemente grande se tiene:
Pn Pn n
k=1 X k − k=1 ak
X
Yn = ≈ Xk − 1.
Bn k=1
Del Ejercicio 8.7, Y n ⇒ Y − 1, donde Y ∼ P oiss(λ = 1). Por lo tanto, las sumas
estandarizadas Y n no pueden converger a una v.a. Normal (i.e., no se cumple el
TCL). La condición (8.2.26) no se cumple en este ejemplo porque Bn → 1 y no
podrı́a suceder que Ln → 0.
(b) Sean X1 ∼ U (−1, 1) y Xk = X1 , k > 2 (las v.a. son fuertemente dependientes).
1
Entonces (véase (3.1.7) y (3.2.16)), EXk = 0, V ar(Xk ) = y en (8.2.8) las sumas
3
152
√ √
3 Sn 3 nX1 √ √ √
estandarizadas Yn = √ = √ = 3 nX1 ∼ U 0, 3n no convergen
n n
débilmente. Es decir, cualquier versión del TCL no es cierta para esta sucesión de
v.a.
Nota 8.4 El inciso (b) del ejemplo anterior se muestra que la hipótesis de independen-
cia de los sumandos es importante y no pude ser excluida. Sin embargo, esta hipótesis
podrı́a ser sustituida por una especie de “dependencia ligera”. Resulta que en la teorı́a
moderna, los TCL se demuestran para muchas clases de sucesiones de v.a. X1 , X2 , . . .
dependientes (estacionarias, cadenas de Markov, marginales, etc.). Pero cada vez, se usan
algunas condiciones que garantizan que la dependencia entre Xn y Xn+m desaparece con
el crecimiento de m.
8.3. Notas sobre la exactitud de la aproximación Nor-

mal
Nos detendremos un poco en las cuestiones de estimación de la tasa de convergencia
en los TCL debido a que son muy importantes (y en algunas ocasiones, dudosas) en las
aplicaciones de estos teoremas. Algunas de estas aplicaciones están basadas en afirmacio-
nes como ésta (véanse los ejemplos que siguen): para toda n “suficientemente grande” en
(8.2.8)
la distribución de Yn ≈ la distribución de η ∼ N orm(0, 1). (8.3.28)
La afirmación en (8.3.28) se sigue de los Teoremas 8.1 y 8.2, pero ¿qué significa “su-
ficientemente grande” para obtener una exactitud “razonable” en la aproximación en
(8.3.28)? La respuesta depende de la rapidez (o tasa) de acercamiento de la parte
izquierda en (8.3.28) a la parte derecha (con el crecimiento de n). A pesar de que la dis-
tribución del lı́mite (distribución Normal) es universal y no depende de las propiedades
de las distribuciones de los sumandos, las últimas afectan crucialmente a la rapidez de
convergencia.
En un sentido general, la convergencia es lenta, si los sumandos son discretos (y muy

lenta, si ellos, además, son asimétricos con respecto a la esperanza). La tasa de conver-
gencia es rápida, si los sumandos son v.a. a.c. (y muy rápida, si, además los suman-
dos, son simétricos con respecto al valor promedio). Nótese que la densidad del lı́mite
153
8.3. Notas sobre la exactitud de la aproximación Normal
2 /2
fη (x) = √1
2π
e−x es simétrica respecto a su esperanza (Eη = 0) (véase la Figura 8.3).
Las desigualdades (8.2.15) y (8.2.27) (entre una gran variedad de desigualdades de

este tipo) ofrecen una cota superior para la tasa de convergencia en el TCL. En algunos
casos, estas desigualdades dan la velocidad correcta de la aproximación de FYn a Fη ≡ Φ
(para v.a. discretas), pero para sumandos Xk en (8.2.8) a.c. como regla la rapidez de
convergencia es mucho más alta que la de constante
√
n
.
En el libro Breiman (1969) se ofrecen algunas gráficas, bastante ilustrativas, que com-
paran las f.d. FYn de sumas estandarizadas con la de la Normal Φ, para diferentes n
y distintas distribuciones de los sumandos Xk en (8.2.6). Estas gráficas dan una buena
idea acerca de la tasa de convergencia en el TCL. De ellas se sigue que para obtener
una aproximación Normal “bastante buena”, en el caso de sumandos discretos (“más o
menos” simétricos), es suficiente tener de 2-4 centenas de sumandos; pero, por ejemplo,
para Xk ∼ U (0, 1) las distribuciones de Yn con n entre 5 y 6 se aproxima perfectamente
mediante la distribución Normal.
Nota 8.5 Otra vez subrayamos que las cotas superiores para el error de aproximación en
(8.2.15) y (8.2.27) son universales y por eso, necesariamente deben tomarse en cuenta las
“peores distribuciones” de los sumandos (consulte el Ejercicio 8.19). Por esta razón estas
cotas en muchos casos no son muy prácticos, sin embargo nos dan una idea general sobre
la tasa de convergencia en los TCL.
Ejemplo 8.2 (a) Sean n = 400 y X1 , X2 , . . . , Xn ∼ Bern(p = 0.001) v.a. i.i.d. Del
Ejemplo 1.4(b), Sn ∼ Bin(n = 400, p = 0.001) y P (Sn < 1) = P (Sn = 0) =
(1 − p)n ≈ 0.670185906.
p p
Por otro lado, de (3.2.13), a = EX1 = p = 0.001, σ = V ar(X 1 ) = p(1 − p) ≈
Sn − na 1 − 0.4
0.031606961 y P (Sn < 1) = P √ < = P (Yn < 0.94916)
σ n (0.031606961)(20)
≈ (por (8.2.20)) ≈ P (η < 0.94916) ≈ (por tablas de la distribución normal estándar)
≈ 0.8264.
Concluı́mos que, a pesar de que el número de sumandos n = 400 parece “bastante
grande”, el error absoluto δ ≈ |0.6702−0.8264| = 0.1562 de la aproximación Normal
es demasiado grande. Todavı́a menos satisfactorio es el error relativo δ/P (Sn < 1) ≈
0.1562
0.6702
≈ 0.2331 (como el 23 %).
154
La situación descrita se debe al hecho de que la distribución de Xk es discreta y

además “asimétrica” con respecto de la esperanza EXk = 0.001 (véase la Figura
8.5).
P(Xk =0)=0.999
P(Xk=1)=0.001
0 EX = 0.001 1
k
Figura 8.5: Distribución de Bernoulli asimétrica.
Nota 8.6 (a) Como ya se notó en el Capı́tulo 1, la integral en (8.2.17) no se calcula

en términos de funciones elementales. Por esto, para encontrar los valores de
Φ(x) se usan tablas (obtenidas por integración numérica).
(b) Por
Z ∞ la simetrı́a de la densidad fη (véase la Figura 8.3) y por (3.1.9), Eη 3 =
1 x2
x3 √ e− 2 dx = 0 (la integral de una función impar):
−∞ 2π
Por otro lado para las v.a. Xk estandarizadas del Ejemplo 8.2 (a) obtenemos
que (véase (3.1.8)):
3 3 3
Xk − a −0.001 1 − 0.001
E ≈ 0.999 + 0.001 ≈ 31.57821, (8.3.29)
σ 0.031606 0.031606
155
8.3. Notas sobre la exactitud de la aproximación Normal
que es muy distinta de cero.

Existen métodos efectivos para mejorar la exactitud de la aproximación Nor-
mal en (8.2.20) o en (8.3.28) tomando en cuenta el “parámetro de asimetrı́a”
3
expresado en los términos de E Xk − a (consulte, por ejemplo Pitman(1993),
Capı́tulo 2 donde se presenta una muy buena exposición de técnicas de mejora-
miento “asimétrico” de la aproximación Normal para distribuciones binomiales).
Sin embargo, en situaciones como la del Ejemplo 8.2 (a) (n “grande” y p es

cercano a 0) la aproximación de Poisson es más efectiva.
Aplicando la aproximación de Poisson del Ejercicio 7.5, se obtiene que P (Sn <
1) ≈ P (X = 0), donde X ∼ P oiss(λ = np), y del Ejemplo 1.4(c), P (X =
0
0) = λ0! e−λ = e−np = e0.4 ≈ 0.670320046, de lo que resulta un error relativo de
≈ 0.02 %.
(b) (Segunda parte del Ejemplo 8.2) Sean X1 , X2 , X3 , X4 ∼ U (0, 1) v.a. i.i.d., al aplicar
la fórmula de convolución (2.2.18) no es tan difı́cil obtener (integrando) la f.d. FS4
(ver Feller(1978), página 55):

4
 X (−1)k 4
máx{0, (x − k)} si x ∈ [0, 4],





k=0
k!(4 − k)!
FS4 (x) =

 0 si x < 0,



 1 si x > 4.
Por esta fórmula se calcula P (S4 6 1.5) = FS4 (1.5) = 0.200520833.

Ahora, consideremos la aproximación Normal para Pq (Sn 6 1.5) con n = 4. De
p 1
(3.1.7) y (3.2.16), a = EXk = 0.5; σ = V ar(Xk ) = 12 ≈ 0.2887 y por (8.2.20),

Sn − na 1.5 − na
P (Sn 6 1.5) = P √ 6 √ = P (Yn 6 −0.8660) ≈ P (Yn 6 −0.87) ≈
σ n σ n
P (η 6 −0.87) = Φ(−0.87) ≈ (por tablas) ≈ 0.1922.
Entonces, con el número de sumandos n = 4 se obtiene la sorprendentemente buena

aproximación Normal con el error absoluto de ≈ 0.0083208 (y con un error relativo
de ≈ 0.0415 (4 %)). La causa detrás de tal resultado es el hecho que la v.a. Xk tiene
la densidad fXk que es simétrica con respecto a la esperanza EXk = 0.5.
156
y fX (x)
k
x
0 EX k=0.5 1
8.4. ¿Por qué en los TCL la distribución del lı́mite

es Normal?
Una clave para encontrar la respuesta a dicha pregunta está en la propiedad de las
v.a. Normales (2.2.19) en el Teorema 2.2. Limitándonos al caso en que n = 2, mostramos
que esta propiedad caracteriza a las v.a. Normales, i.e., bajo hipótesis de amplia consi-
deración, solamente las v.a. Normales poseen la propiedad (2.2.19).
Teorema 8.4 Sea ε > 0 un número dado, y sean ξ, ξ1 y ξ2 v.a. i.i.d. tales que: Eξ =
Eξ1 = Eξ2 = 0; V ar(ξ) = V ar(ξ1 ) = V ar(ξ2 ) = 1; E|ξ|3 < ∞, E|ξ1 |3 < ∞, E|ξ2 |3 < ∞.
Supongamos que (ζ3 es la métrica de Zolotarev de orden 3 definida en (7.3.16))

ξ1 + ξ2
ζ3 ξ, √ 6 ε. (8.4.30)
2
Entonces
1
ζ3 (ξ, η) 6 ε, donde η ∼ N orm(0, 1). (8.4.31)
1 − √12
Demostración.
Sean η1 , η2 ∼ N orm(0, 1) v.a. i.i.d. Por (2.2.19) F η1√+η2 = Fη , por lo tanto, ζ3 (ξ, η) =
2
η1 + η2 ξ1 + ξ2
ζ3 ξ, √ 6 (por la desigualdad del triángulo en la Definición 7.2) 6 ζ3 ξ, √
2 2
ξ1 + ξ2 η1 + η2 1 h i
+ζ3 √ , √ 6 (por (8.4.30) y (7.3.29)) 6 ε + √ ζ3 (ξ1 , η1 ) + ζ3 (ξ2 , η2 ) =
2 2 ( 2)3
157
8.4. ¿Por qué en los TCL la distribución del lı́mite es Normal?
1
(por igualdad de distribuciones) = ε + √ ζ3 (ξ, η) < ∞, por las condiciones del teorema
2
1
y la Proposición 7.5(b). O bien, ζ3 (ξ, η) 6 ε + √ ζ3 (ξ, η), de lo que sigue (8.4.31). 2
2
Al tomar ε = 0 en (8.4.30) y (8.4.31) y considerando que para cualesquiera v.a. X, Y ,
si ζ3 (X, Y ) = 0, entonces FX = FY , obtenemos el siguiente resultado.
Corolario 8.2 Bajo las hipótesis del Teorema 8.4, si
Fξ ≡ F ξ1√+ξ2 , (8.4.32)
2
entonces, ξ ∼ N orm(0, 1).
Nota 8.7 De la desigualdad (8.4.31) resulta que si (8.4.30) se cumple con un ε cercano
a cero, entonces la distribución de ξ se aproxima la Normal.
Estamos listos para explicar el papel de la distribución Normal en los TCL. Para
simplificar las notaciones consideraremos el caso cuando en (8.2.5) y (8.2.7) a = 0, σ = 1.
n
1 X
Entonces en (8.2.8), Yn = √ Xk , con EXk = 0 y V ar(Xk ) = 1, k = 1, 2, . . . , n.
n k=1
Teorema 8.5 Supongamos que X1 , X2 , . . . , Xk , . . . son v.a. i.i.d. con E|X1 |3 < ∞, y que
Yn ⇒ ξ. Entonces ξ ∼ N orm(0, 1).
Demostración.
Considerando n = 2m con m = 1, 2, . . . tenemos que
X1 + X2 + · · · + Xn
Yn = √ =
n
1 X1 + X 2 + · · · + Xm 1 Xm+1 + Xm+2 + · · · + X2m
= √ √ +√ √ , (8.4.33)
2 m 2 m
donde, por las condiciones del teorema,
Yn ⇒ ξ, (8.4.34)
158
X1 + X2 + · · · + Xm Xm+1 + Xm+2 + · · · + X2m

Zn := √ ⇒ ξ1 , Zn0 := √ ⇒ ξ2 , por lo cual
m m
Fξ = Fξ1 = Fξ2 . (8.4.35)
Las v.a. Zn y Zn0 son independientes (ası́ como las funciones de v.a. independientes),
1
y por la Proposición 7.2 y (8.4.33) se obtiene que Yn ⇒ √ (ξ1 + ξ2 ) donde ξ1 y ξ2 son
2
independientes como lı́mites débiles de v.a. independientes. Comparando lo último con
(8.4.34) se concluye que Fξ = F ξ1√+ξ2 , es decir, se cumplen las condiciones del Corolario
2
8.2, por lo tanto ξ ∼ N orm(0, 1). 2
Hay otros argumentos que aclaran la presencia de la distribución Normal en los TCL. Si
X es una v.a. tal que P (X = 0) = 0.0001, P (X = 1) = 0.9999 y un observador afirma que
X tomó el valor 1, entonces estamos recibiendo un poco de información. En la misma
situación, la información crece considerablemente, si P (X = 0) = P (X = 1) = 1/2
(“incertidumbre máxima”). En este sencillo caso la cantidad de información se mide
por I(p) = (1 − p) ln(1 − p) + p ln p y el valor opuesto (no negativo) −I(p) := Ent(p) se
llama la entropı́a (de la distribución de X), que se usa en probabilidad y fı́sica como una
medida de incertidumbre.
Ent(p)
Entmax (p) ∼
∼ 0.34657 Ent(p)
p
0 1/2 1
Para una v.a. X a.c. con suZdensidad fX , la entropı́a se define similarmente de la

∞
siguiente manera: Ent(fX ) := − ln[fX (x)] fX (x) dx, (donde ln(0) · 0 := 0).
−∞
No es difı́cil demostrar que entre todas las v.a. a.c. X con EX = 0 y V ar(X) = 1,
la v.a. η ∼ N orm(0, 1) tiene la máxima entropı́a. Es posible, también, demostrar que
para las sumas estandarizadas en (8.2.8) la entropı́a crece con el aumento de n. Entonces
es razonable pensar (¡y demostrar bajo la condición EXk2 < ∞!) que la distribución de
Yn se aproxima a la Normal y que tiene incertidumbre máxima. (Admitiendo expresiones
vagas, la v.a. Normal es sobre todo “aleatoria” porque asintóticamente adquiere “aleato-
riedades” de diferentes tipos que se encuentran entre los sumandos de Sn = X1 +· · ·+Xn .)
159
8.4. ¿Por qué en los TCL la distribución del lı́mite es Normal?
Luego del párrafo teórico anterior, nos relajáremos un poco con el siguiente ejemplo.
Ejemplo 8.3 (Ruleta americana.) Consideremos el juego de la ruleta americana (véase

Ejercicio 6.6 del Capı́tulo 6). Se sabe que el hecho de apostar x > 0 dólares por “rojo”
significa que el jugador gana x dólares, si “sale” rojo y pierde x dólares en caso contrario.
Es decir, la ganancia - pérdida se representa por la v.a.:
(
18 9
x, con probabilidad 38 = 19 ,
X= 20 10
(8.4.36)
−x, con probabilidad 38 = 19 .
Notemos que el juego (como todos los juegos en un casino) es injusto en el sentido de que
9 10 x
EX = x + (−x) = − < 0, (8.4.37)
19 19 19
y al apostar un número grande de veces, la serie de juegos seguramente (con probabilidad
1) terminará, por la ruina del jugador (como hemos mostrado en el Ejemplo 6.6).
Admitimos que en el caso de ruina, el jugador puede recibir un préstamo y seguir

apostando. Consideremos los resultados posibles de una serie de apuestas bastante larga,
pero finita.
Supongamos que un jugador apuesta 5 dólares (que en algunos casinos de las Vegas
es la mı́nima cantidad para apostar) por “rojo”, n = (19)2 = 361 veces. Su ganancia -
pérdida neta es Sn = X1 + · · · + Xn , con x = 5 en (8.4.36) y (8.4.37). Estimemos ahora
a partir del TCL las siguientes probabilidades:
1. P (Sn > 0) (de ganar algo).
2. P (Sn > 100) (de ganar al menos 100 dólares).
3. P (Sn 6 −100) (de perder por lo menos 100 dólares).
5
Primero, por (8.4.37) con x = 5 se tiene a = EX1 = − , y por (3.2.10) σ 2 = V ar(X1 ) =
19 5 2
E(X12 ) − (EX1 )2 = (ya que por (8.4.36), X 2 = x2 con probabilidad 1) = 25 − ≈ 25,
p 19
o bien σ = V ar(X1 ) ≈ 5.

Sn − na 100 − na
Para el caso 2, tenemos que P (Sn > 100) = P √ > √ = (véase
σ n σ n
5
100 + 192 ( 19

)
(8.2.8)) = P Yn > ≈ P (Yn > 2.05) ≈ (por (8.2.21)) ≈ P (η > 2.05) =
5 · 19
160
1 − P (η < 2.05) = (pues η es a.c.) = 1 − Φ(2.05) ≈ (por los valores en tablas) ≈ 0.0202.
Con un procedimiento semejante al último inciso, se tiene finalmente que:

1. P (Sn > 0) ≈ 0.1587.
2. P (Sn > 100) ≈ 0.0202.
3. P (Sn 6 −100) ≈ 0.4801.
Nota 8.8 (a) La estrategia “precavida” de juego que realiza el jugador en el ejemplo de
arriba, da resultados poco promisorios pues tiene tan sólo el 16 % (aproximadamente)
de posibilidades de ganar algo, pero casi la mitad de probabilidades de perder más de
100 dólares, y muy pocas posibilidades (2 %) de ganar más de 100 dólares. Por otro
lado, una estrategia “arriesgada” como apostar 100 dólares por rojo una sola vez,
nos da una probabilidad de 18/38≈ 0.4737 de ganar 100 dólares y se perderı́a esta
misma cantidad con una probabilidad de 20/38 ≈ 0.5263. Por eso esta estrategia es
mucho mejor que la primera. Aunque usándola, el jugador se pierde la oportunidad
de gozar del juego durante 10 horas.
(b) Para alguien que planea visitar Las Vegas se sugiere usar la estrategia siguiente como
opción, para ganar mil dólares con probabilidad 1 jugando en la ruleta:
- Primero: Apostar mil dólares por rojo.
- Segundo: Si gana, entonces salga.
Si pierde, entonces apueste dos mil dólares por “rojo”.
- Tercero: Si gana, salga.
Si pierde, apueste cuatro mil dólares por “rojo”.
- Siga duplicando sus apuestas hasta que salga por primera vez el “rojo”.
En ese instante deje de jugar y salga con la ganancia de mil dólares.
Sin embargo existen dos obstáculos para la realización de tan “excelente” estrategia:
1) Para el desarrollo del juego necesitará (con probabilidad positiva) poder adquirir
como préstamo una cantidad de dólares arbitrariamente grande.
2) En los casinos no se permiten apuestas mayores a una cantidad establecida. (Pero
en el caso de 12 salidas sucesivas de “negro”, para lo que hay una probabilidad
positiva, usted deberá apostar alrededor de más de 4 millones de dólares.
161
8.5. Ejercicios
8.5. EJERCICIOS
8.1 La probabilidad de que un recién nacido sea varón es aproximadamente p = 0.512.
Suponga que los sexos de los recién nacidos son independientes entre sı́, entonces
estime la probabilidad de que entre 1000 bebés que nacerán el próximo mes en el
D.F., el número de mujeres será mayor que el número de varones (a) mediante la
distribución Binomial, y (b) utilizando el TCL.
Resp. : (a) ≈ 0.2145 y (b) ≈ 0.2236.
8.2 Sean X1 , X2 , . .√
. v.a. no
√ negativas i.i.d. para cuales EX1 = 1 y V ar(X1 ) = 1.
Mostrar que 2 Sn − n ⇒ η ∼ N orm(0, 1).
√ √
Sugerencia: Multiplicar y dividir por ( Sn + n). Usar (6.1.7) en la LFGN y mos-
trar el siguiente hecho intuitivamente claro: si Zn ⇒ Z y ξn → 1 con probabilidad
1, entonces ξn Zn ⇒ Z.
8.3 Sean X1 , X2 , . . . v.a. i.i.d. con EX1 = 0 y V ar(X1 ) = 1. Demostrar que

Sn
p ⇒ η ∼ N orm(0, 1).
X1 + X22 + · · · + Xn2
2
Sugerencia: La misma del Ejercicio 8.2.
8.4 Un dado simétrico se lanza 36 veces. Sea Sn el número de veces que resulta el “6”.
Estimar P (Sn 6 2):
(a) de forma precisa (a partir de la distribución Binomial), y
(b) aproximadamente (a partir del TCL).
Resp. : (a) 0.04712177; (b) ≈ 0.0367.
Nota 8.9 Las respuestas del Ejercicio 8.4 indican que el número de sumandos n =
36 (de v.a. discretas, en este caso) en Sn = X1 + · · · + Xn (donde Xk es la indicadora
de las salidas de “6”), no es suficientemente grande para obtener una buena aproxi-
mación a la Normal. De hecho, el error relativo es 0.04712177−0.0367
0.04712177
≈ 0.22117(≈ 22 %).
8.5 Al llegar a una oficina, un cliente se encuentra con que hay 40 clientes en fila
esperando servicio. Supongamos que los tiempos de servicio son las v.a. a.c. i.i.d.
X1 , X2 , . . . con promedio a = EX1 = 1.4 min. y con desviación estándar σ = 0.7.
Estimar la probabilidad de que el cliente recién llegado tendrá que esperar más de
una hora para ser atendido.
Resp. : ≈ 0.1841.
162
Nota 8.10 A diferencia del caso de v.a. discretas (ver el Ejercicio 8.4), para un
número de sumandos n = 40 con v.a. a.c. el TCL como regla da una aproximación
bastante buena (véase el Ejemplo 8.2 (b)).
8.6 Demostrar la siguiente generalización del Teorema 8.1: Sean X1 , X2 , . . . , Xk , . . .

v.a. independientes tales que sup E|Xk |3 < ∞, ak = EXk , σk2 = V ar(Xk ) > 0
k>1
X k − ak
y ξk := con k = 1, 2, . . . Entonces para cada n = 1, 2, . . . se tiene que
σk !
n n
1 X 1 1 X
ζ3 √ ξk , η 6 √ máx ζ3 (ξk , η). En particular, √ ξk ⇒ η.
n k=1 n 16k6n n k=1
8.7 Sean X1 , X2 , . . . , Xn , . . . v.a. tales que Xn ∼ P oiss(λn ). Demostrar que si λn →

λ > 0 (cuando n → ∞), entonces Xn ⇒ X ∼ P oiss(λ).
λkn −λn λk −λ
Sugerencias: P (Xn = k) = e → e , cuando n → ∞, por la continui-
k! k!
dad de la función xk e−x .
8.8 Sean X1 , X2 , . . . , Xk , . . . v.a. i.i.d. con la densidad de Cauchy (6.1.11). Al usar el

hecho (aceptado sin demostración) de que para cada n = 1, 2, . . . la v.a. Snn tiene la
Sn
distribución de Cauchy, demostrar que , n = 1, 2, . . . no converge débilmente a
bn
una v.a. Normal para cualquier sucesión numérica {bn , n = 1, 2, . . . }.
Nota 8.11 El Ejercicio 8.8 indica que la finitud de la varianza σ 2 = V ar(Xk ) de

los sumandos es importante en (la mayorı́a de) los TCL. Si X1 , X2 , . . . son v.a. i.i.d.
con V ar(X1 ) = ∞, y que satisfacen ciertas condiciones, entonces existe una sucesión
Sn
numérica {bn : n = 1, 2, . . . } tal que ⇒ Z, donde Z no es una v.a. Normal (en
bn
un caso particular Z es Cauchy con densidad (6.1.11)).
8.9 Sean X1 , X2 , . . . ; Y1 , Y2 , . . . v.a. i.i.d. con la densidad exponencial, con parámetro

λ = 1, y Sn = (X1 − Y1 ) + (X2 − Y2 ) + · · · + (Xn − Yn ), n = 1, 2, . . . Calcular los
siguientes lı́mites:
√
(b) lı́m P Sn < n1/3 ; (c) lı́m P Sn < n2/3 .

(a) lı́m P (Sn < n);
n→∞ n→∞ n→∞
Resp. : (a)≈ 0.7611; (b) =0.5; (c) =1.
163
8.5. Ejercicios
8.10 Sean X1 , X2 , . . . v.a. i.i.d. con a = EXk = 0, 0 < σ 2 = V ar(Xk ) y E|Xk |3 < ∞.
Mostrar que para cualesquiera a, b tales que −∞ < a < b < ∞ y para cada α tal
que 0 6 α < 1/2 se cumple que nα P (a 6 Sn 6 b) → 0, cuando n → ∞, .
Sugerencia: Usar la Definición de ρ en (7.3.9) y la desigualdad (8.2.27).
1 1
Nota 8.12 Bajo ciertas condiciones adicionales, n 2 P (a 6 Sn 6 b) → √2π σ
(b − a),
con a, b ∈ R. Este hecho podrı́a ser usado para explicar el porqué cada molécu-
la de un gas en equilibrio en su movimiento térmico tiene una posición aleatoria
representada por un vector aleatorio con una distribución uniforme dentro de un
recipiente.
8.11 Ofrecer algunos argumentos no formales (intuitivos) que sugieran que para una
t relativamente grande, la v.a. X(t) (el capital corriente) en el modelo de riesgo
(4.4.29), tendrá una distribución cercana a la Normal.
Sugerencia: Ver el Ejercicio 4.13 y la Nota 8.1 (d).
8.12 (Un uso del método de Monte Carlo en el Medievo.)

En el Medievo, para obtener una longitud estándar de la medida llamada “pie” se
utilizó el siguiente procedimiento. Se seleccionó a los 16 primeros hombres que salı́an
de una iglesia y se les pidió uno de sus zapatos. Los zapatos se colocaron sobre una
lı́nea recta y se adaptó una cuerda a la longitud total que abarcaban los zapatos en
la lı́nea. Finalmente, la cuerda se dobló a la mitad y después cuatro veces obteniendo
ası́ la medida estándar de “1 pie” (≈ 30.48cm). Al suponer que lasp longitudes de los
zapatos X1 , X2 , . . . , X16 son v.a. i.i.d con a = EXk = 30.48, σ = V ar(Xk ) = 1.2
X1 + X2 + · · · + X16
(cm), y utilizando la medida descrita de un 1 pie como Z := ,
16
aproximar utilizando el TCL P |Z − a| 6 0.5(cm) .
Resp.: = 0.905 (es decir, una precisión sorprendentemente alta considerando el
“rústico” procedimiento).
8.13 Sean X1 , X2 , . . . , Xk , . . . v.a. independientes, tales que para cada k = 1, 2, . . . ,


1
√ con la probabilidad 1/2,


Xk = k
1
− √ con la probabilidad 1/2.


k
Sn
Mostrar que ⇒ η ∼ N orm(0, 1).
ln n
164
n n
X X 1
Sugerencia: Checar que V ar(Xk ) = se comporta como ln n, cuando
k=1 k=1
k
n → ∞. Para Y n como en (8.2.25) verificar la condición (8.2.26) y usar el Teorema
8.3.
8.14 Imaginemos que una compañı́a de seguros tiene 1,000,000 de automóviles asegura-
dos. El pago mensual para el k-ésimo asegurado (k = 1, 2, . . . , 100000) es la v.a.
(
ξk con la probabilidad p,
Xk =
0 con la probabilidad 1 − p,
donde p = 0.003 es la probabilidad de que ocurra un incidente durante un mes

(descartando la probabilidad de que suceda más de un incidente en p un mes). Supo-
niendo que X1 , X2 , . . . , X100000 son v.a. i.i.d. con Eξk = 2500, σ = V ar(Xk ) = 700
(pesos), aproximar la probabilidad de que el pago total mensual de la compañá a
sus asegurados sea mayor a 0.8 millones.
Resp.: 0.1271.
100
!
Y
8.15 Sean X1 , X2 , · · · ∼ U (0, 1) v.a. i.i.d. Dar una aproximación de P Xk < 10 · 2−100 .
k=1
Resp.: ≈ 0.99951.
Sugerencia: Tomar el logaritmo y aplicar el TCL.
Nota. Se recomienda comparar este resultado con el Ejemplo 6.9.
densidad fXk (x) = 12 e−|x| , x

8.16 Sean X1 , X2 , . . . , Xn v.a. i.i.d. con la ∈ R, y n = 400.
X + X + · · · + X
1 2 n
Encontrar una constante c tal que P 6 c ≈ 0.95
n
Resp.: c ≈ 0.1386.
8.17 Supongamos que una persona aplica la siguiente estrategia para jugar en la ruleta
americana (ver el Ejemplo 8.3). Primero, apuesta 5 dólares por el “rojo”, si gana
entonces sale; si pierde, apuesta 10 dólares por rojo. La persona sale del juego
después del segundo intento (independientemente del resultado). Sea Z la ganancia-
perdida final. Mostrar que:
(a) P (Z > 0) ≈ 0.72299 > 0.5 (y el juego es “favorable” en este sentido).

(b) EZ ≈ −0.7407 (y el juego no es favorable en este sentido).
165
8.5. Ejercicios
Sugerencia: Escribir Z = Z1 + Z2 para los dos intentos y usar (2.2.13) y (4.1.8)

con (
1, si gana en la primera apuesta,
Y =
0, si pierde en la primera apuesta.
8.18 En el Ejemplo 8.3, sea n el número de apuestas realizadas. Mostrar que para cual-
quier ε > 0 (podrı́a ser muy pequeña), existe la constante
√ K tal que para toda n
5
suficientemente grande se cumple que P (Sn < − 19 n + nK) > 1 − ε.
Sugerencia: Usar el TCL.
5
√ que − 19 n se aproxima a −∞ más
Nota 8.13 Para el Ejercicio 8.18, obsérvese
rápido de lo que puede crecer el término n K.
8.19 Sean X1 , X2 , . . . , Xn . . . v.a. i.i.d. con la siguiente distribución:

1
P X1 = 1 = P X1 = −1 = .
2
Sean η ∼ N orm(0, 1) y ρ la métrica uniforme definida en (7.3.9). Al igual que (8.2.8)
Yn , n = 1, 2, . . . denotan las correspondientes sumas estandarizadas. Demostrar que
existe una constante c0 > 0 tal que
c0
ρ Yn , η > √ , n = 1, 2, . . . (8.5.38)
n
Sugerencia: Al igual que en el Ejercicio 6.1, aproxime la distribución de Sn uti-

lizando la distribución binomial y la fórmula de Stirling. También en la estimación
de ρ use el hecho de que las distribuciones de η y de X1 (y consecuentemente de Sn )
son simétricas respecto al origen.
Nota 8.14 El resultado en (8.5.38) muestra que para v.a. i.i.d. la tasa de conver-
gencia a la distribución Normal dada por la parte derecha de la desigualdad en
(8.2.27), en general, no puede ser mejorada, es decir, en el caso general en la parte
derecha de (8.2.27) no es posible poner una sucesión {an : n = 1, 2, . . . } que se anule
constante
más rápido que la sucesión √ n = 1, 2, . . .
n
166
Capı́tulo 9
Comparación de distribuciones de
sumas de variables aleatorias y
estabilidad de algunos modelos
estocásticos aplicados
9.1. Desigualdades de estabilidad para sumas de va-

riables aleatorias i.i.d.
En este último capı́tulo se verá de forma concisa algunos resultados recientes que, por
un lado, utilizan un enfoque métrico para generalizar estimaciones de la tasa de conver-
gencia en los TCL, y por otro lado, proveen herramientas para investigar la estabilidad
de los modelos que involucran sumas de v.a.
Las sumas de v.a. independientes son elementos importantes en muchos modelos apli-
cados. Por mencionar algunos, señalamos los procesos de riesgo (véase la Sección 4.4),
procesos de almacenamiento, procesos de regularización del nivel de agua en presas, mo-
delos de colas (filas de espera), procesos de optimización en el reemplazo de equipo, etc.
(consúltese por ejemplo Asmussen (1987) y Tijms (1994)). El siguiente problema surge en
el estudio de la estabilidad (robustez) de modelos de este tipo.
Sean X1 , X2 , . . . y X
f1 , X
f2 , . . . dos sucesiones de v.a. i.i.d. con f.d. F y Fe, respectiva-
mente, y sean para n = 1, 2, . . .
Sn = X1 + · · · + Xn ; e1 + · · · + X
Sen = X en . (9.1.1)
167
9.1. Desigualdades de estabilidad
El problema consiste en establecer desigualdades de la forma

e1 ) ≡ g µ(F, Fe) ,
ρ Sn , Sen 6 g µ(X1 , X (9.1.2)
donde ρ es la métrica uniforme (de Kolmogórov) definida en (7.3.9), µ es una métrica

probabilı́stica adecuada, y g(x) con x > 0 es una función que se anula, cuando x → 0. En
c
algunos casos (que son “mejores”, véase más adelante) g(x) = cn g∗ (x), donde cn = √ →
n
0, cuando n → ∞. El uso en (9.1.2) de la métrica uniforme se explica por su comodidad
en aplicaciones prácticas. De hecho, según (7.3.9), (1.2.5), (1.2.10), la cercanı́a a cero de
la distancia ρ(X, X)
e (i.e. ρ(X, X)
e 6 ε para alguna ε > 0 pequeña) resulta que

P (X ∈ I) − P (Xe ∈ I) 6 2ε (9.1.3)
para cualquier intervalo I ⊂ R, y las desigualdades como (9.1.3) son convenientes para
comparar las distribuciones de las v.a. X y X
e en problemas aplicados.
Es fácil ver que cuando en (9.1.1) EX1 6= E X e1 , entonces no es posible llegar a una
desigualdad razonable como en (9.1.2) con las propiedades de la función g(x) que se han
mencionado (debido a que ESn − E Sen = n(EX1 − E X e1 ) → ∞ cuando n → ∞, si por
ejemplo, EX1 > E X e1 ). Por esto, en el resto del texto, se aplicará la siguiente condición.
Suposición 9.1.1 Existen las esperanzas EX1 , E X

e1 , y
a := EX1 = E X
e1 . (9.1.4)
No es tan fácil, pero es factible, dar algunos ejemplos en los que se cumple (9.1.4), y
ρ Sn , Sen > ∆ > 0, para n = 1, 2, . . . , a pesar que µ F, Fe → 0 para una clase amplia de
las métricas µ. Estos ejemplos indican que para obtener (9.1.2) hay que buscar algunas
restricciones adicionales para las distribuciones de las v.a. X1 y X e1 .
Primero intentaremos usar el TCL. Supongamos, además que

3
E|X1 |3 < ∞, e1 < ∞
E X y e1 ) = σ 2 .
0 < V ar(X1 ) = V ar(X (9.1.5)
Al usar las notaciones introducidas en (8.2.11) y (8.2.12), sean, para n = 1, 2, . . . ,

n n
Sn − na 1 X Sen − na 1 Xe
Yn = √ =√ ξk y Yen = √ =√ ξk , (9.1.6)
σ n n k=1 σ n n k=1
168
CAPÍTULO 9. ESTABILIDAD DE ALGUNOS MODELOS
ESTOCÁSTICOS APLICADOS
Xk − a ek − a
X
donde ξk = y ξek = para k = 1, 2, . . . , n.
σ σ
En el libro Senatov (1998) se ha demostrado el siguiente teorema, que es, en efecto,
un ingenioso desarrollo del TCL 8.1.
Teorema 9.1 Sean X1 , X2 , . . . , Xk , . . . v.a. i.i.d. para las cuales la condición (9.1.5) se
cumple. Entonces, existe una constante C tal que para n = 1, 2, . . .
C
ρ Yn , η 6 √ máx ρ(ξ1 , η), ζ3 (ξ1 , η) . (9.1.7)
n
En (9.1.7), Yn y ξ1 están definidas en (9.1.6), η ∼ N orm(0, 1) y ζ3 es la métrica de

Zolotarev definida en (7.3.16).
Ahora, según el Ejercicio 9.1, la métrica uniforme tiene la siguiente propiedad

ρ αX + b, αY + b = ρ(X, Y ), (9.1.8)
para cualesquiera números reales α 6= 0 y b. Entonces, bajo la Suposición 9.1.1 y la

condición (9.1.5) se obtiene: para las sumas en (9.1.1) y para cada n fija,
!
Sn na S na
√ − √ , √n − √
e
ρ Sn , Sen = (por (9.1.8)) = ρ ≡ ρ Yn , Yen
σ n σ n σ n σ n
6 (por la desigualdad del triángulo para la métrica ρ)
6 ρ(Yn , η) + ρ(η, Yen ) (por (9.1.7) y por su análogo para Yen ).
O bien,
C h i
ρ Sn , Sn 6
e √ máx ρ(ξ1 , η), ζ3 (ξ1 , η) + máx ρ(ξ1 , η), ζ3 (ξ1 , η) ,
e e (9.1.9)
n
donde η ∼ N orm(0, 1).
La parte derecha de la desigualdad (9.1.9) se anula cuando n → ∞ (lo cual es una

buena propiedad), sin embargo, al hacer una comparación con (9.1.2), se puede ver
que en (9.1.9) se ha perdido el factor esencial de “cercanı́a” de sumandos en (9.1.1),
µ(X1 , X
e1 ) = µ(F, Fe). Este factor es importante para nuestros propósitos, puesto que, co-
mo veremos en la Sección 9.2, para estudiar la estabilidad de algunos modelos es necesario
169
9.1. Desigualdades de estabilidad
tener una cercanı́a entre las distribuciones de Sn y Sen , para toda n = 1, 2, . . . , cuando en
(9.1.1) la distribución de X
ek se aproxima a la distribución de Xk .
Sean η1 , η2 , . . . , ηn ∼ N orm(0, 1) v.a. i.i.d. Al usar las notaciones en (9.1.6), el Teorema

2.2 y (9.1.8), se puede reescribir la parte izquierda de (9.1.7) como sigue:
n
! n
!
1 Sn − na 1 X Sn − na X
ρ Yn , η = ρ √ ,√ ηk = ρ , ηk
n σ n k=1 σ k=1
n
!
X
= ρ Sn − na, σ ηk .
k=1
n
!
X
O bien, ρ Yn , η = ρ S n , (σ ηk + a) , (9.1.10)
k=1
donde debido a que E(σ ηk + a) = a, V ar(σ ηk + a) = σ 2 , la v.a Zk := σ ηk + a ∼

N orm(a, σ). Entonces, con estas notaciones, se obtiene por (9.1.10) y (9.1.7) la siguiente
desigualdad, para n = 1, 2, . . .
n n
!
X X C X1 − a Z1 − a
ρ Xk , Zk 6 √ máx ρ(X1 , Z1 ), ζ3 , . (9.1.11)
k=1 k=1
n σ σ
El propósito de los siguientes resultados (publicados en Gordienko (2004) y presenta-

dos en este texto sin demostración), es ofrecer algunas versiones de las desigualdades en
(9.1.11) en las cuales las v.a. Normales Z1 , Z2 , . . . , Zn , se sustituyen por v.a. generales
absolutamente continuas. Esto conllevará a las desigualdades de estabilidad del tipo
(9.1.2) que se cumplen, por ejemplo, bajo la siguiente hipótesis.
Suposición 9.1.2 Existe un entero m > 1 para el cual las v.a. X1 + X2 + · · · + Xm y

X e2 + · · · + X
e1 + X em tienen densidades derivables fX y f e respectivamente, y tales que
X
Z ∞ Z ∞
0 0
fX (x)dx < ∞ y f e (x)dx < ∞. (9.1.12)
X
−∞ −∞
Nota 9.1 La Suposición 9.1.2 se satisface para la mayorı́a de las densidades de uso habi-
tual. Por ejemplo, la densidad exponencial, cuya gráfica se puede ver en la Figura 1.8, no
es derivable en el punto x = 0; sin embargo, la v.a Z = X1 + X2 + X3 con Xi ∼ Exp(λ)
independientes para i = 1, 2, 3, tiene densidad (Gamma (α = 3, λ)) que satisface (9.1.12).
170
Teorema 9.2 (Gordienko (2004)) Admitamos que las Suposiciones 9.1.1 y 9.1.2 se cum-
plen, y que EX12 < ∞, E X e 2 < ∞. Entonces existe una constante C1 tal que para cada
1
n = 1, 2, . . .
n o
ρ Sn , Sn 6 C1 máx ρ X1 , X1 , ζ2 X1 , X1 .
e e e (9.1.13)
Teorema 9.3 (Gordienko (2004)) Admitamos que las Suposiciones 9.1.1 y 9.1.2 se cum-
plen, y además supongamos que

e2 ,
E X12 = E X 1 (9.1.14)
E|X1 |3 < ∞ y E|X

e1 |3 < ∞. Entonces existe una constante C2 tal que para cada n =
1, 2, . . . ,
C2 n o
ρ Sn , Sen 6 √ máx ρ X1 , X
e1 , ζ3 X1 , X
e1 . (9.1.15)
n
En (9.1.13) y (9.1.14) ζ2 y ζ3 son las métricas de Zolotarev definidas respectivamente

en (7.3.15) y (7.3.16).
Nota 9.2 Las constantes C1 y C2 en (9.1.13) y (9.1.15) se calculan explı́citamente en

términos de ciertas caracterı́sticas de las distribuciones de X1 y X e1 . En el caso general, no
es posible quitar los términos ζ2 (X1 , X1 ) y ζ3 (X1 , X1 ) en las partes derechas de (9.1.13)
e e
y (9.1.15) respectivamente (ver el Ejercicio 9.3). Si se cumplen las condiciones de los Teo-
remas 9.2 y 9.3, entonces por la Proposición 7.5 dichas distancias son finitas.
1
El factor √ en la parte derecha de (9.1.15) implica que para n grandes las sumas Sn y
n
Sen tienen distribuciones muy parecidas (a pesar de que las distribuciones de los sumandos
Xk y X ek en (9.1.1) podrı́an ser muy distintas).
Al considerar en (9.1.15) Sen = Z1 + Z2 + · · · + Zn con Zk ∼ N orm(a, σ), k = 1, 2, . . . , y
usando el Teorema 2.2, según el cual Sen tiene distribución Normal, vemos que, en este caso
particular, la expresión de (9.1.15) se convierte en la estimación de la tasa de convergencia
en el TCL dada en (9.1.11). De resultados bien conocidos sobre esta última estimación se
siguen dos afirmaciones:
√
1. En el caso general, los factores 1/ √n de (9.1.15) no pueden ser sustituidos por factores
que se anulen más rápido que 1/ n (cuando n → ∞).
171
9.2. Estimación de la estabilidad en el modelo de riesgo de
Cramér-Lundberg
√
2. Para obtener los factores 1/ n, n = 1, 2, . . . en (9.1.15), la igualdad de los segundos
momentos (o varianzas) en (9.1.14) es esencial y no puede cambiarse por alguna
condición menos restrictiva.
9.2. Estimación de estabilidad en el modelo de riesgo

de Cramér-Lundberg
Regresando al modelo de riesgo de la Sección 4.4, supongamos que la f.d. común F
de las v.a. i.i.d. ξ1 , ξ2 , . . . (tamaño de reclamaciones) involucradas en la ecuación (4.4.29)
del modelo clásico de riesgo
N (t)
X
X(t) = x + γt − ξk , t > 0. (9.2.16)
k=1
es desconocida. Esta situación es tı́pica en la práctica y en tal caso se usa una f.d. Fe como
una aproximación de F , obtenida por estimaciones estadı́sticas o simplificaciones teóricas.
Sean ξe1 , ξe2 v.a. i.i.d. con la f.d. Fe. Entonces, un investigador no puede trabajar con el
modelo “real” (9.2.16), pero puede estudiar el modelo aproximado
N (t)
X
e = x + γt −
X(t) ξek , t > 0. (9.2.17)
k=1
(Aquı́ no se está considerando lo referente a la aproximación de N (t); consúltese la Nota

9.4 (b), más adelante.)
El siguiente teorema provee las desigualdades de estabilidad (o robustez) en

el modelo considerado. Dichas desigualdades permiten estimar la cercanı́a, mediante la
métrica ρ, de las distribuciones de X(t) y X(t)e en (9.2.16) y (9.2.17), en términos de la
desviación entre la f.d. F (de las v.a. ξk ) y la f.d. F (de las v.a. ξk ). La desviación de la
e e
cual se habla se mide mediante el máximo entre la distancia uniforme y las distancias de
Zolotarev.
172
Teorema 9.4 Admitimos que las v.a. ξ1 , ξ2 , . . . y ξe1 , ξe2 , . . . satisfacen las Suposiciones
9.1.1 y 9.1.2 (con ξk , ξek en lugar de Xk , X
ek ).

(a) Si E ξ 2 < ∞ y E ξe2 < ∞, entonces, para toda t > 0
1 1
n o
ρ X(t), X(t)
e 6 C1 máx ρ(ξ1 , ξe1 ), ζ2 (ξ1 , ξe1 ) . (9.2.18)
(b) Si E|ξ1 |3 < ∞, E|ξe1 |3 < ∞ y V ar(ξ1 ) = V ar(ξe1 ), entonces, para toda t > 0
C2 n o
ρ X(t), X(t)
e 6 √ √ máx ρ(ξ1 , ξe1 ), ζ3 (ξ1 , ξe1 ) , (9.2.19)
λ t
donde C1 y C2 son las constantes que aparecen en (9.1.13) y (9.1.15), y λ es la

intensidad del proceso de Poisson N (t) en (9.2.16) y (9.2.17).
Antes de demostrar este teorema se tengamos en cuenta los siguientes comentarios.
Nota 9.3 (a) Las distancias ζ2 (ξ1 , ξe1 ) en (9.2.18) y ζ3 (ξ1 , ξe1 ) en (9.2.19) son finitas de-
bido a las hipótesis del Teorema 9.4 y de la Proposición 7.5.
(b) La desigualdad (9.2.18) afirma que, si del modelo (9.2.17) se obtiene una buena
aproximación para el modelo real (9.2.16) de forma que Eξ1 = E ξe1 , y la distancia

máx ρ(ξ1 , ξe1 ), ζ2 (ξ1 , ξe1 ) ≡ máx ρ(F, Fe), ζ2 (F, Fe) es pequeña, entonces la distan-
cia uniforme entre los procesos de riesgo es

ρ X(t), X(t) e = sup P (X(t) 6 x) − P (X(t)
e 6 x)
x∈R
también será pequeña para toda t > 0.

Por ejemplo, si se sabe que con una ε > 0 pequeña

máx ρ(F, Fe), ζ2 (F, Fe) 6 ε,
entonces |P (X(t) ∈ I) − P (X(t)

e ∈ I)| 6 2C1 ε para cada intervalo en R y para cada
t > 0.
(c) La desigualdad (9.2.19) se cumple, cuando los promedios y las varianzas de la v.a.
ξ1 y su aproximación ξe1 son iguales. Esta fuerte restricción nos da la ventaja de
que la parte derecha de (9.2.19) se anula cuando t → ∞. Por lo tanto, las f.d. de
X(t) y X(t)
e son cercanas para t grandes,
incluso si las f.d. de ξ1 y ξ1 son bastante
e
diferentes. Sin embargo, cuando máx ρ(F, Fe), ζ3 (F, Fe) se aproxima a cero y t → ∞,
la desigualdad (9.2.19) garantiza “un efecto doble de estabilidad”.
173
9.2. Estimación de la estabilidad en el modelo de riesgo de
Cramér-Lundberg
(d) La desigualdad (9.2.19) da una mejor cota de estabilidad del proceso de riesgo que
la demostrada en el libro de Rachev(1991).
Nos limitamos a la demostración de (9.2.19). De (9.2.16), (9.2.17) y la propiedad (9.1.8)

de la métrica ρ, se obtiene:
 
N (t) N (t)
X X
ρ X(t), X(t)
e = ρ ξk , ξek  = (por (7.3.9) y (1.2.5))
k=1 k=1
   
N (t) N (t)
X X
= sup P  ξk 6 x − P  ξek 6 x = (por (2.2.13))
x∈R
k=1 k=1
∞ n
!
X X
= sup P ξk 6 x N (t) = n · P N (t) = n −

x∈R n=1
k=1
∞ n
!
X X
− P ξek 6 x N (t) = n · P N (t) = n

n=1 k=1
6 (por la independencia entre N (t) con ξ1 , ξ2 , . . . , y ξe1 , ξe2 , . . . ),

"∞ n
! n
! #
X X X
6 sup P ξk 6 x − P ξek 6 x · P (N (t) = n) . (9.2.20)

x∈R n=1
k=1 k=1
P P
Esta última desigualdad es debido a que | xk | 6 |xk |.
n
X n
X
Sean Sn := ξk y Sen := ξek . Para cada x ∈ R arbitrario pero fijo, se tiene
k=1 k=1
! !
n n

X X
P ξk 6 x − P ξek 6 x = P Sn 6 x − P Sen 6 x

k=1 k=1

6 sup FSn (x) − FSen (x) = (por (7.3.9)) = ρ Sn , Sen 6 (por (9.1.15))
x∈R
C2 n o
6 √ máx ρ(ξ1 , ξe1 ), ζ3 (ξ1 , ξe1 ) . (9.2.21)
n
De (9.2.20) y (9.2.21) se obtiene
∞
X 1
ρ X(t), X(t)
e 6 C2 máx ρ(ξ1 , ξe1 ), ζ3 (ξ1 , ξe1 ) · √ P N (t) = n . (9.2.22)
n=1
n
174
Ahora consideremos la v.a.

(
Nb (t) = N (t) si N (t) > 1,
1 si N (t) = 0.
 
∞
1  X 1
Por (3.1.8) se tiene que E q
 = 1 · P N (t) = 0 + √ P N (t) = n . Entonces
n
N
b (t) n=1
 
∞
X 1 1  1 1
√ P N (t) = n < E  q 6 (según el Ejercicio 9.4) 6 q 6p ,
n EN (t)
n=1 N (t)
b E N (t)
b
∞ ∞
X X
puesto que de (3.1.4) E N (t) = 1 · P N (t) = 0 +
b n P N (t) = n > n P N (t) =
n=1 n=0
n = EN (t) = (por (4.3.27)) = λ t. Por tanto,
∞
X 1 1
√ P (N (t) = n) < √ . (9.2.23)
n=1
n λt
Finalmente, al combinar (9.2.23) y (9.2.22) se obtiene (9.2.19). 2
Veamos ahora un sencillo ejemplo un poco artificial, pero que sirve para ilustrar la
desigualdad (9.2.18).
Ejemplo 9.1 Sea ξ1 ∼ U (1 + ε, 3 − ε) con ε ∈ (0, 1/2) (un parámetro “pequeño”). Se

aproxima ξ1 mediante la v.a. ξe1 ∼ U (1, 3). Por (3.1.7) se tiene que Eξ1 = E ξe1 = 2, y
además es evidente que E(ξ1 )2 < ∞, E(ξe1 )2 < ∞. Al usar la fórmula de convolución
(2.2.18) no es difı́cil verificar que la Suposición 9.1.2 se cumple con m = 3. De lo anterior
se tiene que se satisfacen las hipótesis del Teorema 9.4 (a).
Mediante cálculos directos (ver el Ejercicio 9.7) y al graficar las f.d. Fξ1 y Fξe1 , se
Z ∞
ε
puede ver que ρ ξ1 , ξe1 = . Luego, usando la desigualdad ζ2 (X, Y ) 6 |x| |FX (x) −
2 −∞
FY (x)| dx (ver la Nota 7.8) y por cálculos elementales (ver el Ejercicio 9.7) se obtiene
ε
que ζ2 (ξ1 , ξ2 ) 6 6 2ε (pues ε < 0.5).
1−ε
Por lo tanto, de la desigualdad (9.1.15) resulta que para toda t > 0,

ρ X(t), X(t)
e 6 2C1 ε.
175
9.3. Estimación de la estabilidad en otros modelos
Esta desigualdad, en particular, significa que cuando ε → 0 las f.d. FX(t)

e (x) se aproximan
a la f.d. FX(t) (x) uniformemente para x > 0 y t > 0.
Nota 9.4 (a) Como se obtiene de la demostración del Teorema 9.4, las desigualdades
(9.2.18) y (9.2.19) también son ciertas para cualquier proceso de recibimiento de re-
clamaciones N (t) (ver la Sección 4.4) que es independiente de ξ1 , ξ2 , . . . y de ξe1 , ξe2 , . . .
Entonces, en el Teorema 9.4, N (t) podrı́a ser un proceso distinto a uno de Poisson.
El único cambio necesario será sustituir en (9.2.19) el factor √1λ t por √ 1 .
E(N (t))
(b) Los métodos desarrollados en Roos & Pfeifer(2003) donde se comparan las distribu-
ciones de v.a. discretas, se pueden usar para generalizar las desigualdades de estabili-
dad (9.2.18) y (9.2.19), extendiendolas a los casos en que, en lugar de (9.2.17) aparece
= x+γ t− N
Pb
X(t)
e
k=1 (t)ξk , donde N (t) es el proceso que sirve para aproximar un
e b
proceso no completamente conocido N (t) en el modelo “real” (9.2.16).
9.3. Observaciones acerca de la estimación de la es-

tabilidad en otros modelos aplicados
Las desigualdades (9.1.13) y (9.1.15) tienen una amplia área de aplicaciones en la
investigación de la estabilidad de los modelos que involucran las sumas de v.a. Por ejemplo,
en el modelo de riesgo de Cramér-Lundberg, considerado arriba, la desigualdad (9.1.13)
sirve para estimar la estabilidad de la ruina definida en (4.4.34). La clave para realizar
esta aplicación, está en la siguiente ecuación bastante conocida (ver Rolski et al (1999)):
ν
!
X
P (de ruina) = (1 − q)P Xk > x ,
k=1
donde x es el capital inicial, q = 1 − λa

γ
< 1, la v.a. ν no depende de X1 , X2 , . . . y
ν ∼ Geom(q) (ver (2.3.21)). Además, las v.a. i.i.d. X1 , X2 , . . . tienen la siguiente f.d.
común:
1 x
Z

FX1 (x) = 1 − Fξ1 (t) dt x > 0, (a = Eξ1 ).
a 0
Entre otras aplicaciones de las desigualdades (9.1.13), (9.1.15) y sus versiones con la
métrica de variación total (7.3.14), mencionamos: el estudio de estabilidad
176
- de la distribución del tiempo aleatorio de espera en la teorı́a de colas;
- de las polı́ticas óptimas de reemplazo del equipo;
- de algunos procesos de control del nivel del agua en presas;
- de algunos procesos de almacenamiento;
- entre otras.
Es necesario resaltar que un desarrollo con el enfoque métrico al estudio de la es-

tabilidad (robustez) de procesos de Markov a tiempo discreto controlables ha resuelto
las estimaciones de estabilidad de polı́ticas óptimas de control de procesos de Markov.
Por ejemplo, el artı́culo Gordienko et al (2008) contiene una estimación de estabilidad de
polı́ticas de inversiones óptimas para un modelo de inversión-consumo a tiempo discreto
descrito en (6.3.40). En este caso, un papel decisivo lo juega la métrica de Kantoróvich1 :
Z ∞

`(X, Y ) := FX (x) − FY (x) dx. (9.3.24)
−∞
`
La convergencia Xn → X equivale a Xn ⇒ X (la convergencia débil) junto con
E|Xn | → E|X| (consultar el Ejercicio 9.2).
Nota 9.5 En este libro (en los Capı́tulos 7–9) hemos considerado seis métricas proba-
bilı́sticas diferentes, a saber:
- ρ, uniforme (de Kolmogórov);

- d0 , de Fortet-Mourier;
- V, de variación total;
- ζ2 , de Zolotarev de orden 2;
- ζ3 , de Zolotarev de orden 3; y
- `, de Kantoróvich.
Mientras que, por ejemplo, en el libro de Rachev (1991) se consideran alrededor de 100
métricas probabilı́sticas diferentes.
1
Leonid V. Kantoróvich (1912-1986) economista y matemático soviético, ganador del premio Nobel en
economı́a. Es considerado como uno de los creadores de la programación lineal.
177
9.4. Ejercicios
9.4. EJERCICIOS
9.1 Sea ρ la métrica uniforme definida en (7.3.9). Demostrar que para cualesquiera v.a.
X y Y ypara cualesquiera números reales α 6= 0, b ∈ R se cumple que ρ αX +
b, αY + b = ρ(X, Y ).
Sugerencia: Verificar que FαX+b (x) = FX αx − αb y observar que para cualquier

función ϕ : R → R se cumple que supx∈R ϕ(x) = supx∈R ϕ( αx − αb ) ya que la

aplicación x → αx − αb es uno a uno (inyectiva).
9.2 Sea ` la métrica
de Kantoróvich definida en (9.3.24) y X, Xn , n = 1, 2, . . . v.a. tales
que ` Xn , X → 0 cuando n → ∞.
(a) Dar argumentos convincentes, no necesariamente formales, que sugieran que
Xn ⇒ X.
(b) Suponga que X > 0, Xn > 0, n = 1, 2, . . . Demostrar que EXn → EX cuando
n → ∞.
R
Sugerencia:
R Para (b), usar la fórmula (3.3.27) y el hecho de que | ϕ(x) dx| 6
|ϕ(x)| dx.
9.3 Sean X1 , X2 , · · · ∼ N orm(0, 1) v.a. i.i.d., y X

e1 , X
e2 , . . . v.a. i.i.d. con la distribución
siguiente: 
η1 con probabilidad (1 − ε),
X
e1 := η
 2 con probabilidad ε,
ε
donde η1 , η2 ∼ N orm(0, 1) son v.a. i.i.d. y ε ∈ (0, 1) es un número arbitrario dado.
e1 = 0; σ 2 = V ar(X1 ) = 1 y
(a) Mostrar que para cualquier ε: a = EX1 = E X
1
σε2 = V ar(X
e1 ) = (1 − ε) + → ∞ cuando ε → 0. (9.4.25)
ε
(b) Comprobar que
e1 ) → 0 cuando ε → 0.
ρ(X1 , X (9.4.26)
(c) Sean para cada n = 1, 2, . . . , Sn = X1 + · · · + Xn , Sen = X
e1 + · · · + X
en . Verificar
que se satisfacen todas las hipótesis del Teorema 9.2.
(d) Mostrar que existe una constante K > 0 tal que para cualquier ε > 0 y para
toda n suficientemente grande, se tiene que:
ρ(Sn , Sen ) > K. (9.4.27)
178
Sugerencias: Para (a) y (b) usar la fórmula de probabilidad total.

!
S n S
e n
Para (d): ρ Sn , Sen = (por (9.1.8)) = ρ √ , √ = (por (2.2.19))
σε n σε n
!
Sen
= ρ ηε , √ , (9.4.28)
σε n
donde ηε ∼ N orm(0, 1/σε ). Luego, por el TCL, ρ η, σεS√n n → 0 cuando n → ∞,

e
donde η ∼ N orm(0, 1). De (9.4.25), 1/σε → 0 cuando ε → 0 y, como es fácil ver

que esto implica que ηε ⇒ 0 cuando ε → 0. Es por esto que existe δ > 0 tal que
para toda ε < δ se cumple que 2K 6 ρ(η, ηε ) 6 (por la desigualdad del triángulo !
Sen Sen Sen
para la métrica ρ) 6 ρ η, √ + ρ √ , ηε = (por (9.4.28)) = ρ η, √ +
σε n σε n σε n

ρ Sn , Sen . Como el primer sumando en la parte derecha de la última desigualdad
tiende a cero, entonces, para toda n suficientemente grande se tiene que ρ(Sn , Sen ) >
K.
Nota 9.6 En el último ejercicio, por (9.1.13) se tiene que

ρ(Sn , Sen ) 6 C1 máx ρ(X1 , X
e1 ), ζ2 (X1 , X
e1 ) ,
e1 ) → 0 cuando n → ∞. La comparación de la última desigual-

y por (9.4.26), ρ(X1 , X
e1 ) no se aproxima a cero cuando ε → 0. Por lo
dad con (9.4.27) sugiere que ζ2 (X1 , X
tanto, el ejemplo muestra que la presencia de la métrica de Zolotarev ζ2 en la parte
derecha de la desigualdad de estabilidad (9.1.13), se da, en general, inevitablemente.
9.4 Demostrar la siguiente versión particular de la desigualdad de Jensen2 :
Sea X una v.a. con los valores en un intervalo (acotado o no) I y sea g : I → R
una función tal que g 00 (x) 6 0, para todo x ∈ I. Suponiendo que EX y Eg(X)
existen, demostrar que
Eg(X) 6 g[EX],

1 1
en particular, E √ 6√ para una v.a. X > 0.
X EX
2
Johan L. W. V. Jensen (1859-1925) matemático e ingeniero danés, conocido por su desigualdad.
179
9.4. Ejercicios
Sugerencia: Usando el desarrollo de Taylor con 00el “centro” en x0 = EX ∈ I,

obtenemos que g(X) = g(EX)+g 0 (EX)(X−EX)+ g 2(τ ) (X−EX)2 , donde τ = τ (X)
es una v.a. Faltarı́a tomar la esperanza de ambas partes de la última desigualdad y
ver que E[g 00 (τ )(X − EX)2 ] 6 0.
9.5 Sean X y Y v.a. con valores positivos. Demostrar que ρ(X, Y ) = ρ(ln X, ln Y ).
Sugerencia: La función ϕ(x) = ex hace la correspondencia uno a uno entre
(−∞, ∞) y (0, ∞).
9.6 Sean X1 , X2 , . . . v.a. positivas i.i.d. tales que existen (y son finitas) E ln(X1 ) < ∞
y E[ln(X1 )]2 < ∞. Sean también X e1 , X
e2 , . . . v.a. i.i.d. con las mismas propiedades
y N una v.a. con valores en {1, 2, . . . , k, . . . } que no depende de X1 , X2 , . . . ni de
X e2 , . . . Demostrar que para Y := X1 · X2 · . . . · XN ; Ye := X
e1 , X e ·Xe2 · . . . · X
eN se
n o 1
cumple que ρ Y, Ye 6 C1 máx ρ(X1 , X e1 ), ζ2 ln(X1 ), ln(X e1 ) .
Sugerencia: Tomar el logaritmo de las v.a., utilizar el Ejercicio 9.5, la desigualdad

(9.1.13) y el método usado en la prueba del Teorema 9.4.
9.7 Sean X ∼ U (1, 3) y Xε ∼ U (1 + ε, 3 − ε) para ε ∈ (0, 1). Mostar que

ε ε
(a) ρ(X, Y ) = y (b) ζ2 (X, Y ) 6 .
2 1−ε
Sugerencia: (a) Calcular las f.d. FX y FXε y trazar sus gráficas.

(b) Usar la cota superior para ζ2 dada en la Nota 7.8.
180
Bibliografı́a
[1] Asmussen, S., (1987), Applied Probability and Queues, Wiley, New York.
[2] Breiman, L. (1969), Probability and Stochastic Processes: with a View Toward Appli-
cations, Houghton Mifflin, Series in Statistics, Boston.
[3] Durrett, R. (1991), Probability: Theory and Examples, Wadsworth & Brooks, Pacific,
California.
[4] Feller, W. (1978), Introducción a la Teorı́a de Probabilidades y sus Aplicaciones, Vol.
II, Limusa, México.
[5] Gnedenko, B.V., Belyayev, Y. K. and Solovyev, A.D. (1969), Mathematical Methods
of Reliability Theory, Academic Press, New York.
[6] Gordienko, E. (2004), Stability estimates of generalized geometric sums and their
applications, Kybernetika, 40, 257-272.
[7] Gordienko, E. (2011), Andrey Kolmogorov: El último gran matemático universal,
Miscelánea Matemática, 52, 1-29.
[8] Gordienko, E., Lemus-Rodrı́guez, E., y Montes-de-Oca, R. (2008), Discounted cost
optimality problem: stability with respect to weak metrics, Math. Meth. Oper. Res.,
68, 77-96.
[9] Hoel, P., Port, S., and Stone, C. (1971), Introduction to Probability Theory, Houghton
Mifflin, Series in Statistics, Boston.
[10] Kalashnikov, V. V. and Rachev, S.T. (1990), Mathematical Methods for Construction
of Queueing Models, Wadsworth, Pacific Grove, California.
[11] Korn, R. and Korn, E. (2001), Option Pricing and Portfolio Optimization, American
Math. Society, Providence.
[12] Kudrı́avtsev, L.D. (1988), Curso de Análisis Matemático, MIR, Moscú.
181
BIBLIOGRAFÍA
[13] Meester, R. (2003), A Natural Introduction to Probability Theory, Birkhäuser Verlag,

Basel.
[14] Pitman, J. (1993), Probability, Springer-Verlag, New York.
[15] Prokhorov, A.V., Ushakov, V. G., and Ushakov, N. G. (1986), Exercises in Probability
Theory. Main concepts, Limit Theorems, Random Proceses, “Nauka”, Moscow, (in
Russian).
[16] Rachev, S.T. (1991), Probability Metrics and the Stability of Stochastic Models, Wiley,
New York.
[17] Rincón, L. (2012), Introducción a la Teorı́a del Riesgo, Facultad de Ciencias, UNAM,
México.
[18] Rolski, T., Schmidli, H., Schmidt, V. and Teugels, J. (1999), Stochastic Processes for
Insurance and Finance, John Wiley and Sons, Chichester.
[19] Roos, B. and Pfeifer, D. (2003), On the Distance between the Distributions of Random
Sums, J. Appl. Probab., 40, 87-106.
[20] Senatov, V. V. (1998), Normal Approximation: New Results, Methods and Problems,
VSP, Utrecht.
[21] Tijms, H. C. (1994), Stochastic Models: an Algorithmic Approach, John Wiley and
Sons, Chichester, pp. 375.
[22] Zolotarev, V. M. (1997), Modern Theory of Summation of Random Variables, VSP,

Utrecht.
182
Índice Analı́tico
Caminata aleatoria, 65 del triángulo, 125

con dos barreras absorbentes, 67–68 desigualdades
con una barrera absorbente, 69 de estabilidad o robustez, 172
simple d-dimensional, 66 distancia
tiempo de primer regreso, 82 en R, 126
caminatas aleatorias simples, 64–69 entre v.a., véase métrica
campana de Gauss, 143 distribución
capital binomial, 6
promedio, 108 condicional, 28
real, 108 de Bernoulli, 6, 18
coeficiente de correlación, 25, 84 de Cauchy, 33, 99
condición de Lyapunov, 151 de la suma de v.a.
convergencia a.c. e independientes, véase
casi segura, véase convergencia con convolución
probabilidad uno exponenciales, 170
con probabilidad uno, 94 normales, 31
débil de v.a., 121 Poisson, 32
respecto a una métrica, 126 uniformes, 156
de Maxwell, 54
Densidad de Poisson, 7, 137
de una v.a. a.c., 8 de una v.a. discreta, 6
condicional, 28 de Weibull, 58, 124
conjunta, 24 degenerada, 45, 122
marginal, 30 entropı́a de la-, 159
normal estándar bidimensional, 25 exponencial, 11
uniforme bidimensional, 24 ausencia de memoria de-, 34
desigualdad Gamma, 55
de Chebyshev, 48 ausencia de memoria de-, 56
de Jensen, 179 geométrica, 7
183
ÍNDICE ANALÍTICO
lognormal estándar, 91 evento(s), 1, 2

marginal, 30 disjuntos, 2, 3
normal, 13, 36, 143 independientes, 22
estándar, 13, 147 ocurrencia de un-, 3
estándar bidimensional, 25
simétrica, 53 Fórmula
uniforme, 14, 18 de convolución, 31
discreta, 138 de probabilidad total, 27
frecuencia relativa, 93
Espacio función
de probabilidad, 1, 2 de distribución, 8
métrico, 125 conjunta, 23
muestral, 1, 2 de la exponencial, 11
esperanza, 39–43 de la normal estándar, 13, 148
condicional, 59–64 de la uniforme, 17
de v.a. a.c., 60 de Weibull, 58, 103
de v.a. discretas, 59 degenerada, 45
de una función, 42 empı́rica, 115
de una v.a., 40, 62 marginal, 30
absolutamente continua, 40, 62 de probabilidad, 2
Bernoulli, 45 de utilidad logarı́tmica, 109, 112
binomial, 45 Gama, 55
Cauchy, 53 indicadora, 58
discreta, 40, 62 Ley fuerte de los grandes números, 96
estandarizada, 61 aplicaciones, 101–104
exponencial, 46
Gamma, 57 Método de Monte Carlo, 117, 164
geométrica, 54 métrica
indicadora, 58 de Fortet-Mourier, 131
Maxwell, 54 cota superior de la-, 132
normal, 46 de Kantoróvich, 177
Poisson, 41, 57 de Kolmogórov, 129, 130, 178
uniforme, 41 cota superior de la-, 132
Weibull, 58 de variación total, 131
del producto de v.a., 45 cota superior de la-, 132
geométrica, 87–90 de Zolotarev, 132
definición de-, 87 cotas superiores para la-, 133
propiedades de la-, 44 de orden 2, 132
estimación estadı́stica, 103 de orden 3, 132, 148, 169
184
definición de-, 125 geométrico, 87

discreta, 126 muestral, 96
probabilı́stica, 129, 130, 145 teórico, véase esperanza
simple, 129
uniforme, 129, 130, 178 Teorema Central del Lı́mite, 143, 152
mediana muestral, 117 de Lévy, 150
modelo de Lyapunov, 148
clásico de riesgo, 73–75 tasa de convergencia del-, 153
capital promedio del-, 74 Teoremas Centrales del Lı́mite, 146–153
estimación de la estabilidad en-, Variable aleatoria, 1, 5
172–176 absolutamente continua, 8, 10
probabilidad de ruina, 75, 79 binomial, 6
ruina con probabilidad 1 del-, 104 de Bernoulli, 6
de Crámer-Lundberg, véase modelo de Poisson, 7, 137
clásico de riesgo degenerada, 45, 122
polı́tica de inversión, 113 desviación estándar de-, 13, 44, 146
simplificado de optimización de discreta, 6
inversiones, 105–114 entropı́a de la-, 159
esperanza de una-, 40
Probabilidad, 1, 2 estandarizada, 61, 146
condicional, 21 indicadora, 58
de ruina del modelo de riesgo, 75, 79 lognormal estándar, 91
de supervivencia, 76 normal, 13, 143
de un evento, 2 estándar, 13, 147
de un intervalo, 9 simétrica, 53
propiedades de la-, 5 variables aleatorias
teorı́a de-, 1 convergencia débil de-, 121
total, 26–31 dependientes, 24, 85
proceso distribución de la suma de-
de Poisson, 70–72 a.c. e independientes, véase
definición, 70 convolución
intensidad del-, 72 exponenciales, 170
trayectoria de un-, 70 normales, 31
de riesgo, 73 Poisson, 32
de superávit, 73 uniformes, 156
estocástico, 52, 70 independientes, 21–26
promedio e idénticamente distribuidas, 26
aritmético, 87 operaciones con-, 8
de la energı́a cinética, 54 Poisson
185
aproximación de-, 137 degenerada, 57

suma de- estandarizada, 61
Bernoulli, 6 exponencial, 46
sumas estandarizadas de-, 151
Gamma, 57
varianza, 43–50
normal, 46
de la suma de v.a. independientes, 45
de una v.a., 44 Poisson, 57
Bernoulli, 45 uniforme, 47
binomial, 45 propiedades de la-, 44
186

Introducci On A La Teor Ia de Probabilidad y M Etricas Probabil Isticas Con Aplicaciones en Seguros y Finanzas

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Introducci On A La Teor Ia de Probabilidad y M Etricas Probabil Isticas Con Aplicaciones en Seguros y Finanzas

Cargado por

Copyright:

Formatos disponibles

Introducción a la Teorı́a de Probabilidad y Métricas

Probabilı́sticas con Aplicaciones en Seguros y

Evgueni I. Gordienko y X. Itxel Popoca-Jiménez.

El presente libro es un complemento a los cursos estándares de la teorı́a de la probabi-

a.c. - absolutamente continua;

6. Ley fuerte de los grandes números e inversiones óptimas 93

7. Convergencia débil 121

8. Teorema Central del Lı́mite 143

9. Estabilidad de algunos modelos estocásticos aplicados 167

1.1. Espacio de Probabilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

2.1. Eventos dependientes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.1. Esperanza y varianza de la v.a. Normal. . . . . . . . . . . . . . . . . . . . 46

4.1. Caminata aleatoria simple. . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

6.1. La “ilustración” de convergencia de v.a. con probabilidad 1 (casi segura). . 96

7.1. Aproximación de la f.d. de v.a. degeneradas. . . . . . . . . . . . . . . . . . 123

8.1. Campana de Gauss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

La segunda finalidad es dar una introducción corta a un relativamente nuevo y fuerte

La presentación de ciertas desigualdades mencionadas y sus aplicaciones en evaluacio-

Espacio de probabilidad, variable

1.1. Espacio de probabilidad.

que la probabilidad es cercana a “1” o al 100 %, lo cual representa el valor máximo de

Definición 1.1 Un espacio de probabilidad es la tripleta (Ω, F, P ), donde

2. F = {A1 , A2 , A3 , . . . } es una familia de subconjuntos de Ω, donde A1 , A2 , A3 , . . .

3. P es una función (regla de correspondencia) que asigna a cada evento A ∈ F, el

cuando los eventos A1 , A2 , A3 , . . . sean disjuntos, es decir, los eventos no tengan

Figura 1.1: Espacio de Probabilidad.

Figura 1.2: Intersección y complemento.

Figura 1.3: A subconjunto (o subevento) de B.

Figura 1.4: Lanzamiento en el cuadrado.

Ω = {todos los puntos ω del cuadrado en la Figura 1.4}.

Probabilidad. P (A) := el área de A, (para todos los eventos de F).

1.2. Variables aleatorias y sus distribuciones

(b) En el Ejemplo 1.2, X(ω) := la distancia

(b) Los números P (X = xk ) representan las probabilidades de que la v.a. X tome

que se definen de forma semejante al caso particular (1.2.1).

(b) Sean n > 1 un entero dado y X1 , X2 ,. . . ,Xn v. a. independientes (véase Capı́tulo

La v.a. Sn se llama Binomial, con parámetros n y p. Al conjunto de probabilidades en

(c) La v.a. Y con valores {0, 1, 2, . . . , k, . . . } y cuyas probabilidades (distribución) se

(Consulte el Ejercicio 2.12 acerca del origen de la v.a. geometrica).

Entonces Xi ∼ Bern(p = 1/6) y X ≡ S10 = X1 + X2 + · · · + X10 , ya que S10 es igual a

En otras palabras, hay alrededor del 15 % de “oportunidades” de que en 10 lanzamientos

Definición 1.4 La función FX : R → [0, 1] definida como

se llama la función de distribución (f.d.) de la v.a. X.

De (1.2.5) y del hecho que P (A) 6 P (B), si A ⊂ B, se sigue que FX (x) es no

Figura 1.5: Función distribución FX (x).

Definición 1.5 Una variable aleatoria X se denomina absolutamente continua (a.c.)

Proposición 1.1 Sea I ⊂ R un intervalo cualquiera (o un subconjunto más general).

(a) Si X es una v.a. discreta entonces

(b) Si X es v.a. a.c. con densidad fX (x), entonces

Demostración. (b) Si I = (a, b], entonces

Luego por (1.2.6) se tiene que

(b) Si ∆x = [x − ε, x + ε] es un intervalo “pequeño” y la densidad fX es continua en x,

Figura 1.7: Interpretación de la densidad.

Ejemplo 1.6 (continuación del Ejemplo 1.5)

Ejemplo 1.7 La variable aleatoria X se llama exponencial con parámetro λ > 0:

Figura 1.8: Densidad de la v.a. exponencial.

Figura 1.9: Función distribución de la v.a. exponencial.

Nota 1.7 En la teorı́a de probabilidad existe la costumbre de usar términos diferentes

(i.) v.a. Binomial o v.a. con distribución Binomial;

P X > 5 · 109 = 1 − P X 6 5 · 109 = (por (1.2.5) = 1 − FX (5 · 109 )

Por lo tanto, hay alrededor de 46 % de “posibilidades” de que un átomo de Uranio-283

Ejemplo 1.9 Para a ∈ R y σ > 0, definimos la función de densidad Normal como:

Figura 1.10: Campanas de Gauss (densidad Normal).