Apunte - Probabilidades y Estadistica - 201820

Universidad de los Andes
Facultad de Ingeniería y Ciencias Aplicadas
Apuntes del Curso
Probabilidades y Estadística
Índice general
1. Fundamentos de la Teoría de Probabilidades 4

1.1. Definiciones previas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2. Definición axiomática de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3. Concepciones probabilistas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.1. Probabilidad frecuentista . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.2. Probabilidad clásica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4. Probabilidad condicional e independencia . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2. Variables Aleatorias 20
2.1. Variables aleatorias y modelos analíticos univariados . . . . . . . . . . . . . . . . . . . . 20
2.1.1. Variables aleatorias discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.1.2. Variables aleatorias continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2. Medidas descriptivas de variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2.1. Media y varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2.2. Momentos y función generadora de momentos . . . . . . . . . . . . . . . . . . . 32
2.2.3. Desigualdad de Chebyshev . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.3. Aplicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.3.1. Distribución normal o Gaussiana . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.3.2. Distribución de Bernoulli y sus extensiones Binomial y Geométrica . . . . . . 36
2.3.3. Distribución de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.3.4. Distribución exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.3.5. Distribución uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.4. Transformaciones de variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.4.1. Caso en que X e Y son v.a. discretas . . . . . . . . . . . . . . . . . . . . . . . . 41
2.4.2. Caso en que X es v.a. continua e Y es una v.a. discreta . . . . . . . . . . . . . 41
2.4.3. Caso en que X e Y son v.a. continuas . . . . . . . . . . . . . . . . . . . . . . . . 42
3. Vectores Aleatorios 45
3.1. Vectores aleatorios y modelos analíticos multivariados . . . . . . . . . . . . . . . . . . . 45
3.1.1. Vectores aleatorios discretos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.1.2. Vectores aleatorios continuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.1.3. Distribuciones condicionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.1.4. Ejemplos importantes de vectores aleatorios . . . . . . . . . . . . . . . . . . . . 53
3.2. Asociación entre variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.2.1. Variables aleatorias independientes . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.2.2. Covarianza y correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.2.3. Esperanza y varianza de un vector aleatorio . . . . . . . . . . . . . . . . . . . . 59
3.2.4. Correlación versus independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
2
3.2.5. Distribución de la suma de v.a’s independientes . . . . . . . . . . . . . . . . . . 61
3.3. Esperanza condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.3.1. Definición y propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.3.2. Predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.4. Distribución de valores extremos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4. Introducción a la Teoría Asintótica 68

4.1. Tipos de convergencia de variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . 68
4.1.1. Convergencia en probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.1.2. Convergencia casi segura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.1.3. Convergencia en distribución . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5. Fundamentos de la Inferencia Estadística 74

5.1. Conceptos básicos de la teoría inferencial . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.2. Identificabilidad de modelos estadísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6. Estimación 77
6.1. Estimación puntual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
6.1.1. Conceptos básicos de estimación puntual . . . . . . . . . . . . . . . . . . . . . . 77
6.1.2. Construcción de estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
6.1.3. Propiedades de los estimadores puntuales . . . . . . . . . . . . . . . . . . . . . . 87
6.2. Estimación por intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
6.2.1. Construcción de intervalos de confianza: método del pivote . . . . . . . . . . . 90
6.2.2. Interpretación de los intervalos de confianza . . . . . . . . . . . . . . . . . . . . 94
3
Capítulo 1
Fundamentos de la Teoría de
Probabilidades
1.1. Definiciones previas

Estamos interesados en desarrollar una teoría matemática que nos permita cuantificar la incerteza,
entendiendo la incerteza como nuestra incapacidad para poder anticipar con precisión los resultados
en determinados fenómenos de interés. La formalización de probabilidades que veremos comienza
con el concepto de experimento aleatorio.
Definición 1.1 (Experimento aleatorio). Es cualquier acción o experiencia que pueda ser repetida
indefinidamente y cuyos resultados no pueden ser anticipados con exactitud, aunque la situación
pueda ser completamente controlada. Típicamente será denotado por la letra E.
Ejemplo 1.1. E: “Lanzar un dado y observar el número obtenido en la cara superior”.
Es importante dejar de manifiesto que la definición del experimento aleatorio determina los resul-
tados elementales que son interés. Esto último motiva la siguiente definición.
Definición 1.2 (Espacio muestral). Sea E un experimento aleatorio. Se define su espacio muestral,
denotado por la letra Ω, como el conjunto de todos los posibles resultados del experimento aleatorio.
Ejemplo 1.2. Considerando el experimento aleatorio del ejemplo 1.1, su espacio muestral está dado
por Ω = {1, 2, 3, 4, 5, 6}.
Es interesante destacar que la definición de espacio muestral genera la relación existente entre la
teoría de conjuntos y la teoría de probabilidades. Esto queda de manifiesto en la siguiente definición.
Definición 1.3 (Evento). Sea E un experimento aleatorio y Ω su espacio muestral. Un evento1

corresponde a un subconjunto del espacio muestral.
1
Esta definición no es del todo satisfactoria, debido a que en espacios muestrales con muchos subconjuntos como
R, no cualquier subconjunto es un evento.
4
Ejemplo 1.3. Retomemos los ejemplos 1.1 y 1.2. Un posible evento es “obtener un número par al
momento de lanzar el dado”. Dicho evento, que denotaremos por la letra A, queda definido como
A = {2, 4, 6}.
Antes de continuar es importante explicitar qué entendemos por la realización de eventos. Diremos
que un evento A ocurre, si al momento de realizar el experimento aleatorio, se obtiene un resultado
elemental ω ∈ Ω que está contenido en A, es decir, ω ∈ A. Así, en el ejemplo 1.3 diremos que el
evento A ocurre si al lanzar el dado se obtiene por ejemplo el número ω = 4.
1.2. Definición axiomática de Kolmogorov

En todo lo que sigue, dado un conjunto Ω denotaremos por 2Ω a su conjunto potencia (o conjunto
de las partes de Ω), esto es, al conjunto de todos los posibles sunconjuntos de Ω. Por ejemplo, si
Ω = {0, 1}, entonces 2Ω = {∅, {0}, {1}, Ω}. La siguiente definición explicita los requerimientos míni-
mos que debe tener una colección de eventos para poder definir una medida de probabilidad.
Definición 1.4 (Colección de eventos). Sea E un experimento aleatorio y Ω su espacio muestral.

Diremos que F ⊆ 2Ω es una colección de eventos (de interés) si satisface las siguientes propiedades:
(a) Ω ∈ F.
(b) Si A ∈ F, entonces Ac ∈ F.
(c) Si (An )n∈N ⊆ F, entonces ⋃ An ∈ F.

n∈N
Ejemplo 1.4. Dado un espacio muestral Ω arbitrario. Entonces F = 2Ω es una colección de eventos
válida, pues satisface las propiedades (a), (b) y (c) de la definición anterior.
Observación 1.1. La definición 1.4 establece un marco de referencia en el cual, a través de la teoría
de conjuntos, se dispone de una especie de “álgebra de eventos”. Esto permite modelar eventos
complejos como uniones, intersecciones y complementos de eventos más sencillos. Así, la teoría de
conjuntos se expresa como una herramienta de modelamiento en la teoría de probabilidades.
Observación 1.2. Cuando el espacio muestral Ω es un conjunto finito o infinito numerable2 , entonces
no hay ningún problema en escoger F = 2Ω . Sin embargo, cuando trabajamos con R o intervalos de
R, el conjunto de sus partes es demasiado grande y no es posible determinar de manera coherente
la incerteza asociada a cada posible subconjunto. En este sentido la definición 1.4 permite desha-
cernos de subconjuntos molestos3 , en la medida que la subcolección resultante siga satisfaciendo las
propiedades (a), (b) y (c).
2
Un conjunto Ω se dice infinito numerable si es posible construir una función biyectiva entre N y Ω.
3
Como por ejemplo el conjunto de Cantor, cuya definición escapa a los alcances de este curso, y para el cual no es
posible asignarle una probabilidad.
5
Ejemplo 1.5. Sea Ω = {1, 2, 3}. Entonces 2Ω = {∅, Ω, {1}, {2}, {3}, {1, 2}, {1, 3}, {2, 3}}. Supongamos
que definimos F ∗ = {∅, Ω, {1}, {2}, {3}, {1, 2}, {1, 3}}. Entonces F ∗ no puede ser una colección de
eventos válida, pues la unión de los conjuntos {2} y {3} genera el conjunto {2, 3}, el cual no está
en F ∗ .
Ahora ya estamos en condiciones de dar la definición de probabilidad (también denominada función

de probabilidad o medida de probabilidad).
Definición 1.5 (Medida de probabilidad). Sea E un experimento aleatorio, Ω su espacio muestral

y F una colección de eventos válida. Entonces, una medida de probabilidad sobre Ω, denotada P,
corresponde a una función P ∶ F → [0, 1] tal que
(a) P(Ω) = 1.
(b) Si (An )n∈N ⊆ F son disjuntos de a pares4 , entonces
P ( ⊍ An ) = ∑ P(An ),
n∈N n∈N
donde la unión con punto denota una unión disjunta.
Cuando se dispongamos de un experimento aleatorio E, su espacio muestral Ω, una colección de

eventos válida F y una medida de probabilidad P ∶ F → [0, 1], denominaremos a la tripleta (Ω, F, P)
un espacio de probabilidad.
Problema 1.1 (Unicidad de medidas de probabilidad). La definición axiomática de Kolmogorov

no permite en general definir una única medida de probabilidad. Verifique lo anterior en el caso en
que Ω = {0, 1}, probando que hay tantas maneras de construir una medida de probabilidad como
números en el intervalo [0, 1] ⊆ R.
De las definiciones anteriores y utilizando la teoría de conjuntos surgen las siguientes propiedades
de una medida de probabilidad.
Propiedades 1.1. Sea (Ω, F, P) un espacio de probabilidad. Entonces:

(a) P(∅) = 0.
(b) Si A, B ∈ F y A ∩ B = ∅, entonces P(A ⊍ B) = P(A) + P(B).
(c) Si A ∈ F, entonces P(Ac ) = 1 − P(A).
(d) Si A, B ∈ F, entonces P(A ∪ B) = P(A) + P(B) − P(A ∩ B).
(e) Fórmula de inclusión-exclusión: si A1 , . . . , An ∈ F, entonces
n n
P ( ⋃ Ai ) = ∑ P(Ai ) − ∑ P(Ai ∩ Aj )
i=1 i=1 1≤i<j≤n
+ ∑ P(Ai ∩ Aj ∩ Ak ) − . . .
1≤i<j<k≤n
n+1
+ (−1) P(A1 ∩ . . . ∩ An ).
4
Es decir, An ∩ Am = ∅, ∀n ≠ m.
6
(f) Monotonía: si A, B ∈ F y A ⊆ B, entonces P(A) ≤ P(B).
∞ ∞
(g) Desigualdad de Boole: si {An ∶ n ≥ 1} ⊆ F, entonces P ( ⋃ An ) ≤ ∑ P(An ).
i=1 i=1
Denotaremos por M(Ω) al espacio de todas las medidas de probabilidad sobre Ω, con dominio F.
En la siguiente proposición se presenta una manera sencilla de construir medidas de probabilidad
en el contexto de espacios muestrales finitos.
n
Propiedad 1.2. Sean Ω = {w1 , . . . , wn } con n ∈ N, F = 2Ω y p1 , . . . , pn ∈ [0, 1] tales que ∑ pi = 1.
i=1
Para todo A ∈ F definamos
Q(A) ∶= ∑ pi .
i∶wi ∈A
Entonces Q ∈ M(Ω).
Ejemplo 1.6. Considere el experimento de lanzar un dado y observar el número obtenido en la cara
superior. En este caso el espacio muestral está dado por
Ω = {1, 2, 3, 4, 5, 6}.
Una forma de construir un modelo de probabilidad es tomar números

1 1 1 1 1 1
p1 = , p2 = , p3 = , p4 = , p5 = , p6 = .
12 6 3 6 6 12
6
Claramente ∑ pi = 1. Consideremos el evento A = “Se obtiene un número par”= {2, 4, 6}. Entonces
i=1
es posible determinar P(A). En efecto,
1 1 1 5
P(A) = p2 + p4 + p6 = + + = .
6 6 12 12
Observación 1.3. La proposición 1.2 se puede generalizar cuando Ω = {ω1 , ω2 , . . .} es un conjunto

infinito5 . En este caso se debe buscar una sucesión de números (pi )i≥1 ⊆ [0, 1] tales que
n ∞
lim ∑ pi = ∑ pi = 1.
n→∞
i=1 i=1
1.3. Concepciones probabilistas

La proposición 1.2 nos permite construir medidas de probabilidad para una gran cantidad de pro-
blemas. Sin embargo, queda pendiente analizar la manera de asignar probabilidades elementales,
esto es, de escoger valores para los pi ’s. En esta sección estudiaremos dos maneras de hacerlo.
5
Más precisamente, un conjunto infinito numerable.
7
1.3.1. Probabilidad frecuentista
La noción frecuentista de probabilidad usa el hecho que un experimento aleatorio puede ser repetido
indefinidamente para el cálculo de probabilidades. Así, la probabilidad de un evento A se aproxima
por el límite de las frecuencias relativas de ocurrencia del suceso, a partir de un gran número de
repeticiones, esto es,
nA
P(A) = lim
n→∞ n
donde nA es el número de veces que ocurre el evento A y n es el número total de repeticiones del
experimento aleatorio.
Ejemplo 1.7. Suponga que durante una semana se registraron en 60 oportunidades (en hora pun-
ta) el número de vehículos que esperaban su turno para girar a la izquierda en una determinada
intersección de calles. Los resultados se muestran a continuación:
Num. de autos Num. de observaciones Frecuencia relativa

0 4 0,07
1 16 0,27
2 20 0,33
3 14 0,23
4 3 0,05
5 2 0,03
6 1 0,02
7 0 0,00
8 0 0,00
Consideremos los eventos:
E1 = “Más de dos vehículos esperan su turno para girar”,

E2 = “A lo más cuatro vehículos esperan su turno para girar”.
Usando las frecuencias relativas, es posible aproximar las siguientes probabilidades:
P(E1 ) y P(E2 ).
En efecto,
P(E1 ) ≈ 0,23 + 0,05 + 0,03 + 0,02 = 0,33.
Replicando lo anterior y utilizando las propiedades de una medida de probabilidad es posible apro-
ximar P(A1 ∪ A2 ) (propuesto).
1.3.2. Probabilidad clásica

La probabilidad clásica se sustenta en el supuesto que todos los resultados posibles del experimento
aleatorio tienen la misma probabilidad de ocurrir. Así, la probabilidad de un evento de interés se
determina calculando la proporción de veces que ocurrirá el suceso.
8
De lo anterior se desprende informalmente, para un cierto evento A, la conocida fórmula:
Número de casos favorables para A
(1.1) P(A) = .
Número de casos totales
En lo que sigue vamos a analizar bajo qué supuestos la fórmula anterior es correcta.
Supongamos que Ω = {w1 , . . . , wn } con n ∈ N. Notemos que

n n
(1.2) 1 = P(Ω) = P ( ⊍ {wi }) = ∑ P({wi }).
i=1 i=1
Supuesto de equiprobabilidad:
P({wi }) = P({wj }), ∀i ≠ j.
Del supuesto de equiprobabilidad y (1.2) se desprende que

1
P({wi }) = , ∀i = 1, . . . , n.
n
Supongamos, sin pérdida de generalidad, que A = {w1 , . . . , wk }. Entonces
k k
k ∣A∣
P(A) = P ( ⊍ {wi }) = ∑ P({wi }) = = ,
i=1 i=1 n ∣Ω∣
donde ∣A∣ se llama cardinal de A y denota el número de elementos de A.
Se concluye que la fórmula (1.1) es válida en el contexto de espacios muestrales finitos y bajo
el supuesto de equiprobabilidad.
Ejemplo 1.8. Considere el experimento aleatorio de lanzar un dado y observar el número obtenido en
la cara superior. Así, Ω = {1, 2, 3, 4, 5, 6}. Si suponemos que el dado es lo suficientemente homogéneo,
entonces no debiera ser más probable obtener un 2 que un 5. Así, se satisface el supuesto de
equiprobabilidad y la probabilidad del evento A = {2, 4, 6} es
∣A∣ 3 1
P(A) = = = .
∣Ω∣ 6 2
En el ejemplo anterior fue sencillo contar el número de elementos de los conjuntos A y Ω. Para
problemas más complejos se hace necesario estudiar herramientas de combinatoria.
Elementos de combinatoria
Un principio fundamental en el que sustenta la combinatoria es el siguiente.
Definición 1.6 (Principio de la multiplicación). Consideremos un procedimiento secuencial de la

forma
9
donde cada sub-procedimiento i, con i = 1, . . . , k, se puede realizar (independientemente del resto)
de ni formas. Entonces el principio de la multiplicación afirma que el número total de maneras en
que puede ser realizado el procedimiento completo es
k
∏ ni .
i=1
A la hora de desarrollar estrategias de conteo hay dos aspectos fundamentales a considerar:

Si hay reemplazo o no, esto es, si se puede escoger más de una vez un determinado objeto.
Si importa o no el orden en el cual se fueron escogiendo los distintos objetos.
Ejemplo 1.9. ¿De cuántas maneras podemos sentar a n personas en una fila?
Solución.
Notemos que este problema es una aplicación directa del principio de la multiplicación. En efecto,
sentar a las personas se puede pensar como un procedimiento secuencial en el que vamos sentando
a una persona a la vez. Para la primera silla tenemos n personas por elegir. Para la segunda silla ya
no tenemos n − 1 personas por elegir, pues ya se sentó a una en la primera silla. Así sucesivamente,
para la silla n − 1 nos quedan 2 personas por sentar y para la última silla, solamente una persona.
n
Luego la respuesta a la pregunta es n! = ∏ i = 1 ⋅ 2 ⋅ . . . ⋅ (n − 1)n.
i=1
En lo que sigue se estudian algunos conceptos elementales de combinatoria:

1. Permutación.
Consideremos un conjunto de n objetos diferentes (distinguibles entre si). Queremos selec-
cionar una muestra (o subconjunto) de k objetos. ¿De cuántas maneras podemos realizar lo
anterior si importa el orden en el cual se van eligiendo los objetos? La respuesta depende de
si se pueden repetir o no los objetos.
n!
a) Número de muestras ordenadas y sin reemplazo: , con k ≤ n y k, n ∈ N
(n − k)!
b) Número de muestras ordenadas y con reemplazo: nk , con k, n ∈ N.
2. Combinación.
Consideremos un conjunto de n objetos diferentes (distinguibles entre si). Queremos selec-
cionar una muestra (o subconjunto) de k objetos. ¿De cuántas maneras podemos realizar lo
anterior si no importa el orden en el cual se van eligiendo los objetos? La respuesta depende
de si se pueden repetir o no los objetos.
n
a) Número de muestras no ordenadas y sin reemplazo: ( ), con k ≤ n y k, n ∈ N.
k
n+k−1
b) Número de muestras no ordenadas y con reemplazo: ( ), con k, n ∈ N.
k
10
Las deducciones de las fórmulas anteriores quedan de ejercicio. A modo de comentario, las fórmulas
1.a) y 1.b) son una aplicación directa del principio de la multiplicación.
n n!
El número ( ) ∶= ∈ N se conoce como coeficiente combinatorial y se interpreta como
k (n − k)!k!
el número de subconjuntos de tamaño k que se pueden extraer de un conjunto de tamaño n, con
k ≤ n. En el capítulo 2 de variables aleatorias veremos que este coeficiente es un elemento impor-
tante de lo que se conoce como distribución Binomial. Algunas de las propiedades del coeficiente
combinatorial se describen a continuación.
Propiedades 1.3.
1. (Teorema del binomio de Newton) ∀a, b ∈ R y n ∈ N se cumple que
n
n
(a + b)n = ∑ ( )ai bn−i .
i=0 i
n n−1 n−1
2. ( ) = ( )+( ).
k k−1 k
n n
3. ( ) = ( ).
k n−k
n+m n m n m n m
4. ( ) = ( )( ) + ( )( ) + . . . + ( )( ).
k 0 k 1 k−1 k 0
n
n i−1
5. ( ) = ∑ ( ).
k i=k k − 1
Un ejercicio interesante es intentar dar una justificación en términos de conteo a las propiedades
anteriores. Por ejemplo, la propiedad 1.3.3 se puede explicar de la siguiente manera. Cada vez que
se escoge un subconjunto de tamaño k de un conjunto de n objetos, se forma de inmediato un grupo
de tamaño n − k.
El coeficiente combinatorial puede ser generalizado de la siguiente forma.
Definición 1.7 (Ordenamiento multinomial). Supongamos que queremos agrupar n objetos distin-
k
tos en k grupos de tamaño n1 , . . . , nk respectivamente, con ∑ ni = n. El número de maneras en que
i=1
esto se puede hacer corresponde a
n n!
( )= .
n1 n2 . . . nk n1 ! . . . n k !
Estos números se denominan coeficientes multinomiales y satisfacen la siguiente propiedad:
n n−n1 n−n1 −...−nk−1
n
(x1 + . . . + xk )n = ∑ ∑ . . . ∑ ( )xn1 . . . xnk k .
n1 =0 n2 =0 nk =0 n1 n2 . . . nk 1
En el capítulo 3 de vectores aleatorios veremos que el coeficiente multinomial forma parte de lo que
se conoce como distribución Multinomial.
11
Ejercicio 1.1 (Problemas resueltos de combinatoria).
1. Determine la probabilidad que al menos dos alumnos del curso de “Probabilidades y Estadística”
celebren su cumpleaños el mismo día.
Solución.
Para resolver este problema vamos a hacer los siguientes supuestos:
Un año tiene 365 días.

El curso de “Probabilidades y Estadística” tiene n ∈ N alumnos.
Los nacimientos se distribuyen al azar durante el año.
Denotemos por Ω al espacio muestral asociado a todas las posibles respuestas por parte de los
n alumnos. Entonces
Ω = {1, 2, . . . , 365}n ,
es finito y equiprobable, y por lo tanto estamos bajo el paradigma clásico del cálculo de proba-
bilidades. Denotemos por A el evento de interés, es decir,
A = {al menos dos alumnos del curso celebran cumpleaños el mismo día}.
Notemos que en este caso es más sencillo determinar ∣Ac ∣ que ∣A∣. Entonces
∣Ac ∣ 365 ⋅ 364 ⋅ . . . ⋅ (365 − n + 1) 365!
P(A) = 1 − P(Ac ) = 1 − =1− n
=1− n
,
∣Ω∣ 365 365 ⋅ (365 − n)!
donde ∣Ω∣ = 365n . Para interpretar mejor el resultado anterior, en la figura 1.1 se grafica P(A)
en función de n. Se aprecia que para n = 23 la probabilidad es mayor que 0,5 y que para n = 57
la probabilidad es mayor que 0,99. Un aspecto interesante de la solución de este problema es
que a pesar que el supuesto que los nacimientos se distribuyen al azar puede ser debatible, en
términos del cálculo de P(A) nos pusimos en el caso más pesimista. Luego es de esperar que
la probabilidad de A, sin dicho supuesto, sea aún mayor.
2. El fin de semana pasado usted ofreció su casa a familiares y amigos para festejar su cumplea-
ños. Ese día tenía pensado ofrecer una empanada de entrada, razón por la cual preguntó a
sus invitados por sus preferencias. De los 2n invitados (incluyéndolo a usted), a manifestaron
preferencia por la típica empanada de pino, b por la empanada de tipo napolitana y al resto
les daba lo mismo. Suponga que el día de la fiesta usted encarga n empanadas de cada tipo.
Lamentablemente cuando llega a su casa se percata que la forma de ambas es la misma, de ma-
nera que sólo se puede saber el tipo probándolas. Determine la probabilidad que las preferencias
de todos sus invitados sean respetados.
Solución.
Sea A el evento de interés. Como las empanadas se asignan al azar a cada invitado, entonces
estamos en el contexto de probabilidad clásica. Notemos que Ω se puede modelar como todas
las posibles permutaciones sin reposición de 2n objetos. Entonces
∣Ω∣ = (2n)!
Por otra parte

n! n!
∣A∣ = ⋅ ⋅ (2n − a − b)!,
(n − a)! (n − b)!
12
Figura 1.1: Prob. que al menos 2 alumnos estén de cumpleaños en función del número de alumnos.
donde el primer término corresponde al número de maneras de respetar las preferencias por
la empanada de pino, el segundo al número de formas de respetar las preferencias por la
empanada napolitana y el tercero al número de maneras de repartir empanadas entre los que
son indiferentes. Así,
(2n−a−b)!
(n−a)!⋅(n−b)!
P(A) = (2n)!
.
n!⋅n!
3. Usted se encuentra en una fiesta con n invitados más y después de varias copas escoge a uno al
azar para contarle un chisme. Este es tan impresionante, que el receptor se ve en la necesidad
de contarlo, de manera que transcurridos unos minutos escoge al azar a uno de los invitados
para contarle. El problema es que debido al alcohol, el receptor olvida quién le contó el chisme.
Si el rumor comienza a transmitirse de la misma manera entre los invitados, determine la
probabilidad que este se transmita exactamente r veces, sin que deje de ser novedad.
Solución.
Sea A el evento de interés. Notemos que para que el rumor se transmita exactamente r veces
debe primero transmitirse a r personas distintas, lo cual puede ser realizado de
n!
(n − r)!
maneras, y después se debe escoger a una de las personas ya elegidas, lo cual puede ser realizado
de r formas. De esta modo se garantiza que el chisme se transmite exactamente r veces, pues
en la transmisión r + 1 se le cuenta el rumor a alguien que ya lo conocía. Dado que siempre
13
hay n personas a las cuales transmitirles el chisme, entonces
n(n − 1)(n − 2) ⋅ . . . ⋅ (n − r + 1)r
P(A) =
nr+1
n! r
= ⋅ r+1
(n − r)! n
(n − 1)! r
= ⋅ .
(n − r)! nr
4. Dos amigos decidieron inscribir un ramo deportivo con la idea de entrenar juntos. Sin embargo,
se acaban de enterar que los 90 alumnos inscritos serán dividos al azar en tres secciones de
30 alumnos cada una. Determine la probabilidad que los amigos queden en la misma sección.
Solución.
Sea A el evento de interés. Notemos que una manera de resolver este problema es a través del
coeficiente multinomial. En efecto, notemos que el número de maneras de dividir a 90 alumnos
en tres secciones de 30 personas cada uno es
90!
.
30!30!30!
Para que los amigos queden juntos, basta con dejar una sección con 28 alumnos y las otras
dos con 30 alumnos cada una. Esto puede realizarse de
90!
28!30!30!
maneras. Finalmente, notemos que en el cálculo anterior la sección que se dejó con dos cupos
se dejó sin especificar, y hay 3 secciones. Entonces la probabilidad del evento A está dada por
88!
28!30!30! ⋅ 3 29
P(A) = 90!
= .
30!30!30!
89
1.4. Probabilidad condicional e independencia

En esta sección veremos dos herramientas adicionales para el modelamiento de fenómenos de carác-
ter aleatorio.
Definición 1.8 (Probabilidad condicional). Sea (Ω, F, P) un espacio de probabilidad y A, B ∈ F

con P(B) > 0. Se define la probabilidad condicional de A dado B, denotado P(A∣B), como
P(A ∩ B)
P(A∣B) = .
P(B)
Observación 1.4. La probabilidad condicional P(A∣B) se interpreta como la probabilidad de A cuan-

do B ocurre (esto último no quiere decir que la probabilidad de B sea 1). Así, P(A∣B) corresponde
a una actualización de la información “probabilista” provista por A, en términos de la información
provista por B. Así, si A ∩ B = ∅, entonces P(A∣B) = 0 y la información adicional que aporta B
sobre A es nula.
14
El siguiente teorema nos permite deducir propiedades de la probabilidad condicional, en términos
de las propiedades que satisface una medida de probabilidad (ver propiedades 1.1).
Teorema 1.4. Sea B ∈ F tal que P(B) > 0. Entonces P(⋅ ∣B) ∈ M(Ω), es decir, P(⋅ ∣B) define una
medida de probabilidad sobre Ω.
La demostración del teorema anterior consiste en verificar que P(⋅ ∣B) satisface la definición 1.5.
Del teorema 1.4 y las propiedades 1.1 se deducen directamente las siguientes afirmaciones:
1. P(Ac ∣B) = 1 − P(A∣B).
2. P(A1 ∪ A2 ∣B) = P(A1 ∣B) + P(A2 ∣B) − P(A1 ∩ A2 ∣B).
Observación 1.5. Notemos que dados eventos A1 , A2 ∈ F, P(⋅ ∣A1 ) y P(⋅ ∣A2 ) no son necesariamente
medidas de probabilidad iguales. De este modo, NO necesariamente es cierta la igualdad
P(A∣B c ) = 1 − P(A∣B).
A modo de entender el concepto de probabilidad condicional, veamos un ejemplo.
Ejemplo 1.10. Existen dos rutas entre las ciudades A y B, como se aprecia en la siguiente ilustración.
Definamos los siguientes eventos:
E1 : “Ruta 1 está abierta”,

E2 : “Ruta 2 está abierta”.
Supongamos que se conocen las siguientes probabilidades:
P(E1 ) = 0,75, P(E2 ) = 0,5 y P(E1 ∩ E2 ) = 0,4.
Determine:
(a) P(E1 ∣E2 ), esto es, la probabilidad condicional que la ruta 1 esté abierta dado que la ruta 2 lo
está.
15
Solución.
Por definición de probabilidad condicional se tiene que
P(E1 ∩ E2 ) 0,4
P(E1 ∣E2 ) = = = 0,8.
P(E2 ) 0,5
Así, la probabilidad que la ruta 1 esté abierta es 0,75, pero si se sabe que la ruta 2 está abierta,
la probabilidad condicionada de que la ruta 1 esté abierta sube a 0,80. Notar que la probabilidad
condicional de E1 dado E2 no cambia necesariamente la probabilidad de E1 , sino que describe
el efecto que tiene el evento E2 sobre la probabilidad de E1 .
(b) P(E1c ∣E2c ), esto es, la probabilidad condicional que la ruta 1 esté cerrada dado que la ruta 2 lo
está.
Solución.
Por definición de probabilidad condicional se tiene que
P(E1c ∩ E2c ) 1 − P(E1 ∪ E2 ) 1 − [P(E1 ) + P(E2 ) − P(E1 ∩ E2 )]
P(E1c ∣E2c ) = = = = 0,3.
P(E2c ) 1 − P(E2 ) 1 − P(E2 )
Así, la probabilidad que la ruta 1 esté cerrada es 0,25, pero si se sabe que la ruta 2 está cerrada,
entonces es un poco más probable que la ruta 1 esté cerrada.
En lo que sigue vamos a ver algunas propiedades fundamentales de la probabilidad condicional.
Propiedades 1.5. Sea (Ω, F, P) un espacio de probabilidad.
(a) Sean A1 , . . . , An ∈ F. Entonces,
P(A1 ∩ . . . ∩ An ) = P(A1 ) P(A2 ∣A1 ) P(A3 ∣A1 ∩ A2 ) . . . P(An ∣A1 ∩ . . . ∩ An−1 ).
(b) Sea {Ai }ni=1 ⊆ F una partición de Ω. Entonces
(b.1) Fórmula de probabilidades totales:

n
P(A) = ∑ P(A∣Ai ) P(Ai ), ∀A ∈ F.
i=1
(b.2) Teorema de Bayes:
P(A∣Ak ) P(Ak )
P(Ak ∣A) =
P(A)
P(A∣Ak ) P(Ak )
= n , ∀A ∈ F, k = 1, . . . , n.
∑ P(A∣Ai ) P(Ai )
i=1
El teorema de Bayes es muy importante en inferencia estadística. De hecho, ha generado un para-

digma distinto conocido como estadística Bayesiana.
Ejercicio 1.2 (Problemas resueltos de probabilidad condicional).
16
1. Considere un mazo con 52 cartas, el cual es dividido (al azar) en 4 grupos de 13 cartas cada
uno. Determine la probabilidad que haya exactamente un as en cada montón de cartas.
Solución.
Definamos los eventos:
E1 ∶ “El as de trebol está en algún montón”,

E2 ∶ “El as de trebol y diamantes están en montones diferentes”,
E3 ∶ “El as de trebol, diamantes y corazones están en montones diferentes”,
E4 ∶ “Los cuatro aces están en montones diferentes”.
Notemos que los eventos satisfacen las inclusiones E4 ⊆ E3 ⊆ E2 ⊆ E1 , y que el evento de

interés es E4 . Entonces, por la propiedad 1.5.(a) se tiene que
P(E4 ) = P(E4 ∩ E3 ∩ E2 ∩ E1 )
= P(E1 ) P(E2 ∣E1 ) P(E3 ∣E1 ∩ E2 ) P(E4 ∣E1 ∩ E2 ∩ E3 )
= P(E1 ) P(E2 ∣E1 ) P(E3 ∣E2 ) P(E4 ∣E3 )
52 39 26 13
= ⋅ ⋅ ⋅ ≈ 0,105.
52 51 50 49
2. Una compañía de seguros clasifica a sus afiliados en tres grupos: bajo, mediano y alto riesgo.
Estadísticas de la compañía (del año pasado) indican que la probabilidad que individuos de los
distintos grupos estén implicados en un accidente es: 0,05 (bajo riesgo), 0,15 (mediano riesgo)
y 0,3 (alto riesgo). Si el 20 % de los afiliados pertenece al grupo de bajo riesgo, 50 % al de
mediano riesgo y 30 % al de alto riesgo, conteste: si un asegurado no sufrió ningún accidente
durante el último año, ¿cuál es la probabilidad de que el afectado pertenezca al grupo de bajo
riesgo?
Solución.
Definamos los eventos:
B ∶ “El afiliado pertenece al grupo de bajo riesgo”,

M ∶ “El afiliado pertenece al grupo de mediano riesgo”,
A ∶ “El afiliado pertenece al grupo de alto riesgo”,
R ∶ “El afiliado sufrió un accidente durante el último año”.
Por enunciado sabemos que
P(B) = 0,2, P(M ) = 0,5, P(A) = 0,3,

P(R∣B) = 0,05, P(R∣M ) = 0,15, P(R∣A) = 0,3.
La probabilidad que nos interesa determinar es P(B∣Rc ). Para determinar P(R) usamos la
fórmula de probabilidades totales:
P(R) = P(R∣B) P(B) + P(R∣M ) P(M ) + P(R∣A) P(A)

= 0,05 ⋅ 0,2 + 0,15 ⋅ 0,5 + 0,3 ⋅ 0,3 = 0,175.
Aplicando el teorema de Bayes:

P(Rc ∣B) P(B) [1 − P(R∣B)] P(B) [1 − 0,05] ⋅ 0,2
P(B∣Rc ) = = = ≈ 0,2303.
P(Rc ) 1 − P(R) 1 − 0,175
17
Definición 1.9 (Independencia de dos eventos). Sea (Ω, F, P) un espacio de probabilidad y A, B ∈
F. Diremos que A y B son independientes si
P(A ∩ B) = P(A) P(B).
Definición 1.10 (Independencia de un número finito de eventos). Sea (Ω, F, P) un espacio de pro-
babilidad y {Ai }ni=1 ⊆ F. Diremos que A1 , . . . , An son independientes (o mutuamente independientes)
si
P (⋂ Ai ) = ∏ P(Ai ), ∀I ⊆ {1, . . . , n}.

i∈I i∈I
Ejemplo 1.11. Considere el lanzamiento independiente de una moneda equilibrada dos veces. Defi-
namos los siguientes eventos:
A ∶ “Obtener cara en el primer lanzamiento”,

B ∶ “Obtener cara en el segundo lanzamiento”,
C ∶ “Obtener solamente una cara”.
Se puede demostrar que los eventos A, B y C son independientes de a pares, pero no mutuamente
independientes. En efecto, notemos que Ω = {(c, c), (c, s), (s, c), (s, s)} y
A = {(c, c), (c, s)},

B = {(c, c), (s, c)},
C = {(c, s), (s, c)}.
Así,
∣{(c, c)}∣ 1 1 1
P(A ∩ B) = P({(c, c)}) = = = ⋅ = P(A) P(B) ⇒ A y B son indep.,
∣Ω∣ 4 2 2
∣{(c, s)}∣ 1 1 1
P(A ∩ C) = P({(c, s)}) = = = ⋅ = P(A) P(C) ⇒ A y C son indep.,
∣Ω∣ 4 2 2
∣{(s, c)}∣ 1 1 1
P(B ∩ C) = P({(s, c)}) = = = ⋅ = P(B) P(C) ⇒ B y C son indep.
∣Ω∣ 4 2 2
Se deduce que A, B y C son eventos independientes de a pares. Sin embargo,
P(A ∩ B ∩ C) = 0 ≠ P(A) P(B) P(C),
y se concluye que los eventos A, B y C no son mutuamente independientes.
Problema 1.2. Sea (Ω, F, P) un espacio de probabilidad y A, B ∈ F eventos independientes. De-

muestre que
A y B c son indep., Ac y B son indep., Ac y B c son indep.
18
A modo de ejemplo, notemos que
P(A) = P(A ∩ B) + P(A ∩ B c ) ⇒ P(A ∩ B c ) = P(A) − P(A ∩ B)

= P(A) − P(A) P(B)
= P(A)[1 − P(B)]
= P(A) P(B c ),
de donde se concluye que A y B c son independientes. El resto queda de ejercicio.
Sea (Ω, F, P) un espacio de probabilidad y A, B ∈ F tales que P(A) > 0 y P(B) > 0. Es posible
establecer la siguiente relación entre los conceptos de independencia y probabilidad condicional:
P(A∣B) = P(A) ⇔ A y B son indep.
La propiedad anterior se suele ocupar como definición de independencia por algunos autores y nos
permite interpretar el concepto del independencia a través del concepto de probabilidad condicional.
19
Capítulo 2
Variables Aleatorias
2.1. Variables aleatorias y modelos analíticos univariados

Las variables aleatorias (v.a.) se pueden concebir como una manera de representar eventos, pro-
venientes de experimentos aleatorios de interés, en términos analíticos. Esto permite a posteriori
calcular probabilidades sumando o integrando (dependiendo de algunos atributos del modelo) una
determinada función, y definir una medida de probabilidad sobre R. Así, una variable aleatoria se
puede entender como un mecanismo aleatorio de generación de números reales.
Intuitivamente, una variable aleatoria corresponde a una función que le asocia un número real a
cada elemento de un espacio muestral asociado a un experimento aleatorio de interés. Una de las
utilidades de esta asignación es que, en muchas situaciones, se simplifica la estructura matemática
del espacio muestral de interés, como se muestra en el siguiente ejemplo.
Ejemplo 2.1. Consideremos el experimento aleatorio de lanzar 100.000 veces de manera indepen-
diente una moneda y observar si salió cara o sello, donde se codifican las caras por unos y los sellos
por ceros. En este caso el espacio muestral está dado por
Ω = {0, 1}100.000 .
Supongamos que estamos interesados en determinar la cantidad de caras que aparecieron. Una
manera de hacer esto es a través de la función
X∶ Ω = {0, 1}100.000 → {0, . . . , 100.000},
100.000
ω = (ω1 , . . . , ω100.000 ) → X(ω) = ∑ ωi .
i=1
En el ejemplo anterior la función X(⋅) corresponde a la v.a. En lo que sigue definimos formalmente
el concepto de v.a.
Definición 2.1 (Variable aleatoria). Sea (Ω, F) un espacio medible. Una variable aleatoria (real)
es una función X ∶ Ω → R tal que
(2.1) ∀x ∈ R, X −1 ((−∞, x]) ∈ F.
La condición (2.1) puede parecer técnica, pero es fundamental para definir el concepto de función
de distribución asociado a una v.a.
20
Definición 2.2 (Función de distribución de una v.a.). Sea (Ω, F, P) un espacio de probabilidad y
X ∶ Ω → R una v.a. Se define la función de distribución de X, denotada FX , como
FX (x) ∶= PX ((−∞, x]) = P(X ≤ x), ∀x ∈ R.
El concepto de función de distribución, también llamada función de distribución acumulada, es fun-

damental para el desarrollo de modelos analíticos y está íntimamente relacionado con el concepto
de medida de probabilidad inducida por una v.a., que definimos a continuación.
Definición 2.3 (Medida de probabilidad inducida por una v.a.). Sea (Ω, F, P) un espacio de pro-
babilidad y X ∶ Ω → R una v.a. Se define la medida de probabilidad inducida por X como
PX (B) = P(X −1 (B)) = P(X ∈ B),
para todo conjunto B ⊆ R razonable.1
Un primer resultado de interés es que la medida de probabilidad inducida por una v.a. satisface
los axiomas de Kolmogorov, es decir, es una medida de probabilidad en R, y por ende satisface las
propiedades 1.1.
Teorema 2.1. PX (⋅) ∈ M(Ω).
Demostración. Sea (An )n∈N ⊆ 2R disjuntos de a pares. Notemos que
PX ( ⊍ An ) = P (X −1 ( ⊍ An )) = P ( ⊍ X −1 (An )) = ∑ P(X −1 (An )) = ∑ PX (An ).

n∈N n∈N n∈N n∈N n∈N
La demostración del resto de las propiedades quedan propuestas. ◻
Antes de continuar vamos a definir algo de notación. Sean a, b ∈ R con a < b. Se definen los siguientes
eventos asociados a v.a.:
{X = a} = {ω ∈ Ω ∶ X(ω) = a} = X −1 ({a}),
{X ≤ a} = {ω ∈ Ω ∶ X(ω) ≤ a} = X −1 ((−∞, a]),
{X < a} = {ω ∈ Ω ∶ X(ω) < a} = X −1 ((−∞, a)),
{X ≥ a} = {ω ∈ Ω ∶ X(ω) ≥ a} = X −1 ([a, ∞)),
{X > a} = {ω ∈ Ω ∶ X(ω) > a} = X −1 ((a, ∞)),
{a < X ≤ b} = {ω ∈ Ω ∶ a < X(ω) ≤ b} = X −1 ((a, b]),
{a ≤ X ≤ b} = {ω ∈ Ω ∶ a ≤ X(ω) ≤ b} = X −1 ([a, b]),
{a ≤ X < b} = {ω ∈ Ω ∶ a ≤ X(ω) < b} = X −1 ([a, b)),
{a < X < b} = {ω ∈ Ω ∶ a < X(ω) < b} = X −1 ((a, b)).
1
Por conjunto razonable queremos decir todo conjunto que pueda definirse a partir de uniones e intersecciones
arbitrarias de intervalos de R. El lector interesado en este tema puede investigar lo que se conoce como la σ-álgebra
de los Borelianos.
21
Es importante destacar que la simbología anterior asociada a los eventos a la izquierda del primer
signo igual es mera notación y que debe interpretarse como el evento a la derecha del signo igual.
En el siguiente ejemplo se aplican los conceptos de medida de probabilidad inducida por una v.a. y
su función de distribución asociada.
Ejemplo 2.2. Consideremos el lanzamiento independiente de un dado equilibrado dos veces y defi-
namos la v.a. X, definida como la suma de los números obtenidos en la cara superior.
(a) Determine la medida de probabilidad inducida por X.

Solución.
Primero notemos que el recorrido efectivo de la v.a. X está dado por el conjunto {2, 3, . . . , 11, 12},
de manera que X ∶ Ω = {1, 2, 3, 4, 5, 6}2 → {2, 3, . . . , 11, 12}. Es claro que X no pondrá probabi-
lidad en números que no estén en su recorrido. Calculemos:
PX ({2}) = P(X −1 ({2})) = P(X = 2) = P(ω ∈ Ω ∶ X(ω) = 2)

1
= P({(1, 1)}) = ,
36
−1
PX ({3}) = P(X ({3})) = P(X = 3) = P(ω ∈ Ω ∶ X(ω) = 3)
2 1
= P({(1, 2), (2, 1)}) = = ,
36 18
−1
PX ({4}) = P(X ({4})) = P(X = 4) = P(ω ∈ Ω ∶ X(ω) = 4)
3 1
= P({(1, 3), (2, 2), (3, 1)}) = = ,
36 12
−1
PX ({5}) = P(X ({5})) = P(X = 5) = P(ω ∈ Ω ∶ X(ω) = 5)
4 1
= P({(1, 4), (2, 3), (3, 2), (4, 1)}) = = ,
36 9
−1
PX ({6}) = P(X ({6})) = P(X = 6) = P(ω ∈ Ω ∶ X(ω) = 6)
5
= P({(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)}) = ,
36
−1
PX ({7}) = P(X ({7})) = P(X = 7) = P(ω ∈ Ω ∶ X(ω) = 7)
6 1
= P({(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}) = = ,
36 6
−1
PX ({8}) = P(X ({8})) = P(X = 8) = P(ω ∈ Ω ∶ X(ω) = 8)
5
= P({(2, 6), (3, 5), (4, 4), (5, 3), (6, 2)}) = ,
36
−1
PX ({9}) = P(X ({9})) = P(X = 9) = P(ω ∈ Ω ∶ X(ω) = 9)
4 1
= P({(3, 6), (4, 5), (5, 4), (6, 3)}) = = ,
36 9
−1
PX ({10}) = P(X ({10})) = P(X = 10) = P(ω ∈ Ω ∶ X(ω) = 10)
3 1
= P({(4, 6), (5, 5), (6, 4)}) = = ,
36 12
−1
PX ({11}) = P(X ({11})) = P(X = 11) = P(ω ∈ Ω ∶ X(ω) = 11)
2 1
= P({(5, 6), (6, 5)}) = = ,
36 18
22
PX ({12}) = P(X −1 ({12})) = P(X = 12) = P(ω ∈ Ω ∶ X(ω) = 12)
1
= P({(6, 6)}) = .
36
(b) Determine la función de distribución acumulada de X.

Solución.
Notemos que
⎧
⎪ 0 si x < 2,
⎪
⎪
⎪
⎪
⎪ 1
⎪
⎪
⎪ 36 si 2 ≤ x < 3,
⎪
⎪
⎪ 1 2 3
⎪
⎪
⎪ 36 + 36 = 36 si 3 ≤ x < 4,
⎪
⎪
⎪
⎪ 1 2 3 6
⎪
⎪
⎪ 36 + 36 + 36 = 36 si 4 ≤ x < 5,
⎪
⎪
⎪
⎪ 1 2 3 4 10
⎪
⎪
⎪ 36 + 36 + 36 + 36 = 36 si 5 ≤ x < 6,
⎪
⎪
⎪
⎪ 1 2 3 4 5 15
⎪
⎪ 36 + 36 + 36 + 36 + 36 = 36 si 6 ≤ x < 7,
FX (x) = ⎨ 1 2 3 4 5 6 21
⎪
⎪
⎪ 36 + 36 + 36 + 36 + 36 + 36 = 36 si 7 ≤ x < 8,
⎪
⎪
⎪
⎪ 1 2 3 4 5 6 5 26
⎪
⎪
⎪ 36 + 36 + 36 + 36 + 36 + 36 + 36 = 36 si 8 ≤ x < 3,
⎪
⎪
⎪
⎪ 1 2 3 4 5 6 5 4 30
⎪
⎪
⎪ 36 + 36 + 36 + 36 + 36 + 36 + 36 + 36 = 36 si 9 ≤ x < 3,
⎪
⎪
⎪ 1 2 3 4 5 6 5 4 3 33
⎪
⎪
⎪
⎪ 36 + 36 + 36 + 36 + 36 + 36 + 36 + 36 + 36 = 36 si 10 ≤ x < 3,
⎪
⎪
⎪ 1 2 3 4 5 6 5 4 3 2 35
⎪
⎪
⎪ 36 + 36 + 36 + 36 + 36 + 36 + 36 + 36 + 36 + 36 = 36 si 11 ≤ x < 12,
⎪
⎪
⎪
⎪ 1 2 3 4 5 6 5 4 3 2 1
⎪
⎩ 36 + 36 + 36 + 36 + 36 + 36 + 36 + 36 + 36 + 36 + 36 =1 si 12 ≤ x.
(c) Determine las probabilidades de los siguientes eventos: A = (0, 1), B = [1, 3), C = [4, 6].
Solución.
Notemos que
PX (A) = P(X −1 (A)) = P(X ∈ A) = P(ω ∈ Ω ∶ X(ω) ∈ (0, 1)) = P(∅) = 0,

1
PX (B) = P(X −1 (B)) = P(X ∈ B) = P(ω ∈ Ω ∶ X(ω) ∈ [1, 3)) = P(ω ∈ Ω ∶ X(ω) = 2) = ,
36
PX (C) = P(X −1 (C)) = P(X ∈ C) = P(ω ∈ Ω ∶ X(ω) ∈ [4, 6]) = P(ω ∈ Ω ∶ X(ω) ∈ {4, 5, 6})
3 4 5 12 1
= + + = = .
36 36 36 36 3
Usando las propiedades de una medida de probabilidad, se puede demostrar que toda función de
distribución satisface las siguientes propiedades.
Proposición 2.2. Sea X una v.a. y FX su función de distribución acumulada. Entonces:
(a) FX es una función monótona no decreciente.
(b) FX es una función continua por la derecha con límite por la izquierda.
(c) lim FX (x) = 0 y lim FX (x) = 1

x→−∞ x→∞
23
A modo de ejemplo demostraremos la propiedad (a). El resto quedarán propuestas.
Demostración. Por demostrar (a). En efecto, sean x1 , x2 ∈ R tales que x1 ≤ x2 . Entonces {X ≤

x1 } ⊆ {X ≤ x2 }. Luego, por la propiedad de monotonía de una medida de probabilidad se tiene
P(X ≤ x1 ) ≤ P(X ≤ x2 ), que es equivalente a FX (x1 ) ≤ FX (x2 ). ◻
Gracias al siguiente resultado, es posible usar la función de distribución para calcular la probabili-
dad de intervalos de la forma (a, b] con a, b ∈ R tales que a < b.
Proposición 2.3. Sean a, b ∈ R tales que a < b, X una v.a. y FX su función de distribución
acumulada. Entonces
PX ((a, b]) = FX (b) − FX (a) ⇔ P(a < X ≤ b) = FX (b) − FX (a).
Es importante destacar que la propiedad anterior se cumple para toda función de distribución aso-
ciada a una v.a.
En lo que sigue, estudiando el comportamiento de la función de distribución FX , vamos a clasificar

las variables aleatorias en dos tipos: (a) variables aleatorias discretas y (b) variables aleatorias con-
tinuas.
2.1.1. Variables aleatorias discretas

Las variables aleatorias discretas se caracterizan por poseer una función de distribución constante
por pedazos, continua por la derecha y con límite por la izquierda, como se observa en la figura 2.1.
Figura 2.1: Ejemplo de función de distribución discreta.
Estas distribuciones se caracterizan por poseer una cantidad finita o infinita numerable de discon-
tinuidades. Sean xi con i ∈ I ⊆ N dichos puntos de discontinuidad. Notemos que el salto en cada xi
24
está dado por
∆FX (xi ) ∶= FX (xi ) − FX (x−i ) = PX ({xi }) = P(X = xi ) > 0,
donde FX (x−i ) es el límite por la izquierda FX en xi . Luego, si sumamos todos lo saltos se tiene que
∑ PX ({xi }) = 1.
i∈I
En este caso X se denomina variable aleatoria discreta y
pX (xi ) ∶= PX ({xi }) = P(X = xi ),
se denomina función de probabilidad puntual. Notemos que es posible definir pX ∶ R → [0, 1] como
⎧ si x ∈ {xi ∶ i ∈ I},
⎪ PX ({x})
⎪
pX (x) ∶= ⎨
⎪
⎪
⎩ 0 en otro caso.
Una vez que disponemos de una función de probabilidad puntual, la probabilidad de un evento
A ⊆ R se puede calcular a través de la fórmula
PX (A) = ∑ pX (x).
x∈A
En lo que sigue mostramos algunos ejemplos de variables aleatorias discretas:

(i) Bernoulli: diremos que X se distribuye de acuerdo a un modelo Bernoulli de parámetro p,
denotado X ∼ Ber(p), si su función de probabilidad puntual está dada por
⎧ x 1−x
⎪ p (1 − p)
⎪ si x = 0, 1,
pX (x) = ⎨
⎪
⎪
⎩ 0 en otro caso,
donde p ∈ (0, 1). Esta distribución se puede usar para modelar la ocurrencia y no ocurrencia
de un evento de interés.
(ii) Binomial: diremos que X se distribuye de acuerdo a un modelo Binomial de parámetros n y
p, denotado X ∼ Bin(n, p), si su función de probabilidad puntual está dada por
⎧ n x n−x
⎪ ( )p (1 − p)
⎪ si x = 0, 1, . . . , n,
pX (x) = ⎨ x
⎪
⎪
⎩ 0 en otro caso,
donde n ∈ N ∖ {0} y p ∈ (0, 1). Esta distribución se genera vía n repeticiones independientes
del mismo modelo Ber(p) y se puede usar para modelar el número de veces que ocurre el
evento de interés.
(iii) Geométrica: diremos que X se distribuye de acuerdo a un modelo Geométrico de parámetro
p, denotado X ∼ Geo(p), si su función de probabilidad puntual está dada por
⎧ x−1
⎪ p(1 − p)
⎪ si x = 1, 2, . . . ,
pX (x) = ⎨
⎪
⎪
⎩ 0 en otro caso,
donde p ∈ (0, 1). Esta distribución se genera vía repeticiones independientes del mismo modelo
Ber(p) y se puede usar para modelar la primera vez que ocurre el evento de interés.
25
(iv) Poisson: diremos que X se distribuye de acuerdo a un modelo Poisson de parámetro λ, deno-
tado X ∼ P ois(λ), si su función de probabilidad puntual está dada por
⎧ e−λ λx
⎪
⎪ x! si x = 0, 1, . . . ,
pX (x) = ⎨
⎪
⎪ 0 en otro caso,
⎩
donde λ > 0. Esta distribución no se relaciona directamente con ensayos de Bernoulli y se puede
usar para modelar el número de veces de ocurre un fenómeno de interés en un determinado
período de tiempo.
2.1.2. Variables aleatorias continuas

Las variables aleatorias continuas se caracterizan por poseer una función de distribución continua,
como en la figura 2.2, que admite una representación integral, esto es, existe una función no negativa
e integrable fX ∶ R → [0, ∞) tales que
x
FX (x) = ∫ fX (u)du, x ∈ R,
−∞
donde
∞
∫ fX (x)dx = 1.
−∞
Figura 2.2: Ejemplo de función de distribución continua.
En este caso X se denomina variable aleatoria continua y la función fX , función de densidad de

probabilidad. Notemos que en este caso
∆FX (x) ∶= FX (x) − FX (x− ) = PX ({x}) = 0, ∀x ∈ R.
26
Una vez que disponemos de una función de densidad de probabilidad, la probabilidad de un evento
A ⊆ R se puede calcular a través de la fórmula
PX (A) = ∫ fX (x)dx.
A
En lo que sigue mostramos algunos ejemplos de variables aleatorias continuas:
(i) Uniforme: diremos que X se distribuye de acuerdo a un modelo Uniforme de parámetros a y

b, denotado X ∼ U (a, b), si su función de densidad de probabilidad está dada por
⎧ 1
⎪
⎪ b−a si x ∈ (a, b),
fX (x) = ⎨
⎪
⎪
⎩ 0 en otro caso,
donde a, b ∈ R y a < b. Esta distribución se caracteriza porque la probabilidad de un subinter-

valo de (a, b) es proporcional a su largo y todos los números reales pertenecientes a (a, b) son
igualmente plausibles.
(ii) Exponencial: diremos que X se distribuye de acuerdo a un modelo Exponencial de parámetro

λ, denotado X ∼ Exp(λ), si su función de densidad de probabilidad está dada por
⎧ −λx
⎪ λe
⎪ si x ∈ [0, ∞),
fX (x) = ⎨
⎪
⎪
⎩ 0 en otro caso,
donde λ > 0. Esta distribución se suele usar para modelar tiempos de vida útil de máquinas o
tiempos entre ocurrencias de ciertos fenómenos de interés.
(iii) Normal: diremos que X se distribuye de acuerdo a un modelo Normal de parámetros µ y σ 2 ,

denotado X ∼ N (µ, σ 2 ), si su función de densidad de probabilidad está dada por
1 1/2 1 x−µ 2
fX (x) = ( ) exp {− ( ) }, x ∈ R,
2πσ 2 2 σ
donde µ ∈ R y σ > 0. A pesar que la densidad de probabilidad de este modelo es positiva en todo
R, concentra casi toda su probabilidad en un dominio acotado gracias al rápido decaimiento
a cero de sus colas. Esta distribución es muy utilizada en la práctica.
2.2. Medidas descriptivas de variables aleatorias

En esta sección vamos a estudiar algunas medidas descriptivas que nos permiten obtener informa-
ción respecto de ciertos atributos del modelo de probabilidad en estudio. Por ejemplo: localización,
variabilidad, asimetría, etc.
27
2.2.1. Media y varianza
Definición 2.4 (Esperanza). Sea X una v.a. Se define su esperanza (también denominada media
o valor esperado) como
⎧
⎪
⎪ ∑ x ⋅ pX (x) si X es una v.a. discreta,
⎪
⎪
⎪ x∶pX (x)>0
E(X) ∶= ⎨ ∞
⎪
⎪
⎪
⎪
⎪ ∫ x ⋅ fX (x)dx si X es una v.a. continua.
⎩ −∞
El valor anterior está bien definido en la medida que

∞
∑ ∣x∣ ⋅ pX (x) < ∞ o ∫ ∣x∣ ⋅ fX (x)dx < ∞.
x∶pX (x)>0 −∞
Ejemplo 2.3. Sea X ∼ Ber(p) con p ∈ [0, 1]. Determine E(X). En efecto,
E(X) = 0 ⋅ pX (0) + 1 ⋅ pX (1) = p.
Ejemplo 2.4. Sea X ∼ Bin(n, p) con n ∈ N ∖ {0} y p ∈ [0, 1]. Determine E(X). En efecto,
n n n−1
n n−1 x n − 1 x+1
E(X) = ∑ x( )px (1 − p)n−x = n ∑ ( )p (1 − p)n−x = n ∑ ( )p (1 − p)n−x−1
x=0 x x=1 x − 1 x=0 x
n−1
n−1 x
= np ∑ ( )p (1 − p)(n−1)−x = np.
x=0 x
Ejemplo 2.5. Sea X ∼ Geo(p) con p ∈ (0, 1]. Determine E(X). En efecto,
∞ ∞ ∞
d d ∞
E(X) = ∑ xp(1 − p)x−1 = p ∑ x(1 − p)x−1 = p ∑ − ((1 − p)x ) = −p ( ∑ (1 − p)x )
x=1 x=1 x=1 dp dp x=1
d ∞ d 1 1 1
= −p ( ∑ (1 − p)x ) = −p ( ) = −p (− 2 ) = .
dp x=0 dp p p p
Ejemplo 2.6. Sea X ∼ P ois(λ) con λ > 0. Determine E(X). En efecto,

∞
e−λ λx ∞ e−λ λx ∞ −λ x−1
e λ ∞ −λ x
e λ ∞
λx
E(X) = ∑ x =∑ =λ∑ =λ∑ = λe−λ ∑
x=0 x! x=1 (x − 1)! x=1 (x − 1)! x=0 x! x=0 x!
−λ λ
= λe e = λ.
Ejemplo 2.7. Sea X ∼ U (a, b) con a, b ∈ R tal que a < b. Determine E(X). En efecto,
b
b x x2 (b2 − a2 ) a + b
E(X) = ∫ dx = ∣ = = .
a b−a 2(b − a) a 2(b − a) 2
28
Ejemplo 2.8. Sea X ∼ Exp(λ) con λ > 0. Determine E(X). En efecto,
∞ ∞
∞ ∞ e−λx 1
E(X) = ∫ xλe−λx dx = −xe−λx ∣ + ∫ e−λx dx = − ∣ = .
0 0 0 λ 0 λ
Ejemplo 2.9. Sea X ∼ N (µ, σ 2 ) con µ ∈ R y σ > 0. Determine E(X). En efecto,
∞ 1 1/2 1 x−µ 2 ∞ 1 1/2 1 x−µ 2

E(X) = ∫ x( ) exp {− ( ) } dx = ∫ (x − µ) ( ) exp {− ( ) } dx
−∞ 2πσ 2 2 σ −∞ 2πσ 2 2 σ
∞ 1 1/2 1 x−µ 2 ∞ 1 1/2 1 y 2
+∫ µ( ) exp {− ( ) } dx = ∫ y ( ) exp {− ( ) } dy
−∞ 2πσ 2 2 σ −∞ 2πσ 2 2 σ
∞ 1 1/2 1 x−µ 2
+ µ∫ ( ) exp {− ( ) } dx = µ.
−∞ 2πσ 2 2 σ
En lo que sigue estamos interesados en estudiar el efecto que tiene el valor esperado. Para esto, en la
figura 2.3 se muestran las densidades de un modelo N (µ = 1, σ 2 = 0,19) en rojo y N (µ = 3, σ 2 = 0,19)
en azul. Notemos que los modelos sólo se diferencian en el valor del parámetro µ. Se observa que
cambiar el valor de µ deslocaliza la función de densidad. Por lo tanto, la media se puede interpretar
como un parámetro de localización del modelo de probabilidad.
Figura 2.3: Efecto de la media en un modelo normal.
Es posible extender la definición de esperanza de una v.a. al valor esperado de una transformación
de una v.a.
Definición 2.5 (Esperanza de h(X)). Sea X una v.a. y h una función. Se define la esperanza de
29
h(X) como
⎧
⎪
⎪ ∑ h(x) ⋅ pX (x) si X es una v.a. discreta,
⎪
⎪ x∶pX (x)>0
E(h(X)) ∶= ⎨ ∞
⎪
⎪
⎪
⎪ ∫ h(x) ⋅ fX (x)dx si X es una v.a. continua.
⎩ −∞
El valor anterior está bien definido en la medida que

∞
∑ ∣h(x)∣ ⋅ pX (x) < ∞ o ∫ ∣h(x)∣ ⋅ fX (x)dx < ∞.
x∶pX (x)>0 −∞
Ejemplo 2.10. Sea X ∼ Ber(p) con p ∈ [0, 1]. Determine E(X 2 ). En efecto,
E(X 2 ) = 02 ⋅ pX (0) + 12 ⋅ pX (1) = p.
Ejemplo 2.11. Sea X ∼ U (a, b) con a, b ∈ R tal que a < b. Determine E(X 2 ). En efecto,
b
2
b x2 x3 (b3 − a3 ) (b − a)(a2 + ab + b2 ) a2 + ab + b2
E(X ) = ∫ dx = ∣ = = = .
a b−a 3(b − a) a 3(b − a) 3(b − a) 3
Tomando algunas funciones h en particular se pueden definir algunos conceptos adicionales.
Definición 2.6 (Varianza). Sea X una v.a. Se define su varianza como
Var(X) = E[(X − E(X))2 ].
Ejemplo 2.12. Sea X ∼ Ber(p) con p ∈ [0, 1]. Determine Var(X). En efecto,
Var(X) = (0 − p)2 ⋅ pX (0) + (1 − p)2 ⋅ pX (1) = p2 (1 − p) + (1 − p)2 p

= p(1 − p)(p + (1 − p)) = p(1 − p).
El cálculo de la varianza con la fórmula de la definición puede ser un poco engorroso. La siguiente
propiedad simplifica simplifica el cálculo de la varianza.
Proposición 2.4. Sea X una v.a. Entonces
Var(X) = E(X 2 ) − E2 (X).
Demostración. Demostraremos la propiedad anterior en el caso en que X es una v.a. continua. En

efecto,
Var(X) = ∫ (x − E(X))2 fX (x)dx = ∫ x2 fX (x)dx − 2 E(X) ∫ xfX (x)dx

R R R
+ E (X) ∫ fX (x)dx = E(X ) − 2 E (X) + E (X) = E(X 2 ) − E2 (X).

2 2 2 2
R
◻
30
Ejemplo 2.13. Sea X ∼ U (a, b) con a, b ∈ R tal que a < b. Determine Var(X). En efecto,
a2 + ab + b2 a + b 2 4a2 + 4ab + 4b2 − 3(a2 + 2ab + b2 )

Var(X) = E(X 2 ) − E2 (X) = −( ) =
3 2 12
2 2 2
a − 2ab + b (b − a)
= = .
12 12
Problema 2.1. Demuestre las siguientes afirmaciones:
(a) Si X ∼ Bin(n, p), entonces Var(X) = np(1 − p).

(1−p)
(b) Si X ∼ Geo(p), entonces Var(X) = p2
.
(c) Si X ∼ P ois(λ), entonces Var(X) = λ.

1
(d) Si X ∼ Exp(λ), entonces Var(X) = λ2
.
(e) Si X ∼ N (µ, σ 2 ), entonces Var(X) = σ 2 .
Estamos interesados en estudiar el efecto que tiene la varianza. Para esto, en la figura 2.4 se mues-
tran las densidades de un modelo N (µ = 2, σ 2 = 0,2) en rojo y N (µ = 2, σ 2 = 0,6) en azul. Notemos
que los modelos sólo se diferencian en el valor del parámetro σ 2 . Se observa que cambiar el valor
de σ 2 cambia la variabilidad de la función de densidad con respecto a la esperanza. Por lo tanto, la
varianza se puede interpretar como un parámetro de dispersión, con respecto a la media, del modelo
de probabilidad.
Figura 2.4: Efecto de la varianza en un modelo normal.
Algunas propiedades adicionales de la media y varianza.
31
Proposición 2.5. Sea X una v.a. y a, b ∈ R. Entonces
E(aX + b) = a E(X) + b,
Var(aX + b) = a2 Var(X).
Demostración. Supongamos que X es una v.a. continua. Entonces
E(aX + b) = ∫ (ax + b)fX (x)dx = a ∫ xfX (x)dx + b ∫ fX (x)dx = a E(X) + b,

R R R
Var(X) = ∫ (ax + b − E(aX + b)) fX (x)dx = ∫ (ax + b − a E(X) − b)2 fX (x)dx

2
R R
= ∫ (ax − a E(X)) fX (x)dx = a ∫ (x − E(X))2 fX (x)dx = a2 Var(X).

2 2
R R
De la propiedad anterior se desprende que la esperanza es un operador lineal, mientras que la va-
rianza no. Más aún, se prueba directamente el siguiente resultado para el valor esperado.
Proposición 2.6. Sean X una v.a., a, b, c ∈ R y h1 , h2 funciones. Entonces
E(ah1 (X) + bh2 (X) + c) = a E(h1 (X)) + b E(h2 (X)) + c.
Usando la propiedad anterior se demuetra la siguiente caracterización del valor esperado.
Proposición 2.7. Sea X una v.a. Entonces
min E[(X − a)2 ] = E[(X − E(X))2 ].

a∈R
Demostración. Sea a ∈ R. Notemos que
E[(X − a)2 ] = E[(X − E(X) + E(X) − a)2 ]

= E[(X − E(X))2 − 2(X − E(X))(E(X) − a) + (E(X) − a)2 ]
= E[(X − E(X))2 ] − 2(E(X) − a) E[X − E(X)] + (E(X) − a)2
= Var(X) + (E(X) − a)2 .
Luego, el valor de a que minimiza E[(X − a)2 ] es a = E(X). ◻
2.2.2. Momentos y función generadora de momentos

Definición 2.7 (Momento de orden k). Sea X una v.a. Se define su momento de orden k ∈ N ∖ {0}
como
µk ∶= E(X k ).
Notemos que usando la definición anterior se puede escribir la varianza de X como
Var(X) = µ2 − µ21 .
32
Lo interesante de los momentos de una v.a. es que nos entregan más y más información respecto de
un modelo. Por ejemplo, los momentos de orden 3 nos permiten estudiar la existencia de asimetrías
y los momentos de orden 4, de angulosidades.
El siguiente concepto está relacionado con el de momento de orden k y cuando está bien definido,
nos permite caracterizar la función de distribución acumulada de un modelo.
Definición 2.8 (Función generadora de momentos). Sea X una v.a. Se define su función generadora
de momentos (fgm) como
MX (t) = E(etX ),
provisto que el valor esperado exista en alguna vecindad del cero.
Ejemplo 2.14. Sea X ∼ U (a, b) con a, b ∈ R tal que a < b. Determine la fgm de X. En efecto,
b
b 1 etx etb − eta
MX (t) = ∫ etx dx = ∣ = , t ≠ 0.
a b−a t(b − a) a t(b − a)
Para t = 0 se tiene que MX (t) = 1.
La siguiente propiedad explica el nombre de MX (t) a través de su relación con los momentos µk .
Proposición 2.8. Si X es una v.a. con fgm MX (t), entonces

(k)
µk = MX (0),
donde
(k) dk MX (t)
MX (0) = ∣ , ∀k ∈ N ∖ {0}.
dtk t=0
De la proposición anterior se deduce que si la fgm existe, entonces dicha función caracteriza los
momentos de la v.a. subyacente. ¿Se podrá decir lo mismo respecto del modelo de probabilidad? La
respuesta es que si y está dada en la siguiente proposición.
Proposición 2.9. Sean X e Y v.a’s con funciones de distribución FX y FY respectivamente. Si

las fgm existen y MX (t) = MY (t), ∀t ∈ V0 , con V0 una vecindad del cero, entonces FX (u) = FY (u),
∀u ∈ R.
La proposición anterior es muy útil para identificar modelos, como veremos en el capítulo de vectores
aleatorios.
33
2.2.3. Desigualdad de Chebyshev
La noción de valor esperado no solamente nos sirve para determinar donde está localizada una me-
dida de probabilidad, también nos sirve para acotar probabilidades, como se aprecia en el siguiente
teorema.
Teorema 2.10 (Desigualdad de Chebyshev). Sea X una v.a. y h una función no negativa. Entonces
E[h(X)]
P(h(X) ≥ r) ≤ , ∀r > 0.
r
Demostración. Sea r > 0 y supongamos que X es una v.a. continua. Notemos que
∞
E[h(X)] = ∫ h(x)fX (x)dx ≥ ∫ h(x)fX (x)dx ≥ ∫ rfX (x)dx
−∞ {x∶h(x)≥r} {x∶h(x)≥r}
=r ∫ fX (x)dx = r P(h(X) ≥ r),

{x∶h(x)≥r}
de donde se concluye el teorema. ◻
Del teorema anterior se deducen los siguientes casos particulares, cuyas demostraciones quedan
propuestas:
E(∣X∣)
(a) P(∣X∣ ≥ r) ≤ r , con r > 0.
1
√
(b) P(∣X − µ∣ ≥ tσ) ≤ t2
, con µ = E(X), σ = Var(X) y t > 0.
Var(X)
(c) P(∣X − µ∣ ≥ ) ≤ 2
, con µ = E(X) y > 0.
(d) P(X ≥ a) ≤ e−at MX (t), ∀t ∈ [0, h], a ∈ R y h > 0 tal que MX (t) exista ∀∣t∣ ≤ h.
Muchos autores llaman a la propiedad (c) la desigualdad de Chebyshev.
En el siguiente ejemplo se muestra cómo acotar una probabilidad, conociendo su media y varianza.
Ejemplo 2.15. Sea X una v.a. tales que E(X) = 0 y Var(X) = 1. Entonces, aplicando la versión (b)
de la desigualdad de Chebyshev se tiene que
P(∣X∣ ≥ 2) ≤ 0,25.
Notemos que la cota anterior no depende del modelo de probabilidad de X.
Observación 2.1. La posibilidad de acotar probabilidades asociadas a una v.a. conociendo su media
y varianza es bastante sorprendente. Sin embargo, hay que señalar que la cota que provee Chebyshev
puede ser bastante grande. En este sentido, si la v.a. del ejemplo anterior se comporta como una
v.a. Gaussiana es posible dar una cota mejor. En efecto, si Z ∼ N (0, 1) se puede demostrar que
√ t2
2 e− 2
P(∣Z∣ ≥ t) ≤ , ∀t > 0.
π t
Usando esta desigualdad se puede argumentar que P(∣Z∣ ≥ 2) ≤ 0,054.
34
Problema 2.2. Demuestre que si X ∼ N (µ, σ 2 ) y h es una función diferenciable tal que E(∣h′ (X)∣) <
∞, entonces
E[h(X)(X − µ)] = σ 2 E[h′ (X)].
Use lo anterior para calcular E(X 3 ) y analice la posibilidad de determinar µk para valores de k ≥ 4.
2.3. Aplicaciones
En esta sección estamos interesados en estudiar algunas situaciones en las que se pueden aplicar los
modelos analíticos vistos en las secciones anteriores.
2.3.1. Distribución normal o Gaussiana

Sabemos que X ∼ N (µ, σ 2 ) si su función de densidad de probabilidad está dada por
1
1 2 1 x−µ 2
fX (x) = ( ) exp {− ( ) }, −∞ < x < ∞,
2πσ 2 2 σ
donde µ ∈ R es un parámetro de localización y σ > 0 es un parámetro de escala. Además, se puede
demostrar que
1
E(X) = µ, Var(X) = σ 2 y MX (t) = exp {µt + σ 2 t2 } .
2
Cuando µ = 0 y σ = 1 se habla de la normal estándar. En este caso su función de distribución,
denotada Φ(⋅), se encuentra tabulada como en la tabla 2.1.
Las siguientes propiedades son útiles al momento de calcular probabilidades usando tabla 2.1.
Proposición 2.11. Si X ∼ N (µ, σ 2 ), entonces

x−µ
FX (x) = Φ ( ).
σ
Además, Φ(−x) = 1 − Φ(x), ∀x ∈ R.
Ejemplo 2.16. Durante una lluvia el drenaje de un pueblo se puede modelar como una v.a. normal de
media 1,3 y desviación estándar 0,5 (mgd). Si el sistema de drenaje fue diseñado para soportar una
capacidad máxima de 1,6 mgd, estamos interesados en determinar la probabilidad que el sistema
colapse. En efecto, definamos la variable aleatoria
X ∶ “drenaje de la ciudad”.
Sabemos que X ∼ N (µ = 1,3, σ 2 = 0,52 ). La probabilidad de interés está dada por
p = P(X ≥ 1,6) = 1 − P(X < 1,6) = 1 − P(X ≤ 1,6) = 1 − FX (1,6)

1,6 − µ 1,6 − 1,3
= 1 − Φ( ) = 1 − Φ( ) = 1 − Φ(0,6) ≈ 1 − 0,7257
σ 0,5
= 0,2743.
35
Tabla 2.1: Función de distribución de la normal estándar: Φ(x = 0.10) = 0.5398
x 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
Observación 2.2. A pesar que el modelo normal está soportado en todo R, es un modelo muy usado
en aplicaciones. Esto se debe a que si X ∼ N (µ, σ 2 ), entonces
P(µ − 3σ ≤ X ≤ µ + 3σ) = P(µ − 3σ < X ≤ µ + 3σ) = FX (µ + 3σ) − FX (µ − 3σ)

µ + 3σ − µ µ − 3σ − µ 3σ 3σ
= Φ( ) − Φ( ) = Φ ( ) − Φ (− )
σ σ σ σ
= Φ(3) − Φ(−3) = Φ(3) − (1 − Φ(3)) = 2Φ(3) − 1
≈ 0,9973002 > 0,99.
Luego, hay al menos un 99 % de probabilidad que un valor proveniente de este modelo pertenezca
al intervalo [µ − 3σ, µ + 3σ], y por lo tanto, hay una probabilidad muy baja de observar valores más
extremos. Similarmente,
P(µ − 5σ ≤ X ≤ µ + 5σ) ≈ 0,9999994 > 0,999999.
Todo este fenómeno se explica porque el modelo normal tiene colas que decrecen muy rápido a cero.
2.3.2. Distribución de Bernoulli y sus extensiones Binomial y Geométrica

Muchos problemas en ingeniería involucran la ocurrencia o no ocurrencia de un evento de interés.
Tales fenómenos pueden ser modelados a través de un ensayo de Bernoulli.
36
Sabemos que si X ∼ Ber(p), entonces su función de probabilidad puntual está dada por
⎧ x 1−x
⎪ p (1 − p)
⎪ si x = 0, 1,
pX (x) = ⎨
⎪
⎪
⎩ 0 en otro caso,
donde p ∈ (0, 1) es la probabilidad del evento de interés representado por x = 1. Además, se puede
demostrar que
E(X) = p, Var(X) = 1 − p y MX (t) = 1 − p + pet .
Extensiones de este modelo se producen cuando consideramos repeticiones independientes de un

mismo ensayo de Bernoulli. Dependiendo del número de repeticiones distinguiremos dos modelos:
1. Binomial.
2. Geométrica.
La distribución Binomial se genera repitiendo un número fijo de veces el mismo experimento de

Bernoulli y observando el número de veces que ocurre el evento de interés. Así, si X ∼ Bin(n, p)
sabemos que su función de probabilidad puntual está dada por
⎧ n x n−x
⎪ ( )p (1 − p)
⎪ si x = 0, 1, . . . , n,
pX (x) = ⎨ x
⎪
⎪
⎩ 0 en otro caso,
donde n ∈ N∖{0} representa el número de repeticiones de un experimento de Bernoulli de parámetro

p ∈ (0, 1). Además, se puede demostrar que
E(X) = np, Var(X) = np(1 − p) y MX (t) = (1 − p + pet )n .
Ejemplo 2.17. Una fábrica dispone de 12 máquinas del mismo tipo, para las cuales se sabe que su
tiempo de vida útil puede ser modelado por una distribución exponencial, con un tiempo de vida
media igual a 2.000 horas. Suponiendo que el comportamiento entre las máquinas es independiente,
estamos interesados en determinar la probabilidad que al menos 4 máquinas hayan dejado de fun-
cionar durante las primeras 1.200 horas. En efecto, sea n = 12 y p la probabilidad que una máquina
deje de funcionar durante las primeras 1.200 horas. Si denotamos por T la v.a. que representa el
tiempo de vida útil de una máquina, entonces
p = P(T ≤ 1.200).
1 1
Sabemos que T ∼ Exp(λ) y que E(T ) = λ = 2.000. Luego, λ = 2.000 = 0,0005, y por lo tanto,
1.200 1.200
−λt −λt 1.200
p = ∫ λe dt = −e ∣ = 1 − e−λ⋅1.200 = 1 − exp (− ) = 1 − exp(−0,6) ≈ 0,4511884.
0 2.000
0
Sea X la v.a. que representa el número de máquinas que dejan de funcionar durante las primeras
1.200 horas de funcionamiento. Notemos que X ∼ Bin(n, p). Luego, la probabilidad de interés está
dada por
n n
n
P(X ≥ 4) = ∑ pX (x) = ∑ ( )px (1 − p)n−x = 1 − P(X < 4) = 1 − P(X ≤ 3)
x=4 x=4 x
= 1 − (pX (0) + pX (1) + pX (2) + pX (3)) ≈ 0,867319.
37
La distribución Geométrica se genera repitiendo un mismo experimento de Bernoulli, hasta
que ocurra por primera vez el evento de interés. Así, si X ∼ Geo(p) sabemos que su función de
probabilidad puntual está dada por
⎧ x−1
⎪ p(1 − p)
⎪ si x = 1, 2, . . . ,
pX (x) = ⎨
⎪
⎪
⎩ 0 en otro caso,
donde p ∈ (0, 1) representa la probabilidad del evento de interés asociado al experimento de Bernoulli.
Además, se puede demostrar que
1 1−p pet
E(X) = , Var(X) = y MX (t) = , para t < − ln(1 − p).
p p2 1 − (1 − p)et
Ejemplo 2.18. Suponga que una plataforma oceánica está diseñada para soportar olas de hasta 8
metros de altura por sobre el nivel medio del mar, y que una ola de este tipo tiene una probabilidad
de ocurrencia del 5 % al año. Estamos interesados en determinar la probabilidad de observar una
ola de este tipo durante su período de retorno. En efecto, sea X la v.a. que representa el año en
que ocurre por primera vez una ola del tipo señalado anteriormente. Entonces X ∼ Geo(p), donde
p = 0,05. El período de retorno corresponde a la cantidad promedio de años que tarda en aparecer
una ola grande, esto es, E(X) = p1 = 20 años. Luego, la probabilidad de interés está dada por
20 19
1 − (1 − p)20
P(X ≤ 20) = ∑ p(1 − p)x−1 = p ∑ (1 − p)x = p ( ) = 1 − (1 − p)20 ≈ 0,6415141.
x=1 x=0 p
2.3.3. Distribución de Poisson

Si X ∼ P ois(λ) sabemos que su función de probabilidad puntual está dada por
⎧ e−λ λx
⎪
⎪ x! si x = 0, 1, . . . ,
pX (x) = ⎨
⎪
⎪ 0 en otro caso,
⎩
donde λ > 0. Además, se puede demostrar que
E(X) = λ, Var(X) = λ y MX (t) = exp(λ(et − 1)).
Esta distribución sirve para modelar el número de ocurrencias de un evento de interés en un intervalo
de tiempo (o espacio) fijo. El modelo de Poisson se basa en algunos supuestos:
La probabilidad de ocurrencia de un evento no afecta la probabilidad de ocurrencia de un

segundo evento.
La tasa a la cual ocurren los eventos es constante.
Dos eventos no pueden ocurrir exactamente en el mismo instante.
La probabilidad de un evento en un pequeño intervalo es proporcional al largo del intervalo.
38
Ejemplo 2.19. Estamos interesados en determinar el número mínimo de productos que debiera
comprar el vendedor para dejar satisfeca al menos el 40 % del curso. Suponga que el número de
unidades vendidas de un determinado producto por parte de un comerciante, durante el período
de un mes, se puede modelar de acuerdo a una distribución de Poisson. Si el número promedio de
ventas durante el mes es de 40 unidades, estamos interesados en determinar el número mínimo de
productos que tienen que haber en stock al inicio de cada mes, para abastecer al menos el 95 % de
la demanda de los clientes. En efecto, sea X la v.a. que representa el número de unidades vendidas
del producto en cuestión durante un mes. Sabemos que X ∼ P ois(λ), donde
E(X) = λ = 40.
Notemos que estamos interesados determinar el k ∈ N más pequeño, tal que FX (k) = P(X ≤ k) ≥ 0,95.
Haciendo los cálculos se tiene que:
FX (k = 50) = 0,947372 y FX (k = 51) = 0,9612598.
Luego, bastaría que el comerciante compre k = 51 unidades del producto en cuestión (al inicio de
cada mes) para satisfacer el porcentaje de demanda deseada.
2.3.4. Distribución exponencial

Si X ∼ Exp(λ) sabemos que su función de densidad de probabilidad está dada por
⎧ −λx
⎪ λe
⎪ si x ∈ [0, ∞),
fX (x) = ⎨
⎪
⎪
⎩ 0 en otro caso,
donde λ > 0. Además, se puede demostrar que
1 1 λ
E(X) = , Var(X) = 2 y MX (t) = , si t < λ.
λ λ λ−t
Esta distribución se usa en diversas aplicaciones. La más común es el tiempo entre llegadas (u
ocurrencias) en un proceso de Poisson homogéneo. Una propiedad muy interesante que satisface
este modelo es la denominada propiedad de pérdida de memoria:
P(X > s + t∣X > s) = P(X > t), ∀s, t ≥ 0.
En efecto, notemos que
P(X > s + t, X > s) P(X > s + t) e−λ(s+t)
P(X > s + t∣X > s) = = = = e−λt = P(X > t).
P(X > s) P(X > s) e−λs
Ejemplo 2.20. Suponga que el tiempo que tarda la bateria de un celular en agotarse puede ser
modelado por una v.a. exponencial de media 30 horas. Considere el escenario en el que desconoce el
tiempo que lleva prendido su celular y que no puede acceder a dichar información a través del sistema
operativo de su smartphone, por un problema con la pantalla. Estamos interesados en determinar la
probabilidad que su teléfono permanezca encendido al menos 8 horas. En efecto, sea X la v.a. que
representa el tiempo de vida útil de la bateria de su celular. Entonces la probabilidad de interés es
p = P(X > t + 8∣X > t),
donde t es el tiempo (desconocido) que el celular lleva prendido. Sabemos que X ∼ Exp(λ), donde
E(X) = λ1 = 30, es decir, λ = 30
1
. Gracias a la propiedad de pérdida de la memoria, se concluye que
p = P(X > 8) = e−λ8 = e− 30 ≈ 0,765928338365.

8
39
2.3.5. Distribución uniforme
Si X ∼ U (a, b) sabemos que su función de densidad de probabilidad está dada por
⎧ 1
⎪
⎪ b−a si x ∈ (a, b),
fX (x) = ⎨
⎪
⎪
⎩ 0 en otro caso,
donde a, b ∈ R con a < b. Además, se puede demostrar que

⎧ etb −eta
a+b (b − a)2 ⎪
⎪ t(b−a) si t ≠ 0,
E(X) = , Var(X) = y MX (t) = ⎨
2 12 ⎪
⎪ 1 si t = 0.
⎩
Esta distribución se usa cuando para una v.a. es igualmente plausible tomar cualquier valor del
intervalo [a, b].
Ejemplo 2.21. Suponga que los buses llegan a un determinado paradero exactamente cada 15 minutos
a partir de las 7 de la mañana. Suponga que usted llega al paradero en un tiempo que se distribuye
uniformemente entre las 7 ∶ 00 y 7 ∶ 30 hrs. Estamos interesados en determinar la probabilidad
que usted tenga que esperar menos de 5 minutos el bus. En efecto, sea X la v.a. que representa
el instante de tiempo en que usted llega al paradero. Sabemos que X ∼ U (0, 30). Notemos que la
probabilidad de interés está dada por
5 5 1
P(10 < X < 15) + P(25 < X < 30) = + = .
30 30 3
2.4. Transformaciones de variables aleatorias

Sea (Ω, F, P) un espacio de probabilidad y X ∶ Ω → R una v.a. Supongamos que estamos interesados
en estudiar el comportamiento probabilista que sigue una v.a. Y = h(X), esto es, una transforma-
ción de la v.a. original, donde h es una función conocida. En esta línea, sería poco práctico derivar
la distribución de probabilidad de Y a partir de P, y vamos a estudiar la posibilidad de hacerlo a
través de la medida de probabilidad inducida por X, es decir, PX .
Sea A ⊆ R un evento de interés. Notemos que
PY (A) = P(Y −1 (A)) = P(Y ∈ A) = P(h(X) ∈ A) = P(X ∈ h−1 (A)) = PX (h−1 (A)).
Así,
(2.2) PY (A) = PX (h−1 (A)).
En todo lo que sigue, vamos a aplicar la expresión bajo los distintos escenarios a los que nos podemos
enfrentar.
40
2.4.1. Caso en que X e Y son v.a. discretas
Supongamos que X es una v.a. discreta. Entonces de inmediato la v.a. Y = h(X) es una v.a. discreta
y su función de probabilidad puntual está dada por
pY (y) = PY ({y}) = PX (h−1 ({y})) = ∑ pX (x), y ∈ Y,
x∶h(x)=y
donde Y = {y ∈ R ∶ y = h(x), x ∈ X } y X = {x ∈ R ∶ pX (x) > 0}.
Ejemplo 2.22. Sea X ∼ Bin(n, p) con n ∈ N ∖ {0} y p ∈ (0, 1) valores conocidos. Sea h(x) = n − x e
Y = h(X). Estamos interesados en determinar qué modelo sigue Y . En efecto, notemos que
X = {0, 1, . . . , n} = Y.
Basta determinar la función de probabilidad puntual de Y para reconocer el modelo. Notemos que
{x ∶ h(x) = y} = {h−1 (y)},
donde y ∈ Y y h−1 (y) = n − y. Luego,
n n
pY (y) = pX (n − y) = ( )pn−y (1 − p)n−(n−y) = ( )q y (1 − q)n−y , y ∈ Y,
n−y y
donde q = 1 − p. Así, Y ∼ Bin(n, 1 − p).
2.4.2. Caso en que X es v.a. continua e Y es una v.a. discreta

Supongamos que X es una v.a. continua e Y = h(X) es una v.a. discreta. Su función de probabilidad
puntual está dada por
pY (y) = PY ({y}) = PX (h−1 ({y})) = ∫ fX (x)dx, y ∈ Y,

{x∶h(x)=y}
donde Y = {y ∈ R ∶ y = h(x), x ∈ X } y X = {x ∈ R ∶ fX (x) > 0}.
Ejemplo 2.23. Sea X ∼ Exp(λ) con λ > 0 un valor conocido. Sea
si x ≥ m∗ ∶=
⎧ ln(2)
⎪ 1
⎪ λ ,
h(x) = ⎨
⎪
⎩ 0
⎪ en otro caso,
e Y = h(X). Estamos interesados en determinar qué modelo sigue Y . En efecto, notemos que
X = [0, ∞) y Y = {0, 1}.
Tomando y = 1 se tiene que
{x ∶ h(x) = y} = [m∗ , ∞) .
Así,
∞ ∞
ln(2) 1
pY (1) = ∫ λe−λx dx = −e−λx ∣ = exp (−λm∗ ) = exp (−λ )= .
m∗ m∗ λ 2
Luego, Y ∼ Ber ( 12 ).
41
2.4.3. Caso en que X e Y son v.a. continuas
Supongamos que X e Y = h(X) son v.a’s continuas. Notemos que en este caso no podemos utilizar
directamente la expresión (2.2) para derivar fY , pues la función de densidad de probabilidad no
se puede interpretar directamente como una probabilidad, a diferencia de lo que ocurre con una
función de probabilidad puntual.
La manera de llegar a fY será a través de la función de distribución acumulada FY , pues

dFY (y)
= fY (y),
dy
gracias al teorema fundamental del cálculo, dado que f es integrable y continua en R.
Notemos que para y ∈ R, usando (2.2) se tiene que
FY (y) = PY ((−∞, y]) = PX (h−1 ((−∞, y])) = ∫ fX (x)dx.

{x∶h(x)≤y}
En el siguiente ejemplo mostraremos que es necesario imponer condiciones adicionales sobre h, si

queremos ocupar la expresión anterior para obtener una expresión analítica explícita para FY .
Ejemplo 2.24. Sea X ∼ U (0, 2π) y h(x) = sen2 (x). Estamos interesados en determinar FY (y), donde
Y = h(X). Claramente si y ≤ 0 entonces FY (y) = 0, y si y ≥ 1 entonces FY (y) = 1. Luego, tomemos
y ∈ (0, 1) e intentemos determinar el conjunto
{x ∶ h(x) ≤ y}.
Se puede demostrar que
{x ∶ h(x) ≤ y} = (0, x1 ] ∪ [x2 , x3 ] ∪ [x4 , 2π),
donde h(xi ) = y, i = 1, 2, 3, 4. Luego,

x1 1 x3 1 2π 1 x1 + x3 − x2 + 2π − x4
FY (y) = ∫ dx + ∫ dx + ∫ dx = .
0 2π x2 2π x4 2π 2π
El problema de la expresión anterior es que no somos capaces de obtener una expresión explícita en
y para FY (y).
El ejemplo anterior nos obliga a imponer más estructura más estructura sobre h(x) si queremos
obtener una expresión explícita para FY (y).
Propiedad 2.12. Sea X una v.a. continua, h una función e Y = h(X).
(a) Si h es una función estrictamente creciente, entonces
FY (y) = FX (h−1 (y)).
(b) Si h es una función estrictamente decreciente, entonces
FY (y) = 1 − FX (h−1 (y)).
42
Ejemplo 2.25. Sea X ∼ U (0, 1), h(x) = − ln(x) e Y = h(X). Estamos interesados en determinar
FY (y). En efecto, notemos que
X = (0, 1) e Y = (0, ∞).
Luego, para todo y ∈ (0, ∞) se tiene que
y = h(x) = − ln(x) y x = h−1 (y) = e−y .
Notemos que h(x) = − ln(x) es una función estrictamente decreciente. Entonces, aplicando el resul-
tado anterior se tiene que
FY (y) = FX (e−y ) = 1 − e−y ⇒ fY (y) = e−y , y ∈ (0, ∞).
Se concluye que Y ∼ Exp(λ = 1).
Ya estamos en condiciones de dar un resultado para determinar fY (y).
Teorema 2.13. Sea X una v.a. continua con función de densidad fX (⋅) e Y = h(X), con h una
función estrictamente monótona sobre X = {x ∶ fX (x) > 0}. Supongamos que h−1 (⋅) es una función
con derivada continua sobre Y = {y ∶ y = h(x), x ∈ X }. Entonces la función de densidad de Y está
dada por
⎧
⎪ −1 d −1
⎪ fX (h (y))∣ dy h (y)∣
⎪ si y ∈ Y,
fY (y) = ⎨
⎪
⎪
⎪ 0 en otro caso.
⎩
Ejemplo 2.26. Sea X una v.a. continua con función de densidad de probabilidad dada por
⎧ 1
⎪
⎪ (n−1)!β n x
n−1
exp (− βx ) si x > 0,
fX (x) = ⎨
⎪
⎪
⎩ 0 en otro caso.
1
Para h(x) = x se define Y = h(X). Notemos que
X = (0, ∞) e Y = {y ∶ y = h(x), x ∈ X } = (0, ∞).
Luego, para todo y ∈ (0, ∞) se tiene que

1 1
y = h(x) = ⇔ x = h−1 (y) = .
x y
Derivando se tiene que:
dh−1 (y) 1 dh−1 (y) 1

=− 2 ⇒ ∣ ∣ = 2.
dy y dy y
Aplicando el teorema anterior se concluye que

⎧ n−1
1
⎪
⎪
⎪ (n−1)!β n ( y1 ) 1
exp (− βy ) y12 si y ∈ (0, ∞),
fY (y) = ⎨
⎪
⎪
⎪
⎩ 0 en otro caso.
43
En lo que sigue vamos a ver un ejemplo donde no se puede aplicar el teorema anterior, pero de
todas maneras se decir derivar fY (y).
Ejemplo 2.27. Sea Y = h(X) = X 2 . Estamos interesados en determinar fY . Comencemos por en-
contrar FY (y) para y > 0, pues cuando y ≤ 0 se cumple que FY (y) = 0. En efecto, sea y > 0.
Entonces
√ √ √ √
FY (y) = P(Y ≤ y) = P(− y ≤ X ≤ y) = FX ( y) − FX (− y).
Derivando se concluye que
dFY (y) 1 √ √
fY (y) = = √ (fX ( y) + fX (− y)) .
dy 2 y
44
Capítulo 3
Vectores Aleatorios
3.1. Vectores aleatorios y modelos analíticos multivariados

En esta sección vamos a estudiar mecanismos aleatorios de generación de puntos en Rn , en el caso
en que n ≥ 2, pues el escenario n = 1 fue analizado en el capítulo de variables aleatorias.
Un vector aleatorio (abreviado v⃗.a.) en Rn corresponde a una n-tupla de variables aleatorias que
son modeladas de manera conjunta. La razón de esto es que podemos estar interesados en estudiar
la estructura de dependencia existente entre las variables aleatorias individuales.
Veamos un ejemplo donde queda de manifiesto el interés de estudiar variables aleatorias de manera
conjunta.
Ejemplo 3.1. Consideremos las variables aleatorias siguientes:

X1 ∶ “nota final el término de una carrera profesional”,
X2 ∶ “salario promedio durante el primer año de trabajo”.
Si supiéramos que las v.a’s X1 y X2 no tienen relación entre si, en principio no habría razón alguna
para modelarlas de manera conjunta a través del vector X = (X1 , X2 ). Si embargo, esto cambia
si las realizaciones de dichas variables se ven como en la figura 3.1. En este caso, notas más altas
parecieran estar relacionadas a mejores salarios.
En lo que sigue se define el concepto de v⃗.a.
Definición 3.1 (Vector aleatorio). Sea (Ω, F, P) un espacio de probabilidad y

X = (X1 , . . . , Xn ) ∶ Ω → Rn
una función. Diremos que X es un vector aleatorio si para todo a = (a1 , . . . , an ) ∈ Rn , el conjunto
(3.1) {ω ∈ Ω ∶ X1 (ω) ≤ a1 , . . . , Xn (ω) ≤ an } ∈ F.
Observación 3.1. Notemos que la expresión (3.1) se puede reescribir como

n
{ω ∈ Ω ∶ X1 (ω) ≤ a1 , . . . , Xn (ω) ≤ an } = ⋂ Xi−1 ((−∞, ai ]),
i=1
de donde se deduce que un vector aleatorio corresponde a un vector de variables aleatorias que son
modeladas de manera conjunta.
45
Figura 3.1: Realizaciones del v⃗.a. X = (X1 , X2 ).
La propiedad (3.1) nos permite definir de manera similar al caso de variables aleatorias, el concepto
de función de distribución (acumulada) conjunta.
Definición 3.2 (Función de distribución (acumulada) conjunta). Sea (Ω, F, P) un espacio de pro-
babilidad y X = (X1 , . . . , Xn ) ∶ Ω → Rn un vector aleatorio. Se define la función de distribución
(acumulada) conjunta asociada a X como la función
FX = FX1 ,...,Xn ∶ Rn → [0, 1],
tales que para todo a = (a1 , . . . , an ) ∈ Rn ,
FX (a) ∶= P(ω ∈ Ω ∶ X1 (ω) ≤ a1 , . . . , Xn (ω) ≤ an ).
De igual forma que una v.a. genera una medida de probabilidad sobre R, un vector aleatorio n-
dimensional determina una medida de probabilidad sobre Rn como queda de manifiesto en la si-
guiente definición.
Definición 3.3 (Medida de probabilidad inducida por un vector aleatorio). Sea (Ω, F, P) un espacio
de probabilidad y X = (X1 , . . . , Xn ) ∶ Ω → Rn un vector aleatorio. Entonces se define la medida de
probabilidad inducida por X sobre Rn como
PX (B) = P(ω ∈ Ω ∶ (X1 (ω), . . . , Xn (ω)) ∈ B),
46
para todo conjunto B ⊆ Rn razonable.1
En lo que sigue vamos a estudiar dos tipos especiales de vectores aleatorios: (a) vectores aleatorios
discretos y (b) vectores aleatorios continuos.
3.1.1. Vectores aleatorios discretos

Definición 3.4 (Vector aleatorio discreto). Diremos que X = (X1 , . . . , Xn ) es un vector aleatorio
discreto si Xi es una variable aleatoria discreta para todo i = 1, . . . , n.
En este caso el cálculo de probabilidades está completamente caracterizado por el concepto de fun-
ción de probabilidad puntual conjunta que definimos a continuación.
Definición 3.5 (Función de probabilidad puntual conjunta). Sea (Ω, F, P) un espacio de probabi-
lidad y X = (X1 , . . . , Xn ) un vector aleatorio discreto. Se define su función de probabilidad puntual
conjunta como la función
pX = pX1 ,...,Xn ∶ Rn → [0, 1],
tal que ∀x = (x1 , . . . , xn ) ∈ Rn ,
pX (x) = pX1 ,...,Xn (x1 , . . . , xn ) = P(X1 = x1 , . . . , Xn = xn )

= P(ω ∈ Ω ∶ X1 (ω) = x1 , . . . , Xn (ω) = xn ).
Dada una función de probabilidad puntual conjunta pX1 ,...,Xn asociada a un vector aleatorio discreto
X = (X1 , . . . , Xn ), calculamos la probabilidad de un evento A ⊆ Rn como
PX (A) = P((X1 , . . . , Xn ) ∈ A) = ∑ pX1 ,...,Xn (x1 , . . . , xn ).

(x1 ,...,xn )∈A
Una característica importante de la función de probabilidad puntual conjunta es que a partir de

ella podemos obtener las funciones de probabilidades puntuales de las variables aleatorias Xi , para
todo i = 1, . . . , n.
Teorema 3.1. Sea X = (X1 , . . . , Xn ) un vector aleatorio discreto con función de probabilidad
puntual conjunta pX1 ,...,Xn . Entonces
(a) pX1 (x1 ) = ∑ pX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ).

(x2 ,...,xn )
(b) Para todo j ∈ {2, . . . , n − 1},
pXj (xj ) = ∑ pX1 ,...,Xj−1 ,Xj ,Xj+1 ,...,Xn (x1 , . . . , xj−1 , xj , xj+1 , . . . , xn ).
(x1 ,...,xj−1 ,xj+1 ,...,xn )
1
Por conjunto razonable queremos decir todo conjunto que pueda definirse a partir de uniones e intersecciones
i=1 (−∞, ai ], con ai ∈ R.
arbitrarias de conjuntos de la forma ∏n
47
(c) pXn (xn ) = ∑ pX1 ,...,Xn−1 ,Xn (x1 , . . . , xn−1 , xn ).
(x1 ,...,xn−1 )
Supongamos que n = 3, entonces aplicando el teorema anterior se tiene que
pX1 (x1 ) = ∑ pX1 ,X2 ,X3 (x1 , x2 , x3 ),

(x2 ,x3 )
pX2 (x2 ) = ∑ pX1 ,X2 ,X3 (x1 , x2 , x3 ),

(x1 ,x3 )
pX3 (x3 ) = ∑ pX1 ,X2 ,X3 (x1 , x2 , x3 ).

(x1 ,x2 )
Adicionalmente, también es posible derivar la distribución conjunta de (Xi , Xj ), para i, j ∈ {1, 2, 3}

y con i ≠ j. En efecto,
pX1 ,X2 (x1 , x2 ) = ∑ pX1 ,X2 ,X3 (x1 , x2 , x3 ),

x3
pX1 ,X3 (x1 , x3 ) = ∑ pX1 ,X2 ,X3 (x1 , x2 , x3 ),
x2
pX2 ,X3 (x2 , x3 ) = ∑ pX1 ,X2 ,X3 (x1 , x2 , x3 ).
x1
Lo anterior puede ser generalizado a más dimensiones.
Además, dada una función h ∶ Rn → R se define E[h(X1 , . . . , Xn )] (cuando exista) como
E[h(X1 , . . . , Xn )] = ∑ h(x1 , . . . , xn )pX1 ,...,Xn (x1 , . . . , xn ).

(x1 ,...,xn )
Ejemplo 3.2. Consideremos el lanzamiento independiente de un dado (de 6 caras) equilibrado 2

veces. Se definen las variables aleatorias
X1 ∶ “suma de los números obtenidos en la cara superior”,

X2 ∶ “módulo de la diferencia de los números obtenidos en la cara superior”.
(i) Determine pX1 ,X2 (5, 3).

Solución.
Por definición de función probabilidad puntual conjunta se tiene que
pX1 ,X2 (5, 3) = P(X1 = 5, X2 = 3) = P({X1 = 5} ∩ {X2 = 3}).
Notemos que
{X1 = 5} = {(1, 4), (2, 3), (3, 2), (4, 1)},

{X2 = 3} = {(1, 4), (2, 5), (3, 6), (4, 1), (5, 2), (6, 3)}.
⇒ {X1 = 5} ∩ {X2 = 3} = {(1, 4), (4, 1)}.
Luego,
2 1
pX1 ,X2 (5, 3) = = .
36 18
48
Tabla 3.1: Función de probabilidad puntual conjunta de X = (X1 , X2 ).
X1
2 3 4 5 6 7 8 9 10 11 12
1 1 1 1 1 1
0 36 0 36 0 36 0 36 0 36 0 36
1 1 1 1 1
1 0 18 0 18 0 18 0 18 0 18 0
1 1 1 1
2 0 0 18 0 18 0 18 0 18 0 0
X2 1 1 1
3 0 0 0 18 0 18 0 18 0 0 0
1 1
4 0 0 0 0 18 0 18 0 0 0 0
1
5 0 0 0 0 0 18 0 0 0 0 0
(ii) Determine pX1 ,X2 (x1 , x2 ) y el soporte de X = (X1 , X2 ).

Solución.
La función de probabilidad puntual conjunta se muestra en la tabla 3.1.
(iii) Determine pX1 (6).

Solución.
La función de probabilidad puntual de X1 se puede determinar sumando las columnas de la
tabla anterior. Así,
pX1 (6) = pX1 ,X2 (6, 0) + pX1 ,X2 (6, 1) + pX1 ,X2 (6, 2) + pX1 ,X2 (6, 3) + pX1 ,X2 (6, 4) + pX1 ,X2 (6, 5)
1 1 1 5
= +0+ +0+ +0= .
36 18 18 36
(iv) Para la función h(x1 , x2 ) = x1 ⋅ x2 , determine E[h(X1 , X2 )].

Solución.
Por definición se tiene que
5 12
143
E[h(X1 , X2 )] = ∑ ∑ x1 ⋅ x2 ⋅ pX1 ,X2 (x1 , x2 ) = .
x2 =0 x1 =2 18
3.1.2. Vectores aleatorios continuos

Definición 3.6 (Vector aleatorio continuo). Diremos que X = (X1 , . . . , Xn ) es un vector aleatorio
continuo si Xi es una variable aleatoria continua para todo i = 1, . . . , n.
En este caso el cálculo de probabilidades está completamente caracterizado por el concepto de fun-
ción de densidad de probabilidad conjunta que definimos a continuación.
Definición 3.7 (Función de densidad de probabilidad conjunta). Sea (Ω, F, P) un espacio de pro-
babilidad y X = (X1 , . . . , Xn ) un vector aleatorio continuo. Se define su función de densidad de
probabilidad conjunta como la función fX = fX1 ,...,Xn ∶ Rn → [0, ∞) tal que ∀x = (x1 , . . . , xn ) ∈ Rn ,
xn x1
P(X1 ≤ x1 , . . . , Xn ≤ xn ) = ∫ ...∫ fX1 ,...,Xn (u1 , . . . , un )du1 . . . dun .
−∞ −∞
49
Dada una función de densidad de probabilidad conjunta fX1 ,...,Xn asociada a un vector aleatorio
continuo X = (X1 , . . . , Xn ), calculamos la probabilidad de un evento A ⊆ Rn como
PX (A) = P((X1 , . . . , Xn ) ∈ A) = ∫…∫ fX1 ,...,Xn (x1 , . . . , xn )dx1 . . . dxn .

(x1 ,...,xn )∈A
Una característica importante de la función de densidad de probabilidad conjunta es que a partir

de ella podemos obtener las funciones de densidad de probabilidad de las variables aleatorias Xi ,
para todo i = 1, . . . , n.
Teorema 3.2. Sea X = (X1 , . . . , Xn ) un vector aleatorio continuo con función de densidad de
probabilidad conjunta fX1 ,...,Xn . Entonces
(a) fX1 (x1 ) = ∫…∫ fX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn )dx2 . . . dxn .
(x2 ,...,xn )
(b) Para todo j ∈ {2, . . . , n − 1},
fXj (xj ) = ∫…∫ fX (x1 , . . . , xj−1 , xj , xj+1 , . . . , xn )dx1 . . . dxj−1 dxj+1 . . . dxn .
(x1 ,...,xj−1 ,xj+1 ,...,xn )
(c) fXn (xn ) = ∫…∫ fX1 ,...,Xn−1 ,Xn (x1 , . . . , xn−1 , xn )dx1 . . . dxn−1 .
(x1 ,...,xn−1 )
Supongamos que n = 3, entonces aplicando el teorema anterior se tiene que
fX1 (x1 ) = ∬ fX1 ,X2 ,X3 (x1 , x2 , x3 )dx2 dx3 ,

(x2 ,x3 )
fX2 (x2 ) = ∬ fX1 ,X2 ,X3 (x1 , x2 , x3 )dx1 dx3 ,

(x1 ,x3 )
fX3 (x3 ) = ∬ fX1 ,X2 ,X3 (x1 , x2 , x3 )dx1 dx2 .

(x1 ,x2 )
Adicionalmente, también es posible derivar la densidad conjunta de (Xi , Xj ), para i, j ∈ {1, 2, 3} y

con i ≠ j. En efecto,
fX1 ,X2 (x1 , x2 ) = ∫ fX1 ,X2 ,X3 (x1 , x2 , x3 )dx3 ,

x3
fX1 ,X3 (x1 , x3 ) = ∫ fX1 ,X2 ,X3 (x1 , x2 , x3 )dx2 ,

x2
fX2 ,X3 (x2 , x3 ) = ∫ fX1 ,X2 ,X3 (x1 , x2 , x3 )dx1 .

x1
Lo anterior puede ser generalizado a más dimensiones.
50
Además, dada una función h ∶ Rn → R se define E[h(X1 , . . . , Xn )] (cuando exista) como
E[h(X1 , . . . , Xn )] = ∫…∫ h(x1 , . . . , xn )fX1 ,...,Xn (x1 , . . . , xn )dx1 . . . dxn .

(x1 ,...,xn )
Ejemplo 3.3. Sea X = (X1 , X2 ) un vector aleatorio continuo con función de densidad de probabilidad
dada por
⎪ λx1 x22 si 0 < x1 < 1, 0 < x2 < 1,
⎧
⎪
fX1 ,X2 (x1 , x2 ) = ⎨
⎪
⎪
⎩ 0 en otro caso,
con λ > 0.
(i) Determine el soporte de X = (X1 , X2 ) y el valor de λ.
Solución.
Claramente el soporte de X es (0, 1) × (0, 1) = (0, 1)2 . Así,
1 1 1 1 1 1
1=∫ ∫ λx1 x22 dx1 dx2 = λ ∫ ∫ x1 x22 dx1 dx2 = λ (∫ x1 dx1 ) (∫ x22 dx2 )
0 0 0 0 0 0
⎛ x2 RRRx1 =1 ⎞ ⎛ x3 RRRx2 =1 ⎞ λ
= λ ⎜ 1 RRRRR ⎟ ⎜ 2 RRRR ⎟= .
⎝ 2 RRRx1 =0 ⎠ ⎝ 3 RRRx2 =0 ⎠ 6
R
Entonces λ = 6.
(ii) Calcule P(X1 + X2 ≥ 1).
Solución.
Lo primero que debemos hacer es determinar el conjunto A ⊆ R2 tal que
{(X1 , X2 ) ∈ A} = {X1 + X2 ≥ 1},
y determinar la probabilidad de A vía la función de densidad de probabilidad. En efecto,
1 1 1 1
∬ fX1 ,X2 (x1 , x2 )dx1 dx2 = ∫ ∫ 6x1 x22 dx1 dx2 = ∫ 6x22 (∫ x1 dx1 ) dx2
A 0 x2 0 x2
1 ⎛ 2 RRx1 =1 ⎞ 1 1 x2
2 x1 RRR
=∫ 6x2 ⎜ RRR ⎟ dx2 =∫ 6x22 ( − 2 ) dx2
0 ⎝ 2 RRRx1 =x2 ⎠ 0 2 2
x2 =1
Rx2 =1
1 1 3x52 RRRR
=∫ 3x22 dx2 −∫ 3x42 dx2 = x32 ∣ − R
0 0 x2 =0 5 RRRR
Rx2 =0
3 2
=1− = .
5 5
(iii) Determine fX1 (x1 ), para 0 < x1 < 1.
Solución.
Notemos que
1 1 ⎛ x3 RRRx2 =1 ⎞
fX1 (x1 ) = ∫ fX1 ,X2 (x1 , x2 )dx2 = 6x1 ∫ x22 dx2 = 6x1 ⎜ 2 RRRRR ⎟ = 2x1 .
0 0 ⎝ 3 RRRx2 =0 ⎠
51
3.1.3. Distribuciones condicionales
En lo que sigue vamos a ver el equivalente de probabilidad condicional, en el contexto de variables
aleatorias.
Definición 3.8 (Distribuciones condicionales). Si X = (X1 , X2 ) es un vector aleatorio discreto, se

definen sus probabilidades condicionales como
pX1 ,X2 (x1 , x2 )

pX1 ∣X2 (x1 ∣x2 ) ∶= P(X1 = x1 ∣X2 = x2 ) = , si pX2 (x2 ) > 0,
pX2 (x2 )
pX ,X (x1 , x2 )
pX2 ∣X1 (x2 ∣x1 ) ∶= P(X2 = x2 ∣X1 = x1 ) = 1 2 , si pX1 (x1 ) > 0.
pX1 (x1 )
Si X = (X1 , X2 ) es un vector aleatorio continuo, se definen sus densidades condicionales como
fX1 ,X2 (x1 , x2 )

fX1 ∣X2 (x1 ∣x2 ) = , si fX2 (x2 ) > 0,
fX2 (x2 )
fX ,X (x1 , x2 )
fX2 ∣X1 (x2 ∣x1 ) = 1 2 , si fX1 (x1 ) > 0.
fX1 (x1 )
Observación 3.2. De las definiciones anteriores se deduce la expresión
fX2 ∣X1 (x2 ∣x1 )fX1 (x1 )

fX1 ∣X2 (x1 ∣x2 ) = , si fX1 (x1 ) > 0 y fX2 (x2 ) > 0,
fX2 (x2 )
que se puede interpretar como una versión, para variables continuas, del teorema de Bayes.
Observación 3.3. Las distribuciones condicionales se pueden extender a más dimensiones. Por ejem-
plo, para n = 3 y X = (X1 , X2 , X3 ) un vector aleatorio continuo se tiene que
fX1 ,X2 ,X3 (x1 , x2 , x3 )

fX1 ∣X2 ,X3 (x1 ∣x2 , x3 ) = ,
fX2 ,X3 (x2 , x3 )
fX ,X ,X (x1 , x2 , x3 )
fX1 ,X2 ∣X3 (x1 , x2 ∣x3 ) = 1 2 3 .
fX3 (x3 )
La siguiente proposición se puede interpretar como una versión, para variables aleatorias, del teo-
rema de probabilidades totales.
Proposición 3.3. Sea X = (X1 , X2 ) un vector aleatorio.
(a) Si X1 y X2 son v.a’s discretas, entonces
pX1 (x1 ) = ∑ pX1 ∣X2 (x1 ∣x2 )pX2 (x2 ),

x2
pX2 (x2 ) = ∑ pX2 ∣X1 (x2 ∣x1 )pX1 (x1 ).
x1
52
(b) Si X1 y X2 son v.a’s continuas, entonces
fX1 (x1 ) = ∫ fX1 ∣X2 (x1 ∣x2 )fX2 (x2 )dx2 ,

x2
fX2 (x2 ) = ∫ fX2 ∣X1 (x2 ∣x1 )fX1 (x1 )dx1 .

x1
(c) Si X1 es v.a. discreta y X2 es v.a. continua, entonces
pX1 (x1 ) = ∫ pX1 ∣X2 (x1 ∣x2 )fX2 (x2 )dx2 ,

x2
fX2 (x2 ) = ∑ fX2 ∣X1 (x2 ∣x1 )pX1 (x1 ).
x1
Observación 3.4. La parte (c) de la propiedad anterior es muy interesante porque entrega una manera
de modelar vectores aleatorios que poseen variables aleatorias marginales continuas y discretas.
Ejemplo 3.4. Sea X = (X1 , X2 ) un vector aleatorio continuo con función de densidad de probabilidad
conjunta dada por
⎧ −x
⎪ e 2
⎪ si 0 < x1 < x2 < ∞,
fX1 ,X2 (x1 , x2 ) = ⎨
⎩ 0 en otro caso.
⎪
⎪
Demuestre que
⎧ −(x −x )
⎪ e 2 1
⎪ si 0 < x1 < x2 < ∞,
fX2 ∣X1 (x2 ∣x1 ) = ⎨
⎪
⎪
⎩ 0 en otro caso.
Solución.
Notemos que
∞ x2 =∞
fX1 (x1 ) = ∫ exp{−x2 }dx2 = − exp{−x2 }∣ = exp{−x1 }.
x1 x2 =x1
Luego,
⎧ e−(x2 −x1 ) si 0 < x1 < x2 < ∞,
fX1 ,X2 (x1 , x2 ) ⎪
⎪
fX2 ∣X1 (x2 ∣x1 ) = =⎨
fX1 (x1 ) ⎪
⎪ 0 en otro caso.
⎩
3.1.4. Ejemplos importantes de vectores aleatorios

En esta subsección vamos a estudiar algunos ejemplos importantes de vectores aleatorios.
53
Modelo multinomial
El modelo multinomial es un ejemplo de vector aleatorio discreto muy relevante en el análisis esta-
dístico de las denominadas tablas de contingencia, lo cual tiene aplicaciones en los test de bondad
de ajuste chi-cuadrado y los test de independencia.
Este modelo se puede interpretar como una generalización multivariada del experimento Binomial
visto en el capítulo anterior, en el cual pueden haber más de dos resultados posibles, tal como ocurre
con el lanzamiento de un dado.
Definición 3.9 (Distribución multinomial). Diremos que X = (X1 , . . . , Xk ) sigue un modelo mul-
tinomial de parámetros n ∈ N y p1 , . . . , pk ∈ (0, 1), con ∑ki=1 pi = 1, lo que denotaremos
X ∼ M(n; p1 , . . . , pk ),
si su función de probabilidad puntual conjunta está dada por

⎧
⎪ k k
⎪ n xi
⎪ (x1 ...xk ) ∏ pi
⎪ si x1 , . . . , xk ∈ {0, . . . , n} y ∑ xi = n,
pX1 ,...,Xk (x1 , . . . , xk ) = ⎨ i=1 i=1
⎪
⎪
⎪
⎪
⎩ 0 en otro caso,
n
donde (x1 ...x k
) es el coeficiente multinomial definido en el capítulo 1.
La interpretación del modelo anterior es la siguiente: suponga que se repite de manera independien-
te, n veces, un mismo experimento aleatorio cuyo espacio muestral posee k resultados posibles. Sea
pi la probabilidad de observar el resultado i, con i = 1, . . . , k. Entonces Xi se interpreta como el
número de veces que ocurrió el resultado i, en las n repeticiones del experimento.
Ejemplo 3.5. Suponga que un dado equilibrado se lanza, de manera independiente, 21 veces. Deter-
mine la probabilidad la obtener una vez 1, dos veces 2, tres veces 3, cuatro veces 4, cinco veces 5 y
seis veces 6.
Solución.
En efecto, la probabilidad buscada está dada por
P(X1 = 1, X2 = 2, X3 = 3, X4 = 4, X5 = 5, X6 = 6) = pX1 ,X2 ,X3 ,X4 ,X5 ,X6 (1, 2, 3, 4, 5, 6)

21! 1 1+2+3+4+5+6
= ( )
1! 2! 3! 4! 5! 6! 6
≈ 9,3596891 × 10−5 .
La demostración de las siguientes propiedades de la distribución multinomial quedan de ejercicio.
Proposición 3.4. Sea X = (X1 , . . . , Xk ) ∼ M(n; p1 , . . . , pk ). Entonces
(a) Para todo i ∈ {1, . . . , k}, se tiene que
Xi ∼ Bin(n, pi ).
54
(b) Para todo i, j ∈ {1, . . . , k}, con i ≠ j, se tiene que
Cov(Xi , Xj ) = −npi pj .
Notemos que de la propiedad (a) y los resultados vistos en el capítulo 2 se deduce directamente que
E(Xi ) = npi y Var(Xi ) = npi (1 − pi ).
La definición del operador Cov(⋅, ⋅), denominado covarianza, se dará en la sección siguiente.
Modelo normal multivariado

El modelo normal multivariado es un ejemplo de vector aleatorio continuo, que es muy importante
en la teoría de procesos estocásticos Gaussianos, los cuales a su vez tienen muchas aplicaciones en
Ingeniería.
Este modelo corresponde a la versión multivariada del modelo normal visto en el capítulo anterior
y su definición se da a continuación.
Definición 3.10 (Distribución normal multivariada). Sea X = (X1 , . . . , Xk ) un vector aleatorio,

µ = (µ1 , . . . , µk ) ∈ Rk y Σ ∈ Mk×k (R) una matriz simétrica y definida positiva. Diremos que X
se distribuye como una normal multivariada de parámetros µ y Σ , denotado X ∼ Nk (µ µ, Σ ), si
k
a = (a1 , . . . , ak ) ∈ R , se tiene que
∀a
a tX ∼ N (a
atµ , a tΣa ).
De la definición anterior es posible derivar la función de densidad de probabilidad conjunta de X ,

la cual se presenta a continuación.
Proposición 3.5. Sea X = (X1 , . . . , Xk ) ∼ Nk (µ µ, Σ ). Entonces X tiene función de densidad de

probabilidad conjunta dada por
1 1
fX1 ,...,Xk (x1 , . . . , xk ) = √ exp {− (xx − µ )tΣ −1 (x x = (x1 , . . . , xk ) ∈ Rk .
x − µ )} , ∀x
k Σ)
(2π) det(Σ 2
µ, Σ ), con µ = (µ1 , µ2 ) ∈ R2 y
Problema 3.1. Suponga que X = (X1 , X2 ) ∼ N2 (µ
σ12 ρσ1 σ2
Σ=( ),
ρσ1 σ2 σ22
donde ρ ∈ (−1, 1) y σi > 0, i = 1, 2.
(i) Demuestre que la función de densidad de probabilidad conjunta de X está dada por
1 1 x 1 − µ1 2
fX1 ,X2 (x1 , x2 ) = √ exp {− [( )
2πσ1 σ2 1 − ρ2 2(1 − ρ2 ) σ1
x 2 − µ2 2 x 1 − µ1 x 2 − µ2
+( ) − 2ρ ( )( )]} .
σ2 σ1 σ2
Este modelo se conoce con el nombre de distribución normal bivariada de parámetros µ1 ,
µ2 , σ1 , σ2 y ρ.
55
(ii) Demuestre que X1 ∼ N (µ1 , σ12 ).
(iii) Demuestre que X2 ∼ N (µ2 , σ22 ).
(iv) Demuestre que X1 ∣X2 = x2 ∼ N (µ1 + ρ ( σσ21 ) (x2 − µ2 ), σ12 (1 − ρ2 )).
(v) Demuestre que X2 ∣X1 = x1 ∼ N (µ2 + ρ ( σσ12 ) (x1 − µ1 ), σ22 (1 − ρ2 )).
Las propiedades (ii), (iii), (iv) y (v) anteriores de la distribución distribución normal bivariada pue-
den ser generalizadas al caso de la normal multivariada, como se muestra a continuación.
µ, Σ ), con µ ∈ Rk y Σ ∈ Mk×k (R) simétrica y definida

X 1 , X 2 ) ∼ Nk (µ
Proposición 3.6. Sea X = (X
positiva. Suponga que
Σ 11 Σ 12
µ1 , µ 2 )
µ = (µ y Σ=( ),
Σ 21 Σ 22
donde µ 1 ∈ Rk1 , µ 2 ∈ Rk−k1 , Σ 11 ∈ Mk1 ×k1 (R), Σ 12 ∈ Mk1 ×(k−k1 ) (R), Σ 21 ∈ M(k−k1 )×k1 (R) y
Σ 22 ∈ M(k−k1 )×(k−k1 ) (R). Entonces
µ1 , Σ 11 ).
(a) X 1 ∼ Nk1 (µ
µ2 , Σ 22 ).
(b) X 2 ∼ N(k−k1 ) (µ
(c) X 1 ∣X µ1 + Σ 12Σ −1
X 2 = x 2 ∼ Nk1 (µ x2 − µ 2 ), Σ 11 − Σ 12Σ −1
22 (x 22 Σ 21 ).
(d) X 2 ∣X µ2 + Σ 21Σ −1
X 1 = x 1 ∼ N(k−k1 ) (µ x1 − µ 1 ), Σ 22 − Σ 21Σ −1
11 (x 11 Σ 12 ).
3.2. Asociación entre variables aleatorias

En esta sección vamos a estudiar algunos tipos de asociación que se pueden definir entre variables
aleatorias.
3.2.1. Variables aleatorias independientes

En lo que sigue vamos a estudiar la noción de independencia, pero en el contexto de variables alea-
torias.
Definición 3.11 (Variables aleatorias independientes). Sea (Ω, F, P) un espacio de probabilidad y

X = (X1 , . . . , Xn ) un vector aleatorio subyacente. Diremos que las variables aleatorias X1 , . . . , Xn
son independientes si ∀A1 , . . . , An ∈ F (eventos) se tiene que
n n
P(X1 ∈ A1 , . . . , Xn ∈ An ) = P ( ⋂ {Xi ∈ Ai }) = ∏ P(Xi ∈ Ai ).
i=1 i=1
La siguiente proposición nos entrega un criterio analítico para detectar la independencia de variables
aleatorias.
56
Proposición 3.7. Sea X = (X1 , . . . , Xn ) ∶ Ω → Rn un vector aleatorio donde X1 , . . . , Xn son
variables aleatorias independientes.
(a) Si X es discreto, entonces la función de probabilidad puntual conjunta está dada por
n
pX1 ,...,Xn (x1 , . . . , xn ) = ∏ pXi (xi ),
i=1
donde pXi (xi ) es la función de probabilidad puntual de Xi , i = 1, . . . , n.
(b) Si X es continuo, entonces la función de densidad de probabilidad conjunta está dada por
n
fX1 ,...,Xn (x1 , . . . , xn ) = ∏ fXi (xi ),
i=1
donde fXi (xi ) es la función de densidad de probabilidad de Xi , i = 1, . . . , n.
Ejemplo 3.6. Sea X = (X1 , X2 ) un vector aleatorio continuo que sigue una distribución normal
bivariada de parámetros (µ1 , µ2 , σ1 , σ2 , ρ). Se puede demostrar que si ρ = 0, entonces
fX1 ,X2 (x1 , x2 ) = fX1 (x1 )fX2 (x2 ).
Por lo tanto, las variables aleatorias X1 y X2 son independientes si ρ = 0.
3.2.2. Covarianza y correlación

Definición 3.12 (Covarianza). Sea (Ω, F, P) un espacio de probabilidad y Xi ∶ Ω → R, i = 1, 2,
variables aleatorias. Supongamos que E(Xi2 ) < ∞. Se define la covarianza entre X1 y X2 como
Cov(X1 , X2 ) = E[(X1 − E(X1 ))(X2 − E(X2 ))].
Usando las propiedades del valor esperado se puede obtener la siguiente caracterización de la cova-
rianza.
Proposición 3.8. Cov(X1 , X2 ) = E(X1 X2 ) − E(X1 ) E(X2 ).
La covarianza mide el grado de asociación lineal entre las variables involucradas y se interpreta
como sigue:
Si Cov(X1 , X2 ) > 0, entonces los valores de X1 y X2 tienden a ser simultáneamente mayores
(o menores) que sus respectivas medias.
Si Cov(X1 , X2 ) < 0, entonces X1 y X2 tienden a tomar valores mayores y menores que sus
medias, respectivamente (y viceversa).
Si Cov(X1 , X2 ) = 0, entonces hay ausencia de relación de tipo lineal entre las v.a’s involucradas.
Debido a que la covarianza no toma un valor acotado, no es posible definir la noción de covarianza
grande. Esto motiva la siguiente definición.
57
Definición 3.13 (Correlación). Sea (Ω, F, P) un espacio de probabilidad y Xi ∶ Ω → R, i = 1, 2,
variables aleatorias. Supongamos que E(Xi2 ) < ∞. Se define la correlación entre X1 y X2 como
Cov(X1 , X2 )
Corr(X1 , X2 ) = √ √ .
Var(X1 ) Var(X2 )
La siguiente proposición muestra que la correlación se encuentra acotada, y que esta propiedad no
depende de las variables aleatorias involucradas.
Proposición 3.9. Sean X1 y X2 variables aleatorias tales que E(Xi2 ) < ∞, i = 1, 2. Entonces
−1 ≤ Corr(X1 , X2 ) ≤ 1.
La correlación se interpreta de manera similar a la covarianza, con la ventaja que al estar acotada
superior e inferiormente, ahora si tiene sentido hablar de una correlación grande. Su interpretación
aparece en la tabla 3.2.
Tabla 3.2: Interpretación del coeficiente de correlación.

Corr(X1 , X2 ) Relación
Corr(X1 , X2 ) = −1 Estrictamente lineal de pendiente negativa
−1 < Corr(X1 , X2 ) < 0 Tendencia lineal negativa
Corr(X1 , X2 ) = 0 Ausencia de linealidad
0 < Corr(X1 , X2 ) < 1 Tendencia lineal positiva
Corr(X1 , X2 ) = 1 Estrictamente lineal de pendiente positiva
En la siguiente proposición se muestran algunas propiedades que satisface el operador covarianza.
Proposición 3.10.
(a) Sea X una v.a. de cuadrado integrable, es decir, E(X 2 ) < ∞. Entonces
Cov(X, X) = Var(X).
(b) Sean X1 , X2 v.a’s de cuadrado integrable. Entonces
Cov(X1 , X2 ) = Cov(X2 , X1 ).
(c) Sean X1 , X2 v.a’s de cuadrado integrable. Entonces
[Cov(X1 , X2 )]2 ≤ Var(X1 ) Var(X2 ).
(d) Sean X1 , X2 v.a’s de cuadrado integrable. Entonces
Var(X1 + X2 ) = Var(X1 ) + Var(X2 ) + 2 Cov(X1 , X2 ).
58
(e) Sean X1 , . . . , Xn , Y1 , . . . , Ym variables aleatorias de cuadrado integrable. Entonces
⎛n m ⎞ n m
Cov ∑ Xi , ∑ Yj = ∑ ∑ Cov(Xi , Yj ).
⎝i=1 j=1 ⎠ i=1 j=1
(f) Sean X1 , . . . , Xn v.a’s de cuadrado integrable. Entonces

n n
Var (∑ Xi ) = ∑ Var(Xi ) + 2 ∑ Cov(Xi , Xj ).
i=1 i=1 1≤i<j≤n
3.2.3. Esperanza y varianza de un vector aleatorio

Hasta ahora hemos definido la esperanza de transformaciones univariadas de vectores aleatorios. A
continuación vamos a definir la esperanza y varianza de un vector aleatorio.
Definición 3.14. Sea X = (X1 , . . . , Xk ) un vector aleatorio con E(Xi2 ) < ∞, i = 1, . . . , k. Se define
su esperanza como
X ) = (E(X1 ), E(X2 ), . . . , E(Xk−1 ), E(Xk )) ∈ Rk ,

E(X
y su varianza como
⎛ Var(X1 ) Cov(X1 , X2 ) ... Cov(X1 , Xk−1 ) Cov(X1 , Xk ) ⎞

⎜ Cov(X2 , X1 ) Var(X2 ) ... Cov(X2 , Xk−1 ) Cov(X2 , Xk ) ⎟
⎜ ⎟
X) = ⎜
Var(X ⎜ ⋮ ⋮ ⋱ ⋮ ⋮ ⎟
⎟
⎜ Cov(X , X ) Cov(Xk−1 , X2 ) ... Var(Xk−1 ) Cov(Xk−1 , Xk ) ⎟
⎜ k−1 1 ⎟
⎝ Cov(Xk , X1 ) Cov(Xk , X2 ) ... Cov(Xk , Xk−1 ) Var(Xk ) ⎠
∈ Mk×k (R).
X ) es una matriz simétrica, pues

Observación 3.5. Notemos que por construcción Var(X
Cov(Xi , Xj ) = Cov(Xj , Xi ), ∀i, j ∈ {1, . . . , k}.
X ) matriz de varianza o matriz de varianza-covarianza.

Algunos autores denominan a Var(X
µ, Σ ). Se puede demostrar que al igual como ocurre con el modelo normal

Ejemplo 3.7. Sea X ∼ Nk (µ
univariado,
X) = µ y
E(X X ) = Σ.
Var(X
Notemos que la definición anterior de esperanza de un vector aleatorio coincide con la idea que la
esperanza es una medida de localización de un modelo de probabilidad.
59
3.2.4. Correlación versus independencia
A continuación vamos a estudiar una relación que existe entre los conceptos de independencia y
correlación.
Proposición 3.11. Sea (Ω, F, P) un espacio de probabilidad, Xi ∶ Ω → R, i = 1, . . . , n, variables

aleatorias independientes y hi ∶ R → R, i = 1, . . . , n, funciones tales que hi (Xi ) sea una variable
aleatoria. Entonces
n n
E (∏ hi (Xi )) = ∏ E(hi (Xi )).
i=1 i=1
Ejemplo 3.8. Sean X1 , X2 v.a’s independientes tales que Xi ∼ Exp(λi ), con λi > 0, i = 1, 2. Determine
E(X12 X2 ).
Solución.
Usando la propiedad anterior se deduce directamente que
1 1 2 1 2
E(X12 X2 ) = E(X12 ) E(X2 ) = [Var(X1 ) + E2 (X1 )] E(X2 ) = [ + ( ) ]( ) = 2 .
λ21 λ1 λ2 λ1 λ2
De la propiedad anterior se deduce directamente el siguiente lema.
Lema 3.12. Si X1 y X2 son v.a’s independientes, entonces

Cov(X1 , X2 ) = 0.
El lema anterior deja de manifiesto que cuando dos variables aleatorias son independientes, entonces
la distribución de probabilidad conjunta no aporta información que no pueda ser entregada por las
distribuciones de probabilidad marginales.
Problema 3.2. Encuentre un ejemplo de variables aleatorias X1 y X2 tales que Corr(X1 , X2 ) = 0,

pero X1 y X2 no son independientes.
El problema anterior es muy interesante, pues nos dice que correlación nula no necesariamente im-
plica independencia de las variables aleatorias involucradas.
Sin perjuicio de lo anterior, hay un modelo de los vistos anteriormente en el cual correlación nula si
implica independencia, como se muestra en el siguiente ejemplo.
Ejemplo 3.9. Sea X = (X1 , X2 ) un vector aleatorio que se distribuye de acuerdo a un modelo normal
bivariado de parámetros µ1 , µ2 , σ1 , σ2 y ρ. Recordemos que su función de densidad de probabilidad
está dada por
1 1 x 1 − µ1 2
fX1 ,X2 (x1 , x2 ) = √ exp {− [( )
2πσ1 σ2 1 − ρ2 2(1 − ρ2 ) σ1
x 2 − µ2 2 x1 − µ1 x2 − µ2
+( ) − 2ρ ( )( )]} .
σ2 σ1 σ2
60
Se puede demostrar que Corr(X1 , X2 ) = ρ. Además, ρ = 0 implica que
fX1 ,X2 (x1 , x2 ) = fX1 (x1 )fX2 (x2 ),
donde Xi ∼ N (µi , σi2 ), i = 1, 2, de donde se concluye la independencia entre X1 y X2 .
3.2.5. Distribución de la suma de v.a’s independientes

A continuación vamos a estudiar una aplicación muy importante de la propiedad 3.11, que tiene
relación con la distribución de la suma de variables aleatorias independientes.
Proposición 3.13. Sean X1 , . . . , Xn v.a’s independientes. Entonces

n n
Var (∑ Xi ) = ∑ Var(Xi ).
i=1 i=1
Demostración. La demostración sigue directamente de la proposición 3.10 parte (f) y el lema 3.12.
◻
Ejemplo 3.10. Sean X1 , . . . , Xn v.a’s independientes tales que

E(Xi ) = µ y Var(Xi ) = σ 2 ,
para todo i = 1, . . . , n. Se define la v.a.
1 n
X n ∶= ∑ Xi .
n i=1
Determine Var(X n ).
Solución.
En efecto, usando las propiedades de la varianza se tiene que
1 n
1 n nσ 2 σ 2
Var(X n ) = Var( ∑ Xi ) = ∑ Var(Xi ) = = .
n2 i=1 n2 i=1 n2 n
El siguiente teorema es uno de los resultados más importantes de esta sección.
Teorema 3.14. Sean X1 , . . . , Xn v.a’s independientes tales que sus funciones generadoras de mo-
mentos existan. Entonces
n
M∑ni=1 Xi (t) = ∏ MXi (t).
i=1
Demostración. Notemos que

n n n n
M∑ni=1 Xi (t) = E (exp {t ∑ Xi }) = E (∏ exp{tXi }) = ∏ E (exp{tXi }) = ∏ MXi (t),
i=1 i=1 i=1 i=1
donde la penúltima igualdad sigue directamente de la proposición 3.11. ◻
Como veremos a continuación, el teorema 3.14 nos permite, en algunos casos, obtener la ley (o
distribución de probabilidad) de la suma de v.a’s independientes.
61
Proposición 3.15. Sean X1 , . . . , Xn v.a’s independientes tales que Xi ∼ P oisson(λi ), con λi > 0,
i = 1, . . . , n. Entonces
n n
∑ Xi ∼ P oisson (∑ λi ) .
i=1 i=1
Demostración. Sabemos que
MXi (t) = exp(λi (et − 1)), ∀i = 1, . . . , n.
Entonces
n n n
M∑ni=1 Xi (t) = ∏ MXi (t) = ∏ exp(λi (et − 1)) = exp (∑ λi (et − 1)) .
i=1 i=1 i=1
Sigue de inmediato de la proposición 2.9 que

n n
∑ Xi ∼ P oisson (∑ λi ) .
i=1 i=1
Proposición 3.16. Sean X1 , . . . , Xn v.a’s independientes tales que Xi ∼ N (µi , σi2 ), con µi ∈ R y
σi > 0, i = 1, . . . , n. Entonces
n n n
2
∑ Xi ∼ N (∑ µi , ∑ σi ) .
i=1 i=1 i=1
Demostración. Sabemos que

1
MXi (t) = exp (µi t + σi2 t2 ) , ∀i = 1, . . . , n.
2
Entonces
n n n
1 1 n
M∑ni=1 Xi (t) = ∏ MXi (t) = ∏ exp (µi t + σi2 t2 ) = exp ([∑ µi ] t + [∑ σi2 ] t2 ) .
i=1 i=1 2 i=1 2 i=1
Sigue de inmediato de la proposición 2.9 que

n n n
2
∑ Xi ∼ N (∑ µi , ∑ σi ) .
i=1 i=1 i=1
3.3. Esperanza condicional

En esta sección vamos a estudiar el concepto de esperanza condicional, el cual es una herramienta
muy útil al momento de construir modelos predictivos.
62
3.3.1. Definición y propiedades
A continuación vamos a ver la definición de esperanza condicional y algunas de sus propiedades.
Definición 3.15 (Esperanza condicional). Sea (Ω, F, P) un espacio de probabilidad, Y ∶ Ω → R

una v.a. integrable, X ∶ Ω → R v.a. y h ∶ R → R una función tal que h(Y ) es una v.a. Se define la
esperanza condicional de h(Y ) dado X como
⎧
⎪ ∑ h(y)pY ∣X (y∣x) si Y es una v.a. discreta,
⎪
⎪
⎪
⎪ y
⎪
⎪
E(h(Y )∣X = x) = ⎨ ∞
⎪
⎪
⎪
⎪
⎪
⎪ ∫ h(y)fY ∣X (y∣x)dy si Y es una v.a. continua.
⎪
⎩ −∞
Ejemplo 3.11. Sea (X, Y ) un vector aleatorio continuo con función de densidad conjunta dada por
e−y si 0 < x < y < ∞,

fX,Y (x, y) = {
0 en otro caso.
Determine E(Y ∣X = x).

Solución.
Notemos que
∞ ∞ ∞
−y −y
fX (x) = ∫ fX,Y (x, y)dy = ∫ e dy = −e ∣ = e−x , 0 < x < ∞.
−∞ x x
Entonces
fX,Y (x, y) e−y
fY ∣X (y∣x) = = −x = e−(y−x) , 0 < x < y < ∞.
fX (x) e
Luego,
∞ ∞ ∞
E(Y ∣X = x) = ∫ yfY ∣X (y∣x)dy = ∫ ye−(y−x) dy = ∫ (x + u)e−u du
−∞ x 0
∞ ∞
= x ∫ e−u du + ∫ ue−u du = x + 1.
0 0
En la siguiente proposición se muestran algunas propiedades de la esperanza condicional.
Proposición 3.17. Sean Y1 , Y2 v.a’s integrables, X v.a. y a, b, c ∈ R. Entonces:
(a) E(aY1 + bY2 + c∣X) = a E(Y1 ∣X) + b E(Y2 ∣X) + c.
(b) E(E(Y1 ∣X)) = E(Y1 ).
(c) Si Y1 ≤ Y2 c.s., entonces E(Y1 ∣X) ≤ E(Y2 ∣X) c.s.
63
(d) Si Y1 y X son independientes, entonces E(Y1 ∣X) = E(Y1 ).
(e) Si Y2 = h(X) con h(⋅) una función tal que h(X) sea una v.a., entonces E(Y1 Y2 ∣X) = Y2 E(Y1 ∣X).
La siguiente proposición nos dice que E(Y ∣X) es una función de X.
Proposición 3.18. Sean X, Y v.a’s tales que Y es integrable. Entonces existe una función f ∶ R → R
tal que f (X) es una v.a. y
E(Y ∣X) = f (X).
En lo que sigue definimos el concepto de varianza condicional.
Definición 3.16 (Varianza condicional). Sean X, Y v.a’s tales que E(Y 2 ) < ∞. Se define la varianza
condicional de Y dado X como
Var(Y ∣X) = E([Y − E(Y ∣X)]2 ∣X).
Usando las propiedades de la esperanza condicional es posible obtener la siguiente caracterización

de la varianza condicional.
Proposición 3.19. Sean X, Y v.a’s tales que E(Y 2 ) < ∞. Entonces
Var(Y ∣X) = E(Y 2 ∣X) − E2 (Y ∣X).
La siguiente proposición es la base de una metodología estadística conocida como análisis de va-
rianza (ANOVA).
Proposición 3.20. Sean X, Y v.a’s tales que E(Y 2 ) < ∞. Entonces
Var(Y ) = Var(E(Y ∣X)) + E(Var(Y ∣X)).
2
Ejemplo 3.12. Sea N una v.a. discreta no negativa con media µN y varianza σN . Consideremos una
2
secuencia de v.a’s X1 , X2 , . . . con media µX y varianza σX . Se define la v.a.
N
T = ∑ Xi ,
i=1
donde N, X1 , X2 , . . . son independientes. Se puede demostrar que
E(T ) = µN µX y Var(Y ) = µ2X σN

2 2
+ µN σX .
64
Solución.
Notemos que
⎛N RRR ⎞ ⎛n RRR ⎞ n n
E(T ∣N = n) = E ∑ Xi RRRRRN = n = E ∑ Xi RRRRRN = n = E (∑ Xi ) = ∑ E(Xi ) = nµX .
⎝i=1 RR ⎠ ⎝i=1 RR ⎠ i=1 i=1
R R
Luego,
E(T ∣N ) = N µX .
Finalmente,
E(T ) = E(E(T ∣X)) = E(N µX ) = µX E(N ) = µN µX .
El cálculo de la varianza es similar y queda propuesto.
3.3.2. Predicción
Supongamos que queremos determinar el valor de c ∈ R que minimiza la expresión
E([Y − c]2 ).
Dicho valor se puede interpretar como una predicción de Y y se demostró en la proposición 2.7 que
corresponde a E(Y ).
Supongamos ahora que queremos predecir Y basado en una función h(X) de una v.a. X, que
minimice la expresión
E([X − h(X)]2 ).
Se puede demostrar que dicha función minimizante corresponde a E(Y ∣X), y por lo tanto, podemos
interpretar a la esperanza condicional como el mejor predictor de Y (en términos del criterio ante-
rior) dado X.
Ejemplo 3.13. Si (X, Y ) se distribuye de acuerdo a una normal bivariada, entonces el mejor predictor
de Y dado X es la función lineal
E(Y ∣X) = α + βX,
con
α = µY − βµX ,
ρσY
β= .
σX
65
3.4. Distribución de valores extremos
Los valores extremos (mínimo y máximo) son de especial interés en Ingeniería. Por ejemplo:
1. Nivel máximo y/o mínimo del flujo de un río en los últimos 10 años.
2. Intensidad máxima de un terremoto en los últimos 40 años.
En lo que sigue vamos a estudiar la distribución del mínimo y máximo de variables aleatorias bajo
distintos supuestos.
Supongamos que X1 , . . . , Xn son variables aleatorias independientes. Definamos
X(1) = min{X1 , . . . , Xn },
X(n) = max{X1 , . . . , Xn }.
Notemos que la función de distribución de X(1) está dada por
FX(1) (u) = P(X(1) ≤ u) = P(min{X1 , . . . , Xn } ≤ u) = 1 − P(min{X1 , . . . , Xn } > u)

n n
= 1 − P(X1 > u, . . . , Xn > u) = 1 − ∏ P(Xi > u) = 1 − ∏[1 − FXi (u)].
i=1 i=1
De manera similar, la función de distribución de X(n) está dada por
FX(n) = P(X(n) ≤ u) = P(max{X1 , . . . , Xn } ≤ u) = P(X1 ≤ u, . . . , Xn ≤ u)

n n
= ∏ P(Xi ≤ u) = ∏ FXi (u).
i=1 i=1
Supongamos ahora que X1 , . . . , Xn , además de independientes, son variables aleatorias idénticamen-

te distribuídas. Entonces la función de distribución de X(1) está dada por
n
FX(1) (u) = 1 − ∏[1 − FXi (u)] = 1 − [1 − FX1 (u)]n .
i=1
Similarmente, la función de distribución de X(n) está dada por

n
FX(n) = ∏ FXi (u) = [FX1 (u)]n .
i=1
Finalmente, supongamos que adicionalmente las variables aleatorias X1 , . . . , Xn son continuas. Así,
derivando se prueba que la función de densidad de probabilidad de X(1) está dada por
fX(1) (x) = n[1 − FX (x)]n−1 fX (x),
y que la función de densidad de probabilidad de X(n) está dada por
fX(n) (x) = n[FX (x)]n−1 fX (x).
66
Figura 3.2: Circuito en paralelo.
Ejemplo 3.14. Un circuito transfiere corriente desde A a B mediante los nodos 1, 2, 3 y 4, los cuales
se encuentran actualmente operativos, como se aprecia en la figura 3.2. Suponga que, desde que
el sistema comienza a funcionar, los tiempos de vida útil de cada nodo se comportan de manera
independiente como v.a’s exponenciales de parámetro conocido λ > 0. Considere un circuito en
paralelo. Sea T el tiempo de funcionamiento del sistema. Determine FT y fT .
Solución.
Definamos por Ti el tiempo de vida útil de la componente i, con i = 1, 2, 3, 4. Por enunciado sabemos
que
Ti ∼ Exp(λ),
con λ > 0 conocido. Notemos que el tiempo de funcionamiento del sistema está dado por
T = max{T1 , T2 , T3 , T4 }.
Entonces, la función de distribución de T está dada por
FT (t) = P(T ≤ t) = P(max{T1 , T2 , T3 , T4 } ≤ t) = [P(T1 ≤ t)]4 = [1 − exp{−λt}]4 .
Derivando la expresión anterior se obtiene la función de densidad de probabilidad de T . Así,
dFT (t)
fT (t) = = 4[1 − exp{−λt}]3 λ exp{−λt}.
dt
67
Capítulo 4
Introducción a la Teoría Asintótica
4.1. Tipos de convergencia de variables aleatorias

Sea (Ω, F, P) un espacio de probabilidad y (Xn )n∈N una sucesión de variables aleatorias. Estamos
interesados en describir el comportamiento asintótico de la sucesión cuando n → ∞ desde el punto
de vista probabilístico, esto es, considerando la medida de probabilidad P.
Lo anterior se puede formalizar de muchas maneras, lo que dará lugar a distintas formas de conver-
gencia estocástica.
4.1.1. Convergencia en probabilidad

Sea X una v.a. Diremos que (Xn )n∈N converge en probabilidad a X, lo que denotaremos
P
Xn → X,
si ∀ > 0,
lim P(∣Xn − X∣ ≥ ) = 0.
n→∞
Teorema 4.1 (Ley débil de los grandes números). Sea (Xn )n∈N una sucesión de v.a’s i.i.d. tales
que E(X1 ) = µ y Var(X) = σ 2 < ∞. Definamos
1 n
Xn = ∑ Xi .
n i=1
Entonces
P
X n → µ.
Demostración. Sea > 0. Notemos que

1 n
E (X n ) = ∑ E(Xi ) = µ.
n i=1
Luego, por la desigualdad de Chebyshev se tiene que
Var (X n )
P (∣X n − µ∣ ≥ ) ≤ .
2
68
Por otro lado, se tiene que
1 n
1 n σ2
Var (X n ) = Var ( ∑ Xi ) = ∑ Var(Xi ) = → 0,
n2 i=1 n2 i=1 n
cuando n → ∞. Así, se concluye que
lim P (∣X n − µ∣ ≥ ) = 0,
n→∞
P
y por lo tanto, X n → µ. ◻
Ejemplo 4.1. Sean X1 , X2 , . . . v.a’s i.i.d. tales que E(X1 ) = µ y Var(X1 ) = σ 2 < ∞. Definamos
1 n
Sn2 = 2
∑(Xi − X n ) .
n − 1 i=1
Buscamos condiciones bajo las cuales

P
Sn2 → σ 2 .
Solución.
Se puede demostrar que
E (Sn2 ) = σ 2 .
P
Luego, por la desigualdad de Chebyshev, se tiene que una condición para que Sn2 → σ 2 es que
Var(Sn2 ) → 0, cuando n → ∞.
Teorema 4.2. Sea (Xn )n una sucesión de v.a’s que converge en probabilidad a una v.a. X y h(⋅)
una función continua. Entonces
P
h(Xn ) → h(X).
Ejemplo 4.2. Sea (Xn )n una sucesión de v.a’s tales que

P
Sn2 → σ 2 .
¿Qué podemos afirmar respecto de la convergencia de Sn ?

Solución.
Aplicando el teorema anterior se deduce directamente que
P
Sn → σ.
El resultado anterior es interesante, debido a que se puede demostrar que
E(Sn ) ≤ σ, ∀n ∈ N,
gracias a una propiedad conocida como desigualdad de Jensen.
69
4.1.2. Convergencia casi segura
c.s.
Sea X una v.a. Diremos que (Xn ) converge casi seguramente a X, lo que denotaremos Xn → X, si
∀ > 0,
P ( lim ∣Xn − X∣ < ) = 1.

n→∞
c.s.
Equivalentemente, diremos que Xn → X si existe Ω0 ∈ F tal que P(Ω0 ) = 1 y
lim Xn (ω) = X(ω), ∀ω ∈ Ω0 .

n→∞
Ejemplo 4.3. Sea Ω = [0, 1] con la función de probabilidad P uniforme, Xn (ω) = ω n + ω y X(ω) = ω.
c.s.
Verifique que Xn → X.
Solución.
En efecto, notemos que
lim Xn (ω) = lim (ω n + ω) = ω = X(ω), ∀ω ∈ Ω0 ∶= [0, 1),

n→∞ n→∞
y lim Xn (ω = 1) = 2 ≠ 1 = X(ω = 1). Dado que P(Ω0 ) = 1, se concluye que

n→∞
c.s.
Xn → X.
De la definición se aprecia que la convergencia casi segura es más fuerte que la convergencia en
probabilidad, en el sentido que la convergencia casi segura implica la convergencia en probabilidad.
Sin embargo, la otra implicación no necesariamente se cumple, como se muestra en el siguiente
ejemplo.
Ejemplo 4.4. Sea Ω = [0, 1] con la probabilidad P uniforme. Sea X(ω) = ω y definamos
X1 (ω) = ω + 1[0,1] (ω), X2 (ω) = ω + 1[0, 1 ] (ω),

2
X3 (ω) = ω + 1[ 1 ,1] (ω), X4 (ω) = ω + 1[0, 1 ] (ω),

2 3
X5 (ω) = ω + 1[ 1 , 2 ] (ω), X6 (ω) = ω + 1[ 2 ,1] (ω), ...

3 3 3
Entonces Xn converge en probabilidad a X, pues el largo del intervalo donde está definida la función
indicatriz converge a cero cuando n → ∞. Sin embargo, Xn no converge casi seguramente a X.
Teorema 4.3 (Ley débil de los grandes números). Sean X1 , X2 , . . . v.a’s i.i.d. tales que E(X1 ) = µ
y Var(X1 ) = σ 2 < ∞. Definamos
1 n
Xn = ∑ Xi .
n i=1
Entonces
c.s.
X n → µ.
70
4.1.3. Convergencia en distribución
d
Sea X una v.a. Diremos que (Xn ) converge en distribución a X, lo que denotaremos Xn → X, si
FXn (x) → FX (x),
para todo x punto de continuidad de FX , donde FXn es la función de distribución acumulada de

Xn y FX es la función de distribución acumulada de X.
Ejemplo 4.5. Sean X1 , X2 , . . . v.a’s i.i.d. U (0, 1) y X(n) = max Xi . ¿Converge X(n) en distribución?
1≤i≤n
Solución.
Notemos que la función de distribución de X(n) está dada por
n
FX(n) (u) = P(X(n) ≤ u) = P(X1 ≤ u, . . . , Xn ≤ u) = ∏ P(Xi ≤ u) = [P(X1 ≤ u)]n
i=1
⎧
⎪ 0 si u < 0,
⎪
⎪
= ⎨ un si 0 ≤ u < 1,
⎪
⎪ 1
⎪
⎩ si u ≥ 1.
Se aprecia que
0 si u < 1,
lim FX(n) (u) = {
n→∞ 1 si u ≥ 1.
Notemos que la expresión de la derecha corresponde a la función de distribución acumulada de la

v.a. X ≡ 1. Luego hemos probados que X(n) = max{X1 , . . . , Xn } converge en distribución a la v.a.
constante e igual a 1.
En el siguiente teorema se muestran las relaciones existentes entre los diversos tipos de convergencia
de sucesiones de v.a’s.
Teorema 4.4.
c.s. P
(a) Si Xn → X, entonces Xn → X.
P d
(b) Si Xn → X, entonces Xn → X.
Del teorema anterior se deduce que la convergencia más fuerte es la convergencia casi segura y que
la convergencia en distribución es la más débil.
Existen condiciones bajo las cuales es posible obtener las implicancias inversas del teorema anterior,
pero su estudio va más allá del alcance de este apunte. Sin perjuicio de lo anterior, en la siguiente
proposición se muestra un caso donde la convergencia en distribución implica la convergencia en
probabilidad.
Proposición 4.5. Sea µ ∈ R. Entonces

P d
Xn → µ ⇔ Xn → µ.
71
El siguiente resultado es uno de los más importantes de este capítulo y resalta la importancia de la
distribución normal en Probabilidades.
Teorema 4.6 (del límite central). Sean X1 , X2 , . . . v.a’s i.i.d. tales que sus funciones generadoras
de momentos existan en una vecindad del cero, E(X1 ) = µ y Var(X1 ) = σ 2 > 0. Entonces
√ Xn − µ d
n( ) → Z,
σ
donde Z ∼ N (0, 1).
Antes de ver aplicaciones del teorema anterior, veamos una versión más general que no requiere de
la existencia de la función generadora de momentos.
Teorema 4.7 (del límite central - versión general). Sean X1 , X2 , . . . v.a’s i.i.d. tales que E(X1 ) = µ
y 0 < Var(X1 ) = σ 2 < ∞. Entonces
√ Xn − µ d
n( ) → Z,
σ
donde Z ∼ N (0, 1).
Ejemplo 4.6. Sean X1 , . . . , Xn v.a’s i.i.d. BinN eg(r, p). Se puede demostrar (no es el objetivo de
este ejercicio) que
r(1 − p) r(1 − p)
E(X1 ) = y Var(X1 ) = .
p p2
1
Calcular aproximadamente P(X n ≤ 11), cuando n = 30, p = 2 y r = 10.
Solución.
Notemos que calcular la probabilidad exacta no es nada sencillo, sin embargo, podemos utilizar el
teorema central del límite para calcular aproximadamente la probabilidad de interés. Así,
√ Xn − µ √ 11 − µ √ 11 − µ
P(X n ≤ 11) = P ( n ( ) ≤ n( )) ≈ Φ ( n ( )) ,
σ σ σ
donde
1/2
r(1 − p) r(1 − p) √
µ= = 10 y σ = [ ] = 20.
p p2
Luego,
P(X n ≤ 11) ≈ Φ(1,22474) ≈ 0,88966.
d P
Teorema 4.8 (de Slutsky). Sea µ ∈ R. Si Xn → X e Yn → µ, entonces:
d
(a) Yn Xn → µX.
72
d
(b) Yn + Xn → µ + X.
Ejemplo 4.7. Sea Z ∼ N (0, 1). Supongamos que
√ Xn − µ d
n( )→Z
σ
con σ desconocido y que
Var(Sn2 ) → 0.
Entonces
√ Xn − µ d
n( ) → Z.
Sn
Teorema 4.9 (Método delta). Sean (Yn ) una sucesión de v.a’s tales que
√ d
n(Yn − θ) → N (0, σ 2 )
y g una función tales que g ′ (θ) ≠ 0 y existe. Entonces

√
n(g(Yn ) − g(θ)) → N (0, σ 2 [g ′ (θ)]2 ).
d
Ejemplo 4.8. Sean X1 , X2 , . . . v.a’s i.i.d. tales que E(X1 ) = µ ≠ 0 y 0 < Var(X1 ) = σ 2 < ∞. Entonces
√ 1 1 d σ2
n( − ) → N (0, 4 ) .
Xn µ µ
Teorema 4.10 (Método delta de segundo orden). Sean (Yn ) una sucesión de v.a’s tales que
√ d
n(Yn − θ) → N (0, σ 2 )
y g una función tales que g ′ (θ) = 0, g ′′ (θ) ≠ 0 y existe. Entonces
d g ′′ (θ) 2
n(g(Yn ) − g(θ)) → σ 2 χ1 .
2
73
Capítulo 5
Fundamentos de la Inferencia Estadística
En este capítulo iniciamos nuestro estudio acerca de una parte de la estadística conocida como teoría
inferencial, que estudia el problema de inferir a partir de datos el modelo de probabilidad que los
generó.
5.1. Conceptos básicos de la teoría inferencial

Supongamos que estamos interesados en estudiar el estado de salud de un grupo de personas, medido
a través de su índice de masa corporal (I.M.C.). En tal caso no parece razonable tomar conclusiones
a partir de una sola observación; es necesario analizar una muestra de datos, entendida como una
cantidad finita de observaciones. En este punto surge la siguiente pregunta:
¿Es posible tomar una muestra de modo que nos permita inferir información respecto de la
variable de interés?
La pregunta anterior está relacionada con el concepto de muestra representativa, y para responderla
necesitamos definir algunos conceptos previos.
Definición 5.1 (Población). Es el conjunto de objetos o individuos sobre el cual se quiere estudiar
una característica de interés (o varias).
Dependiendo de la cantidad de elementos del conjunto anterior surgen de manera natural espacios
muestrales finitos e infinitos.
Ejemplo 5.1.
1. Población finita: supongamos que estamos interesados en estudiar la estatura media de niños
menores de 6 años que habitan actualmente en la región metropolitana.
2. Población infinita: supongamos que estamos interesados en estudiar la duración media de

ampolletas de bajo consumo fabricadas por una determinada empresa.
Para efectos de este curso trabajaremos solamente con poblaciones infinitas, pues es el caso más
común en problemas de ingeniería.
74
En lo que sigue denotaremos por X a la variable que representa la característica de interés en
la población en estudio y x1 , . . . , xn datos disponibles de dicha variable. Por ejemplo, xi podría
representar el I.M.C. para el individuo i, con i = 1, . . . , n. Un supuesto fundamental en el que se
basa la inferencia estadística es el siguiente:
X se puede modelar como una variable aleatoria y los datos x1 , . . . , xn corresponden a reali-
zaciones de dicha variable.
Gracias al supuesto anterior estamos en condiciones de definir el concepto de muestra representativa.
Definición 5.2 (Muestra aleatoria simple). Sea P un modelo de probabilidad y X una v.a. tal que
X ∼ P. Diremos que X1 , . . . , Xn es una muestra aleatoria simple (M.A.S.) si
i.i.d.
X1 , . . . , Xn ∼ P,
es decir, X1 , . . . , Xn son v.a’s independientes e idénticamente distribuidas de acuerdo a P, donde

n ∈ N corresponde al tamaño muestral.
Así, el problema fundamental de la inferencia estadística se puede enunciar de la siguiente manera:
Dada una muestra aleatoria simple X1 , . . . , Xn , inferir el modelo de probabilidad P subyacente.
La manera estándar de abordar el problema anterior es a través del concepto de modelo estadístico,
que definimos a continuación.
Definición 5.3 (Modelo estadístico). Sea X1 , . . . , Xn una muestra aleatoria simple. Un modelo
estadístico M corresponde a una familia de modelos de probabidad M = {Pθ ∶ θ ∈ Θ} tales que
i.i.d.
X1 , . . . , Xn ∼ P ∈ M,
donde θ se denomina parámetro y el conjunto Θ, espacio de parámetros.
En este punto se manifiesta una de las principales diferencias que existe entre la teoría de probabi-
lidades y la inferencia estadística. Mientras que en probabilidades se trabaja con una única medida
de probabilidad, en estadística inferencial disponemos de una familia de medidas de probabilidad.
Dependiendo de la naturaleza del conjunto Θ surgen tres tipos de modelos estadísticos:
1. Modelos paramétricos: Θ ⊆ Rs , con s ∈ N.
2. Modelos no paramétricos: Θ ⊆ G , con G un espacio vectorial de dimensión infinita.
3. Modelos semiparamétricos: Θ = Θ1 × Θ2 donde Θ1 ⊆ Rs , con s ∈ N, y Θ2 ⊆ G , con G un espacio

vectorial de dimensión infinita.
En este curso solamente estudiaremos modelos estadísticos paramétricos. Veamos algunos ejemplos:
75
Ejemplo 5.2.
i.i.d.
1. Sean X1 , . . . , Xn ∼ Exp(λ), λ > 0. Entonces θ = λ y Θ = (0, ∞).
i.i.d.
2. Sean X1 , . . . , Xn ∼ N (µ, 1), µ ∈ R. Entonces θ = µ y Θ = R.
i.i.d.
3. Sean X1 , . . . , Xn ∼ N (µ, σ 2 ), µ ∈ R y σ > 0. Entonces θ = (µ, σ) y Θ = R × (0, ∞).
5.2. Identificabilidad de modelos estadísticos

La siguiente definición es fundamental para entender las limitaciones del proceso de aprendizaje
estadístico.
Definición 5.4 (Identificabilidad). Diremos que el modelo estadístico M = {Pθ ∶ θ ∈ Θ} es identifi-

cado, si la función θ → Pθ es inyectiva.
Veamos un ejemplo de un modelo estadístico no identificado.
i.i.d.
Ejemplo 5.3. Sean X1 , . . . , Xn ∼ N (µ1 + µ2 , 1), µ1 ∈ R y µ2 ∈ R. Entonces θ = (µ1 , µ2 ) y Θ = R2 .
Para probar que el modelo estadístico no es identificado, basta con encontrar θ1 , θ2 ∈ Θ, con θ1 ≠ θ2 ,
tales que Pθ1 = Pθ2 . Por ejemplo, tomemos θ1 = (2, 3) y θ2 = (4, 1). Claramente Pθ1 y Pθ2 corresponden
a un modelo normal con media 5 y varianza 1. Luego, Pθ1 = Pθ2 y el modelo estadístico no es
identificado.
Una propiedad muy importante de los modelos estadísticos identificados es que se puede demostrar
que sólo es posible aprender, a través de los datos, de parámetros identificados. Así, en el ejemplo
anterior no es factible aprender de µ1 y µ2 por separado. Solamente podemos aprender de µ1 + µ2 ,
que corresponde a la media del modelo normal. En el capítulo de estimación se verán algunas pro-
piedades adicionales que se deducen de la falta de identificabilidad de un modelo estadístico, como
por ejemplo, la no existencia de estimadores consistentes.
En el contexto de modelos estadísticos identificados, supondremos la existencia de un parámetro

verdadero θ0 ∈ Θ (desconocido) tal que Pθ0 es el modelo de probabilidad que genera los datos
observados. Notemos que en este escenario, el problema fundamental de la inferencia estadística se
formula como sigue:
Dada una muestra aleatoria simple X1 , . . . , Xn , inferir el valor de θ0 .
Dentro de los próximos capítulos estudiaremos tres formas clásicas de abordar el problema funda-
mental de la inferencia estadística:
1. Estimación puntual.
2. Estimación por intervalo.
3. Test de hipótesis.
76
Capítulo 6
Estimación
En este capítulo estudiaremos dos problemas clásicos de la inferencia estadística: estimación puntual
y estimación por intervalo.
6.1. Estimación puntual

La estimación puntual consiste en, dada una muestra aleatoria simple X1 , . . . , Xn , proponer un valor
θ̂ = θ(X
̂ 1 , . . . , Xn ) lo más cercano posible a θ0 ∈ Θ. Dado el carácter aleatorio de X1 , . . . , Xn , hay
cierta ambigüedad en la afirmación anterior, por lo que necesitamos desarrollar ciertos conceptos
previos.
6.1.1. Conceptos básicos de estimación puntual

Definición 6.1 (Estadístico). Sea X1 , . . . , Xn una muestra aleatoria simple proveniente del modelo
estadístico M = {Pθ ∶ θ ∈ Θ}. Un estadístico T corresponde a una función de X1 , . . . , Xn , es decir,
T = T (X1 , . . . , Xn ).
Tres estadísticos importantes en inferencia estadística se definen a continuación.
Definición 6.2. Sea X1 , . . . , Xn una muestra aleatoria simple proveniente del modelo estadístico
M = {Pθ ∶ θ ∈ Θ}. Se definen la media, varianza y desviación estándar muestrales como
1/2
1 n 1 n 1 n
X n ∶= ∑ Xi , Sn2 ∶= ∑(Xi − X n )
2
y Sn ∶= ( 2
∑(Xi − X n ) ) .
n i=1 n − 1 i=1 n − 1 i=1
En la siguiente proposición se muestran algunas propiedades que satisfacen los estadísticos antes
definidos.
Proposición 6.1. Sea X1 , . . . , Xn una muestra aleatoria simple proveniente de un modelo estadís-
tico M = {Pθ ∶ θ ∈ Θ} con media µ y varianza σ 2 . Entonces
σ2
E (X n ) = µ, Var (X n ) = y E (Sn2 ) = σ 2 .
n
77
Demostración. Vamos a probar que E (Sn2 ) = σ 2 . El resto queda de ejercicio. En efecto, notemos
que
1 n 1 n 2 n 2
Sn2 = 2
∑(Xi − X n ) = ∑ Xi − X n.
n − 1 i=1 n − 1 i=1 n−1
Entonces
1 n 1 n n 2
E (Sn2 ) = 2
∑(Xi − X n ) =
2
∑ E (Xi ) − E (X n ) ,
n − 1 i=1 n − 1 i=1 n−1
1 n 2 n
= ∑ [Var (Xi ) + E (Xi )] − [Var (X n ) + E2 (X n )] ,
n − 1 i=1 n−1
1 n 2 2 n σ2 nσ 2 1
= ∑[σ + µ ] − [ + µ2 ] = [1 − ] = σ 2 .
n − 1 i=1 n−1 n n−1 n
◻
Del desarrollo anterior se deduce directamente que si definimos
1 n
σ̂2 ∶= ∑(Xi − X n )2 ,
n i=1
entonces
n−1 2 (n − 1)σ 2
E (σ̂2 ) = E ( Sn ) = ≠ σ2, ∀n ∈ N.
n n
El siguiente resultado es una aplicación directa del teorema 3.14.
Proposición 6.2. Sea X1 , . . . , Xn una muestra aleatoria simple proveniente de un modelo estadís-
tico M = {Pθ ∶ θ ∈ Θ} con función generadora de momentos M (t). Entonces
t n
MX n (t) = [M ( )] .
n
i.i.d.
Ejemplo 6.1. Supongamos que X1 , . . . , Xn ∼ N (µ, σ 2 ). Entonces M (t) = exp (µt + 12 σ 2 t2 ) y por la
proposición anterior se tiene que
n
t 1 t 2 1 σ2
MX n (t) = [exp (µ ( ) + σ 2 ( ) )] = exp (µt + ( ) t2 ) ,
n 2 n 2 n
de donde se deduce que
σ2
X n ∼ N (µ, ).
n
El siguiente resultado será muy útil cuando queramos aprender acerca de la media de un modelo
estadístico normal con varianza es desconocida.
78
i.i.d.
Proposición 6.3. Sean X1 , . . . , Xn ∼ N (µ, σ 2 ), con µ ∈ R y σ > 0. Entonces X n y Sn2 son v.a’s
independientes, y
(n − 1)Sn2
∼ χ2n−1 ,
σ2
donde χ2n−1 denota un modelo de probabilidad chi-cuadrado con n−1 grados de libertad, cuya función
de densidad de probabilidad está dada por
x 2 −1 exp (− x2 )
ν
⎧
⎪
⎪
⎪
⎪
⎪ ν si x ∈ R+ ,
⎪
f (x) = ⎨ Γ ( ν2 ) 2 2
⎪
⎪
⎪
⎪
⎪
⎪
⎩ 0 en otro caso,
con ν = n − 1 y
∞
Γ(z) = ∫ tz−1 exp(−t)dt.
0
i.i.d.
Proposición 6.4. Sean X1 , . . . , Xn ∼ N (µ, σ 2 ), con µ ∈ R y σ > 0. Entonces
√ X −µ
n( ) ∼ tn−1 ,
Sn
donde tn−1 denota un modelo de probabilidad t de Student con n−1 grados de libertad, cuya función
de densidad de probabilidad está dada por
− ν+1
Γ( ν+1
2 ) x2 2
f (x) = √ (1 + ) x ∈ R,
νπ Γ( ν2 ) ν
con ν = n − 1 > 0 y Γ(z) como en la proposición anterior.
Observación 6.1. La distribución t de Student con n ∈ N grados de libertad puede ser definida de
la siguiente manera:
Z
T ∼ tn ⇔ T=√ ,
U
n
donde Z ∼ N (0, 1) y U ∼ χ2n , con Z e U v.a’s independientes.
El siguiente concepto es clave en la teoría de la estimación puntual.
Definición 6.3 (Estimador). Sea X1 , . . . , Xn una muestra aleatoria simple proveniente del modelo
estadístico M = {Pθ ∶ θ ∈ Θ}. Diremos que θ̂ es un estimador del parámetro θ ∈ Θ si es un estadístico
θ̂ = θ(X
̂ 1 , . . . , Xn ) y su imagen Im(θ)
̂ = Θ.
79
Observación 6.2. Es importante distinguir entre los conceptos de estimador y estimación. Un es-
timador θ̂ = θ(X
̂ 1 , . . . , Xn ), al ser una función de una muestra aleatoria simple X1 , . . . , Xn , es un
elemento aleatorio. En cambio, una estimación θ̂ = θ(x ̂ 1 , . . . , xn ), al ser un estimador evaluado en
una realización de la muestra aleatoria (X1 (ω), . . . , Xn (ω)) = (x1 , . . . , xn ), corresponde a un valor
numérico.
Observación 6.3. Cabe destacar que algunos autores no hacen diferencia alguna entre los conceptos
de estadístico y estimador, es decir, no exigen que la imagen de un estimador coincida con el espacio
de parámetros.
En este punto surgen dos interrogantes:
1. ¿Cómo obtener estimadores para un modelo estadístico dado?
2. ¿Cómo evaluar si un estimador es bueno o no?
Comenzaremos respondiendo a primera pregunta.
6.1.2. Construcción de estimadores

El primer método de construcción de estimadores que estudiaremos es el método de los momentos,
que definimos a continuación.
Definición 6.4 (Método de los momentos). Sea X1 , . . . , Xn una muestra aleatoria simple prove-
niente del modelo estadístico M = {Pθ ∶ θ ∈ Θ}, con θ = (θ1 , . . . , θs ). Entonces el método de los
momentos consiste en resolver el sistema de ecuaciones
µ1 = m1 ,
⋮
µk = mk ,
⋮
µs = ms ,
en las variables θ1 , . . . , θs , donde
1 n k
µk = E(X1k ) y mk = ∑X , k = 1, . . . , s.
n i=1 i
Denotaremos por θ̂k = θ̂k (X1 , . . . , Xn ), k = 1, . . . , s, a las soluciones del sistema anterior, que deno-
minaremos estimadores de momentos de θk , k = 1, . . . , s.
Observación 6.4. Notemos que el método de los momentos se basa en la ley de los grandes números.
Así, bajo ciertas condiciones de regularidad se tiene que el momento empírico de orden k, mk ,
converge al momento teórico de orden k, µk , cuando el tamaño muestral n → ∞.
Veamos algunos ejemplos del método de los momentos.
80
i.i.d.
Ejemplo 6.2. Sean X1 , . . . , Xn ∼ Exp(λ), con λ > 0. Estamos interesados en determinar el es-
timador de momentos del parámetro λ. Notemos que θ = λ y entonces s = 1. Por lo tanto, sólo
disponemos de una ecuación. Dado que E(X1 ) = λ1 , entonces
1 1 n
µ1 = m1 ⇔ = ∑ Xi ,
λ n i=1
y el estimador de momentos de λ es
̂ 1 n
λ= = .
1
n ∑ni=1 Xi ∑ni=1 Xi
i.i.d.
Ejemplo 6.3. Sean X1 , . . . , Xn ∼ N (µ, σ 2 ), con µ ∈ R y σ > 0. Estamos interesados en determinar
el estimador de momentos del parámetro θ = (µ, σ), con Θ = R×(0, ∞). Notemos que θ1 = µ, θ2 = σ y
entonces s = 2. Por lo tanto, disponemos de dos ecuaciones. Dado que E(X1 ) = µ y E(X12 ) = σ 2 + µ2 ,
entonces
1 n
µ1 = m1 ⇔ µ= ∑ Xi ,
n i=1
1 n 2
µ2 = m2 ⇔ σ 2 + µ2 = ∑X ,
n i=1 i
y el estimador de momentos de θ = (µ, σ) es
⎛1 n ⎡ n 2 ⎤1/2 ⎞
⎢1 2 1 n ⎥
̂
θ = (̂ σ ) = ⎜ ∑ Xi , ⎢ ∑ Xi − ( ∑ Xi ) ⎥⎥ ⎟ .
µ, ̂ ⎢
⎝ n i=1 ⎢ n i=1
⎣
n i=1 ⎥ ⎠
⎦
Notemos que el estimador de momentos de σ 2 está dado por

2
1 n 1 n 1 n
σ̂2 = ∑ Xi2 − ( ∑ Xi ) = ∑(Xi − X n )2 .
n i=1 n i=1 n i=1
i.i.d.
Ejemplo 6.4. Sean X1 , . . . , Xn ∼ Bin(n0 , p), con p ∈ (0, 1), donde n0 ∈ N es conocido. Estamos
interesados en determinar el estimador de momentos del parámetro p. Notemos que θ = p y s = 1.
Por lo tanto, sólo disponemos de una ecuación. Dado que E(X1 ) = n0 p, entonces
1 n
µ1 = m1 ⇔ n0 p = ∑ Xi ,
n i=1
y el estimador de momentos de p es
1 n Xn
p̂ = ∑ Xi = .
n0 n i=1 n0
En lo que sigue estudiaremos otro método de estimación, conocido como el método de máxima
verosimilitud. Antes, algunas definiciones previas.
81
Definición 6.5 (Función de verosimilitud y de log-verosimilitud). Sea X1 , . . . , Xn una muestra
aleatoria simple proveniente del modelo estadístico M = {Pθ ∶ θ ∈ Θ}. Denotemos por pθ (⋅) a la
función de probabilidad puntual o función de densidad de probabilidad asociada al modelo Pθ ,
dependiendo de si este es discreto o continuo. Se define la función de verosimilitud L ∶ Θ → [0, ∞)
como
n
L(θ) = pθ (x1 , . . . , xn ) = ∏ pθ (xi ),
i=1
y la función de log-verosimilitud l ∶ Θ → R como

n
l(θ) = ln(L(θ)) = ∑ ln(pθ (xi )).
i=1
Algunos autores usan la notación L(θ) = L(θ∣x1 , . . . , xn ) y l(θ) = l(θ∣x1 , . . . , xn ), para explicitar que
la función de verosimilitud es una distribución de probabilidad conjunta pθ (x1 , . . . , xn ), vista como
función del parámetro.
Veamos algunos ejemplos de construcción de funciones de verosimilitud y de log-verosimilitud.
i.i.d.
Ejemplo 6.5. Sean X1 , . . . , Xn ∼ Exp(λ), con λ > 0. Entonces θ = λ, la función de verosimilitud
está dada por
n n
L(λ) = ∏ λ exp(−λxi ) = λn exp (−λ ∑ xi ) ,
i=1 i=1
y la función de log-verosimilitud es
n
l(λ) = ln(L(λ)) = n ln(λ) − λ ∑ xi .
i=1
i.i.d.
Ejemplo 6.6. Sean X1 , . . . , Xn ∼ N (µ, σ 2 ), con µ ∈ R y σ > 0. Entonces θ = (µ, σ), la función de
verosimilitud está dada por
n 1/2 n/2
1 1 xi − µ 2 1 1 n 2
L(µ, σ) = ∏ ( ) exp ( − [ ] )=( ) exp ( − ∑(xi − µ) ),
i=1 2πσ 2 2 σ 2πσ 2 2σ 2 i=1
n 1 n
l(µ, σ) = ln(L(µ, σ)) = − ln (2πσ 2 ) − 2 ∑(xi − µ)2 .
2 2σ i=1
i.i.d.
Ejemplo 6.7. Sean X1 , . . . , Xn ∼ Bin(n0 , p), con p ∈ (0, 1), donde n0 ∈ N es conocido. Entonces
θ = p, la función de verosimilitud está dada por
n n
n0 n0
L(p) = ∏ ( )pxi (1 − p)n0 −xi = [ ∏ ( )]p∑i=1 xi (1 − p)nn0 −∑i=1 xi ,
n n
i=1 xi i=1 xi
n n n
n0
l(p) = ln(L(p)) = ∑ ( ) + (∑ xi ) ln(p) + (nn0 − ∑ xi ) ln(1 − p).
i=1 xi i=1 i=1
82
A continuación se define el método de máxima verosimilitud.
Definición 6.6 (Método de máxima verosimilitud). Sea X1 , . . . , Xn una muestra aleatoria simple
proveniente del modelo estadístico M = {Pθ ∶ θ ∈ Θ}. Se define el estimador de máxima verosimilitud
del parámetro θ como
θ̂ = arg max L(θ∣x1 , . . . , xn )∣

θ∈Θ
(x1 ,...,xn )=(X1 ,...,Xn )
= arg max l(θ∣x1 , . . . , xn )∣

θ∈Θ
(x1 ,...,xn )=(X1 ,...,Xn )
Observación 6.5. Notemos que el método de máxima verosimilitud propone como estimador de θ,
aquel valor del parámetro que hace más plausible los resultados obtenidos x1 , . . . , xn , y para su
cálculo se requieren herramientas de cálculo diferencial.
Veamos algunos ejemplos del método de máxima verosimilitud.
i.i.d.
Ejemplo 6.8. Sean X1 , . . . , Xn ∼ Exp(λ), con λ > 0. Entonces la función de log-verosimilitud está
dada por
n
l(λ) = ln(L(λ)) = n ln(λ) − λ ∑ xi .
i=1
Sus puntos críticos son:
dl(λ) n n
=0 ⇔ − ∑ xi = 0,
dλ λ i=1
n
⇔ λ= n .
∑i=1 xi
Dado que
d2 l(λ) n
2
= − 2 ≤ 0, ∀λ > 0,
dλ λ
se concluye que el estimador de máxima verosimilitud de λ está dado por
̂ n
λ= .
∑ni=1 Xi
i.i.d.
Ejemplo 6.9. Sean X1 , . . . , Xn ∼ N (µ, σ 2 ), con µ ∈ R y σ > 0. Entonces la función de log-
verosimilitud está dada por
n 1 n
l(µ, σ) = ln(L(µ, σ)) = − ln (2πσ 2 ) − 2 ∑(xi − µ)2 .
2 2σ i=1
83
dl(µ, σ) 1 n
=0 ⇔ ∑(xi − µ) = 0,
dµ σ 2 i=1
1 n
⇒ µ= ∑ xi ,
n i=1
dl(µ, σ) n 1 n
=0 ⇔ − + 3 ∑(xi − µ)2 = 0,
dσ σ σ i=1
1 n
⇒ σ2 = 2
∑(xi − µ) .
n i=1
Aplicando condiciones de segundo orden se concluye que el estimador de máxima verosimilitud de

θ = (µ, σ) está dado por
1/2
1 n
θ̂ = (̂ σ ) = (X n , [ ∑(Xi − X n )2 ]
µ, ̂ ).
n i=1
i.i.d.
Ejemplo 6.10. Sean X1 , . . . , Xn ∼ Bin(n0 , p), con p ∈ (0, 1), donde n0 ∈ N es conocido. Entonces
la función de log-verosimilitud está dada por
n n n
n0
l(p) = ln(L(p)) = ∑ ( ) + (∑ xi ) ln(p) + (nn0 − ∑ xi ) ln(1 − p).
i=1 xi i=1 i=1
n n
∑ xi (nn0 − ∑ xi )
dl(p) i=1 i=1
=0 ⇔ − = 0,
dp p 1−p
n n
⇔ (1 − p) ∑ xi = p (nn0 − ∑ xi ) ,
i=1 i=1
n n n
⇔ ∑ xi − p ∑ xi = pnn0 − p ∑ xi ,
i=1 i=1 i=1
1 n
⇒ p= ∑ xi .
nn0 i=1
Aplicando condiciones de segundo orden se concluye que el estimador de máxima verosimilitud de

θ = p está dado por
1 n Xn
p̂ = ∑ Xi = .
nn0 i=1 n0
A continuación vamos a estudiar dos métodos de estimación puntual, conocidos como estimador
MAP y estimador de Bayes, que se basan en un enfoque alternativo de la inferencia estadística
clásica, conocida como inferencia Bayesiana. Antes, algunos conceptos previos.
84
Definición 6.7 (Distribución a priori y distribución a posteriori). Sea X1 , . . . , Xn una MAS prove-
niente de un modelo estadístico M = {Pθ ∶ θ ∈ Θ}, donde pθ es una función de probabilidad puntual
o función de densidad de probabilidad, dependiendo de si el modelo Pθ es discreto o continuo. En
el paradigma Bayesiano se modela la incerteza que se tiene respecto de θ a través de una distri-
bución de probabilidad, π(θ), que denominaremos distribución a priori, la cual puede ser discreta
o continua. Así, se interpreta pθ (x1 , . . . , xn ) = p(x1 , . . . , xn ∣θ) como una distribución conjunta de
(X1 , . . . , Xn ) condicional sobre θ. Luego, se define la distribución a posteriori como
p(x1 , . . . , xn ∣θ)π(θ) L(θ∣x1 , . . . , xn )π(θ)

π(θ∣x1 , . . . , xn ) = = ,
∫Θ p(x1 , . . . , xn ∣θ)π(θ)dθ ∫Θ L(θ∣x1 , . . . , xn )π(θ)dθ
esto es, la distribución de θ condicional en (X1 , . . . , Xn ) = (x1 , . . . , xn ).
Una de las bondades del paradigma Bayesiano es que todas las inferencias respecto del parámetro
de interés se basan en la distribución a posteriori. Ya estamos en condiciones de definir el estimador
MAP y el estimador de Bayes.
Definición 6.8 (Estimador MAP). Se define el estimador máximo a posteriori (MAP) como
θ̂ = arg max π(θ∣x1 , . . . , xn )∣ .

θ∈Θ
(x1 ,...,xn )=(X1 ,...,Xn )
Notemos que el estimador MAP es la contraparte Bayesiana del EMV. Más aún, la distribución a
priori se puede interpretar como un término de penalización de la función de log-verosimilitud. En
efecto, notemos que
ln(π(θ∣x1 , . . . , xn )) = l(θ∣x1 , . . . , xn ) + ln(π(θ)) − ln(p(x1 , . . . , xn )),
donde
p(x1 , . . . , xn ) = ∫ p(x1 , . . . , xn ∣θ)π(θ)dθ.

Θ
Definición 6.9 (Estimador de Bayes). El estimador de Bayes se define como
θ̂ = E(θ∣X1 , . . . , Xn ) = ∫ θπ(θ∣x1 , . . . , xn )dθ∣ ,

Θ (x1 ,...,xn )=(X1 ,...,Xn )
esto es, la esperanza a posteriori de θ dado (X1 , . . . , Xn ).
i.i.d.
Ejemplo 6.11. Sean X1 , . . . , Xn ∼ Ber(p), p ∈ (0, 1). Consideremos la siguiente distribución a
priori para p:
⎧
⎪ Γ(α + β) α−1 β−1
⎪ Γ(α)Γ(β) p (1 − p)
⎪
⎪ si p ∈ (0, 1),
π(p) = ⎨
⎪
⎪
⎪
⎪
⎩ 0 en otro caso,
85
la cual se conoce como distribución Beta(α, β). Entonces
π(p∣x1 , . . . , xn ) ∝ L(p∣x1 , . . . , xn )π(p)

∝ p∑i=1 xi (1 − p)n−∑i=1 xi pα−1 (1 − p)β−1
n n
= p(α+∑i=1 xi )−1 (1 − p)(n+β−∑i=1 xi )−1 .

n n
Luego,
n n
p∣x1 , . . . , xn ∼ Beta (α + ∑ xi , n + β − ∑ xi ) .
i=1 i=1
Calculemos el estimador MAP de p. En efecto, basta con encontrar el valor de p que maximiza la
siguiente expresión:
n n
ln(π(p∣x1 , . . . , xn )) ∝ (α − 1 + ∑ xi ) ln(p) + (n + β − 1 − ∑ xi ) ln(1 − p).
i=1 i=1
Derivando con respecto a p e igualando a cero se obtiene:
α − 1 + ∑ni=1 xi n + β − 1 − ∑ni=1 xi
− = 0,
p 1−p
de donde se concluye que el estimador MAP de p está dado por
α − 1 + ∑ni=1 Xi
p̂map = .
n+α+β−2
Las condición de segundo orden se deja propuesta. Finalmente, notemos que
α+β−2 α−1 n ∑n Xi
p̂map = ( )( )+( ) ( i=1 ) ,
n+α+β−2 α+β−2 n+α+β−2 n
esto es, el estimador MAP de p es una combinación convexa entre la moda a priori y el EMV de
p. Por otro lado, para calcular el estimador de Bayes basta con calcular la esperanza de un modelo
Beta(α∗ , β ∗ ), donde
n
α ∗ = α + ∑ xi ,
i=1
n
β ∗ = n + β − ∑ xi .
i=1
En efecto, notemos que la esperanza está dada por

1 Γ(α∗ + β ∗ ) α∗ −1 β ∗ −1 α∗
p p (1 − p) dp = .
Γ(α∗ )Γ(β ∗ ) α∗ + β ∗
∫
0
Luego, el estimador de Bayes de p está dado por
α + ∑ni=1 Xi
p̂bayes = .
n+α+β
86
6.1.3. Propiedades de los estimadores puntuales
Ahora intertaremos responder a la pregunta de cómo comparar estimadores estudiando propiedades
de estos. En todo lo que sigue supondremos que X1 , X2 , . . . es una MAS proveniente de un modelo
estadístico M = {Pθ ∶ θ ∈ Θ}.
Definición 6.10 (Estimador insesgado). Diremos que θ̂ es un estimador insesgado de θ si Eθ (θ)

̂ = θ,
para todo θ ∈ Θ.
i.i.d.
Ejemplo 6.12. Sean X1 , . . . , Xn ∼ Ber(p). Entonces
1 n
p̂ = ∑ Xi ,
n i=1
es un estimador insesgado de p. En efecto,
1 n 1 n np
p) = Ep ( ∑ Xi ) = ∑ Ep (Xi ) =
Ep (̂ = p.
n i=1 n i=1 n
Observación 6.6. Cuando un estimador no sea insesgado diremos que es sesgado. En este caso su
sesgo se define como
̂ = Eθ (θ)
sesgo(θ) ̂ − θ.
i.i.d.
Ejemplo 6.13. Sean X1 , . . . , Xn ∼ N (µ, σ 2 ). Entonces
1 n
σ̂2 = ∑(Xi − X n )2 ,
n i=1
es un estimador sesgado de σ 2 , pues

(n − 1)σ 2
E (σ̂2 ) = ≠ σ2.
n
Luego, su sesgo es:
σ2
sesgo(σ̂2 ) = − .
n
Definición 6.11 (Estimador asintóticamente insesgado). Diremos que θ̂n es un estimador asintó-
ticamente insesgado de θ si lim Eθ (θ̂n ) = θ, para todo θ ∈ Θ.
n→∞
Ejemplo 6.14. Notemos que

(n − 1)σ 2 n−1
lim E(σ̂2 ) = lim = σ 2 lim = σ2,
n→∞ n→∞ n n→∞ n
entonces σ̂2 es un estimador insesgado de σ 2 cuando X1 , X2 , . . . es una MAS proveniente del modelo
N (µ, σ 2 ).
87
El siguiente concepto es la manera estándar de comparar estimadores.
Definición 6.12 (Error cuadrático medio). El error cuadrático medio de un estimador θ̂ se define
como
̂ = Eθ ([θ̂ − θ]2 ) ,
ECM (θ) θ ∈ Θ.
Proposición 6.5. El error cuadrático medio de un estimador θ̂ se puede escribir como

̂ = Varθ (θ)
ECM (θ) ̂ 2.
̂ + [sesgo(θ)]
Observación 6.7. Al momento de comparar estimadores, optaremos por aquellos que posean un
menor error cuadrático medio.
La observación anterior motiva la siguiente definición.
Definición 6.13 (Eficiencia). Sean θ̂1 y θ̂2 estimadores de θ. Diremos que θ̂1 es más eficiente que
θ̂2 si
ECM (θ̂1 ) ≤ ECM (θ̂2 ),
i.i.d.
Ejemplo 6.15. Sean X1 , . . . , Xn ∼ Ber(p), con p ∈ (0, 1). Consideremos los siguientes estimadores
de p:
1 n
p̂1 = X1 y p̂2 = ∑ Xi .
n i=1
Analicemos la eficiencia de estos estimadores:
p1 ) = Ep (X1 ) = p y
Ep (̂ p1 ) = Varp (X1 ) = p(1 − p),
Varp (̂
p(1 − p)
p2 ) = Ep (X n ) = p y
Ep (̂ p2 ) = Varp (X n ) =
Varp (̂ .
n
p(1−p)
Luego, ECM (̂ p1 ) = p(1 − p) ≥ n = ECM (̂
p2 ) para todo p ∈ (0, 1). Por lo tanto, el estimador p̂2
es más eficiente que p̂1 .
Pθ
Definición 6.14 (Consistencia). Diremos que θ̂n es un estimador consistente de p si θ̂n → θ, cuando
n → ∞, para todo θ ∈ Θ.
La siguiente proposición entrega condiciones suficientes para la consistencia de un estimador.
88
Proposición 6.6. Sea θ̂ un estimador de θ. Si
̂ = θ para todo θ ∈ Θ,
(a) lim Eθ (θ)
n→∞
̂ = 0 para todo θ ∈ Θ,
(b) lim Varθ (θ)
n→∞
entonces θ̂ es un estimador consistente de θ.
i.i.d.
Ejemplo 6.16. Sean X1 , . . . , Xn ∼ P ois(λ), con λ > 0. Se puede demostrar que ̂
λ = X n es el EMV
de λ. Notemos que
λ
Eλ (̂
λ) = λ y Varλ (̂
λ) = → 0,
n
cuando n → ∞. Luego, ̂
λ es un estimador consistente de λ.
Definición 6.15 (Normalidad asintótica). Diremos que θ̂ es un estimador asintóticamente normal

para θ si
√ d
n (θ̂ − θ) → Z ∼ N (0, V ), cuando n → ∞,
para algún V .
i.i.d.
λ = ∑n n Xi .
Ejemplo 6.17. Sean X1 , . . . , Xn ∼ Exp(λ), con λ > 0. Se demuestra que el EMV de λ es ̂
i=1
Analicemos la normalidad asintótica de este estimador. En efecto, por el TCL sabemos que
√ 1 d 1
n (X n − ) → Z1 ∼ N (0, 2 ) .
λ λ
Definamos g(x) = x1 . Entonces g ′ ( λ1 ) = −λ2 ≠ 0. Luego, por el teorema 4.9 se concluye que
√ d
λ − λ) → Z2 ∼ N (0, λ2 ) ,
n (̂
de donde se concluye la normalidad asintótica de ̂

λ.
6.2. Estimación por intervalo

Uno de los problemas de la estimación puntual, es que en la práctica no conocemos la distancia entre
θ0 y la estimación, por lo que no tenemos idea del error que estamos cometiendo. Por esta razón, en
esta sección abordaremos el problema de dar un intervalo que contenga a θ0 . Así, a través del largo
de este intervalo tendremos una noción de la precisión de nuestras estimaciones. Comencemos con
algunas definiciones previas.
89
6.2.1. Construcción de intervalos de confianza: método del pivote
Existen varias formas de construir intervalos de confianza. Nosotros estudiaremos un método cono-
cido como el método del pivote.
Definición 6.16 (Pivote). Sea X1 , . . . , Xn una MAS proveniente del modelo estadístico M = {Pθ ∶
θ ∈ Θ}. Diremos que T = T (X1 , . . . , Xn , θ) es un pivote si satisface las siguientes condiciones:
(a) T (X1 , . . . , Xn , ●) es una función estrictamente monótona.
(b) La función de distribución FT es conocida.
Observación 6.8. Notemos que de la propiedad (b), de la definición de pivote, se deduce que FT no
depende de θ para todo θ ∈ Θ.
Definición 6.17 (Intervalo de confianza). Sea α ∈ (0, 1). Diremos que

IC1−α (θ) = [a(X1 , . . . , Xn ), b(X1 , . . . , Xn )],
es un intervalo con un 100(1 − α) % de confianza o un intervalo de confianza al 100(1 − α) %, si
Pθ (a(X1 , . . . , Xn ) ≤ θ ≤ b(X1 , . . . , Xn )) ≥ 1 − α,
Observación 6.9.
1. Notemos que la probabilidad anterior no es sobre θ, pues bajo el paradigma clásico esta
cantidad es determinista. Así, la probabilidad actúa sobre los extremos del intervalo, que son
las cantidades aleatorias.
2. Cuando el modelo estadístico subyacente sea continuo, se impone que
Pθ (a(X1 , . . . , Xn ) ≤ θ ≤ b(X1 , . . . , Xn )) = 1 − α,
para todo θ ∈ Θ, en la definición de intervalo de confianza.
En lo que sigue vamos a ver una metodología conocida como método del pivote para la construcción
de intervalos de confianza.
Definición 6.18 (Método del pivote). Sea α ∈ (0, 1) y X1 , . . . , Xn una MAS proveniente del modelo
estadístico M = {Pθ ∶ θ ∈ Θ}. Supongamos que T (X1 , . . . , Xn , θ) es un pivote y sean t α2 , t1− α2 ∈ R
tales que
α α
Pθ (T < t α2 ) ≤ y Pθ (T > t1− α2 ) ≤ ,
2 2
para todo θ ∈ Θ. Así,
1 − α ≤ Pθ (t α2 ≤ T ≤ t1− α2 ) = Pθ (a(X1 , . . . , Xn ) ≤ θ ≤ b(X1 , . . . , Xn )), ∀θ ∈ Θ,
donde la última igualdad se obtiene de la propiedad de monotonía de T (X1 , . . . , Xn , ●).
90
i.i.d.
Ejemplo 6.18. Sean X1 , . . . , Xn ∼ N (µ, σ02 ), con µ ∈ R y σ0 > 0 conocido. Queremos aplicar el
método del pivote para encontrar un intervalo de confianza al 100(1 − α) % para µ, con α ∈ (0, 1).
Definamos
√ Xn − µ
T (X1 , . . . , Xn , µ) = n( ).
σ0
Veamos que T es un pivote. En efecto, T (X1 , . . . , Xn , ●) es una función estrictamente decreciente y
T ∼ N (0, 1), es decir, FT (x) = Φ(x). Luego, podemos encontrar t α2 , t1− α2 ∈ R tales que
α α
Φ (t α2 ) = y Φ (t1− α2 ) = 1 − ,
2 2
pues el modelo estadístico subyacente es continuo. Entonces
√ Xn − µ σ0 σ0
1 − α = Pµ (t α2 ≤ n( ) ≤ t1− α2 ) = Pµ (X n − t1− α2 √ ≤ µ ≤ X n − t α2 √ ) ,
σ0 n n
σ0 σ0
= Pµ (X n − t1− α2 √ ≤ µ ≤ X n + t1− α2 √ ) ,
n n
pues t1− α2 = −t α2 por la simetría con respecto a cero de la densidad de la N (0, 1). Por lo tanto,
σ0 σ0
IC1−α (µ) = [X n − t1− α2 √ , X n + t1− α2 √ ] .
n n
i.i.d.
Ejemplo 6.19. Sean X1 , . . . , Xn ∼ U (0, θ), con θ > 0, y α. Comencemos probando que
max{X1 , . . . , Xn }
T (X1 , . . . , Xn , θ) = ,
θ
es un pivote. En efecto, T (X1 , . . . , Xn , ●) es una función estrictamente decreciente. Calculemos la
función de distribución de T :
⎧
⎪ 0 si t < 0,
⎪
⎪ n n
FT (t) = Pθ (T ≤ t) = [Pθ (X1 ≤ θt)] = ⎨ t si 0 ≤ t < 1,
⎪
⎪
⎩ 1
⎪ si t ≥ 1,
la cual no depende de θ. Así, T es un pivote y podemos encontrar t α2 , t1− α2 ∈ R tales que
α α 1/n
FT (t α2 ) = ⇔ t α2 = ( ) ,
2 2
α α 1/n
FT (t1− α2 ) = 1 − ⇔ t1− α2 = (1 − ) .
2 2
Entonces
max{X1 , . . . , Xn } ⎛ max{X1 , . . . , Xn } max{X1 , . . . , Xn } ⎞
1 − α = Pθ (t α2 ≤ ≤ t1− α2 ) = Pθ ≤θ≤ .
θ ⎝ t1− α2 t α2 ⎠
Finalmente,
⎡ ⎤
⎢ max{X1 , . . . , Xn } max{X1 , . . . , Xn } ⎥
⎢
IC1−α (θ) = ⎢ , ⎥.
t1− α2 t α2 ⎥
⎢ ⎥
⎣ ⎦
91
i.i.d.
Ejemplo 6.20. Sean X1 , . . . , Xn ∼ N (µ, σ 2 ), con µ ∈ R y σ0 > 0. Queremos aplicar el método del
pivote para encontrar un intervalo de confianza al 100(1 − α) % para µ, con α ∈ (0, 1). Notemos que
en este caso la varianza es desconocida. Definamos
√ Xn − µ
T (X1 , . . . , Xn , µ) = n( ).
Sn
Veamos que T es un pivote. En efecto, T (X1 , . . . , Xn , ●) es una función estrictamente decreciente y

T ∼ tn−1 . Luego, podemos encontrar tn−1; α2 , tn−1;1− α2 ∈ R tales que
α α
FT (tn−1; α2 ) = y FT (tn−1;1− α2 ) = 1 − ,
2 2
√ Xn − µ Sn Sn
1 − α = Pµ (tn−1; α2 ≤ n( ) ≤ tn−1;1− α2 ) = Pµ (X n − tn−1;1− α2 √ ≤ µ ≤ X n − tn−1; α2 √ ) ,
Sn n n
Sn Sn
= Pµ (X n − tn−1;1− α2 √ ≤ µ ≤ X n + tn−1;1− α2 √ ) ,
n n
pues tn−1;1− α2 = −tn−1; α2 por la simetría con respecto a cero de la densidad del modelo t de Student.
Por lo tanto,
Sn Sn
IC1−α (µ) = [X n − tn−1;1− α2 √ , X n + tn−1;1− α2 √ ] .
n n
i.i.d.
Ejemplo 6.21. Sean X1 , . . . , Xn ∼ Ber(p), con p ∈ (0, 1). Queremos aplicar el método del pivote
para encontrar un intervalo de confianza al 100(1 − α) % para p, con α ∈ (0, 1). Definamos
p̂n − p
T (X1 , . . . , Xn , p) = √ ,
̂n (1−̂
p pn )
n
donde p̂n = n1 ∑ni=1 Xi . Veamos que T es un pivote. En efecto, T (X1 , . . . , Xn , ●) es una función
estrictamente decreciente, sin embargo, no es evidente qué distribución sigue T . En este punto, lo
usual es suponer que el tamaño muestral es lo suficientemente grande para usar argumentos de
teoría asintótica y concluir que
aprox.
T ∼ N (0, 1).
Luego, podemos encontrar t α2 , t1− α2 ∈ R tales que

α α
Φ (t α2 ) = y Φ (t1− α2 ) = 1 − ,
2 2
√ √
⎛ p̂n − p ⎞ ⎛ p̂n (1 − p̂n ) p̂n (1 − p̂n ) ⎞
1 − α = Pp ⎜t α2 ≤ √ ≤ t1− α2 ⎟ = Pp p̂n − t1− α2 ≤ p ≤ p̂n − t α2 ,
⎝ ̂n (1−̂
p pn ) ⎠ ⎝ n n ⎠
n
√ √
⎛ p̂n (1 − p̂n ) p̂n (1 − p̂n ) ⎞
= Pp p̂n − t1− α2 ≤ p ≤ p̂n + t1− α2 ,
⎝ n n ⎠
92
pues t1− α2 = −t α2 por la simetría con respecto a cero de la densidad del modelo N (0, 1). Por lo tanto,
un intervalo de confianza aproximado para p está dado por
⎡ √ √ ⎤
⎢
⎢ p̂n (1 − p̂n ) p̂n (1 − p̂n ) ⎥⎥
IC1−α (p) = ⎢p̂n − t1− α2 , p̂n + t1− α2 ⎥.
⎢ n n ⎥
⎣ ⎦
Observación 6.10. La demostración formal que

p̂n − p d
√ → Z ∼ N (0, 1),
̂n (1−̂
p pn )
n
cuando n → ∞, sigue (omitiendo algunos detalles) del teorema central del límite (ver teorema 4.7)
y del teorema de Slutsky (ver teorema 4.8).
i.i.d.
Ejemplo 6.22. Sean X1 , . . . , Xn ∼ N (µ, σ 2 ), con µ ∈ R y σ > 0. Queremos aplicar el método del
pivote para encontrar un intervalo de confianza al 100(1 − α) % para σ 2 , con α ∈ (0, 1). Definamos
(n − 1)Sn2
T (X1 , . . . , Xn , σ 2 ) = ,
σ2
donde Sn2 = n−1 1

∑ni=1 (Xi − X n )2 . Veamos que T es un pivote. En efecto, T (X1 , . . . , Xn , ●) es una
función estrictamente decreciente y T ∼ χ2n−1 por la proposición 6.3. Luego, podemos encontrar
tn−1; α2 , tn−1;1− α2 ∈ R tales que
α α
FT (tn−1; α2 ) = y FT (tn−1;1− α2 ) = 1 − ,
2 2
(n − 1)Sn2 ⎛ (n − 1)Sn2 2 (n − 1)Sn2 ⎞

1 − α = Pσ2 (tn−1; α2 ≤ ≤ t n−1;1− α ) = Pp ≤ σ ≤ .
σ2 2 ⎝ tn−1;1− α2 tn−1; α2 ⎠
Por lo tanto, un intervalo de confianza aproximado para σ 2 está dado por

⎡ ⎤
⎢ (n − 1)Sn2 (n − 1)Sn2 ⎥
IC1−α (σ 2 ) = ⎢⎢ , ⎥.
⎢ tn−1;1− α2 tn−1; α2 ⎥⎥
⎣ ⎦
i.i.d. i.i.d.
Ejemplo 6.23. Sean X1 , . . . , Xn ∼ N (µ1 , σ 2 ) e Y1 , . . . , Ym ∼ N (µ2 , σ 2 ), con µ1 , µ2 ∈ R y σ > 0.
Queremos aplicar el método del pivote para encontrar un intervalo de confianza al 100(1−α) % para
µ1 − µ2 , con α ∈ (0, 1). Definamos
X n − Y m − (µ1 − µ2 )
T (X1 , . . . , Xn , Y1 , . . . , Ym , µ1 − µ2 ) = √ √ ,
1 1 (n−1)Sx,n
2 +(m−1)S 2
y,m
n +m n+m−2
donde X n = n1 ∑ni=1 Xi , Y m = m
1
∑m 2 1 n 2 2 1 m
j=1 Yj , Sx,n = n−1 ∑i=1 (Xi − X n ) y Sy,m = m−1 ∑j=1 (Yj − Y m ) .
2
Veamos que T es un pivote. En efecto, T (X1 , . . . , Xn , Y1 , . . . , Ym , ●) es una función estrictamente
93
decreciente y se puede demostrar que T ∼ tn+m−2 . Luego, podemos encontrar tn+m−2; α2 , tn+m−2;1− α2 ∈
R tales que
α α
FT (tn+m−2; α2 ) = y FT (tn+m−2;1− α2 ) = 1 − ,
2 2
⎛ ⎞
⎜ X n − Y m − (µ1 − µ2 )
1 − α = Pµ1 −µ2 ⎜tn+m−2; 2 ≤ √
α √ ≤ tn+m−2;1− 2 ⎟
α
⎟,
1 1 (n−1)Sx,n
2 +(m−1)S 2
y,m
⎝ n + m n+m−2 ⎠
√ √
2 + (m − 1)S 2
(n − 1)Sx,n
⎛ 1 1 y,m
= Pµ1 −µ2 X n − Y m − tn+m−2;1− α2 +
⎝ n m n+m−2
≤ µ 1 − µ2
√ √
2 + (m − 1)S 2
(n − 1)Sx,n
1 1 y,m
≤ X n − Y m − tn+m−2; α2 + ),
n m n+m−2
√ √
2 + (m − 1)S 2
(n − 1)Sx,n
⎛ 1 1 y,m
= Pµ1 −µ2 X n − Y m − tn+m−2;1− α2 +
⎝ n m n + m − 2
≤ µ 1 − µ2
√ √
2 + (m − 1)S 2
(n − 1)Sx,n
1 1 y,m
≤ X n − Y m + tn+m−2;1− α2 + ),
n m n+m−2
pues tn+m−2;1− α2 = −tn+m−2; α2 por la simetría con respecto a cero de la densidad del modelo t de
Student. Por lo tanto, un intervalo de confianza para µ1 − µ2 está dado por
⎡ √ √
2 + (m − 1)S 2
(n − 1)Sx,n
⎢ 1 1 y,m
IC1−α (µ1 − µ2 ) = ⎢⎢X n − Y m − tn+m−2;1− α2 +
⎢ n m n+m−2
⎣
√ √
2 + (m − 1)S 2 ⎤
(n − 1)Sx,n
1 1 y,m ⎥
⎥.
, X n − Y m + tn+m−2;1− α2 + ⎥
n m n+m−2 ⎥
⎦
6.2.2. Interpretación de los intervalos de confianza

Debido a que un estimador por intervalo es un intervalo de extremos aleatorios, en la práctica puede
ocurrir que el intervalo resultante no contenga al parámetro de interés. Esto fenómeno se conoce
como interpretación frecuentista de los estimadores por intervalo. Así, por ejemplo, un intervalo con
un 95 % de confianza se interpreta de la siguiente manera. Suponga que se dispone de 100 muestras
distintas y que para cada muestra se obtiene un intervalo de confianza. Entonces en 95 de ellos el
parámetro de interés está contenido en el intervalo respectivo, pero en 5 intervalos ocurre la situa-
ción opuesta.
De la interpretación anterior se deduce la posibilidad de mejorar un intervalo de confianza aumen-

tando el nivel de confianza (1 − α), esto es, disminuyendo el valor de α. Sin embargo, esto no es del
todo satisfactorio como veremos a continuación. En efecto, consideremos el intervalo de confianza
94
del ejemplo 6.18, esto es, un intervalo de confianza para la media de un modelo normal con varianza
conocida:
σ0 σ0
IC1−α (µ) = [X n − t1− α2 √ , X n + t1− α2 √ ] .
n n
Recordemos que
α
Φ (t1− α2 ) = 1 − .
2
Luego, si disminuye el valor de α, aumenta el valor de t1− α2 , y por tanto, aumenta el largo del
intervalo de confianza, es decir, disminuye la precisión del intervalo de confianza.
Lo que si mejora la precisión de los intervalos de confianza es aumentar el tamaño muestral. A modo
de ejemplo, consideremos el intervalo de confianza para la media de un modelo normal con varianza
conocida. El largo de este intervalo está dado por
σ0
L = 2t1− α2 √ → 0,
n
cuando n → ∞. Así, mientras mayor sea el tamaño de la muestra, más informativo será el estimador
por intervalo del parámetro de interés (en el caso anterior, µ).
En la práctica, dado un tamaño muestral fijo, existe un trade-off entre confianza y precisión en los
estimadores por intervalo, similar al existente entre sesgo y varianza para los estimadores puntuales.
Una aplicación interesante de los intervalos de confianza es el cálculo del tamaño muestra para
lograr un determinado nivel de confianza. Siguiendo con el intervalo de confianza del ejemplo 6.18,
se denomina error del intervalo a la expresión
σ0
E = t1− α2 ⋅ √ .
n
Luego, para un error E dado, es posible obtener el tamaño de muestra a través de la fórmula
t1− α2 ⋅ σ0 2
n=( ) .
E
95

Apunte - Probabilidades y Estadistica - 201820

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Apunte - Probabilidades y Estadistica - 201820

Cargado por

Copyright:

Formatos disponibles

Universidad de los Andes

Facultad de Ingeniería y Ciencias Aplicadas

Apuntes del Curso

1. Fundamentos de la Teoría de Probabilidades 4

4. Introducción a la Teoría Asintótica 68

5. Fundamentos de la Inferencia Estadística 74

1.1. Definiciones previas

Ejemplo 1.1. E: “Lanzar un dado y observar el número obtenido en la cara superior”.

Definición 1.3 (Evento). Sea E un experimento aleatorio y Ω su espacio muestral. Un evento1

1.2. Definición axiomática de Kolmogorov

Definición 1.4 (Colección de eventos). Sea E un experimento aleatorio y Ω su espacio muestral.

(c) Si (An )n∈N ⊆ F, entonces ⋃ An ∈ F.

Ahora ya estamos en condiciones de dar la definición de probabilidad (también denominada función

Definición 1.5 (Medida de probabilidad). Sea E un experimento aleatorio, Ω su espacio muestral

donde la unión con punto denota una unión disjunta.

Cuando se dispongamos de un experimento aleatorio E, su espacio muestral Ω, una colección de

Problema 1.1 (Unicidad de medidas de probabilidad). La definición axiomática de Kolmogorov

Propiedades 1.1. Sea (Ω, F, P) un espacio de probabilidad. Entonces:

Una forma de construir un modelo de probabilidad es tomar números

Observación 1.3. La proposición 1.2 se puede generalizar cuando Ω = {ω1 , ω2 , . . .} es un conjunto

1.3. Concepciones probabilistas

Num. de autos Num. de observaciones Frecuencia relativa

Consideremos los eventos:

E1 = “Más de dos vehículos esperan su turno para girar”,

Usando las frecuencias relativas, es posible aproximar las siguientes probabilidades:

P(E1 ) ≈ 0,23 + 0,05 + 0,03 + 0,02 = 0,33.

1.3.2. Probabilidad clásica

Supongamos que Ω = {w1 , . . . , wn } con n ∈ N. Notemos que

P({wi }) = P({wj }), ∀i ≠ j.

Del supuesto de equiprobabilidad y (1.2) se desprende que

donde ∣A∣ se llama cardinal de A y denota el número de elementos de A.

Definición 1.6 (Principio de la multiplicación). Consideremos un procedimiento secuencial de la

A la hora de desarrollar estrategias de conteo hay dos aspectos fundamentales a considerar:

Si importa o no el orden en el cual se fueron escogiendo los distintos objetos.

En lo que sigue se estudian algunos conceptos elementales de combinatoria:

El coeficiente combinatorial puede ser generalizado de la siguiente forma.

Un año tiene 365 días.

Por otra parte

1.4. Probabilidad condicional e independencia

Definición 1.8 (Probabilidad condicional). Sea (Ω, F, P) un espacio de probabilidad y A, B ∈ F

Observación 1.4. La probabilidad condicional P(A∣B) se interpreta como la probabilidad de A cuan-

1. P(Ac ∣B) = 1 − P(A∣B).

2. P(A1 ∪ A2 ∣B) = P(A1 ∣B) + P(A2 ∣B) − P(A1 ∩ A2 ∣B).

A modo de entender el concepto de probabilidad condicional, veamos un ejemplo.

Definamos los siguientes eventos:

E1 : “Ruta 1 está abierta”,

Supongamos que se conocen las siguientes probabilidades:

P(E1 ) = 0,75, P(E2 ) = 0,5 y P(E1 ∩ E2 ) = 0,4.

En lo que sigue vamos a ver algunas propiedades fundamentales de la probabilidad condicional.

Propiedades 1.5. Sea (Ω, F, P) un espacio de probabilidad.

(a) Sean A1 , . . . , An ∈ F. Entonces,

P(A1 ∩ . . . ∩ An ) = P(A1 ) P(A2 ∣A1 ) P(A3 ∣A1 ∩ A2 ) . . . P(An ∣A1 ∩ . . . ∩ An−1 ).

(b) Sea {Ai }ni=1 ⊆ F una partición de Ω. Entonces

(b.1) Fórmula de probabilidades totales:

(b.2) Teorema de Bayes:

El teorema de Bayes es muy importante en inferencia estadística. De hecho, ha generado un para-

Ejercicio 1.2 (Problemas resueltos de probabilidad condicional).

E1 ∶ “El as de trebol está en algún montón”,

Notemos que los eventos satisfacen las inclusiones E4 ⊆ E3 ⊆ E2 ⊆ E1 , y que el evento de

B ∶ “El afiliado pertenece al grupo de bajo riesgo”,

Por enunciado sabemos que

P(B) = 0,2, P(M ) = 0,5, P(A) = 0,3,