Está en la página 1de 174

(r1 , . . .

, rn ), donde r1 + · · · + rn = r y ri es la cantidad de partı́culas en la i-ésima celda,


1 ≤ i ≤ n. La cantidad de tales n-uplas se puede calcular del siguiente modo: a cada
n- upla (r1 , r2 , . . . , rn ) la identificamos con una sucesión de unos y ceros s1 , . . . , sr+n−1
con unos en las posiciones numeradas r1 + 1, r1 + r2 + 2, . . . , r1 + r2 + · · · + rn−1 + n − 1
(hay n − 1 de ellas) y ceros en las restantes posiciones. La cantidad de tales sucesiones
es igual al número de combinaciones de r + n − 1cosas tomadas de a n − 1 por vez. La
probabilidad de un evento elemental es 1/ r+n−1 n−1 .

3. Estadı́stica de Fermi-Dirac. En este caso r < n y cada


 celda contiene a lo sumo una
partı́cula. La cantidad de eventos elementales es nr . La probabilidad de un evento
elemental es 1/ nr .


Ejemplo 4.1. Se distribuyen 5 partı́culas en 10 celdas numeradas 1, 2, . . . , 10. Calcular, para


cada una de las tres estadı́sticas, la probabilidad de que las celdas 8, 9 y 10 no tengan partı́culas
y que la celdas 6 y 7 tengan exactamente una partı́cula cada una.

1. Maxwell-Boltzmann. Las bolas son distinguibles y todas las configuraciones diferentes


son equiprobables. La probabilidad de cada configuración (x1 , . . . , x5 ) ∈ {1, . . . , 10}5 ,
donde xi indica la celda en que se encuentra la partı́cula i, es 1/105 .
¿De qué forma podemos obtener las configuraciones deseadas? Primero elegimos (en
orden) las 2 bolas que van a ocupar la celdas 6 y 7 (hay 5 × 4 formas diferentes de
hacerlo) y luego elegimos entre las celdas 1, 2, 3, 4, 5 las ubicaciones de las 3 bolas
restantes (hay 53 formas diferentes de hacerlo). Por lo tanto, su cantidad es 5 × 4 × 53
y la probabilidad de observarlas es

5 × 4 × 53 1 1
p= = = = 0.025.
105 5 × 23 40

2. Bose-Einstein. Las partı́culas son indistinguibles y todas las configuraciones distintas


son equiprobables. La probabilidad de cada configuración (r1 , . . . , r10), donde r1 + · · · +
r10 = 5 y ri es la cantidad de partı́culas en la i-ésima celda, es 1/ 149 .
Las configuraciones deseadas son de la forma (r1 , . . . , r5 , 1, 1, 0, 0, 0), donde r1 +· · ·+r5 =
3, su cantidad es igual a la cantidad de configuraciones  distintas que pueden formarse
usando 3 ceros y 4 unos. Por lo tanto, su cantidad es 73 y la probabilidad de observarlas
es   −1
7 14 35
p= = ≈ 0.0174....
3 9 2002

3. Fermi-Dirac. Las partı́culas son indistinguibles, ninguna celda puede contener más de
una partı́cula y todas las configuraciones distintas son equiprobables. La probabilidad
de cada configuración es 1/ 10

5 .
Las configuraciones deseadas se obtienen eligiendo tres de las las cinco celdas 1, 2, 3,
4, 5 para ubicar
 las tres partı́culas que no están en las celdas 6 y 7. Por lo tanto, su
cantidad es 53 y la probabilidad de observarlas es
  −1
5 10 10
= ≈ 0.0396....
3 5 252

30
encontrar n̂mv consideramos la proporción

pk (n) (n − n1 )(n − r)
= >1
pk (n − 1) (n − n1 − r + k)n
⇐⇒ (n − n1 )(n − r) > (n − n1 − r + k)n
⇐⇒ n2 − nn1 − nr + n1 r > n2 − nn1 − nr + nk
n1 r
⇐⇒ n< .
k
Esto significa que cuando n crece la sucesión pk (n) primero crece y después decrece; alcanza
su máximo cuando n es el mayor entero menor que nk1 r , ası́ que n̂mv es aproximadamente
igual a nk1 r . En nuestro ejemplo particular el estimador de máxima verosimilitud del número
de peces en el lago es n̂mv = 10000.
El verdadero valor de n puede ser mayor o menor, y podemos preguntar por los lı́mites
entre los que resulta razonable esperar que se encuentre n. Para esto testeamos la hipótesis
que n sea menos que 8500. Sustituimos en (22) n = 8500, n1 = r = 1000, y calculamos la
probabilidad que la segunda muestra contenga 100 o menos peces rojos. Esta probabilidad es
p = p0 + p1 + · · · + p100 . Usando una computadora encontramos que p ≈ 0.04. Similarmente,
si n = 12.000, la probabilidad que la segunda muestra contenga 100 o más peces rojos esta
cerca de 0.03. Esos resultados justificarı́an la apuesta de que el verdadero número n de peces
se encuentra en algún lugar entre 8500 y 12.000.

Ejercicios adicionales

10. Un estudiante de ecologı́a va a una laguna y captura 60 escarabajos de agua, marca cada
uno con un punto de pintura y los deja en libertad. A los pocos dı́as vuelve y captura otra
muestra de 50, encontrando 12 escarabajos marcados. ¿Cuál serı́a su mejor apuesta sobre el
tamaño de la población de escarabajos de agua en la laguna?

4. Mecánica Estadı́stica
El espacio se divide en una gran cantidad, n, de pequeñas regiones llamadas celdas. Se
considera un sistema mecánico compuesto por r partı́culas que se distribuyen al azar entre
las n celdas. ¿Cuál es la distribución de las partı́culas en las celdas? La respuesta depende de
lo que se considere un evento elemental.

1. Estadı́stica de Maxwell-Boltzmann. Suponemos que todas las partı́culas son distintas y


que todas las ubicaciones de las partı́culas son igualmente posibles. Un evento elemental
está determinado por la r-upla (x1 , x2 , . . . , xr ), donde xi es el número de la celda en la
que cayó la partı́cula i. Puesto que cada xi puede tomar n valores distintos, el número
de tales r-uplas es nr . La probabilidad de un evento elemental es 1/nr .

2. Estadı́stica de Bose-Einstein. Las partı́culas son indistinguibles. De nuevo, todas las


ubicaciones son igualmente posibles. Un evento elemental está determinado por la n-upla

29
Ejemplo 3.15 (Experimentos de captura y recaptura). Se capturan 1000 peces en un lago,
se marcan con manchas rojas y se los deja en libertad. Después de un tiempo se hace una
nueva captura de 1000 peces, y se encuentra que 100 tienen manchas rojas. ¿Qué conclusiones
pueden hacerse sobre la cantidad de peces en el lago? Espacios de Probabilidad
Suponemos que las dos capturas pueden considerarse como muestras aleatorias de la
población total de peces en el lago. También vamos a suponer que la cantidad de peces Elementos de Análisis Combinatorio
en el lago no cambió entre las dos capturas.
Generalizamos el problema admitiendo tamaños muestrales arbitrarios. Sean
(Borradores, Curso 23)
n = el número (desconocido) de peces en el lago.
Sebastian Grynberg
n1 = el número de peces en la primera captura. Estos peces juegan el rol de las bolas
rojas. 11-13 de marzo 2013

r = el número de peces en la segunda captura.

k = el número de peces rojos en la segunda captura.

pk (n) = la probabilidad de que la segunda captura contenga exactamente k peces rojos.

Con este planteo la probabilidad pk (n) se obtiene poniendo n2 = n − n1 en la fórmula (21):


   −1
n1 n − n1 n
pk (n) = . (22)
k r−k r

En la práctica n1 , r, y k pueden observarse, pero n es desconocido.


Notar que n es un número fijo que no depende del azar. Resultarı́a insensato preguntar
por la probabilidad que n sea mayor que, digamos, 6000.
Sabemos que fueron capturados n1 + r − k peces diferentes, y por lo tanto n ≥ n1 + r − k.
Esto es todo lo que podemos decir con absoluta certeza. En nuestro ejemplo tenemos n1 =
r = 1000 y k = 100, y podrı́a suponerse que el lago contiene solamente 1900 peces. Sin
embargo, partiendo de esa hipótesis, llegamos a la conclusión de que ha ocurrido un evento
de probabilidad fantásticamente pequeña. En efecto, si se supone que hay un total de 1900
peces, la fórmula (22) muestra que la probabilidad de que las dos muestras de tamaño 1000
agoten toda la población es ,

1000 900 1900 −1 (1000!)2


   
=
100 900 1000 100!1900!

La fórmula de Stirling muestra que esta probabilidad es del orden de magnitud de 10−430 , y en Andrei Nikolaevich Kolmogorov (1903-1987)
esta situación el sentido común indica rechazar la hipótesis como irrazonable. Un razonamiento Estableció los fundamentos de la Teorı́a de Probabilidad en 1933
similar nos induce a rechazar la hipótesis de que n es muy grande, digamos, un millón.
Las consideraciones anteriores nos conducen a buscar el valor de n que maximice la prob-
abilidad pk (n), puesto que para ese n nuestra observación tendrı́a la mayor probabilidad de “se aprende a pensar abstractamente
ocurrir. Para cualquier conjunto de observaciones n1 , r, k, el valor de n que maximiza la prob- mediante el pensamiento abstracto.”
abilidad pk (n) se denota por n̂mv y se llama el estimador de máxima verosimilitud de n. Para (G.W.F. Hegel)

28 1
Índice puesto que para ese valor de n1 nuestra observación tendrı́a la mayor probabilidad de ocur-
p(n1 )
rir. Para encontrar ese valor consideramos el cociente p(n1 −1)
. Simplificando los factoriales,
1. Teorı́a general 3 obtenemos
1.1. Los axiomas de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 p(n1 ) n1 (93 − n1 )
1.2. Relación con los datos experimentales . . . . . . . . . . . . . . . . . . . . . . 5 = >1
p(n1 − 1) (n1 − 2)(101 − n1 )
1.3. Corolarios inmediatos de los axiomas . . . . . . . . . . . . . . . . . . . . . . . 7
⇐⇒ n1 (93 − n1 ) > (n1 − 2)(101 − n1 )
1.4. Sobre el axioma de continuidad . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5. σ-álgebras y teorema de extensión . . . . . . . . . . . . . . . . . . . . . . . . 10 ⇐⇒ n1 < 20.2 ⇐⇒ n1 ≤ 20.

Esto significa que cuando n1 crece la sucesión p(n1 ) primero crece y después decrece; alcanza
2. Simulación de experimentos aleatorios con espacio muestral finito 11
su máximo cuando n1 = 20. Suponiendo que n1 = 20, la probabilidad de que en una muestra
2.1. Números aleatorios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
de 10 piezas extraı́das de un lote de 100 se observen 2 defectuosas es:
2.2. Simulación de experimentos aleatorios . . . . . . . . . . . . . . . . . . . . . . 12
2.3. Estimación de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
   −1
80 20 100
p(20) = ≈ 0.318.
8 2 10
3. Elementos de Análisis Combinatorio 17
3.1. Regla del Producto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 Aunque el verdadero valor de n1 puede ser mayor o menor que 20, si se supone que n1 = 20 se
3.2. Muestras ordenadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 obtiene un resultado consistente con el sentido común que indicarı́a que los eventos observables
3.3. Subpoblaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 deben tener “alta probabilidad”.
3.4. Particiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.5. Distribución Hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
0.35
3.5.1. Control de calidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.5.2. Estimación por captura y recaptura. . . . . . . . . . . . . . . . . . . . 27
0.3
4. Mecánica Estadı́stica 29
4.1. Algunas distribuciones relacionadas con la estadı́stica de Maxwell-Boltzmann 31 0.25
4.1.1. Cantidad de partı́culas por celda: la distribución binomial . . . . . . . 31
4.1.2. Forma lı́mite: la distribución de Poisson . . . . . . . . . . . . . . . . . 32 0.2
4.2. Algunas distribuciones relacionadas con la estadı́stica de Bose-Einstein . . . . 33
4.2.1. Cantidad de partı́culas por celda . . . . . . . . . . . . . . . . . . . . . 33 0.15
4.2.2. Forma lı́mite: la distribución de Geométrica . . . . . . . . . . . . . . . 34
4.3. Tiempos de espera . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 0.1

5. Bibliografı́a consultada 36
0.05

0
0 20 40 60 80 100

Figura 2: Gráfico de función p(n1 ). Observar que arg máx{p(n1 ) : 2 ≤ n1 ≤ 92} = 20.

3.5.2. Estimación por captura y recaptura.


Para estimar la cantidad n de peces en un lago se puede realizar el siguiente procedimiento.
En el primer paso se capturan n1 peces, que luego de marcarlos se los deja en libertad. En el
segundo paso se capturan r peces y se determina la cantidad k de peces marcados. La fórmula
(21) permite hacer inferencias sobre la cantidad desconocida n.

2 27
1. Teorı́a general
1
1.1. Los axiomas de Kolmogorov
0.9
Sean Ω un conjunto no vacı́o cuyos elementos ω serán llamados eventos elementales y A
0.8
una familia de subconjuntos de Ω que serán llamados eventos.
0.7
Definición 1.1. A es un álgebra de eventos si contiene a Ω y es cerrada por complementos
0.6 y uniones finitas1
0.5
(i) Ω ∈ A,
0.4
(ii) A ∈ A implica Ac ∈ A,
0.3
(iii) A, B ∈ A implica A ∪ B ∈ A.
0.2
Definición 1.2. Una medida de probabilidad P sobre (Ω, A) es una función P : A → R que
0.1
satisface los axiomas siguientes:
0
0 10 20 30 40 50 60 I. Para cada A ∈ A, P(A) ≥ 0,

II. P(Ω) = 1.

III. Aditividad. Si los eventos A y B no tienen elementos en común, entonces


Figura 1: Gráfico de función p(k).
P(A ∪ B) = P(A) + P(B).
¿Cuál es la máxima probabilidad de aceptar una partida de 100 que contenga más de
20 piezas defectuosas? Debido a que la función p(k) es decreciente, dicha probabilidad es IV. Axioma de continuidad. Para cada sucesión decreciente de eventos
p(20) ≈ 0.3630.
A1 ⊃ A2 ⊃ · · · ⊃ An ⊃ · · · , (1)
Ejemplo 3.14. Una planta de ensamblaje recibe un lote de n = 100 piezas de precisión, de
las cuales una cantidad desconocida n1 son defectuosas. Para controlar el lote se elige una tal que

muestra (sin reposición) de r = 10 piezas. Examinadas estas, resultan k = 2 defectuosas. \
An = ∅
¿Qué se puede decir sobre la cantidad de piezas defectuosas en el lote?
n=1
Sabemos que de 10 piezas examinadas 2 son defectuosas y 8 no lo son. Por lo tanto,
2 ≤ n1 ≤ 92. Esto es todo lo que podemos decir con absoluta certeza. Podrı́a suponerse que vale que
el lote contiene 92 piezas defectuosas. Partiendo de esa hipótesis, llegamos a la conclusión de lı́m P(An ) = 0.
n→∞
que ha ocurrido un evento de probabilidad
Definición 1.3. Un espacio de probabilidad es una terna (Ω, A, P) formada por un conjunto
8 92 100 −1 no vacı́o Ω, llamado el espacio muestral ; un álgebra A de subconjuntos de Ω; llamados los
   
= O(10−10 ). eventos aleatorios; y una medida de probabilidad P definida sobre los eventos aleatorios.
8 2 10
1
Nomenclatura y definiciones previas. Sean A y B eventos.
En el otro extremo, podrı́a suponerse que el lote contiene exactamente 2 piezas defectuosas,
en ese caso llegamos a la conclusión de que ha ocurrido un evento de probabilidad 1. Escribiremos Ac := {ω ∈ Ω : ω ∈
/ A} para designar al evento que no ocurre A. El evento Ac se llama el
complemento de A.
98 2 100 −1 2. Escribiremos A ∪ B := {ω ∈ Ω : ω ∈ A o ω ∈ B} para designar al evento que ocurre al menos uno de
   
1
= . los eventos A o B. El evento A ∪ B se llama la unión de A y B.
8 2 10 110
3. Escribiremos A ∩ B := {ω ∈ Ω : ω ∈ A y ω ∈ B} para designar al evento ocurren ambos A y B. El
Las consideraciones anteriores conducen a buscar el valor de n1 que maximice la probabilidad evento A ∩ B se llama la intersección de A y B.

   −1 A veces escribiremos A \ B en lugar de A ∩ B c , esto es, el evento que A ocurre, pero B no lo hace. Cuando
100 − n1 n1 100 dos eventos A y B no tienen elementos en común, esto es A ∩ B = ∅, diremos que A y B son disjuntos. Una
p(n1 ) := , colección de eventos A1 , A2 , . . . se dice disjunta dos a dos, si Ai ∩ Aj = ∅ para todo i 6= j.
8 2 10

26 3
Nota Bene (Consistencia). El sistema de axiomas I-IV es consistente. Esto se prueba Para calcular pk , observamosque el grupo elegido debe contener k bolas rojas y r−k negras.
mediante un ejemplo. Sea Ω un conjunto que consiste de un solo elemento y sea A = {∅, Ω} Las rojas pueden elegirse de nk1 formas distintas y la negras de r−k
n2
formas distintas. Como
la familia de todos los subconjuntos de Ω. A es un álgebra y la función P : A → R definida cada elección de las k bolas rojas debe combinarse con cada elección de las r − k negras, se
por P(Ω) := 1 y P(∅) := 0 es una medida de probabilidad. obtiene

n1 + n2 −1
   
n1 n2
Construcción de espacios de probabilidad finitos. Los espacios de probabilidad más pk = (21)
simples se construyen de la siguiente manera. Se considera un conjunto finito Ω y una función k r−k r
p : Ω → [0, 1] tal que X El sistema de probabilidades obtenido se llama la distribución hipergeométrica.
p(ω) = 1.
ω∈Ω 3.5.1. Control de calidad.
La función p se llama función de probabilidad y los números p(ω), ω ∈ Ω, se llaman las
En control de calidad industrial, se someten a inspección lotes de n unidades. Las unidades
probabilidades de los eventos elementales ω ∈ Ω o simplemente las probabilidades elementales.
defectuosas juegan el rol de las bolas rojas y su cantidad n1 es desconocida. Se toma una
El álgebra de eventos, A, se toma como el conjunto de todos los subconjuntos de Ω y para
muestra de tamaño r y se determina la cantidad k de unidades defectuosas. La fórmula (21)
cada A ∈ A se define X permite hacer inferencias sobre la cantidad desconocida n1 ; se trata de problema tı́pico de
P(A) := p(ω),
estimación estadı́stica que será analizado más adelante.
ω∈A

donde la suma vacı́a se define como 0. Ejemplo 3.12. Una planta de ensamblaje recibe una partida de 100 piezas de precisión que
Todos los espacios de probabilidad finitos en los que A es la familia de todos los subcon- incluye exactamente 8 defectuosas. La división control de calidad elige 10 piezas al azar para
juntos de Ω se construyen de esta manera. controlarlas y rechaza la partida si encuentra al menos 2 defectuosas. ¿Cuál es la probabilidad
de que la partida pase la inspección?
Ejemplo 1.4 (Lanzar una moneda equilibrada). Se lanza una moneda. Los resultados posibles El criterio de decisión adoptado indica que la partida pasa la inspección si (y sólo si)
son cara o ceca y pueden representarse mediante las letras H (head ) y T (tail ). Adoptando en la muestra no se encuentran piezas defectuosas o si se encuentra exactamente una pieza
esa representación el espacio muestral correspondiente es defectuosa. Hay 100

formas de elegir la muestra para controlar, 92 8
 
formas de elegir
10 10 0
muestras sin piezas defectuosas y 92
 8
Ω = {H, T }. 9 1 formas de elegir muestras con exactamente una
pieza defectuosa. En consecuencia la probabilidad de que la partida pase la inspección es
Decir que una moneda es equilibrada significa que la función de probabilidad asigna igual    −1    −1
92 8 100 92 8 100
probabilidad a los dos resultados posibles: + ≈ 0.818.
10 0 10 9 1 10
p(H) = p(T ) = 1/2.

Ejemplo 3.13. Una planta de ensamblaje recibe una partida de 100 piezas de precisión que
incluye exactamente k defectuosas. La división control de calidad elige 10 piezas al azar para
Equiprobabilidad: fórmula de Laplace. Sea Ω un espacio muestral finito. Cuando todos controlarlas y rechaza la partida si encuentra al menos 2 defectuosas. ¿Con ese criterio de
los eventos elementales tienen la misma probabilidad, esto es, cuando para todo ω ∈ Ω vale decisión, cómo se comporta la probabilidad p(k) de que la partida pase la inspección?.
que p(ω) = |Ω|−1 , se dice que el espacio es equiprobable. En ese caso las probabilidades de los Una partida pasará la inspección si (y sólo si) al extraer una muestra de control la cantidad
eventos A ⊂ Ω se calculan usando la fórmula de Laplace: de piezas defectuosas encontradas es 0 o 1. Hay 100

10 formas de elegir la muestra para con-
trolar. Para cada k = 1, . . . , 90 hay 100−k
 k
|A| 10−k 0 formas de elegir muestras sin piezas defectos y
P(A) = . 100−k k
 
|Ω| 9 1 formas de elegir muestras con exactamente una pieza defectuosa. En consecuencia
la probabilidad p(k) de que la partida pase la inspección es
En este contexto el problema principal del cálculo de probabilidades consiste determinar la   −1 
100 −1
   
cantidad de eventos elementales favorables a cada evento posible (sin tener que enumerarlo). 100 − k k 100 100 − k k
p(k) = + .
En otras palabras, la teorı́a de probabilidades se reduce al análisis combinatorio, una impor- 10 0 10 9 1 10
tante (y a veces muy dı́ficil) rama de la matemática dedicada a lo que podrı́a llamarse “contar
p(k)
sin contar”. En la Sección 3 se desarrollan sus elementos básicos. Una cuenta sencilla muestra que para todo k = 1, . . . , 90 el cociente p(k−1) es menor que 1.
Esto significa que a medida que aumenta la cantidad de piezas defectuosas en la partida, la
probabilidad de aceptarla disminuye.

4 25
segunda r2 , etc, es 1.2. Relación con los datos experimentales
n! En el mundo real de los experimentos la teorı́a de probabilidad se aplica de la siguiente
. (19)
r1 !r2 ! · · · rk ! manera:
(1) Consideramos un sistema de condiciones, S, que se pueden repetir cualquier cantidad
Los números (19) se llaman coeficientes multinomiales. de veces.
(2) Estudiamos una familia determinada de eventos que pueden ocurrir como resultado
Demostración. Un uso repetido de (14) muestra que el número (19) se puede reescribir en de realizar las condiciones S. En los casos individuales donde se realizan las condiciones S,
la forma los eventos ocurren, generalmente, de distintas maneras. En el conjunto Ω incluimos, a priori,
 
n n − r1

n − r1 − r2
 
n − r1 − · · · − rk−2
 todos los resultados que podrı́an obtenerse al realizar las condiciones S.
··· (20) (3) Si al realizar las condiciones S el resultado pertenece al conjunto A (definido de alguna
r1 r2 r3 rk−1
manera), diremos que ocurre el evento A.
Por otro lado, para efectuar la partición deseada, tenemos primero que seleccionar r1 elementos
de los n; de los restantes n − r1 elementos seleccionamos un segundo grupo de tamaño r2 , Ejemplo 1.5 (Dos monedas). Las condiciones S consisten en lanzar una moneda dos veces.
etc. Después de formar el grupo (k − 1) quedan n − r1 − r2 − · · · − rk−1 = rk elementos, y El conjunto de los eventos mencionados en (2) resultan del hecho de que en cada lanzamiento
esos forman el último grupo. Concluimos que (20) representa el número de formas en que se puede obtenerse una cara (H) o una ceca (T ). Hay cuatro resultados posibles (los eventos
puede realizar la partición. elementales), a saber: HH, HT , T H, T T . Si el evento A se define por la ocurrencia de una
repetición, entonces A consistirá en que suceda el primero o el cuarto de los cuatro eventos
Ejemplo 3.11 (Accidentes). En una semana ocurrieron 7 accidentes. Cuál es la probabilidad elementales. Esto es, A = {HH, T T }. De la misma manera todo evento puede considerarse
de que en dos dı́as de esa semana hayan ocurrido dos accidentes cada dı́a y de que en otros como un conjunto de eventos elementales.
tres dı́as hayan ocurrido un accidente cada dı́a?
(4) Bajo ciertas condiciones se puede suponer que, dado el sistema de condiciones S, un
Primero particionamos los 7 dı́as en 3 subpoblaciones: dos dı́as con dos accidentes en cada evento A que a veces ocurre y a veces no, tiene asignado un número real P(A) que tiene las
uno, tres dı́as con un accidente en cada uno y dos dı́as sin accidentes.. Esa partición en tres siguientes caracterı́sticas:
grupos de tamaños 2, 3, 2 se puede hacer de 7!/(2!3!2!) formas distintas y por cada una de (a) Se puede estar prácticamente seguro de que si el sistema de condiciones S se repite
ellas hay 7!/(2!2!1!1!1!0!0!) = 7!/(2!2!) formas diferentes de ubicar los 7 accidentes en los 7 una gran cantidad de veces, n, entonces si n(A) es la cantidad de veces que ocurre el evento
dı́as. Por lo tanto, el valor de la probabilidad requerido es igual a A, la proporción n(A)/n diferirá muy poco de P(A).
7! 7! 1 (b) Si P(A) es muy pequeña, se puede estar prácticamente seguro de que cuando se realicen
× = 0.3212... las condiciones S solo una vez, el evento A no ocurrirá.
2!3!2! 2!2! 77

Deducción empı́rica de los axiomas I, II, III. En general, se puede suponer que la fa-
milia A de los eventos observados A, B, C, . . . que tienen probabilidades asignadas, constituye
un álgebra de eventos. Está claro que 0 ≤ n(A)/n ≤ 1 de modo que el axioma I es bastante
Ejercicios adicionales
natural. Para el evento Ω, n(Ω) siempre es igual a n de modo que es natural definir P(Ω) = 1
8. ¿Cuántas palabras distintas pueden formarse permutando las letras de la palabra “man- (Axioma II). Si finalmente, A y B son incompatibles (i.e., no tienen elementos en común),
zana” y cuántas permutando las letras de la palabra “aiaiiaiiiaiiii”? entonces n(A ∪ B) = n(A) + n(B) y de aquı́ resulta que

n(A ∪ B) n(A) n(B)


9. Se ubicarán 6 bolas distinguibles en 8 urnas numeradas 1, 2, . . . , 8. Suponiendo que todas = + .
las configuraciones distintas son equiprobables calcular la probabilidad de que resulten tres n n n
urnas ocupadas con una bola cada una y que otra urna contenga las tres bolas restantes. Por lo tanto, es apropiado postular que P(A ∪ B) = P(A) + P(B) (Axioma III).

Nota Bene 1. La afirmación de que un evento A ocurre en las condiciones S con una
3.5. Distribución Hipergeométrica determinada probabilidad P(A) equivale a decir que en una serie suficientemente larga de
experimentos (es decir, de realizaciones del sistema de condiciones S), las frecuencias relativas
Muchos problemas combinatorios se pueden reducir a la siguiente forma. En una urna
hay n1 bolas rojas y n2 bolas negras. Se elige al azar un grupo de r bolas. Se quiere calcular nk (A)
la probabilidad pk de que en el grupo elegido, haya exactamente k bolas rojas, 0 ≤ k ≤ p̂k (A) :=
nk
mı́n(n1 , r).

24 5
determinan completamente los números combinatorios nk , 0 ≤ k ≤ n, n = 0, 1, . . . . Usando

de ocurrencia del evento A (donde nk es la cantidad de experimentos realizados en la k-ésima
serie y nk (A) la cantidad de ellos en los que ocurre A) son aproximadamente idénticas unas dichas relaciones se construye el famoso “triángulo de Pascal”, que muestra todos los números
a otras y están próximas a P(A). combinatorios en la forma de un triángulo
Ejemplo 1.6. Las condiciones S consisten en lanzar una moneda (posiblemente cargada). 1
Podemos poner Ω = {H, T } y A = {∅, {H}, {T }, Ω}, y las posibles medidas de probabilidad 1 1
P : A → [0, 1] están dadas por 1 2 1
P(∅) = 0, P(H) = p, P(T ) = 1 − p, P(Ω) = 1, 1 3 3 1
1 4 6 4 1
donde p es un número real fijo perteneciente al intervalo [0, 1]. 1 5 10 10 5 1
Si en 10 series, de 1000 lanzamientos cada una, se obtienen las siguientes frecuencias 1 6 15 20 15 6 1
relativas de ocurrencia del evento A = {H} ... ... ... ... ... ...

0.753; 0.757; 0.756; 0.750; 0.746; 0.758; 0.751; 0.748; 0.749; 0.746, La n-ésima fila de este triángulo contiene los coeficientes n0 , n1 , . . . , nn . Las condiciones de
  

parece razonable asignarle a p el valor 0.75. borde (17) indican que el primero y el último de esos números son 1. Los números restantes
se determinan por la ecuación en diferencias (16). Vale decir, para cada 0 < k < n, el k-ésimo
coeficiente de la n-ésima fila del “triángulo de Pascal” se obtiene sumando los dos coeficientes
Nota Bene 2. Si cada una de dos afirmaciones diferentes es prácticamente segura, entonces
inmediatamente superiores a izquierda y derecha. Por ejemplo, 52 = 4 + 6 = 10.

podemos decir que simultáneamente son ambas seguras, aunque el grado de seguridad haya
disminuido un poco. Si, en cambio, el número de tales afirmaciones es muy grande, de la
seguridad práctica de cada una, no podemos deducir nada sobre la validez simultánea de Control de calidad. Una planta de ensamblaje recibe una partida de 50 piezas de precisión
todos ellas. En consecuencia, del principio enunciado en (a) no se deduce que en una cantidad que incluye 4 defectuosas. La división de control de calidad elige 10 piezas al azar para
muy grande de series de n experimentos cada una, en cada uno de ellos la proporción n(A)/n controlarlas y rechaza la partida si encuentra 1 o más defectuosas. ¿Cuál es la probabilidad
diferirá sólo un poco de P(A). de que la partida pase la inspección? Hay 50 10 formas de elegir la muestra para controlar y
46

En los casos más tı́picos de la teorı́a de probabilidades, la situación es tal que en una larga 10 de elegir todas las piezas sin defectos. Por lo tanto, la probabilidad es
serie de pruebas es posible obtener uno de los dos valores extremos para la frecuencia   −1
46 50 46! 10!40! 40 · 39 · 38 · 37
n(A) n n(A) 0 = = = 0, 3968....
= =1 y = = 0. 10 10 10!36! 50! 50 · 49 · 48 · 47
n n n n
Ası́, cualquiera sea el número de ensayos n, es imposible asegurar con absoluta certeza que Usando cálculos casi idénticos una compañı́a puede decidir sobre qué cantidad de piezas
tendremos, por ejemplo, la desigualdad defectuosas admite en una partida y diseñar un programa de control con una probabilidad
dada de éxito.
n(A) 1
n − P(A) < 10 .

Ejercicios adicionales
Por ejemplo, si el evento A es sacar un seis tirando un dado equilibrado, entonces en n tiradas
del dado la probabilidad de obtener un seis en todas ellas es (1/6)n > 0; en otras palabras, 7. Considerar el siguiente juego: el jugador I tira 4 veces una moneda honesta y el jugador
con probabilidad (1/6)n tendremos una frecuencia relativa igual a uno de sacar un seis en II lo hace 3 veces. Calcular la la probabilidad de que el jugador I obtenga más caras que el
todas las tiradas ; y con probabilidad (5/6)n no saldrá ningún seis, es decir, la frecuencia jugador II.
relativa de sacar seis será igual a cero.

Nota Bene 3. De acuerdo con nuestros axiomas a un evento imposible (un conjunto vacı́o)
3.4. Particiones
le corresponde la probabilidad P(∅) = 0, pero la recı́proca no es cierta: P(A) = 0 no implica la
imposibilidad de A. Cuando P(A) = 0, del principio (b) todo lo que podemos asegurar es que Teorema 3.10. Sean r1 , . . . , rk enteros tales que
cuando se realicen las condiciones S una sola vez, el evento A será prácticamente imposible.
Sin embargo, esto no asegura de ningún modo que en una sucesión suficientemente grande de r1 + r2 + · · · + rk = n, ri ≥ 0. (18)
experimentos el evento A no ocurrirá. Por otra parte, del principio (a) solamente se puede
deducir que cuando P(A) = 0 y n es muy grande, la proporción n(A)/n debe ser muy pequeña El número de formas en que una población de n elementos se puede dividir en k partes
(por ejemplo, 1/n). ordenadas (particionarse en k subpoblaciones) tales que la primera contenga r1 elementos, la

6 23
de la siguiente manera: consideramos una subpoblación de tamaño k de una población de n 1.3. Corolarios inmediatos de los axiomas
elementos. Cada numeración arbitraria de los elementos de la subpoblación la convierte en
De A ∪ Ac = Ω y los axiomas II y III se deduce que
una muestra ordenada de tamaño k. Todas las muestras ordenadas de tamaño k se pueden
obtener de esta forma. Debido a que k elementos se pueden ordenar de k! formas diferentes, P(Ac ) = 1 − P(A).
resulta que k! veces la cantidad de subpoblaciones de tamaño k coincide con la cantidad de En particular, debido a que Ωc = ∅, tenemos que P(∅) = 0.
muestras ordenadas de dicho tamaño. En otros términos, Cn, k · k! = (n)k . Por lo tanto,
Teorema de aditividad. Si los eventos A1 , A2 , . . . , An son disjuntos dos a dos, entonces
(n)k n! del axioma III se deduce la fórmula
Cn, k = = . (13)
k! k!(n − k)! n n
!
[ X
P Ai = P(Ai ).
Los números definidos en (13) se llaman coeficientes binomiales o números combinatorios y i=1 i=1
la notación clásica para ellos es nk .


Teorema 3.8. Una población de n elementos tiene


Ejercicios adicionales
 
n n!
= (14) 1. Sean A y B dos eventos. Mostrar que
k k!(n − k)!
(a) Si A ⊆ B, entonces P(A) ≤ P(B). Más precisamente: P(B) = P(A) + P(B \ A).
diferentes subpoblaciones de tamaño k ≤ n.
Sugerencia. Expresar el evento B como la unión disjunta de los eventos A y B \ A y usar
Ejemplo 3.9. Consideramos una urna con 8 bolas numeradas 1, 2, . . . , 8. Extraemos 3 bolas el axioma III.
simultáneamente, de modo que el orden es irrelevante. El espacio muestral Ω3 correspondiente (b) La probabilidad de que ocurra al menos uno de los eventos A o B es
a este experimento consiste de todos los subconjuntos de tamaño 3 del conjunto {1, 2, . . . , 8}.
Por el Teorema 3.8 Ω3 tiene 83 = 56 elementos. Bajo la hipótesis de que todos los elementos P(A ∪ B) = P(A) + P(B) − P(A ∩ B).
tienen la misma probabilidad, la probabilidad de seleccionar {3, 7, 1} es 1/56. Sugerencia. La unión A ∪ B de dos eventos puede expresarse como la unión de dos eventos
disjuntos: A ∪ (B \ (A ∩ B)).
Dada una población de tamaño n podemos elegir una subpoblación de tamaño k de nk


maneras distintas. Ahora bien, elegir los k elementos que vamos a quitar de una población es 2. Mostrar que para eventos A, B y C vale que
lo mismo que elegir los n − k elementos que vamos a dejar dentro. Por lo tanto, es claro que
para cada k ≤ n debe valer P(A ∪ B ∪ C) = P(A) + P(B) + P(C) − P(A ∩ B) − P(A ∩ C) − P(B ∩ C)
    +P(A ∩ B ∩ C).
n n
= . (15)
k n−k

La ecuación (15) se deduce inmediatamente de la identidad (14). El lado izquierdo de la 3. Mostrar que para eventos A1 , A2 , . . . , An vale que
n
!
ecuación (15) no está definido para k = 0, pero el lado derecho si lo está. Para que la ecuación [ X X X
(15) sea valida para todo entero k tal que 0 ≤ k ≤ n, se definen P Ai = P(Ai ) − P(Ai ∩ Aj ) + P(Ai ∩ Aj ∩ Aj ) − · · ·
i=1 i i<j i<j<k
+(−1)n P(A1 ∩ A2 ∩ · · · ∩ An ).
 
n
:= 1, 0! := 1, y (n)0 := 1.
0

Triángulo de Pascal. Las ecuaciones en diferencias


1.4. Sobre el axioma de continuidad
     
n n−1 n−1
= + , (16)
k k k−1 Nota Bene 1. Si la familia de eventos A es finita el axioma de continuidad IV se deduce
junto con el conocimiento de los datos de borde de los axiomas I-III. En tal caso, en la sucesión (1) solo hay una cantidad finita de eventos
diferentes. Si Ak es el menor de ellos, entonces todos los conjuntos Ak+m , m ≥ 1 coinciden
    ∞
n n con Ak . Tenemos que Ak = Ak+m =
T
An = ∅ y lı́m P(An ) = P(∅) = 0. Por lo tanto, todos
= = 1, (17) n→∞
0 n n=1
los ejemplos de espacios de probabilidad finitos satisfacen los axiomas I-IV.

22 7
Nota Bene 2. Se puede probar que para espacios muestrales infinitos, el axioma de con- (a) Para n = 7, p = 0.00612.... Esto significa que si en una ciudad ocurren 7 accidentes por
tinuidad IV es independiente de los axiomas I-III. Este axioma es esencial solamente para semana, entonces (suponiendo que todas las ubicaciones posibles son igualmente prob-
espacios de probabilidad infinitos y es casi imposible elucidar su significado empı́rico en la ables) prácticamente todas las semanas contienen dı́as con dos o más accidentes, y en
forma en que lo hicimos con los axiomas I-III. promedio solo una semana de 164 mostrará una distribución uniforme de un accidente
por dı́a.
Ejemplo 1.7. Sean Ω = Q ∩ [0, 1] = {r1 , r2 , r3 , . . . } y A0 la familia de los subconjuntos de Ω
de la forma [a, b], [a, b), (a, b] o (a, b). La familia, A de todas las uniones finitas de conjuntos (b) Para n = 6 la probabilidad p es igual a 0.01543... Esto muestra lo extremadamente
disjuntos de A0 es un álgebra de eventos. La medida de probabilidad definida por improbable que en seis tiradas de un dado perfecto aparezcan todas las caras.

P(A) := b − a, si A ∈ A0 , Cumpleaños. Los cumpleaños de k personas constituyen una muestra de tamaño k de la


k
Pk [ población formada por todos los dı́as del año.
P(A) := i=1 P(Ai ) si A = Ai , para Ai ∈ A0 y Ai ∩ Aj = ∅, De acuerdo con la ecuación (12) la probabilidad, pk , de que todos los k cumpleaños sean
i=1
diferentes es
satisface los axiomas I-III pero no satisface el axioma de continuidad.     
(365)k 1 2 k−1
En efecto, para cada r ∈ Ω, {r} ∈ A y P({r}) = 0. Los eventos An := Ω \ {r1 , . . . , rn }, pk = = 1 − 1 − · · · 1 − .
T∞ 365k 365 365 365
n ∈ N, son decrecientes y An = ∅, sin embargo lı́m P(An ) = 1, debido a que P(An ) = 1
n→∞
n=1 Una fórmula aparentemente abominable. Si k = 23 tenemos pk < 1/2. En palabras, para 23
para todo n ≥ 1. personas la probabilidad que al menos dos personas tengan un cumpleaños común excede 1/2.
Teorema 1.8. Aproximaciones numéricas de pk . Si k es chico, tomando logaritmos y usando que para x

pequeño y positivo log(1 − x) ∼ −x, se obtiene
T
(a) Si A1 ⊃ A2 ⊃ · · · y A = An , entonces P(A) = lı́m P(An ).
n=1 n→∞ 1 + 2 + · · · + (k − 1) k(k − 1)
log pk ∼ − =− .

S 365 730
(b) Si A1 ⊂ A2 ⊂ · · · y A = An , entonces P(A) = lı́m P(An ).
n=1 n→∞

Demostración. Ejercicios adicionales



T
(a) Considerar la sucesión Bn = An \ A. Observar que B1 ⊃ B2 ⊃ · · · y Bn = ∅. Por
n=1 5. Hallar la probabilidad pk de que en una muestra de k dı́gitos aleatorios no haya dos iguales.
1√
el axioma de continuidad se obtiene lı́m P(Bn ) = 0. Como P(Bn ) = P(An ) − P(A) se deduce Estimar el valor numérico de p10 usando la fórmula de Stirling (1730): n! ∼ e−n nn+ 2 2π.
n→∞
que
lı́m P(An ) = P(A). 6. Considerar los primeros 10000 decimales del número π. Hay 2000 grupos de cinco dı́gitos.
n→∞
Contar la cantidad de grupos en los que los 5 dı́gitos son diferentes e indicar la frecuencia

(b) Considerar la sucesión Bn = Acn . Observar que B1 ⊃ B2 ⊃ · · · y Bn = Ac . Por el relativa del evento considerado. Comparar el resultado obtenido con la probabilidad de que
T
n=1 en una muestra de 5 dı́gitos aleatorios no haya dos iguales.
inciso (a) se obtiene lı́m P(Bn ) = P(Ac ) = 1 − P(A). Como P(Bn ) = 1 − P(An ) se deduce
n→∞
que
lı́m P(An ) = P(A).
n→∞ 3.3. Subpoblaciones
En lo que sigue, utilizaremos el término población de tamaño n para designar una colección
Ejemplo 1.9 (Números aleatorios). Teóricamente, los números aleatorios son realizaciones de n elementos sin considerar su orden. Dos poblaciones se consideran diferentes si una de
independientes del experimento conceptual que consiste en “elegir al azar” un número U ellas contiene algún elemento que no está contenido en la otra.
del intervalo (0, 1]. Aquı́ la expresión “elegir al azar” significa que el número U tiene la Uno de los problemas más importantes del cálculo combinatorio es determinar la can-
distribución uniforme sobre el intervalo (0, 1], i.e., la probabilidad del evento U ∈ (a, b] es tidad Cn, k de subpoblaciones distintas de tamaño k que tiene una población de tamaño n.
igual a b − a, para cualquier pareja de números reales a y b tales que 0 < a < b ≤ 1. Cuando n y k son pequeños, el problema se puede resolver por enumeración directa. Por
ejemplo, hay seis formas distintas elegir dos letras entre cuatro letras A, B, C, D, a saber:
AB, AC, AD, BC, BD, CD. Ası́, C4, 2 = 6. Cuando la cantidad de elementos de la colección
es grande la enumeración directa es impracticable. El problema general se resuelve razonando

8 21
Caso especial k = n. En muestreo sin reposición una muestra de tamaño n incluye a toda Ejemplo 1.10 (Ternario de Cantor). Se elije al azar un número U del intervalo (0, 1], ¿cuál
la población y representa una permutación de sus elementos. En consecuencia, n elementos es la probabilidad de que el 1 no aparezca en el desarrollo en base 3 de U ?
a1 , a2 , . . . , an se pueden ordenar de (n)n = n · (n − 1) · · · 2 · 1 formas distintas. Usualmente el Consideramos la representación en base 3 del número U :
número (n)n se denota n! y se llama el factorial de n. X ak (U )
U= ,
Corolario 3.6. La cantidad de formas distintas en que se pueden ordenar n elementos es 3k
k≥1

n! = 1 · 2 · · · n. (10) donde ak (U ) ∈ {0, 1, 2}, k ≥ 1.


Lo que queremos calcular es la probabilidad del evento A = {ak (U ) 6= 1, ∀ k ≥ 1}. Primero
Observación 3.7. Las muestras ordenadas de tamaño k, sin reposición, de una población de observamos que

n elementos, se llaman variaciones de n elementos tomados de a k. Su número total (n)k se \
puede calcular del siguiente modo A= An ,
n=1
n! donde An = {ak (U ) 6= 1, ∀ 1 ≤ k ≤ n} y notamos que A1 ⊃ A2 ⊃ · · · . Usando el inciso (a) del
(n)k = (11)
(n − k)! Teorema 1.8 tenemos que P(A) = lı́m P(An ). El problema se reduce a calcular la sucesión
n→∞
de probabilidades P(An ) y su lı́mite.
Nota Bene sobre muestreo aleatorio. Cuando hablemos de “muestras aleatorias de Geométricamente el evento A1 se obtiene eliminando el segmento (1/3, 2/3) del intervalo
tamaño k”, el adjetivo aleatorio indica que todas las muestras posibles tienen la misma prob- (0, 1]:
abilidad, a saber: 1/nk en muestreo con reposición y 1/(n)k en muestreo sin reposición. En A1 = (0, 1/3] ∪ [2/3, 1].
ambos casos, n es el tamaño de la población de la que se extraen las muestras.
Si n es grande y k es relativamente pequeño, el cociente (n)k /nk está cerca de la unidad. En Para obtener A2 eliminamos los tercios centrales de los dos intervalos que componen A1 :
otras palabras, para grandes poblaciones y muestras relativamente pequeñas, las dos formas A2 = (0, 1/9] ∪ [2/9, 3/9] ∪ [6/9, 7/9] ∪ [8/9, 1].
de muestrear son prácticamente equivalentes.
Continuando de este modo obtenemos una caracterización geométrica de los eventos An : An
Ejemplos es la unión disjunta de 2n intervalos, cada uno de longitud 3−n . En consecuencia,
 n
Consideramos muestras aleatorias de volumen k (con reposición) tomadas de una población 1 2
P(An ) = 2n n =
de n elementos a1 , . . . , an . Nos interesa el evento que en una muestra no se repita ningún el- 3 3
emento. En total existen nk muestras diferentes, de las cuales (n)k satisfacen la condición Por lo tanto, P(A) = lı́m (2/3)n = 0.
estipulada. Por lo tanto, la probabilidad de ninguna repetición en nuestra muestra es n→∞

Teorema 1.11 (σ-aditividad). Si A1 , A2 , . . . , es una sucesión de eventos disjuntos dos a dos


(n)k n(n − 1) · · · (n − k + 1) ∞
p= = (12)
S
nk nk (i.e., Ai ∩ Aj = ∅ para todos los pares i, j tales que i 6= j) y An ∈ A, entonces
n=1
Las interpretaciones concretas de la fórmula (12) revelan aspectos sorprendentes. ∞
[
! ∞
X
P An = P(An ) (2)
Muestras aleatorias de números. La población consiste de los diez dı́gitos 0, 1, . . . , 9. n=1 n=1

Toda sucesión de cinco dı́gitos representa una muestra de tamaño k = 5, y supondremos que S
cada uno de esos arreglos tiene probabilidad 10−5 . La probabilidad de que 5 dı́gitos aleatorios Demostración. La sucesión de eventos Rn := Am , n ≥ 1, es decreciente y tal que
m>n
sean todos distintos es p = (10)5 10−5 = 0.3024. ∞
T
Rn = ∅. Por el axioma IV tenemos que
n=1
Bolas y urnas. Si n bolas se ubican aleatoriamente en n urnas, la probabilidad de que cada
lı́m P(Rn ) = 0 (3)
urna esté ocupada es n→∞
n!
p = n. y por el teorema de aditividad tenemos que
n
n

!
Interpretaciones: [ X
P An = P(Ak ) + P(Rn ). (4)
n=1 k=1

De (4) y (3) se obtiene (2).

20 9
Corolario 1.12 (Teorema de cubrimiento). Si B, A1 , A2 , . . . es una sucesión de eventos tal (b) Muestreo sin reposición. Una vez elegido, el elemento se quita de la población, de

que A =
S
An ∈ A y B ⊂ A, entonces modo que las muestras son arreglos sin repeticiones. El volumen de la muestra k no puede
n=1 exceder el tamaño de la población total n.

Tenemos n elecciones posibles para el primer elemento, pero sólo n − 1 para el segundo,
P(B) ≤
X
P(An ). n − 2 para el tercero, etcétera. Usando la regla del producto se obtiene un total de
n=1
(n)k := n(n − 1)(n − 2) · · · (n − k + 1) (9)
Demostración. Una cuenta. Descomponemos B en una unión disjunta de eventos elecciones posibles.
n−1

! ∞
!!
[ [ [ Teorema 3.3. Para una población de n elementos y un tamaño de muestra prefijado k,
B=B∩ An = B ∩ An \ (An ∩ Ak )
existen nk diferentes muestras con reposición y (n)k muestras sin reposición.
n=1 n=1 k=1
Ejemplo 3.4. Consideramos una urna con 8 bolas numeradas 1, 2, . . . , 8
y aplicamos el teorema de σ-aditividad
∞ n−1
!! ∞
(a) Extracción con reposición. Extraemos 3 bolas con reposición: después de extraer
una bola, anotamos su número y la ponemos de nuevo en la urna. El espacio muestral
X [ X
P(B) = P B∩ An \ (An ∩ Ak ) ≤ P(An ).
n=1 k=1 n=1 Ω1 correspondiente a este experimento consiste de todas las secuencias de longitud 3
que pueden formarse con los sı́mbolos 1, 2, . . . 8. De acuerdo con el Teorema 3.3, Ω1
tiene 83 = 512 elementos. Bajo la hipótesis de que todos los elementos tienen la misma
probabilidad, la probabilidad de observar la secuencia (3, 7, 1) es 1/512.
Ejercicios adicionales (b) Extracción de una colección ordenada sin reposición. Extraemos 3 bolas sin
reposición: cada bola elegida no se vuelve a poner en la urna. Anotamos los números
4. Sean Ω un conjunto no vacı́o y A un álgebra de eventos. Sea P : A → R una función tal de las bolas en el orden en que fueron extraı́das de la urna. El espacio muestral Ω2
que correspondiente a este experimento es el conjunto de todas las secuencias de longitud
I. Para cada A ∈ A, P(A) ≥ 0, 3 que pueden formarse con los sı́mbolos 1, 2 . . . , 8 donde cada sı́mbolo puede aparecer
II. P(Ω) = 1. a los sumo una vez. De acuerdo con el Teorema 3.3, Ω2 tiene (8)3 = 8 · 7 · 6 = 336
III. Si los eventos A y B no tienen elementos en común, entonces P(A ∪ B) = P(A) + P(B). elementos. Bajo la hipótesis que todos los elementos tienen la misma probabilidad, la

probabilidad de observar la secuencia (3, 7, 1) (en ese orden) es 1/336.
S
IV’. Si (An )n≥1 es una sucesión de eventos disjuntos dos a dos y An ∈ A, entonces
n=1


! ∞
[ X
P An = P(An ). Ejemplo 3.5. Una urna contiene 6 bolas rojas y 4 bolas negras. Se extraen 2 bolas con
n=1 n=1 reposición. Para fijar ideas supongamos que las bolas están numeradas de la siguiente manera:
las primeras 6 son las rojas y las últimas 4 son las negras. El espacio muestral asociado es
Mostrar que bajo esas condiciones la función P satisface el axioma de continuidad.
Ω = {1, . . . , 10}2 y su cantidad de elementos |Ω| = 102 .

(a) ¿Cuál es la probabilidad de que las dos sean rojas? Sea R el evento “las dos son rojas”,
1.5. σ-álgebras y teorema de extensión R = {1, . . . , 6}2 y |R| = 62 . Por lo tanto, P(R) = 62 /102 = 0.36.

S (b) ¿Cuál es la probabilidad de que las dos sean del mismo color? Sea N el evento “las dos
El álgebra A se llama una σ-álgebra, si toda unión numerable An de conjuntos A1 , A2 , · · · ∈
n=1 son negras”, N = {7, . . . , 10}2 y |N | = 42 , entonces P(N ) = 42 /102 = 0.16. Por lo tanto,
A, disjuntos dos a dos, también pertenece a A. P(R ∪ N ) = P(R) + P(N ) = 0.52.
De la identidad
(c) ¿Cuál es la probabilidad de que al menos una de las dos sea roja? El evento “al menos
n−1
∞ ∞
!
[ [ [ una de las dos es roja” es el complemento de “las dos son negras”. Por lo tanto, P(N c ) =
An = An \ (An ∩ Ak )
1 − P(N ) = 0.84.
n=1 n=1 k=1
Si se consideran extracciones sin reposición, deben reemplazarse las cantidades (10)2 , 62 y 42
por las correspondientes (10)2 , (6)2 y (4)2 .

10 19
Ejemplo 3.2 (Ubicar r bolas en n urnas). Los resultados posibles del experimento se pueden se deduce que la σ-álgebra también contiene todas las uniones numerables de conjuntos
representar mediante el conjunto A1 , A2 , · · · ∈ A. De la identidad
∞ ∞
Ω = {1, 2, . . . , n}r = {(x1 , x2 , . . . , xr ) : xi ∈ {1, 2, . . . , n}, 1 ≤ i ≤ r}, \ [
An = Ω \ Acn
donde xi = j representa el resultado “la bola i se ubicó en la urna j”. Cada bola puede n=1 n=1

ubicarse en una de las n urnas posibles. Con r bolas tenemos r elecciones sucesivas con lo mismo puede decirse de las intersecciones.
exactamente n elecciones posibles en cada paso. En consecuencia, r bolas pueden ubicarse en
n urnas de nr formas distintas. Nota Bene. Solamente cuando disponemos de una medida de probabilidad, P, definida
Usamos el lenguaje figurado de bolas y urnas, pero el mismo espacio muestral admite sobre una σ-álgebra, A, obtenemos libertad de acción total, sin peligro de que ocurran eventos
muchas interpretaciones distintas. Para ilustrar el asunto listaremos una cantidad de situa- que no tienen probabilidad.
ciones en las cuales aunque el contenido intuitivo varı́a son todas abstractamente equivalentes
al esquema de ubicar r bolas en n urnas, en el sentido de que los resultados difieren solamente Lema 1.13 (σ-álgebra generada). Dada un álgebra A existe la menor σ-álgebra, σ(A), que
en su descripción verbal. la contiene, llamada la σ-álgebra generada por A.

1. Nacimientos. Las configuraciones posibles de los nacimientos de r personas corresponde Teorema 1.14 (Extensión). Dada una función de conjuntos, P, no negativa y σ-aditiva
a los diferentes arreglos de r bolas en n = 365 urnas (suponiendo que el año tiene 365 definida sobre un álgebra A se la puede extender a todos los conjuntos de la σ-álgebra generada
dı́as). por A, σ(A), sin perder ninguna de sus propiedades (no negatividad y σ-aditividad) y esta
extensión puede hacerse de una sola manera.
2. Accidentes. Clasificar r accidentes de acuerdo con el dı́a de la semana en que ocurrieron
es equivalente a poner r bolas en n = 7 urnas.
Esbozo de la demostración. Para cada A ⊂ Ω definimos
3. Muestreo. Un grupo de personas se clasifica de acuerdo con, digamos, edad o profesión. X
Las clases juegan el rol de las urnas y las personas el de las bolas. P∗ (A) := ı́nf P(An ),
A⊂∪n An
n
4. Dados. Los posibles resultados de una tirada de r dados corresponde a poner r bolas en donde el ı́nfimo se toma respecto a todos los cubrimientos del conjunto A por colecciones
n = 6 urnas. Si en lugar de dados se lanzan monedas tenemos solamente n = 2 urnas. finitas o numerables de conjuntos An pertenecientes a A. De acuerdo con el Teorema de
5. Dı́gitos aleatorios. Los posibles ordenamientos de una sucesión de r dı́gitos corresponden cubrimiento P∗ (A) coincide con P(A) para todo conjunto A ∈ A.
a las distribuciones de r bolas (= lugares) en diez urnas llamadas 0, 1, . . . , 9. La función P∗ es no negativa y σ-aditiva sobre σ(A). La unicidad de la extensión se deduce
de la propiedad minimal de σ(A).
6. Coleccionando figuritas. Los diferentes tipos de figuritas representan las urnas, las fig-
uritas coleccionadas representan las bolas.
2. Simulación de experimentos aleatorios con espacio muestral
finito
3.2. Muestras ordenadas 2.1. Números aleatorios.
Se considera una “población” de n elementos a1 , a2 , . . . , an . Cualquier secuencia ordena- Toda computadora tiene instalado un algoritmo para simular números aleatorios que se
da aj1 , aj2 , . . . , ajk de k sı́mbolos se llama una muestra ordenada de tamaño k tomada de la pueden obtener mediante una instrucción del tipo “random”. En el software Octave, por
población. (Intuitivamente los elementos se pueden elegir uno por uno). Hay dos procedimien- ejemplo, la sentencia rand simula un número aleatorio y rand (1, n) simula un vector de
tos posibles. n números aleatorios. En algunas calculadoras (llamadas cientı́ficas) la instrucción Ran#
permite simular números aleatorios de tres dı́gitos. En algunos libros de texto se pueden
(a) Muestreo con reposición. Cada elección se hace entre toda la población, por lo que encontrar tablas de números aleatorios (p. ej., Meyer, P. L.: Introductory Probability and
cada elemento se puede elegir más de una vez. Cada uno de los k elementos se puede elegir Statistical Applications. Addison-Wesley, Massachusetts. (1972))
en n formas: la cantidad de muestras posibles es, por lo tanto, nk , lo que resulta de la regla
del producto con n1 = n2 = · · · = nk = n. Cómo usar los números aleatorios. La idea principal se puede presentar mediante un
ejemplo muy simple. Queremos construir un mecanismo aleatorio para simular el lanzamiento
de una moneda cargada con probabilidad p de obtener de obtener “cara”. Llamemos X al
resultado del lanzamiento: X ∈ {0, 1} con la convención de que “cara”= 1 y “ceca”= 0.

18 11
Para construir X usamos un número aleatorio U , uniformemente distribuido sobre el 3. Elementos de Análisis Combinatorio
intervalo [0, 1] y definimos
Cuando se estudian juegos de azar, procedimientos muestrales, problemas de orden y
X := 1{1 − p < U ≤ 1}. (5) ocupación, se trata por lo general con espacios muestrales finitos Ω en los que a todos los
eventos elementales se les atribuye igual probabilidad. Para calcular la probabilidad de un
Es fácil ver X satisface las condiciones requeridas. En efecto, evento A tenemos que dividir la cantidad de eventos elementales contenidos en A (llamados
casos favorables) entre la cantidad de total de eventos elementales contenidos en Ω ( llamados
P(X = 1) = P(1 − p < U ≤ 1) = 1 − (1 − p) = p.
casos posibles). Estos cálculos se facilitan por el uso sistemático de unas pocas reglas.
La ventaja de la construcción es que se puede implementar casi inmediatamente en una
computadora. Por ejemplo, si p = 1/2, una rutina en Octave para simular X es la siguiente 3.1. Regla del Producto
Sean A y B dos conjuntos cualesquiera. El producto cartesiano de A y B se define por
Rutina para simular el lanzamiento de una moneda equilibrada A × B = {(a, b) : a ∈ A y b ∈ B}. Si A y B son finitos, entonces |A × B| = |A| · |B|.
U = rand;
if U>1/2 Demostración. Supongamos que A = {a1 , a2 , . . . , am } y B = {b1 , b2 , . . . , bn }. Basta obser-
X=1; var el cuadro siguiente
else b1 b2 ... bn
X=0;
a1 (a1 , b1 ) (a1 , b2 ) ... (a1 , bn )
end
a2 (a2 , b1 ) (a2 , b2 ) ... (a2 , bn )
X .. .. .. ..
. . . .
am (am , b1 ) (am , b2 ) ... (am , bn )
Nota Bene. El ejemplo anterior es el prototipo para construir y simular experimentos
Cuadro 1: Esquema rectangular del tipo tabla de multiplicar con m filas y n columnas: en la
aleatorios. Con la misma idea podemos construir experimentos aleatorios tan complejos como
intersección de fila i y la columna j se encuentra el par (ai , bj ). Cada par aparece una y sólo
queramos.
una vez.

2.2. Simulación de experimentos aleatorios En palabras, con m elementos a1 , . . . , am y n elementos b1 , . . . , bn es posible formar m · n
pares (ai , bj ) que contienen un elemento de cada grupo.
Supongamos que Ω = {ω1 , ω2 , . . . , ωm } representa el espacio muestral correspondiente a
un experimento aleatorio y que cada evento elemental ωk ∈ Ω tiene asignada la probabilidad Teorema 3.1 (Regla del producto). Sean A1 , A2 , . . . , An , n conjuntos cualesquiera. El pro-
p(ωk ) = pk . Usando un número aleatorio, U , uniformemente distribuido sobre el intervalo ducto cartesiano de los n conjuntos A1 , A2 , . . . , An se define por
(0, 1], podemos construir un mecanismo aleatorio, X, para simular los resultados del experi-
mento aleatorio considerado. Definimos A1 × A2 × · · · × An = {(x1 , x2 , . . . , xn ) : xi ∈ Ai , 1 ≤ i ≤ n}.
m
X Si los conjuntos A1 , A2 , . . . , An son finitos, entonces
X= k1 {Lk−1 < U ≤ Lk } , (6)
k=1 n
Y
|A1 × A2 × · · · × An | = |Ai |.
donde i=1
k
X
L0 := 0 y Lk := pi , (1 ≤ k ≤ m) Demostración. Si n = 2 ya lo demostramos. Si n = 3, tomamos los pares (x1 , x2 ) como
i=1 elementos de un nuevo tipo. Hay |A1 | · |A2 | elementos de ese tipo y |A3 | elementos x3 . Cada
terna (x1 , x2 , x3 ) es un par formado por un elemento (x1 , x2 ) y un elemento x3 ; por lo tanto,
e identificamos cada evento elemental ωk ∈ Ω con su correspondiente subı́ndice k.
la cantidad de ternas es |A1 | · |A2 | · |A3 |. Etcétera.
En efecto, de la definición (6) se deduce que para cada k = 1, . . . , m vale que

P(X = k) = P(Lk−1 < U ≤ Lk ) = Lk − Lk−1 = pk . Nota Bene. Muchas aplicaciones se basan en la siguiente reformulación de la regla del
producto: r decisiones sucesivas con exactamente nk elecciones posibles en el k-ésimo paso
pueden producir un total de n1 · n2 · · · nr resultados diferentes.

12 17
2. La construcción (7) permite simular 24 tiros de dos dados usando 48 números aleatorios Nota Bene. El mecanismo aleatorio definido en (6) se puede construir “gráficamente” de
independientes U1 , U2 , . . . , U47 , U48 . la siguiente manera:
La cantidad de veces que se obtiene un doble as en los 24 tiros de dos dados es la suma
24
P 1. Partir el intervalo (0, 1] en m subintervalos sucesivos I1 , . . . , Im de longitudes p1 , . . . , pm ,
S = 1{0 < U2i−1 ≤ 1/6, 0 < U2i ≤ 1/6}. El evento A2 = “obtener al menos un doble as respectivamente.
i=1
en 24 tiros de dos dados” equivale al evento S ≥ 1.
2. Sortear un número aleatorio, U , y observar en qué intervalo de la partición cae.
Si repetimos la simulación 10000 veces podemos obtener una estimación (puntual) de la
probabilidad del evento A2 calculando su frecuencia relativa. 3. Si U cae en el intervalo Ik , producir el resultado ωk .
La siguiente rutina (en Octave) provee una estimación de la probabilidad del evento A2
basada en la repetición de 10000 simulaciones del experimento que consiste en tirar 24 veces Ejemplo 2.1 (Lanzar un dado equilibrado). Se quiere simular el lanzamiento de un dado
dos dados. equilibrado. El espacio muestral es Ω = {1, 2, 3, 4, 5, 6} y la función de probabilidades es
p(k) = 1/6, k = 1, . . . , 6. El mecanismo aleatorio X = X(U ), definido en (6), se construye de
Rutina 2 la siguiente manera:

1. Partir el intervalo (0, 1] en 6 intervalos sucesivos de longitud 1/6: I1 = (0, 1/6], I2 =


n=10000;
(1/6, 2/6], I3 = (2/6, 3/6], I4 = (3/6, 4/6], I5 = (4/6, 5/6] e I6 = (5/6, 6/6].
A2=zeros(1,n);
for i=1:n 2. Sortear un número aleatorio U .
U=rand(2,24);
V=(U<=1/6); 3. Si U ∈ Ik , X = k.
S=sum(V(1,:).*V(2,:));
En pocas palabras,
if S>=1
A2(i)=1; 6  
X k−1 k
else X= k1 <U ≤ . (7)
6 6
A2(i)=0; k=1
end
Por ejemplo, si sorteamos un número aleatorio, U y se obtiene que U = 0.62346, entonces el
end
valor simulado del dado es X = 4. Una rutina en Octave para simular X es la siguiente
hpA2=sum(A2)/n
Rutina para simular el lanzamiento de un dado
Ejecutando 10 veces la Rutina 2 se obtuvieron los siguientes resultados para la frecuencia
relativa del evento A2 U=rand;
k=0;
0.4829 0.4938 0.4874 0.4949 0.4939 0.4873 0.4882 0.4909 0.4926 0.4880 do
k++;
Notar que los resultados obtenidos se parecen entre sı́ e indican que la probabilidad de
until((k-1)/6<U & U<=k/6)
obtener al menos un doble as en 24 tiros de dos dados es menor que 0.5.
X=k

Conclusión. Los resultados experimentales obtenidos indican que es mejor apostar a que
se obtiene al menos un as en 4 tiros de un dado que apostar a que se obtiene al menos un
doble as en 24 tiros de un dado.
2.3. Estimación de probabilidades
Formalmente, un experimento aleatorio se describe mediante un espacio de probabilidad
(Ω, A, P). Todas las preguntas asociadas con el experimento pueden reformularse en términos
de este espacio. En la práctica, decir que un evento A ocurre con una determinada probabil-
idad P(A) = p equivale a decir que en una serie suficientemente grande de experimentos las
frecuencias relativas de ocurrencia del evento A
nk (A)
p̂k (A) =
nk

16 13
(donde nk es la cantidad de ensayos realizados en la k-ésima serie y nk (A) es la cantidad en Nota Bene. Usando las herramientas que proporciona el análisis combinatorio (ver sección
los que ocurre A) son aproximadamente idénticas unas a otras y están próximas a p. Las series 3) se puede demostrar que para cada k ∈ {0, 1, 2, 3, 4, 5} vale que
de experimentos se pueden simular en una computadora utilizando un generador de números  
5 1
aleatorios. P(N = k) = .
k 32
Ejemplo 2.2. El experimento consiste en lanzar 5 monedas equilibradas y registrar la canti- En otros términos,
dad N de caras observadas. El conjunto de todos los resultados posibles es Ω = {0, 1, 2, 3, 4, 5}.
El problema consiste en asignarle probabilidades a los eventos elementales. P(N = 0) = 0.03125, P(N = 1) = 0.15625, P(N = 2) = 0.31250,
La solución experimental del problema se obtiene realizando una serie suficientemente P(N = 3) = 0.31250, P(N = 4) = 0.15625, P(N = 5) = 0.03125.
grande de experimentos y asignando a cada evento elemental su frecuencia relativa.
Sobre la base de una rutina similar a la que presentamos en la sección 2.1 para simu-
lar el resultado del lanzamiento de una moneda equilibrada se pueden simular n = 10000 Ejemplo 2.3 (Paradoja de De Mere). ¿Cuál de las siguientes apuestas es más conveniente?
realizaciones del experimento que consiste en lanzar 5 monedas equilibradas. Veamos co- Obtener al menos un as en 4 tiros de un dado.
mo hacerlo. Usamos la construcción (5) para simular el lanzamiento de 5 monedas equili-
bradas X1 , X2 , X3 , X4 , X5 . La cantidad de caras observadas es la suma de las Xi : N = Obtener al menos un doble as en 24 tiros de dos dados.
X1 + X2 + X3 + X4 + X5 .
Repitiendo la simulación 10000 veces (o genéricamente n veces), obtenemos una tabla que 1. La construcción (7) permite simular 4 tiros de un dado usando 4 números aleatorios
contiene la cantidad de veces que fué simulado cada valor de la variable N . Supongamos que independientes U1 , U2 , U3 , U4 .
4
obtuvimos la siguiente tabla: La cantidad de ases obtenidos en los 4 tiros es la suma S =
P
1{0 < Ui ≤ 1/6}. El evento
i=1
valor simulado 0 1 2 3 4 5 A1 = “obtener al menos un as en 4 tiros de un dado” equivale al evento S ≥ 1.
(8)
cantidad de veces 308 1581 3121 3120 1564 306 Si repetimos la simulación 10000 veces podemos obtener una estimación (puntual) de la
probabilidad del evento A1 calculando su frecuencia relativa.
En tal caso diremos que se obtuvieron las siguientes estimaciones La siguiente rutina (en Octave) provee una estimación de la probabilidad del evento A1
basada en la repetición de 10000 simulaciones del experimento que consiste en tirar 4 veces
P(N = 0) ≈ 0.0308, P(N = 1) ≈ 0.1581, P(N = 2) ≈ 0.3121,
un dado.
P(N = 3) ≈ 0.3120, P(N = 4) ≈ 0.1564, P(N = 5) ≈ 0.0306.
Rutina 1
Para finalizar este ejemplo, presentamos un programa en Octave que simula diez mil veces
el lanzamiento de cinco monedas equilibradas, contando en cada una la cantidad de caras n=10000;
observadas y que al final provee una tabla como la representada en (8) A1=zeros(1,n);
for i=1:n
U=rand(1,4);
n = 10000; S=sum(U<=1/6);
N = zeros(1,n); if S>=1
for i=1:n A1(i)=1;
U=rand(1,5); else
X=[U<=(1/2)]; A1(i)=0;
N(i)=sum(X); end
end end
for j=1:6 hpA1=sum(A1)/n
T(j)=sum([N==j-1]);
end Ejecutando 10 veces la Rutina 1 se obtuvieron los siguientes resultados para la frecuencia
T relativa del evento A1
0.5179 0.5292 0.5227 0.5168 0.5204 0.5072 0.5141 0.5177 0.5127 0.5244
Notar que los resultados obtenidos se parecen entre sı́ e indican que la probabilidad de obtener
al menos un as en 4 tiros de un dado es mayor que 0.5.

14 15
Notar que las fórmulas (8)-(10), junto con (1), muestran como calcular la probabilidad de
que la variable aleatoria X tome valores en un intervalo de extremos a y b y contienen una
advertencia sobre la acumulación de masa positiva en alguno de los dos extremos. Ejemplo 4.2. Calcular para cada una de las tres estadı́sticas mencionadas, la probabilidad
de que una celda determinada (p.ej., la número 1) no contenga partı́cula.
En cada uno de los tres casos la cantidad de eventos elementales favorables es igual a
la cantidad de ubicaciones de las partı́culas en n − 1 celdas. Por lo tanto, designando por
1.1. Propiedades de la función de distribución pM B , pBE , pF D las probabilidades del evento especificado para cada una de las estadı́sticas
Lema 1.4. Sea X : Ω → R una variable aleatoria. La función de distribución de X, FX (x) = (siguiendo el orden de exposición), tenemos que
P(X ≤ x), tiene las siguientes propiedades:
(n − 1)r 1 r
 
pM B = = 1 − ,
(F1) es no decreciente: si x1 ≤ x2 , entonces FX (x1 ) ≤ FX (x2 ); nr n
r + n − 2 r + n − 1 −1
  
n−1
(F2) es continua a derecha: para todo x0 ∈ R vale que lı́m FX (x) = FX (x0 ); pBE = = ,
x↓x0 n−2 n−1 N +n−1
  −1
(F3) lı́m FX (x) = 0 y lı́m FX (x) = 1. n−1 n r
x→−∞ x→∞ pF D = =1− .
r r n
Demostración. Si r/n = λ y n → ∞, entonces
La propiedad (F1) se deduce de la fórmula (1).
La propiedad (F2) es consecuencia del axioma de continuidad de la medida de probabilidad 1
pM B = e−λ , pBE = , pF D = 1 − λ.
P. Se considera una sucesión decreciente de números positivos que converge a 0, ǫ1 > ǫ2 > 1+λ
. . . > 0, arbitraria,Tpero fija y se definen eventos An = {x0 < X ≤ x0 + ǫn }. Se observa que
Si λ es pequeño, esas probabilidades coinciden hasta O(λ2 ). El número λ caracteriza la “den-
A1 ⊃ A2 ⊃ · · · y An = ∅:
n∈N sidad promedio” de las partı́culas.

0 = lı́m P(An ) = lı́m P(x0 < X ≤ x0 + ǫn ) = lı́m F (x0 + ǫn ) − F (x0 ).


n→∞ n→∞ n→∞

Por lo tanto, Ejercicios adicionales


F (x0 ) = lı́m F (x0 + ǫn ).
n→∞ 11. Utilizando la estadı́stica de Maxwell-Boltzmann construir un mecanismo aleatorio para
Las propiedades (F3) se demuestran de manera similar. estimar el número e.

Observación 1.5. Si se define

FX (x− 4.1. Algunas distribuciones relacionadas con la estadı́stica de Maxwell-


0 ) := lı́m FX (x),
x↑x0 Boltzmann
entonces FX (x− −
0 ) = P(X < x0 ). Por lo tanto, P(X = x0 ) = FX (x0 ) − FX (x0 ). En particular,
Se distribuyen r partı́culas en n celdas y cada una de las nr configuraciones tiene proba-
si FX (x) es continua en x0 , entonces P(X = x0 ) = 0. Si P(X = x0 ) > 0, entonces FX (x) es bilidad n−r .
discontinua en x0 y su discontinuidad es un salto de altura P(X = x0 ) > 0.
4.1.1. Cantidad de partı́culas por celda: la distribución binomial
Cantidad de partı́culas en una celda especı́fica. Para calcular la probabilidad, pM B (k),
Ejercicios adicionales de que una celda especı́fica contengaexactamente k partı́culas (k = 0, 1, . . . , r) notamos que
las k partı́culas pueden elegirse de kr formas, y las restantes r − k partı́culas pueden ubicarse
2. Sea (Ω, A, P) un espacio de probabilidad y X : Ω → R una variable aleatoria con función en las restantes n − 1 celdas de (n − 1)r−k formas. Resulta que
de distribución FX (x).  
r 1
(a) Mostrar que pM B (k) = (n − 1)r−k r
k n
lı́m FX (x) = 0 y lı́m FX (x) = 1.
x→−∞ x→∞

6 31
Dicho en palabras, en la estadı́stica de Maxwell-Boltzmann la probabilidad de que una Nota Bene. El desarrollo anterior presupone que la función Rintensidad de fallas λ(t) verifica

celda dada contenga exactamente k partı́culas está dada por la distribución Binomial (r, n1 ) las siguientes condiciones: (1) λ(t) ≥ 0 para todo t > 0 y (2) 0 λ(t)dt = +∞.
definida por Ejemplo 1.3 (Fiabilidad). Se estipula que la duración de servicio de un sistema automático
   k 
r 1 1 r−k
 debe ser t0 . Si durante ese perı́odo el sistema falla, se lo repara y se lo utiliza hasta que sirva
p(k) := 1− , 0 ≤ k ≤ r. (23) el plazo estipulado. Sea S el tiempo de funcionamiento del sistema después de la primera
k n n
reparación. Queremos hallar la función de distribución de S.
En primer lugar observamos que la relación entre la variable aleatoria S y el instante T
en que ocurre la primera falla del sistema es la siguiente
Cantidad de partı́culas más probable en una celda especı́fica. La cantidad más 
t0 − T si T ≤ t0 ,
probable de partı́culas en una celda especı́fica es el entero ν tal que S = máx(t0 − T, 0) =
0 si T > t0 .
(r − n + 1) (r + 1)
<ν≤ . (24) Sea FS (s) la función de distribución de la variable S. Es claro que para s < 0, FS (s) = 0 y
n n que para s ≥ t0 , FS (s) = 1. Lo que falta hacer es analizar el comportamiento de FS sobre el
Para ser más precisos: intervalo 0 ≤ s < t0 . Sea s ∈ [0, t0 )
pM B (0) < pM B (1) < · · · < pM B (ν − 1) ≤ pM B (ν) > pM B (ν + 1) > · · · > pM B (r). FS (s) = P(S ≤ s) = P(máx(t0 − T, 0) ≤ s) = P(t0 − T ≤ s, 0 ≤ s)
 Z t0 −s 
Demostración. (Ejercicio.) = P(t0 − T ≤ s) = P(t0 − s ≤ T ) = exp − λ(t)dt ,
0
donde λ(t) es la función intensidad de fallas del sistema.
4.1.2. Forma lı́mite: la distribución de Poisson
Forma lı́mite. Si n → ∞ y r → ∞ de modo que la cantidad promedio λ = r/n de partı́culas 1

por celda se mantiene constante, entonces


λk
pM B (k) → e−λ .
k!
Dicho en palabras, la forma lı́mite de la estadı́stica de Maxwell-Boltzmann es la distribución
“ R ”
t
exp − 0 0 λ(t)dt

de Poisson de media λ definida por


λk
p(k) := e−λ , k = 0, 1, 2, . . . (25)
k! 0 t0 s

Demostración. Primero observamos que:


   k  Figura 2: Gráfico de la función de distribución de la variable aleatoria S.
1 r−k
 k 
1 r−k
 
r 1 r! 1
1− = 1−
k n n k!(r − k)! n n Por lo tanto,
1 1 k n − 1 −k 1 r t0 −s
     
r!
 Z 
= 1− FS (s) = exp − λ(t)dt 1{0 ≤ s < t0 } + 1{s ≥ t0 }.
k! n n (r − k)! n 0
1 r
 
1 1 r!
= 1− . (26)
k! (n − 1)k (r − k)! n
Reemplazando en (26) r = λn obtenemos:
Ejercicios adicionales
   k 
1 λn−k 1 λn
  
λn 1 1 1 (λn)!
1− = 1 − 1. Sea X una variable aleatoria con función de distribución FX (x). Mostrar que para cada
k n n k! (n − 1)k (λn − k)! n
 λ pareja de números reales a < b vale que:
1 n

1 1 (λn)!
= 1− P(a ≤ X ≤ b) = FX (b) − FX (a) + P(X = a) (8)
n k! (n − 1)k (λn − k)!
1

1 (λn)!
 P(a ≤ X < b) = FX (b) − P(X = b) − FX (a) + P(X = a) (9)
∼ e−λ . (27) P(a < X < b) = FX (b) − P(X = b) − FX (a) (10)
k! (n − 1)k (λn − k)!

32 5
Ejemplo 1.2 (Fiabilidad). Un problema fundamental de la ingenierı́a es el problema de la Para estimar el último factor del lado derecho de (27) utilizamos la fórmula de Stirling n! ∼
√ 1
fiabilidad. Informalmente, la fiabilidad de un sistema se define como su capacidad para cumplir 2π nn+ 2 e−n :
ciertas funciones prefijadas. Esta propiedad se conserva durante un perı́odo de tiempo hasta √ 1
que ocurre una falla que altera la capacidad de trabajo del sistema. Por ejemplo: rupturas y 1 (λn)! 1 2π (λn)λn+ 2 e−λn
∼ √
cortocircuitos; fracturas, deformaciones y atascamientos de piezas mecánicas; el fundido o la (n − 1)k (λn − k)! (n − 1)k 2π (λn − k)(λn−k)+ 21 e−(λn−k)
combustión de las componentes de un circuito. 1
1 (λn)λn+ 2 e−k
Debido a que las fallas pueden ocurrir como hechos casuales, podemos considerar que el = k
(n − 1) (λn − k)(λn−k)+ 21
tiempo de funcionamiento, T , hasta la aparición de la primer falla es una variable aleatoria
a valores no negativos. λn+ 1
λn − k k
  
λn 2
La fiabilidad de un sistema se caracteriza por su función intensidad de fallas λ(t). Esta = e−k
n−1 λn − k
función temporal tiene la siguiente propiedad: cuando se la multiplica por dt se obtiene la " 1 #−1
k λn+ 2

probabilidad condicional de que el sistema sufra una falla durante el intervalo de tiempo
∼ λk e−k 1−
(t, t + dt] sabiendo que hasta el momento t funcionaba normalmente. Si se conoce la función λn
λ(t) se puede hallar la ley de distribución de probabilidades de T .
∼ λk . (28)
Para calcular la función de distribución de T estudiaremos dos eventos: A := {T > t} (el
sistema funciona hasta el momento t) y B := {t < T ≤ t + dt} (el sistema sufre una falla en De (26), (27) y (28) resulta que
el intervalo de tiempo (t, t + dt]). Como B ⊂ A, tenemos que P(B) = P(B ∩ A) y de la regla
del producto se deduce que    k 
r 1 1 r−k

λk
1− ∼ e−λ . (29)
P(B) = P(B|A)P(A). (2) k n n k!

Si la función de distribución de T admite derivada continua, salvo términos de segundo orden


que se pueden despreciar, la probabilidad del evento B se puede expresar en la forma
P(B) = P (t < T ≤ t + dt) = FT (t + dt) − FT (t) = FT′ (t)dt. (3)
4.2. Algunas distribuciones relacionadas con la estadı́stica de Bose-Einstein
r+n−1

La probabilidad del evento A se puede expresar en la forma Se distribuyen r partı́culas indistinguibles en n celdas y cada una de las n−1 configu-
raciones tiene probabilidad 1/ r+n−1

n−1 .
P(A) = P(T > t) = 1 − P(T ≤ t) = 1 − FT (t). (4)
Finalmente, la probabilidad condicional P(B|A) se expresa mediante la función intensidad de 4.2.1. Cantidad de partı́culas por celda
fallas λ(t): Cantidad de partı́culas en una celda especı́fica. Para calcular la probabilidad, pBE (k),
P(B|A) = λ(t)dt (5) de que una celda especı́fica contenga exactamente k partı́culas (k = 0, 1, . . . , r) fijamos k de
los r ceros y 1 de los n − 1 unos para representar que hay k partı́culas en la urna especı́fica.
Sustituyendo las expresiones (3)-(5) en la fórmula (2) obtenemos, después de dividir ambos La cantidad de configuraciones distintas que pueden formarse con los restantes r − k ceros y
miembros por dt, una ecuación diferencial de primer orden para FT (t) n − 2 unos es r−k+n−2

. Resulta que
n−2
FT′ (t) = λ(t)(1 − FT (t)). (6)
r − k + n − 2 r + n − 1 −1
  
Debido a que la duración del servicio del sistema no puede ser negativa, el evento {T ≤ 0} es pBE (k) = . (30)
n−2 n−1
imposible. En consecuencia, FT (0) = 0. Integrando la ecuación diferencial (6) con la condición
inicial F (0) = 0, obtenemos 2 Cantidad de partı́culas más probable en una celda especı́fica. Cuando n > 2 la
 Z t
cantidad más probable de partı́culas en una celda especı́fica es 0 o más precisamente pBE (0) >

FT (t) = 1 − exp − λ(s)ds . (7) pBE (1) > · · · .
0
2
Demostración. (Ejercicio.)
FT′ (t) d
FT′ (t) = λ(t)(1 − FT (t)) ⇐⇒ = λ(t) ⇐⇒ log(1 − FT (t)) = −λ(t)
1 − FT (t) dt
Z t „ Z t «
⇐⇒ log(1 − FT (t)) = − λ(s)ds + C ⇐⇒ FT (t) = 1 − exp − λ(s)ds + C .
0 0

Usando que FT (0) = 0 se deduce que C = 0.

4 33
4.2.2. Forma lı́mite: la distribución de Geométrica 1. Variables aleatorias
Forma lı́mite. Si n → ∞ y r → ∞ de modo que la cantidad promedio λ = r/n de partı́culas Sea (Ω, A, P) un espacio de probabilidad. Una variable aleatoria sobre Ω es una función
por celda se mantiene constante, entonces X : Ω → R tal que para todo x ∈ R
λk
pBE (k) → . {X ≤ x} := {ω ∈ Ω : X(ω) ≤ x} ∈ A,
(1 + λ)k+1
Dicho en palabras, la forma lı́mite de la estadı́stica de Bose-Einstein es la distribución ge- i.e., para todo x ∈ R el evento {X ≤ x} tiene asignada probabilidad. La función de distribu-
1
ométrica de parámetro 1+λ definida por ción FX : R → [0, 1] de la variable aleatoria X se define por
 k FX (x) := P(X ≤ x).
1 1
p(k) := 1 − , k = 0, 1, 2, . . .
1+λ 1+λ
Cálculo de probabilidades. La función de distribución resume (y contiene) toda la in-
Demostración. Primero observamos que: formación relevante sobre de la variable aleatoria. Para ser más precisos, para cada pareja de
números reales a < b vale que 1
r − k + n − 2 r + n − 1 −1
  
(r − k + n − 2)! (n − 1)!r!
= P(a < X ≤ b) = FX (b) − FX (a). (1)
n−2 n−1 (n − 2)!(r − k)! (r + n − 1)!
(n − 1)! r! (r − k + n − 2)!
= . (31)
(n − 2)! (r − k)! (r + n − 1)!
Reemplazando en el lado derecho de (31) r = λn obtenemos: Ejemplos
(n − 1)! (λn)! (λn − k + n − 2)! Ejemplo 1.1 (Dado equilibrado). Sea X el resultado del lanzamiento de un dado equilibrado.
(32) Los posibles valores de X son 1, 2, 3, 4, 5, 6. Para cada k ∈ {1, 2, 3, 4, 5, 6} la probabilidad de
(n − 2)! (λn − k)! (λn + n − 1)!
que X tome el valor k es 1/6.
Para estimar los factores que intervienen en (32) utilizamos la fórmula de Stirling n! ∼
√ 1 Sea x ∈ R. Si x < 1 es evidente que P(X ≤ x) = 0. Si k ≤ x < k + 1 para algún
2π nn+ 2 e−n : k ∈ {1, 2, 3, 4, 5} la probabilidad del evento {X ≤ x} es la probabilidad de observar un valor
1
" n−1 #−1 menor o igual que k y en consecuencia, P(X ≤ x) = k/6. Finalmente, si x ≥ 6 es evidente
(n − 1)n−1+ 2 e−n+1 −1 1
1 ∼ (n − 2)e 1 − que P(X ≤ x) = 1.
(n − 2)n−2+ 2 e−n+2 n−1
∼ n − 2 ∼ n, (33) 1
1
" λn #−1
(λn)λn+ 2 e−λn k −k k 5/6
1 ∼ (λn − k) e 1−
(λn − k)λn−k+ 2 e−λn+k λn 4/6

3/6
k k k
∼ (λn − k) ∼ λ n , (34)
2/6
λn−k+n−2+ 21
(λn − k + n − 2) e−λn+k−n+2
1 ∼ (λn − k + n − 2)−k−1 ek+1 1/6

(λn + n − 1)λn+n−1+ 2 e−λn−n+1


 λn+n−1
k+1 0 1 2 3 4 5 6 x
× 1−
λn + n − 1
∼ (λn − k + n − 2)−k−1 Figura 1: Gráfico de la función de distribución del resultado de lanzar un dado equilibrado.
1
∼ . (35) Por lo tanto, la función de distribución de X se puede expresar del siguiente modo
(1 + λ)k+1 nk+1
6
De (31), (32), (33), (34) y (35) resulta que X 1
FX (x) = 1{k ≤ x}.

r − k + n − 2 r + n − 1 −1
 
λk 6
k=1
∼ . (36)
n−2 n−1 (1 + λ)k
1
Basta observar que {X ≤ a} ⊂ {X ≤ b} y usar las propiedades de la probabilidad. De la igualdad
{a < X ≤ b} = {X ≤ b} \ {X ≤ a} se deduce que P(a < X ≤ b) = P(X ≤ b) − P(X ≤ a) = FX (b) − FX (a).

34 3
Índice Ejercicios adicionales

1. Variables aleatorias 3 12. Considerando la estadı́stica de Maxwell-Boltzmann para la distribución aleatoria de r


1.1. Propiedades de la función de distribución . . . . . . . . . . . . . . . . . . . . 6 partı́culas en n celdas demostrar que la cantidad de de partı́culas más probable en una celda
1.2. Clasificación de variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . 7 determinada es la parte entera de r+1
n .
1.3. Cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4. Construcción de variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . 13 13. Considerando la estadı́stica de Bose-Einstein para la distribución aleatoria de r partı́culas
1.5. Función de distribución empı́rica e histogramas . . . . . . . . . . . . . . . . . 17 (indistinguibles) en n > 2 celdas demostrar que la cantidad de de partı́culas más probable en
una celda determinada es 0.
2. Variables truncadas 21
2.1. Perdida de memoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2. Caracterización cualitativa de la distribución exponencial . . . . . . . . . . . 23 4.3. Tiempos de espera
2.3. Dividir y conquistar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Consideramos una vez más el experimento conceptual de ubicar aleatoriamente partı́culas
3. Bibliografı́a consultada 24 (distinguibles) en n celdas. Solo que ahora no fijamos la cantidad r de partı́culas y ubicamos
las partı́culas una por una hasta que ocurra alguna situación prescrita. Analizaremos dos
situaciones:
(i) Ubicar partı́culas hasta que alguna se ubique en una celda ocupada previamente.

(ii) Fijada una celda, ubicar partı́culas hasta que alguna ocupe la celda.

Situación (i). Usamos sı́mbolos de la forma (j1 , j2 , . . . , jr ) para indicar que la primera, la
segunda,... y la r-ésima partı́cula están ubicadas en las celdas j1 , j2 , . . . , jr y que el proceso
culmina en el paso r. Esto significa que las ji son enteros entre 1 y n; que las j1 , j2 , . . . , jr−1
son todas diferentes y que jr es igual a una de ellas. Toda configuración de ese tipo representa
un punto muestral. Los posibles valores de r son 2, 3, . . . , n + 1.
Para un r fijo el conjunto de todos los puntos muestrales (j1 , j2 , . . . , jr ) representa el
evento que el proceso termina en el r-ésimo paso. Los números j1 , j2 , . . . , jr−1 pueden elegirse
de (n)r−1 formas diferentes; jr podemos elegir uno de los r − 1 números j1 , j2 , . . . , jr−1 . Por
lo tanto la probabilidad de que el proceso termine en el r-ésimo paso es
(n)r−1 (r − 1)
pr = . (37)
nr

Situación (ii). Usamos sı́mbolos de la forma (j1 , j2 , . . . , jr ) para indicar que la primera, la
segunda,... y la r-ésima partı́cula están ubicadas en las celdas j1 , j2 , . . . , jr y que el proceso
culmina en el paso r. Las r-uplas (j1 , j2 , . . . , jr ) están sujetas a la condición de que los números
j1 , j2 , . . . , jr−1 son diferentes de un número prescrito a ≤ n, y jr = a.
Para un r fijo el conjunto de todos los puntos muestrales (j1 , j2 , . . . , jr ) representa el
evento que el proceso termina en el r-ésimo paso. Los números j1 , j2 , . . . , jr−1 pueden elegirse
de (n − 1)r−1 formas diferentes; jr debe ser a. Por lo tanto la probabilidad de que el proceso
termine en el r-ésimo paso es

(n − 1)r−1
pr = . (38)
nr

2 35
5. Bibliografı́a consultada
Para redactar estas notas se consultaron los siguientes libros:

1. Bertsekas, D. P., Tsitsiklis, J. N.: Introduction to Probability. M.I.T. Lecture Notes. Variables aleatorias: nociones básicas
(2000) (Borradores, Curso 23)
2. Brémaud, P.: An Introduction to Probabilistic Modeling. Springer, New York. (1997)

3. Durrett, R. Elementary Probability for Applications. Cambridge University Press, New Sebastian Grynberg
York. (2009)
20 de marzo 2013
4. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 1. John
Wiley & Sons, New York. (1957)

5. Ferrari, P.: Passeios aleatórios e redes eletricas. Instituto de Matemática Pura e Apli-
cada. Rio de Janeiro. (1987)

6. Grinstead, C. M. & Snell, J. L. Introduction to Probability. American Mathematical


Society. (1997)

7. Kolmogorov, A. N.: Foundations of the Theory of Probability. Chelsea Publishing Co.,


New York. (1956)

8. Kolmogorov, A. N.: The Theory of Probability. Mathematics. Its Content, Methods,


and Meaning. Vol 2. The M.I.T. Press, Massachusetts. (1963) pp. 229-264.

9. Meester, R.: A Natural Introduction to Probability Theory. Birkhauser, Berlin. (2008)

10. Meyer, P. L.: Introductory Probability and Statistical Applications. Addison-Wesley,


Massachusetts. (1972)

11. Ross, S. M: Introduction to Probability and Statistics foe Engineers and Scientists.
Elsevier Academic Press, San Diego. (2004)

12. Skorokhod, A. V.: Basic Principles and Applications of Probability Theory. Springer-
Verlag, Berlin. (2005)

13. Soong, T. T.: Fundamentals of Probability and Statistics for Engineers. John Wiley &
Sons Ltd. (2004)

14. Stoyanov, J.: Counterexamples in Probability. John Wiley & Sons. (1997)

... el único héroe válido es el héroe “en grupo”,


nunca el héroe individual, el héroe solo.
(Héctor G. Oesterheld)

36 1
5. Bibliografı́a consultada
Para redactar estas notas se consultaron los siguientes libros:

1. Bertsekas, D. P., Tsitsiklis, J. N.: Introduction to Probability. M.I.T. Lecture Notes. Probabilidad Condicional, Independencia Estocástica
(2000) Algunos modelos probabilı́sticos
2. Brémaud, P.: An Introduction to Probabilistic Modeling. Springer, New York. (1997) (Borradores, Curso 23)
3. Durrett, R. Elementary Probability for Applications. Cambridge University Press, New
York. (2009) Sebastian Grynberg
4. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 1. John
18-20 de marzo 2013
Wiley & Sons, New York. (1957)

5. Grinstead, C. M. & Snell, J. L. Introduction to Probability. American Mathematical


Society. (1997)

6. Meester, R.: A Natural Introduction to Probability Theory. Birkhauser, Berlin. (2008)

7. Meyer, P. L.: Introductory Probability and Statistical Applications. Addison-Wesley,


Massachusetts. (1972)

8. Ross, S. M: Introduction to Probability and Statistics foe Engineers and Scientists.


Elsevier Academic Press, San Diego. (2004)

9. Skorokhod, A. V.: Basic Principles and Applications of Probability Theory. Springer-


Verlag, Berlin. (2005)

10. Soong, T. T.: Fundamentals of Probability and Statistics for Engineers. John Wiley &
Sons Ltd. (2004)

“No importa lo que yo piense.


Es lo que tú piensas lo que es relevante.”
(Dr. House)

20 1
Índice Nota Bene.P El método de las masas puntuales
R puede generalizarse de la siguiente forma:
la suma xi se reemplaza por la integral dx y las masas puntuales p(xi ) por una función
1. Probabilidad Condicional 3 ρ(x) denominada densidad de probabilidades. Esta metodologı́a es de uso común en mecánica:
1.1. Probabilidad Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 primero se consideran sistemas con masas puntuales discretas donde cada punto tiene masa
1.2. Fórmula de probabilidad total . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 finita y después se pasa a la noción de distribución de masa continua, donde cada punto tiene
1.3. Regla de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 masa cero. En el primer caso, la masa total del sistema se obtiene simplemente sumando
las masas de los puntos individuales; en el segundo caso, las masas se calculan mediante
2. Independencia estocástica 10 integración sobre densidades de masa. Salvo por las herramientas técnicas requeridas, no hay
diferencias esenciales entre ambos casos.
3. Modelos discretos 11
Definición 4.4. Una densidad de probabilidades sobre Rn es una función (“más o menos
4. Modelos continuos 14 razonable”) no negativa ρ : Rn → R+ tal que
4.1. Puntos al azar sobre un segmento. La distribución uniforme . . . . . . . . . . 14 Z
4.2. Geometrı́a y probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 ρ(x) dx = 1.
4.3. Paradoja de Bertrand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 Rn

4.4. De las masas puntuales a la masa continua . . . . . . . . . . . . . . . . . . . 18


Masa continua. Tomamos una densidad de probabilidades ρ : Rn → R+ y para cada
5. Bibliografı́a consultada 20 subconjunto A ⊂ Rn (“más o menos razonable”) y definimos P(A) como la integral de la
densidad ρ(x) sobre el conjunto A:
Z
P(A) := ρ(x)dx
A

Ejemplo 4.5 (Gaussiana). La función ρ : R2 → R+ definida por


 2
x + y2

1
ρ(x, y) = exp −
2π 2
es una densidad de probabilidades sobre R2 denominada gaussiana bidimensional. En efecto,
 2
x + y2
ZZ ZZ 
2πρ(x, y)dxdy = exp − dxdy
R2 2 2
ZRZ
exp −(x2 + y 2 ) dxdy

= 2
R2
Z 2π Z ∞ 
2
= 2 e−ρ ρ dρ dθ
0 0
Z 2π Z ∞ 
2
= e−ρ 2ρ dρ dθ
0 0
= 2π. (13)

Nota Bene. Observando con cuidado las identidades (13) se puede ver que
Z
2 √
e−x /2 dx = 2π.
R

Por lo tanto, la función ϕ : R → R+ definida por


1 2
ϕ(x) = √ e−x /2

es una densidad de probabilidades sobre R.

2 19
Segundo modelo. Sea Ω2 el cı́rculo de radio 1, Ω2 = {(x, y) ∈ R2 : x2 + y 2 = 1}, con la 1. Probabilidad Condicional
σ-álgebra A de los “subconjuntos cuya longitud está definida”. Para cada A ∈ A,
1.1. Probabilidad Condicional
longitud(A) longitud(A)
P2 (A) = = .
longitud(Ω)) 2π Sea (Ω, A, P) un espacio de probabilidad.
C y D se construyen del siguiente modo: Se fija el punto C; con la ley P2 se sortea un Definición 1.1 (Probabilidad condicional). Sea A ⊂ Ω un evento de probabilidad positiva.
punto ω sobre el cı́rculo de radio 1 y se pone D = ω. La longitud √ de CD es una una Para cada evento B definimos
función de ω que llamaremos ℓ(ω). El conjunto {ω : ℓ(ω)) ≥ 3} es el segmento del
cı́rculo determinado dos vértices del triángulo equilátero inscripto en el cı́rculo, a saber: P(B ∩ A)
P(B|A) := . (1)
los del lado opuesto al vértice C. Por lo tanto, P(A)
√ 2π/3 1 La cantidad definida en (1) se llama la probabilidad condicional de B dado que ocurrió A.
P2 (ℓ(ω) ≥ 3) = = .
2π 3
Nota Bene (La probabilidad condicional induce una medida de probabilidad sobre
Tercer modelo. Sea Ω3 el intervalo [0, 1] con la σ-álgebra A de los “subconjuntos cuya
los eventos aleatorios). Valen las siguientes propiedades:
longitud está definida”. Para cada A ∈ A,
P3 (A) = longitud(A). 1. Para cada B ∈ A, P(B|A) ≥ 0;

C y D se construyen del siguiente modo: se sortea un punto ω sobre el intervalo [0, 1] 2. P(Ω|A) = 1;
del eje x y CD es la cuerda perpendicular al eje x que pasa por ω. Es claro que,
√ 3. Si los eventos B y C no tienen elementos en común, entonces
ℓ(ω) ≥ 3 ⇐⇒ ω ∈ [1/2, 1].
P(B ∪ C|A) = P(B|A) + P(C|A).
Por lo tanto, la tercer respuesta es 1/2.
T∞
4. Para cada sucesión decreciente de eventos B1 ⊃ B2 ⊃ · · · tal que n=1 Bn = ∅ vale que
Nota Bene. Obtuvimos 3 respuestas diferentes: 1/4, 1/3 y 1/2. Sin embargo, no hay porque lı́mn→∞ P(Bn |A) = 0.
sorprenderse debido a que los modelos probabilı́sticos correspondientes a cada respuesta son
diferentes. Cuál de los tres es el “bueno” es otro problema. El modelo correcto depende Comparando las propiedades 1-4 con los axiomas I-IV, se concluye que la función P(·|A) :
del mecanismo usado para dibujar la cuerda al azar. Los tres mecanismos anteriores son A → R es una medida de probabilidad sobre los eventos aleatorios. Por lo tanto, todos los
puramente intelectuales, y muy probablemente, no corresponden a ningún mecanismo fı́sico. resultados generales referidos a la propiedades de P(·) también valen para la probabilidad
Para discriminar entre modelos probabilı́sticos en competencia se debe recurrir al análisis condicional P(·|A).
estadı́stico que esencialmente se basa en dos resultados de la Teorı́a de Probabilidad: la ley
Ejemplo 1.2. Se lanza un dado equilibrado. Sabiendo que el resultado del dado no superó al
fuerte de los grandes números y el teorema central del lı́mite.
4, cuál es la probabilidad condicional de haber obtenido un 3? Denotando mediante A al
evento “el resultado no supera al 4” y mediante B el evento “el resultado es 3”. Tenemos que
4.4. De las masas puntuales a la masa continua
P(A) = 4/6, P(B) = 1/6 y P(A ∩ B) = P(A) = 1/6. Ası́
Para concluir está sección mostraremos un par de métodos para construir medidas de
probabilidad sobre Rn . P(B ∩ A) 1/6 1
P(B|A) = = = ,
P(A) 4/6 4
Masas puntuales. Tomamos una sucesión de puntos {x1 , x2 , . . . } en Rn y una sucesión de lo que intuitivamente tiene sentido (¿por qué?).
números no negativos {p(x1 ), p(x2 ), . . . } tales que

X Probabilidad compuesta. De la definición de la probabilidad condicional del evento B
p(xi ) = 1 dado que ocurrió el evento A resulta inmediatamente la siguiente fórmula
i=1

y para cada A ⊂ Rn definimos P(A) como la suma de las “masas puntuales”, p(xi ), de los P(A ∩ B) = P(B|A)P(A). (2)
puntos xi contenidos en A:
X denominada regla del producto.
P(A) := p(xi ). El siguiente Teorema generaliza la regla del producto (2) y se obtiene por inducción.
xi ∈A

18 3
A1 ∩ A2 ∩ A3 ∩ni=1 Ai Observando la Figura 6 está claro que el área del evento A se obtiene restando al área del
cuadrado de lado L el área del cuadrado de lado L/2:
n−1
P(A1 ) P(A2 |A1 ) P(A3 |A2 ∩ A1 ) P(An | ∩i=1 Ai ) L2 3
área de A = L2 − = L2 .
A1 A2 A3 An−1 An 4 4
Como el área total del espacio muestral es L2 , resulta que P(A) = 3/4.
Ejemplo 4.3 (Las agujas de Buffon). Una aguja de longitud 2l se arroja sobre un plano
dividido por rectas paralelas. La distancia entre rectas es 2a. Suponiendo que l < a, cuál es
Figura 1: Ilustración de la regla del producto. El evento ∩ni=1 Ai tiene asociada una única la probabilidad de que la aguja intersecte alguna de las rectas?
trayectoria sobre un árbol que describe la historia de un experimento aleatorio realizado por Localizamos la aguja mediante la distancia ρ de su centro a la recta más cercana y el
etapas sucesivas. Las aristas de esta trayectoria corresponden a la ocurrencia sucesiva de los ángulo agudo θ entre la recta y la aguja: 0 ≤ ρ ≤ a y 0 ≤ θ ≤ π/2. El rectángulo determinado
eventos A1 , A2 , . . . , An y sobre ellas registramos la correspondiente probabilidad condicional. por esas desigualdades es el espacio muestral Ω. El evento A = “la aguja interesecta la recta”
El nodo final de la trayectoria corresponde al evento ∩ni=1 Ai y su probabilidad se obtiene multi- ocurre si ρ ≤ l sen θ. La probabilidad de A es el cociente del área de la figura determinada
plicando las probabilidades condicionales registradas a lo largo de las aristas de la trayectoria: por las tres desigualdades 0 ≤ ρ ≤ a, 0 ≤ θ ≤ π/2 y ρ ≤ l sen θ y el área del rectángulo πa/2.
n−1
R π/2
P(∩ni=1 Ai ) = P(A1 )P(A2 |A1 )P(A3 |A2 ∩A1 ) · · · P(An |∩i=1 Ai ). Notar que cada nodo intermedio El área de la figura es 0 l sen(θ)dθ = l. Por lo tanto, la probabilidad de intersección es
a lo largo de la trayectoria también corresponde a un evento intersección y su probabilidad se 2l
obtiene multiplicando las probabilidades condicionales registradas desde el inicio de la trayec- P(A) = . (12)
πa
toria hasta llegar al nodo. Por ejemplo, el evento A1 ∩ A2 ∩ A3 corresponde al nodo indicado
La fórmula (12) indica un método aleatorio para estimar π: arrojar la aguja n veces sobre el
en la figura y su probabilidad es P(A1 ∩ A2 ∩ A3 ) = P(A1 )P(A2 |A1 )P(A3 |A1 ∩ A2 ).
plano y contar n(A) la cantidad de veces que la aguja interesectó alguna recta:

Teorema 1.3 (Regla del producto). Suponiendo que todos los eventos condicionantes tienen π̂ = 2(l/a)(n/n(A)).
probabilidad positiva, tenemos que
n−1 
P (∩ni=1 Ai ) = P An ∩i=1 Ai · · · P (A3 |A1 ∩ A2 ) P(A2 |A1 )P(A1 ). (3)
4.3. Paradoja de Bertrand
Ejemplo 1.4. Una urna contiene 5 bolas rojas y 10 bolas negras. Se extraen dos bolas al Se dibuja una cuerda aleatoria CD √ sobre el cı́rculo de radio 1. ¿Cuál es la probabilidad que
azar sin reposición. ¿Cuál es la probabilidad que ambas bolas sean negras? la longitud de la cuerda CD supere 3, la longitud del lado del triángulo equilátero inscripto
Sean N1 y N2 los eventos definidos por “la primer bola extraı́da es negra” y “la segunda en dicho cı́rculo?
bola extraı́da es negra”, respectivamente. Claramente P(N1 ) = 10/15. Para calcular P(N2 |N1 ) Este es un ejemplo de un problema planteado de manera incompleta. La pregunta que
observamos que si ocurrió N1 , entonces solo 9 de las 14 bolas restantes en la urna son negras. debe formularse es la siguiente ¿qué significa elegir “aleatoriamente”? Bertrand propuso tres
Ası́ P(N2 |N1 ) = 9/14 y respuestas diferentes a esa pregunta. Las diferentes respuestas corresponden en realidad a
10 9 3 diferentes modelos probabilı́sticos, i.e., diferentes espacios de probabilidad concretos (Ω, A, P).
P(N2 ∩ N1 ) = P(N2 |N1 )P(N1 ) = · = .
15 14 7 Primer modelo. Sea Ω1 la bola de radio 1, Ω1 = {(x, y) ∈ R2 : x2 + y 2 ≤ 1}, con la
σ-álgebra A de los “subconjuntos cuya área está definida”. Para cada A ∈ A,
área(A) área(A)
1.2. Fórmula de probabilidad total P1 (A) = = .
área(Ω) π
Teorema 1.5 (Fórmula de S probabilidad total). Sea A1 , A2 , . . . una sucesión de eventos dis- C y D se construyen del siguiente modo: usando la ley de distribución P1 se sortea un
juntos dos a dos tal que An = Ω. Para cada B ∈ A vale la siguiente fórmula punto ω sobre la bola de radio 1 y CD es perpendicular al segmento 0ω cuyos extremos
n≥1
son (0, 0) y ω. La longitud
√ de CD es una función de ω que llamaremos ℓ(ω). Queremos
calcular P1 (ℓ(ω) ≥ 3). Notar que
X
P(B) = P(B|An )P(An ), (4)
n≥1 √ 1
ℓ(ω) ≥ 3 ⇐⇒ longitud(0ω) ≥ .
denominada fórmula de probabilidad total 1 . 2
Por lo tanto,
1 √ π − π/4 3
Rigurosamente, P(B|An ) está definida cuando P(An ) > 0, por lo cual en la fórmula (4) interpretaremos P1 (ℓ(ω) ≥ 3) = = .
que P(B|An )P(An ) = 0 cuando P(An ) = 0. π 4

4 17
“Puntos al azar en regiones planas”. Si hacemos abstracción de la forma circular del A∩B
blanco y de la semántica involucrada en el juego de dardos, obtenemos un modelo proba- P(B|A) B
bilı́stico para el experimento conceptual que consiste en “sortear” o elegir un punto al azar A
en una región plana Λ ⊂ R2 de área finita y positiva. El espacio muestral es la región plana,
Ω = Λ, la σ-álgebra de los eventos, A, es la familia de todos los subconjuntos de Λ a los que
se les puede medir el área y la probabilidad de cada evento A es la fracción del área de Λ P(A)
contenida en A. Esto es, P(B c |A) Bc
A ∩ Bc
área(A)
P(A) := . (11)
área(Λ)
Ac ∩ B
Esta forma de asignar probabilidades es la equivalente para el caso continuo de la fórmula
casos favorables sobre casos posibles utilizada en espacios muestrales finitos para modelar P(B|Ac ) B
experimentos aleatorios con resultados equiprobables. P(Ac )

Nota Bene. Si en lugar de elegir un punto al azar dentro del segmento [a, b] elegimos
Ac
dos puntos de manera independiente, el experimento tendrá por resultado un par de números
reales contenidos en [a, b]. El espacio muestral será el cuadrado de lado [a, b], Ω = [a, b] × [a, b]. P(B c |Ac ) Bc
En este espacio la asignación de probabilidades definida en (11) resulta consistente con la Ac ∩ B c
noción de independencia.

Ejemplo 4.2. Se eligen al azar (y en forma independiente) dos puntos x1 y x2 dentro de un Figura 2: Ilustración de la fórmula de probabilidad total. Un experimento de dos
segmento de longitud L. Hallar la probabilidad de que la longitud del segmento limitado por etapas binarias y su correspondiente diagrama de árbol. La primera ramificación (de izquierda
los puntos x1 y x2 resulte menor que L/2. a derecha) se basa en el resultado de la primer etapa del experimento (A o Ac ) y la segunda
en su resultado final (B o B c ). Multiplicando las probabilidades registradas a lo largo de
0000000000000000
0000000000000000000000000000000
1111111111111111111111111111111
1111111111111111 cada trayectoria se obtiene la probabilidad del evento intersección representado por el nodo
L
0000000000000000000000000000000
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111 final. Sumando las probabilidades de las trayectorias que corresponden al evento B se obtiene:
0000000000000000000000000000000
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111 P(B) = P(A ∩ B) + P(Ac ∩ B) = P(B|A)P(A) + P(B|Ac )P(Ac ).
0000000000000000000000000000000
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
L1111111111111111111111111111111
000000000000000000000000000000010
21111111111111111111111111111111
000000000000000000000000000000010 Demostración de la fórmula de probabilidad total. De la identidad de conjuntos
0000000000000000000000000000000
1111111111111111111111111111111
00000000000000000000000000000001010
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
10
 
0000000000000000000000000000000
1111111111111111111111111111111
00000000000000000000000000000001010
1111111111111111111111111111111 B =B∩Ω=B∩
[
An  =
[
(B ∩ An )
0000000000000000000000000000000
1111111111111111111111111111111

0
00000000000000000000000000000001010
1111111111111111111111111111111
L
n≥1 n≥1
2
L
y la σ-aditividad de la medida de probabilidad P se deduce que

Figura 6: La región sombreada corresponde al evento A=“la longitud del segmento limitado
X
P(B) = P(B ∩ An ).
por los puntos x1 y x2 resulte menor que L/2”. n=1

El espacio muestral de este experimento es un cuadrado de lado L que puede representarse Si P(An ) = 0, P(B ∩ An ) = 0 porque B ∩ An ⊂ An . Si P(An ) > 0, entonces P(B ∩ An ) =
en la forma Ω = {(x1 , x2 ) : 0 ≤ x1 ≤ L, 0 ≤ x1 ≤ L}. P(B|An )P(An ).
El evento A=“la longitud del segmento limitado por los puntos x1 y x2 resulte menor que
L/2” puede ocurrir de dos maneras distintas: Nota Bene: Cálculo mediante condicionales. Si se dispone de una colección de eventos
(1) si x1 ≤ x2 , se debe cumplir la desigualdad x2 − x1 < L/2; A1 , A2 , . . . de los cuales uno y solamente uno debe ocurrir, la fórmula de probabilidad total
(2) si x2 < x1 , debe cumplirse la desigualdad x1 − x2 < L/2. (4) permite calcular la probabilidad de cualquier evento B condicionando a saber cuál de los
eventos Ai ocurrió. Más precisamente, la fórmula (4) establece que la probabilidad P(B) es
igual al promedio ponderado de las probabilidades condicionales P(B|Ai ) donde cada término

16 5
se pondera por la probabilidad del evento sobre el que se condicionó. Esta fórmula es útil 1. Definimos A0 como la familia de los intervalos contenidos en Ω de la forma [a, b], [a, b),
debido a que a veces es más fácil evaluar las probabilidades condicionales P(B|Ai ) que calcular (a, b] o (a, b), a ≤ b (notar que A0 no es un álgebra) y definimos P0 : A0 → R de la
directamente la probabilidad P(B). siguiente manera:

Ejemplo 1.6 (Experimentos de dos etapas). La primera etapa del experimento produce P0 (A) := longitud(A) = b − a, si los extremos del intervalo A son a y b.
una partición A1 , A2 , . . . del espacio muestral Ω. La segunda etapa produce el evento B. La
fórmula (4) se utiliza para calcular la probabilidad de B. 2. La familia A1 de todas las uniones finitas de conjuntos disjuntos de A0 es un álgebra
de eventos y la función P1 : A1 → R definida por
Ejemplo 1.7. Una urna contiene 5 bolas rojas y 10 bolas negras. Se extraen dos bolas sin k k
reposición. ¿Cuál es la probabilidad de que la segunda bola sea negra?
X [
P1 (A) := P0 (Ai ), si A = Ai ,
El espacio muestral de este experimento aleatorio se puede representar como las trayecto- i=1 i=1
rias a lo largo de un árbol como se muestra en la Figura 3.
donde A1 , . . . , Ak ∈ A0 y Ai ∩ Aj = ∅ para toda pareja de ı́ndices i 6= j, es una medida
P(ω) de probabilidad (pues satisface los axiomas I-IV).

4/14 ω1 , 4/42 3. El teorema de extensión se ocupa del resto: la medida de probabilidad P1 definida sobre
el álgebra A1 se extiende unı́vocamente a una medida de probabilidad P definida sobre
la σ-álgebra generada por A1 , A := σ(A1 ).
1/3 10/14 ω2 , 10/42
Nota Bene. Esta definición de probabilidad que a cada intervalo A ⊂ [0, 1] le asigna su
respectiva longitud se llama la distribución uniforme sobre el intervalo [0, 1] y constituye una
generalización de la noción de equiprobabilidad sobre la que se basa la definición de Laplace
de la probabilidad para espacios finitos: “casos favorables sobre casos posibles”.

2/3
5/14
ω3 , 10/42
4.2. Geometrı́a y probabilidad
Una construcción completamente análoga a la de la sección anterior permite describir
teóricamente el experimento conceptual, intuitivamente claro, que consiste en elegir un punto
9/14 ω4 , 18/42 al azar dentro de una región plana, Λ ⊂ R2 , de área finita y no nula. Para fijar ideas, se puede
imaginar que la región plana es un blanco sobre el que se arroja un dardo.
Ejemplo 4.1 (Dardos). El juego de dardos consiste en tirar un dardo contra un blanco
Figura 3: Observando el árbol se deduce que la probabilidad de que la segunda bola sea negra
circular. Supongamos que disparamos un dardo (que acertamos al blanco) y observamos dónde
10
es: 13 · 14 + 32 · 14
9
= 23 .
se clavó. Naturalmente, los resultados posibles de este experimento son todos los puntos del
blanco. No se pierde generalidad si se supone que el centro del blanco es el origen de R2 y
Formalmente, el problema se resuelve mediante la fórmula de probabilidad total. Sean Ni
que su radio es 1. En tal caso el espacio muestral de este experimento es
y Ri los eventos definidos por “la i-ésima bola extraı́da es negra” y “la i-ésima bola extraı́da
es roja”, respectivamente (i = 1, 2). Vale que Ω = {(x, y) ∈ R2 : x2 + y 2 ≤ 1}.
10 5 10 9 Intuitivamente, la probabilidad de acertarle a un punto predeterminado (arbitrario) deberı́a
P(N1 ) = , P(R1 ) = , P(N2 |R1 ) = , P(N2 |N1 ) = .
15 15 14 14 ser cero. Sin embargo, la probabilidad de que el dardo se clave en cualquier subconjunto
(“gordo”) A del blanco deberı́a ser proporcional a su área y determinarse por la fracción del
Usando la fórmula de probabilidad total obtenemos
área del blanco contenida en A. En consecuencia, definimos
P(N2 ) = P(N2 ∩ R1 ) + P(N2 ∩ N1 ) área de A área de A
P(A) := = .
= P(N2 |R1 )P(R1 ) + P(N2 |N1 )P(N1 ) área del blanco π
10 1 9 2 28 2 Por ejemplo, si A = {(x, y) : x2 + y 2 ≤ r2 } es el evento que el dardo caiga a distancia r < 1
= · + · = = .
14 3 14 3 42 3 del centro del blanco, entonces
πr2
P(A) = = r2 .
π

6 15
El evento A2 =“ceca en el primer lanzamiento” está dado por todos los elementos de Ω que 1.3. Regla de Bayes
comienzan con T :
Primera versión de la regla de Bayes. Sean A y B dos eventos de probabilidad positiva.
A2 = {T T, T HH, T HT T, T HT HH, . . . },
De la regla del producto (2) y su análoga P(A ∩ B) = P(A|B)P(B) se obtiene la siguiente
y su probabilidad es fórmula importante

P(A2 ) = P(T T ) + P(T HH) + P(T HT T ) + P(T HT HH) + · · · P(B|A)P(A)


P(A|B) = , (5)
1 1 1 1 1 P(B)
= + + + + ··· = .
22 23 24 25 2 que contiene lo esencial del Teorema de Bayes.
¿Cuál es la probabilidad de que el juego termine alguna vez? Si definimos los eventos An :=“el Ejemplo 1.8. Un test de sangre es 95 % efectivo para detectar una enfermedad cuando una
juego termina en la n-ésima jugada”, n ≥ 2, tendremos que el evento “el juego termina alguna persona realmente la padece. Sin embargo, el test también produce un “falso positivo” en el
vez” es la unión disjunta de los eventos A1 , A2 , . . . , y por lo tanto su probabilidad es la suma 1 % de las personas saludables testeadas. Si el 0, 5 % de la población padece la enfermedad,
de las probabilidades de los eventos An . Para cada n ≥ 2 la probabilidad de An es cuál es la probabilidad de que una persona tenga la enfermedad si su test resultó positivo?
2 1 Sea A el evento definido por “la persona testeada tiene la enfermedad” y sea B el evento
P(An ) = = n−1 definido por “el resultado de su test es positivo”. La probabilidad que nos interesa es P(A|B)
2n 2
y se puede calcular de la siguiente manera. Sabemos que
En consecuencia la probabilidad de que el juego termine alguna vez es
P(A) = 0.005, P(Ac ) = 0.995,
X 1 X 1
= = 1.
2n−1 2n P(B|A) = 0.95, P(B|Ac ) = 0.01,
n≥2 n≥1
y usando esa información queremos calcular
P(A ∩ B)
P (A|B) = .
Distribución de Poisson P(B)
Ejemplo 3.5 (Probabilidad de Poisson). Sea λ un número real positivo. Observando que El numerador, P(A ∩ B), se puede calcular mediante la regla del producto

X λn P(A ∩ B) = P(B|A)P(A) = (0.95)(0.005)
eλ = ,
n! y el denominador, P(B), se puede calcular usando la fórmula de probabilidad total
n=0

se deduce que la función p : N0 → R definida por P(B) = P(B|A)P(A) + P(B|Ac )P(Ac ) = (0.95)(0.005) + (0.01)(0.995).

λn Por lo tanto,
p(n) := e−λ , n = 0, 1, 2, . . .
n! P(A ∩ B) P(B|A)P(A) 95
P(A|B) = = = ≈ 0.323.
define una función de probabilidad en Ω = N0 = {0, 1, 2, . . . }, conocida como la distribución P(B) P(B|A)P(A) + P(B|Ac )P(Ac ) 294
de Poisson de intensidad λ.
En otras palabras, sólo el 32 % de aquellas personas cuyo test resultó positivo realmente tienen
la enfermedad.
4. Modelos continuos Teorema 1.9 (Bayes). Sean A1 , A2 , . . . , eventos disjuntos dos a dos y tales que
S
An = Ω.
n≥1
4.1. Puntos al azar sobre un segmento. La distribución uniforme Sea B un evento de probabilidad positiva. Entonces,
Elegir un punto al azar dentro de un segmento de recta de longitud finita es un experi- P(B|An )P(An )
mento conceptual intuitivamente claro. Desde el punto de vista teórico el experimento debe P(An |B) = P , n ≥ 1. (6)
k≥1 P(B|Ak )P(Ak )
describirse mediante un espacio de probabilidad (Ω, A, P).
No se pierde generalidad, si se supone que la longitud del segmento es la unidad y se lo Si los eventos A1 , A2 , . . . se llaman “hipótesis”, la fórmula (6) se considera como la proba-
identifica con el intervalo Ω = [0, 1]. La σ-álgebra de eventos A y la medida de probabilidad bilidad de ocurrencia de la hipótesis An sabiendo que ocurrió el evento B. En tal caso, P(An )
P : A → R se construyen por etapas. es la probabilidad a priori de la hipótesis An y la fórmula (6) para P(An |B) se llama la regla
de Bayes para la probabilidad a posteriori de la hipótesis An .

14 7
Nota Bene. Advertimos al lector que no trate de memorizar la fórmula (6). Matemática- de observar cara y ceca, respectivamente, en cada uno de los lanzamientos. Claramente, p y
mente, solo se trata de una forma especial de escribir la fórmula (5) y de nada más. q deben ser no negativos y
p + q = 1.
Ejemplo 1.10 (Canal de comunicación binario). Un canal de comunicación binario simple
transporta mensajes usando solo dos señales: 0 y 1. Supongamos que en un canal de comu- Suponiendo que cada lanzamiento es independiente de los demás, las probabilidades se mul-
nicación binario dado el 40 % de las veces se transmite un 1; que si se transmitió un 0 la tiplican. En otras palabras, la probabilidad de cada secuencia determinada es el producto
probabilidad de recibirlo correctamente es 0.90; y que si se transmitió un 1 la probabilidad obtenido de reemplazar las letras H y T por p y q, respectivamente. Ası́,
de recibirlo correctamente es 0.95. Queremos determinar
P(H) = p; P(T H) = qp; P(T T H) = qqp; P(T T T H) = qqqp.
(a) la probabilidad de recibir un 1;
(b) dado que se recibió un 1, la probabilidad de que haya sido transmitido un 1; Puede verse que para cada n ∈ N la secuencia formada por n − 1 letras T seguida de la letra
H debe tener probabilidad q n−1 p = (1 − p)n−1 p.
Solución. Consideramos los eventos A=“se transmitió un 1” y B=”se recibió un 1”. La El argumento anterior sugiere la siguiente asignación de probabilidades sobre Ω: para cada
información dada en el enunciado del problema significa que P(A) = 0.4, P(Ac ) = 0.6, n ∈ N, p(n), la probabilidad de que la primera vez que se obtiene cara ocurra en el n-ésimo
P(B|A) = 0.95, P(B|Ac ) = 0.1, P(B c |A) = 0.05, P (B c |Ac ) = 0.90 y se puede representar lanzamiento de la moneda está dada por
en la forma de un diagrama de árbol tal como se indicó en la sección 1.2.
p(n) = (1 − p)n−1 p.
P(A ∩ B) = (0.4)(0.95)
0.95 Como las probabilidades geométricas suman 1 (ver el ejemplo 3.2) al resultado “ceca en todos
B
los tiros” se le debe asignar probabilidad p(∞) = 0. Como el espacio muestral es discreto no
A hay problema en suprimir el punto ∞.
Consideremos el evento A = “se necesitan una cantidad par de tiros para obtener la primer
cara”. Entonces,
0.4
A = {2, 4, 6, 8, . . . },
0.05 Bc
P(A ∩ B c ) = (0.4)(0.05) y
∞ ∞ ∞  
X X X X 1
P(A) = p(ω) = p(2k) = q 2k−1 p = pq q 2k = pq
c
P(A ∩ B) = (0.6)(0.1) 1 − q2
ω∈A k=1 k=1 k=0
0.1 B pq q 1−p
0.6 = = = .
(1 − q)(1 + q) 1+q 2−p

Ac
Ejemplo 3.4. Lucas y Monk juegan a la moneda. Lanzan una moneda equilibrada al aire,
0.9 Bc si sale cara, Lucas le gana un peso a Monk; si sale ceca, Monk le gana un peso a Lucas. El
P(Ac ∩ B c ) = (0.6)(0.9) juego termina cuando alguno gana dos veces seguidas.
El espacio muestral asociado a este experimento aleatorio es

Figura 4: Observando el árbol se deduce que la probabilidad de recibir un 1 es P(B) = Ω = {HH, T T, HT T, T HH, HT HH, T HT T, . . . }.
(0.4)(0.95) + (0.6)(0.1) = 0.44. También se deduce que la probabilidad de que haya sido
Como podemos tener secuencias de cualquier longitud de caras y cecas alternadas, el espacio
transmitido un 1 dado que se recibió un 1 es P(A|B) = P(B|A)P(A)
P(B) = (0.4)(0.95)
0.44 = 0.863... muestral es necesariamente infinito.
El evento A1 =“la moneda fue lanzada como máximo tres veces” está dado por todos los
elementos de Ω que tienen longitud menor o igual que tres:

A1 = {HH, T T, HT T, T HH}
Ejercicios adicionales
y su probabilidad es
1. Los dados de Efron. Se trata de cuatro dados A, B, C, D como los que se muestran en
la Figura 5. 1 1 1 1 3
P(A1 ) = P(HH) + P(T T ) + P(HT T ) + P(T HH) = + + + = .
4 4 8 8 4

8 13
Nombres. La función p : Ω → [0, 1] que asigna probabilidades a los eventos elementales
0 3
ω ∈ Ω se llama función de probabilidad. La función P : A → [0, 1] definida en (10) se llama la
medida de probabilidad inducida por p.
A 4 4 4 4 B 3 3 3 3
Nota Bene 1. De la definición (10) resultan inmediatamente las siguientes propiedades
0 3
(i) Para cada A ∈ A vale que P(A) ≥ 0

(ii) P(Ω) = 1.

(iii) σ-aditividad. Si A1 , A2 , . . . es una sucesión de eventos disjuntos dos a dos, entonces


! 6 1
[∞ X∞
P An = P(An ).
n=1 n=1 C 2 2 2 2 D 5 5 5 1

Nota Bene 2. No se excluye la posibilidad de que un punto tenga probabilidad cero. Esta 6 1
convención parece artificial pero es necesaria para evitar complicaciones. En espacios discretos
probabilidad cero se interpreta como imposibilidad y cualquier punto muestral del que se sabe
que tiene probabilidad cero puede suprimirse impunemente del espacio muestral. Sin embargo,
frecuentemente los valores numéricos de las probabilidades no se conocen de antemano, y se Figura 5: Dados de Efron
requieren complicadas consideraciones para decidir si un determinado punto muestral tiene o
no probabilidad positiva. Las reglas del juego son las siguientes: juegan dos jugadores, cada jugador elige un dado,
se tiran los dados y gana el que obtiene el número más grande.
Distribución geométrica
(a) Calcular las siguientes probabilidades: que A le gane a B; que B le gane a C; que C le
Ejemplo 3.2 (Probabilidad geométrica). Sea p un número real tal que 0 < p < 1. Observando gane a D; que D le gane a A.
que
∞ (b) ¿Cuál es la mejor estrategia para jugar con los dados de Efron?.
X 1
(1 − p)n−1 = , (c) Lucas y Monk jugaran con los dados de Efron eligiendo los dados al azar. Calcular las
p
n=1
siguientes probabilidades:
se deduce que la función p : N → R definida por
que Lucas pierda la partida si Monk obtiene un 3,
p(n) := (1 − p)n−1 p, n = 1, 2, . . .
que Lucas gane la partida si le toca el dado A.
define una función de probabilidad en Ω = N = {1, 2, 3, . . . } que se conoce por el nombre de
distribución geométrica de parámetro p. Esta función de probabilidades está ı́ntimamente rela- (d) ¿Qué ocurre con el juego cuando los dados se eligen al azar?
cionada con la cantidad de veces que debe repetirse un experimento aleatorio para que ocurra
(e) ¿Qué ocurre con el juego si a un jugador se le permite elegir un dado y el otro debe elegir
un evento A (prefijado de antemano) cuya probabilidad de ocurrencia en cada experimento
al azar uno entre los restantes tres?
individual es p.
(f) Lucas y Monk jugaron con los dados de Efron, eligiendo los dados al azar. Lucas ganó,
Ejemplo 3.3. El experimento consiste en lanzar una moneda tantas veces como sea necesario ¿cuál es la probabilidad de que le haya tocado el dado C?
hasta que salga cara. El resultado del experimento será la cantidad de lanzamientos necesarios
hasta que se obtenga cara. Los resultados posibles son

Ω = {1, 2, 3, . . . } ∪ {∞}.

El sı́mbolo ∞ está puesto para representar la posibilidad de que todas las veces que se lanza
la moneda el resultado obtenido es ceca. El primer problema que debemos resolver es asignar
probabilidades a los puntos muestrales. Una forma de resolverlo es la siguiente. Cada vez que se
arroja una moneda los resultados posibles son cara (H) o ceca (T ). Sean p y q la probabilidad

12 9
2. Independencia estocástica Teorema 2.4. Sean A1 , A2 , . . . An eventos tales que todas las probabilidades P(Ai ) son
positivas. Una condición necesaria y suficiente para la mutua independencia de los eventos
Definición 2.1 (Independencia estocástica). Los eventos A1 , A2 , . . . , An son mutuamente A1 , A2 , . . . , An es la satisfacción de las ecuaciones
independientes si satisfacen las siguientes 2n − n − 1 ecuaciones:
P(Ai |Ai1 ∩ Ai2 ∩ · · · ∩ Aik ) = P(Ai ) (9)
P(Ai1 ∩ Ai2 ∩ · · · ∩ Aim ) = P(Ai1 )P(Ai2 ) · · · P(Aim ), (7)
cualesquiera sean i1 , i2 , . . . , ik , i distintos dos a dos.
donde m = 1, 2, . . . , n, y 1 ≤ i1 < i2 < . . . < im ≤ n.

Nota Bene 1. Para n = 2 el sistema de ecuaciones (7) se reduce a una condición: dos Ejercicios adicionales
eventos A1 y A2 son independientes si satisfacen la ecuación
2. Se tira una moneda honesta n veces. Sea A el evento que se obtenga al menos una cara y sea
P(A1 ∩ A2 ) = P(A1 )P(A2 ). (8)
B el evento que se obtengan al menos una cara y al menos una ceca. Analizar la independencia
Ejemplo 2.2. de los eventos A y B.
(a) Se extrae un naipe al azar de un mazo de naipes de poker. Por razones de simetrı́a
esperamos que los eventos “corazón y “As” sean independientes. En todo caso, sus proba- 3. Andrés, Francisco, Jemina e Ignacio fueron amigos en la escuela primaria. Se reencon-
bilidades son 1/4 y 1/13, respectivamente y la probabilidad de su realización simultánea es traron en el curso 23 (PyE 61.09) de la FIUBA y se reunieron de a parejas a charlar. Como
1/52. resultado de esas charlas, cada pareja renovó su amistad con probabilidad 1/2 y no lo hizo
(b) Se arrojan dos dados. Los eventos “as en el primer dado” y “par en el segundo” son con probabilidad 1/2, independientemente de las demás. Posteriormente, Andrés recibió un
independientes pues la probabilidad de su realización simultánea, 3/36 = 1/12, es el producto rumor y lo transmitió a todas sus amistades. Suponiendo que cada uno de los que reciba
de sus probabilidades respectivas: 1/6 y 1/2. un rumor lo transmitirá a todas sus amistades, cuál es la probabilidad de que Ignacio haya
(c) En una permutación aleatoria de las cuatro letras a, b, c, d los eventos “a precede a b” recibido el rumor transmitido por Andrés?.
y “c precede a d” son independientes. Esto es intuitivamente claro y fácil de verificar.

Nota Bene 2. Para n > 2, los eventos A1 , A2 , . . . , An pueden ser independientes de a pares: 3. Modelos discretos
P(Ai ∩ Aj ) = P(Ai )P(Aj ), 1 ≤ i < j ≤ n, pero no ser mutuamente independientes.
Ejemplo 2.3. Sea Ω un conjunto formado por cuatro elementos: ω1 , ω2 , ω3 , ω4 ; las correspon- Los espacios muestrales más simples son aquellos que contienen un número finito, n,
dientes probabilidades elementales son todas iguales a 1/4. Consideramos tres eventos: de puntos. Si n es pequeño (como en el caso de tirar algunas monedas), es fácil visualizar
el espacio. El espacio de distribuciones de cartas de poker es más complicado. Sin embargo,
A1 = {ω1 , ω2 }, A2 = {ω1 , ω3 }, A3 = {ω1 , ω4 }. podemos imaginar cada punto muestral como una ficha y considerar la colección de esas fichas
Es fácil ver que los eventos A1 , A2 , A3 son independientes de a pares, pero no son mutuamente como representantes del espacio muestral. Un evento A se representa por un determinado
independientes: conjunto de fichas, su complemento Ac por las restantes. De aquı́ falta sólo un paso para
imaginar una bol con infinitas fichas o un espacio muestral con una sucesión infinita de
P(A1 ) = P(A2 ) = P(A3 ) = 1/2, puntos Ω = {ω1 , ω2 , ω3 , . . . }.
P(A1 ∩ A2 ) = P(A1 ∩ A3 ) = P(A2 ∩ A3 ) = 1/4 = (1/2)2 , Definición 3.1. Un espacio muestral se llama discreto si contiene finitos o infinitos puntos
P(A1 ∩ A2 ∩ A3 ) = 1/4 6= (1/2)3 . que pueden ordenarse en una sucesión ω1 , ω2 , . . . .
Sean Ω un conjunto infinito numerable y A la σ-álgebra de todos los subconjuntos con-
tenidos en Ω. Todos los espacios de probabilidad que se pueden construir sobre (Ω, A) se
Independencia y probabilidades condicionales. Para introducir el concepto de inde- obtienen de la siguiente manera:
pendencia no utilizamos probabilidades condicionales. Sin embargo, sus aplicaciones dependen 1. Tomamos una sucesión de números no negativos {p(ω) : ω ∈ Ω} tal que
generalmente de las propiedades de ciertas probabilidades condicionales.
X
p(ω) = 1.
Para fijar ideas, supongamos que n = 2 y que las probabilidades de los eventos A1 y A2 ω∈Ω
son positivas. En tal caso, los eventos A1 y A2 son independientes si y solamente si
2. Para cada evento A ∈ A definimos P(A) como la suma de las probabilidades de los
P(A2 |A1 ) = P(A2 ) y P(A1 |A2 ) = P(A1 ). eventos elementales contenidos en A:
X
El siguiente Teorema expresa la relación general entre el concepto de independencia y las P(A) := p(ω). (10)
probabilidades condicionales. ω∈A

10 11
Índice (Sugerencia. Considerar sucesiones de eventos Bn = {X ≤ −n} y Cn = {X ≤ n}, n ∈ N, y
utilizar el axioma de continuidad de la medida de probabilidad P.)
1. Esperanza 2
(b) Mostrar que
1.1. Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
lı́m FX (x) = P(X < x0 ).
1.2. Cálculo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 x↑x0
1.3. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 (Sugerencia. Observar que si x ↑ x0 , entonces {X ≤ x} ↑ {X < x0 } y utilizar el axioma de
1.4. Dividir y conquistar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 continuidad de la medida de probabilidad P.)
2. Varianza 12
2.1. Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2. Cálculo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.2. Clasificación de variables aleatorias
2.3. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
En todo lo que sigue, X designa una variable aleatoria definida sobre un espacio de
3. Covarianza 14 probabilidad (Ω, A, P) y FX (x) := P(X ≤ x) su función de distribución.
3.1. Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2. Cálculo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 Nota Bene. Al observar el gráfico de una función de distribución lo primero que llama la
3.3. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 atención son sus saltos y sus escalones.
3.4. Varianza de sumas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Átomos. Diremos que a ∈ R es un átomo de FX (x) si su peso es positivo: P(X = a) =
4. Algunas desigualdades 17 FX (a) − FX (a−) > 0.
4.1. Cauchy-Schwartz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 El conjunto de todos los átomos de FX (x): A = {a ∈ R : FX (a) − FX (a−) > 0}, coincide
4.2. Chebyshev . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 con el conjunto de todos los puntos de discontinuidad de FX (x). El peso de cada átomo
coincide con la longitud del salto dado por la función de distribución en dicho átomo. En
5. La ley débil de los grandes números 20 consecuencia, existen a lo sumo un átomo de probabilidad > 12 , a lo sumo dos átomos de
probabilidad > 31 , etcétera. Por lo tanto, es posible reordenar los átomos en una sucesión
6. Distribuciones particulares 22
a1 , a2 , . . . tal que P(X = a1 ) ≥ P(X = a2 ) ≥ · · · . En otras palabras, existen a lo sumo
7. Bibliografı́a consultada 28 numerables átomos.
La propiedad de σ-aditividad de la medidaP de probabilidad P implica que el peso total
del conjunto A no puede exceder la unidad: a∈A P(X = a) ≤ 1.
1. Esperanza
Definición 1.6 (Variables discretas). Diremos que X es una variable aleatoria discreta si
La información relevante sobre el comportamiento de una variable aleatoria está contenida X
en su función de distribución. Sin embargo, en la práctica, es útil disponer de algunos números P(X = a) = 1.
a∈A
representativos de la variable aleatoria que resuman esa información.
En tal caso, la función pX : A → R definida por pX (x) = P(X = x) se denomina la función
Motivación Se gira una rueda de la fortuna varias veces. En cada giro se puede obtener de probabilidad de X.
alguno de los siguiente números x1 , x2 , . . . , xk -que representan la cantidad de dinero que se
obtiene en el giro- con probabilidades p(x1 ), p(x2 ), . . . , p(xk ), respectivamente. ¿Cuánto dinero Escalones. Sea X una variable aleatoria discreta. Si a1 < a2 son dos átomos consecutivos,
se “espera” obtener como recompensa “por cada giro”? Los términos “espera” y “por cada entonces FX (x) = FX (a1 ) para todo x ∈ (a1 , a2 ). En otras palabras, la función de distribución
giro” son un tanto ambiguos, pero se pueden interpretar de la siguiente manera. de una variable aleatoria discreta debe ser constante entre saltos consecutivos.
Si la rueda se gira P
n veces y n(xi ) es la cantidad de veces que se obtieneP xi , la cantidad total Si no lo fuera, deberı́an existir dos números x1 < x2 contenidos en el intervalo (a1 , a2 )
de dinero recibida es ki=1 n(xi )xi y la cantidad media por giro es µ = n1 ki=1 n(xi )xi . Inter- tales que FX (x1 ) < FX (x2 ). En tal caso,
pretando las probabilidades como frecuencias relativas obtenemos que para n suficientemente X
grande la cantidad de dinero que se “espera” recibir “por cada giro” es P (X ∈ A ∪ (x1 , x2 ]) = P(X ∈ A) + P (x1 < X ≤ x2 ) = P(X = a) + FX (x2 ) − FX (x1 )
a∈A
k k k
1X X n(xi ) X = 1 + FX (x2 ) − FX (x1 ) > 1.
µ= xi n(xi ) = xi ≈ xi p(xi ).
n n
i=1 i=1 i=1 lo que constituye un absurdo.

2 7
Definición 1.7 (Variables continuas). Diremos que X es una variable aleatoria continua si
su función de distribución es continua.

Definición 1.8 (Variables mixtas). Diremos que X es una variable aleatoria mixta si no es
continua ni discreta. Variables aleatorias: momentos
Definición 1.9 (Variables absolutamente continuas). Diremos que X es absolutamente con- (Borradores, Curso 23)
tinua si existe una función (medible) fX : R → R+ , llamada densidad de X, tal que cua-
lesquiera sean −∞ ≤ a < b < ∞ vale que Sebastian Grynberg
Z b
P(a < X ≤ b) = fX (x) dx. (11) 27 de marzo 2013
a

En particular, para cada x ∈ R, vale que


Z x
FX (x) = P(X ≤ x) = fX (t) dt. (12)
−∞

Nota Bene. Notar que de (12) se deduce que


Z ∞
fX (x)dx = 1.
−∞

Aplicando en (12) el teorema Fundamental del Cálculo Integral, se obtiene que si X es abso-
lutamente continua, FX (x) es una función continua para todo x, y su derivada es fX (x) en
todos los x donde fX es continua.
Como la expresión “absolutamente continua” es demasiado larga, se suele hablar simple-
mente de “distribuciones continuas”. Sin embargo, hay que tener en cuenta que el hecho de
que FX sea una función continua, no implica que la distribución de X sea absolutamente con-
tinua: hay funciones monótonas y continuas, que sin embargo no son la primitiva de ninguna
función. (Para más detalles consultar el ejemplo sobre distribuciones tipo Cantor que está en
Feller Vol II, p.35-36).

Interpretación intuitiva de la densidad de probabilidad. Sea X una variable aleatoria


absolutamente continua con función densidad fX (x) continua. Para cada ǫ > 0 pequeño y
para x ∈ R vale que
Z x+ε/2
P (x − ǫ/2 < X ≤ x + ǫ/2) = fX (t) dt ≈ fX (x)ǫ.
x−ǫ/2

Dicho en palabras, la probabilidad de que el valor de X se encuentre en un intervalo de


longitud ǫ centrado en x es aproximadamente fX (x)ǫ.
Denme un punto de apoyo y moveré el mundo
Ejemplos (Arquı́medes de Siracusa)

Ejemplo 1.10. El resultado, X, del lanzamiento de un dado equilibrado (ver Ejemplo 1.1) es
una variable aleatoria discreta. Esto resulta evidente de observar que el gráfico de la función
de distribución de X (ver Figura 1) que tiene la forma de una escalera con saltos de altura
1/6 en los puntos 1, 2, 3, 4, 5, 6. Dicho en otras palabras, toda la masa de la variable aleatoria
X está concentrada en el conjunto de los átomos de FX , A = {1, 2, 3, 4, 5, 6}.

8 1
Por lo tanto, las tres piezas se pueden usar para construir un triángulo si y solamente si Ejemplo 1.11 (Números al azar). El resultado de “sortear” un número al azar sobre el
(X, Y ) ∈ B, donde intervalo (0, 1) es una variable aleatoria absolutamente continua. La probabilidad del evento
U ≤ u es igual a la longitud del intervalo (−∞, u] ∩ (0, 1).
B = {(x, y) ∈ (0, L) × (0, L) : 0 < x < L/2, L/2 < y < x + L/2}
Notar que cuando u ≤ 0 el intervalo (−∞, u] ∩ (0, 1) se reduce al conjunto vacı́o que por
∪{(x, y) ∈ (0, L) × (0, L) : L/2 < x < L, x − L/2 < y < L/2}. (25) definición tiene longitud 0. Por otra parte, para cualquier u ∈ (0, 1) se tiene que (−∞, u] ∩
(0, 1) = (0, u) y en consecuencia P(U ≤ u) = u; mientras que si u ≥ 1, (−∞, u] ∩ (0, 1) = (0, 1)
L de donde sigue que P(U ≤ u) = 1. Por lo tanto, la función de distribución de U es

FU (u) = u1{0 ≤ u < 1} + 1{u ≥ 1}.

01
1
L/2
10
1010
10
1010
1010
01
0 L/2 L 11
00 0 1
10 u

Figura 6: La región sombreada representa al conjunto B que es la unión de dos triángulos


Figura 3: Gráfico de la función de distribución del resultado de “sortear” un número al azar.
disjuntos cada uno de área L2 /8.
Derivando, respecto de u, la función de distribución FU (u) se obtiene una función densidad
La hipótesis de que X e Y son independientes con distribución uniforme sobre el intervalo
para U :
(0, L) significa que (X, Y ) ∼ U(Λ), donde Λ es el cuadrado de lado (0, L)
   fU (u) = 1{0 < u < 1}.
1 1 1
fX,Y (x, y) = fX (x)fY (y) = 1{0 < x < L} 1{0 < y < L} = 2 1{(x, y) ∈ Λ}.
L L L
De (6) se deduce que Nota Bene. Sortear un número al azar sobre el intervalo (0, 1) es un caso particular de
una familia de variables aleatorias denominadas uniformes. Una variable aleatoria X, definida
|B| (2/8)L2 1
P((X, Y ) ∈ B) = = = . (26) sobre un espacio de probabilidad (Ω, A, P), se denomina uniformemente distribuida sobre el
|Λ| L2 4 intervalo (a, b), donde a < b, si X es absolutamente continua y admite una función densidad
de la forma
1
fX (x) = 1{x ∈ (a, b)}.
2. Bibliografı́a consultada b−a
En tal caso escribiremos X ∼ U(a, b).
Para redactar estas notas se consultaron los siguientes libros:
1. Bertsekas, D. P., Tsitsiklis, J. N.: Introduction to Probability. M.I.T. Lecture Notes. Comentario. En la Sección 1.4 mostraremos que todas las variables aleatorias se pueden
(2000) construir utilizando variables aleatorias uniformemente distribuidas sobre el intervalo (0, 1).
2. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 1. John Ejemplo 1.12. El tiempo, T , de funcionamiento hasta la aparición de la primera falla para
Wiley & Sons, New York. (1968) un sistema con función intensidad de fallas continua λ(t) (ver Ejemplo 1.2) es una variable
aleatoria absolutamente continua que admite una densidad de la forma
3. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 2. John
 Z t
Wiley & Sons, New York. (1971)

fT (t) = λ(t) exp − λ(s)ds 1{t > 0}. (13)
4. Ross, S.: Introduction to Probability Models. Academic Press, San Diego. (2007) 0
.

12 9
Nota Bene: algunos casos particulares del Ejemplo 1.12. El comportamiento de la Debido a que no se trata de una tabla de multiplicar las variables X e Y no son independientes.
densidad (13) depende de la forma particular de la función intensidad de fallas λ(t). En lo Lo que, por otra parte, constituye una obviedad.
que sigue mostraremos algunos casos particulares.
Criterio para detectar dependencia. Cuando en la tabla de la distribución conjunta
Exponencial de intensidad λ. Se obtiene poniendo λ(t) = λ1{t ≥ 0}, donde λ es una
de dos variables hay un 0 ubicado en la intersección de una fila y una columna de sumas
constante positiva, arbitraria pero fija.
positivas, las variables no pueden ser independientes. (Las variables del Ejemplo 1.5 no son
fT (t) = λ exp (−λt) 1{t > 0}. (14) independientes.)

. 1.3.2. Caso bidimensional continuo


t c−1 Sean X e Y variables aleatorias con densidad conjunta fX,Y (x, y) y marginales fX (x) y
Weibull de parámetros c y α. Se obtiene poniendo λ(t) = αc

α 1{t ≥ 0}, donde
c > 0 y α > 0. En este caso, la densidad (13) adopta la forma fY (y). Las variables aleatorias X e Y son independientes si y solo si
 c−1   c  fX,Y (x, y) = fX (x)fY (y). (21)
c t t
fT (t) = exp − . (15)
α α α En otras palabras, X e Y son independientes si y solo si su densidad conjunta se factoriza
como el producto de las marginales.

Criterios para detectar (in)dependencia.


1.6 1. La independencia de X e Y equivale a la existencia de dos funciones f1 (x) y f2 (y) tales
que fX,Y (x, y) = f1 (x)f2 (y). Por lo tanto, para verificar independencia basta comprobar que
1.4
la densidad conjunta se puede factorizar como alguna función de x por alguna función de y,
siendo innecesario verificar que se trata de las densidades marginales. (Ejercicio)
1.2
2. La factorización (21) implica que, si X e Y son independientes, el recinto del plano
1
Sop (fX,Y ) := {(x, y) ∈ R2 : fX,Y (x, y) > 0}, llamado el soporte de la densidad conjunta
fX,Y , debe coincidir con el producto cartesiano de los soportes de sus densidades marginales:
0.8 Sop(fX ) × Sop(fY ) = {x ∈ R : fX (x) > 0} × {y ∈ R : fY (y) > 0}. Por ejemplo, si el soporte
de la densidad conjunta es conexo y no es un rectángulo las variables X e Y no pueden ser
0.6 independientes. (Ver el Ejemplo 1.7.)
Ejemplo 1.12. Sean X e Y variables aleatorias independientes con distribución uniforme
0.4
sobre el intervalo (0, L). Una vara de longitud L metros se quiebra en dos puntos cuyas
0.2 distancias a una de sus puntas son X e Y metros. Calcular la probabilidad de que las tres
piezas se puedan usar para construir un triángulo.
0
0 0.5 1 1.5 2 2.5 3 3.5 4 Primero designamos mediante L1 , L2 y L3 a las longitudes de las tres piezas. Las tres piezas
se pueden usar para construir un triángulo si y solamente si se satisfacen las desigualdades
triangulares
L1 + L2 > L3 , L1 + L3 > L2 y L2 + L3 > L1 . (22)
Figura 4: Gráficos de las densidades Weibull de parámetro de escala α = 1 y parámetro de
forma: c = 1, 2, 4: en lı́nea sólida c = 1; en lı́nea quebrada c = 2 y en lı́nea punteada c = 4. Vamos a distinguir dos casos: el caso en que X ≤ Y y el caso en que Y < X. En el primer
caso, X ≤ Y , tenemos que L1 = X, L2 = Y −X y L3 = L−Y y las desigualdades triangulares
Notar que la exponencial de intensidad λ es un caso especial de la Weibull puesto que (14) se (22) son equivalentes a las siguientes
obtiene de (15) poniendo c = 1 y α = λ−1 .
Y > L/2, X + L/2 > Y y L/2 > X. (23)
Ejemplo 1.13. La variable aleatoria, S, considerada en el Ejemplo 1.3 es una variable aleato-
ria mixta (ver 
Figura 2) porque
 no es discreta ni continua. Tiene un único átomo en s = 0 y En el segundo caso, Y < X, tenemos que L1 = Y , L2 = X − Y y L3 = L − X y las
Rt
su peso es exp − 0 0 λ(x)dx . desigualdades triangulares (22) son equivalentes a las siguientes
X > L/2, Y > X − L/2 y L/2 > Y. (24)

10 11
Ejemplo 1.11. Se arrojan dos dados equilibrados y se observan las variables aleatorias X e 1.3. Cuantiles
Y definidas por X =“el resultado del primer dado” e Y =“el mayor de los dos resultados”.
Definición 1.14. Sea α ∈ (0, 1). Un cuantil-α de X es cualquier número xα ∈ R tal que
El espacio de muestral asociado al experimento se puede representar en la forma Ω =
{1, 2, . . . , 6}2 , cada punto (i, j) ∈ Ω indica que el resultado del primer dado es i y el resultado P(X < xα ) ≤ α y α ≤ P(X ≤ xα ). (16)
del segundo es j. Para reflejar que arrojamos dos dados equilibrados, todos los puntos de
Ω serán equiprobables, i.e., para cada (i, j) ∈ Ω se tiene P(i, j) = 1/36. Formalmente las Observación 1.15. Notar que las desigualdades que caracterizan a los cuantiles-α se pueden
variables aleatorias X e Y están definidas por reescribir de la siguiente manera
X(i, j) := i, Y (i, j) := máx{i, j}. (20)
FX (xα ) − P(X = xα ) ≤ α y α ≤ FX (xα ). (17)
Distribución conjunta y distribuciones marginales de X e Y . En primer lugar vamos Por lo tanto, si FX (x) es continua, xα es un cuantil α si y sólo si
a representar el espacio muestral Ω en la forma de una matriz para poder observar más
claramente los resultados posibles FX (xα ) = α. (18)


(1, 1) (1, 2) (1, 3) (1, 4) (1, 5) (1, 6)
 Interpretación “geométrica” del cuantil-α. Si X es una variable aleatoria absoluta-
 (2, 1) (2, 2) (2, 3) (2, 4) (2, 5) (2, 6)  mente continua con función de densidad fX (x) el cuantil-α de X es la única solución de la
ecuación
 

 (3, 1) (3, 2) (3, 3) (3, 4) (3, 5) (3, 6) 

 (4, 1) (4, 2) (4, 3) (4, 4) (4, 5) (4, 6)  Z xα
fX (x)dx = α.
 
 (5, 1) (5, 2) (5, 3) (5, 4) (5, 5) (5, 6) 
−∞
(6, 1) (6, 2) (6, 3) (6, 4) (6, 5) (6, 6)
Esto significa que el cuantil-α de X es el único punto sobre el eje de las abscisas a cuya
izquierda el área bajo la función de densidad fX (x) es igual a α.
Figura 4: Resultados posibles del experimento aleatorio que consiste en arrojar dos dados.

Debido a que Y ≥ X, tenemos que pX,Y (x, y) = 0 para todo 1 ≤ y < x ≤ 6. En los otros Nota Bene. Sea x ∈ R. Las desigualdades (17) significan que x es un cuantil-α si y sólo si
casos, i.e., 1 ≤ x ≤ y ≤ 6, para calcular el valor de pX,Y (x, y) hay que contar la cantidad α ∈ [F (x) − P(X = x), F (x)]
de elementos de la fila x, de la matriz representada en la Figura 4, que contengan alguna
1
coordenada igual a y. Multiplicando por q = 36 la cantidad encontrada se obtiene pX,Y (x, y). Nota Bene. El cuantil-α siempre existe. Sea α ∈ (0, 1), la existencia del cuantil α se deduce
α = {x ∈ R : α ≤ F (x)}.
analizando el conjunto RX
En la figura 5 representamos la distribución conjunta pX,Y (x, y) y las distribuciones marginales X
pX y pY . α es no vacı́o porque lı́m F (x) = 1.
1. RX X
x→∞

x\y 1 2 3 4 5 6 pX α es acotado inferiormente porque lı́m F (x) = 0.


2. RX X
x→−∞
1 q q q q q q 6q
2 0 2q q q q q 6q 3. Si x0 ∈ α,
RX entonces [x0 , +∞) ⊂ α
RX porque FX (x) es no decreciente.
3 0 0 3q q q q 6q α α α tal que x ↓ ı́nf Rα y
4 0 0 0 4q q q 6q 4. ı́nfRX ∈ RX porque existe una sucesión {xn : n ∈ N} ⊂ RX n X
5 0 0 0 0 5q q 6q FX (x) es una función continua a derecha:
6 0 0 0 0 0 6q 6q  
α
pY q 3q 5q 7q 9q 11q α ≤ lı́m FX (xn ) = FX lı́m xn = FX (ı́nf RX ).
n→∞ n→∞

De las propiedades anteriores se deduce que


Figura 5: Distribución conjunta de (X, Y ). En el margen derecho se encuentra la distribución
1
marginal de X y en el margen inferior, la marginal de Y . Para abreviar hemos puesto q = 36 . α
RX α
= [ı́nf RX α
, +∞) = [mı́n RX , +∞) .

De acuerdo con los resultados expuestos en la tabla que aparece en la Figura 5, las dis- α ) = α o (b) F (mı́n Rα ) > α.
Hay dos casos posibles: (a) FX (mı́n RX X X
tribuciones marginales son
α ) = α, entonces P(X < mı́n Rα ) = α − P(X = mı́n Rα ) ≤ α.
(a) Si FX (mı́n RX
1 2y − 1 X X
pX (x) = , pY (y) = .
6 36

10 11
α ) > α, entonces
(b) Si FX (mı́n RX Ejemplo 1.10 (Números al azar). Se elige al azar un número U del intervalo [0, 1). Sea U =
α 0.X1 X2 X3 · · · el desarrollo decimal de U . Mostraremos que los dı́gitos de U son independientes
P(X < x) < α ∀ x < mı́n RX (19)
entre sı́ y que cada uno de ellos se distribuye uniformemente sobre el conjunto {0, 1, . . . , 9}.
porque sino existe un x < mı́n Rxα tal que α ≤ P(X < x) ≤ FX (x) y por lo tanto, El problema se reduce a mostrar que para cada n ≥ 2 las variables aleatorias X1 , X2 , . . . , Xn
α lo que constituye un absurdo.
x ∈ RX son independientes entre sı́ y que para cada k ≥ 1 y todo xk ∈ {0, 1, . . . , 9}, P(Xk = xk ) =
α)=
De (19) se deduce que P(X < mı́n RX lı́m FX (x) ≤ α. 1/10.
α
x↑mı́n RX Primero observamos que para cada n ≥ 1 y para todo (x1 , . . . , xn ) ∈ {0, 1, . . . , 9}n vale
En cualquiera de los dos casos que
xα = mı́n {x ∈ R : FX (x) ≥ α} (20) n
" n n
!
\ X xi X xi 1
{Xi = xi } ⇐⇒ U ∈ , + .
es un cuantil-α. 10i 10i 10n
i=1 i=1 i=1

Nota Bene. Si FX es discontinua, (18) no tiene siempre solución; y por eso es mejor tomar En consecuencia,
(16) como definición. Si FX es estrictamente creciente, los cuantiles son únicos. Pero si no, n
!
los valores que satisfacen (18) forman un intervalo.
\ 1
P {Xi = xi } = . (17)
10n
i=1
Cuartiles y mediana. Los cuantiles correspondientes a α = 0.25, 0.50 y 0.75 son respecti-
vamente el primer, el segundo y tercer cuartil. El segundo cuartil es la mediana. Para calcular las marginales de los dı́gitos observamos que para cada xk ∈ {0, 1, . . . , 9} vale
que
Ejemplos [
" k−1
\
! #

Ejemplo 1.16. En el Ejemplo 1.1 hemos visto que la función de distribución del resultado {Xk = xk } = {Xi = xi } ∩ {Xk = xk } .
(x1 ,...,xk−1 )∈{0,1,...,9}k−1 i=1
del lanzamiento de un dado equilibrado es una escalera con saltos de altura 1/6 en los puntos
1, 2, 3, 4, 5, 6:
5 De acuerdo con (17) cada uno de los 10k−1 eventos que aparecen en la unión del lado derecho
X i de la igualdad tiene probabilidad 1/10k y como son disjuntos dos a dos obtenemos que
FX (x) = 1 {i ≤ x < i + 1} + 1{6 ≤ x}.
6
i=1
1 1
Como la imagen de FX es el conjunto {0, 1/6, 2/6, 3/6, 4/6, 5/6, 1} la ecuación (18) solo tiene P(Xk = xk ) = 10k−1 = . (18)
10k 10
solución para α ∈ {1/6, 2/6, 3/6, 4/6, 5/6}. Más aún, para cada i = 1, . . . , 5
i De (17) y (18) se deduce que para todo (x1 , . . . , xn ) ∈ {0, 1, . . . , 9}n vale que
FX (x) = ⇐⇒ x ∈ [i, i + 1).
6 \n
!
Y n
En otras palabras, para cada i = 1, . . . , 5 los cuantiles-i/6 de X son el intervalo [i, i + 1). En P {Xi = xi } = P(Xi = xi ).
particular, “la” mediana de X es cualquier punto del intervalo [3, 4).
i=1 i=1
Para cada α ∈ i−1 i
6 , 6 , i = 1, . . . , 6, el cuantil α de X es xα = i. Por lo tanto, las variables aleatorias X1 , X2 , . . . , Xn son independientes entre sı́ y cada una
Ejemplo 1.17. Sea T el tiempo de funcionamiento hasta la aparición de la primera falla para de ellas se distribuye uniformemente sobre el conjunto {0, 1, . . . , 9} .
un sistema con función intensidad de fallas λ(t) = 2t1{t ≥ 0} (ver Ejemplo 1.2). La función
de distribución de T es 1.3.1. Caso bidimensional discreto
  Z t 
1{t > 0} = 1 − exp −t2 1{t > 0}.

FT (t) = 1 − exp − 2sds (21) Sea (X, Y ) un vector aleatorio discreto con función de probabilidad conjunta pX,Y (x, y)
0 y marginales pX (x) y pY (y). Las variables X, Y son independientes si para cada pareja de
Como FT (t) es continua los cuantiles-α, α ∈ (0, 1), se obtienen resolviendo la ecuación (18): valores x ∈ X(Ω), y ∈ Y (Ω) vale que
FT (t) = α ⇐⇒ 1 − exp −t2 = α ⇐⇒ t = − log(1 − α).
 p
pX,Y (x, y) = pX (x) pY (y) (19)
Por lo tanto, para cada α ∈ (0, 1) el cuantil-α de T es
p En otras palabras, la matriz pX,Y (x, y) es la tabla de multiplicar de las marginales pX (x) y
tα = − log(1 − α). (22) pY (y).
p
En particular, la mediana de T es t0.5 = − log(1 − 0.5) ≈ 0.8325.

12 9
En el caso continuo, la densidad conjunta de las variables XΛ , fΛ (xΛ ), se obtiene fijando Ejemplo 1.18. Se considera un sistema con función intensidad de fallas λ(t) = 2t1{t ≥ 0}.
los valores de las variables xi : i ∈ Λ e integrando la densidad conjunta f (x) respecto de las El sistema debe prestar servicios durante 1 hora. Si durante ese perı́odo el sistema falla, se lo
demás variables repara y se lo vuelve a utiliza hasta que cumpla con el el plazo estipulado. Sea S el tiempo
Z de funcionamiento (medido en horas) del sistema después de la primera reparación.
fΛ (xΛ ) = fX (x)dxΛc . En el Ejemplo 1.3 vimos que la función de distribución de S es
Rn−m
 Z 1−s 
donde m es la cantidad de ı́ndices contenidos en el conjunto Λ. FS (s) = exp − 2tdt 1{0 ≤ s < 1} + 1{s ≥ 1}
0
= exp −(1 − s)2 1{0 ≤ s < 1} + 1{s ≥ 1},

1.3. Independencia
Las variables X1 , . . . , Xn son independientes si para cualquier colección de conjuntos (med- y que S es una variable aleatoria mixta (ver Figura 2) con un único átomo en  s = 0 cuyo
ibles) A1 , . . . , An ⊂ R, los eventos {X1 ∈ A1 }, . . . , {Xn ∈ An } son independientes. peso es e−1 . En consecuencia, s = 0 es un cuantil-α de S para todo α ∈ 0, e−1 . Restringida
Tomando conjuntos de la forma Ai = (−∞, xi ] se deduce que la independencia de X1 , . . . , Xn al intervalo (0, 1) la función FS (s) es continua y su imagen es el intervalo (e−1 , 1). Por ende,
implica para cada α ∈ (e−1 , 1) el cuantil-α de S se obtiene resolviendo la ecuación FS (s) = α:

FS (s) = α ⇐⇒ exp −(1 − s)2 = α ⇐⇒ −(1 − s)2 = log(α)



n n n
!
\ Y Y
FX (x) = P {Xi ≤ xi } = P(Xi ≤ xi ) = FXi (xi ). (16) ⇐⇒ (1 − s)2 = − log(α) ⇐⇒ |1 − s| = − log(α)
p
i=1 i=1 i=1 p p
⇐⇒ 1 − s = − log(α) ⇐⇒ 1 − − log(α) = s.
Dicho en palabras, la independencia de las variables implica que su función de distribución
conjunta se factoriza como el producto de todas las marginales. Por lo tanto, para cada α ∈ (e−1 , 1) el cuantil-α de S es
Recı́procamente, se puede demostrar que si para cada x = (x1 , . . . , xn ) ∈ Rn se verifica p
sα = 1 − − log(α).
la ecuación (16), las variables aleatorias X1 , . . . , Xn son independientes. (La demostración es p
técnica y no viene al caso). Esta equivalencia reduce al mı́nimo las condiciones que permiten En particular, la mediana de S es s0.5 = 1 − − log(0.5) ≈ 0.1674.
caracterizar la independencia de variables aleatorias y motivan la siguiente definición más
simple. 1.4. Construcción de variables aleatorias
Definición 1.8 (Independencia de una cantidad finita de variables aleatorias). Diremos que Teorema 1.19 (Simulación). Sea F : R → [0, 1] una función con las siguientes propiedades
las variables aleatorias X1 , . . . , Xn son independientes si la ecuación (16) se verifica en todo
x = (x1 , . . . , xn ) ∈ Rn . (F1) es no decreciente: si x1 ≤ x2 , entonces F (x1 ) ≤ F (x2 );

(F2) es continua a derecha: para todo x0 ∈ R vale que lı́m F (x) = F (x0 );
Definición 1.9 (Independencia). Dada una familia de variables aleatorias (Xi : i ∈ I) x↓x0
definidas sobre un mismo espacio de probabilidad (Ω, A, P), diremos que sus variables son
(F3) lı́m F (x) = 0 y lı́m F (x) = 1.
(conjuntamente) independientes si para cualquier subconjunto finito de ı́ndices J ⊂ I las x→−∞ x→∞
variables Xi , i ∈ J son independientes.
Existe una variable aleatoria X tal que F (x) = P(X ≤ x).

Nota Bene. La independencia de las variables aleatorias X1 , . . . , Xn es equivalente a la


Esquema de la demostración.
factorización de la distribución conjunta como producto de sus distribuciones marginales.
1o ) Definir la inversa generalizada de F mediante
Más aún, esta propiedad se manifiesta a nivel de la función de probabilidad, pX (x) o de la
densidad conjunta, fX (x), del vector aleatorio X = (X1 , . . . , Xn ), según sea el caso. Para ser F −1 (u) := mı́n{x ∈ R : u ≤ F (x)}, u ∈ (0, 1).
más precisos, X1 , . . . , Xn son independientes si y solo si
2o ) Definir X mediante
n
Y
pX (x) = pXi (xi ) en el caso discreto, X := F −1 (U ), donde U ∼ U(0, 1).
i=1
Yn 3o )
Observar que vale la equivalencia (inmediata) F −1 (u) ≤ x ⇔ u ≤ F (x) y deducir que
fX (x) = fXi (xi ) en el caso continuo. P(X ≤ x) = P(F −1 (U ) ≤ x) = P(U ≤ F (x)) = F (x).
i=1
Observación 1.20. Si la función F del enunciado del Teorema 1.19 es continua, la inversa
generalizada es simplemente la inversa.

8 13
Nota Bene. El esquema de la demostración del Teorema 1.19 muestra cómo se construye un dardo al azar sobre Λ y se clava en un punto de coordenadas (X, Y ). El punto (X, Y )
una variable aleatoria X con función de distribución FX (x). La construcción es clave para sim- está uniformemente distribuido sobre Λ. Debido a que el área de Λ es igual a π, la densidad
ular variables aleatorias en una computadora: algoritmos estándar generan variables aleatorias conjunta de X e Y es
U con distribución uniforme sobre el intervalo (0, 1), aplicando la inversa generalizada de la 1
fX,Y (x, y) = 1{x2 + y 2 ≤ 1}.
función de distribución se obtiene la variable aleatoria FX−1 (U ) cuya función de distribución π
es FX (x).

1 − x2
Método gráfico para calcular inversas generalizadas. Sea u ∈ (0, 1), por definición,
F −1 (u) := mı́n{x ∈ R : u ≤ F (x)}, 0 < u < 1. Gráficamente esto significa que para calcular
Λ
F −1 (u) hay que determinar el conjunto de todos los puntos del gráfico de F (x) que están √
x
sobre o por encima de la recta horizontal de altura u y proyectarlo sobre el eje de las abscisas. 2 1 − x2
1
El resultado de la proyección es una semi-recta sobre el eje de las abscisas y el valor de la
abscisa que la cierra por izquierda es el valor de F −1 (u).
Ejemplo 1.21 (Moneda cargada). Se quiere simular el lanzamiento de una moneda “cargada” √
− 1 − x2
con probabilidad p ∈ (0, 1) de salir cara. El problema se resuelve construyendo una variable
aleatoria X a valores {0, 1} tal que P(X = 1) = p y P(X = 0) = 1 − p, (X = 1 representa el
evento “la moneda sale cara” y X = 0 “la moneda sale ceca”). La función de distribución de √
X debe ser F (x) = (1 − p)1{0 ≤ x < 1} + 1{x ≥ 1} y su gráfico se muestra en la Figura 5. Figura 3: Para cada x ∈ [−1, 1] se observa que el ancho del cı́rculo en x es 2 1 − x2 .
u
Si se observa la Figura 3 es claro que la densidad marginal de X es
1 √
2 1 − x2
fX (x) = 1{x ∈ [−1, 1]},
p π

1−p y por razones de simetrı́a la densidad marginal de Y debe ser


p
2 1 − y2
fY (y) = 1{y ∈ [−1, 1]}.
π

0 1 x

Caso general. Para cada i = 1, . . . , n, la densidad marginal de Xi , fXi (xi ), se puede obtener
Figura 5: Gráfico de la función F (x) = (1 − p)1{0 ≤ x < 1} + 1{x ≥ 1}. fijando la variable xi e integrando la densidad conjunta fX (x) respecto de las demás variables
Z
La demostración del Teorema 1.19 indica que para construir la variable aleatoria X lo fXi (xi ) = fX (x)dx{i}c .
primero que hay que hacer es determinar la expresión de la inversa generalizada de F (x). Rn−1
Para ello usaremos el método gráfico.
Nota Bene: Conjuntas y marginales. A veces, es necesario conocer la distribución
En la Figura 5 se puede ver que para cada 0 < u ≤ 1 − p el conjunto {x ∈ R : u ≤ F (x)}
de una sub-colección de variables aleatorias. En el caso bidimensional este problema no se
es la semi-recta [0, ∞) y el punto que la cierra por izquierda es x = 0. En consecuencia
manifiesta porque se reduce al cálculo de las marginales. Para cada subconjunto de ı́ndices
F −1 (u) = 0 para todo 0 < u ≤ 1 − p. Del mismo modo se puede ver que F −1 (u) = 1 para
Λ ⊂ {1, 2, . . . , n} la función de distribución conjunta de las variables Xi : i ∈ Λ, FΛ (xΛ ), se
todo 1 − p < u < 1. Por lo tanto, F −1 (u) = 1{1 − p < u < 1}.
obtiene fijando los valores de las coordenadas xi : i ∈ Λ y haciendo xj → ∞ para toda j ∈ / Λ.
Definiendo X := 1{1 − p < U < 1}, donde U ∼ U(0, 1) se obtiene la variable aleatoria
En el caso discreto, la función de probabilidad conjunta de las variables Xi : i ∈ Λ, pΛ (xΛ ),
deseada.
se obtiene fijando la variables xi : i ∈ Λ y sumando la función de probabilidad conjunta p(x)
Ejemplo 1.22 (Moneda cargada). Simular diez lanzamientos de una moneda “cargada” con respecto de las demás variables
probabilidad 0.6 de salir cara en cada lanzamiento. X
De acuerdo con el resultado obtenido en el Ejemplo 1.21, para simular el lanzamiento pΛ (xΛ ) = pX (x).
de una moneda cargada con probabilidad 0.6 de salir cara se construye la variable aleatoria xΛ c
X := 1{0.4 < U < 1}, donde U ∼ U(0, 1).

14 7
Para simular 10 valores de X se simulan 10 valores de U . Si en 10 simulaciones de U
x\y 0 1 2 pX se obtuviesen los valores 0.578, 0.295, 0.885, 0.726, 0.548, 0.048, 0.474, 0.722, 0.786, 0.598,
0 6q 20q 10q 36q los valores de la variable X serı́an 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, respectivamente, y en tal caso, los
1 24q 30q 0 54q resultados de los 10 lanzamientos de la moneda serı́an H, T, H, H, H, T, H, H, H, H.
2 15q 0 0 15q
pY 45q 50q 10q Ejemplo 1.23 (Fiabilidad). Se considera un sistema electrónico con función intensidad de
fallas de la forma λ(t) = 2t1{t > 0}. Se quiere estimar la función de probabilidad de la
cantidad de fallas ocurridas durante la primer unidad de tiempo de funcionamiento.
Figura 2: Distribución conjunta de (X, Y ). En el margen derecho de la tabla se encuentra la Para simplificar el problema vamos a suponer que cada vez que se produce una falla, el
distribución marginal de X y en el margen inferior, la marginal de Y . sistema se repara instantáneamente renovándose sus condiciones iniciales de funcionamien-
to. Según el Ejemplo 1.2, la función de distribución del tiempo de funcionamiento hasta la
Caso general. Para cada i = 1, . . . , n, la función de probabilidad marginal de Xi , pXi (xi ), aparición de la primer falla es
se puede obtener fijando la variable xi y sumando la función de probabilidad conjunta pX (x) F (t) = 1 − exp −t2 1{t > 0}.

(23)
respecto de las demás variables
X Debido a que la función de distribución F (t) es continua, su inversa generalizada es simple-
pXi (xi ) = pX (x). mente su inversa y se obtiene despejando t de la ecuación 1 − exp −t2 = u. En consecuencia,
p
x{i}c F −1 (u) = − log(1 − u), u ∈ (0, 1). Para construir la variable T usamos un número aleatorio
U , uniformemente distribuido sobre el intervalo (0, 1) y definimos
1.2.2. Marginales continuas p
T := F −1 (U ) = − log(1 − U ). (24)
Sea (X, Y ) un vector aleatorio continuo con función densidad conjunta fX,Y (x, y).
Las funciones de distribución marginales de las variables individuales X e Y se obtienen La ventaja de la construcción es que puede implementarse casi de inmediato en una computa-
de la distribución conjunta haciendo lo siguiente dora. Por ejemplo, una rutina en Octave para simular T es la siguiente

Z x Z ∞  U=rand;
FX (x) = P(X ≤ x) = lı́m FX,Y (x, y) = fX,Y (s, y) dy ds, (12) T=sqrt(-log(1-rand))
y→∞ −∞ −∞
Z y Z ∞ 
FY (y) = P(Y ≤ y) = lı́m FX,Y (x, y) = fX,Y (x, t) dx dt. (13) Sobre la base de esa rutina podemos simular valores de T . Por ejemplo, en diez simulaciones
x→∞ −∞ −∞ de T obtuvimos los valores siguientes: 0.3577, 1.7233, 1.1623, 0.3988, 1.4417, 0.3052, 1.1532,
0.3875, 0.8493, 0.9888.
Aplicando en (12) y en (13) el Teorema Fundamental del Cálculo Integral se obtiene que
las funciones de distribución marginales FX (x) y FY (y) son derivables (salvo quizás en un t
conjunto despreciable de puntos) y vale que 0 1 2 3 4 5 6 7 8 9

Z ∞
d
fX (x) = FX (x) = f (x, y) dy, (14) Figura 6: Simulación de los tiempos de ocurrencia de las fallas de un sistema electrónico con
dx
Z −∞
∞ función intensidad de fallas de la forma λ(t) = 2t1{t ≥ 0}. Las fallas ocurren los instantes
d
fY (y) = FY (y) = f (x, y) dx. (15) 0.3577, 2.0811, 3.2434, 3.6422, 5.0839, 5.3892, 6.5423, 6.9298, 7.7791, 8.7679.
dy −∞

En consecuencia, las variables aleatorias X e Y son individualmente (absolutamente) continuas La rutina puede utilizarse para simular cien mil realizaciones del experimento que consiste
con densidades “marginales” fX (x) y fY (y), respectivamente. en observar la cantidad de fallas durante la primer unidad de tiempo de funcionamiento
del sistema electrónico bajo consideración: N [0, 1] := mı́n {n ≥ 1 : ni=1 Ti > 1} − 1, donde
P
Ejemplo 1.6 (Distribución uniforme). Sea Λ ⊂ R2 una región del plano acotada, que para T1 , T2 , . . . son realizaciones independientes de los tiempos de funcionamiento del sistema hasta
simplificar supondremos convexa, y sea (X, Y ) un vector aleatorio uniformemente distribuido la ocurrencia de una falla.
sobre Λ. La densidad marginal de X en la abscisa x es igual al cociente entre el ancho de Λ Por ejemplo, repitiendo la simulación 100000 veces obtuvimos la siguiente tabla que con-
en x y el área de Λ. tiene la cantidad de veces que fué simulado cada valor de la variable N [0, 1]:
Ejemplo 1.7 (Dardos). Consideramos un juego de dardos de blanco circular Λ de radio valor simulado 0 1 2 3 4
(25)
1 centrado en el origen del plano: Λ = {(x, y) ∈ R2 : x2 + y 2 ≤ 1}. Un tirador lanza frecuencia 36995 51792 10438 743 32

6 15
obteniéndose las siguientes estimaciones 1.2. Distribuciones marginales

P(N [0, 1] = 0) ≈ 0.36995, P(N [0, 1] = 1) ≈ 0.51792, P(N [0, 1] = 2) ≈ 0.10438, Sea X = (X1 , . . . , Xn ) un vector aleatorio n-dimensional y sea FX (x) su función de dis-
tribución conjunta. La coordenadas de X son variables aleatorias. Cada variable individual
P(N [0, 1] = 3) ≈ 0.00743, P(N [0, 1] = 4) ≈ 0.00032.
Xi tiene su correspondiente función de distribución
Para finalizar este ejemplo, presentamos una rutina en Octave que simula cien mil veces FXi (xi ) = P(Xi ≤ xi ). (8)
la cantidad de fallas en la primer unidad de tiempo y que al final produce los resultados para
construir una tabla similar a la tabla (25). Para enfatizar la relación entre Xi y el vector X = (X1 , . . . , Xn ) se dice que FXi (xi ) es la
función de distribución marginal de Xi o la i-ésima marginal de X.
for i=1:100000
n=-1; Nota Bene. Observar que, para cada i = 1, . . . , n, la función de distribución marginal de
S=0; Xi , FXi (xi ), se obtiene de la función de distribución conjunta FX (x1 , . . . , xn ) fijando el valor
while S<=1; de xi y haciendo xj → ∞ para toda j 6= i.
T=sqrt(-log(1-rand));
S=S+T; 1.2.1. Marginales discretas
n=n+1;
Caso bidimensional. Sea (X, Y ) un vector aleatorio discreto definido sobre un espacio
end
de probabilidad (Ω, A, P) con función de probabilidad conjunta pX,Y (x, y). Los números
f(i)=n;
pX,Y (x, y), (x, y) ∈ X(Ω) × Y (Ω) = {(X(ω), Y (ω)) : ω ∈ Ω}, se pueden representar en
end
la forma de una matriz con las siguientes propiedades
M=max(f);
for i=1:M+1;
X X
pX,Y (x, y) ≥ 0, y pX,Y (x, y) = 1. (9)
N(i)=length(find(f==i-1)); x∈X(Ω) y∈Y (Ω)
end
N Fijando x ∈ X(Ω) y sumando las probabilidades que aparecen en la fila x de la matriz
pX,Y (x, y) se obtiene
 X X
Ejemplo 1.24 (Saltando, saltando, sa, sa, sa, saltando,... ). La función pX,Y (x, y) = P(X = x, Y = y) = P(X = x) = pX (x). (10)
∞ y∈Y (Ω) y∈Y (Ω)
X 1
F (x) = 1{x ≥ rn }, (26) Fijando y ∈ Y (Ω) y sumando las probabilidades que aparecen en la columna y de la matriz
2n
n=1
pX,Y (x, y) se obtiene
donde r1 , r2 , . . . es un reordenamiento de los números racionales del intervalo (0, 1) con denom- X X
inadores crecientes: 12 , 13 , 23 , 14 , 34 , 51 , 25 , 53 , 54 , . . . , tiene las siguientes propiedades es creciente, pX,Y (x, y) = P(X = x, Y = y) = P(Y = y) = pY (y). (11)
x∈X(Ω) x∈X(Ω)
continua a derecha, lı́m F (x) = 0 y lı́m F (x) = 1; tiene saltos en todos los números
x→−∞ x→∞
racionales del (0, 1) y es continua en los irracionales del (0, 1). En otras palabras, sumando las probabilidades por filas obtenemos la función de probabilidad
Pero no! Mejor no hablar de ciertas cosas ... marginal de la variable aleatoria X y sumando las probabilidades por columnas obtenemos
la función de probabilidad marginal de la variable aleatoria Y . El adjetivo “marginal” que
reciben las funciones de probabilidad pX (x) y pY (y) refiere a la apariencia externa que adoptan
Ejercicios adicionales
(10) y (11) en una tabla de doble entrada.
3. Sea X una variable aleatoria con función de distribución FX (x). Mostrar que para cada Ejemplo 1.5. En una urna hay 6 bolas rojas, 5 azules y 4 verdes. Se extraen dos. Sean X la
α ∈ (0, 1) vale que cantidad de bolas
 rojas extraı́das e Y la cantidad de azules.
Existen 152 = 105 resultados posibles. La cantidad de resultados con x rojas, y azules y
sup{x ∈ R : FX (x) < α} = mı́n{x ∈ R : FX (x) ≥ α}. 2 − (x + y) verdes es    
6 5 4
x y 2 − (x + y)
Usando esa fórmula y poniendo q = 1/105 obtenemos

16 5
Cálculo de probabilidades Dependiendo del caso, la función de probabilidad conjunta 1.5. Función de distribución empı́rica e histogramas
pX (x), o la densidad conjunta fX (x), resume toda la información relevante sobre el compor-
Distribución empı́rica
tamiento del vector aleatorio X. Más precisamente, para todo conjunto A ⊂ Rn “suficiente-
mente regular”, vale que La función de distribución empı́rica Fn (x) de n puntos sobre la recta x1 , . . . , xn es la
 P función escalera con saltos de altura 1/n en los puntos x1 , . . . , xn . En otras palabras, nFn (x)
 x∈A pX (x) en el caso discreto, es igual a la cantidad de puntos xk en (−∞, x] y Fn (x) es una función de distribución:
P(X ∈ A) = R n
A fX (x)dx en el caso continuo.

1 1X
Fn (x) = |{i = 1, . . . , n : xi ≤ x}| = 1{xi ≤ x}. (27)
n n
Ejemplo 1.2. Sea (X, Y ) un vector aleatorio continuo con densidad conjunta fX,Y (x, y). Si i=1
a < b y c < d, entonces
Z bZ d Nota Bene. En la práctica, disponemos de conjuntos de observaciones (“muestras”) corre-
spondientes a un experimento considerado aleatorio y queremos extraer de ellas conclusiones
P(a < X ≤ b, c < Y ≤ d) = fX,Y (x, y)dxdy. (4)
a c sobre los modelos que podrı́an cumplir. Dada una muestra x1 , . . . , xn , la función de distribu-
ción empı́rica Fn (x) coincide con la función de distribución de una variable aleatoria discreta
Ejemplo 1.3 (Distribución uniforme). Sea Λ ⊂ R2 una región acotada de área |Λ|. Si la que concentra toda la masa en los valores x1 , . . . , xn , dando a cada uno probabilidad 1/n.
densidad conjunta de un vector aleatorio continuo (X, Y ) es de la forma
Observación 1.25. Sea Fn (x) la función de distribución empı́rica correspondiente a una
1 muestra de n valores x1 , . . . , xn . Sean a y b dos números reales tales que a < b. Notar que
fX,Y (x, y) = 1{(x, y) ∈ Λ}, (5)
|Λ|
n
1X 1
diremos que (X, Y ) está uniformemente distribuido sobre Λ y escribiremos (X, Y ) ∼ U(Λ). Fn (b) − Fn (a) = 1{xi ∈ (a, b]} = |{i = 1, . . . , n : xi ∈ (a, b]}|.
n n
Sea B ⊂ Λ una sub-región de Λ de área |B|. La probabilidad de que (X, Y ) ∈ B se calcula i=1
del siguiente modo
En consecuencia, el cociente incremental de Fn (x) sobre el intervalo [a, b] es la frecuencia
x x 1 |B| relativa de los valores de la muestra x1 , . . . , xn contenidos en el intervalo (a, b] “normalizada”
P((X, Y ) ∈ B) = fX,Y (x, y)dxdy = dxdy = . (6) por la longitud de dicho intervalo:
|Λ| |Λ|
B B
n
  !
En otras palabras, la probabilidad de que (X, Y ) ∈ B es la proporción del área de la región Fn (b) − Fn (a) 1 1X
= 1{xi ∈ (a, b]} . (28)
Λ contenida en la sub-región B. b−a b−a n
i=1

Ejemplo 1.4. Sea (X, Y ) un vector aleatorio uniformemente distribuido sobre el cuadrado Notar que si los n valores, x1 , . . . , xn , corresponden a n observaciones independientes de
[0, 1] × [0, 1]. ¿Cuánto vale P(XY > 1/2)? los valores de una variable aleatoria X, la interpretación intuitiva de la probabilidad indica
Debido a que el cuadrado [0, 1] × [0, 1] tiene área 1 la probabilidad requerida es el área de que el cociente incremental (28) deberı́a estar próximo del cociente incremental de la función
la región B = {(x, y) ∈ [0, 1] × [0, 1] : xy > 1/2}. Ahora bien, de distribución, FX (x), de la variable aleatoria X sobre el intervalo [a, b]:

(x, y) ∈ B ⇐⇒ y > 1/2x (7) Fn (b) − Fn (a) P(a < X ≤ b) FX (b) − FX (a)
≈ = . (29)
b−a b−a b−a
y como y ≤ 1, la desigualdad del lado derecho de (7) sólo es posible si 1/2 ≤ x. Vale decir,
Cuando X es una variable aleatoria absolutamente continua con función densidad continua
B = {(x, y) : 1/2 ≤ x ≤ 1, 1/2x < y ≤ 1}. fX (x) la aproximación (28) adopta la forma

En consecuencia, b
Fn (b) − Fn (a) 1
Z
≈ fX (x)dx = fX (x), (30)
x 1 1
!
1  b−a b−a a
1
Z Z Z
P (XY > 1/2) = |B| = 1 dxdy = 1 dy dx = 1− dx
1 1 1 2x donde x es algún punto perteneciente al intervalo (a, b).
B 2 2x 2
 
1 1 1 1
= + log = (1 − log 2) ≈ 01534....
2 2 2 2

4 17
111111111111111111111111
000000000000000000000000
000000000000000000000000
111111111111111111111111
Histogramas b2
+
000000000000000000000000
111111111111111111111111

Un histograma de una muestra x1 , . . . , xn se obtiene eligiendo una partición en m intervalos 000000000000000000000000


111111111111111111111111
000000000000000000000000
111111111111111111111111
de extremos a0 < · · · < am , con longitudes Lj = aj −aj−1 ; calculando las frecuencias relativas 000000000000000000000000
111111111111111111111111
000000000000000000000000
111111111111111111111111
000000000000000000000000
111111111111111111111111
n
000000000000000000000000
111111111111111111111111
pj =
1X
1{aj−1 < xi < aj } 000000000000000000000000
111111111111111111111111
000000000000000000000000
111111111111111111111111
n
000000000000000000000000
111111111111111111111111
000000000000000000000000
111111111111111111111111
i=1
000000000000000000000000 +
111111111111111111111111
000000000000000000000000
111111111111111111111111

y graficando la función igual a pj /Lj en el intervalo (aj−1 , aj ] y a 0 fuera de los intervalos:
0000000000000
1111111111111
000000000000000000000000
111111111111111111111111
a 1111111111111111111111111111111111111111111
20000000000000000000000000000000000000000000
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000
1111111111111
000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
m
0000000000000
1111111111111
000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
pj
0000000000000
1111111111111
000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
X
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
fx1 ,...,xn ; a0 ,...,am (x) := 1{x ∈ (aj−1 , aj ]}. (31)
0000000000000
1111111111111
000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
Lj
0000000000000
1111111111111
000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000
1111111111111
000000000000000000000000
111111111111111111111111
j=1
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000
1111111111111
000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
O sea, un conjunto de rectángulos con área pj . 0000000000000
1111111111111
000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000
1111111111111
000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000
1111111111111
Cuando la muestra x1 , . . . , xn corresponde a n observaciones independientes de una vari- 000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000
1111111111111
able aleatoria X absolutamente continua la función definida en (31) es una versión discreta 000000000000000000000000a
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
b
1 1
de la densidad de X en la que las áreas miden frecuencias relativas.

Figura 1: Esquema de la demostración de la identidad (2).  El rectángulo (a1 , b1 ] × (a2 , b2 ] se


Ejercicios adicionales puede representar en la forma S(b1 ,b2 ) \ S(a1 ,b2 ) ∪ S(b1 ,a2 ) .

4. Lucas filma vı́deos de tamaños aleatorios. En una muestra aleatoria de 5 vı́deos filmados
por Lucas se obtuvieron los siguiente tamaños (en MB): Clasificación

1. Vectores aleatorios discretos. El vector aleatorio X se dice discreto cuando existe un


17, 21.3, 18.7, 21, 18.7
conjunto numerable A ⊂ Rn tal que P(X ∈ A) = 1. En tal caso, las variables aleatorias
Hallar y graficar la función de distribución empı́rica asociada a esta muestra. Estimar, usando X1 , . . . , Xn son discretas y la función pX : Rn → [0, 1] definida por
la función de distribución empı́rica asociada a esta muestra, la probabilidad de que un vı́deo
pX (x) := P(X = x) (3)
ocupe menos de 19.5 MB.
se llama la función de probabilidad conjunta de X. Su relación con la función de dis-
5. Los siguientes datos corresponden a los tiempos de funcionamiento (en años) hasta que
tribución conjunta es la siguiente
ocurre la primer falla de una muestra de 12 máquinas industriales:
X
FX (x) = pX (y).
2.0087, 1.9067, 2.0195, 1.9242, 1.8885, 1.8098,
y∈Sx
1.9611, 2.0404, 2.1133, 2.0844, 2.1695, 1.9695.
2. Vectores aleatorios continuos. El vector aleatorio X = (X1 , . . . , Xn ) se dice continuo
Usando los intervalos con extremos 1.7, 1.9, 2.1, 2.3, hallar la función histograma basada en
cuando existe una función fX : Rn → R+ , llamada densidad de probabilidades conjunta
la muestra observada e integrarla para estimar la probabilidad de que una máquina industrial
de X1 , . . . , Xn tal que
del mismo tipo funcione sin fallas durante menos de dos años.
Z
FX (x) = fX (y)dy.
Sx
Ejemplo 1.26. Sea T una variable aleatoria con distribución exponencial de intensidad 1
(ver (14)). Esto es, T es una variable aleatoria absolutamente continua con función densidad (Para evitar dificultades relacionadas con el concepto de integración supondremos que
de probabilidad las densidades son seccionalmente continuas.)
fT (t) = e−t 1{t > 0}
3. Vectores aleatorios mixtos. El vector aleatorio X se dice mixto si no es continuo ni
y función de distribución discreto.
FT (t) = 1 − e−t 1{t ≥ 0}.


18 3
Índice De acuerdo con el esquema de la demostración del Teorema 1.19 podemos simular muestras de
T utilizando un generador de números aleatorios uniformemente distribuidos sobre el intervalo
1. Vectores aleatorios 2 (0, 1). Concretamente, si U ∼ U(0, 1), entonces
1.1. Distribución conjunta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Distribuciones marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 T̂ = − log(1 − U )
1.2.1. Marginales discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.2. Marginales continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 es una variable con distribución exponencial de intensidad 1.
1.3. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Para obtener una muestra de 10 valores t1 , . . . , t10 de una variable con distribución ex-
1.3.1. Caso bidimensional discreto . . . . . . . . . . . . . . . . . . . . . . . . 9 ponencial de intensidad 1 generamos 10 números aleatorios u1 , . . . , u10 y los transformamos
1.3.2. Caso bidimensional continuo . . . . . . . . . . . . . . . . . . . . . . . 11 poniendo ti = − log(1 − ui ). Por ejemplo, si los valores u1 , . . . , u10 son, respectivamente,

2. Bibliografı́a consultada 12 0.1406, 0.3159, 0.8613, 0.4334, 0.0595, 0.8859, 0.2560, 0.2876, 0.2239, 0.5912,

los valores de la muestra obtenida, t1 , . . . , t10 , son, respectivamente,


1. Vectores aleatorios
0.1515, 0.3797, 1.9753, 0.5682, 0.0613, 2.1703, 0.2957, 0.3390, 0.2535, 0.8946. (32)
Notación. Para simplificar la escritura usaremos las siguientes notaciones. Los puntos del
espacio n-dimensional Rn , n ≥ 2, se denotan en negrita, x = (x1 , . . . , xn ). La desigualdad La función de distribución empı́rica de la muestra observada, F10 (t), es una función escalera
y ≤ x significa que yi ≤ xi para todo i = 1, . . . , n y se puede interpretar diciendo que y con saltos de altura 1/10 en los siguientes puntos del eje t:
está al “sudoeste” de x. El conjunto de todos los puntos al “sudoeste” de x será denotado
0.0613, 0.1515, 0.2535, 0.2957, 0.3390, 0.3797, 0.5682, 0.8946, 1.9753, 2.1703.
mediante Sx := {y ∈ Rn : y ≤ x}. Finalmente, cualquiera sea el subconjunto de ı́ndices
J = {i1 , . . . , im } ⊂ {1, . . . , n} denotaremos mediante xJ ∈ Rm al punto m-dimensional que Para construir un histograma usaremos la partición que se obtiene dividiendo en dos
se obtiene de x quitándole todas las coordenadas que tengan ı́ndices fuera de J. Por ejemplo, intervalos de igual longitud el intervalo comprendido entre los valores mı́nimos y máximos
si J = {1, 2}, entonces xJ = (x1 , x2 ). observados: 0.0613, 1.1158, 2.1703. La longitud L de cada intervalo es 1.0545. La frecuencia
Definición 1.1. Un vector aleatorio sobre un espacio de probabilidad (Ω, A, P) es una función relativa de la muestra sobre el primer intervalo es p1 = 8/10 y sobre el segundo p2 = 2/10 y
X = (X1 , . . . , Xn ) : Ω → Rn tal que para todo x ∈ Rn la correspondiente altura de cada rectángulo es p1 /L = 0.75865 y p2 /L = 0.18966.

{X ∈ Sx } = {ω ∈ Ω : X(ω) ≤ x} ∈ A.
1 1
Empírica Hitograma
0.9 Teórica 0.9 Densidad
1.1. Distribución conjunta 0.8 0.8

La función de distribución (conjunta) FX : Rn → [0, 1] del vector aleatorio X se define 0.7 0.7

por 0.6 0.6

0.5 0.5

FX (x) := P(X ∈ Sx ) (1) 0.4 0.4

0.3 0.3

Cálculo de probabilidades. La función de distribución conjunta resume toda la infor- 0.2 0.2

mación relevante sobre el comportamiento de las variables aleatorias X1 , . . . , Xn . Para fijar 0.1 0.1

ideas, consideremos el caso más simple: n = 2. Si a1 < b1 y a2 < b2 vale que1 0


0 1 2 3 4 5
0
0 1 2 3 4 5 6 7

P(a1 < X1 ≤ b1 , a2 < X2 ≤ b2 ) = F (b1 , b2 ) − F (a1 , b2 ) − F (b1 , a2 ) + F (a1 , a2 ). (2) (a) (b)

La identidad (2) permite calcular la probabilidad de observar al vector (X1 , X2 ) en el


rectángulo (a1 , b1 ] × (a2 , b2 ]. Figura 7: (a) Gráficos de la función de distribución empı́rica F10 (t) correspondiente a la
La fórmula n-dimensional análoga de (2) es complicada y no es relevante para el desarrollo muestra dada en (32) y de la función de distribución de T . (b) Histograma correspondiente a
posterior. (Se obtiene aplicando la fórmula de inclusión-exclusión para calcular la probabilidad la misma muestra y gráfico de la densidad de T .
de la unión de eventos.)
1
Ver la Figura 1.

2 19
Para producir los gráficos de la Figura 7 usamos las siguientes rutinas en Octave.

Rutina para simular 10 valores de una exponencial de intensidad 1

U=rand(1,10);
Vectores aleatorios: marginales e independencia
T=-log(1-U); (Borradores, Curso 23)

Rutina para graficar la función de distribución empı́rica de la muestra T Sebastian Grynberg

t=sort(T); 25 de marzo 2013


s=empirical_cdf(t,t);
stairs([t(1),t],[0 s])

Rutina para graficar un histograma de la muestra T

[f,c]=hist(T,2);
p=f/10;
L=c(2)-c(1);
bar(c,p/L,1,’w’)

Usando rutinas similares para muestras de tamaño 100 se obtienen los siguientes gráficos.

1 1
Hitograma
0.9 0.9 Densidad

0.8 0.8

0.7 0.7

0.6 0.6

0.5 0.5

0.4 0.4

0.3 0.3

0.2 0.2

0.1 Empírica 0.1


Teórica
0 0
0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7

(a) (b)

Figura 8: (a) Gráficos de la función de distribución empı́rica F100 (t) correspondiente a una
muestra de tamaño 100 de una variable T con distribución exponencial de intensidad 1 y de Um coup de dés jamais n’abolira le hasard
la función de distribución de T . (b) Histograma correspondiente a la misma muestra y gráfico (Stéphane Mallarmé)
de la densidad de T .

20 1
2. Variables truncadas
P
Demostración. Inmediata de la fórmula (35) y de observar que i≥1 1{X ∈ Bi } = 1.
Ejemplo 2.9 (Dividir y conquistar). Todas las mañanas Lucas llega a la estación del subte Sea X una variable aleatoria definida sobre un espacio de probabilidad (Ω, A, P). Sea
entre las 7:10 y las 7:30 (con distribución uniforme en el intervalo). El subte llega a la estación B ⊂ R un conjunto tal que X −1 (B) = {ω ∈ Ω : X(ω) ∈ B} ∈ A y tal que P(X ∈ B) > 0.
cada quince minutos comenzando a las 6:00. ¿Cuál es la densidad de probabilidades del tiempo Truncar la variable aleatoria X al conjunto B significa condicionarla a tomar valores en
que tiene que esperar Lucas hasta subirse al subte? el conjunto B.
Sea X el tiempo de llegada de Lucas a la estación del subte, X ∼ U[7:10, 7:30]. Sea Y Mediante X|X ∈ B designaremos la variable aleatoria obtenida por truncar X al conjunto
el tiempo de espera. Consideramos los eventos A = {7:10 ≤ X ≤ 7:15} = ”Lucas sube en el B. Por definición, la función de distribución de X|X ∈ B es
subte de las 7:15”; B = {7:15 < X ≤ 7:30} = ”Lucas sube en el subte de las 7:30”.
Condicionado al evento A, el tiempo de llegada de Lucas a la estación del subte es uniforme P(X ≤ x, X ∈ B)
FX|X∈B (x) = P(X ≤ x| X ∈ B) = . (33)
entre las 7:10 y las 7:15. En en ese caso, el tiempo de espera Y es uniforme entre 0 y 5 minutos. P(X ∈ B)
Análogamente, condicionado al evento B, Y es uniforme entre 0 y 15 minutos. La densidad
de probabilidades de Y se obtiene dividiendo y conquistando Caso absolutamente continuo. Si la variable aleatoria X es absolutamente continua con
    densidad de probabilidades fX (x), la función de distribución de X|X ∈ B adopta la forma
5 1 15 1
fY (y) = 1{0 ≤ y ≤ 5} + 1{0 ≤ y ≤ 15} R Rx
20 5 20 15 {X≤x}∩{X∈B} fX (x)dx fX (x)1{x ∈ B}dx
1 1 FX|X∈B (x) = = −∞ . (34)
= 1{0 ≤ y ≤ 5} + 1{5 ≤ y ≤ 15}. P(X ∈ B) P(X ∈ B)
10 20
Por lo tanto, X|X ∈ B es una variable aleatoria absolutamente continua con densidad de
probabilidades

3. Bibliografı́a consultada fX (x)


fX|X∈B (x) = 1{x ∈ B}. (35)
P(X ∈ B)
Para redactar estas notas se consultaron los siguientes libros:
Nota Bene. La densidad condicional fX|X∈B (x) es cero fuera del conjunto condicionante
1. Bertsekas, D. P., Tsitsiklis, J. N.: Introduction to Probability. M.I.T. Lecture Notes.
B. Dentro del conjunto condicionante la densidad condicional tiene exactamente la misma
(2000)
forma que la densidad incondicional, salvo que está escalada por el factor de normalización
2. Chung, K. L.: A Course in Probability Theory. Academic Press, San Diego. (2001) 1/P(X ∈ B) que asegura que fX|∈B (x) integra 1.
3. Durrett R.:Probability.Theory and Examples. Duxbury Press, Belmont. (1996) Ejemplo 2.1 (Exponencial truncada a la derecha). Sea T una variable aleatoria con distribu-
ción exponencial de intensidad λ > 0 y sea t0 > 0. Según la fórmula (35) la variable aleatoria
4. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 1. John T truncada a la semi-recta (t, +∞), T | T > t0 , tiene la siguiente densidad de probabilidades
Wiley & Sons, New York. (1968)
λe−λt
5. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 2. John fT | T >t0 (t) = 1{t > t0 } = e−λ(t−t0 ) 1{t − t0 > 0} = fT (t − t0 ).
e−λt0
Wiley & Sons, New York. (1971)
En otros términos, si T ∼ Exp(λ), entonces T | T > t0 ∼ t0 +Exp(λ).
6. Grimmett, G. R., Stirzaker, D. R.: Probability and Random Processes. Oxford Univer-
sity Press, New York. (2001)
Caso discreto. El caso discreto se trata en forma análoga a la anterior. La función de
7. Johnson, N. L., Kotz, S., Balakrishnan, N.: Continuous Univariate Distributions. Vol. probabilidad de X|X ∈ B adopta la forma
1. John Wiley & Sons, New York. (1995) P(X = x)
pX|X∈B (x) = 1{x ∈ B}. (36)
8. Kolmogorov, A. N.: Foundations of the Theory of Probability. Chelsea Publishing Co., P(X ∈ B)
New York. (1956)
Ejemplo 2.2 (Dado equilibrado). Sea X el resultado del tiro de un dado equilibrado y sea
9. Maronna R.: Probabilidad y Estadı́stica Elementales para Estudiantes de Ciencias. Ed- B = {2, 4, 6}. El evento “el resultado del tiro es un número par” es X ∈ B. Aplicando la
itorial Exacta, La Plata. (1995). fórmula anterior obtenemos

10. Pugachev, V. S.: Introducción a la Teorı́a de las Probabilidades. Mir, Moscú. (1973) 1/6 1
pX|X∈B (x) = 1{x ∈ {2, 4, 6}} = 1{x ∈ {2, 4, 6}}. (37)
1/2 3
11. Ross, S.: Introduction to Probability Models. Academic Press, San Diego. (2007)

24 21
2.1. Perdida de memoria Si T representa el tiempo de espera, T ∼ Exp(1/10). La primer probabilidad es
1 3
Ejemplo 2.3. Lucas camina hacia la parada del colectivo. El tiempo, T , entre llegadas P(T > 15) = e− 10 15 = e− 2 ≈ 0.220
de colectivos tiene distribución exponencial de intensidad λ. Supongamos que Lucas llega t
minutos después de la llegada de un colectivo. Sea X el tiempo que Lucas tendrá que esperar La segunda pregunta interroga por la probabilidad de que habiendo esperado 10 minutos
hasta que llegue el próximo colectivo. Cuál es la distribución del tiempo de espera X? tengamos que esperar al menos 5 minutos más. Usando la propiedad de falta de memoria de
Designamos mediante A = {T > t} el evento “Lucas llegó t minutos después de la llegada la exponencial, dicha probabilidad es
de un colectivo”. Tenemos que 1 1
P(T > 5) = e− 10 5 = e− 2 ≈ 0.604.
P(T > t + x, T > t)
P(X > x|A) = P(T > t + x|T > t) =
P(T > t)
P(T > t + x) e−λ(t+x) 2.2. Caracterización cualitativa de la distribución exponencial
= = = e−λx .
P(T > t) e−λt
La propiedad de pérdida de memoria caracteriza a la distribución exponencial.
Teorema 2.7. Sea T una variable aleatoria continua a valores en R+ . Si T pierde memoria,
Definición 2.4. Se dice que una variable aleatoria T no tiene memoria, o pierde memoria, si entonces T ∼ Exp(λ), donde λ = − log P(T > 1).
P(T > s + t|T > t) = P(T > s) para todo s, t ≥ 0. (38)
Demostración (a la Cauchy). Sea G(t) := P(T > t). De la ecuación (39) se deduce que
La condición de pérdida de memoria es equivalente a la siguiente
G(s + t) = G(s)G(t). (41)
P(T > s + t) = P(T > s)P(T > t). (39) La única función continua a derecha que satisface la ecuación funcional (41) es
En efecto, basta observar que P(T > s + t, T > t) = P(T > s + t) y usar la definición de G(t) = G(1)t . (42)
probabilidad condicional. m
m 2 1 1
  
Para ello basta ver que G n = G(1) . Si vale (41), entonces G
n
n = G n +n =
2
G n1 G n1 = G n1 y repitiendo el argumento se puede ver que
 
Nota Bene. Si se piensa que T es el tiempo para completar cierta operación, la ecuación
(38) establece que si a tiempo t la operación no ha sido completada, la probabilidad de que m  m
1
la operación no se complete a tiempo s + t es la misma que la probabilidad inicial de que la G =G . (43)
operación no haya sido completada a tiempo s. n n
n
En particular, si m = n se obtiene G (1) = G n1 . Equivalentemente,

Lema 2.5. La variable exponencial no tiene memoria.
 
1 1

Demostración Si T ∼ Exp(λ), entonces G = G(1) n (44)


n
P(T > t) = e−λt para todo t ≥ 0. (40) De las identidades (43) y (44) se deduce que
m m
Usando (40) se prueba inmediatamente que la ecuación (39) se satisface cuando T tiene G = G(1) n . (45)
distribución exponencial (pues e−λ(s+t) = e−λs e−λt ). n
Ahora bien, debido a que G(1) = P(T > 1) ∈ (0, 1), existe λ > 0 tal que G(1) = e−λ
t
Nota Bene. Si modelamos el tiempo para completar cierta operación por una variable (λ = − log G(1)). Reemplazando en (42) se obtiene G(t) = e−λ = e−λt .
aleatoria T con distribución exponencial, la propiedad de pérdida de memoria implica que
mientras la operación no haya sido completada, el tiempo restante para completarla tiene la 2.3. Dividir y conquistar
misma función de distribución, no importa cuando haya empezado la operación.
Teorema 2.8. Sea X una variable aleatoria absolutamente continua con densidad de proba-
Ejemplo 2.6. Supongamos que el tiempo de espera para recibir un mensaje tenga distribu- bilidades fX (x). Sea (Bi )i≥1 una familia de subconjuntos disjuntos dos a dos de la recta real
ción exponencial de intensidad 1/10 minutos. Cuál es la probabilidad de que tengamos que tales que {X ∈ Bi } ∈ A y P(X ∈ Bi ) > 0 para todo i ≥ 1. Si Ω = ∪i≥1 {X ∈ Bi }, entonces
esperar más de 15 minutos para recibirlo? Cuál es la probabilidad de que tengamos que es- X
perar más de 15 minutos para recibir el mensaje dado que hace más de 10 minutos que lo fX (x) = fX|X∈Bi (x)P(X ∈ Bi ). (46)
estamos esperando? i≥1

22 23
1.3. Funciones inyectivas suaves 1.1. Definición
Teorema 1.9 (Cambio de variables). Sea X una variable aleatoria absolutamente continua Definición 1.1 (Esperanza de una variable discreta). Sea X una variable aleatoria discreta.
con densidad de probabilidades fX (x). Sea Y = g(X), donde g es una función monótona La esperanza de X, denotada por E[X], es el promedio ponderado
con derivada no nula. Entonces Y es absolutamente continua y admite una densidad de X
probabilidades de la forma E[X] := xP(X = x), (1)
x∈A

fX (x)
fY (y) = ′ . (9)
|g (x)| x=g−1 (y) donde A = {x ∈ R : F (x) − F (x−) > 0} es el conjunto de todos los átomos de la función
distribución de X.
Demostración.
1. La función g es creciente: g(x1 ) ≤ g(x2 ) para x1 ≤ x2 . En tal caso la función inversa Ejemplo 1.2 (Esperanza de la función indicadora). Sea (Ω, A, P) un espacio de probabilidad.
g −1 también es creciente. En consecuencia, Para cualquier evento A ∈ A vale que
FY (y) = P(Y ≤ y) = P(g(X) ≤ y) = P X ≤ g −1 (y) = FX g −1 (y) .
 
(10) E[1{ω ∈ A}] = 0 · (1 − P(A)) + 1 · P(A) = P(A). (2)
La función FY (y) es derivable porque es una composición de funciones derivables. Derivando
con respecto a y y usando la regla de la cadena se obtiene
d d fX (g −1 (y))
FY (y) = FX (g −1 (y)) = ′ −1 . La esperanza como centro de gravedad. La noción de esperanza es análoga a la noción
dy dy g (g (y))
de centro de gravedad para un sistema de partı́culas discreto.
2. La función g es decreciente: g(x1 ) ≥ g(x2 ) para x1 ≤ x2 . En este caso la función inversa Se consideran n partı́culas ubicadas en los puntos x1 , . . . , xP
n cuyos pesos respectivos son
g −1 también es decreciente. En consecuencia, p(x1 ), . . . , p(xn ). No se pierde generalidad si se supone que n
i=1 p(xi ) = 1. El centro de
FY (y) = P(Y ≤ y) = P(g(X) ≤ y) = P X ≥ g −1 (y) = 1 − FX g −1 (y) . gravedad, c, del sistema es el punto respecto de la cual la suma de los momentos causados
 
(11)
por los pesos p(xi ) es nula. Observando que
Derivando con respecto a y se obtiene
d d fX (g −1 (y)) k k
1 − FX (g −1 (y)) = − ′ −1
 X X
FY (y) = . (xi − c) p(xi ) = 0 ⇐⇒ c = xi p(xi )
dy dy g (g (y))
i=1 i=1

Corolario 1.10 (Cambio lineal). Dados a > 0 y b ∈ R, la densidad de probabilidades de resulta que el centro de gravedad del sistema coincide con la esperanza de una variable aleato-
Y = aX + b adopta la forma ria X a valores en {x1 , . . . , xn } tal que P(X = xi ) = p(xi ).
 
1 y−b
fY (y) = fX . (12)
a a c
En palabras, desde el punto de vista de la densidad de probabilidades, el cambio lineal
y = ax + b efectúa una traslación en b seguida de un cambio de escala de 1 en a sobre la
densidad original. Cuando el parámetro a se achica, los valores de Y tienden a estar más
concentrados (alrededor del valor medio) y cuando a se agranda, tienden a dispersarse. 1 3 6 10
Ejemplo 1.11 (Variables exponenciales). Se dice que la variable aleatoria Y tiene distribución
exponencial de intensidad λ > 0, y se denota Y ∼ Exp(λ), si Y = λ1 X, donde X es una
variable aleatoria absolutamente continua que admite una densidad de probabilidades de la Figura 1: Interpretación de la esperanza como centro de gravedad. Se considera un sis-
forma fX (x) = e−x 1{x ≥ 0}. De (12) se deduce que Y admite una densidad de probabilidades tema de cuatro “partı́culas” de pesos pi proporcionales a las áreas de los cı́rculos de radio
de la forma fY (y) = λe−λy 1{y ≥ 0}. 1/3, 2/3, 3/3, 4/3 centrados en los puntos xi = 1, 3, 6, 10, respectivamente. No se pierde gen-
Ejemplo 1.12 (Variables Normales). Sean µ ∈ R y σ > 0. Se dice que la variable aleatoria eralidad si se supone que el peso total
P del sistema es la unidad. El centro de gravedad del
Y tiene distribución normal de parámetros µ, σ 2 , y se denota Y ∼ N (µ, σ 2 ), si Y = σX + µ, sistema se encuentra en el punto c = 4i=1 xi pi = 227/30 = 7.56 . . .
donde X es una variable aleatoria absolutamente continua con densidad de probabilidades
2
ϕ(x) = √12π e−x /2 . De (12) se deduce que Y admite una densidad de probabilidades de la
 2

1
forma fY (y) = √2πσ exp − (y−µ)
2σ 2
.

6 3
La esperanza como promedio. Sea X una variable aleatoria a valores x1 , . . . , xn con Ejemplo 1.8 (Variables discretas). Sea X una variable aleatoria discreta a valores (xi )i≥1 .
función de probabilidades De la relación Y = g(X) se deduce que los posibles valores de Y son yi = g(xi ), i ≥ 1. Si la
función de probabilidad de X está dada por pX (xi ) = pi , i ≥ 1, la función de probabilidad de
1
P(X = x) = 1{x ∈ {x1 , . . . , xn }}. Y se determina por
n X
pY (yi ) = P(Y = yi ) = P(X ∈ g −1 (yi )) = px .
Conforme a la Definición 1.1 la esperanza de X es
x∈g −1 (yi )
n n
X 1X
E[X] = xi P(X = xi ) = xi . (3)
n
i=1 i=1

Dicho en palabras: la esperanza de una variable aleatoria uniformemente distribuida sobre los Ejercicios adicionales
valores x1 , x2 , . . . , xn coincide con el promedio de dichos valores.
1. Sea X una variable aleatoria discreta tal que P (X = −1) = 1/2, P(X = 0) = 1/4 y
Ejemplo 1.3 (Dado equilibrado). Sea X el resultado del lanzamiento de un dado equilibrado. P(X = 1) = P(X = 2) = 1/8. Hallar la función de probabilidad de Y para Y = 2X + 1 y para
De acuerdo con (3) la esperanza de X es Y = 2X 2 + 1.
6
1X 21 7
E[X] = x= = .
6 6 2 1.2. Funciones a trozos: dividir y conquistar
x=1

Sea X una variable y sea A1 , A2 , . . . una partición de R tal que P(X ∈ Ai ) > 0 para todo
i ≥ 1. Consideramos una función a trozos definida por
Ejemplo 1.4 (Uniforme sobre el “intervalo” {1, 2, . . . , n}). La variable aleatoria del Ejemplo X
1.3 es un caso particular de una variable aleatoria discreta X uniformemente distribuida sobre g(x) = gi (x)1{x ∈ Ai },
el “intervalo” de números enteros {1, 2, . . . , n}. De acuerdo con (3) la esperanza de X es i≥1

n   donde, para cada i ≥ 1, gi : R → R, es una función tal que gi (X) es una variable aleatoria. Si
1X 1 n(n + 1) 1+n se quiere hallar la distribución de
E[X] = x= = .
n n 2 2 X
x=1 Y = g(X) = gi (X)1{X ∈ Ai }
i≥1

se puede hacer lo siguiente: considerar las variables truncadas Xi = X|X ∈ Ai , hallar las
Ejemplo 1.5 (Moneda equilibrada). Sea N la cantidad de veces que debe lanzarse una mon- distribuciones de las variables Yi = gi (Xi ) y luego ponderarlas con los pesos P(X ∈ Ai ):
eda equilibrada hasta que salga cara. N es una variable aleatoria discreta a valores 1, 2, . . . tal X
que P(N = n) = (1/2)n , n = 1, 2, . . . . De acuerdo con la definición 1.1, la esperanza de N es FY (y) = FYi (y)P(X ∈ Ai ). (6)
i≥1
∞ ∞  n
X X 1 En efecto, por una parte tenemos que
E[N ] = nP(N = n) = n .
2    
n=1 n=1 X X X
P∞ FY (y) = P  gj (X)1{X ∈ Aj } ≤ y  = P gj (X)1{X ∈ Aj } ≤ y, X ∈ Ai 
Derivando ambos lados de la igualdad n=0 xn − x)−1 , que vale para |x| < 1, se deduce
= (1 P j≥1 i≥1 j≥1
que ∞ n−1 = (1 − x)−2 y de allı́ resulta que ∞ n −2
P
n=0 nx n=1 nx = x(1 − x) . Evaluando en X X
P X ∈ gi−1 (−∞, y] ∩ Ai .

x = 1/2 se obtiene que = P (gi (X) ≤ y, X ∈ Ai ) = (7)
i≥ i≥1
∞  n    −2
X 1 1 1 Por otra parte,
E[N ] = n = = 2.
2 2 2 P(X ∈ g −1 (−∞, y] ∩ Ai )
n=1
FYi (y) = P(gi (Xi ) ≤ y) = P(Xi ∈ g −1 (−∞, y]) = .
P(X ∈ Ai )
Equivalentemente,
La noción de esperanza se extiende a variables aleatorias absolutamente continuas cam-
P (X ∈ g −1 (−∞, y] ∩ Ai ) = FYi (y)P(X ∈ Ai ). (8)
biando en (1) la suma por la integral y la función de probabilidades P (X = x), x ∈ A, por la
densidad de probabilidades de la variable X. Combinando (7) y (8) se obtiene (6).

4 5
El siguiente ejemplo puede considerarse un prototipo que ilustra cómo tratar con las Definición 1.6 (Esperanza de una variable absolutamente continua). Sea X una variable
funciones de variables aleatorias cuando no son inyectivas. aleatoria absolutamente continua con densidad de probabilidades fX (x). La esperanza de X,
Ejemplo 1.5 (Prototipo). Sea X una variable aleatoria cualquiera y sea Y = X 2 . Queremos denotada por E[X], se define por
determinar la distribución de Y . Z ∞
E[X] := xfX (x)dx. (4)
1. Cálculo explı́cito de la función de distribución. La función de distribución de Y se −∞
calcula observando que g(x) = x2 y utilizando la fórmula: FY (y) = P X ∈ g −1 ((−∞, y]) . En
Ejemplo 1.7 (Fiabilidad). Sea T el tiempo de espera hasta que ocurre la primer falla en un
este caso, el conjunto g −1 ((−∞, y]) adopta la forma
 √ √ sistema electrónico con función intensidad de fallas de la forma λ(t) = 2t1{t > 0}. La función
[− y, y] si y ≥ 0, de distribución de T es FT (t) = 1 − exp −t2 1{t > 0}. En consecuencia, T es una

g −1 ((−∞, y]) = x ∈ R : x2 ≤ y =  variable

∅ si y < 0. aleatoria absolutamente continua con densidad de probabilidad fT (t) = 2t exp −t2 1{t > 0}.
Por lo tanto, De acuerdo con la definición 1.6, la esperanza de T es
√ √ √ √ Z ∞ Z ∞ Z ∞ √
FY (y) = P (− y ≤ X ≤ y ) 1{y ≥ 0} = (FX ( y) − FX (− y−)) 1{y ≥ 0}. (3) π
E[T ] = tfT (t)dt = t2t exp(−t2 )dt = exp(−t2 )dt = .
−∞ 0 0 2
En particular, si X es continua, P(X = x) = 0 para todo x ∈ R y la identidad (3) adopta la
forma La tercera igualdad se deduce de la fórmula de integración por partes aplicada a u = t y

√ √ R∞
v ′ = 2t exp(−t2 ) y la cuarta se deduce de la identidad 0 exp(−x2 /2)dx = 2π/2 mediante
FY (y) = (FX ( y) − FX (− y)) 1{y > 0}. (4) √
el cambio de variables t = x/ 2.
2. Cálculo explı́cito de la densidad de probabilidades. Si X es absolutamente continua
con densidad de probabilidades fX (x), la densidad de probabilidades de Y = X 2 se obtiene
Extendiendo la noción a variables mixtas. La noción de esperanza para variables
derivando la función de distribución FY (y). De la identidad (4) se deduce que:
  mixtas se obtiene combinando las nociones anteriores.
d √ 1 √ 1
fY (y) = FY (y) = fX ( y) √ − fX (− y) √ 1{y > 0} Definición 1.8 (Esperanza de una variable mixta). Sea X una variable aleatoria mixta con
dy 2 y −2 y
función de distribución FX (x). La esperanza de X, denotada por E[X], se define de la siguiente
1 √ √
= √ (fX ( y) + fX (− y)) 1{y > 0}. (5) manera:
2 y Z ∞
X
E[X] := xP(X = x) + xFX′ (x)dx, (5)
x∈A −∞
Ejemplo 1.6 (De continua a discreta). Sea U ∼ U(0, 1]. Hacemos Y = [10 U ], donde [x]
representa la parte entera de x ∈ R. Queremos determinar la función de probabilidad de Y . donde A = {x ∈ R : FX (x) − FX (x−) > 0} es el conjunto de todos los átomos de FX (x) y
En primer lugar observamos que la variable aleatoria Y es el primer dı́gito del desarrollo FX′ (x) es una función que coincide con la derivada de FX (x) en todos los puntos donde esa
decimal de un número elegido al azar sobre el intervalo (0, 1). Los posibles valores de Y son función es derivable y vale 0 en otro lado.
0, 1, . . . , 9. Para cada y ∈ {0, 1, . . . , 9} vale que
  Ejemplo 1.9 (Mixtura). Sea X una variable aleatoria mixta cuya función de distribución es
y y+1 1
FX (x) = 2x+5

P(Y = y) = P <U ≤ = . 8 1{−1 ≤ x < 1} + 1{x ≥ 1}. De acuerdo con la fórmula (5), la esperanza de
10 10 10 X es
En otras palabras, Y ∼ U{0, 1, . . . , 9}. Z 1 Z 1
3 1 2 1
Ejemplo 1.7. Sea T ∼ Exp (λ) la duración en minutos de una llamada telefónica. Se factura E[X] = −1 · P(X = −1) + 1 · P(X = 1) + FX′ (x)dx = − + + dx = .
−1 8 8 −1 8 4
un pulso cada t0 minutos o fracción. Queremos determinar la distribución de la cantidad de
pulsos facturados por la llamada.
La cantidad de pulsos facturados por la llamada se describe por:
X Nota Bene. En todas las definiciones anteriores, se presupone que las series y/o integrales
N= n1{(n − 1)t0 < T ≤ nt0 }.
involucradas son absolutamente convergentes.
n≥1

Notando que N > n ⇐⇒ T > nt0 obtenemos que Ejemplo 1.10 (Distribución de Cauchy). Sea X una variable aleatoria con distribución de
 n Cauchy. Esto es, X es absolutamente continua y admite una densidad de probabilidades de
P (N > n) = e−λnt0 = e−λt0 = P(T > t0 )n . la forma
1
Por lo tanto, N ∼ Geométrica (P(T ≤ t0 )). f (x) = .
π(1 + x2 )

4 5
1
Debido a que
∞ ∞
|x|
Z Z
|x|f (x)dx = dx = ∞,
−∞ −∞ π(1 + x2 ) Θ

X no tiene esperanza.

Teorema 1.11. Sea X una variable aleatoria no negativa (i.e., FX (x) = P(X ≤ x) = 0 para
todo x < 0). Vale que
Z ∞
E[X] = [1 − FX (x)] dx. (6)
0

0 X
Demostración. El argumento principal está contenido en la Figura 2. El caso general se
deduce usando técnicas de “paso al lı́mite”.
Figura 1: Péndulo.

Si el ángulo Θ es una variable aleatoria uniformemente distribuida sobre el intervalo (− π2 , π2 ),


1
111111111111111111111111111
000000000000000000000000000
000000000000000000000000000
111111111111111111111111111
000000000000000000000000000
111111111111111111111111111
cuál es la distribución de X?

000000000000000000000000000
111111111111111111111111111 Primero observamos que para cada θ ∈ (−π/2, π/2) tenemos que
p k

000000000000000000000000000
111111111111111111111111111
000000000000000000000000000
111111111111111111111111111
1111111111111111111
0000000000000000000
000000000000000000000000000
111111111111111111111111111
P(Θ ≤ θ) =
θ − (−π/2)
=
θ + π/2 1 θ
= + .
111111111111111
000000000000000 p
000000000000000000000000000
111111111111111111111111111
k−1 π/2 − (−π/2) π 2 π
000000000000000000000000000
111111111111111111111111111 De allı́ se deduce que
000000000000000000000000000
111111111111111111111111111
000000000000000000000000000
111111111111111111111111111
p 3 1 1
000000000000000000000000000
111111111111111111111111111
000000000000000000000000000
111111111111111111111111111
P(X ≤ x) = P(tan Θ ≤ x) = P(Θ ≤ arctan x) = + arctan x,
1111111111
0000000000
000000000000000000000000000
111111111111111111111111111
2 π

000000000000000000000000000
111111111111111111111111111 y derivando obtenemos que
000000000000000000000000000
111111111111111111111111111
1111
0000
p 2 1
000000000000000000000000000
111111111111111111111111111
000000000000000000000000000
111111111111111111111111111
fX (x) =
π(1 + x2 )
.

000000000000000000000000000
111111111111111111111111111
p 1
0
x 1 x x x 2 x 3 k−1 k
Teorema 1.2. Sea X una variable aleatoria continua con función de distribución creciente.
Entonces, Y = FX (X) ∼ U(0, 1).
Figura 2: Argumento geométrico que muestra la validez de la identidad (6) en el caso en que
X es no negativa, discreta y a valores 0 ≤ x1 < x2 < · · · < xk . Si pi = P(X = xi ), el área Demostración. El análisis se reduce a examinar el comportamiento de la función de dis-
de la región sombreada es la suma x1 p1 + · · · + xk pk = E[X] de las áreas de los rectángulos tribución de Y sobre el intervalo (0, 1). Para cada y ∈ (0, 1) vale que
horizontales y coincide con la integral de la altura P(X > x). FY (y) = P(Y ≤ y) = P(FX (X) ≤ y) = P(X ≤ FX−1 (y)) = FX (FX−1 (y)) = y.

Corolario 1.12. Sea X una variable aleatoria con función de distribución FX (x). Vale que Corolario 1.3. Sea X una variable aleatoria continua con función de distribución creciente.
Sea Y una variable aleatoria cualquiera. Entonces X puede transformarse en una copia de Y
∞ 0
haciendo lo siguiente: Ŷ = FY−1 (FX (X)), donde FY−1 es la inversa generalizada de Y .
Z Z
E[X] = [1 − FX (x)] dx − FX (x)dx. (7)
0 −∞ Ejemplo 1.4. Construir una moneda equilibrada X usando una variable aleatoria T con
distribución exponencial de intensidad 1.
Demostración. Ejercicio.  
1
X̂ = 1 < 1 − e−T < 1 .
2

6 3
Índice Nota Bene. Las identidades (6) y (7) son interesantes porque muestran que para calcular
la esperanza de una variable aleatoria basta conocer su función de distribución. De hecho, la
1. Funciones de variables aleatorias 2 identidad (7) ofrece una definición alternativa y unificada de la noción de esperanza.
1.1. Método básico: eventos equivalentes . . . . . . . . . . . . . . . . . . . . . . . 2
Ejemplo 1.13. Una máquina fue diseñada para prestar servicios en una instalación produc-
1.2. Funciones a trozos: dividir y conquistar . . . . . . . . . . . . . . . . . . . . . 5
tiva. La máquina se enciende al iniciar la jornada laboral y se apaga al finalizar la misma. Si
1.3. Funciones inyectivas suaves . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
durante ese perı́odo la máquina falla, se la repara y en esa tarea se consume el resto de la
1.4. Funciones suaves . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
jornada.
2. Funciones de vectores aleatorios 7 Suponiendo que la función intensidad de fallas de la máquina es una constante λ > 0 (y
2.1. Método básico: eventos equivalentes . . . . . . . . . . . . . . . . . . . . . . . 7 que el tiempo se mide en jornadas laborales), hallar el máximo valor de λ que permita asegurar
2.1.1. Suma de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 con una probabilidad mayor o igual que 2/3 que la máquina prestará servicios durante una
2.1.2. Mı́nimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 jornada laboral completa. Para ese valor de λ, hallar (y graficar) la función de distribución
2.2. El método del Jacobiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 del tiempo, T , de funcionamiento de la máquina durante una jornada laboral y calcular el
2.3. Funciones k a 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 tiempo medio de funcionamiento, E[T ].

3. Mı́nimo y máximo de dos exponenciales independientes 18


Solución. Si T1 es el tiempo que transcurre desde que se enciende la máquina hasta que
4. Funciones regulares e independencia 19 ocurre la primer falla, el evento “la máquina funciona durante una jornada laboral completa”
se describe mediante {T1 > 1}. Queremos hallar el máximo λ > 0 tal que P(T1 > 1) ≥ 2/3.
5. Bibliografı́a consultada 20 Debido a que la función intensidad de fallas es una constante λ se tiene que P(T1 > t) = e−λt .
En consecuencia, P(T1 > 1) ≥ 2/3 ⇐⇒ e−λ ≥ 2/3 ⇐⇒ λ ≤ − log(2/3). Por lo tanto,
λ = − log(2/3). En tal caso, P(T > 1) = 2/3.
1. Funciones de variables aleatorias
Sea X una variable aleatoria definida sobre un espacio de probabilidad (Ω, A, P). Sea
1
g : D ⊆ R → R una función cuyo dominio D contiene al rango de X: X(Ω) := {x(ω) : ω ∈ Ω}.
Entonces Y = g(X) está bien definida y será una variable aleatoria si y sólo si

{ω ∈ Ω : g(X) ≤ y} ∈ A para todo y ∈ R. (1)

En palabras, si g −1 ((−∞, y])


:= {x ∈ R : g(x) ≤ y}, el conjunto {X ∈ debe tener g −1 (−∞, y]}
asignada probabilidad. Este es tı́picamente el caso. Por ejemplo, si X es discreta, cualquier
función g cuyo dominio contenga al rango de X satisface (1). Si X no es discreta, cualquier 1/3
función g seccionalmente continua cuyo dominio contenga al rango de X satisface (1).

1.1. Método básico: eventos equivalentes


Si queremos hallar la función de distribución de Y = g(X) tenemos que calcular 0 1

FY (y) = P(Y ≤ y) = P(g(X) ≤ y) = P(X ∈ g −1 (−∞, y]). (2)

Los siguientes ejemplos ilustran el método básico para hacerlo. Figura 3: Gráfico de la función de distribución de T .
Ejemplo 1.1 (Del péndulo a la distribución de Cauchy). Sea Θ el ángulo de un péndulo
El tiempo de funcionamiento de la máquina por jornada laboral es T = mı́n{T1 , 1}. Para
medido desde la vertical cuyo extremo superior se encuentra sostenido del punto (0, 1). Sea
t > 0 vale que
(X, 0) el punto de intersección de la recta que contiene al péndulo y el eje x -ver la Figura 1-.
Trigonometrı́a mediante, sabemos que FT (t) = P(T ≤ t) = 1 − P(T > t) = 1 − P(mı́n{T1 , 1} > t)
= 1 − P(T1 > t)1{1 > t} = 1 − elog(2/3)t 1{t < 1}
X = tan Θ  
= 1 − elog(2/3)t 1{0 ≤ t < 1} + 1{t ≥ 1}.

2 7
Como T > 0 y conocemos R ∞ la función P(T > t) lo más sencillo para calcular la esperanza
es usar la fórmula E[T ] = 0 P(T > t)dt:
Z 1 1
elog(2/3)t
Z ∞
E[T ] = P(T > t)dt = elog(2/3)t dt = =
2/3 − 1 Transformaciones de variables aleatorias
0 0 log(2/3) log(2/3)
−1/3
0 (Borradores, Curso 23)
= ≈ 0.822...
log(2/3)
Sebastian Grynberg

3 de abril de 2013
1.2. Cálculo
Sea X una variable aleatoria cuya función de distribución conocemos. Queremos calcular
la esperanza de alguna función de X, digamos, g(X). ¿Cómo se puede efectuar ese cálculo?
Una manera es la siguiente: (1) Hallamos la función de distribución de la variable aleatoria
Y = g(X) a partir del conocimiento que tenemos sobre la distribución de X:
FY (y) := P(Y ≤ y) = P(g(X) ≤ y) = P X ∈ g −1 (−∞, y] .


(2) Usando la distribución de Y calculamos la esperanza E[g(X)] = E[Y ] por definición.


Ejemplo 1.14. Sea X una variable aleatoria discreta tal que P(X = 0) = 0.2, P(X = 1) = 0.5
y P(X = 2) = 0.3. Queremos calcular E[X 2 ]. Poniendo Y = X 2 obtenemos una variable
aleatoria a valores en {02 , 12 , 22 } tal que P(Y = 0) = 0.2 P(Y = 1) = 0.5 y P(Y = 4) = 0.3.
Por definición, E[X 2 ] = E[Y ] = 0(0.2) + 1(0.5) + 4(0.3) = 1.7.
Ejemplo 1.15. Sea X una variable aleatoria con distribución uniforme sobre el intervalo
(0, 1). Queremos calcular E[X 3 ]. Ponemos Y = X 3 y calculamos su función de distribución:
para cada 0 < y < 1 vale que FY (y) = P(Y ≤ y) = P(X 3 ≤ y) = P(X ≤ y 1/3 ) = y 1/3 .
Derivando FY (y) obtenemos la densidad de probabilidad de Y : fY (y) = 31 y −2/3 1{0 < y < 1}.
Por definición,
1 3 4/3 1 1
Z 1
1 1 1/3
Z ∞
1
Z
E[X 3 ] = E[Y ] = yfY (y)dy = y y −2/3 dy = y dy = y = .
−∞ 0 3 3 0 34 0 4

Nota Bene. Existe una manera mucho más simple para calcular la esperanza de Y = g(X)
que no recurre al procedimiento de determinar primero la distribución de Y para luego calcular
su esperanza por definición. El Teorema siguiente muestra cómo hacerlo.
Teorema 1.16. Sea X una variable aleatoria y sea g : R → R una función tal que g(X)
también es una variable aleatoria.
(a) Si X es discreta con átomos en el conjunto A, entonces Mi unicornio azul ayer se me perdió,
X pastando lo dejé y desapareció.
E[g(X)] = g(x)P(X = x). (8)
x∈A (Silvio Rodrı́guez)
(b) Si X es continua con densidad de probabilidad fX (x) y g(X) es continua, entonces
Z ∞
E[g(X)] = g(x)fX (x)dx. (9)
−∞

8 1
5. Distribución normal. (c) Si X es mixta,
Sean µ ∈ R y σ > 0. Se dice que la variable aleatoria X tiene distribución normal de X Z ∞

parámetros µ, σ 2 , y se denota X ∼ N (µ, σ 2 ), si X es absolutamente continua con función E[g(X)] = g(x)P(X = x) + g(x)FX′ (x)dx, (10)
x∈A −∞
densidad de probabilidades
1 2 2
donde A es el conjunto de todos los átomos de FX (x) y FX′ (x) es un función que coincide
f (x) = √ e−(x−µ) /2σ .
2πσ con la derivada de FX (x) en todos los puntos donde esa función es derivable y vale cero en
El cálculo de E[X] y V(X) se reduce al caso X ∼ N (0, 1). Para ello, basta observar que otro lado.
Y ∼ N (µ, σ 2 ) si y solo si Y = σX + µ, donde X ∼ N (0, 1) y usar las identidades E[σX + µ] =
σE[X] + µ y V(σX + µ) = σ 2 V(X). En lo que sigue suponemos que X ∼ N (0, 1) y denotamos Demostración. Para simplificar la demostración supondremos que g ≥ 0.
su densidad mediante (a) Por el Teorema 1.11 tenemos que
1 2
ϕ(x) = √ e−x /2 !
2π Z ∞ Z ∞ X
E[g(X)] = P(g(X) > y)dy = 1{g(x) > y}P(X = x) dy
Es evidente que E[X] = 0. En consecuencia, 0 0 x∈A
Z ∞ X Z ∞  X
V(X) = E[X 2 ] = x2 ϕ(x)dx = 1{g(x) > y}dy P(X = x) = g(x)P(X = x).
−∞ x∈A 0 x∈A

Observando que ϕ′ (x) = −xϕ(x) e integrando por partes se obtiene, (b) Por el Teorema 1.11 tenemos que
Z ∞ ∞ Z ∞ !
Z ∞ Z ∞ Z
V(X) = x(xϕ(x))dx = −xϕ(x) + ϕ(x)dx = 0 + 1. E[g(X)] = P(g(X) > y)dy = f (x)dx dy
−∞ −∞ −∞
0 0 {x: g(x)>y}
!
Z ∞ Z g(x) Z ∞
= dy f (x)dx = g(x)f (x)dx.
−∞ 0 −∞
7. Bibliografı́a consultada
(c) Se obtiene combinando adecuadamente los resultados (a) y (b).
Para redactar estas notas se consultaron los siguientes libros:
Ejemplo 1.17. Aplicando la parte (a) del Teorema 1.16 al Ejemplo 1.14 se obtiene
1. Bertsekas, D. P., Tsitsiklis, J. N.: Introduction to Probability. M.I.T. Lecture Notes.
E[X 2 ] = 02 (0.2) + 12 (0.5) + 22 (0.3) = 1.7.
(2000)

2. Billingsley, P.: Probability and Measure. John Wiley & Sons, New York. (1986)
Ejemplo 1.18. Aplicando la parte (b) del Teorema 1.16 al Ejemplo 1.15 se obtiene
3. Durrett, R. Elementary Probability for Applications. Cambridge University Press, New
York. (2009) Z 1
1
E[X 3 ] = x3 dx = .
4. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 1. John 0 4
Wiley & Sons, New York. (1957)

5. Kolmogorov, A. N.: The Theory of Probability. Mathematics. Its Content, Methods, Teorema 1.19 (Cálculo de Esperanzas). Sea X un vector aleatorio y sea g : Rn → R una
and Meaning. Vol 2. The M.I.T. Press, Massachusetts. (1963) pp. 229-264. función tal que g(X) es una variable aleatoria. Si la variable aleatoria g(X) tiene esperanza
finita, entonces
6. Ross, S.: Introduction to Probability and Statistics for Engineers and Scientists. Aca-
demic Press, San Diego. (2004)  P
 x g(x)pX (x) en el caso discreto,
7. Ross, S.: Introduction to Probability Models. Academic Press, San Diego. (2007) E[g(X)] = R
Rn g(x)fX (x) dx en el caso continuo,

8. Soong, T. T.: Fundamentals of Probability and Statistics for Engineers. John Wiley &
Sons Ltd. (2004) donde, según sea el caso, pX (x) y fX (x) son la función de probabilidad y la densidad conjunta
del vector X, respectivamente.

28 9
Demostración. Enteramente análoga a la que hicimos en dimensión 1. Sean λ > 0 y ν > 0. Se dice que la variable aleatoria X tiene distribución gamma de parámetros
ν, λ, , y se denota X ∼ Γ(ν, λ), si X es absolutamente continua con función densidad de
Sobre el cálculo de esperanzas. El Teorema 1.19 es una herramienta práctica para probabilidades
calcular esperanzas. Su resultado establece que si queremos calcular la esperanza de una λν ν−1 −λx
f (x) = x e 1{x > 0}.
transformación unidimensional del vector X, g(X), no necesitamos calcular la distribución Γ(ν)
de g(X). La esperanza E[g(X)] puede calcularse directamente a partir del conocimiento de la El cálculo de E[X] y V(X) se reduce al caso X ∼ Γ(ν, 1). Para ello, basta observar que Y ∼
distribución conjunta de X. Γ(ν, λ) si y solo si Y = λ−1 X, donde X ∼ Γ(ν, 1) y usar las identidades E[λ−1 X] = λ−1 E[X]
y V(λ−1 X) = λ−2 V(X). En lo que sigue suponemos que X ∼ Γ(ν, 1)
Corolario 1.20 (Esperanza de las marginales). Sea X = (X1 , . . . , Xn ) un vector aleatorio.
Si la variable Xi tiene esperanza finita, entonces
∞ ∞
1 ν −x 1
Z Z
 P E[X] = xf (x) dx = x e dx = Γ(ν + 1) = ν.
 x xi pX (x) en el caso discreto,
0 0 Γ(ν) Γ(ν)
E[Xi ] =
Del mismo modo se puede ver que E[X 2 ] = (ν + 1)ν = ν 2 + ν. Por lo tanto, V(X) =
R
Rn xi fX (x) dx en el caso continuo.

E[X 2 ] − E[X]2 = ν.
1.3. Propiedades
4. Distribución beta
(a) Si X = 1, entonces E[X] = 1.
(b) Monotonı́a. Si X1 y X2 son dos variables aleatorias tales que X1 ≤ X2 , entonces Sean ν1 > 0 y ν2 > 0. Se dice que la variable aleatoria X tiene distribución beta de
E[X1 ] ≤ E[X2 ]. parámetros ν1 , ν2 , y se denota X ∼ β(ν1 , ν2 ), si X es absolutamente continua con función
(c) Si X es una variable aleatoria tal que E[X n ] es finita y a0 , a1 , . . . , an son constantes, densidad de probabilidades
entonces
Γ(ν1 + ν2 ) ν1 −1
" n # n f (x) = x (1 − x)ν2 −1 1{x ∈ (0, 1}.
X X Γ(ν1 )Γ(ν2 )
E ak X k = ak E[X k ]. (11)
k=0 k=0 Por definición,
(d) Linealidad. Si las variables aleatorias X1 , . . . , Xn tienen esperanza finita y a1 , a2 , . . . , an Z ∞ Z ∞
Γ(ν1 + ν2 ) ν1 −1
son constantes, entonces E[X] = xf (x)dx = x x (1 − x)ν2 −1 1{x ∈ (0, 1} dx
−∞ −∞ Γ(ν1 )Γ(ν2 )
1
Γ(ν1 + ν2 ) Γ(ν1 + ν2 ) Γ(ν1 + 1)Γ(ν2 ) ν1
" n Z
n
#
= xν1 (1 − x)ν2 −1 dx = =
X X
E ai Xi = ai E[Xi ]. (12) Γ(ν1 )Γ(ν2 ) 0 Γ(ν1 )Γ(ν2 ) Γ(ν1 + ν2 + 1) ν1 + ν2
i=1 i=1
Por otra parte,
(e) Regla del producto independiente. Si las variables aleatorias X1 , . . . , Xn tienen esper-
anza finita y son independientes, entonces el producto tiene esperanza finita y coincide con ∞
Γ(ν1 + ν2 ) 1 ν1 +1
Z Z
E[X 2 ] = x2 f (x)dx = x (1 − x)ν2 −1 dx
el producto de las esperanzas: −∞ Γ(ν1 )Γ(ν2 ) 0
" n # n Γ(ν1 + ν2 ) Γ(ν1 + 2)Γ(ν2 ) ν1 (ν1 + 1)
Y Y = =
E Xi = E[Xi ]. (13) Γ(ν1 )Γ(ν2 ) Γ(ν1 + ν2 + 2) (ν1 + ν2 )(ν1 + ν2 + 1)
i=1 i=1
Finalmente,
Demostración. (a) es consecuencia inmediata de la Definición 1.1 porque P(X = 1) = 1.  2
ν1 (ν1 + 1) ν1
(b) es consecuencia del Teorema 1.11 y de que para todo x ∈ R vale que FX1 (x) ≥ FX2 (x). V(X) = E[X 2 ] − E[X]2 = −
(c) es consecuencia inmediata del Teorema 1.16. (d) es consecuencia inmediata del Teorema (ν1 + ν2 )(ν1 + ν2 + 1) ν1 + ν2
ν1 ν2
1.19. (e) es consecuencia del Teorema 1.19 y de la factorización de la distribución conjunta = .
(ν1 + ν2 )2 (ν1 + ν2 + 1)
como producto de las distribuciones marginales.

10 27
Por definición, 1.4. Dividir y conquistar
b
b2 a2 Teorema 1.21. Sea (Ω, A, P) un espacio de probabilidad y sea X : Ω → R una variable
Z ∞ ∞  
1 1 1 −
Z Z
E[X] = xf (x)dx = x 1{x ∈ [a, b]} dx = x dx = aleatoria. Sea A ⊂ R un conjunto tal que {X ∈ A} = {ω ∈ Ω : X(ω) ∈ A} ∈ A. Si
−∞ −∞ b−a b−a a b−a 2
a+b P(X ∈ A) > 0, entonces
= .
2 1
E[X|X ∈ A] = E[X1{X ∈ A}]. (14)
Por otra parte, P(X ∈ A)
b

b3 − a3 a2 + ab + b2
 
1 1
Z Z
E[X 2 ] = x2 f (x)dx = x2 dx = = . Demostración. Para simplificar la exposición vamos a suponer que la variable aleatoria X
−∞ b−a a b−a 3 3 es discreta. Por la Definición 1.1 tenemos que
Finalmente, X X P(X = x)
E[X|X ∈ A] = xpX|X∈A (x) = x 1{x ∈ A}
2 P(X ∈ A)
a2 b2 a2 b2 a)2

+ ab + a+b − 2ab + (b − x∈X(Ω) x∈X(Ω)
V(X) = E[X 2 ] − E[X]2 = − = = .
3 2 12 12 1 X 1
= x1{x ∈ A}P(X = x) = E[X1{X ∈ A}].
P(X ∈ A) P(X ∈ A)
x∈X(Ω)

La última igualdad es consecuencia del Teorema 1.16.


2. Distribución exponencial.
Sea λ > 0. Se dice que la variable aleatoria X tiene distribución exponencial de intensi- Ejemplo 1.22. Sea X el resultado del tiro de un dado equilibrado y sea A = {2, 4, 6}. De
dad λ, y se denota X ∼ Exp(λ), si X es absolutamente continua con función densidad de acuerdo con (14) la esperanza de X|X ∈ A es
probabilidades 1 1

2 4 6

f (x) = λe−λx 1{x ≥ 0}. E[X|X ∈ A] = E[X1{X ∈ A}] = + + = 4.
P(X ∈ A) 1/2 6 6 6
El cálculo de E[X] y V(X) se reduce al caso X ∼ Exp(1). Basta observar que Y ∼ Exp(λ)
Resultado que por otra parte es intuitivamente evidente.
si y solo si Y = λ−1 X, donde X ∼ Exp(1) y usar las identidades E[λ−1 X] = λ−1 E[X] y
V(λ−1 X) = λ−2 V(X). En lo que sigue suponemos que X ∼ Exp(1). Teorema 1.23 (Fórmula de probabilidad total). Sea X una variable aleatoria. Si A1 , . . . , An
Integrando por partes se obtiene, es una partición medible de R tal que P(X ∈ Ai ) > 0, i = 1, . . . , n. Entonces,
Z ∞ Z ∞ Z ∞ ∞ Z ∞
n
xe−x 1{x ≥ 0} = λxe−x dx = −xe−x + e−x dx

E[X] = xf (x)dx = X
−∞ −∞ 0 0 0 E[X] = E[X|X ∈ Ai ]P(X ∈ Ai ). (15)
= 1. i=1

Por otra parte, Demostración. Descomponemos la variable X como una suma de variables (dependientes
de la partición) X = ni=1 X1{X ∈ Ai }. Como la esperanza es un operador lineal tenemos
P
Z ∞ Z ∞ ∞
Z ∞
E[X 2 ] = x2 f (x)dx = x2 e−x dx = −x2 e−x 0 + 2xe−x dx = 2. que
−∞ 0 0
n
X n
X
Por lo tanto, V(X) = E[X 2 ] − E[X]2 = 2 − 1 = 1. E[X] = E[X1{X ∈ Ai }] = E[X|X ∈ Ai ]P(X ∈ Ai ).
i=1 i=1
3. Distribución gamma.
La última igualdad se obtiene de (14).
La función gamma se define por
Z ∞ Nota Bene. Sea g : R → R una función tal que g(X) es una variable aleatoria. Bajo las
Γ(t) := xt−1 e−x dx t > 0. hipótesis del Teorema 1.23 también vale que
0
n
Integrando por partes puede verse que Γ(t) = (t − 1)Γ(t − 1) para todo t > 0. De aquı́ se
X
E[g(X)] = E[g(X)|X ∈ Ai ]P(X ∈ Ai ). (16)
deduce que la función gamma interpola a los números factoriales en el sentido de que i=1

Γ(n + 1) = n! para n = 0, 1, . . . La fórmula (16) se puede extender sin ninguna dificultad al caso multidimensional.

26 11
Ejemplo 1.24 (Dividir y conquistar). Todas las mañanas Lucas llega a la estación del subte Para calcular V(X) usaremos la misma técnica: derivamos dos veces ambos lados de la
igualdad ∞ x−1 = p−1 y obtenemos
P
entre las 7:10 y las 7:30 (con distribución uniforme en el intervalo). El subte llega a la estación x=1 (1 − p)
cada quince minutos comenzando a las 6:00. Calcular la media del tiempo que tiene que esperar ∞ ∞
Lucas hasta subirse al subte. d2 −1 d2 X X
2p−3 = 2
p = 2 (1 − p)x−1 = (x − 1)(x − 2)(1 − p)x−3
Sea X el horario en que Lucas llega a la estación del subte. El tiempo que tiene que esperar dp dp
x=1 x=1
hasta subirse al subte se describe por ∞
X ∞
X ∞
X
x−1 2
= (x + 1)x(1 − p) = x (1 − p)x−1 + x(1 − p)x−1 .
T = (7.15 − X)1{X ∈ [7 : 10, 7 : 15]} + (7 : 30 − X)1{X ∈ (7 : 15, 7 : 30]}. x=1 x=1 x=1

Ahora bien, dado que X ∈ [7 : 10, 7 : 15], la distribución de T es uniforme sobre el intervalo Multiplicando por p los miembros de las igualdades obtenemos, 2p−2 = E[X 2 ] + E[X] =
[0, 5] minutos y dado que X ∈ (7 : 15, 7 : 30] la distribución de T es uniforme sobre el intervalo E[X 2 ] + p−1 . En consecuencia, E[X 2 ] = 2p−2 − p−1 . Por lo tanto,
[0, 15] minutos. De acuerdo con (16)
    V(X) = E[X 2 ] − E[X]2 = 2p−2 − p−1 − p−2 = p−2 − p−1 = p−2 (1 − p).
5 5 15 15
E[T ] = + = 6.25.
2 20 2 20

5. Distribución de Poisson.
Sea λ > 0. Se dice que la variable aleatoria X tiene distribución de Poisson de intensidad
2. Varianza
λ, y se denota X ∼ Poisson(λ), si X es discreta y tal que
2.1. Definición λx −λ
P(X = x) = e 1{x ∈ N0 }.
La esperanza de una variable aleatoria X, E[X], también se conoce como la media o el x!
primer momento de X. La cantidad E[X n ], n ≥ 1, se llama el n-ésimo momento de X. Si la Por definición,
esperanza E[X] es finita, la cantidad E[(X − E[X])n ] se llama el n-ésimo momento central. ∞ ∞ ∞ ∞
Después de la esperanza la siguiente cantidad en orden de importancia para resumir el
X X λx X λx−1 X λx−1
E[X] = xP(X = x) = x e−λ = λe−λ x = λe−λ = λe−λ eλ
comportamiento de una variable aleatoria X es su segundo momento central también llamado x! x! (x − 1)!
x=0 x=0 x=1 x=1
la varianza de X. = λ.
Definición 2.1 (Varianza). Sea X una variable aleatoria con esperanza finita. La varianza Derivando término a término, se puede ver que
de X se define por
∞ ∞ ∞ ∞
X X λx −λ X λx−1 X xλx−1
V(X) := E (X − E[X])2 . E[X 2 ] = x2 P(X = x) = x2 e = λe−λ x2 = λe−λ
 
(17)
x! x! (x − 1)!
x=0 x=0 x=1 x=1
En otras palabras, la varianza de X es la esperanza de la variable aleatoria (X − E[X])2 . ∞
d X λx d  λ  
Puesto que (X − E[X])2 sólo puede tomar valores no negativos, la varianza es no negativa. = λe −λ
= λe−λ λe = λe−λ eλ + λeλ = λ + λ2 .
dλ (x − 1)! dλ
La varianza de X es una de las formas más utilizadas para medir la dispersión de los x=1
valores de X respecto de su media. Otra medida de dispersión es el desvı́o estándar de X, Por lo tanto,
que se define como la raı́z cuadrada de la varianza y se denota σ(X):
p V(X) = E[X 2 ] − E[X] = λ + λ2 − λ2 = λ.
σ(X) := V(X). (18)
A diferencia de la varianza, el desvı́o estándar de una variable aleatoria es más fácil de
interpretar porque tiene las mismas unidades de X.
Cuentas con variables continuas
Nota Bene: Grandes valores de V(X) significan grandes variaciones de los valores de X 1. Distribución uniforme.
alrededor de la media. Al contrario, pequeños valores de V(X) implican una pronunciada
Sean a < b. Se dice que la variable aleatoria X tiene distribución uniforme sobre el
concentración de la masa de la distribución de probabilidades en un entorno de la media. En
intervalo [a, b], y se denota X ∼ U[a, b], si X es absolutamente continua con densidad de
el caso extremo, cuando la varianza es 0, la masa total de la distribución de probabilidades se
probabilidades
concentra en la media. Estas afirmaciones pueden hacerse más precisas y serán desarrolladas 1
en la sección 4. f (x) = 1{x ∈ [a, b]}.
b−a

12 25
3. Distribución Binomial. 2.2. Cálculo
Sean p ∈ (0, 1) y n ∈ N. Se dice que la variable aleatoria X tiene distribución Binomial Una manera “brutal” de calcular V(X) es calcular la función de distribución de la variable
de parámetros n y p, y se denota X ∼ Binomial (n, p), si X es discreta y tal que aleatoria (X − E[X])2 y usar la definición de esperanza. En lo que sigue mostraremos una
  manera más simple de realizar ese tipo cálculo.
n x
P(X = x) = p (1 − p)n−x , donde x = 0, 1, . . . , n. Proposición 2.2 (Expresión de la varianza en términos de los momentos). Sea X una variable
x
aleatoria con primer y segundo momentos finitos, entonces
Por definición,
V(X) = E[X 2 ] − E[X]2 . (19)
n n   n
X X n x X xn! En palabras, la varianza es la diferencia entre el segundo momento y el cuadrado del primer
E[X] = xP(X = x) = x p (1 − p)n−x = px (1 − p)n−x
x (n − x)!x! momento.
x=0 x=0 x=1
n n
X n! X (n − 1)!
= px (1 − p)n−x = np px−1 (1 − p)n−x Demostración. Desarrollar el cuadrado (X −E[X])2 y usar las propiedades de la esperanza.
(n − x)!(x − 1)! (n − x)!(x − 1)!
x=1 x=1 Poniendo (X − E[X])2 = X 2 − 2XE[X] + E[X]2 se obtiene
n−1
X n − 1
= np py (1 − p)n−1−y = np(p + (1 − p))n−1 = np. V(X) = E[X 2 ] − 2XE[X] + E[X]2 = E[X 2 ] − 2E[X]2 + E[X]2 = E[X 2 ] − E[X]2 .
y
y=0

Análogamente se puede ver que Ejemplo 2.3 (Varianza de la función indicadora). Sea (Ω, A, P) un espacio de probabilidad.
2
Para cualquier evento A ∈ A vale que
E[X ] = np((n − 1)p + 1).
V(1{ω ∈ A}) = E[1{ω ∈ A}2 ] − E[1{ω ∈ A}]2 = P(A) − P(A)2 = P(A)(1 − P(A)). (20)
Por lo tanto,

V(X) = E[X 2 ] − E[X]2 = np((n − 1)p + 1) − (np)2 Ejemplo 2.4 (Dado equilibrado). Sea X el resultado del lanzamiento de un dado equilibrado.
= np((n − 1)p + 1 − np) = np(1 − p). Por el Ejemplo 1.3 sabemos que E[X] = 7/2. Por otra parte
6 6
X 1 X 2 1 + 4 + 9 + 16 + 25 + 36 91
E[X 2 ] = x2 P(X = x) = x = = .
6 6 6
x=1 x=1
4. Distribución Geométrica.
Por lo tanto, de acuerdo con la Proposición 2.2, la varianza de X es
Sea p ∈ (0, 1). Se dice que la variable aleatoria X tiene distribución Geométrica de  2
91 7 32 8
parámetro p, y se denota X ∼ Geométrica(p), si X es discreta y tal que V(X) = − = = .
6 2 12 3
P(X = x) = (1 − p)x−1 p1{x ∈ N}.

Por definición, Ejemplo 2.5 (Fiabilidad). Sea T el tiempo de espera hasta que ocurre la primer falla en
un sistema electrónico con función intensidad de fallas de la forma λ(t) = 2t1{t > 0}. Por el
∞ ∞ ∞ √
X X X Ejemplo 1.7 sabemos que E[T ] = π/2. Por otra parte,
E[X] = xP(X = x) = x(1 − p)x−1 p = p x(1 − p)x−1 . Z ∞ Z ∞ Z ∞
x=1 x=1 x=1
E[T 2 ] = t2 f (t)dt = t2 2t exp(−t2 )dt = xe−x dx = 1.
d −∞ 0 0
La serie se calcula observando que x(1 − p)x−1 = − dp (1 − p)x y recordando que las series de
potencias se pueden derivar término a término: La tercera igualdad se obtiene mediante el cambio de variables t2 = x y la cuarta se deduce
usando la fórmula de integración por partes aplicada a u = x y v ′ = e−x .
∞ ∞
X d X d −1 Por lo tanto, de acuerdo con la Proposición 2.2, la varianza de T es
x(1 − p)x−1 = − (1 − p)x = − p − 1 = p−2 .

dp dp  √ 2
x=1 x=1 π π
V(T ) = 1 − =1− .
2 4
Por lo tanto, E[X] = p · p−2 = 1/p.

24 13
2.3. Propiedades Cuentas con variables discretas
Proposición 2.6. Para todo a, b ∈ R 1. Distribución uniforme discreta.

V(aX + b) = a2 V(X). (21) Sean a y b dos números enteros tales que a < b. Se dice que la variable aleatoria X tiene
distribución uniforme sobre el “intervalo” de números enteros [a, b] := {a, a + 1, . . . , b}, y se
denota X ∼ U[a, b], si X es discreta y tal que
Demostración. Por definición,
1
P(X = x) = 1{x ∈ {a, a + 1, . . . , b}}.
V(aX + b) = E[(aX + b − E[aX + b])2 ] = E[a2 (X − E[X])2 ] = a2 V(X). b−a+1
Notando que la distribución de X coincide con la de la variable X ∗ + a − 1, donde X ∗
Para obtener la segunda igualdad usamos que E[aX + b] = aE[X] + b. está uniformemente distribuida sobre {1, . . . , b − a + 1}, resulta que
1 + (b − a + 1) a+b
Error cuadrático medio. Una manera de “representar” la variable aleatoria X mediante E[X] = E[X ∗ ] + a − 1 = +a−1= .
un valor fijo c ∈ R es hallar el valor c que minimice el llamado error cuadrático medio, 2 2
E[(X − c)2 ]. Para calcular la varianza de X, consideramos primero el caso más simple donde a = 1 y b = n.
Por inducción en n se puede ver que
Teorema 2.7 (Pitágoras). Sea X una variable aleatoria con esperanza y varianza finitas. n
1 X 2 (n + 1)(2n + 1)
Para toda constante c ∈ R vale que E[X 2 ] = k = .
n 6
k=1
E[(X − c)2 ] = V(X)2 + (E[X] − c)2 . La varianza puede obtenerse en términos de los momentos de orden 1 y 2:
En particular, el valor de c que minimiza el error cuadrático medio es la esperanza de X, (n + 1)(2n + 1) (n + 1)2
V(X) = E[X 2 ] − E[X]2 = −
E[X]. 6 4
(n + 1)[2(2n + 1) − 3(n + 1)] n2 − 1
= = .
Demostración. Escribiendo X−c en la forma X−E[X]+E[X]−c y desarrollando cuadrados 12 12
se obtiene (X −c)2 = (X −E[X])2 +(E[X]−c)2 +2(X −E[X])(E[X]−c). El resultado se obtiene Para el caso general, notamos que la variable aleatoria uniformemente distribuida sobre [a, b]
tomando esperanza en ambos lados de la igualdad y observando que E[X − E[X]] = 0. tiene la misma varianza que la variable aleatoria uniformemente distribuida sobre [1, b−a+1],
puesto que esas dos variables difieren en la constante a − 1. Por lo tanto, la varianza buscada
se obtiene de la fórmula anterior sustituyendo n = b − a + 1
3. Covarianza
(b − a + 1)2 − 1 (b − a)(b − a + 2)
V(X) = = .
3.1. Definición 12 12
Definición 3.1 (Covarianza). Sean X e Y dos variables aleatorias de varianzas finitas
definidas sobre el mismo espacio de probabilidad (Ω, A, P). La covarianza de X e Y se define
por 2. Distribución Bernoulli.
Sea p ∈ (0, 1). Se dice que la variable aleatoria X tiene distribución Bernoulli de parámetro
Cov(X, Y ) := E[(X − E[X]) (Y − E[Y ])]. (22) p, y se denota X ∼ Bernoulli(p), si X es discreta y tal que

3.2. Cálculo P(X = x) = px (1 − p)1−x , donde x = 0, 1.


Por definición,
Proposición 3.2. Sean X e Y dos variables aleatorias definidas sobre el mismo espacio de
probabilidad (Ω, A, P). Si los segundos momentos de las variables aleatorias X e Y son finitos, E[X] = 0 · P(X = 0) + 1 · P(X = 1) = 0 · (1 − p) + 1 · p = p.
se tiene que Por otra parte,
Cov(X, Y ) = E[XY ] − E[X]E[Y ]. (23) E[X 2 ] = 02 · P(X = 0) + 12 · P(X = 1) = p.
Por lo tanto,
V(X) = E[X 2 ] − E[X]2 = p − p2 = p(1 − p).

14 23
6. Distribuciones particulares Demostración. La esperanza del producto E[XY ] es finita porque las esperanzas E[X 2 ] y
E[Y 2 ] son finitas y vale que |xy| ≤ 12 (x2 + y 2 ). Usando la propiedad distributiva del producto
Para facilitar referencias posteriores presentaremos tablas de esperanzas y varianzas de y la linealidad de la esperanza tenemos que
algunas distribuciones importantes de uso frecuente y describiremos el método para obtener-
las. E[(X − E[X]) (Y − E[Y ])] = E[XY − E[Y ]X − E[X]Y + E[X]E[Y ]]
= E[XY ] − E[Y ]E[X] − E[X]E[Y ] + E[X]E[Y ]
Discretas = E[XY ] − E[X]E[Y ].

No. Nombre Probabilidad Soporte Esperanza Varianza

1. Uniforme 1
a≤x≤b (a + b)/2 (b − a)(b − a − 2)/12 Ejemplo 3.3. Sea (Ω, A, P) un espacio de probabilidad y sean A ∈ A y B ∈ A dos eventos de
b−a+1
probabilidad positiva. Consideremos las variables aleatorias X = 1{ω ∈ A} e Y = 1{ω ∈ B}.
Entonces,
2. Bernoulli px (1 − p)1−x x ∈ {0, 1} p p(1 − p)

n x
 n−x
Cov(X, Y ) = E[XY ] − E[X]E[Y ]
3. Binomial x p (1 − p) 0≤x≤n np np(1 − p)
= P(XY = 1) − P(X = 1)P(Y = 1)
4. Geométrica (1 − p)x−1 p x∈N 1/p (1 − p)/p2 = P(X = 1, Y = 1) − P(X = 1)P(Y = 1).

5. Poisson λx −λ
x ∈ N0 La segunda y la tercera igualdad se obtienen de (2) observando que XY es una variable a
x! e λ λ
valores 0 o 1 que vale 1 si y solo si X e Y son ambas 1.
Notamos que
Cuadro 2: Esperanza y varianza de algunas distribuciones discretas de uso frecuente.
Cov(X, Y ) > 0 ⇐⇒ P(X = 1, Y = 1) > P(X = 1)P(Y = 1)
P(X = 1, Y = 1)
⇐⇒ > P(Y = 1)
Continuas P(X = 1)
⇐⇒ P(Y = 1|X = 1) > P(Y = 1).
No. Nombre Densidad Soporte Esperanza Varianza
En palabras, la covarianza de X e Y es positiva si y solamente si la condición X = 1 aumenta
1 la probabilidad de que Y = 1.
1. Uniforme b−a x ∈ [a, b] (a + b)/2 (b − a)2 /12
Ejemplo 3.4. En una urna hay 6 bolas rojas y 4 bolas negras. Se extraen 2 bolas al azar sin
2. Exponencial λe−λx x>0 1/λ 1/λ2 reposición. Consideramos los eventos
λν ν−1 −λx
3. Gamma Γ(ν) x e x>0 ν/λ ν/λ2 Ai = {sale una bola roja en la i-ésima extracción}, i = 1, 2,

Γ(ν1 +ν2 ) ν1 −1 ν1 ν1 ν2 y definimos las variables aleatorias X1 y X2 como las funciones indicadoras de los eventos
4. Beta Γ(ν1 )Γ(ν2 ) x (1 − x)ν2 −1 x ∈ (0, 1) ν1 +ν2 (ν1 +ν2 )2 (ν1 +ν2 +1) A1 y A2 respectivamente. De acuerdo con el Ejemplo anterior es intuitivamente claro que
2 2
Cov(X1 , X2 ) < 0. (¿Por qué? )
5. Normal √ 1 e−(x−µ) /2σ x∈R µ σ2
2πσ
Cov(X1 , X2 ) = P(X1 = 1, X2 = 1) − P(X1 = 1)P(X2 = 1) = P(A1 ∩ A2 ) − P(A1 )P(A2 )
Cuadro 3: Esperanza y varianza de algunas distribuciones continuas de uso frecuente. 6 5

6 5 6 6 4

2
= × − × + × = − = −0.02666....
10 9 10 9 10 9 10 75

Nota Bene. Se puede mostrar que Cov(X, Y ) > 0 es una indicación de que Y tiende a
crecer cuando X lo hace, mientras que Cov(X, Y ) < 0 es una indicación de que Y decrece
cuando X crece.

22 15
3.3. Propiedades Antes de resolver este problema, debemos reflexionar sobre la definición de error. Habit-
ualmente, cuando se habla de error, se trata de un número real que expresa la (in)capacidad
Lema 3.5 (Propiedades). Para variables aleatorias X, Y, Z y constantes a, valen las siguientes
de una cierta cantidad de representar a otra. En los problemas de estimación estadı́stica,
propiedades
debido a que una de las cantidades es una variable aleatoria y la otra no lo es, no es posible
1. Cov(X, X) = V(X),
interpretar de un modo tan sencillo el significado de la palabra error.
2. Cov(X, Y ) = Cov(Y, X),
Toda medida muestral tiene asociada una incerteza (o un riesgo) expresada por un modelo
3. Cov(aX, Y ) = aCov(X, Y ),
probabilı́stico. En este problema consideramos que el voto de cada elector se comporta como
4. Cov(X, Y + Z) = Cov(X, Y ) + Cov(X, Z).
una variable aleatoria X tal que P(X = 1) = p y P(X = 0) = 1 − p, donde X = 1 significa que
el elector vota por el candidato considerado. Por lo tanto, cuando se habla de que queremos
Demostración. Ejercicio. encontrar un tamaño muestral suficiente para un determinado error máximo, por ejemplo
0.02, tenemos que hacerlo con una medida de certeza asociada. Matemáticamente, queremos
Sobre la esperanza del producto. Si se conoce la covarianza y la esperanza de las encontrar n tal que P Snn − p ≤ 0.02 ≥ 0.9999 o, equivalentemente, queremos encontrar n

marginales, la identidad (23) puede ser útil para calcular la esperanza del producto: tal que  
Sn
E[XY ] = E[X]E[Y ] + Cov(X, Y ). P − p > 0.02 ≤ 0.0001.
n

Nota Bene. Si X e Y son independientes, Cov(X, Y ) = 0 porque E[XY ] = E[X]E[Y ]. Pero Usando la estimación (37) se deduce que
la recı́proca no es cierta. 
Sn



p(1 − p)
P − p > 0.02 ≤ .
Ejemplo 3.6 (Dos bolas en dos urnas). El experimento aleatorio consiste en ubicar dos n n(0.02)2
bolas distinguibles en dos urnas. Sean N la cantidad de urnas ocupadas y Xi la cantidad
El numerador de la fracción que aparece en el lado derecho de la estimación depende de p y
de bolas en la urna i. El espacio muestral se puede representar de la siguiente manera Ω =
el valor de p es desconocido. Sin embargo, sabemos que p(1 − p) es una parábola convexa con
{(1, 1); (1, 2); (2, 1); (2, 2)}. La función de probabilidad conjunta de N y X1 se muestra en el
raı́ces en p = 0 y p = 1 y por lo tanto su máximo ocurre cuando p = 1/2, esto es p(1−p) ≤ 1/4.
Cuadro 1
En la peor hipótesis tenemos:
N \ X1 0 1 2 pN 
Sn

1
1 1/4 0 1/4 1/2 P − p > 0.02 ≤ .
n 4n(0.02)2
2 0 1/2 0 1/2
p X1 1/4 1/2 1/4 Como máximo estamos dispuestos a correr un riesgo de 0.0001 y en el peor caso tenemos aco-
tada la máxima incerteza por (4n(0.02)2 )−1 . El problema se reduce a resolver la desigualdad
Cuadro 1: Función de probabilidad conjunta de (N, X1 ).
(4n(0.02)2 )−1 ≤ 0.0001. Por lo tanto,

Para calcular la esperanza del producto N X1 usamos el Teorema 1.19 n ≥ ((0.0001)4̇(0.02)2 )−1 = 6250000.

E[N X1 ] = 1 · 1 · pN,X1 (1, 1) + 1 · 2 · pN,X1 (1, 2) + 2 · 1 · pN,X1 (2, 1) + 2 · 2 · pN,X1 (2, 2) Una cifra absurdamente grande!! Más adelante, mostraremos que existen métodos más sofisti-
= 1 · 0 + 2 · 1/4 + 2 · 1/2 + 4 · 0 = 3/2. cados que permiten disminuir el tamaño de la muestra.

Es fácil ver que E[N ] = 3/2 y E[X1 ] = 1. Por lo tanto, Cov(N, X1 ) = 0. Sin embargo, las
variables N y X1 no son independientes.

3.4. Varianza de sumas


Usando las propiedades de la covarianza enunciadas en Lema 3.5 se puede demostrar que
 
Xn m
X n X
X m
Cov  Xi , Yj  = Cov(Xi , Yj ) (24)
i=1 j=1 i=1 j=1

16 21
5. La ley débil de los grandes números En particular, se obtiene que
 
Teorema 5.1 (Ley débil de los grandes números). Sea X1 , X2 , . . . una sucesión de variables n n n n n X
!
X X X X X
V Xi = Cov  Xi , Xj  = V(Xi ) + 2 Cov(Xi , Yj ). (25)
aleatorias independientes idénticamente distribuidas,P tales que V(X1 ) < ∞. Sea Sn , n ≥ 1, la
sucesión de las sumas parciales definida por Sn := ni=1 Xi . Entonces, para cualquier ǫ > 0 i=1 i=1 j=1 i=1 i=1 j<i

Finalmente, si las variables son independientes


 
Sn
lı́m P − E[X1 ] > ǫ = 0.
n→∞ n Xn
!
Xn
V Xi = V(Xi ). (26)
Demostración. Se obtiene aplicando la desigualdad de Chebyshev a la variable aleatoria i=1 i=1
Sn /n. Usando que la esperanza es un operador lineal se obtiene que
" n # n 4. Algunas desigualdades
1 X 1X
E [Sn /n] = E Xi = E[Xi ] = E[X1 ].
n
i=1
n
i=1
4.1. Cauchy-Schwartz

Como las variables X1 , X2 , . . . son independientes tenemos que Teorema 4.1 (Cauchy-Schwartz).

n
! n E[|XY |] ≤ (E[X 2 ]E[Y 2 ])1/2 (27)
1 X 1 X V(X1 )
V (Sn /n) = 2 V Xi = 2 V(Xi ) = .
n n n
i=1 i=1 Demostración. Observar que para todo t ∈ R:
Entonces, por la desigualdad de Chebyshev, obtenemos la siguiente estimación 0 ≤ E[(t|X| + |Y |)2 ] = t2 E[X 2 ] + 2tE[|XY |] + E[Y 2 ].
 
Sn V(X1 )
P − E[X1 ] > ǫ ≤ . (36) Como la función cuadrática en t que aparece en el lado derecho de la igualdad tiene a lo sumo
n nǫ2
una raı́z real se deduce que
Como V(X1 ) < ∞ el lado derecho de la última desigualdad tiende a 0 cuando n → ∞.
4E[|XY |]2 − 4E[X 2 ]E[Y 2 ] ≤ 0.
Nota Bene. La ley débil de los grandes números establecida en el Teorema 5.1 sirve como Por lo tanto,
base para la noción intuitiva de probabilidad como medida de las frecuencias relativas. La
proposición “en una larga serie de ensayos idénticos la frecuencia relativa del evento A se E[|XY |]2 ≤ E[X 2 ]E[Y 2 ].
aproxima a su probabilidad P(A)” se puede hacer teóricamente más precisa de la siguiente
manera: el resultado de cada ensayo se representa por una variable aleatoria (independiente de
las demás) que vale 1 cuando se obtiene el evento A y vale cero en caso contrario. La expresión Corolario 4.2. Sea X una variable aleatoria tal que E[X 2 ] < ∞. Si a < E[X], entonces
“una larga serie de ensayos” adopta la forma de una sucesión X1 , X2 , . . . de variables aleatorias
independientes cada una con la misma distribución que la indicadora del evento A. Notar P que (E[X] − a)2
Xi = 1 significa que “en el i-ésimo ensayo ocurrió el evento A” y la suma parcial Sn = ni=1 Xi P(X > a) ≥ .
E[X 2 ]
representa la “frecuencia del evento A” en los primeros n ensayos. Puesto que E[X1 ] = P(A)
y V(X1 ) = P(A)(1 − P(A)) la estimación (36) adopta la forma Demostración. De la desigualdad X1{X > a} ≤ |X1{X > a}| y de la propiedad de
  monotonı́a de la esperanza se deduce que
Sn P(A)(1 − P(A))
P − P(A) > ǫ ≤ . (37)
n nǫ2 E[X1{X > a}] ≤ E[|X1{X > a}|]. (28)
Por lo tanto, la probabilidad de que la frecuencia relativa del evento A se desvı́e de su prob- Aplicando la desigualdad de Cauchy-Schwartz a |X1{X > a}| se obtiene que
abilidad P(A) en más de una cantidad prefijada ǫ, puede hacerse todo lo chica que se quiera,
siempre que la cantidad de ensayos n sea suficientemente grande. E[|X1{X > a}|] ≤ (E[X 2 ]E[1{X > a}2 ])1/2 = (E[X 2 ]P(X > a))1/2 (29)
Ejemplo 5.2 (Encuesta electoral). Se quiere estimar la proporción del electorado que pre- Observando que X = X1{X > a} + X1{X ≤ a} y que X1{X ≤ a} ≤ a se deduce que
tende votar a un cierto candidato. Cuál debe ser el tamaño muestral para garantizar un
determinado error entre la proporción poblacional, p, y la proporción muestral Sn /n? E[X] = E[X1{X > a}] + E[X1{X ≤ a}] ≤ E[X1{X > a}] + a

20 17
y en consecuencia, Demostración. Debido a que (X − E[X])2 es una variable aleatoria no negativa podemos
aplicar la desigualdad de Markov (poniendo a2 en lugar de a) y obtenemos
E[X] − a ≤ E[X1{X > a}]. (30)
Combinando las desigualdades (30), (28) y (29) se obtiene que  E[(X − E[X])2 ] V(X)
P (X − E[X])2 ≥ a2 ≤ = .
2 1/2 a2 a2
E[X] − a ≤ (E[X ]P(X > a))
y como E[X] − a > 0, elevando al cuadrado, se concluye que La desigualdad (X − E[X])2 ≥ a2 es equivalente a la desigualdad |X − E[X]| ≥ a. Por lo
tanto,
(E[X] − a)2 ≤ E[X 2 ]P(X > a).
V(X)
El resultado se obtiene despejando. P (|X − E[X]| ≥ a) ≤ .
a2
4.2. Chebyshev Lo que concluye la demostración.

Teorema 4.3 (Desigualdad de Chebyshev). Sea ϕ : R → R tal que ϕ ≥ 0 y A ∈ B(R). Sea


Nota Bene. Grosso modo la pequeña desigualdad de Chebyshev establece que si la varianza
iA := ı́nf{ϕ(x) : x ∈ A}. Entonces,
es pequeña, los grandes desvı́os respecto de la media son improbables.
iA P(X ∈ A) ≤ E[ϕ(X)] (31)
Corolario 4.7. Sea X una variable aleatoria con varianza finita, entonces para cada α > 0
Demostración. La definición de iA y el hecho de que ϕ ≥ 0 implican que 1
P(|X − E[X]| ≥ ασ(X)) ≤ . (35)
iA 1{X ∈ A} ≤ ϕ(X)1{X ∈ A} ≤ ϕ(X) α2
El resultado se obtiene tomando esperanza. El resultado se obtiene poniendo a = ασ(X) en la pequeña desigualdad de Chebyshev.
En lo que sigue enunciaremos algunos corolarios que se obtienen como casos particulares
Ejemplo 4.8. La cantidad X de artı́culos producidos por un fábrica durante una semana es
del Teorema 4.3.
una variable aleatoria de media 500.
Corolario 4.4 (Desigualdad de Markov). Sea X una variable aleatoria a valores no negativos. (a) ¿Qué puede decirse sobre la probabilidad de que la producción semanal supere los
Para cada a > 0 vale que 1000 artı́culos? Por la desigualdad de Markov,
E[X]
P(X ≥ a) ≤ . (32) E[X] 500 1
a P (X ≥ 1000) ≤ = = .
1000 1000 2
Demostración. Aplicar la desigualdad de Chebyshev usando la función ϕ(x) = x restringi- (b) Si la varianza de la producción semanal es conocida e igual a 100, ¿qué puede decirse
da a la semi-recta no negativa [0, ∞) y el conjunto A = [a, ∞) para obtener sobre la probabilidad de que la producción semanal se encuentre entre 400 y 600 artı́culos?
aP(X ≥ a) ≤ E[ϕ(X)] = E[X]. Por la desigualdad de Chebyshev,
y despejar. σ2 1
P (|X − 500| ≥ 100) ≤ = .
Corolario 4.5. Sea a > 0. Vale que (100)2 100
1 1 99
P(X > a) ≤ E[X 2 ]. (33) Por lo tanto, P (|X − 500| < 100) ≥ 1 − 100 = 100 , la probabilidad de que la producción
a2 semanal se encuentre entre 400 y 600 artı́culos es al menos 0.99.
Demostración. Aplicar la desigualdad de Chebyshev usando la función ϕ(x) = x2 y el
conjunto A = (a, ∞) para obtener El que mucho abarca poco aprieta. Las desigualdades de Markov y Chebyshev son im-
2 2
portantes porque nos permiten deducir cotas sobre las probabilidades cuando solo se conocen
a P(X > a) ≤ E[X ] la media o la media y la varianza de la distribución de probabilidades. Sin embargo, debe
y despejar. tenerse en cuenta que las desigualdades de Markov y de Chebyshev producen cotas universales
que no dependen de las distribuciones de las variables aleatorias (dependen pura y exclusiva-
Corolario 4.6 (Pequeña desigualdad de Chebyshev). Sea X una variable aleatoria de vari-
mente de los valores de la esperanza y de la varianza). Por este motivo su comportamiento
anza finita. Para cada a > 0 vale que
será bastante heterogéneo: en algunos casos producirán cotas extremadamente finas, pero en
V(X) otros casos solamente cotas groseras.
P(|X − E[X]| ≥ a) ≤ . (34)
a2

18 19
Cálculo de la varianza por condicionales. 1.4. Funciones suaves

E[V(X|M )] =
X
V(X|M = m)P(M = m) =
X
V(Xm )pM (m). Nota Bene. Las fórmulas (10) y (11) permiten calcular explı́citamente la función de dis-
m∈M m∈M
tribución, FY , para transformaciones monótonas (continuas) Y = g(X), independientemente
de la clase de variable que sea X. ¿Qué hacer cuando la transformación g es suave pero no es
Por otra parte, inyectiva?
X
V(E[X|M ]) = E[(E[X|M ] − E[X])2 ] = (E[X|M = m] − E[X])2 P(M = m) Ejemplo 1.13. Sea X ∼ N (0, 1). Segúnla fórmula (5) la densidad de probabilidades de
√ √
1
Y = X 2 es fY (y) = 2√ √1 −x2 /2 . Por lo tanto,
m∈M y ϕ( y) + ϕ(− y) 1{y > 0}, donde ϕ(x) = 2π e
X
= (E[Xm ] − E[X])2 pM (m).
1
m∈M fY (y) = √ y −1/2 e−y/2 1{y > 0}.

Finalmente,
X X En otras palabras, si X ∼ N (0, 1), entonces X 2 ∼ Γ(1/2, 1/2).
2
V(X) = V(Xm )pM (m) + (E[Xm ] − E[X]) pM (m).
m∈M m∈M
El Teorema 1.9 puede generalizarse del siguiente modo

Teorema 1.14 (Cambio de variables II). Sea X una variable aleatoria absolutamente con-
Nota Bene. Comparar con el Teorema de Steiner para el momento de inercia.
tinua con densidad de probabilidades fX (x). Sea Y = g(X), donde g es una función deriv-
able con derivada no nula (salvo en contables puntos). Si para cada y ∈ R, el conjunto
3. Predicción lineal y coeficiente de correlación g −1 (y) = {x ∈ R : g(x) = y} es discreto, entonces Y es absolutamente continua y admite una
función densidad de probabilidades de la forma
Definición 3.1 (Predictor lineal). Sean X e Y dos variables aleatorias definidas sobre un
mismo espacio de probabilidad (Ω, A, P), tales que E[X 2 ] < ∞ y E[Y 2 ] < ∞. La recta de
X fX (x)
fY (y) = .
regresión de Y basada en X es la función lineal Ŷ = aX + b que minimiza la distancia |g ′ (x)|
x∈g −1 (y)
q
d(Ŷ , Y ) = E[(Y − Ŷ )2 ]. Se sobreentiende que si g −1 (y) = ∅, fY (y) = 0.

Cálculo explı́cito de la recta de regresión. El problema consiste en hallar los valores


de a y b que minimizan la siguiente función de dos variables
Ejercicios adicionales
2
g(a, b) := E[(Y − (aX + b)) ].
2. [James p.98] Si X tiene densidad fX (x), cuál es la densidad de Y = cos X?
Usando técnicas de cálculo diferencial en varias variables el problema se reduce a resolver el
sistema de ecuaciones ∇g = 0. Desarrollando cuadrados se puede ver que
2. Funciones de vectores aleatorios
∂g(a, b) 2
= 2aE[X ] − 2E[XY ] + 2bE[X],
∂a 2.1. Método básico: eventos equivalentes
∂g(a, b)
= 2b − 2E[Y ] + 2aE[X]. Sea X = (X1 , . . . , Xn ) un vector aleatorio definido sobre un espacio de probabilidad
∂b
(Ω, A, P) y sea g : Rn → R una función cualquiera. Entonces, Y := g(X) será una variable
El problema se reduce a resolver el siguiente sistema lineal de ecuaciones aleatoria si y solo si {ω ∈ Ω : g(X(ω)) ≤ y} ∈ A para todo y ∈ R. La función de distribución
de Y , FY (y), se puede calcular mediante la función de distribución de X de la siguiente
aE[X 2 ] + bE[X] = E[XY ]

manera:
aE[X] + b = E[Y ]
FY (y) = P(Y ≤ y) = P(g(X) ≤ y) = P (X ∈ By ) , (13)
Sumando la primera ecuación y la segunda multiplicada por −E[X], se obtiene
donde By := g −1 ((−∞, y]) = {x ∈ Rn : g(x) ≤ y}.
Cov(X, Y )
a(E[X 2 ] − E[X]2 ) = E[XY ] − E[X]E[Y ] ⇐⇒ a = .
V(X)

18 7
Caso bidimensional continuo. Sea (X, Y ) un vector aleatorio con densidad conjunta Cálculo de la esperanza por condicionales.
fX,Y (x, y). Cualquier función continua a valores reales g : R2 → R define una nueva variable "N # " n #
aleatoria Z := g(X, Y ). La función de distribución de Z, FZ (z) = P(Z ≤ z), se puede obtener X X
E [S|N = n] = E Xi N = n = E
Xi N = n

a partir de la densidad conjunta de X e Y de la siguiente forma:
i=1 i=1
1. Para cada z ∈ R se determina el conjunto Bz ⊂ R2 de todos los puntos (x, y) tales que " n
#
g(x, y) ≤ z.
X
= E Xi por la independencia de las Xi y N
2. Integrando la densidad conjunta fX,Y (x, y) sobre el conjunto Bz se obtiene la función i=1
de distribución de Z: = nµ.
x
FZ (z) = fX,Y (x, y)dxdy. (14) En consecuencia, E [S|N ] = µN . Por lo tanto, E [S] = E[E[S|N ]] = E [µN ] = µ E[N ].
Bz
Cálculo de la varianza por condicionales.
3. La densidad de Z se obtiene derivando la función de distribución respecto de z.
N n
! !
Ejemplo 2.1. Sean X e Y dos variables aleatorias independientes cada una con distribución
X X
V(S|N = n) = V Xi N = n =V Xi N = n
uniforme sobre el intervalo [−1, 1]. Se quiere hallar la función de distribución y la densidad i=1 i=1
de Z = |X − Y |. n
X
!
La función de distribución de la variable Z = |X − Y | se puede obtener observando la = V Xi por la independencia de Xi y N
Figura 2. i=1

y
= nσ 2 .

En consecuencia, V(S|N ) = σ 2 N . Por lo tanto, E[V(S|N )] = E[σ 2 N ] = σ 2 E[N ]. Por otra


y =x+z
1 parte, V[E(S|N )] = V[µN ] = µ2 V[N ]. Finalmente,
11111111111111111111111111111111111111111
00000000000000000000000000000000000000000
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111 V(S) = E[V(S|N )] + V(E[S|N ]) = σ 2 E[N ] + µ2 V[N ].
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
00000000000000000000000000000000000000000 y = x − z
11111111111111111111111111111111111111111
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
000000000000000000000000000000000000000000000000000000000
11111111111111111111111111111111111111111
0000000000000000000000000000000000000000011111111111111111010
11111111111111111111111111111111111111111
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
−111111111111111111111111111111111111111111
00000000000000000000000000000000000000000 1010 2.4. Ejemplo: esperanza y varianza de una mezcla.
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
1 x
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111 1010
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111 1010 Sea (Ω, A, P) un espacio de probabilidad. Sea M : Ω → R una variable aleatoria discreta
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
2−z
tal que M (Ω) = M y pM (m) = P(M = m) > 0 para todo m ∈ M y sea (Xm : m ∈ M) una
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111 1010
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111 10 familia de variables aleatorias definidas sobre el mismo espacio de probabilidad, independiente
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111 10
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
111111111111111110
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
0000000000000000
de M . El problema consiste en hallar la media y la varianza de la mezcla X := XM .
−1 La forma natural de resolver este problema es usar la técnica del cálculo de esperanzas y
varianzas mediante condicionales:

E[X] = E[E[X|M ]] y V(X) = E[V(X|M )] + V(E[X|M ]).


Figura 2: La región sombreada representa los puntos del cuadrado [−1, 1] × [−1, 1] tales que
|x − y| ≤ z, 0 ≤ z ≤ 2 y su área es 4 − (2 − z)2 = 4z − z 2 . Cálculo de la esperanza por condicionales. En primer lugar hay que observar que
X|M = m ∼ Xm por lo tanto,
Debido a que las variables aleatorias X e Y son independientes y uniformemente dis-
X X
E[X] = E[E[X|M ]] = E [X|M = m] P(M = m) = E[Xm ]pM (m).
tribuidas obre el intervalo [−1, 1], tenemos que P((X, Y ) ∈ B) = área(B)/4, para cualquier m∈M m∈M
región B contenida en el cuadrado [−1, 1] × [−1, 1] para la que tenga sentido la noción
de área. En consecuencia, FZ (z) = P (|X − Y | ≤ z) = (4z − z 2 )/4 para todo z ∈ [0, 2].
 última expresión respecto de z se obtiene la densidad de Z = |X − Y |:
Derivando esta
fZ (z) = 2−z
2 1{z ∈ (0, 2)}.

8 17
Caso bidimensional discreto. Sea (X, Y ) un vector aleatorio discreto sobre un espacio
de probabilidad (Ω, A, P), con función de probabilidad conjunta pX,Y (x, y). Sea g : R2 →
Y
R una función cualquiera, Z := g(X, Y ) es una nueva variable aleatoria, cuya función de
probabilidad, pZ (z), se obtiene de la siguiente manera:
X
pZ (z) = P(Z = z) = P(g(X, Y ) = z) = pX,Y (x, y), (15)
p
E[Y 2 ] (x,y)∈Bz

p
V(Y ) p
donde Bz = {(x, y) ∈ X(Ω) × Y (Ω) : g(x, y) = z}.
E[V(Y |X)]
0 2.1.1. Suma de variables
H
Ejemplo 2.2 (Suma). Sean X, Y dos variables aleatorias con densidad conjunta fX,Y (x, y)
p y sea Z = X + Y . Para cada z ∈ R, Bz = {(x, y) ∈ R2 : y ≤ z − x}. Usando la fórmula (14)
E[Y ]2 se obtiene la función de distribución de Z
Z ∞ Z z−x 
E[Y ] E[Y |X]
FZ (z) = fX,Y (x, y)dy dx. (16)
p
V(E[Y |X])
−∞ −∞

La densidad de Z se obtiene derivando respecto de z la función de distribución FZ (z)


Z ∞
d
fZ (z) = FZ (z) = fX,Y (x, z − x)dx. (17)
dz −∞

Figura 4: Teorema de Pitágoras: V(X) = E[V(Y |X)] + V(E[Y |X]) . Ejemplo 2.3 (Suma de variables independientes). Sean X, Y dos variables aleatorias contin-
uas e independientes con densidad conjunta fX,Y (x, y) = fX (x)fY (y). Según la fórmula (17)
Por último, como E[Y ] ∈ H, el Teorema de Pitágoras implica que la densidad de probabilidades de la suma Z = X + Y es
Z ∞ Z ∞
V(Y ) = kY − E[Y ]k2 = kY − E[Y |X] + E[Y |X] − E[Y ]k2 fZ (z) = fX,Y (x, z − x)dx = fX (x)fY (z − x)dx (18)
−∞ −∞
= kY − E[Y |X]k2 + kE[Y |X] − E[Y ]k2 = E[V(Y |X)] + V(E[Y |X]). (33)
y se denomina el producto convolución, fX ∗ fY , de las densidades marginales fX y fY .
En otras palabras, la variabilidad de Y se descompone de la siguiente manera: la variabilidad Si las densidades marginales fX (x) y fY (y) concentran la masa en [0, ∞) la fórmula (18)
(media) de Y alrededor de su esperanza condicional, más la variabilidad de esta última. del producto convolución es un poco más sencilla:
Z ∞ Z z
2.3. Ejemplo: sumas aleatorias de variables aleatorias (fX ∗ fY )(z) = fX (x)fY (z − x)dx = fX (x)fY (z − x)dx. (19)
0 0
Sea X1 , X2 , . . . una sucesión de variables aleatorias idénticamente distribuidas de media
µ y varianza σ 2 . Sea N una variable discreta a valores en N que es independiente de Plas Xi .
El problema consiste en hallar la media y la varianza de la variable aleatoria S = N i=1 Xi , Ejemplo 2.4 (Suma de exponenciales independientes de igual intensidad). Sean X e Y
llamada variable aleatoria compuesta. Este problema se puede resolver utilizando las identi-
variables aleatorias independientes con distribución exponencial de intensidad λ > 0. La
dades
densidad de la suma X + Y es
E[S] = E[E[S|N ]] y V(S) = E[V(S|N )] + V(E[S|N ]).
Z z
En la jerga probabilı́stica esta técnica de cálculo se conoce bajo el nombre de cálculo de fX+Y (z) = λe−λx λez−x dx = λ2 ze−λz . (20)
esperanzas y varianzas mediante condicionales. 0

En el lado derecho de la identidad (20) se puede reconocer la densidad de la distribución


Gamma: Γ(2, λ).

16 9
2.1.2. Mı́nimo Predicción
Queremos caracterizar la función de distribución del mı́nimo entre dos variables aleatorias Existen diversas maneras en las que dos variables pueden
p considerarse cercanas entre sı́.
X e Y , U := mı́n{X, Y }. En primer lugar observamos que para cada u ∈ R vale que Una manera es trabajar con la norma dada por kXk := E[X 2 ] y definir la distancia entre
dos variables aleatorias X e Y , d(X, Y ) mediante
FU (u) = P(U ≤ u) = P(mı́n{X, Y } ≤ u) = 1 − P(mı́n{X, Y } > u) p
= 1 − P(X > u, Y > u). (21) d(X, Y ) := kY − Xk = E[(Y − X)2 ]. (32)

.
Si (X, Y ) es continuo con función de densidad conjunta fX,Y (x, y) tenemos que
Z ∞Z ∞ Definición 2.5 (Predictor). Sean X e Y variables aleatorias definidas sobre el mismo espacio
FU (u) = 1 − fX,Y (x, y)dxdy. (22) de probabilidad (Ω, A, P), tales que E[Y 2 ] < ∞. El predictor de error cuadrático medio mı́nimo
u u (o mejor predictor ) de Y dada X es la función Ŷ = h(X) de X que minimiza la distancia
Si (X, Y ) es discreto con función de probabilidad conjunta pX,Y (x, y) tenemos que d(Ŷ , Y ) definida en (32).
XX El mejor predictor de Y dada X es una variable aleatoria Ŷ perteneciente al espacio
FU (u) = 1 − pX,Y (x, y). (23) vectorial H = {h(X) : h : R → R, E[h(X)2 ] < ∞} tal que E[(Y − Ŷ )2 ] ≤ E[(Y − Z)2 ] para
x>u y>u
toda Z ∈ H.
Si X e Y son independientes tenemos que
Interpretación geométrica. Sea L2 (Ω, A, P) el conjunto de todas la variables aleatorias
FU (u) = 1 − P(X > u)P(Y > u). (24) definidas sobre (Ω, A, P) que tienen varianza finita. H es un subespacio de L2 (Ω, A, P). Si
Y ∈/ H entonces el camino más corto desde Y hasta H es por la recta ortogonal al subespacio
Etcétera... H que pasa por Y . Por lo tanto, Ŷ debe ser la proyección ortogonal de Y sobre H. En tal caso
Y − Ŷ es ortogonal a cualquier vector de H. En otras palabras, hY − Ŷ , Zi = 0 para todo
Ejemplo 2.5 (Mı́nimo de exponenciales independientes). Sean X1 e X2 variables aleatorias
Z ∈ H, donde hX, Y i es el producto interno en L2 (Ω, A, P) definido por hX, Y i := E[XY ].
exponenciales independientes de intensidades λ1 y λ2 respectivamente. De acuerdo con la
identidad (24) tenemos que la función de distribución del mı́nimo U = mı́n{X1 , X2 } es
La esperanza condicional E[Y |X] es el mejor predictor de Y basado en X
FU (u) = (1 − e−λ1 u e−λ2 u )1{u ≥ 0} = (1 − e−(λ1 +λ2 )u )1{u ≥ 0}. (25) 1) La condición E[Y 2 ] < ∞ implica que E[Y |X] ∈ H:
En palabras, el mı́nimo de dos variables exponenciales independientes es una exponencial cuya E[E[Y |X]2 ] ≤ E[E[Y 2 |X]] = E[Y 2 ] < ∞.
intensidad es la suma de las intensidades de las variables originales.
2) La ecuación funcional (22) significa que Y − E[Y |X] ⊥ H:

2.2. El método del Jacobiano hY − E[Y |X], h(X)i = 0 ⇐⇒ E[(Y − E[Y |X])h(X)] = 0
⇐⇒ E[E[Y |X]h(X)] = E[Y h(X)].
Teorema 2.6 (Cambio de variables en la integral múltiple). Sea f : Rn → R una función
integrable. Sean G0 ⊂ Rn y G ⊂ Rn regiones abiertas y sea h : G0 → G, h = (h1 , . . . , hn )
una biyección entre G0 y G, cuyas componentes tienen derivadas parciales de primer orden Por lo tanto, la esperanza condicional, E[Y |X], satisface las dos condiciones que caracterizan
continuas. Esto es, para todo 1 ≤ i, j ≤ n, las funciones ∂h∂yi (y) son continuas. Si el Jacobiano a la proyección ortogonal sobre el subespacio H y en consecuencia es el predictor de Y basado
j
en X de menor error cuadrático:
de h es diferente de cero en casi todo punto, entonces,
E[Y |X] = arg mı́n E[(Y − h(X))2 ].
Z Z h(X)∈H

f (x)dx = f (h(y))|Jh (y)|dy, El error cuadrático medio mı́nimo se puede expresar en la forma
A h−1 (A)

para todo conjunto abierto A ⊂ G, donde kY − E[Y |X]k2 = E[(Y − E[Y |X])2 ] = E[E[(Y − E[Y |X])2 |X]]
  ! = E[V(Y |X)].
∂hi (y)
Jh (y) = det . La última igualdad se obtiene desarrollando el cuadrado (Y − E[Y |X])2 y usando las
∂yj i,j
propiedades de la esperanza condicional. (Ejercicio)

10 15
El siguiente resultado, que caracteriza la distribución de un cambio de variables aleatorias,
es una consecuencia inmediata del Teorema 2.6.
Ejemplo 2.3 (Fórmula de probabilidad total). Una rata está atrapada en un laberinto.
Inicialmente puede elegir una de tres direcciones. Si elige la primera se perderá en el laberinto Corolario 2.7. Sea X un vector aleatorio n-dimensional con función densidad de probabilidad
y luego de 4 minutos volverá a su posición inicial; si elige la segunda volverá a su posición inicial fX (x). Sean G0 ⊂ Rn y G ⊂ Rn regiones abiertas y sea g : G → G0 una biyección cuya función
luego de 7 minutos; si elige la tercera saldrá del laberinto luego de 3 minutos. Suponiendo que inversa h = g −1 satisface las hipótesis del Teorema 2.6. Si P(X ∈ G) = 1, entonces, el vector
en cada intento, la rata elige con igual probabilidad cualquiera de las tres direcciones, cuál es aleatorio Y = g(X) tiene función densidad de probabilidad fY (y) de la forma:
la esperanza del tiempo que demora en salir del laberinto?
fY (y) = fX (g −1 (y))|Jg−1 (y)|. (26)
Sean Y la cantidad de tiempo que demora la rata en salir del laberinto y sea X la dirección
que elige inicialmente. Usando la fórmula de probabilidad total puede verse que
Demostración. Cualquiera sea el conjunto abierto B ⊂ G0 tenemos
3 3
1X
X Z
E[Y ] = E[E[Y |X]] = E[Y |X = x]P(X = x) = E[Y |X = x] P (Y ∈ B) = P (g(X) ∈ B) = P(X ∈ g −1 (B)) = fX (x)dx.
3 g −1 (B)
x=1 x=1

Si la rata elige la primera dirección, se pierde en el laberinto durante 4 minutos y vuelve a su Poniendo f = fX y h = g −1 en el Teorema 2.6 se obtiene
posición inicial. Una vez que vuelve a su posición inicial el problema se renueva y la esperanza Z Z
del tiempo adicional hasta que la rata consiga salir del laberinto es E[Y ]. En otros términos fX (x)dx = fX (g −1 (y))|Jg−1 (y)|dy.
g −1 (B) B
E[Y |X = 1] = 4 + E[Y ]. Análogamente puede verse que E[Y |X = 2] = 7 + E[Y ]. La igualdad
E[Y |X = 3] = 3 no requiere comentarios. Por lo tanto, En consecuencia,
Z
1 1
E[Y ] = (4 + E[Y ] + 7 + E[Y ] + 3) = (2E[Y ] + 14) . P (Y ∈ B) = fX (g −1 (y))|Jg−1 (y)|dy.
3 3 B

Finalmente, E[Y ] = 14. Por lo tanto, el vector aleatorio Y tiene función densidad de probabilidad de la forma fY (y) =
fX (g −1 (y))|Jg−1 (y)|.
2.2. Propiedades
Nota Bene. Operativamente, la fórmula (26) para hallar la densidad conjunta de Y = g(X)
La esperanza condicional tiene propiedades similares a la esperanza.
involucra los siguientes pasos: 1. Invertir las variables (i.e., despejar las x’s en función de las
y’s). 2. Calcular el Jacobiano de la inversa de g (i.e., calcular el determinante de la matriz
Linealidad. E[aY1 + bY2 |X] = aE[Y1 |X] + bE[Y2 |X]. formada por las derivadas parciales de las xi respecto de las yj ). 3. Substituir los resultados
obtenidos en los pasos 1. y 2. en la fórmula (26). Aunque mecánico, el método del
Monotonı́a. Si Y1 ≤ Y2 , entonces E[Y1 |X] ≤ E[Y2 |X]. jacobiano es un método de naturaleza analı́tica muy poderoso.

Desigualdad de Jensen. Si g : R → R es una función convexa y E[|Y |], E[|g(Y )|] < ∞, Nota Bene. Con frecuencia es más fácil obtener el jacobiano de y en relación a x, pues Y
entonces es una función de X. Hay que recordar que los dos jacobianos son recı́procos y que Jg−1 (y) se
puede obtener a partir de Jg (x), invirtiendo este último y substituyendo x por g −1 (y). Esta
g(E[Y |X]) ≤ E[g(Y )|X]. (29) regla es análoga a la regla para la derivada de una función inversa en el caso unidimensional:
2] < ∞, poniendo g(t) = t2
En particular, si E[Y en la desigualdad de Jensen se obtiene dg −1 (y)

1 1
= ′ = .
dy g (x) x=g−1 (y) g ′ (g −1 (y))
E[Y |X]2 ≤ E[Y 2 |X] (30)

Definición 2.4 (Varianza condicional). Sean X e Y dos variables aleatorias definidas sobre
el mismo espacio de probabilidad (Ω, A, P). Si E[Y 2 ] < ∞, la varianza condicional de Y dada Ejemplo 2.8 (Transformaciones lineales). Si (X1 , X2 ) = (aY1 + bY2 , cY1 + dY2 ). Entonces,
X, V(Y |X), se define por fY1 ,Y2 (y1 , y2 ) = |ad − bc|fX1 ,X2 (ay1 + by2 , cy1 + dy2 ).
2 2
V(Y |X) := E[Y |X] − E[Y |X] (31) En general, si X = AY, donde A ∈ Rn×n es una matriz inversible, se obtiene

fY (y) = | det(A)|fX (Ay). (27)

14 11
Ejemplo 2.9 (Suma y resta de normales independientes). Sean X1 y X2 dos variables aleato- Para construir la esperanza condicional E[Y |X] el receptor debe calcular la función de regre-
rias independientes con distribuciones normales N (µ1 , σ 2 ) y N (µ2 , σ 2 ), respectivamente. Su sión ϕ(x) = E[Y |X = x] = 1P(Y = 1|X = x) − 1P(Y = −1|X = x). Que de acuerdo con la
densidad conjunta es regla de Bayes para mezclas adopta la forma
 
1 1 2 2
2 2 pY (1)fX|Y =1 (x) − pY (−1)fX|Y =−1 (x) ex/σ − e−x/σ

fX1 ,X2 (x1 , x2 ) = exp − (x − µ ) + (x − µ ) (28)
2πσ 2 2σ 2
1 1 2 2 ϕ(x) = = x/σ2 = tanh(x/σ 2 ). (27)
fX (x) e + e−x/σ2
Consideramos el cambio de variables (y1 , y2 ) = g(x1 , x2 ) = (x1 + x2 , x1 − x2 ) cuya inversa es
(x1 , x2 ) = g −1 (y1 , y2 ) = 21 (y1 + y2 , y1 − y2 ). De acuerdo con la fórmula (27) tenemos que
1 1
 2  2 !!
1 1 y1 + y2 y1 − y2 0.8 0.8
fY1 ,Y2 (y1 , y2 ) = exp − − µ1 + − µ 2
4πσ 2 2σ 2 2 2 0.6 0.6
   
1 1 0.4 0.4

∝ exp − 2 y12 − 2(µ1 + µ2 )y1 exp − 2 y22 − 2(µ1 − µ2 )y2


 
0.2 0.2
4σ 4σ
0 0
(y1 − (µ1 + µ2 ))2 (y2 − (µ1 − µ2 ))2
   
∝ exp − 2
exp − 2
. (29) −0.2 −0.2

2(2σ ) 2(2σ ) −0.4 −0.4

De la identidad (29) podemos concluir que las variables Y1 e Y2 son independientes y que −0.6 −0.6

se distribuyen de la siguiente manera: Y1 ∼ N (µ1 + µ2 , 2σ 2 ), Y2 ∼ N (µ1 − µ2 , 2σ 2 ). En −0.8 −0.8

otras palabras, si X1 y X2 son dos variables aleatorias independientes con distribuciones −1


−4 −3 −2 −1 0 1 2 3 4
−1
−2 −1.5 −1 −0.5 0 0.5 1 1.5 2

normales N (µ1 , σ 2 ) y N (µ2 , σ 2 ), entonces X1 +X2 y X1 −X2 son independientes y X1 +X2 ∼


N (µ1 + µ2 , 2σ 2 ) y X1 − X2 ∼ N (µ1 − µ2 , 2σ 2 ) (a) (b)

Nota Bene. Sean X1 y X2 dos variables aleatorias independientes con distribuciones nor-
males N (µ1 , σ12 ) y N (µ2 , σ22 ), respectivamente. Cálculos similares permiten deducir que X1 + Figura 3: Lı́neas de regresión de Y sobre X para distintos valores de la varianza σ 2 . (a) σ 2 = 1:
X2 ∼ N (µ1 + µ2 , σ12 + σ22 ) y X1 − X2 ∼ N (µ1 − µ2 , σ12 + σ22 ). Más aún, X1 + X2 y X1 − X2 ϕ(x) = tanh(x); (b) σ 2 = 1/4, ϕ(x) = tanh(4x).
son independientes si y solo si σ12 = σ22 .
El receptor reconstruye Y basándose en X mediante E[Y |X] = tanh(X/σ 2 ).
Ejemplo 2.10 (Persistencia de la mala suerte). Sean X1 y X2 variables aleatorias inde-
pendientes con distribución común exponencial de intensidad λ. Vamos a hallar la densidad
2.1.3. Caso discreto
conjunta de (Y1 , Y2 ) donde
(Y1 , Y2 ) = (X1 + X2 , X1 /X2 ). Sean X e Y dos variables aleatorias discretas definidas sobre un mismo espacio de probabil-
Para ello consideramos la transformación idad (Ω, A, P),con función de probabilidad conjunta pX,Y (x, y) y E[|Y |] < ∞. Para simplificar
la exposición supongamos que Sop(pX ) = X(Ω). En tal caso, la esperanza condicional de Y
g(x1 , x2 ) = (x1 + x2 , x1 /x2 ) = (y1 , y2 ). dada X es E[Y |X] = ϕ(X), donde ϕ : R → R es la función de regresión de Y sobre X definida
La transformación inversa de g es por
y1 y2 y1 X
x1 = , x2 = (30) ϕ(x) := E[Y |X = x] = ypY |X=x (y) (28)
1 + y2 1 + y2
y∈Y (Ω)
y se obtiene resolviendo un sistema de dos ecuaciones en las variables x1 y x2 :
(

x1 + x2 = y1

x1 + x2 = y1

(1 + y2 )x2 = y1 x2 = y1 Demostración. Basta ver ϕ(X) verifica la ecuación funcional (22) para cualquier función
1+y2
⇐⇒ ⇐⇒ ⇐⇒ y1 y2 h medible y acotada.
x1 /x2 = y2 x1 = y2 x2 x1 = y2 x2 x1 = 1+y2
X X
E[ϕ(X)h(X)] = ϕ(x)h(x)pX (x) = E[Y |X = x]h(x)pX (x)
  
∂xi
El Jacobiano de la transformación inversa Jg−1 (y1 , y2 ) = det ∂yj es x x
i,j !
      X X XX
∂x1 ∂x2 ∂x1 ∂x2 y2 −y1 y1 1 = ypY |X=x (y) h(x)pX (x) = yh(x)pY |X=x (y)pX (x)
Jg−1 (y1 , y2 ) = − = −
∂y1 ∂y2 ∂y2 ∂y1 1 + y2 (1 + y2 )2 (1 + y2 )2 1 + y2 x y x y
−y1 y2
XX
y1 y1 (1 + y2 ) y1 = yh(x)pX,Y (x, y) = E[Y h(X)].
= − =− =− . (31)
(1 + y2 )3 (1 + y2 )3 (1 + y2 )3 (1 + y2 )2 x y

12 13
Demostración. La fórmula de probabilidad total se deduce de la ecuación (22) poniendo Substituyendo los resultados (30) y (31) en la fórmula (26) se obtiene:
h(X) ≡ 1. La identidad (24) se obtiene observando que g(X)E[Y |X] es una función de X que  
soluciona la ecuación E[g(X)E[Y |X]h(X)] = E[(g(X)Y )h(X)]. Si X e Y son independientes y 1 y2 y1 |y1 |
fY1 ,Y2 (y1 , y2 ) = fX1 ,X2 , . (32)
E[Y h(X)] = E[Y ]E[h(X)] = E[E[Y ]h(X)]. 1 + y2 1 + y2 (1 + y2 )2
Por hipótesis,
2.1. Ejemplos
fX1 ,X2 (x1 , x2 ) = λe−λx1 1{x1 > 0}λe−λx2 1{x2 > 0} = λ2 e−λ(x1 +x2 ) 1{x1 > 0, x2 > 0}. (33)
2.1.1. Caso continuo
Sean X e Y dos variables aleatorias continuas definidas sobre un mismo espacio de prob- De (32) y (33) se obtiene
abilidad (Ω, A, P) con densidad de probabilidades conjunta fX,Y (x, y) y E[|Y |] < ∞. La y1
fY1 ,Y2 (y1 , y2 ) = λ2 e−λy1 1{y1 > 0, y2 > 0}
esperanza condicional de Y dada X es E[Y |X] = ϕ(X), donde ϕ : R → R es la función de (1 + y2 )2
regresión de Y sobre X definida por   1

= λ2 y1 e−λy1 1{y1 > 0} 2
1{y2 > 0} . (34)
Z ∞ (1 + y2 )
ϕ(x) := E[Y |X = x] = yfY |X=x (y)dy. (25)
−∞ De (34) se deduce que las variables Y1 e Y2 son independientes.

Demostración. Basta ver ϕ(X) verifica la ecuación funcional (22) para cualquier función Nota Bene sobre la persistencia de la mala suerte. De (34) se deduce que la densidad
h medible y acotada. del cociente Y2 = X1 /X2 de dos variables exponenciales independientes de igual intensidad
Z ∞ Z ∞ es de la forma
E[ϕ(X)h(X)] = ϕ(x)h(x)fX (x)dx = E[Y |X = x]h(x)fX (x)dx
−∞ 1
−∞ fY2 (y2 ) = 1{y2 > 0}. (35)
(1 + y2 )2
Z ∞ Z ∞
= yfY |X=x (y)dy h(x)fX (x)dx
Z−∞
∞ Z ∞
−∞ En consecuencia, la variable Y2 tiene esperanza infinita. Se trata de un hecho notable que
= yh(x)fY |X=x (y)fX (x)dxdy ofrece una explicación probabilı́stica de un fenómeno conocido por cualquiera que haya entrado
Z−∞ −∞ en una fila de espera denominado la persistencia de la mala suerte 1
∞ Z ∞
¿Por qué? Supongamos que la variable X1 representa el tiempo de espera para ser atendi-
= yh(x)fX,Y (x, y)dxdy = E[Y h(X)].
−∞ −∞ dos en la fila elegida (a la que llamaremos la fila 1) y que X2 representa el tiempo de espera
en otra fila que estamos observando mientras esperamos ser atendidos (a la que llamaremos
la fila 2). El cociente X1 /X2 representa la proporción del tiempo esperado en la fila 1 en en
relación al tiempo de espera en fila 2. Por ejemplo, X1 /X2 ≥ 3 significa esperamos por lo
2.1.2. Regla de Bayes para mezclas menos el triple del tiempo que hubiésemos esperado en la otra fila.
Volvamos el Ejemplo 2.1 la pregunta es ¿Qué puede hacer el receptor para “reconstruir” la Integrando (35) se deduce que
señal original, Y , a partir de la señal corrompida X? Lo “mejor” que puede hacer es estimar Z y2
1 1 y2
Y mediante la esperanza condicional E[Y |X]. El receptor recibe la mezcla de dos variables P(Y2 ≤ y2 ) = dy = 1 − = , y2 ≥ 0
0 (1 + y)2 1 + y2 1 + y2
aleatorias X|Y = −1 ∼ N (−1, σ 2 ) e X|Y = 1 ∼ N (1, σ 2 ), mezcladas en igual proporción:
pY (−1) = pY (1) = 1/2. Las densidades de las componentes de la mezcla son Equivalentemente,

1 2 2 1 2 2 1
fX|Y =−1 (x) = √ e−(x+1) /2σ y fX|Y =1 (x) = √ e−(x−1) /2σ . P(Y2 > y2 ) = , y2 ≥ 0
2π σ 2π σ 1 + y2

De la fórmula de probabilidad total se deduce que la densidad de la mezcla X es En particular, la probabilidad de que tengamos que esperar por lo menos el triple del tiempo
que hubiésemos esperado en la otra fila es 1/4. Aunque de acuerdo con este modelo, en
fX (x) = pY (−1)fX|Y =−1 (x) + pY (1)fX|Y =1 (x) promedio, la mitad de las veces esperamos menos tiempo que en la otra fila, en la práctica, el
1

1 2 2

1

1 2 2
 fenómeno de la mala suerte se ve sobredimensionado porque no le prestamos atención a los
= √ e−(x+1) /2σ + √ e−(x−1) /2σ . (26) tiempos cortos de espera.
2 2π σ 2 2π σ
1
Basta elegir una fila en las múltiples cajas de un supermercado para sufrir este fenómeno y observar que
en la fila elegida el tiempo de espera es el doble o el triple que el tiempo de espera en las otras filas.

12 13
Para percibir qué significa el resultado E[X1 /X2 ] = +∞ basta simular algunos valores de Esperanza condicional
la variable X1 /X2 . Por ejemplo, en 10 simulaciones obtuvimos la siguiente muestra:
Sean X e Y dos variables aleatorias definidas sobre un mismo espacio de probabilidad
1.2562, 0.8942, 0.9534, 0.3596, 29.3658, 1.2641, 3.3443, 0.3452, 13.5228, 7.1701. (Ω, A, P). Supongamos que E[|Y |] < ∞. Definimos la esperanza condicional de Y dada X,
E[Y |X], como cualquier variable aleatoria de la forma ϕ(X), donde ϕ : R → R es una función
El lector puede extraer sus propias conclusiones.
(medible), que solucione la ecuación funcional (22).
Ejemplo 2.11 (Gammas y Betas). Sean X1 y X2 variables aleatorias independientes con
distribuciones Γ(ν1 , λ) y Γ(ν2 , λ). Vamos a hallar la densidad conjunta de (Y1 , Y2 ) donde Existencia. La existencia de la esperanza condicional depende de teoremas profundos de
X1 Teorı́a de la medida y no será discutida en estas notas. El lector interesado puede consultar
Y1 = X1 + X2 , e Y2 = . Billingsley(1986) y/o Durrett(1996).
X1 + X2
Para ello consideramos la transformación
  Unicidad. Supongamos que ϕ(X) y ψ(X) son dos soluciones de la ecuación funcional (22).
x1 Entonces, ϕ(X) = ψ(X) cası́ seguramente (i.e., P(ϕ(X) 6= ψ(X)) = 0).
g(x1 , x2 ) = x1 + x2 , = (y1 , y2 ).
x1 + x2
La transformación inversa de g es Demostración. Por cuestiones de simetrı́a, la prueba se reduce a mostrar que para cada
ǫ > 0, P(Aǫ ) = 0, donde Aǫ := {ϕ(X) − ψ(X) ≥ ǫ}. Observar que, por hipótesis, para
x1 = y1 y2 , x2 = y1 (1 − y2 ). (36)
toda función medible y acotada h : R → R vale que E[ϕ(X)h(X)] = E[ψ(X)h(X)] o lo
El Jacobiano de la transformación inversa es que es equivalente E[(ϕ(X) − ψ(X))h(X)] = 0. Poniendo h(X) = 1{X ∈ Aǫ } tenemos que
∂x1 ∂x2 ∂x1 ∂x2 0 = E[(ϕ(X) − ψ(X))1{X ∈ Aǫ }] ≥ E[ǫ1{X ∈ Aǫ }] = ǫP(Aǫ ). Por lo tanto, P(Aǫ ) = 0.
Jg−1 (y1 , y2 ) = − = y2 (−y1 ) − y1 (1 − y2 ) = −y1 (37)
∂y1 ∂y2 ∂y2 ∂y1 Lema 2.2 (Técnico). La esperanza condicional satisface E[|E[Y |X]|] ≤ E[|Y |].
Substituyendo los resultados (36) y (37) en la fórmula (26) se obtiene:
Demostración. La variable aleatoria ϕ(X) satisface la ecuación (22). Poniendo h(X) =
fY1 ,Y2 (y1 , y2 ) = fX1 ,X2 (y1 y2 , y1 (1 − y2 )) |y1 |. (38) 1{ϕ(X) > 0} y usando (22) se obtiene
Por hipótesis, E[ϕ(X)1{ϕ(X) > 0}] = E[Y 1{ϕ(X) > 0}] ≤ E[|Y |].
λν1 xν11 −1 e−λx1 λν2 xν22 −1 e−λx2 Análogamente se puede ver que E[−ϕ(X)1{ϕ(X) ≤ 0}] = E[−Y 1{ϕ(X) ≤ 0}] ≤ E[|Y |]. Por
fX1 ,X2 (x1 , x2 ) = = 1{x1 > 0} 1{x2 > 0}
Γ(ν1 ) Γ(ν2 ) lo tanto,
λν1 +ν2 xν11 −1 xν22 −1 e−λ(x1 +x2 ) E[|ϕ(X)|] = E[ϕ(X)1{ϕ(X) > 0} − ϕ(X)1{ϕ(X) ≤ 0}]
= 1{x1 > 0, x2 > 0}. (39)
Γ(ν1 )Γ(ν2 )
= E[ϕ(X)1{ϕ(X) > 0}] − E[ϕ(X)1{ϕ(X) ≤ 0}]
De (38) y (39) se obtiene = E[Y 1{ϕ(X) > 0}] − E[Y 1{ϕ(X) ≤ 0}]
λν1 +ν2 (y1 y2 )ν1 −1 (y1 (1 − y2 ))ν2 −1 e−λy1 = E[Y 1{ϕ(X) > 0} − Y 1{ϕ(X) ≤ 0}] ≤ E[|Y |]].
fY1 ,Y2 (y1 , y2 ) = 1{y1 y2 > 0, y1 (1 − y2 ) > 0}|y1 |
Γ(ν1 )Γ(ν2 )
!
λν1 +ν2 y1ν1 +ν2 −1 e−λy1
= 1{y1 > 0}
Γ(ν1 + ν2 ) Propiedades que merecen ser subrayadas
!
Γ(ν1 + ν2 )y2ν1 −1 (1 − y2 )ν2 −1 Aunque se deducen inmediatamente de la definición, las propiedades siguientes merecen ser
× 1{0 < y2 < 1} . (40) subrayas porque, como se podrá apreciar más adelante, constituyen poderosas herramientas
Γ(ν1 )Γ(ν2 )
de cálculo.
Por lo tanto, Y1 e Y2 son independientes y sus distribuciones son Y1 ∼ Γ(ν1 + ν2 , λ), Y2 ∼
β(ν1 , ν2 ): 1. Fórmula de probabilidad total:

λν1 +ν2 E[E[Y |X]] = E[Y ]. (23)


fY1 (y1 ) = y ν1 +ν2 −1 e−λy1 1{y1 > 0},
Γ(ν1 + ν2 ) 1 2. Sea g : R → R una función tal que E[|g(X)Y |] < ∞,
Γ(ν1 + ν2 ) ν1 −1
fY2 (y2 ) = y (1 − y2 )ν2 −1 1{0 < y2 < 1}. E[g(X)Y |X] = g(X)E[Y |X]. (24)
Γ(ν1 )Γ(ν2 ) 2
3. Si X e Y son independientes, entonces E[Y |X] = E[Y ].

14 11
La densidad conjunta de X e Y es fX,Y (x, y) = π1 1{x2 +y 2 ≤ 1}. Por definición, para cada Nota Bene. Algunos autores utilizan (y promueven!) el método del Jacobiano como una
x ∈ [−1, 1], la densidad condicional de Y dado que X = x es el cociente entre la densidad herramienta para obtener la densidad de variables aleatorias de la forma Y1 = g1 (X1 , X2 ).
conjunta fX,Y (x, y) y la densidad marginal de X Hacen lo siguiente: 1. Introducen una variable auxiliar de la forma Y2 = g2 (X1 , X2 ) para
√ obtener un cambio de variables (g1 , g2 ) : R2 → R2 . 2. Utilizan la fórmula del Jacobiano (26)
2 1 − x2 para obtener la densidad conjunta de (Y1 , Y2 ) a partir de la densidad conjunta de (X1 , X2 ).
fX (x) = 1{x ∈ [−1, 1]}.
π 3. Obtienen la densidad de Y1 marginando (i.e., integrando la densidad conjunta de (Y1 , Y2 )
con respecto de y2 ). Por ejemplo,
Por lo tanto,
Suma: (X1 , X2 ) → (X1 + X2 , X2 ) =: (Y1 , Y2 ). En tal caso, (x1 , x2 ) = (y1 − y2 , y2 ) y el
1 p p Jacobiano tiene la forma J(y1 , y2 ) = ∂x 1 ∂x2 ∂x1 ∂x2
∂y1 ∂y2 − ∂y2 ∂y1 = 1. De donde se obtiene
fY |X=x (y) = √ 1{− 1 − x2 ≤ y ≤ 1 − x2 }. (21)
2 1−x2 Z
fY1 (y1 ) = fX1 ,X2 (y1 − y2 , y2 )dy2 .
En otras palabras,h dado que X = x, xi∈ [−1, 1], la variable Y se distribuye uniformemente R
√ √
sobre el intervalo − 1 − x2 , 1 − x2 . En consecuencia, Producto: (X1 , X2 ) → (X1 X2 , X1 ) =: (Y1 , Y2 ). En tal caso, (x1 , x2 ) = (y2 , y1 /y2 ) y el
1
Jacobiano tiene la forma J(y1 , y2 ) = ∂x 1 ∂x2 ∂x1 ∂x2
∂y1 ∂y2 − ∂y2 ∂y1 = − y2 . De donde se obtiene
p
E[Y |X = x] = 0 y V(Y |X = x) = (2 1 − x2 )2 /12 = (1 − x2 )/3. Z
fY1 (y1 ) = fX1 ,X2 (y2 , y1 /y2 )|y2 |−1 dy2 .
R

Cociente: (X1 , X2 ) → (X1 /X2 , X2 ) =: (Y1 , Y2 ). En tal caso, (x1 , x2 ) = (y1 y2 , y2 ) y el


Jacobiano tiene la forma J(y1 , y2 ) = ∂x 1 ∂x2 ∂x1 ∂x2
∂y1 ∂y2 − ∂y2 ∂y1 = y2 . De donde se obtiene
2. Predicción y Esperanza condicional Z
Planteo del problema fY1 (y1 ) = fX1 ,X2 (y1 y2 , y2 )|y2 |dy2 .
R
En su versión más simple un problema de predicción o estimación involucra dos variables
aleatorias: una variable aleatoria Y desconocida (o inobservable) y una variable aleatoria X
conocida (u observable). El problema consiste en deducir información sobre el valor de Y a
partir del conocimiento del valor de X. Para ser más precisos, se busca una función ϕ(X) que Ejercicios adicionales
(en algún sentido) sea lo más parecida a Y como sea posible. La variable aleatoria Ŷ := ϕ(X)
3. [James p.97] Si X, Y, Z tienen densidad conjunta
se denomina un estimador de Y .
6
Ejemplo 2.1 (Detección de señales). Un emisor transmite un mensaje binario en la forma de fX,Y,Z (x, y, z) = 1{x > 0, y > 0, z > 0}.
(1 + x + y + z)4
una señal aleatoria Y que puede ser −1 o +1 con igual probabilidad. El canal de comunicación
corrompe la transmisión con un ruido normal aditivo de media 0 y varianza σ 2 . El receptor Hallar la densidad de la variable aleatoria W = X + Y + Z de dos maneras diferentes (método
recibe la señal X = Y + N , donde N es un ruido con distribución N (0, σ 2 ), independiente básico y método del Jacobiano)
de Y . El receptor del mensaje observa la señal corrompida X y sobre esa base tiene que
“reconstruir” la señal original Y . ¿Cómo lo hace?, ¿Qué puede hacer?
2.3. Funciones k a 1
En lo que sigue desarrollaremos herramientas que permitan resolver este tipo de proble-
mas. Sean X e Y dos variables aleatorias definidas sobre un mismo espacio de probabilidad Si la función g : Rn → Rn no es 1 a 1 también podemos utilizar el método del jacobiano
(Ω, A, P). El objetivo es construir una función ϕ(X) que sea lo más parecida a Y como sea para determinar la distribución de Y = g(X). Basta con que g sea 1 a 1 cuando se la restringe
posible. En primer lugar, vamos a suponer que E[|Y |] < ∞. Esta hipótesis permite precisar el a una de k regiones abiertas disjuntas cuya unión contiene al valor de X con probabilidad 1.
sentido del enunciado parecerse a Y . Concretamente, queremos construir una función de X, Supongamos que G, G1 , . . . , Gk son regiones abiertas de Rn tales que G1 , . . . Gk son dis-
ϕ(X), que solucione la siguiente ecuación funcional juntas dos a dos y que
k
!
[
E[ϕ(X)h(X)] = E[Y h(X)], (22) P X∈ Gℓ = 1.
ℓ=1
para toda función medible y acotada h : R → R. Supongamos además que la restricción de g a Gℓ , g|Gℓ , es una correspondencia 1 a 1 entre
Gℓ y G, para todo ℓ = 1, . . . , k y que la función inversa de g|Gℓ , denotada por h(ℓ) , satisface
todas las condiciones de la función h del Teorema 2.6.

10 15
Teorema 2.12. Bajo las condiciones enunciadas más arriba, si X tiene densidad fX (x), Esperanza condicional de Y dado que X = x. Para cada x ∈ R, la esperanza condicional
entonces Y tiene densidad de Y dado que X = x se define por
k
X Z ∞
fY (y) = fX (h(ℓ) (y))|Jh(ℓ) (y)|1{y ∈ G}. (41) E[Y |X = x] := yfY |X=x (y)dy. (18)
ℓ=1 −∞

siempre y cuando la integral del converja absolutamente. Si fX (x) = 0, E[Y |X = x] = 0.


Demostración. Sea B ⊂ G,
k k
X X Varianza condicional
P(Y ∈ B) = P(g(X) ∈ B) = P(g(X) ∈ B, X ∈ Gℓ ) = P(X ∈ h(ℓ) (B))
ℓ=1 ℓ=1 En cualquier caso, definidas las esperanzas condicionales de Y y de Y 2 dado que X = x,
k Z
X la varianza condicional de Y dado que X = x se define mediante
= fX (x)dx = (cambio de variables en la integral) h i
(ℓ)
ℓ=1 h (B) V(Y |X = x) := E (Y − E[Y |X = x])2 |X = x (19)
k k
Z Z !
X X
(ℓ) (ℓ)
= fX (h (y))|Jh(ℓ) (y)|dy = fX (h (y))|Jh(ℓ) (y)| dy. Desarrollando el término derecho se obtiene
ℓ=1 B B ℓ=1
V(Y |X = x) = E[Y 2 |X = x] − E[Y |X = x]2 . (20)
Ejemplo 2.13. Sean X e Y dos variables aleatorias independientes con distribución común
Nota Bene. La definición es consistente y coincide con la varianza de la variable aleatoria
N (0, 1). Mostrar que Z = X 2 +Y 2 y W = X/Y son independientes y hallar sus distribuciones.
Y |X = x cuya función de distribución es FY |X=x (y).
Solución. La función g : R2 → R2 , definida por g(x, y) = (x2 + y 2 , x/y) = (z, w), es 2 a 1. Ejemplo 1.6 (Dardos). Volvamos al problema del juego de dardos de blanco circular Λ =
Sean G = {(z, w) : z > 0}, G1 = {(x, y) : y > 0}, G2 = {(x, y) : y < 0}. Entonces, {(x, y) ∈ R2 : x2 + y 2 ≤ 1}. Por hipótesis, el dardo se clava en un punto de coordenadas
las restricciones g|G1 y g|G2 son correspondencias 1 a 1 entre las regiones abiertas Gi y G, (X, Y ) uniformemente distribuido sobre Λ.
i = 1, 2, y P((X, Y ) ∈ G1 ∪ G2 ) = 1.
Tenemos que calcular los jacobianos de las funciones inversas h(1) y h(2) en G. Para Y
ello calculamos los jacobianos de las restricciones g|G1 y g|G2 , que son los recı́procos de los
jacobianos de las inversas, y substituimos el valor (x, y) por el valor h(1) (z, w) o h(2) (z, w).
Tenemos
2x 2y −1
    2 −1
x 1 √
J1 (z, w) = 1 x
= −2 +1 =− 1 − x2
y − y2 y 2 2(w2 + 1)
y
1
J2 (z, w) = − . 0 x 1
2(w2 + 1) X
Por lo tanto, la densidad de (Z, W ) es
  1 √
fZ,W (z, w) = f (h(1) (z, w)) + f (h(2) (z, w)) 1{(z, w) ∈ G}. − 1 − x2
2(w2 + 1)
Como
1 −(x2 +y2 )/2 1 −z/2
f (x, y) = e = e ,
2π 2π
tenemos
   
1 −z/2 1 1 −z/2 1
fZ,W (z, w) = 2 e 1{z > 0, w ∈ R} = e 1{z > 0} .
2π 2(w2 + 1) 2 π(w2 + 1) h √ √ i
Como la densidad conjunta es el producto de dos densidades, concluimos que Z y W son Figura 2: Para cada x ∈ [−1, 1] se observa que Y |X = x ∼ U − 1 − x2 , 1 − x2 .
independientes, Z ∼ Exp(1/2) y W ∼ Cauchy.

16 9
El lado derecho de (15) define una genuina función de distribución FY |X=x : R → R, Ejemplo 2.14 (Mı́nimo y máximo). Sean X1 , X2 dos variables aleatorias con densidad con-
Ry junta fX1 ,X2 (x1 , x2 ). Hallar la densidad conjunta de U = mı́n(X1 , X2 ) y V = máx(X1 , X2 ).
fX,Y (x, t)dt La función g(x1 , x2 ) = (mı́n(x1 , x2 ), máx(x1 , x2 )), es 2 a 1.
FY |X=x (y) := −∞ , (16)
fX (x) Sean G = {(u, v) : u < v}, G1 = {(x1 , x2 ) : x1 < x2 } y G2 = {(x1 , x2 ) : x2 < x1 }.
que se llama la función distribución condicional de Y dado X = x y se puede interpretar como Las restricciones g|G1 (x1 , x2 ) = (x1 , x2 ) y g|G2 (x1 , x2 ) = (x2 , x1 ) son correspondencias 1
la función de distribución de una nueva variable aleatoria que llamaremos Y condicional a a 1 entre las regiones abiertas Gi y G, i = 1, 2; P((X, Y ) ∈ G1 ∪ G2 ) = 1 y los jacobianos de
que X = x y que será designada mediante el sı́mbolo Y |X = x. las funciones inversas h(1) y h(2) en G valen 1 y −1, respectivamente. Usando la fórmula (41)
La función de distribución FY |X=x (y) es derivable y su derivada obtenemos la densidad conjunta de (U, V ):

d fX,Y (x, y) fU,V (u, v) = (fX1 ,X2 (u, v) + fX1 ,X2 (v, u)) 1{u < v}.
fY |X=x (y) := F (y) = (17)
dy Y |X=x fX (x)
se llama la densidad condicional de Y dado que X = x.

Curva peligrosa. Todo el argumento usa la hipótesis fX (x) > 0. Si fX (x) = 0 las ex-
Ejercicios adicionales
presiones (15)-(17) carecen de sentido. Sin embargo, esto no es un problema grave ya que
P(X ∈ Sop(fX )) = 1. Para los valores de x tales que fX (x) = 0 las variables condicionales
4. La distribución de (X, Y ) es uniforme sobre el recinto sombreado
Y |X = x serán definidas como idénticamente nulas. En tal caso, FY |X=x (y) = 1{y ≥ 0}.

1
Regla mnemotécnica. De la fórmula (17) se deduce que fX,Y (x, y) = fY |X=x (y)fX (x) y
puede recordarse mediante el siguiente “versito”: “la densidad conjunta es igual a la densidad
condicional por la marginal de la condición”.
Ejemplo 1.5 (Dos etapas: conjunta = marginal × condicional). Se elige un número al
−1
azar X sobre el intervalo (0, 1) y después otro número al azar Y sobre el intervalo (X, 1).
0 1
Se quiere hallar la densidad marginal de Y . Por hipótesis, fX (x) = 1{0 < x < 1} y
1
fY |X=x (y) = 1−x 1{x < y < 1}. La densidad conjunta de X e Y se obtiene multipli-
cando la densidad condicional fY |X=x (y) por la densidad marginal fX (x): fX,Y (x, y) =
1
fY |X=x (y)fX (x) = 1−x 1{0 < x < y < 1}. La densidad marginal de Y se obtiene integrando
la densidad conjunta fX,Y (x, y) con respecto a x −1
Z ∞ Z y
1 1
fY (y) = 1{0 < x < y < 1}dx = 1{0 < y < 1} dx
−∞ 1 − x 0 1−x
Hallar la densidad conjunta de (U, V ) = (|2Y |, |3X|).
= − log(1 − y)1{0 < y < 1}.
5. [James p.99] Sean X1 , . . . , Xn variables aleatorias independientes e idénticamente dis-
tribuidas, con densidad común f . Mostrar que la densidad conjunta de
Fórmula de probabilidad total. La densidad de probabilidades de Y es una combinación
U = mı́n Xi y V = máx Xi
convexa de las condicionales: 1≤i≤n 1≤i≤n
Z ∞
fY (y) = fY |X=x (y)fX (x)dx. es
−∞ fU,V (u, v) = n(n − 1)[F (v) − F (u)]n−2 f (u)f (v)1{u < v}.
Inmediato de la relación “conjunta = marginal × condicional”. Integrando respecto de y se (Sugerencia. Primero hallar P(u < U, V ≤ v). Después, calcular las derivadas parciales
obtiene que la función de distribución de Y es una combinación convexa de las condicionales: cruzadas de la distribución conjunta.)
Z y Z y Z ∞ 
FY (y) = fY (t)dt = fY |X=x (t)fX (x)dx dt 6. [James p.99] Sean X1 , . . . , Xn variables aleatorias independientes e idénticamente dis-
−∞ −∞ −∞ tribuidas, con distribución uniforme sobre el intervalo [0, 1]. Sean
Z ∞ Z y  Z ∞
= fY |X=x (t)dt fX (x)dx = FY |X=x (y)fX (x)dx.
−∞ −∞ −∞ U = mı́n Xi y V = máx Xi
1≤i≤n 1≤i≤n

8 17
(a) Mostrar que la densidad conjunta de (U, V ) es 1

0.9
n−2
fU,V (u, v) = n(n − 1)(v − u) 1{0 ≤ u < v ≤ 1}.
0.8

0.7

(b) Mostrar que la densidad de W = V − U es 0.6

0.5
n−2
fW (w) = n(n − 1)w (1 − w) 1{0 ≤ w ≤ 1}. 0.4

0.3

0.2

0.1

3. Mı́nimo y máximo de dos exponenciales independientes 0


−4 −3 −2 −1 0 1 2 3 4

Teorema 3.1. Sean X1 y X2 dos variables aleatorias independientes con distribuciones ex-
ponenciales de intensidades λ1 y λ2 respectivamente. Si U = mı́n(X1 , X2 ), V = máx(X1 , X2 ),
W = V − U y J = 1{U = X1 } + 21{U = X2 }, entonces Figura 1: Gráfico de la probabilidad condicional P(Y = 1|X = ·) : R → R vista como función
de x.
(a) U ∼ Exp (λ1 + λ2 ).

(b) P(J = i) = λi (λ1 + λ2 )−1 , i = 1, 2. 1.4. Caso continuo

(c) U y J son independientes. Sean X e Y dos variables aleatorias definidas sobre (Ω, A, P) con densidad conjunta
fX,Y (x, y) continua. A diferencia del caso en que X es discreta en este caso tenemos que
(d) fW (w) = P(J = 1)fX2 (w) + P(J = 2)fX1 (w). P(X = x) = 0 para todo x ∈ R, lo que hace imposible definir la función de distribución
condicional de Y dado que X = x, P(Y ≤ y|X = x), mediante el cociente (2):
(e) U y W son independientes.
P(Y ≤ y, X = x) 0
= .
Demostración. Primero observamos que para cada u > 0 el evento {J = 1, U > u} equivale P(X = x) 0
al evento {X2 ≥ X1 > u}. En consecuencia,
Este obstáculo se puede superar observando que para cada x ∈ Sop(fX ) y para cada h > 0 el
Z ∞ Z ∞ Z ∞
evento {X ∈ Bh (x)} = {x − h < X < x + h} tiene probabilidad positiva

P(J = 1, U > u) = λ1 e−λx1 λ2 e−λ2 x2 dx2 dx1 = λ1 e−λx1 e−λ2 x1 dx1
u
Z ∞ x1 u x+h
Z
λ1 P(X ∈ Bh (x)) = fX (s)ds = 2hfX (θ1 (h)), θ1 (h) ∈ Bh (x).
= (λ1 + λ2 )e−(λ1 +λ2 )x1 dx1 x−h
λ + λ2 u
1 
λ1 Por otra parte,
= e−(λ1 +λ2 )u . (42)
λ1 + λ2 Z x+h Z y  Z y
P(Y ≤ y, X ∈ Bh (x)) = fX,Y (s, t)dt ds = 2h fX,Y (θ2 (h), t)dt,
De (42) se deducen (a), (b) y (c). x−h −∞ −∞
Si g : {(u, v) : 0 < u < v} → {(u, w) : u > 0, w > 0} es la función definida por
g(u, v) = (u, v − u), tenemos que (U, W ) = g(U, V ). La función g es biyectiva y su inversa donde θ2 (h) ∈ Bh (x).
h(u, w) = (u, u + w) tiene jacobiano idénticamente igual a 1. Aplicar el método del jacobiano Si x ∈ Sop(fX ), la probabilidad condicional P(Y ≤ y|X ∈ Bh (x)) está bien definida y vale
del Corolario 2.7 obtenemos: Ry
P(Y ≤ y, X ∈ Bh (x)) fX,Y (θ2 (h), t)dt
P (Y ≤ y|X ∈ Bh (x)) = = −∞ .
fU,W (u, w) = fU,V (u, u + w). (43) P(X ∈ Bh (x)) fX (θ1 (h))

Por el Ejemplo 2.14 sabemos que la densidad conjunta de U y V es En consecuencia,


Ry
−∞ fX,Y (x, t)dt
 
fU,V (u, v) = λ1 λ2 e−(λ1 u+λ2 v) + e−(λ1 v+λ2 u) 1{0 < u < v}. (44) lı́m P(Y ≤ y|X ∈ Bh (x)) = . (15)
h→0 fX (x)

18 7
y la probabilidad condicional del evento {M = m}, dado que ocurrió el evento {X ∈ Bh (x)} Combinando (43) y (44) obtenemos:
está bien definida y vale  
fV,W (u, w) = λ1 λ2 e−(λ1 u+λ2 (u+w)) + e−(λ1 (u+w)+λ2 u) 1{u > 0, w > 0}
P(M = m, X ∈ Bh (x))
P(M = m|X ∈ Bh (x)) = .
 
P(X ∈ Bh (x)) = λ1 λ2 e−(λ1 +λ2 )u e−λ2 w + e−λ1 w 1{u > 0, w > 0}
Por otra parte, = (λ1 + λ2 )e−(λ1 +λ2 )u 1{u > 0}
 
P(M = m, X ∈ Bh (x)) = pM (m)P(Xm ∈ Bh (x)|M = m) = pM (m)P(Xm ∈ Bh (x)) λ1 λ2
× λ2 e−λ2 w + λ1 e−λ1 w 1{w > 0}. (45)
Z x+h λ1 + λ2 λ1 + λ2
= pM (m) fXm (t)dt = 2hpM (m)fXm (θm (h)), (10) De (45) se deducen (d) y (e).
x−h

para algún θm (h) ∈ Bh (x). De (9) y (10) se deduce que


pM (m)fXm (θm (h)) Ejercicios adicionales
P (M = m|X ∈ Bh (x)) = (11)
fX (θ(h))
7. Un avión tiene dos motores cada uno de los cuales funciona durante un tiempo exponen-
Para “adelgazar” el punto “engordado” hacemos h → 0 y obtenemos cial de media 10 horas independientemente del otro. El avión se mantiene volando mientras
pM (m)fXm (θm (h)) pM (m)fXm (x) funcione alguno de sus motores. Calcular la probabilidad de que el avión se mantenga volando
lı́m P (M = m|X ∈ Bh (x)) = lı́m = . (12) durante más de cinco horas después de que dejó de funcionar un motor.
h→0 h→0 fX (θ(h)) fX (x)
Finalmente, para cada x ∈ R tal que fX (x) > 0 definimos P(M = m|X = x) mediante la 8. Una cueva será iluminada por dos lámparas L1 y L2 cuyas duraciones (en horas) son inde-
fórmula pendientes y tienen distribuciones exponenciales de medias 8 y 10, respectivamente. Sabiendo
pM (m)fXm (x) que desde que se apagó una lámpara la cueva se mantuvo iluminada durante más de una hora
P(M = m|X = x) := . (13) calcular la probabilidad de que se haya apagado primero la lámpara L2 .
fX (x)
Ejemplo 1.4 (Detección de señales). Un emisor transmite un mensaje binario en la forma
de una señal aleatoria Y que puede ser −1 o +1 con igual probabilidad. El canal de comu-
nicación corrompe la transmisión con un ruido normal aditivo de media 0 y varianza 1. El 4. Funciones regulares e independencia
receptor recibe la señal X = N + Y , donde N es un ruido (noise) con distribución N (0, 1),
independiente de Y . La pregunta del receptor es la siguiente: dado que recibı́ el valor x, cuál Definición 4.1. Una función g se dice regular si existen números · · · < a−1 < a0 < a1 < · · · ,
es la probabilidad de que la señal sea 1? con ai → ∞ y a−i → −∞, tales que g es continua y monótona sobre cada intervalo (ai , ai+1 ).
Ejemplo 4.2. La función sen x es regular; todos los polinomios son funciones regulares. Un
La señal que recibe el receptor es una mezcla. La variable mezcladora es Y y las variables
ejemplo de una función que no es regular es 1{x ∈ Q}.
aleatorias que componen la mezcla son X−1 = N − 1 y X1 = N + 1. Por hipótesis, la variable
mezcladora Y se distribuye de acuerdo con la función de probabilidad pY (−1) = pY (1) = 1/2 Teorema 4.3. Sean X1 , . . . , Xn variables aleatorias independientes. Si g1 , . . . , gn son fun-
y las distribuciones de las variables componentes son X−1 ∼ N (−1, 1) y X1 ∼ N (1, 1). En ciones regulares, entonces g1 (X1 ), . . . , gn (Xn ) son variables aleatorias independientes.
otras palabras, las densidades de las variables componente son
1 2 1 2
Demostración. Para simplificar la prueba supondremos que n = 2. De la regularidad de
fX−1 (x) = √ e−(x+1) /2 y fX1 (x) = √ e−(z−1) /2 . las funciones g1 y g2 se deduce que para todo y ∈ R podemos escribir
2π 2π
A1 (y) := {x : g1 (x) ≤ y} = ∪i A1,i (y) y A2 (y) := {x : g2 (x) ≤ y} = ∪i A2,i (y),
Usando la fórmula de probabilidad total (7) se obtiene la densidad de la mezcla X
    como uniones de intervalos disjuntos dos a dos. Por lo tanto,
1 1 2 1 1 2
fX (x) = pY (−1)fX−1 (x) + pY (1)fX1 (x) = √ e−(x+1) /2 + √ e−(z−1) /2 . XX
2 2π 2 2π P(g1 (X1 ) ≤ y1 , g1 (X2 ) ≤ y2 ) = P(X1 ∈ A1,i (y1 ), X2 ∈ A2,i (y2 ))
i j
El receptor pregunta P(Y = 1|X = x) =? La respuesta se obtiene usando la regla de Bayes XX
(13) = P(X1 ∈ A1,i (y1 ))P(X2 ∈ A2,i (y2 ))
i j
2
pY (1)fX1 (x) e−(x−1) /2 ex =
X
P(X1 ∈ A1,i (y1 ))
X
P(X2 ∈ A2,i (y2 ))
P(Y = 1|X = x) = = −(x−1)2 /2 2 /2 = x
. (14)
fX (x) e +e−(x+1) e + e−x i j
= P(g1 (X1 ) ≤ y1 )P(g2 (X2 ) ≤ y2 ).

6 19
Variables absolutamente continuas. Si las variables Xm son absolutamente continuas
En rigor de verdad, vale un resultado mucho más general. con densidades fXm (x), respectivamente, la mezcla X es absolutamente continua y tiene
densidad
Teorema 4.4. Si para 1 ≤ i ≤ n, 1 ≤ j ≤ mi , Xi,j son independientes y fi : Rmi → R son X
medibles entonces fi (Xi,1 , . . . , Xi,mi ) son independientes. fX (x) = fXm (x)pM (m). (7)
m∈M
Demostración. Durrett(1996), p.25-27.
Ejemplo 1.3. Para simular los valores de una variable aleatoria X se recurre al siguiente al-
Un caso concreto que usaremos permanentemente al estudiar sumas es el siguiente: si
goritmo: se simula el valor de un variable aleatoria M con distribución Bernoulli de parámetro
X1 , . . . , Xn son independientes, entonces X = X1 + · · · + Xn−1 y Xn son independientes.
p = 1/5. Si M = 0, se simula el valor de una variable aleatoria X0 con distribución uniforme
sobre el intervalo (0, 4). Si M = 1, se simula el valor de una variable aleatoria X1 con dis-
Ejercicios adicionales tribución uniforme sobre el intervalo (2, 6). Se quiere hallar la densidad de probabilidades de
la variable X ası́ simulada.
9. (Fragmentaciones aleatorias.) Si U1 , . . . , Un son independientes con distribución común La variable X es una mezcla. La variable mezcladora es M y las variables aleatorias que
U(0, 1), entonces componen la mezcla son X0 y X1 1. Por hipótesis, la variable mezcladora M se distribuye de
Y n acuerdo con la función de probabilidad pM (0) = 4/5, pM (1) = 1/5 y las distribuciones de las
− log Ui ∼ Γ(n, 1). variables componentes son X0 ∼ U(0, 4) y X1 ∼ U(2, 6). En otras palabras, las densidades de
i=1 las variables componente son fX0 (x) = 14 1{0 < x < 4} y fX1 (x) = 41 1{2 < x < 6}. Usando la
fórmula de probabilidad total (7) se obtiene la densidad de la mezcla X
10. Una varilla de 1 metro de longitud es sometida a un proceso de fragmentación aleatoria.    
4 1 1 1
En la primera fase se elige un punto al azar de la misma y se la divide por el punto elegido en fX (x) = pM (0)fX0 (x) + pM (1)fX1 (x) = 1{0 < x < 4} + 1{2 < x < 6}
5 4 5 4
dos varillas de longitudes L1 y L2 . En la segunda fase se elige un punto al azar de la varilla
4 5 1
de longitud L1 y se la divide por el punto elegido en dos varillas de longitudes L1,1 y L1,2 . = 1{0 < x ≤ 2} + 1{2 < x < 4} + 1{4 ≤ x < 6}. (8)
Calcular la probabilidad de que L1,1 sea mayor que 25 centı́metros. 20 20 20

5. Bibliografı́a consultada 1.3. Sobre la regla de Bayes


Sean (Ω, A, P) un espacio de probabilidad; M : Ω → R una variable aleatoria discreta tal
Para redactar estas notas se consultaron los siguientes libros: que M (Ω) = M y pM (m) = P(M = m) > 0 para todo m ∈ M. Sea (Xm : m ∈ M) una
1. Durrett R.:Probability. Theory and Examples. Duxbury Press, Belmont. (1996). familia de variables aleatorias definidas sobre el mismo espacio de probabilidad (Ω, A, P) e
independiente de M . Supongamos además que las variables Xm , m ∈ M son absolutamente
2. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 2. John continuas con densidades de probabilidad continuas fXm (x), m ∈ M, respectivamente.
Wiley & Sons, New York. (1971). Sea X := XM la mezcla de las variables Mm obtenida mediante la variable mezcladora M .
¿Qué sentido deberı́a tener la expresión P(M = m|X = x)? No debe olvidarse que la variable
3. James, B. R.: probabilidade: um curso em nı́vel intermediario. IMPA, Rio de Janeiro. X es absolutamente continua y en consecuencia P(X = x) = 0. Por lo tanto, no tiene ningún
(2002). sentido definir P(M = m|X = x) mediante un cociente de la forma
4. Meester, R.: A Natural Introduction to Probability Theory. Birkhauser, Berlin. (2008). P(X = x, M = m) 0
P(M = m|X = x) = = .
5. Meyer, P. L.: Introductory Probability and Statistical Applications. Addison-Wesley, P(X = x) 0
Massachusetts. (1972).
¿Qué hacer? El obstáculo se puede superar siempre y cuando fX (x) > 0. En tal caso, si
6. Ross, S.: Introduction to Probability Models. Academic Press, San Diego. (2007) “engordamos” el punto x mediante el intervalo de radio h > 0 (suficientemente chico) centrado
en x, Bh (x) := {x − h < t < x + h}, el evento {X ∈ Bh (x)} tiene probabilidad positiva
7. Soong, T. T.: Fundamentals of Probability and Statistics for Engineers. John Wiley & Z x+h
Sons Ltd. (2004).
P(X ∈ Bh (x)) = fY (t)dt = 2hfX (θ(h)), θ(h) ∈ Bh (x). (9)
x−h

20 5
Notar que la función de probabilidad condicional obtenida es diferente de la correspondi-
ente a la marginal de Y , pY (y). Del Cuadro 2 y la definición (3) se deduce que
4 2
E[Y |X = x] = 1{x = 0} + 1{x = 1}.
3 3
(4) Condicionales
(Borradores, Curso 23)
Nota Bene. Observar que en general la función de probabilidad condicional pY |X=x (y) es
Sebastian Grynberg
diferente de la función de probabilidad pY (y). Esto indica que se pueden hacer inferencias
sobre los valores posibles de Y a partir de los valores observados de X y viceversa; las dos 8-10 de abril 2013
variables son (estocásticamente) dependientes. Más adelante veremos algunas maneras de
hacer este tipo de inferencias.

1.2. Mezclas
Definición 1.2 (Mezcla). Sea (Ω, A, P) un espacio de probabilidad. Sea M : Ω → R una
variable aleatoria discreta tal que M (Ω) = M y pM (m) = P(M = m) > 0 para todo m ∈ M.
Sea (Xm : m ∈ M) una familia de variables aleatorias definidas sobre el mismo espacio de
probabilidad (Ω, A, P) e independiente de M . En tal caso, la variable aleatoria X := XM
está bien definida y se llama la mezcla de las variables Xm obtenida mediante la variable
mezcladora M .

Nota Bene. La distribución de probabilidades de M indica la proporción en que deben


mezclarse las variables Xm : para cada m ∈ M, la probabilidad pM (m) representa la propor-
ción con que la variable Xm participa de la mezcla XM .

Cálculo de la función de distribución. La función de distribución de la mezcla X se


obtiene utilizando la fórmula de probabilidad total:
X
FX (x) = P(XM ≤ x) = P(XM ≤ x|M = m)P(M = m)
m∈M
X
= P(Xm ≤ x|M = m)pM (m)
m∈M
X
= P(Xm ≤ x)pM (m) (pues (Xm : m ∈ M) y M son indep.)
m∈M
Serpientes de Akiyoshi Kitaoka.
X
= FXm (x)pM (m), (5)
m∈M

donde, para cada m ∈ M, FXm (x) = P(Xm ≤ x) es la función de distribución de la variable Si no se espera,
Xm . no se encontrará lo inesperado,
pues el sendero que a ello conduce
Variables discretas. Si las variables aleatorias Xm son discretas con funciones de prob- es inaccesible
abilidad pXm (x) = P(Xm = x), respectivamente, la mezcla X es discreta y su función de
(Heráclito.)
probabilidad es
X
pX (x) = pXm (x)pM (m). (6)
m∈M

4 1
Índice Nota Bene 1. La función FY |X=x : R → R definida en (2) es una función de distribución
genuina: es no decreciente, continua a derecha, tiende a 0 cuando y → −∞ y tiende a 1
1. Condicionales 2 cuando y → ∞. Por lo tanto, podemos interpretarla como la función de distribución de una
1.1. Caso discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 nueva variable aleatoria, Y |X = x, cuya ley de distribución coincide con la de Y cuando se
1.2. Mezclas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 sabe que ocurrió el evento X = x. Motivo por el cual la llamaremos Y condicional a que
1.3. Sobre la regla de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 X = x.
1.4. Caso continuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
Nota Bene 2. Todas las nociones asociadas a las distribuciones condicionales se definen
2. Predicción y Esperanza condicional 10 de la misma manera que en el caso de una única variable aleatoria discreta, salvo que ahora
2.1. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 todas las probabilidades se determinan condicionales al evento X = x. Las definiciones tienen
2.1.1. Caso continuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 sentido siempre y cuando x ∈ Sop(pX ).
2.1.2. Regla de Bayes para mezclas . . . . . . . . . . . . . . . . . . . . . . . 12
2.1.3. Caso discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Nota Bene 3. Si se quieren calcular las funciones de probabilidad de las variables Y |X = x,
2.2. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
x ∈ Sop(pX ), la fórmula (1) dice que basta dividir cada fila de la representación matricial
2.3. Ejemplo: sumas aleatorias de variables aleatorias . . . . . . . . . . . . . . . . 16
de la función de probabilidad conjunta de X e Y , pX,Y (x, y) por el correspondiente valor de
2.4. Ejemplo: esperanza y varianza de una mezcla. . . . . . . . . . . . . . . . . . . 17
su margen derecho, pX (x). En la fila x de la matriz resultante se encuentra la función de
3. Predicción lineal y coeficiente de correlación 18 probabilidad condicional de Y dado que X = x, pY |X=x (y).

Ejemplo 1.1. En una urna hay 3 bolas rojas, 2 amarillas y 1 verde. Se extraen dos. Sean
4. Bibliografı́a consultada 20
X e Y la cantidad de bolas rojas y amarillas extraı́das, respectivamente. La representación
matricial de la función de probabilidad conjunta pX,Y (x, y) y de sus marginales pX (x), pY (y)
1. Condicionales es la siguiente

1.1. Caso discreto X \Y 0 1 2 pX


0 0 2/15 1/15 3/15
Sean X e Y dos variables aleatorias discretas definidas sobre un mismo espacio de probabil- 1 3/15 6/15 0 9/15
idad (Ω, A, P). Fijemos un valor x ∈ R tal que pX (x) > 0. Usando la noción de probabilidad 2 3/15 0 0 3/15
condicional podemos definir la función de probabilidad condicional de Y dado que X = x,
pY 6/15 8/15 1/15
mediante
P(X = x, Y = y) pX,Y (x, y) Cuadro 1: Distribución conjunta de X e Y y sus respectivas marginales.
pY |X=x (y) := P(Y = y|X = x) = = . (1)
P(X = x) pX (x) Dividiendo cada fila de la matriz pX,Y (x, y) por el correspondiente valor de su margen
derecho se obtiene el Cuadro 2 que contiene toda la información sobre las funciones de prob-
Función de distribución condicional de Y dado que X = x. La función de distribución
abilidad de las condicionales Y |X = x.
condicional de Y dado que X = x se define por
X X X \Y 0 1 2
FY |X=x (y) := P(Y ≤ y|X = x) = P(Y = z|X = x) = pY |X=x (z). (2) 0 0 2/3 1/3
z≤y z≤y
1 1/3 2/3 0
2 1 0 0
Esperanza condicional de Y dado que X = x. La esperanza condicional de Y dado que
X = x se define por Cuadro 2: Distribuciones de las variables condicionales Y dado que X = x. Interpretación
X intuitiva de los resultados: a medida que X aumenta el grado de indeterminación de Y dis-
E[Y |X = x] := y pY |X=x (y). (3) minuye.
y
Por ejemplo, la función de probabilidad condicional de Y dado que X = 0, es la función de
y definida en la primera fila del Cuadro 2: pY |X=0 (0) = 0, pY |X=0 (1) = 2/3 y pY |X=0 (2) = 1/3.

2 3
definen los tiempos de espera entre arribos posteriores a t. Sustituyendo el valor de a en la segunda y despejando b se obtiene
Debido a la independencia de las Tk y la propiedad de pérdida de memoria de la distribu-
ción exponencial, parece intuitivamente claro que condicionando al evento {N (t) = n} las Cov(X, Y )
b = E[Y ] − E[X].
variables aleatorias (11) son independientes y con distribución exponencial. V(X)
(t) (t)
En lo que sigue mostraremos que N (t), T1 , T2 , . . . son variables aleatorias independi- Por lo tanto, la recta de regresión de Y basada en X es
entes y que
Cov(X, Y ) Cov(X, Y )
(t) (t)
(T1 , T2 , . . . ) ∼ (T1 , T2 , . . . ). (12) Ŷ = X + E[Y ] − E[X]
V(X) V(X)
Basta mostrar que para todo n ≥ 0 y para toda elección de números positivos t1 , . . . , tm , Cov(X, Y )
= (X − E[X]) + E[Y ]. (34)
m ∈ N, vale que V(X)
(t) (t) Además el error cuadrático medio es igual a
P(N (t) = n, T1 > t1 , . . . , Tm > tm ) = P(N (t) = n)e−λt1 · · · e−λtm . (13)
E[(Y − Ŷ )2 ] = V(Y ) 1 − ρ(X, Y )2 ,

Para probarlo condicionaremos sobre la variable Sn , (35)
(t)
P(N (t) = n, T1 > t1 ) = P(Sn ≤ t < Sn+1 , Sn+1 − t > t1 ) donde
= P(Sn ≤ t, Tn+1 > t1 + t − Sn ) Cov(X, Y )
Z t ρ(X, Y ) := (36)
= P(Tn+1 > t1 + t − s)fSn (s)ds σ(X)σ(Y )
0
Z t es el llamado coeficiente de correlación de las variables X, Y .
= e−λt1 P(Tn+1 > t − s)fSn (s)ds
0
Coeficiente de correlación
= e−λt1 P(Sn ≤ t, Tn+1 > t − Sn )
= P(N (t) = n)e −λt1
. El coeficiente de correlación definido en (36) es la covarianza de las variables normalizadas

Para obtener la segunda igualdad hay que observar que {Sn+1 > t} ∩ {Sn+1 − t > t1 } = X − E[X] Y − E[Y ]
X ∗ := , Y ∗ := . (37)
{Sn+1 > t1 + t} y escribir Sn+1 = Sn + Tn+1 ; la tercera se obtiene condicionando sobre Sn ; la σ(X) σ(Y )
cuarta se obtiene usando la propiedad de pérdida de memoria de la exponencial (P(Tn+1 >
t1 + t − s) = P(Tn+1 > t1 )P(Tn+1 > t − s) = e−λt1 P(Tn+1 > t − s)). Este coeficiente es independiente de los orı́genes y unidades de medida, esto es, para constantes
Por la independencia de las variables Tn , a1 , a2 , b1 , b2 con a1 > 0, a2 > 0, tenemos ρ(a1 X + b1 , a2 Y + b2 ) = ρ(X, Y ).
Desafortunadamente, el término correlación sugiere implicaciones que no le son inherentes.
(t) (t)
P(N (t) = n, T1 > t1 , . . . , Tm > tm ) Si X e Y son independientes, ρ(X, Y ) = 0. Sin embargo la recı́proca no es cierta. De hecho,
= P(Sn ≤ t < Sn+1 , Sn+1 − t > t1 , Tn+2 > t2 , Tn+m > tm ) el coeficiente de correlación ρ(X, Y ) puede anularse incluso cuando Y es función de X.
= P(Sn ≤ t < Sn+1 , Sn+1 − t > t1 )e−λt2 · · · e−λtm Ejemplo 3.2.
= P(N (t) = n)e−λt1 · · · e−λtm .
1
1. Sea X una variable aleatoria que toma valores ±1, ±2 cada uno con probabilidad 4 y
sea Y = X 2 . La distribución conjunta está dada por
4. Incrementos estacionarios e independientes. Por (6), N (t + s) − N (t) ≥ m, o N (t +
(t) (t) p(−1, 1) = p(1, 1) = p(−2, 4) = p(2, 4) = 1/4.
s) ≥ N (t) + m, si y solo si SN (t)+m ≤ t + s, que es la misma cosa que T1 + · · · + Tm ≤ s. Ası́
(t)(t) Por razones de simetrı́a (E[X] = 0 y E[XY ] = 0) ρ(X, Y ) = 0 incluso cuando Y es una
N (t + s) − N (t) = máx{m : T1 + · · · + Tm ≤ s}. (14) función de X.
Comparando (14) y (3) se puede ver que para t fijo las variables aleatorias N (t + s) − N (t)
2. Sean U y V variables independientes con la misma distribución, y sean X = U + V ,
para s ≥ 0 se definen en términos de la sucesión (11) exactamente de la misma manera en
Y = U − V . Entonces E[XY ] = E[U 2 ] − E[V 2 ] = 0 y E[Y ] = 0. En consecuencia,
que las N (s) se definen en términos de la sucesión original de tiempos de espera. En otras
Cov(X, Y ) = 0 y por lo tanto también ρ(X, Y ) = 0. Por ejemplo, X e Y podrı́an ser
palabras,
la suma y la diferencia de los puntos de dos dados. Entonces X e Y son ambos pares
(t) (t)
N (t + s) − N (t) = Ψ(s; T1 , T2 , . . . ), (15) ó ambos impares y por lo tanto dependientes.

6 19
Nota Bene. El coeficiente de correlación no es una medida general de la dependencia entre En efecto, de la relación básica (6) se deduce que si {Sn : n ≥ 0} es un proceso de Poisson
X e Y . Sin embargo, ρ(X, Y ) está conectado con la dependencia lineal de X e Y . En efecto, de intensidad λ, entonces las variables Sn tienen distribución Γ(n, λ):
de la identidad (35) se deduce que |ρ(X, Y )| ≤ 1 y que ρ(X, Y ) = ±1 si y solo si Y es una
n−1 n−1
función lineal de X (cası́ seguramente). X X (λt)k
P(Sn > t) = P(N (t) < n) = P(N (t) = k) = e−λt .
k!
k=0 k=0
4. Bibliografı́a consultada
Para redactar estas notas se consultaron los siguientes libros:
1.3. Construcción
1. Billingsley, P.: Probability and measure. John Wiley & Sons, New York. (1986)
En lo que sigue mostraremos una forma de construir un proceso puntual de Poisson {Sn :
2. Bertsekas, D. P., Tsitsiklis, J. N.: Introduction to Probability. M.I.T. Lecture Notes. n ≥ 0} de intensidad λ. Los arribos, Sn , se construyen utilizando una sucesión de variables
(2000) aleatorias a valores positivos {Tn : n ≥ 1}:

3. Durrett R.:Probability.Theory and Examples. Duxbury Press, Belmont. (1996) n


X
S0 := 0, Sn := Ti , n = 1, 2, . . . . (9)
4. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 1. John i=1
Wiley & Sons, New York. (1957)
Teorema 1.4. Sea {Tn : n ≥ 1} una sucesión de variables aleatorias independientes, cada
5. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 2. John una con distribución exponencial de intensidad λ. El proceso de arribos {Sn : n ≥ 0} definido
Wiley & Sons, New York. (1971) en (9) es un proceso puntual de Poisson de intensidad λ. (Ver la Definición 1.3).

6. Maronna R.: Probabilidad y Estadı́stica Elementales para Estudiantes de Ciencias. Ed-


Demostración.
itorial Exacta, La Plata. (1995)
1. ProcesoPPuntual. Para cada n ≥ 1, P(Tn > 0) = 1 y por la ley fuerte de los grandes
7. Ross, S.: Introduction to Probability Models. Academic Press, San Diego. (2007) números n1 ni=1 Ti → λ1 casi seguramente. Por lo tanto, {Sn : n ≥ 0} es un proceso puntual.
2. Distribuciones Poisson. Para cada n ≥ 1, Sn = T1 + · · · + Tn tiene distribución Γ(n, λ):
n−1
! ∞
!
X (λt)k X (λt)k
−λt −λt
FSn (t) = P(Sn ≤ t) = 1 − e 1{t ≥ 0} = e 1{t ≥ 0}.
k! k!
k=0 k=n

Observando que {N (t) = n} = {N (t) < n + 1} \ {N (t) < n} y usando la relación básica,
N (t) < n ⇐⇒ Sn > t, se deduce que

P(N (t) = n) = P(N (t) < n + 1) − P(N (t) < n) = P(Sn+1 > t) − P(Sn > t)
n n−1
X (λt)k X (λt)k (λt)n
= e−λt − e−λt = e−λt , n = 0, 1, . . . . (10)
k! k! n!
k=0 k=0

Por lo tanto, para cada t > 0 fijo, el incremento N (t) tiene una distribución Poisson de media
λt:
N (t) ∼ P oisson(λt).
3. Pérdida de memoria. Fijamos t > 0 y consideramos los arribos posteriores al instante t.
Por (3) tenemos que SN (t) ≤ t < SN (t)+1 . El tiempo de espera desde t hasta el primer arribo
posterior a t es SN (t)+1 − t; el tiempo de espera entre el primer y el segundo arribo posteriores
a t es TN (t)+2 ; y ası́ siguiendo. De este modo

(t) (t) (t)


T1 := SN (t)+1 − t, T2 := TN (t)+2 , T3 := TN (t)+3 , . . . (11)

20 5
(iii) Si s < t, entonces N (s) ≤ N (t).
(iv) Como el intervalo (0, t] es cerrado a la derecha, la función (aleatoria) N : R+ → N0
es continua a derecha. Además, en los puntos de discontinuidad tiene saltos de longitud 1.
En otras palabras, el gráfico de la función aleatoria N : R+ → N0 es una escalera no Ensayos Bernoulli y otras cositas
decreciente, continua a derecha y con saltos de longitud 1 en cada uno de los arribos del
proceso puntual. (Borradores, Curso 23)
Programa. En lo que sigue estudiaremos la distribución conjunta de las N (t) bajo ciertas Sebastian Grynberg
condiciones sobre los tiempos de espera entre arribos Tn y vice versa.
15-17 de abril de 2013
1.2. Procesos de Poisson
Existen varias definiciones equivalentes de procesos de Poisson. Adoptamos la que nos
parece más sencilla y generalizable. 1

Definición 1.3 (Proceso de Poisson). Un proceso puntual {Sn : n ≥ 0} sobre la semi-recta


positiva es un proceso de Poisson de intensidad λ > 0 si satisface las siguientes condiciones

(i) El proceso tiene incrementos independientes: para cada colección finita de tiempos 0 =
t0 < t1 < · · · < tn , los incrementos N (ti−1 , ti ] = N (ti ) − N (ti−1 ), i = 1, . . . , n son
independientes.

(ii) Los incrementos individuales N (s, t] = N (t) − N (s) tienen la distribución Poisson:

(λ(t − s))n
P(N (s, t] = n) = e−λ(t−s) , n = 0, 1, . . . , 0 ≤ s < t. (8)
n!

Nota Bene. La condición (ii) de la Definición 1.3 se puede descomponer en dos partes.
(a) Los incrementos son temporalmente homogéneos (i.e., la distribución de los incrementos
depende solamente de la longitud del intervalo de tiempo pero no de su posición) y (b) la
distribución de cada incremento individual es Poisson de media proporcional a la cantidad de
tiempo considerado.
Que un proceso puntual sea temporalmente homogéneo y que tenga incrementos independi-
entes significa que si se lo reinicia desde cualquier instante de tiempo t, el proceso ası́ obtenido
es independiente de todo lo que ocurrió previamente (por tener incrementos independientes)
y que tiene la misma distribución que el proceso original (por ser temporalmente homogéneo).
En otras palabras, el proceso no tiene memoria.
Es de suponer que, bajo esas condiciones, los tiempos de espera entre arribos tienen
que ser variables aleatorias independientes, cada una con distribución exponencial del mismo
parámetro. Ésto último es consistente con la condición sobre la distribución que tienen los Jakob Bernoulli (1654 - 1705)
incrementos individuales (8).
1
Elegimos la Definición 1.3 porque tiene la virtud de que se puede extender a Rd sin ninguna dificultad:
un subconjunto aleatorio (numerable) Π de Rd se llama un proceso de Poisson de intensidad λ si, para todo
En la “buena” te encontré
A ∈ B(Rd ), las variables aleatorias N (A) = |Π ∩ A| satisfacen (a) N (A) tiene la distribución Poisson de y en la “mala” te perdı́ ...
parámetro λ|A|, y (b) Si A1 , A2 , . . . , An ∈ B(Rd ) son conjuntos disjuntos, entonces N (A1 ), N (A2 ), . . . N (An )
son variables aleatorias independientes.
(Enrique Cadı́camo)

4 1
N (t)
Índice
1. Ensayos Bernoulli 3 5
1.1. La distribución binomial: cantidad de éxitos en n ensayos . . . . . . . . . . . 4
4
1.2. Término central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3. La distribución geométrica: tiempo de espera hasta el primer éxito . . . . . . 6 3
1.4. La distribución Pascal: tiempo de espera hasta el k-ésimo éxito . . . . . . . . 8
1.5. La distribución multinomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2
1.6. j Miscelánea de ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1
2. La distribución de Poisson 12
2.1. Motivación: Aproximación de Poisson de la distribución binomial . . . . . . . 12
2.2. La distribución Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 S1 S2 S3 S4 S5 t
2.3. e La aproximación Poisson. (Técnica de acoplamiento) . . . . . . . . . . . . 16
T1 T2 T3 T4 T5
3. Cuentas con exponenciales 20
3.1. Motivación: pasaje de lo discreto a lo continuo . . . . . . . . . . . . . . . . . 20
3.2. Distribución exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 Figura 1: Realización tı́pica de un proceso puntual aleatorio sobre la semi-recta positiva.
3.3. Suma de exponenciales independientes de igual intensidad . . . . . . . . . . . 21
3.4. Mı́nimos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 Observación 1.2. Notar que N (t) es una función de t y de las variables aleatorias T1 , T2 , . . .
a valores enteros no negativos. Indicaremos esa relación de la siguiente manera
4. Bibliografı́a consultada 24
N (t) = Ψ(t; T1 , T2 , . . . ), (4)

donde Ψ es la relación definida en (2).

La cantidad de arribos ocurridos durante el intervalo de tiempo (s, t] ⊂ R+ , N (s, t], es el


incremento N (t) − N (s)
X
N (s, t] := N (t) − N (s) = 1{s < Sn ≤ t}. (5)
n≥1

De (3) se obtiene la relación básica que conecta a las variables N (t) con las Sn :

N (t) ≥ n ⇐⇒ Sn ≤ t. (6)

De allı́ se desprende que

N (t) = n ⇐⇒ Sn ≤ t < Sn+1 . (7)

Proceso de conteo. La familia de variables aleatorias {N (t) : t ≥ 0} es un proceso es-


tocástico denominado el proceso de conteo de la sucesión de arribos {Sn : n ≥ 0}. Debido a que
la sucesión de arribos se puede reconstruir a partir de N , N también recibe la denominación
“proceso puntual ”.

Propiedades. Por definición, el proceso de conteo satisface las siguientes propiedades:


(i) Para cada t ≥ 0, la variable aleatoria N (t) tiene valores enteros no negativos.
(ii) N (0) = 0 y lı́mt→∞ N (t) = ∞.

2 3
Índice 1. Ensayos Bernoulli
1. Proceso puntual de Poisson 2 Se trata de ensayos repetidos en forma independiente en los que hay sólo dos resultados
1.1. Procesos puntuales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 posibles, usualmente denominados “éxito” y “fracaso”, cuyas probabilidades, p y 1 − p, se
1.2. Procesos de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 mantienen constantes a lo largo de todos los ensayos.
1.3. Construcción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 El espacio muestral de cada ensayo individual está formado por dos puntos S y F . El
1.4. Distribución condicional de los tiempos de llegada . . . . . . . . . . . . . . . 10 espacio muestral de n ensayos Bernoulli contiene 2n puntos o secuencias de n sı́mbolos S y
1.5. Coloración y adelgazamiento de procesos de Poisson . . . . . . . . . . . . . . 11 F , cada punto representa un resultado posible del experimento compuesto. Como los ensayos
1.6. Superposición de Procesos de Poisson: competencia . . . . . . . . . . . . . . . 13 son independientes las probabilidades se multiplican. En otras palabras, la probabilidad de
1.7. Procesos de Poisson compuestos . . . . . . . . . . . . . . . . . . . . . . . . . . 15 cada sucesión particular es el producto que se obtiene reemplazando los sı́mbolos S y F por p
y 1 − p, respectivamente. Ası́,
2. Bibliografı́a consultada 17
P(SSF SF . . . F F S) = pp(1 − p)p(1 − p) · · · (1 − p)(1 − p)p.

1. Proceso puntual de Poisson


1.1. Procesos puntuales Ejemplo 1.1. Si repetimos en forma independiente un experimento aleatorio y estamos in-
teresados en la ocurrencia del evento A al que consideramos “éxito”, tenemos ensayos Bernoulli
Informalmente, un proceso puntual aleatorio es un conjunto enumerable de puntos aleato- con p = P(A).
rios ubicados sobre la recta real. En la mayorı́a de las aplicaciones un punto de un proceso
puntual es el instante en que ocurre algún evento, motivo por el cual los puntos también se
Modelando ensayos Bernoulli. Los ensayos Bernoulli (con probabilidad de éxito p) se
llaman eventos o arribos. Por ejemplo, los tiempos de arribo de clientes a la caja de un super-
describen mediante una sucesión de variables aleatorias independientes e idénticamente dis-
mercado o de los trabajos al procesador central de una computadora son procesos puntuales.
tribuidas (Xi : i ∈ N) cada una con distribución Bernoulli(p),
En teorı́a fiabilidad, un evento podrı́a ser el instante en que ocurre una falla. El ejemplo básico
de este tipo de procesos es el proceso de Poisson. P(Xi = xi ) = pxi (1 − p)1−xi , xi ∈ {0, 1}. (1)
Definición 1.1 (Proceso puntual aleatorio). Un proceso puntual aleatorio sobre la semi-
Esto es, P(Xi = 1) = p y P(Xi = 0) = 1 − p. En este contexto, Xi = 1 significa que “el
recta positiva es una sucesión {Sn : n ≥ 0} de variables aleatorias no negativas tales que, casi
resultado del i-ésimo ensayo es éxito”.
seguramente,

(a) S0 ≡ 0, Preguntas elementales. Se pueden formular varios tipos de preguntas relacionadas con
los ensayos Bernoulli. Las más sencillas son las siguientes:
(b) 0 < S1 < S2 < · · · ,
(a) ¿Cuál es la cantidad total de éxitos en los primeros n ensayos?
(c) lı́mn→∞ Sn = +∞.
(b) ¿En n ensayos, cuál es el número de éxitos más probable?
La condición (b) significa que no hay arribos simultáneos. La condición (c) significa que
no hay explosiones, esto es, no hay una acumulación de arribos en tiempos finitos. (c) ¿Cuánto “tiempo” hay que esperar para observar el primer éxito?
La sucesión de variables aleatorias {Tn : n ≥ 1} definida por
(d) ¿Cuánto “tiempo” hay que esperar para observar el k-ésimo éxito?
Tn := Sn − Sn−1 (1)
En lo que sigue expresaremos las preguntas (a)-(d) en términos de las variables aleatorias
se llama la sucesión de tiempos de espera entre arribos. Xi , i ≥ 1, que describen los ensayos Bernoulli.
Introducimos una familia de nuevas variables aleatorias N (t), t ≥ 0, de la siguiente manera: La cantidad de éxitos en los primeros n ensayos se describe mediante la suma de las
para cada t ≥ 0 definimos N (t) como la cantidad de arribos ocurridos durante el intervalo de primeras variables X1 , . . . , Xn
tiempo (0, t], n
X
X Sn := Xi . (2)
N (t) := 1{Sn ≤ t} (2) i=1
n≥1
= máx{n ≥ 0 : Sn ≤ t}. (3)

2 3
La pregunta (a) interroga por la distribución de probabilidades de la variable aleatoria
Sn definida en (2). Esto es, para cada k = 0, . . . , n, se trata de determinar cuánto valen
las probabilidades P(Sn = k). En cambio, la pregunta (b) interroga por el valor de k que
maximiza a la función de k, P(Sn = k). Procesos de Poisson
El tiempo de espera hasta el primer éxito se describe mediante la variable aleatoria
(Borradores, Curso 23)
T1 := mı́n{i ∈ N : Xi = 1}, (3)

y en general, el tiempo de espera hasta el k-ésimo éxito, k ≥ 1 se describe, recursivamente, Sebastian Grynberg
mediante
22 de abril de 2013
Tk := mı́n{i > Tk−1 : Xi = 1}. (4)

La pregunta (c) interroga por la distribución de probabilidades de la variable T1 definida en


(3): cuánto valen las probabilidades P(T1 = n), n ∈ N? Finalmente, la pregunta (d) interroga
por la distribución de probabilidades de las variables Tk , k ≥ 2, definidas en (4): cuánto valen
las probabilidades P(Tk = n), n ≥ k?

1.1. La distribución binomial: cantidad de éxitos en n ensayos


La cantidad de éxitos puede ser 0, 1, . . . , n. El primer problema es determinar las corre-
spondientes probabilidades. El evento en n ensayos resultaron k éxitos y n − k fracasos
n
( )
X
(X1 , . . . , Xn ) = (x1 , . . . , xn ) : xi = k
i=1

puede ocurrir de tantas formas distintas como k sı́mbolos 1 se puedan ubicar en n lugares.
En otras palabras, el evento considerado contiene nk puntos, cada uno de probabilidad


n n
!
\ Y Pn Pn
P {Xi = xi } = pxi (1 − p)1−xi = p i=1 xi (1 − p)n− i=1 xi
i=1 i=1
= pk (1 − p)n−k .

Por lo tanto,
 
n k
P(Sn = k) = p (1 − p)n−k 0 ≤ k ≤ n. (5)
k
ollin tonatiuh
En particular, la probabilidad de que no ocurra ningún éxito en n ensayos es (1 − p)n y la
probabilidad de que ocurra al menos un éxito es 1 − (1 − p)n .
La distribución de Sn , determinada en (5), se denomina la distribución binomial de el tiempo sólo es tardanza
parámetros n y p y se denota Binomial(n, p). de lo que está por venir

Nota Bene. Por definición, la distribución binomial de parámetros n y p es la distribución (Martı́n Fierro)
de una suma de n variables aleatorias independientes cada con distribución Bernoulli de
parámetro p.

4 1
5. Suma geométrica de exponenciales independientes. Sean T1 , T2 , . . . variables aleatorias Ejemplo 1.2. Se tira un dado equilibrado 11 veces y en cada tiro se apuesta al 6, ¿cuál es
independientes idénticamente distribuidas con ley exponencial de intensidad λ. Se define la probabilidad de ganar exactamente 2 veces? Como el dado es equilibrado, la probabilidad
T = N
P
i=1 Ti , donde N es una variable aleatoria con distribución geométrica de parámetro de éxito es 1/6 y la cantidad de éxitos en 11 tiros tiene distribución Binomial (11, 1/6). Por
p, independiente de las variables T1 , T2 , . . . . Hallar la distribución de T . (Sugerencia: Utilizar lo tanto, la probabilidad requerida es
la fórmula de probabilidad total condicionando a los posibles valores de N y el desarrollo en    2  9
11 1 5
serie de Taylor de la función exponencial.) = 0.2960 . . .
2 6 6

4. Bibliografı́a consultada Ejemplo 1.3. Cada artı́culo producido por una máquina será defectuoso con probabilidad
0.1, independientemente de los demás. En una muestra de 3, ¿cuál es la probabilidad de
Para redactar estas notas se consultaron los siguientes libros: encontrar a lo sumo un defectuoso?
Si X es la cantidad de artı́culos defectuosos en la muestra, entonces X ∼ Binomial(3, 0.1).
1. Billingsley, P.: Probability and measure. John Wiley & Sons, New York. (1986)
En consecuencia,
2. Durrett R.:Probability. Theory and Examples. Duxbury Press, Belmont. (1996)  
3
 
3
P(X ≤ 1) = P(X = 0) + P(X = 1) = (0.1)0 (0.9)3 + (0.1)1 (0.9)2 = 0.972.
3. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 1. John 0 1
Wiley & Sons, New York. (1957)

4. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 2. John Ejemplo 1.4. Un avión se mantendrá en vuelo mientras funcionen al menos el 50 % de sus
Wiley & Sons, New York. (1971) motores. Si cada motor del avión en vuelo puede fallar con probabilidad 1 − p independien-
temente de los demás, ¿para cuáles valores de p ∈ (0, 1) es más seguro un avión de 4 motores
5. Grimmett, G. R., Stirzaker, D. R.: Probability and Random Processes. Oxford Univer- que uno de 2?
sity Press, New York. (2001) Como cada motor puede fallar o funcionar independientemente de los demás, la cantidad
6. Meester, R.: A Natural Introduction to Probability Theory. Birkhauser, Berlin. (2008). de motores que siguen funcionando es una variable aleatoria con distribución binomial. La
probabilidad de que un avión de 4 motores realice un vuelo exitoso es
7. Meyer, P. L.: Introductory Probability and Statistical Applications. Addison-Wesley,      
4 2 4 3 4 4
Massachusetts. (1972) p (1 − p)2 + p (1 − p) + p = 6p2 (1 − p)2 + 4p3 (1 − p) + p4 ,
2 3 4
8. Ross, S. M: Introduction to Probability and Statistics for Engineers and Scientists. mientras que la correspondiente probabilidad para un avión de 2 motores es
Elsevier Academic Press, San Diego. (2004)    
2 2 2
9. Soong, T. T.: Fundamentals of Probability and Statistics for Engineers. John Wiley & p(1 − p) + p = 2p(1 − p) + p2 .
1 2
Sons Ltd. (2004)
En consecuencia, el avión de 4 motores es más seguro que el de 2 si
6p2 (1 − p)2 + 4p3 (1 − p) + p4 > 2p(1 − p) + p2
lo que es equivalente a las siguientes expresiones simplificadas
3p3 − 8p2 + 7p − 2 > 0 ⇐⇒ 3(p − 2/3)(p − 1)2 > 0 ⇐⇒ p > 2/3.
Por lo tanto, el avión de 4 motores es más seguro cuando la probabilidad de que cada motor
se mantenga en funcionamiento es mayor que 2/3, mientras que el avión de 2 motores es más
seguro cuando esa probabilidad es menor que 2/3.
Ejemplo 1.5. Si la probabilidad de éxito es p = 0.01, cuántos ensayos se deben realizar para
asegurar que la probabilidad de que ocurra por lo menos un éxito sea al menos 1/2?
Buscamos el menor entero n tal que 1 − (0.99)n ≥ 21 , o equivalentemente 12 ≥ (0.99)n .
Tomando logaritmos − log 2 ≥ n log(0.99) y despejando n resulta n ≥ − log(2)/ log(0.99) ≈
68.96. Por lo tanto, n = 69.

24 5
1.2. Término central Teorema 3.3. Sean T1 , T2 , . . . , Tn variables aleatorias exponenciales independientes de in-
tensidades λ1 , λ2 , . . . , λn , respectivamente. Sean T y J las variables aleatorias definidas por
De la fórmula (5) se puede ver que
n k
 n−k T := mı́n Ti , J := ı́ndice que realiza T.
P(Sn = k) k p (1 − p) (k − 1)!(n − k + 1)!p i
= n
 =
P(Sn = k − 1) p k−1 (1 − p)n−k+1 k!(n − k)!(1 − p)
k−1 Entonces, T tiene distribución exponencial de intensidad λ1 + · · · + λn y
(n − k + 1)p (n + 1)p − k
= =1+ . (6) λj
k(1 − p) k(1 − p) P(J = j) = .
λ1 + · · · + λn
De (6) se deduce que P(Sn = k) crece cuando k < (n + 1)p y decrece cuando k > (n + 1)p. Si
(n + 1)p es un número entero, entonces P(Sn = (n + 1)p) = P(Sn = (n + 1)p − 1). En otras Más aún, las variables T y J son independientes.
palabras, la cantidad más probable de éxitos en n ensayos es m := [(n + 1)p]. Salvo en el caso
en que m = (n + 1)p, donde también lo es m − 1. Demostración. En primer lugar, hay que observar que T > t si y solo si Ti > t para
Cuando p = 12 el resultado anterior se puede observar directamente en el triángulo de todo i = 1, . . . , n. Como las variables T1 , T2 , . . . , Tn son exponenciales independientes de
Pascal: en el centro de las filas pares está el máximo. En la región central de las filas impares intensidades λ1 , λ2 , . . . λn tenemos que
hay dos máximos. n
Y n
Y
P(T > t) = P(Ti > t) = e−λi t = e−(λ1 +···+λn )t .
Ejemplo 1.6. Se tira un dado equilibrado n veces y en cada tiro se apuesta al 6. ¿Cuál es la
i=1 i=1
cantidad más probable de éxitos cuando n = 12? y cuando n = 11?
La cantidad de éxitos tiene distribución Binomial (n, p), donde p = 1/6. Cuando n = 12, Por lo tanto, T tiene distribución exponencial de intensidad λ1 + · · · + λn .
(n + 1)p = 13/6 = 2.16... y entonces la cantidad más probable de éxitos es m = 2. Cuando En segundo lugar hay que observar que J = j si y solo si T = Tj . Por lo tanto,
n = 11, (n + 1)p = 2 y entonces la cantidad más probable de éxitos es m = 1 o m = 2.
λj
P(J = j) = P(Tj = mı́n Ti ) = P(Tj < mı́n Ti ) = .
1.3. La distribución geométrica: tiempo de espera hasta el primer éxito i i6=j λ1 + · · · + λn

El tiempo que hay que esperar para observar el primer éxito en una sucesión de ensayos La última igualdad se obtiene utilizando el Lema 3.2P pues las variables Tj y mı́ni6=j Ti son
Bernoulli puede ser n = 1, 2, . . . . El evento T1 = 1 significa que se obtuvo éxito en el primer independientes y exponenciales con intensidades λj y i6=j λi , respectivamente.
ensayo y tiene probabilidad p. Para cada n ≥ 2, el evento T1 = n significa que en los primeros Finalmente, si para cada j definimos Uj = mı́ni6=j Ti , tenemos que
n − 1 ensayos se obtuvieron fracasos y que en el n-ésimo se obtuvo éxito, lo que tiene proba-
P(J = j, T ≥ t) = P(t ≤ Tj < Uj )
bilidad (1 − p)n−1 p. Por lo tanto, la distribución de T1 es Z ∞
= P(Tj < Uj |Tj = s)λj e−λj s ds
P(T1 = n) = (1 − p)n−1 p, n ∈ N. (7) t
Z ∞ Z ∞
e−( i6=j λi )s e−λj s ds
P
El evento T1 > n significa que los primeros n ensayos de la sucesión resultaron fracaso. Por = λj P(Uj > s)e−λj s ds = λj
t t
lo tanto, λj
Z ∞
= (λ1 + · · · + λn )e−(λ1 +···+λn )s ds
P(T1 > n) = (1 − p)n , n ≥ 1. (8) λ1 + · · · + λn t
λj
= e−(λ1 +···+λn )t .
La distribución de T1 se denomina distribución geométrica de parámetro p y se designa me- λ1 + · · · + λn
diante Geométrica(p).
Lo que completa la demostración.
Ejemplo 1.7. Se arroja repetidamente un dado equilibrado. ¿Cuál es la probabilidad de
que el primer 6 aparezca antes del quinto tiro?. La probabilidad de obtener 6 es 1/6 y la
cantidad de tiros hasta obtener el primer as tiene distribución Geométrica(1/6). Por lo tanto, Ejercicios adicionales
la probabilidad requerida es
4. Sean T1 y T2 variables aleatorias independientes exponenciales de intensidad 2. Sean
1 − (5/6)4 T(1) = mı́n(T1 , T2 ) y T(2) = máx(T1 , T2 ). Hallar la esperanza y la varianza de T(1) y de T(2) .
 
1/6 + (5/6)(1/6) + (5/6)2 (1/6) + (5/6)3 (1/6) = (1/6) = 1 − (5/6)4 = 0.5177 . . .
1 − (5/6)

6 23
Demostración. Por inducción. Para n = 1 no hay nada que probar: S1 = T1 ∼ Exp(λ). Ejemplo 1.8 (Ocurrencias casi seguras). Si al realizarse un experimento aleatorio un evento
Supongamos ahora que la suma Sn = T1 + · · · + Tn admite una densidad de la forma (48). A tiene probabilidad positiva de ocurrir, entonces en una sucesión de experimentos indepen-
Debido a que las variables aleatorias Sn y Tn+1 son independientes, la densidad de Sn+1 = dientes el evento A ocurrirá casi seguramente.
Sn + Tn+1 se obtiene convolucionando las densidades de Sn y Tn+1 : En efecto, el tiempo de espera hasta que ocurra el evento A es una variable aleatoria TA
Z t con distribución geométrica de parámetro p = P(A). Si se observa que
fSn+1 (t) = (fSn ∗ fTn+1 )(t) = fSn (t − x)fTn+1 (x)dx {TA > 1} ⊇ {TA > 2} ⊇ {TA > 3} ⊇ · · ·
0
Z t
(λ(t − x))n−1 −λx y que
= λe−λ(t−x) λe dx
0 (n − 1)! \
Z t {TA = ∞} = {TA > n}
λ n λn tn
= λe−λt (t − x)n−1 dx = λe−λt n≥1
(n − 1)! 0 (n − 1)! n
y se usa la propiedad de continuidad de P, se obtiene que
(λt)n
= λe−λt .
 
n! \
P(TA = ∞) = P  {TA > n} = lı́m P(TA > n) = lı́m (1 − p)n = 0.
n→∞ n→∞
Las funciones de distribución (49) se obtienen integrando las densidades (48). Sea t ≥ 0, n≥1
integrando por partes puede verse que
Por lo tanto, P(TA < ∞) = 1.
Z t Z t
(λs)n−1 −λs
FSn (t) = fSn (s)ds = λe ds
0 0 (n − 1)! Pérdida de memoria
t t
(λs)n−1 −λs (λs)n−2 −λt
Z
La variable aleatoria, T , con distribución geométrica de parámetro p tiene la propiedad
= − e + λe ds
(n − 1)! 0 0 (n − 2)! de pérdida de memoria,
(λt)n−1 −λt P(T > n + m|T > n) = P(T > m) n, m ∈ N (9)
= − e + FSn−1 (t). (50)
(n − 1)!
La identidad (9) se obtiene de (8) y de la fórmula de probabilidad condicional:
Iterando (50) obtenemos (49). P(T > n + m, T > n)
P(T > n + m|T > n) =
P(T > n)
Nota Bene. En la demostración anterior se utilizó el siguiente resultado: si T1 , . . . , Tn son
P(T > n + m) (1 − p)n+m
variables aleatorias independientes, entonces funciones (medibles) de familias disjuntas de las = =
P(T > n) (1 − p)n
Ti también son independientes. (Para más detalles ver el Capı́tulo 1 de Durrett, R., (1996).
Probability Theory and Examples, Duxbury Press, New York.) = (1 − p)m = P(T > m).
De hecho, la propiedad de pérdida de memoria definida en (9) caracteriza a la distribución
3.4. Mı́nimos geométrica.
Lema 3.2. Sean T1 y T2 dos variables aleatorias independientes y exponenciales de intensi- Teorema 1.9. Si T es una variable aleatoria a valores en N con la propiedad de pérdida de
dades λ1 y λ2 , respectivamente. Vale que memoria, entonces T ∼ Geométrica(p), donde p = P(T = 1).

λ1 Demostración. Sea G(n) := P(T > n). Si T pierde memoria, tenemos que
P(T1 < T2 ) = . (51)
λ1 + λ2
G(n + m) = G(n)G(m) (10)
Demostración. La probabilidad P(T1 < T2 ) puede calcularse condicionando sobre T1 : De (10) sigue que G(2) = G(1)G(1) = G(1)2 ,
G(3) = G(2)G(1) = G(1)3 y en general
Z ∞ Z ∞ G(n) = G(1)n cualquiera sea n ∈ N. En otros términos, la distribución de T es tal que
P(T1 < T2 ) = P(T1 < T2 |T1 = t)fT1 (t)dt = P(t < T2 )λ1 e−λ1 t dt
0 0 P(T > n) = G(1)n .
Z ∞ Z ∞
λ1
= λ1 e−λ2 t e−λ1 t dt = λ1 e−(λ1 +λ2 )t dt = . Por lo tanto,
0 0 λ1 + λ2
P(T = n) = P(T > n − 1) − P(T > n) = G(1)n−1 − G(1)n = G(1)n−1 (1 − G(1)).

22 7
1.4. La distribución Pascal: tiempo de espera hasta el k-ésimo éxito Si no discretizamos el tiempo tenemos que tratar con variables aleatorias continuas. El rol
de la distribución geométrica para los tiempos de espera lo ocupa la distribución exponencial.
Si se quieren observar k-éxitos en una sucesión de ensayos Bernoulli lo mı́nimo que se
Es la única variable continua dotada de una completa falta de memoria. En otras palabras, la
debe esperar es k ensayos. ¿Cuándo ocurre el evento Tk = n, n ≥ k? El n-ésimo ensayo debe
probabilidad de que una conversación que llegó hasta el tiempo t continúe más allá del tiempo
ser éxito y en los n − 1 ensayos anteriores deben ocurrir exactamente k − 1 éxitos. Hay n−1
k−1 t + s es independiente de la duración pasada de la conversación si, y solo si, la probabilidad
formas distintas de ubicar k − 1 sı́mbolos 1 en n − 1 lugares. Por lo tanto,
  que la conversación dure por lo menos t unidades de tiempo está dada por una exponencial
n−1 k e−λt .
P(Tk = n) = p (1 − p)n−k n ≥ k. (11)
k−1
La distribución de Tk se denomina distribución Pascal de parámetros k y p y se designa Nota Bene Si en un momento arbitrario t la lı́nea está ocupada, entonces la probabilidad
mediante Pascal(k, p). de un cambio de estado durante el próximo segundo depende de cuan larga ha sido la con-
La distribución Pascal de parámetros k y p es la distribución de una suma de k variables versación. En otras palabras, el pasado influye sobre el futuro. Esta circunstancia es la fuente
aleatorias independientes cada una con ley Geométrica(p). Lo cual es intuitivamente claro si de muchas dificultades en problemas más complicados.
se piensa en el modo que arribamos a su definición.
En efecto, definiendo T0 := 0 vale que 3.2. Distribución exponencial
k
X Se dice que la variable aleatoria T tiene distribución exponencial de intensidad λ > 0 y se
Tk = (Ti − Ti−1 ). denota T ∼ Exp(λ) si la función de distribución de T es de la forma
i=1  
Basta ver que para cada i = 1, . . . , k las diferencias Ti − Ti−1 son independientes y todas se FT (t) := P(T ≤ t) = 1 − e−λt 1{t ≥ 0}. (46)
distribuyen como T1 ∼ Geométrica(p). De acuerdo con la regla del producto
  En tal caso T admite la siguiente función densidad de probabilidades
P ∩ki=1 {Ti − Ti−1 = mi } = P(T1 = m1 )
n−1
fT (t) = λe−λt 1{t ≥ 0}. (47)
Y  
× P Ti − Ti−1 = mi | ∩i−1
j=1 {Tj − Tj−1 = mj } . (12)
i=2 Media y Varianza. Los valores de la esperanza y la varianza de T son, respectivamente,
E[T ] = 1/λ y V(T ) = 1/λ2 .
Si se sabe que T1 = m1 , . . . , Ti−1 − Ti−2 = mi−1 , entonces el evento Ti − Ti−1 = mi depende
las variables aleatorias XPi−1 mj +1 , . . . , XPi mj y equivale a decir que las primeras mi − 1
j=1 j=1 3.3. Suma de exponenciales independientes de igual intensidad
de esas variables valen 0 y la última vale 1. En consecuencia,

i−1
 Teorema 3.1. Sean T1 , T2 , . . . , Tn variables aleatorias independientes, idénticamente dis-
P Ti − Ti−1 = mi | ∩j=1 {Tj − Tj−1 = mj } = (1 − p)mi −1 p. (13) tribuidas, con distribución exponencial de intensidad λ > 0. La suma Sn = T1 + · · · + Tn
admite una densidad de probabilidades de la forma
De (12) y (13) se deduce que
k (λt)n−1
  Y fSn (t) = λe−λt 1{t > 0} (48)
P ∩ki=1 {Ti − Ti−1 = mi } = (1 − p)mi −1 p. (14) (n − 1)!
i=1
y su función de distribución es
De la factorización (14) se deduce que T1 , T2 − T1 , . . . , Tk − Tk−1 son independientes y que
cada una tiene distribución geométrica de parámetro p. n−1
!
X (λt)i
FSn (t) = 1 − e−λt 1{t ≥ 0}. (49)
Ejemplo 1.10. Lucas y Monk disputan la final de un campeonato de ajedrez. El primero i!
i=0
que gane 6 partidas (no hay tablas) resulta ganador. La probabilidad de que Lucas gane
cada partida es 3/4. ¿Cuál es la probabilidad de que Lucas gane el campeonato en la novena En otras palabras, la suma de n variables aleatorias independientes exponenciales de intensi-
partida? La cantidad de partidas que deben jugarse hasta que Lucas gane el campeonato tiene dad λ > 0 tiene distribución Gamma de parámetros n y λ: Γ(n, λ).
distribución Pascal(6, 3/4). Por lo tanto, la probabilidad requerida es
   6  3
8 3 1
= 0.1557 . . .
5 4 4

8 21
Wn,k tiene distribución Poisson de media pn,k . PuestoPque las Wn,k son independientes, Wn = Ejemplo 1.11. En una calle hay tres parquı́metros desocupados. Se estima que en los próxi-
P rn rn −p
k=1 Wn.k tiene distribución Poisson de media λn = k=1 pn,k . De la desigualdad 1−p ≤ e , mos 10 minutos pasarán 6 coches por esa calle y, en media, el 80 % tendrá que estacionarse
se obtiene como consecuencia que en alguno de ellos. Calcular la probabilidad de que los tres parquı́metros sean ocupados en
los próximos 10 minutos.
P(Vn,k 6= Wn,k ) = P(Vn.k = 1 6= Wn,k ) = P(Uk ∈ I1 (pn,k ) − J1 (pn,k )) La probabilidad requerida es la probabilidad de que la cantidad, N , de ensayos hasta el
= pn,k − e−pn,k pn,k ≤ p2n,k , tercer éxito sea menor o igual que 6. Como N tiene distribución Pascal(3, 0.8) resulta que
6 6 
y por (42)

X X n−1
P(N ≤ 6) = P(N = n) = (0.8)3 (0.2)n−3
rn 2
X n=3 n=3
P(Vn 6= Wn ) ≤ p2n,k ≤ λn máx pn,k → 0.  
2
 
3
 
4
 
5

k=1
1≤k≤rn = (0.8)3 (0.2)0 + (0.2)1 + (0.2)2 + (0.2)3
2 2 2 2
= (0.8)3 1 + 3(0.2) + 6(0.2)2 + 10(0.2)3
 
(44) y (43) se obtienen de observar que
= 0.983 . . .
λin λn
P(Wn = i) = e−λn → e−λ .
n! n! Notar que una forma alternativa de obtener el mismo resultado es sumar las probabilidades
de observar 3, 4, 5, 6 éxitos en 6 ensayos Bernoulli.

Relación entre las distribuciones Binomial y Pascal. Sean Sn ∼ Binomial(n, p) y


3. Cuentas con exponenciales Tk ∼ Pascal(k, p). Vale que
3.1. Motivación: pasaje de lo discreto a lo continuo P(Sn ≥ k) = P(Tk ≤ n). (15)
Para fijar ideas consideraremos una conversación telefónica y supondremos que su duración
es un número entero de segundos. La duración de la conversación será tratada como una En efecto, decir que en n ensayos Bernoulli ocurren por lo menos k éxitos es lo mismo que
variable aleatoria T cuya distribución de probabilidades pn = P(T = n) es conocida. La lı́nea decir que el tiempo de espera hasta observar el k-ésimo éxito no supera a n.
telefónica representa un sistema fı́sico con dos estados posibles “ocupada” (E0 ) y “libre” (E1 ).
Imaginemos que cada segundo se decide si la conversación continúa o no por medio de 1.5. La distribución multinomial
una moneda cargada. En otras palabras, se realiza una sucesión de ensayos Bernoulli con La distribución binomial se puede generalizar al caso de n ensayos independientes donde
probabilidad de éxito p a una tasa de un ensayo por segundo y se continúa hasta el primer cada ensayo puede tomar uno de varios resultados. Sean 1, 2, . . . , r los resultados posibles de
éxito. La conversación termina cuando ocurre el primer éxito. En este caso la duración total cada ensayo y supongamos que para cada k ∈ {1, 2, . . . , r} la probabilidad pk de observar el
de la conversación, el tiempo de espera, tiene distribución geométrica pn = (1 − p)n−1 p. Si en valor k se mantiene constante a lo largo de los ensayos. La pregunta es: ¿Cuántas veces ocurre
un instante cualquiera la lı́nea está ocupada, la probabilidad que permanezca ocupada por cada uno de los resultados en los primeros n ensayos?
más de un segundo es (1 − p), y la probabilidad de transición E0 → E1 en el siguiente paso Consideramos una sucesión X1 , X2 , . . . de variables aleatorias independientes e idénti-
es p. En este caso esas probabilidades son independientes de cuánto tiempo estuvo ocupada camente distribuidas a valores {1, 2, . . . ,P
r} tal que P(Xi = k) = pk . Fijado n, para cada
la lı́nea. k = 1, . . . , r definimos la variables Mk = ni=1 1{Xi = k}. La variable Mk cuenta la cantidad
La descripción de los tiempos de espera mediante modelos discretos presupone la cuanti- de veces que ocurre el resultado k en n ensayos. La probabilidad de que en n ensayos el
zación del tiempo y que los cambios solo pueden ocurrir en las épocas ε, 2ε, . . . . El tiempo de resultado 1 ocurra m1 veces, el resultado 2 ocurra m2 veces, etc. es
espera T más sencillo es el tiempo de espera hasta el primer éxito en una sucesión de ensayos
Bernoulli con probabilidad de éxito p(ε). En tal caso P(T > nε) = (1 − p(ε))n y el tiempo n!
P(M1 = m1 , M2 = m2 , . . . , Mr = mr ) = pm1 pm2 · · · pm
r ,
r
(16)
medio de espera es E[T ] = ε/p(ε). Este modelo puede se puede refinar haciendo que ε sea m1 !m2 ! · · · mr ! 1 2
cada vez más chico pero manteniendo fija la esperanza ε/p(ε) = 1/λ. Para un intervalo de
donde los mk son enteros no negativos sujetos a la condición m1 + m2 + · · · + mr = n.
duración t corresponden aproximadamente n ≈ t/ε ensayos, y entonces para ε pequeño
Si r = 2, entonces (16) se reduce a la distribución Binomial con p1 = p, p2 = 1 − p, k1 = k
P(T > t) ≈ (1 − λε)t/ε ≈ e−λt . (45) y k2 = n − k.

Este modelo considera el tiempo de espera como una variable aleatoria discreta distribuida
geométricamente y (45) dice que “en el lı́mite” se obtiene una distribución exponencial.

20 9
1.6. j Miscelánea de ejemplos Demostración. Sean U1 , . . . , Un variables aleatorias independientes con distribución común
U[0, 1). Para cada i = 1, . . . , n definimos parejas de variables aleatorias (Vi , Wi ) independientes
Observación 1.12 (Desarrollo de Taylor). Para todo x ∈ (0, 1) vale que

1 X n + k  Vi := 1{Ui ∈ I1 (p)}, Wi :=
X
k1{Ui ∈ Jk (p)}.
k+1
= xn . (17)
(1 − x) k k=0
n≥0

Por construcción, Vi ∼ Bernoulli(p) y Wi ∼ Poisson(p), en consecuencia las sumas


La identidad (17) se obtiene desarrollando la función h(x) = (1 − x)−(k+1) en serie de
Taylor alrededor del 0: observando que h(n) (0) = (k + 1)(k + 2) · · · (k + n), se obtiene que n
X n
X
h(n) (0) S= Vi , N= Wi
= n+k

n! k . i=1 i=1
Ejemplo 1.13 (Variable compuesta). Sean N1 ; X1 , X2 , . . . una sucesión de variables aleato-
son variables aleatorias con distribuciones Binomial(n, p) y Poisson(np), respectivamente. De
rias independientes. Supongamos que N1 ∼ Geométrica(p1 ) y que Xi ∼ Bernoulli(p2 ), i ≥ 1.
acuerdo con la demostración del Teorema de Le Cam tenemos que
Entonces,
  
λ n−k λ k k λ2
n   
−λ λ
NX
1 −1
1− −e = |P(S = k) − P(N = k)| ≤ 2np2 = 2 → 0.
 
p1 k n n k! n

N2 = Xi ∼ Geométrica − 1. (18)
p1 + p2 (1 − p1 )
i=1

Por definición N2 |N1 = n ∼ Binomial(n − 1, p2 ). Aplicando la fórmula de probabilidad total


obtenemos Teorema 2.7. Supongamos que para cada n, Xn,1 , . . . , Xn,rn son variables aleatorias inde-
X pendientes con distribución Bernoulli(pn,k ). Si
P(N2 = k) = P(N2 = k|N1 = n)P(N1 = n)
rn
n≥1 X
X n − 1 pn,k → λ ≥ 0, máx pn,k → 0, (42)
1≤k≤rn
= pk2 (1 − p2 )n−1−k (1 − p1 )n−1 p1 k=1
k
n≥k+1
entonces
X m + k 
= pk2 (1 − p2 )m (1 − p1 )m+k p1 rn
!
k X λi
m≥0 P Xn,k = i → e−λ , i = 0, 1, 2, . . . . (43)
X n + k  i!
k=1
= (p2 (1 − p1 ))k p1 [(1 − p1 )(1 − p2 )]m . (19)
k Si λ = 0, el lı́mite (43) se interpreta como 1 para i = 0 y 0 para i ≥ 1. En el caso rn = n
m≥0
y pn,k = λ/n, (43) es la aproximación Poisson a la binomial. Notar que si λ > 0, entonces
Usando (17) vemos que (42) implica que rn → ∞.
X m + k  1
[(1 − p1 )(1 − p2 )]m = Demostración. Sea U1 , U2 , . . . una sucesión de variables aleatorias independientes, con
k (1 − (1 − p1 )(1 − p2 ))k+1
m≥0 distribución común U[0, 1). Definimos
1
= . (20) Vn,k := 1{Uk ∈ I1 (pn,k )}.
(p1 + p2 (1 − p1 ))k+1

Combinando (19) y (20) obtenemos que Las variables Vn,1 , . . . , Vn,rn son independientes y con distribución Bernoulli(pn,k ). Puesto que
k  n,rn tienen la misma distribución que Xn,1 , . . . , Xn,rn , (43) se obtiene mostrando
Vn,1 , . . . , VP
(p2 (1 − p1 ))k p1 que Vn = rk=1
 
p2 (1 − p1 ) p1 n
Vn,k satisface
P(N2 = k) = = . (21)
(p1 + p2 (1 − p1 ))k+1 p1 + p2 (1 − p1 ) p1 + p2 (1 − p1 )
λi
P(Vn = i) → e−λ . (44)
i!
Ejemplo 1.14 (Rachas). Para cada número entero m > 1 sea Ym la cantidad de ensayos Ahora definimos

Bernoulli(p) que se deben realizar hasta obtener por primera vez una racha de m éxitos segui-
X
Wn,k := i1{Uk ∈ Ji (pn,k )}
dos. En lo que sigue vamos a calcular E[Ym ] mediante condicionales. Para ello introducimos i=0

10 19
Nota Bene. Esta técnica, denominada técnica de acoplamiento de variables aleatorias, una variable aleatoria auxiliar N que cuenta la cantidad de ensayos que deben realizarse hasta
permite probar (sin usar la fórmula de Stirling) que la distribución Binomial converge a la obtener por primera vez un fracaso y usaremos la identidad E[Ym ] = E[E[Ym |N ]].
distribución Poisson. Observando que

Teorema 2.5 (Le Cam). Sean X1 , . . . , Xn variables aleatorias independientes con distribu- n + Ym si n ≤ m,
Ym |N = n ∼
ción Bernoulli de parámetros p1 , . . . , pn , respectivamente y sea S = ni=1 Xi . Entonces
P
m si n > m,

X n
X obtenemos la expresión de la función de regresión
|P(S = k) − P(N = k)| ≤ 2 p2i , (41) 
k i=1 n + E[Ym ] si n ≤ m,
ϕ(n) = E[Ym |N = n] =
Pn m si n > m.
donde N es una variable aleatoria con distribución Poisson de media λ = i=1 pi .
En consecuencia, E[Ym |N ] = N 1{N ≤ m} + E[Ym ]1{N ≤ m} + m1{N > m}, de donde se
Demostración. Sean U1 , . . . , Un variables aleatorias independientes con distribución común deduce que E[Ym ] = E[N 1{N ≤ m}] + E[Ym ]P(N ≤ m) + mP(N > m). Equivalentemente,
U[0, 1). Construimos variables aleatorias acopladas Vi ∼ Bernoulli(pi ) y Wi ∼Poisson(pi ), E[N 1{N ≤ m}]
i = 1, . . . , n: E[Ym ] = + m. (22)
P(N > m)

Debido a que N 1{N ≤ m} = N − N 1{N > m} el primer término del lado derecho de la
X
Vi := 1{Ui ∈ I1 (pi )}, Wi := k1{Ui ∈ Jk (pi )},
k=0
igualdad (22) se puede expresar de siguiente forma

y las sumamos E[N 1{N ≤ m}] E[N ] − E[N 1{N > m}] E[N ]
n n = = − E[N |N > m]

X X P(N > m) P(N > m) P(N > m)
S = Vi , N= Wi . E[N ]
i=1 i=1 = − E[N ] − m. (23)
P(N > m)
Por construcción, las variables V1 , . . . , Vn son independientes y con distribución Bernoulli(pi ),
respectivamente, y entonces, la variable S ∗ tiene la misma distribución que S; las variables La última igualdad se deduce de la propiedad de pérdida de memoria de la distribución
W1 , . . . , Wn son independientes y tienen distribución Poisson(p i ), respectivamente, y entonces,
Geométrica. De N |N > m ∼ m + N , resulta que E[N |N > m] = m + E[N ].
la variable N tiene distribución Poisson de media λ = ni=1 pi . Combinando (22) y (23) obtenemos
P
Observando que cada k
E[N ] E[N ]P(N ≤ m) 1 − pm
E[Ym ] = − E[N ] = = . (24)
|P(S ∗ = k) − P(N = k)| ≤ P(S ∗ = k, N 6= k) + P(N = k, S ∗ 6= k). P(N > m) P(N > m) (1 − p)pm

se obtiene que
X Ejemplo 1.15 (Coleccionista I). Sea M una variable aleatoria a valores 1, 2, . . . , m. Sea
|P(S ∗ = k) − P(N = k)| ≤ 2P(S ∗ 6= N ). (Mn : n ∈ N) una sucesión de variables aleatorias independientes tal que Mn ∼ M para
k todo n ∈ N. Sea K = mı́n{n ≥ m : {M1 , . . . , Mn } = {1, 2, . . . , m}} el tamaño de muestra
mı́nimo que se necesita para “coleccionar” todos los valores 1, 2, . . . , m. En lo que sigue vamos
Si S ∗ 6= N , entonces Vi 6= Wi para algún i = 1, . . . , n. En consecuencia,
a calcular E[K] mediante condicionales. Introducimos un elemento aleatorio C que indica el
n
X n
X orden en que se obtuvieron los valores 1, 2, . . . , m y usamos la identidad E[K] = E[E[K|C]].
P(S ∗ 6= N ) ≤ P(Vi 6= Wi ) ≤ p2i . Sea S(m) al conjunto de todas las permutaciones de los números 1, 2, . . . , m. Para cada
i=1 i=1 permutación σ = (σ1 , σ2 , . . . , σm ) ∈ S(m) vale que:
m−1
Y P(M = σk )
P(C = σ) = Pm .
Corolario 2.6 (Aproximación Poisson). Para cada k ≥ 0 i=k P(M = σi )
k=1

λ n−k λ k λk
    
n Por otra parte
lı́m 1− = e−λ
n→∞ k n n k! m−1
X
K|C = σ ∼ 1 + N (σi : 1 ≤ 1 ≤ k),
k=1

18 11
Pm 
donde N (σi : 1 ≤ i ≤ k) ∼ Geométrica i=k+1 P(M = σi ) . Por lo tanto, Construcción conjunta de variables Bernoulli y Poisson (Acoplamiento).
X Para cada p ∈ [0, 1] dividimos el intervalo [0, 1) en dos intervalos
E[K] = E[K|C = σ]P(C = σ)
σ∈S(m) I0 (p) = [0, 1 − p), I1 (p) = [1 − p, 1) (34)
m−1
! m−1
X X 1 Y P(M = σk ) y en la sucesión de intervalos
= 1+ Pm Pm . (25)
i=k+1 P(M = σi ) i=k P(M = σi )

k−1 k

σ∈S(m) k=1 k=1 k X k
−p
X
−p p −p p
J0 (p) = [0, e ), Jk (p) =  e , e , k = 1, 2, . . . . (35)
En el caso particular en que P(M = i) = 1/m para todo i ∈ {1, 2, . . . , m} tenemos que k! k!
j=0 j=0

m−1
! m−1
X X 1 Y 1/m Consideramos una variable aleatoria U con distribución U[0, 1) y construimos dos variables
E[K] = 1+ Pm Pm
i=k+1 1/m i=k 1/m
aleatorias V y W con distribuciones Bernoulli(p) y Poisson(p), respectivamente:
σ∈S(m) k=1 k=1
m−1
! m−1 m ∞
1 1 1 1
X
V := 1{U ∈ I1 (p)}, W := k1{U ∈ Jk (p)}. (36)
X X X
= m! 1 + Pm = Pm =m . (26)
i=k+1 1/m m! i=k+1 1/m i k=0
k=1 k=0 i=1

De la desigualdad 1 − p ≤ e−p resulta que I0 (p) ⊂ J0 (p) y que J1 (p) ⊂ I1 (p). En consecuencia,
V = W ⇐⇒ U ∈ I0 (p) ∪ J1 (p). Por ende,
Ejemplo 1.16 (Coleccionista II). Sea X1 , X2 , . . . una sucesión de variables aleatorias inde-
pendientes e idénticamente distribuidas aPvalores 1, 2, . . . , r. Sea Nr = mı́n{n ≥ 1 : Xn = r}. P(V = W ) = P(U ∈ I0 (p) ∪ J1 (p)) = 1 − p + e−p p, (37)
Nr −1
Para cada i = 1, . . . , r − 1 sea Mi = n=1 1{Xn = i}. Queremos hallar la función de y en consecuencia,
probabilidad de Mi .
Por definición Nr ∼ Geométrica(pr ) y Mi |Nr = n ∼ Binomial n − 1, pi (1 − pr )−1 . De

P(V 6= W ) = p − e−p p = p(1 − e−p ) ≤ p2 . (38)
acuerdo con el Ejemplo 1.13 tenemos que
    Usando la desigualdad (38) pueden obtenerse las siguientes cotas:
pr pr
Mi ∼ Geométrica − 1 = Geométrica − 1.
−1
pr + pi (1 − pr ) (1 − pr ) pr + pi sup |P(V = k) − P(W = k)| ≤ p2 , (39)
k≥0
pi )/p2r .
X
En particular, E[Mi ] = pi /pr y V(Mi ) = pi (pr + |P(V = k) − P(W = k)| ≤ 2p2 . (40)
k

2. La distribución de Poisson La cota (39) se deduce de observar que

2.1. Motivación: Aproximación de Poisson de la distribución binomial |P(V = k) − P(W = k)| = |E[1{V = k}] − E[1{W = k}]|
En diversas aplicaciones tenemos que tratar con ensayos Bernoulli donde, para decirlo = |E[1{V = k} − 1{W = k}]|
de algún modo, n es grande y p es pequeño, mientras que el producto λ = np es modera- ≤ E[|1{V = k} − 1{W = k}|]
do. En tales casos conviene usar una aproximación de las probabilidades P(Sn = k), donde ≤ E[1{V 6= W }]
Sn ∼Binomial(n, p) y p = λ/n. Para k = 0 tenemos = P(V 6= W ).
λ n
 
P(Sn = 0) = (1 − p)n = 1 − . (27) La cota (40) se deduce de observar que para todo k = 0, 1, . . .
n
|P(V = k) − P(W = k)| = |P(V = k, W 6= k) − P(W = k, V 6= k)|
Tomando logaritmos y usando el desarrollo de Taylor,
≤ P(V = k, V 6= W ) + P(W = k, V 6= W ),
1 1 1
log(1 − t) = −t − t2 − t3 − t4 − · · · , y luego sumar sobre los posibles valores de k:
2 3 4
X
se obtiene |P(V = k) − P(W = k)| ≤ 2P(V 6= W ).
k
λ2
 
λ
log P(Sn = 0) = n log 1 − = −λ − − ··· (28)
n 2n

12 17
En consecuencia, para n grande se tiene que

Ejercicios adicionales P(Sn = 0) ≈ e−λ , (29)

1. Sea N una variable aleatoria con distribución Poisson de media λ. Mostrar que donde el signo ≈ se usa para indicar una igualdad aproximada (en este caso de orden de
magnitud 1/n). Más aún, usando la identidad (6) se puede ver que para cada k fijo y n
λ
P(N = n) = P(N = n − 1), n = 1, 2, . . . suficientemente grande
n
P(Sn = k) (n − k + 1)p λ
Usar ese resultado para encontrar el valor de n para el cual P(N = n) es maximal. = ≈ . (30)
P(Sn = k − 1) k(1 − p) k

2. Se lanza una moneda una cantidad aleatoria N de veces, donde N tiene distribución Recursivamente se concluye que
Poisson. Sean N1 y N2 la cantidad de total de caras y de cecas observadas, respectivamente.
Mostrar que las variables aleatorias N1 y N2 son independientes y que tienen distribución P(Sn = 1) ≈ λ · P(Sn = 0) ≈ λe−λ ,
Poisson. λ λ2 −λ
P(Sn = 2) ≈ · P(Sn = 1) ≈ e ,
2 2
3. Sea X1 , X2 , . . . una sucesión de variables aleatorias
P independientes, cada una con distribu-
ción Bernoulli(p). Para cada n ≥ 1 se define Sn := ni=1 Xi . Por convención, S0 := 0. Sea N y en general
una variable aleatoria con distribución Poisson(λ). Mostrar que SN ∼ Poisson(pλ).
λk −λ
P(Sn = k) ≈ e . (31)
k!

e La aproximación Poisson. (Técnica de acoplamiento)


La igualdad aproximada (31) se llama la aproximación de Poisson de la distribución binomial.
2.3.
En lo que sigue mostraremos que cuando se consideran una gran cantidad de eventos inde- 0.35
pendientes y cada uno de ellos tiene una probabilidad muy pequeña de ocurrir, la cantidad de
tales eventos que realmente ocurre tiene una distribución “cercana” a la distribución Poisson. 0.3

0.25
0.8

0.2
0.7

0.15
0.6

0.5 0.1

0.4 0.05

0.3
0
0 2 4 6 8 10
0.2

0.1

0
0 0.5 1 1.5 2 2.5 3
Figura 1: Comparación. Funciones de probabilidad de las distribuciones Binomial(10, 1/5)
(bolita negra) y Poisson(2) (cuadradillo vacı́o).

Figura 2: Comparación de las funciones de probabilidad de las distribuciones Bernoulli(1/4) Otro modo de obtener el mismo resultado.
(bolita negra) y Poisson(1/4) (cuadradillo vacı́o)
np k λk −λ
   
n k 1
P(Sn = k) = p (1 − p)n−k ∼ (1 − p)n−k → e .
k k! 1 − p k!

16 13
Ejemplo 2.1 (Artı́culos defectuosos). Una industria produce tornillos. Supongamos que la Nota Bene. El resultado del Teorema 2.2 se extiende por inducción a la suma de una
probabilidad de que un tornillo resulte defectuoso sea p = 0.015, entonces la probabilidad de cantidad finita de variables aleatorias independientes con distribución Poisson.
que una caja de 100 tornillos no contenga ninguno defectuoso es (0.985)100 = 0.2206... La
Teorema 2.3 (Competencia). Sean N1 , N2 , . . . , Nm variables aleatorias independientes, cada
aproximación de Poisson es e−1.5 = 0.2231... y es suficientemente próxima para la mayorı́a de
Nj con distribución Poisson de media λj , respectivamente. Sea S = N1 + · · · + Nm . Entonces,
los propósitos prácticos. Si se pregunta: Cuántos tornillos deberı́a contener la caja para que la
para cada n ≥ 1 vale que
probabilidad de encontrar al menos 100 tornillos sin defectos sea 0.8 o mejor? Si 100 + x es el  
número buscado, entonces x es un número pequeño. Para aplicar la aproximación de Poisson λ1 λ2 λm
(N1 , N2 , . . . , Nm )|S = n ∼ M ultinomial n, , , . . . , ,
para n = 100 + x ensayos debemos poner λ = np, pero np es aproximadamente 100p = 1.5. λ λ λ
Buscamos el menor entero x para el cual P
donde λ = j λj . En particular,
(1.5)x
 
1.5 λj
e−1.5 1 + + ··· ≥ 0.8 (32) P(Nj = 1|S = 1) = .
1 x! λ
Para x = 1 el valor del lado izquierdo de la inecuación (32) es aproximadamente 0.558, para P
Demostración. La suma S = N1 +· · ·+Nm tiene distribución Poisson de media λ = j λj ;
x = 2 es aproximadamente 0.809. Por lo tanto, la aproximación de Poisson permite concluir
y entonces siempre que n1 + · · · + nm = n,
que se necesitan 102 tornillos. En realidad la probabilidad de encontrar al menos 100 tornillos
sin defectos en una caja de 102 es 0.8022 . . . . P(N1 = n1 , . . . , Nm = nm )
P(N1 = n1 , . . . , Nm = nm |S = n) =
P(S = n)
n !, 
2.2. La distribución Poisson Y
−λj j
λ j λn

= e e−λ
Sea λ > 0. Una variable aleatoria N tiene distribución Poisson(λ) si sus posibles valores nj ! n!
j
son los enteros no negativos y si n! Y  nj
λj
= .
λn n1 !n2 ! · · · nm ! λ
j
P(N = n) = e−λ , n = 0, 1, . . . (33)
n!
P∞ xn
Media y varianza. Usando el desarrollo de Taylor de la función exponencial ex = n=0 n!
se demuestra que E[N ] = λ y V(N ) = λ. Nota Bene. En el caso particular n = 2, el resultado del Teorema 2.3 se reduce a que,
si N1 y N2 son variables aleatorias independientes con distribución Poisson de medias λ1 y
λ2 , respectivamente, entonces, dado que N1 + N2 = n, la distribución condicional de N1 es
Aditividad. El rasgo más importante de la distribución Poisson es su aditividad.
Binomial(n, p), donde p = λ1λ+λ
1
2
.
Teorema 2.2 (Aditividad). Si N1 y N2 son variables aleatorias independientes con distribu- Teorema 2.4 (Adelgazamiento). Sea N una variable aleatoria Poisson de media λ. Sea M
ción Poisson de medias λ1 y λ2 , respectivamente. Entonces, una variable aleatoria tal que
N1 + N2 ∼ P oisson(λ1 + λ2 ). M |N = n ∼ Binomial(n, p).

Demostración. Entonces, M y N − M son variables aleatorias independientes con distribución Poisson de


medias pλ y (1 − p)λ, respectivamente.
n
X n
X
P(N1 + N2 = n) = P(N1 = m, N2 = n − m) = P(N1 = m)P(N2 = n − m)
Demostración. Sean m, k ≥ 0
m=0 m=0
n n  
X m
−λ1 λ1 −λ2 λ2n−m e−(λ1 +λ2 ) X n m n−m P(M = m, N − M = k) = P(M = m, N − M = k|N = m + k)P(N = m + k)
= e e = λ λ
m! (n − m)! n! m 1 2 = P(M = m|N = m + k)P(N = m + k)
m=0 m=0
λm+k
  
(λ1 + λ2 )n m+k m
= e−(λ1 +λ2 ) . = p (1 − p)k e−λ
n! m (m + k)!
(pλ)m ((1 − p)λ)k
  
= e−pλ e−(1−p)λ .
m! k!

14 15
La última expresión que aparece en el lado derecho de la identidad (30) es la expresión de la donde Ψ es la función definida en la Observación 4. De acuerdo con (12)
densidad de la distribución Γ 21 , 12 . Por lo tanto,
{N (t + s) − N (t) : s ≥ 0} ∼ {N (s) : s ≥ 0}. (16)
 
1 1
χ21 = Γ , . De (15) y lo visto en 3. se deduce que N (t) y {N (t+s)−N (t) : s ≥ 0} son independientes.
2 2
Sean n ≥ 2 y 0 < t1 < t2 < . . . < tn . Como (N (t2 ) − N (t1 ), . . . , N (tn ) − N (tn−1 )) es una
 2 función de {N (t1 + s) − N (t1 ) : s ≥ 0}, tenemos que
X−µ X−µ
Nota Bene. Notar que si X ∼ N (µ, σ 2 ), entonces σ ∼ N (0, 1), y por lo tanto σ ∼
N (t1 ) y (N (t2 ) − N (t1 ), . . . , N (tn ) − N (tn−1 ))
χ21 .
son independientes. Esto es,
Definición 4.2 (Distribución chi-cuadrado). Si U1 , U2 , . . . , Un P
son variables aleatorias inde-
pendientes, cada una con distribución χ21 , la distribución de V = ni=1 Ui se llama distribución P(N (t1 ) = m1 , N (t2 ) − N (t1 ) = m2 , . . . , N (tn ) − N (tn−1 ) = mn )
chi-cuadrado con n grados de libertad y se denota χ2n .
= P(N (t1 ) = m1 )P(N (t2 ) − N (t1 ) = m2 , . . . , N (tn ) − N (tn−1 ) = mn )

Caracterización de la distribución chi-cuadrado. La distribución χ2n es un caso par- En particular, se obtiene la la independencia de los incrementos para el caso en que n = 2:
ticular de la distribución Gamma. Más precisamente,
  P(N (t1 ) = m1 , N (t2 ) − N (t1 ) = m2 ) = P(N (t1 ) = m1 )P(N (t2 ) − N (t1 ) = m2 ).
n 1
χ2n = Γ , . Usando (16) se concluye que
2 2

Basta recordar que la suma de variables Γ i.i.d. también es Γ. En particular, la función (N (t2 ) − N (t1 ), N (t3 ) − N (t2 ), . . . , N (tn ) − N (tn−1 ))
densidad de V es n ∼ (N (t2 − t1 ), N (t3 − t1 ) − N (t2 − t1 ), . . . , N (tn − t1 ) − N (tn−1 − t1 )). (17)
(1/2) 2 n −1 − 1 v
fV (v) = n v
 2 e 2 1{v > 0}.
El caso general se obtiene por iteración del mismo argumento, aplicado al lado derecho de
Γ 2
(17):

P(N (t2 ) − N (t1 ) = m2 , N (tk ) − N (tk−1 ) = mk , 3 ≤ k ≤ n)


Nota Bene. La distribución χ2n no es simétrica. = P(N (t2 − t1 ) = m2 , N (tk − t1 ) − N (tk−1 − t1 ) = mk , 3 ≤ k ≤ n)
0.14 = P(N (t2 − t1 ) = m2 )P(N (tk − t1 ) − N (tk−1 − t1 ) = mk , 3 ≤ k ≤ n)
= P(N (t2 ) − N (t1 ) = m2 )P(N (tk ) − N (tk−1 ) = mk , 3 ≤ k ≤ n)
0.12
= ···
Yn
0.1 = P(N (tk ) − N (tk−1 ) = mk ).
k=2
0.08
Por lo tanto, si 0 = t0 < t1 < · · · < tn , entonces
n
Y
0.06
P(N (tk ) − N (tk−1 ) = mk , 1 ≤ k ≤ n) = P(N (tk − tk−1 ) = mk ). (18)
k=1
0.04

De (18) y (10) se obtienen las dos condiciones que definen a un proceso de Poisson.
0.02
En lo que sigue mostraremos que vale la recı́proca. Esto es, los tiempos de espera entre
arribos de un proceso de Poisson de intensidad λ son variables aleatorias independientes cada
0
0 5 10 15 20 25 una con distribución exponencial de intensidad λ.
Teorema 1.5. Sea {Sn : n ≥ 0} un proceso puntual de Poisson de intensidad λ sobre la semi-
Figura 8: Gráfico de la función densidad de probabilidad de la distribución χ27 . recta positiva. Los tiempos de espera entre arribos Tn , n ≥ 1, definidos en (1), constituyen
una sucesión de variables aleatorias independientes cada una con distribución exponencial de
intensidad λ.

20 7
Demostración. La densidad conjunta de T = (T1 , T2 . . . , Tn ) se obtendrá a partir de la 4. Distribuciones relacionadas con la Normal
densidad conjunta de las variables S = (S1 , S2 , . . . , Sn ) usando el método del Jacobiano. Por
definición, En esta sección se presentan tres distribuciones de probabilidad relacionadas con la dis-
(T1 , T2 , . . . , Tn ) = g(S1 , S2 , . . . , Sn ), tribución normal: las distribuciones χ2 , t y F . Esas distribuciones aparecen en muchos prob-
lemas estadı́sticos.
donde g : G0 → G es la transformación lineal biyectiva entre los conjuntos abiertos G0 =
{(s1 , . . . , sn ) ∈ Rn : 0 < s1 < s2 < · · · < sn } y G = {(t1 , . . . , tn ) : t1 > 0, . . . , tn > 0} definida
por 4.1. χ2 (chi-cuadrado)
g(s1 , s2 , . . . , sn ) = (s1 , s2 − s1 , . . . , sn − sn−1 ). Definición 4.1 (Distribución chi-cuadrado con un grado de libertad). Si Z es una una vari-
La función inversa h = g −1 es de la forma able aleatoria con distribución normal estándar, la distribución de U = Z 2 se llama la dis-
tribución chi-cuadrado con 1 grado de libertad.
h(t1 , . . . , tn ) = (t1 , t1 + t2 , . . . , t1 + · · · + tn )
y sus derivadas parciales
1.8

∂ ik=1 tk
P
∂si
= = 1{j ≤ i}, 1 ≤ i, j ≤ n 1.6
∂tj ∂tj
1.4
son continuas en G. El jacobiano es
  1.2
∂si
J(s, t) = =1 1
∂tj
0.8
debido a que se trata de una matriz triangular inferior con 1’s en la diagonal. Bajo esas
condiciones tenemos que 0.6

fT (t) = fS (h(t))1{t ∈ G}. 0.4

La densidad conjunta de las variables (S1 , . . . , S2 ) queda unı́vocamente determinada por la 0.2
relación Z
0
P(S ∈ A) = fS (s)ds, A = (a1 , b1 ] × · · · (an , bn ] ⊂ G0 . 0 1 2 3 4 5
A
Supongamos T que 0 = b0 ≤ a1 < b1 < a2 < b2 < · · · < aT n < bn y calculemos laTprobabilidad
del evento ni=1 {ai < Si ≤ bi }. Para ello observamos que ni=1 {ai < Si ≤ bi } = i=1 n−1
{N (ai )−
N (bi−1 ) = 0, N (bi ) − N (ai ) = 1} ∩ {N (an ) − N (bn−1 ) = 0, N (bn ) − N (an ) ≥ 1} y usamos las Figura 7: Gráfico de la función densidad de probabilidad de la distribución χ21 .
propiedades de independencia y homogeneidad temporal que caracterizan a los incrementos
de un proceso de Poisson de intensidad λ:
n
! Caracterización de la distribución χ21 . La función de distribución de la variable U = Z 2
es FU (u) = P(Z 2 ≤ u), donde Z es N (0, 1). Para cada u > 0, vale que
\
P {ai < Si ≤ bi }
Z √u
i=1 √ √ √ 1 2
n−1
! F (x) = P(Z 2 ≤ u) = P(|Z| ≤ u) = P(− u ≤ Z ≤ u) = √ √ e−z /2 dz.
Y 2π
= e−λ(ai −bi−1 ) λ(bi − ai )e−λ(bi −ai ) e−λ(an −bn−1 ) (1 − e−λ(bn −an ) ) − u

i=1 Usando el teorema fundamental del cálculo integral y la regla de la cadena obtenemos que
n−1
Y
! para cada u > 0 vale que
= λ(bi − ai ) e−λan (1 − e−λ(bn −an ) ) Z √u
d d 1 2
i=1 fU (u) = FU (u) = √ e−z /2 dz
n−1
! du du −√u 2π
Y
λ(bi − ai ) (e−λan − e−λbn ) d √ √
 √ √ 2

= 1 2 d
= √ e−( u) /2 ( u) − e−(− u) /2 (− u)
i=1 2π du du
Z b1 Z bn−1 Z bn    
1 −u/2 1 −u/2 1 1 1
= λds1 · · · λdsn−1 λe−λsn dsn = √ e √ +e √ =√ e−u/2 √
a1 an−1 an 2π 2 u 2 u 2π u
Z b1 Z bn−1 Z bn 1  1
(1/2) 2
 (1/2) 12
= ··· λn e−λsn ds1 · · · dsn−1 dsn (19) = √ u−1/2 e−(1/2)u = √ u 2 −1 e−(1/2)u . (30)
a1 an−1 an π π

8 19
una nueva. Suponiendo que se dispone de un stock de 25 baterı́as, cuyos tiempos de vida son De (19) se deduce que la densidad conjunta de (S1 , . . . , Sn ) es
independientes, aproximar la probabilidad de que pueda obtenerse un uso superior a las 1100
horas. f(S1 ,...,Sn ) (s1 , . . . , sn ) = λn e−λsn 1{0 < s1 < · · · < sn }.

Por lo tanto,
Solución: Si ponemos Xi para denotar el tiempo de vida de la i-ésima baterı́a puesta en
uso, lo que buscamos es el valor de p = P(X1 + · · · + X25 > 1000), que puede aproximarse de
Pn
f(T1 ,...,Tn ) (t1 , . . . , tn ) = λn e−λ i=1 ti 1{t1 > 0, . . . , tn > 0}
la siguiente manera: n
Y
λe−λti 1{ti > 0}.
P25 !
i − 1000
i=1 X√ 1100 − 1000 = (20)
p = P > √ ≈ 1 − Φ(1) = 0.1587. i=1
20 25 20 25
La identidad (20) significa que los tiempos de espera entre arribos son independientes cada
uno con distribución exponencial de intensidad λ.
Ejemplo 3.9. El peso W (en toneladas) que puede resistir un puente sin sufrir daños es-
tructurales es una variable aleatoria con distribución normal de media 1400 y desvı́o 100. El Ejemplo 1.6. Suponga que el flujo de inmigración de personas hacia un territorio es un
peso (en toneladas) de cada camión de arena es una variable aleatoria de media 22 y desvı́o proceso de Poisson de tasa λ = 1 por dı́a.
0.25. Calcular la probabilidad de que ocurran daños estructurales cuando hay 64 camiones de
arena sobre el tablero del puente. (a) ¿Cuál es el tiempo esperado hasta que se produce el arribo del décimo inmigrante?

(b) ¿Cuál es la probabilidad de que el tiempo de espera entre el décimo y el undécimo arribo
Solución: Ocurren daños estructurales cuando la suma de los pesos de los 64 camiones,
supere los dos dı́as?
X1 , . . . , X64 , supera al peso W . Por el teorema central del lı́mite, la distribución de la suma
P 64
i=1 Xi es aproximadamente una normal de media 1408 y desvı́o 2. En consecuencia, W −
P64 Solución:
i=1 Xi se distribuye (aproximadamente) como una normal de media 1400 − 1408 = −8 y
varianza 10000 + 4 = 10004. Por lo tanto, (a) E[S10 ] = 10
= 10 dı́as.
λ
64 64
! ! !
W − 64
P
X X Xi + 8 8 (b) P(T11 > 2) = e−2λ = e−2 ≈ 0.133.
P Xi > W = P W− Xi < 0 = P √ i=1 <√
i=1 i=1
10004 10004
≈ Φ(0.07998...) = 0.5318...

Ejercicios adicionales

Ejercicios adicionales 1. En un sistema electrónico se producen fallas de acuerdo con un proceso de Poisson de tasa
2.5 por mes. Por motivos de seguridad se ha decidido cambiarlo cuando ocurran 196 fallas.
1. Un astronauta deberá permanecer 435 dı́as en el espacio y tiene que optar entre dos Hallar la media y la varianza del tiempo de uso del sistema.
alternativas. Utilizar 36 tanques de oxı́geno de tipo A o 49 tanques de oxigeno de tipo B.
Cada tanque de oxı́geno de tipo A tiene un rendimiento de media 12 dı́as y desvı́o 1/4. Cada 2. Sean T una variable aleatoria con distribución exponencial de media 2 y {N (t), t ≥ 0} un
tanque de oxı́geno de tipo B tiene un rendimiento de media de 8, 75 dı́as y desvı́o 25/28. proceso de Poisson de tasa 10 (independiente de T ). Hallar Cov(T, N (T )).
¿Qué alternativa es la más conveniente? 
3. h Sea A(t) = t − SN (t) el tiempo reverso al evento más reciente en un proceso de
2. 432 números se redondean al entero más cercano y se suman. Suponiendo que los errores Poisson y sea B(t) = SN (t)+1 − t el tiempo directo hasta el próximo evento. Mostrar que
individuales de redondeo se distribuyen uniformemente sobre el intervalo (−0.5, 0.5), aproxi-
(a) A(t) y B(t) son independientes,
mar la probabilidad de que la suma de los números redondeados difiera de la suma exacta en
más de 6. (b) B(t) se distribuye como T1 (exponencial de intensidad λ) ,
(c) A(t) se distribuye como mı́n(T1 , t):
3. Dos aerolı́neas A y B que ofrecen idéntico servicio para viajar de Buenos Aires a San Pablo
compiten por la misma población de 400 clientes, cada uno de los cuales elige una aerolı́nea P(A(t) ≤ x) = (1 − e−λx )1{0 ≤ x < t} + 1{x ≥ t}.
al azar. ¿Cuál es la probabilidad de que la lı́nea A tenga más clientes que sus 210 asientos?

18 9

4. h Sea L(t) = A(t) + B(t) = SN (t)+1 − SN (t) la longitud del intervalo de tiempo entre Ejemplo 3.5 (Suma de exponenciales). La suma Sn de n variables aleatorias independientes
arribos que contiene a t. exponenciales de intensidad λ = 1 obedece a una distribución gamma, Sn ∼ Γ(n, 1). En la
siguiente figura se comparan, para distintos valores de n, la función de distribución de la suma
(a) Mostrar que L(t) tiene densidad estandarizada S√ n −E[Sn ]
con la función de distribución normal estándar.
V(Sn )
dt (x) = λ2 xe−λx 1{0 < x < t} + λ(1 + λt)e−λx 1{x ≥ t}.

(b) Mostrar que E[L(t)] converge a 2E[T1 ] cuando t → ∞. Esto parece una paradoja debido 1
a que L(t) es uno de los Tn . Dar una resolución intuitiva de esta paradoja. 0.9

0.8

0.7
1.4. Distribución condicional de los tiempos de llegada
0.6
Supongamos que sabemos que ocurrió exactamente un arribo de un proceso de Poisson
en el intervalo [0, t]. Queremos determinar la distribución del tiempo en que el arribo ocurrió. 0.5

Como el proceso de Poisson es temporalmente homogéneo y tiene incrementos independientes 0.4


es razonable pensar que los intervalos de igual longitud contenidos en el intervalo [0, t] deben
0.3
tener la misma probabilidad de contener al arribo. En otras palabras, el tiempo en que ocur-
rió el arribo debe estar distribuido uniformemente sobre el intervalo [0, t]. Esto es fácil de 0.2
verificar puesto que, para s ≤ t, 0.1
P(T1 < s, N (t) = 1)
P(T1 < s|N (t) = 1) = 0
−3 −2 −1 0 1 2 3
P(N (t) = 1)
P(1 arribo en (0, s], 0 arribos en (s, t])
=
P(N (t) = 1)
P(1 arribo en (0, s])P(0 arribos en (s, t]) Figura 6: La normal estándar (sólida) y las funciones de distribución de las variables Γ(n, 1)
=
P(N (t) = 1) estandarizadas para n = 5 (punteada), n = 10 (quebrada y punteada) y n = 30 (quebrada).
λse−λs e−λ(t−s)
=
λte−λt Ejemplo 3.6. La distribución de Poisson de media λ se puede aproximar por la normal para
s
= valores grandes de λ: si N ∼ Poisson(λ), entonces
t
Este resultado puede generalizarse N −λ
√ ≈ N (0, 1).
Teorema 1.7 (Propiedad condicional). Sea Π un proceso de Poisson de intensidad λ sobre λ
R+ . Condicional al evento N (t) = n, los n arribos ocurridos en el intervalo [0, t] tienen la mis-
ma distribución conjunta que la de n puntos independientes elegidos al azar sobre el intervalo
[0, t]. En otras palabras, condicional a N (t) = n los puntos en cuestión se distribuyen como Ejemplo 3.7. Si la emisión de una cierta clase de partı́culas obedece a un proceso de Poisson
n variables aleatorias independientes, cada una con distribución uniforme sobre el intervalo de intensidad 900 por hora, ¿cuál es la probabilidad de que se emitan más de 950 partı́culas
[0, t]. en una hora determinada?

Demostración. Sea A1 , A2 , . . . , Ak una partición del intervalo [0, t]. Si n1 +n2 +· · ·+nk = n, Solución: Sea N una variable Poisson de media 900. Calculamos P(N > 950) estandarizan-
entonces do
Q
i P(N (Ai ) = ni )
   
P(N (Ai ) = ni , 1 ≤ i ≤ k|N (t) = n) = N − 900 950 − 900 5
P(N (t) = n) P(N > 950) = P √ > √ ≈1−Φ = 0.04779.
900 900 3
(λ|Ai |)ni /ni !
Q −λ|Ai |
ie
=
e−λt (λt)n /n!
n! Y  |Ai | ni
= . (21) Ejemplo 3.8. El tiempo de vida de una baterı́a es una variable aleatoria de media 40 horas
n1 !n2 ! · · · nk ! t y desvı́o 20 horas. Una baterı́a se usa hasta que falla, momento en el cual se la reemplaza por
i

10 17
0.45 1
Por una parte la distribución condicional de las posiciones de los n arribos queda completa-
0.4 0.9
mente caracterizada por esta función de A1 , . . . , Ak .
0.35
0.8 Por otra parte la distribución multinomial (21) es la distribución conjunta de n puntos
0.7 independientes elegidos al azar de acuerdo con la distribución uniforme sobre el intervalo [0, t].
0.3
0.6 En efecto, basta observar que si U1 , . . . , Un son variables aleatorias independientes con
0.25 P
0.5 distribución uniforme sobre un conjunto A, y M (B) = i 1{Ui ∈ B}, entonces
0.2
0.4
k  ni
0.15
0.3 n! Y |Bi |
0.1
P(M (Bi ) = ni , i = 1, . . . , k) = .
0.2 n1 ! · · · nk ! |Ai |
i=1
0.05 0.1

0
−4 −3 −2 −1 0 1 2 3 4
0
−3 −2 −1 0 1 2 3 Se infiere que la distribución conjunta de los puntos en Π ∩ [0, t] condicional a que hay
exactamente n de ellos, es la misma que la de n puntos independientes elegidos al azar con
(a) (b) la distribución uniforme sobre el intervalo [0, t].

Nota Bene. La propiedad condicional permite probar la existencia de procesos de Poisson


Figura 5: (a) Comparación entre un histograma de 1000 valores, cada uno de los cuales es la mediante simulación. Sea λ > 0 y sea A1 , A2 , . . . una partición de Rd en conjuntos borelianos
suma de 12 variables uniformes U − 21 , 12 , y la función densidad normal; (b) Comparación

de medida de Lebesgue finita. Para cada i, simulamos una variable aleatoria Ni con distribu-
entre la función
 dedistribución empı́rica correspondiente a 1000 valores de la suma de 12 ción Poisson de parámetro λ|Ai |. Luego muestreamos n puntos elegidos independientemente
uniformes U − 12 , 12 y la función de distribución normal. El ajuste es sorprendentemente sobre Ai , cada uno con distribución uniforme sobre Ai . La unión sobre i de tales conjuntos de
bueno, especialmente si se tiene en cuenta que 12 no se considera un número muy grande. puntos es un proceso de Poisson de intensidad λ. (Para más detalles ver el Chap 7 de Ferrari,
Galves (2001))
Solución: El error de redondeo cometido al sumar 12 números se representa por la suma
P 12 Ejemplo 1.8 (Insectos en un asado). Todo tipo de insectos aterrizan en la mesa de un asado
i=1 Xi de 12 variables aleatorias independientes X1 , . . . , X12 cada una con distribución
P uni- a la manera de un proceso de Poisson de tasa 3 por minuto. Si entre las 13:30 y las 13:35
forme sobre el intervalo − 12 , 12 . El error de redondeo excede 1 si y solamente si 12

X
i=1 i > 1.

aterrizaron 8 insectos, cuál es la probabilidad de que exactamente 3 de ellos hayan aterrizado
1 durante el primer minuto?
Puesto que E[Xi ] = 0 y V(Xi ) = 12 de acuerdo con el teorema central del lı́mite tenemos que
la distribución de
P12 12 Solución: Dado que aterrizaron 8 insectos durante 5 minutos, la distribución de cada ater-
i=1 Xi − 12E[Xi ] X rizaje se distribuye, independientemente de los demás, como una variable uniforme sobre el
p = Xi
12V(Xi ) i=1 intervalo [0, 5]. En consecuencia, la probabilidad de que cada insecto hubiese aterrizado du-
rante el primer minuto es 1/5. Por lo tanto, la probabilidad de que exactamente 3 insectos
se puede aproximar por la distribución normal estándar. En consecuencia, hayan aterrizado durante el primer minuto es
12 ! 12 !    3  5
8 1 4 45
X X
P Xi > 1 = 1−P Xi ≤ 1 ≈ 1 − (Φ(1) − Φ(−1)) = 56 8 = 0.1468 . . .


i=1

i=1
3 5 5 5
= 1 − (2Φ(1) − 1) = 2 − 2Φ(1) = 0.3173...

1.5. Coloración y adelgazamiento de procesos de Poisson


Teorema 1.9 (Coloración). Sea Π un proceso de Poisson de intensidad λ sobre R+ . Col-
oreamos los puntos de Π de la siguiente manera. Cada punto de Π se pinta de rojo con
probabilidad p o de negro con probabilidad 1 − p. Los puntos se pintan independientemente
unos de otros. Sean Π1 y Π2 los conjuntos de puntos pintado de rojo y de negro, respec-
tivamente. Entonces Π1 y Π2 son procesos de Poisson independientes de intensidades pλ y
(1 − p)λ, respectivamente.

16 11
Demostración. Sea t > 0 fijo. Por la propiedad condicional, si N (t) = n, esos puntos tienen Demostración. Ver Capı́tulo XV de Feller, W., (1971). An Introduction to Probability
la misma distribución que n puntos independientes elegidos al azar sobre el intervalo [0, t] de Theory and Its Applications, Vol. II, John Wiley & Sons, New York.
acuerdo con la distribución uniforme. Por tanto, podemos considerar n puntos elegidos al azar
de esa manera. Por la independencia de los puntos, sus colores son independientes unos de los Corolario 3.2. Sea X1 , X2 , . . . una sucesión de variables aleatorias independientes idénti-
otros. Como la probabilidad de que un punto dado sea pintado de rojo es p y la probabilidad camente distribuidas, cada una con media µ y varianza σ 2 . Si n es suficientemente grande,
de sea pintado de negro es 1 − p se deduce que, condicional a N (t) = n, las cantidades N1 (t) para cada valor a > 0 vale la siguiente aproximación
y N2 (t) de puntos rojos y negros en [0, t] tienen, conjuntamente, la distribución binomial n
1 X
!
σ
P Xi − µ ≤ a √ ≈ 2Φ(a) − 1 (26)

n! n1 n n
p (1 − p)n2 , donde n1 + n2 = n.

P(N1 (t) = n1 , N2 (t) = n2 |N (t) = n) = i=1
n1 !n2 !
Demostración. El teorema central del lı́mite establece que si n es suficientemente grande,
Por lo tanto, la probabilidad incondicional es
entonces para cada x ∈ R vale que
(λt)n1 +n2
  
(n1 + n2 )! n1  Pn
p (1 − p)n2 e−λt i − nµ

P(N1 (t) = n1 , N2 (t) = n2 ) = i=1 X

n1 !n2 ! (n1 + n2 )! P ≤ x ≈ Φ(x) (27)
! σ n
n1 −(1−p)λt ((1 − p)λt)n2
 
−pλt (pλt) e
= e . De la aproximación (27) se deduce que para cada valor a > 0
n1 ! n2 !
 Pn
Xi − nµ

P i=1 √

Vale decir, las cantidades N1 (t) y N2 (t) de puntos rojos y negros en el intervalo [0, t] son inde- ≤ a ≈ Φ(a) − Φ(−a) = 2Φ(a) − 1. (28)
σ n
pendientes y tienen distribuciones Poisson de intensidades pλt y (1 − p)λt, respectivamente.
La independencia de las contadoras de puntos en intervalos disjuntas sigue trivialmente El resultado se obtiene de (28) observando que
del hecho de que Π tiene esa propiedad. n √ n
Pn
i=1 Xi − nµ n 1 X n 1 X
√ = σ √n n Xi − µ = Xi − µ . (29)

Otra prueba. Sean N1 (t) y N2 (t) la cantidad de arribos de tipo I y de tipo II que ocurren σ n σ n


i=1 i=1
en [0, t], respectivamente. Es claro que N (t) = N1 (t) + N2 (t).
Los arribos de tipo I (II) son un proceso puntual aleatorio debido a que son una subsucesión
(aleatoria) infinita de los arribos del proceso original y heredan su propiedad de independencia
para intervalos disjuntos. Nota Bene. Para los usos prácticos, especialmente en estadı́stica, el resultado lı́mite en
La prueba de que {N1 (t), t ≥ 0} y que {N2 (t), t ≥ 0} son procesos de Poisson independi- sı́ mismo no es de interés primordial. Lo que interesa es usarlo como una aproximación con
entes de intensidades pλ y (1 − p)λ, respectivamente, se completa observando que valores finitos de n. Aunque no es posible dar un enunciado consiso sobre cuan buena es la
aproximación, se pueden dar algunas pautas generales y examinando algunos casos especiales
P(N1 (t) = n, N2 (t) = m) = P(N1 (t) = n)P(N2 (t) = m). se puede tener alguna idea más precisa del comportamiento de cuan buena es la aproximación.
Qué tan rápido la aproximación es buena depende de la distribución de los sumandos. Si
Condicionando a los valores de N (t) y usando probabilidades totales se obtiene
la distribución es bastante simétrica y sus colas decaen rápidamente, la aproximación es

X buena para valores relativamente pequeños de n. Si la distribución es muy asimétrica o si
P(N1 (t) = n, N2 (t) = m) = P(N1 (t) = n, N2 (t) = m | N (t) = i)P(N (t) = i) sus colas decaen muy lentamente, se necesitan valores grandes de n para obtener una buena
i=0 aproximación.
Puesto que P(N1 (t) = n, N2 (t) = m | N (t) = i) = 0 cuando i 6= n + m, la ecuación anterior
se reduce a 3.1. Ejemplos
 1 1
Ejemplo 3.3 (Suma de uniformes). Puesto que la distribución uniforme sobre − 2 , 2 tiene
P(N1 (t) = n, N2 (t) = m) = P(N1 (t) = n, N2 (t) = m | N (t) = n + m)P(N (t) = n + m) media 0 y varianza 12 1
, la suma de 12 variables independientes U − 21 , 21 tiene media 0 y
 
(λt)n+m varianza 1. La distribución de esa suma está muy cerca de la normal.
= P(N1 (t) = n, N2 (t) = m | N (t) = n + m)e−λt .
(n + m)!
Ejemplo 3.4. Para simplificar el cálculo de una suma se redondean todos los números al
Dado que ocurrieron n + m arribos, la probabilidad de que n sean de tipo I (y m sean de tipo entero más cercano. Si el error de redondeo se puede representar como una variable aleatoria
U − 12 , 12 y se suman 12 números, ¿cuál es la probabilidad de que el error de redondeo exceda
1?

12 15
o lo que es equivalente II) es la probabilidad binomial de que ocurran n éxitos en n + m ensayos. Por lo tanto,
(λt)n+m
!  
n+m n
p
Sn a p(1 − p)
P − p ≤ √ ≈ 2Φ(a) − 1. (23) P(N1 (t) = n, N2 (t) = m) = p (1 − p)m e−λt
n n n (n + m)!
(n + m)! n (λt)n (λt)m
Como el verdadero valor de p es p
desconocido, la fórmula (23) no puede aplicarse directamente = p (1 − p)m e−λpt e−λ(1−p)t
p n! m! (n + m)!
ya que no se conoce el valor de p(1 − p). Sin embargo, es fácil ver que p(1 − p) ≤ 1/2 y 
(λpt)n

(λ(1 − p)t)m

por lo tanto = e−λpt e−λ(1−p)t .
n! m!
p !
a p(1 − p)
 
Sn a Sn Lo que completa la demostración.
P − p ≤ √ ≥ P − p ≤ √ ≈ 2Φ(a) − 1. (24)
n 2 n n n
Ejemplo 1.10 (Insectos en un asado). Todo tipo de insectos aterrizan en la mesa de un
Esta última relación es la herramienta con la que podemos resolver nuestro problema. asado a la manera de un proceso de Poisson de tasa 3 por minuto y cada insecto puede ser
En primer lugar tenemos que resolver la ecuación 2Φ(a) − 1 = 0.9999 o la ecuación una mosca con probabilidad 2/3, independientemente de la naturaleza de los demás insectos.
equivalente Φ(a) = 1.9999
2 = 0.99995. La solución de está ecuación se obtiene consultando una Si a las 13:30 se sirven los chorizos, cuál es la probabilidad de que la tercer mosca tarde más
tabla de la distribución normal: a = 3.9. Reemplazando este valor de a en (24) obtenemos de 2 minutos en aterrizar en la mesa?
 
Sn 3.9 Solución: Las moscas aterrizan en la mesa a la manera de un proceso de Poisson de tasa

P − p ≤ √ ≥ 0.9999.
n 2 n 2
3 3 = 2 por minuto. En consecuencia, los aterrizajes de moscas ocurren cada tiempos exponen-
En segundo lugar tenemos que encontrar los valores de n que satisfacen la desigualdad ciales independientes de intensidad 2. De aquı́ se deduce que el tiempo que tarda en aterrizar
la tercer mosca, S3 tiene distribución Γ(3, 2). Por lo tanto, la probabilidad de que la tercer
3.9 mosca tarde más de 2 minutos en aterrizar en la mesa es
√ ≤ 0.02. (25)
2 n
3−1
X (2 · 2)i
Es fácil ver que n satisface la desigualdad (25) si y solo si P(S3 > 2) = e−2·2 = e−4 (1 + 4 + 8) = 0.2381 . . .
i!
i=0
3.9 2
 
n≥ = (97.5)2 = 9506.2
0.04
El problema está resuelto. Ejercicios adicionales

5. A un banco llegan clientes de acuerdo con un proceso de Poisson de intensidad 20 por


3. Teorema central del lı́mite hora. En forma independiente de los demás, cada cliente realiza un depósito con probabilidad
1/4 o una extracción con probabilidad 3/4.
Los teoremas sobre normalidad asintótica de sumas de variables aleatorias se llaman Teo-
remas Centrales del Lı́mite. El Teorema lı́mite de De Moivre - Laplace es un Teorema Central (a) Si el banco abre sus puertas a las 10:00, cuál es la probabilidad de que el segundo depósito
del Lı́mite para variables aleatorias independientes con distribución Bernoulli(p). Una versión se efectué pasadas las 10:30?
más general es la siguiente: (b) Cada depósito (en pesos) se distribuye como una variable U[100, 900] y cada extracción
Teorema 3.1 (Teorema Central del Lı́mite). Sea X1 , X2 , . . . una sucesión de variables aleato- como una variable U[100, 500]. Si un cliente realiza una operación bancaria de 200 pesos, cuál
rias independientes idénticamente distribuidas, cada una con media µ y varianza σ 2 . Entonces es la probabilidad de que se trate de un depósito?
la distribución de Pn
i=1 X i − nµ

σ n
1.6. Superposición de Procesos de Poisson: competencia
tiende a la normal estándar cuando n → ∞. Esto es,
 Pn El siguiente teorema de superposición puede verse como complementario del teorema de
i − nµ

i=1 X
√ coloración.
lı́m P ≤ x = Φ(x),
n→∞ σ n
Teorema 1.11 (Superposición). Sean Π1 y Π2 dos procesos de Poisson independientes de
intensidades λ1 y λ2 , respectivamente, sobre R+ . El conjunto Π = Π1 ∪ Π2 es un proceso de
Rx 2
donde Φ(x) := −∞ √12π e−t /2 dt es la función de distribución de una normal de media 0 y
varianza 1. Poisson de intensidad λ1 + λ2 .

14 13
Demostración. Sean N1 (t) = |Π1 ∩ [0, t]| y N2 (t) = |Π2 ∩ [0, t]|. Entonces N1 (t) y N2 (t) distribución asimétrica. La mayor parte de la distribución se acumulará alrededor de 0, im-
son variables aleatorias independientes con distribución Poisson de parámetros λ1 t y λ2 t. pidiendo con ello que una curva normal se le ajuste bien. Si la media se aparta por lo menos
Se infiere que la suma N (t) = N1 (t) + N2 (t) tiene la distribución de Poisson de parámetro 5 unidades de una y otra extremidad, la distribución tiene suficiente espacio para que resulte
λ1 t + λ2 t = (λ1 + λ2 )t. Más aún, si A1 , A2 , . . . , son intervalos disjuntos las variables aleatorias bastante simétrica. (Ver la Figura 4).
N (A1 ), N (A2 ), . . . son independientes. Falta mostrar que, casi seguramente, N (t) = |Π∩[0, t]| 0.8

para todo t > 0, que es lo mismo que decir que Π1 y P12 no tienen puntos en común. Este es 0.7
0.4

un paso técnico (ver el Lema 1.12) y la prueba puede omitirse en una primera lectura.
0.5 0.35

0.6
0.3
0.4

Lema 1.12. Dos procesos de Poisson Π1 = {Sn1 : n ≥ 0} y Π2 = {Sn2 : n ≥ 0} independientes 0.5


0.25

y de tasas λ1 y λ2 , respectivamente, no tienen puntos en común. 0.4 0.3


0.2

0.3
0.15
0.2

0.2

Demostración. Basta probar que P(D(t)) = 0 para todo t, donde D(t) es el evento definido 0.1
0.1

0.1

por
0.05

0 0 0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

D(t) := {existen puntos en común en el intervalo (0, t]} (a) (b) (c)
0.25
0.25

Para simplificar la notación lo demostraremos para D = D(1). 0.3

Sean {N1 (t), t ≥ 0} y {N2 (t), t ≥ 0} los procesos de conteo de los procesos de Poisson 0.25
0.2
0.2

{Sn1 : n ≥ 0} y {Sn2 : n ≥ 0}. El evento 0.2


0.15 0.15

     
i i+1 i i+1 0.15

Dn := N1 n
, n + N2 n
, n ≥ 2 para algún i ∈ [0, 2n − 1] 0.1 0.1

2 2 2 2 0.1

0.05 0.05

decrece a D cuando n tiende a infinito, y por lo tanto, por la continuidad de la probabilidad 0.05

para sucesiones monótonas de eventos, 0


0 1 2 3 4 5 6 7 8 9 10
0
0 1 2 3 4 5 6 7 8 9 10
0
0 1 2 3 4 5 6 7 8 9 10

(d) (e) (f)


P(D) = lı́m P(Dn ) = 1 − lı́m P(Dnc ).
n→∞ n→∞

Pero
Figura 4: Comparación entre la distribución Binomial(10, p) y su aproximación por la normal
n −1 
2\ !
i i+1

 
i i+1
 para distintos valores de p (a) p = 0.025; (b) p = 0.05; (c) p = 0.1; (d) p = 0.2; (e) p = 0.4;
P(Dnc ) = P N1 , + N 2 , ≤ 1 (f) p = 0.5.
2n 2n 2n 2n
i=1
n
2Y −1      
i i+1 i i+1
= P N1 , + N 2 , ≤ 1 . Ejemplo 2.5 (Encuesta electoral). Queremos estimar la proporción del electorado que pre-
2n 2n 2n 2n
i=1 tende votar a un cierto candidato. Para ello consideramos que el voto de cada elector tiene
Debido a que los procesos son temporalmente homogéneos, para cada i vale que una distribución Bernoulli de parámetro p. Concretamente, queremos encontrar un tamaño
      muestral n suficiente para que con una certeza del 99.99 % podamos garantizar un error máxi-
i i+1 i i+1 mo de 0.02 entre el verdadero valor de p y la proporción muestral Sn /n. En otras palabras,
= P N1 2−n + N2 2−n ≤ 1
  
P N1 n
, n + N2 n
, n ≤1
2 2 2 2 queremos encontrar n tal que
Y el problema se reduce a calcular P (N1 (2−n ) + N2 (2−n ) ≤ 1). La última probabilidad puede  
Sn
expresarse como la suma de los siguientes términos P − p ≤ 0.02 ≥ 0.9999. (21)
n
−n −n
P N1 2−n = 0, N2 2−n = 0 = e−λ1 2 e−λ2 2 ,
  
Para acotar la incerteza usaremos la aproximación por la normal provista por el teorema lı́mite
−n
P N1 2−n = 0, N2 2−n = 1 = e−λ1 2 e−λ2 2 λ2 2−n ,
−n
de De Moivre - Laplace. Para ello, en lugar
p de observar la variable Sn , debemos observar la
  
−n −n variable normalizada Sn∗ := (Sn − np)/ np(1 − p). En primer lugar observamos que, como
P N1 2−n = 1, N2 2−n = 0 = e−λ1 2 λ1 2−n e−λ2 2 .
  
consecuencia del teorema lı́mite, tenemos la siguiente aproximación
En consecuencia,
S − np
!
n
P p ≤ a ≈ Φ(−a) − Φ(a) = 2Φ(a) − 1 (22)

−n
P N1 2−n + N2 2−n ≤ 1 = e−(λ1 +λ2 )2 1 + (λ1 + λ2 )2−n .
   
(22) np(1 − p)

14 13
que cuando se considera una cantidad n (suficientemente grande) de ensayos de Bernoulli Por lo tanto,
independientes, la distribución de la variable aleatoria Sn∗ es “prácticamente indistinguible” 2n
de la distribución normal estándar N (0, 1). P(Dnc ) = e−(λ1 +λ2 ) 1 + (λ1 + λ2 )2−n . (23)
2. Técnicamente la prueba del teorema se puede hacer recurriendo a las mismas herramientas La última cantidad tiende a 1 cuando n → ∞, y se concluye que P(D) = 0.
utilizadas en la prueba del caso simétrico, pero los cálculos involucrados son más complica-
dos. Sin embargo, el resultado también es claro si se observan las gráficas de la distribución Teorema 1.13 (Competencia). En la situación del Teorema 1.11, sea T el primer arribo del
Binomial(n, p). En la Figura 3 se ilustra el caso n = 16 y p = 1/4. Nuevamente es “evidente” proceso N = N1 + N2 y J el ı́ndice del proceso de Poisson responsable por dicho arribo; en
que la forma lı́mite de distribución Binomial debe ser la distribución normal. particular T es el primer arribo de NJ . Entonces
λj
P(J = j, T ≥ t) = P(J = j)P(T ≥ t) = e−(λ1 +λ2 )t .
λ1 + λ2
0.2
λj
En particular, J y T son independientes, P(J = j) = λ1 +λ2 y T tiene distribución exponencial
de intensidad λ1 + λ2 .
0.15
Demostración. Ver la demostración del Teorema que caracteriza la distribución del mı́nimo
de dos exponenciales independientes.

0.1 Ejemplo 1.14 (Insectos en un asado). Moscas y abejas aterrizan en la mesa de un asado a la
manera de dos procesos de Poisson independientes de tasas 2 y 1 por minuto, respectivamente.
Cuál es la probabilidad de que el primer insecto en aterrizar en la mesa sea una mosca? Rta.
2/3.
0.05

1.7. Procesos de Poisson compuestos


0 Un proceso estocástico se dice un proceso de Poisson compuesto si puede representarse
0 2 4 6 8 10 12 14 16
como
N (t)
X
X(t) = Yi
Figura 3: Gráfica de la función de probabilidad binomial con n = 16 y p = 1/4. Cerca i=1
del
p término central
√ m = np = 4, salvo un cambio de escala (cuya unidad de medida es
np(1 − p) = 3) la gráfica es “indistinguible” de la gráfica de la densidad normal. donde {N (t), t ≥ 0} es un proceso de Poisson, y las variables {Yi , i ≥ 1} son iid e independi-
entes de N .
3. De la Figura 3 deberı́a estar claro que, para n suficientemente grande, debe valer lo siguiente Lema 1.15. Sea X(t) un proceso de Poisson compuesto. Si {N (t), t ≥ 0} tiene intensidad λ
  ! y las variables Y tienen esperanza finita, entonces
n k 1 k − np
P(Sn = k) = p (1 − p)n−k ∼ p ϕ p . (20)
k np(1 − p) np(1 − p) E[X(t)] = λtE[Y1 ].

Ejemplo 2.4. Para el caso ilustrado en la Figura 3: n = 16 y p = 1/4, la aproximación (20) Más aún, si las variables Y tienen varianza finita, entonces,
es bastante buena, incluso con un valor de n pequeño. Para k = 0, . . . 4 las probabilidades
P(Sn = 4+k) son 0.2252, 0.1802, 0.1101, 0.0524, 0.0197. Las aproximaciones correspondientes V(X(t)) = λtE[Y12 ].
son 0.2303, 0.1950, 0.1183, 0.0514, 0.0160.
Demostración. Para calcular la esperanza de X(t) condicionamos sobre N (t):
Nota Bene. El Teorema lı́mite de De Moivre-Laplace justifica el uso de los métodos de la
curva normal para aproximar probabilidades relacionadas con ensayos de Bernoulli con prob- E [X(t)] = E [E [X(t) |N (t)]]
abilidad de éxito p. La experiencia “indica” que la aproximación es bastante buena siempre
que np > 5 cuando p ≤ 1/2, y n(1 − p) cuando p > 1/2. Un valor muy pequeño de p junto
con un valor de n moderado darán lugar a una media pequeña y con ello se obtendrá una

12 15
Ahora bien, Ejemplo 2.2. Se lanza 40 veces una moneda honesta. Hallar la probabilidad de que se
  obtengan exactamente 20 caras. Usar la aproximación normal y compararla con la solución
N (t)
X exacta.
E [X(t) | N (t) = n] = E  Yi | N (t) = n
i=1
Solución: La cantidad de caras en 40 lanzamientos de una moneda honesta, S40 , es una
n
" #
X variable Binomial de parámetros n = 40 y p = 1/2. La aproximación normal (15) establece
= E Yi | N (t) = n
que
i=1
1 1
n P(S40 = 20) ∼ 1 √ ϕ(0) = √ = 0.12615...
" #
40 20π
X
= E Yi por la independencia de Yi y N (t) 2
i=1 El resultado exacto es    40
= nE[Y1 ]. 40 1
P(X = 20) = = 0.12537...
20 2
Esto implica que

E [X(t) | N (t)] = N (t)E[Y1 ]


Ejemplo 2.3. Se dice que los recién nacidos de madres fumadoras tienden a ser más pequeños
y por lo tanto, y propensos a una variedad de dolencias. Se conjetura que además parecen deformes. A un
grupo de enfermeras se les mostró una selección de fotografı́as de bebés, la mitad de los
E [X(t)] = E [N (t)E[Y1 ]] = E[N (t)]E[Y1 ] = λtE[Y1 ]. cuales nacieron de madres fumadoras; las enfermeras fueron invitadas a juzgar a partir de la
apariencia de cada uno si la madre era fumadora o no. En 1500 ensayos se obtuvieron 910
Aunque podemos obtener E[X(t)2 ] condicionando sobre N (t), usaremos la fórmula de la respuestas correctas. La conjetura es plausible?
varianza condicional

V(X(t)) = E[V(X(t)|N (t))] + V(E[X(t)|N (t)]). Solución: Aunque superficial, un argumento atendible consiste en afirmar que, si todos los
bebés parecen iguales, la cantidad de repuestas correctas Sn en n ensayos es una variable
Ahora bien, aleatoria con distribución Binomial (n, 1/2). Entonces, para n grande
  ! !
N (t) Sn − 21 n Sn − 12 n 1
P √ > 3 = 1 − P √ ≤ 3 ≈ 1 − Φ(3) ≈
X
V [X(t) | N (t) = n] = V  Yi | N (t) = n 1 1 1000
2 n 2 n
i=1
n por el Teorema lı́mite de De Moivre-Laplace. Para los valores dados de Sn ,
!
X
= V Yi | N (t) = n
i=1 Sn − 12 n 910 − 750
n
! 1√ = √ ≈ 8.
X 2 n 5 15
= V Yi por la independencia de Yi y N (t)

i=1 Se podrı́a decir que el evento {X − 12 n > 32 n} es tan improbable que su ocurrencia arroja
= nV[Y1 ]. dudas sobre la suposición original de que los bebés parecen iguales. Este argumento otorgarı́a
cierto grado de credibilidad a la conjetura enunciada.
Esto implica que

V (X(t) | N (t)) = N (t)V(Y1 ) Comentarios sobre el caso general

y por lo tanto, 1. En el caso general, la probabilidad de éxito en cada ensayo de Bernoulli individual es
p ∈ (0, 1). Si Sn es la cantidad de éxitos observados en los primeros n ensayos, entonces
V (X(t)) = E [N (t)V(Y1 )] + V(N (t)E[Y1 ]) E[Sn ] = np y V(Sn ) = np(1 − p). Por lo tanto, la variable aleatoria
= V(Y1 )E[N (t)] + E[Y1 ]2 V(N (t)) Sn − np
= V(Y1 )λt + E[Y1 ]2 λt Sn∗ := p (19)
np(1 − p)
= λtE[Y12 ].
es una medida de la desviación
p de Sn respecto de la media E[Sn ] = np en unidades de la
desviación tı́pica σ(Sn ) = np(1 − p). El teorema lı́mite de De Moivre-Laplace significa

16 11
Nota Bene. La relación (15) expresa matemáticamente un hecho que se observa claramente Ejemplo 1.16. Supongamos que la cantidad de accidentes en una fábrica industrial se rige por
en la Figura 2: la campana “pasa” por los puntos de base k y altura P(Sn = k). Conviene un proceso de Poisson de intensidad 4 por mes y que la cantidad de trabajadores damnificados
observar que la expresión que aparece en el lado derecho de la relación (15) es la función en cada accidente son variables aleatorias independientes con distribución uniforme sobre
de densidad de la normal N 21 n, 41 n evaluada en x = k. En la práctica, esto significa que {1, 2, 3}. Supongamos también que la cantidad de trabajadores damnificados en cada accidente
para obtener una buena aproximación de la probabilidad de observar k éxitos en n ensayos de es independiente de la cantidad de accidentes ocurridos. Se quiere hallar la media y la varianza
Bernoulli independientes, basta con evaluar la densidad de la normal N 12 n, 41 n en x = k. de la cantidad anual de trabajadores damnificados en dicha fábrica.
Sin temor a equivocarnos, podemos resumir estas observaciones mediante una expresión de
la forma Sn ∼ N ( E[Sn ], V(Sn ) ). Solución: Sean N (t) la cantidad de accidentes en t meses e Yi el número de trabajadores
Paso 4. Observar que para cada x1 < x2 vale que damnificados en el i-ésimo accidente, i = 1, 2, . . . . El número total de trabajadores damnifi-
PN (12)
cados en un año puede expresarse en la forma X(12) = i=1 Yi .
!
Sn − 1 n 1√ 1√
 
1 1
P x1 ≤ 1 √ 2 ≤ x2 = P n + x1 n ≤ Sn ≤ n + x2 n Utilizando los resultados del Lema 1.15 tenemos que
2 n
2 2 2 2
 
X 1 E[X(12)] = (4 · 12)E[Y1 ] = 48E[Y1 ] = 48 · 2 = 96
= P Sn = n + j
2 14
1√
x1 2 1√
n≤j≤x2 2 n V(X(12)) = (4 · 12)E[Y12 ] = 48 · = 224.
X 3
≈ hϕ (jh) , (16)
x1 ≤jh≤x2

donde h = √2n y la suma se realiza sobre todos los enteros j tales que x1 ≤ jh ≤ x2 . Cada
uno de los sumandos que aparecen en el lado derecho de la aproximación (16) es el área de Ejercicios adicionales
un rectángulo de base [kh, (k + 1)h y altura ϕ(kh). Como la función ϕ(·) es continua, para
valores pequeños de h la suma total de las áreas de los rectángulo debe estar próxima del área 6. Una partı́cula suspendida en agua es bombardeada por moléculas en movimiento térmico
bajo la curva de la densidad normal entre x1 y x2 . Por lo tanto, debe valer lo siguiente de acuerdo con un proceso de Poisson de intensidad 10 impactos por segundo. Cuando recibe
un impacto la partı́cula se mueve un milı́metro hacia la derecha con probabilidad 3/4 o un
! Z
Sn − 12 n x2
lı́m P x1 ≤ 1 √ ≤ x2 = ϕ(t)dt = Φ(x2 ) − Φ(x1 ). (17) milı́metro hacia la izquierda con probabilidad 1/4. Transcurrido un minuto, cuál es la posición
2 n
n→∞ x1
media de la partı́cula?
Este paso puede hacerse formalmente preciso “arremangandose y metiendo la mano en ...”
7. Un servidor recibe clientes de acuerdo con un proceso de Poisson de intensidad 4 clientes
Nota Bene. La variable aleatoria que aparece dentro de la probabilidad del lado izquierdo por hora. El tiempo de trabajo (en minutos) consumido en cada servicio es una variable
de (17) aleatoria U[1, 9]. Al cabo de 8 horas, cuál es el tiempo medio de trabajo consumido por todos
los servicios?
Sn − 21 n Sn − E[Sn ]
Sn∗ = 1√ = (18)
2 n σ(Sn )
es una medida de la desviación de Sn respecto de la media E[Sn ] en unidades de la desviación 2. Bibliografı́a consultada
tı́pica σ(Sn ). El teorema lı́mite de De Moivre-Laplace significa que cuando se considera una
cantidad n (suficientemente grande) de ensayos de Bernoulli independientes, la distribución de Para redactar estas notas se consultaron los siguientes libros:
la variable aleatoria Sn∗ es “prácticamente indistinguible” de la distribución normal estándar
1. Brémaud, P.: Markov Chains: Gibbs Fields, Monte Carlo Simulation, and Queues.
N (0, 1).
Springer, New York. (1999)
Comentario sobre prueba del Teorema 2.1. Si se sigue con cuidado la demostración 2. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 2. John
presentada por Feller se puede ver que las herramientas principales de la prueba son el desar- Wiley & Sons, New York. (1971)
rollo de Taylor (1712) de la función log(1 2
√+ t) = t + O(t ) y la fórmula asintótica de Stirling
(1730) para los números factoriales n! ∼ 2πn nn e−n . Partiendo de la función de 3. Ferrari, P. A., Galves, A.: Construction of Stochastic Procecesses, Coupling and Regen-
√probabilidad
2
de la Binomial(n, normal ( 2π)−1 e−x /2 : eration. (2001)
√ −11/2) se “deduce” la expresión de la función densidad
−x 2 /2
el factor ( 2π) proviene de la fórmula de Stirling y el factor e del desarrollo de Tay-
4. Grimmett, G. R., Stirzaker, D. R.: Probability and Random Processes. Oxford Univer-
lor. Dejando de lado los recursos técnicos utilizados en la prueba, se observa que las ideas
sity Press, New York. (2001)
involucradas son simples y “recorren el camino del descubrimiento” de De Moivre (1733).

10 17
5. Kingman, J. F. K.: Poisson Processes. Oxford University Press. New York. (2002) Teorema 2.1 (Teorema lı́mite de De Moivre-Laplace). Consideramos una sucesión de en-
sayos de Bernoulli independientes. Sean p la probabilidad de éxito en cada ensayo y Sn la
6. Meester, R.: A Natural Introduction to Probability Theory. Birkhauser, Berlin. (2008) cantidad de éxitos observados en los primeros n ensayos. Para cualquier x ∈ R vale que
7. Ross, S.: Introduction to Probability Models. Academic Press, San Diego. (2007)
!
Sn − np
lı́m P p ≤ x = Φ(x), (14)
n→∞ np(1 − p)
Rx 2
donde Φ(x) := −∞ √12π e−t /2 dt es la función distribución normal estándar.

Demostración. Ver Capı́tulo VII de Feller, W., (1971). An Introduction to Probability


Theory and Its Applications, Vol. I, John Wiley & Sons, New York.

¿Qué significa el Teorema Lı́mite de De Moivre-Laplace? Para contestar esta pre-


gunta vamos a reconstruir las ideas principales de su génesis. En otras palabras, vamos a
(re)construir el Teorema. La clave de la construcción está “embutida” en la Figura 2. La im-
agen permite “capturar de inmediato” la existencia de una forma lı́mite para la distribución
Binomial en el caso simétrico p = 1/2.
Paso 1. El primer paso en la dirección del Teorema de De Moivre consiste en darse cuenta
que la Figura 2 señala la existencia de una forma lı́mite. En una primera fase (completa-
mente abstracta) podemos conjeturar que “la distribución binomial simétrica tiene una forma
asintótica. En otras palabras, cuando la cantidad de ensayos de Bernoulli es suficientemente
grande, salvo traslaciones y cambios de escala apropiados, la distribución Binomial se parece
a una función continua par, ϕ(x), cuyo gráfico tiene la forma de una campana.”
Paso 2. El segundo paso consiste en precisar la naturaleza de la traslación y los cambios de
escala que permiten “capturar” esa forma lı́mite. Si se reflexiona sobre el significado de la
media y la varianza de una variable aleatoria, parece claro que la forma lı́mite se obtendrá cen-
trando la variable Sn en su valor medio, E[Sn ] = 12 n, y adoptando como unidad de medida

la desviación tı́pica de los valores observados respecto de dicho valor, σ(Sn ) = 21 n. El sig-
nificado geométrico de esta transformación consiste en (1) trasladar el origen de las abscisas

en 12 n y (2) dividirlas por 21 n. Para que las áreas de los rectángulos sigan representando
probabilidades, las ordenadas deben multiplicarse por el mismo número. Este paso permite
enunciar la siguiente versión mejorada de la conjetura inicial: “existe una función continua
ϕ(x) tal que
   n !
n 1 1 k − 12 n
P(Sn = k) = ∼ 1√ ϕ 1 √ , (15)
k 2 2 n 2 n

siempre y cuando n sea suficientemente grande.”


Paso 3. Establecida la conjetura el problema consiste en “descubrir” la expresión de la función
ϕ(x) y en precisar cuál es el sentido de la relación aproximada que aparece en (15). En este
punto no queda otra que “arremangarse y meter la mano en el barro”. Como resultado se
obtiene que la expresión de la función ϕ(x) es
 2
1 x
ϕ(x) = √ exp −
2π 2

y que la relación ∼ vale para valores de k del orden de n y significa que el cociente de los
dos lados tiende a 1 cuando n → ∞.

18 9
Teorema 1.6. Sean X1 , X2 , . . . , Xn variables aleatorias independientes con distribuciones
normales: Xi ∼ N (µi , σi2 ), 1 ≤ i ≤ n y sean a1 , a2 , . . . , an números reales cualesquiera.
Entonces,
n n n
!
X
ai Xi ∼ N
X
ai µi ,
X
a21 σi2 .
Normalidad y Teorema central del lı́mite
i=1 i=1 i=1 (Borradores, Curso 23)
2. Génesis de la distribución normal
Sebastian Grynberg
2.1. Teorema lı́mite de De Moivre - Laplace
24 de abril de 2013
En 1733, De Moivre observó que la distribución binomial correspondiente a la cantidad
de éxitos, Sn , en n ensayos de Bernoulli simétricos tiene la forma lı́mite de una campana.
Esta observación fue la clave que le permitió descubrir la famosa campana de Gauss y allanar
el camino que lo condujo a establecer la primera versión del Teorema Central del Lı́mite: la
convergencia de la distribución Binomial(n, 1/2) a la distribución normal estándar. En 1801,
Laplace refinó y generalizó este resultado al caso de la distribución Binomial(n, p). El Teorema
de De Moivre-Laplace, que enunciamos más abajo, mejora sustancialmente la Ley débil de los
grandes números  porque proporciona una estimación mucho más precisa de las probabilidades
P | Snn − p| ≤ ǫ .

0.18

0.16

0.14

0.12

0.1

0.08

0.06

0.04

0.02

0
0 2 4 6 8 10 12 14 16

Figura 2: Relación entre la distribución Binomial simétrica y la distribución normal. La prob-


abilidad de que ocurran k éxitos en n ensayos de Bernoulli está representada por un segmento
paralelo al eje de las abscisas localizado en la ordenada k de altura igual a P(Sn = k). La curva ¿dónde es más útil aplicar la fuerza de la propia voluntad:
continua “aproxima” los valores de P(Sn = k). Observar que dichas probabilidades también en el desarrollo de la cantidad o en el de la calidad?
se pueden representar como áreas de rectángulos de altura P(Sn = k) y de base unitaria ¿Cuál de los dos aspectos es más fiscalizable?
centrada en k. ¿Cuál más fácilmente mensurable?
¿Sobre cuál se pueden hacer previsiones, construir planes de trabajo?

8 1
Índice 1.4. Suma de normales independientes
Lema 1.5. Sean X1 y X2 dos variables aleatorias independientes con distribución nor-
1. La distribución normal 2
mal N (µ1 , σ12 ) y N (µ2 , σ22 ), respectivamente. Entonces X1 + X2 tiene distribución normal
1.1. Presentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
N µ1 + µ2 , σ12 + σ22 .
1.2. Cuentas con normales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4. Suma de normales independientes . . . . . . . . . . . . . . . . . . . . . . . . . 7 Demostración. Observando que X1 + X2 = (X1 − µ1 ) + (X2 − µ2 ) + µ1 + µ2 el problema se
reduce a considerar el caso µ1 = µ2 = 0. La prueba se obtiene mostrando que la convolución de
1 1
exp −x21 /2σ12 y f2 (x2 ) = √2πσ exp −x22 /2σ22 es la densidad

2. Génesis de la distribución normal 8 las densidades f1 (x1 ) = √2πσ
1 2
2.1. Teorema lı́mite de De Moivre - Laplace . . . . . . . . . . . . . . . . . . . . . 8 normal de media µ1 + µ2 y varianza σ 2 = σ12 + σ22 . Por definición

(x − y)2 y2
Z ∞ Z ∞
3. Teorema central del lı́mite 14
 
1
(f1 ∗ f2 )(x) = f1 (x − y)f2 (y) = exp − − 2 dy (13)
3.1. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 −∞ 2πσ1 σ2 −∞ 2
2σ1 2σ2

4. Distribuciones relacionadas con la Normal 19 El resultado se obtendrá mediante un poco de álgebra, bastante paciencia, y un cambio de
4.1. χ2 (chi-cuadrado) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 variables en la integral del lado derecho de la identidad (13).
4.2. t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2 !
(x − y)2 y2 x2
  
4.3. F de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 1 σ σ2
exp − − = exp − y − x −
2σ12 2σ22 2 σ1 σ2 σσ1 2σ 2
5. Bibliografı́a consultada 23 2 !
x2
  
1 σ σ2
= exp − y− x exp − 2
2 σ1 σ2 σσ1 2σ
1. La distribución normal
2
1.1. Presentación La primera igualdad se obtuvo completando cuadrados respecto de y en la expresión − (x−y)
2σ 2

1
y2 σ σ2
Definición 1.1. La función definida por 2σ22
y reagrupando algunos términos. Mediante el cambio de variables z = σ1 σ2 y − σσ1 x, cuya
diferencial es de la forma dz = σ1σσ2 dy, se puede ver que
1 2
ϕ(x) = √ e−x /2 (1)
x2
 2
x2
Z ∞

  
1 z 1
(f1 ∗ f2 )(x) = exp − 2 exp − dz = √ exp − 2 .
se llama la función densidad normal; su integral 2πσ 2σ −∞ 2 2π σ 2σ
Z x
1 2
Φ(x) = √ e−t /2 dt (2) Este resultado se puede generalizar para una suma de n variables aleatorias independientes:
2π −∞
Sean X1 , X2 , . . . , Xn variables aleatorias independientes con distribuciones normales: Xi ∼
es la función distribución normal. N (µi , σi2 ), 1 ≤ i ≤ n. Entonces,
n n n
!
2
Folclore. Se sabe que la función e−x no admite una primitiva que pueda expresarse medi-
X X X
2
Xi ∼ N µi , σi .
ante un número finito de funciones elementales: xν , sen(x), cos(x), ax , etc.... (Ver Piskunov, i=1 i=1 i=1
N., (1983). cálculo diferencial e integral, tomo I, Mir, Moscú). Sin
R ∞embargo, usando técnicas
de cambio de variables bidimensionales se puede demostrar que −∞ ϕ(x)dx = 1. La prueba se obtiene por inducción y utilizando la siguiente propiedad “hereditaria” de
La función Φ(x) crece desde 0 hasta 1. Su gráfico es una curva con forma de S con familias de variables aleatorias independientes (cuya prueba puede verse en el Capı́tulo 1
del libro de Durrett, R.(1996): Probability Theory and Examples): Si X1 , X2 , . . . , Xn son
Φ(−x) = 1 − Φ(x). (3) variables aleatorias independientes, entonces funciones (medibles) de familias disjuntas de las
Xi también son independientes.

Nota Bene. Observando que para cada a ∈ R y X ∼ N (µ, σ 2 ) resulta que aX ∼ N (aµ, a2 σ 2 )
se obtiene el siguiente resultado:

2 7
Significado de los parámetros µ y σ 2 . La relación (9) dice que si X es una variable 0.4

aleatoria con distribución normal de parámetros µ y σ 2 , entonces X = σZ + µ donde Z es 0.35

una variable con distribución normal estándar. Cálculos de rutina muestran que E[Z] = 0 0.3
y V(Z) = 1, lo que permite deducir que la media y la varianza de la N (µ, σ 2 ) son µ y σ 2 ,
respectivamente. 0.25

0.2

1.3. Ejemplos 0.15

Ejemplo 1.3. Una maquina produce ejes cuyos diámetros X tienen distribución normal de 0.1

media µ = 10 mm y varianza σ 2 = 0.25 mm. Un eje se considera defectuoso si X < 9.5 mm.
0.05
Cuál es la probabilidad de que un eje elegido al azar resulte defectuoso?
0
−4 −3 −2 −1 0 1 2 3 4

Solución: El problema se resuelve calculando P(X < 9.5). Poniendo µ = 10 y σ = 0.5 en (a)
la fórmula (10) obtenemos P(X < 9.5) = Φ 9.5−10
0.5 = Φ (−1) = 0.1587. 1

0.9

Curva peligrosa. De inmediato podrı́a surgir una objeción al uso de la distribución nor- 0.8

mal N (10, 0.25) para modelar el diámetro de los ejes. Al fin y al cabo, los diámetros deben
0.7
ser positivos y la distribución normal adopta valores positivos y negativos. Sin embargo, el
0.6
modelo anteriorasigna una probabilidad despreciable al evento X < 0. En efecto,P(X < 0) =
0−10
P X−10
0.5 < 0.5 = P (Z < −20) = Φ (−20)  = 1 −−89
Φ(20). De acuerdo con la estimación (6) 0.5

1 1
tenemos que 1 − Φ(20) ≈ ϕ(20) 20 − 2·20 3 = O(10 ). Este tipo de situación es habitual en 0.4

la práctica. Se tiene una variable aleatoria X de la que se sabe que no puede tomar valores 0.3

negativos (p.ej. una distancia, una longitud, un área, un peso, una temperatura, un precio, 0.2

etc.) y se la modela utilizando una distribución normal N (µ, σ 2 ); motivados, por ejemplo, 0.1

por cuestiones de simetrı́a. En principio, el modelo podrá ser perfectamente válido siempre 0

y cuando los valores de los parámetros µ y σ 2 sean tales que la probabilidad P(X < 0) sea
−4 −3 −2 −1 0 1 2 3 4

prácticamente 0. (b)

Nota Bene sobre grandes desvı́os. Sea X una variable aleatoria con distribución normal 2
Figura 1: (a) La función densidad normal ϕ(x) := √1 e−x /2 ; (b) La función distribución
de media µ y varianza σ 2 . Sea t > 0, utilizando la fórmula (12) podemos ver que Rx 2

    normal Φ(x) = √12π −∞ e−t /2 dt

pt := P (|X − µ| > tσ) = 1 − P (|X − µ| ≤ tσ) = 1 − 2Φ − 1 = 2 (1 − Φ (t)) .
σ
Tablas. La tabla de valores de la función distribución normal se puede consultar en la
Usando la tabla de la distribución normal Φ(·) se puede ver que p1 = 0.3174, p2 = 0.0454, mayorı́a de los libros sobre probabilidad y/o estadı́stica. En general se tabulan los valores
p3 = 0.0028. Estos probabilidades admiten la siguiente interpretación: cerca del 32 % de los de Φ(x) para x = d0 + d101 + 100 d2
, donde d0 ∈ {0, 1, 2, 3} y d1 , d2 ∈ {0, 1, 2, . . . , 9}. Las filas
valores de una variable X ∼ N (µ, σ 2 ) se desvı́an de su media en más de σ; solamente cerca de la tabla están indexadas por los números d0 . d1 y sus columnas por los números 0.0d2 :
de un 5 % lo hacen en más de 2σ y solamente cerca de un 3 % en más de 3σ. Esto da lugar en la posición (d0 . d1 , 0.0d2 ) de la tabla se encuentra el valor Φ(d0 . d1 d2 ). Por ejemplo, si
a que en la mayor parte de los problemas de la práctica se consideren casi imposibles las se consulta la tabla del libro de Feller, W. (1968). An Introduction to Probability Theory
desviaciones respecto de la media µ que superen 3σ y se consideren limitados por el intervalo and its Applications, en fila 1.2 y columna de 0.08 puede leerse 0.8997, lo que significa que
[µ − 3σ, µ + 3σ] todos los valores prácticamente posibles de la variable X. Φ(1.28) = 0.8997.
En el Cuadro 1.1 reproducimos algunos de los valores de la tabla del Feller:
Ejemplo 1.4. Sea X una variable aleatoria con distribución normal de media µ = 3 y
varianza σ 2 = 4. ¿Cuál es la probabilidad de que X sea no menor que 1 y no mayor que 7? Lema 1.2. Para cada x > 0 valen las siguientes desigualdades:
   
Solución: Poner µ = 3 y σ = 2 en la fórmula (11) y usar la tabla de la distribución normal 1 1 1
ϕ(x) − 3 < 1 − Φ(x) < ϕ(x) . (4)
Φ(·): P(1 ≤ X ≤ 7) = Φ 7−3 − Φ 1−3

= Φ(2) − Φ(−1) = 0.9773 − 0.1587 = 0.8186. x x x
2 2

6 3
x 1.28 1.64 1.96 2.33 2.58 3.09 3.29 1.2. Cuentas con normales
Φ(x) 0.8997 0.9495 0.975 0.9901 0.9951 0.9990 0.9995
Sean µ ∈ R y σ > 0 arbitrarios, pero fijos. Se dice que la variable aleatoria X tiene
Cuadro 1: En la tabla se muestran algunos valores de Φ(x) := √1
Rx −t2 /2 dt. distribución normal de parámetros µ y σ 2 y se denota X ∼ N (µ, σ 2 ) si la función densidad
2π −∞ e
de X es de la forma
(x − µ)2
 
Demostración. Usando que dx d
ϕ(x) = −xϕ(x) es fácil ver que las derivadas de los miembros 1
ϕµ,σ2 (x) = √ exp − . (8)
de las desigualdades (4) satisfacen: σ 2π 2σ 2
    
d 1 1 3 Nota Bene. Un hecho importante sobre las variables aleatorias normales es que si X tiene
ϕ(x) − 3 = −ϕ(x) 1 − 4 .
dx x x x distribución normal N (µ, σ 2 ), entonces
d
[1 − Φ(x)] = −ϕ(x). X −µ
dx Z= (9)
σ
    
d 1 1
ϕ(x) = −ϕ(x) 1 + 2 .
dx x x tiene distribución normal N (0, 1). En efecto,
Por lo tanto,
      P(Z ≤ z) = P((X − µ)/σ ≤ z) = P(X ≤ zσ + µ)
d 1 1 d d 1 1
Z zσ+µ 
(x − µ)2

−ϕ(x) − 3 < [Φ(x) − 1] < −ϕ(x) (5) = √ exp − dx
dx x x dx dx x 2σ 2
σ 2π −∞
Z z
Las desigualdades (4) se obtienen integrando desde x hasta ∞. 1 1 2
= √ e− 2 t dt por sustitución x = tσ + µ.
2π −∞
Nota Bene. De las desigualdades (4) se infiere un método de cálculo para aproximar los
valores de 1 − Φ(x): promediando los valores de los extremos de las desigualdades se obtiene Este hecho significa que si trasladamos el origen de las abscisas en µ y cambiamos la escala
una aproximación cuyo error absoluto es menor que la semi-diferencia entre ambos: de manera tal que σ represente la unidad de medida, la distribución normal N (µ, σ 2 ) se
  transforma en la distribución normal N (0, 1). Su importancia práctica radica en que permite
1 − Φ(x) − ϕ(x) 1 − 1 ≤ ϕ(x) . reducir el cálculo de probabilidades de las distribuciones normales N (µ, σ 2 ) al de la distribu-

3
(6)
x 2x 2x3 ción normal N (0, 1). Motivo por el cual esta última recibe el nombre de normal estándar (o
De la desigualdad (6) se puede ver que la aproximación tı́pica). Más precisamente, si X tiene distribución normal N (µ, σ 2 ), su función de distribu-
  ción podrá reducirse a la función de distribución normal Φ(·) definida en (2) de la siguiente
1 1 manera:
Φ(x) ≈ 1 − ϕ(x) − 3 (7)
x 2x      
X −µ x−µ x−µ x−µ
es prácticamente inútil para valores “pequeños” de x (i.e., x ∈ (0, 1]) pero va mejorando a P(X ≤ x) = P ≤ =P Z≤ =Φ . (10)
σ σ σ σ
medida que los valores de x “crecen”. Usando la aproximación dada en (7) se obtienen las
siguientes aproximaciones La identidad (10) resume toda la información probabilı́sticamente relevante sobre la variable
aleatoria X ∼ N (µ, σ 2 ) y permite calcular (con ayuda de la tabla de la función de distribución
x 1.28 1.64 1.96 2.33 2.58 3.09 3.29 normal Φ(·)) la probabilidad de que la variable X se encuentre en cualquier intervalo prefijado
Φ(x) 0.90454 0.94839 0.97406 0.98970 0.99487 0.99896 0.99948 de antemano:
|error| ≤ 0.04192 0.01178 0.00388 0.00104 0.00041 0.00005 0.00002    
b−µ a−µ
Cuadro 2: Algunos valores de Φ(x) obtenidos mediante la estimación (7). P(a < X < b) = Φ −Φ . (11)
σ σ

En particular, cuando el intervalo (a, b) es simétrico con respecto a µ, las cantidades a y b se


Nota histórica La distribución normal fue descubierta por De Moivre en 1733 como re- pueden expresar en la forma a = µ − ǫ, b = µ + ǫ, donde ǫ > 0, y la fórmula (11) adopta la
sultado de analizar la forma lı́mite de la distribución binomial simétrica y redescubierta forma
nuevamente por Gauss (1809) y Laplace (1812) quienes la estudiaron en relación con sus tra- ǫ  ǫ ǫ
bajos sobre la teorı́a de los errores de observación. Laplace dio, además, el primer enunciado P (|X − µ| < ǫ) = Φ −Φ − = 2Φ − 1. (12)
σ σ σ
(incompleto) del teorema central del lı́mite. (Ver Cramer, H., (1970). Métodos matemáticos
de estadı́stica, Aguilar, Madrid.)

4 5
q 4.2. t de Student
Definición 4.3 (La distribución t de Student). Sean Z y U variables aleatorias independientes
con distribuciones N (0, 1) y χ2n , respectivamente. La distribución de la variable
Z
T =p
U/n
se llama distribución t de Student con n grados de libertad y se denota mediante tn .

La función densidad de la t de Student con n grados de libertad es
− n+1
Γ n+1
 
2 t2 2
fT (t) = √ n
 1+ .
nπΓ 2 n
La fórmula de la densidad se obtiene por los métodos estándar desarrollados en las notas
q = Q(x, θ) sobre transformaciones de variables.
0.4

{θ : Q(x, θ) ≤ qγ }
θ 0.35

θ(x, γ)
0.3

0.25
Como el pivote Q(X, θ) es decreciente en θ tenemos que
0.2
Q(X, θ) ≤ qγ ⇐⇒ θ(X, γ) ≤ θ.
0.15
En consecuencia,
0.1
Pθ (θ(X, γ) ≤ θ) = Pθ (Q(X, θ) ≤ qγ ) = γ, ∀ θ ∈ Θ.
0.05
Por lo tanto, θ(X, γ) es una cota inferior de confianza para θ de nivel γ y una cota superior
de nivel 1 − γ. 0
−5 −4 −3 −2 −1 0 1 2 3 4 5

Método
Figura 9: Comparación de la función densidad de probabilidad de una distribución t7 (lı́nea
Sea β ∈ (0, 1). Si se dispone de un pivote Q(X, θ) que satisface las propiedades (i) y (ii)
solida) con la de la distribución N (0, 1) (lı́nea punteada).
enunciadas más arriba, entonces

la variable aleatoria, θ1 (X), que se obtiene resolviendo la ecuación Q(X, θ) = qβ es una Observación 4.4. Notar que la densidad de tn es simétrica respecto del origen. Cuando la
cota inferior de confianza para θ, de nivel β. cantidad de grados de libertad, n, es grande la distribución tn se aproxima a la la distribución
la variable aleatoria, θ2 (X), que se obtiene resolviendo la ecuación Q(X, θ) = q1−β es N (0, 1); de hecho para más de 20 o 30 grados de libertad, las distribuciones son muy cercanas.
una cota superior de confianza para θ, de nivel β. .

el intervalo aleatorio I(X) = [θ1 (X), θ2 (X)] cuyos extremos son las soluciones respectivas 4.3. F de Fisher
de las ecuaciones Q(X, θ) = q 1+β y Q(X, θ) = q 1−β , es un intervalo “bilateral” de
2 2 Definición 4.5 (Distribución F ). Sean U y V variables aleatorias independientes con dis-
confianza para θ, de nivel β.
tribuciones χ2m y χ2n , respectivamente. La distribución de la variable
Ejemplo 1.6 (Extremo superior de la distribución uniforme). Sea X = (X1 , . . . , Xn ) una U/m
muestra aleatoria de una variable aleatoria X ∼ U(0, θ), θ > 0. W =
V /n

6 21
se llama distribución F con m y n grados de libertad y se denota por Fm, n . 1.1. El método del pivote
La función densidad de W es Cuando se quieren construir intervalos de confianza para θ lo más natural es comenzar la
construcción apoyándose en algún estimador puntual del parámetro θ̂(X) (cuya distribución
Γ m+n
  m
2 m 2 m −1  m − m+n
2 depende de θ). Una técnica general para construir intervalos de confianza, llamada el método
fW (w) = w2 1+ w 1{w ≥ 0}.
Γ m n
 
2 Γ 2
n n del pivote, consiste en transformar el estimador θ̂(X) hasta convertirlo en una variable aleato-
ria cuya distribución sea “conocida” y no dependa de θ. Para que la transformación sea útil
W es el cociente de dos variables aleatorias independientes, y su densidad se obtiene usando no debe depender de ningún otro parámetro desconocido.
los métodos estándar desarrollados en las notas sobre transformaciones de variables.
Definición 1.5 (Pivote). Una variable aleatoria de la forma Q(X, θ) se dice una cantidad
Nota Bene. Se puede mostrar que, para n > 2, E[W ] = n/(n − 2). De las definiciones de pivotal o un pivote para el parámetro θ si su distribución no depende de θ (ni de ningún
las distribuciones t y F , se deduce que el cuadrado de una variable aleatoria tn se distribuye parámetro desconocido, cuando hay varios parámetros).
como una F1,n .
Nota Bene. Por definición, la distribución del pivote Q(X, θ) no depende de θ. Para cada
0.8
α ∈ (0, 1) notaremos mediante qα el cuantil-α del pivote. Si el pivote tiene distribución
continua y su función de distribución es estrictamente creciente, qα es la única solución de la
0.7
ecuación
0.6
Pθ (Q(X, θ) ≤ qα ) = α.

0.5 Método. Si se consigue construir un pivote Q(X, θ) para el parámetro θ, el problema de la


construcción de intervalos de confianza, de nivel β, se descompone en dos partes:
0.4

1. Encontrar parejas de números reales a < b tales que Pθ (a ≤ Q(X; θ) ≤ b) = β. Por


0.3 ejemplo, a = q 1−β y b = q 1+β .
2 2

0.2 2. Despejar el parámetro θ de las desigualdades a ≤ Q (X, θ) ≤ b.

0.1 Si el pivote Q(X, θ) es una función monótona en θ se puede ver que existen θ1 (X) y θ2 (X)
tales que
0
0 1 2 3 4 5 6 7
a ≤ Q(X; θ) ≤ b ⇔ θ1 (X) ≤ θ ≤ θ2 (X)
y entonces
Pθ (θ1 (X) ≤ θ ≤ θ2 (X)) = β,
Figura 10: Gráfico tı́pico de la función densidad de probabilidad de una distribución F .
de modo que I(X) = [θ1 (X), θ2 (X)] es un intervalo de confianza para θ de nivel β.

¿Cómo usar las tablas de las distribuciones F ? Para cada α ∈ (0, 1), sea Fα,m,n el 1.1.1. Pivotes decrecientes
punto del semieje positivo de las abscisas a cuya derecha la distribución Fm,n acumula una
probabilidad α: Sea Q(X, θ) un pivote para θ que goza de las siguientes propiedades:
P(Fm,n > Fα,m,n ) = α. (i) la función de distribución de Q(X, θ) es continua y estrictamente creciente;
Observación 4.6. Notar que de las igualdades (ii) para cada x, la función Q(x, θ) es continua y monótona decreciente en la variable θ:
     
U/m V /n 1 V /n 1
α=P > Fα,m,n = P < =1−P ≥ θ1 < θ2 =⇒ Q(x, θ1 ) > Q(x, θ2 )
V /n U/m Fα,m,n U/m Fα,m,n

se deduce que Sea γ ∈ (0, 1), arbitrario pero fijo y sea qγ el cuantil-γ del pivote Q(X, θ).
Para cada x, sea θ(x, γ) la única solución de la ecuación en θ
1
F1−α,n,m = . (31)
Fα,m,n Q(x, θ) = qγ .

22 5
Ejemplo 1.4 (Media de la normal con varianza conocida). Sea X = (X1 , . . . , Xn ) una mues- En los manuales de estadı́stica se pueden consultar las tablas de los valores Fα,m,n para
tra aleatoria de una variable aleatoria X ∼ N (µ, σ 2 ), con varianza σ 2 conocida. Para obtener diferentes valores de m, n y α ∈ {0.01, 0.05}. Por ejemplo, según la tabla que tengo a mi
un intervalo de confianza de nivel β para µ, consideramos el estimador de máxima verosimil- disposición1
itud para µ P(F9, 9 > 3.18) = 0.05 y P(F9,9 > 5.35) = 0.01

1X
n Usando esa información queremos hallar valores φ1 y φ2 tales que
X̄ = Xi .
n P(F9, 9 > φ2 ) = 0.025 y P(F9, 9 < φ1 ) = 0.025.
i=1

La distribución de X̄ se obtiene utilizando los resultados conocidos sobre sumas de normales El valor de φ2 se obtiene por interpolación lı́neal entre los dos puntos dados en la tabla:
independientes y de cambio de escala: A = (3.18, 0.05) y B = (5.35, 0.01). La ecuación de la recta que pasa por ellos es y − 0.01 =
− 0.04 0.04
2.17 (x − 5.35). En consecuencia, φ2 será la solución de la ecuación 0.025 − 0.01 = − 2.17 (φ2 −
σ2
 
X̄ ∼ N µ, . 5.35). Esto es, φ2 = 4.5362.
n
El valor de φ1 se obtiene observando que la ecuación P(F9, 9 < φ1 ) = 0.025 es equivalente
En consecuencia, a la ecuación P (1/F9, 9 > 1/φ1 ) = 0.025. Por definición, la distribución de 1/F9, 9 coincide con
√  la de F9, 9 . En consecuencia, φ1 debe satisfacer la ecuación P (F9, 9 > 1/φ1 ) = 0.025. Por lo
n X̄ − µ tanto, φ1 = 1/4.5362 = 0.2204.
∼ N (0, 1) .
σ
Por lo tanto, para cada µ ∈ R vale que
5. Bibliografı́a consultada
√  !
n X̄ − µ
Pµ −z(1+β)/2 ≤ ≤ z(1+β)/2 = β. Para redactar estas notas se consultaron los siguientes libros:
σ
1. Cramer, H.: Métodos matemáticos de estadı́stica. Aguilar, Madrid. (1970)
Despejando µ de las desigualdades dentro de la probabilidad, resulta que
  2. Durrett R.: Probability. Theory and Examples. Duxbury Press, Belmont. (1996)
σ σ
Pµ X̄ − √ z(1+β)/2 ≤ µ ≤ X̄ + √ z(1+β)/2 = β,
n n 3. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 1. John
Wiley & Sons, New York. (1968)
y por lo tanto el intervalo
  4. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 2. John
σ σ Wiley & Sons, New York. (1971)
I(X) = X̄ − √ z(1+β)/2 , X̄ + √ z(1+β)/2
n n
5. Hoel P. G.: Introducción a la estadı́stica matemática. Ariel, Barcelona. (1980)
es un intervalo de confianza para µ de nivel β.
6. Piskunov, N.: Cálculo diferencial e integral, tomo I. Mir, Moscú (1983)
Nota Bene. Las ideas principales para construir el intervalo de confianza contenidas en el 7. Rice, J. A.: Mathematical Statistics and Data Analysis. Duxbury Press, Belmont. (1995)
ejemplo anterior son las siguientes:
8. Ross, S. M: Introduction to Probability and Statistics for Engineers and Scientists.
1. Obtener un estimador del parámetro y caracterizar su distribución. Elsevier Academic Press, San Diego. (2004)
2. Transformar el estimador de parámetro hasta convertirlo en una variable aleatoria cuya 9. Ross, S.: Introduction to Probability Models. Academic Press, San Diego. (2007)
distribución “conocida” que no dependa del parámetro.

3. Poner cotas para el estimador transformado y despejar el parámetro.

1
Introducción a la estadı́stica matemática. Ariel, Barcelona. (1980).

4 23
1. Estimación por intervalo
En lo que sigue consideramos el problema de estimación de parámetros utilizando inter-
valos de confianza. Consideramos una muestra aleatoria X = (X1 , . . . , Xn ) de la variable
Estimadores puntuales aleatoria X cuya función de distribución F (x) := P(X ≤ x), pertenece a la familia paramétri-
(Borradores, Curso 23) ca de distribuciones (distinguibles) F = {Fθ : θ ∈ Θ}, Θ ⊂ R. La idea básica es la siguiente:
aunque no podamos determinar exactamente el valor de θ podemos tratar de construir un in-
tervalo aleatorio [θ− , θ+ ] tal que con una probabilidad bastante alta, sea capaz de “capturar”
Sebastian Grynberg el valor desconocido θ.
20-22 de mayo de 2013 Definición 1.1 (Intervalo de confianza). Un intervalo de confianza para θ de nivel β es un
intervalo aleatorio, I(X), que depende de la muestra aleatoria X, tal que

Pθ (θ ∈ I(X)) = β, (1)

para todo θ ∈ Θ.
Definición 1.2 (Cotas de confianza). Una cota inferior de confianza para θ, de nivel β,
basada en la muestra aleatoria X, es una variable aleatoria θ1 (X) tal que

Pθ (θ1 (X) ≤ θ) = β, (2)

para todo θ ∈ Θ.
Una cota superior de confianza para θ, de nivel β, basada en la muestra aleatoria X, es
una variable aleatoria θ2 (X) tal que

Pθ (θ ≤ θ2 (X)) = β, (3)

para todo θ ∈ Θ.

Nota Bene. En el caso discreto no siempre se pueden obtener las igualdades (1), (2) o (3).
Para evitar este tipo de problemas se suele definir un intervalo mediante la condición más
laxa Pθ (θ ∈ I(X)) ≥ β, ∀ θ. En este caso el mı́nθ Pθ (θ ∈ I(X)) se llama nivel de confianza.
Observación 1.3. Sean θ1 (X) una cota inferior de confianza de nivel β1 > 1/2 y θ2 (X) una
cota superior de confianza de nivel β2 > 1/2, tales que Pθ (θ1 (X) ≤ θ2 (X)) = 1 para todo
θ ∈ Θ. Entonces,
I(X) = [θ1 (X), θ2 (X)]
define un intervalo de confianza para θ de nivel β = β1 + β2 − 1. En efecto,

La libertad de los pueblos no consiste en palabras, Pθ (θ ∈ I(X)) = 1 − Pθ (θ < θ1 (X) o θ > θ2 (X))
ni debe existir en los papeles solamente. (...) = 1 − Pθ (θ < θ1 (X)) − Pθ (θ > θ2 (X))
Si deseamos que los pueblos sean libres, = 1 − (1 − β1 ) − (1 − β2 ) = β1 + β2 − 1. (4)
observemos religiosamente el sagrado dogma de la igualdad.
(Mariano Moreno) La identidad (4) muestra que la construcción de intervalos de confianza se reduce a la
construcción de cotas inferiores y superiores. Más precisamente, si se quiere construir un
intervalo de confianza de nivel β, basta construir una cota inferior de nivel β1 = (1 + β)/2 y
una cota superior de nivel β2 = (1 + β)/2.
Las ideas principales para construir intervalos de confianza están contenidas en el ejemplo
siguiente.

1 3
Índice Índice
1. Estimación por intervalo 3 1. Introducción 2
1.1. El método del pivote . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.1. Nociones y presupuestos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1. Pivotes decrecientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2. Algunas familias paramétricas . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.2. Pivotes crecientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2. Estimadores 4
2. Muestras de Poblaciones Normales 10 2.1. Error cuadrático medio, sesgo y varianza . . . . . . . . . . . . . . . . . . . . . 5
2.1. Media y varianza desconocidas . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.2. Comparación de estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1.1. Teorema llave . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.3. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.1.2. Cotas e intervalos de confianza para la varianza . . . . . . . . . . . . . 11
2.1.3. Cotas e intervalos de confianza para la media . . . . . . . . . . . . . . 12 3. Método de máxima verosimilitud 10
2.1.4. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.1. Estimador de máxima verosimilitud (emv) . . . . . . . . . . . . . . . . . . . . 10
2.2. Media de la normal con varianza conocida . . . . . . . . . . . . . . . . . . . . 13 3.2. Cálculo del emv para familias regulares . . . . . . . . . . . . . . . . . . . . . 12
2.3. Varianza de la normal con media conocida . . . . . . . . . . . . . . . . . . . . 14 3.2.1. Familias exponenciales . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2.2. Malas noticias! . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3. Intervalos aproximados para ensayos Bernoulli 15 3.3. Cálculo del emv para familias no regulares . . . . . . . . . . . . . . . . . . . . 20
3.4. Principio de invariancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4. Comparación de dos muestras normales 17
4.1. Cotas e intervalos de confianza para la diferencia de medias . . . . . . . . . . 17 4. Bibliografı́a consultada 23
4.1.1. Varianzas conocidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.1.2. Varianzas desconocidas. . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.2. Cotas e intervalos de confianza para el cociente de varianzas. . . . . . . . . . 19
1. Introducción

5. Comparación de dos muestras 19


1.1. Nociones y presupuestos básicos
5.1. Planteo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 Definición 1.1 (Muestra aleatoria). Sea (Ω, A, P) un espacio de probabilidad y X : Ω → R
5.2. Problema de dos muestras binomiales . . . . . . . . . . . . . . . . . . . . . . 20 una variable aleatoria. Una muestra aleatoria de volumen n de la variable aleatoria X es una
sucesión X1 , . . . , Xn de variables aleatorias independientes cada una con la misma distribución
6. Apéndice: Demostración del Teorema llave 22 de X.
6.1. Preliminares de Análisis y Álgebra . . . . . . . . . . . . . . . . . . . . . . . . 22
6.2. Lema previo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 Modelos paramétricos. En todo lo que sigue vamos a suponer que
6.3. Demostración del Teorema. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1. La función de distribución de la variable aleatoria X es desconocida parcialmente: se
7. Bibliografı́a consultada 24 sabe que F (x) = P(X ≤ x) pertenece a una familia, F, de distribuciones conocidas que
dependen de un parámetro θ desconocido: F = {Fθ : θ ∈ Θ}.

2. El conjunto paramétrico, Θ, es no vacı́o y está contenido en Rd .

3. Las distribuciones de la familia F son distinguibles: Fθ1 6= Fθ2 cuando θ1 6= θ2 .

4. Las distribuciones de la familia F tienen “densidad”. Si se trata de una familia de


distribuciones continuas esto significa que para cada θ ∈ Θ, existe una función densidad
d
de probabilidades (f.d.p.) f (x|θ) tal que dx Fθ (x) = f (x|θ). Si se trata de una familia
de distribuciones discretas esto significa que para cada θ ∈ Θ, existe una función de
probabilidad (f.p.) f (x|θ) tal que Fθ (x) − Fθ (x−) = f (x|θ).

5. Es posible conseguir muestras aleatorias de la variable X del volumen que se desee.

2 2
Nota Bene. De los presupuestos básicos adoptados resulta que los modelos paramétricos
adoptan la forma
F = {f (x|θ) : θ ∈ Θ} ,
donde θ es un parámetro desconocido que puede tomar valores en un espacio paramétrico Estimación por intervalo
Θ ⊂ Rd . (Borradores, Curso 23)
1.2. Algunas familias paramétricas
Sebastian Grynberg
Repasamos algunas de las familias de distribuciones que se utilizan comúnmente en el
análisis de datos en problemas prácticos. 27-29 de mayo de 2013

1. Familia Normal, N (µ, σ 2 ). Decimos que X tiene distribución normal de parámetros


µ ∈ R y σ 2 > 0 cuando la f.d.p. de X está dada por

(x − µ)2
 
1
f (x|µ, σ 2 ) = √ exp − 2
, −∞ < x < ∞.
σ 2π 2σ

Vale que E[X] = µ y V(X) = σ 2 .

2. Familia Gamma, Γ(ν, λ). Decimos que X tiene distribución gamma de parámetros
ν > 0 y λ > 0 cuando la f.d.p. de X está dada por
λν ν−1 −λx
f (x|ν, λ) = x e 1{x ≥ 0},
Γ(ν)
R∞
donde Γ(ν) := 0 xν−1 e−x dx. Vale que E[X] = ν/λ y V(X) = ν/λ2 .
Casos particulares de las familias Gamma son las familias exponenciales Exp(λ) = Γ(1, λ)
y las familias chi cuadrado χ2ν = Γ(ν/2, 1/2).

3. Familia Beta, β(ν1 , ν2 ). Decimos que X tiene distribución beta de parámetros ν1 > 0
y ν2 > 0 cuando la f.d.p. de X está dada por

Γ(ν1 + ν2 ) ν1 −1
f (x|ν1 , ν2 ) = x (1 − x)ν2 −1 1{0 < x < 1}.
Γ(ν1 )Γ(ν2 )

Vale que
ν1 ν1 ν2
E[X] = y V(X) = .
ν1 + ν2 (ν1 + ν2 )2 (ν1 + ν2 + 1)

Notar que cuando los parámetros ν1 y ν2 son números naturales se tiene que
 
Γ(ν1 + ν2 ) (ν1 + ν2 − 1)! ν1 + ν2 − 2
= = (ν1 + ν2 − 1) . Si ves al futuro, dile que no venga.
Γ(ν1 )Γ(ν2 ) (ν1 − 1)!(ν2 − 1)! ν1 − 1
(Juan José Castelli)
La distribución β(ν1 , ν2 ) se puede obtener como la distribución del cociente X1 /(X1 + X2 )
donde X1 ∼ Γ(ν1 , 1) y X2 ∼ Γ(ν2 , 1).
Notar que β(1, 1) = U(0, 1).

3 1
4. Bibliografı́a consultada 4. Familia Binomial, Binomial(n, p). Decimos que X tiene distribución Binomial de
parámetros n ∈ N y 0 < p < 1 cuando su f.p. está dada por
Para redactar estas notas se consultaron los siguientes libros:  
n
1. Bolfarine, H., Sandoval, M. C.: Introdução à Inferência Estatı́stica. SBM, Rio de Janeiro. f (x|n, p) = (1 − p)n−x px , x = 0, 1, . . . , n.
x
(2001).
Vale que E[X] = np y V(X) = np(1 − p).
2. Borovkov, A. A.: Estadı́stica matemática. Mir, Moscú. (1984).

3. Cramer, H.: Métodos matemáticos de estadı́stica. Aguilar, Madrid. (1970). 5. Familia Pascal, Pascal(n, p). Decimos que X tiene distribución Pascal de parámetros
n ∈ N y 0 < p < 1 cuando su f.p. está dada por
4. Hoel P. G.: Introducción a la estadı́stica matemática. Ariel, Barcelona. (1980).  
x−1 n
5. Maronna R.: Probabilidad y Estadı́stica Elementales para Estudiantes de Ciencias. Ed- f (x|n, p) = p (1 − p)x−n , x = n, n + 1, . . . .
n−1
itorial Exacta, La Plata. (1995).
Vale que E[X] = n/p y V(X) = n(1 − p)/p2 .

6. Familia Poisson, Poisson(λ). Decimos que X tiene distribución Poisson de parámetro


λ > 0 cuando su f.p. está dada por
λx
f (x|λ) = e−λ , x = 0, 1, . . . .
x!
Vale que E[X] = λ y V(X) = λ.

2. Estimadores
El punto de partida de la investigación estadı́stica está constituido por una muestra
aleatoria, X = (X1 , . . . , Xn ), de la distribución desconocida F perteneciente a una familia
paramétrica de distribuciones F = {Fθ : θ ∈ Θ}1 . Como las distribuciones de la familia F
son distinguibles lo que se quiere saber es cuál es el parámetro θ ∈ Θ que corresponde a la
distribución F . En otras palabras, se quiere hallar θ ∈ Θ tal que F = Fθ .
Formalmente, “cualquier” función, θ̂ := θ̂(X), de la muestra aleatoria X que no depende
de parámetros desconocidos se denomina una estadı́stica.

Ejemplo 2.1. Sea X = (X1 , . . . , Xn ) una muestra aleatoria de la variable aleatoria X con
función de distribución Fθ . Ejemplos de estadı́sticas son

(i) X(1) = mı́n(X1 , . . . , Xn ),

(ii) X(n) = máx(X1 , . . . , Xn ),

(iii) X̄ = n1 ni=1 Xi ,
P

(iv) σ̂ 2 = n1 ni=1 (Xi − X̄)2 .


P

1
Notación. Si F es una familia de distribuciones Fθ con “densidades” f (x|θ), θ ∈ Θ, escribimos
Z Z
Pθ (X ∈ A) = f (x|θ)dx y Eθ [r(X)] = r(x)f (x|θ)dx
A

El subı́ndice θ indica que la probabilidad o la esperanza es con respecto a f (x|θ). Similarmente, escribimos Vθ
para la varianza.

23 4
En (i) y (ii), mı́n(·) y máx(·) denotan, respectivamente, el mı́nimo y el máximo muestrales 3.4. Principio de invariancia
observados. Por otro lado, X̄ y σ̂ 2 denotan, respectivamente, la media y la varianza muestrales.
En lo que sigue presentamos una propiedad bastante importante del método de máxima
verosimilitud.
Cualquier estadı́stica que asuma valores en el conjunto paramétrico Θ de la familia de
Teorema 3.18 (Principio de invariancia). Sea X1 , . . . , Xn una muestra aleatoria de una
distribuciones F se denomina un estimador puntual para θ. El adjetivo puntual está puesto
variable aleatoria X cuya distribución pertenece a la familia paramétrica F = {Fθ : θ ∈ Θ}.
para distinguirla de las estimaciones por intervalo que veremos más adelante.
Sea g : Θ → Λ una función biunı́voca de Θ sobre Λ. Si θ̂ es un estimador de máxima
En muchas situaciones lo que interesa es estimar una función g(θ). Por ejemplo, cuando verosimilitud para θ, entonces g(θ̂) es un estimador de máxima verosimilitud para λ = g(θ).
se considera una muestra aleatoria X de una variable X ∼ N (µ, σ 2 ) donde µ y σ 2 son
desconocidos entonces θ = (µ, σ 2 ) y el conjunto de parámetros es Θ = {(µ, σ 2 ) : µ ∈ R y σ 2 > Demostración. Como λ = g(θ) es una función biunı́voca de Θ sobre Λ, la función de
0}. Si el objetivo es estimar solamente µ, entonces g(θ) = µ. verosimilitud L(θ|x) se puede expresar en función de λ ya que θ = g −1 (λ). Denominemos a
la función de verosimilitud, como función de λ, por L∗ (λ|x). Es claro que
Definición 2.2. Cualquier estadı́stica que solamente asuma valores en el conjunto de los
posibles valores de g(θ) es un estimador para g(θ). L∗ (λ|x) = L(g −1 (λ)|x).
Uno de los grandes problemas de la estadı́stica es construir estimadores razonables para
Sea θ̂mv ∈ Θ un estimador de máxima verosimilitud para θ y sea λ̂ := g(θ̂mv ) ∈ Λ su imagen
el parámetro desconocido θ o para una función g(θ). Existen diversos métodos para elegir
por g. Hay que mostrar que vale lo siguiente:
entre todos los estimadores posibles de θ. Cada elección particular del estimador depende de
ciertas propiedades que se consideran “deseables” para la estimación. L∗ (λ̂|x) = máx L∗ (λ|x)
λ∈Λ

2.1. Error cuadrático medio, sesgo y varianza Pero esto es inmediato, debido a que
Uno de los procedimientos más usados para evaluar el desempeño de un estimador es ˆ
L∗ (λ̂|x) = L(g −1 (λ)|x) = L(θ̂mv |x) = máx L(θ|x) = máx L(g −1 (λ)|x)
considerar su error cuadrático medio. Esta noción permite precisar el sentido que se le otorga θ∈Θ λ∈Λ
a los enunciados del tipo “el estimador puntual θ̂ = θ̂(X) está próximo de θ”. = máx L∗ (λ|x).
λ∈Λ
Definición 2.3 (Error cuadrático medio). El error cuadrático medio (ECM) de un estimador
Por lo tanto,
θ̂ para el parámetro θ se define por
g(θ)
d
mv = g(θ̂mv ).
h i
ECM(θ̂) = Eθ (θ̂ − θ)2 . (1)

El ECM se puede descomponer de la siguiente manera2 Ejemplo 3.19. Sea X1 , . . . , Xn una muestra aleatoria de la variable aleatoria X ∼ N (µ, 1).
h i En el Ejemplo 3.8 vimos que µ̂mv = X̄ es el estimador de máxima verosimilitud para µ.
Eθ (θ̂ − θ)2 = Vθ (θ̂) + B2θ (θ̂), (2) Queremos estimar
g(µ) = Pµ (X ≤ 0) = Φ(−µ).
donde Bθ (θ̂) := Eθ [θ̂] − θ es el llamado sesgo del estimador. El primer término de la descom- Por el principio de invariancia, tenemos que
posición (2) describe la “variabilidad” del estimador, y el segundo el “error sistemático”: Eθ [θ̂]
describe alrededor de qué valor fluctúa θ̂ y Vθ (θ̂) mide cuánto fluctúa. g(µ̂mv ) = Φ(−X̄)
2
La descomposición (2) se obtiene escribiendo θ̂ − θ en la forma (θ̂ − Eθ [θ̂]) + (Eθ [θ̂] − θ). Desarrollando es el estimador de máxima verosimilitud para Pµ (X ≤ 0).
“ ”2
cuadrados obtenemos (θ̂ − θ)2 = (θ̂ − Eθ [θ̂])2 + 2(θ̂ − Eθ [θ̂])(Eθ [θ̂] − θ) + Eθ [θ̂] − θ . El resultado se obtiene
observando que la esperanza Eθ de los términos cruzados (θ̂ − Eθ [θ̂])(Eθ [θ̂] − θ) es igual a 0: Nota Bene En general, si λ = g(θ), aunque g no sea biunı́voca, se define el estimador de
h i » “ ”2 – máxima verosimilitud de λ por
Eθ (θ̂ − θ)2 = Eθ (θ̂ − Eθ [θ̂])2 + 2(θ̂ − Eθ [θ̂])(Eθ [θ̂] − θ) + Eθ [θ̂] − θ λ̂ = g(θ̂mv ).
h i “ ”2
= Eθ (θ̂ − Eθ [θ̂])2 + 0 + Eθ [θ̂] − θ = Vθ (θ̂) + B2θ (θ̂).

5 22
Ejemplo 3.16 (Distribución uniforme). La familia {U(0, θ) : θ > 0} de distribuciones uni- Definición 2.4 (Estimadores insesgados). Diremos que un estimador θ̂ es insesgado para el
formes no es una familia regular debido a que el soporte de la densidad de la distribución parámetro θ si
U(0, θ) es [0, θ] (y depende claramente del valor del parámetro θ). En esta situación tampoco Eθ [θ̂] = θ.
puede utilizarse la metodologı́a del Lema 3.5. En este caso Θ = (0, ∞) y las funciones de
para todo θ ∈ Θ, o sea Bθ (θ̂) ≡ 0. Si lı́mn→∞ Bθ [θ̂] = 0 para todo θ ∈ Θ, diremos que el
densidad son de la forma
1 estimador θ̂ es asintóticamente insesgado para θ.
f (x|θ) = 1{0 ≤ x ≤ θ}.
θ
La función de verosimilitud es Nota Bene. En el caso en que θ̂ es un estimador insesgado para θ, tenemos que
n n
Y 1 1 Y
L(θ|x) = 1{0 ≤ xi ≤ θ} = n 1{0 ≤ xi ≤ θ} ECM(θ̂) = Vθ (θ̂),
θ θ
i=1 i=1
o sea, el error cuadrático medio de θ̂ se reduce a su varianza.
 
1
= 1 máx xi ≤ θ .
θn i=1,...,n
Nota Bene. Una consecuencia destacable de la descomposición (2) para grandes muestras
Si θ < máxi xi , entonces L(θ|x) = 0. Si θ ≥ máxi xi , entonces L(θ|x) = θ−n , una función
(n >> 1) es la siguiente: si a medida que se aumenta el volumen de la muestra, el sesgo y la
decreciente en θ. En consecuencia, su máximo se alcanza en
varianza del estimador θ̂ tienden a cero, entonces, el estimador θ̂ converge en media cuadrática
θ = máx xi . al verdadero valor del parámetro θ.
i=1,...,n

Por lo tanto, el estimador de máxima verosimilitud para θ, basado en una muestra aleatoria Ejemplo 2.5 (Estimación de media). Sea F = {Fθ : θ ∈ Θ} una familia de distribuciones.
X = (X1 , . . . , Xn ) de una variable aleatoria X ∼ U(0, θ), es el máximo de la muestra Para cada θ ∈ Θ designemos mediante µ(θ) y σ 2 (θ) la media y la varianza correspondientes a
θ̂mv (X) = X(n) := máx Xi . la distribución Fθ , respectivamente. Sea X = (X1 , . . . , Xn ) una muestra aleatoria de alguna
i=1,...,n distribución perteneciente a F. Denotemos mediante X̄ el promedio de la muestra:
n
1X
Ejemplo 3.17 (Distribución uniforme). La familia {U(θ − 1/2, θ + 1/2) : θ ∈ R} de dis- X̄ = Xi .
tribuciones uniformes no es una familia regular debido a que el soporte de la densidad de n
i=1
la distribución U(θ − 1/2, θ + 1/2) es [θ − 1/2, θ + 1/2] (y depende claramente del valor del
parámetro θ). En este caso Θ = R y las funciones de densidad son de la forma En lo que sigue vamos a suponer que para cada θ ∈ Θ, µ(θ) ∈ R y σ 2 (θ) < ∞. Si la muestra
aleatoria proviene de la distribución Fθ , tenemos que
f (x|θ) = 1{θ − 1/2 ≤ x ≤ θ + 1/2}.
" n # n
La función de verosimilitud es   1X 1X
Eθ X̄ = Eθ Xi = Eθ [Xi ] = µ(θ).
n n n
i=1 i=1
Y
L(θ|x) = 1{θ − 1/2 ≤ xi ≤ θ + 1/2}
i=1 Por lo tanto X̄ es un estimador insesgado para µ(θ) y su error cuadrático medio al estimar
 
= 1 máx xi − 1/2 ≤ θ ≤ mı́n xi + 1/2 µ(θ) es
i=1,...,n i=1,...,n
n n
!
1X 1 X 1

= 1 x(n) − 1/2 ≤ θ ≤ x(1) + 1/2 ,
Vθ [Xi ] = σ 2 (θ).

ECM(X̄) = Vθ X̄ = Vθ Xi = 2
n n n
pues i=1 i=1
θ − 1/2 ≤ xi ≤ θ + 1/2, i = 1, . . . , n,
si y solamente si
Ejemplo 2.6 (Estimación de varianza). Sea F = {Fθ : θ ∈ Θ} una familia de distribuciones.
θ ≤ xi + 1/2 y xi − 1/2 ≤ θ, i = 1, . . . , n,
Para cada θ ∈ Θ designemos mediante µ(θ) y σ 2 (θ) la media y la varianza correspondientes
Como L(θ|x) se anula para θ < x(n) y para θ > x(1) + 1/2 y es constantemente 1 en el a la distribución Fθ , respectivamente, a las que supondremos finitas. Sea X1 , . . . , Xn una
intervalo [x(n) − 1/2, x(1) + 1/2], tenemos que cualquier punto de ese intervalo es un estimador muestra aleatoria de alguna distribución perteneciente a F. Sean X̄ y σ̂ 2 la media y la
de máxima verosimilitud para θ. En particular, varianza muestrales definidas en el Ejemplo 2.1:
x(1) + x(n) n n
θ̂(x) = 1X 1X
2 X̄ := Xi y σ̂ 2 := (Xi − X̄)2 .
es un estimador de máxima verosimilitud para θ. Etc... n n
i=1 i=1

21 6
Para analizar el sesgo de la varianza muestral conviene descomponerla de la siguiente manera: Ejemplo 3.14 (Continuación del Ejemplo 3.13). Para resolver la ecuación (36) usaremos el
n
procedimiento de Newton-Raphson aplicado a la función
1 X
σ̂ 2 = (Xi − µ(θ))2 − (X̄ − µ(θ))2 , (3) n n
n n X X β
i=1 g(β) = + log ti − ti log ti .
β
i=1 i=1
cualquiera sea θ ∈ Θ. 3 Si la muestra aleatoria, X1 , . . . , Xn , proviene de la distribución Fθ , al
tomar esperanzas en ambos lados de (3) se obtiene Como
n
1
n n X β
g ′ (β) = − − ti (log ti )2 ,
X
Eθ [σ̂ 2 ] = Eθ (Xi − µ(θ))2 − Eθ (X̄ − µ(θ))2
   
n β2
i=1
i=1
n
1X el procedimiento iterativo (39) adopta la forma
= Vθ (Xi ) − Vθ (X̄). (4)
n
i=1 n Pn Pn β
β + i=1 log ti − i=1 ti log ti
βj+1 = βj + . (40)
Según el Ejemplo 2.5 X̄ es un estimador insesgado para la media µ(θ) y su varianza vale n
+
Pn β
t (log ti )2
β 2 i=1 i
Vθ (X̄) = n1 σ 2 (θ), en consecuencia,
n
Generando una muestra aleatoria de tamaño n = 20 de una variable aleatoria T con
2 1X 1 n−1 2 densidad dada por (35) con β = 2 e inicializando el procedimiento iterativo (40) con β1 = T̄
Eθ [σ̂ ] = Vθ (Xi ) − Vθ (X̄) = σ 2 (θ) − σ 2 (θ) = σ (θ). (5)
n n n obtuvimos que β̂mv = 2.3674.
i=1
Generando una muestra aleatoria de tamaño n = 10000 de una variable aleatoria T con
Esto demuestra que σ̂ 2 no es un estimador insesgado para la varianza σ 2 (θ). La identidad densidad dada por (35) con β = 2 e inicializando el procedimiento iterativo (40) con β1 = T̄
Eθ [σ̂ 2 ] = n−1 2
n σ (θ) significa que si tomamos repetidas muestras de tamaño n y se promedian obtuvimos que β̂mv = 1.9969.
las varianzas muestrales resultantes, el promedio no se aproximará a la verdadera varianza,
sino que de modo sistemático el valor será más pequeño debido al factor (n − 1)/n. Este factor 3.3. Cálculo del emv para familias no regulares
adquiere importancia en las muestras pequeñas. Si n → ∞, el factor (n − 1)/n → 1 lo que
demuestra que σ̂ 2 es un estimador asintóticamente insesgado para la varianza σ 2 (θ). Venı́a rápido, muy rápido y se le soltó un patı́n ...
n
Para eliminar el sesgo en σ̂ 2 , basta multiplicar σ̂ 2 por n−1 . De (5) sigue que
Ahora mostraremos algunos ejemplos correspondientes a familias no regulares. En estos
n casos hay que analizar dónde se realiza el máximo “a mano”.
n 1 X
S 2 := σ̂ 2 = (Xi − X̄)2 (6)
n−1 n−1 Ejemplo 3.15 (Distribuciones de Bernoulli con parámetros discretos). Supongamos que los
i=1
valores observados en la secuencia (29) que aparece en el Ejemplo 3.7 fueron arrojados por una
es un estimador insesgado para la varianza. muestra aleatoria de tamaño n = 20 de una variable aleatoria X con distribución Bernoulli(p),
donde p = 0.45 o p = 0.65. La familia de distribuciones no es regular debido a que el espacio
2.2. Comparación de estimadores paramétrico {0.45, 0.65} no es abierto. En esta situación no puede utilizarse la metodologı́a
del Lema 3.5 pues conduce a resultados totalmente disparatados. Lo único que se puede hacer
El error cuadrático medio puede usarse para comparar estimadores. Diremos que θ̂1 es
es comparar los valores L(0.45|x), L(0.65|x) y quedarse con el valor de p ∈ {0.45, 0.65} que
mejor que θ̂2 si
haga máxima la probabilidad de observar el resultado x:
ECM(θ̂1 ) ≤ ECM(θ̂2 ), (7)
L(0.45|x) = (0.45)11 (0.55)9 = (7.0567...)10−7
para todo θ, con desigualdad estricta para al menos un valor de θ. En tal caso, el estimador θ̂2 L(0.65|x) = (0.65)11 (0.35)9 = (6.8969...)10−7 .
se dice inadmisible. Si existe un estimador θ̂∗ tal que para todo estimador θ̂ de θ con θ̂ 6= θ̂∗
Por lo tanto, el estimador de máxima verosimilitud, basado en las observaciones (29), será
ECM(θ̂∗ ) ≤ ECM(θ̂), (8)
p̂mv (0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0) = 0.45.
3
La descomposición (3) se obtiene haciendo lo siguiente. Para cada i escribimos (Xi − X̄) en la forma
(Xi − µ(θ)) − (X̄ − µ(θ)). Desarrollando cuadrados obtenemos (Xi − X̄)2 = (Xi − µ(θ))2 + (X̄ − µ(θ))2 −
2(Xi − µ(θ))(X̄ − µ(θ)). El resultado se obtiene observando que el promedio de los términos cruzados (Xi −
µ(θ))(X̄ − µ(θ)) es igual a (X̄ − µ(θ))2 . (Hacer la cuenta y verificarlo! )

7 20
3.2.2. Malas noticias! para todo θ, con desigualdad estricta para al menos un valor de θ, entonces θ̂∗ se dice óptimo.
Cuando la comparación se restringe a los estimadores son insesgados, el estimador óptimo,
“Esta calle es más angosta de lo que pensás”.
θ̂∗ , se dice el estimador insesgado de varianza uniformemente mı́nima. Esta denominación
(Proverbio Zen)
resulta de observar que estimadores insesgados la relación (8) adopta la forma
Ejemplo 3.13 (Fiabilidad). Sea T1 , . . . , Tn una muestra aleatoria del tiempo de duración sin
Vθ (θ̂∗ ) ≤ Vθ (θ̂),
fallas de una máquina cuya función intensidad de fallas es λ(t) = βtβ−1 1{t > 0}, donde el
parámetro de “desgaste” β > 0 es desconocido. La densidad de cada tiempo T es para todo θ, con desigualdad estricta para al menos un valor de θ.
−tβ Ejemplo 2.7. Sean X1 , X2 , X3 una muestra aleatoria de una variable aleatoria X tal que
f (t|β) = βtβ−1 e 1{t > 0} (35)
Eθ [X] = θ y Vθ (X) = 1. Consideremos los estimadores
Observando que
X1 + X2 + X3 1 1 1
X̄ = y θ̂ = X1 + X2 + X3 .
log f (t|β) = log β + (β − 1) log t − tβ 3 2 4 4
Según el Ejemplo 2.5 Eθ [X̄] = θ y Vθ (X̄) = 31 . Tenemos también que
y derivando respecto de β se obtiene
1 1 1 1 1 1
∂ log f (x|β) 1 Eθ [θ̂] = Eθ [X1 ] + Eθ [X2 ] + Eθ [X3 ] = θ + θ + θ = θ
= + log t − tβ log t. 2 4 4 2 4 4
∂β β
y
Por lo tanto, la ecuación de verosimilitud (24) adopta la forma 1 1 1 1 1 1 6
Vθ (θ̂) = Vθ (X1 ) + Vθ (X2 ) + Vθ (X3 ) = + + = .
n n
4 16 16 4 16 16 16
n X X β
Como X̄ y θ̂ son insesgados, resulta que X̄ es mejor que θ̂, pues Vθ (X̄) < Vθ (θ̂) para todo θ.
+ log ti − ti log ti = 0 (36)
β
i=1 i=1

La mala noticia es que la ecuación (36) no tiene una solución analı́tica explı́cita. Ejemplo 2.8. Sea X1 , . . . , Xn una muestra aleatoria de una variable aleatoria X ∼ U(0, θ).
Vamos a considerar θ̂1 = 2X̄ y θ̂2 = X(n) como estimadores para θ y estudiaremos su com-
El ejemplo anterior muestra que en algunos casos la ecuación de verosimilitud no presenta portamiento. Como Eθ [X] = θ/2 y Vθ (X) = θ2 /12, tenemos que
solución analı́tica explı́cita. En tales casos, los estimadores de máxima verosimilitud pueden
obtenerse mediante métodos numéricos. θ2
Eθ [θ̂1 ] = Eθ [2X̄] = θ y Vθ (θ̂1 ) = . (9)
3n
Método de Newton-Raphson. El método de Newton-Raphson es un procedimiento it- Por lo tanto, θ̂1 es un estimador insesgado para θ. En consecuencia,
erativo para obtener una raı́z de una ecuación
θ2
ECM(θ̂1 ) = Vθ (θ̂1 ) = . (10)
g(θ) = 0, (37) 3n
nxn−1
donde g(·) es una función suave. La idea es la siguiente: supongamos que θ es una raı́z de la Por otro lado, la función densidad de X(n) está dada por fθ (x) = θn 1{0 < x < θ}, de
ecuación (37). Desarrollando g(·) en serie de Taylor en torno de un punto θ0 , obtenemos que donde se deduce que

g(θ) ≈ g(θ0 ) + (θ − θ0 )g ′ (θ0 ). n nθ2


Eθ [X(n) ] = θ y Vθ (X(n) ) = . (11)
n+1 (n + 1)2 (n + 2)
En consecuencia, si θ0 está cerca de una raı́z θ de la ecuación (37), deberı́a ocurrir lo siguiente
Por lo tanto, θ̂2 es un estimador asintóticamente insesgado para θ. Combinando las identidades
g(θ0 ) (11) en (2), obtenemos
θ ≈ θ0 − . (38)
g ′ (θ0 ) 2
nθ2

n
De la ecuación (38) obtenemos el procedimiento iterativo ECM(θ̂2 ) = Vθ (θ̂2 ) + B2θ (θ̂2 ) = 2
+ θ−θ
(n + 1) (n + 2) n+1
g(θj ) nθ2 θ2 2θ2
θj+1 = θj − (39) = + = . (12)
g ′ (θj ) (n + 1)2 (n + 2) (n + 1)2 (n + 1)(n + 2)

que se inicia con un valor θ0 y produce un nuevo valor θ1 a partir de (39) y ası́ siguiendo, Es fácil, pero tedioso, ver que ECM(θ̂2 ) < ECM(θ̂1 ) para todo θ y todo n. Por lo tanto, X(n)
hasta que el proceso se estabilice, o sea, hasta que |θj+1 − θj | < ǫ para un ǫ > 0 “pequeño” y es mejor que 2X̄ para todo θ y todo n.
prefijado.

19 8
2.3. Consistencia Ejemplo 3.11 (Distribuciones exponenciales). Sea X una variable aleatoria con distribución
Exponencial(λ), λ > 0. Podemos escribir
Lo mı́nimo que se le puede exigir a un estimador puntual, θ̂(X1 , . . . , Xn ), es que, en
algún sentido, se aproxime al verdadero valor del parámetro cuando el volumen de la muestra f (x|λ) = λe−λx = e−λx+log λ
aumenta. En otras palabras, si θ ∈ Θ es tal que F = Fθ y X1 , X2 , . . . es una sucesión Por lo tanto, la distribución de X pertenece a una familia exponencial unidimensional con
de variables aleatorias independientes cada una con distribución F , en algún sentido, debe a(λ) = −λ, b(λ) = log λ, T (x) = x, S(x) = 0 y S = (0, ∞). La ecuación de verosimilitud (32)
ocurrir que adopta la forma
θ̂(X1 , . . . , Xn ) → θ, n
1 1X
cuando n → ∞. = xi = x̄ (33)
λ n
Por ejemplo, es deseable que el estimador θ̂ tenga la siguiente propiedad, llamada consis- i=1

tencia débil : para cada ǫ > 0 debe cumplir que cuya solución es λ = 1/x̄. Se puede verificar que el valor de λ ası́ obtenido maximiza el
logaritmo de la verosimilitud.
lı́m Pθ (|θ̂(X1 , . . . , Xn ) − θ| > ǫ) = 0. (13) Si la muestra aleatoria X = (X1 , . . . , Xn ) arrojó los valores x = (x1 , . . . , xn ), el estimador
n→∞
de máxima verosimilitud para λ es
Más exigente, es pedirle que tenga la siguiente propiedad, llamada consistencia fuerte:
  λ̂mv (x) = (x̄)−1 .
Pθ lı́m θ̂(X1 , . . . , Xn ) = θ = 1. (14) Por lo tanto, el estimador de máxima verosimilitud para λ, basado en una muestra aleatoria
n→∞
X = (X1 , . . . , Xn ) de variables con distribución Exponencial(λ), es
Normalidad asintótica. También se le puede pedir una propiedad similar a la del teorema n
!−1
1X
central lı́mite, llamada normalidad asintótica: existe σ = σ(θ) > 0 tal que λ̂mv (X) = Xi .
n
√ ! Z i=1
x
n(θ̂(X1 , . . . , Xn ) − θ) 1 2
lı́m Pθ ≤x = √ e−t /2 dt (15)
n→∞ σ −∞ 2π Ejemplo 3.12 (Distribuciones normales con media conocida). Sea X una variable aleatoria
con distribución normal N (µ, σ 2 ), donde la media µ es conocida y la varianza σ 2 > 0. Podemos
Nota Bene. Los problemas de consistencia y normalidad asintótica están relacionados con escribir
las leyes de los grandes números y el teorema central de lı́mite. El siguiente ejemplo muestra 1 (x−µ)2 1 2 1 2

dicha relación para el caso en que se quiere estimar la media de una distribución. f (x|σ 2 ) = √ e− 2σ2 = e− 2σ2 (x−µ) − 2 log σ −log 2π
2πσ
Ejemplo 2.9 (Estimación de media). Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una Por lo tanto, la distribución de X pertenece a una familia exponencial √ unidimensional con
variable aleatoria cuya distribución pertenece a una familia F = {Fθ : θ ∈ Θ}. Sean µ(θ) y a(σ 2 ) = − 2σ1 2 , b(σ 2 ) = − 21 log σ 2 , T (x) = (x − µ)2 , S(x) = − log 2π y S = R. La ecuación
σ 2 (θ) la media y la varianza correspondientes a la distribución Fθ , respectivamente. Aplicando de verosimilitud (32) adopta la forma
la desigualdad de Chebychev a X̄ se obtiene que para cada ǫ > 0 n
1/2σ 2 1X
= (xi − µ)2 (34)
1 σ 2 (θ) 1/2(σ 2 )2 n
 
 Vθ (X̄) i=1
Pθ X̄ − µ(θ) > ǫ ≤ 2
= 2
→ 0,
ǫ n ǫ
cuya solución es σ 2 = n1 ni=1 (xi − µ)2 . Se puede verificar que el valor de σ 2 ası́ obtenido
P

cuando n → ∞. maximiza el logaritmo de la verosimilitud.


Hasta aquı́, lo único que hicimos es volver a demostrar la ley débil de los grandes números. Si la muestra aleatoria X = (X1 , . . . , Xn ) arrojó los valores x = (x1 , . . . , xn ), el estimador
Lo que queremos subrayar es que en el contexto de la estimación de parámetros, la ley débil de de máxima verosimilitud para σ 2 es
los grandes números significa que el promedio de la muestra, X̄, es un estimador débilmente n
c2 mv (x) = 1
X
consistente para la la media de la distribución, µ(θ). σ (xi − µ)2 .
n
La consistencia fuerte del promedio, como estimador para la media es equivalente a la i=1

Ley fuerte de los grandes números que afirma que: Si X1 , X2 , . . . es una sucesión de variables Por lo tanto, el estimador de máxima verosimilitud para σ 2 , basado en una muestra aleatoria
aleatorias independientes e idénticamente distribuidas y si existe E[Xi ] = µ, entonces X = (X1 , . . . , Xn ) de variables con distribución N (µ, σ 2 ), es
n
c2 mv (X) = 1
  X
P lı́m X̄ = µ = 1. σ (Xi − µ)2 .
n→∞ n
i=1
La normalidad asintótica es equivalente al teorema central del lı́mite.

9 18
Se puede comprobar que en ese punto de coordenadas (µ, σ 2 ) se alcanza el máximo absoluto Nota Bene. De todas las propiedades de convergencia la consistencia débil es la mas simple,
de la función log L(µ, σ 2 |x). en el sentido de que puede establecerse con unas pocas herramientas técnicas. Para verificar
Resumiendo, cuando la muestra aleatoria X = (X1 , . . . , Xn ) arroja los valores x = la consistencia débil del promedio para estimar la media solamente usamos la desigualdad
(x1 , . . . , xn ), el estimador de máxima verosimilitud para (µ, σ 2 ) es el punto del conjun- de Chebychev y las propiedades de la media y la varianza. El razonamiento utilizado en el
to paramétrico R × (0, ∞) cuyas coordenadas son el promedio y la varianza muestrales: Ejemplo 2.9 se puede extender un poco más allá.
µ̂mv (x) = n1 ni=1 xi = x̄ y σ c2 mv (x) = 1 Pn (xi − x̄)2 .
P
n i=1 Teorema 2.10. Sea θ̂ un estimador de θ basado en una muestra aleatoria de volumen n. Si θ̂
Por lo tanto, el estimador de máxima verosimilitud para (µ, σ 2 ), basado en una muestra
es asintóticamente insesgado y su varianza tiende a cero, entonces θ̂ es débilmente consistente.
aleatoria X = (X1 , . . . , Xn ) de variables normales, N (µ, σ 2 ), es el punto en R × (0, ∞) de
coordenadas aleatorias
Demostración. El resultado se obtiene usando la desigualdad de Chebychev y la identidad
n
c2 mv (X) = 1 (2):
X
µ̂mv (X) = X̄, σ (Xi − X̄)2 . (30)
n
i=1   1 h i 1  
Pθ θ̂ − θ > ǫ ≤ 2 Eθ (θ̂ − θ)2 = 2 Vθ (θ̂) + B2θ (θ̂) → 0.

ǫ ǫ

3.2.1. Familias exponenciales


Muchos modelos estadı́sticos pueden considerarse como casos particulares de una familia 3. Método de máxima verosimilitud
más general de distribuciones.
El método de máxima verosimilitud es un “método universal” para construir estimadores
Definición 3.10 (Familias exponenciales). Decimos que la distribución de una variable puntuales. Su base intuitiva es la siguiente: si al realizar un experimento aleatorio se observa
aleatoria X pertenece a una familia exponencial unidimensional de distribuciones, si podemos un resultado, este debe tener alta probabilidad de ocurrir.
escribir su función de probabilidad o su función densidad como Para hacer más precisa esa base intuitiva consideremos una muestra aleatoria, X =
f (x|θ) = ea(θ)T (x)+b(θ)+S(x) , x ∈ S, (31) (X1 , . . . , Xn ), de una variable aleatoria discreta X con función de probabilidad f (x|θ), θ ∈
Θ, donde Θ es el espacio paramétrico. La probabilidad de observar los resultados X1 =
donde, a y b son funciones de θ; T y S son funciones de x y S no depende de θ. x1 , . . . , Xn = xn se calcula del siguiente modo:
n
Y n
Y
Nota Bene. Si las funciones a y b son derivables y el espacio paramétrico Θ es abierto, Pθ (X1 = x1 , . . . , Xn = xn ) = Pθ (Xi = xi ) = f (xi |θ). (16)
las densidades (31) constituyen una familia regular uniparamétrica y en consecuencia, para i=1 i=1
encontrar el estimador de máxima verosimilitud de θ, basado en una muestra aleatoria X =
(X1 , . . . , Xn ), se puede usar el resultado del Lema 3.5. Si los resultados observables deben tener una alta probabilidad de ocurrir y observamos que
Debido a que el logaritmo de la densidad (31) es X1 = x1 , . . . , Xn = xn , entonces lo razonable serı́a elegir entre todos los parámetros posibles,
θ ∈ Θ, aquél (o aquellos) que maximicen (16). En consecuencia, Q se podrı́a estimar θ como el
log f (x|θ) = a(θ)T (x) + b(θ) + S(x) valor (o los valores) de θ que hace máxima la probabilidad ni=1 f (xi |θ).

tenemos que 3.1. Estimador de máxima verosimilitud (emv)


∂ log f (x|θ) Definición 3.1 (EMV). Sea X una variable aleatoria cuya distribución pertenece a la familia
ψ(θ|x) = = a′ (θ)T (x) + b′ (θ)
∂θ paramétrica F = {Fθ : θ ∈ Θ}. Un estimador de máxima verosimilitud de θ, basado en los
y en consecuencia, la ecuación de verosimilitud (24) adopta la forma valores x = (x1 , . . . , xn ) de una muestra aleatoria X = (X1 , . . . , Xn ), es un valor θ̂mv ∈ Θ que
maximiza la función de verosimilitud
n
X
n
a′ (θ) T (xi ) + nb′ (θ) = 0. Y
i=1 L(θ|x) := f (xi |θ), (17)
i=1
Por lo tanto, el estimador de máxima verosimilitud para θ satisface la ecuación
donde, dependiendo de la naturaleza de las distribuciones de la familia F, f (x|θ) es la función
n
−b′ (θ) 1X de probabilidad o la función densidad de probabilidades de X.

= T (xi ). (32)
a (θ) n
i=1

17 10
Sobre la notación. Para destacar que el valor del estimador de máxima verosimilitud Usando el resultado del Lema 3.5 se puede ver que el estimador de máxima verosimilitud para
depende de los valores observados, x = (x1 , . . . , xn ), en lugar de θ̂mv escribiremos θ̂mv (x): θ es
n
θ̂mv = θ̂mv (x) := arg máx L(θ|x). (18) 1X
θ∈Θ
θ̂mv (X) = Xi = X̄.
n
i=1
Ejemplo 3.2. Supongamos que tenemos una moneda que puede ser equilibrada o totalmente
En efecto, como
cargada para que salga cara. Lanzamos la moneda n veces y registramos la sucesión de caras
y cecas. Con esa información queremos estimar qué clase de moneda tenemos. ∂ log f (x|θ) x−θ
ψ(θ|x) = =
Cada lanzamiento de la moneda se modela con una variable aleatoria X con distribución ∂θ σ2
Bernoulli(θ), donde θ es la probabilidad de que la moneda salga cara. El espacio paramétrico la ecuación de verosimilitud (24) equivale a
es el conjunto Θ = {1/2, 1}.
n
El estimador de máxima verosimilitud para θ, basado en los valores x = (x1 , . . . , xn ) de X
(xi − θ) = 0.
una muestra aleatoria X = (X1 , . . . , Xn ) de la variable X, es el valor de θ̂mv (x) ∈ Θ = {1/2, 1}
i=1
que maximiza la función de verosimilitud L(θ|x). Para encontrarlo comparamos los valores
de la función de verosimilitud L(1/2|x) y L(1|x): El resultado se obtiene despejando θ.

n
( n ) Ejemplo 3.9 (Distribuciones normales). La familia de distribuciones normales
Y X
n
L(1/2|x) = f (xi |1/2) = (1/2) , L(1|x) = 1 xi = n . {N (µ, σ 2 ) : µ ∈ R, σ 2 > 0}
i=1 i=1
es una familia regular con parámetro bidimensional θ = (µ, σ 2 ) ∈ Θ = R × (0, ∞). Para
En consecuencia, el estimador de máxima verosimilitud para θ, basado en los valores x =
encontrar el estimador de máxima verosimilitud del parámetro (µ, σ 2 ) basado en una muestra
(x1 , . . . , xn ) de una muestra aleatoria X = (X1 , . . . , Xn ) es
aleatoria X = (X1 , . . . , Xn ) usaremos los resultados del Lema 3.5. La densidad de cada
variable X es
( n ) ( n )
1 X X
− 1

(x − µ)2

θ̂mv (x) = 1 xi < n + 1 xi = n . 1
f (x|µ, σ 2 ) = (2π)− 2 σ 2 2 exp −
2 2σ 2
i=1 i=1

Por lo tanto, el estimador de máxima verosimilitud para θ basado en una muestra aleatoria con lo cual
1 1 (x − µ)2
X = (X1 , . . . , Xn ) es log f (x|µ, σ 2 ) = log(2π)− 2 − log σ 2 − .
2 2σ 2
En consecuencia,
( n ) ( n )
1 X X
θ̂mv (X) = 1 Xi < n + 1 Xi = n . ∂ log f (x|µ, σ 2 ) x−µ
2 =
i=1 i=1 ∂µ σ2
y
Por ejemplo, si en 10 lanzamientos de la moneda se observaron 10 caras, el estimador de
∂ log f (x|µ, σ 2 ) 1 (x − µ)2
máxima verosimilitud para θ es θ̂mv = 1; en cambio si se observaron 8 caras y 2 cecas, el =− 2 + .
∂σ 2 2σ 2(σ 2 )2
estimador de máxima verosimilitud es θ̂mv = 1/2.
Luego el sistema de ecuaciones (22) se transforma en el sistema

Ejemplo 3.3. Sea X una variable aleatoria con función densidad dada por n
!
1 X
xi − nµ = 0,
1 σ2
f (x|θ) = (1 + θx)1{x ∈ [−1, 1]}, θ ∈ [−1, 1]. i=1
2 n
!
1 1 X
Supongamos que queremos hallar el estimador de máxima verosimilitud para θ basado en la 2
−n + 2 (xi − µ)2 = 0.
2σ σ
realización de una muestra aleatoria tamaño 1, X1 . Si se observa el valor x1 , la función de i=1

verosimilitud adopta la forma que tiene como solución


1
L(θ|x1 ) = (1 + θx1 ) n
2 1X
µ = xi = x̄,
El gráfico de L(θ|x1 ) es un segmento de recta de pendiente x1 . Como se trata de una recta el n
i=1
máximo se alcanza en alguno de los extremos del intervalo Θ = [−1, 1]: n
2 1X
σ = (xi − x̄)2 .
1. si x1 < 0, el máximo se alcanza en θ = −1, n
i=1

11 16
Por lo tanto, el estimador de máxima verosimilitud para θ, basado en una muestra aleatoria 2. si x1 = 0, el máximo se alcanza en cualquiera de los valores del intervalo Θ,
X = (X1 , . . . , Xn ) de una variable con distribución Bernoulli(θ), es el promedio muestral
3. si x1 > 0, el máximo se alcanza en θ = 1.
n
1X
θ̂mv (X) = Xi . (28) Abusando de la notación tenemos que
n
i=1
θ̂mv (x1 ) = −1{x1 < 0} + Θ1{x1 = 0} + 1{x1 > 0}.

Por lo tanto,
Nota Bene. El estimador de máxima verosimilitud para θ, basado en una muestra aleatoria
X = (X1 , . . . , Xn ), de una variable aleatoria con distribución Bernoulli(θ), θ̂mv (X1 ) = −1{X1 < 0} + Θ1{X1 = 0} + 1{X1 > 0}.
n
1 X
X̄ = Xi , 
n
i=1 Ejemplo 3.4. Sea X una variable aleatoria con función densidad dada por
es una variable aleatoria. Subrayamos este hecho para que no se pierda de vista que los 1
estimadores puntuales son funciones de la muestra aleatoria X = (X1 , . . . , Xn ) y por lo tanto f (x|θ) = (1 + θx)1{x ∈ [−1, 1]}, θ ∈ [−1, 1].
2
son variables aleatorias. En el Ejemplo 3.6, el parámetro θ es la media de la distribución que
produce la muestra y el estimador de máxima verosimilitud para θ es el promedio muestral. Supongamos que una muestra aleatoria de tamaño 2 arrojó los valores 1/2 y 1/4 y con esa
Por lo tanto, θ̂mv es un estimador insesgado, consistente y asintóticamente normal. información queremos hallar el estimador de máxima verosimilitud para θ. La función de
verosimilitud adopta la forma
Nota Bene. Si la muestra aleatoria arrojó los valores 1, 1, . . . , 1, es fácil ver que θ̂mv = 1, 1

1

1

en cambio si arrojó 0, 0, . . . , 0 resulta que θ̂mv = 0. Estos resultados también coinciden con L(θ|1/2, 1/4) = 1+θ 1+θ ,
4 2 4
el promedio de los valores observados. Por lo tanto, el resultado obtenido en (28) se puede
extender al caso en que Θ = [0, 1]. y su gráfico es un segmento de parábola “cóncava” cuyas raı́ces son −4 y −2. Por lo tanto,
θ̂mv (1/2, 1/4) = 1.
Ejemplo 3.7 (Distribuciones de Bernoulli). Bajo el supuesto de que los valores de la secuencia Supongamos ahora que una muestra aleatoria de tamaño 2 arrojó los valores 1/2 y −1/4 y
con esa información queremos hallar el estimador de máxima verosimilitud para θ. La función
0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0. (29)
de verosimilitud adopta la forma
fueron arrojados por una muestra aleatoria de tamaño 20 de una variable aleatoria X ∼ 1

1

1

Bernoulli(θ), el estimador de máxima verosimilitud arrojará como resultado la siguiente esti- L(θ|1/2, −1/3) = 1+θ 1−θ ,
4 2 3
mación para el parámetro θ:
y su gráfico es un segmento de parábola “convexa” cuyas raı́ces son −2 y 3. Por lo tanto,
11
θ̂mv (0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0) = = 0.55 θ̂mv (1/2, −1/3) = 0.5.
20
Con esta estimación podrı́amos decir que la ley que produce esos valores es la distribución de 3.2. Cálculo del emv para familias regulares
Bernoulli (0.55). Por lo tanto, si queremos “reproducir” el generador de números aleatorios
que produjo esos resultados, debemos simular números aleatorios con distribución de Bernoulli Sea F = {Fθ : θ ∈ Θ} una familia paramétrica de distribuciones y sea {f (x|θ) : θ ∈ Θ}
de parámetro 0.55. la familia de funciones de densidad (o de probabilidad) asociada. Diremos que la familia F
es regular si satisface las siguientes condiciones:
Ejemplo 3.8 (Distribuciones normales con varianza conocida). Sea X = (X1 , . . . , Xn ) una
muestra aleatoria de una variable aleatoria X ∼ N (θ, σ 2 ), con varianza σ 2 > 0 conocida y 1. El conjunto paramétrico Θ ⊂ Rd es abierto.
media θ ∈ R. La familia de distribuciones normales N (θ, σ 2 ), θ ∈ R, es una familia regular 2. El soporte de las funciones f (x|θ) no depende del parámetro. Esto es, existe un conjunto
uniparamétrica con densidades de la forma S tal que sopf (·|θ) := {x ∈ R : f (x|θ) > 0} = S para todo θ ∈ Θ.
1 (x−θ)2
f (x|θ) = √ e− 2σ2 . 3. Para cada x ∈ S, la función f (x|θ) tiene derivadas parciales respecto de todas las
σ 2π componentes θj , j = 1, . . . , d.

15 12
Supongamos ahora que X = (X1 , . . . , Xn ) es una muestra aleatoria de tamaño n de una Nota Bene. Si la función de densidad (o de probabilidad) f (x|θ) de la variable aleatoria
variable aleatoria X con función de densidad (o de probabilidad) f (x|θ), θ ∈ Θ, perteneciente X pertenece a una familia regular uniparamétrica de distribuciones, i.e., cuando el espacio
a una familia regular de distribuciones. Debido a que la familia es regular cada uno de los paramétrico Θ es un subconjunto de la recta real R, el sistema de ecuaciones (22) se reduce
valores observados pertenece al soporte común de las funciones f (x|θ): x = (x1 , . . . , xn ) ∈ Sn . a una sola ecuación, denominada la ecuación de verosimilitud,
Por lo tanto, cualesquiera sean los valores observados, x = (x1 , . . . , xn ), vale que n
X
n
Y ψ(θ|xi ) = 0, (24)
L(θ|x) = f (xi |θ) > 0. i=1
i=1
donde, para cada x ∈ S, la función de θ, ψ(θ|x), se define por
Esto habilita a tomar logaritmos y utilizar la propiedad “el logaritmo del producto es igual
a la suma de los logaritmos”. En consecuencia, para cada x = (x1 , . . . , xn ) ∈ Sn , la función ∂ log f (x|θ)
ψ(θ|x) := . (25)
log L(θ|x) está bien definida y vale que ∂θ
n n Ejemplo 3.6 (Distribuciones de Bernoulli). Es fácil ver que la familia de distribuciones
Bernoulli(θ), θ ∈ (0, 1), es una familia uniparamétrica regular con funciones de probabilidad
Y X
log L(θ|x) = log f (xi |θ) = log f (xi |θ). (19)
i=1 i=1 de la forma f (x|θ) = (1 − θ)1−x θx , x = 0, 1. En consecuencia, para encontrar el estimador de
máxima verosimilitud para θ basado en una muestra aleatoria X = (X1 , . . . , Xn ) podemos
Como el logaritmo natural log(·) es una función monótona creciente, maximizar la función
usar el resultado del Lema 3.5.
de verosimilitud L(θ|x) será equivalente a maximizar log L(θ|x). La ventaja de maximizar el
∂ log f (x|θ)
logaritmo de la función de verosimilitud es que, bajo las condiciones de regularidad enunciadas En primer lugar hallamos la expresión de la función ψ(θ|x) = ∂θ . Observando que
previamente, los productos se convierten en sumas, aligerando considerablemente el trabajo 1−x x
log f (x|θ) = log(1 − θ) θ = (1 − x) log(1 − θ) + x log θ,
de cómputo del EMV ya que el EMV debe verificar el sistema de ecuaciones
∂ log L(θ|x) y derivando respecto de θ obtenemos
=0 j = 1, . . . , d. (20)
∂θj 1 1
ψ(θ|x) = (x − 1) + x
1−θ θ
En vista de (19) el sistema de ecuaciones (20) se transforma en
n Por lo tanto, la ecuación de verosimilitud (24) adopta la forma
X ∂ log f (xi |θ)
= 0, j = 1, . . . , d. (21) n n
∂θj 1 X 1X
i=1 (xi − 1) + xi = 0. (26)
1−θ θ
i=1 i=1
Por este camino llegamos al siguiente resultado que provee la herramienta adecuada para el
cálculo del EMV. Un poco de álgebra muestra que para cada pareja a 6= b vale que:
Lema 3.5. Sea X una variable aleatoria con función de densidad (o de probabilidad) f (x|θ), 1 1 b
a+ b=0⇔θ = . (27)
θ ∈ Θ ⊂ Rd , perteneciente a una familia regular de distribuciones. El estimador de máxima 1−θ θ b−a
verosimilitud de θ, basado en los valores x = (x1 , . . . , xn ) de una muestra aleatoria X =
Sigue de (27), poniendo a = ni=1 (xi − 1) = ni=1 xi − n y b = ni=1 xi , que la solución de la
P P P
(X1 , . . . , Xn ), es solución del siguiente sistema de ecuaciones:
ecuación (26) es
n
n
X
ψj (θ|xi ) = 0 j = 1, . . . , d, (22) 1X
θ= xi .
i=1 n
i=1
donde, para cada x ∈ S, la funciones de θ, ψj (θ|x), j = 1, . . . , d, se definen por
Con un poco más de trabajo, se puede verificar que dicha solución maximiza el logaritmo de
∂ log f (x|θ) la verosimilitud.
ψj (θ|x) := . (23)
∂θj En resumen, si x = (x1 , . . . , xn ) son los valores observados de una muestra aleatoria
X = (X1 , . . . , Xn ), el estimador de máxima verosimilitud para θ es el promedio (o media)
Nota Bene. Por supuesto que las condiciones (22) son necesarias pero no suficientes para muestral
que θ sea un máximo. Para asegurarse que θ es un máximo deberán verificarse las condi- n
ciones de segundo orden. Además debe verificarse que no se trata de un máximo relativo sino 1X
θ̂mv = θ̂mv (x) = xi
absoluto. n
i=1

13 14
es un test de nivel α para decidir entre las hipótesis√H0 : µ = µ0 contra

H1 : µ 6= µ0 . El estimador de máxima verosimilitud para θ es X(n) = máx(X1 , . . . , Xn ) y tiene densidad
0) 0)
Dicho en palabras, el test consiste en rechazar H0 si n(X̄−µ < zα/2 o n(X̄−µ > z1−α/2 de la forma
σ σ nxn−1
y aceptarla en otro caso. f (x) = 1{0 ≤ x ≤ θ}.
θn
Como la distribución de X(n) depende de θ, X(n) no es un pivote para θ. Sin embargo, podemos
Nota Bene. Construir un test es la primera fase para decidir entre dos hipótesis. Con- liberarnos de θ utilizando un cambio de variables lineal de la forma Q = X(n) /θ:
struido el test es “obligatorio” analizar los riesgos de tomar decisiones erróneas. En otras
palabras, el test debe acompañarse con su correspondiente función de potencia. fQ (q) = nq n−1 1{0 ≤ q ≤ 1}.

Función de potencia Por lo tanto,

Los riesgos de tomar decisiones erróneas utilizando el test de hipótesis definido en Q(X, θ) = X(n) /θ
(16) pueden evaluarse caracterizando su correspondiente función de potencia: β(µ) :=
es un pivote para θ.
P(Rechazar H0 |µ). Se trata de obtener una expresión “analı́tica”que nos permita carac-
terizar cuantitativa y cualitativamente las propiedades de dicha función.
5
Vale que
4.5
 √   √ 
n(µ0 − µ) n(µ − µ0 ) 4

β(µ) = Φ zα/2 + + Φ zα/2 + . (17) 3.5


σ σ
3

En efecto, 2.5

β(µ) = P(Rechazar H0 |µ) 1.5


√ ¯  √ ¯ 
n(X − µ0 ) n(X − µ0 ) 1

= Pµ < zα/2 + Pµ > z1−α/2 0.5


σ σ
√ ¯ √  0
0 0.2 0.4 0.6 0.8 1
n(X − µ) n(µ − µ0 )
= Pµ + < zα/2
σ σ
√ ¯ √ 
n(X − µ) n(µ − µ0 )
+Pµ + > z1−α/2 Figura 1: Forma tı́pica del gráfico de la densidad del pivote Q(X, θ).
σ σ
√ ¯ √ 
n(X − µ) n(µ0 − µ) Los cuantiles-γ para Q se obtienen observando que
= Pµ < zα/2 +
σ σ Z qγ
√ ¯ √  γ = P(Q(X, θ) ≤ qγ ) = fQ (q)dq ⇐⇒ qγ = γ 1/n .
n(X − µ) n(µ − µ0 )
+Pµ > −zα/2 − 0
σ σ
 √   √  Construyendo un intervalo de confianza. Dado el nivel de confianza β ∈ (0, 1), para con-
n(µ0 − µ) n(µ − µ0 )
= Φ zα/2 + + Φ zα/2 + . struir un intervalo de confianza de nivel β notamos que
σ σ

β = Pθ (q1−β ≤ Q(X, θ) ≤ 1) = Pθ q1−β ≤ X(n) /θ ≤ 1
Notar que la función de potencia dada en (17) satisface las siguientes propiedades
Despejando θ de las desigualdades dentro de la probabilidad, resulta que
(a) β(µ) es simétrica con respecto a µ0 : β(µ0 + m) = β(µ0 − m) para todo m > 0.
X(n) X(n)
   
(b) β(µ) es creciente4 sobre la semi-recta (µ0 , ∞). I(X) = X(n) ,
q1−β
= X(n) , 1/n
(1 − β)
(c) β(µ0 ) = α. es un intervalo de confianza para θ de nivel β.
4
Derivar con respecto de µ la expresión (17) y hacer cuentas.

14
7
1.1.2. Pivotes crecientes es un pivote para la diferencia de medias ∆ = µX − µY .
Sea Q(X, θ) un pivote para θ que goza de las siguientes propiedades: 10. Para cociente de varianzas de normales con medias desconocidas. Si X1 , . . . , Xm
2
(i) la función de distribución de Q(X, θ) es continua y estrictamente creciente; e Y1 , . . . , Yn son dos m.a. independientes de distribuciones N (µX , σX ) y N (µY , σY2 ),
con µX y µY desconocidas, entonces
(ii’) para cada x, la función Q(x, θ) es continua y monótona creciente en la variable θ:  2
1 SX
θ1 < θ2 =⇒ Q(x, θ1 ) < Q(x, θ2 ) ∼ Fm−1, n−1
R SY2
2
es un pivote para el cociente de las varianzas R = σX /σY2 .
q
11. Para diferencia de probabilidades de éxito de Bernoulli. Si X1 , . . . , Xm e
q = Q(x, θ) Y1 , . . . , Yn son dos m.a. independientes de distribuciones Bernoulli(pX ) y Bernoulli(pY ).
Entonces,
X¯ − Y¯ − ∆
q ∼ N (0, 1)
1 ¯ ¯ + 1 Y¯ (1 − Y¯ )
m
X(1 − X) n

es un pivote aproximado para la diferencia ∆ = pX − pY .


4. Test para media de normales


En esta sección usaremos el método del pivote para construir test de hipótesis sobre la
media de distribuciones normales.

{θ : Q(x, θ) ≤ qγ } 4.1. Hipótesis sobre media con varianza conocida


θ Basados en una muestra aleatoria X = (X1 , . . . , Xn ) de una distribución normal N (µ, σ 2 )
θ(x, γ)
con varianza σ 2 conocida queremos construir un test de nivel de significación α para decidir
entre las hipótesis
Sea γ ∈ (0, 1), arbitrario pero fijo y sea qγ el cuantil-γ del pivote Q(X, θ). H0 : µ = µ0 contra H1 : µ 6= µ0 ,
Para cada x, sea θ(x, γ) la única solución de la ecuación en θ donde µ0 es un algún valor determinado.
Q(x, θ) = qγ .
Test de hipótesis
Como el pivote Q(X, θ) es creciente en θ tenemos que
Para distribuciones normales con varianza conocida sabemos que
Q(X, θ) ≤ qγ ⇐⇒ θ ≤ θ(X, γ). √ ¯
¯ µ) = n(X − µ) ∼ N (0, 1)
Q(X,
En consecuencia, σ
es un pivote para µ basado en X ¯ = 1 Pn Xi .
Pθ (θ ≤ θ(X, γ)) = Pθ (Q(X, θ) ≤ qγ ) = γ, ∀ θ ∈ Θ. n i=1
Es fácil ver que el pivote satisface las dos condiciones enunciadas al principio de la
Por lo tanto, θ(X, γ) es una cota superior de confianza para θ de nivel γ y una cota inferior Sección 3. De acuerdo con los resultados expuestos en la sección 3.1
de nivel 1 − γ. √ ¯  √ ¯ 
n(X − µ0 ) n(X − µ0 )
δ(X) = 1 < zα/2 + 1 > z1−α/2 , (16)
σ σ

13
8
4. Para varianza de normales con media desconocida. Si X1 , . . . , Xn es una m.a. Método
de una distribución N (µ, σ 2 ), con µ desconocida, entonces Sea β ∈ (0, 1). Si se dispone de un pivote Q(X, θ) que satisface las propiedades (i) y (ii’)
n enunciadas más arriba, entonces
(n − 1) 2 1 X ¯ 2 ∼ χ2
S = (Xi − X) n−1
σ2 σ 2 i=1 la variable aleatoria, θ1 (X), que se obtiene resolviendo la ecuación Q(X, θ) = q1−β es
una cota inferior de confianza para θ, de nivel β.
es un pivote para σ 2 .
la variable aleatoria, θ2 (X), que se obtiene resolviendo la ecuación Q(X, θ) = qβ es una
5. Para probabilidad de éxito de distribuciones Bernoulli. Si X1 , . . . , Xn es una cota superior de confianza para θ, de nivel β.
m.a. de una distribución Bernoulli(p) y n >> 1, entonces
√ ¯ el intervalo aleatorio I(X) = [θ1 (X), θ2 (X)], cuyos extremos son las soluciones respec-
n(X − p) tivas de las ecuaciones Q(X, θ) = q 1−β y Q(X, θ) = q 1+β , es un intervalo “bilateral” de
p ∼ N (0, 1) 2 2
p(1 − p) confianza para θ, de nivel β.
es un pivote aproximado para p. Ejemplo 1.7 (Intensidad de la distribución exponencial). Sea X = (X1 , . . . , Xn ) una muestra
6. Para intensidad de exponenciales. Si X1 , . . . , Xn es una m.a. de una distribución aleatoria de una variable aleatoria X ∼ Exp(λ), λ > 0.
máxima verosimilitud para λ es 1/X̄, donde X̄ = n1 ni=1 Xi . Sabemos
P
El estimador deP
Exponencial(λ), entonces n
Xn que la suma nX̄ = i=1 Xi tiene distribución Γ(n, λ).
2λnX¯ =λ Xi ∼ χ22n Como la distribución de nX̄ depende de λ, nX̄ no es un pivote para λ. Sin embargo,
i=1 podemos liberarnos de λ utilizando un cambio de variables lineal de la forma Q = anX̄,
es un pivote para λ. donde a es positivo yelegido adecuadamente para nuestros propósitos. Si a > 0 y Q = anX̄,
entonces Q∼ Γ n, λa . Poniendo a = 2λ, resulta que Q = 2λnX̄ ∼ Γ n, 12 = χ22n . (Recordar
7. Para extremo derecho de uniformes. Si X1 , . . . , Xn es una m.a. de una distribu- que Γ n2 , 12 = χ2n .)
ción U(0, θ), entonces Por lo tanto,
X(n) máx(X1 , . . . , Xn ) n
= X
θ θ Q(X, λ) = 2λnX̄ = 2λ Xi ∼ χ22n
es un pivote para θ cuya densidad es f (x) = nxn−1 1{0 ≤ x ≤ 1}. i=1

8. Para diferencia de medias de normales con varianzas conocidas. Si X1 , . . . , Xm es un pivote para λ.


2
e Y1 , . . . , Yn son dos m.a. independientes de distribuciones N (µX , σX ) y N (µY , σY2 ), Construyendo una cota superior de confianza. Dado β ∈ (0, 1), para construir una cota
2 superior de confianza para λ, de nivel β, primero observamos que el pivote Q(X, λ) = 2λnX̄
con σX y σY2 conocidas, entonces
es una función continua y decreciente en λ. Debido a que
¯ − Y¯ − ∆
X
q ∼ N (0, 1) χ2β
2
σX
+
2
σY 2λnX̄ = χ2β ⇐⇒ λ =
m n 2nX̄
es un pivote para la diferencia de medias ∆ = µX − µY . resulta que
χ2
9. Para diferencia de medias de normales con varianzas desconocidas pero λ2 (X) = Pnβ
2 i=1 Xi
iguales. Si X1 , . . . , Xm e Y1 , . . . , Yn son dos m.a. independientes de distribuciones
es una cota superior de confianza para λ de nivel β.
N (µX , σ 2 ) y N (µY , σ 2 ), con varianza común σ 2 desconocida, entonces3
X ¯ − Y¯ − ∆ Ilustración. Consideremos ahora las siguientes 10 observaciones
p q1 ∼ tm+n−2
SP2 m + n1 0.5380, 0.4470, 0.2398, 0.5365, 0.0061,
3 0.3165, 0.0086, 0.0064, 0.1995, 0.9008.
2
(m − 1)SX + (n − 1)SY2
SP2 := En tal caso tenemos 10
P
m+n−2 i=1 = 3.1992. Tomando β = 0.975, tenemos de la tabla de la distribu-
2 2
ción χ20 que χ20,0.975 = 34.17, entonces λ2 (x) = 5.34 es una cota superior de confianza para
λ de nivel β = 0.975.
12
9
2. Muestras de Poblaciones Normales 2.- Si se desea un test de nivel α para decidir entre las hipótesis
En esta sección estudiaremos la distribución de probabilidades de los estimadores de máxi- H 0 : θ ≥ θ0 contra H 1 : θ < θ0
ma verosimilitud para la media y la varianza de poblaciones normales. La técnica de análisis
se basa en la construcción de pivotes para los parámetros desconocidos. Usando esos pivotes basta considerar
mostraremos como construir intervalos de confianza en los distintos escenarios posibles que n o
se pueden presentar. ˆ
δ(X) = 1 Q(θ(X), θ0 ) < qα . (15)

Notación. En todo lo que sigue usaremos la siguiente notación: para cada γ ∈ (0, 1), zγ ˆ
En efecto, si θ ≥ θ0 , entonces Q(θ(X), ˆ
θ) ≤ Q(θ(X), θ0 ) y en consecuencia
será el único número real tal que Φ(zγ ) = γ. Gráficamente, a izquierda del punto zγ el área    
bajo la campana de Gauss es igual a γ. ˆ
β(θ) = P (Rechazar H0 |θ) = Pθ Q(θ(X), ˆ
θ0 ) < qα ≤ Pθ Q(θ(X), θ) < qα = α.

Nota Bene. De la simetrı́a de la campana de Gauss, se deduce que para cada β ∈ (0, 1) Por lo tanto,
vale que z(1−β)/2 = −z(1+β)/2 . Por lo tanto, para Z ∼ N (0, 1) vale que máx β(θ) ≤ α.
θ≥θ0
1+β 1−β
ˆ
  
P −z(1+β)/2 ≤ Z ≤ z(1+β)/2 = Φ z(1+β)/2 − Φ −z(1+β)/2 = − = β. Pero como β(θ0 ) = Pθ0 (Q(θ(X), θ0 < qα ) = α, resulta que
2 2

2.1. Media y varianza desconocidas máx β(θ) = α.


θ≥θ0

Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable aleatoria X ∼ N (µ, σ 2 ), con
media µ y varianza desconocidas. Los estimadores de máxima verosimilitud para la media y
la varianza, basados en X, son, respectivamente,
n
3.4. Algunos pivotes
c2 mv (X) = 1
X
µ̂mv (X) = X̄, σ (Xi − X̄)2 . (5) 1. Para media de normales con varianza conocida. Si X1 , . . . , Xn es una m.a. de
n
i=1
una distribución N (µ, σ 2 ), con σ 2 conocida, entonces
2.1.1. Teorema llave √ ¯
n(X − µ)
∼ N (0, 1)
Teorema 2.1 (Llave). Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una distribución σ
N (µ, σ 2 ). Valen las siguientes afirmaciones:
√ es un pivote para µ.
n(X̄−µ)
(a) Z = σ tiene distribución N (0, 1).
n−1 2 1 Pn 2
2. Para media de normales con varianza desconocida. Si X1 , . . . , Xn es una m.a.
(b) U = σ 2 S = σ2 i=1 (Xi − X̄) tiene distribución χ2n−1 . de una distribución N (µ, σ 2 ), con σ 2 desconocida, entonces
(c) Z y U son variables aleatorias independientes. √ ¯
n(X − µ)
∼ tn−1
Nota Bene. El calificativo de “llave” para el Teorema 2.1 está puesto para destacar que S
sus resultados son la clave fundamental en la construcción de intervalos de confianza y de es un pivote para µ.
reglas de decisión sobre hipótesis estadı́sticas para distribuciones normales. La prueba de este
Teorema puede verse en el Apéndice. 3. Para varianza de normales con media conocida. Si X1 , . . . , Xn es una m.a. de
Corolario 2.2 (Pivotes para la media y la varianza).PSea X = (X1 , . . . , XP
una distribución N (µ, σ 2 ), con µ conocida, entonces
n ) una muestra
aleatoria de una distribución N (µ, σ 2 ). Sean X̄ = n1 ni=1 Xi y S 2 = n−1
1 n 2
i=1 (Xi − X̄) . n
n b2 1 X
Vale que
2
σ mv = 2 (Xi − µ)2 ∼ χ2n
σ σ i=1
(a)
es un pivote para σ 2 .
(n − 1) 2
Q(X, σ 2 ) = S (6)
σ2
11
10
3.2. Hipótesis fundamental simple contra alternativa unilateral es un pivote para la varianza σ 2 y su distribución es una chi cuadrado con n − 1 grados
de libertad (en sı́mbolos, Q(X, σ 2 ) ∼ χ2n−1 ).
Se desea un test de nivel α para decidir entre las hipótesis
(b)
H 0 : θ = θ0 contra H 1 : θ > θ0 . √
n(X̄ − µ)
Q(X, µ) = (7)
Proponemos un test de la forma S
n o es un pivote para la media µ y su distribución es una t de Student con n − 1 grados de
ˆ
δ(X) = 1 Q(θ(X), θ0 ) > qγ (13) libertad (en sı́mbolos, Q(X, µ) ∼ tn−1 ).

Como la hipótesis fundamental es de la forma θ = θ0 el nivel de significación del test es Demostración.


 
α(δ) = β(θ0 ) = P (Rechazar H0 |θ0 ) = P Q(θ(X),ˆ θ0 ) > qγ = 1 − γ. (a) Inmediato de la afirmación (b) del Teorema 2.1.

(b) La afirmación (a) del Teorema 2.1 indica que Z = n(X̄ −µ)/σ ∼ N (0, 1). Pero como σ 2

Poniendo γ = 1 − α obtenemos que α(δ) = α. Por lo tanto, el test deseado puede obtenerse es un parámetro desconocido, la transformación n(X̄ − µ)/σ es inútil por sı́ sola para
de la siguiente manera: construir un pivote. Sin embargo, la afirmación (c) del Teorema 2.1 muestra que este
n o problema se puede resolver reemplazando la desconocida σ 2 por su estimación insesgada
ˆ
δ(X) = 1 Q(θ(X), θ0 ) > q1−α . (14) S 2 . Concretamente, tenemos que
√ √ √
n(X̄ − µ) n(X̄ − µ)/σ n(X̄ − µ)/σ Z
Q(X, µ) = = = p =p ,
S S/σ S 2 /σ 2 U/(n − 1)

3.3. Hipótesis fundamental unilateral contra alternativa unilat- donde Z = n(X̄ − µ)/σ ∼ N (0, 1) y U = (n−1) σ2
S 2 ∼ χ2n−1 son variables aleatorias
eral independientes. En consecuencia, Q(X, µ) ∼ tn−1 .

1.- Como consecuencia de que la función Q(t, θ) es decreciente en θ, el test definido en 2.1.2. Cotas e intervalos de confianza para la varianza
(14) también se puede utilizar como test de nivel α para decidir entre las hipótesis
Notar que el pivote para la varianza Q(X, σ 2 ) definido en (6) goza de las propiedades
H 0 : θ ≤ θ0 contra H 1 : θ > θ0 . enunciadas en la sección 1.1.1 para pivotes decrecientes:

ˆ ˆ la función de distribución de Q(X, σ 2 ) es continua y estrictamente creciente;


En efecto, si θ ≤ θ0 , entonces Q(θ(X), θ) ≥ Q(θ(X), θ0 ) y en consecuencia
    para cada x, la función Q(x, σ 2 ) es continua y monótona decreciente respecto de σ 2 .
ˆ
β(θ) = P (Rechazar H0 |θ) = Pθ Q(θ(X), ˆ
θ0 ) > q1−α ≤ Pθ Q(θ(X), θ) > q1−α = α.
En consecuencia, las cotas e intervalos de confianza para la varianza se pueden construir
usando el resolviendo la ecuación Q(X, σ 2 ) = χ2n−1, γ , donde chi2n−1, γ designa el cuantil-γ de
Por lo tanto,
la distribución chi cuadrado con n − 1 grados de libertad.
máx β(θ) ≤ α.
θ≤θ0 Observando que
 
ˆ
Pero como β(θ0 ) = Pθ0 Q(θ(X), θ0 ) > q1−α = α, resulta que (n − 1)S 2 (n − 1)S 2
Q(X, σ 2 ) = χ2n−1, γ ⇐⇒ = χ2n−1, γ ⇐⇒ σ 2 = , (8)
σ2 χ2n−1, γ
máx β(θ) = α.
θ≤θ0 se deduce que, para cada β ∈ (0, 1),

1.
(n − 1)S 2
σ12 (X) =
χ2n−1, β
es una cota inferior de confianza de nivel β para σ 2 ;
10
11
2. 3. Si [θ1 (X), θ2 (X)] es un intervalo de confianza de nivel 1 − α para θ. Entonces
(n − 1)S 2
σ22 (X) = δ(X) = 1{[θ1 (X), θ2 (X)] 6∋ θ0 }
χ2n−1, 1−β
es un test de nivel α para decidir entre las hipótesis
es una cota superior de confianza de nivel β para σ 2 ;
H 0 : θ = θ0 contra H1 : θ 6= θ0 .
3. " #
(n − 1)S 2 (n − 1)S 2 Nota Bene. Notar que en cualquiera de los tres casos se rechaza la hipótesis H0 cuando
I(X) = ,
χ2n−1, (1+β)/2 χ2n−1, (1−β)/2 y solo cuando los intervalos de confianza están contenidos en la hipótesis alternativa H1 .
es un intervalo de confianza de nivel β para σ 2 .
3. El método del pivote
2.1.3. Cotas e intervalos de confianza para la media
Notar que el pivote para la media Q(X, µ) definido en (7) goza de las propiedades enun- Cuando se quieren construir test de hipótesis para el parámetro desconocido θ lo más
ciadas en la sección 1.1.1 para pivotes decrecientes: natural es comenzar la construcción apoyándose en algún estimador puntual del parámetro
ˆ
θ(X) (cuya distribución depende de θ). El método del pivote consiste en transformar el
la función de distribución de Q(X, µ) es continua y estrictamente creciente; ˆ
estimador θ(X) ˆ
en un pivote Q(θ(X), θ) y utilizarlo para construir el test deseado.
para cada x, la función Q(x, µ) es continua y monótona decreciente respecto de µ.
ˆ
Nota Bene. Por definición, la distribución del pivote Q(θ(X), θ) no depende de θ. Para
En consecuencia, las cotas e intervalos de confianza para la varianza se pueden construir cada γ ∈ (0, 1) notaremos mediante qγ el cuantil-γ del pivote.
usando el resolviendo la ecuación Q(X, µ) = tn−1, γ , donde tn−1, γ designa el cuantil-γ de la En todo lo que sigue vamos a suponer que Q(θ(X), ˆ θ) es un pivote que goza de las
distribución t de Student con n − 1 grados de libertad. siguientes propiedades:
Observando que
ˆ
1. La función de distribución de Q(θ(X), θ) es continua y estrictamente creciente.

n(X̄ − µ) S
Q(X, µ) = tn−1, γ ⇐⇒ = tn−1, γ ⇐⇒ µ = X̄ − √ tn−1, γ , (9) 2. La función Q(t, θ) es monótona decreciente en θ:
S n
θ1 < θ2 =⇒ Q(t, θ1 ) > Q(t, θ2 ). (10)
y usando que que la densidad de la distribución tn−1 es simétrica respecto del origen (i.e,
tn−1, 1−γ = −tn−1, γ ), tenemos que, para cada β ∈ (0.5, 1),
3.1. Hipótesis fundamental simple contra alternativa bilateral
1.
S Se desea un test de nivel α para decidir entre las hipótesis
µ1 (X) = X̄ − √ tn−1, β
n H 0 : θ = θ0 contra H1 : θ 6= θ0 .
es una cota inferior de confianza de nivel β para µ; Proponemos un test de la forma
n o n o
2. ˆ
δ(X) = 1 Q(θ(X), ˆ
θ0 ) < qγ1 + 1 Q(θ(X), θ0 ) > qγ2 (11)
S S
µ2 (X) = X̄ − √ tn−1, 1−β = X̄ + √ tn−1, β
n n Como la hipótesis fundamental es de la forma θ = θ0 el nivel de significación del test es
es una cota superior de confianza de nivel β para µ; ˆ

ˆ

α(δ) = β(θ0 ) = P (Rechazar H0 |θ0 ) = P(Q(θ(X), θ0 ) < qγ1 ) + P Q(θ(X), θ0 ) > qγ2
3.  
ˆ ˆ
 
S S = P(Q(θ(X), θ0 ) ≤ qγ1 ) + 1 − P Q(θ(X), θ0 ) ≤ q γ 2 = γ1 + 1 − γ2 .
I(X) = X̄ − √ tn−1, (1+β)/2 , X̄ + √ tn−1, (1+β)/2
n n
Poniendo γ1 = α/2 y γ2 = 1 − α/2 obtenemos que α(δ) = α. Por lo tanto, el test de
es un intervalo de confianza de nivel β para µ.
hipótesis deseado puede obtenerse de la siguiente manera:
n o n o
ˆ
δ(X) = 1 Q(θ(X), ˆ
θ0 ) < qα/2 + 1 Q(θ(X), θ0 ) > q1−α/2 . (12)

9
12
3. Construcción de test prefijando el nivel α y la potencia β en alguno de los parámetros 2.1.4. Ejemplo
alternativos. Para fijar ideas vamos a construir intervalos de confianza de nivel β = 0.95 para la media
y la varianza de una variable normal N (µ, σ 2 ), basados en una muestra aleatoria de volumen
Nota Bene. El objetivo de estas notas es presentar una introducción para tratar algunos n = 8 que arrojó los resultados siguientes: 9, 14, 10, 12, 7, 13, 11, 12.
problemas de carácter muy elemental y el modo de resolverlos mediante razonamientos El problema se resuelve recurriendo a las tablas de las distribuciones χ2 y t y haciendo
intuitivos (lo más rigurosos posibles dentro del marco de un curso elemental).2 algunas cuentas.
Como n = 8 consultamos las tablas de χ27 y de t7 . Para el nivel β = 0.95 tenemos que
(1 + β)/2 = 0.975 y (1 − β)/2 = 0.025. De acuerdo con las tablas χ27, 0.975 = 16.0127, χ27, 0.025 =
2. Regiones de confianza y test de hipótesis 1.6898 y t7, 0.975 = 2.3646. Por otra parte, X̄ = 11, S 2 = 36/7 = 5.1428 y S = 2.2677.
Algunas cuentas más (y un poco de paciencia) permiten rematar este asunto. Salvo errores
Supongamos que disponemos de regiones de confianza S(X) de nivel β para el parámetro de cuentas, I1 = [2.248, 21.304] es un intervalo de confianza de nivel 0.95 para la varianza,
θ y queremos construir un test para decidir entre las hipótesis mientras que I2 = [9.104, 12.895] es un intervalo de confianza de nivel 0.95 para la media.

H 0 : θ = θ0 contra H1 : θ 6= θ0 .
2.2. Media de la normal con varianza conocida
Debido a que la región de confianza se construye con el objeto de capturar al verdadero Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable aleatoria X ∼ N (µ, σ 2 ), con
valor del parámetro (con alta probabilidad de lograrlo) parece claro que si se observa un varianza σ 2 conocida. En el Ejemplo 1.4 mostramos que
resultado x tal que la región S(x) contenga a θ0 deberemos aceptar la hipótesis H0 y √
n(X̄ − µ)
rechazar la contraria H1 . El argumento permite construir el siguiente test Q(X, µ) = ∼ N (0, 1)
σ
δ(X) = 1{S(X) 6∋ θ0 }. es un pivote para la media µ.
Como el pivote para la media goza de las propiedades enunciadas en la sección 1.1.1 para
cuyo nivel de significación es pivotes decrecientes,

α(δ) = P (RechazarH0 |θ0 ) = Pθ0 (S(X) 6∋ θ0 ) = 1 − Pθ0 (S(X) ∋ θ0 ) = 1 − β. la función de distribución de Q(X, µ) es continua y estrictamente creciente,
para cada x, la función Q(x, µ) es continua y monótona decreciente respecto de µ,
Usando argumentos similares se obtienen los siguientes resultados. las cotas e intervalos de confianza para la media se pueden construir resolviendo la ecuación
Q(X, µ) = zγ , donde zγ designa el cuantil-γ de la distribución normal estándar N (0, 1).
1. Si θ1 (X) es una cota inferior de confianza de nivel 1 − α para θ, entonces Observando que

δ(X) = 1{θ0 < θ1 (X)} n(X̄ − µ) σ
Q(X, µ) = zγ ⇐⇒ = zγ ⇐⇒ µ = X̄ − √ zγ ,
σ n
es un test de nivel α para decidir entre las hipótesis
y usando que que la densidad de la distribución N (0, 1) es simétrica respecto del origen (i.e,
H 0 : θ ≤ θ0 contra H 1 : θ > θ0 . z1−γ = −zγ ), tenemos que, para cada β ∈ (0.5, 1),
1.
σ
2. Si θ2 (X) es una cota superior de confianza de nivel 1 − α para θ, entonces µ1 (X) = X̄ − √ zβ
n
δ(X) = 1{θ0 > θ2 (X)} es una cota inferior de confianza de nivel β para µ;

es un test de nivel α para decidir entre las hipótesis 2.


σ
µ2 (X) = X̄ + √ zβ
n
H 0 : θ ≥ θ0 contra H 1 : θ < θ0 .
es una cota superior de confianza de nivel β para µ;
2
Dependiendo de las normas de calidad que se le impongan al test y de la naturaleza de las hipótesis
a ser confrontadas, existen metodologı́as generales para construir test óptimos que pueden consultarse 3.  
en cualquier libro de Estadı́stica matemática. Una exposición rigurosa puede encontrarse en el libro de
σ σ
I(X) = X̄ − √ z(1+β)/2 , X̄ + √ z(1+β)/2
Borovkov. n n
es un intervalo de confianza de nivel β para µ.
8
13
2.3. Varianza de la normal con media conocida en su contra para que se renuncie a ella. En tales condiciones hacen falta criterios de
Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable aleatoria X ∼ N (µ, σ 2 ), con nivel α muy pequeños. Entonces, si la hipótesis fundamental es verdadera, la realización
media µ conocida. El estimador de máxima verosimilitud para σ 2 es de un valor de muestra perteneciente a la región crı́tica R será demasiado inverosı́mil. La
n concepción en la que se basa todo el razonamiento es la siguiente: si la probabilidad ǫ de
c2 mv (X) = 1
X
σ (Xi − µ)2 . cierto evento A es muy pequeña, consideramos prácticamente imposible el hecho de que
n este evento ocurra al realizar una sola prueba. Si ocurre, significa que su probabilidad no
i=1
Para construir un pivote para la varianza observamos que era tan pequeña.
n  n
Xi − µ 2 X 2

n c2 X
σ mv (X) = = Zi , Máxima potencia. Elegido el nivel de significación α del test de hipótesis, hay que
σ2 σ
i=1 i=1
prestarle atención a los valores de su función de potencia en la región alternativa Θ1 . Si
Xi −µ
donde Zi = σ son variables independientes cada una con distribución normal estándar la potencia en Θ1 resulta demasiado pequeña, los riesgos de cometer errores de tipo II son
N (0, 1). En otras palabras, la distribución n c 2 muy grandes y tal vez sea conveniente sustituir el nivel de significación por uno mayor.
P de la variable aleatoria σ2 σ mv (X) coincide con la
distribución de una suma de la forma ni=1 Zi2 , donde las Zi son N (0, 1) independientes. Por Entre todos los test de nivel α se prefieren aquellos que tengan la potencia más alta en
lo tanto, toda la región alternativa Θ1 .
c2 mv (X)

Q(X, σ 2 ) = ∼ χ2n
σ2 1.4. Sobre la construcción de reglas de decisión
es un pivote para σ 2 .
En la práctica, las reglas de decisión se construyen basándose en una estadı́stica de la
Como el pivote para la varianza Q(X, σ 2 ) goza de las propiedades enunciadas en la sección
muestra aleatoria X = (X1 , . . . , Xn ), i.e., son de la forma
1.1.1 para pivotes decrecientes,
la función de distribución de Q(X, σ 2 ) es continua y estrictamente creciente, δ(X) = 1{T (X) ∈ C}, (9)
para cada x, la función Q(x, σ 2 ) es continua y monótona decreciente respecto de σ2, donde T : Rn → R es una función a valores reales y C es una región de la recta real
las cotas e intervalos de confianza para la varianza se pueden construir resolviendo la ecuación denominada la región crı́tica o región de rechazo del test: si δ(X) = 1 rechazamos la
Q(X, σ 2 ) = χ2n, γ , donde χ2n, γ designa el cuantil-γ de la distribución chi cuadrado con n grados hipótesis H0 y si δ(X) = 0 no la rechazamos.
de libertad.
Observando que Nota Bene. La estadı́stica de la muestra, T (X), con la que se construye la regla de
2
c2 mv (X)
nσ c2 mv (X)
nσ decisión (9) debe contener toda la información relevante que hay en la muestra X para
Q(X, σ ) = χ2n, γ ⇐⇒ = χ2n, γ ⇐⇒ σ 2 = ,
σ 2 χ2n−1, γ reconstruir el parámetro θ sobre el que recaen las hipótesis H0 y H1 . Por ejemplo, si se hacen
hipótesis sobre la media de la variable aleatoria X, es inútil observar simplemente todos
se deduce que, para cada β ∈ (0, 1),
los datos contenidos en la muestra aleatoria X = (X1 , . . . , Xn ). Es intuitivamente claro
1. que si se quiere tomar una decisión entre dos hipótesis sobre la media de una distribución
c2 mv (X)

σ12 (X) = hay que observar el promedio muestral X ¯ := 1 Pn Xi . Si la muestra es suficientemente
n i=1
χ2n, β
grande, este valor se no puede desviar demasiado del verdadero valor de la media. Si el
es una cota inferior de confianza de nivel β para σ 2 ; desvı́o fuese desconocido, para tener
1
Pnuna idea de¯ 2
su tamaño bastará con observar el valor
2. de la varianza muestral S 2 := n−1 i=1 (Xi − X) . Esos dos datos deberı́an ser suficientes
c2 mv (X)
nσ para tomar una decisión sobre una hipótesis sobre la media.
σ22 (X) =
χ2n, 1−β
Algunos problemas
es una cota superior de confianza de nivel β para σ 2 ;
3. " #
1. Dado un test caracterizar su función de potencia, determinar su nivel y los distintos
c2 mv (X) nσ
nσ c2 mv (X) tipos de riesgos estadı́sticos.
I(X) = ,
χ2n, (1+β)/2 χ2n, (1−β)/2
2. Construcción de test prefijando el nivel α y el volumen de la muestra aleatoria n.
es un intervalo de confianza de nivel β para σ 2 .
7
14
En efecto, la probabilidad de que ocurra un error de tipo I cuando el verdadero valor 3. Intervalos aproximados para ensayos Bernoulli
del parámetro es θ ∈ Θ0 será el valor de la probabilidad β(θ) y la probabilidad de cometer
Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable aleatoria X ∼ Bernoulli(p),
un error de tipo II cuando el verdadero valor del parámetro es θ ∈ Θ1 será el valor de la
donde n >> 1. El estimador de máxima verosimilitud para p es
probabilidad 1 − β(θ).
n
1X
Nota Bene. Una test puede considerarse “bueno” si los valores de su función de potencia X̄ = Xi .
n
i=1
están cerca del 0 en la región fundamental Θ0 y cerca del 1 en la región alternativa Θ1 . En
general, establecido el volumen de la muestra, X = (X1 , . . . , Xn ), no es posible construir Para construir un pivote para la varianza observamos que de acuerdo con el Teorema cen-
tral del lı́mite la distribución aproximada de ni=1 Xi es una normal N (np, np(1 − p)) y en
P
test capaces de conciliar ambas exigencias.
consecuencia √
n(X̄ − p)
1.3. Nivel de significación Q(X, p) = p ∼ N (0, 1)
p(1 − p)
Sea δ un test para decidir entre las hipótesis H0 : θ ∈ Θ0 contra H1 : θ ∈ Θ1 . El es un pivote asintótico para p.
número Usando métodos analı́ticos se puede mostrar que Q(X, p) es una función continua y de-
creciente en p ∈ (0, 1). Como el pivote asintótico para p goza de las propiedades enunciadas
α(δ) = máx β(θ) (8) en la sección 1.1.1 para pivotes decrecientes, las cotas e intervalos de confianza para p se
θ∈Θ0
pueden construir resolviendo la ecuación Q(X, p) = zγ , donde zγ designa el cuantil-γ de la
se llama nivel de significación del test. Dicho en palabras, el nivel de significación de un distribución normal estándar N (0, 1).
test es la máxima probabilidad de rechazar la hipótesis fundamental H0 cuando ella es Para resolver la ecuación Q(X, p) = z se elevan ambos miembros al cuadrado y se obtiene
verdadera. una ecuación cuadrática en p cuya solución es
p
Ejemplo 1.2. Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una distribución U(0, θ) z 2 + 2nX̄ z z 2 + 4nX̄(1 − X̄)
p= ±
y sea δ el test definido en el Ejemplo 1.1 para decidir entre las dos hipótesis H0 : θ ≥ 2 2z 2 + 2n 2z 2 + 2n
contra H1 : θ < 2. Usando que la densidad de la distribución N (0, 1) es simétrica respecto del origen tenemos
Debido a que la función de potencia β(θ) es decreciente en θ, el nivel de significación que, para cada β ∈ (0.5, 1),
del test es  n
3 1.
α(δ) = máx β(θ) = β(2) = .
θ≥2 4 q
zβ2 + 2nX̄ zβ zβ2 + 4nX̄(1 − X̄)
Para que, por ejemplo, el nivel de significación del test sea ≤ 0.05, debe tomarse un volumen p1 (X) = −
2zβ2 + 2n 2zβ2 + 2n
de muestra n tal que (3/4)n ≤ 0.05. Equivalentemente, n ≥ log(0.05)/ log(3/4) = 10.413.
Para n = 11 el nivel del test resulta α(δ) = 0.042... es una cota inferior de confianza de nivel β para p;

Comentario sobre el nivel de significación. Utilizar un test de nivel de significación 2.


α significa que, en una larga serie de experimentos, no nos equivocaremos al rechazar la
q
zβ2 + 2nX̄ zβ zβ2 + 4nX̄(1 − X̄)
hipótesis H0 , siendo que ella es verdadera, más que un 100 α % de los casos. La elección p2 (X) = +
del nivel de significación del test es arbitraria. Habitualmente, en calidad de α se elige 2zβ2 + 2n 2zβ2 + 2n
alguno de los valores estándar, tales como 0.005, 0.01, 0.05, 0.1. Esta estandarización tiene
es una cota superior de confianza de nivel β para p;
la ventaja de que permite reducir el volumen de las tablas que se utilizan en el trabajo
estadı́stico. 3.
 q 
2 z(1+β)/2 2
z(1+β)/2 + 4nX̄(1 − X̄)
Nota Bene. La actitud que se tenga hacia la hipótesis fundamental antes de realizar el z(1+β)/2 + 2nX̄
I(X) =  2 ± 2
 (10)
experimento es una circunstancia importante que puede influir en la elección del nivel de 2z(1+β)/2 + 2n 2z(1+β)/2 + 2n
significación. Si se cree firmemente en su veracidad se necesitarán pruebas convincentes
donde [a ± b] = [a − b, a + b], es un intervalo de confianza de nivel β para p.
6
15
1

0.9

0.8

1/2 1/2 sen α 0.7


α
0.6

0.5

0.4
Ejemplo 3.1 (Las agujas de Buffon). Se arroja al azar una aguja de longitud 1 sobre un
plano dividido por rectas paralelas separadas por una distancia igual a 2. 0.3

Si localizamos la aguja mediante la distancia ρ de su centro a la recta más cercana y el 0.2


ángulo agudo α entre la recta y la aguja, el espacio muestral es el rectángulo 0 ≤ ρ ≤ 1 0.1
y 0 ≤ α ≤ π/2. El evento “la aguja interesecta la recta” ocurre cuando ρ ≤ 12 sen α y su
0
probabilidad es 0 1 2 3 4 5 6
R π/2 1
sen αdα 1
p= 0 2 = .
π/2 π
Con el objeto de estimar π se propone construir un intervalo de confianza de nivel β = 0.95 Figura 1: Gráfico de la función β(θ) para distintos volúmenes de muestra: en lı́nea quebrada
para p, basado en los resultados de realizar el experimentos de Buffon con n = 100 agujas. para volumen n = 3; en lı́nea sólida para volumen n = 11. Notar que cuando n aumenta
Poniendo en (10) n = 100 y z(1+β)/2 = z0.975 = 1.96 se obtiene que
disminuyen las probabilidades de los errores de tipo I, pero aumentan las de los errores de
" p # tipo II.
1.962 + 200X̄ 1.96 1.962 + 400X̄(1 − X̄)
I(X) = ±
2(1.96)2 + 200 2(1.96)2 + 200
" p # la probabilidad de que ocurra un error de tipo I cuando el verdadero valor del
3.8416 + 200X̄ 1.96 3.8416 + 400X̄(1 − X̄) 3 n
= ± parámetro θ satisface θ ≥ 2 es β(θ) = 2θ ,
207.6832 207.6832
la probabilidad de que ocurra un error de tipo II cuando el verdadero valor del
Al realizar el experimento se observó que 28 de las 100 agujas intersectaron alguna recta. parámetro θ satisface θ ∈ (0, 3/2] es 1 − β(θ) = 1 − 1 = 0,
Con ese dato el estimador de máxima verosimilitud para p es X̄ = 0.28 y en consecuencia se
obtiene el siguiente intervalo de confianza para p la probabilidad de que ocurra un error de tipo II cuando el verdadero valor del
3 n

" p # parámetro θ satisface θ ∈ (3/2, 2) es 1 − β(θ) = 1 − 2θ .
3.8416 + 200(0.28) 1.96 3.8416 + 400(0.28)(1 − 0.28)
I(X) = ±
207.6832 207.6832
= [0.28814 ± 0.08674] = [0.20140, 0.37488].
1.2. Función de potencia
De donde se obtiene la siguiente estimación: 2.66 ≤ π ≤ 4.96.
La calidad de un test de hipótesis δ(·) se caracteriza por el conjunto de probabilidades
Nota Bene. Notando que la longitud del intervalo de confianza de nivel β > 1/2 para p se de decisiones erróneas (o riesgos de decisión).
puede acotar de la siguiente forma Las probabilidades de los errores de un test δ(·) se pueden representar en el gráfico de
q q la función β : Θ → [0, 1] definida por
2
z(1+β)/2 z(1+β)/2 + 4nX̄(1 − X̄) 2
z(1+β)/2 z(1+β)/2 +n z(1+β)/2 β(θ) := P (Rechazar H0 | θ) = P (δ(X) = 1| θ) = Pθ (X ∈ R) , (7)
|I(X)| = 2 ≤ 2 < √ ,
z(1+β)/2 + n z(1+β)/2 + n n
1
llamada la función de potencia del test.
se puede mostrar que para garantizar que |I(X)| < ǫ, donde ǫ es positivo y “pequeño” basta 1
2 En control de calidad, a la función L(θ) = 1 − β(θ) se la llama caracterı́stica operativa y su gráfico se
tomar n ≥ z(1+β)/2 /ǫ .
llama la curva caracterı́stica operativa del test.

5
16
se denomina región crı́tica o región de rechazo de la hipótesis fundamental. La región crı́tica, Ejemplo 3.2 (Las agujas de Buffon (continuación)). ¿Cuántas agujas deben arrojarse si se
R, se identifica con la regla de decisión δ debido a que desea estimar π utilizando un intervalo de confianza para p, de nivel 0.95, cuyo margen de
error sea 0.01? De acuerdo con la observación anterior basta tomar n ≥ (1.96/0.01)2 = 38416.
δ(x) = 1{x ∈ R}. (4) Simulando 38416 veces el experimento de Buffon obtuvimos 12222 éxitos. Con ese dato el
estimador de máxima verosimilitud para p es 0.31814... y el intervalo para p es
Tipos de error. Todo test para decidir entre las hipótesis H0 contra H1 conduce a
I(X) = [0.31350, 0.32282] .
decisiones erróneas. Hay dos clases de decisiones erróneas.
De donde se obtiene la siguiente estimación: 3.09766 ≤ π ≤ 3.18969.
Las llamadas errores de tipo I que consisten en RECHAZAR la hipótesis H0 cuando
ésta es verdadera.
4. Comparación de dos muestras normales
Las llamadas errores de tipo II que consisten en ACEPTAR la hipótesis H0 cuando
ésta es falsa. Supongamos que X = (X1 , . . . , Xm ) es una muestra aleatoria de tamaño m de una dis-
2 ), y que Y = (Y , . . . , Y ) es una muestra aleatoria de tamaño n
tribución normal N (µX , σX 1 n
de una distribución normal N (µY , σY2 ). Más aún, supongamos que las muestras X e Y son
Nota Bene. Cuando θ ∈ Θ0 , la probabilidad de cometer un error de tipo I será 2 y σ 2 son desconocidos.
independientes. Usualmente los parámetros µX , µY , σX Y
P(Rechazar H0 |θ) = P(δ(X) = 1|θ) = P(X ∈ R|θ).
4.1. Cotas e intervalos de confianza para la diferencia de medias
Cuando θ ∈ Θ1 , la probabilidad de cometer un error de tipo II será Queremos estimar ∆ = µX − µY .
P(Aceptar H0 |θ) = P(δ(X) = 0|θ) = P(X 6∈ R|θ) = 1 − P(X ∈ R|θ).
4.1.1. Varianzas conocidas
Ejemplo 1.1. Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una distribución uniforme 2 y σ2
Para construir un pivote para la diferencia de medias, ∆, cuando las varianzas σX Y
sobre el intervalo (0, θ), θ > 0. Para decidir entre las dos hipótesis son conocidas, observamos que el estimador de máxima verosimilitud para ∆ = µX − µY es
X̄ − Ȳ y que
H0 : θ ≥ 2 contra H1 : θ < 2
σ2 σ2
 
X̄ − Ȳ ∼ N ∆, X + Y (11)
consideramos el test δ(x) = 1{x(n) ≤ 3/2}, donde x(n) = máx(x1 , . . . , xn ) y queremos m n
determinar, para cada θ > 0, la probabilidad de decidir erróneamente.
En consecuencia,
Solución. Para calcular las probabilidades de decidir erróneamente estudiaremos la fun- X̄ − Ȳ − ∆
Q(X, Y, ∆) = q 2 ∼ N (0, 1), (12)
ción β : (0, ∞) → [0, 1] definida por σX 2
σY
  m + n
3
β(θ) = P(Rechazar H0 |θ) = P(δ(X) = 1|θ) = Pθ X(n) ≤ , θ > 0. (5) es un pivote para la diferencia de medias ∆.
2 Como el pivote para la diferencia de medias, Q(X, Y, ∆), goza de las propiedades enun-
ciadas en la sección 1.1.1 las cotas e intervalos de confianza para ∆ se pueden construir
Sabemos que Q(X, θ) = X(n) /θ es un pivote para θ y que su distribución tiene densidad
resolviendo la ecuación Q(X, Y, ∆) = zγ , donde zγ designa el cuantil-γ de la distribución
de probabilidades fQ (q) = nq n−1 1{0 < q < 1}. En consecuencia,
N (0, 1).
    Z mı́n(1, 3 )
3 X(n) 3 2θ
β(θ) = Pθ X(n) ≤ =P ≤ = nq n−1 dq 4.1.2. Varianzas desconocidas.
2 θ 2θ 0
 n    n   Supongamos ahora que las varianzas σX 2 y σ 2 son desconocidas. Hay dos posibilidades:
3 3 3 3 Y
= mı́n 1, =1 0<θ≤ + 1 θ> . (6) las varianzas son iguales o las varianzas son distintas.
2θ 2 2θ 2

Por lo tanto,

4
17
Caso 1: Varianzas iguales. 2 = σ 2 = σ 2 . En tal caso
Supongamos que σX Y 9. Bibliografı́a consultada 52
X̄ − Ȳ − ∆ X̄ − Ȳ − ∆
Z= q =√ q ∼ N (0, 1).
σ2
m + n
σ2 σ2 m 1
+ n1 1. Planteo del problema
La varianza desconocida 2
Pσ se puede estimar ponderando “adecuadamente” los estimadores 1.1. Test de hipótesis
2 = 1
de varianza SX 1 P
(Xi − X̄)2 y SY2 = n−1 (Yj − Ȳ )2 ,
m−1 Hipótesis estadı́stica. El punto de partida es una muestra aleatoria X = (X1 , . . . , Xn )
m−1 n−1 2 + (n − 1)S 2
(m − 1)SX de una variable aleatoria X cuya función de distribución FX (x) = P(X ≤ x) pertenece a
SP2 := S2 + S2 = Y
. una familia paramétrica de distribuciones de probabilidad, F = {Fθ : θ ∈ Θ}.
m+n−2 X m+n−2 Y m+n−2
En este contexto, una hipótesis estadı́stica respecto de la distribución de probabilidades
Se puede mostrar que de la variable aleatoria X es una afirmación de la forma siguiente:
2 + (n − 1)S 2
(m − 1)SX
(n + m − 2) 2 Y
U := SP = ∼ χn+m−2 . “F = Fθ para algún θ ∈ Θ∗ ”, (1)
σ2 σ2
Como las variables Z y U son independientes, se obtiene que donde Θ∗ es alguna parte del conjunto paramétrico Θ. Para simplificar la escritura, las
hipótesis estadı́sticas (1) serán denotadas
Z X̄ − Ȳ − ∆
T =p =q q ∼ tm+n−2
U/(m + n − 2) SP2 m 1
+ n1 H : θ ∈ Θ∗ . (2)

Por lo tanto,
El problema general consiste en lo siguiente: en base a los resultados arrojados por la
muestra aleatoria X se quiere decidir entre dos hipótesis estadı́sticas sobre la distribución
X̄ − Ȳ − ∆ de probabilidades de la variable aleatoria X.
Q(X, Y, ∆) = q q (13)
1
SP2 m + n1
Test de hipótesis. Sean Θ0 y Θ1 dos subconjuntos del espacio paramétrico tales que
es un pivote para la diferencia de medias ∆. Debido a que el pivote goza de las propiedades Θ0 ∩ Θ1 = ∅. El problema consiste en decidir entre las dos hipótesis
enunciadas en la sección 1.1.1, las cotas e intervalos de confianza para ∆ se pueden construir
resolviendo la ecuación Q(X, Y, ∆) = tm+n−2, γ , donde tm+n−2 γ designa el cuantil-γ de la H0 : θ ∈ Θ0 contra H1 : θ ∈ Θ1 ,
distribución t de Student con m + n − 2 grados de libertad.
basándose en el conocimiento de una muestra aleatoria, X = (X1 , . . . , Xn ).
Caso 2: Varianzas distintas. En varios manuales de Estadı́stica (el de Walpole, por Como los valores de θ que no pertenecen a Θ0 ∪ Θ1 no se examinan, se puede suponer
ejemplo) se afirma que la distribución de la variable que Θ = Θ0 ∪ Θ1 , y que H1 es la hipótesis contraria de H0 . En tal caso, la hipótesis
H1 se puede escribir en la forma H1 : θ ∈ / Θ0 . La hipótesis H0 será llamada hipótesis
X̄ − Ȳ − ∆ fundamental o hipótesis nula y las hipótesis de la forma H : θ = θ1 , para θ1 ∈ Θ1 , se
Q(X, Y, ∆) = q 2
SX SY2 llamarán alternativas.
m + n
Un test (o regla de decisión) para decidir entre las dos hipótesis H0 contra H1 es una
es una t de Student con ν grados de libertad, donde aplicación medible δ : Rn → {0, 1} que le asigna a cada posible realización de la muestra
2 aleatoria x una y sólo una de las hipótesis. Concretamente, δ(X) es una variable aleatoria
2 SY2

SX
m + n
a valores en el {0, 1}. Cuando δ(X) = 1 se rechazará la hipótesis H0 a favor de la hipótesis
ν= „ 2 «2 «2 H1 . En cambio, cuando, δ(X) = 0 se aceptará la hipótesis H0 .
S2

S
X Y
m n
m−1 + n−1
Región crı́tica. Sea δ : Rn → {0, 1} un test para decidir entre las hipótesis H0 contra
Es de suponer que este “misterioso” valor de ν es el resultado de alguna controversia entre H1 . La región del espacio Rn en la que δ(x) = 1:
Estadı́sticos profesionales con suficiente experiencia para traducir semejante jeroglı́fico. Sin
embargo,ninguno de los manuales se ocupa de revelar este misterio. R := {x ∈ Rn : δ(x) = 1} (3)

3
18
Índice 4.2. Cotas e intervalos de confianza para el cociente de varianzas.
Queremos estimar el cociente de las varianzas R = σX 2 /σ 2 .
Y
1. Planteo del problema 3 Si las medias µX y µY son desconocidas, las varianzas σX2 y σ 2 se pueden estimar mediante
Y
1.1. Test de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2 1 Pm 2 2 1 Pn 2
sus estimadores insesgados SX = m−1 i=1 (Xi − X̄) y SY = n−1 j=1 (Yj − Ȳ ) .
1.2. Función de potencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Debido a que las variables
1.3. Nivel de significación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
(m − 1) 2 (n − 1) 2
1.4. Sobre la construcción de reglas de decisión . . . . . . . . . . . . . . . . . . 7 U := 2 SX ∼ χ2m−1 y V := SY ∼ χ2n−1
σX σY2
2. Regiones de confianza y test de hipótesis 8
son independientes, tenemos que el cociente
3. El método del pivote 9 U/(m − 1) S 2 /σX2
1
 2
SX

3.1. Hipótesis fundamental simple contra alternativa bilateral . . . . . . . . . . 9 = X =
V /(n − 1) SY2 /σY2 R SY2
3.2. Hipótesis fundamental simple contra alternativa unilateral . . . . . . . . . 10
3.3. Hipótesis fundamental unilateral contra alternativa unilateral . . . . . . . . 10 se distribuye como una F de Fisher con m − 1 y n − 1 grados de libertad.
3.4. Algunos pivotes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Por lo tanto,
 2 
1 SX
4. Test para media de normales 13 Q(X, Y, R) = ∼ Fm−1, n−1
4.1. Hipótesis sobre media con varianza conocida . . . . . . . . . . . . . . . . . 13 R SY2
4.2. Variaciones sobre el mismo tema . . . . . . . . . . . . . . . . . . . . . . . . 18 es un pivote para el cociente de varianzas R = σX 2 /σ 2 . Debido a que el pivote goza de
Y
4.3. Hipótesis sobre media con varianza desconocida . . . . . . . . . . . . . . . 20 las propiedades enunciadas en la sección 1.1.1, las cotas e intervalos de confianza para R se
pueden construir resolviendo la ecuación Q(X, Y, R) = Fm−1,n−1, γ , donde Fm−1,n−1 γ designa
5. Test para probabilidad de éxito de distribuciones Bernoulli 22 el cuantil-γ de la distribución F de Fisher con m − 1 y n − 1 grados de libertad.
5.1. Test para moneda honesta (de lo simple a lo complejo) . . . . . . . . . . . 23
5.2. Hipótesis fundamental simple . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.3. Hipótesis fundamental compuesta . . . . . . . . . . . . . . . . . . . . . . . 32 5. Comparación de dos muestras

6. Test para varianza de normales 34 5.1. Planteo general


6.1. Hipótesis sobre varianza con media conocida . . . . . . . . . . . . . . . . . 34 Supongamos que tenemos dos muestras aleatorias independientes X = (X1 , . . . , Xm ) e
6.2. Hipótesis sobre varianza con media desconocida . . . . . . . . . . . . . . . 36 Y = (Y1 , . . . , Yn ) con distribuciones dependientes de los parámetros ξ y η, respectivamente.
Queremos estimar la diferencia
7. Comparación de dos muestras 37 ∆ = ξ − η.
7.1. Test para medias de dos muestras normales. . . . . . . . . . . . . . . . . . 37
En lo que sigue mostraremos que, bajo ciertas hipótesis, podemos construir cotas e intervalos
7.1.1. Varianzas conocidas . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 de confianza (aproximados) basados en el comportamiento de la diferencia ξˆm − η̂n , donde
7.1.2. Varianzas desconocidas pero iguales. . . . . . . . . . . . . . . . . . 37 ξˆm = ξ(X)
ˆ y η̂n = η̂(Y) son estimadores de los parámetros ξ y η, respectivamente.
7.2. Test F para varianzas de normales. . . . . . . . . . . . . . . . . . . . . . . 38 En todo lo que sigue vamos a suponer que los estimadores ξˆm y η̂n tienen la propiedad de
7.3. Planteo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 normalidad asintótica. Esto es,
7.4. Problema de dos muestras binomiales . . . . . . . . . . . . . . . . . . . . . 40 √
m(ξˆm − ξ) → N (0, σ 2 ) cuando m → ∞,
2
8. Test de la χ para bondad de ajuste 42 √
n(η̂n − η) → N (0, τ 2 ) cuando n → ∞,
8.1. Planteo del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
8.2. Test de bondad de ajuste para hipótesis simples . . . . . . . . . . . . . . . 43 donde σ 2 y τ 2 pueden depender de ξ y η, respectivamente. Sea N = m + n y supongamos que
8.3. Ejemplos (1a parte) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 para algún 0 < ρ < 1,
8.4. Comentarios sobre el método . . . . . . . . . . . . . . . . . . . . . . . . . . 48 m n
8.5. Test de bondad de ajuste para hipótesis compuestas . . . . . . . . . . . . . 51 → ρ, →1−ρ cuando m y n → ∞,
N M

2
19
de modo que, cuando N → ∞ tenemos
√ σ2 √ τ2
   
N (ξˆm − ξ) → N 0, y N (η̂n − η) → N 0, .
ρ 1−ρ
Entonces, vale que
Test de hipótesis y Test de bondad de ajuste
√ h i 
σ2 τ2
 (Borradores, Curso 23)
N (ξˆm − ξ) − (η̂n − η) → N 0, +
ρ 1−ρ
o, equivalentemente, que Sebastian Grynberg
(ξˆm − η̂n ) − ∆ 3-12 de junio de 2013
q → N (0, 1) (14)
σ2 τ2
m + n

Si σ 2 y τ 2 son conocidas, de (14) resulta que

(ξˆm − η̂n ) − ∆
Q(X, Y, ∆) = q (15)
σ2 τ2
m + n

es un pivote (aproximado) para la diferencia ∆.


Si σ 2 y τ 2 son desconocidas y σ
c2 y τb2 son estimadores consistentes para σ 2 y τ 2 , se puede
demostrar que la relación (14) conserva su validez cuando σ 2 y τ 2 se reemplazan por σ c2 y τb2 ,
respectivamente y entonces

(ξˆm − η̂n ) − ∆
Q(X, Y, ∆) = q (16)
c2
σ τc2
m + n

es un pivote (aproximado) para la diferencia ∆.


Para mayores detalles se puede consultar el libro Lehmann, E. L. (1999) Elements of
Large-Sample Theory. Springer, New York.

Nota Bene. Notar que el argumento anterior proporciona un método general de naturaleza
asintótica. En otras palabras, en la práctica los resultados que se obtienen son aproximados.
Dependiendo de los casos particulares existen diversos refinamientos que permiten mejorar
esta primera aproximación.

5.2. Problema de dos muestras binomiales


Sean X = (X1 , . . . , Xm ) e Y = (Y1 , . . . , Yn ) dos muestras aleatorias independientes de dos
variables aleatorias X e Y con distribución Bernoulli de parámetros pX y pY , respectivamente.
Queremos estimar la diferencia
∆ = pX = pY
Para construir cotas e intervalos de confianza usaremos los estimadores de máxima verosimil- Que no se oiga ya que los ricos devoran a los pobres,
itud para las probabilidades pX y pY y que la justicia es sólo para los ricos.
m n
(Manuel Belgrano)
1 X 1X
p̂X = X̄ = Xi , p̂Y = Ȳ = Yj ,
m n
i=1 j=1
1
20
En consecuencia, Vamos a suponer que los volúmenes de las muestras, m y n, son suficientemente grandes y
n n n n
que ninguna de las dos variables está sobre representada (i.e. m y n son del mismo orden de
X
Yi2 =
X
Xi2 − Y12 =
X
Xi2 − nX̄ 2 =
X
Xi − X̄
2
. magnitud).
i=2 i=1 i=1 i=1
Debido a que los estimadores X̄ y Ȳ son consistentes para las pX y pY , resulta que los
√ estimadores X̄(1− X̄) y Ȳ (1− Ȳ ) son consistentes para las varianzas pX (1−pX ) y pY (1−pY ),
Las variables Y1 , . . . , Yn son independientes. Como n(X̄) depende de Y1 , mientras que respectivamente. Por lo tanto,
Pn 2
i=1 Xi − X̄ depende de Y2 , . . . , Yn , resulta que X̄ y S 2 son independientes (lo que prueba
√ √ X̄ − Ȳ − ∆
la parte (c)). Además, n(X̄) = Y1 ∼ N (0, σ 2 ), por lo tanto Z = n(σX̄) ∼ N (0, 1) (lo que Q(X, Y, ∆) = q (17)
1
prueba la parte (a)). La parte (b) se deduce de que m X̄(1 − X̄) + n1 Ȳ (1 − Ȳ )
n n 
(n − 1)S 2 Yi 2 es un pivote (aproximado) para ∆.

1 X 2 X
2
= 2 Xi − X̄ = ∼ χ2n−1 ,
σ σ σ
i=1 i=2 Ejemplo 5.1. Se toma una muestra aleatoria de 180 argentinos y resulta que 30 están desocu-
pados. Se toma otra muestra aleatoria de 200 uruguayos y resulta que 25 están desocupados.
pues las n − 1 variables Y2 /σ, . . . , Yn /σ son independientes y con distribución N (0, 1).
¿Hay evidencia suficiente para afirmar que la tasa de desocupación de la población Argentina
es superior a la del Uruguay?
7. Bibliografı́a consultada
Solución. La población desocupada de la Argentina puede modelarse con una variable
Para redactar estas notas se consultaron los siguientes libros: aleatoria X ∼ Bernoulli(pX ) y la del Uruguay con una variable aleatoria Y ∼ Bernoulli(pY ).
1. Bolfarine, H., Sandoval, M. C.: Introdução à Inferência Estatı́stica. SBM, Rio de Janeiro. Para resolver el problema utilizaremos una cota inferior de nivel de significación β = 0.95
(2001). para la diferencia ∆ = pX − pY basada en dos muestras aleatorias independientes X e Y de
volúmenes m = 180 y n = 200, respectivamente.
2. Borovkov, A. A.: Estadı́stica matemática. Mir, Moscú. (1984). En vista de que el pivote definido en (17) goza de las propiedades enunciadas en la sección
1.1.1, la cota inferior de nivel β = 0.95 para ∆ se obtiene resolviendo la ecuación Q(X, Y, ∆) =
3. Cramer, H.: Métodos matemáticos de estadı́stica. Aguilar, Madrid. (1970). z0.95 .
4. Hoel P. G.: Introducción a la estadı́stica matemática. Ariel, Barcelona. (1980). Observando que

5. Lehmann, E. L.: Elements of Large-Sample Theory. Springer, New York. (1999) X̄ − Ȳ − ∆


Q(X, Y, ∆) = z0.95 ⇐⇒ q = 1.64
1 1
180 X̄(1 − X̄) + 200 Ȳ (1 − Ȳ )
6. Maronna R.: Probabilidad y Estadı́stica Elementales para Estudiantes de Ciencias. Ed- r
itorial Exacta, La Plata. (1995). 1 1
⇐⇒ ∆ = X̄ − Ȳ − 1.64 X̄(1 − X̄) + Ȳ (1 − Ȳ )
180 200
7. Meyer, P. L.: Introductory Probability and Statistical Applications. Addison-Wesley,
30
Massachusetts. (1972). De cuerdo con los datos observados, X̄ = 180 = 61 y Ȳ = 200
25
= 81 . Por lo tanto, la cota inferior
para ∆ adopta la forma
8. Walpole, R. E.: Probabilidad y estadı́stica para ingenieros, 6a. ed., Prentice Hall, México.
(1998)
s      
1 1 1 1 5 1 1 7
∆(x, y) = − − 1.64 + = −0.0178...
6 8 180 6 6 200 8 8

De este modo se obtiene la siguiente estimación pX − pY > −0.0178 y de allı́ no se puede


concluir que pX > pY .

24 21
6. Apéndice: Demostración del Teorema llave 6.2. Lema previo

6.1. Preliminares de Análisis y Álgebra Observación 6.3. Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una distribución N (0, σ 2 ).
Por independencia, la distribución conjunta de las variables X1 , . . . , Xn tiene función densidad
En la prueba del Teorema 2.1 se usarán algunas nociones de Álgebra Lı́neal1 y el Teorema de probabilidad de la forma
de cambio de variables para la integral múltiple2 .
n n
  !
Y 1 1 1 1 X 2
Teorema 6.1 (Cambio de variables en la integral múltiple). Sea f : Rn → R una función f (x) = √ exp − 2 x2i = exp − xi
2πσ 2σ (2π)n/2 σ n 2σ 2
integrable. Sea g : Rn → Rn , g = (g1 , . . . , gn ) una aplicación biyectiva, cuyas componentes i1
 
i=1
tienen derivadas parciales de primer orden continuas. Esto es, para todo 1 ≤ i, j ≤ n, las 1 1 2
= exp − 2 ||x||2 .
funciones ∂y∂ j gi (y) son continuas. Si el Jacobiano de g es diferente de cero en casi todo (2π)n/2 σ n 2σ
punto, entonces,
Z Z De la observación anterior es claro que la distribución conjunta de las variables X1 , . . . , Xn
es invariante por rotaciones. Más concretamente vale el siguiente resultado:
f (x)dx = f (g(y))|Jg (y)|dy,
A g −1 (A)
Lema 6.4 (Isotropı́a). Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable N (0, σ 2 )
y sea B ∈ Rn×n una matriz ortogonal, i.e. B T B = BB T = In . Si X = [X1 . . . Xn ]T , entonces
  
∂gi (y)
para todo conjunto abierto A ⊂ Rn , donde Jg (y) = det ∂yj . Y = [Y1 . . . Yn ]T = BX tiene la misma distribución conjunta que X. En particular las vari-
i,j
ables aleatorias Y1 , . . . , Yn son independientes y son todas N (0, σ 2 ).
El siguiente resultado, que caracteriza la distribución de un cambio de variables aleatorias,
es una consecuencia inmediata del Teorema 6.1. Demostración. Es consecuencia inmediata del Teorema de cambio de variables para y =
Corolario 6.2. Sea X un vector aleatorio n-dimensional con función densidad de probabilidad g(x) = Bx. Debido a que B es una matriz ortogonal, g −1 (y) = B T y y Jg−1 (y) = det B T =
fX (x). Sea ϕ : Rn → Rn una aplicación que satisface las hipótesis del Teorema 6.1. Entonces, ±1
el vector aleatorio Y = ϕ(X) tiene función densidad de probabilidad fY (y) de la forma: 1

1

2
fY (y) = fX (B T y)| det(B T )| = exp − ||B T
y||2 | det(B T )|
(2π)n/2 σ n 2σ 2
fY (y) = fX (ϕ−1 (y))|Jϕ−1 (y)|.  
1 1
= n/2 n
exp − 2 ||y||22 .
(2π) σ 2σ
Demostración. Cualquiera sea el conjunto abierto A se tiene que
Z En la última igualdad usamos que ||B T y||2 = ||y||2 debido a que las transformaciones ortog-
P (Y ∈ A) = P (ϕ(X) ∈ A) = P(X ∈ ϕ−1 (A)) = fX (x)dx. onales preservan longitudes.
ϕ−1 (A)

Aplicando el Teorema 6.1 para g = ϕ−1 se obtiene 6.3. Demostración del Teorema.
Z Z Sin perder generalidad se puede suponer que µ = 0. Sea B = {b1 , b2 , . . . , bn } una base
fX (x)dx = fX (ϕ−1 (y))|Jϕ−1 (y)|dy. ortonormal de Rn , donde b1 = √1n [1 . . . 1]T . Sea B ∈ Rn×n la matriz ortogonal cuya i-ésima
ϕ−1 (A) A
fila es bTi . De acuerdo con el Lema 6.4 el vector aleatorio Y = [Y1 . . . Yn ]T = BX tiene la
Por ende misma distribución que X.
Z En primer lugar, observamos que
P (Y ∈ A) = fX (ϕ−1 (y))|Jϕ−1 (y)|dy.
A n
1 X √
Y1 = bT1 X = √ Xi = n(X̄).
Por lo tanto, el vector aleatorio Y tiene función densidad de probabilidad de la forma fY (y) = n
i=1
fX (ϕ−1 (y))|Jϕ−1 (y)|.
En segundo lugar,
1
La noción de base ortonormal respecto del producto interno canónico en Rn y la noción de matriz ortogonal.
Si lo desea, aunque no es del todo cierto, puede pensar que las matrices ortogonales corresponden a rotaciones n
X n
X
espaciales. Yi2 = Y T Y = (BX)T BX = X T B T BX = X T X = Xi2 .
2
Sobre la nomenclatura: Los vectores de Rn se piensan como vectores columna y se notarán en negrita i=1 i=1
x = [x1 . . . xn ]T .

22 23
Ejemplo 8.1. (Continuación) Se trata de un caso particular del esquema anterior, (d) lı́mµ↑+∞ β(µ) = 1
donde p0 = 1/2 y n = 100. En consecuencia, la medida de dispersión (67) es
Esto significa que a medida que nos alejamos de la hipótesis µ = µ0 disminuye el riesgo
 2
n1 − 50 de aceptar dicha hipótesis cuando es falsa. La forma tı́pica del gráfico de la función de
D2 = , potencia correspondiente al test de la forma (16) para decidir entre las hipótesis H0 : µ = µ0
5
contra H1 : µ 6= µ1 puede observarse en las Figuras 2 y 3.
y para un nivel de significación α el test de hipótesis (66) adopta la forma
Nota Bene. La función de potencia es útil para determinar cuan grande debe ser la
( 2 )
n1 − 50 2
δ(X) = 1 > χ1, 1−α . muestra aleatoria para conseguir ciertas especificaciones relativas a los errores de tipo II.
5
Por ejemplo, supongamos que queremos determinar el volumen de la muestra n necesario
para asegurar que la probabilidad de rechazar H0 : µ = µ0 cuando el verdadero valor de la
media es µ1 sea aproximadamente β. Esto es, queremos determinar n tal que
1.8

1.6 β(µ1 ) ≈ β.
1.4

1.2 De la expresión (17), esto es equivalente a


1  √   √ 
n(µ0 − µ) n(µ − µ0 )
0.8 Φ zα/2 + + Φ zα/2 + ≈ β. (18)
σ σ
0.6

0.4 Aunque la ecuación (18) no se pueda resolver analı́ticamente, se puede conseguir una
0.2 solución aproximada mediante la siguiente observación.
0
0 0.5 1 1.5 2 2.5 3 3.5 4
1. Supongamos que µ1 > µ0 . En tal caso, el primer término del lado izquierdo de (18) es
despreciable, (es fácil ver que está acotado por α/2 ≈ 0) y por lo tanto, el problema
se reduce a resolver la ecuación aproximada
Figura 11: La densidad χ21 .  √ 
n(µ1 − µ0 )
Φ zα/2 + ≈ β.
Consultado la tabla de cuantiles de la distribución χ21 vemos que χ21, 0.95 = 3.841. σ
2
De acuerdo con los datos observados n1 = 55, de donde sigue que como D2 = 55−50 5
= √
n(µ1 −µ0 )
En consecuencia, basta tomar n tal que zα/2 + ≈ zβ ó lo que es equivalente
1. En vista de que 1 < χ21, 0.95 , a un nivel de significación del 5 % el test no rechaza la σ

hipótesis de que se la moneda sea honesta. 2


σ(zβ − zα/2 )

n≈ . (19)
µ1 − µ0
Ejemplo 8.2. (Continuación) El color en cada pixel se modela con una variable aleato-
ria X a valores {r, g, b} cuya distribución está completamente determinada por los valores
2. Supongamos que µ1 < µ0 . En tal caso, el segundo término del lado izquierdo de
de las probabilidades P(X = r) = pr , P(X = g) = pg y P(X = b) = pb . Queremos decidir
(18) es despreciable, y por lo tanto, el problema se reduce a resolver la ecuación
si los datos obtenidos son compatibles (o no) con la hipótesis
aproximada  √ 
H0 : pr = 3/6, pg = 2/6, pb = 1/6. n(µ0 − µ1 )
Φ zα/2 + ≈ β.
σ
Para ello construimos un test de bondad de ajuste basado en una muestra aleatoria,
En consecuencia, basta tomar n tal que
X = (X1 , . . . , Xn ) de volumen n = 10 × 10 = 100. Prescrito el nivel de significación α
y clasificando los datos de acuerdo con el color observado obtenemos un test de la forma 
σ(zβ − zα/2 ) 2

n≈ . (20)
δ(X) = 1{D2 > χ22, 1−α }, µ0 − µ1

46 15
El resultado obtenido en (19) coincide con el resultado obtenido en (20) y es una aproxi- 8.3. Ejemplos (1a parte)
mación razonable para el volumen de muestra necesario para asegurar que el error de tipo
El siguiente ejemplo tiene la virtud de mostrar, en un caso particular, una lı́nea de
II en el valor µ = µ1 es aproximadamente igual a 1 − β.
demostración del resultado de Pearson sobre la distribución asintótica de D2 .
Ejemplo 4.1. Si se envı́a una señal de valor µ desde un sitio A, el valor recibido en el
sitio B se distribuye como una normal de media µ y desvı́o estándar 2. Esto es, el ruido Ejemplo 8.6 (Bernoulli). Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una distribución
que perturba la señal es una variable aleatoria N (0, 4). El receptor de la señal en el sitio Bernoulli con probabilidad de éxito p. Queremos testear la hipótesis H0 : p = p0 contra
B tiene suficientes motivos para sospechar que recibirá una señal de valor µ = 8. Analizar H1 : p 6= p0 , donde p0 ∈ (0, 1) es un valor determinado.
la consistencia de dicha hipótesis suponiendo que la misma señal fue enviada en forma La medida de dispersión definida en (65) entre las frecuencias observadas
independientemente 5 veces desde el sitio A y el promedio del valor recibido en el sitio B n
¯ = 9.5.
X
es X n1 = Xi y n2 = n − n1
i=1
Solución. Se trata de construir un test de hipótesis para decidir entre las hipótesis
y las frecuencias esperadas
H0 : µ = 8 contra H1 : µ 6= 8, np0 y n(1 − p0 )

usando una muestra X = (X1 , . . . , X5 ) de una distribución N (µ, 4). tiene la siguiente expresión

(n1 − np0 )2 (n − n1 − n(1 − p0 ))2


Test de hipótesis. Para un nivel de significación del 5 % el test es de la forma D2 = + .
np0 n(1 − p0 )
( √ )
5(X ¯ − 8)
δ(X) = 1

> 1.96 (21) Observando que
2
(n1 − np0 )2 (n − n1 − n(1 − p0 ))2 (n1 − np0 )2 (np0 − n1 )2
+ = +
Decisión basada en la muestra observada. Calculamos el valor np0 n(1 − p0 ) np0 n(1 − p0 )
√ √
¯ − µ0 ) 5(9.5 − 8) (1 − p0 )(n1 − np0 )2 + p0 (n1 − np0 )2
n(X =
= = 1.68 np0 (1 − p0 )
σ 2
(n1 − np0 )2

= ,
Como este valor es menor que z1−α/2 = z0.975 = 1.96, se acepta la hipótesis µ = 8. En otras np0 (1 − p0 )
palabras, los datos no son inconsistentes con la hipótesis µ = 8.
se obtiene que
Nota Bene. Notar que, si se relaja el nivel de significación al 10 %, entonces la hipótesis !2
2 n1 − np0
µ = 8 debe rechazarse debido a que el valor z0.95 = 1.645 es menor que 1.68. D = p (67)
np0 (1 − p0 )
Función de potencia. La función de potencia es
Cuando la hipótesis H0 es verdadera, n1 ∼ Binomial (n, p0 ), y de acuerdo con el teorema
√ ! √ !
5(8 − µ) 5(µ − 8) central del lı́mite la distribución de la variable aleatoria
β(µ) = Φ −1.96 + + Φ −1.96 + . (22)
2 2 n1 − np0
p
np0 (1 − p0 )
Si se quiere determinar la probabilidad de cometer un error de tipo II cuando el valor
real enviado es 10 basta poner µ = 10 en la expresión (22) y calcular 1 − β(10): es asintóticamente normal N (0, 1). Por lo tanto, para valores grandes de n, D2 tiene una
 √   √  distribución aproximadamente igual a χ21 .
1 − Φ −1.96 − 5 − Φ −1.96 + 5 = Φ (−0.276) − Φ(−4.196) = 0.392.

16 45
alguna medida de la discrepancia entre ambas distribuciones y basar el test de hipótesis en 1
las propiedades de la distribución de dicha medida.
0.9
Hay varias formas de construir esas medidas. La que sigue fue introducida por Karl
Pearson. 0.8

Se divide el rango de la variable aleatoria X en una cantidad finita k de partes disjuntas 0.7

dos a dos, C1 , . . . , Ck , llamadas clases 5 tales que las probabilidades pi = P(X ∈ Ci |H0 ) > 0. 0.6

Las k clases, Ci , serán los k conjuntos en los que agruparemos los datos para tabularlos. 0.5
Se consideran n1 , . . . , nk las frecuencias de aparición de las clases C1 , . . . , Cn en la muestra 0.4
aleatoria X = (X1 , . . . , Xn ),
0.3
n
X k
X 0.2
ni = 1{Xj ∈ Ci } y ni = n.
j=1 i=1 0.1

Bajo la distribución hipotética la cantidad de valores muestrales ni pertenecientes a la 0


2 4 6 8 10 12 14
clase Ci se distribuye como una Binomial(n, pi ), y en consecuencia, para valores grandes
de n, las frecuencias relativas nni deben tener valores muy próximos a las probabilidades pi .
La dispersión entre las frecuencias relativas nni y las probabilidades pi se puede medir del
siguiente modo Figura 2: Gráfico de la función de potencia (22) correspondiente al test de hipótesis definido
k k en (21) para decidir entre H0 : µ = 8 contra H1 : µ 6= 8 con un nivel de significación del
X n
i
2 X (ni − npi )2 5 % y basado en una muestra de volumen 5.
D2 = wi − pi = wi , (64)
i=1
n i=1
n2
donde los coeficientes wi > 0 se pueden elegir de manera más o menos arbitraria. Cuando Ejemplo 4.2. Volvamos al problema del Ejemplo 4.1. Cuántas señales deberı́an enviarse
la hipótesis H0 es verdadera los valores de la medida de dispersión D2 deben ser pequeños, para que el test de nivel de significación α = 0.05 para H0 : µ = 8 contra H1 : µ 6= 8 tenga
lo que sugiere diseñar un test de hipótesis que decida rechazar la hipótesis H0 cuando y al menos una probabilidad igual a 0.75 de rechazar esa hipótesis cuando µ = 9.2?
solo cuando se observa que D2 > M , donde M es una constante arbitraria pero fija.
Karl Pearson demostró que cuando n es grande y la hipótesis H0 es verdadera, poniendo  2
Solución. Como z0.025 = −1.96 y z0.75 = 0.67, de (19) resulta n ≈ 2(0.67+1.96) = 19.21.
wi = pni en (64), la distribución de la medida de dispersión 9.2−8
Para una muestra de volumen 20 el test adopta la forma
k
X (ni − npi )2 ( √
D2 =

(65)
)
, 20(X¯ − 8) n √ o
i=1
npi δ(X) = 1

> 1.96 = 1 5(X
¯ − 8) > 1.96 (23)
2
es aproximadamente igual a una chi cuadrado con k − 1 grados de libertad. (Una de-
mostración de este resultado puede consultarse en: Cramer, H.: Métodos matemáticos de y su función de potencia adopta la expresión
estadı́stica. Aguilar, Madrid. (1970).)  √   √ 
β(µ) = Φ −1.96 + 5(8 − µ) + Φ −1.96 + 5(µ − 8) . (24)
Test de bondad de ajuste χ2 . Para decidir si la muestra aleatoria X = (X1 , . . . , Xn )
proviene de la distribución F se puede adoptar el siguiente criterio: En consecuencia,
δ(X) = 1{D2 > χ2k−1, 1−α }, (66)
β(9.2) = Φ (−4.6433) + Φ (0.72328) = 0.76525.
donde α ∈ (0, 1). Dicho en palabras, rechazar que FX = F cuando y solo cuando la medida
de dispersión D2 definida en (65) supera al cuantil 1 − α de la distribución chi cuadrado Dicho en palabras, si el mensaje se envı́a 20 veces, entonces hay un 76.52 % de posibilidades
con k − 1 grados de libertad. En tal caso, la probabilidad de rechazar H0 cuando H0 es de que la hipótesis nula µ = 8 sea rechazada cuando la media verdadera es 9.2.
verdadera es aproximadamente α.
5
Los valores de la variable aleatoria X pertenecen a una y solo a una de las clases C1 , . . . , Ck .

44 17
1
Ejemplo 8.3 (Números aleatorios). Se producen 10000 números con un generador de
“números aleatorios”. Para economizar espacio se registra la cantidad de números de la
0.9
forma 0. d..., donde d = 0, 1, . . . , 9. Se obtuvieron los resultados siguientes:
0.8

0.7 d 0 1 2 3 4 5 6 7 8 9
(61)
0.6
#{0. d...} 1008 1043 1014 1027 952 976 973 1021 998 988
0.5
¿Los datos se ajustan a una distribución uniforme U[0, 1]?
0.4

0.3
Ejemplo 8.4 (Poisson). Una partı́cula de polen suspendida en agua es bombardeada por
moléculas en movimiento térmico. Se la observa durante una hora y se registra la cantidad
0.2
de impactos que recibe por segundo. Sea X la variable aleatoria que cuenta la cantidad de
0.1
impactos por segundo recibidos por la partı́cula. Se obtuvieron los siguientes datos
0
2 4 6 8 10 12 14
X 0 1 2 3 4 5 6
(62)
# de s. con X impactos 1364 1296 642 225 55 15 3

Figura 3: Gráfico de la función de potencia (24) correspondiente al test definido en (23) Se quiere decidir si los datos provienen de una distribución de Poisson.
para decidir entre las hipótesis H0 : µ = 8 contra H1 : µ 6= 8 con un nivel de significación
Ejemplo 8.5 (Velocidad de la luz). En la siguiente tabla se muestran las mediciones de
del 5 % y basado en una muestra de volumen 20.
la velocidad de la luz realizadas por el fı́sico Albert Michelson entre el 5 de junio y el 5 de
julio de 1879. Los valores dados + 299.000 son las mediciones de Michelson en km/s.
Nota Bene. Comparando las Figuras 2 y 3 se puede ver que, fijado el nivel de signifi-
cación del test, cuando se aumenta el volumen de la muestra disminuyen los errores de tipo 850 740 900 1070 930 850 950 980 980 880
II. 1000 980 930 650 760 810 1000 1000 960 960
960 940 960 940 880 800 850 880 900 840
830 790 810 880 880 830 800 790 760 800
4.2. Variaciones sobre el mismo tema
880 880 880 860 720 720 620 860 970 950
(63)
Basados en una muestra X = (X1 , . . . , Xn ) de una distribución normal N (µ, σ 2 ) con 880 910 850 870 840 840 850 840 840 840
varianza σ 2 conocida se quiere construir un test de nivel de significación α para decidir 890 810 810 820 800 770 760 740 750 760
entre las hipótesis 910 920 890 860 880 720 840 850 850 780
H0 : µ = µ0 contra H 1 : µ > µ0 , 890 840 780 810 760 810 790 810 820 850
870 870 810 740 810 940 950 800 810 870
donde µ0 es un algún valor determinado.
Usando los resultados expuestos en la sección 3.2 tenemos que Las mediciones de la velocidad de la luz de Michelson, ¿se ajustan a una distribución
√ ¯  normal?
n(X − µ0 )
δ(X) = 1 > z1−α . (25)
σ
8.2. Test de bondad de ajuste para hipótesis simples
es un test de nivel α para decidir entre H0 : µ = µ0 contra H1 : µ 6= µ0 . Dicho en palabras,
¯ > µ0 + √σ z1−α y aceptarla en otro caso.
el test de hipótesis consiste en rechazar H0 si X La hipótesis nula afirma que
n
H0 : FX = F,
donde F es una distribución de probabilidades completamente determinada.
Si la hipótesis H0 es verdadera, la función de distribución empı́rica, Fn de los n valores
observados debe ser parecida a la función de distribución F . Lo que sugiere introducir

18 43
basada en dos muestras aleatorias independientes X e Y de volúmenes m = 180 y n = 200, Función de potencia. La función de potencia correspondiente al test (25) es
respectivamente. √ ¯ 
El test de hipótesis dado en (59) adopta la forma n(X − µ0 )
β(µ) = P (RechazarH0 |µ) = Pµ > z1−α
σ
  √ ¯ √ 
 √  n(X − µ) n(µ − µ0 )

 ¯
X −Y ¯ 36000

 = Pµ + > z1−α
δ(X, Y) = 1 r > 1.64 (60) σ σ
  √ ¯ √ 

 (180X
 ¯ + 200Y¯ ) 1 − 180X̄+200Ȳ

 n(X − µ) n(µ − µ0 )
= Pµ > −zα −

380
σ σ
 √ 
De acuerdo con los datos observados X ¯ = 30/180 y Y¯ = 25/200: n(µ − µ0 )
= Φ zα + . (26)
√ σ
30 25
180
− 200 36000
q  = 1.152 . . . De las propiedades de la función Φ(·) y de la expresión (26) para la función de potencia se
55
55 1 − 380 deduce que
(a) β(µ) creciente.
Debido a que 1.152 . . . < 1.64, no hay evidencia suficiente para rechazar la hipótesis pX =
pY . Por lo tanto, con un 5 % de nivel de significación, no hay evidencia suficiente para (b) β(µ0 ) = α
afirmar que la tasa de desocupación en la Argentina sea superior a la del Uruguay.
(c) lı́mµ↑+∞ β(µ) = 1 y lı́mµ↓−∞ β(µ) = 0.

8. Test de la χ2 para bondad de ajuste Debido a que la función de potencia (26) es creciente, el test definido en (25) también
se puede usar para decidir, con un nivel de significación α, entre la hipótesis
8.1. Planteo del problema H0 : µ ≤ µ0 contra H 1 : µ > µ0 .
Los test de bondad de ajuste tienen por objeto decidir si los datos observados se Ejemplo 4.3. Volvamos al problema presentado en el Ejemplo 4.1 pero supongamos que
ajustan a una determinada distribución de probabilidades. Más precisamente, se formula esta vez estamos interesados en testear con nivel de significación, α = 0.05, la hipótesis
una hipótesis, H, que afirma que los datos observados constituyen una muestra aleatoria H0 : µ ≤ 8 contra la hipótesis alternativa H1 : µ > 8. (Recordar que disponemos de muestra
X = (X1 , . . . , Xn ) de una distribución F . La distribución F puede estar completamente ¯ = 9.5)
aleatoria de volumen 5 de una población normal N (µ, 4) cuyo promedio resultó ser X
especificada (hipótesis simple) o puede pertenecer a una familia paramétrica (hipótesis En este caso, el test de hipótesis definido en (25) puede enunciarse de la siguiente
compuesta). manera:

Algunos ejemplos (para fijar ideas): ¯ > 8 + √2 z0.95 = 9.4712 y aceptarla en otro caso.
Rechazar H0 cuando X (27)
5
Ejemplo 8.1 (Moneda honesta). En una sucesión de 100 lanzamientos independientes de Si se observó que X¯ = 9.5, entonces debe rechazarse la hipótesis µ ≤ 8 a favor de la
una moneda se observaron 55 caras y 45 cecas ¿Estos datos son compatibles con la hipótesis alternativa µ > 9. La función de potencia correspondiente al test de hipótesis (27) es
de que la moneda es honesta?
√ !
5(µ − 8)
Ejemplo 8.2 (Multinomial). Para identificar las obras de su serie titulada Los paisajes β(µ) = Φ −1.64 + (28)
binarios el artista digital Nelo las firma con una imagen aleatoria de 10 × 10 pixels: por 2
cada pixel lanza un dado equilibrado: si sale 1, 2 o 3 lo pinta de rojo; si sale 4 o 5 lo pinta de Si se quiere determinar la probabilidad de aceptar la hipótesis µ ≤ 8 cuando el valor
verde y si sale 6 lo pinta de azul. Se somete a examen la firma de una obra digital titulada real enviado es µ = 10 basta poner µ = 10 en la expresión (28) y calculamos:
Cordillera binaria y se obtienen los siguientes resultados: 46 pixels rojos, 37 verdes y 17  √ 
azules. ¿La obra Cordillera binaria pertenece a la serie Los paisajes binarios? 1 − β(10) = 1 − Φ −1.64 + 5 = 0.27... (29)

42 19
1
Para construir el test usaremos los estimadores de máxima verosimilitud para las proba-
bilidades px y pY , p̂X = X¯ y p̂Y = Y¯ .
0.9
Vamos a suponer que los volúmenes de las muestras, m y n, son suficientemente grandes
0.8
y que ninguna de las dos variables está sobre representada.
0.7 Puesto que X ¯ y Y¯ son estimadores consistentes para las probabilidades pX y pY , resulta
¯ − X) ¯ y Y¯ 1 − Y¯ son consistentes de las varianzas pX (1 − pX ) y

0.6 que los estimadores X(1
0.5
pY (1 − pY ), respectivamente. Por lo tanto,
 
0.4
 ¯ − Y¯
X 
0.3 δ(X, Y) = 1 q > z1−α
 1X ¯ 1−X ¯ + 1 Y¯ 1 − Y¯
  
0.2 m n
0.1
es un test, de nivel aproximado α, para decidir entre las hipótesis H0 : ∆ = 0 contra
0
2 4 6 8 10 12 14 H1 : ∆ > 0.

Nota Bene. Observar que el nivel del test se calcula bajo la hipótesis pX = pY , en tal
¯ − Y¯ es de la forma
caso la desviación estándar de la diferencia X
Figura 4: Gráfico de la función de potencia (28) correspondiente al test definido en (27) r r
para decidir entre las hipótesis H0 : µ ≤ 8 contra H1 : µ > 8 con un nivel de significación pX (1 − pX ) pY (1 − pY ) p 1 1
del 5 % y basado en una muestra de volumen 5. + = pX (1 − pX ) +
m n m n
y podemos estimarla mediante
4.3. Hipótesis sobre media con varianza desconocida s
¯ + nY¯  ¯ + nY¯  1
r
Basados en una muestra aleatoria X = (X1 , . . . , Xn ) de una distribución normal N (µ, σ 2 ) mX mX 1
1− + .
queremos construir un test de nivel de significación α para decidir entre las hipótesis m+n m+n m n

H0 : µ = µ0 contra H1 : µ 6= µ0 , Lo que produce el test


 
donde µ0 es un algún valor determinado.  √ 

 ¯ − Y¯
X mn


δ(X, Y) = 1 r  > z1−α  (59)
Test de hipótesis

¯ + nY¯ ) 1 − mX̄+nȲ


 (mX m+n


Para distribuciones normales sabemos que
√ ¯
Q(X,¯ µ) = n(X − µ) ∼ tn−1
S Ejemplo 7.2. Se toma una muestra aleatoria de 180 argentinos y resulta que 30 están
¯ = 1 Pn Xi y S 2 = 1 Pn (Xi − X) ¯ 2. desocupados. Se toma otra muestra aleatoria de 200 uruguayos y resulta que 25 están
es un pivote para µ basado en X n i=1 n−1 i=1 desocupados. ¿Hay evidencia suficiente para afirmar que la tasa de desocupación de la
Es fácil ver que el pivote satisface las dos condiciones enunciadas al principio de la
población Argentina es superior a la del Uruguay?
Sección 3. De acuerdo con los resultados expuestos en la sección 3.1
√ ¯  √ ¯ 
n(X − µ0 ) n(X − µ0 ) Solución. La población desocupada de la Argentina puede modelarse con una variable
δ(X) = 1 < tn−1, α/2 + 1 > tn−1, 1−α/2 , (30)
S S aleatoria X ∼ Bernoulli(pX ) y la del Uruguay con una variable aleatoria Y ∼ Bernoulli(pY ).
Para resolver el problema utilizaremos un test de nivel de significación α = 0.05 para
es un test de nivel α para decidir entre las √hipótesis H0 : µ = µ√0 contra H1 : µ 6= µ0 .
0) 0)
decidir entre las hipótesis
Dicho en palabras, el test en rechazar H0 si n(X̄−µ
S
< tn−1, α/2 o n(X̄−µ
S
> tn−1, 1−α/2 y
aceptarla en otro caso. H0 : pX = pY contra H 1 : p X > pY

20 41
Si σ 2 y τ 2 son conocidas, de (58) resulta que las regiones de rechazo: Ejemplo

(ξˆm − η̂n ) − δ0 Ejemplo 4.4. En la siguiente tabla se muestran las mediciones, en segundos de grado,
(a) q > z1−α ; obtenidas por James Short (1761), de la paralaje solar (ángulo bajo el que se ve el radio
σ2 2
m
+ τn ecuatorial de la tierra desde el centro del sol) .
(ξˆm − η̂n ) − δ0
(b) q < zα ; 8.50 8.50 7.33 8.64 9.27 9.06 9.25 9.09 8.50 8.06
σ2 2
m
+ τn 8.43 8.44 8.14 7.68 10.34 8.07 8.36 9.71 8.65 8.35
8.71 8.31 8.36 8.58 7.80 7.71 8.30 9.71 8.50 8.28
(ξˆm − η̂n ) − δ0

9.87 8.86 5.76 8.44 8.23 8.50 8.80 8.40 8.82 9.02
(c) q > z1−α/2
σ2
+ τ2

10.57 9.11 8.66 8.34 8.60 7.99 8.58 8.34 9.64 8.34
m n
8.55 9.54 9.07
producen un test para H0 contra H1 de nivel asintótico α, para cada uno de los casos
¯ = 8.6162 y S = 0.749. En la Figura 5 se muestra un
Con esos datos tenemos que X
considerados, respectivamente.
Si σ 2 y τ 2 son desconocidas y σb2 y τb2 son estimadores consistentes para σ 2 y τ 2 , se puede histograma de los datos.
demostrar que las regiones de rechazo conservan su validez cuando σ 2 y τ 2 se reemplazan
por σb2 y τb2 , respectivamente y entonces el test con región de rechazo 0.7

(ξˆm − η̂n ) − δ0 0.6


(a) q > z1−α ;
c2
σ c2
m
+ τn 0.5

(ξˆm − η̂n ) − δ0 0.4


(b) q < zα ;
c2
σ τc2
m
+ n 0.3

(ξˆm − η̂n ) − δ0

0.2
(c) q > z1−α/2

c2
σ τc2

m
+ n

0.1

también tiene nivel asintótico α. 0


5 6 7 8 9 10 11 12
Para mayores detalles se puede consultar el libro Lehmann, E. L. (1999) Elements of
Large-Sample Theory. Springer, New York.

Nota Bene. Notar que el argumento anterior proporciona un método general de nat- Figura 5: Histograma de las mediciones obtenidas por James Short. Parece razonable
uraleza asintótica. En otras palabras, en la práctica los resultados que se obtienen son asumir que las mediciones de la paralaje solar tienen distribución normal.
aproximados. Dependiendo de los casos particulares existen diversos refinamientos que
permiten mejorar esta primera aproximación. Asumiendo que las mediciones tienen distribución N (µ, σ 2 ) queremos decidir, con un
nivel de significación α = 0.05, entre las hipótesis
7.4. Problema de dos muestras binomiales
H0 : µ = 8.798 contra H1 : µ 6= 8.798
Sean X = (X1 , . . . , Xm ) e Y = (Y1 , . . . , Yn ) dos muestras aleatorias independientes
Como n = 53 y t52, 0.025 = −t52, 0.975 = −2.0066, el test de hipótesis (30) adopta la forma
de dos variables aleatorias X e Y con distribución Bernoulli de parámetros pX y pY ,
respectivamente. Sea ∆ = pX − pY . Queremos un test para decidir entre las hipótesis (√ ) (√ )
53(X ¯ − 8.798) 53(X¯ − 8.798)
δ(X) = 1 < −2.0066 + 1 > 2.0066 .
H0 : ∆ = 0 contra H1 : ∆ > 0 S S

40 21
Usando los datos de las mediciones tenemos que Ejemplo 7.1. Queremos construir un test de nivel α = 0.05 para decidir entre H0 : R = 1
√ √ contra H1 : R 6= 1 usando muestras X y Y de volumen m = n = 10.
53(X¯ − 8.798) 53(8.6162 − 8.798) Proponemos un test de la forma (57). El problema se reduce determinar valores φ1 y
= = −1.7667.
S 0.749 φ2 tales que
Por lo tanto, no hay evidencia suficiente para rechazar que la paralaje solar es µ = 8.798. P(F9, 9 > φ2 ) = 0.025 y P(F9, 9 < φ1 ) = 0.025.
′′
Usando como paralaje solar el valor µ = 8.798 y como radio ecuatorial de la tierra el Usando las tablas de las distribuciones F resulta que φ2 = 4.5362 y que φ1 = 1/φ2 = 0.2204.
valor R = 6378 km., trigonometrı́a mediante, se puede determinar la distancia D entre la Finalmente, se obtiene el test
tierra y el sol:  
8.798 π 6378 δ(X, Y) = {F ∈
/ [0.2204, 4.5362]} .
tan × = ⇐⇒ D = 1.4953 × 108 .
3600 180 D
Lo que significa que la distancia entre la tierra y el sol es 149.53 millones de km.

7.3. Planteo general


5. Test para probabilidad de éxito de distribuciones Supongamos que tenemos dos muestras aleatorias independientes X = (X1 , . . . , Xm ) e
Bernoulli Y = (Y1 , . . . , Yn ) con distribuciones dependientes de los parámetros ξ y η, respectivamente.
Sea ∆ = ξ − η.
Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable aleatoria con distribución Se quiere decidir entre la hipótesis fundamental
Bernoulli(p), p ∈ (0, 1). Basados en la muestra aleatoria, X, queremos construir test para
decidir entre dos hipótesis sobre la probabilidad de éxito p. H0 : ∆ = δ0
La cantidad de éxitos en la muestra
n
contra cualquiera de las hipótesis alternativas:
X
N= Xi
(a) H1 : ∆ > δ0 ;
i=1
(b) H1 : ∆ < δ0 ;
tiene distribución Binomial(n, p) y resume toda la información relevante sobre el parámetro (c) 6 δ0 .
H1 : ∆ =
p contenida en la muestra aleatoria X. La media y la varianza de N son, respectivamente,
Ep [N ] = np y Vp (N ) = np(1 − p). Sabemos que si dos estimadores para ξ y η, ξˆm y η̂n , tienen la propiedad de normalidad
asintótica
Lema 5.1 (Dominación estocástica). Sean 0 < p1 < p2 < 1 arbitrarios pero fijos. Si N1 ∼
Binomial(n, p1 ) y N2 ∼ Binomial(n, p2 ), entonces para cada x ∈ R vale que √ ˆ
m(ξm − ξ) → N (0, σ 2 ) cuando m → ∞,

P(N2 ≤ x) ≤ P(N1 ≤ x). n(η̂n − η) → N (0, τ 2 ) cuando n → ∞,

donde σ 2 y τ 2 pueden depender de ξ y η, respectivamente y ninguna de las variables


Demostración Sean U1 , . . . , Un variables aleatorias independientes cada una con dis- está sobre-representada (i.e., m y n son del mismo orden de magnitud), entonces
tribución U(0, 1). Para cada i = 1, . . . , n construya las siguientes variables
(ξˆm − η̂n ) − (ξ − η)
X1,i := 1{Ui ≤ p1 }, X2,i := 1{Ui ≤ p2 }. q → N (0, 1) (58)
σ2 2
m
+ τn
Por construcción valen las siguientes propiedades:

(a) las variables X1,1 , . . . , X1,n son iid Bernoulli(p1 );

(b) las variables X2,1 , . . . , X2,n son iid Bernoulli(p2 );

22 39
Se puede mostrar que (c) para cada i vale que X2,i ≥ X1,i .
2
(n + m − 2) 2 (m − 1)SX + (n − 1)SY2 En consecuencia, las variables
U= SP = ∼ χn+m−2 .
σ2 σ2 n n
X X
ˆ1 := X1,i ∼ Binomial(n, p1 ), ˆ2 := X2,i ∼ Binomial(n, p2 )
Debido a que las variables Z y U son independientes, tenemos que N N
i=1 i=1
Z ¯ − Y¯
X
T =p =p q ∼ tm+n−2 verifican que Nˆ1 ≤ Nˆ2 . Se deduce entonces que que {Nˆ2 ≤ x} ⊆ {Nˆ1 ≤ x}, para cualquier
U/(m + n − 2) SP m1 +
2 1
n x ∈ R. Por lo tanto,
   
Por lo tanto,   P(N2 ≤ x) = P Nˆ2 ≤ x ≤ P Nˆ1 ≤ x = P (N1 ≤ x) .
¯ − Y¯

X 
δ(X, Y) = 1 p q > tm+n−2, 1−α .
 S2 1 + 1 
P m n
Corolario 5.2. Sea N una variable aleatoria con distribución Binomial(n, p), p ∈ (0, 1).
es un test de nivel de significación α para decidir entre las hipótesis H0 : ∆ = 0 contra
Fijado un valor x ∈ R+ , la función polinómica de grado n, h : (0, 1) → [0, 1], definida por
H1 : ∆ > 0.
[x]  
X n
7.2. Test F para varianzas de normales. h(p) = Pp (N ≤ x) = pk (1 − p)n−k
k=0
k
Sean X = (X1 , . . . , Xm ) e Y = (Y1 , . . . , Yn ) dos muestras aleatorias independientes
2
de distribuciones normales N (µX , σX ) y N (µY , σY2 ), respectivamente. Sea R = σX 2
/σY2 . es decreciente.
Queremos un test para decidir entre las hipótesis
5.1. Test para moneda honesta (de lo simple a lo complejo)
H0 : R = 1 contra H1 : R 6= 1.
Se quiere decidir si una moneda es honesta o no lo es. Formalmente, se trata de construir
2
Las varianzas σX y σY2 se pueden estimar mediante sus estimadores insesgados SX
2
y SY2 . un test para decidir entre las hipótesis
Las variables
1 1
(m − 1) 2 (n − 1) 2 H0 : p = contra H1 : p 6= .
U= SX ∼ χ2m−1 y V = SY ∼ χ2n−1 2 2
2
σX σY2
1.- Se quiere decidir tirando la moneda 6 veces. ¿Qué hacer? Observamos la cantidad N
son independientes. de caras obtenidas en los 6 tiros. Para cada p tenemos que N ∼ Binomial(6, p). Cuando
la moneda es honesta, E1/2 [N ] = 3. Teniendo en cuenta la existencia de fluctuaciones
Test de hipótesis. Bajo la hipótesis H0 : R = 1, vale que parece razonable aceptar que la moneda es honesta cuando observamos que 2 ≤ N ≤ 4.
2 Proponemos entonces el siguiente test
SX S 2 /σ 2
F = 2
= X2 X ∼ Fm−1, n−1 .
SY SY /σY2 δ(X) = 1 − 1{2 ≤ N ≤ 4} = 1{N < 2} + 1{N > 4},
Por lo tanto, cuya función de potencia des
δ(X, Y) = 1 {F ∈
/ [φ1 , φ2 ]} , (57) β(p) = Pp (N ≤ 1) + Pp (N ≥ 5) = (1 − p)6 + 6p(1 − p)5 + 6p5 (1 − p) + p6 .
donde φ1 y φ2 son tales que P(F < φ1 ) = P(F > φ2 ) = α/2, es un test de nivel α para Dada una moneda honesta, ¿qué riesgo se corre de rechazarla como falsa? Esta pregunta
6 1.
decidir entre las hipótesis H0 : R = 1 contra H1 : R = se contesta calculando el nivel de significación del test α = β(1/2) = 14 = 0.21875.
64

38 23
1
Ejemplo 6.2. En la Sección dedicada al estudio de intervalos de confianza mostramos
que cuando una muestra aleatoria X (de volumen 8) de una población normal N (µ, σ 2 )
0.9 arroja los valores 9, 14, 10, 12, 7, 13, 11, 12, el intervalo Iσ2 = [2.248, 21.304] es un intervalo
0.8
de confianza de nivel β = 0.95 para la varianza σ 2 .
Si se quiere decidir al 5 % de significación entre las hipótesis
0.7
H0 : σ 2 = 4 contra H1 : σ 2 6= 4.
0.6
el test de hipótesis (56) conduce a no rechazar la hipótesis σ 2 = 4.
0.5

0.4
7. Comparación de dos muestras
0.3

0.2 7.1. Test para medias de dos muestras normales.


0 0.2 0.4 0.6 0.8 1

Sean X = (X1 , . . . , Xm ) e Y = (Y1 , . . . , Yn ) dos muestras aleatorias independientes


2
de distribuciones normales N (µX , σX ) y N (µY , σY2 ), respectivamente. Sea ∆ = µX − µY .
Queremos un test para decidir entre las hipótesis
Figura 6: Gráfico de la función de potencia del test δ(X) = 1{N < 2} + 1{N > 4}.
H0 : ∆ = 0 contra H1 : ∆ > 0.
2.- Se propone el siguiente test: lanzar la moneda 100 veces y contar la cantidad de caras
observadas N . Si 40 ≤ N ≤ 60 se decide que la moneda es honesta. En caso contrario, se 7.1.1. Varianzas conocidas
decide que no lo es. 2
Supongamos que las varianzas σX y σY2 son conocidas. Para construir el test de hipótesis
Definido el test lo único que queda por hacer es evaluar los riesgos de decisiones erróneas. usaremos los estimadores de media: X¯ y Y¯ . Puesto que
Para ello calculamos la función de potencia  2 2

X¯ − Y¯ ∼ N ∆, σX + σY
β(p) = P(RechazarH0 | p) = Pp (N < 40) + Pp (N > 60). m n

Para cada p la cantidad de caras observadas en 100 lanzamientos se distribuye como una el test de nivel α decidir entre H0 : ∆ = 0 contra H1 : ∆ > 0 es
 
Binomial: N ∼ Binomial(100, p). En consecuencia,  X ¯ − Y¯ 
δ(X, Y) = 1 q 2 > z1−α
39   100    σX σY2
X 100 X 100 + n

β(p) = pk (1 − p)100−k + pk (1 − p)100−k . (31) m

k=0
k k=61
k

Sin una herramienta computacional a la mano es insensato calcular riesgos utilizando


la expresión obtenida en (31). Como el volumen de la muestra es 100 usando el teorema 7.1.2. Varianzas desconocidas pero iguales.
central del lı́mite, N ∼ N (100p, 100p(1 − p), podemos obtener una buena aproximación 2
Supongamos las varianzas σX = σY2 = σ 2 . En tal caso, bajo la hipótesis ∆ = 0 tenemos
de la función de potencia, (al menos para valores de p contenidos en el intervalo abierto que
(0.12, 0.88)) X¯ − Y¯
Z=√ q ∼ N (0, 1).
1
2 + n1
! !
40 − 100p 60 − 100p σ m
β(p) ≈ Φ p +1−Φ p
100p(1 − p) 100p(1 − p) Para estimar la varianza σ 2 ponderamos “adecuadamente” los estimadores de varianza SX
2
2
! ! y SY ,
4 − 10p 10p − 6 m−1 n−1 2
(m − 1)SX + (n − 1)SY2
= Φ p +Φ p (32) SP2 := 2
SX + SY2 = .
p(1 − p) p(1 − p) m+n−2 m+n−2 m+n−2

24 37
1 1

0.9 0.9

0.8 0.8

0.7
0.7
0.6
0.6
0.5
0.5
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
0 1 2 3 4 5 6 7 8 9
0
0 0.2 0.4 0.6 0.8 1

Figura 10: Gráfico de la función de potencia del test (55).


Figura 7: Gráfico de la función de potencia del test δ(X) = 1{N < 40} + 1{N > 60}. En
lı́nea quebrada aproximación usando el TCL.
6.2. Hipótesis sobre varianza con media desconocida
Usando intervalos de confianza para la varianza de una distribución normal N (µ, σ 2 ) Es más o menos claro que la función de potencia es simétrica respecto de p = 1/2. Esto es,
vamos a construir test de hipótesis de nivel de significación α para decidir entre para cada q ∈ (0, 1/2)), vale que β(1/2 − q) = β(1/2 + q).
Riesgos:
H0 : σ 2 = σ02 contra H1 : σ 2 6= σ02 ,
1. El nivel de significación del test es α = β(1/2). Calculamos β(1/2) utilizando la
para algún valor σ02 determinado. aproximación obtenida en (32)
Dada una muestra aleatoria X = (X1 , . . . , Xn ) de la distribución normal N (µ, σ 2 )
! !
sabemos que 4−5 5−6
β(1/2) ≈ Φ p = Φ(−2) + Φ(−2) ≈ 0.0455
" #
(n − 1)S 2 (n − 1)S 2 +Φ p
I(X) = , , 1/4 1/4
χ2n−1, 1−α/2 χ2n−1, α/2
Esto significa que la probabilidad de rechazar que la moneda es honesta, cuando en
es un intervalo de confianza para σ 2 de nivel β. Poniendo β = 1 − α se obtiene el siguiente
verdad lo es, será 0.0455. En palabras: de cada 100 monedas honestas sometidas a
test de nivel α para decidir entre las hipótesis H0 : σ 2 = σ02 contra H1 : σ 2 6= σ02
verificación (en promedio) serán rechazadas como falsas 4 o 5 de ellas.
δ(X) = 1{I(X) 6∋ σ02 } 2. ¿Qué riesgo se corre de aceptar como honesta una moneda falsa, con carga 0.7 hacia
(n − 1)S 2 (n − 1)S 2
   
= 1 < χ 2
+ 1 > χ 2
(56) el lado de la cara? Para contestar esta pregunta tenemos que calcular el valor de
n−1, α/2 n−1, 1−α/2 .
σ02 σ02 1 − β(0.7). Usando (32) obtenemos
   
Función de potencia. Notar que el análisis de función de potencia de test (56) es 4−7 7−6
1 − β(0.7) ≈ 1 − Φ √ −Φ √ ≈ 0.0146.
completamente análogo al desarrollado para el caso en que suponı́amos que la media µ es 0.21 0.21
conocida.
Grosso modo el resultado se interpreta de la siguiente manera: de cada 100 monedas
cargadas con 0.7 para el lado de cara sometidas a verificación (en promedio) serán
Nota Bene. Notar que los test de hipótesis definidas en (54) y (56) son inmediatamente
aceptadas como honestas 1 o 2 de ellas.
útiles para tomar decisiones.

36 25
3.- Queremos un test de nivel de significación α = 0.05, basado en 64 lanzamientos de la para algún valor σ02 determinado.
moneda. Parece razonable proponer un test de la forma Dada una muestra aleatoria X = (X1 , . . . , Xn ) de la distribución normal N (µ, σ 2 ) con
media µ conocida, sabemos que
δ(X) = 1{N < 32 − k} + 1{N > 32 + k}. " #
nσb2 mv nσb2 mv
El problema consiste en determinar el valor de k. El nivel de significación del test es I(X) = , ,
χ2n, (1+β)/2 χ2n, (1−β)/2
β(1/2) = P1/2 (N < 32 − k) + P1/2 (N > 32 + k)
donde nσb2 mv = ni=1 (Xi − µ)2 , es un intervalo de confianza para σ 2 de nivel β. Poniendo
P

Para p = 1/2, N ∼ Binomial(64, 1/2) y usando el teorema central de lı́mite obtenemos β = 1−α se obtiene el siguiente test de nivel α para decidir entre las hipótesis H0 : σ 2 = σ02
que la distribución de N es aproximadamente normal de media E1/2 [N ] = (1/2)64 = 32 y contra H1 : σ 2 6= σ02
varianza V1/2 (N ) = (1/2)(1/2)64 = 16.
δ(X) = 1{I(X) 6∋ σ02 }
β(1/2) = P1/2 (N < 32 − k) + P1/2 (N > 32 + k)
( n
) ( n
)
1 X 2 2 1 X 2 2

N − 32
 
N − 32
 = 1 (Xi − µ) < χ n, α/2 + 1 (Xi − µ) > χ n, 1−α/2 . (54)
≈ P1/2 <−
k
+ P1/2 >
k σ02 i=1 σ02 i=1
4 4 4 4
     
k k k Función de potencia. Para calcular y analizar el comportamiento de la función de
= Φ − +Φ − = 2Φ −
4 4 4 potencia,
β(σ 2 ) = P(RechazarH0 |σ 2 ),
En consecuencia,
  debe recordarse que cuando el verdadero valor de la varianza es σ 2 , la variable aleatoria
k k 1
Pn 2 2 σ02
β(1/2) = 0.05 ⇐⇒ Φ − = 0.025 ⇐⇒ − = z0.025 = −1.96 ⇐⇒ k = 7.84. σ2 i=1 (Xi −µ) tiene distribución χn = Γ(n/2, 1/2). Multiplicando por σ 2 en las desigual-
4 4 dades dentro de las llaves en la fórmula del test (54), y “calculando” las correspondientes
probabilidades, obtenemos la siguiente expresión
Por lo tanto, el test adopta la forma
a(σ 2 ) ∞
(1/2)n/2 (n/2)−1 − 1 x (1/2)n/2 (n/2)−1 − 1 x
Z Z
δ(X) = 1{N < 32 − 7.84} + 1{N > 32 + 7.84} = 1{N < 25} + 1{N > 39}. β(σ 2 ) = x e 2 dx + x e 2 dx,
0 Γ(n/2) b(σ 2 ) Γ(n/2)
En palabras, el test consiste en lo siguiente: lanzar la moneda 64 veces; si la cantidad de
caras observadas es menor que 25 o mayor que 39, se decide que la moneda está cargada; donde
σ02 2 σ02 2
en caso contrario, se decide que la moneda es honesta. a(σ 2 ) = χ , b(σ 2 ) = χ .
σ 2 n, α/2 σ 2 n,1−α/2
¿Qué riesgo se corre de aceptar como honesta una moneda con carga 0.7 hacia el lado
de la cara? La respuesta
p se obtiene calculando 1 − β(0.7). Para p = 0.7 el TCL establece
que (N − 0.7(64))/ (0.7)(0.3)64 ∼ N (0, 1), en consecuencia, Ejemplo 6.1. Dada una muestra aleatoria de volumen 10 de una población normal de
! ! media 0 se quiere construir un test de nivel α = 0.05 para decidir entre las hipótesis
25 − 0.7(64) 0.7(64) − 39 H0 : σ 2 = 1 contra H1 : σ 2 6= 1.
β(0.7) ≈ Φ p +Φ p ≈ Φ(1.5821) = 0.94318.
(0.21)64 (0.21)64
Solución. Como χ210, 0.025 = 3.247 y χ210, 0.975 = 20.483, el test de hipótesis (54) adopta la
Por lo tanto, 1 − β(0.7) = 0.0568... forma
( n ) ( n )
4.- Queremos un test de nivel de significación α = 0.05, cuya potencia cuando la carga X X
δ(X) = 1 Xi2 < 3.247 + 1 Xi2 > 20.483 . (55)
difiere de 0.5 en más de 0.1 sea como mı́nimo 0.90. Parece razonable proponer una regla
i=1 i=1
de la forma
δ(X) = 1{N < n(1/2) − k} + 1{N > n(1/2) + k}.

26 35
Potencia en una alternativa. El análisis de la potencia en las hipótesis alternativas 1
simples p = p1 , con p1 > p0 , se realiza siguiendo las mismas lı́neas desarrolladas en la
0.9
sección anterior.
0.8

Ejemplo 5.3. Un productor de chips afirma que no más del 2 % de los chips que produce 0.7
son defectuosos. Una compañı́a electrónica (impresionada por dicha afirmación) le compra 0.6
una gran cantidad de chips. Para determinar si la afirmación del productor se puede tomar
0.5
literalmente, la compañı́a decide testear una muestra de 300 de esos chips. Si se encuentra
0.4
que 10 de los 300 chips son defectuosos, deberı́a rechazarse la afirmación del productor?
0.3

Solución. Formalmente, el problema consiste en construir un test de hipótesis para de- 0.2

cidir entre 0.1

H0 : p ≤ 0.02 contra H1 : p > 0.02. 0


0 0.2 0.4 0.6 0.8 1
sobre la base de una muestra de volumen 300.
Fijado un nivel de significación, por ejemplo α = 0.05, el test de hipótesis (52) adopta
la forma
n p o Figura 8: Gráfico de la función de potencia del test δ(X) = 1{N < 25} + 1{N > 39}. En
δ(X) = 1 N > 300(0.02) + z0.95 300(0.02)(0.98) = 1{N > 9.9886} lı́nea quebrada aproximación usando el TCL.
= 1{N ≥ 10}. (53)
El problema consiste en determinar el volumen de la muestra, n, y el valor de k. Las
Dicho en palabras, al nivel del 5 % de significación, un test para decidir entre las condiciones impuestas al test pueden expresarse de la siguiente manera
hipótesis H0 : p ≤ 0.02 contra H1 : p > 0.02, basado en una muestra de volumen 300,
α(δ) ≤ 0.05 y β(0.6) ≥ 0.90, (33)
consiste en rechazar la hipótesis H0 siempre que se observen 10 o más éxitos.
Traducido al problema que estamos examinando, el criterio de decisión puede enunciarse donde α(δ) = β(1/2) es en nivel del test y β(0.6) es la potencia en p = 0.6.
de la siguiente manera: “examinar 300 componentes. Si se observan 10 o más defectuosos Ambos problemas se resuelven caracterizando la función de potencia del test
debe rechazarse la afirmación del productor de que produce con una calidad de a lo sumo
β(p) = Pp (N < n(1/2) − nǫ) + Pp (N > n(1/2) + nǫ)
un 2 %, si se observan menos de 10 defectuosos no hay evidencia suficiente para rechazar
su afirmación.” De acuerdo con el el TCL tenemos que para cada p
En conclusión, como en la muestra examinada se observaron 10 chips defectuosos, al N − np
nivel del 5 % de significación, la afirmación del productor debe rechazarse. Z=p ∼ N (0, 1),
np(1 − p)
en consecuencia,
6. Test para varianza de normales ! !
n(1/2 − p) − nǫ n(1/2 − p) + nǫ
El objetivo de esta sección es ilustrar cómo se pueden obtener test de hipótesis usando β(p) ≈ Pp Z< p + Pp Z > p
np(1 − p) np(1 − p)
intervalos de confianza. √ ! √ !
n(1/2 − p − ǫ) n(p − 1/2 − ǫ)
= Φ p +Φ p
6.1. Hipótesis sobre varianza con media conocida p(1 − p) p(1 − p)

Usando intervalos de confianza para la varianza de una distribución normal N (µ, σ 2 ) Notar que para p > 1/2 el primer término del lado derecho de la igualdad es despreciable
con media µ conocida vamos a construir test de hipótesis de nivel de significación α para y entonces
√
decidir entre

n(0.1 − ǫ)
H0 : σ 2 = σ02 contra H1 : σ 2 6= σ02 , β(0.6) ≈ Φ √
0.24

34 27
Por otra parte, Test de hipótesis. En este caso resulta intuitivamente claro proponer test de forma
√ !
− nǫ √  δ(X) = 1{N > np0 + nǫ}, (47)
β(1/2) ≈ 2Φ p = 2Φ −2 nǫ
1/4
donde n y ǫ son parámetros ajustables.
En consecuencia, las desigualdades (33) son equivalentes a las siguientes:
√
√ 

n(0.1 − ǫ) Función de potencia. Fijados n y ǫ la función de potencia del test es
2Φ −2 nǫ ≤ 0.05 y Φ √ ≥ 0.90.
0.24
β(p) = P (rechazarH0 | p) = Pp (δ(X) = 1) = Pp (N > np0 + nǫ)
Por lo tanto, n y ǫ deben ser tales que n  
√ n k
X
√ n(0.1 − ǫ) = p (1 − p)n−k . (48)
2ǫ n ≥ z0.975 y √ ≥ z0.90 (34) k
k=[np0 +nǫ]+1
0.24
Recurriendo a una tabla de la distribución normal, usando una calculadora de almacenero De acuerdo con el Corolario 5.2 la función de potencia es creciente. Esto es intuitivamente

(que tenga una tecla con el sı́mbolo ·), y operando con las desigualdades (34) se pueden claro si se piensa que cuando aumenta la probabilidad de cada éxito, la cantidad de éxitos
obtener soluciones particulares. Por ejemplo, n = 259 y ǫ = 0.061. debe aumentar.
Tomando n = 259 y ǫ = 0.061 obtenemos la siguiente regla de decisión:
δ(X) = 1{N < 114} + 1{N > 145}. Aproximación por TCL. Si el volumen de muestra es suficientemente grande, usando
el teorema central del lı́mite podemos obtener la siguiente expresión aproximada de la
En palabras, el test establece que hay que lanzar la moneda 259 veces y contar la cantidad función de potencia
de caras observadas. Si la cantidad de caras observadas es menor que 114 o mayor que 145 ! √ !
se decide que la moneda está cargada. En caso contrario, se decide que es honesta. N − np np0 + nǫ − np n(p − p0 − ǫ)
β(p) = Pp p > p ≈Φ p . (49)
np(1 − p) np(1 − p) p(1 − p)
Una cuenta. Para obtener el resultado particular n = 259 y ǫ = 0.061 hay que hacer lo
siguiente: En primer lugar, hay que observar que Nivel de significación. Como la función de potencia es creciente, el nivel de significación

n(0.1 − ǫ) √ √ del test se obtiene de la siguiente manera
√ ≥ z0.90 ⇐⇒ n(0.1 − ǫ) ≥ z0.90 0.24
0.24
√ n √ !
√ √
 
X n k − nǫ
⇐⇒ 0.1 n − z0.90 0.24 ≥ ǫ n α(δ) = máx β(p) = β(p0 ) = p0 (1 − p0 )n−k ≈ Φ p . (50)
 √ √  √ p≤p0 k
k=[np0 +nǫ]+1
p0 (1 − p0 )
⇐⇒ 2 0.1 n − z0.90 0.24 ≥ 2ǫ n (35)

La última desigualdad de (35) combinada con la primera de (34) implican que n debe La aproximación en (50) presupone que el volumen de muestra es suficientemente grande
satisfacer las desigualdades (por ejemplo, np0 (1 − p0 ) > 10).
√ √ √  √  Prefijados un volumen de muestra suficientemente grande y un nivel de significación α
0.2 n − 2z0.90 0.24 ≥ z0.975 ⇐⇒ n ≥ 5 z0.975 + 2z0.90 0.24 para el test de hipótesis, la aproximación (50) permite hallar el valor de ǫ
 √ 2 p √
⇐⇒ n ≥ 25 z0.975 + 2z0.90 0.24 z1−α p0 (1 − p0 ) = nǫ. (51)

Tabla de la distribución normal (z0.975 = 1.96, z0.90 = 1.28) y calculadora mediante, se Test de hipótesis con nivel de significación aproximado. Usando el diseño (47)
obtiene que n ≥ 259. Poniendo n = 259 en la tercera desigualdad de (35) se puede ver que y el resultado obtenido en (51) se deduce que, para n suficientemente grande y fijo, la
ǫ debe ser tal que forma del test de hipótesis de nivel de significación α para decidir entre H0 : p ≤ p0 contra

0.24 H1 : p > p0 es
ǫ ≤ 0.1 − z0.90 √ ≈ 0.061.
259 n p o
δ(X) = 1 N > np0 + z1−α np0 (1 − p0 ) . (52)
Podemos elegir ǫ = 0.061.

28 33
Potencia en una alternativa. El mismo problema se presenta cuando se prescribe una 1
potencia β para una alternativa p1 . En esta situación trataremos de resolver la desigualdad
0.9
β(p1 ) ≥ β. Nuevamente la aproximación (39) permite resolver el problema:
0.8

Si p1 < p0 el segundo término en (39) es despreciable respecto del primero y entonces 0.7
obtenemos la siguiente aproximación: 0.6

√ !
0.5
n(p − p1 − ǫ)
β(p1 ) ≈ Φ p 0 . (44) 0.4
p1 (1 − p1 )
0.3

0.2
Si p1 > p0 el primer término es despreciable respecto del segundo y entonces obten-
emos la siguiente aproximación: 0.1

0
√ ! 0 0.2 0.4 0.6 0.8 1
n(p − p0 − ǫ)
β(p1 ) ≈ Φ p 1 . (45)
p1 (1 − p1 )

Para fijar ideas supongamos que p1 > p0 . Razonando del mismo modo que antes se Figura 9: Gráfico de la función de potencia del test δ(X) = 1{N < 114} + 1{N > 145}.
obtiene la siguiente solución “aproximada” de la inecuación β(p1 ) ≥ β: En lı́nea quebrada aproximación usando el TCL.

n(p − p0 − ǫ) 5.2. Hipótesis fundamental simple
p 1 ≥ zβ . (46)
p1 (1 − p1 )
Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable aleatoria con distribución
El razonamiento anterior muestra que, prefijados dos valores α y β, se pueden diseñar test Bernoulli(p), p ∈ (0, 1). Basados en la muestra aleatoria X queremos construir test para
de hipótesis de la forma (36) con prescripciones del siguiente tipo: nivel de significación decidir entre las hipótesis
menor o igual que α y/o potencia en una alternativa particular superior a β.
H0 : p = p0 contra H1 : p 6= p0 ,

5.3. Hipótesis fundamental compuesta donde p0 ∈ (0, 1) es un valor arbitrario pero fijo.
Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable aleatoria con distribución
Bernoulli(p), p ∈ (0, 1). Basados en la muestra aleatoria X queremos construir test para Primera fase: diseñar un test de hipótesis
decidir entre las hipótesis Cuando la hipótesis H0 es verdadera,
Pn
p la cantidad de éxitos N = i=1 Xi tiene distribu-
ción binomial de media np0 y desvı́o np0 (1 − p0 ). Parece razonable construir reglas de
H0 : p ≤ p0 contra H1 : p > p0 ,
decisión de la forma
donde p0 ∈ (0, 1) es un valor arbitrario pero fijo.
δ(X) = 1 {N < np0 − nǫ} + 1 {N > np0 + nǫ} , (36)
Programa de actividades. Adaptaremos los argumentos y razonamientos desarrollados donde n ∈ N y ǫ > 0 son arbitrarios pero fijos.
en la sección 5.2. La primera fase del programa consiste en construir test de hipótesis En castellano, el test de hipótesis definido en (36) establece el siguiente procedimiento
basados en la cantidad de éxitos de la muestra N = ni=1 Xi . La segunda fase del programa
P
de decisión:
consiste en evaluar los riesgos de tomar decisiones erróneas con los test construidas: se trata
de caracterizar analı́ticamente la función de potencia y estudiar sus propiedades cualitativas 1. Examinar una muestra de tamaño n de la variableP
aleatoria Bernoulli, X = (X1 , . . . , Xn )
y cuantitativas: cálculo del nivel de significación y de la potencia en las hipótesis alternativas y contar la cantidad de éxitos observados: N = ni=1 Xi .
simples.

32 29
2. Si la cantidad de éxitos observados es menor que np0 − nǫ o mayor que np0 + nǫ se Esto permite aproximar el valor de β(p) de la siguiente manera
rechaza la hipótesis p = p0 y se decide que p 6= p0 . En caso contrario, se no se rechaza ! !
la hipótesis p = p0 . n(p0 − p − ǫ) n(p0 − p + ǫ)
β(p) = Pp Z < p + Pp Z > p
np(1 − p) np(1 − p)
Segunda fase: caracterizar la función de potencia √ ! √ !
n(p0 − p − ǫ) n(p − p0 − ǫ)
≈ Φ +Φ . (39)
La segunda fase del programa consiste en “calcular” la función de potencia. Esta función
p p
p(1 − p) p(1 − p)
permite calcular los riesgos de tomar decisiones erróneas:
Aunque la aproximación (39) pueda resultar “grosera” y no sea lo suficientemente buena
β(p) = P (Rechazar H0 | p) = Pp (δ(X) = 1) para todos los posibles valores de p, permite capturar el comportamiento cualitativo de la
= Pp (N < np0 − nǫ) + Pp (N > np0 + nǫ) función de potencia.
[np0 −nǫ]   n  
X n k X n k Nivel de significación. Poniendo p = p0 , la aproximación (39) permite observar que
= p (1 − p)n−k + p (1 − p)n−k . (37)
k k
k=0 k=[np0 −nǫ]+1 √ !
− nǫ
α(δ) = β(p0 ) = 2Φ p . (40)
Notar que la función de potencia resultó ser un complicado polinomio de grado n y no es p0 (1 − p0 )
fácil capturar a simple vista su comportamiento cualitativo.
Esto indica que basta tomar n suficientemente grande para que β(p0 ) se ubique todo lo
Nivel de significación. Debido a que la hipótesis fundamental es de la forma p = p0 , cerca del 0 que uno quiera. En otras palabras, el test puede construirse para garantizar que
para cada n y ǫ, el nivel de significación del test es la probabilidad de rechazar la hipótesis p = p0 cuando ella es verdadera sea todo lo chica
que uno quiera.
[np0 −nǫ] 
X 
n k
n
X  
n k La aproximación (40) se puede utilizar para ajustar los valores de los parámetros n
α(δ) = β(p0 ) = p (1 − p0 )n−k + p (1 − p0 )n−k . (38) y ǫ para que valga la desigualdad α(δ) ≤ α. Para ello basta observar que la desigualdad
k 0 k 0
k=0 k=[np0 −nǫ]+1 aproximada
√ ! √
Nota Bene 1. Notar que los test (36) contienen un juego de dos parámetros, n y ǫ. − nǫ − nǫ
2Φ p ≤ α ⇐⇒ p ≤ zα/2 . (41)
Estos parámetros determinan la calidad de cada test y deben ajustarse de acuerdo con p0 (1 − p0 ) p0 (1 − p0 )
las prescripciones impuestas al test sobre su nivel de significación y su potencia en alguna
hipótesis alternativa. Por lo tanto, las soluciones de la desigualdad (41) serán todos los valores de n ∈ N y todos
los valores de ǫ > 0 que satisfagan

Nota Bene 2. Notar que si la muestra tiene volumen prefijado n, por más que se mueva nǫ
el valor de ǫ, el nivel de significación del test α(δ) puede tomar a lo sumo n + 1 valores
p ≥ z1−α/2 . (42)
p0 (1 − p0 )
distintos. Por lo tanto, si se prescribe que el nivel de significación del test δ(X) debe ser
α, casi seguramente la ecuación α(δ) = α no tendrá solución. Fijada una solución particular de (42), una alta dosis de paciencia permite calcular a mano
el valor exacto del nivel de significación α(δ) obtenido en (38) y comprobar si efectivamente
Aproximación por TCL para muestras “grandes” satisface α(δ) ≤ α.

La función de potencia (37) se puede aproximar utilizando el teorema central del lı́mite. Test de hipótesis con nivel de significación aproximado. Basados en los argu-
Si la muestra es suficientemente grande, para cada valor de p, tenemos que mentos y razonamientos anteriores, podemos diseñar test para decidir entre las hipótesis
N − np H0 : p = p0 contra H1 : p 6= p0 con nivel de significación “aproximadamente” α. Usando el
Z=p ∼ N (0, 1). diseño (36) para valores de n y ǫ que verifiquen la desigualdad (42) obtenemos
np(1 − p) n o n o
p p
δ(X) = 1 N < np0 − z1−α/2 np0 (1 − p0 ) + 1 N > np0 + z1−α/2 np0 (1 − p0 ) . (43)

30 31
donde
(nr − 100(3/6))2 (ng − 100(2/6))2 (nb − 100(1/6))2
D2 = + + .
100(3/6) 100(2/6) 100(1/6)
Por ejemplo, si se prescribe un nivel de significación del 1 % (i.e., α = 0.01) tenemos que
χ22, 1−α = χ22, 0.99 = 9.2103 y el test adopta la forma
(nr − 50)2 (ng − 33.33...)2 (nb − 16.66...)2
 
δ(X) = 1 + + > 9.2103 ,
50 33.33... 16.66...

0.5

0.45

0.4

0.35

0.3

0.25

0.2

0.15

0.1

0.05

0
0 2 4 6 8 10 12

Figura 12: La densidad χ22 .


De acuerdo con los datos observados: nr = 46, ng = 37 y nb = 17 y la medida de
dispersión de Pearson vale
(46 − 50)2 (37 − 33.33...)2 (17 − 16.66...)2
D2 = + + = 0.73
50 33.33... 16.66...
Motivo por el cual, no hay evidencia que permita rechazar que la obra Cordillera binaria
pertenece a la serie Los paisajes binarios del artista Nelo.
Notar que para rechazar que la obra citada pertenece al artista se necesitaba un test de
la forma δ(X) = {D2 ≥ 0.73}. Bajo la hipótesis H0 , D2 ∼ χ22 y p = P(D2 ≥ 0.73) = 0.694...
y en ese caso, la probabilidad de equivocarse al rechazar que la obra pertenece a Nelo es
del orden del 69 %.

Ejemplo
i−1 i
 8.3. (Continuación) En este caso las clases Ci son los intervalos de la forma
,
10 10
, i = 1, . . . , 10. Si la variable aleatoria X tuviese distribución U[0, 1], pi = P(X ∈
Ci ) = 1/10. El volumen de la muestra es n = 10000. Las frecuencias observadas, ni , son los
valores que se muestran en la tabla (61). Las frecuencias esperadas, npi , son todas iguales
y valen 1000. Por lo tanto, la medida de dispersión de Pearson vale
1
D2 = 82 + 432 + 142 + 272 + 482 + 242 + 272 + 212 + 22 + 122 = 7.036

1000

47
0.12

0.1

0.08
¡Gracias por encuadernar tu libro con La Patonejo!
0.06

0.04
La Patonejo somos un pequeño grupo de perso-
0.02 nas que nos gusta hacer libros.
0
Aprendimos del boca a boca y juntándonos a en-
cuadernar apuntes y algún que otro librito para
0 5 10 15 20 25 30

nosotrxs, y así fue creciendo hasta que un día


Figura 13: La densidad χ29 . El área bajo la curva a la derecha del valor 7.036 es 0.6336.... nos preguntamos ¿por qué no hacer libros arte-
sanales para más gente?
Bajo la hipótesis X ∼ U[0, 1], la medida de dispersión D2 se distribuye como una chi
cuadrado con 9 grados de libertad. Si se observa la Figura 13 se puede ver que un valor de
7.036 para D2 no es inusual, lo que indica que no hay evidencia suficiente para rechazar
Así fuimos aprendiendo cada vez más a meJorar
la hipótesis X ∼ U[0, 1]. Para rechazar dicha hipótesis se necesita un test de la forma los archivos que nos manda la gente, diseñar
δ(X) = {D2 ≥ 7.036}. Bajo la hipótesis X ∼ U[0, 1], p = P(D2 ≥ 7.036) = 0.6336... portadas y encuadernar.
y en tal caso, la probabilidad de equivocarse al rechazar que los datos provienen de una
distribución uniforme es del orden del 63 %.

8.4. Comentarios sobre el método lapatonejo@gmail.com


En la sección 8.2 presentamos el test de bondad de ajuste χ2 de Pearson. En la sección
8.3 ilustramos su implementación en algunos ejemplos muy simples. Esos ejemplos com-
parten una caracterı́stica en común: las clases en que dividimos el rango de la variable X
estaban condicionadas por el modo en que estaban tabulados los datos observados.
Esos ejemplos podrı́an oscurecer el siguiente hecho que no puede pasar desapercibido:
el procedimiento de construcción de las clases C1 , . . . , Ck en que se divide el rango de la
variable es (más o menos) arbitrario. En la descripción del método presentada en la sección . :..._---

8.2 no se indica cuántas clases deben considerarse ni se indica cómo deben ser esas clases.

Sobre la cantidad de clases (1). Un lector desprevenido podrı́a pensar que para Encuadernado por Maconejo
implementar el método basta dividir el rango de la variable en dos clases. Ese modo de
proceder no es recomendable. ¿Usando las clases, C1 = [−1, 0] y C2 = (0, 1], podrı́an
distinguirse la distribución uniforme sobre el [-1,1] de la distribución triangular con el
mismo soporte? Evidentemente no. Sin embargo, en cuanto aumentamos la cantidad de
Diseño de portada Mononejo
clases, a 4 por ejemplo, la diferencia se podrı́a percibir.
Cuando agrupamos los datos en clases y conservamos solamente la frecuencia con que

48
Ejemplo 2.3. La cantidad de errores de tipeo por hoja que comete una secretaria profesional se observa cada clase destruimos información sobre la variable muestreada. Si la cantidad
puede modelarse con una distribución de Poisson de parámetro θ (¿Por qué?). A priori, se de partes es muy chica, se pierde mucha información y la resolución del test es bastante
supone que el parámetro θ sigue una distribución exponencial de intensidad 1 (Esta hipótesis mala.
sobre la distribución de θ es la menos informativa si se supone que la media de la distribución
es 1). Se analizan 10 hojas tipeadas por la mencionada secretaria y resulta que la cantidad 
de errores por página es
Sobre la cantidad y la forma de las clases (2). Se podrı́a pensar que al aumentar
la cantidad de clases en que se divide el rango de la variable mejora la resolución del test,
1 3 3 3 4 6 3 2 2 2 esto es parcialmente correcto. Si nos excedemos en la cantidad de clases la distribución de
la medida de dispersión D2 deja de parecerse a la χ2 .
Si la secretaria tipea una nueva hoja, cuál es la probabilidad de que cometa como máximo un
Debido a su naturaleza asintótica, el test de bondad de ajuste χ2 funciona bien sola-
error?
mente cuando las frecuencias esperadas en todas las clases es relativamente grande. En la
Bibliografı́a consultada no se comenta ningún método “óptimo” para determinar la can-
Solución. Para resolver este problema utilizaremos la función de probabilidad predictiva.
De acuerdo con (54), como la distribución a priori de θ es una Exp(1) = Γ(1, 1), dicha función tidad de clases en que debe dividirse el rango de la variable aleatoria. Aunque sobre este
es de la forma asunto parece no existir acuerdo entre los especialistas, todos coinciden en que la cantidad
  x  ν(x)    x  30 de clases está limitada por una condición del siguiente tipo:
ν(x) + x − 1 1 n+λ 29 + x 1 11
f (x|x) = = , npi ≥ 5 para i = 1, . . . , k (Fisher);
ν(x) − 1 n+λ+1 n+λ+1 29 12 12

debido a que n = 10, ν(x) = ni=1 xi + 1 = 30 y λ = 1. Por lo tanto, la probabilidad de que


P npi ≥ 10 para i = 1, . . . , k (Cramer);
la secretaria cometa como máximo un error al tipear una nueva hoja será
npi ≥ 8 para i = 1, . . . , k (Borovkov).
   0  30    1  30
29 1 11 30 1 11 DeGroot indica que la condición de Fisher es suficiente para que la distribución χ2 sea una
f (0|x) + f (1|x) = +
29 12 12 29 12 12 buena aproximación de la distribución de D2 . Incluso afirma que, poniendo npi > 1.5 la
 30     30  
11 1 11 7 aproximación continua siendo satisfactoria.
= 1 + 30 = = 0.257 . . .
12 12 12 2 En todo lo que sigue adoptaremos la condición de Cramer sobre la cantidad y forma de
las clases: npi ≥ 10 para i = 1, . . . , k. De este modo, si para algún i ocurriese que npi < 10
redefinimos la partición C1 , . . . , Ck del rango de la variable. Por ejemplo, uniendo Ci con
Ci+1 . Esta condición implica que si el volumen de la muestra no es muy grande, la partición
3. Bibliografı́a consultada del rango de la variable no puede ser muy fina.
Para redactar estas notas se consultaron los siguientes libros: Ejemplo 8.7 (Exponencial). Se dispone de los siguientes datos sobre la duración en horas
1. Bolfarine, H., Sandoval, M. C.: Introdução à Inferência Estatı́stica. SBM, Rio de Janeiro. de 100 baterı́as:
(2001) 3.9662191 0.5819433 0.1842986 0.5977917 1.9781844
2. Borovkov, A. A.: Estadı́stica matemática. Mir, Moscú. (1984) 0.6048519 0.7259459 1.5896094 0.2411217 2.4502631
1.6993148 0.9884268 0.4281823 2.0079459 0.0022114
3. Hoel P. G.: Introducción a la estadı́stica matemática. Ariel, Barcelona. (1980) 0.0422904 1.6384416 0.2214073 0.4350003 0.1934794
4. Pugachev, V. S.: Introducción a la Teorı́a de Probabilidades. Mir, Moscu. (1973) 0.3548681 0.7775309 0.1052627 0.6497803 0.7227835
3.0542040 3.4097021 0.3577800 1.4532404 2.2825177
5. Robert, C. P.: The Bayesian Choice. Springer, New York. (2007) 1.4903543 0.6062705 0.9444304 0.1119637 1.2789623
0.3598502 0.8901427 0.1282656 0.3331565 1.6096607
6. Ross, S. M.: Introduction to Probability and Statistics for Engieneers and Scientists.
1.3348741 3.1158026 0.4525998 0.4554032 0.8698826
Elsevier Academic Press, San Diego. (2004)
0.0215405 0.7115861 0.4859616 1.3781469 0.0979241
0.8608390 0.1999889 0.6616866 0.6960469 1.4041375
1.6087253 0.2149426 0.4833662 2.3159498 1.0346222

49
19
donde ν(x) = ni=1 xi + ν. Integrando respecto de t ambos lados de la identidad (53), obten-
P
0.2056717 0.5228204 1.8704697 0.2166610 0.9409121
3.4983549 0.3543629 1.5233421 0.1877053 0.3911424 emos la expresión de la función de probabilidad incondicional (o predictiva)
0.1840173 1.1453108 0.0161651 1.7702696 1.0397349
(n + λ)ν(x) ∞
Z
0.0772446 0.0421012 0.4814322 2.5107661 1.6500077 f (x|x) = tν(x)+x−1 e−(n+λ+1)t dt
x!Γ(ν(x)) 0
1.2448903 0.1030540 0.4572152 0.6299386 0.1021735
0.2197928 1.1234052 0.0936486 1.6546837 3.1267264 (n + λ)ν(x) Γ(ν(x) + x)
=
1.4791009 0.3132625 1.0092715 1.2217523 3.2381804 x!Γ(ν(x)) (n + λ + 1)ν(x)+x
0.1215625 0.7677260 0.2124635 2.2532736 0.7156024 Γ(ν(x) + x) (n + λ)ν(x)
=
Γ(ν(x))x! (n + λ + 1)ν(x)+x
¿Puede afirmarse a un nivel del 1 % que la duración de las baterı́as se ajusta a una dis-  x  ν(x)
tribución exponencial de media 2 horas? Γ(ν(x) + x) 1 n+λ
= . (54)
Γ(ν(x))x! n+λ+1 n+λ+1
Solución. Una expresión que con un poco de paciencia (o una computadora a la mano) se puede calcular
1. Construyendo una partición. Lo primero que tenemos que hacer es determinar la cantidad para cada valor de x.
y la forma de las clases en que agruparemos los datos.
Con la indicación de Cramer (npi ≥ 10, para i = 1, . . . , k) la máxima cantidad de Caso ν ∈ N. En este caso la expresión para la función de probabilidad incondicional (54)
clases que podemos elegir es 10. Para simplificar un poco las cuentas elegiremos una par- adopta la forma
tición en 7 clases, C1 , . . . , C7 , que sean equiprobables bajo la distribución hipotética: X ∼ x  ν(x)
Exponencial(1/2).6

(ν(x) + x − 1)! 1 n+λ
f (x|x) =
Cuando la función de distribución de una variable aleatoria es continua la construcción (ν(x) − 1)!x! n+λ+1 n+λ+1
x  ν(x)
de la partición enh k clases equiprobables se resuelve utilizando los cuantiles. La clase Ci

ν(x) + x − 1

1 n+λ
= . (55)
será el intervalo x i−1 , x i , donde x i es el cuantil- ki de la distribución hipotética. ν(x) − 1 n+λ+1 n+λ+1
k k k

La función de distribución de la exponencial de media 2 es F (x) = (1 − e−x/2 )1{x ≥ 0} La expresión (55) para la función de probabilidad condicional f (x|x) admite la siguiente
y su cuantil-γ es la única solución de la ecuación F (xγ ) = γ. En consecuencia, xγ = interpretación probabilı́stica: Dado que X = x, la probabilidad incondicional de que la variable
−2 log(1 − γ). En consecuencia, para obtener 7 clases equiprobables basta poner Poisson asuma el valor x es igual a la probabilidad de que en una sucesión de ensayos Bernoulli
n+λ
     independientes de parámetro n+λ+1 el ν(x)-ésimo éxito ocurra en el (ν(x) + x)-ésimo ensayo.
i−1 i
Ci = −2 log 1 − , −2 log 1 − , i = 1, . . . , 7,
7 7
Estimación por intervalo. Dado que X = x, podemos construir un intervalo estimador
lo que produce: C1 = [0, 0.3083), C2 = [0.3083, 0.6729), C3 = [0.6729, 1.1192), C4 = de nivel 1 − α para θ observando que
[1.1192, 1.6946), C5 = [1.6946, 2.5055), C6 = [2.5055, 3.8918) y C7 = [3.8918, ∞). 
2ν(x) 1

2(n + λ)θ ∼ Γ , .
2. Agrupando los datos. Determinadas las clases agrupamos los datos. En la siguiente tabla 2 2
se muestran las frecuencias observadas y la cantidad que aporta cada clase a la medida de
Si además ν ∈ N, entonces
dispersión D2 :
2(n + λ)θ ∼ χ22ν(x) .
ni 26 23 16 18 9 7 1 En tal caso,
(ni − npi )2 /npi 9.60571 5.31571 0.20571 0.96571 1.95571 3.71571 12.35571  h i
P 2(n + λ)θ ∈ χ22ν(x),α/2 , χ22ν(x),1−α/2 = 1 − α.
3. Decisión al 1 %. Finalmente comparamos el valor obtenido para D2 = 34.12 con el cuantil Por lo tanto, si ν ∈ N y sabiendo que X = x el intervalo
0.99 de la distribución χ26,0.99 = 16.812. Como D2 > χ26,0.99 concluimos que la duración de " 2
χ2ν(x),α/2 χ22ν(x),1−α/2
#
las pilas no se ajusta a la distribución exponencial de media 2 horas.
, ,
6
Notar que al elegir el criterio de las clases “equiprobables” para construir la partición, garantizamos 2(n + λ) 2(n + λ)
de entrada que no habrá partes sub o sobre dimensionadas y no vamos a encontrarnos con el problema de Pn
tener que unir dos clases porque quedaron muy “flacas”. donde ν(x) = i=1 xi + ν, es un intervalo estimador de nivel 1 − α para θ.

50
18
Distribución a posteriori. La densidad a posteriori de θ, dado que X = x, queda carac- Nota Bene. No siempre se puede dividir el rango de la variable en clases de igual prob-
terizada por la relación de proporcionalidad π(t|x) ∝ L(t|x)πθ (t), donde L(t|x) es la función abilidad. Las variables discretas no lo permiten. En tal caso habrá que conformarse con
de verosimilitud y πθ (t) es la densidad a priori de θ. En este caso la función de verosimilitud algunas partes suficientemente “gorditas” como para que valga la condición npi ≥ 10
es de la forma
Pn
L(t|x) ∝ e−nt t i=1 xi
. (48) 8.5. Test de bondad de ajuste para hipótesis compuestas
De (47) y (48) se deduce que la densidad a posteriori de θ dado que X = x satisface La hipótesis nula afirma que
Pn Pn
xi ν−1 −λt xi +ν−1 −(n+λ)t
π(t|x) ∝ e−nt t i=1 t e 1{t > 0} = t i=1 e 1{t > 0}. (49) H0 : FX = Fθ1 , ..., θr ,

Por lo tanto, la distribución a posteriori de θ dado que X = x es una Gamma donde Fθ1 , ..., θr es una distribución de probabilidades perteneciente a una familia paramétri-
n
! ca completamente determinada y los valores de los parámetros θ1 , . . . , θr son desconocidos.
En este caso los r parámetros desconocidos se estiman usando el método de máxima
X
Γ xi + ν, n + λ .
i=1 verosimilitud. Los valores de las r estimaciones se “enchufan” en la distribución paramétrica
como si fuesen los verdaderos valores de los parámetros y se aplica el test χ2 desarrollado en
Estimadores Bayesianos. la sección 8.2. Solo que ahora se perderá un grado de libertad por cada parámetro estimado.
Si para construir la medida de dispersión D2 se recurrió a una partición del rango de la
1. Utilizando la esperanza condicional de θ|X = x obtenemos la siguiente estimación.
variable X en k clases, la distribución de D2 será aproximadamente una χ2k−1−r .
Pn
xi + ν
θ̂ = E[θ|X = x] = i=1 (50)
n+λ Ejemplo 8.4. (Continuación) La hipótesis H0 afirma que la cantidad de impactos por
segundo recibidos por la partı́cula de polen sigue una distribución de Poisson, pero no
2. La estimación por máximo a posteriori se obtiene observando que indica cuál es su media (el parámetro λ).
b El estimador de máxima verosimilitud para la media de una distribución de Poisson es
arg máx ta e−bt = arg máx log ta e−bt = arg máx(a log t − bt) = . ˆ mv = X.
¯ Usando los datos que aparecen en la tabla (62) obtenemos
t>0 t>0 t>0 a λ
Por lo tanto,
ˆ mv = 0(1364) + 1(1296) + 2(642) + 3(225) + 4(55) + 5(15) + 6(3) = 3568 = 0.9911 ≈ 1.
λ
Pn
+ν−1 3600 3600
i=1 xi
θ̂map = . (51)
n+λ Las clases Ci se pueden construir usando como criterio que 3600P(X ∈ Ci ) ≥ 10. Si
suponemos que X ∼ Poisson(1), su función de probabilidades será P(X = n) = e−1 /n!,
Nota Bene. Notar que
n = 0, 1, . . . .
Pn  Pn
Usaremos como partición las siguientes clases: C1 = {0}, C2 = {1}, C3 = {2}, C4 =

i=1 xi
+ν n i=1 xi λ ν 
θ̂ = = +
n+λ n+λ n n+λ λ {3, 4, 5, . . . }, cuyas probabilidades son p1 = p2 = 0.3678, p3 = 0.1839 y p4 = 0.0805.
n λ Obtenemos que
= x̄ + E[Γ(ν, λ)]. (52)
n+λ n+λ
(1364 − 3600p1 )2 (1296 − 3600p2 )2 (642 − 3600p3 )2 (298 − 3600p4 )2
D2 = + + +
Función de probabilidad predictiva. El producto de la probabilidad condicional de X 3600p1 3600p2 3600p3 3600p4
dado que θ = t por la densidad a posteriori de θ dado que X = x: 1593.6064 788.4864 401.6016 67.24
= + + + = 2.6376
1324.08 1324.08 662.04 289.8
tx (n + λ)ν(x) ν(x)−1 −(n+λ)t
f (x|t)π(t|x) = e−t t e 1{t > 0}
x! Γ(ν(x)) Si se observa la Figura 12 se puede ver que un valor de 2.6376 para D2 no es inusual para
(n + λ)ν(x) ν(x)+x−1 −(n+λ+1)t una distribución χ22 , lo que indica que la cantidad de impactos recibidos por la partı́cula
= t e 1{t > 0}, (53) de polen se puede considerar como una variable aleatoria con distribución Poisson.
x!Γ(ν(x))

51
17
Ejemplo 8.5. (Continuación) La hipótesis nula es de la forma H0 : X ∼ N (µ, σ 2 ). En palabras informales y poco rigurosas, si se destruye la información contenida en la distribu-
Informalmente, se puede ver usando un histograma que los datos “obedecen” a una dis- ción a priori N (µ, ρ2 ) mediante el procedimiento de hacer ρ2 → ∞ se obtiene una densidad
tribución normal. de probabilidades proporcional a la verosimilitud. Vale decir, en el caso lı́mite se obtiene el
enfoque Bayesiano generalizado. Desde esta perspectiva, el enfoque Bayesiano generalizado
6
−3
x 10 puede interpretarse como una metodologı́a orientada a destruir toda la información contenida
en las distribuciones a priori del parámetro.
5
Ejemplo 2.2. Se tiene la siguiente muestra aleatoria de volumen n = 10 de una población
4
N (θ, 1)
2.0135 0.9233 0.0935 0.0907 0.3909
3
0.3781 -1.9313 -0.8401 3.4864 -0.6258
2 Si, a priori, suponemos que θ ∼ N (0, 1), entonces la distribución a posteriori de θ es una
normal, ver (33), N 10x̄ 1
11 , 11 . Observando la muestra se obtiene que x̄ = 0.3979. Por lo tanto,
1
la distribución a posteriori del parámetro es una normal N ( 3.979 1
11 , 11 ).
0
645 695 745 795 845 895 945 995 1045
1.4

1.2

Figura 14: Histograma de los mediciones de Michelson y gráfico de la densidad de la 1


¯ = 852.4 y varianza S 2 = 79.0105.
distribución de media X
0.8

Usando los cuantiles de la distribución normal de media 852.4 y varianza 79.0105, 0.6
construimos 9 clases equiprobables delimitadas por los valores: 756, 792, 818, 841, 863, 886,
913 y 949. Las frecuencias observadas en cada una de las 9 clases son, respectivamente, 0.4

9, 11, 15, 12, 11, 14, 7, 6 y 15. Con esos datos, la medida de dispersión resulta D2 = 7.82 <
0.2
χ26, 0.90 ...
0
−3 −2 −1 0 1 2 3

9. Bibliografı́a consultada
Para redactar estas notas se consultaron los siguientes libros: Figura 2: Gráficos de las densidades a priori (en verde) y a posteriori (en azul).
1. Bolfarine, H., Sandoval, M. C.: Introdução à Inferência Estatı́stica. SBM, Rio de Como la moda y la media de la distribución normal coinciden, el estimador puntual
Janeiro. (2001). Bayesiano resulta ser θ̂ = 3.979/11 = 0.3617 . . . .
Utilizando la tabla de la normal estándar puede verse que I = [−0.22920.9527] es un
2. Borovkov, A. A.: Estadı́stica matemática. Mir, Moscú. (1984).
intervalo de nivel 0.95.
3. Cramer, H.: Métodos matemáticos de estadı́stica. Aguilar, Madrid. (1970). Etcétera...

4. DeGroot, M. H.: Probability and Statistics. Addion-Wesley, Massachusetts. (1986). 2.3. Distribuciones Poisson con a priori Gamma

5. Fisher, R. A.: Statistical methods for research workers. Hafner, New York (1954). Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una distribución Poisson de parámetro θ,
θ > 0. Supongamos que la distribución a priori del parámetro θ es una Gamma de parámetros
6. Hoel P. G.: Introducción a la estadı́stica matemática. Ariel, Barcelona. (1980). ν y λ. Esto es, la densidad a priori del parámetro es de la forma

7. Lehmann, E. L.: Elements of Large-Sample Theory. Springer, New York. (1999) πθ (t) ∝ tν−1 e−λt 1{t > 0} (47)
.
52
16
Estimadores Bayesianos. En este caso, como el máximo de la normal se alcanza en la 8. Maronna R.: Probabilidad y Estadı́stica Elementales para Estudiantes de Ciencias.
media ambos estimadores coinciden: Editorial Exacta, La Plata. (1995).
nρ2 x̄ + σ 2 µ 9. Meyer, P. L.: Introductory Probability and Statistical Applications. Addison-Wesley,
θ̂ = . (39)
nρ2 + σ 2 Massachusetts. (1972).
Nota Bene. Note que 10. Rice, J. A.: Mathematical Statistics and Data Analysis. Duxbury Press, Belmont.
nρ2 σ2 nρ2 σ2 (1995).
θ̂ = 2 2
x̄ + 2 2
µ= 2 2
x̄ + 2 E[N (µ, ρ2 )] (40)
nρ + σ nρ + σ nρ + σ nρ + σ 2 11. Ross, S. M.: Introduction to Probability and Statistics for Engieneers and Scientists.
Elsevier Academic Press, San Diego. (2004)
Estimación por intervalo. En lo que sigue construiremos un intervalo estimador de nivel
1 − α para θ sabiendo que X = x. Sabemos que θ|X = x se distribuye como una normal de 12. Walpole, R. E.: Probabilidad y estadı́stica para ingenieros, 6a. ed., Prentice Hall,
media µ∗ y varianza ρ2∗ . Proponiendo un intervalo centrado en la media µ∗ de la forma México. (1998)
[µ∗ − ǫ, µ∗ + ǫ] (41)

y usando la simetrı́a de la normal con respecto a su media, el problema se reduce a encontrar


el valor de ǫ que resuelve la ecuación siguiente
   
α θ − µ∗ ǫ ǫ
1 − = P (θ ≤ µ∗ + ǫ|X = x) = P ≤ X = x = Φ . (42)
2 ρ∗ ρ∗ ρ∗

En consecuencia,
s
−1
 α σ 2 ρ2  α σρ  α
ǫ = ρ∗ Φ 1− = Φ−1 1 − =p Φ−1 1 − (43)
2 nρ2 + σ 2 2 2
nρ + σ 2 2

Por lo tanto, el intervalo


" #
nρ2 x̄ + σ 2 µ σρ −1
 α  nρ2 x̄ + σ 2 µ σρ −1
 α
− Φ 1 − , + Φ 1 − (44)
nρ2 + σ 2 nρ2 + σ 2
p p
nρ2 + σ 2 2 nρ2 + σ 2 2

es un intervalo estimador de nivel 1 − α para θ sabiendo que X = x. Note que la longitud del
intervalo no depende los valores arrojados por la muestra y es del orden de √1n .

Curva peligrosa. Para una muestra de una N (θ, σ 2 ) con distribución a priori para θ de la
forma N (µ, ρ2 ) obtuvimos que la distribución a posteriori satisface
2 !
nρ2 + σ 2 nρ2 x̄ + σ 2 µ

f (t|x) ∝ exp − t− . (45)
2σ 2 ρ2 nρ2 + σ 2

A medida que aumentamos el valor de ρ2 la información contenida en la distribución a priori


se va “destruyendo” y la densidad a posteriori se va aproximando a la densidad de una normal
de media x̄ y varianza σ 2 /n:
!
n (t − x̄)2
lı́m f (t|x) ∝ exp − ∝ Lt (x). (46)
ρ2 →∞ 2σ 2
53
15
donde “otras cosas” son expresiones que no dependen de t. En consecuencia,
2 !
nρ2 + σ 2 nρ2 x̄ + σ 2 µ

π(t|x) ∝ exp − t − . (32)
Análisis Bayesiano 2σ 2 ρ2 nρ2 + σ 2

(Borradores, Curso 23) Por lo tanto, la distribución a posteriori de θ dado que X = x es una normal
 2
nρ x̄ + σ 2 µ σ 2 ρ2

N , 2 . (33)
Sebastian Grynberg 2
nρ + σ 2 nρ + σ 2

17-19 de junio de 2013 Función densidad predictiva. Comenzamos calculando el producto de la densidad condi-
cional de X dado que θ = t por la densidad a posteriori de θ dado que X = x:

(x − t)2 (t − µ∗ )2
   
1 1
f (x|t)π(t|x) = √ exp − 2
√ exp − 2
2πσ 2σ 2πρ∗ 2ρ∗
(x − t)2 (t − µ∗ )2
  
1 1
= √ √ exp − + , (34)
2π 2πρ∗ σ 2σ 2 2ρ2∗

donde µ∗ y ρ2∗ son la media y la varianza de la distribución a posteriori de θ dado que X = x

nρ2 x̄ + σ 2 µ σ 2 ρ2
µ∗ = y ρ2∗ = (35)
nρ2 + σ 2 nρ2 + σ 2
Con un poco de paciencia, puede verse que
2
(x − t)2 (t − µ∗ )2 ρ2∗ + σ 2 ρ2 x + σ 2 µ∗ (x − µ∗ )2

+ = t− ∗ 2 + (36)
2σ 2 2ρ2∗ 2σ 2 ρ2∗ ρ∗ + σ 2 2(ρ2∗ + σ 2 )
En consecuencia,

f (x|t)π(t|x)
" 2 #!
ρ2 + σ 2 ρ2 x + σ 2 µ∗ (x − µ∗ )2

1 1
=√ √ exp − ∗ 2 2 t − ∗ 2 +
2πσ 2πρ∗ 2σ ρ∗ ρ∗ + σ 2 2(ρ2∗ + σ 2 )
!
1 (x − µ∗ )2
=p exp −
2π(ρ2∗ + σ 2 ) 2(ρ2∗ + σ 2 )
2 !
ρ2∗ + σ 2 ρ2∗ x + σ 2 µ∗

1
×q exp − t − . (37)
2 2
2π ρ∗ σ 2σ 2 ρ2∗ ρ2∗ + σ 2
ρ2∗ +σ 2
Aquı́ no valen Dotores,
Solo vale la esperiencia, Integrando respecto de t, ambos lados de identidad (37), obtenemos la expresión de la densidad
Aquı́ verı́an su inocencia predictiva
Esos que todo lo saben; !
1 (x − µ∗ )2
Z
Por que esto tiene otra llave f (x|x) = f (x|t)π(t|x)dt = p exp − . (38)
Y el gaucho tiene su ciencia. 2π(ρ2∗ + σ 2 ) 2(ρ2∗ + σ 2 )
(Martı́n Fierro)
En otras palabras, la distribución de la variable aleatoria X dado que X = x, es una nor-
mal de media µ∗ y varianza σ 2 + ρ2∗ . El resultado obtenido nos permite calcular todas las
probabilidades de la forma P(X ∈ A|X = x).

1 14
Estimación por intervalo Para construir un intervalo [a, b], de nivel 0.95, para θ podemos Índice
resolver las siguientes ecuaciones
Z a Z b 1. Análisis Bayesiano 2
21! 11 21! 11 1.1. Distribuciones a priori y a posteriori . . . . . . . . . . . . . . . . . . . . . . . 2
t (1 − t)9 dt = 0.025, t (1 − t)9 dt = 0.975.
0 11!9! 0 11!9! 1.2. Distribuciones predictivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Utilizando una herramienta de cálculo obtenemos que a = 0.3402 y b = 0.7429. 1.3. Estimadores Bayesianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4. Estimación por intervalo para parámetro continuo . . . . . . . . . . . . . . . 6
1.5. Sobre la distribución a priori uniforme. . . . . . . . . . . . . . . . . . . . . . . 7
2.2. Normales de varianza conocida y media normal
Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una familia normal N (θ, σ 2 ), con σ 2 2. Ejemplos 8
conocido. Supongamos que la distribución a priori del parámetro θ es una normal N (µ, ρ2 ) 2.1. Las distribuciones β y el problema del “control de calidad” . . . . . . . . . . 8
2.2. Normales de varianza conocida y media normal . . . . . . . . . . . . . . . . . 13
Distribución a posteriori. Por definición, ver (4), la densidad a posteriori de θ, dado que 2.3. Distribuciones Poisson con a priori Gamma . . . . . . . . . . . . . . . . . . . 16
X = x, queda caracterizada por la relación de proporcionalidad π(t|x) ∝ L(t|x)πθ (t), donde
3. Bibliografı́a consultada 19
L(t|x) es la función de verosimilitud y πθ (t) la densidad a priori de θ.
Primero calculamos la función de verosimilitud. De las igualdades
n n 1. Análisis Bayesiano
(xi − µ)2
 
Y Y 1
L(µ, σ 2 |x) = f (xi |µ, σ 2 ) = √ exp − 2
2πσ 2σ Si se lo compara con el modelado probabilı́stico, el propósito del análisis estadı́stico es fun-
i=1 i=1
 n n
! damentalmente un propósito de inversión, ya que se propone inferir las causas (los parámetros
1 1 X
del mecanismo aleatorio) a partir de los efectos (las observaciones). En otras palabras, cuando
= √ exp − 2 (xi − µ)2
2πσ 2σ observamos un fenómeno aleatorio regulado por un parámetro θ, los métodos estadı́sticos nos
i=1

1
n  Pn
(xi − x̄)2
 
n(x̄ − µ)2
 permiten deducir de las observaciones una inferencia (esto es, un resumen, una caracteri-
= √ exp − i=1 2 exp − , (27) zación) sobre θ, mientras que el modelado probabilı́stico caracteriza el comportamiento de las
2πσ 2σ 2σ 2
observaciones futuras condicionales a θ. Este aspecto de la estadı́stica es obvio en la noción
donde x̄ = n1 ni=1 xi ,2 se deduce que de función de verosimilitud, puesto que, formalmente, es la densidad conjunta de la muestra
P
reescrita en el orden propio
n(x̄ − t)2
 
L(t|x) ∝ exp − . (28)
2σ 2 L(θ|x) = f (x|θ), (1)

Por hipótesis, θ ∼ N (µ, ρ2 ). En consecuencia, i.e., como una función de θ, que es desconocida, que depende de los valores observados x.
La regla de Bayes es una descripción general de la inversión de probabilidades: si A y E
(t − µ)2
 
πθ (t) ∝ exp − (29) son eventos de probabilidad positiva, P(A|E) y P(E |A) están relacionados por
2ρ2
P(E |A)P(A) P(E |A)P(A)
De (28) y (29), la densidad a posteriori satisface P(A|E) = = .
P(E) P(E |A)P(A) + P(E |Ac )P(Ac )
n(x̄ − t)2 (t − µ)2
  
π(t|x) ∝ exp − + . (30) En su versión continua, la regla de Bayes establece que dadas dos variables aleatorias X
2σ 2 2ρ 2
e Y , con distribución condicional fX|Y =y (x) y distribución marginal fY (y), la distribución
Completando cuadrados respecto de t se obtiene condicional de Y dado que X = x es
2 fX|Y =y (x)fY (y)
n(x̄ − t)2 (t − µ)2 nρ2 + σ 2 nρ2 x̄ + σ 2 µ

+ = t − + otras cosas (31) fY |X=x (y) = R .
2σ 2 2ρ2 2σ 2 ρ2 nρ2 + σ 2 fX|Y =y (x)fY (y)dy
2
La última igualdad de (27) se obtiene observando que 1.1. Distribuciones a priori y a posteriori
n n
Desde el punto de vista probabilı́stico el teorema de inversión es bastante natural. Bayes
X X
(xi − µ)2 = (xi − x̄)2 + n(x̄ − µ)2 .
i=1 i=1 y Laplace fueron más allá y consideraron que la incerteza sobre el parámetro desconocido de

13 2
un modelo paramétrico puede modelarse mediante una distribución de probabilidad sobre el
4
espacio paramétrico.
La esencia del enfoque Bayesiano consiste en que el parámetro desconocido, θ, se considera 3.5

como variable aleatoria con cierta función densidad de probabilidades


3

πθ (t), t ∈ Θ. 2.5

La densidad πθ (t) se llama densidad a priori, o sea, dada antes del experimento. El enfoque 2

Bayesiano supone que el parámetro desconocido θ se ha escogido aleatoriamente de la dis-


1.5
tribución cuya densidad es πθ (t).
1
Definición 1.1. Un modelo estadı́stico Bayesiano está hecho de un modelo paramétrico
F = {f (x|t) : t ∈ Θ} para las observaciones y una distribución de probabilidad a priori πθ (t) 0.5

sobre el espacio paramétrico Θ.


0
0 0.2 0.4 0.6 0.8 1

Nota Bene. En un modelo Bayesiano, la “densidad” muestral f (x|t), t ∈ Θ, es la “densi-


dad” condicional de la variable aleatoria X dado que θ = t.
Figura 1: Gráficos de las densidades a priori y a posteriori: en verde el gráfico de la densidad
Dado un modelo Bayesiano podemos construir varias distribuciones, a saber:
de la distribución U[0, 1] y en azul el de la distribución β(12, 10).
1. La distribución conjunta del parámetro θ y la muestra aleatoria X = (X1 , . . . , Xn ):
n
! Predicción. ¿Cuál es la probabilidad de que en una nueva muestra de volumen 5 resulten
exactamente 2 éxitos?
Y
fθ,X (t, x) = f (x|t)πθ (t) = f (xi |t) πθ (t). (2)
i=1 En primer lugar hay que observar que dado que θ = t la cantidad de éxitos N en una
muestra de volumen 5 tiene distribución Binomial(5, t). Por lo tanto,
2. La distribución marginal de la muestra aleatoria X = (X1 , . . . Xn ):  
5 2
Z Z P(N = 2|t) = t (1 − t)3 = 10t2 (1 − t)3 .
fX (x) = fθ,X (t, x)dt = f (x|t)πθ (t)dt. (3) 2
Θ Θ
Como la densidad a posteriori de θ resultó ser
3. La distribución a posteriori (o sea, después del experimento) de la variable aleatoria θ,
21! 11
obtenida mediante la fórmula de Bayes: π(t|x) = t (1 − t)9 1{t ∈ [0, 1]},
11!9!
fθ,X (t, x) f (x|t)πθ (t) de la fórmula de probabilidad total se deduce que
π(t|x) = R =R . (4)
Θ fθ,X (t, x)dt Θ f (x|t)πθ (t)dt Z 1 Z 1
21! 11
P(N = 2|x) = P(N = 2|t)f (t|x)dt = 10t2 (1 − t)3 t (1 − t)9 dt
Nota Bene. Si el parámetro θ es una variable aleatoria discreta, la “densidad” a priori
R 0 0 11!9!
πθ (t) debe interpretarse como la función deP
probabilidades y las expresiones del tipo dt 21!
Z 1
21! 13!12! 6
deben reemplazarse por expresiones del tipo t . = 10 t13 (1 − t)12 dt = 10 = = 0.26 . . .
11!9! 0 11!9! 26! 23
Ejemplo 1.2 (Bayes (1764)). Se echa a rodar una bola de billar B1 sobre una lı́nea de
longitud 1, con probabilidad uniforme de que se detenga en cualquier lugar. Se detiene en θ. Estimadores Bayesianos
Una segunda bola B2 se echa a rodar 5 veces bajo las mismas condiciones que la primera y 1. Esperanza condicional:
X denota la cantidad de veces que la bola B2 se detuvo a la izquierda de donde lo hizo B1 .
Dado que X = x, ¿qué se puede inferir sobre θ? 12 6
θ̂ = E[θ|X = x] = = = 0.5454 . . . .
El problema consiste en hallar la distribución a posteriori de θ dado que X = x, cuando 22 11
la distribución a priori de θ es uniforme sobre (0, 1) y X ∼ Binomial(5, θ). Puesto que
2. Máximo a posteriori:
 
5 x 11
f (x|t) = t (1 − t)5−x y πθ (t) = 1{t ∈ (0, 1)}, θ̂map = x̄ = = 0.55.
x 20

3 12
Estimación por intervalo Se quiere construir un intervalo estimador (de nivel 1 − α) para la distribución conjunta del parámetro θ y la variable aleatoria X es
θ sabiendo que en una muestra de volumen n se observaron k artı́culos defectuosos.  
5 x
En este caso la ecuación (9) adopta la forma fθ,X (t, x) = t (1 − t)5−x 1{t ∈ (0, 1)}
x
b
(n + 1)! k
Z
1−α= t (1 − t)n−k dt. (24) y la distribución marginal de la variable X es
a k!(n − k)!
Z 1   Z 1  
5 x 5 5 Γ(x + 1)Γ(6 − x)
El problema equivale a encontrar las raı́ces de un polinomio de grado n + 1 en las variables fX (x) = t (1 − t)5−x dt = tx (1 − t)5−x dt =
0 x x 0 x Γ(7)
a y b y no hay métodos generales para encontrarlas. El problema se puede resolver mediante
5! x!(5 − x!) 1
alguna técnica de cálculo numérico para aproximar raı́ces de polinomios implementada en un = = , x = 0, 1, . . . , 5
computador. Para 3 ≤ n + 1 ≤ 4 pueden utilizarse las fórmulas de Tartaglia para resolver x!(5 − x)! 6! 6
ecuaciones de tercer y cuarto grado. Estas fórmulas pueden consultarse en el Tomo 1 del (En palabras, los 6 posibles valores de X son igualmente probables.)
Análisis matemático de Rey Pastor. De lo anterior se deduce que la distribución a posteriori de θ dado que X = x
Cuando k = 0 o k = n la ecuación (24) se puede resolver “a mano”: si k = 0 la ecuación  
(24) adopta la forma 5 x
π(t|x) = 6 t (1 − t)5−x 1{t ∈ (0, 1)},
b ! x
Z b
(1 − t)n+1
1−α = (n + 1)(1 − t)n dt = (n + 1) − i.e., la distribución de θ condicional a que X = x es la distribución β(x + 1, 6 − x).
a n + 1 a

(1 − a)n+1 (1 − b)n+1
 Ejemplo 1.3 (Laplace (1773)). En una urna hay 12 bolas blancas y negras. Si la primer bola
= (n + 1) − extraı́da es blanca, ¿cuál es la probabilidad de que la proporción θ de bolas blancas sea 2/3?
n+1 n+1
Asumiendo a priori que las cantidades 2 a 11 de bolas blancas son igualmente probables, i.e.,
= (1 − a)n+1 − (1 − b)n+1 . que θ es equiprobable sobre {2/12, . . . , 11/12}. La distribución a posteriori de θ se deduce
usando el teorema de Bayes:
Fijado un valor “razonable” de a se puede despejar el valor de b
p √ (2/3)(1/10) (2/3) 8 8
b = 1 − n+1 (1 − a)n+1 − (1 − α), 0≤a≤1− n+1
1−α (25) π(2/3|datos) = P11/12 = P11 = = .
n/12 (11 × 12)/2 − 1 65
p=2/12 p(1/10) n=2
Hemos visto que, para k = 0 el máximo a posteriori es 0, poniendo a = 0 se obtiene b =

1 − n+1 α. Por lo tanto, el intervalo
 √ 
0, 1 − n+1 α Principio de verosimilitud. La fórmula de Bayes (4) puede leerse del siguiente modo:
observado que la muestra aleatoria X arrojó los valores x, la distribución a posteriori de θ es
es un intervalo estimador de nivel 1 − α. proporcional a la función de verosimilitud L(t|x) = f (x|t) multiplicada por la distribución a
priori de θ. En sı́mbolos
Ejemplo 2.1. Sea X una variable aleatoria Bernoulli de parámetro θ. A priori se supone
π(t|x) ∝ L(t|x)πθ (t).
que la distribución de θ es uniforme sobre el intervalo [0, 1]. Supongamos que una muestra
aleatoria de volumen n = 20 arroja los siguientes resultados: Esto significa que la información sobre la variable θ que viene en una muestra x está comple-
tamente contenida en la función de verosimilitud L(t|x). Más aún, cuando x1 y x2 son dos
x = (0, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 1, 1, 0, 1) observaciones que dependen del mismo parámetro θ y existe una constante c que satisface

L1 (t|x1 ) = cL2 (t|x2 )


Distribución a posteriori. Como la cantidad de éxitos observados es k = 11, tenemos
que θ|X = x ∼ β(12, 10). En otras palabras, la densidad a posteriori es de la forma para cada t ∈ Θ, entonces x1 y x2 tienen la misma información sobre θ y deben conducir
a inferencias idénticas. Esto es ası́ porque el análisis Bayesiano se basa completamente en la
21! 11 distribución a posteriori π(t|x) que depende de x solo a través de L(t|x).
π(t|x) = t (1 − t)9 1{t ∈ [0, 1]}. (26)
11!9!
Ejemplo 1.4. Trabajando sobre el ranking de una serie televisiva un investigador encontró 9
En la Figura 1 se muestran los gráficos de la distribución a priori de θ y de la distribución a espectadores que la miran y 3 que no la miran. Si no se dispone de más información sobre el
posteriori de θ vista la muestra. experimento, se pueden proponer al menos dos modelos. Si θ ∈ (0, 1) representa la proporción
de los espectadores que mira la serie:

11 4
(1) El investigador encuestó a 12 personas y por lo tanto observó X ∼ Binomial(12, θ) Función de probabilidad predictiva Supongamos ahora que en una muestra de volumen
con X = 9. n se observaron exactamente k artı́culos defectuosos. Cuál es la probabilidad p de que un nuevo
(2) El investigador encuestó Y personas hasta que encontró 3 que no miraban la serie y artı́culo resulte defectuoso?
por lo tanto observó Y ∼ Pascal(3, 1 − θ) con Y = 12. Para calcular p usamos la función de probabilidad predictiva obtenida en (5):
El punto importante es que, en cualquiera de los dos modelos, la verosimilitud es propor-
1 1
k+1
Z Z
cional a p = f (1|x) = f (1|t)π(t|x)dt = tπ(t|x)dx = E[θ|X = x] = . (21)
θ3 (1 − θ)9 . 0 0 n+2
Por lo tanto, el principio de verosimilitud implica que la inferencia sobre θ debe ser idéntica Esto es, si los primeros n artı́culos resultaron en k defectuosos, entonces el próximo artı́culo
para ambos modelos. será defectuoso con probabilidad (k + 1)/(n + 2).
De la ecuación (21) resulta una descripción alternativa del proceso de producción exam-
1.2. Distribuciones predictivas inado: Hay una urna que inicialmente contiene una bola blanca y una bola negra. En cada
paso se extrae al azar una bola de la urna y se la repone junto con otra del mismo color.
Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una distribución indexada por θ. Se Después de cada extracción la cantidad de bolas del color extraı́do aumenta una unidad y la
observa que X = x y se quiere predecir una el comportamiento de una nueva observación cantidad de bolas del color opuesto se mantiene constante. Si de las primeras n bolas elegi-
Y ∼ g(y|θ), donde Y es una variable aleatoria que depende del mismo parámetro θ. En el das, k fueron blancas, entonces en la urna al momento de la n + 1-ésima extracción hay k + 1
contexto probabilı́stico predecir significa contestar preguntas del tipo: ¿con qué probabilidad blancas y n − k + 1 negras, y por lo tanto la siguiente bola será blanca con probabilidad
se observaran valores en un intervalo dado? En otras palabras ¿cuál será la distribución de la (k + 1)/(n + 2). Identificando la extracción de una bola blanca con un artı́culo defectuoso,
nueva observación Y ? tenemos una descripción alternativa del modelo original. Esté último se llama modelo de urna
Este problema se puede resolver usando la fórmula de probabilidad total. Dado que se de Polya.
observó X = x, la función densidad predictiva (o incondicional) de la nueva observación Y
será
Estimadores Bayesianos
Z
g(y|x) = g(y|t)π(t|x)dt. (5) 1. Utilizando la esperanza condicional de θ|X = x obtenemos la siguiente estimación
n
!
El primer factor del integrando que aparece en (5) corresponde a las densidades de la variable 1 X
θ̂(x) = E[θ|X = x] = 1+ xi . (22)
aleatoria Y condicionadas al conocimiento de que θ = t. El segundo factor corresponde a la n+2
i=1
densidad a posteriori del parámetro aleatorio θ.
Si tuviésemos la capacidad de observar qué valor arrojó la variable θ y observáramos 2. El estimador máximo a posteriori se obtiene observando que
que θ = t, la predicción de Y quedarı́a determinada por la densidad condicional g(y|t).  
Sin embargo, la hipótesis fundamental de este enfoque es que el parámetro θ no puede ser n k
θ̂map (x) = arg máx (n + 1) t (1 − t)n−k = arg máx tk (1 − t)n−k
observado y lo único que podemos observar es la muestra aleatoria X. El calificativo de t∈(0,1) k t∈(0,1)
incondicional que se le otorga a la densidad g(y|x) obtenida en (5) está puesto para destacar = arg máx log tk (1 − t)n−k = arg máx (k log t + (n − k) log(1 − t))
que su construcción no utiliza observaciones del parámetro θ. t∈(0,1) t∈(0,1)
k
Ejemplo 1.5 (Bayes (1764) Continuación.). Supongamos ahora que la bola B2 se detuvo = ,
n
exactamente 3 veces a la izquierda de donde lo hizo la bola B1 , ¿cuál es la probabilidad p de Pn
que al echar a rodar una tercera bola de billar B3 también se detenga a la izquierda de donde donde k = i=1 xi . Por lo tanto,
se detuvo B1 ?
Sea Y ∼ Bernoulli(θ) la variable aleatoria que vale 1 si la bola B3 se detiene a la izquierda θ̂map (x) = x̄. (23)
de donde se detuvo B1 y 0 en caso contrario. Para calcular p usamos la distribución predictiva:
Z 1 Z 1 Nota Bene. Notar que
p = P(Y = 1|X = 3) = P(Y = 1|t)π(t|3)dt = tπ(t|3) = E[θ|X = 3]. n 1 n 2
0 0 θ̂(x) = x̄ + = x̄ + E[U(0, 1)],
n+2 n+2 n+2 n+2
Como θ|X = 3 ∼ β(4, 2), resulta que p = 4/6. Pn
1
donde x̄ = n i=1 xi .

5 10
una variable aleatoria de Bernoulli, X ∼ Bernoulli(θ), cuyo parámetro θ denota la probabili- 1.3. Estimadores Bayesianos
dad de que el artı́culo sea defectuoso.
1. Estimación bayesiana por esperanza condicional. En el contexto Bayesiano θ es
El punto de partida del enfoque Bayesiano es la distribución a priori del parámetro.
una variable aleatoria. Entre todas las funciones (de la muestra aleatoria X) θ̂ = ϕ(X)
Supongamos que, a priori, θ ∼ U(0, 1). Se observa una muestra aleatoria X = (X1 , . . . , Xn ) y
la mejor estimación para θ (desde el punto de vista de minimizar el error cuadrático
usando la fórmula de Bayes (4) se obtiene la densidad, π(t|x), de la distribución a posteriori
medio E[(θ − ϕ(X))2 ]) es la esperanza condicional E[θ|X]:
de θ dado que X = x. Cuando la densidad a priori es uniforme la densidad a posteriori es
proporcional a la verosimilitud. Por lo tanto,
Z
θ̂(X) = E[θ|X] = tπ(t|X)dt. (6)
π(t|x) ∝ L(t|x) = tk(x) (1 − t)n−k(x) 1{t ∈ (0, 1)}, (16)
Pn 2. Estimación bayesiana por máximo a posteriori. Otro estimador, de uso frecuente,
donde k(x) = i=1 xi . De la identidad (16) se concluye que θ|X = x tiene una distribución es el llamado máximo a posteriori (o moda) definido por
beta de parámetros k(x) + 1 y n − k(x) + 1. En consecuencia la constante de proporcionalidad
será θ̂map (X) := arg máx π(t|X). (7)
t∈Θ
 
Γ(n + 2) (n + 1)! n
= = (n + 1) . (17) Ejemplo 1.6 (Bayes (1764) Continuación.). Supongamos ahora que la bola B2 se detuvo
Γ(k(x) + 1)Γ(n − k(x) + 1) k(x)!(n − k(x))! k(x)
exactamente 3 veces a la izquierda de donde lo hizo la bola B1 . En tal caso
Conclusión. Sea X = (X1 , . . . , Xn ) una muestra aleatoria de volumen n correspondiente 4
θ̂(3) = E[θ|X = 3] =
a una variable aleatoria X ∼ Bernoulli(θ). Si la distribución a priori del parámetro θ es 6
uniforme sobre el intervalo (0, 1) y se observa que X = x, entonces la distribución a posteriori y
(del parámetro θ) es una β(k + 1, n − k + 1), donde k es la cantidad de éxitos observados. En  
otras palabras, la densidad de θ|X = x es 5 3
θ̂map (3) = arg máx 6 t (1 − t)2 = arg máx t3 (1 − t)2 .
  t∈(0,1) 3 t∈(0,1)
n k
π(t|x) = (n + 1) t (1 − t)n−k 1{t ∈ (0, 1)}, (18) Como el logaritmo es una función creciente, el argumento que maximiza a la función t3 (1 − t)2
k
coincide con el argumento maximizador de la función ψ(t) = log(t3 (1 − t)2 ) = 3 log(t) +
donde k = ni=1 xi .
P
2 log(1 − t). Observando que
d 3 2 3
Función de probabilidad marginal. Cuál es la probabilidad de que en una muestra 0= ψ(t) = − ⇐⇒ 3(1 − t) − 2t = 0 ⇐⇒ t = ,
dt t 1−t 5
de volumen n se observen exactamente k artı́culos defectuosos. La cantidad de artı́culos
defectuosos será N = ni=1 Xi . Dado que θ = t, las variables X1 , . . . , Xn serán independientes, se puede deducir que
P
cada una con distribución de Bernoulli(t) y en tal caso N ∼ Binomial(n, t) 3
θ̂map (3) = .
 
n k 5
P(N = k|t) = t (1 − t)n−k , k = 0, 1, . . . , n (19)
k

Por lo tanto, condicionando sobre θ = t y usando la fórmula de probabilidad total, obtenemos 1.4. Estimación por intervalo para parámetro continuo
que
Z 1 Z 1  Dada la muestra aleatoria X se desea construir intervalos (acotados) que capturen casi
n k toda la variabilidad del parámetro aleatorio θ. Si el intervalo [a, b] es tal que
P(N = k) = P(N = k|t)πθ (t)dt = t (1 − t)n−k dt
0 0 k
 Z 1   P(θ ∈ [a, b]|X) = 1 − α, (8)
n n k!(n − k)!
= tk (1 − t)n−k dt =
k 0 k (n + 1)! será llamado intervalo estimador de nivel 1 − α. En la práctica, los valores de α son pequeños:
1 0.1 o 0.05 o 0.01. En general, los valores de a y b dependerán de los valores de la muestra
= k = 0, 1, . . . , n (20)
n+1 aleatoria x. Dado que X = x, los intervalos estimadores de nivel 1 − α se obtienen resolviendo
la siguiente ecuación de las variables a y b:
En otras palabras, los n + 1 valores posibles de N son igualmente probables.
Z b
π(t|x)dt = 1 − α. (9)
a

9 6
De todas las soluciones posibles de la ecuación (9) se prefieren aquellas que producen intervalos Teorema 1.8. Entre todas las variables aleatorias continuas a valores en [a, b] la que maxi-
de longitud lo más pequeña posible. miza la entropı́a es la U[a, b].
Una solución particular de la ecuación (9) puede obtenerse mediante el siguiente razon-
amiento: como la distribución a posteriori del parámetro θ está centrada alrededor de su Demostración. No se pierde generalidad si se supone que [a, b] = [0, 1]. Si X ∼ U[0, 1],
esperanza, θ̂(x) := E[θ|X = x], y no puede desviarse demasiado de allı́, los intervalos que la entonces Z 1
contengan deben ser relativamente pequeños. Esto sugiere la siguiente construcción: dividir
H(X) = − 1 log(1)dx = 0.
a la mitad el nivel y tratar de capturar cada una de las mitades a izquierda y a derecha de 0
θ̂(x). En otras palabras, se trata de resolver las siguientes ecuaciones: El resultado se obtiene mostrando que si X es una variable aleatoria continua a valores en el
Z θ̂(x)
1−α
Z b
1−α [0, 1], entonces H(X) ≤ 0.
π(t|x)dt = , π(t|x)dt = . (10) Es fácil ver que para todo x > 0 vale la desigualdad
a 2 θ̂(x) 2
Ejemplo 1.7. Se considera el siguiente modelo Bayesiano: X ∼ N (θ, 1) con distribución a log(x) ≤ x − 1 (13)
priori θ ∼ N (0, 10). Sobre la base de una muestra de tamaño 1 de X se quiere determinar un
intervalo de nivel 1 − α para la variable θ. Poniendo x = u1 , u > 0, en la desigualdad (13) se obtiene
Dado que X = x tenemos que  
1 1
 ! − log u = log ≤ −1 (14)
(x − t)2 t2 10x 2
  
11 u u
π(t|x) ∝ L(θ|x)πθ (t) ∝ exp − − ∝ exp − t−
2 20 20 11
La desigualdad (14) se usa para obtener
10x 10

y por lo tanto θ|X = x ∼ N 11 , 11 . Como la variable Z 1 Z 1   Z 1 Z 1
1
(θ|X = x) − (10x/11) H(X) = − f (x) log f (x)dx ≤ f (x) − 1 dx = 1dx − f (x)dx = 0.
Z= p ∼ N (0, 1) 0 0 f (x) 0 0
10/11

tenemos que P |Z| < z1−α/2 = 1 − α y de allı́ se deduce dado que X = x el intervalo
Comentario Bibliográfico. Una exposición elemental de la noción de entropı́a y de las
" r r #
10x 10 10x 10
− z1−α/2 , + z1−α/2 distribuciones menos informativas puede leerse en Pugachev, V.S., (1973). Introducción a la
11 11 11 11
Teorı́a de Probabilidades, Mir, Moscu.
es un intervalo estimador de nivel 1 − α.
EnfoqueR Bayesiano generalizado. Si la función de verosimilitud L(t|x) es integrable,

1.5. Sobre la distribución a priori uniforme. i.e., 0 < −∞ L(t|x)dt < ∞, la expresión
1
Cuando el parámetro θ tiene distribución a priori U[a, b], esto es πθ (t) = b−a 1{t ∈ [a, b]} L(t|x)
el enfoque Bayesiano se simplifica abruptamente. π(t|x) := R ∞ (15)
La fórmula de Bayes para la distribución a posteriori (4) adopta la forma −∞ L(t|x)dt

1
L(t|x) b−a 1{t ∈ [a, b]} L(t|x)1{t ∈ [a, b]} define una densidad de probabilidades en R. Por abuso del lenguaje, algunos autores suelen
π(t|x) = R 1 = Rb . (11) llamarla la densidad a posteriori correspondiente a la distribución a priori “uniforme sobre la
L(t|x) b−a 1{t ∈ [a, b]}dt
a L(t|x)dt recta”1 No hay ningún problema en utilizar este enfoque siempre que no se pierda de vista
En palabras, si la distribución a priori del parámetro es uniforme, la densidad de su distribu- que no existe ninguna distribución uniforme sobre regiones de longitud infinita. El enfoque
ción a posteriori es proporcional a la función de verosimilitud: π(t|x) ∝ L(t|x). que postula una densidad a posteriori de la forma (15) será llamado Bayesiano generalizado.

Nota Bene. En cierto sentido, que puede precisarse, la distribución U[a, b] es la menos
informativa entre todas las distribuciones continuas a valores en [a, b].
2. Ejemplos
En teorı́a de la información la indeterminación de una variable aleatoria X se mide con 2.1. Las distribuciones β y el problema del “control de calidad”
la entropı́a definida por H(X) := E[− log f (X)], donde f (x) es la densidad de probabilidades
de la variable aleatoria X. En otros términos Control de calidad. La calidad de un proceso de producción puede medirse por el por-
Z centaje, 100 θ %, de artı́culos defectuosos producidos. Cada artı́culo producido tiene asociada
H(X) := − f (x) log f (x)dx. (12)
1
Nota histórica: la denominación para esta a priori impropia se debe a Laplace.

7 8

También podría gustarte