ECOgrynberg Booklet

(r1 , . . .
, rn ), donde r1 + · · · + rn = r y ri es la cantidad de partı́culas en la i-ésima celda,

1 ≤ i ≤ n. La cantidad de tales n-uplas se puede calcular del siguiente modo: a cada
n- upla (r1 , r2 , . . . , rn ) la identificamos con una sucesión de unos y ceros s1 , . . . , sr+n−1
con unos en las posiciones numeradas r1 + 1, r1 + r2 + 2, . . . , r1 + r2 + · · · + rn−1 + n − 1
(hay n − 1 de ellas) y ceros en las restantes posiciones. La cantidad de tales sucesiones
es igual al número de combinaciones de r + n − 1cosas tomadas de a n − 1 por vez. La
probabilidad de un evento elemental es 1/ r+n−1 n−1 .
3. Estadı́stica de Fermi-Dirac. En este caso r < n y cada

celda contiene a lo sumo una
partı́cula. La cantidad de eventos elementales es nr . La probabilidad de un evento
elemental es 1/ nr .

Ejemplo 4.1. Se distribuyen 5 partı́culas en 10 celdas numeradas 1, 2, . . . , 10. Calcular, para

cada una de las tres estadı́sticas, la probabilidad de que las celdas 8, 9 y 10 no tengan partı́culas
y que la celdas 6 y 7 tengan exactamente una partı́cula cada una.
1. Maxwell-Boltzmann. Las bolas son distinguibles y todas las configuraciones diferentes

son equiprobables. La probabilidad de cada configuración (x1 , . . . , x5 ) ∈ {1, . . . , 10}5 ,
donde xi indica la celda en que se encuentra la partı́cula i, es 1/105 .
¿De qué forma podemos obtener las configuraciones deseadas? Primero elegimos (en
orden) las 2 bolas que van a ocupar la celdas 6 y 7 (hay 5 × 4 formas diferentes de
hacerlo) y luego elegimos entre las celdas 1, 2, 3, 4, 5 las ubicaciones de las 3 bolas
restantes (hay 53 formas diferentes de hacerlo). Por lo tanto, su cantidad es 5 × 4 × 53
y la probabilidad de observarlas es
5 × 4 × 53 1 1
p= = = = 0.025.
105 5 × 23 40
2. Bose-Einstein. Las partı́culas son indistinguibles y todas las configuraciones distintas

son equiprobables. La probabilidad de cada configuración (r1 , . . . , r10), donde r1 + · · · +
r10 = 5 y ri es la cantidad de partı́culas en la i-ésima celda, es 1/ 149 .
Las configuraciones deseadas son de la forma (r1 , . . . , r5 , 1, 1, 0, 0, 0), donde r1 +· · ·+r5 =
3, su cantidad es igual a la cantidad de configuraciones distintas que pueden formarse
usando 3 ceros y 4 unos. Por lo tanto, su cantidad es 73 y la probabilidad de observarlas
es −1
7 14 35
p= = ≈ 0.0174....
3 9 2002
3. Fermi-Dirac. Las partı́culas son indistinguibles, ninguna celda puede contener más de
una partı́cula y todas las configuraciones distintas son equiprobables. La probabilidad
de cada configuración es 1/ 10

5 .
Las configuraciones deseadas se obtienen eligiendo tres de las las cinco celdas 1, 2, 3,
4, 5 para ubicar
las tres partı́culas que no están en las celdas 6 y 7. Por lo tanto, su
cantidad es 53 y la probabilidad de observarlas es
−1
5 10 10
= ≈ 0.0396....
3 5 252
30
encontrar n̂mv consideramos la proporción
pk (n) (n − n1 )(n − r)
= >1
pk (n − 1) (n − n1 − r + k)n
⇐⇒ (n − n1 )(n − r) > (n − n1 − r + k)n
⇐⇒ n2 − nn1 − nr + n1 r > n2 − nn1 − nr + nk
n1 r
⇐⇒ n< .
k
Esto significa que cuando n crece la sucesión pk (n) primero crece y después decrece; alcanza
su máximo cuando n es el mayor entero menor que nk1 r , ası́ que n̂mv es aproximadamente
igual a nk1 r . En nuestro ejemplo particular el estimador de máxima verosimilitud del número
de peces en el lago es n̂mv = 10000.
El verdadero valor de n puede ser mayor o menor, y podemos preguntar por los lı́mites
entre los que resulta razonable esperar que se encuentre n. Para esto testeamos la hipótesis
que n sea menos que 8500. Sustituimos en (22) n = 8500, n1 = r = 1000, y calculamos la
probabilidad que la segunda muestra contenga 100 o menos peces rojos. Esta probabilidad es
p = p0 + p1 + · · · + p100 . Usando una computadora encontramos que p ≈ 0.04. Similarmente,
si n = 12.000, la probabilidad que la segunda muestra contenga 100 o más peces rojos esta
cerca de 0.03. Esos resultados justificarı́an la apuesta de que el verdadero número n de peces
se encuentra en algún lugar entre 8500 y 12.000.
Ejercicios adicionales
10. Un estudiante de ecologı́a va a una laguna y captura 60 escarabajos de agua, marca cada
uno con un punto de pintura y los deja en libertad. A los pocos dı́as vuelve y captura otra
muestra de 50, encontrando 12 escarabajos marcados. ¿Cuál serı́a su mejor apuesta sobre el
tamaño de la población de escarabajos de agua en la laguna?
4. Mecánica Estadı́stica
El espacio se divide en una gran cantidad, n, de pequeñas regiones llamadas celdas. Se
considera un sistema mecánico compuesto por r partı́culas que se distribuyen al azar entre
las n celdas. ¿Cuál es la distribución de las partı́culas en las celdas? La respuesta depende de
lo que se considere un evento elemental.
1. Estadı́stica de Maxwell-Boltzmann. Suponemos que todas las partı́culas son distintas y

que todas las ubicaciones de las partı́culas son igualmente posibles. Un evento elemental
está determinado por la r-upla (x1 , x2 , . . . , xr ), donde xi es el número de la celda en la
que cayó la partı́cula i. Puesto que cada xi puede tomar n valores distintos, el número
de tales r-uplas es nr . La probabilidad de un evento elemental es 1/nr .
2. Estadı́stica de Bose-Einstein. Las partı́culas son indistinguibles. De nuevo, todas las

ubicaciones son igualmente posibles. Un evento elemental está determinado por la n-upla
29
Ejemplo 3.15 (Experimentos de captura y recaptura). Se capturan 1000 peces en un lago,
se marcan con manchas rojas y se los deja en libertad. Después de un tiempo se hace una
nueva captura de 1000 peces, y se encuentra que 100 tienen manchas rojas. ¿Qué conclusiones
pueden hacerse sobre la cantidad de peces en el lago? Espacios de Probabilidad
Suponemos que las dos capturas pueden considerarse como muestras aleatorias de la
población total de peces en el lago. También vamos a suponer que la cantidad de peces Elementos de Análisis Combinatorio
en el lago no cambió entre las dos capturas.
Generalizamos el problema admitiendo tamaños muestrales arbitrarios. Sean
(Borradores, Curso 23)
n = el número (desconocido) de peces en el lago.
Sebastian Grynberg
n1 = el número de peces en la primera captura. Estos peces juegan el rol de las bolas
rojas. 11-13 de marzo 2013
r = el número de peces en la segunda captura.
k = el número de peces rojos en la segunda captura.
pk (n) = la probabilidad de que la segunda captura contenga exactamente k peces rojos.
Con este planteo la probabilidad pk (n) se obtiene poniendo n2 = n − n1 en la fórmula (21):

−1
n1 n − n1 n
pk (n) = . (22)
k r−k r
En la práctica n1 , r, y k pueden observarse, pero n es desconocido.

Notar que n es un número fijo que no depende del azar. Resultarı́a insensato preguntar
por la probabilidad que n sea mayor que, digamos, 6000.
Sabemos que fueron capturados n1 + r − k peces diferentes, y por lo tanto n ≥ n1 + r − k.
Esto es todo lo que podemos decir con absoluta certeza. En nuestro ejemplo tenemos n1 =
r = 1000 y k = 100, y podrı́a suponerse que el lago contiene solamente 1900 peces. Sin
embargo, partiendo de esa hipótesis, llegamos a la conclusión de que ha ocurrido un evento
de probabilidad fantásticamente pequeña. En efecto, si se supone que hay un total de 1900
peces, la fórmula (22) muestra que la probabilidad de que las dos muestras de tamaño 1000
agoten toda la población es ,
1000 900 1900 −1 (1000!)2

=
100 900 1000 100!1900!
La fórmula de Stirling muestra que esta probabilidad es del orden de magnitud de 10−430 , y en Andrei Nikolaevich Kolmogorov (1903-1987)
esta situación el sentido común indica rechazar la hipótesis como irrazonable. Un razonamiento Estableció los fundamentos de la Teorı́a de Probabilidad en 1933
similar nos induce a rechazar la hipótesis de que n es muy grande, digamos, un millón.
Las consideraciones anteriores nos conducen a buscar el valor de n que maximice la prob-
abilidad pk (n), puesto que para ese n nuestra observación tendrı́a la mayor probabilidad de “se aprende a pensar abstractamente
ocurrir. Para cualquier conjunto de observaciones n1 , r, k, el valor de n que maximiza la prob- mediante el pensamiento abstracto.”
abilidad pk (n) se denota por n̂mv y se llama el estimador de máxima verosimilitud de n. Para (G.W.F. Hegel)
28 1
Índice puesto que para ese valor de n1 nuestra observación tendrı́a la mayor probabilidad de ocur-
p(n1 )
rir. Para encontrar ese valor consideramos el cociente p(n1 −1)
. Simplificando los factoriales,
1. Teorı́a general 3 obtenemos
1.1. Los axiomas de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 p(n1 ) n1 (93 − n1 )
1.2. Relación con los datos experimentales . . . . . . . . . . . . . . . . . . . . . . 5 = >1
p(n1 − 1) (n1 − 2)(101 − n1 )
1.3. Corolarios inmediatos de los axiomas . . . . . . . . . . . . . . . . . . . . . . . 7
⇐⇒ n1 (93 − n1 ) > (n1 − 2)(101 − n1 )
1.4. Sobre el axioma de continuidad . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5. σ-álgebras y teorema de extensión . . . . . . . . . . . . . . . . . . . . . . . . 10 ⇐⇒ n1 < 20.2 ⇐⇒ n1 ≤ 20.
Esto significa que cuando n1 crece la sucesión p(n1 ) primero crece y después decrece; alcanza
2. Simulación de experimentos aleatorios con espacio muestral finito 11
su máximo cuando n1 = 20. Suponiendo que n1 = 20, la probabilidad de que en una muestra
2.1. Números aleatorios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
de 10 piezas extraı́das de un lote de 100 se observen 2 defectuosas es:
2.2. Simulación de experimentos aleatorios . . . . . . . . . . . . . . . . . . . . . . 12
2.3. Estimación de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
−1
80 20 100
p(20) = ≈ 0.318.
8 2 10
3. Elementos de Análisis Combinatorio 17
3.1. Regla del Producto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 Aunque el verdadero valor de n1 puede ser mayor o menor que 20, si se supone que n1 = 20 se
3.2. Muestras ordenadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 obtiene un resultado consistente con el sentido común que indicarı́a que los eventos observables
3.3. Subpoblaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 deben tener “alta probabilidad”.
3.4. Particiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.5. Distribución Hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
0.35
3.5.1. Control de calidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.5.2. Estimación por captura y recaptura. . . . . . . . . . . . . . . . . . . . 27
0.3
4. Mecánica Estadı́stica 29
4.1. Algunas distribuciones relacionadas con la estadı́stica de Maxwell-Boltzmann 31 0.25
4.1.1. Cantidad de partı́culas por celda: la distribución binomial . . . . . . . 31
4.1.2. Forma lı́mite: la distribución de Poisson . . . . . . . . . . . . . . . . . 32 0.2
4.2. Algunas distribuciones relacionadas con la estadı́stica de Bose-Einstein . . . . 33
4.2.1. Cantidad de partı́culas por celda . . . . . . . . . . . . . . . . . . . . . 33 0.15
4.2.2. Forma lı́mite: la distribución de Geométrica . . . . . . . . . . . . . . . 34
4.3. Tiempos de espera . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 0.1
5. Bibliografı́a consultada 36
0.05
0
0 20 40 60 80 100
Figura 2: Gráfico de función p(n1 ). Observar que arg máx{p(n1 ) : 2 ≤ n1 ≤ 92} = 20.
3.5.2. Estimación por captura y recaptura.

Para estimar la cantidad n de peces en un lago se puede realizar el siguiente procedimiento.
En el primer paso se capturan n1 peces, que luego de marcarlos se los deja en libertad. En el
segundo paso se capturan r peces y se determina la cantidad k de peces marcados. La fórmula
(21) permite hacer inferencias sobre la cantidad desconocida n.
2 27
1. Teorı́a general
1
1.1. Los axiomas de Kolmogorov
0.9
Sean Ω un conjunto no vacı́o cuyos elementos ω serán llamados eventos elementales y A
0.8
una familia de subconjuntos de Ω que serán llamados eventos.
0.7
Definición 1.1. A es un álgebra de eventos si contiene a Ω y es cerrada por complementos
0.6 y uniones finitas1
0.5
(i) Ω ∈ A,
0.4
(ii) A ∈ A implica Ac ∈ A,
0.3
(iii) A, B ∈ A implica A ∪ B ∈ A.
0.2
Definición 1.2. Una medida de probabilidad P sobre (Ω, A) es una función P : A → R que
0.1
satisface los axiomas siguientes:
0
0 10 20 30 40 50 60 I. Para cada A ∈ A, P(A) ≥ 0,
II. P(Ω) = 1.
III. Aditividad. Si los eventos A y B no tienen elementos en común, entonces

Figura 1: Gráfico de función p(k).
P(A ∪ B) = P(A) + P(B).
¿Cuál es la máxima probabilidad de aceptar una partida de 100 que contenga más de
20 piezas defectuosas? Debido a que la función p(k) es decreciente, dicha probabilidad es IV. Axioma de continuidad. Para cada sucesión decreciente de eventos
p(20) ≈ 0.3630.
A1 ⊃ A2 ⊃ · · · ⊃ An ⊃ · · · , (1)
Ejemplo 3.14. Una planta de ensamblaje recibe un lote de n = 100 piezas de precisión, de
las cuales una cantidad desconocida n1 son defectuosas. Para controlar el lote se elige una tal que
∞
muestra (sin reposición) de r = 10 piezas. Examinadas estas, resultan k = 2 defectuosas. \
An = ∅
¿Qué se puede decir sobre la cantidad de piezas defectuosas en el lote?
n=1
Sabemos que de 10 piezas examinadas 2 son defectuosas y 8 no lo son. Por lo tanto,
2 ≤ n1 ≤ 92. Esto es todo lo que podemos decir con absoluta certeza. Podrı́a suponerse que vale que
el lote contiene 92 piezas defectuosas. Partiendo de esa hipótesis, llegamos a la conclusión de lı́m P(An ) = 0.
n→∞
que ha ocurrido un evento de probabilidad
Definición 1.3. Un espacio de probabilidad es una terna (Ω, A, P) formada por un conjunto
8 92 100 −1 no vacı́o Ω, llamado el espacio muestral ; un álgebra A de subconjuntos de Ω; llamados los

= O(10−10 ). eventos aleatorios; y una medida de probabilidad P definida sobre los eventos aleatorios.
8 2 10
1
Nomenclatura y definiciones previas. Sean A y B eventos.
En el otro extremo, podrı́a suponerse que el lote contiene exactamente 2 piezas defectuosas,
en ese caso llegamos a la conclusión de que ha ocurrido un evento de probabilidad 1. Escribiremos Ac := {ω ∈ Ω : ω ∈
/ A} para designar al evento que no ocurre A. El evento Ac se llama el
complemento de A.
98 2 100 −1 2. Escribiremos A ∪ B := {ω ∈ Ω : ω ∈ A o ω ∈ B} para designar al evento que ocurre al menos uno de

1
= . los eventos A o B. El evento A ∪ B se llama la unión de A y B.
8 2 10 110
3. Escribiremos A ∩ B := {ω ∈ Ω : ω ∈ A y ω ∈ B} para designar al evento ocurren ambos A y B. El
Las consideraciones anteriores conducen a buscar el valor de n1 que maximice la probabilidad evento A ∩ B se llama la intersección de A y B.
−1 A veces escribiremos A \ B en lugar de A ∩ B c , esto es, el evento que A ocurre, pero B no lo hace. Cuando
100 − n1 n1 100 dos eventos A y B no tienen elementos en común, esto es A ∩ B = ∅, diremos que A y B son disjuntos. Una
p(n1 ) := , colección de eventos A1 , A2 , . . . se dice disjunta dos a dos, si Ai ∩ Aj = ∅ para todo i 6= j.
8 2 10
26 3
Nota Bene (Consistencia). El sistema de axiomas I-IV es consistente. Esto se prueba Para calcular pk , observamosque el grupo elegido debe contener k bolas rojas y r−k negras.
mediante un ejemplo. Sea Ω un conjunto que consiste de un solo elemento y sea A = {∅, Ω} Las rojas pueden elegirse de nk1 formas distintas y la negras de r−k
n2
formas distintas. Como
la familia de todos los subconjuntos de Ω. A es un álgebra y la función P : A → R definida cada elección de las k bolas rojas debe combinarse con cada elección de las r − k negras, se
por P(Ω) := 1 y P(∅) := 0 es una medida de probabilidad. obtiene
n1 + n2 −1

n1 n2
Construcción de espacios de probabilidad finitos. Los espacios de probabilidad más pk = (21)
simples se construyen de la siguiente manera. Se considera un conjunto finito Ω y una función k r−k r
p : Ω → [0, 1] tal que X El sistema de probabilidades obtenido se llama la distribución hipergeométrica.
p(ω) = 1.
ω∈Ω 3.5.1. Control de calidad.
La función p se llama función de probabilidad y los números p(ω), ω ∈ Ω, se llaman las
En control de calidad industrial, se someten a inspección lotes de n unidades. Las unidades
probabilidades de los eventos elementales ω ∈ Ω o simplemente las probabilidades elementales.
defectuosas juegan el rol de las bolas rojas y su cantidad n1 es desconocida. Se toma una
El álgebra de eventos, A, se toma como el conjunto de todos los subconjuntos de Ω y para
muestra de tamaño r y se determina la cantidad k de unidades defectuosas. La fórmula (21)
cada A ∈ A se define X permite hacer inferencias sobre la cantidad desconocida n1 ; se trata de problema tı́pico de
P(A) := p(ω),
estimación estadı́stica que será analizado más adelante.
ω∈A
donde la suma vacı́a se define como 0. Ejemplo 3.12. Una planta de ensamblaje recibe una partida de 100 piezas de precisión que
Todos los espacios de probabilidad finitos en los que A es la familia de todos los subcon- incluye exactamente 8 defectuosas. La división control de calidad elige 10 piezas al azar para
juntos de Ω se construyen de esta manera. controlarlas y rechaza la partida si encuentra al menos 2 defectuosas. ¿Cuál es la probabilidad
de que la partida pase la inspección?
Ejemplo 1.4 (Lanzar una moneda equilibrada). Se lanza una moneda. Los resultados posibles El criterio de decisión adoptado indica que la partida pasa la inspección si (y sólo si)
son cara o ceca y pueden representarse mediante las letras H (head ) y T (tail ). Adoptando en la muestra no se encuentran piezas defectuosas o si se encuentra exactamente una pieza
esa representación el espacio muestral correspondiente es defectuosa. Hay 100

formas de elegir la muestra para controlar, 92 8

formas de elegir
10 10 0
muestras sin piezas defectuosas y 92
8
Ω = {H, T }. 9 1 formas de elegir muestras con exactamente una
pieza defectuosa. En consecuencia la probabilidad de que la partida pase la inspección es
Decir que una moneda es equilibrada significa que la función de probabilidad asigna igual −1 −1
92 8 100 92 8 100
probabilidad a los dos resultados posibles: + ≈ 0.818.
10 0 10 9 1 10
p(H) = p(T ) = 1/2.
Ejemplo 3.13. Una planta de ensamblaje recibe una partida de 100 piezas de precisión que
incluye exactamente k defectuosas. La división control de calidad elige 10 piezas al azar para
Equiprobabilidad: fórmula de Laplace. Sea Ω un espacio muestral finito. Cuando todos controlarlas y rechaza la partida si encuentra al menos 2 defectuosas. ¿Con ese criterio de
los eventos elementales tienen la misma probabilidad, esto es, cuando para todo ω ∈ Ω vale decisión, cómo se comporta la probabilidad p(k) de que la partida pase la inspección?.
que p(ω) = |Ω|−1 , se dice que el espacio es equiprobable. En ese caso las probabilidades de los Una partida pasará la inspección si (y sólo si) al extraer una muestra de control la cantidad
eventos A ⊂ Ω se calculan usando la fórmula de Laplace: de piezas defectuosas encontradas es 0 o 1. Hay 100

10 formas de elegir la muestra para con-
trolar. Para cada k = 1, . . . , 90 hay 100−k
k
|A| 10−k 0 formas de elegir muestras sin piezas defectos y
P(A) = . 100−k k

|Ω| 9 1 formas de elegir muestras con exactamente una pieza defectuosa. En consecuencia
la probabilidad p(k) de que la partida pase la inspección es
En este contexto el problema principal del cálculo de probabilidades consiste determinar la −1
100 −1

cantidad de eventos elementales favorables a cada evento posible (sin tener que enumerarlo). 100 − k k 100 100 − k k
p(k) = + .
En otras palabras, la teorı́a de probabilidades se reduce al análisis combinatorio, una impor- 10 0 10 9 1 10
tante (y a veces muy dı́ficil) rama de la matemática dedicada a lo que podrı́a llamarse “contar
p(k)
sin contar”. En la Sección 3 se desarrollan sus elementos básicos. Una cuenta sencilla muestra que para todo k = 1, . . . , 90 el cociente p(k−1) es menor que 1.
Esto significa que a medida que aumenta la cantidad de piezas defectuosas en la partida, la
probabilidad de aceptarla disminuye.
4 25
segunda r2 , etc, es 1.2. Relación con los datos experimentales
n! En el mundo real de los experimentos la teorı́a de probabilidad se aplica de la siguiente
. (19)
r1 !r2 ! · · · rk ! manera:
(1) Consideramos un sistema de condiciones, S, que se pueden repetir cualquier cantidad
Los números (19) se llaman coeficientes multinomiales. de veces.
(2) Estudiamos una familia determinada de eventos que pueden ocurrir como resultado
Demostración. Un uso repetido de (14) muestra que el número (19) se puede reescribir en de realizar las condiciones S. En los casos individuales donde se realizan las condiciones S,
la forma los eventos ocurren, generalmente, de distintas maneras. En el conjunto Ω incluimos, a priori,

n n − r1

n − r1 − r2

n − r1 − · · · − rk−2
todos los resultados que podrı́an obtenerse al realizar las condiciones S.
··· (20) (3) Si al realizar las condiciones S el resultado pertenece al conjunto A (definido de alguna
r1 r2 r3 rk−1
manera), diremos que ocurre el evento A.
Por otro lado, para efectuar la partición deseada, tenemos primero que seleccionar r1 elementos
de los n; de los restantes n − r1 elementos seleccionamos un segundo grupo de tamaño r2 , Ejemplo 1.5 (Dos monedas). Las condiciones S consisten en lanzar una moneda dos veces.
etc. Después de formar el grupo (k − 1) quedan n − r1 − r2 − · · · − rk−1 = rk elementos, y El conjunto de los eventos mencionados en (2) resultan del hecho de que en cada lanzamiento
esos forman el último grupo. Concluimos que (20) representa el número de formas en que se puede obtenerse una cara (H) o una ceca (T ). Hay cuatro resultados posibles (los eventos
puede realizar la partición. elementales), a saber: HH, HT , T H, T T . Si el evento A se define por la ocurrencia de una
repetición, entonces A consistirá en que suceda el primero o el cuarto de los cuatro eventos
Ejemplo 3.11 (Accidentes). En una semana ocurrieron 7 accidentes. Cuál es la probabilidad elementales. Esto es, A = {HH, T T }. De la misma manera todo evento puede considerarse
de que en dos dı́as de esa semana hayan ocurrido dos accidentes cada dı́a y de que en otros como un conjunto de eventos elementales.
tres dı́as hayan ocurrido un accidente cada dı́a?
(4) Bajo ciertas condiciones se puede suponer que, dado el sistema de condiciones S, un
Primero particionamos los 7 dı́as en 3 subpoblaciones: dos dı́as con dos accidentes en cada evento A que a veces ocurre y a veces no, tiene asignado un número real P(A) que tiene las
uno, tres dı́as con un accidente en cada uno y dos dı́as sin accidentes.. Esa partición en tres siguientes caracterı́sticas:
grupos de tamaños 2, 3, 2 se puede hacer de 7!/(2!3!2!) formas distintas y por cada una de (a) Se puede estar prácticamente seguro de que si el sistema de condiciones S se repite
ellas hay 7!/(2!2!1!1!1!0!0!) = 7!/(2!2!) formas diferentes de ubicar los 7 accidentes en los 7 una gran cantidad de veces, n, entonces si n(A) es la cantidad de veces que ocurre el evento
dı́as. Por lo tanto, el valor de la probabilidad requerido es igual a A, la proporción n(A)/n diferirá muy poco de P(A).
7! 7! 1 (b) Si P(A) es muy pequeña, se puede estar prácticamente seguro de que cuando se realicen
× = 0.3212... las condiciones S solo una vez, el evento A no ocurrirá.
2!3!2! 2!2! 77
Deducción empı́rica de los axiomas I, II, III. En general, se puede suponer que la fa-
milia A de los eventos observados A, B, C, . . . que tienen probabilidades asignadas, constituye
un álgebra de eventos. Está claro que 0 ≤ n(A)/n ≤ 1 de modo que el axioma I es bastante
natural. Para el evento Ω, n(Ω) siempre es igual a n de modo que es natural definir P(Ω) = 1
8. ¿Cuántas palabras distintas pueden formarse permutando las letras de la palabra “man- (Axioma II). Si finalmente, A y B son incompatibles (i.e., no tienen elementos en común),
zana” y cuántas permutando las letras de la palabra “aiaiiaiiiaiiii”? entonces n(A ∪ B) = n(A) + n(B) y de aquı́ resulta que
n(A ∪ B) n(A) n(B)

9. Se ubicarán 6 bolas distinguibles en 8 urnas numeradas 1, 2, . . . , 8. Suponiendo que todas = + .
las configuraciones distintas son equiprobables calcular la probabilidad de que resulten tres n n n
urnas ocupadas con una bola cada una y que otra urna contenga las tres bolas restantes. Por lo tanto, es apropiado postular que P(A ∪ B) = P(A) + P(B) (Axioma III).
Nota Bene 1. La afirmación de que un evento A ocurre en las condiciones S con una
3.5. Distribución Hipergeométrica determinada probabilidad P(A) equivale a decir que en una serie suficientemente larga de
experimentos (es decir, de realizaciones del sistema de condiciones S), las frecuencias relativas
Muchos problemas combinatorios se pueden reducir a la siguiente forma. En una urna
hay n1 bolas rojas y n2 bolas negras. Se elige al azar un grupo de r bolas. Se quiere calcular nk (A)
la probabilidad pk de que en el grupo elegido, haya exactamente k bolas rojas, 0 ≤ k ≤ p̂k (A) :=
nk
mı́n(n1 , r).
24 5
determinan completamente los números combinatorios nk , 0 ≤ k ≤ n, n = 0, 1, . . . . Usando

de ocurrencia del evento A (donde nk es la cantidad de experimentos realizados en la k-ésima
serie y nk (A) la cantidad de ellos en los que ocurre A) son aproximadamente idénticas unas dichas relaciones se construye el famoso “triángulo de Pascal”, que muestra todos los números
a otras y están próximas a P(A). combinatorios en la forma de un triángulo
Ejemplo 1.6. Las condiciones S consisten en lanzar una moneda (posiblemente cargada). 1
Podemos poner Ω = {H, T } y A = {∅, {H}, {T }, Ω}, y las posibles medidas de probabilidad 1 1
P : A → [0, 1] están dadas por 1 2 1
P(∅) = 0, P(H) = p, P(T ) = 1 − p, P(Ω) = 1, 1 3 3 1
1 4 6 4 1
donde p es un número real fijo perteneciente al intervalo [0, 1]. 1 5 10 10 5 1
Si en 10 series, de 1000 lanzamientos cada una, se obtienen las siguientes frecuencias 1 6 15 20 15 6 1
relativas de ocurrencia del evento A = {H} ... ... ... ... ... ...
0.753; 0.757; 0.756; 0.750; 0.746; 0.758; 0.751; 0.748; 0.749; 0.746, La n-ésima fila de este triángulo contiene los coeficientes n0 , n1 , . . . , nn . Las condiciones de

parece razonable asignarle a p el valor 0.75. borde (17) indican que el primero y el último de esos números son 1. Los números restantes
se determinan por la ecuación en diferencias (16). Vale decir, para cada 0 < k < n, el k-ésimo
coeficiente de la n-ésima fila del “triángulo de Pascal” se obtiene sumando los dos coeficientes
Nota Bene 2. Si cada una de dos afirmaciones diferentes es prácticamente segura, entonces
inmediatamente superiores a izquierda y derecha. Por ejemplo, 52 = 4 + 6 = 10.

podemos decir que simultáneamente son ambas seguras, aunque el grado de seguridad haya
disminuido un poco. Si, en cambio, el número de tales afirmaciones es muy grande, de la
seguridad práctica de cada una, no podemos deducir nada sobre la validez simultánea de Control de calidad. Una planta de ensamblaje recibe una partida de 50 piezas de precisión
todos ellas. En consecuencia, del principio enunciado en (a) no se deduce que en una cantidad que incluye 4 defectuosas. La división de control de calidad elige 10 piezas al azar para
muy grande de series de n experimentos cada una, en cada uno de ellos la proporción n(A)/n controlarlas y rechaza la partida si encuentra 1 o más defectuosas. ¿Cuál es la probabilidad
diferirá sólo un poco de P(A). de que la partida pase la inspección? Hay 50 10 formas de elegir la muestra para controlar y
46

En los casos más tı́picos de la teorı́a de probabilidades, la situación es tal que en una larga 10 de elegir todas las piezas sin defectos. Por lo tanto, la probabilidad es
serie de pruebas es posible obtener uno de los dos valores extremos para la frecuencia −1
46 50 46! 10!40! 40 · 39 · 38 · 37
n(A) n n(A) 0 = = = 0, 3968....
= =1 y = = 0. 10 10 10!36! 50! 50 · 49 · 48 · 47
n n n n
Ası́, cualquiera sea el número de ensayos n, es imposible asegurar con absoluta certeza que Usando cálculos casi idénticos una compañı́a puede decidir sobre qué cantidad de piezas
tendremos, por ejemplo, la desigualdad defectuosas admite en una partida y diseñar un programa de control con una probabilidad
dada de éxito.
n(A) 1
n − P(A) < 10 .

Por ejemplo, si el evento A es sacar un seis tirando un dado equilibrado, entonces en n tiradas
del dado la probabilidad de obtener un seis en todas ellas es (1/6)n > 0; en otras palabras, 7. Considerar el siguiente juego: el jugador I tira 4 veces una moneda honesta y el jugador
con probabilidad (1/6)n tendremos una frecuencia relativa igual a uno de sacar un seis en II lo hace 3 veces. Calcular la la probabilidad de que el jugador I obtenga más caras que el
todas las tiradas ; y con probabilidad (5/6)n no saldrá ningún seis, es decir, la frecuencia jugador II.
relativa de sacar seis será igual a cero.
Nota Bene 3. De acuerdo con nuestros axiomas a un evento imposible (un conjunto vacı́o)
3.4. Particiones
le corresponde la probabilidad P(∅) = 0, pero la recı́proca no es cierta: P(A) = 0 no implica la
imposibilidad de A. Cuando P(A) = 0, del principio (b) todo lo que podemos asegurar es que Teorema 3.10. Sean r1 , . . . , rk enteros tales que
cuando se realicen las condiciones S una sola vez, el evento A será prácticamente imposible.
Sin embargo, esto no asegura de ningún modo que en una sucesión suficientemente grande de r1 + r2 + · · · + rk = n, ri ≥ 0. (18)
experimentos el evento A no ocurrirá. Por otra parte, del principio (a) solamente se puede
deducir que cuando P(A) = 0 y n es muy grande, la proporción n(A)/n debe ser muy pequeña El número de formas en que una población de n elementos se puede dividir en k partes
(por ejemplo, 1/n). ordenadas (particionarse en k subpoblaciones) tales que la primera contenga r1 elementos, la
6 23
de la siguiente manera: consideramos una subpoblación de tamaño k de una población de n 1.3. Corolarios inmediatos de los axiomas
elementos. Cada numeración arbitraria de los elementos de la subpoblación la convierte en
De A ∪ Ac = Ω y los axiomas II y III se deduce que
una muestra ordenada de tamaño k. Todas las muestras ordenadas de tamaño k se pueden
obtener de esta forma. Debido a que k elementos se pueden ordenar de k! formas diferentes, P(Ac ) = 1 − P(A).
resulta que k! veces la cantidad de subpoblaciones de tamaño k coincide con la cantidad de En particular, debido a que Ωc = ∅, tenemos que P(∅) = 0.
muestras ordenadas de dicho tamaño. En otros términos, Cn, k · k! = (n)k . Por lo tanto,
Teorema de aditividad. Si los eventos A1 , A2 , . . . , An son disjuntos dos a dos, entonces
(n)k n! del axioma III se deduce la fórmula
Cn, k = = . (13)
k! k!(n − k)! n n
!
[ X
P Ai = P(Ai ).
Los números definidos en (13) se llaman coeficientes binomiales o números combinatorios y i=1 i=1
la notación clásica para ellos es nk .

Teorema 3.8. Una población de n elementos tiene


n n!
= (14) 1. Sean A y B dos eventos. Mostrar que
k k!(n − k)!
(a) Si A ⊆ B, entonces P(A) ≤ P(B). Más precisamente: P(B) = P(A) + P(B \ A).
diferentes subpoblaciones de tamaño k ≤ n.
Sugerencia. Expresar el evento B como la unión disjunta de los eventos A y B \ A y usar
Ejemplo 3.9. Consideramos una urna con 8 bolas numeradas 1, 2, . . . , 8. Extraemos 3 bolas el axioma III.
simultáneamente, de modo que el orden es irrelevante. El espacio muestral Ω3 correspondiente (b) La probabilidad de que ocurra al menos uno de los eventos A o B es
a este experimento consiste de todos los subconjuntos de tamaño 3 del conjunto {1, 2, . . . , 8}.
Por el Teorema 3.8 Ω3 tiene 83 = 56 elementos. Bajo la hipótesis de que todos los elementos P(A ∪ B) = P(A) + P(B) − P(A ∩ B).
tienen la misma probabilidad, la probabilidad de seleccionar {3, 7, 1} es 1/56. Sugerencia. La unión A ∪ B de dos eventos puede expresarse como la unión de dos eventos
disjuntos: A ∪ (B \ (A ∩ B)).
Dada una población de tamaño n podemos elegir una subpoblación de tamaño k de nk

maneras distintas. Ahora bien, elegir los k elementos que vamos a quitar de una población es 2. Mostrar que para eventos A, B y C vale que
lo mismo que elegir los n − k elementos que vamos a dejar dentro. Por lo tanto, es claro que
para cada k ≤ n debe valer P(A ∪ B ∪ C) = P(A) + P(B) + P(C) − P(A ∩ B) − P(A ∩ C) − P(B ∩ C)
+P(A ∩ B ∩ C).
n n
= . (15)
k n−k
La ecuación (15) se deduce inmediatamente de la identidad (14). El lado izquierdo de la 3. Mostrar que para eventos A1 , A2 , . . . , An vale que
n
!
ecuación (15) no está definido para k = 0, pero el lado derecho si lo está. Para que la ecuación [ X X X
(15) sea valida para todo entero k tal que 0 ≤ k ≤ n, se definen P Ai = P(Ai ) − P(Ai ∩ Aj ) + P(Ai ∩ Aj ∩ Aj ) − · · ·
i=1 i i<j i<j<k
+(−1)n P(A1 ∩ A2 ∩ · · · ∩ An ).

n
:= 1, 0! := 1, y (n)0 := 1.
0
Triángulo de Pascal. Las ecuaciones en diferencias

1.4. Sobre el axioma de continuidad

n n−1 n−1
= + , (16)
k k k−1 Nota Bene 1. Si la familia de eventos A es finita el axioma de continuidad IV se deduce
junto con el conocimiento de los datos de borde de los axiomas I-III. En tal caso, en la sucesión (1) solo hay una cantidad finita de eventos
diferentes. Si Ak es el menor de ellos, entonces todos los conjuntos Ak+m , m ≥ 1 coinciden
∞
n n con Ak . Tenemos que Ak = Ak+m =
T
An = ∅ y lı́m P(An ) = P(∅) = 0. Por lo tanto, todos
= = 1, (17) n→∞
0 n n=1
los ejemplos de espacios de probabilidad finitos satisfacen los axiomas I-IV.
22 7
Nota Bene 2. Se puede probar que para espacios muestrales infinitos, el axioma de con- (a) Para n = 7, p = 0.00612.... Esto significa que si en una ciudad ocurren 7 accidentes por
tinuidad IV es independiente de los axiomas I-III. Este axioma es esencial solamente para semana, entonces (suponiendo que todas las ubicaciones posibles son igualmente prob-
espacios de probabilidad infinitos y es casi imposible elucidar su significado empı́rico en la ables) prácticamente todas las semanas contienen dı́as con dos o más accidentes, y en
forma en que lo hicimos con los axiomas I-III. promedio solo una semana de 164 mostrará una distribución uniforme de un accidente
por dı́a.
Ejemplo 1.7. Sean Ω = Q ∩ [0, 1] = {r1 , r2 , r3 , . . . } y A0 la familia de los subconjuntos de Ω
de la forma [a, b], [a, b), (a, b] o (a, b). La familia, A de todas las uniones finitas de conjuntos (b) Para n = 6 la probabilidad p es igual a 0.01543... Esto muestra lo extremadamente
disjuntos de A0 es un álgebra de eventos. La medida de probabilidad definida por improbable que en seis tiradas de un dado perfecto aparezcan todas las caras.
P(A) := b − a, si A ∈ A0 , Cumpleaños. Los cumpleaños de k personas constituyen una muestra de tamaño k de la

k
Pk [ población formada por todos los dı́as del año.
P(A) := i=1 P(Ai ) si A = Ai , para Ai ∈ A0 y Ai ∩ Aj = ∅, De acuerdo con la ecuación (12) la probabilidad, pk , de que todos los k cumpleaños sean
i=1
diferentes es
satisface los axiomas I-III pero no satisface el axioma de continuidad.
(365)k 1 2 k−1
En efecto, para cada r ∈ Ω, {r} ∈ A y P({r}) = 0. Los eventos An := Ω \ {r1 , . . . , rn }, pk = = 1 − 1 − · · · 1 − .
T∞ 365k 365 365 365
n ∈ N, son decrecientes y An = ∅, sin embargo lı́m P(An ) = 1, debido a que P(An ) = 1
n→∞
n=1 Una fórmula aparentemente abominable. Si k = 23 tenemos pk < 1/2. En palabras, para 23
para todo n ≥ 1. personas la probabilidad que al menos dos personas tengan un cumpleaños común excede 1/2.
Teorema 1.8. Aproximaciones numéricas de pk . Si k es chico, tomando logaritmos y usando que para x
∞
pequeño y positivo log(1 − x) ∼ −x, se obtiene
T
(a) Si A1 ⊃ A2 ⊃ · · · y A = An , entonces P(A) = lı́m P(An ).
n=1 n→∞ 1 + 2 + · · · + (k − 1) k(k − 1)
log pk ∼ − =− .
∞
S 365 730
(b) Si A1 ⊂ A2 ⊂ · · · y A = An , entonces P(A) = lı́m P(An ).
n=1 n→∞
Demostración. Ejercicios adicionales

∞
T
(a) Considerar la sucesión Bn = An \ A. Observar que B1 ⊃ B2 ⊃ · · · y Bn = ∅. Por
n=1 5. Hallar la probabilidad pk de que en una muestra de k dı́gitos aleatorios no haya dos iguales.
1√
el axioma de continuidad se obtiene lı́m P(Bn ) = 0. Como P(Bn ) = P(An ) − P(A) se deduce Estimar el valor numérico de p10 usando la fórmula de Stirling (1730): n! ∼ e−n nn+ 2 2π.
n→∞
que
lı́m P(An ) = P(A). 6. Considerar los primeros 10000 decimales del número π. Hay 2000 grupos de cinco dı́gitos.
n→∞
Contar la cantidad de grupos en los que los 5 dı́gitos son diferentes e indicar la frecuencia
∞
(b) Considerar la sucesión Bn = Acn . Observar que B1 ⊃ B2 ⊃ · · · y Bn = Ac . Por el relativa del evento considerado. Comparar el resultado obtenido con la probabilidad de que
T
n=1 en una muestra de 5 dı́gitos aleatorios no haya dos iguales.
inciso (a) se obtiene lı́m P(Bn ) = P(Ac ) = 1 − P(A). Como P(Bn ) = 1 − P(An ) se deduce
n→∞
que
lı́m P(An ) = P(A).
n→∞ 3.3. Subpoblaciones
En lo que sigue, utilizaremos el término población de tamaño n para designar una colección
Ejemplo 1.9 (Números aleatorios). Teóricamente, los números aleatorios son realizaciones de n elementos sin considerar su orden. Dos poblaciones se consideran diferentes si una de
independientes del experimento conceptual que consiste en “elegir al azar” un número U ellas contiene algún elemento que no está contenido en la otra.
del intervalo (0, 1]. Aquı́ la expresión “elegir al azar” significa que el número U tiene la Uno de los problemas más importantes del cálculo combinatorio es determinar la can-
distribución uniforme sobre el intervalo (0, 1], i.e., la probabilidad del evento U ∈ (a, b] es tidad Cn, k de subpoblaciones distintas de tamaño k que tiene una población de tamaño n.
igual a b − a, para cualquier pareja de números reales a y b tales que 0 < a < b ≤ 1. Cuando n y k son pequeños, el problema se puede resolver por enumeración directa. Por
ejemplo, hay seis formas distintas elegir dos letras entre cuatro letras A, B, C, D, a saber:
AB, AC, AD, BC, BD, CD. Ası́, C4, 2 = 6. Cuando la cantidad de elementos de la colección
es grande la enumeración directa es impracticable. El problema general se resuelve razonando
8 21
Caso especial k = n. En muestreo sin reposición una muestra de tamaño n incluye a toda Ejemplo 1.10 (Ternario de Cantor). Se elije al azar un número U del intervalo (0, 1], ¿cuál
la población y representa una permutación de sus elementos. En consecuencia, n elementos es la probabilidad de que el 1 no aparezca en el desarrollo en base 3 de U ?
a1 , a2 , . . . , an se pueden ordenar de (n)n = n · (n − 1) · · · 2 · 1 formas distintas. Usualmente el Consideramos la representación en base 3 del número U :
número (n)n se denota n! y se llama el factorial de n. X ak (U )
U= ,
Corolario 3.6. La cantidad de formas distintas en que se pueden ordenar n elementos es 3k
k≥1
n! = 1 · 2 · · · n. (10) donde ak (U ) ∈ {0, 1, 2}, k ≥ 1.

Lo que queremos calcular es la probabilidad del evento A = {ak (U ) 6= 1, ∀ k ≥ 1}. Primero
Observación 3.7. Las muestras ordenadas de tamaño k, sin reposición, de una población de observamos que
∞
n elementos, se llaman variaciones de n elementos tomados de a k. Su número total (n)k se \
puede calcular del siguiente modo A= An ,
n=1
n! donde An = {ak (U ) 6= 1, ∀ 1 ≤ k ≤ n} y notamos que A1 ⊃ A2 ⊃ · · · . Usando el inciso (a) del
(n)k = (11)
(n − k)! Teorema 1.8 tenemos que P(A) = lı́m P(An ). El problema se reduce a calcular la sucesión
n→∞
de probabilidades P(An ) y su lı́mite.
Nota Bene sobre muestreo aleatorio. Cuando hablemos de “muestras aleatorias de Geométricamente el evento A1 se obtiene eliminando el segmento (1/3, 2/3) del intervalo
tamaño k”, el adjetivo aleatorio indica que todas las muestras posibles tienen la misma prob- (0, 1]:
abilidad, a saber: 1/nk en muestreo con reposición y 1/(n)k en muestreo sin reposición. En A1 = (0, 1/3] ∪ [2/3, 1].
ambos casos, n es el tamaño de la población de la que se extraen las muestras.
Si n es grande y k es relativamente pequeño, el cociente (n)k /nk está cerca de la unidad. En Para obtener A2 eliminamos los tercios centrales de los dos intervalos que componen A1 :
otras palabras, para grandes poblaciones y muestras relativamente pequeñas, las dos formas A2 = (0, 1/9] ∪ [2/9, 3/9] ∪ [6/9, 7/9] ∪ [8/9, 1].
de muestrear son prácticamente equivalentes.
Continuando de este modo obtenemos una caracterización geométrica de los eventos An : An
Ejemplos es la unión disjunta de 2n intervalos, cada uno de longitud 3−n . En consecuencia,
n
Consideramos muestras aleatorias de volumen k (con reposición) tomadas de una población 1 2
P(An ) = 2n n =
de n elementos a1 , . . . , an . Nos interesa el evento que en una muestra no se repita ningún el- 3 3
emento. En total existen nk muestras diferentes, de las cuales (n)k satisfacen la condición Por lo tanto, P(A) = lı́m (2/3)n = 0.
estipulada. Por lo tanto, la probabilidad de ninguna repetición en nuestra muestra es n→∞
Teorema 1.11 (σ-aditividad). Si A1 , A2 , . . . , es una sucesión de eventos disjuntos dos a dos

(n)k n(n − 1) · · · (n − k + 1) ∞
p= = (12)
S
nk nk (i.e., Ai ∩ Aj = ∅ para todos los pares i, j tales que i 6= j) y An ∈ A, entonces
n=1
Las interpretaciones concretas de la fórmula (12) revelan aspectos sorprendentes. ∞
[
! ∞
X
P An = P(An ) (2)
Muestras aleatorias de números. La población consiste de los diez dı́gitos 0, 1, . . . , 9. n=1 n=1
Toda sucesión de cinco dı́gitos representa una muestra de tamaño k = 5, y supondremos que S
cada uno de esos arreglos tiene probabilidad 10−5 . La probabilidad de que 5 dı́gitos aleatorios Demostración. La sucesión de eventos Rn := Am , n ≥ 1, es decreciente y tal que
m>n
sean todos distintos es p = (10)5 10−5 = 0.3024. ∞
T
Rn = ∅. Por el axioma IV tenemos que
n=1
Bolas y urnas. Si n bolas se ubican aleatoriamente en n urnas, la probabilidad de que cada
lı́m P(Rn ) = 0 (3)
urna esté ocupada es n→∞
n!
p = n. y por el teorema de aditividad tenemos que
n
n
∞
!
Interpretaciones: [ X
P An = P(Ak ) + P(Rn ). (4)
n=1 k=1
De (4) y (3) se obtiene (2).
20 9
Corolario 1.12 (Teorema de cubrimiento). Si B, A1 , A2 , . . . es una sucesión de eventos tal (b) Muestreo sin reposición. Una vez elegido, el elemento se quita de la población, de
∞
que A =
S
An ∈ A y B ⊂ A, entonces modo que las muestras son arreglos sin repeticiones. El volumen de la muestra k no puede
n=1 exceder el tamaño de la población total n.
∞
Tenemos n elecciones posibles para el primer elemento, pero sólo n − 1 para el segundo,
P(B) ≤
X
P(An ). n − 2 para el tercero, etcétera. Usando la regla del producto se obtiene un total de
n=1
(n)k := n(n − 1)(n − 2) · · · (n − k + 1) (9)
Demostración. Una cuenta. Descomponemos B en una unión disjunta de eventos elecciones posibles.
n−1
∞
! ∞
!!
[ [ [ Teorema 3.3. Para una población de n elementos y un tamaño de muestra prefijado k,
B=B∩ An = B ∩ An \ (An ∩ Ak )
existen nk diferentes muestras con reposición y (n)k muestras sin reposición.
n=1 n=1 k=1
Ejemplo 3.4. Consideramos una urna con 8 bolas numeradas 1, 2, . . . , 8
y aplicamos el teorema de σ-aditividad
∞ n−1
!! ∞
(a) Extracción con reposición. Extraemos 3 bolas con reposición: después de extraer
una bola, anotamos su número y la ponemos de nuevo en la urna. El espacio muestral
X [ X
P(B) = P B∩ An \ (An ∩ Ak ) ≤ P(An ).
n=1 k=1 n=1 Ω1 correspondiente a este experimento consiste de todas las secuencias de longitud 3
que pueden formarse con los sı́mbolos 1, 2, . . . 8. De acuerdo con el Teorema 3.3, Ω1
tiene 83 = 512 elementos. Bajo la hipótesis de que todos los elementos tienen la misma
probabilidad, la probabilidad de observar la secuencia (3, 7, 1) es 1/512.
Ejercicios adicionales (b) Extracción de una colección ordenada sin reposición. Extraemos 3 bolas sin
reposición: cada bola elegida no se vuelve a poner en la urna. Anotamos los números
4. Sean Ω un conjunto no vacı́o y A un álgebra de eventos. Sea P : A → R una función tal de las bolas en el orden en que fueron extraı́das de la urna. El espacio muestral Ω2
que correspondiente a este experimento es el conjunto de todas las secuencias de longitud
I. Para cada A ∈ A, P(A) ≥ 0, 3 que pueden formarse con los sı́mbolos 1, 2 . . . , 8 donde cada sı́mbolo puede aparecer
II. P(Ω) = 1. a los sumo una vez. De acuerdo con el Teorema 3.3, Ω2 tiene (8)3 = 8 · 7 · 6 = 336
III. Si los eventos A y B no tienen elementos en común, entonces P(A ∪ B) = P(A) + P(B). elementos. Bajo la hipótesis que todos los elementos tienen la misma probabilidad, la
∞
probabilidad de observar la secuencia (3, 7, 1) (en ese orden) es 1/336.
S
IV’. Si (An )n≥1 es una sucesión de eventos disjuntos dos a dos y An ∈ A, entonces
n=1
∞
! ∞
[ X
P An = P(An ). Ejemplo 3.5. Una urna contiene 6 bolas rojas y 4 bolas negras. Se extraen 2 bolas con
n=1 n=1 reposición. Para fijar ideas supongamos que las bolas están numeradas de la siguiente manera:
las primeras 6 son las rojas y las últimas 4 son las negras. El espacio muestral asociado es
Mostrar que bajo esas condiciones la función P satisface el axioma de continuidad.
Ω = {1, . . . , 10}2 y su cantidad de elementos |Ω| = 102 .
(a) ¿Cuál es la probabilidad de que las dos sean rojas? Sea R el evento “las dos son rojas”,
1.5. σ-álgebras y teorema de extensión R = {1, . . . , 6}2 y |R| = 62 . Por lo tanto, P(R) = 62 /102 = 0.36.
∞
S (b) ¿Cuál es la probabilidad de que las dos sean del mismo color? Sea N el evento “las dos
El álgebra A se llama una σ-álgebra, si toda unión numerable An de conjuntos A1 , A2 , · · · ∈
n=1 son negras”, N = {7, . . . , 10}2 y |N | = 42 , entonces P(N ) = 42 /102 = 0.16. Por lo tanto,
A, disjuntos dos a dos, también pertenece a A. P(R ∪ N ) = P(R) + P(N ) = 0.52.
De la identidad
(c) ¿Cuál es la probabilidad de que al menos una de las dos sea roja? El evento “al menos
n−1
∞ ∞
!
[ [ [ una de las dos es roja” es el complemento de “las dos son negras”. Por lo tanto, P(N c ) =
An = An \ (An ∩ Ak )
1 − P(N ) = 0.84.
n=1 n=1 k=1
Si se consideran extracciones sin reposición, deben reemplazarse las cantidades (10)2 , 62 y 42
por las correspondientes (10)2 , (6)2 y (4)2 .
10 19
Ejemplo 3.2 (Ubicar r bolas en n urnas). Los resultados posibles del experimento se pueden se deduce que la σ-álgebra también contiene todas las uniones numerables de conjuntos
representar mediante el conjunto A1 , A2 , · · · ∈ A. De la identidad
∞ ∞
Ω = {1, 2, . . . , n}r = {(x1 , x2 , . . . , xr ) : xi ∈ {1, 2, . . . , n}, 1 ≤ i ≤ r}, \ [
An = Ω \ Acn
donde xi = j representa el resultado “la bola i se ubicó en la urna j”. Cada bola puede n=1 n=1
ubicarse en una de las n urnas posibles. Con r bolas tenemos r elecciones sucesivas con lo mismo puede decirse de las intersecciones.
exactamente n elecciones posibles en cada paso. En consecuencia, r bolas pueden ubicarse en
n urnas de nr formas distintas. Nota Bene. Solamente cuando disponemos de una medida de probabilidad, P, definida
Usamos el lenguaje figurado de bolas y urnas, pero el mismo espacio muestral admite sobre una σ-álgebra, A, obtenemos libertad de acción total, sin peligro de que ocurran eventos
muchas interpretaciones distintas. Para ilustrar el asunto listaremos una cantidad de situa- que no tienen probabilidad.
ciones en las cuales aunque el contenido intuitivo varı́a son todas abstractamente equivalentes
al esquema de ubicar r bolas en n urnas, en el sentido de que los resultados difieren solamente Lema 1.13 (σ-álgebra generada). Dada un álgebra A existe la menor σ-álgebra, σ(A), que
en su descripción verbal. la contiene, llamada la σ-álgebra generada por A.
1. Nacimientos. Las configuraciones posibles de los nacimientos de r personas corresponde Teorema 1.14 (Extensión). Dada una función de conjuntos, P, no negativa y σ-aditiva
a los diferentes arreglos de r bolas en n = 365 urnas (suponiendo que el año tiene 365 definida sobre un álgebra A se la puede extender a todos los conjuntos de la σ-álgebra generada
dı́as). por A, σ(A), sin perder ninguna de sus propiedades (no negatividad y σ-aditividad) y esta
extensión puede hacerse de una sola manera.
2. Accidentes. Clasificar r accidentes de acuerdo con el dı́a de la semana en que ocurrieron
es equivalente a poner r bolas en n = 7 urnas.
Esbozo de la demostración. Para cada A ⊂ Ω definimos
3. Muestreo. Un grupo de personas se clasifica de acuerdo con, digamos, edad o profesión. X
Las clases juegan el rol de las urnas y las personas el de las bolas. P∗ (A) := ı́nf P(An ),
A⊂∪n An
n
4. Dados. Los posibles resultados de una tirada de r dados corresponde a poner r bolas en donde el ı́nfimo se toma respecto a todos los cubrimientos del conjunto A por colecciones
n = 6 urnas. Si en lugar de dados se lanzan monedas tenemos solamente n = 2 urnas. finitas o numerables de conjuntos An pertenecientes a A. De acuerdo con el Teorema de
5. Dı́gitos aleatorios. Los posibles ordenamientos de una sucesión de r dı́gitos corresponden cubrimiento P∗ (A) coincide con P(A) para todo conjunto A ∈ A.
a las distribuciones de r bolas (= lugares) en diez urnas llamadas 0, 1, . . . , 9. La función P∗ es no negativa y σ-aditiva sobre σ(A). La unicidad de la extensión se deduce
de la propiedad minimal de σ(A).
6. Coleccionando figuritas. Los diferentes tipos de figuritas representan las urnas, las fig-
uritas coleccionadas representan las bolas.
2. Simulación de experimentos aleatorios con espacio muestral
finito
3.2. Muestras ordenadas 2.1. Números aleatorios.
Se considera una “población” de n elementos a1 , a2 , . . . , an . Cualquier secuencia ordena- Toda computadora tiene instalado un algoritmo para simular números aleatorios que se
da aj1 , aj2 , . . . , ajk de k sı́mbolos se llama una muestra ordenada de tamaño k tomada de la pueden obtener mediante una instrucción del tipo “random”. En el software Octave, por
población. (Intuitivamente los elementos se pueden elegir uno por uno). Hay dos procedimien- ejemplo, la sentencia rand simula un número aleatorio y rand (1, n) simula un vector de
tos posibles. n números aleatorios. En algunas calculadoras (llamadas cientı́ficas) la instrucción Ran#
permite simular números aleatorios de tres dı́gitos. En algunos libros de texto se pueden
(a) Muestreo con reposición. Cada elección se hace entre toda la población, por lo que encontrar tablas de números aleatorios (p. ej., Meyer, P. L.: Introductory Probability and
cada elemento se puede elegir más de una vez. Cada uno de los k elementos se puede elegir Statistical Applications. Addison-Wesley, Massachusetts. (1972))
en n formas: la cantidad de muestras posibles es, por lo tanto, nk , lo que resulta de la regla
del producto con n1 = n2 = · · · = nk = n. Cómo usar los números aleatorios. La idea principal se puede presentar mediante un
ejemplo muy simple. Queremos construir un mecanismo aleatorio para simular el lanzamiento
de una moneda cargada con probabilidad p de obtener de obtener “cara”. Llamemos X al
resultado del lanzamiento: X ∈ {0, 1} con la convención de que “cara”= 1 y “ceca”= 0.
18 11
Para construir X usamos un número aleatorio U , uniformemente distribuido sobre el 3. Elementos de Análisis Combinatorio
intervalo [0, 1] y definimos
Cuando se estudian juegos de azar, procedimientos muestrales, problemas de orden y
X := 1{1 − p < U ≤ 1}. (5) ocupación, se trata por lo general con espacios muestrales finitos Ω en los que a todos los
eventos elementales se les atribuye igual probabilidad. Para calcular la probabilidad de un
Es fácil ver X satisface las condiciones requeridas. En efecto, evento A tenemos que dividir la cantidad de eventos elementales contenidos en A (llamados
casos favorables) entre la cantidad de total de eventos elementales contenidos en Ω ( llamados
P(X = 1) = P(1 − p < U ≤ 1) = 1 − (1 − p) = p.
casos posibles). Estos cálculos se facilitan por el uso sistemático de unas pocas reglas.
La ventaja de la construcción es que se puede implementar casi inmediatamente en una
computadora. Por ejemplo, si p = 1/2, una rutina en Octave para simular X es la siguiente 3.1. Regla del Producto
Sean A y B dos conjuntos cualesquiera. El producto cartesiano de A y B se define por
Rutina para simular el lanzamiento de una moneda equilibrada A × B = {(a, b) : a ∈ A y b ∈ B}. Si A y B son finitos, entonces |A × B| = |A| · |B|.
U = rand;
if U>1/2 Demostración. Supongamos que A = {a1 , a2 , . . . , am } y B = {b1 , b2 , . . . , bn }. Basta obser-
X=1; var el cuadro siguiente
else b1 b2 ... bn
X=0;
a1 (a1 , b1 ) (a1 , b2 ) ... (a1 , bn )
end
a2 (a2 , b1 ) (a2 , b2 ) ... (a2 , bn )
X .. .. .. ..
. . . .
am (am , b1 ) (am , b2 ) ... (am , bn )
Nota Bene. El ejemplo anterior es el prototipo para construir y simular experimentos
Cuadro 1: Esquema rectangular del tipo tabla de multiplicar con m filas y n columnas: en la
aleatorios. Con la misma idea podemos construir experimentos aleatorios tan complejos como
intersección de fila i y la columna j se encuentra el par (ai , bj ). Cada par aparece una y sólo
queramos.
una vez.
2.2. Simulación de experimentos aleatorios En palabras, con m elementos a1 , . . . , am y n elementos b1 , . . . , bn es posible formar m · n
pares (ai , bj ) que contienen un elemento de cada grupo.
Supongamos que Ω = {ω1 , ω2 , . . . , ωm } representa el espacio muestral correspondiente a
un experimento aleatorio y que cada evento elemental ωk ∈ Ω tiene asignada la probabilidad Teorema 3.1 (Regla del producto). Sean A1 , A2 , . . . , An , n conjuntos cualesquiera. El pro-
p(ωk ) = pk . Usando un número aleatorio, U , uniformemente distribuido sobre el intervalo ducto cartesiano de los n conjuntos A1 , A2 , . . . , An se define por
(0, 1], podemos construir un mecanismo aleatorio, X, para simular los resultados del experi-
mento aleatorio considerado. Definimos A1 × A2 × · · · × An = {(x1 , x2 , . . . , xn ) : xi ∈ Ai , 1 ≤ i ≤ n}.
m
X Si los conjuntos A1 , A2 , . . . , An son finitos, entonces
X= k1 {Lk−1 < U ≤ Lk } , (6)
k=1 n
Y
|A1 × A2 × · · · × An | = |Ai |.
donde i=1
k
X
L0 := 0 y Lk := pi , (1 ≤ k ≤ m) Demostración. Si n = 2 ya lo demostramos. Si n = 3, tomamos los pares (x1 , x2 ) como
i=1 elementos de un nuevo tipo. Hay |A1 | · |A2 | elementos de ese tipo y |A3 | elementos x3 . Cada
terna (x1 , x2 , x3 ) es un par formado por un elemento (x1 , x2 ) y un elemento x3 ; por lo tanto,
e identificamos cada evento elemental ωk ∈ Ω con su correspondiente subı́ndice k.
la cantidad de ternas es |A1 | · |A2 | · |A3 |. Etcétera.
En efecto, de la definición (6) se deduce que para cada k = 1, . . . , m vale que
P(X = k) = P(Lk−1 < U ≤ Lk ) = Lk − Lk−1 = pk . Nota Bene. Muchas aplicaciones se basan en la siguiente reformulación de la regla del
producto: r decisiones sucesivas con exactamente nk elecciones posibles en el k-ésimo paso
pueden producir un total de n1 · n2 · · · nr resultados diferentes.
12 17
2. La construcción (7) permite simular 24 tiros de dos dados usando 48 números aleatorios Nota Bene. El mecanismo aleatorio definido en (6) se puede construir “gráficamente” de
independientes U1 , U2 , . . . , U47 , U48 . la siguiente manera:
La cantidad de veces que se obtiene un doble as en los 24 tiros de dos dados es la suma
24
P 1. Partir el intervalo (0, 1] en m subintervalos sucesivos I1 , . . . , Im de longitudes p1 , . . . , pm ,
S = 1{0 < U2i−1 ≤ 1/6, 0 < U2i ≤ 1/6}. El evento A2 = “obtener al menos un doble as respectivamente.
i=1
en 24 tiros de dos dados” equivale al evento S ≥ 1.
2. Sortear un número aleatorio, U , y observar en qué intervalo de la partición cae.
Si repetimos la simulación 10000 veces podemos obtener una estimación (puntual) de la
probabilidad del evento A2 calculando su frecuencia relativa. 3. Si U cae en el intervalo Ik , producir el resultado ωk .
La siguiente rutina (en Octave) provee una estimación de la probabilidad del evento A2
basada en la repetición de 10000 simulaciones del experimento que consiste en tirar 24 veces Ejemplo 2.1 (Lanzar un dado equilibrado). Se quiere simular el lanzamiento de un dado
dos dados. equilibrado. El espacio muestral es Ω = {1, 2, 3, 4, 5, 6} y la función de probabilidades es
p(k) = 1/6, k = 1, . . . , 6. El mecanismo aleatorio X = X(U ), definido en (6), se construye de
Rutina 2 la siguiente manera:
1. Partir el intervalo (0, 1] en 6 intervalos sucesivos de longitud 1/6: I1 = (0, 1/6], I2 =

n=10000;
(1/6, 2/6], I3 = (2/6, 3/6], I4 = (3/6, 4/6], I5 = (4/6, 5/6] e I6 = (5/6, 6/6].
A2=zeros(1,n);
for i=1:n 2. Sortear un número aleatorio U .
U=rand(2,24);
V=(U<=1/6); 3. Si U ∈ Ik , X = k.
S=sum(V(1,:).*V(2,:));
En pocas palabras,
if S>=1
A2(i)=1; 6
X k−1 k
else X= k1 <U ≤ . (7)
6 6
A2(i)=0; k=1
end
Por ejemplo, si sorteamos un número aleatorio, U y se obtiene que U = 0.62346, entonces el
end
valor simulado del dado es X = 4. Una rutina en Octave para simular X es la siguiente
hpA2=sum(A2)/n
Rutina para simular el lanzamiento de un dado
Ejecutando 10 veces la Rutina 2 se obtuvieron los siguientes resultados para la frecuencia
relativa del evento A2 U=rand;
k=0;
0.4829 0.4938 0.4874 0.4949 0.4939 0.4873 0.4882 0.4909 0.4926 0.4880 do
k++;
Notar que los resultados obtenidos se parecen entre sı́ e indican que la probabilidad de
until((k-1)/6<U & U<=k/6)
obtener al menos un doble as en 24 tiros de dos dados es menor que 0.5.
X=k
Conclusión. Los resultados experimentales obtenidos indican que es mejor apostar a que
se obtiene al menos un as en 4 tiros de un dado que apostar a que se obtiene al menos un
doble as en 24 tiros de un dado.
2.3. Estimación de probabilidades
Formalmente, un experimento aleatorio se describe mediante un espacio de probabilidad
(Ω, A, P). Todas las preguntas asociadas con el experimento pueden reformularse en términos
de este espacio. En la práctica, decir que un evento A ocurre con una determinada probabil-
idad P(A) = p equivale a decir que en una serie suficientemente grande de experimentos las
frecuencias relativas de ocurrencia del evento A
nk (A)
p̂k (A) =
nk
16 13
(donde nk es la cantidad de ensayos realizados en la k-ésima serie y nk (A) es la cantidad en Nota Bene. Usando las herramientas que proporciona el análisis combinatorio (ver sección
los que ocurre A) son aproximadamente idénticas unas a otras y están próximas a p. Las series 3) se puede demostrar que para cada k ∈ {0, 1, 2, 3, 4, 5} vale que
de experimentos se pueden simular en una computadora utilizando un generador de números
5 1
aleatorios. P(N = k) = .
k 32
Ejemplo 2.2. El experimento consiste en lanzar 5 monedas equilibradas y registrar la canti- En otros términos,
dad N de caras observadas. El conjunto de todos los resultados posibles es Ω = {0, 1, 2, 3, 4, 5}.
El problema consiste en asignarle probabilidades a los eventos elementales. P(N = 0) = 0.03125, P(N = 1) = 0.15625, P(N = 2) = 0.31250,
La solución experimental del problema se obtiene realizando una serie suficientemente P(N = 3) = 0.31250, P(N = 4) = 0.15625, P(N = 5) = 0.03125.
grande de experimentos y asignando a cada evento elemental su frecuencia relativa.
Sobre la base de una rutina similar a la que presentamos en la sección 2.1 para simu-
lar el resultado del lanzamiento de una moneda equilibrada se pueden simular n = 10000 Ejemplo 2.3 (Paradoja de De Mere). ¿Cuál de las siguientes apuestas es más conveniente?
realizaciones del experimento que consiste en lanzar 5 monedas equilibradas. Veamos co- Obtener al menos un as en 4 tiros de un dado.
mo hacerlo. Usamos la construcción (5) para simular el lanzamiento de 5 monedas equili-
bradas X1 , X2 , X3 , X4 , X5 . La cantidad de caras observadas es la suma de las Xi : N = Obtener al menos un doble as en 24 tiros de dos dados.
X1 + X2 + X3 + X4 + X5 .
Repitiendo la simulación 10000 veces (o genéricamente n veces), obtenemos una tabla que 1. La construcción (7) permite simular 4 tiros de un dado usando 4 números aleatorios
contiene la cantidad de veces que fué simulado cada valor de la variable N . Supongamos que independientes U1 , U2 , U3 , U4 .
4
obtuvimos la siguiente tabla: La cantidad de ases obtenidos en los 4 tiros es la suma S =
P
1{0 < Ui ≤ 1/6}. El evento
i=1
valor simulado 0 1 2 3 4 5 A1 = “obtener al menos un as en 4 tiros de un dado” equivale al evento S ≥ 1.
(8)
cantidad de veces 308 1581 3121 3120 1564 306 Si repetimos la simulación 10000 veces podemos obtener una estimación (puntual) de la
probabilidad del evento A1 calculando su frecuencia relativa.
En tal caso diremos que se obtuvieron las siguientes estimaciones La siguiente rutina (en Octave) provee una estimación de la probabilidad del evento A1
basada en la repetición de 10000 simulaciones del experimento que consiste en tirar 4 veces
P(N = 0) ≈ 0.0308, P(N = 1) ≈ 0.1581, P(N = 2) ≈ 0.3121,
un dado.
P(N = 3) ≈ 0.3120, P(N = 4) ≈ 0.1564, P(N = 5) ≈ 0.0306.
Rutina 1
Para finalizar este ejemplo, presentamos un programa en Octave que simula diez mil veces
el lanzamiento de cinco monedas equilibradas, contando en cada una la cantidad de caras n=10000;
observadas y que al final provee una tabla como la representada en (8) A1=zeros(1,n);
for i=1:n
U=rand(1,4);
n = 10000; S=sum(U<=1/6);
N = zeros(1,n); if S>=1
for i=1:n A1(i)=1;
U=rand(1,5); else
X=[U<=(1/2)]; A1(i)=0;
N(i)=sum(X); end
end end
for j=1:6 hpA1=sum(A1)/n
T(j)=sum([N==j-1]);
end Ejecutando 10 veces la Rutina 1 se obtuvieron los siguientes resultados para la frecuencia
T relativa del evento A1
0.5179 0.5292 0.5227 0.5168 0.5204 0.5072 0.5141 0.5177 0.5127 0.5244
Notar que los resultados obtenidos se parecen entre sı́ e indican que la probabilidad de obtener
al menos un as en 4 tiros de un dado es mayor que 0.5.
14 15
Notar que las fórmulas (8)-(10), junto con (1), muestran como calcular la probabilidad de
que la variable aleatoria X tome valores en un intervalo de extremos a y b y contienen una
advertencia sobre la acumulación de masa positiva en alguno de los dos extremos. Ejemplo 4.2. Calcular para cada una de las tres estadı́sticas mencionadas, la probabilidad
de que una celda determinada (p.ej., la número 1) no contenga partı́cula.
En cada uno de los tres casos la cantidad de eventos elementales favorables es igual a
la cantidad de ubicaciones de las partı́culas en n − 1 celdas. Por lo tanto, designando por
1.1. Propiedades de la función de distribución pM B , pBE , pF D las probabilidades del evento especificado para cada una de las estadı́sticas
Lema 1.4. Sea X : Ω → R una variable aleatoria. La función de distribución de X, FX (x) = (siguiendo el orden de exposición), tenemos que
P(X ≤ x), tiene las siguientes propiedades:
(n − 1)r 1 r

pM B = = 1 − ,
(F1) es no decreciente: si x1 ≤ x2 , entonces FX (x1 ) ≤ FX (x2 ); nr n
r + n − 2 r + n − 1 −1

n−1
(F2) es continua a derecha: para todo x0 ∈ R vale que lı́m FX (x) = FX (x0 ); pBE = = ,
x↓x0 n−2 n−1 N +n−1
−1
(F3) lı́m FX (x) = 0 y lı́m FX (x) = 1. n−1 n r
x→−∞ x→∞ pF D = =1− .
r r n
Demostración. Si r/n = λ y n → ∞, entonces
La propiedad (F1) se deduce de la fórmula (1).
La propiedad (F2) es consecuencia del axioma de continuidad de la medida de probabilidad 1
pM B = e−λ , pBE = , pF D = 1 − λ.
P. Se considera una sucesión decreciente de números positivos que converge a 0, ǫ1 > ǫ2 > 1+λ
. . . > 0, arbitraria,Tpero fija y se definen eventos An = {x0 < X ≤ x0 + ǫn }. Se observa que
Si λ es pequeño, esas probabilidades coinciden hasta O(λ2 ). El número λ caracteriza la “den-
A1 ⊃ A2 ⊃ · · · y An = ∅:
n∈N sidad promedio” de las partı́culas.
0 = lı́m P(An ) = lı́m P(x0 < X ≤ x0 + ǫn ) = lı́m F (x0 + ǫn ) − F (x0 ).

n→∞ n→∞ n→∞
Por lo tanto, Ejercicios adicionales

F (x0 ) = lı́m F (x0 + ǫn ).
n→∞ 11. Utilizando la estadı́stica de Maxwell-Boltzmann construir un mecanismo aleatorio para
Las propiedades (F3) se demuestran de manera similar. estimar el número e.
Observación 1.5. Si se define
FX (x− 4.1. Algunas distribuciones relacionadas con la estadı́stica de Maxwell-

0 ) := lı́m FX (x),
x↑x0 Boltzmann
entonces FX (x− −
0 ) = P(X < x0 ). Por lo tanto, P(X = x0 ) = FX (x0 ) − FX (x0 ). En particular,
Se distribuyen r partı́culas en n celdas y cada una de las nr configuraciones tiene proba-
si FX (x) es continua en x0 , entonces P(X = x0 ) = 0. Si P(X = x0 ) > 0, entonces FX (x) es bilidad n−r .
discontinua en x0 y su discontinuidad es un salto de altura P(X = x0 ) > 0.
4.1.1. Cantidad de partı́culas por celda: la distribución binomial
Cantidad de partı́culas en una celda especı́fica. Para calcular la probabilidad, pM B (k),
Ejercicios adicionales de que una celda especı́fica contengaexactamente k partı́culas (k = 0, 1, . . . , r) notamos que
las k partı́culas pueden elegirse de kr formas, y las restantes r − k partı́culas pueden ubicarse
2. Sea (Ω, A, P) un espacio de probabilidad y X : Ω → R una variable aleatoria con función en las restantes n − 1 celdas de (n − 1)r−k formas. Resulta que
de distribución FX (x).
r 1
(a) Mostrar que pM B (k) = (n − 1)r−k r
k n
lı́m FX (x) = 0 y lı́m FX (x) = 1.
x→−∞ x→∞
6 31
Dicho en palabras, en la estadı́stica de Maxwell-Boltzmann la probabilidad de que una Nota Bene. El desarrollo anterior presupone que la función Rintensidad de fallas λ(t) verifica
∞
celda dada contenga exactamente k partı́culas está dada por la distribución Binomial (r, n1 ) las siguientes condiciones: (1) λ(t) ≥ 0 para todo t > 0 y (2) 0 λ(t)dt = +∞.
definida por Ejemplo 1.3 (Fiabilidad). Se estipula que la duración de servicio de un sistema automático
k
r 1 1 r−k
debe ser t0 . Si durante ese perı́odo el sistema falla, se lo repara y se lo utiliza hasta que sirva
p(k) := 1− , 0 ≤ k ≤ r. (23) el plazo estipulado. Sea S el tiempo de funcionamiento del sistema después de la primera
k n n
reparación. Queremos hallar la función de distribución de S.
En primer lugar observamos que la relación entre la variable aleatoria S y el instante T
en que ocurre la primera falla del sistema es la siguiente
Cantidad de partı́culas más probable en una celda especı́fica. La cantidad más
t0 − T si T ≤ t0 ,
probable de partı́culas en una celda especı́fica es el entero ν tal que S = máx(t0 − T, 0) =
0 si T > t0 .
(r − n + 1) (r + 1)
<ν≤ . (24) Sea FS (s) la función de distribución de la variable S. Es claro que para s < 0, FS (s) = 0 y
n n que para s ≥ t0 , FS (s) = 1. Lo que falta hacer es analizar el comportamiento de FS sobre el
Para ser más precisos: intervalo 0 ≤ s < t0 . Sea s ∈ [0, t0 )
pM B (0) < pM B (1) < · · · < pM B (ν − 1) ≤ pM B (ν) > pM B (ν + 1) > · · · > pM B (r). FS (s) = P(S ≤ s) = P(máx(t0 − T, 0) ≤ s) = P(t0 − T ≤ s, 0 ≤ s)
Z t0 −s
Demostración. (Ejercicio.) = P(t0 − T ≤ s) = P(t0 − s ≤ T ) = exp − λ(t)dt ,
0
donde λ(t) es la función intensidad de fallas del sistema.
4.1.2. Forma lı́mite: la distribución de Poisson
Forma lı́mite. Si n → ∞ y r → ∞ de modo que la cantidad promedio λ = r/n de partı́culas 1
por celda se mantiene constante, entonces

λk
pM B (k) → e−λ .
k!
Dicho en palabras, la forma lı́mite de la estadı́stica de Maxwell-Boltzmann es la distribución
“ R ”
t
exp − 0 0 λ(t)dt
de Poisson de media λ definida por

λk
p(k) := e−λ , k = 0, 1, 2, . . . (25)
k! 0 t0 s
Demostración. Primero observamos que:

k Figura 2: Gráfico de la función de distribución de la variable aleatoria S.
1 r−k
k
1 r−k

r 1 r! 1
1− = 1−
k n n k!(r − k)! n n Por lo tanto,
1 1 k n − 1 −k 1 r t0 −s

r!
Z
= 1− FS (s) = exp − λ(t)dt 1{0 ≤ s < t0 } + 1{s ≥ t0 }.
k! n n (r − k)! n 0
1 r

1 1 r!
= 1− . (26)
k! (n − 1)k (r − k)! n
Reemplazando en (26) r = λn obtenemos:
k
1 λn−k 1 λn

λn 1 1 1 (λn)!
1− = 1 − 1. Sea X una variable aleatoria con función de distribución FX (x). Mostrar que para cada
k n n k! (n − 1)k (λn − k)! n
λ pareja de números reales a < b vale que:
1 n

1 1 (λn)!
= 1− P(a ≤ X ≤ b) = FX (b) − FX (a) + P(X = a) (8)
n k! (n − 1)k (λn − k)!
1

1 (λn)!
P(a ≤ X < b) = FX (b) − P(X = b) − FX (a) + P(X = a) (9)
∼ e−λ . (27) P(a < X < b) = FX (b) − P(X = b) − FX (a) (10)
k! (n − 1)k (λn − k)!
32 5
Ejemplo 1.2 (Fiabilidad). Un problema fundamental de la ingenierı́a es el problema de la Para estimar el último factor del lado derecho de (27) utilizamos la fórmula de Stirling n! ∼
√ 1
fiabilidad. Informalmente, la fiabilidad de un sistema se define como su capacidad para cumplir 2π nn+ 2 e−n :
ciertas funciones prefijadas. Esta propiedad se conserva durante un perı́odo de tiempo hasta √ 1
que ocurre una falla que altera la capacidad de trabajo del sistema. Por ejemplo: rupturas y 1 (λn)! 1 2π (λn)λn+ 2 e−λn
∼ √
cortocircuitos; fracturas, deformaciones y atascamientos de piezas mecánicas; el fundido o la (n − 1)k (λn − k)! (n − 1)k 2π (λn − k)(λn−k)+ 21 e−(λn−k)
combustión de las componentes de un circuito. 1
1 (λn)λn+ 2 e−k
Debido a que las fallas pueden ocurrir como hechos casuales, podemos considerar que el = k
(n − 1) (λn − k)(λn−k)+ 21
tiempo de funcionamiento, T , hasta la aparición de la primer falla es una variable aleatoria
a valores no negativos. λn+ 1
λn − k k

λn 2
La fiabilidad de un sistema se caracteriza por su función intensidad de fallas λ(t). Esta = e−k
n−1 λn − k
función temporal tiene la siguiente propiedad: cuando se la multiplica por dt se obtiene la " 1 #−1
k λn+ 2

probabilidad condicional de que el sistema sufra una falla durante el intervalo de tiempo
∼ λk e−k 1−
(t, t + dt] sabiendo que hasta el momento t funcionaba normalmente. Si se conoce la función λn
λ(t) se puede hallar la ley de distribución de probabilidades de T .
∼ λk . (28)
Para calcular la función de distribución de T estudiaremos dos eventos: A := {T > t} (el
sistema funciona hasta el momento t) y B := {t < T ≤ t + dt} (el sistema sufre una falla en De (26), (27) y (28) resulta que
el intervalo de tiempo (t, t + dt]). Como B ⊂ A, tenemos que P(B) = P(B ∩ A) y de la regla
del producto se deduce que k
r 1 1 r−k

λk
1− ∼ e−λ . (29)
P(B) = P(B|A)P(A). (2) k n n k!
Si la función de distribución de T admite derivada continua, salvo términos de segundo orden

que se pueden despreciar, la probabilidad del evento B se puede expresar en la forma
P(B) = P (t < T ≤ t + dt) = FT (t + dt) − FT (t) = FT′ (t)dt. (3)
4.2. Algunas distribuciones relacionadas con la estadı́stica de Bose-Einstein
r+n−1

La probabilidad del evento A se puede expresar en la forma Se distribuyen r partı́culas indistinguibles en n celdas y cada una de las n−1 configu-
raciones tiene probabilidad 1/ r+n−1

n−1 .
P(A) = P(T > t) = 1 − P(T ≤ t) = 1 − FT (t). (4)
Finalmente, la probabilidad condicional P(B|A) se expresa mediante la función intensidad de 4.2.1. Cantidad de partı́culas por celda
fallas λ(t): Cantidad de partı́culas en una celda especı́fica. Para calcular la probabilidad, pBE (k),
P(B|A) = λ(t)dt (5) de que una celda especı́fica contenga exactamente k partı́culas (k = 0, 1, . . . , r) fijamos k de
los r ceros y 1 de los n − 1 unos para representar que hay k partı́culas en la urna especı́fica.
Sustituyendo las expresiones (3)-(5) en la fórmula (2) obtenemos, después de dividir ambos La cantidad de configuraciones distintas que pueden formarse con los restantes r − k ceros y
miembros por dt, una ecuación diferencial de primer orden para FT (t) n − 2 unos es r−k+n−2

. Resulta que
n−2
FT′ (t) = λ(t)(1 − FT (t)). (6)
r − k + n − 2 r + n − 1 −1

Debido a que la duración del servicio del sistema no puede ser negativa, el evento {T ≤ 0} es pBE (k) = . (30)
n−2 n−1
imposible. En consecuencia, FT (0) = 0. Integrando la ecuación diferencial (6) con la condición
inicial F (0) = 0, obtenemos 2 Cantidad de partı́culas más probable en una celda especı́fica. Cuando n > 2 la
Z t
cantidad más probable de partı́culas en una celda especı́fica es 0 o más precisamente pBE (0) >

FT (t) = 1 − exp − λ(s)ds . (7) pBE (1) > · · · .
0
2
Demostración. (Ejercicio.)
FT′ (t) d
FT′ (t) = λ(t)(1 − FT (t)) ⇐⇒ = λ(t) ⇐⇒ log(1 − FT (t)) = −λ(t)
1 − FT (t) dt
Z t „ Z t «
⇐⇒ log(1 − FT (t)) = − λ(s)ds + C ⇐⇒ FT (t) = 1 − exp − λ(s)ds + C .
0 0
Usando que FT (0) = 0 se deduce que C = 0.
4 33
4.2.2. Forma lı́mite: la distribución de Geométrica 1. Variables aleatorias
Forma lı́mite. Si n → ∞ y r → ∞ de modo que la cantidad promedio λ = r/n de partı́culas Sea (Ω, A, P) un espacio de probabilidad. Una variable aleatoria sobre Ω es una función
por celda se mantiene constante, entonces X : Ω → R tal que para todo x ∈ R
λk
pBE (k) → . {X ≤ x} := {ω ∈ Ω : X(ω) ≤ x} ∈ A,
(1 + λ)k+1
Dicho en palabras, la forma lı́mite de la estadı́stica de Bose-Einstein es la distribución ge- i.e., para todo x ∈ R el evento {X ≤ x} tiene asignada probabilidad. La función de distribu-
1
ométrica de parámetro 1+λ definida por ción FX : R → [0, 1] de la variable aleatoria X se define por
k FX (x) := P(X ≤ x).
1 1
p(k) := 1 − , k = 0, 1, 2, . . .
1+λ 1+λ
Cálculo de probabilidades. La función de distribución resume (y contiene) toda la in-
Demostración. Primero observamos que: formación relevante sobre de la variable aleatoria. Para ser más precisos, para cada pareja de
números reales a < b vale que 1
r − k + n − 2 r + n − 1 −1

(r − k + n − 2)! (n − 1)!r!
= P(a < X ≤ b) = FX (b) − FX (a). (1)
n−2 n−1 (n − 2)!(r − k)! (r + n − 1)!
(n − 1)! r! (r − k + n − 2)!
= . (31)
(n − 2)! (r − k)! (r + n − 1)!
Reemplazando en el lado derecho de (31) r = λn obtenemos: Ejemplos
(n − 1)! (λn)! (λn − k + n − 2)! Ejemplo 1.1 (Dado equilibrado). Sea X el resultado del lanzamiento de un dado equilibrado.
(32) Los posibles valores de X son 1, 2, 3, 4, 5, 6. Para cada k ∈ {1, 2, 3, 4, 5, 6} la probabilidad de
(n − 2)! (λn − k)! (λn + n − 1)!
que X tome el valor k es 1/6.
Para estimar los factores que intervienen en (32) utilizamos la fórmula de Stirling n! ∼
√ 1 Sea x ∈ R. Si x < 1 es evidente que P(X ≤ x) = 0. Si k ≤ x < k + 1 para algún
2π nn+ 2 e−n : k ∈ {1, 2, 3, 4, 5} la probabilidad del evento {X ≤ x} es la probabilidad de observar un valor
1
" n−1 #−1 menor o igual que k y en consecuencia, P(X ≤ x) = k/6. Finalmente, si x ≥ 6 es evidente
(n − 1)n−1+ 2 e−n+1 −1 1
1 ∼ (n − 2)e 1 − que P(X ≤ x) = 1.
(n − 2)n−2+ 2 e−n+2 n−1
∼ n − 2 ∼ n, (33) 1
1
" λn #−1
(λn)λn+ 2 e−λn k −k k 5/6
1 ∼ (λn − k) e 1−
(λn − k)λn−k+ 2 e−λn+k λn 4/6
3/6
k k k
∼ (λn − k) ∼ λ n , (34)
2/6
λn−k+n−2+ 21
(λn − k + n − 2) e−λn+k−n+2
1 ∼ (λn − k + n − 2)−k−1 ek+1 1/6
(λn + n − 1)λn+n−1+ 2 e−λn−n+1

λn+n−1
k+1 0 1 2 3 4 5 6 x
× 1−
λn + n − 1
∼ (λn − k + n − 2)−k−1 Figura 1: Gráfico de la función de distribución del resultado de lanzar un dado equilibrado.
1
∼ . (35) Por lo tanto, la función de distribución de X se puede expresar del siguiente modo
(1 + λ)k+1 nk+1
6
De (31), (32), (33), (34) y (35) resulta que X 1
FX (x) = 1{k ≤ x}.

r − k + n − 2 r + n − 1 −1

λk 6
k=1
∼ . (36)
n−2 n−1 (1 + λ)k
1
Basta observar que {X ≤ a} ⊂ {X ≤ b} y usar las propiedades de la probabilidad. De la igualdad
{a < X ≤ b} = {X ≤ b} \ {X ≤ a} se deduce que P(a < X ≤ b) = P(X ≤ b) − P(X ≤ a) = FX (b) − FX (a).
34 3
Índice Ejercicios adicionales
1. Variables aleatorias 3 12. Considerando la estadı́stica de Maxwell-Boltzmann para la distribución aleatoria de r

1.1. Propiedades de la función de distribución . . . . . . . . . . . . . . . . . . . . 6 partı́culas en n celdas demostrar que la cantidad de de partı́culas más probable en una celda
1.2. Clasificación de variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . 7 determinada es la parte entera de r+1
n .
1.3. Cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4. Construcción de variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . 13 13. Considerando la estadı́stica de Bose-Einstein para la distribución aleatoria de r partı́culas
1.5. Función de distribución empı́rica e histogramas . . . . . . . . . . . . . . . . . 17 (indistinguibles) en n > 2 celdas demostrar que la cantidad de de partı́culas más probable en
una celda determinada es 0.
2. Variables truncadas 21
2.1. Perdida de memoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2. Caracterización cualitativa de la distribución exponencial . . . . . . . . . . . 23 4.3. Tiempos de espera
2.3. Dividir y conquistar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Consideramos una vez más el experimento conceptual de ubicar aleatoriamente partı́culas
3. Bibliografı́a consultada 24 (distinguibles) en n celdas. Solo que ahora no fijamos la cantidad r de partı́culas y ubicamos
las partı́culas una por una hasta que ocurra alguna situación prescrita. Analizaremos dos
situaciones:
(i) Ubicar partı́culas hasta que alguna se ubique en una celda ocupada previamente.
(ii) Fijada una celda, ubicar partı́culas hasta que alguna ocupe la celda.
Situación (i). Usamos sı́mbolos de la forma (j1 , j2 , . . . , jr ) para indicar que la primera, la
segunda,... y la r-ésima partı́cula están ubicadas en las celdas j1 , j2 , . . . , jr y que el proceso
culmina en el paso r. Esto significa que las ji son enteros entre 1 y n; que las j1 , j2 , . . . , jr−1
son todas diferentes y que jr es igual a una de ellas. Toda configuración de ese tipo representa
un punto muestral. Los posibles valores de r son 2, 3, . . . , n + 1.
Para un r fijo el conjunto de todos los puntos muestrales (j1 , j2 , . . . , jr ) representa el
evento que el proceso termina en el r-ésimo paso. Los números j1 , j2 , . . . , jr−1 pueden elegirse
de (n)r−1 formas diferentes; jr podemos elegir uno de los r − 1 números j1 , j2 , . . . , jr−1 . Por
lo tanto la probabilidad de que el proceso termine en el r-ésimo paso es
(n)r−1 (r − 1)
pr = . (37)
nr
Situación (ii). Usamos sı́mbolos de la forma (j1 , j2 , . . . , jr ) para indicar que la primera, la
segunda,... y la r-ésima partı́cula están ubicadas en las celdas j1 , j2 , . . . , jr y que el proceso
culmina en el paso r. Las r-uplas (j1 , j2 , . . . , jr ) están sujetas a la condición de que los números
j1 , j2 , . . . , jr−1 son diferentes de un número prescrito a ≤ n, y jr = a.
Para un r fijo el conjunto de todos los puntos muestrales (j1 , j2 , . . . , jr ) representa el
evento que el proceso termina en el r-ésimo paso. Los números j1 , j2 , . . . , jr−1 pueden elegirse
de (n − 1)r−1 formas diferentes; jr debe ser a. Por lo tanto la probabilidad de que el proceso
termine en el r-ésimo paso es
(n − 1)r−1
pr = . (38)
nr
2 35
5. Bibliografı́a consultada
Para redactar estas notas se consultaron los siguientes libros:
1. Bertsekas, D. P., Tsitsiklis, J. N.: Introduction to Probability. M.I.T. Lecture Notes. Variables aleatorias: nociones básicas
(2000) (Borradores, Curso 23)
2. Brémaud, P.: An Introduction to Probabilistic Modeling. Springer, New York. (1997)
3. Durrett, R. Elementary Probability for Applications. Cambridge University Press, New Sebastian Grynberg
York. (2009)
20 de marzo 2013
4. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 1. John
Wiley & Sons, New York. (1957)
5. Ferrari, P.: Passeios aleatórios e redes eletricas. Instituto de Matemática Pura e Apli-
cada. Rio de Janeiro. (1987)
6. Grinstead, C. M. & Snell, J. L. Introduction to Probability. American Mathematical

Society. (1997)
7. Kolmogorov, A. N.: Foundations of the Theory of Probability. Chelsea Publishing Co.,

New York. (1956)
8. Kolmogorov, A. N.: The Theory of Probability. Mathematics. Its Content, Methods,

and Meaning. Vol 2. The M.I.T. Press, Massachusetts. (1963) pp. 229-264.
9. Meester, R.: A Natural Introduction to Probability Theory. Birkhauser, Berlin. (2008)
10. Meyer, P. L.: Introductory Probability and Statistical Applications. Addison-Wesley,

Massachusetts. (1972)
11. Ross, S. M: Introduction to Probability and Statistics foe Engineers and Scientists.
Elsevier Academic Press, San Diego. (2004)
12. Skorokhod, A. V.: Basic Principles and Applications of Probability Theory. Springer-
Verlag, Berlin. (2005)
13. Soong, T. T.: Fundamentals of Probability and Statistics for Engineers. John Wiley &
Sons Ltd. (2004)
14. Stoyanov, J.: Counterexamples in Probability. John Wiley & Sons. (1997)
... el único héroe válido es el héroe “en grupo”,

nunca el héroe individual, el héroe solo.
(Héctor G. Oesterheld)
36 1
1. Bertsekas, D. P., Tsitsiklis, J. N.: Introduction to Probability. M.I.T. Lecture Notes. Probabilidad Condicional, Independencia Estocástica
(2000) Algunos modelos probabilı́sticos
2. Brémaud, P.: An Introduction to Probabilistic Modeling. Springer, New York. (1997) (Borradores, Curso 23)
3. Durrett, R. Elementary Probability for Applications. Cambridge University Press, New
York. (2009) Sebastian Grynberg
18-20 de marzo 2013
5. Grinstead, C. M. & Snell, J. L. Introduction to Probability. American Mathematical

Society. (1997)
6. Meester, R.: A Natural Introduction to Probability Theory. Birkhauser, Berlin. (2008)

Massachusetts. (1972)
8. Ross, S. M: Introduction to Probability and Statistics foe Engineers and Scientists.

9. Skorokhod, A. V.: Basic Principles and Applications of Probability Theory. Springer-

Verlag, Berlin. (2005)
Sons Ltd. (2004)
“No importa lo que yo piense.

Es lo que tú piensas lo que es relevante.”
(Dr. House)
20 1
Índice Nota Bene.P El método de las masas puntuales
R puede generalizarse de la siguiente forma:
la suma xi se reemplaza por la integral dx y las masas puntuales p(xi ) por una función
1. Probabilidad Condicional 3 ρ(x) denominada densidad de probabilidades. Esta metodologı́a es de uso común en mecánica:
1.1. Probabilidad Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 primero se consideran sistemas con masas puntuales discretas donde cada punto tiene masa
1.2. Fórmula de probabilidad total . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 finita y después se pasa a la noción de distribución de masa continua, donde cada punto tiene
1.3. Regla de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 masa cero. En el primer caso, la masa total del sistema se obtiene simplemente sumando
las masas de los puntos individuales; en el segundo caso, las masas se calculan mediante
2. Independencia estocástica 10 integración sobre densidades de masa. Salvo por las herramientas técnicas requeridas, no hay
diferencias esenciales entre ambos casos.
3. Modelos discretos 11
Definición 4.4. Una densidad de probabilidades sobre Rn es una función (“más o menos
4. Modelos continuos 14 razonable”) no negativa ρ : Rn → R+ tal que
4.1. Puntos al azar sobre un segmento. La distribución uniforme . . . . . . . . . . 14 Z
4.2. Geometrı́a y probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 ρ(x) dx = 1.
4.3. Paradoja de Bertrand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 Rn
4.4. De las masas puntuales a la masa continua . . . . . . . . . . . . . . . . . . . 18

Masa continua. Tomamos una densidad de probabilidades ρ : Rn → R+ y para cada
5. Bibliografı́a consultada 20 subconjunto A ⊂ Rn (“más o menos razonable”) y definimos P(A) como la integral de la
densidad ρ(x) sobre el conjunto A:
Z
P(A) := ρ(x)dx
A
Ejemplo 4.5 (Gaussiana). La función ρ : R2 → R+ definida por

2
x + y2

1
ρ(x, y) = exp −
2π 2
es una densidad de probabilidades sobre R2 denominada gaussiana bidimensional. En efecto,
2
x + y2
ZZ ZZ
2πρ(x, y)dxdy = exp − dxdy
R2 2 2
ZRZ
exp −(x2 + y 2 ) dxdy

= 2
R2
Z 2π Z ∞
2
= 2 e−ρ ρ dρ dθ
0 0
Z 2π Z ∞
2
= e−ρ 2ρ dρ dθ
0 0
= 2π. (13)
Nota Bene. Observando con cuidado las identidades (13) se puede ver que
Z
2 √
e−x /2 dx = 2π.
R
Por lo tanto, la función ϕ : R → R+ definida por

1 2
ϕ(x) = √ e−x /2
2π
es una densidad de probabilidades sobre R.
2 19
Segundo modelo. Sea Ω2 el cı́rculo de radio 1, Ω2 = {(x, y) ∈ R2 : x2 + y 2 = 1}, con la 1. Probabilidad Condicional
σ-álgebra A de los “subconjuntos cuya longitud está definida”. Para cada A ∈ A,
1.1. Probabilidad Condicional
longitud(A) longitud(A)
P2 (A) = = .
longitud(Ω)) 2π Sea (Ω, A, P) un espacio de probabilidad.
C y D se construyen del siguiente modo: Se fija el punto C; con la ley P2 se sortea un Definición 1.1 (Probabilidad condicional). Sea A ⊂ Ω un evento de probabilidad positiva.
punto ω sobre el cı́rculo de radio 1 y se pone D = ω. La longitud √ de CD es una una Para cada evento B definimos
función de ω que llamaremos ℓ(ω). El conjunto {ω : ℓ(ω)) ≥ 3} es el segmento del
cı́rculo determinado dos vértices del triángulo equilátero inscripto en el cı́rculo, a saber: P(B ∩ A)
P(B|A) := . (1)
los del lado opuesto al vértice C. Por lo tanto, P(A)
√ 2π/3 1 La cantidad definida en (1) se llama la probabilidad condicional de B dado que ocurrió A.
P2 (ℓ(ω) ≥ 3) = = .
2π 3
Nota Bene (La probabilidad condicional induce una medida de probabilidad sobre
Tercer modelo. Sea Ω3 el intervalo [0, 1] con la σ-álgebra A de los “subconjuntos cuya
los eventos aleatorios). Valen las siguientes propiedades:
longitud está definida”. Para cada A ∈ A,
P3 (A) = longitud(A). 1. Para cada B ∈ A, P(B|A) ≥ 0;
C y D se construyen del siguiente modo: se sortea un punto ω sobre el intervalo [0, 1] 2. P(Ω|A) = 1;
del eje x y CD es la cuerda perpendicular al eje x que pasa por ω. Es claro que,
√ 3. Si los eventos B y C no tienen elementos en común, entonces
ℓ(ω) ≥ 3 ⇐⇒ ω ∈ [1/2, 1].
P(B ∪ C|A) = P(B|A) + P(C|A).
Por lo tanto, la tercer respuesta es 1/2.
T∞
4. Para cada sucesión decreciente de eventos B1 ⊃ B2 ⊃ · · · tal que n=1 Bn = ∅ vale que
Nota Bene. Obtuvimos 3 respuestas diferentes: 1/4, 1/3 y 1/2. Sin embargo, no hay porque lı́mn→∞ P(Bn |A) = 0.
sorprenderse debido a que los modelos probabilı́sticos correspondientes a cada respuesta son
diferentes. Cuál de los tres es el “bueno” es otro problema. El modelo correcto depende Comparando las propiedades 1-4 con los axiomas I-IV, se concluye que la función P(·|A) :
del mecanismo usado para dibujar la cuerda al azar. Los tres mecanismos anteriores son A → R es una medida de probabilidad sobre los eventos aleatorios. Por lo tanto, todos los
puramente intelectuales, y muy probablemente, no corresponden a ningún mecanismo fı́sico. resultados generales referidos a la propiedades de P(·) también valen para la probabilidad
Para discriminar entre modelos probabilı́sticos en competencia se debe recurrir al análisis condicional P(·|A).
estadı́stico que esencialmente se basa en dos resultados de la Teorı́a de Probabilidad: la ley
Ejemplo 1.2. Se lanza un dado equilibrado. Sabiendo que el resultado del dado no superó al
fuerte de los grandes números y el teorema central del lı́mite.
4, cuál es la probabilidad condicional de haber obtenido un 3? Denotando mediante A al
evento “el resultado no supera al 4” y mediante B el evento “el resultado es 3”. Tenemos que
4.4. De las masas puntuales a la masa continua
P(A) = 4/6, P(B) = 1/6 y P(A ∩ B) = P(A) = 1/6. Ası́
Para concluir está sección mostraremos un par de métodos para construir medidas de
probabilidad sobre Rn . P(B ∩ A) 1/6 1
P(B|A) = = = ,
P(A) 4/6 4
Masas puntuales. Tomamos una sucesión de puntos {x1 , x2 , . . . } en Rn y una sucesión de lo que intuitivamente tiene sentido (¿por qué?).
números no negativos {p(x1 ), p(x2 ), . . . } tales que
∞
X Probabilidad compuesta. De la definición de la probabilidad condicional del evento B
p(xi ) = 1 dado que ocurrió el evento A resulta inmediatamente la siguiente fórmula
i=1
y para cada A ⊂ Rn definimos P(A) como la suma de las “masas puntuales”, p(xi ), de los P(A ∩ B) = P(B|A)P(A). (2)
puntos xi contenidos en A:
X denominada regla del producto.
P(A) := p(xi ). El siguiente Teorema generaliza la regla del producto (2) y se obtiene por inducción.
xi ∈A
18 3
A1 ∩ A2 ∩ A3 ∩ni=1 Ai Observando la Figura 6 está claro que el área del evento A se obtiene restando al área del
cuadrado de lado L el área del cuadrado de lado L/2:
n−1
P(A1 ) P(A2 |A1 ) P(A3 |A2 ∩ A1 ) P(An | ∩i=1 Ai ) L2 3
área de A = L2 − = L2 .
A1 A2 A3 An−1 An 4 4
Como el área total del espacio muestral es L2 , resulta que P(A) = 3/4.
Ejemplo 4.3 (Las agujas de Buffon). Una aguja de longitud 2l se arroja sobre un plano
dividido por rectas paralelas. La distancia entre rectas es 2a. Suponiendo que l < a, cuál es
Figura 1: Ilustración de la regla del producto. El evento ∩ni=1 Ai tiene asociada una única la probabilidad de que la aguja intersecte alguna de las rectas?
trayectoria sobre un árbol que describe la historia de un experimento aleatorio realizado por Localizamos la aguja mediante la distancia ρ de su centro a la recta más cercana y el
etapas sucesivas. Las aristas de esta trayectoria corresponden a la ocurrencia sucesiva de los ángulo agudo θ entre la recta y la aguja: 0 ≤ ρ ≤ a y 0 ≤ θ ≤ π/2. El rectángulo determinado
eventos A1 , A2 , . . . , An y sobre ellas registramos la correspondiente probabilidad condicional. por esas desigualdades es el espacio muestral Ω. El evento A = “la aguja interesecta la recta”
El nodo final de la trayectoria corresponde al evento ∩ni=1 Ai y su probabilidad se obtiene multi- ocurre si ρ ≤ l sen θ. La probabilidad de A es el cociente del área de la figura determinada
plicando las probabilidades condicionales registradas a lo largo de las aristas de la trayectoria: por las tres desigualdades 0 ≤ ρ ≤ a, 0 ≤ θ ≤ π/2 y ρ ≤ l sen θ y el área del rectángulo πa/2.
n−1
R π/2
P(∩ni=1 Ai ) = P(A1 )P(A2 |A1 )P(A3 |A2 ∩A1 ) · · · P(An |∩i=1 Ai ). Notar que cada nodo intermedio El área de la figura es 0 l sen(θ)dθ = l. Por lo tanto, la probabilidad de intersección es
a lo largo de la trayectoria también corresponde a un evento intersección y su probabilidad se 2l
obtiene multiplicando las probabilidades condicionales registradas desde el inicio de la trayec- P(A) = . (12)
πa
toria hasta llegar al nodo. Por ejemplo, el evento A1 ∩ A2 ∩ A3 corresponde al nodo indicado
La fórmula (12) indica un método aleatorio para estimar π: arrojar la aguja n veces sobre el
en la figura y su probabilidad es P(A1 ∩ A2 ∩ A3 ) = P(A1 )P(A2 |A1 )P(A3 |A1 ∩ A2 ).
plano y contar n(A) la cantidad de veces que la aguja interesectó alguna recta:
Teorema 1.3 (Regla del producto). Suponiendo que todos los eventos condicionantes tienen π̂ = 2(l/a)(n/n(A)).
probabilidad positiva, tenemos que
n−1
P (∩ni=1 Ai ) = P An ∩i=1 Ai · · · P (A3 |A1 ∩ A2 ) P(A2 |A1 )P(A1 ). (3)
4.3. Paradoja de Bertrand
Ejemplo 1.4. Una urna contiene 5 bolas rojas y 10 bolas negras. Se extraen dos bolas al Se dibuja una cuerda aleatoria CD √ sobre el cı́rculo de radio 1. ¿Cuál es la probabilidad que
azar sin reposición. ¿Cuál es la probabilidad que ambas bolas sean negras? la longitud de la cuerda CD supere 3, la longitud del lado del triángulo equilátero inscripto
Sean N1 y N2 los eventos definidos por “la primer bola extraı́da es negra” y “la segunda en dicho cı́rculo?
bola extraı́da es negra”, respectivamente. Claramente P(N1 ) = 10/15. Para calcular P(N2 |N1 ) Este es un ejemplo de un problema planteado de manera incompleta. La pregunta que
observamos que si ocurrió N1 , entonces solo 9 de las 14 bolas restantes en la urna son negras. debe formularse es la siguiente ¿qué significa elegir “aleatoriamente”? Bertrand propuso tres
Ası́ P(N2 |N1 ) = 9/14 y respuestas diferentes a esa pregunta. Las diferentes respuestas corresponden en realidad a
10 9 3 diferentes modelos probabilı́sticos, i.e., diferentes espacios de probabilidad concretos (Ω, A, P).
P(N2 ∩ N1 ) = P(N2 |N1 )P(N1 ) = · = .
15 14 7 Primer modelo. Sea Ω1 la bola de radio 1, Ω1 = {(x, y) ∈ R2 : x2 + y 2 ≤ 1}, con la
σ-álgebra A de los “subconjuntos cuya área está definida”. Para cada A ∈ A,
área(A) área(A)
1.2. Fórmula de probabilidad total P1 (A) = = .
área(Ω) π
Teorema 1.5 (Fórmula de S probabilidad total). Sea A1 , A2 , . . . una sucesión de eventos dis- C y D se construyen del siguiente modo: usando la ley de distribución P1 se sortea un
juntos dos a dos tal que An = Ω. Para cada B ∈ A vale la siguiente fórmula punto ω sobre la bola de radio 1 y CD es perpendicular al segmento 0ω cuyos extremos
n≥1
son (0, 0) y ω. La longitud
√ de CD es una función de ω que llamaremos ℓ(ω). Queremos
calcular P1 (ℓ(ω) ≥ 3). Notar que
X
P(B) = P(B|An )P(An ), (4)
n≥1 √ 1
ℓ(ω) ≥ 3 ⇐⇒ longitud(0ω) ≥ .
denominada fórmula de probabilidad total 1 . 2
Por lo tanto,
1 √ π − π/4 3
Rigurosamente, P(B|An ) está definida cuando P(An ) > 0, por lo cual en la fórmula (4) interpretaremos P1 (ℓ(ω) ≥ 3) = = .
que P(B|An )P(An ) = 0 cuando P(An ) = 0. π 4
4 17
“Puntos al azar en regiones planas”. Si hacemos abstracción de la forma circular del A∩B
blanco y de la semántica involucrada en el juego de dardos, obtenemos un modelo proba- P(B|A) B
bilı́stico para el experimento conceptual que consiste en “sortear” o elegir un punto al azar A
en una región plana Λ ⊂ R2 de área finita y positiva. El espacio muestral es la región plana,
Ω = Λ, la σ-álgebra de los eventos, A, es la familia de todos los subconjuntos de Λ a los que
se les puede medir el área y la probabilidad de cada evento A es la fracción del área de Λ P(A)
contenida en A. Esto es, P(B c |A) Bc
A ∩ Bc
área(A)
P(A) := . (11)
área(Λ)
Ac ∩ B
Esta forma de asignar probabilidades es la equivalente para el caso continuo de la fórmula
casos favorables sobre casos posibles utilizada en espacios muestrales finitos para modelar P(B|Ac ) B
experimentos aleatorios con resultados equiprobables. P(Ac )
Nota Bene. Si en lugar de elegir un punto al azar dentro del segmento [a, b] elegimos
Ac
dos puntos de manera independiente, el experimento tendrá por resultado un par de números
reales contenidos en [a, b]. El espacio muestral será el cuadrado de lado [a, b], Ω = [a, b] × [a, b]. P(B c |Ac ) Bc
En este espacio la asignación de probabilidades definida en (11) resulta consistente con la Ac ∩ B c
noción de independencia.
Ejemplo 4.2. Se eligen al azar (y en forma independiente) dos puntos x1 y x2 dentro de un Figura 2: Ilustración de la fórmula de probabilidad total. Un experimento de dos
segmento de longitud L. Hallar la probabilidad de que la longitud del segmento limitado por etapas binarias y su correspondiente diagrama de árbol. La primera ramificación (de izquierda
los puntos x1 y x2 resulte menor que L/2. a derecha) se basa en el resultado de la primer etapa del experimento (A o Ac ) y la segunda
en su resultado final (B o B c ). Multiplicando las probabilidades registradas a lo largo de
0000000000000000
0000000000000000000000000000000
1111111111111111111111111111111
1111111111111111 cada trayectoria se obtiene la probabilidad del evento intersección representado por el nodo
L
0000000000000000000000000000000
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111 final. Sumando las probabilidades de las trayectorias que corresponden al evento B se obtiene:
0000000000000000000000000000000
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111 P(B) = P(A ∩ B) + P(Ac ∩ B) = P(B|A)P(A) + P(B|Ac )P(Ac ).
0000000000000000000000000000000
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
L1111111111111111111111111111111
000000000000000000000000000000010
21111111111111111111111111111111
000000000000000000000000000000010 Demostración de la fórmula de probabilidad total. De la identidad de conjuntos
0000000000000000000000000000000
1111111111111111111111111111111
00000000000000000000000000000001010
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
10
 
0000000000000000000000000000000
1111111111111111111111111111111
00000000000000000000000000000001010
1111111111111111111111111111111 B =B∩Ω=B∩
[
An  =
[
(B ∩ An )
0000000000000000000000000000000
1111111111111111111111111111111

0
00000000000000000000000000000001010
1111111111111111111111111111111
L
n≥1 n≥1
2
L
y la σ-aditividad de la medida de probabilidad P se deduce que
∞
Figura 6: La región sombreada corresponde al evento A=“la longitud del segmento limitado
X
P(B) = P(B ∩ An ).
por los puntos x1 y x2 resulte menor que L/2”. n=1
El espacio muestral de este experimento es un cuadrado de lado L que puede representarse Si P(An ) = 0, P(B ∩ An ) = 0 porque B ∩ An ⊂ An . Si P(An ) > 0, entonces P(B ∩ An ) =
en la forma Ω = {(x1 , x2 ) : 0 ≤ x1 ≤ L, 0 ≤ x1 ≤ L}. P(B|An )P(An ).
El evento A=“la longitud del segmento limitado por los puntos x1 y x2 resulte menor que
L/2” puede ocurrir de dos maneras distintas: Nota Bene: Cálculo mediante condicionales. Si se dispone de una colección de eventos
(1) si x1 ≤ x2 , se debe cumplir la desigualdad x2 − x1 < L/2; A1 , A2 , . . . de los cuales uno y solamente uno debe ocurrir, la fórmula de probabilidad total
(2) si x2 < x1 , debe cumplirse la desigualdad x1 − x2 < L/2. (4) permite calcular la probabilidad de cualquier evento B condicionando a saber cuál de los
eventos Ai ocurrió. Más precisamente, la fórmula (4) establece que la probabilidad P(B) es
igual al promedio ponderado de las probabilidades condicionales P(B|Ai ) donde cada término
16 5
se pondera por la probabilidad del evento sobre el que se condicionó. Esta fórmula es útil 1. Definimos A0 como la familia de los intervalos contenidos en Ω de la forma [a, b], [a, b),
debido a que a veces es más fácil evaluar las probabilidades condicionales P(B|Ai ) que calcular (a, b] o (a, b), a ≤ b (notar que A0 no es un álgebra) y definimos P0 : A0 → R de la
directamente la probabilidad P(B). siguiente manera:
Ejemplo 1.6 (Experimentos de dos etapas). La primera etapa del experimento produce P0 (A) := longitud(A) = b − a, si los extremos del intervalo A son a y b.
una partición A1 , A2 , . . . del espacio muestral Ω. La segunda etapa produce el evento B. La
fórmula (4) se utiliza para calcular la probabilidad de B. 2. La familia A1 de todas las uniones finitas de conjuntos disjuntos de A0 es un álgebra
de eventos y la función P1 : A1 → R definida por
Ejemplo 1.7. Una urna contiene 5 bolas rojas y 10 bolas negras. Se extraen dos bolas sin k k
reposición. ¿Cuál es la probabilidad de que la segunda bola sea negra?
X [
P1 (A) := P0 (Ai ), si A = Ai ,
El espacio muestral de este experimento aleatorio se puede representar como las trayecto- i=1 i=1
rias a lo largo de un árbol como se muestra en la Figura 3.
donde A1 , . . . , Ak ∈ A0 y Ai ∩ Aj = ∅ para toda pareja de ı́ndices i 6= j, es una medida
P(ω) de probabilidad (pues satisface los axiomas I-IV).
4/14 ω1 , 4/42 3. El teorema de extensión se ocupa del resto: la medida de probabilidad P1 definida sobre
el álgebra A1 se extiende unı́vocamente a una medida de probabilidad P definida sobre
la σ-álgebra generada por A1 , A := σ(A1 ).
1/3 10/14 ω2 , 10/42
Nota Bene. Esta definición de probabilidad que a cada intervalo A ⊂ [0, 1] le asigna su
respectiva longitud se llama la distribución uniforme sobre el intervalo [0, 1] y constituye una
generalización de la noción de equiprobabilidad sobre la que se basa la definición de Laplace
de la probabilidad para espacios finitos: “casos favorables sobre casos posibles”.
2/3
5/14
ω3 , 10/42
4.2. Geometrı́a y probabilidad
Una construcción completamente análoga a la de la sección anterior permite describir
teóricamente el experimento conceptual, intuitivamente claro, que consiste en elegir un punto
9/14 ω4 , 18/42 al azar dentro de una región plana, Λ ⊂ R2 , de área finita y no nula. Para fijar ideas, se puede
imaginar que la región plana es un blanco sobre el que se arroja un dardo.
Ejemplo 4.1 (Dardos). El juego de dardos consiste en tirar un dardo contra un blanco
Figura 3: Observando el árbol se deduce que la probabilidad de que la segunda bola sea negra
circular. Supongamos que disparamos un dardo (que acertamos al blanco) y observamos dónde
10
es: 13 · 14 + 32 · 14
9
= 23 .
se clavó. Naturalmente, los resultados posibles de este experimento son todos los puntos del
blanco. No se pierde generalidad si se supone que el centro del blanco es el origen de R2 y
Formalmente, el problema se resuelve mediante la fórmula de probabilidad total. Sean Ni
que su radio es 1. En tal caso el espacio muestral de este experimento es
y Ri los eventos definidos por “la i-ésima bola extraı́da es negra” y “la i-ésima bola extraı́da
es roja”, respectivamente (i = 1, 2). Vale que Ω = {(x, y) ∈ R2 : x2 + y 2 ≤ 1}.
10 5 10 9 Intuitivamente, la probabilidad de acertarle a un punto predeterminado (arbitrario) deberı́a
P(N1 ) = , P(R1 ) = , P(N2 |R1 ) = , P(N2 |N1 ) = .
15 15 14 14 ser cero. Sin embargo, la probabilidad de que el dardo se clave en cualquier subconjunto
(“gordo”) A del blanco deberı́a ser proporcional a su área y determinarse por la fracción del
Usando la fórmula de probabilidad total obtenemos
área del blanco contenida en A. En consecuencia, definimos
P(N2 ) = P(N2 ∩ R1 ) + P(N2 ∩ N1 ) área de A área de A
P(A) := = .
= P(N2 |R1 )P(R1 ) + P(N2 |N1 )P(N1 ) área del blanco π
10 1 9 2 28 2 Por ejemplo, si A = {(x, y) : x2 + y 2 ≤ r2 } es el evento que el dardo caiga a distancia r < 1
= · + · = = .
14 3 14 3 42 3 del centro del blanco, entonces
πr2
P(A) = = r2 .
π
6 15
El evento A2 =“ceca en el primer lanzamiento” está dado por todos los elementos de Ω que 1.3. Regla de Bayes
comienzan con T :
Primera versión de la regla de Bayes. Sean A y B dos eventos de probabilidad positiva.
A2 = {T T, T HH, T HT T, T HT HH, . . . },
De la regla del producto (2) y su análoga P(A ∩ B) = P(A|B)P(B) se obtiene la siguiente
y su probabilidad es fórmula importante
P(A2 ) = P(T T ) + P(T HH) + P(T HT T ) + P(T HT HH) + · · · P(B|A)P(A)

P(A|B) = , (5)
1 1 1 1 1 P(B)
= + + + + ··· = .
22 23 24 25 2 que contiene lo esencial del Teorema de Bayes.
¿Cuál es la probabilidad de que el juego termine alguna vez? Si definimos los eventos An :=“el Ejemplo 1.8. Un test de sangre es 95 % efectivo para detectar una enfermedad cuando una
juego termina en la n-ésima jugada”, n ≥ 2, tendremos que el evento “el juego termina alguna persona realmente la padece. Sin embargo, el test también produce un “falso positivo” en el
vez” es la unión disjunta de los eventos A1 , A2 , . . . , y por lo tanto su probabilidad es la suma 1 % de las personas saludables testeadas. Si el 0, 5 % de la población padece la enfermedad,
de las probabilidades de los eventos An . Para cada n ≥ 2 la probabilidad de An es cuál es la probabilidad de que una persona tenga la enfermedad si su test resultó positivo?
2 1 Sea A el evento definido por “la persona testeada tiene la enfermedad” y sea B el evento
P(An ) = = n−1 definido por “el resultado de su test es positivo”. La probabilidad que nos interesa es P(A|B)
2n 2
y se puede calcular de la siguiente manera. Sabemos que
En consecuencia la probabilidad de que el juego termine alguna vez es
P(A) = 0.005, P(Ac ) = 0.995,
X 1 X 1
= = 1.
2n−1 2n P(B|A) = 0.95, P(B|Ac ) = 0.01,
n≥2 n≥1
y usando esa información queremos calcular
P(A ∩ B)
P (A|B) = .
Distribución de Poisson P(B)
Ejemplo 3.5 (Probabilidad de Poisson). Sea λ un número real positivo. Observando que El numerador, P(A ∩ B), se puede calcular mediante la regla del producto
∞
X λn P(A ∩ B) = P(B|A)P(A) = (0.95)(0.005)
eλ = ,
n! y el denominador, P(B), se puede calcular usando la fórmula de probabilidad total
n=0
se deduce que la función p : N0 → R definida por P(B) = P(B|A)P(A) + P(B|Ac )P(Ac ) = (0.95)(0.005) + (0.01)(0.995).
λn Por lo tanto,
p(n) := e−λ , n = 0, 1, 2, . . .
n! P(A ∩ B) P(B|A)P(A) 95
P(A|B) = = = ≈ 0.323.
define una función de probabilidad en Ω = N0 = {0, 1, 2, . . . }, conocida como la distribución P(B) P(B|A)P(A) + P(B|Ac )P(Ac ) 294
de Poisson de intensidad λ.
En otras palabras, sólo el 32 % de aquellas personas cuyo test resultó positivo realmente tienen
la enfermedad.
4. Modelos continuos Teorema 1.9 (Bayes). Sean A1 , A2 , . . . , eventos disjuntos dos a dos y tales que
S
An = Ω.
n≥1
4.1. Puntos al azar sobre un segmento. La distribución uniforme Sea B un evento de probabilidad positiva. Entonces,
Elegir un punto al azar dentro de un segmento de recta de longitud finita es un experi- P(B|An )P(An )
mento conceptual intuitivamente claro. Desde el punto de vista teórico el experimento debe P(An |B) = P , n ≥ 1. (6)
k≥1 P(B|Ak )P(Ak )
describirse mediante un espacio de probabilidad (Ω, A, P).
No se pierde generalidad, si se supone que la longitud del segmento es la unidad y se lo Si los eventos A1 , A2 , . . . se llaman “hipótesis”, la fórmula (6) se considera como la proba-
identifica con el intervalo Ω = [0, 1]. La σ-álgebra de eventos A y la medida de probabilidad bilidad de ocurrencia de la hipótesis An sabiendo que ocurrió el evento B. En tal caso, P(An )
P : A → R se construyen por etapas. es la probabilidad a priori de la hipótesis An y la fórmula (6) para P(An |B) se llama la regla
de Bayes para la probabilidad a posteriori de la hipótesis An .
14 7
Nota Bene. Advertimos al lector que no trate de memorizar la fórmula (6). Matemática- de observar cara y ceca, respectivamente, en cada uno de los lanzamientos. Claramente, p y
mente, solo se trata de una forma especial de escribir la fórmula (5) y de nada más. q deben ser no negativos y
p + q = 1.
Ejemplo 1.10 (Canal de comunicación binario). Un canal de comunicación binario simple
transporta mensajes usando solo dos señales: 0 y 1. Supongamos que en un canal de comu- Suponiendo que cada lanzamiento es independiente de los demás, las probabilidades se mul-
nicación binario dado el 40 % de las veces se transmite un 1; que si se transmitió un 0 la tiplican. En otras palabras, la probabilidad de cada secuencia determinada es el producto
probabilidad de recibirlo correctamente es 0.90; y que si se transmitió un 1 la probabilidad obtenido de reemplazar las letras H y T por p y q, respectivamente. Ası́,
de recibirlo correctamente es 0.95. Queremos determinar
P(H) = p; P(T H) = qp; P(T T H) = qqp; P(T T T H) = qqqp.
(a) la probabilidad de recibir un 1;
(b) dado que se recibió un 1, la probabilidad de que haya sido transmitido un 1; Puede verse que para cada n ∈ N la secuencia formada por n − 1 letras T seguida de la letra
H debe tener probabilidad q n−1 p = (1 − p)n−1 p.
Solución. Consideramos los eventos A=“se transmitió un 1” y B=”se recibió un 1”. La El argumento anterior sugiere la siguiente asignación de probabilidades sobre Ω: para cada
información dada en el enunciado del problema significa que P(A) = 0.4, P(Ac ) = 0.6, n ∈ N, p(n), la probabilidad de que la primera vez que se obtiene cara ocurra en el n-ésimo
P(B|A) = 0.95, P(B|Ac ) = 0.1, P(B c |A) = 0.05, P (B c |Ac ) = 0.90 y se puede representar lanzamiento de la moneda está dada por
en la forma de un diagrama de árbol tal como se indicó en la sección 1.2.
p(n) = (1 − p)n−1 p.
P(A ∩ B) = (0.4)(0.95)
0.95 Como las probabilidades geométricas suman 1 (ver el ejemplo 3.2) al resultado “ceca en todos
B
los tiros” se le debe asignar probabilidad p(∞) = 0. Como el espacio muestral es discreto no
A hay problema en suprimir el punto ∞.
Consideremos el evento A = “se necesitan una cantidad par de tiros para obtener la primer
cara”. Entonces,
0.4
A = {2, 4, 6, 8, . . . },
0.05 Bc
P(A ∩ B c ) = (0.4)(0.05) y
∞ ∞ ∞
X X X X 1
P(A) = p(ω) = p(2k) = q 2k−1 p = pq q 2k = pq
c
P(A ∩ B) = (0.6)(0.1) 1 − q2
ω∈A k=1 k=1 k=0
0.1 B pq q 1−p
0.6 = = = .
(1 − q)(1 + q) 1+q 2−p
Ac
Ejemplo 3.4. Lucas y Monk juegan a la moneda. Lanzan una moneda equilibrada al aire,
0.9 Bc si sale cara, Lucas le gana un peso a Monk; si sale ceca, Monk le gana un peso a Lucas. El
P(Ac ∩ B c ) = (0.6)(0.9) juego termina cuando alguno gana dos veces seguidas.
El espacio muestral asociado a este experimento aleatorio es
Figura 4: Observando el árbol se deduce que la probabilidad de recibir un 1 es P(B) = Ω = {HH, T T, HT T, T HH, HT HH, T HT T, . . . }.
(0.4)(0.95) + (0.6)(0.1) = 0.44. También se deduce que la probabilidad de que haya sido
Como podemos tener secuencias de cualquier longitud de caras y cecas alternadas, el espacio
transmitido un 1 dado que se recibió un 1 es P(A|B) = P(B|A)P(A)
P(B) = (0.4)(0.95)
0.44 = 0.863... muestral es necesariamente infinito.
El evento A1 =“la moneda fue lanzada como máximo tres veces” está dado por todos los
elementos de Ω que tienen longitud menor o igual que tres:
A1 = {HH, T T, HT T, T HH}
y su probabilidad es
1. Los dados de Efron. Se trata de cuatro dados A, B, C, D como los que se muestran en
la Figura 5. 1 1 1 1 3
P(A1 ) = P(HH) + P(T T ) + P(HT T ) + P(T HH) = + + + = .
4 4 8 8 4
8 13
Nombres. La función p : Ω → [0, 1] que asigna probabilidades a los eventos elementales
0 3
ω ∈ Ω se llama función de probabilidad. La función P : A → [0, 1] definida en (10) se llama la
medida de probabilidad inducida por p.
A 4 4 4 4 B 3 3 3 3
Nota Bene 1. De la definición (10) resultan inmediatamente las siguientes propiedades
0 3
(i) Para cada A ∈ A vale que P(A) ≥ 0
(ii) P(Ω) = 1.
(iii) σ-aditividad. Si A1 , A2 , . . . es una sucesión de eventos disjuntos dos a dos, entonces

! 6 1
[∞ X∞
P An = P(An ).
n=1 n=1 C 2 2 2 2 D 5 5 5 1
Nota Bene 2. No se excluye la posibilidad de que un punto tenga probabilidad cero. Esta 6 1
convención parece artificial pero es necesaria para evitar complicaciones. En espacios discretos
probabilidad cero se interpreta como imposibilidad y cualquier punto muestral del que se sabe
que tiene probabilidad cero puede suprimirse impunemente del espacio muestral. Sin embargo,
frecuentemente los valores numéricos de las probabilidades no se conocen de antemano, y se Figura 5: Dados de Efron
requieren complicadas consideraciones para decidir si un determinado punto muestral tiene o
no probabilidad positiva. Las reglas del juego son las siguientes: juegan dos jugadores, cada jugador elige un dado,
se tiran los dados y gana el que obtiene el número más grande.
Distribución geométrica
(a) Calcular las siguientes probabilidades: que A le gane a B; que B le gane a C; que C le
Ejemplo 3.2 (Probabilidad geométrica). Sea p un número real tal que 0 < p < 1. Observando gane a D; que D le gane a A.
que
∞ (b) ¿Cuál es la mejor estrategia para jugar con los dados de Efron?.
X 1
(1 − p)n−1 = , (c) Lucas y Monk jugaran con los dados de Efron eligiendo los dados al azar. Calcular las
p
n=1
siguientes probabilidades:
se deduce que la función p : N → R definida por
que Lucas pierda la partida si Monk obtiene un 3,
p(n) := (1 − p)n−1 p, n = 1, 2, . . .
que Lucas gane la partida si le toca el dado A.
define una función de probabilidad en Ω = N = {1, 2, 3, . . . } que se conoce por el nombre de
distribución geométrica de parámetro p. Esta función de probabilidades está ı́ntimamente rela- (d) ¿Qué ocurre con el juego cuando los dados se eligen al azar?
cionada con la cantidad de veces que debe repetirse un experimento aleatorio para que ocurra
(e) ¿Qué ocurre con el juego si a un jugador se le permite elegir un dado y el otro debe elegir
un evento A (prefijado de antemano) cuya probabilidad de ocurrencia en cada experimento
al azar uno entre los restantes tres?
individual es p.
(f) Lucas y Monk jugaron con los dados de Efron, eligiendo los dados al azar. Lucas ganó,
Ejemplo 3.3. El experimento consiste en lanzar una moneda tantas veces como sea necesario ¿cuál es la probabilidad de que le haya tocado el dado C?
hasta que salga cara. El resultado del experimento será la cantidad de lanzamientos necesarios
hasta que se obtenga cara. Los resultados posibles son
Ω = {1, 2, 3, . . . } ∪ {∞}.
El sı́mbolo ∞ está puesto para representar la posibilidad de que todas las veces que se lanza
la moneda el resultado obtenido es ceca. El primer problema que debemos resolver es asignar
probabilidades a los puntos muestrales. Una forma de resolverlo es la siguiente. Cada vez que se
arroja una moneda los resultados posibles son cara (H) o ceca (T ). Sean p y q la probabilidad
12 9
2. Independencia estocástica Teorema 2.4. Sean A1 , A2 , . . . An eventos tales que todas las probabilidades P(Ai ) son
positivas. Una condición necesaria y suficiente para la mutua independencia de los eventos
Definición 2.1 (Independencia estocástica). Los eventos A1 , A2 , . . . , An son mutuamente A1 , A2 , . . . , An es la satisfacción de las ecuaciones
independientes si satisfacen las siguientes 2n − n − 1 ecuaciones:
P(Ai |Ai1 ∩ Ai2 ∩ · · · ∩ Aik ) = P(Ai ) (9)
P(Ai1 ∩ Ai2 ∩ · · · ∩ Aim ) = P(Ai1 )P(Ai2 ) · · · P(Aim ), (7)
cualesquiera sean i1 , i2 , . . . , ik , i distintos dos a dos.
donde m = 1, 2, . . . , n, y 1 ≤ i1 < i2 < . . . < im ≤ n.
Nota Bene 1. Para n = 2 el sistema de ecuaciones (7) se reduce a una condición: dos Ejercicios adicionales
eventos A1 y A2 son independientes si satisfacen la ecuación
2. Se tira una moneda honesta n veces. Sea A el evento que se obtenga al menos una cara y sea
P(A1 ∩ A2 ) = P(A1 )P(A2 ). (8)
B el evento que se obtengan al menos una cara y al menos una ceca. Analizar la independencia
Ejemplo 2.2. de los eventos A y B.
(a) Se extrae un naipe al azar de un mazo de naipes de poker. Por razones de simetrı́a
esperamos que los eventos “corazón y “As” sean independientes. En todo caso, sus proba- 3. Andrés, Francisco, Jemina e Ignacio fueron amigos en la escuela primaria. Se reencon-
bilidades son 1/4 y 1/13, respectivamente y la probabilidad de su realización simultánea es traron en el curso 23 (PyE 61.09) de la FIUBA y se reunieron de a parejas a charlar. Como
1/52. resultado de esas charlas, cada pareja renovó su amistad con probabilidad 1/2 y no lo hizo
(b) Se arrojan dos dados. Los eventos “as en el primer dado” y “par en el segundo” son con probabilidad 1/2, independientemente de las demás. Posteriormente, Andrés recibió un
independientes pues la probabilidad de su realización simultánea, 3/36 = 1/12, es el producto rumor y lo transmitió a todas sus amistades. Suponiendo que cada uno de los que reciba
de sus probabilidades respectivas: 1/6 y 1/2. un rumor lo transmitirá a todas sus amistades, cuál es la probabilidad de que Ignacio haya
(c) En una permutación aleatoria de las cuatro letras a, b, c, d los eventos “a precede a b” recibido el rumor transmitido por Andrés?.
y “c precede a d” son independientes. Esto es intuitivamente claro y fácil de verificar.
Nota Bene 2. Para n > 2, los eventos A1 , A2 , . . . , An pueden ser independientes de a pares: 3. Modelos discretos
P(Ai ∩ Aj ) = P(Ai )P(Aj ), 1 ≤ i < j ≤ n, pero no ser mutuamente independientes.
Ejemplo 2.3. Sea Ω un conjunto formado por cuatro elementos: ω1 , ω2 , ω3 , ω4 ; las correspon- Los espacios muestrales más simples son aquellos que contienen un número finito, n,
dientes probabilidades elementales son todas iguales a 1/4. Consideramos tres eventos: de puntos. Si n es pequeño (como en el caso de tirar algunas monedas), es fácil visualizar
el espacio. El espacio de distribuciones de cartas de poker es más complicado. Sin embargo,
A1 = {ω1 , ω2 }, A2 = {ω1 , ω3 }, A3 = {ω1 , ω4 }. podemos imaginar cada punto muestral como una ficha y considerar la colección de esas fichas
Es fácil ver que los eventos A1 , A2 , A3 son independientes de a pares, pero no son mutuamente como representantes del espacio muestral. Un evento A se representa por un determinado
independientes: conjunto de fichas, su complemento Ac por las restantes. De aquı́ falta sólo un paso para
imaginar una bol con infinitas fichas o un espacio muestral con una sucesión infinita de
P(A1 ) = P(A2 ) = P(A3 ) = 1/2, puntos Ω = {ω1 , ω2 , ω3 , . . . }.
P(A1 ∩ A2 ) = P(A1 ∩ A3 ) = P(A2 ∩ A3 ) = 1/4 = (1/2)2 , Definición 3.1. Un espacio muestral se llama discreto si contiene finitos o infinitos puntos
P(A1 ∩ A2 ∩ A3 ) = 1/4 6= (1/2)3 . que pueden ordenarse en una sucesión ω1 , ω2 , . . . .
Sean Ω un conjunto infinito numerable y A la σ-álgebra de todos los subconjuntos con-
tenidos en Ω. Todos los espacios de probabilidad que se pueden construir sobre (Ω, A) se
Independencia y probabilidades condicionales. Para introducir el concepto de inde- obtienen de la siguiente manera:
pendencia no utilizamos probabilidades condicionales. Sin embargo, sus aplicaciones dependen 1. Tomamos una sucesión de números no negativos {p(ω) : ω ∈ Ω} tal que
generalmente de las propiedades de ciertas probabilidades condicionales.
X
p(ω) = 1.
Para fijar ideas, supongamos que n = 2 y que las probabilidades de los eventos A1 y A2 ω∈Ω
son positivas. En tal caso, los eventos A1 y A2 son independientes si y solamente si
2. Para cada evento A ∈ A definimos P(A) como la suma de las probabilidades de los
P(A2 |A1 ) = P(A2 ) y P(A1 |A2 ) = P(A1 ). eventos elementales contenidos en A:
X
El siguiente Teorema expresa la relación general entre el concepto de independencia y las P(A) := p(ω). (10)
probabilidades condicionales. ω∈A
10 11
Índice (Sugerencia. Considerar sucesiones de eventos Bn = {X ≤ −n} y Cn = {X ≤ n}, n ∈ N, y
utilizar el axioma de continuidad de la medida de probabilidad P.)
1. Esperanza 2
(b) Mostrar que
1.1. Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
lı́m FX (x) = P(X < x0 ).
1.2. Cálculo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 x↑x0
1.3. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 (Sugerencia. Observar que si x ↑ x0 , entonces {X ≤ x} ↑ {X < x0 } y utilizar el axioma de
1.4. Dividir y conquistar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 continuidad de la medida de probabilidad P.)
2. Varianza 12
2.1. Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2. Cálculo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.2. Clasificación de variables aleatorias
2.3. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
En todo lo que sigue, X designa una variable aleatoria definida sobre un espacio de
3. Covarianza 14 probabilidad (Ω, A, P) y FX (x) := P(X ≤ x) su función de distribución.
3.1. Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2. Cálculo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 Nota Bene. Al observar el gráfico de una función de distribución lo primero que llama la
3.3. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 atención son sus saltos y sus escalones.
3.4. Varianza de sumas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Átomos. Diremos que a ∈ R es un átomo de FX (x) si su peso es positivo: P(X = a) =
4. Algunas desigualdades 17 FX (a) − FX (a−) > 0.
4.1. Cauchy-Schwartz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 El conjunto de todos los átomos de FX (x): A = {a ∈ R : FX (a) − FX (a−) > 0}, coincide
4.2. Chebyshev . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 con el conjunto de todos los puntos de discontinuidad de FX (x). El peso de cada átomo
coincide con la longitud del salto dado por la función de distribución en dicho átomo. En
5. La ley débil de los grandes números 20 consecuencia, existen a lo sumo un átomo de probabilidad > 12 , a lo sumo dos átomos de
probabilidad > 31 , etcétera. Por lo tanto, es posible reordenar los átomos en una sucesión
6. Distribuciones particulares 22
a1 , a2 , . . . tal que P(X = a1 ) ≥ P(X = a2 ) ≥ · · · . En otras palabras, existen a lo sumo
7. Bibliografı́a consultada 28 numerables átomos.
La propiedad de σ-aditividad de la medidaP de probabilidad P implica que el peso total
del conjunto A no puede exceder la unidad: a∈A P(X = a) ≤ 1.
1. Esperanza
Definición 1.6 (Variables discretas). Diremos que X es una variable aleatoria discreta si
La información relevante sobre el comportamiento de una variable aleatoria está contenida X
en su función de distribución. Sin embargo, en la práctica, es útil disponer de algunos números P(X = a) = 1.
a∈A
representativos de la variable aleatoria que resuman esa información.
En tal caso, la función pX : A → R definida por pX (x) = P(X = x) se denomina la función
Motivación Se gira una rueda de la fortuna varias veces. En cada giro se puede obtener de probabilidad de X.
alguno de los siguiente números x1 , x2 , . . . , xk -que representan la cantidad de dinero que se
obtiene en el giro- con probabilidades p(x1 ), p(x2 ), . . . , p(xk ), respectivamente. ¿Cuánto dinero Escalones. Sea X una variable aleatoria discreta. Si a1 < a2 son dos átomos consecutivos,
se “espera” obtener como recompensa “por cada giro”? Los términos “espera” y “por cada entonces FX (x) = FX (a1 ) para todo x ∈ (a1 , a2 ). En otras palabras, la función de distribución
giro” son un tanto ambiguos, pero se pueden interpretar de la siguiente manera. de una variable aleatoria discreta debe ser constante entre saltos consecutivos.
Si la rueda se gira P
n veces y n(xi ) es la cantidad de veces que se obtieneP xi , la cantidad total Si no lo fuera, deberı́an existir dos números x1 < x2 contenidos en el intervalo (a1 , a2 )
de dinero recibida es ki=1 n(xi )xi y la cantidad media por giro es µ = n1 ki=1 n(xi )xi . Inter- tales que FX (x1 ) < FX (x2 ). En tal caso,
pretando las probabilidades como frecuencias relativas obtenemos que para n suficientemente X
grande la cantidad de dinero que se “espera” recibir “por cada giro” es P (X ∈ A ∪ (x1 , x2 ]) = P(X ∈ A) + P (x1 < X ≤ x2 ) = P(X = a) + FX (x2 ) − FX (x1 )
a∈A
k k k
1X X n(xi ) X = 1 + FX (x2 ) − FX (x1 ) > 1.
µ= xi n(xi ) = xi ≈ xi p(xi ).
n n
i=1 i=1 i=1 lo que constituye un absurdo.
2 7
Definición 1.7 (Variables continuas). Diremos que X es una variable aleatoria continua si
su función de distribución es continua.
Definición 1.8 (Variables mixtas). Diremos que X es una variable aleatoria mixta si no es
continua ni discreta. Variables aleatorias: momentos
Definición 1.9 (Variables absolutamente continuas). Diremos que X es absolutamente con- (Borradores, Curso 23)
tinua si existe una función (medible) fX : R → R+ , llamada densidad de X, tal que cua-
lesquiera sean −∞ ≤ a < b < ∞ vale que Sebastian Grynberg
Z b
P(a < X ≤ b) = fX (x) dx. (11) 27 de marzo 2013
a
En particular, para cada x ∈ R, vale que

Z x
FX (x) = P(X ≤ x) = fX (t) dt. (12)
−∞
Nota Bene. Notar que de (12) se deduce que

Z ∞
fX (x)dx = 1.
−∞
Aplicando en (12) el teorema Fundamental del Cálculo Integral, se obtiene que si X es abso-
lutamente continua, FX (x) es una función continua para todo x, y su derivada es fX (x) en
todos los x donde fX es continua.
Como la expresión “absolutamente continua” es demasiado larga, se suele hablar simple-
mente de “distribuciones continuas”. Sin embargo, hay que tener en cuenta que el hecho de
que FX sea una función continua, no implica que la distribución de X sea absolutamente con-
tinua: hay funciones monótonas y continuas, que sin embargo no son la primitiva de ninguna
función. (Para más detalles consultar el ejemplo sobre distribuciones tipo Cantor que está en
Feller Vol II, p.35-36).
Interpretación intuitiva de la densidad de probabilidad. Sea X una variable aleatoria

absolutamente continua con función densidad fX (x) continua. Para cada ǫ > 0 pequeño y
para x ∈ R vale que
Z x+ε/2
P (x − ǫ/2 < X ≤ x + ǫ/2) = fX (t) dt ≈ fX (x)ǫ.
x−ǫ/2
Dicho en palabras, la probabilidad de que el valor de X se encuentre en un intervalo de

longitud ǫ centrado en x es aproximadamente fX (x)ǫ.
Denme un punto de apoyo y moveré el mundo
Ejemplos (Arquı́medes de Siracusa)
Ejemplo 1.10. El resultado, X, del lanzamiento de un dado equilibrado (ver Ejemplo 1.1) es
una variable aleatoria discreta. Esto resulta evidente de observar que el gráfico de la función
de distribución de X (ver Figura 1) que tiene la forma de una escalera con saltos de altura
1/6 en los puntos 1, 2, 3, 4, 5, 6. Dicho en otras palabras, toda la masa de la variable aleatoria
X está concentrada en el conjunto de los átomos de FX , A = {1, 2, 3, 4, 5, 6}.
8 1
Por lo tanto, las tres piezas se pueden usar para construir un triángulo si y solamente si Ejemplo 1.11 (Números al azar). El resultado de “sortear” un número al azar sobre el
(X, Y ) ∈ B, donde intervalo (0, 1) es una variable aleatoria absolutamente continua. La probabilidad del evento
U ≤ u es igual a la longitud del intervalo (−∞, u] ∩ (0, 1).
B = {(x, y) ∈ (0, L) × (0, L) : 0 < x < L/2, L/2 < y < x + L/2}
Notar que cuando u ≤ 0 el intervalo (−∞, u] ∩ (0, 1) se reduce al conjunto vacı́o que por
∪{(x, y) ∈ (0, L) × (0, L) : L/2 < x < L, x − L/2 < y < L/2}. (25) definición tiene longitud 0. Por otra parte, para cualquier u ∈ (0, 1) se tiene que (−∞, u] ∩
(0, 1) = (0, u) y en consecuencia P(U ≤ u) = u; mientras que si u ≥ 1, (−∞, u] ∩ (0, 1) = (0, 1)
L de donde sigue que P(U ≤ u) = 1. Por lo tanto, la función de distribución de U es
FU (u) = u1{0 ≤ u < 1} + 1{u ≥ 1}.
01
1
L/2
10
1010
10
1010
1010
01
0 L/2 L 11
00 0 1
10 u
Figura 6: La región sombreada representa al conjunto B que es la unión de dos triángulos

Figura 3: Gráfico de la función de distribución del resultado de “sortear” un número al azar.
disjuntos cada uno de área L2 /8.
Derivando, respecto de u, la función de distribución FU (u) se obtiene una función densidad
La hipótesis de que X e Y son independientes con distribución uniforme sobre el intervalo
para U :
(0, L) significa que (X, Y ) ∼ U(Λ), donde Λ es el cuadrado de lado (0, L)
fU (u) = 1{0 < u < 1}.
1 1 1
fX,Y (x, y) = fX (x)fY (y) = 1{0 < x < L} 1{0 < y < L} = 2 1{(x, y) ∈ Λ}.
L L L
De (6) se deduce que Nota Bene. Sortear un número al azar sobre el intervalo (0, 1) es un caso particular de
una familia de variables aleatorias denominadas uniformes. Una variable aleatoria X, definida
|B| (2/8)L2 1
P((X, Y ) ∈ B) = = = . (26) sobre un espacio de probabilidad (Ω, A, P), se denomina uniformemente distribuida sobre el
|Λ| L2 4 intervalo (a, b), donde a < b, si X es absolutamente continua y admite una función densidad
de la forma
1
fX (x) = 1{x ∈ (a, b)}.
2. Bibliografı́a consultada b−a
En tal caso escribiremos X ∼ U(a, b).
1. Bertsekas, D. P., Tsitsiklis, J. N.: Introduction to Probability. M.I.T. Lecture Notes. Comentario. En la Sección 1.4 mostraremos que todas las variables aleatorias se pueden
(2000) construir utilizando variables aleatorias uniformemente distribuidas sobre el intervalo (0, 1).
2. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 1. John Ejemplo 1.12. El tiempo, T , de funcionamiento hasta la aparición de la primera falla para
Wiley & Sons, New York. (1968) un sistema con función intensidad de fallas continua λ(t) (ver Ejemplo 1.2) es una variable
aleatoria absolutamente continua que admite una densidad de la forma
Z t

fT (t) = λ(t) exp − λ(s)ds 1{t > 0}. (13)
4. Ross, S.: Introduction to Probability Models. Academic Press, San Diego. (2007) 0
.
12 9
Nota Bene: algunos casos particulares del Ejemplo 1.12. El comportamiento de la Debido a que no se trata de una tabla de multiplicar las variables X e Y no son independientes.
densidad (13) depende de la forma particular de la función intensidad de fallas λ(t). En lo Lo que, por otra parte, constituye una obviedad.
que sigue mostraremos algunos casos particulares.
Criterio para detectar dependencia. Cuando en la tabla de la distribución conjunta
Exponencial de intensidad λ. Se obtiene poniendo λ(t) = λ1{t ≥ 0}, donde λ es una
de dos variables hay un 0 ubicado en la intersección de una fila y una columna de sumas
constante positiva, arbitraria pero fija.
positivas, las variables no pueden ser independientes. (Las variables del Ejemplo 1.5 no son
fT (t) = λ exp (−λt) 1{t > 0}. (14) independientes.)
. 1.3.2. Caso bidimensional continuo

t c−1 Sean X e Y variables aleatorias con densidad conjunta fX,Y (x, y) y marginales fX (x) y
Weibull de parámetros c y α. Se obtiene poniendo λ(t) = αc

α 1{t ≥ 0}, donde
c > 0 y α > 0. En este caso, la densidad (13) adopta la forma fY (y). Las variables aleatorias X e Y son independientes si y solo si
c−1 c fX,Y (x, y) = fX (x)fY (y). (21)
c t t
fT (t) = exp − . (15)
α α α En otras palabras, X e Y son independientes si y solo si su densidad conjunta se factoriza
como el producto de las marginales.
Criterios para detectar (in)dependencia.

1.6 1. La independencia de X e Y equivale a la existencia de dos funciones f1 (x) y f2 (y) tales
que fX,Y (x, y) = f1 (x)f2 (y). Por lo tanto, para verificar independencia basta comprobar que
1.4
la densidad conjunta se puede factorizar como alguna función de x por alguna función de y,
siendo innecesario verificar que se trata de las densidades marginales. (Ejercicio)
1.2
2. La factorización (21) implica que, si X e Y son independientes, el recinto del plano
1
Sop (fX,Y ) := {(x, y) ∈ R2 : fX,Y (x, y) > 0}, llamado el soporte de la densidad conjunta
fX,Y , debe coincidir con el producto cartesiano de los soportes de sus densidades marginales:
0.8 Sop(fX ) × Sop(fY ) = {x ∈ R : fX (x) > 0} × {y ∈ R : fY (y) > 0}. Por ejemplo, si el soporte
de la densidad conjunta es conexo y no es un rectángulo las variables X e Y no pueden ser
0.6 independientes. (Ver el Ejemplo 1.7.)
Ejemplo 1.12. Sean X e Y variables aleatorias independientes con distribución uniforme
0.4
sobre el intervalo (0, L). Una vara de longitud L metros se quiebra en dos puntos cuyas
0.2 distancias a una de sus puntas son X e Y metros. Calcular la probabilidad de que las tres
piezas se puedan usar para construir un triángulo.
0
0 0.5 1 1.5 2 2.5 3 3.5 4 Primero designamos mediante L1 , L2 y L3 a las longitudes de las tres piezas. Las tres piezas
se pueden usar para construir un triángulo si y solamente si se satisfacen las desigualdades
triangulares
L1 + L2 > L3 , L1 + L3 > L2 y L2 + L3 > L1 . (22)
Figura 4: Gráficos de las densidades Weibull de parámetro de escala α = 1 y parámetro de
forma: c = 1, 2, 4: en lı́nea sólida c = 1; en lı́nea quebrada c = 2 y en lı́nea punteada c = 4. Vamos a distinguir dos casos: el caso en que X ≤ Y y el caso en que Y < X. En el primer
caso, X ≤ Y , tenemos que L1 = X, L2 = Y −X y L3 = L−Y y las desigualdades triangulares
Notar que la exponencial de intensidad λ es un caso especial de la Weibull puesto que (14) se (22) son equivalentes a las siguientes
obtiene de (15) poniendo c = 1 y α = λ−1 .
Y > L/2, X + L/2 > Y y L/2 > X. (23)
Ejemplo 1.13. La variable aleatoria, S, considerada en el Ejemplo 1.3 es una variable aleato-
ria mixta (ver
Figura 2) porque
no es discreta ni continua. Tiene un único átomo en s = 0 y En el segundo caso, Y < X, tenemos que L1 = Y , L2 = X − Y y L3 = L − X y las
Rt
su peso es exp − 0 0 λ(x)dx . desigualdades triangulares (22) son equivalentes a las siguientes
X > L/2, Y > X − L/2 y L/2 > Y. (24)
10 11
Ejemplo 1.11. Se arrojan dos dados equilibrados y se observan las variables aleatorias X e 1.3. Cuantiles
Y definidas por X =“el resultado del primer dado” e Y =“el mayor de los dos resultados”.
Definición 1.14. Sea α ∈ (0, 1). Un cuantil-α de X es cualquier número xα ∈ R tal que
El espacio de muestral asociado al experimento se puede representar en la forma Ω =
{1, 2, . . . , 6}2 , cada punto (i, j) ∈ Ω indica que el resultado del primer dado es i y el resultado P(X < xα ) ≤ α y α ≤ P(X ≤ xα ). (16)
del segundo es j. Para reflejar que arrojamos dos dados equilibrados, todos los puntos de
Ω serán equiprobables, i.e., para cada (i, j) ∈ Ω se tiene P(i, j) = 1/36. Formalmente las Observación 1.15. Notar que las desigualdades que caracterizan a los cuantiles-α se pueden
variables aleatorias X e Y están definidas por reescribir de la siguiente manera
X(i, j) := i, Y (i, j) := máx{i, j}. (20)
FX (xα ) − P(X = xα ) ≤ α y α ≤ FX (xα ). (17)
Distribución conjunta y distribuciones marginales de X e Y . En primer lugar vamos Por lo tanto, si FX (x) es continua, xα es un cuantil α si y sólo si
a representar el espacio muestral Ω en la forma de una matriz para poder observar más
claramente los resultados posibles FX (xα ) = α. (18)

(1, 1) (1, 2) (1, 3) (1, 4) (1, 5) (1, 6)
 Interpretación “geométrica” del cuantil-α. Si X es una variable aleatoria absoluta-
 (2, 1) (2, 2) (2, 3) (2, 4) (2, 5) (2, 6)  mente continua con función de densidad fX (x) el cuantil-α de X es la única solución de la
ecuación
 

 (3, 1) (3, 2) (3, 3) (3, 4) (3, 5) (3, 6) 

 (4, 1) (4, 2) (4, 3) (4, 4) (4, 5) (4, 6)  Z xα
fX (x)dx = α.
 
 (5, 1) (5, 2) (5, 3) (5, 4) (5, 5) (5, 6) 
−∞
(6, 1) (6, 2) (6, 3) (6, 4) (6, 5) (6, 6)
Esto significa que el cuantil-α de X es el único punto sobre el eje de las abscisas a cuya
izquierda el área bajo la función de densidad fX (x) es igual a α.
Figura 4: Resultados posibles del experimento aleatorio que consiste en arrojar dos dados.
Debido a que Y ≥ X, tenemos que pX,Y (x, y) = 0 para todo 1 ≤ y < x ≤ 6. En los otros Nota Bene. Sea x ∈ R. Las desigualdades (17) significan que x es un cuantil-α si y sólo si
casos, i.e., 1 ≤ x ≤ y ≤ 6, para calcular el valor de pX,Y (x, y) hay que contar la cantidad α ∈ [F (x) − P(X = x), F (x)]
de elementos de la fila x, de la matriz representada en la Figura 4, que contengan alguna
1
coordenada igual a y. Multiplicando por q = 36 la cantidad encontrada se obtiene pX,Y (x, y). Nota Bene. El cuantil-α siempre existe. Sea α ∈ (0, 1), la existencia del cuantil α se deduce
α = {x ∈ R : α ≤ F (x)}.
analizando el conjunto RX
En la figura 5 representamos la distribución conjunta pX,Y (x, y) y las distribuciones marginales X
pX y pY . α es no vacı́o porque lı́m F (x) = 1.
1. RX X
x→∞
x\y 1 2 3 4 5 6 pX α es acotado inferiormente porque lı́m F (x) = 0.

2. RX X
x→−∞
1 q q q q q q 6q
2 0 2q q q q q 6q 3. Si x0 ∈ α,
RX entonces [x0 , +∞) ⊂ α
RX porque FX (x) es no decreciente.
3 0 0 3q q q q 6q α α α tal que x ↓ ı́nf Rα y
4 0 0 0 4q q q 6q 4. ı́nfRX ∈ RX porque existe una sucesión {xn : n ∈ N} ⊂ RX n X
5 0 0 0 0 5q q 6q FX (x) es una función continua a derecha:
6 0 0 0 0 0 6q 6q
α
pY q 3q 5q 7q 9q 11q α ≤ lı́m FX (xn ) = FX lı́m xn = FX (ı́nf RX ).
n→∞ n→∞
De las propiedades anteriores se deduce que

Figura 5: Distribución conjunta de (X, Y ). En el margen derecho se encuentra la distribución
1
marginal de X y en el margen inferior, la marginal de Y . Para abreviar hemos puesto q = 36 . α
RX α
= [ı́nf RX α
, +∞) = [mı́n RX , +∞) .
De acuerdo con los resultados expuestos en la tabla que aparece en la Figura 5, las dis- α ) = α o (b) F (mı́n Rα ) > α.
Hay dos casos posibles: (a) FX (mı́n RX X X
tribuciones marginales son
α ) = α, entonces P(X < mı́n Rα ) = α − P(X = mı́n Rα ) ≤ α.
(a) Si FX (mı́n RX
1 2y − 1 X X
pX (x) = , pY (y) = .
6 36
10 11
α ) > α, entonces
(b) Si FX (mı́n RX Ejemplo 1.10 (Números al azar). Se elige al azar un número U del intervalo [0, 1). Sea U =
α 0.X1 X2 X3 · · · el desarrollo decimal de U . Mostraremos que los dı́gitos de U son independientes
P(X < x) < α ∀ x < mı́n RX (19)
entre sı́ y que cada uno de ellos se distribuye uniformemente sobre el conjunto {0, 1, . . . , 9}.
porque sino existe un x < mı́n Rxα tal que α ≤ P(X < x) ≤ FX (x) y por lo tanto, El problema se reduce a mostrar que para cada n ≥ 2 las variables aleatorias X1 , X2 , . . . , Xn
α lo que constituye un absurdo.
x ∈ RX son independientes entre sı́ y que para cada k ≥ 1 y todo xk ∈ {0, 1, . . . , 9}, P(Xk = xk ) =
α)=
De (19) se deduce que P(X < mı́n RX lı́m FX (x) ≤ α. 1/10.
α
x↑mı́n RX Primero observamos que para cada n ≥ 1 y para todo (x1 , . . . , xn ) ∈ {0, 1, . . . , 9}n vale
En cualquiera de los dos casos que
xα = mı́n {x ∈ R : FX (x) ≥ α} (20) n
" n n
!
\ X xi X xi 1
{Xi = xi } ⇐⇒ U ∈ , + .
es un cuantil-α. 10i 10i 10n
i=1 i=1 i=1
Nota Bene. Si FX es discontinua, (18) no tiene siempre solución; y por eso es mejor tomar En consecuencia,
(16) como definición. Si FX es estrictamente creciente, los cuantiles son únicos. Pero si no, n
!
los valores que satisfacen (18) forman un intervalo.
\ 1
P {Xi = xi } = . (17)
10n
i=1
Cuartiles y mediana. Los cuantiles correspondientes a α = 0.25, 0.50 y 0.75 son respecti-
vamente el primer, el segundo y tercer cuartil. El segundo cuartil es la mediana. Para calcular las marginales de los dı́gitos observamos que para cada xk ∈ {0, 1, . . . , 9} vale
que
Ejemplos [
" k−1
\
! #
Ejemplo 1.16. En el Ejemplo 1.1 hemos visto que la función de distribución del resultado {Xk = xk } = {Xi = xi } ∩ {Xk = xk } .
(x1 ,...,xk−1 )∈{0,1,...,9}k−1 i=1
del lanzamiento de un dado equilibrado es una escalera con saltos de altura 1/6 en los puntos
1, 2, 3, 4, 5, 6:
5 De acuerdo con (17) cada uno de los 10k−1 eventos que aparecen en la unión del lado derecho
X i de la igualdad tiene probabilidad 1/10k y como son disjuntos dos a dos obtenemos que
FX (x) = 1 {i ≤ x < i + 1} + 1{6 ≤ x}.
6
i=1
1 1
Como la imagen de FX es el conjunto {0, 1/6, 2/6, 3/6, 4/6, 5/6, 1} la ecuación (18) solo tiene P(Xk = xk ) = 10k−1 = . (18)
10k 10
solución para α ∈ {1/6, 2/6, 3/6, 4/6, 5/6}. Más aún, para cada i = 1, . . . , 5
i De (17) y (18) se deduce que para todo (x1 , . . . , xn ) ∈ {0, 1, . . . , 9}n vale que
FX (x) = ⇐⇒ x ∈ [i, i + 1).
6 \n
!
Y n
En otras palabras, para cada i = 1, . . . , 5 los cuantiles-i/6 de X son el intervalo [i, i + 1). En P {Xi = xi } = P(Xi = xi ).
particular, “la” mediana de X es cualquier punto del intervalo [3, 4).
i=1 i=1
Para cada α ∈ i−1 i
6 , 6 , i = 1, . . . , 6, el cuantil α de X es xα = i. Por lo tanto, las variables aleatorias X1 , X2 , . . . , Xn son independientes entre sı́ y cada una
Ejemplo 1.17. Sea T el tiempo de funcionamiento hasta la aparición de la primera falla para de ellas se distribuye uniformemente sobre el conjunto {0, 1, . . . , 9} .
un sistema con función intensidad de fallas λ(t) = 2t1{t ≥ 0} (ver Ejemplo 1.2). La función
de distribución de T es 1.3.1. Caso bidimensional discreto
Z t
1{t > 0} = 1 − exp −t2 1{t > 0}.

FT (t) = 1 − exp − 2sds (21) Sea (X, Y ) un vector aleatorio discreto con función de probabilidad conjunta pX,Y (x, y)
0 y marginales pX (x) y pY (y). Las variables X, Y son independientes si para cada pareja de
Como FT (t) es continua los cuantiles-α, α ∈ (0, 1), se obtienen resolviendo la ecuación (18): valores x ∈ X(Ω), y ∈ Y (Ω) vale que
FT (t) = α ⇐⇒ 1 − exp −t2 = α ⇐⇒ t = − log(1 − α).
p
pX,Y (x, y) = pX (x) pY (y) (19)
Por lo tanto, para cada α ∈ (0, 1) el cuantil-α de T es
p En otras palabras, la matriz pX,Y (x, y) es la tabla de multiplicar de las marginales pX (x) y
tα = − log(1 − α). (22) pY (y).
p
En particular, la mediana de T es t0.5 = − log(1 − 0.5) ≈ 0.8325.
12 9
En el caso continuo, la densidad conjunta de las variables XΛ , fΛ (xΛ ), se obtiene fijando Ejemplo 1.18. Se considera un sistema con función intensidad de fallas λ(t) = 2t1{t ≥ 0}.
los valores de las variables xi : i ∈ Λ e integrando la densidad conjunta f (x) respecto de las El sistema debe prestar servicios durante 1 hora. Si durante ese perı́odo el sistema falla, se lo
demás variables repara y se lo vuelve a utiliza hasta que cumpla con el el plazo estipulado. Sea S el tiempo
Z de funcionamiento (medido en horas) del sistema después de la primera reparación.
fΛ (xΛ ) = fX (x)dxΛc . En el Ejemplo 1.3 vimos que la función de distribución de S es
Rn−m
Z 1−s
donde m es la cantidad de ı́ndices contenidos en el conjunto Λ. FS (s) = exp − 2tdt 1{0 ≤ s < 1} + 1{s ≥ 1}
0
= exp −(1 − s)2 1{0 ≤ s < 1} + 1{s ≥ 1},

1.3. Independencia
Las variables X1 , . . . , Xn son independientes si para cualquier colección de conjuntos (med- y que S es una variable aleatoria mixta (ver Figura 2) con un único átomo en s = 0 cuyo
ibles) A1 , . . . , An ⊂ R, los eventos {X1 ∈ A1 }, . . . , {Xn ∈ An } son independientes. peso es e−1 . En consecuencia, s = 0 es un cuantil-α de S para todo α ∈ 0, e−1 . Restringida
Tomando conjuntos de la forma Ai = (−∞, xi ] se deduce que la independencia de X1 , . . . , Xn al intervalo (0, 1) la función FS (s) es continua y su imagen es el intervalo (e−1 , 1). Por ende,
implica para cada α ∈ (e−1 , 1) el cuantil-α de S se obtiene resolviendo la ecuación FS (s) = α:
FS (s) = α ⇐⇒ exp −(1 − s)2 = α ⇐⇒ −(1 − s)2 = log(α)

n n n
!
\ Y Y
FX (x) = P {Xi ≤ xi } = P(Xi ≤ xi ) = FXi (xi ). (16) ⇐⇒ (1 − s)2 = − log(α) ⇐⇒ |1 − s| = − log(α)
p
i=1 i=1 i=1 p p
⇐⇒ 1 − s = − log(α) ⇐⇒ 1 − − log(α) = s.
Dicho en palabras, la independencia de las variables implica que su función de distribución
conjunta se factoriza como el producto de todas las marginales. Por lo tanto, para cada α ∈ (e−1 , 1) el cuantil-α de S es
Recı́procamente, se puede demostrar que si para cada x = (x1 , . . . , xn ) ∈ Rn se verifica p
sα = 1 − − log(α).
la ecuación (16), las variables aleatorias X1 , . . . , Xn son independientes. (La demostración es p
técnica y no viene al caso). Esta equivalencia reduce al mı́nimo las condiciones que permiten En particular, la mediana de S es s0.5 = 1 − − log(0.5) ≈ 0.1674.
caracterizar la independencia de variables aleatorias y motivan la siguiente definición más
simple. 1.4. Construcción de variables aleatorias
Definición 1.8 (Independencia de una cantidad finita de variables aleatorias). Diremos que Teorema 1.19 (Simulación). Sea F : R → [0, 1] una función con las siguientes propiedades
las variables aleatorias X1 , . . . , Xn son independientes si la ecuación (16) se verifica en todo
x = (x1 , . . . , xn ) ∈ Rn . (F1) es no decreciente: si x1 ≤ x2 , entonces F (x1 ) ≤ F (x2 );
(F2) es continua a derecha: para todo x0 ∈ R vale que lı́m F (x) = F (x0 );
Definición 1.9 (Independencia). Dada una familia de variables aleatorias (Xi : i ∈ I) x↓x0
definidas sobre un mismo espacio de probabilidad (Ω, A, P), diremos que sus variables son
(F3) lı́m F (x) = 0 y lı́m F (x) = 1.
(conjuntamente) independientes si para cualquier subconjunto finito de ı́ndices J ⊂ I las x→−∞ x→∞
variables Xi , i ∈ J son independientes.
Existe una variable aleatoria X tal que F (x) = P(X ≤ x).
Nota Bene. La independencia de las variables aleatorias X1 , . . . , Xn es equivalente a la

Esquema de la demostración.
factorización de la distribución conjunta como producto de sus distribuciones marginales.
1o ) Definir la inversa generalizada de F mediante
Más aún, esta propiedad se manifiesta a nivel de la función de probabilidad, pX (x) o de la
densidad conjunta, fX (x), del vector aleatorio X = (X1 , . . . , Xn ), según sea el caso. Para ser F −1 (u) := mı́n{x ∈ R : u ≤ F (x)}, u ∈ (0, 1).
más precisos, X1 , . . . , Xn son independientes si y solo si
2o ) Definir X mediante
n
Y
pX (x) = pXi (xi ) en el caso discreto, X := F −1 (U ), donde U ∼ U(0, 1).
i=1
Yn 3o )
Observar que vale la equivalencia (inmediata) F −1 (u) ≤ x ⇔ u ≤ F (x) y deducir que
fX (x) = fXi (xi ) en el caso continuo. P(X ≤ x) = P(F −1 (U ) ≤ x) = P(U ≤ F (x)) = F (x).
i=1
Observación 1.20. Si la función F del enunciado del Teorema 1.19 es continua, la inversa
generalizada es simplemente la inversa.
8 13
Nota Bene. El esquema de la demostración del Teorema 1.19 muestra cómo se construye un dardo al azar sobre Λ y se clava en un punto de coordenadas (X, Y ). El punto (X, Y )
una variable aleatoria X con función de distribución FX (x). La construcción es clave para sim- está uniformemente distribuido sobre Λ. Debido a que el área de Λ es igual a π, la densidad
ular variables aleatorias en una computadora: algoritmos estándar generan variables aleatorias conjunta de X e Y es
U con distribución uniforme sobre el intervalo (0, 1), aplicando la inversa generalizada de la 1
fX,Y (x, y) = 1{x2 + y 2 ≤ 1}.
función de distribución se obtiene la variable aleatoria FX−1 (U ) cuya función de distribución π
es FX (x).
√
1 − x2
Método gráfico para calcular inversas generalizadas. Sea u ∈ (0, 1), por definición,
F −1 (u) := mı́n{x ∈ R : u ≤ F (x)}, 0 < u < 1. Gráficamente esto significa que para calcular
Λ
F −1 (u) hay que determinar el conjunto de todos los puntos del gráfico de F (x) que están √
x
sobre o por encima de la recta horizontal de altura u y proyectarlo sobre el eje de las abscisas. 2 1 − x2
1
El resultado de la proyección es una semi-recta sobre el eje de las abscisas y el valor de la
abscisa que la cierra por izquierda es el valor de F −1 (u).
Ejemplo 1.21 (Moneda cargada). Se quiere simular el lanzamiento de una moneda “cargada” √
− 1 − x2
con probabilidad p ∈ (0, 1) de salir cara. El problema se resuelve construyendo una variable
aleatoria X a valores {0, 1} tal que P(X = 1) = p y P(X = 0) = 1 − p, (X = 1 representa el
evento “la moneda sale cara” y X = 0 “la moneda sale ceca”). La función de distribución de √
X debe ser F (x) = (1 − p)1{0 ≤ x < 1} + 1{x ≥ 1} y su gráfico se muestra en la Figura 5. Figura 3: Para cada x ∈ [−1, 1] se observa que el ancho del cı́rculo en x es 2 1 − x2 .
u
Si se observa la Figura 3 es claro que la densidad marginal de X es
1 √
2 1 − x2
fX (x) = 1{x ∈ [−1, 1]},
p π
1−p y por razones de simetrı́a la densidad marginal de Y debe ser

p
2 1 − y2
fY (y) = 1{y ∈ [−1, 1]}.
π
0 1 x
Caso general. Para cada i = 1, . . . , n, la densidad marginal de Xi , fXi (xi ), se puede obtener
Figura 5: Gráfico de la función F (x) = (1 − p)1{0 ≤ x < 1} + 1{x ≥ 1}. fijando la variable xi e integrando la densidad conjunta fX (x) respecto de las demás variables
Z
La demostración del Teorema 1.19 indica que para construir la variable aleatoria X lo fXi (xi ) = fX (x)dx{i}c .
primero que hay que hacer es determinar la expresión de la inversa generalizada de F (x). Rn−1
Para ello usaremos el método gráfico.
Nota Bene: Conjuntas y marginales. A veces, es necesario conocer la distribución
En la Figura 5 se puede ver que para cada 0 < u ≤ 1 − p el conjunto {x ∈ R : u ≤ F (x)}
de una sub-colección de variables aleatorias. En el caso bidimensional este problema no se
es la semi-recta [0, ∞) y el punto que la cierra por izquierda es x = 0. En consecuencia
manifiesta porque se reduce al cálculo de las marginales. Para cada subconjunto de ı́ndices
F −1 (u) = 0 para todo 0 < u ≤ 1 − p. Del mismo modo se puede ver que F −1 (u) = 1 para
Λ ⊂ {1, 2, . . . , n} la función de distribución conjunta de las variables Xi : i ∈ Λ, FΛ (xΛ ), se
todo 1 − p < u < 1. Por lo tanto, F −1 (u) = 1{1 − p < u < 1}.
obtiene fijando los valores de las coordenadas xi : i ∈ Λ y haciendo xj → ∞ para toda j ∈ / Λ.
Definiendo X := 1{1 − p < U < 1}, donde U ∼ U(0, 1) se obtiene la variable aleatoria
En el caso discreto, la función de probabilidad conjunta de las variables Xi : i ∈ Λ, pΛ (xΛ ),
deseada.
se obtiene fijando la variables xi : i ∈ Λ y sumando la función de probabilidad conjunta p(x)
Ejemplo 1.22 (Moneda cargada). Simular diez lanzamientos de una moneda “cargada” con respecto de las demás variables
probabilidad 0.6 de salir cara en cada lanzamiento. X
De acuerdo con el resultado obtenido en el Ejemplo 1.21, para simular el lanzamiento pΛ (xΛ ) = pX (x).
de una moneda cargada con probabilidad 0.6 de salir cara se construye la variable aleatoria xΛ c
X := 1{0.4 < U < 1}, donde U ∼ U(0, 1).
14 7
Para simular 10 valores de X se simulan 10 valores de U . Si en 10 simulaciones de U
x\y 0 1 2 pX se obtuviesen los valores 0.578, 0.295, 0.885, 0.726, 0.548, 0.048, 0.474, 0.722, 0.786, 0.598,
0 6q 20q 10q 36q los valores de la variable X serı́an 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, respectivamente, y en tal caso, los
1 24q 30q 0 54q resultados de los 10 lanzamientos de la moneda serı́an H, T, H, H, H, T, H, H, H, H.
2 15q 0 0 15q
pY 45q 50q 10q Ejemplo 1.23 (Fiabilidad). Se considera un sistema electrónico con función intensidad de
fallas de la forma λ(t) = 2t1{t > 0}. Se quiere estimar la función de probabilidad de la
cantidad de fallas ocurridas durante la primer unidad de tiempo de funcionamiento.
Figura 2: Distribución conjunta de (X, Y ). En el margen derecho de la tabla se encuentra la Para simplificar el problema vamos a suponer que cada vez que se produce una falla, el
distribución marginal de X y en el margen inferior, la marginal de Y . sistema se repara instantáneamente renovándose sus condiciones iniciales de funcionamien-
to. Según el Ejemplo 1.2, la función de distribución del tiempo de funcionamiento hasta la
Caso general. Para cada i = 1, . . . , n, la función de probabilidad marginal de Xi , pXi (xi ), aparición de la primer falla es
se puede obtener fijando la variable xi y sumando la función de probabilidad conjunta pX (x) F (t) = 1 − exp −t2 1{t > 0}.

(23)
respecto de las demás variables
X Debido a que la función de distribución F (t) es continua, su inversa generalizada es simple-
pXi (xi ) = pX (x). mente su inversa y se obtiene despejando t de la ecuación 1 − exp −t2 = u. En consecuencia,
p
x{i}c F −1 (u) = − log(1 − u), u ∈ (0, 1). Para construir la variable T usamos un número aleatorio
U , uniformemente distribuido sobre el intervalo (0, 1) y definimos
1.2.2. Marginales continuas p
T := F −1 (U ) = − log(1 − U ). (24)
Sea (X, Y ) un vector aleatorio continuo con función densidad conjunta fX,Y (x, y).
Las funciones de distribución marginales de las variables individuales X e Y se obtienen La ventaja de la construcción es que puede implementarse casi de inmediato en una computa-
de la distribución conjunta haciendo lo siguiente dora. Por ejemplo, una rutina en Octave para simular T es la siguiente
Z x Z ∞ U=rand;
FX (x) = P(X ≤ x) = lı́m FX,Y (x, y) = fX,Y (s, y) dy ds, (12) T=sqrt(-log(1-rand))
y→∞ −∞ −∞
Z y Z ∞
FY (y) = P(Y ≤ y) = lı́m FX,Y (x, y) = fX,Y (x, t) dx dt. (13) Sobre la base de esa rutina podemos simular valores de T . Por ejemplo, en diez simulaciones
x→∞ −∞ −∞ de T obtuvimos los valores siguientes: 0.3577, 1.7233, 1.1623, 0.3988, 1.4417, 0.3052, 1.1532,
0.3875, 0.8493, 0.9888.
Aplicando en (12) y en (13) el Teorema Fundamental del Cálculo Integral se obtiene que
las funciones de distribución marginales FX (x) y FY (y) son derivables (salvo quizás en un t
conjunto despreciable de puntos) y vale que 0 1 2 3 4 5 6 7 8 9
Z ∞
d
fX (x) = FX (x) = f (x, y) dy, (14) Figura 6: Simulación de los tiempos de ocurrencia de las fallas de un sistema electrónico con
dx
Z −∞
∞ función intensidad de fallas de la forma λ(t) = 2t1{t ≥ 0}. Las fallas ocurren los instantes
d
fY (y) = FY (y) = f (x, y) dx. (15) 0.3577, 2.0811, 3.2434, 3.6422, 5.0839, 5.3892, 6.5423, 6.9298, 7.7791, 8.7679.
dy −∞
En consecuencia, las variables aleatorias X e Y son individualmente (absolutamente) continuas La rutina puede utilizarse para simular cien mil realizaciones del experimento que consiste
con densidades “marginales” fX (x) y fY (y), respectivamente. en observar la cantidad de fallas durante la primer unidad de tiempo de funcionamiento
del sistema electrónico bajo consideración: N [0, 1] := mı́n {n ≥ 1 : ni=1 Ti > 1} − 1, donde
P
Ejemplo 1.6 (Distribución uniforme). Sea Λ ⊂ R2 una región del plano acotada, que para T1 , T2 , . . . son realizaciones independientes de los tiempos de funcionamiento del sistema hasta
simplificar supondremos convexa, y sea (X, Y ) un vector aleatorio uniformemente distribuido la ocurrencia de una falla.
sobre Λ. La densidad marginal de X en la abscisa x es igual al cociente entre el ancho de Λ Por ejemplo, repitiendo la simulación 100000 veces obtuvimos la siguiente tabla que con-
en x y el área de Λ. tiene la cantidad de veces que fué simulado cada valor de la variable N [0, 1]:
Ejemplo 1.7 (Dardos). Consideramos un juego de dardos de blanco circular Λ de radio valor simulado 0 1 2 3 4
(25)
1 centrado en el origen del plano: Λ = {(x, y) ∈ R2 : x2 + y 2 ≤ 1}. Un tirador lanza frecuencia 36995 51792 10438 743 32
6 15
obteniéndose las siguientes estimaciones 1.2. Distribuciones marginales
P(N [0, 1] = 0) ≈ 0.36995, P(N [0, 1] = 1) ≈ 0.51792, P(N [0, 1] = 2) ≈ 0.10438, Sea X = (X1 , . . . , Xn ) un vector aleatorio n-dimensional y sea FX (x) su función de dis-
tribución conjunta. La coordenadas de X son variables aleatorias. Cada variable individual
P(N [0, 1] = 3) ≈ 0.00743, P(N [0, 1] = 4) ≈ 0.00032.
Xi tiene su correspondiente función de distribución
Para finalizar este ejemplo, presentamos una rutina en Octave que simula cien mil veces FXi (xi ) = P(Xi ≤ xi ). (8)
la cantidad de fallas en la primer unidad de tiempo y que al final produce los resultados para
construir una tabla similar a la tabla (25). Para enfatizar la relación entre Xi y el vector X = (X1 , . . . , Xn ) se dice que FXi (xi ) es la
función de distribución marginal de Xi o la i-ésima marginal de X.
for i=1:100000
n=-1; Nota Bene. Observar que, para cada i = 1, . . . , n, la función de distribución marginal de
S=0; Xi , FXi (xi ), se obtiene de la función de distribución conjunta FX (x1 , . . . , xn ) fijando el valor
while S<=1; de xi y haciendo xj → ∞ para toda j 6= i.
T=sqrt(-log(1-rand));
S=S+T; 1.2.1. Marginales discretas
n=n+1;
Caso bidimensional. Sea (X, Y ) un vector aleatorio discreto definido sobre un espacio
end
de probabilidad (Ω, A, P) con función de probabilidad conjunta pX,Y (x, y). Los números
f(i)=n;
pX,Y (x, y), (x, y) ∈ X(Ω) × Y (Ω) = {(X(ω), Y (ω)) : ω ∈ Ω}, se pueden representar en
end
la forma de una matriz con las siguientes propiedades
M=max(f);
for i=1:M+1;
X X
pX,Y (x, y) ≥ 0, y pX,Y (x, y) = 1. (9)
N(i)=length(find(f==i-1)); x∈X(Ω) y∈Y (Ω)
end
N Fijando x ∈ X(Ω) y sumando las probabilidades que aparecen en la fila x de la matriz
pX,Y (x, y) se obtiene
X X
Ejemplo 1.24 (Saltando, saltando, sa, sa, sa, saltando,... ). La función pX,Y (x, y) = P(X = x, Y = y) = P(X = x) = pX (x). (10)
∞ y∈Y (Ω) y∈Y (Ω)
X 1
F (x) = 1{x ≥ rn }, (26) Fijando y ∈ Y (Ω) y sumando las probabilidades que aparecen en la columna y de la matriz
2n
n=1
pX,Y (x, y) se obtiene
donde r1 , r2 , . . . es un reordenamiento de los números racionales del intervalo (0, 1) con denom- X X
inadores crecientes: 12 , 13 , 23 , 14 , 34 , 51 , 25 , 53 , 54 , . . . , tiene las siguientes propiedades es creciente, pX,Y (x, y) = P(X = x, Y = y) = P(Y = y) = pY (y). (11)
x∈X(Ω) x∈X(Ω)
continua a derecha, lı́m F (x) = 0 y lı́m F (x) = 1; tiene saltos en todos los números
x→−∞ x→∞
racionales del (0, 1) y es continua en los irracionales del (0, 1). En otras palabras, sumando las probabilidades por filas obtenemos la función de probabilidad
Pero no! Mejor no hablar de ciertas cosas ... marginal de la variable aleatoria X y sumando las probabilidades por columnas obtenemos
la función de probabilidad marginal de la variable aleatoria Y . El adjetivo “marginal” que
reciben las funciones de probabilidad pX (x) y pY (y) refiere a la apariencia externa que adoptan
(10) y (11) en una tabla de doble entrada.
3. Sea X una variable aleatoria con función de distribución FX (x). Mostrar que para cada Ejemplo 1.5. En una urna hay 6 bolas rojas, 5 azules y 4 verdes. Se extraen dos. Sean X la
α ∈ (0, 1) vale que cantidad de bolas
rojas extraı́das e Y la cantidad de azules.
Existen 152 = 105 resultados posibles. La cantidad de resultados con x rojas, y azules y
sup{x ∈ R : FX (x) < α} = mı́n{x ∈ R : FX (x) ≥ α}. 2 − (x + y) verdes es
6 5 4
x y 2 − (x + y)
Usando esa fórmula y poniendo q = 1/105 obtenemos
16 5
Cálculo de probabilidades Dependiendo del caso, la función de probabilidad conjunta 1.5. Función de distribución empı́rica e histogramas
pX (x), o la densidad conjunta fX (x), resume toda la información relevante sobre el compor-
Distribución empı́rica
tamiento del vector aleatorio X. Más precisamente, para todo conjunto A ⊂ Rn “suficiente-
mente regular”, vale que La función de distribución empı́rica Fn (x) de n puntos sobre la recta x1 , . . . , xn es la
 P función escalera con saltos de altura 1/n en los puntos x1 , . . . , xn . En otras palabras, nFn (x)
 x∈A pX (x) en el caso discreto, es igual a la cantidad de puntos xk en (−∞, x] y Fn (x) es una función de distribución:
P(X ∈ A) = R n
A fX (x)dx en el caso continuo.

1 1X
Fn (x) = |{i = 1, . . . , n : xi ≤ x}| = 1{xi ≤ x}. (27)
n n
Ejemplo 1.2. Sea (X, Y ) un vector aleatorio continuo con densidad conjunta fX,Y (x, y). Si i=1
a < b y c < d, entonces
Z bZ d Nota Bene. En la práctica, disponemos de conjuntos de observaciones (“muestras”) corre-
spondientes a un experimento considerado aleatorio y queremos extraer de ellas conclusiones
P(a < X ≤ b, c < Y ≤ d) = fX,Y (x, y)dxdy. (4)
a c sobre los modelos que podrı́an cumplir. Dada una muestra x1 , . . . , xn , la función de distribu-
ción empı́rica Fn (x) coincide con la función de distribución de una variable aleatoria discreta
Ejemplo 1.3 (Distribución uniforme). Sea Λ ⊂ R2 una región acotada de área |Λ|. Si la que concentra toda la masa en los valores x1 , . . . , xn , dando a cada uno probabilidad 1/n.
densidad conjunta de un vector aleatorio continuo (X, Y ) es de la forma
Observación 1.25. Sea Fn (x) la función de distribución empı́rica correspondiente a una
1 muestra de n valores x1 , . . . , xn . Sean a y b dos números reales tales que a < b. Notar que
fX,Y (x, y) = 1{(x, y) ∈ Λ}, (5)
|Λ|
n
1X 1
diremos que (X, Y ) está uniformemente distribuido sobre Λ y escribiremos (X, Y ) ∼ U(Λ). Fn (b) − Fn (a) = 1{xi ∈ (a, b]} = |{i = 1, . . . , n : xi ∈ (a, b]}|.
n n
Sea B ⊂ Λ una sub-región de Λ de área |B|. La probabilidad de que (X, Y ) ∈ B se calcula i=1
del siguiente modo
En consecuencia, el cociente incremental de Fn (x) sobre el intervalo [a, b] es la frecuencia
x x 1 |B| relativa de los valores de la muestra x1 , . . . , xn contenidos en el intervalo (a, b] “normalizada”
P((X, Y ) ∈ B) = fX,Y (x, y)dxdy = dxdy = . (6) por la longitud de dicho intervalo:
|Λ| |Λ|
B B
n
!
En otras palabras, la probabilidad de que (X, Y ) ∈ B es la proporción del área de la región Fn (b) − Fn (a) 1 1X
= 1{xi ∈ (a, b]} . (28)
Λ contenida en la sub-región B. b−a b−a n
i=1
Ejemplo 1.4. Sea (X, Y ) un vector aleatorio uniformemente distribuido sobre el cuadrado Notar que si los n valores, x1 , . . . , xn , corresponden a n observaciones independientes de
[0, 1] × [0, 1]. ¿Cuánto vale P(XY > 1/2)? los valores de una variable aleatoria X, la interpretación intuitiva de la probabilidad indica
Debido a que el cuadrado [0, 1] × [0, 1] tiene área 1 la probabilidad requerida es el área de que el cociente incremental (28) deberı́a estar próximo del cociente incremental de la función
la región B = {(x, y) ∈ [0, 1] × [0, 1] : xy > 1/2}. Ahora bien, de distribución, FX (x), de la variable aleatoria X sobre el intervalo [a, b]:
(x, y) ∈ B ⇐⇒ y > 1/2x (7) Fn (b) − Fn (a) P(a < X ≤ b) FX (b) − FX (a)
≈ = . (29)
b−a b−a b−a
y como y ≤ 1, la desigualdad del lado derecho de (7) sólo es posible si 1/2 ≤ x. Vale decir,
Cuando X es una variable aleatoria absolutamente continua con función densidad continua
B = {(x, y) : 1/2 ≤ x ≤ 1, 1/2x < y ≤ 1}. fX (x) la aproximación (28) adopta la forma
En consecuencia, b
Fn (b) − Fn (a) 1
Z
≈ fX (x)dx = fX (x), (30)
x 1 1
!
1 b−a b−a a
1
Z Z Z
P (XY > 1/2) = |B| = 1 dxdy = 1 dy dx = 1− dx
1 1 1 2x donde x es algún punto perteneciente al intervalo (a, b).
B 2 2x 2

1 1 1 1
= + log = (1 − log 2) ≈ 01534....
2 2 2 2
4 17
111111111111111111111111
000000000000000000000000
000000000000000000000000
111111111111111111111111
Histogramas b2
+
000000000000000000000000
111111111111111111111111
−
Un histograma de una muestra x1 , . . . , xn se obtiene eligiendo una partición en m intervalos 000000000000000000000000

111111111111111111111111
000000000000000000000000
111111111111111111111111
de extremos a0 < · · · < am , con longitudes Lj = aj −aj−1 ; calculando las frecuencias relativas 000000000000000000000000
111111111111111111111111
000000000000000000000000
111111111111111111111111
000000000000000000000000
111111111111111111111111
n
000000000000000000000000
111111111111111111111111
pj =
1X
1{aj−1 < xi < aj } 000000000000000000000000
111111111111111111111111
000000000000000000000000
111111111111111111111111
n
000000000000000000000000
111111111111111111111111
000000000000000000000000
111111111111111111111111
i=1
000000000000000000000000 +
111111111111111111111111
000000000000000000000000
111111111111111111111111
−
y graficando la función igual a pj /Lj en el intervalo (aj−1 , aj ] y a 0 fuera de los intervalos:
0000000000000
1111111111111
000000000000000000000000
111111111111111111111111
a 1111111111111111111111111111111111111111111
20000000000000000000000000000000000000000000
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000
1111111111111
000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
m
0000000000000
1111111111111
000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
pj
0000000000000
1111111111111
000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
X
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
fx1 ,...,xn ; a0 ,...,am (x) := 1{x ∈ (aj−1 , aj ]}. (31)
0000000000000
1111111111111
000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
Lj
0000000000000
1111111111111
000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000
1111111111111
000000000000000000000000
111111111111111111111111
j=1
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000
1111111111111
000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
O sea, un conjunto de rectángulos con área pj . 0000000000000
1111111111111
000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000
1111111111111
000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000
1111111111111
Cuando la muestra x1 , . . . , xn corresponde a n observaciones independientes de una vari- 000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000
1111111111111
able aleatoria X absolutamente continua la función definida en (31) es una versión discreta 000000000000000000000000a
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
b
1 1
de la densidad de X en la que las áreas miden frecuencias relativas.
Figura 1: Esquema de la demostración de la identidad (2). El rectángulo (a1 , b1 ] × (a2 , b2 ] se

Ejercicios adicionales puede representar en la forma S(b1 ,b2 ) \ S(a1 ,b2 ) ∪ S(b1 ,a2 ) .
4. Lucas filma vı́deos de tamaños aleatorios. En una muestra aleatoria de 5 vı́deos filmados
por Lucas se obtuvieron los siguiente tamaños (en MB): Clasificación
1. Vectores aleatorios discretos. El vector aleatorio X se dice discreto cuando existe un

17, 21.3, 18.7, 21, 18.7
conjunto numerable A ⊂ Rn tal que P(X ∈ A) = 1. En tal caso, las variables aleatorias
Hallar y graficar la función de distribución empı́rica asociada a esta muestra. Estimar, usando X1 , . . . , Xn son discretas y la función pX : Rn → [0, 1] definida por
la función de distribución empı́rica asociada a esta muestra, la probabilidad de que un vı́deo
pX (x) := P(X = x) (3)
ocupe menos de 19.5 MB.
se llama la función de probabilidad conjunta de X. Su relación con la función de dis-
5. Los siguientes datos corresponden a los tiempos de funcionamiento (en años) hasta que
tribución conjunta es la siguiente
ocurre la primer falla de una muestra de 12 máquinas industriales:
X
FX (x) = pX (y).
2.0087, 1.9067, 2.0195, 1.9242, 1.8885, 1.8098,
y∈Sx
1.9611, 2.0404, 2.1133, 2.0844, 2.1695, 1.9695.
2. Vectores aleatorios continuos. El vector aleatorio X = (X1 , . . . , Xn ) se dice continuo
Usando los intervalos con extremos 1.7, 1.9, 2.1, 2.3, hallar la función histograma basada en
cuando existe una función fX : Rn → R+ , llamada densidad de probabilidades conjunta
la muestra observada e integrarla para estimar la probabilidad de que una máquina industrial
de X1 , . . . , Xn tal que
del mismo tipo funcione sin fallas durante menos de dos años.
Z
FX (x) = fX (y)dy.
Sx
Ejemplo 1.26. Sea T una variable aleatoria con distribución exponencial de intensidad 1
(ver (14)). Esto es, T es una variable aleatoria absolutamente continua con función densidad (Para evitar dificultades relacionadas con el concepto de integración supondremos que
de probabilidad las densidades son seccionalmente continuas.)
fT (t) = e−t 1{t > 0}
3. Vectores aleatorios mixtos. El vector aleatorio X se dice mixto si no es continuo ni
y función de distribución discreto.
FT (t) = 1 − e−t 1{t ≥ 0}.

18 3
Índice De acuerdo con el esquema de la demostración del Teorema 1.19 podemos simular muestras de
T utilizando un generador de números aleatorios uniformemente distribuidos sobre el intervalo
1. Vectores aleatorios 2 (0, 1). Concretamente, si U ∼ U(0, 1), entonces
1.1. Distribución conjunta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Distribuciones marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 T̂ = − log(1 − U )
1.2.1. Marginales discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.2. Marginales continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 es una variable con distribución exponencial de intensidad 1.
1.3. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Para obtener una muestra de 10 valores t1 , . . . , t10 de una variable con distribución ex-
1.3.1. Caso bidimensional discreto . . . . . . . . . . . . . . . . . . . . . . . . 9 ponencial de intensidad 1 generamos 10 números aleatorios u1 , . . . , u10 y los transformamos
1.3.2. Caso bidimensional continuo . . . . . . . . . . . . . . . . . . . . . . . 11 poniendo ti = − log(1 − ui ). Por ejemplo, si los valores u1 , . . . , u10 son, respectivamente,
2. Bibliografı́a consultada 12 0.1406, 0.3159, 0.8613, 0.4334, 0.0595, 0.8859, 0.2560, 0.2876, 0.2239, 0.5912,
los valores de la muestra obtenida, t1 , . . . , t10 , son, respectivamente,

1. Vectores aleatorios
0.1515, 0.3797, 1.9753, 0.5682, 0.0613, 2.1703, 0.2957, 0.3390, 0.2535, 0.8946. (32)
Notación. Para simplificar la escritura usaremos las siguientes notaciones. Los puntos del
espacio n-dimensional Rn , n ≥ 2, se denotan en negrita, x = (x1 , . . . , xn ). La desigualdad La función de distribución empı́rica de la muestra observada, F10 (t), es una función escalera
y ≤ x significa que yi ≤ xi para todo i = 1, . . . , n y se puede interpretar diciendo que y con saltos de altura 1/10 en los siguientes puntos del eje t:
está al “sudoeste” de x. El conjunto de todos los puntos al “sudoeste” de x será denotado
0.0613, 0.1515, 0.2535, 0.2957, 0.3390, 0.3797, 0.5682, 0.8946, 1.9753, 2.1703.
mediante Sx := {y ∈ Rn : y ≤ x}. Finalmente, cualquiera sea el subconjunto de ı́ndices
J = {i1 , . . . , im } ⊂ {1, . . . , n} denotaremos mediante xJ ∈ Rm al punto m-dimensional que Para construir un histograma usaremos la partición que se obtiene dividiendo en dos
se obtiene de x quitándole todas las coordenadas que tengan ı́ndices fuera de J. Por ejemplo, intervalos de igual longitud el intervalo comprendido entre los valores mı́nimos y máximos
si J = {1, 2}, entonces xJ = (x1 , x2 ). observados: 0.0613, 1.1158, 2.1703. La longitud L de cada intervalo es 1.0545. La frecuencia
Definición 1.1. Un vector aleatorio sobre un espacio de probabilidad (Ω, A, P) es una función relativa de la muestra sobre el primer intervalo es p1 = 8/10 y sobre el segundo p2 = 2/10 y
X = (X1 , . . . , Xn ) : Ω → Rn tal que para todo x ∈ Rn la correspondiente altura de cada rectángulo es p1 /L = 0.75865 y p2 /L = 0.18966.
{X ∈ Sx } = {ω ∈ Ω : X(ω) ≤ x} ∈ A.
1 1
Empírica Hitograma
0.9 Teórica 0.9 Densidad
1.1. Distribución conjunta 0.8 0.8
La función de distribución (conjunta) FX : Rn → [0, 1] del vector aleatorio X se define 0.7 0.7
por 0.6 0.6
0.5 0.5
FX (x) := P(X ∈ Sx ) (1) 0.4 0.4
0.3 0.3
Cálculo de probabilidades. La función de distribución conjunta resume toda la infor- 0.2 0.2
mación relevante sobre el comportamiento de las variables aleatorias X1 , . . . , Xn . Para fijar 0.1 0.1
ideas, consideremos el caso más simple: n = 2. Si a1 < b1 y a2 < b2 vale que1 0

0 1 2 3 4 5
0
0 1 2 3 4 5 6 7
P(a1 < X1 ≤ b1 , a2 < X2 ≤ b2 ) = F (b1 , b2 ) − F (a1 , b2 ) − F (b1 , a2 ) + F (a1 , a2 ). (2) (a) (b)
La identidad (2) permite calcular la probabilidad de observar al vector (X1 , X2 ) en el

rectángulo (a1 , b1 ] × (a2 , b2 ]. Figura 7: (a) Gráficos de la función de distribución empı́rica F10 (t) correspondiente a la
La fórmula n-dimensional análoga de (2) es complicada y no es relevante para el desarrollo muestra dada en (32) y de la función de distribución de T . (b) Histograma correspondiente a
posterior. (Se obtiene aplicando la fórmula de inclusión-exclusión para calcular la probabilidad la misma muestra y gráfico de la densidad de T .
de la unión de eventos.)
1
Ver la Figura 1.
2 19
Para producir los gráficos de la Figura 7 usamos las siguientes rutinas en Octave.
Rutina para simular 10 valores de una exponencial de intensidad 1
U=rand(1,10);
Vectores aleatorios: marginales e independencia
T=-log(1-U); (Borradores, Curso 23)
Rutina para graficar la función de distribución empı́rica de la muestra T Sebastian Grynberg
t=sort(T); 25 de marzo 2013

s=empirical_cdf(t,t);
stairs([t(1),t],[0 s])
Rutina para graficar un histograma de la muestra T
[f,c]=hist(T,2);
p=f/10;
L=c(2)-c(1);
bar(c,p/L,1,’w’)
Usando rutinas similares para muestras de tamaño 100 se obtienen los siguientes gráficos.
1 1
Hitograma
0.9 0.9 Densidad
0.8 0.8
0.7 0.7
0.6 0.6
0.5 0.5
0.4 0.4
0.3 0.3
0.2 0.2
0.1 Empírica 0.1

Teórica
0 0
0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7
(a) (b)
Figura 8: (a) Gráficos de la función de distribución empı́rica F100 (t) correspondiente a una
muestra de tamaño 100 de una variable T con distribución exponencial de intensidad 1 y de Um coup de dés jamais n’abolira le hasard
la función de distribución de T . (b) Histograma correspondiente a la misma muestra y gráfico (Stéphane Mallarmé)
de la densidad de T .
20 1
2. Variables truncadas
P
Demostración. Inmediata de la fórmula (35) y de observar que i≥1 1{X ∈ Bi } = 1.
Ejemplo 2.9 (Dividir y conquistar). Todas las mañanas Lucas llega a la estación del subte Sea X una variable aleatoria definida sobre un espacio de probabilidad (Ω, A, P). Sea
entre las 7:10 y las 7:30 (con distribución uniforme en el intervalo). El subte llega a la estación B ⊂ R un conjunto tal que X −1 (B) = {ω ∈ Ω : X(ω) ∈ B} ∈ A y tal que P(X ∈ B) > 0.
cada quince minutos comenzando a las 6:00. ¿Cuál es la densidad de probabilidades del tiempo Truncar la variable aleatoria X al conjunto B significa condicionarla a tomar valores en
que tiene que esperar Lucas hasta subirse al subte? el conjunto B.
Sea X el tiempo de llegada de Lucas a la estación del subte, X ∼ U[7:10, 7:30]. Sea Y Mediante X|X ∈ B designaremos la variable aleatoria obtenida por truncar X al conjunto
el tiempo de espera. Consideramos los eventos A = {7:10 ≤ X ≤ 7:15} = ”Lucas sube en el B. Por definición, la función de distribución de X|X ∈ B es
subte de las 7:15”; B = {7:15 < X ≤ 7:30} = ”Lucas sube en el subte de las 7:30”.
Condicionado al evento A, el tiempo de llegada de Lucas a la estación del subte es uniforme P(X ≤ x, X ∈ B)
FX|X∈B (x) = P(X ≤ x| X ∈ B) = . (33)
entre las 7:10 y las 7:15. En en ese caso, el tiempo de espera Y es uniforme entre 0 y 5 minutos. P(X ∈ B)
Análogamente, condicionado al evento B, Y es uniforme entre 0 y 15 minutos. La densidad
de probabilidades de Y se obtiene dividiendo y conquistando Caso absolutamente continuo. Si la variable aleatoria X es absolutamente continua con
densidad de probabilidades fX (x), la función de distribución de X|X ∈ B adopta la forma
5 1 15 1
fY (y) = 1{0 ≤ y ≤ 5} + 1{0 ≤ y ≤ 15} R Rx
20 5 20 15 {X≤x}∩{X∈B} fX (x)dx fX (x)1{x ∈ B}dx
1 1 FX|X∈B (x) = = −∞ . (34)
= 1{0 ≤ y ≤ 5} + 1{5 ≤ y ≤ 15}. P(X ∈ B) P(X ∈ B)
10 20
Por lo tanto, X|X ∈ B es una variable aleatoria absolutamente continua con densidad de
probabilidades
3. Bibliografı́a consultada fX (x)

fX|X∈B (x) = 1{x ∈ B}. (35)
P(X ∈ B)
Nota Bene. La densidad condicional fX|X∈B (x) es cero fuera del conjunto condicionante
1. Bertsekas, D. P., Tsitsiklis, J. N.: Introduction to Probability. M.I.T. Lecture Notes.
B. Dentro del conjunto condicionante la densidad condicional tiene exactamente la misma
(2000)
forma que la densidad incondicional, salvo que está escalada por el factor de normalización
2. Chung, K. L.: A Course in Probability Theory. Academic Press, San Diego. (2001) 1/P(X ∈ B) que asegura que fX|∈B (x) integra 1.
3. Durrett R.:Probability.Theory and Examples. Duxbury Press, Belmont. (1996) Ejemplo 2.1 (Exponencial truncada a la derecha). Sea T una variable aleatoria con distribu-
ción exponencial de intensidad λ > 0 y sea t0 > 0. Según la fórmula (35) la variable aleatoria
4. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 1. John T truncada a la semi-recta (t, +∞), T | T > t0 , tiene la siguiente densidad de probabilidades
λe−λt
5. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 2. John fT | T >t0 (t) = 1{t > t0 } = e−λ(t−t0 ) 1{t − t0 > 0} = fT (t − t0 ).
e−λt0
En otros términos, si T ∼ Exp(λ), entonces T | T > t0 ∼ t0 +Exp(λ).
6. Grimmett, G. R., Stirzaker, D. R.: Probability and Random Processes. Oxford Univer-
sity Press, New York. (2001)
Caso discreto. El caso discreto se trata en forma análoga a la anterior. La función de
7. Johnson, N. L., Kotz, S., Balakrishnan, N.: Continuous Univariate Distributions. Vol. probabilidad de X|X ∈ B adopta la forma
1. John Wiley & Sons, New York. (1995) P(X = x)
pX|X∈B (x) = 1{x ∈ B}. (36)
8. Kolmogorov, A. N.: Foundations of the Theory of Probability. Chelsea Publishing Co., P(X ∈ B)
New York. (1956)
Ejemplo 2.2 (Dado equilibrado). Sea X el resultado del tiro de un dado equilibrado y sea
9. Maronna R.: Probabilidad y Estadı́stica Elementales para Estudiantes de Ciencias. Ed- B = {2, 4, 6}. El evento “el resultado del tiro es un número par” es X ∈ B. Aplicando la
itorial Exacta, La Plata. (1995). fórmula anterior obtenemos
10. Pugachev, V. S.: Introducción a la Teorı́a de las Probabilidades. Mir, Moscú. (1973) 1/6 1
pX|X∈B (x) = 1{x ∈ {2, 4, 6}} = 1{x ∈ {2, 4, 6}}. (37)
1/2 3
11. Ross, S.: Introduction to Probability Models. Academic Press, San Diego. (2007)
24 21
2.1. Perdida de memoria Si T representa el tiempo de espera, T ∼ Exp(1/10). La primer probabilidad es
1 3
Ejemplo 2.3. Lucas camina hacia la parada del colectivo. El tiempo, T , entre llegadas P(T > 15) = e− 10 15 = e− 2 ≈ 0.220
de colectivos tiene distribución exponencial de intensidad λ. Supongamos que Lucas llega t
minutos después de la llegada de un colectivo. Sea X el tiempo que Lucas tendrá que esperar La segunda pregunta interroga por la probabilidad de que habiendo esperado 10 minutos
hasta que llegue el próximo colectivo. Cuál es la distribución del tiempo de espera X? tengamos que esperar al menos 5 minutos más. Usando la propiedad de falta de memoria de
Designamos mediante A = {T > t} el evento “Lucas llegó t minutos después de la llegada la exponencial, dicha probabilidad es
de un colectivo”. Tenemos que 1 1
P(T > 5) = e− 10 5 = e− 2 ≈ 0.604.
P(T > t + x, T > t)
P(X > x|A) = P(T > t + x|T > t) =
P(T > t)
P(T > t + x) e−λ(t+x) 2.2. Caracterización cualitativa de la distribución exponencial
= = = e−λx .
P(T > t) e−λt
La propiedad de pérdida de memoria caracteriza a la distribución exponencial.
Teorema 2.7. Sea T una variable aleatoria continua a valores en R+ . Si T pierde memoria,
Definición 2.4. Se dice que una variable aleatoria T no tiene memoria, o pierde memoria, si entonces T ∼ Exp(λ), donde λ = − log P(T > 1).
P(T > s + t|T > t) = P(T > s) para todo s, t ≥ 0. (38)
Demostración (a la Cauchy). Sea G(t) := P(T > t). De la ecuación (39) se deduce que
La condición de pérdida de memoria es equivalente a la siguiente
G(s + t) = G(s)G(t). (41)
P(T > s + t) = P(T > s)P(T > t). (39) La única función continua a derecha que satisface la ecuación funcional (41) es
En efecto, basta observar que P(T > s + t, T > t) = P(T > s + t) y usar la definición de G(t) = G(1)t . (42)
probabilidad condicional. m
m 2 1 1

Para ello basta ver que G n = G(1) . Si vale (41), entonces G
n
n = G n +n =
2
G n1 G n1 = G n1 y repitiendo el argumento se puede ver que

Nota Bene. Si se piensa que T es el tiempo para completar cierta operación, la ecuación
(38) establece que si a tiempo t la operación no ha sido completada, la probabilidad de que m m
1
la operación no se complete a tiempo s + t es la misma que la probabilidad inicial de que la G =G . (43)
operación no haya sido completada a tiempo s. n n
n
En particular, si m = n se obtiene G (1) = G n1 . Equivalentemente,

Lema 2.5. La variable exponencial no tiene memoria.

1 1
Demostración Si T ∼ Exp(λ), entonces G = G(1) n (44)

n
P(T > t) = e−λt para todo t ≥ 0. (40) De las identidades (43) y (44) se deduce que
m m
Usando (40) se prueba inmediatamente que la ecuación (39) se satisface cuando T tiene G = G(1) n . (45)
distribución exponencial (pues e−λ(s+t) = e−λs e−λt ). n
Ahora bien, debido a que G(1) = P(T > 1) ∈ (0, 1), existe λ > 0 tal que G(1) = e−λ
t
Nota Bene. Si modelamos el tiempo para completar cierta operación por una variable (λ = − log G(1)). Reemplazando en (42) se obtiene G(t) = e−λ = e−λt .
aleatoria T con distribución exponencial, la propiedad de pérdida de memoria implica que
mientras la operación no haya sido completada, el tiempo restante para completarla tiene la 2.3. Dividir y conquistar
misma función de distribución, no importa cuando haya empezado la operación.
Teorema 2.8. Sea X una variable aleatoria absolutamente continua con densidad de proba-
Ejemplo 2.6. Supongamos que el tiempo de espera para recibir un mensaje tenga distribu- bilidades fX (x). Sea (Bi )i≥1 una familia de subconjuntos disjuntos dos a dos de la recta real
ción exponencial de intensidad 1/10 minutos. Cuál es la probabilidad de que tengamos que tales que {X ∈ Bi } ∈ A y P(X ∈ Bi ) > 0 para todo i ≥ 1. Si Ω = ∪i≥1 {X ∈ Bi }, entonces
esperar más de 15 minutos para recibirlo? Cuál es la probabilidad de que tengamos que es- X
perar más de 15 minutos para recibir el mensaje dado que hace más de 10 minutos que lo fX (x) = fX|X∈Bi (x)P(X ∈ Bi ). (46)
estamos esperando? i≥1
22 23
1.3. Funciones inyectivas suaves 1.1. Definición
Teorema 1.9 (Cambio de variables). Sea X una variable aleatoria absolutamente continua Definición 1.1 (Esperanza de una variable discreta). Sea X una variable aleatoria discreta.
con densidad de probabilidades fX (x). Sea Y = g(X), donde g es una función monótona La esperanza de X, denotada por E[X], es el promedio ponderado
con derivada no nula. Entonces Y es absolutamente continua y admite una densidad de X
probabilidades de la forma E[X] := xP(X = x), (1)
x∈A

fX (x)
fY (y) = ′ . (9)
|g (x)| x=g−1 (y) donde A = {x ∈ R : F (x) − F (x−) > 0} es el conjunto de todos los átomos de la función
distribución de X.
Demostración.
1. La función g es creciente: g(x1 ) ≤ g(x2 ) para x1 ≤ x2 . En tal caso la función inversa Ejemplo 1.2 (Esperanza de la función indicadora). Sea (Ω, A, P) un espacio de probabilidad.
g −1 también es creciente. En consecuencia, Para cualquier evento A ∈ A vale que
FY (y) = P(Y ≤ y) = P(g(X) ≤ y) = P X ≤ g −1 (y) = FX g −1 (y) .

(10) E[1{ω ∈ A}] = 0 · (1 − P(A)) + 1 · P(A) = P(A). (2)
La función FY (y) es derivable porque es una composición de funciones derivables. Derivando
con respecto a y y usando la regla de la cadena se obtiene
d d fX (g −1 (y))
FY (y) = FX (g −1 (y)) = ′ −1 . La esperanza como centro de gravedad. La noción de esperanza es análoga a la noción
dy dy g (g (y))
de centro de gravedad para un sistema de partı́culas discreto.
2. La función g es decreciente: g(x1 ) ≥ g(x2 ) para x1 ≤ x2 . En este caso la función inversa Se consideran n partı́culas ubicadas en los puntos x1 , . . . , xP
n cuyos pesos respectivos son
g −1 también es decreciente. En consecuencia, p(x1 ), . . . , p(xn ). No se pierde generalidad si se supone que n
i=1 p(xi ) = 1. El centro de
FY (y) = P(Y ≤ y) = P(g(X) ≤ y) = P X ≥ g −1 (y) = 1 − FX g −1 (y) . gravedad, c, del sistema es el punto respecto de la cual la suma de los momentos causados

(11)
por los pesos p(xi ) es nula. Observando que
Derivando con respecto a y se obtiene
d d fX (g −1 (y)) k k
1 − FX (g −1 (y)) = − ′ −1
X X
FY (y) = . (xi − c) p(xi ) = 0 ⇐⇒ c = xi p(xi )
dy dy g (g (y))
i=1 i=1
Corolario 1.10 (Cambio lineal). Dados a > 0 y b ∈ R, la densidad de probabilidades de resulta que el centro de gravedad del sistema coincide con la esperanza de una variable aleato-
Y = aX + b adopta la forma ria X a valores en {x1 , . . . , xn } tal que P(X = xi ) = p(xi ).

1 y−b
fY (y) = fX . (12)
a a c
En palabras, desde el punto de vista de la densidad de probabilidades, el cambio lineal
y = ax + b efectúa una traslación en b seguida de un cambio de escala de 1 en a sobre la
densidad original. Cuando el parámetro a se achica, los valores de Y tienden a estar más
concentrados (alrededor del valor medio) y cuando a se agranda, tienden a dispersarse. 1 3 6 10
Ejemplo 1.11 (Variables exponenciales). Se dice que la variable aleatoria Y tiene distribución
exponencial de intensidad λ > 0, y se denota Y ∼ Exp(λ), si Y = λ1 X, donde X es una
variable aleatoria absolutamente continua que admite una densidad de probabilidades de la Figura 1: Interpretación de la esperanza como centro de gravedad. Se considera un sis-
forma fX (x) = e−x 1{x ≥ 0}. De (12) se deduce que Y admite una densidad de probabilidades tema de cuatro “partı́culas” de pesos pi proporcionales a las áreas de los cı́rculos de radio
de la forma fY (y) = λe−λy 1{y ≥ 0}. 1/3, 2/3, 3/3, 4/3 centrados en los puntos xi = 1, 3, 6, 10, respectivamente. No se pierde gen-
Ejemplo 1.12 (Variables Normales). Sean µ ∈ R y σ > 0. Se dice que la variable aleatoria eralidad si se supone que el peso total
P del sistema es la unidad. El centro de gravedad del
Y tiene distribución normal de parámetros µ, σ 2 , y se denota Y ∼ N (µ, σ 2 ), si Y = σX + µ, sistema se encuentra en el punto c = 4i=1 xi pi = 227/30 = 7.56 . . .
donde X es una variable aleatoria absolutamente continua con densidad de probabilidades
2
ϕ(x) = √12π e−x /2 . De (12) se deduce que Y admite una densidad de probabilidades de la
2

1
forma fY (y) = √2πσ exp − (y−µ)
2σ 2
.
6 3
La esperanza como promedio. Sea X una variable aleatoria a valores x1 , . . . , xn con Ejemplo 1.8 (Variables discretas). Sea X una variable aleatoria discreta a valores (xi )i≥1 .
función de probabilidades De la relación Y = g(X) se deduce que los posibles valores de Y son yi = g(xi ), i ≥ 1. Si la
función de probabilidad de X está dada por pX (xi ) = pi , i ≥ 1, la función de probabilidad de
1
P(X = x) = 1{x ∈ {x1 , . . . , xn }}. Y se determina por
n X
pY (yi ) = P(Y = yi ) = P(X ∈ g −1 (yi )) = px .
Conforme a la Definición 1.1 la esperanza de X es
x∈g −1 (yi )
n n
X 1X
E[X] = xi P(X = xi ) = xi . (3)
n
i=1 i=1
Dicho en palabras: la esperanza de una variable aleatoria uniformemente distribuida sobre los Ejercicios adicionales
valores x1 , x2 , . . . , xn coincide con el promedio de dichos valores.
1. Sea X una variable aleatoria discreta tal que P (X = −1) = 1/2, P(X = 0) = 1/4 y
Ejemplo 1.3 (Dado equilibrado). Sea X el resultado del lanzamiento de un dado equilibrado. P(X = 1) = P(X = 2) = 1/8. Hallar la función de probabilidad de Y para Y = 2X + 1 y para
De acuerdo con (3) la esperanza de X es Y = 2X 2 + 1.
6
1X 21 7
E[X] = x= = .
6 6 2 1.2. Funciones a trozos: dividir y conquistar
x=1
Sea X una variable y sea A1 , A2 , . . . una partición de R tal que P(X ∈ Ai ) > 0 para todo
i ≥ 1. Consideramos una función a trozos definida por
Ejemplo 1.4 (Uniforme sobre el “intervalo” {1, 2, . . . , n}). La variable aleatoria del Ejemplo X
1.3 es un caso particular de una variable aleatoria discreta X uniformemente distribuida sobre g(x) = gi (x)1{x ∈ Ai },
el “intervalo” de números enteros {1, 2, . . . , n}. De acuerdo con (3) la esperanza de X es i≥1
n donde, para cada i ≥ 1, gi : R → R, es una función tal que gi (X) es una variable aleatoria. Si
1X 1 n(n + 1) 1+n se quiere hallar la distribución de
E[X] = x= = .
n n 2 2 X
x=1 Y = g(X) = gi (X)1{X ∈ Ai }
i≥1
se puede hacer lo siguiente: considerar las variables truncadas Xi = X|X ∈ Ai , hallar las
Ejemplo 1.5 (Moneda equilibrada). Sea N la cantidad de veces que debe lanzarse una mon- distribuciones de las variables Yi = gi (Xi ) y luego ponderarlas con los pesos P(X ∈ Ai ):
eda equilibrada hasta que salga cara. N es una variable aleatoria discreta a valores 1, 2, . . . tal X
que P(N = n) = (1/2)n , n = 1, 2, . . . . De acuerdo con la definición 1.1, la esperanza de N es FY (y) = FYi (y)P(X ∈ Ai ). (6)
i≥1
∞ ∞ n
X X 1 En efecto, por una parte tenemos que
E[N ] = nP(N = n) = n .
2    
n=1 n=1 X X X
P∞ FY (y) = P  gj (X)1{X ∈ Aj } ≤ y  = P gj (X)1{X ∈ Aj } ≤ y, X ∈ Ai 
Derivando ambos lados de la igualdad n=0 xn − x)−1 , que vale para |x| < 1, se deduce
= (1 P j≥1 i≥1 j≥1
que ∞ n−1 = (1 − x)−2 y de allı́ resulta que ∞ n −2
P
n=0 nx n=1 nx = x(1 − x) . Evaluando en X X
P X ∈ gi−1 (−∞, y] ∩ Ai .

x = 1/2 se obtiene que = P (gi (X) ≤ y, X ∈ Ai ) = (7)
i≥ i≥1
∞ n −2
X 1 1 1 Por otra parte,
E[N ] = n = = 2.
2 2 2 P(X ∈ g −1 (−∞, y] ∩ Ai )
n=1
FYi (y) = P(gi (Xi ) ≤ y) = P(Xi ∈ g −1 (−∞, y]) = .
P(X ∈ Ai )
Equivalentemente,
La noción de esperanza se extiende a variables aleatorias absolutamente continuas cam-
P (X ∈ g −1 (−∞, y] ∩ Ai ) = FYi (y)P(X ∈ Ai ). (8)
biando en (1) la suma por la integral y la función de probabilidades P (X = x), x ∈ A, por la
densidad de probabilidades de la variable X. Combinando (7) y (8) se obtiene (6).
4 5
El siguiente ejemplo puede considerarse un prototipo que ilustra cómo tratar con las Definición 1.6 (Esperanza de una variable absolutamente continua). Sea X una variable
funciones de variables aleatorias cuando no son inyectivas. aleatoria absolutamente continua con densidad de probabilidades fX (x). La esperanza de X,
Ejemplo 1.5 (Prototipo). Sea X una variable aleatoria cualquiera y sea Y = X 2 . Queremos denotada por E[X], se define por
determinar la distribución de Y . Z ∞
E[X] := xfX (x)dx. (4)
1. Cálculo explı́cito de la función de distribución. La función de distribución de Y se −∞
calcula observando que g(x) = x2 y utilizando la fórmula: FY (y) = P X ∈ g −1 ((−∞, y]) . En
Ejemplo 1.7 (Fiabilidad). Sea T el tiempo de espera hasta que ocurre la primer falla en un
este caso, el conjunto g −1 ((−∞, y]) adopta la forma
√ √ sistema electrónico con función intensidad de fallas de la forma λ(t) = 2t1{t > 0}. La función
[− y, y] si y ≥ 0, de distribución de T es FT (t) = 1 − exp −t2 1{t > 0}. En consecuencia, T es una

g −1 ((−∞, y]) = x ∈ R : x2 ≤ y = variable

∅ si y < 0. aleatoria absolutamente continua con densidad de probabilidad fT (t) = 2t exp −t2 1{t > 0}.
Por lo tanto, De acuerdo con la definición 1.6, la esperanza de T es
√ √ √ √ Z ∞ Z ∞ Z ∞ √
FY (y) = P (− y ≤ X ≤ y ) 1{y ≥ 0} = (FX ( y) − FX (− y−)) 1{y ≥ 0}. (3) π
E[T ] = tfT (t)dt = t2t exp(−t2 )dt = exp(−t2 )dt = .
−∞ 0 0 2
En particular, si X es continua, P(X = x) = 0 para todo x ∈ R y la identidad (3) adopta la
forma La tercera igualdad se deduce de la fórmula de integración por partes aplicada a u = t y
√
√ √ R∞
v ′ = 2t exp(−t2 ) y la cuarta se deduce de la identidad 0 exp(−x2 /2)dx = 2π/2 mediante
FY (y) = (FX ( y) − FX (− y)) 1{y > 0}. (4) √
el cambio de variables t = x/ 2.
2. Cálculo explı́cito de la densidad de probabilidades. Si X es absolutamente continua
con densidad de probabilidades fX (x), la densidad de probabilidades de Y = X 2 se obtiene
Extendiendo la noción a variables mixtas. La noción de esperanza para variables
derivando la función de distribución FY (y). De la identidad (4) se deduce que:
mixtas se obtiene combinando las nociones anteriores.
d √ 1 √ 1
fY (y) = FY (y) = fX ( y) √ − fX (− y) √ 1{y > 0} Definición 1.8 (Esperanza de una variable mixta). Sea X una variable aleatoria mixta con
dy 2 y −2 y
función de distribución FX (x). La esperanza de X, denotada por E[X], se define de la siguiente
1 √ √
= √ (fX ( y) + fX (− y)) 1{y > 0}. (5) manera:
2 y Z ∞
X
E[X] := xP(X = x) + xFX′ (x)dx, (5)
x∈A −∞
Ejemplo 1.6 (De continua a discreta). Sea U ∼ U(0, 1]. Hacemos Y = [10 U ], donde [x]
representa la parte entera de x ∈ R. Queremos determinar la función de probabilidad de Y . donde A = {x ∈ R : FX (x) − FX (x−) > 0} es el conjunto de todos los átomos de FX (x) y
En primer lugar observamos que la variable aleatoria Y es el primer dı́gito del desarrollo FX′ (x) es una función que coincide con la derivada de FX (x) en todos los puntos donde esa
decimal de un número elegido al azar sobre el intervalo (0, 1). Los posibles valores de Y son función es derivable y vale 0 en otro lado.
0, 1, . . . , 9. Para cada y ∈ {0, 1, . . . , 9} vale que
Ejemplo 1.9 (Mixtura). Sea X una variable aleatoria mixta cuya función de distribución es
y y+1 1
FX (x) = 2x+5

P(Y = y) = P <U ≤ = . 8 1{−1 ≤ x < 1} + 1{x ≥ 1}. De acuerdo con la fórmula (5), la esperanza de
10 10 10 X es
En otras palabras, Y ∼ U{0, 1, . . . , 9}. Z 1 Z 1
3 1 2 1
Ejemplo 1.7. Sea T ∼ Exp (λ) la duración en minutos de una llamada telefónica. Se factura E[X] = −1 · P(X = −1) + 1 · P(X = 1) + FX′ (x)dx = − + + dx = .
−1 8 8 −1 8 4
un pulso cada t0 minutos o fracción. Queremos determinar la distribución de la cantidad de
pulsos facturados por la llamada.
La cantidad de pulsos facturados por la llamada se describe por:
X Nota Bene. En todas las definiciones anteriores, se presupone que las series y/o integrales
N= n1{(n − 1)t0 < T ≤ nt0 }.
involucradas son absolutamente convergentes.
n≥1
Notando que N > n ⇐⇒ T > nt0 obtenemos que Ejemplo 1.10 (Distribución de Cauchy). Sea X una variable aleatoria con distribución de
n Cauchy. Esto es, X es absolutamente continua y admite una densidad de probabilidades de
P (N > n) = e−λnt0 = e−λt0 = P(T > t0 )n . la forma
1
Por lo tanto, N ∼ Geométrica (P(T ≤ t0 )). f (x) = .
π(1 + x2 )
4 5
1
Debido a que
∞ ∞
|x|
Z Z
|x|f (x)dx = dx = ∞,
−∞ −∞ π(1 + x2 ) Θ
X no tiene esperanza.
Teorema 1.11. Sea X una variable aleatoria no negativa (i.e., FX (x) = P(X ≤ x) = 0 para
todo x < 0). Vale que
Z ∞
E[X] = [1 − FX (x)] dx. (6)
0
0 X
Demostración. El argumento principal está contenido en la Figura 2. El caso general se
deduce usando técnicas de “paso al lı́mite”.
Figura 1: Péndulo.
Si el ángulo Θ es una variable aleatoria uniformemente distribuida sobre el intervalo (− π2 , π2 ),

1
111111111111111111111111111
000000000000000000000000000
000000000000000000000000000
111111111111111111111111111
000000000000000000000000000
111111111111111111111111111
cuál es la distribución de X?
000000000000000000000000000
111111111111111111111111111 Primero observamos que para cada θ ∈ (−π/2, π/2) tenemos que
p k
000000000000000000000000000
111111111111111111111111111
000000000000000000000000000
111111111111111111111111111
1111111111111111111
0000000000000000000
000000000000000000000000000
111111111111111111111111111
P(Θ ≤ θ) =
θ − (−π/2)
=
θ + π/2 1 θ
= + .
111111111111111
000000000000000 p
000000000000000000000000000
111111111111111111111111111
k−1 π/2 − (−π/2) π 2 π
000000000000000000000000000
111111111111111111111111111 De allı́ se deduce que
000000000000000000000000000
111111111111111111111111111
000000000000000000000000000
111111111111111111111111111
p 3 1 1
000000000000000000000000000
111111111111111111111111111
000000000000000000000000000
111111111111111111111111111
P(X ≤ x) = P(tan Θ ≤ x) = P(Θ ≤ arctan x) = + arctan x,
1111111111
0000000000
000000000000000000000000000
111111111111111111111111111
2 π
000000000000000000000000000
111111111111111111111111111 y derivando obtenemos que
000000000000000000000000000
111111111111111111111111111
1111
0000
p 2 1
000000000000000000000000000
111111111111111111111111111
000000000000000000000000000
111111111111111111111111111
fX (x) =
π(1 + x2 )
.
000000000000000000000000000
111111111111111111111111111
p 1
0
x 1 x x x 2 x 3 k−1 k
Teorema 1.2. Sea X una variable aleatoria continua con función de distribución creciente.
Entonces, Y = FX (X) ∼ U(0, 1).
Figura 2: Argumento geométrico que muestra la validez de la identidad (6) en el caso en que
X es no negativa, discreta y a valores 0 ≤ x1 < x2 < · · · < xk . Si pi = P(X = xi ), el área Demostración. El análisis se reduce a examinar el comportamiento de la función de dis-
de la región sombreada es la suma x1 p1 + · · · + xk pk = E[X] de las áreas de los rectángulos tribución de Y sobre el intervalo (0, 1). Para cada y ∈ (0, 1) vale que
horizontales y coincide con la integral de la altura P(X > x). FY (y) = P(Y ≤ y) = P(FX (X) ≤ y) = P(X ≤ FX−1 (y)) = FX (FX−1 (y)) = y.
Corolario 1.12. Sea X una variable aleatoria con función de distribución FX (x). Vale que Corolario 1.3. Sea X una variable aleatoria continua con función de distribución creciente.
Sea Y una variable aleatoria cualquiera. Entonces X puede transformarse en una copia de Y
∞ 0
haciendo lo siguiente: Ŷ = FY−1 (FX (X)), donde FY−1 es la inversa generalizada de Y .
Z Z
E[X] = [1 − FX (x)] dx − FX (x)dx. (7)
0 −∞ Ejemplo 1.4. Construir una moneda equilibrada X usando una variable aleatoria T con
distribución exponencial de intensidad 1.
Demostración. Ejercicio.
1
X̂ = 1 < 1 − e−T < 1 .
2
6 3
Índice Nota Bene. Las identidades (6) y (7) son interesantes porque muestran que para calcular
la esperanza de una variable aleatoria basta conocer su función de distribución. De hecho, la
1. Funciones de variables aleatorias 2 identidad (7) ofrece una definición alternativa y unificada de la noción de esperanza.
1.1. Método básico: eventos equivalentes . . . . . . . . . . . . . . . . . . . . . . . 2
Ejemplo 1.13. Una máquina fue diseñada para prestar servicios en una instalación produc-
1.2. Funciones a trozos: dividir y conquistar . . . . . . . . . . . . . . . . . . . . . 5
tiva. La máquina se enciende al iniciar la jornada laboral y se apaga al finalizar la misma. Si
1.3. Funciones inyectivas suaves . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
durante ese perı́odo la máquina falla, se la repara y en esa tarea se consume el resto de la
1.4. Funciones suaves . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
jornada.
2. Funciones de vectores aleatorios 7 Suponiendo que la función intensidad de fallas de la máquina es una constante λ > 0 (y
2.1. Método básico: eventos equivalentes . . . . . . . . . . . . . . . . . . . . . . . 7 que el tiempo se mide en jornadas laborales), hallar el máximo valor de λ que permita asegurar
2.1.1. Suma de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 con una probabilidad mayor o igual que 2/3 que la máquina prestará servicios durante una
2.1.2. Mı́nimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 jornada laboral completa. Para ese valor de λ, hallar (y graficar) la función de distribución
2.2. El método del Jacobiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 del tiempo, T , de funcionamiento de la máquina durante una jornada laboral y calcular el
2.3. Funciones k a 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 tiempo medio de funcionamiento, E[T ].
3. Mı́nimo y máximo de dos exponenciales independientes 18

Solución. Si T1 es el tiempo que transcurre desde que se enciende la máquina hasta que
4. Funciones regulares e independencia 19 ocurre la primer falla, el evento “la máquina funciona durante una jornada laboral completa”
se describe mediante {T1 > 1}. Queremos hallar el máximo λ > 0 tal que P(T1 > 1) ≥ 2/3.
5. Bibliografı́a consultada 20 Debido a que la función intensidad de fallas es una constante λ se tiene que P(T1 > t) = e−λt .
En consecuencia, P(T1 > 1) ≥ 2/3 ⇐⇒ e−λ ≥ 2/3 ⇐⇒ λ ≤ − log(2/3). Por lo tanto,
λ = − log(2/3). En tal caso, P(T > 1) = 2/3.
1. Funciones de variables aleatorias
Sea X una variable aleatoria definida sobre un espacio de probabilidad (Ω, A, P). Sea
1
g : D ⊆ R → R una función cuyo dominio D contiene al rango de X: X(Ω) := {x(ω) : ω ∈ Ω}.
Entonces Y = g(X) está bien definida y será una variable aleatoria si y sólo si
{ω ∈ Ω : g(X) ≤ y} ∈ A para todo y ∈ R. (1)
En palabras, si g −1 ((−∞, y])

:= {x ∈ R : g(x) ≤ y}, el conjunto {X ∈ debe tener g −1 (−∞, y]}
asignada probabilidad. Este es tı́picamente el caso. Por ejemplo, si X es discreta, cualquier
función g cuyo dominio contenga al rango de X satisface (1). Si X no es discreta, cualquier 1/3
función g seccionalmente continua cuyo dominio contenga al rango de X satisface (1).
1.1. Método básico: eventos equivalentes

Si queremos hallar la función de distribución de Y = g(X) tenemos que calcular 0 1
FY (y) = P(Y ≤ y) = P(g(X) ≤ y) = P(X ∈ g −1 (−∞, y]). (2)
Los siguientes ejemplos ilustran el método básico para hacerlo. Figura 3: Gráfico de la función de distribución de T .
Ejemplo 1.1 (Del péndulo a la distribución de Cauchy). Sea Θ el ángulo de un péndulo
El tiempo de funcionamiento de la máquina por jornada laboral es T = mı́n{T1 , 1}. Para
medido desde la vertical cuyo extremo superior se encuentra sostenido del punto (0, 1). Sea
t > 0 vale que
(X, 0) el punto de intersección de la recta que contiene al péndulo y el eje x -ver la Figura 1-.
Trigonometrı́a mediante, sabemos que FT (t) = P(T ≤ t) = 1 − P(T > t) = 1 − P(mı́n{T1 , 1} > t)
= 1 − P(T1 > t)1{1 > t} = 1 − elog(2/3)t 1{t < 1}
X = tan Θ
= 1 − elog(2/3)t 1{0 ≤ t < 1} + 1{t ≥ 1}.
2 7
Como T > 0 y conocemos R ∞ la función P(T > t) lo más sencillo para calcular la esperanza
es usar la fórmula E[T ] = 0 P(T > t)dt:
Z 1 1
elog(2/3)t
Z ∞
E[T ] = P(T > t)dt = elog(2/3)t dt = =
2/3 − 1 Transformaciones de variables aleatorias
0 0 log(2/3) log(2/3)
−1/3
0 (Borradores, Curso 23)
= ≈ 0.822...
log(2/3)
Sebastian Grynberg
3 de abril de 2013
1.2. Cálculo
Sea X una variable aleatoria cuya función de distribución conocemos. Queremos calcular
la esperanza de alguna función de X, digamos, g(X). ¿Cómo se puede efectuar ese cálculo?
Una manera es la siguiente: (1) Hallamos la función de distribución de la variable aleatoria
Y = g(X) a partir del conocimiento que tenemos sobre la distribución de X:
FY (y) := P(Y ≤ y) = P(g(X) ≤ y) = P X ∈ g −1 (−∞, y] .

(2) Usando la distribución de Y calculamos la esperanza E[g(X)] = E[Y ] por definición.

Ejemplo 1.14. Sea X una variable aleatoria discreta tal que P(X = 0) = 0.2, P(X = 1) = 0.5
y P(X = 2) = 0.3. Queremos calcular E[X 2 ]. Poniendo Y = X 2 obtenemos una variable
aleatoria a valores en {02 , 12 , 22 } tal que P(Y = 0) = 0.2 P(Y = 1) = 0.5 y P(Y = 4) = 0.3.
Por definición, E[X 2 ] = E[Y ] = 0(0.2) + 1(0.5) + 4(0.3) = 1.7.
Ejemplo 1.15. Sea X una variable aleatoria con distribución uniforme sobre el intervalo
(0, 1). Queremos calcular E[X 3 ]. Ponemos Y = X 3 y calculamos su función de distribución:
para cada 0 < y < 1 vale que FY (y) = P(Y ≤ y) = P(X 3 ≤ y) = P(X ≤ y 1/3 ) = y 1/3 .
Derivando FY (y) obtenemos la densidad de probabilidad de Y : fY (y) = 31 y −2/3 1{0 < y < 1}.
Por definición,
1 3 4/3 1 1
Z 1
1 1 1/3
Z ∞
1
Z
E[X 3 ] = E[Y ] = yfY (y)dy = y y −2/3 dy = y dy = y = .
−∞ 0 3 3 0 34 0 4
Nota Bene. Existe una manera mucho más simple para calcular la esperanza de Y = g(X)
que no recurre al procedimiento de determinar primero la distribución de Y para luego calcular
su esperanza por definición. El Teorema siguiente muestra cómo hacerlo.
Teorema 1.16. Sea X una variable aleatoria y sea g : R → R una función tal que g(X)
también es una variable aleatoria.
(a) Si X es discreta con átomos en el conjunto A, entonces Mi unicornio azul ayer se me perdió,
X pastando lo dejé y desapareció.
E[g(X)] = g(x)P(X = x). (8)
x∈A (Silvio Rodrı́guez)
(b) Si X es continua con densidad de probabilidad fX (x) y g(X) es continua, entonces
Z ∞
E[g(X)] = g(x)fX (x)dx. (9)
−∞
8 1
5. Distribución normal. (c) Si X es mixta,
Sean µ ∈ R y σ > 0. Se dice que la variable aleatoria X tiene distribución normal de X Z ∞
parámetros µ, σ 2 , y se denota X ∼ N (µ, σ 2 ), si X es absolutamente continua con función E[g(X)] = g(x)P(X = x) + g(x)FX′ (x)dx, (10)
x∈A −∞
densidad de probabilidades
1 2 2
donde A es el conjunto de todos los átomos de FX (x) y FX′ (x) es un función que coincide
f (x) = √ e−(x−µ) /2σ .
2πσ con la derivada de FX (x) en todos los puntos donde esa función es derivable y vale cero en
El cálculo de E[X] y V(X) se reduce al caso X ∼ N (0, 1). Para ello, basta observar que otro lado.
Y ∼ N (µ, σ 2 ) si y solo si Y = σX + µ, donde X ∼ N (0, 1) y usar las identidades E[σX + µ] =
σE[X] + µ y V(σX + µ) = σ 2 V(X). En lo que sigue suponemos que X ∼ N (0, 1) y denotamos Demostración. Para simplificar la demostración supondremos que g ≥ 0.
su densidad mediante (a) Por el Teorema 1.11 tenemos que
1 2
ϕ(x) = √ e−x /2 !
2π Z ∞ Z ∞ X
E[g(X)] = P(g(X) > y)dy = 1{g(x) > y}P(X = x) dy
Es evidente que E[X] = 0. En consecuencia, 0 0 x∈A
Z ∞ X Z ∞ X
V(X) = E[X 2 ] = x2 ϕ(x)dx = 1{g(x) > y}dy P(X = x) = g(x)P(X = x).
−∞ x∈A 0 x∈A
Observando que ϕ′ (x) = −xϕ(x) e integrando por partes se obtiene, (b) Por el Teorema 1.11 tenemos que
Z ∞ ∞ Z ∞ !
Z ∞ Z ∞ Z
V(X) = x(xϕ(x))dx = −xϕ(x) + ϕ(x)dx = 0 + 1. E[g(X)] = P(g(X) > y)dy = f (x)dx dy
−∞ −∞ −∞
0 0 {x: g(x)>y}
!
Z ∞ Z g(x) Z ∞
= dy f (x)dx = g(x)f (x)dx.
−∞ 0 −∞
(c) Se obtiene combinando adecuadamente los resultados (a) y (b).
Ejemplo 1.17. Aplicando la parte (a) del Teorema 1.16 al Ejemplo 1.14 se obtiene
1. Bertsekas, D. P., Tsitsiklis, J. N.: Introduction to Probability. M.I.T. Lecture Notes.
E[X 2 ] = 02 (0.2) + 12 (0.5) + 22 (0.3) = 1.7.
(2000)
2. Billingsley, P.: Probability and Measure. John Wiley & Sons, New York. (1986)
Ejemplo 1.18. Aplicando la parte (b) del Teorema 1.16 al Ejemplo 1.15 se obtiene
3. Durrett, R. Elementary Probability for Applications. Cambridge University Press, New
York. (2009) Z 1
1
E[X 3 ] = x3 dx = .
4. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 1. John 0 4
5. Kolmogorov, A. N.: The Theory of Probability. Mathematics. Its Content, Methods, Teorema 1.19 (Cálculo de Esperanzas). Sea X un vector aleatorio y sea g : Rn → R una
and Meaning. Vol 2. The M.I.T. Press, Massachusetts. (1963) pp. 229-264. función tal que g(X) es una variable aleatoria. Si la variable aleatoria g(X) tiene esperanza
finita, entonces
6. Ross, S.: Introduction to Probability and Statistics for Engineers and Scientists. Aca-
demic Press, San Diego. (2004)  P
 x g(x)pX (x) en el caso discreto,
7. Ross, S.: Introduction to Probability Models. Academic Press, San Diego. (2007) E[g(X)] = R
Rn g(x)fX (x) dx en el caso continuo,

Sons Ltd. (2004) donde, según sea el caso, pX (x) y fX (x) son la función de probabilidad y la densidad conjunta
del vector X, respectivamente.
28 9
Demostración. Enteramente análoga a la que hicimos en dimensión 1. Sean λ > 0 y ν > 0. Se dice que la variable aleatoria X tiene distribución gamma de parámetros
ν, λ, , y se denota X ∼ Γ(ν, λ), si X es absolutamente continua con función densidad de
Sobre el cálculo de esperanzas. El Teorema 1.19 es una herramienta práctica para probabilidades
calcular esperanzas. Su resultado establece que si queremos calcular la esperanza de una λν ν−1 −λx
f (x) = x e 1{x > 0}.
transformación unidimensional del vector X, g(X), no necesitamos calcular la distribución Γ(ν)
de g(X). La esperanza E[g(X)] puede calcularse directamente a partir del conocimiento de la El cálculo de E[X] y V(X) se reduce al caso X ∼ Γ(ν, 1). Para ello, basta observar que Y ∼
distribución conjunta de X. Γ(ν, λ) si y solo si Y = λ−1 X, donde X ∼ Γ(ν, 1) y usar las identidades E[λ−1 X] = λ−1 E[X]
y V(λ−1 X) = λ−2 V(X). En lo que sigue suponemos que X ∼ Γ(ν, 1)
Corolario 1.20 (Esperanza de las marginales). Sea X = (X1 , . . . , Xn ) un vector aleatorio.
Si la variable Xi tiene esperanza finita, entonces
∞ ∞
1 ν −x 1
Z Z
 P E[X] = xf (x) dx = x e dx = Γ(ν + 1) = ν.
 x xi pX (x) en el caso discreto,
0 0 Γ(ν) Γ(ν)
E[Xi ] =
Del mismo modo se puede ver que E[X 2 ] = (ν + 1)ν = ν 2 + ν. Por lo tanto, V(X) =
R
Rn xi fX (x) dx en el caso continuo.

E[X 2 ] − E[X]2 = ν.
1.3. Propiedades
4. Distribución beta
(a) Si X = 1, entonces E[X] = 1.
(b) Monotonı́a. Si X1 y X2 son dos variables aleatorias tales que X1 ≤ X2 , entonces Sean ν1 > 0 y ν2 > 0. Se dice que la variable aleatoria X tiene distribución beta de
E[X1 ] ≤ E[X2 ]. parámetros ν1 , ν2 , y se denota X ∼ β(ν1 , ν2 ), si X es absolutamente continua con función
(c) Si X es una variable aleatoria tal que E[X n ] es finita y a0 , a1 , . . . , an son constantes, densidad de probabilidades
entonces
Γ(ν1 + ν2 ) ν1 −1
" n # n f (x) = x (1 − x)ν2 −1 1{x ∈ (0, 1}.
X X Γ(ν1 )Γ(ν2 )
E ak X k = ak E[X k ]. (11)
k=0 k=0 Por definición,
(d) Linealidad. Si las variables aleatorias X1 , . . . , Xn tienen esperanza finita y a1 , a2 , . . . , an Z ∞ Z ∞
Γ(ν1 + ν2 ) ν1 −1
son constantes, entonces E[X] = xf (x)dx = x x (1 − x)ν2 −1 1{x ∈ (0, 1} dx
−∞ −∞ Γ(ν1 )Γ(ν2 )
1
Γ(ν1 + ν2 ) Γ(ν1 + ν2 ) Γ(ν1 + 1)Γ(ν2 ) ν1
" n Z
n
#
= xν1 (1 − x)ν2 −1 dx = =
X X
E ai Xi = ai E[Xi ]. (12) Γ(ν1 )Γ(ν2 ) 0 Γ(ν1 )Γ(ν2 ) Γ(ν1 + ν2 + 1) ν1 + ν2
i=1 i=1
Por otra parte,
(e) Regla del producto independiente. Si las variables aleatorias X1 , . . . , Xn tienen esper-
anza finita y son independientes, entonces el producto tiene esperanza finita y coincide con ∞
Γ(ν1 + ν2 ) 1 ν1 +1
Z Z
E[X 2 ] = x2 f (x)dx = x (1 − x)ν2 −1 dx
el producto de las esperanzas: −∞ Γ(ν1 )Γ(ν2 ) 0
" n # n Γ(ν1 + ν2 ) Γ(ν1 + 2)Γ(ν2 ) ν1 (ν1 + 1)
Y Y = =
E Xi = E[Xi ]. (13) Γ(ν1 )Γ(ν2 ) Γ(ν1 + ν2 + 2) (ν1 + ν2 )(ν1 + ν2 + 1)
i=1 i=1
Finalmente,
Demostración. (a) es consecuencia inmediata de la Definición 1.1 porque P(X = 1) = 1. 2
ν1 (ν1 + 1) ν1
(b) es consecuencia del Teorema 1.11 y de que para todo x ∈ R vale que FX1 (x) ≥ FX2 (x). V(X) = E[X 2 ] − E[X]2 = −
(c) es consecuencia inmediata del Teorema 1.16. (d) es consecuencia inmediata del Teorema (ν1 + ν2 )(ν1 + ν2 + 1) ν1 + ν2
ν1 ν2
1.19. (e) es consecuencia del Teorema 1.19 y de la factorización de la distribución conjunta = .
(ν1 + ν2 )2 (ν1 + ν2 + 1)
como producto de las distribuciones marginales.
10 27
Por definición, 1.4. Dividir y conquistar
b
b2 a2 Teorema 1.21. Sea (Ω, A, P) un espacio de probabilidad y sea X : Ω → R una variable
Z ∞ ∞
1 1 1 −
Z Z
E[X] = xf (x)dx = x 1{x ∈ [a, b]} dx = x dx = aleatoria. Sea A ⊂ R un conjunto tal que {X ∈ A} = {ω ∈ Ω : X(ω) ∈ A} ∈ A. Si
−∞ −∞ b−a b−a a b−a 2
a+b P(X ∈ A) > 0, entonces
= .
2 1
E[X|X ∈ A] = E[X1{X ∈ A}]. (14)
Por otra parte, P(X ∈ A)
b
∞
b3 − a3 a2 + ab + b2

1 1
Z Z
E[X 2 ] = x2 f (x)dx = x2 dx = = . Demostración. Para simplificar la exposición vamos a suponer que la variable aleatoria X
−∞ b−a a b−a 3 3 es discreta. Por la Definición 1.1 tenemos que
Finalmente, X X P(X = x)
E[X|X ∈ A] = xpX|X∈A (x) = x 1{x ∈ A}
2 P(X ∈ A)
a2 b2 a2 b2 a)2

+ ab + a+b − 2ab + (b − x∈X(Ω) x∈X(Ω)
V(X) = E[X 2 ] − E[X]2 = − = = .
3 2 12 12 1 X 1
= x1{x ∈ A}P(X = x) = E[X1{X ∈ A}].
P(X ∈ A) P(X ∈ A)
x∈X(Ω)
La última igualdad es consecuencia del Teorema 1.16.

2. Distribución exponencial.
Sea λ > 0. Se dice que la variable aleatoria X tiene distribución exponencial de intensi- Ejemplo 1.22. Sea X el resultado del tiro de un dado equilibrado y sea A = {2, 4, 6}. De
dad λ, y se denota X ∼ Exp(λ), si X es absolutamente continua con función densidad de acuerdo con (14) la esperanza de X|X ∈ A es
probabilidades 1 1

2 4 6

f (x) = λe−λx 1{x ≥ 0}. E[X|X ∈ A] = E[X1{X ∈ A}] = + + = 4.
P(X ∈ A) 1/2 6 6 6
El cálculo de E[X] y V(X) se reduce al caso X ∼ Exp(1). Basta observar que Y ∼ Exp(λ)
Resultado que por otra parte es intuitivamente evidente.
si y solo si Y = λ−1 X, donde X ∼ Exp(1) y usar las identidades E[λ−1 X] = λ−1 E[X] y
V(λ−1 X) = λ−2 V(X). En lo que sigue suponemos que X ∼ Exp(1). Teorema 1.23 (Fórmula de probabilidad total). Sea X una variable aleatoria. Si A1 , . . . , An
Integrando por partes se obtiene, es una partición medible de R tal que P(X ∈ Ai ) > 0, i = 1, . . . , n. Entonces,
Z ∞ Z ∞ Z ∞ ∞ Z ∞
n
xe−x 1{x ≥ 0} = λxe−x dx = −xe−x + e−x dx

E[X] = xf (x)dx = X
−∞ −∞ 0 0 0 E[X] = E[X|X ∈ Ai ]P(X ∈ Ai ). (15)
= 1. i=1
Por otra parte, Demostración. Descomponemos la variable X como una suma de variables (dependientes
de la partición) X = ni=1 X1{X ∈ Ai }. Como la esperanza es un operador lineal tenemos
P
Z ∞ Z ∞ ∞
Z ∞
E[X 2 ] = x2 f (x)dx = x2 e−x dx = −x2 e−x 0 + 2xe−x dx = 2. que
−∞ 0 0
n
X n
X
Por lo tanto, V(X) = E[X 2 ] − E[X]2 = 2 − 1 = 1. E[X] = E[X1{X ∈ Ai }] = E[X|X ∈ Ai ]P(X ∈ Ai ).
i=1 i=1
3. Distribución gamma.
La última igualdad se obtiene de (14).
La función gamma se define por
Z ∞ Nota Bene. Sea g : R → R una función tal que g(X) es una variable aleatoria. Bajo las
Γ(t) := xt−1 e−x dx t > 0. hipótesis del Teorema 1.23 también vale que
0
n
Integrando por partes puede verse que Γ(t) = (t − 1)Γ(t − 1) para todo t > 0. De aquı́ se
X
E[g(X)] = E[g(X)|X ∈ Ai ]P(X ∈ Ai ). (16)
deduce que la función gamma interpola a los números factoriales en el sentido de que i=1
Γ(n + 1) = n! para n = 0, 1, . . . La fórmula (16) se puede extender sin ninguna dificultad al caso multidimensional.
26 11
Ejemplo 1.24 (Dividir y conquistar). Todas las mañanas Lucas llega a la estación del subte Para calcular V(X) usaremos la misma técnica: derivamos dos veces ambos lados de la
igualdad ∞ x−1 = p−1 y obtenemos
P
entre las 7:10 y las 7:30 (con distribución uniforme en el intervalo). El subte llega a la estación x=1 (1 − p)
cada quince minutos comenzando a las 6:00. Calcular la media del tiempo que tiene que esperar ∞ ∞
Lucas hasta subirse al subte. d2 −1 d2 X X
2p−3 = 2
p = 2 (1 − p)x−1 = (x − 1)(x − 2)(1 − p)x−3
Sea X el horario en que Lucas llega a la estación del subte. El tiempo que tiene que esperar dp dp
x=1 x=1
hasta subirse al subte se describe por ∞
X ∞
X ∞
X
x−1 2
= (x + 1)x(1 − p) = x (1 − p)x−1 + x(1 − p)x−1 .
T = (7.15 − X)1{X ∈ [7 : 10, 7 : 15]} + (7 : 30 − X)1{X ∈ (7 : 15, 7 : 30]}. x=1 x=1 x=1
Ahora bien, dado que X ∈ [7 : 10, 7 : 15], la distribución de T es uniforme sobre el intervalo Multiplicando por p los miembros de las igualdades obtenemos, 2p−2 = E[X 2 ] + E[X] =
[0, 5] minutos y dado que X ∈ (7 : 15, 7 : 30] la distribución de T es uniforme sobre el intervalo E[X 2 ] + p−1 . En consecuencia, E[X 2 ] = 2p−2 − p−1 . Por lo tanto,
[0, 15] minutos. De acuerdo con (16)
V(X) = E[X 2 ] − E[X]2 = 2p−2 − p−1 − p−2 = p−2 − p−1 = p−2 (1 − p).
5 5 15 15
E[T ] = + = 6.25.
2 20 2 20
5. Distribución de Poisson.
Sea λ > 0. Se dice que la variable aleatoria X tiene distribución de Poisson de intensidad
2. Varianza
λ, y se denota X ∼ Poisson(λ), si X es discreta y tal que
2.1. Definición λx −λ
P(X = x) = e 1{x ∈ N0 }.
La esperanza de una variable aleatoria X, E[X], también se conoce como la media o el x!
primer momento de X. La cantidad E[X n ], n ≥ 1, se llama el n-ésimo momento de X. Si la Por definición,
esperanza E[X] es finita, la cantidad E[(X − E[X])n ] se llama el n-ésimo momento central. ∞ ∞ ∞ ∞
Después de la esperanza la siguiente cantidad en orden de importancia para resumir el
X X λx X λx−1 X λx−1
E[X] = xP(X = x) = x e−λ = λe−λ x = λe−λ = λe−λ eλ
comportamiento de una variable aleatoria X es su segundo momento central también llamado x! x! (x − 1)!
x=0 x=0 x=1 x=1
la varianza de X. = λ.
Definición 2.1 (Varianza). Sea X una variable aleatoria con esperanza finita. La varianza Derivando término a término, se puede ver que
de X se define por
∞ ∞ ∞ ∞
X X λx −λ X λx−1 X xλx−1
V(X) := E (X − E[X])2 . E[X 2 ] = x2 P(X = x) = x2 e = λe−λ x2 = λe−λ

(17)
x! x! (x − 1)!
x=0 x=0 x=1 x=1
En otras palabras, la varianza de X es la esperanza de la variable aleatoria (X − E[X])2 . ∞
d X λx d λ
Puesto que (X − E[X])2 sólo puede tomar valores no negativos, la varianza es no negativa. = λe −λ
= λe−λ λe = λe−λ eλ + λeλ = λ + λ2 .
dλ (x − 1)! dλ
La varianza de X es una de las formas más utilizadas para medir la dispersión de los x=1
valores de X respecto de su media. Otra medida de dispersión es el desvı́o estándar de X, Por lo tanto,
que se define como la raı́z cuadrada de la varianza y se denota σ(X):
p V(X) = E[X 2 ] − E[X] = λ + λ2 − λ2 = λ.
σ(X) := V(X). (18)
A diferencia de la varianza, el desvı́o estándar de una variable aleatoria es más fácil de
interpretar porque tiene las mismas unidades de X.
Cuentas con variables continuas
Nota Bene: Grandes valores de V(X) significan grandes variaciones de los valores de X 1. Distribución uniforme.
alrededor de la media. Al contrario, pequeños valores de V(X) implican una pronunciada
Sean a < b. Se dice que la variable aleatoria X tiene distribución uniforme sobre el
concentración de la masa de la distribución de probabilidades en un entorno de la media. En
intervalo [a, b], y se denota X ∼ U[a, b], si X es absolutamente continua con densidad de
el caso extremo, cuando la varianza es 0, la masa total de la distribución de probabilidades se
probabilidades
concentra en la media. Estas afirmaciones pueden hacerse más precisas y serán desarrolladas 1
en la sección 4. f (x) = 1{x ∈ [a, b]}.
b−a
12 25
3. Distribución Binomial. 2.2. Cálculo
Sean p ∈ (0, 1) y n ∈ N. Se dice que la variable aleatoria X tiene distribución Binomial Una manera “brutal” de calcular V(X) es calcular la función de distribución de la variable
de parámetros n y p, y se denota X ∼ Binomial (n, p), si X es discreta y tal que aleatoria (X − E[X])2 y usar la definición de esperanza. En lo que sigue mostraremos una
manera más simple de realizar ese tipo cálculo.
n x
P(X = x) = p (1 − p)n−x , donde x = 0, 1, . . . , n. Proposición 2.2 (Expresión de la varianza en términos de los momentos). Sea X una variable
x
aleatoria con primer y segundo momentos finitos, entonces
Por definición,
V(X) = E[X 2 ] − E[X]2 . (19)
n n n
X X n x X xn! En palabras, la varianza es la diferencia entre el segundo momento y el cuadrado del primer
E[X] = xP(X = x) = x p (1 − p)n−x = px (1 − p)n−x
x (n − x)!x! momento.
x=0 x=0 x=1
n n
X n! X (n − 1)!
= px (1 − p)n−x = np px−1 (1 − p)n−x Demostración. Desarrollar el cuadrado (X −E[X])2 y usar las propiedades de la esperanza.
(n − x)!(x − 1)! (n − x)!(x − 1)!
x=1 x=1 Poniendo (X − E[X])2 = X 2 − 2XE[X] + E[X]2 se obtiene
n−1
X n − 1
= np py (1 − p)n−1−y = np(p + (1 − p))n−1 = np. V(X) = E[X 2 ] − 2XE[X] + E[X]2 = E[X 2 ] − 2E[X]2 + E[X]2 = E[X 2 ] − E[X]2 .
y
y=0
Análogamente se puede ver que Ejemplo 2.3 (Varianza de la función indicadora). Sea (Ω, A, P) un espacio de probabilidad.
2
Para cualquier evento A ∈ A vale que
E[X ] = np((n − 1)p + 1).
V(1{ω ∈ A}) = E[1{ω ∈ A}2 ] − E[1{ω ∈ A}]2 = P(A) − P(A)2 = P(A)(1 − P(A)). (20)
Por lo tanto,
V(X) = E[X 2 ] − E[X]2 = np((n − 1)p + 1) − (np)2 Ejemplo 2.4 (Dado equilibrado). Sea X el resultado del lanzamiento de un dado equilibrado.
= np((n − 1)p + 1 − np) = np(1 − p). Por el Ejemplo 1.3 sabemos que E[X] = 7/2. Por otra parte
6 6
X 1 X 2 1 + 4 + 9 + 16 + 25 + 36 91
E[X 2 ] = x2 P(X = x) = x = = .
6 6 6
x=1 x=1
4. Distribución Geométrica.
Por lo tanto, de acuerdo con la Proposición 2.2, la varianza de X es
Sea p ∈ (0, 1). Se dice que la variable aleatoria X tiene distribución Geométrica de 2
91 7 32 8
parámetro p, y se denota X ∼ Geométrica(p), si X es discreta y tal que V(X) = − = = .
6 2 12 3
P(X = x) = (1 − p)x−1 p1{x ∈ N}.
Por definición, Ejemplo 2.5 (Fiabilidad). Sea T el tiempo de espera hasta que ocurre la primer falla en
un sistema electrónico con función intensidad de fallas de la forma λ(t) = 2t1{t > 0}. Por el
∞ ∞ ∞ √
X X X Ejemplo 1.7 sabemos que E[T ] = π/2. Por otra parte,
E[X] = xP(X = x) = x(1 − p)x−1 p = p x(1 − p)x−1 . Z ∞ Z ∞ Z ∞
x=1 x=1 x=1
E[T 2 ] = t2 f (t)dt = t2 2t exp(−t2 )dt = xe−x dx = 1.
d −∞ 0 0
La serie se calcula observando que x(1 − p)x−1 = − dp (1 − p)x y recordando que las series de
potencias se pueden derivar término a término: La tercera igualdad se obtiene mediante el cambio de variables t2 = x y la cuarta se deduce
usando la fórmula de integración por partes aplicada a u = x y v ′ = e−x .
∞ ∞
X d X d −1 Por lo tanto, de acuerdo con la Proposición 2.2, la varianza de T es
x(1 − p)x−1 = − (1 − p)x = − p − 1 = p−2 .

dp dp √ 2
x=1 x=1 π π
V(T ) = 1 − =1− .
2 4
Por lo tanto, E[X] = p · p−2 = 1/p.
24 13
2.3. Propiedades Cuentas con variables discretas
Proposición 2.6. Para todo a, b ∈ R 1. Distribución uniforme discreta.
V(aX + b) = a2 V(X). (21) Sean a y b dos números enteros tales que a < b. Se dice que la variable aleatoria X tiene
distribución uniforme sobre el “intervalo” de números enteros [a, b] := {a, a + 1, . . . , b}, y se
denota X ∼ U[a, b], si X es discreta y tal que
Demostración. Por definición,
1
P(X = x) = 1{x ∈ {a, a + 1, . . . , b}}.
V(aX + b) = E[(aX + b − E[aX + b])2 ] = E[a2 (X − E[X])2 ] = a2 V(X). b−a+1
Notando que la distribución de X coincide con la de la variable X ∗ + a − 1, donde X ∗
Para obtener la segunda igualdad usamos que E[aX + b] = aE[X] + b. está uniformemente distribuida sobre {1, . . . , b − a + 1}, resulta que
1 + (b − a + 1) a+b
Error cuadrático medio. Una manera de “representar” la variable aleatoria X mediante E[X] = E[X ∗ ] + a − 1 = +a−1= .
un valor fijo c ∈ R es hallar el valor c que minimice el llamado error cuadrático medio, 2 2
E[(X − c)2 ]. Para calcular la varianza de X, consideramos primero el caso más simple donde a = 1 y b = n.
Por inducción en n se puede ver que
Teorema 2.7 (Pitágoras). Sea X una variable aleatoria con esperanza y varianza finitas. n
1 X 2 (n + 1)(2n + 1)
Para toda constante c ∈ R vale que E[X 2 ] = k = .
n 6
k=1
E[(X − c)2 ] = V(X)2 + (E[X] − c)2 . La varianza puede obtenerse en términos de los momentos de orden 1 y 2:
En particular, el valor de c que minimiza el error cuadrático medio es la esperanza de X, (n + 1)(2n + 1) (n + 1)2
V(X) = E[X 2 ] − E[X]2 = −
E[X]. 6 4
(n + 1)[2(2n + 1) − 3(n + 1)] n2 − 1
= = .
Demostración. Escribiendo X−c en la forma X−E[X]+E[X]−c y desarrollando cuadrados 12 12
se obtiene (X −c)2 = (X −E[X])2 +(E[X]−c)2 +2(X −E[X])(E[X]−c). El resultado se obtiene Para el caso general, notamos que la variable aleatoria uniformemente distribuida sobre [a, b]
tomando esperanza en ambos lados de la igualdad y observando que E[X − E[X]] = 0. tiene la misma varianza que la variable aleatoria uniformemente distribuida sobre [1, b−a+1],
puesto que esas dos variables difieren en la constante a − 1. Por lo tanto, la varianza buscada
se obtiene de la fórmula anterior sustituyendo n = b − a + 1
3. Covarianza
(b − a + 1)2 − 1 (b − a)(b − a + 2)
V(X) = = .
3.1. Definición 12 12
Definición 3.1 (Covarianza). Sean X e Y dos variables aleatorias de varianzas finitas
definidas sobre el mismo espacio de probabilidad (Ω, A, P). La covarianza de X e Y se define
por 2. Distribución Bernoulli.
Sea p ∈ (0, 1). Se dice que la variable aleatoria X tiene distribución Bernoulli de parámetro
Cov(X, Y ) := E[(X − E[X]) (Y − E[Y ])]. (22) p, y se denota X ∼ Bernoulli(p), si X es discreta y tal que
3.2. Cálculo P(X = x) = px (1 − p)1−x , donde x = 0, 1.

Por definición,
Proposición 3.2. Sean X e Y dos variables aleatorias definidas sobre el mismo espacio de
probabilidad (Ω, A, P). Si los segundos momentos de las variables aleatorias X e Y son finitos, E[X] = 0 · P(X = 0) + 1 · P(X = 1) = 0 · (1 − p) + 1 · p = p.
se tiene que Por otra parte,
Cov(X, Y ) = E[XY ] − E[X]E[Y ]. (23) E[X 2 ] = 02 · P(X = 0) + 12 · P(X = 1) = p.
Por lo tanto,
V(X) = E[X 2 ] − E[X]2 = p − p2 = p(1 − p).
14 23
6. Distribuciones particulares Demostración. La esperanza del producto E[XY ] es finita porque las esperanzas E[X 2 ] y
E[Y 2 ] son finitas y vale que |xy| ≤ 12 (x2 + y 2 ). Usando la propiedad distributiva del producto
Para facilitar referencias posteriores presentaremos tablas de esperanzas y varianzas de y la linealidad de la esperanza tenemos que
algunas distribuciones importantes de uso frecuente y describiremos el método para obtener-
las. E[(X − E[X]) (Y − E[Y ])] = E[XY − E[Y ]X − E[X]Y + E[X]E[Y ]]
= E[XY ] − E[Y ]E[X] − E[X]E[Y ] + E[X]E[Y ]
Discretas = E[XY ] − E[X]E[Y ].
No. Nombre Probabilidad Soporte Esperanza Varianza
1. Uniforme 1
a≤x≤b (a + b)/2 (b − a)(b − a − 2)/12 Ejemplo 3.3. Sea (Ω, A, P) un espacio de probabilidad y sean A ∈ A y B ∈ A dos eventos de
b−a+1
probabilidad positiva. Consideremos las variables aleatorias X = 1{ω ∈ A} e Y = 1{ω ∈ B}.
Entonces,
2. Bernoulli px (1 − p)1−x x ∈ {0, 1} p p(1 − p)
n x
n−x
Cov(X, Y ) = E[XY ] − E[X]E[Y ]
3. Binomial x p (1 − p) 0≤x≤n np np(1 − p)
= P(XY = 1) − P(X = 1)P(Y = 1)
4. Geométrica (1 − p)x−1 p x∈N 1/p (1 − p)/p2 = P(X = 1, Y = 1) − P(X = 1)P(Y = 1).
5. Poisson λx −λ
x ∈ N0 La segunda y la tercera igualdad se obtienen de (2) observando que XY es una variable a
x! e λ λ
valores 0 o 1 que vale 1 si y solo si X e Y son ambas 1.
Notamos que
Cuadro 2: Esperanza y varianza de algunas distribuciones discretas de uso frecuente.
Cov(X, Y ) > 0 ⇐⇒ P(X = 1, Y = 1) > P(X = 1)P(Y = 1)
P(X = 1, Y = 1)
⇐⇒ > P(Y = 1)
Continuas P(X = 1)
⇐⇒ P(Y = 1|X = 1) > P(Y = 1).
No. Nombre Densidad Soporte Esperanza Varianza
En palabras, la covarianza de X e Y es positiva si y solamente si la condición X = 1 aumenta
1 la probabilidad de que Y = 1.
1. Uniforme b−a x ∈ [a, b] (a + b)/2 (b − a)2 /12
Ejemplo 3.4. En una urna hay 6 bolas rojas y 4 bolas negras. Se extraen 2 bolas al azar sin
2. Exponencial λe−λx x>0 1/λ 1/λ2 reposición. Consideramos los eventos
λν ν−1 −λx
3. Gamma Γ(ν) x e x>0 ν/λ ν/λ2 Ai = {sale una bola roja en la i-ésima extracción}, i = 1, 2,
Γ(ν1 +ν2 ) ν1 −1 ν1 ν1 ν2 y definimos las variables aleatorias X1 y X2 como las funciones indicadoras de los eventos
4. Beta Γ(ν1 )Γ(ν2 ) x (1 − x)ν2 −1 x ∈ (0, 1) ν1 +ν2 (ν1 +ν2 )2 (ν1 +ν2 +1) A1 y A2 respectivamente. De acuerdo con el Ejemplo anterior es intuitivamente claro que
2 2
Cov(X1 , X2 ) < 0. (¿Por qué? )
5. Normal √ 1 e−(x−µ) /2σ x∈R µ σ2
2πσ
Cov(X1 , X2 ) = P(X1 = 1, X2 = 1) − P(X1 = 1)P(X2 = 1) = P(A1 ∩ A2 ) − P(A1 )P(A2 )
Cuadro 3: Esperanza y varianza de algunas distribuciones continuas de uso frecuente. 6 5

6 5 6 6 4

2
= × − × + × = − = −0.02666....
10 9 10 9 10 9 10 75
Nota Bene. Se puede mostrar que Cov(X, Y ) > 0 es una indicación de que Y tiende a
crecer cuando X lo hace, mientras que Cov(X, Y ) < 0 es una indicación de que Y decrece
cuando X crece.
22 15
3.3. Propiedades Antes de resolver este problema, debemos reflexionar sobre la definición de error. Habit-
ualmente, cuando se habla de error, se trata de un número real que expresa la (in)capacidad
Lema 3.5 (Propiedades). Para variables aleatorias X, Y, Z y constantes a, valen las siguientes
de una cierta cantidad de representar a otra. En los problemas de estimación estadı́stica,
propiedades
debido a que una de las cantidades es una variable aleatoria y la otra no lo es, no es posible
1. Cov(X, X) = V(X),
interpretar de un modo tan sencillo el significado de la palabra error.
2. Cov(X, Y ) = Cov(Y, X),
Toda medida muestral tiene asociada una incerteza (o un riesgo) expresada por un modelo
3. Cov(aX, Y ) = aCov(X, Y ),
probabilı́stico. En este problema consideramos que el voto de cada elector se comporta como
4. Cov(X, Y + Z) = Cov(X, Y ) + Cov(X, Z).
una variable aleatoria X tal que P(X = 1) = p y P(X = 0) = 1 − p, donde X = 1 significa que
el elector vota por el candidato considerado. Por lo tanto, cuando se habla de que queremos
Demostración. Ejercicio. encontrar un tamaño muestral suficiente para un determinado error máximo, por ejemplo
0.02, tenemos que hacerlo con una medida de certeza asociada. Matemáticamente, queremos
Sobre la esperanza del producto. Si se conoce la covarianza y la esperanza de las encontrar n tal que P Snn − p ≤ 0.02 ≥ 0.9999 o, equivalentemente, queremos encontrar n

marginales, la identidad (23) puede ser útil para calcular la esperanza del producto: tal que
Sn
E[XY ] = E[X]E[Y ] + Cov(X, Y ). P − p > 0.02 ≤ 0.0001.
n
Nota Bene. Si X e Y son independientes, Cov(X, Y ) = 0 porque E[XY ] = E[X]E[Y ]. Pero Usando la estimación (37) se deduce que
la recı́proca no es cierta.
Sn

p(1 − p)
P − p > 0.02 ≤ .
Ejemplo 3.6 (Dos bolas en dos urnas). El experimento aleatorio consiste en ubicar dos n n(0.02)2
bolas distinguibles en dos urnas. Sean N la cantidad de urnas ocupadas y Xi la cantidad
El numerador de la fracción que aparece en el lado derecho de la estimación depende de p y
de bolas en la urna i. El espacio muestral se puede representar de la siguiente manera Ω =
el valor de p es desconocido. Sin embargo, sabemos que p(1 − p) es una parábola convexa con
{(1, 1); (1, 2); (2, 1); (2, 2)}. La función de probabilidad conjunta de N y X1 se muestra en el
raı́ces en p = 0 y p = 1 y por lo tanto su máximo ocurre cuando p = 1/2, esto es p(1−p) ≤ 1/4.
Cuadro 1
En la peor hipótesis tenemos:
N \ X1 0 1 2 pN
Sn

1
1 1/4 0 1/4 1/2 P − p > 0.02 ≤ .
n 4n(0.02)2
2 0 1/2 0 1/2
p X1 1/4 1/2 1/4 Como máximo estamos dispuestos a correr un riesgo de 0.0001 y en el peor caso tenemos aco-
tada la máxima incerteza por (4n(0.02)2 )−1 . El problema se reduce a resolver la desigualdad
Cuadro 1: Función de probabilidad conjunta de (N, X1 ).
(4n(0.02)2 )−1 ≤ 0.0001. Por lo tanto,
Para calcular la esperanza del producto N X1 usamos el Teorema 1.19 n ≥ ((0.0001)4̇(0.02)2 )−1 = 6250000.
E[N X1 ] = 1 · 1 · pN,X1 (1, 1) + 1 · 2 · pN,X1 (1, 2) + 2 · 1 · pN,X1 (2, 1) + 2 · 2 · pN,X1 (2, 2) Una cifra absurdamente grande!! Más adelante, mostraremos que existen métodos más sofisti-
= 1 · 0 + 2 · 1/4 + 2 · 1/2 + 4 · 0 = 3/2. cados que permiten disminuir el tamaño de la muestra.
Es fácil ver que E[N ] = 3/2 y E[X1 ] = 1. Por lo tanto, Cov(N, X1 ) = 0. Sin embargo, las
variables N y X1 no son independientes.
3.4. Varianza de sumas

Usando las propiedades de la covarianza enunciadas en Lema 3.5 se puede demostrar que
 
Xn m
X n X
X m
Cov  Xi , Yj  = Cov(Xi , Yj ) (24)
i=1 j=1 i=1 j=1
16 21
5. La ley débil de los grandes números En particular, se obtiene que
 
Teorema 5.1 (Ley débil de los grandes números). Sea X1 , X2 , . . . una sucesión de variables n n n n n X
!
X X X X X
V Xi = Cov  Xi , Xj  = V(Xi ) + 2 Cov(Xi , Yj ). (25)
aleatorias independientes idénticamente distribuidas,P tales que V(X1 ) < ∞. Sea Sn , n ≥ 1, la
sucesión de las sumas parciales definida por Sn := ni=1 Xi . Entonces, para cualquier ǫ > 0 i=1 i=1 j=1 i=1 i=1 j<i
Finalmente, si las variables son independientes

Sn
lı́m P − E[X1 ] > ǫ = 0.
n→∞ n Xn
!
Xn
V Xi = V(Xi ). (26)
Demostración. Se obtiene aplicando la desigualdad de Chebyshev a la variable aleatoria i=1 i=1
Sn /n. Usando que la esperanza es un operador lineal se obtiene que
" n # n 4. Algunas desigualdades
1 X 1X
E [Sn /n] = E Xi = E[Xi ] = E[X1 ].
n
i=1
n
i=1
4.1. Cauchy-Schwartz
Como las variables X1 , X2 , . . . son independientes tenemos que Teorema 4.1 (Cauchy-Schwartz).
n
! n E[|XY |] ≤ (E[X 2 ]E[Y 2 ])1/2 (27)
1 X 1 X V(X1 )
V (Sn /n) = 2 V Xi = 2 V(Xi ) = .
n n n
i=1 i=1 Demostración. Observar que para todo t ∈ R:
Entonces, por la desigualdad de Chebyshev, obtenemos la siguiente estimación 0 ≤ E[(t|X| + |Y |)2 ] = t2 E[X 2 ] + 2tE[|XY |] + E[Y 2 ].

Sn V(X1 )
P − E[X1 ] > ǫ ≤ . (36) Como la función cuadrática en t que aparece en el lado derecho de la igualdad tiene a lo sumo
n nǫ2
una raı́z real se deduce que
Como V(X1 ) < ∞ el lado derecho de la última desigualdad tiende a 0 cuando n → ∞.
4E[|XY |]2 − 4E[X 2 ]E[Y 2 ] ≤ 0.
Nota Bene. La ley débil de los grandes números establecida en el Teorema 5.1 sirve como Por lo tanto,
base para la noción intuitiva de probabilidad como medida de las frecuencias relativas. La
proposición “en una larga serie de ensayos idénticos la frecuencia relativa del evento A se E[|XY |]2 ≤ E[X 2 ]E[Y 2 ].
aproxima a su probabilidad P(A)” se puede hacer teóricamente más precisa de la siguiente
manera: el resultado de cada ensayo se representa por una variable aleatoria (independiente de
las demás) que vale 1 cuando se obtiene el evento A y vale cero en caso contrario. La expresión Corolario 4.2. Sea X una variable aleatoria tal que E[X 2 ] < ∞. Si a < E[X], entonces
“una larga serie de ensayos” adopta la forma de una sucesión X1 , X2 , . . . de variables aleatorias
independientes cada una con la misma distribución que la indicadora del evento A. Notar P que (E[X] − a)2
Xi = 1 significa que “en el i-ésimo ensayo ocurrió el evento A” y la suma parcial Sn = ni=1 Xi P(X > a) ≥ .
E[X 2 ]
representa la “frecuencia del evento A” en los primeros n ensayos. Puesto que E[X1 ] = P(A)
y V(X1 ) = P(A)(1 − P(A)) la estimación (36) adopta la forma Demostración. De la desigualdad X1{X > a} ≤ |X1{X > a}| y de la propiedad de
monotonı́a de la esperanza se deduce que
Sn P(A)(1 − P(A))
P − P(A) > ǫ ≤ . (37)
n nǫ2 E[X1{X > a}] ≤ E[|X1{X > a}|]. (28)
Por lo tanto, la probabilidad de que la frecuencia relativa del evento A se desvı́e de su prob- Aplicando la desigualdad de Cauchy-Schwartz a |X1{X > a}| se obtiene que
abilidad P(A) en más de una cantidad prefijada ǫ, puede hacerse todo lo chica que se quiera,
siempre que la cantidad de ensayos n sea suficientemente grande. E[|X1{X > a}|] ≤ (E[X 2 ]E[1{X > a}2 ])1/2 = (E[X 2 ]P(X > a))1/2 (29)
Ejemplo 5.2 (Encuesta electoral). Se quiere estimar la proporción del electorado que pre- Observando que X = X1{X > a} + X1{X ≤ a} y que X1{X ≤ a} ≤ a se deduce que
tende votar a un cierto candidato. Cuál debe ser el tamaño muestral para garantizar un
determinado error entre la proporción poblacional, p, y la proporción muestral Sn /n? E[X] = E[X1{X > a}] + E[X1{X ≤ a}] ≤ E[X1{X > a}] + a
20 17
y en consecuencia, Demostración. Debido a que (X − E[X])2 es una variable aleatoria no negativa podemos
aplicar la desigualdad de Markov (poniendo a2 en lugar de a) y obtenemos
E[X] − a ≤ E[X1{X > a}]. (30)
Combinando las desigualdades (30), (28) y (29) se obtiene que E[(X − E[X])2 ] V(X)
P (X − E[X])2 ≥ a2 ≤ = .
2 1/2 a2 a2
E[X] − a ≤ (E[X ]P(X > a))
y como E[X] − a > 0, elevando al cuadrado, se concluye que La desigualdad (X − E[X])2 ≥ a2 es equivalente a la desigualdad |X − E[X]| ≥ a. Por lo
tanto,
(E[X] − a)2 ≤ E[X 2 ]P(X > a).
V(X)
El resultado se obtiene despejando. P (|X − E[X]| ≥ a) ≤ .
a2
4.2. Chebyshev Lo que concluye la demostración.
Teorema 4.3 (Desigualdad de Chebyshev). Sea ϕ : R → R tal que ϕ ≥ 0 y A ∈ B(R). Sea

Nota Bene. Grosso modo la pequeña desigualdad de Chebyshev establece que si la varianza
iA := ı́nf{ϕ(x) : x ∈ A}. Entonces,
es pequeña, los grandes desvı́os respecto de la media son improbables.
iA P(X ∈ A) ≤ E[ϕ(X)] (31)
Corolario 4.7. Sea X una variable aleatoria con varianza finita, entonces para cada α > 0
Demostración. La definición de iA y el hecho de que ϕ ≥ 0 implican que 1
P(|X − E[X]| ≥ ασ(X)) ≤ . (35)
iA 1{X ∈ A} ≤ ϕ(X)1{X ∈ A} ≤ ϕ(X) α2
El resultado se obtiene tomando esperanza. El resultado se obtiene poniendo a = ασ(X) en la pequeña desigualdad de Chebyshev.
En lo que sigue enunciaremos algunos corolarios que se obtienen como casos particulares
Ejemplo 4.8. La cantidad X de artı́culos producidos por un fábrica durante una semana es
del Teorema 4.3.
una variable aleatoria de media 500.
Corolario 4.4 (Desigualdad de Markov). Sea X una variable aleatoria a valores no negativos. (a) ¿Qué puede decirse sobre la probabilidad de que la producción semanal supere los
Para cada a > 0 vale que 1000 artı́culos? Por la desigualdad de Markov,
E[X]
P(X ≥ a) ≤ . (32) E[X] 500 1
a P (X ≥ 1000) ≤ = = .
1000 1000 2
Demostración. Aplicar la desigualdad de Chebyshev usando la función ϕ(x) = x restringi- (b) Si la varianza de la producción semanal es conocida e igual a 100, ¿qué puede decirse
da a la semi-recta no negativa [0, ∞) y el conjunto A = [a, ∞) para obtener sobre la probabilidad de que la producción semanal se encuentre entre 400 y 600 artı́culos?
aP(X ≥ a) ≤ E[ϕ(X)] = E[X]. Por la desigualdad de Chebyshev,
y despejar. σ2 1
P (|X − 500| ≥ 100) ≤ = .
Corolario 4.5. Sea a > 0. Vale que (100)2 100
1 1 99
P(X > a) ≤ E[X 2 ]. (33) Por lo tanto, P (|X − 500| < 100) ≥ 1 − 100 = 100 , la probabilidad de que la producción
a2 semanal se encuentre entre 400 y 600 artı́culos es al menos 0.99.
Demostración. Aplicar la desigualdad de Chebyshev usando la función ϕ(x) = x2 y el
conjunto A = (a, ∞) para obtener El que mucho abarca poco aprieta. Las desigualdades de Markov y Chebyshev son im-
2 2
portantes porque nos permiten deducir cotas sobre las probabilidades cuando solo se conocen
a P(X > a) ≤ E[X ] la media o la media y la varianza de la distribución de probabilidades. Sin embargo, debe
y despejar. tenerse en cuenta que las desigualdades de Markov y de Chebyshev producen cotas universales
que no dependen de las distribuciones de las variables aleatorias (dependen pura y exclusiva-
Corolario 4.6 (Pequeña desigualdad de Chebyshev). Sea X una variable aleatoria de vari-
mente de los valores de la esperanza y de la varianza). Por este motivo su comportamiento
anza finita. Para cada a > 0 vale que
será bastante heterogéneo: en algunos casos producirán cotas extremadamente finas, pero en
V(X) otros casos solamente cotas groseras.
P(|X − E[X]| ≥ a) ≤ . (34)
a2
18 19
Cálculo de la varianza por condicionales. 1.4. Funciones suaves
E[V(X|M )] =
X
V(X|M = m)P(M = m) =
X
V(Xm )pM (m). Nota Bene. Las fórmulas (10) y (11) permiten calcular explı́citamente la función de dis-
m∈M m∈M
tribución, FY , para transformaciones monótonas (continuas) Y = g(X), independientemente
de la clase de variable que sea X. ¿Qué hacer cuando la transformación g es suave pero no es
Por otra parte, inyectiva?
X
V(E[X|M ]) = E[(E[X|M ] − E[X])2 ] = (E[X|M = m] − E[X])2 P(M = m) Ejemplo 1.13. Sea X ∼ N (0, 1). Segúnla fórmula (5) la densidad de probabilidades de
√ √
1
Y = X 2 es fY (y) = 2√ √1 −x2 /2 . Por lo tanto,
m∈M y ϕ( y) + ϕ(− y) 1{y > 0}, donde ϕ(x) = 2π e
X
= (E[Xm ] − E[X])2 pM (m).
1
m∈M fY (y) = √ y −1/2 e−y/2 1{y > 0}.
2π
Finalmente,
X X En otras palabras, si X ∼ N (0, 1), entonces X 2 ∼ Γ(1/2, 1/2).
2
V(X) = V(Xm )pM (m) + (E[Xm ] − E[X]) pM (m).
m∈M m∈M
El Teorema 1.9 puede generalizarse del siguiente modo
Teorema 1.14 (Cambio de variables II). Sea X una variable aleatoria absolutamente con-
Nota Bene. Comparar con el Teorema de Steiner para el momento de inercia.
tinua con densidad de probabilidades fX (x). Sea Y = g(X), donde g es una función deriv-
able con derivada no nula (salvo en contables puntos). Si para cada y ∈ R, el conjunto
3. Predicción lineal y coeficiente de correlación g −1 (y) = {x ∈ R : g(x) = y} es discreto, entonces Y es absolutamente continua y admite una
función densidad de probabilidades de la forma
Definición 3.1 (Predictor lineal). Sean X e Y dos variables aleatorias definidas sobre un
mismo espacio de probabilidad (Ω, A, P), tales que E[X 2 ] < ∞ y E[Y 2 ] < ∞. La recta de
X fX (x)
fY (y) = .
regresión de Y basada en X es la función lineal Ŷ = aX + b que minimiza la distancia |g ′ (x)|
x∈g −1 (y)
q
d(Ŷ , Y ) = E[(Y − Ŷ )2 ]. Se sobreentiende que si g −1 (y) = ∅, fY (y) = 0.
Cálculo explı́cito de la recta de regresión. El problema consiste en hallar los valores

de a y b que minimizan la siguiente función de dos variables
2
g(a, b) := E[(Y − (aX + b)) ].
2. [James p.98] Si X tiene densidad fX (x), cuál es la densidad de Y = cos X?
Usando técnicas de cálculo diferencial en varias variables el problema se reduce a resolver el
sistema de ecuaciones ∇g = 0. Desarrollando cuadrados se puede ver que
2. Funciones de vectores aleatorios
∂g(a, b) 2
= 2aE[X ] − 2E[XY ] + 2bE[X],
∂a 2.1. Método básico: eventos equivalentes
∂g(a, b)
= 2b − 2E[Y ] + 2aE[X]. Sea X = (X1 , . . . , Xn ) un vector aleatorio definido sobre un espacio de probabilidad
∂b
(Ω, A, P) y sea g : Rn → R una función cualquiera. Entonces, Y := g(X) será una variable
El problema se reduce a resolver el siguiente sistema lineal de ecuaciones aleatoria si y solo si {ω ∈ Ω : g(X(ω)) ≤ y} ∈ A para todo y ∈ R. La función de distribución
de Y , FY (y), se puede calcular mediante la función de distribución de X de la siguiente
aE[X 2 ] + bE[X] = E[XY ]

manera:
aE[X] + b = E[Y ]
FY (y) = P(Y ≤ y) = P(g(X) ≤ y) = P (X ∈ By ) , (13)
Sumando la primera ecuación y la segunda multiplicada por −E[X], se obtiene
donde By := g −1 ((−∞, y]) = {x ∈ Rn : g(x) ≤ y}.
Cov(X, Y )
a(E[X 2 ] − E[X]2 ) = E[XY ] − E[X]E[Y ] ⇐⇒ a = .
V(X)
18 7
Caso bidimensional continuo. Sea (X, Y ) un vector aleatorio con densidad conjunta Cálculo de la esperanza por condicionales.
fX,Y (x, y). Cualquier función continua a valores reales g : R2 → R define una nueva variable "N # " n #
aleatoria Z := g(X, Y ). La función de distribución de Z, FZ (z) = P(Z ≤ z), se puede obtener X X
E [S|N = n] = E Xi N = n = E
Xi N = n

a partir de la densidad conjunta de X e Y de la siguiente forma:
i=1 i=1
1. Para cada z ∈ R se determina el conjunto Bz ⊂ R2 de todos los puntos (x, y) tales que " n
#
g(x, y) ≤ z.
X
= E Xi por la independencia de las Xi y N
2. Integrando la densidad conjunta fX,Y (x, y) sobre el conjunto Bz se obtiene la función i=1
de distribución de Z: = nµ.
x
FZ (z) = fX,Y (x, y)dxdy. (14) En consecuencia, E [S|N ] = µN . Por lo tanto, E [S] = E[E[S|N ]] = E [µN ] = µ E[N ].
Bz
Cálculo de la varianza por condicionales.
3. La densidad de Z se obtiene derivando la función de distribución respecto de z.
N n
! !
Ejemplo 2.1. Sean X e Y dos variables aleatorias independientes cada una con distribución
X X
V(S|N = n) = V Xi N = n =V Xi N = n
uniforme sobre el intervalo [−1, 1]. Se quiere hallar la función de distribución y la densidad i=1 i=1
de Z = |X − Y |. n
X
!
La función de distribución de la variable Z = |X − Y | se puede obtener observando la = V Xi por la independencia de Xi y N
Figura 2. i=1
y
= nσ 2 .
En consecuencia, V(S|N ) = σ 2 N . Por lo tanto, E[V(S|N )] = E[σ 2 N ] = σ 2 E[N ]. Por otra

y =x+z
1 parte, V[E(S|N )] = V[µN ] = µ2 V[N ]. Finalmente,
11111111111111111111111111111111111111111
00000000000000000000000000000000000000000
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111 V(S) = E[V(S|N )] + V(E[S|N ]) = σ 2 E[N ] + µ2 V[N ].
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
00000000000000000000000000000000000000000 y = x − z
11111111111111111111111111111111111111111
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
000000000000000000000000000000000000000000000000000000000
11111111111111111111111111111111111111111
0000000000000000000000000000000000000000011111111111111111010
11111111111111111111111111111111111111111
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
−111111111111111111111111111111111111111111
00000000000000000000000000000000000000000 1010 2.4. Ejemplo: esperanza y varianza de una mezcla.
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
1 x
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111 1010
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111 1010 Sea (Ω, A, P) un espacio de probabilidad. Sea M : Ω → R una variable aleatoria discreta
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
2−z
tal que M (Ω) = M y pM (m) = P(M = m) > 0 para todo m ∈ M y sea (Xm : m ∈ M) una
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111 1010
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111 10 familia de variables aleatorias definidas sobre el mismo espacio de probabilidad, independiente
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111 10
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
111111111111111110
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
0000000000000000
de M . El problema consiste en hallar la media y la varianza de la mezcla X := XM .
−1 La forma natural de resolver este problema es usar la técnica del cálculo de esperanzas y
varianzas mediante condicionales:
E[X] = E[E[X|M ]] y V(X) = E[V(X|M )] + V(E[X|M ]).

Figura 2: La región sombreada representa los puntos del cuadrado [−1, 1] × [−1, 1] tales que
|x − y| ≤ z, 0 ≤ z ≤ 2 y su área es 4 − (2 − z)2 = 4z − z 2 . Cálculo de la esperanza por condicionales. En primer lugar hay que observar que
X|M = m ∼ Xm por lo tanto,
Debido a que las variables aleatorias X e Y son independientes y uniformemente dis-
X X
E[X] = E[E[X|M ]] = E [X|M = m] P(M = m) = E[Xm ]pM (m).
tribuidas obre el intervalo [−1, 1], tenemos que P((X, Y ) ∈ B) = área(B)/4, para cualquier m∈M m∈M
región B contenida en el cuadrado [−1, 1] × [−1, 1] para la que tenga sentido la noción
de área. En consecuencia, FZ (z) = P (|X − Y | ≤ z) = (4z − z 2 )/4 para todo z ∈ [0, 2].
última expresión respecto de z se obtiene la densidad de Z = |X − Y |:
Derivando esta
fZ (z) = 2−z
2 1{z ∈ (0, 2)}.
8 17
Caso bidimensional discreto. Sea (X, Y ) un vector aleatorio discreto sobre un espacio
de probabilidad (Ω, A, P), con función de probabilidad conjunta pX,Y (x, y). Sea g : R2 →
Y
R una función cualquiera, Z := g(X, Y ) es una nueva variable aleatoria, cuya función de
probabilidad, pZ (z), se obtiene de la siguiente manera:
X
pZ (z) = P(Z = z) = P(g(X, Y ) = z) = pX,Y (x, y), (15)
p
E[Y 2 ] (x,y)∈Bz
p
V(Y ) p
donde Bz = {(x, y) ∈ X(Ω) × Y (Ω) : g(x, y) = z}.
E[V(Y |X)]
0 2.1.1. Suma de variables
H
Ejemplo 2.2 (Suma). Sean X, Y dos variables aleatorias con densidad conjunta fX,Y (x, y)
p y sea Z = X + Y . Para cada z ∈ R, Bz = {(x, y) ∈ R2 : y ≤ z − x}. Usando la fórmula (14)
E[Y ]2 se obtiene la función de distribución de Z
Z ∞ Z z−x
E[Y ] E[Y |X]
FZ (z) = fX,Y (x, y)dy dx. (16)
p
V(E[Y |X])
−∞ −∞
La densidad de Z se obtiene derivando respecto de z la función de distribución FZ (z)

Z ∞
d
fZ (z) = FZ (z) = fX,Y (x, z − x)dx. (17)
dz −∞
Figura 4: Teorema de Pitágoras: V(X) = E[V(Y |X)] + V(E[Y |X]) . Ejemplo 2.3 (Suma de variables independientes). Sean X, Y dos variables aleatorias contin-
uas e independientes con densidad conjunta fX,Y (x, y) = fX (x)fY (y). Según la fórmula (17)
Por último, como E[Y ] ∈ H, el Teorema de Pitágoras implica que la densidad de probabilidades de la suma Z = X + Y es
Z ∞ Z ∞
V(Y ) = kY − E[Y ]k2 = kY − E[Y |X] + E[Y |X] − E[Y ]k2 fZ (z) = fX,Y (x, z − x)dx = fX (x)fY (z − x)dx (18)
−∞ −∞
= kY − E[Y |X]k2 + kE[Y |X] − E[Y ]k2 = E[V(Y |X)] + V(E[Y |X]). (33)
y se denomina el producto convolución, fX ∗ fY , de las densidades marginales fX y fY .
En otras palabras, la variabilidad de Y se descompone de la siguiente manera: la variabilidad Si las densidades marginales fX (x) y fY (y) concentran la masa en [0, ∞) la fórmula (18)
(media) de Y alrededor de su esperanza condicional, más la variabilidad de esta última. del producto convolución es un poco más sencilla:
Z ∞ Z z
2.3. Ejemplo: sumas aleatorias de variables aleatorias (fX ∗ fY )(z) = fX (x)fY (z − x)dx = fX (x)fY (z − x)dx. (19)
0 0
Sea X1 , X2 , . . . una sucesión de variables aleatorias idénticamente distribuidas de media
µ y varianza σ 2 . Sea N una variable discreta a valores en N que es independiente de Plas Xi .
El problema consiste en hallar la media y la varianza de la variable aleatoria S = N i=1 Xi , Ejemplo 2.4 (Suma de exponenciales independientes de igual intensidad). Sean X e Y
llamada variable aleatoria compuesta. Este problema se puede resolver utilizando las identi-
variables aleatorias independientes con distribución exponencial de intensidad λ > 0. La
dades
densidad de la suma X + Y es
E[S] = E[E[S|N ]] y V(S) = E[V(S|N )] + V(E[S|N ]).
Z z
En la jerga probabilı́stica esta técnica de cálculo se conoce bajo el nombre de cálculo de fX+Y (z) = λe−λx λez−x dx = λ2 ze−λz . (20)
esperanzas y varianzas mediante condicionales. 0
En el lado derecho de la identidad (20) se puede reconocer la densidad de la distribución

Gamma: Γ(2, λ).
16 9
2.1.2. Mı́nimo Predicción
Queremos caracterizar la función de distribución del mı́nimo entre dos variables aleatorias Existen diversas maneras en las que dos variables pueden
p considerarse cercanas entre sı́.
X e Y , U := mı́n{X, Y }. En primer lugar observamos que para cada u ∈ R vale que Una manera es trabajar con la norma dada por kXk := E[X 2 ] y definir la distancia entre
dos variables aleatorias X e Y , d(X, Y ) mediante
FU (u) = P(U ≤ u) = P(mı́n{X, Y } ≤ u) = 1 − P(mı́n{X, Y } > u) p
= 1 − P(X > u, Y > u). (21) d(X, Y ) := kY − Xk = E[(Y − X)2 ]. (32)
.
Si (X, Y ) es continuo con función de densidad conjunta fX,Y (x, y) tenemos que
Z ∞Z ∞ Definición 2.5 (Predictor). Sean X e Y variables aleatorias definidas sobre el mismo espacio
FU (u) = 1 − fX,Y (x, y)dxdy. (22) de probabilidad (Ω, A, P), tales que E[Y 2 ] < ∞. El predictor de error cuadrático medio mı́nimo
u u (o mejor predictor ) de Y dada X es la función Ŷ = h(X) de X que minimiza la distancia
Si (X, Y ) es discreto con función de probabilidad conjunta pX,Y (x, y) tenemos que d(Ŷ , Y ) definida en (32).
XX El mejor predictor de Y dada X es una variable aleatoria Ŷ perteneciente al espacio
FU (u) = 1 − pX,Y (x, y). (23) vectorial H = {h(X) : h : R → R, E[h(X)2 ] < ∞} tal que E[(Y − Ŷ )2 ] ≤ E[(Y − Z)2 ] para
x>u y>u
toda Z ∈ H.
Si X e Y son independientes tenemos que
Interpretación geométrica. Sea L2 (Ω, A, P) el conjunto de todas la variables aleatorias
FU (u) = 1 − P(X > u)P(Y > u). (24) definidas sobre (Ω, A, P) que tienen varianza finita. H es un subespacio de L2 (Ω, A, P). Si
Y ∈/ H entonces el camino más corto desde Y hasta H es por la recta ortogonal al subespacio
Etcétera... H que pasa por Y . Por lo tanto, Ŷ debe ser la proyección ortogonal de Y sobre H. En tal caso
Y − Ŷ es ortogonal a cualquier vector de H. En otras palabras, hY − Ŷ , Zi = 0 para todo
Ejemplo 2.5 (Mı́nimo de exponenciales independientes). Sean X1 e X2 variables aleatorias
Z ∈ H, donde hX, Y i es el producto interno en L2 (Ω, A, P) definido por hX, Y i := E[XY ].
exponenciales independientes de intensidades λ1 y λ2 respectivamente. De acuerdo con la
identidad (24) tenemos que la función de distribución del mı́nimo U = mı́n{X1 , X2 } es
La esperanza condicional E[Y |X] es el mejor predictor de Y basado en X
FU (u) = (1 − e−λ1 u e−λ2 u )1{u ≥ 0} = (1 − e−(λ1 +λ2 )u )1{u ≥ 0}. (25) 1) La condición E[Y 2 ] < ∞ implica que E[Y |X] ∈ H:
En palabras, el mı́nimo de dos variables exponenciales independientes es una exponencial cuya E[E[Y |X]2 ] ≤ E[E[Y 2 |X]] = E[Y 2 ] < ∞.
intensidad es la suma de las intensidades de las variables originales.
2) La ecuación funcional (22) significa que Y − E[Y |X] ⊥ H:
2.2. El método del Jacobiano hY − E[Y |X], h(X)i = 0 ⇐⇒ E[(Y − E[Y |X])h(X)] = 0
⇐⇒ E[E[Y |X]h(X)] = E[Y h(X)].
Teorema 2.6 (Cambio de variables en la integral múltiple). Sea f : Rn → R una función
integrable. Sean G0 ⊂ Rn y G ⊂ Rn regiones abiertas y sea h : G0 → G, h = (h1 , . . . , hn )
una biyección entre G0 y G, cuyas componentes tienen derivadas parciales de primer orden Por lo tanto, la esperanza condicional, E[Y |X], satisface las dos condiciones que caracterizan
continuas. Esto es, para todo 1 ≤ i, j ≤ n, las funciones ∂h∂yi (y) son continuas. Si el Jacobiano a la proyección ortogonal sobre el subespacio H y en consecuencia es el predictor de Y basado
j
en X de menor error cuadrático:
de h es diferente de cero en casi todo punto, entonces,
E[Y |X] = arg mı́n E[(Y − h(X))2 ].
Z Z h(X)∈H
f (x)dx = f (h(y))|Jh (y)|dy, El error cuadrático medio mı́nimo se puede expresar en la forma
A h−1 (A)
para todo conjunto abierto A ⊂ G, donde kY − E[Y |X]k2 = E[(Y − E[Y |X])2 ] = E[E[(Y − E[Y |X])2 |X]]
! = E[V(Y |X)].
∂hi (y)
Jh (y) = det . La última igualdad se obtiene desarrollando el cuadrado (Y − E[Y |X])2 y usando las
∂yj i,j
propiedades de la esperanza condicional. (Ejercicio)
10 15
El siguiente resultado, que caracteriza la distribución de un cambio de variables aleatorias,
es una consecuencia inmediata del Teorema 2.6.
Ejemplo 2.3 (Fórmula de probabilidad total). Una rata está atrapada en un laberinto.
Inicialmente puede elegir una de tres direcciones. Si elige la primera se perderá en el laberinto Corolario 2.7. Sea X un vector aleatorio n-dimensional con función densidad de probabilidad
y luego de 4 minutos volverá a su posición inicial; si elige la segunda volverá a su posición inicial fX (x). Sean G0 ⊂ Rn y G ⊂ Rn regiones abiertas y sea g : G → G0 una biyección cuya función
luego de 7 minutos; si elige la tercera saldrá del laberinto luego de 3 minutos. Suponiendo que inversa h = g −1 satisface las hipótesis del Teorema 2.6. Si P(X ∈ G) = 1, entonces, el vector
en cada intento, la rata elige con igual probabilidad cualquiera de las tres direcciones, cuál es aleatorio Y = g(X) tiene función densidad de probabilidad fY (y) de la forma:
la esperanza del tiempo que demora en salir del laberinto?
fY (y) = fX (g −1 (y))|Jg−1 (y)|. (26)
Sean Y la cantidad de tiempo que demora la rata en salir del laberinto y sea X la dirección
que elige inicialmente. Usando la fórmula de probabilidad total puede verse que
Demostración. Cualquiera sea el conjunto abierto B ⊂ G0 tenemos
3 3
1X
X Z
E[Y ] = E[E[Y |X]] = E[Y |X = x]P(X = x) = E[Y |X = x] P (Y ∈ B) = P (g(X) ∈ B) = P(X ∈ g −1 (B)) = fX (x)dx.
3 g −1 (B)
x=1 x=1
Si la rata elige la primera dirección, se pierde en el laberinto durante 4 minutos y vuelve a su Poniendo f = fX y h = g −1 en el Teorema 2.6 se obtiene
posición inicial. Una vez que vuelve a su posición inicial el problema se renueva y la esperanza Z Z
del tiempo adicional hasta que la rata consiga salir del laberinto es E[Y ]. En otros términos fX (x)dx = fX (g −1 (y))|Jg−1 (y)|dy.
g −1 (B) B
E[Y |X = 1] = 4 + E[Y ]. Análogamente puede verse que E[Y |X = 2] = 7 + E[Y ]. La igualdad
E[Y |X = 3] = 3 no requiere comentarios. Por lo tanto, En consecuencia,
Z
1 1
E[Y ] = (4 + E[Y ] + 7 + E[Y ] + 3) = (2E[Y ] + 14) . P (Y ∈ B) = fX (g −1 (y))|Jg−1 (y)|dy.
3 3 B
Finalmente, E[Y ] = 14. Por lo tanto, el vector aleatorio Y tiene función densidad de probabilidad de la forma fY (y) =
fX (g −1 (y))|Jg−1 (y)|.
2.2. Propiedades
Nota Bene. Operativamente, la fórmula (26) para hallar la densidad conjunta de Y = g(X)
La esperanza condicional tiene propiedades similares a la esperanza.
involucra los siguientes pasos: 1. Invertir las variables (i.e., despejar las x’s en función de las
y’s). 2. Calcular el Jacobiano de la inversa de g (i.e., calcular el determinante de la matriz
Linealidad. E[aY1 + bY2 |X] = aE[Y1 |X] + bE[Y2 |X]. formada por las derivadas parciales de las xi respecto de las yj ). 3. Substituir los resultados
obtenidos en los pasos 1. y 2. en la fórmula (26). Aunque mecánico, el método del
Monotonı́a. Si Y1 ≤ Y2 , entonces E[Y1 |X] ≤ E[Y2 |X]. jacobiano es un método de naturaleza analı́tica muy poderoso.
Desigualdad de Jensen. Si g : R → R es una función convexa y E[|Y |], E[|g(Y )|] < ∞, Nota Bene. Con frecuencia es más fácil obtener el jacobiano de y en relación a x, pues Y
entonces es una función de X. Hay que recordar que los dos jacobianos son recı́procos y que Jg−1 (y) se
puede obtener a partir de Jg (x), invirtiendo este último y substituyendo x por g −1 (y). Esta
g(E[Y |X]) ≤ E[g(Y )|X]. (29) regla es análoga a la regla para la derivada de una función inversa en el caso unidimensional:
2] < ∞, poniendo g(t) = t2
En particular, si E[Y en la desigualdad de Jensen se obtiene dg −1 (y)

1 1
= ′ = .
dy g (x) x=g−1 (y) g ′ (g −1 (y))
E[Y |X]2 ≤ E[Y 2 |X] (30)
Definición 2.4 (Varianza condicional). Sean X e Y dos variables aleatorias definidas sobre
el mismo espacio de probabilidad (Ω, A, P). Si E[Y 2 ] < ∞, la varianza condicional de Y dada Ejemplo 2.8 (Transformaciones lineales). Si (X1 , X2 ) = (aY1 + bY2 , cY1 + dY2 ). Entonces,
X, V(Y |X), se define por fY1 ,Y2 (y1 , y2 ) = |ad − bc|fX1 ,X2 (ay1 + by2 , cy1 + dy2 ).
2 2
V(Y |X) := E[Y |X] − E[Y |X] (31) En general, si X = AY, donde A ∈ Rn×n es una matriz inversible, se obtiene
fY (y) = | det(A)|fX (Ay). (27)
14 11
Ejemplo 2.9 (Suma y resta de normales independientes). Sean X1 y X2 dos variables aleato- Para construir la esperanza condicional E[Y |X] el receptor debe calcular la función de regre-
rias independientes con distribuciones normales N (µ1 , σ 2 ) y N (µ2 , σ 2 ), respectivamente. Su sión ϕ(x) = E[Y |X = x] = 1P(Y = 1|X = x) − 1P(Y = −1|X = x). Que de acuerdo con la
densidad conjunta es regla de Bayes para mezclas adopta la forma

1 1 2 2
2 2 pY (1)fX|Y =1 (x) − pY (−1)fX|Y =−1 (x) ex/σ − e−x/σ

fX1 ,X2 (x1 , x2 ) = exp − (x − µ ) + (x − µ ) (28)
2πσ 2 2σ 2
1 1 2 2 ϕ(x) = = x/σ2 = tanh(x/σ 2 ). (27)
fX (x) e + e−x/σ2
Consideramos el cambio de variables (y1 , y2 ) = g(x1 , x2 ) = (x1 + x2 , x1 − x2 ) cuya inversa es
(x1 , x2 ) = g −1 (y1 , y2 ) = 21 (y1 + y2 , y1 − y2 ). De acuerdo con la fórmula (27) tenemos que
1 1
2 2 !!
1 1 y1 + y2 y1 − y2 0.8 0.8
fY1 ,Y2 (y1 , y2 ) = exp − − µ1 + − µ 2
4πσ 2 2σ 2 2 2 0.6 0.6

1 1 0.4 0.4
∝ exp − 2 y12 − 2(µ1 + µ2 )y1 exp − 2 y22 − 2(µ1 − µ2 )y2

0.2 0.2
4σ 4σ
0 0
(y1 − (µ1 + µ2 ))2 (y2 − (µ1 − µ2 ))2

∝ exp − 2
exp − 2
. (29) −0.2 −0.2
2(2σ ) 2(2σ ) −0.4 −0.4
De la identidad (29) podemos concluir que las variables Y1 e Y2 son independientes y que −0.6 −0.6
se distribuyen de la siguiente manera: Y1 ∼ N (µ1 + µ2 , 2σ 2 ), Y2 ∼ N (µ1 − µ2 , 2σ 2 ). En −0.8 −0.8
otras palabras, si X1 y X2 son dos variables aleatorias independientes con distribuciones −1

−4 −3 −2 −1 0 1 2 3 4
−1
−2 −1.5 −1 −0.5 0 0.5 1 1.5 2
normales N (µ1 , σ 2 ) y N (µ2 , σ 2 ), entonces X1 +X2 y X1 −X2 son independientes y X1 +X2 ∼

N (µ1 + µ2 , 2σ 2 ) y X1 − X2 ∼ N (µ1 − µ2 , 2σ 2 ) (a) (b)
Nota Bene. Sean X1 y X2 dos variables aleatorias independientes con distribuciones nor-
males N (µ1 , σ12 ) y N (µ2 , σ22 ), respectivamente. Cálculos similares permiten deducir que X1 + Figura 3: Lı́neas de regresión de Y sobre X para distintos valores de la varianza σ 2 . (a) σ 2 = 1:
X2 ∼ N (µ1 + µ2 , σ12 + σ22 ) y X1 − X2 ∼ N (µ1 − µ2 , σ12 + σ22 ). Más aún, X1 + X2 y X1 − X2 ϕ(x) = tanh(x); (b) σ 2 = 1/4, ϕ(x) = tanh(4x).
son independientes si y solo si σ12 = σ22 .
El receptor reconstruye Y basándose en X mediante E[Y |X] = tanh(X/σ 2 ).
Ejemplo 2.10 (Persistencia de la mala suerte). Sean X1 y X2 variables aleatorias inde-
pendientes con distribución común exponencial de intensidad λ. Vamos a hallar la densidad
2.1.3. Caso discreto
conjunta de (Y1 , Y2 ) donde
(Y1 , Y2 ) = (X1 + X2 , X1 /X2 ). Sean X e Y dos variables aleatorias discretas definidas sobre un mismo espacio de probabil-
Para ello consideramos la transformación idad (Ω, A, P),con función de probabilidad conjunta pX,Y (x, y) y E[|Y |] < ∞. Para simplificar
la exposición supongamos que Sop(pX ) = X(Ω). En tal caso, la esperanza condicional de Y
g(x1 , x2 ) = (x1 + x2 , x1 /x2 ) = (y1 , y2 ). dada X es E[Y |X] = ϕ(X), donde ϕ : R → R es la función de regresión de Y sobre X definida
La transformación inversa de g es por
y1 y2 y1 X
x1 = , x2 = (30) ϕ(x) := E[Y |X = x] = ypY |X=x (y) (28)
1 + y2 1 + y2
y∈Y (Ω)
y se obtiene resolviendo un sistema de dos ecuaciones en las variables x1 y x2 :
(

x1 + x2 = y1

x1 + x2 = y1

(1 + y2 )x2 = y1 x2 = y1 Demostración. Basta ver ϕ(X) verifica la ecuación funcional (22) para cualquier función
1+y2
⇐⇒ ⇐⇒ ⇐⇒ y1 y2 h medible y acotada.
x1 /x2 = y2 x1 = y2 x2 x1 = y2 x2 x1 = 1+y2
X X
E[ϕ(X)h(X)] = ϕ(x)h(x)pX (x) = E[Y |X = x]h(x)pX (x)

∂xi
El Jacobiano de la transformación inversa Jg−1 (y1 , y2 ) = det ∂yj es x x
i,j !
X X XX
∂x1 ∂x2 ∂x1 ∂x2 y2 −y1 y1 1 = ypY |X=x (y) h(x)pX (x) = yh(x)pY |X=x (y)pX (x)
Jg−1 (y1 , y2 ) = − = −
∂y1 ∂y2 ∂y2 ∂y1 1 + y2 (1 + y2 )2 (1 + y2 )2 1 + y2 x y x y
−y1 y2
XX
y1 y1 (1 + y2 ) y1 = yh(x)pX,Y (x, y) = E[Y h(X)].
= − =− =− . (31)
(1 + y2 )3 (1 + y2 )3 (1 + y2 )3 (1 + y2 )2 x y
12 13
Demostración. La fórmula de probabilidad total se deduce de la ecuación (22) poniendo Substituyendo los resultados (30) y (31) en la fórmula (26) se obtiene:
h(X) ≡ 1. La identidad (24) se obtiene observando que g(X)E[Y |X] es una función de X que
soluciona la ecuación E[g(X)E[Y |X]h(X)] = E[(g(X)Y )h(X)]. Si X e Y son independientes y 1 y2 y1 |y1 |
fY1 ,Y2 (y1 , y2 ) = fX1 ,X2 , . (32)
E[Y h(X)] = E[Y ]E[h(X)] = E[E[Y ]h(X)]. 1 + y2 1 + y2 (1 + y2 )2
Por hipótesis,
2.1. Ejemplos
fX1 ,X2 (x1 , x2 ) = λe−λx1 1{x1 > 0}λe−λx2 1{x2 > 0} = λ2 e−λ(x1 +x2 ) 1{x1 > 0, x2 > 0}. (33)
2.1.1. Caso continuo
Sean X e Y dos variables aleatorias continuas definidas sobre un mismo espacio de prob- De (32) y (33) se obtiene
abilidad (Ω, A, P) con densidad de probabilidades conjunta fX,Y (x, y) y E[|Y |] < ∞. La y1
fY1 ,Y2 (y1 , y2 ) = λ2 e−λy1 1{y1 > 0, y2 > 0}
esperanza condicional de Y dada X es E[Y |X] = ϕ(X), donde ϕ : R → R es la función de (1 + y2 )2
regresión de Y sobre X definida por 1

= λ2 y1 e−λy1 1{y1 > 0} 2
1{y2 > 0} . (34)
Z ∞ (1 + y2 )
ϕ(x) := E[Y |X = x] = yfY |X=x (y)dy. (25)
−∞ De (34) se deduce que las variables Y1 e Y2 son independientes.
Demostración. Basta ver ϕ(X) verifica la ecuación funcional (22) para cualquier función Nota Bene sobre la persistencia de la mala suerte. De (34) se deduce que la densidad
h medible y acotada. del cociente Y2 = X1 /X2 de dos variables exponenciales independientes de igual intensidad
Z ∞ Z ∞ es de la forma
E[ϕ(X)h(X)] = ϕ(x)h(x)fX (x)dx = E[Y |X = x]h(x)fX (x)dx
−∞ 1
−∞ fY2 (y2 ) = 1{y2 > 0}. (35)
(1 + y2 )2
Z ∞ Z ∞
= yfY |X=x (y)dy h(x)fX (x)dx
Z−∞
∞ Z ∞
−∞ En consecuencia, la variable Y2 tiene esperanza infinita. Se trata de un hecho notable que
= yh(x)fY |X=x (y)fX (x)dxdy ofrece una explicación probabilı́stica de un fenómeno conocido por cualquiera que haya entrado
Z−∞ −∞ en una fila de espera denominado la persistencia de la mala suerte 1
∞ Z ∞
¿Por qué? Supongamos que la variable X1 representa el tiempo de espera para ser atendi-
= yh(x)fX,Y (x, y)dxdy = E[Y h(X)].
−∞ −∞ dos en la fila elegida (a la que llamaremos la fila 1) y que X2 representa el tiempo de espera
en otra fila que estamos observando mientras esperamos ser atendidos (a la que llamaremos
la fila 2). El cociente X1 /X2 representa la proporción del tiempo esperado en la fila 1 en en
relación al tiempo de espera en fila 2. Por ejemplo, X1 /X2 ≥ 3 significa esperamos por lo
2.1.2. Regla de Bayes para mezclas menos el triple del tiempo que hubiésemos esperado en la otra fila.
Volvamos el Ejemplo 2.1 la pregunta es ¿Qué puede hacer el receptor para “reconstruir” la Integrando (35) se deduce que
señal original, Y , a partir de la señal corrompida X? Lo “mejor” que puede hacer es estimar Z y2
1 1 y2
Y mediante la esperanza condicional E[Y |X]. El receptor recibe la mezcla de dos variables P(Y2 ≤ y2 ) = dy = 1 − = , y2 ≥ 0
0 (1 + y)2 1 + y2 1 + y2
aleatorias X|Y = −1 ∼ N (−1, σ 2 ) e X|Y = 1 ∼ N (1, σ 2 ), mezcladas en igual proporción:
pY (−1) = pY (1) = 1/2. Las densidades de las componentes de la mezcla son Equivalentemente,
1 2 2 1 2 2 1
fX|Y =−1 (x) = √ e−(x+1) /2σ y fX|Y =1 (x) = √ e−(x−1) /2σ . P(Y2 > y2 ) = , y2 ≥ 0
2π σ 2π σ 1 + y2
De la fórmula de probabilidad total se deduce que la densidad de la mezcla X es En particular, la probabilidad de que tengamos que esperar por lo menos el triple del tiempo
que hubiésemos esperado en la otra fila es 1/4. Aunque de acuerdo con este modelo, en
fX (x) = pY (−1)fX|Y =−1 (x) + pY (1)fX|Y =1 (x) promedio, la mitad de las veces esperamos menos tiempo que en la otra fila, en la práctica, el
1

1 2 2

1

1 2 2
fenómeno de la mala suerte se ve sobredimensionado porque no le prestamos atención a los
= √ e−(x+1) /2σ + √ e−(x−1) /2σ . (26) tiempos cortos de espera.
2 2π σ 2 2π σ
1
Basta elegir una fila en las múltiples cajas de un supermercado para sufrir este fenómeno y observar que
en la fila elegida el tiempo de espera es el doble o el triple que el tiempo de espera en las otras filas.
12 13
Para percibir qué significa el resultado E[X1 /X2 ] = +∞ basta simular algunos valores de Esperanza condicional
la variable X1 /X2 . Por ejemplo, en 10 simulaciones obtuvimos la siguiente muestra:
Sean X e Y dos variables aleatorias definidas sobre un mismo espacio de probabilidad
1.2562, 0.8942, 0.9534, 0.3596, 29.3658, 1.2641, 3.3443, 0.3452, 13.5228, 7.1701. (Ω, A, P). Supongamos que E[|Y |] < ∞. Definimos la esperanza condicional de Y dada X,
E[Y |X], como cualquier variable aleatoria de la forma ϕ(X), donde ϕ : R → R es una función
El lector puede extraer sus propias conclusiones.
(medible), que solucione la ecuación funcional (22).
Ejemplo 2.11 (Gammas y Betas). Sean X1 y X2 variables aleatorias independientes con
distribuciones Γ(ν1 , λ) y Γ(ν2 , λ). Vamos a hallar la densidad conjunta de (Y1 , Y2 ) donde Existencia. La existencia de la esperanza condicional depende de teoremas profundos de
X1 Teorı́a de la medida y no será discutida en estas notas. El lector interesado puede consultar
Y1 = X1 + X2 , e Y2 = . Billingsley(1986) y/o Durrett(1996).
X1 + X2
Para ello consideramos la transformación
Unicidad. Supongamos que ϕ(X) y ψ(X) son dos soluciones de la ecuación funcional (22).
x1 Entonces, ϕ(X) = ψ(X) cası́ seguramente (i.e., P(ϕ(X) 6= ψ(X)) = 0).
g(x1 , x2 ) = x1 + x2 , = (y1 , y2 ).
x1 + x2
La transformación inversa de g es Demostración. Por cuestiones de simetrı́a, la prueba se reduce a mostrar que para cada
ǫ > 0, P(Aǫ ) = 0, donde Aǫ := {ϕ(X) − ψ(X) ≥ ǫ}. Observar que, por hipótesis, para
x1 = y1 y2 , x2 = y1 (1 − y2 ). (36)
toda función medible y acotada h : R → R vale que E[ϕ(X)h(X)] = E[ψ(X)h(X)] o lo
El Jacobiano de la transformación inversa es que es equivalente E[(ϕ(X) − ψ(X))h(X)] = 0. Poniendo h(X) = 1{X ∈ Aǫ } tenemos que
∂x1 ∂x2 ∂x1 ∂x2 0 = E[(ϕ(X) − ψ(X))1{X ∈ Aǫ }] ≥ E[ǫ1{X ∈ Aǫ }] = ǫP(Aǫ ). Por lo tanto, P(Aǫ ) = 0.
Jg−1 (y1 , y2 ) = − = y2 (−y1 ) − y1 (1 − y2 ) = −y1 (37)
∂y1 ∂y2 ∂y2 ∂y1 Lema 2.2 (Técnico). La esperanza condicional satisface E[|E[Y |X]|] ≤ E[|Y |].
Substituyendo los resultados (36) y (37) en la fórmula (26) se obtiene:
Demostración. La variable aleatoria ϕ(X) satisface la ecuación (22). Poniendo h(X) =
fY1 ,Y2 (y1 , y2 ) = fX1 ,X2 (y1 y2 , y1 (1 − y2 )) |y1 |. (38) 1{ϕ(X) > 0} y usando (22) se obtiene
Por hipótesis, E[ϕ(X)1{ϕ(X) > 0}] = E[Y 1{ϕ(X) > 0}] ≤ E[|Y |].
λν1 xν11 −1 e−λx1 λν2 xν22 −1 e−λx2 Análogamente se puede ver que E[−ϕ(X)1{ϕ(X) ≤ 0}] = E[−Y 1{ϕ(X) ≤ 0}] ≤ E[|Y |]. Por
fX1 ,X2 (x1 , x2 ) = = 1{x1 > 0} 1{x2 > 0}
Γ(ν1 ) Γ(ν2 ) lo tanto,
λν1 +ν2 xν11 −1 xν22 −1 e−λ(x1 +x2 ) E[|ϕ(X)|] = E[ϕ(X)1{ϕ(X) > 0} − ϕ(X)1{ϕ(X) ≤ 0}]
= 1{x1 > 0, x2 > 0}. (39)
Γ(ν1 )Γ(ν2 )
= E[ϕ(X)1{ϕ(X) > 0}] − E[ϕ(X)1{ϕ(X) ≤ 0}]
De (38) y (39) se obtiene = E[Y 1{ϕ(X) > 0}] − E[Y 1{ϕ(X) ≤ 0}]
λν1 +ν2 (y1 y2 )ν1 −1 (y1 (1 − y2 ))ν2 −1 e−λy1 = E[Y 1{ϕ(X) > 0} − Y 1{ϕ(X) ≤ 0}] ≤ E[|Y |]].
fY1 ,Y2 (y1 , y2 ) = 1{y1 y2 > 0, y1 (1 − y2 ) > 0}|y1 |
Γ(ν1 )Γ(ν2 )
!
λν1 +ν2 y1ν1 +ν2 −1 e−λy1
= 1{y1 > 0}
Γ(ν1 + ν2 ) Propiedades que merecen ser subrayadas
!
Γ(ν1 + ν2 )y2ν1 −1 (1 − y2 )ν2 −1 Aunque se deducen inmediatamente de la definición, las propiedades siguientes merecen ser
× 1{0 < y2 < 1} . (40) subrayas porque, como se podrá apreciar más adelante, constituyen poderosas herramientas
Γ(ν1 )Γ(ν2 )
de cálculo.
Por lo tanto, Y1 e Y2 son independientes y sus distribuciones son Y1 ∼ Γ(ν1 + ν2 , λ), Y2 ∼
β(ν1 , ν2 ): 1. Fórmula de probabilidad total:
λν1 +ν2 E[E[Y |X]] = E[Y ]. (23)

fY1 (y1 ) = y ν1 +ν2 −1 e−λy1 1{y1 > 0},
Γ(ν1 + ν2 ) 1 2. Sea g : R → R una función tal que E[|g(X)Y |] < ∞,
Γ(ν1 + ν2 ) ν1 −1
fY2 (y2 ) = y (1 − y2 )ν2 −1 1{0 < y2 < 1}. E[g(X)Y |X] = g(X)E[Y |X]. (24)
Γ(ν1 )Γ(ν2 ) 2
3. Si X e Y son independientes, entonces E[Y |X] = E[Y ].
14 11
La densidad conjunta de X e Y es fX,Y (x, y) = π1 1{x2 +y 2 ≤ 1}. Por definición, para cada Nota Bene. Algunos autores utilizan (y promueven!) el método del Jacobiano como una
x ∈ [−1, 1], la densidad condicional de Y dado que X = x es el cociente entre la densidad herramienta para obtener la densidad de variables aleatorias de la forma Y1 = g1 (X1 , X2 ).
conjunta fX,Y (x, y) y la densidad marginal de X Hacen lo siguiente: 1. Introducen una variable auxiliar de la forma Y2 = g2 (X1 , X2 ) para
√ obtener un cambio de variables (g1 , g2 ) : R2 → R2 . 2. Utilizan la fórmula del Jacobiano (26)
2 1 − x2 para obtener la densidad conjunta de (Y1 , Y2 ) a partir de la densidad conjunta de (X1 , X2 ).
fX (x) = 1{x ∈ [−1, 1]}.
π 3. Obtienen la densidad de Y1 marginando (i.e., integrando la densidad conjunta de (Y1 , Y2 )
con respecto de y2 ). Por ejemplo,
Por lo tanto,
Suma: (X1 , X2 ) → (X1 + X2 , X2 ) =: (Y1 , Y2 ). En tal caso, (x1 , x2 ) = (y1 − y2 , y2 ) y el
1 p p Jacobiano tiene la forma J(y1 , y2 ) = ∂x 1 ∂x2 ∂x1 ∂x2
∂y1 ∂y2 − ∂y2 ∂y1 = 1. De donde se obtiene
fY |X=x (y) = √ 1{− 1 − x2 ≤ y ≤ 1 − x2 }. (21)
2 1−x2 Z
fY1 (y1 ) = fX1 ,X2 (y1 − y2 , y2 )dy2 .
En otras palabras,h dado que X = x, xi∈ [−1, 1], la variable Y se distribuye uniformemente R
√ √
sobre el intervalo − 1 − x2 , 1 − x2 . En consecuencia, Producto: (X1 , X2 ) → (X1 X2 , X1 ) =: (Y1 , Y2 ). En tal caso, (x1 , x2 ) = (y2 , y1 /y2 ) y el
1
Jacobiano tiene la forma J(y1 , y2 ) = ∂x 1 ∂x2 ∂x1 ∂x2
∂y1 ∂y2 − ∂y2 ∂y1 = − y2 . De donde se obtiene
p
E[Y |X = x] = 0 y V(Y |X = x) = (2 1 − x2 )2 /12 = (1 − x2 )/3. Z
fY1 (y1 ) = fX1 ,X2 (y2 , y1 /y2 )|y2 |−1 dy2 .
R
Cociente: (X1 , X2 ) → (X1 /X2 , X2 ) =: (Y1 , Y2 ). En tal caso, (x1 , x2 ) = (y1 y2 , y2 ) y el

Jacobiano tiene la forma J(y1 , y2 ) = ∂x 1 ∂x2 ∂x1 ∂x2
∂y1 ∂y2 − ∂y2 ∂y1 = y2 . De donde se obtiene
2. Predicción y Esperanza condicional Z
Planteo del problema fY1 (y1 ) = fX1 ,X2 (y1 y2 , y2 )|y2 |dy2 .
R
En su versión más simple un problema de predicción o estimación involucra dos variables
aleatorias: una variable aleatoria Y desconocida (o inobservable) y una variable aleatoria X
conocida (u observable). El problema consiste en deducir información sobre el valor de Y a
partir del conocimiento del valor de X. Para ser más precisos, se busca una función ϕ(X) que Ejercicios adicionales
(en algún sentido) sea lo más parecida a Y como sea posible. La variable aleatoria Ŷ := ϕ(X)
3. [James p.97] Si X, Y, Z tienen densidad conjunta
se denomina un estimador de Y .
6
Ejemplo 2.1 (Detección de señales). Un emisor transmite un mensaje binario en la forma de fX,Y,Z (x, y, z) = 1{x > 0, y > 0, z > 0}.
(1 + x + y + z)4
una señal aleatoria Y que puede ser −1 o +1 con igual probabilidad. El canal de comunicación
corrompe la transmisión con un ruido normal aditivo de media 0 y varianza σ 2 . El receptor Hallar la densidad de la variable aleatoria W = X + Y + Z de dos maneras diferentes (método
recibe la señal X = Y + N , donde N es un ruido con distribución N (0, σ 2 ), independiente básico y método del Jacobiano)
de Y . El receptor del mensaje observa la señal corrompida X y sobre esa base tiene que
“reconstruir” la señal original Y . ¿Cómo lo hace?, ¿Qué puede hacer?
2.3. Funciones k a 1
En lo que sigue desarrollaremos herramientas que permitan resolver este tipo de proble-
mas. Sean X e Y dos variables aleatorias definidas sobre un mismo espacio de probabilidad Si la función g : Rn → Rn no es 1 a 1 también podemos utilizar el método del jacobiano
(Ω, A, P). El objetivo es construir una función ϕ(X) que sea lo más parecida a Y como sea para determinar la distribución de Y = g(X). Basta con que g sea 1 a 1 cuando se la restringe
posible. En primer lugar, vamos a suponer que E[|Y |] < ∞. Esta hipótesis permite precisar el a una de k regiones abiertas disjuntas cuya unión contiene al valor de X con probabilidad 1.
sentido del enunciado parecerse a Y . Concretamente, queremos construir una función de X, Supongamos que G, G1 , . . . , Gk son regiones abiertas de Rn tales que G1 , . . . Gk son dis-
ϕ(X), que solucione la siguiente ecuación funcional juntas dos a dos y que
k
!
[
E[ϕ(X)h(X)] = E[Y h(X)], (22) P X∈ Gℓ = 1.
ℓ=1
para toda función medible y acotada h : R → R. Supongamos además que la restricción de g a Gℓ , g|Gℓ , es una correspondencia 1 a 1 entre
Gℓ y G, para todo ℓ = 1, . . . , k y que la función inversa de g|Gℓ , denotada por h(ℓ) , satisface
todas las condiciones de la función h del Teorema 2.6.
10 15
Teorema 2.12. Bajo las condiciones enunciadas más arriba, si X tiene densidad fX (x), Esperanza condicional de Y dado que X = x. Para cada x ∈ R, la esperanza condicional
entonces Y tiene densidad de Y dado que X = x se define por
k
X Z ∞
fY (y) = fX (h(ℓ) (y))|Jh(ℓ) (y)|1{y ∈ G}. (41) E[Y |X = x] := yfY |X=x (y)dy. (18)
ℓ=1 −∞
siempre y cuando la integral del converja absolutamente. Si fX (x) = 0, E[Y |X = x] = 0.

Demostración. Sea B ⊂ G,
k k
X X Varianza condicional
P(Y ∈ B) = P(g(X) ∈ B) = P(g(X) ∈ B, X ∈ Gℓ ) = P(X ∈ h(ℓ) (B))
ℓ=1 ℓ=1 En cualquier caso, definidas las esperanzas condicionales de Y y de Y 2 dado que X = x,
k Z
X la varianza condicional de Y dado que X = x se define mediante
= fX (x)dx = (cambio de variables en la integral) h i
(ℓ)
ℓ=1 h (B) V(Y |X = x) := E (Y − E[Y |X = x])2 |X = x (19)
k k
Z Z !
X X
(ℓ) (ℓ)
= fX (h (y))|Jh(ℓ) (y)|dy = fX (h (y))|Jh(ℓ) (y)| dy. Desarrollando el término derecho se obtiene
ℓ=1 B B ℓ=1
V(Y |X = x) = E[Y 2 |X = x] − E[Y |X = x]2 . (20)
Ejemplo 2.13. Sean X e Y dos variables aleatorias independientes con distribución común
Nota Bene. La definición es consistente y coincide con la varianza de la variable aleatoria
N (0, 1). Mostrar que Z = X 2 +Y 2 y W = X/Y son independientes y hallar sus distribuciones.
Y |X = x cuya función de distribución es FY |X=x (y).
Solución. La función g : R2 → R2 , definida por g(x, y) = (x2 + y 2 , x/y) = (z, w), es 2 a 1. Ejemplo 1.6 (Dardos). Volvamos al problema del juego de dardos de blanco circular Λ =
Sean G = {(z, w) : z > 0}, G1 = {(x, y) : y > 0}, G2 = {(x, y) : y < 0}. Entonces, {(x, y) ∈ R2 : x2 + y 2 ≤ 1}. Por hipótesis, el dardo se clava en un punto de coordenadas
las restricciones g|G1 y g|G2 son correspondencias 1 a 1 entre las regiones abiertas Gi y G, (X, Y ) uniformemente distribuido sobre Λ.
i = 1, 2, y P((X, Y ) ∈ G1 ∪ G2 ) = 1.
Tenemos que calcular los jacobianos de las funciones inversas h(1) y h(2) en G. Para Y
ello calculamos los jacobianos de las restricciones g|G1 y g|G2 , que son los recı́procos de los
jacobianos de las inversas, y substituimos el valor (x, y) por el valor h(1) (z, w) o h(2) (z, w).
Tenemos
2x 2y −1
2 −1
x 1 √
J1 (z, w) = 1 x
= −2 +1 =− 1 − x2
y − y2 y 2 2(w2 + 1)
y
1
J2 (z, w) = − . 0 x 1
2(w2 + 1) X
Por lo tanto, la densidad de (Z, W ) es
1 √
fZ,W (z, w) = f (h(1) (z, w)) + f (h(2) (z, w)) 1{(z, w) ∈ G}. − 1 − x2
2(w2 + 1)
Como
1 −(x2 +y2 )/2 1 −z/2
f (x, y) = e = e ,
2π 2π
tenemos

1 −z/2 1 1 −z/2 1
fZ,W (z, w) = 2 e 1{z > 0, w ∈ R} = e 1{z > 0} .
2π 2(w2 + 1) 2 π(w2 + 1) h √ √ i
Como la densidad conjunta es el producto de dos densidades, concluimos que Z y W son Figura 2: Para cada x ∈ [−1, 1] se observa que Y |X = x ∼ U − 1 − x2 , 1 − x2 .
independientes, Z ∼ Exp(1/2) y W ∼ Cauchy.
16 9
El lado derecho de (15) define una genuina función de distribución FY |X=x : R → R, Ejemplo 2.14 (Mı́nimo y máximo). Sean X1 , X2 dos variables aleatorias con densidad con-
Ry junta fX1 ,X2 (x1 , x2 ). Hallar la densidad conjunta de U = mı́n(X1 , X2 ) y V = máx(X1 , X2 ).
fX,Y (x, t)dt La función g(x1 , x2 ) = (mı́n(x1 , x2 ), máx(x1 , x2 )), es 2 a 1.
FY |X=x (y) := −∞ , (16)
fX (x) Sean G = {(u, v) : u < v}, G1 = {(x1 , x2 ) : x1 < x2 } y G2 = {(x1 , x2 ) : x2 < x1 }.
que se llama la función distribución condicional de Y dado X = x y se puede interpretar como Las restricciones g|G1 (x1 , x2 ) = (x1 , x2 ) y g|G2 (x1 , x2 ) = (x2 , x1 ) son correspondencias 1
la función de distribución de una nueva variable aleatoria que llamaremos Y condicional a a 1 entre las regiones abiertas Gi y G, i = 1, 2; P((X, Y ) ∈ G1 ∪ G2 ) = 1 y los jacobianos de
que X = x y que será designada mediante el sı́mbolo Y |X = x. las funciones inversas h(1) y h(2) en G valen 1 y −1, respectivamente. Usando la fórmula (41)
La función de distribución FY |X=x (y) es derivable y su derivada obtenemos la densidad conjunta de (U, V ):
d fX,Y (x, y) fU,V (u, v) = (fX1 ,X2 (u, v) + fX1 ,X2 (v, u)) 1{u < v}.
fY |X=x (y) := F (y) = (17)
dy Y |X=x fX (x)
se llama la densidad condicional de Y dado que X = x.
Curva peligrosa. Todo el argumento usa la hipótesis fX (x) > 0. Si fX (x) = 0 las ex-
presiones (15)-(17) carecen de sentido. Sin embargo, esto no es un problema grave ya que
P(X ∈ Sop(fX )) = 1. Para los valores de x tales que fX (x) = 0 las variables condicionales
4. La distribución de (X, Y ) es uniforme sobre el recinto sombreado
Y |X = x serán definidas como idénticamente nulas. En tal caso, FY |X=x (y) = 1{y ≥ 0}.
1
Regla mnemotécnica. De la fórmula (17) se deduce que fX,Y (x, y) = fY |X=x (y)fX (x) y
puede recordarse mediante el siguiente “versito”: “la densidad conjunta es igual a la densidad
condicional por la marginal de la condición”.
Ejemplo 1.5 (Dos etapas: conjunta = marginal × condicional). Se elige un número al
−1
azar X sobre el intervalo (0, 1) y después otro número al azar Y sobre el intervalo (X, 1).
0 1
Se quiere hallar la densidad marginal de Y . Por hipótesis, fX (x) = 1{0 < x < 1} y
1
fY |X=x (y) = 1−x 1{x < y < 1}. La densidad conjunta de X e Y se obtiene multipli-
cando la densidad condicional fY |X=x (y) por la densidad marginal fX (x): fX,Y (x, y) =
1
fY |X=x (y)fX (x) = 1−x 1{0 < x < y < 1}. La densidad marginal de Y se obtiene integrando
la densidad conjunta fX,Y (x, y) con respecto a x −1
Z ∞ Z y
1 1
fY (y) = 1{0 < x < y < 1}dx = 1{0 < y < 1} dx
−∞ 1 − x 0 1−x
Hallar la densidad conjunta de (U, V ) = (|2Y |, |3X|).
= − log(1 − y)1{0 < y < 1}.
5. [James p.99] Sean X1 , . . . , Xn variables aleatorias independientes e idénticamente dis-
tribuidas, con densidad común f . Mostrar que la densidad conjunta de
Fórmula de probabilidad total. La densidad de probabilidades de Y es una combinación
U = mı́n Xi y V = máx Xi
convexa de las condicionales: 1≤i≤n 1≤i≤n
Z ∞
fY (y) = fY |X=x (y)fX (x)dx. es
−∞ fU,V (u, v) = n(n − 1)[F (v) − F (u)]n−2 f (u)f (v)1{u < v}.
Inmediato de la relación “conjunta = marginal × condicional”. Integrando respecto de y se (Sugerencia. Primero hallar P(u < U, V ≤ v). Después, calcular las derivadas parciales
obtiene que la función de distribución de Y es una combinación convexa de las condicionales: cruzadas de la distribución conjunta.)
Z y Z y Z ∞
FY (y) = fY (t)dt = fY |X=x (t)fX (x)dx dt 6. [James p.99] Sean X1 , . . . , Xn variables aleatorias independientes e idénticamente dis-
−∞ −∞ −∞ tribuidas, con distribución uniforme sobre el intervalo [0, 1]. Sean
Z ∞ Z y Z ∞
= fY |X=x (t)dt fX (x)dx = FY |X=x (y)fX (x)dx.
−∞ −∞ −∞ U = mı́n Xi y V = máx Xi
1≤i≤n 1≤i≤n
8 17
(a) Mostrar que la densidad conjunta de (U, V ) es 1
0.9
n−2
fU,V (u, v) = n(n − 1)(v − u) 1{0 ≤ u < v ≤ 1}.
0.8
0.7
(b) Mostrar que la densidad de W = V − U es 0.6
0.5
n−2
fW (w) = n(n − 1)w (1 − w) 1{0 ≤ w ≤ 1}. 0.4
0.3
0.2
0.1
3. Mı́nimo y máximo de dos exponenciales independientes 0

−4 −3 −2 −1 0 1 2 3 4
Teorema 3.1. Sean X1 y X2 dos variables aleatorias independientes con distribuciones ex-
ponenciales de intensidades λ1 y λ2 respectivamente. Si U = mı́n(X1 , X2 ), V = máx(X1 , X2 ),
W = V − U y J = 1{U = X1 } + 21{U = X2 }, entonces Figura 1: Gráfico de la probabilidad condicional P(Y = 1|X = ·) : R → R vista como función
de x.
(a) U ∼ Exp (λ1 + λ2 ).
(b) P(J = i) = λi (λ1 + λ2 )−1 , i = 1, 2. 1.4. Caso continuo
(c) U y J son independientes. Sean X e Y dos variables aleatorias definidas sobre (Ω, A, P) con densidad conjunta
fX,Y (x, y) continua. A diferencia del caso en que X es discreta en este caso tenemos que
(d) fW (w) = P(J = 1)fX2 (w) + P(J = 2)fX1 (w). P(X = x) = 0 para todo x ∈ R, lo que hace imposible definir la función de distribución
condicional de Y dado que X = x, P(Y ≤ y|X = x), mediante el cociente (2):
(e) U y W son independientes.
P(Y ≤ y, X = x) 0
= .
Demostración. Primero observamos que para cada u > 0 el evento {J = 1, U > u} equivale P(X = x) 0
al evento {X2 ≥ X1 > u}. En consecuencia,
Este obstáculo se puede superar observando que para cada x ∈ Sop(fX ) y para cada h > 0 el
Z ∞ Z ∞ Z ∞
evento {X ∈ Bh (x)} = {x − h < X < x + h} tiene probabilidad positiva

P(J = 1, U > u) = λ1 e−λx1 λ2 e−λ2 x2 dx2 dx1 = λ1 e−λx1 e−λ2 x1 dx1
u
Z ∞ x1 u x+h
Z
λ1 P(X ∈ Bh (x)) = fX (s)ds = 2hfX (θ1 (h)), θ1 (h) ∈ Bh (x).
= (λ1 + λ2 )e−(λ1 +λ2 )x1 dx1 x−h
λ + λ2 u
1
λ1 Por otra parte,
= e−(λ1 +λ2 )u . (42)
λ1 + λ2 Z x+h Z y Z y
P(Y ≤ y, X ∈ Bh (x)) = fX,Y (s, t)dt ds = 2h fX,Y (θ2 (h), t)dt,
De (42) se deducen (a), (b) y (c). x−h −∞ −∞
Si g : {(u, v) : 0 < u < v} → {(u, w) : u > 0, w > 0} es la función definida por
g(u, v) = (u, v − u), tenemos que (U, W ) = g(U, V ). La función g es biyectiva y su inversa donde θ2 (h) ∈ Bh (x).
h(u, w) = (u, u + w) tiene jacobiano idénticamente igual a 1. Aplicar el método del jacobiano Si x ∈ Sop(fX ), la probabilidad condicional P(Y ≤ y|X ∈ Bh (x)) está bien definida y vale
del Corolario 2.7 obtenemos: Ry
P(Y ≤ y, X ∈ Bh (x)) fX,Y (θ2 (h), t)dt
P (Y ≤ y|X ∈ Bh (x)) = = −∞ .
fU,W (u, w) = fU,V (u, u + w). (43) P(X ∈ Bh (x)) fX (θ1 (h))
Por el Ejemplo 2.14 sabemos que la densidad conjunta de U y V es En consecuencia,

Ry
−∞ fX,Y (x, t)dt

fU,V (u, v) = λ1 λ2 e−(λ1 u+λ2 v) + e−(λ1 v+λ2 u) 1{0 < u < v}. (44) lı́m P(Y ≤ y|X ∈ Bh (x)) = . (15)
h→0 fX (x)
18 7
y la probabilidad condicional del evento {M = m}, dado que ocurrió el evento {X ∈ Bh (x)} Combinando (43) y (44) obtenemos:
está bien definida y vale
fV,W (u, w) = λ1 λ2 e−(λ1 u+λ2 (u+w)) + e−(λ1 (u+w)+λ2 u) 1{u > 0, w > 0}
P(M = m, X ∈ Bh (x))
P(M = m|X ∈ Bh (x)) = .

P(X ∈ Bh (x)) = λ1 λ2 e−(λ1 +λ2 )u e−λ2 w + e−λ1 w 1{u > 0, w > 0}
Por otra parte, = (λ1 + λ2 )e−(λ1 +λ2 )u 1{u > 0}

P(M = m, X ∈ Bh (x)) = pM (m)P(Xm ∈ Bh (x)|M = m) = pM (m)P(Xm ∈ Bh (x)) λ1 λ2
× λ2 e−λ2 w + λ1 e−λ1 w 1{w > 0}. (45)
Z x+h λ1 + λ2 λ1 + λ2
= pM (m) fXm (t)dt = 2hpM (m)fXm (θm (h)), (10) De (45) se deducen (d) y (e).
x−h
para algún θm (h) ∈ Bh (x). De (9) y (10) se deduce que

pM (m)fXm (θm (h)) Ejercicios adicionales
P (M = m|X ∈ Bh (x)) = (11)
fX (θ(h))
7. Un avión tiene dos motores cada uno de los cuales funciona durante un tiempo exponen-
Para “adelgazar” el punto “engordado” hacemos h → 0 y obtenemos cial de media 10 horas independientemente del otro. El avión se mantiene volando mientras
pM (m)fXm (θm (h)) pM (m)fXm (x) funcione alguno de sus motores. Calcular la probabilidad de que el avión se mantenga volando
lı́m P (M = m|X ∈ Bh (x)) = lı́m = . (12) durante más de cinco horas después de que dejó de funcionar un motor.
h→0 h→0 fX (θ(h)) fX (x)
Finalmente, para cada x ∈ R tal que fX (x) > 0 definimos P(M = m|X = x) mediante la 8. Una cueva será iluminada por dos lámparas L1 y L2 cuyas duraciones (en horas) son inde-
fórmula pendientes y tienen distribuciones exponenciales de medias 8 y 10, respectivamente. Sabiendo
pM (m)fXm (x) que desde que se apagó una lámpara la cueva se mantuvo iluminada durante más de una hora
P(M = m|X = x) := . (13) calcular la probabilidad de que se haya apagado primero la lámpara L2 .
fX (x)
Ejemplo 1.4 (Detección de señales). Un emisor transmite un mensaje binario en la forma
de una señal aleatoria Y que puede ser −1 o +1 con igual probabilidad. El canal de comu-
nicación corrompe la transmisión con un ruido normal aditivo de media 0 y varianza 1. El 4. Funciones regulares e independencia
receptor recibe la señal X = N + Y , donde N es un ruido (noise) con distribución N (0, 1),
independiente de Y . La pregunta del receptor es la siguiente: dado que recibı́ el valor x, cuál Definición 4.1. Una función g se dice regular si existen números · · · < a−1 < a0 < a1 < · · · ,
es la probabilidad de que la señal sea 1? con ai → ∞ y a−i → −∞, tales que g es continua y monótona sobre cada intervalo (ai , ai+1 ).
Ejemplo 4.2. La función sen x es regular; todos los polinomios son funciones regulares. Un
La señal que recibe el receptor es una mezcla. La variable mezcladora es Y y las variables
ejemplo de una función que no es regular es 1{x ∈ Q}.
aleatorias que componen la mezcla son X−1 = N − 1 y X1 = N + 1. Por hipótesis, la variable
mezcladora Y se distribuye de acuerdo con la función de probabilidad pY (−1) = pY (1) = 1/2 Teorema 4.3. Sean X1 , . . . , Xn variables aleatorias independientes. Si g1 , . . . , gn son fun-
y las distribuciones de las variables componentes son X−1 ∼ N (−1, 1) y X1 ∼ N (1, 1). En ciones regulares, entonces g1 (X1 ), . . . , gn (Xn ) son variables aleatorias independientes.
otras palabras, las densidades de las variables componente son
1 2 1 2
Demostración. Para simplificar la prueba supondremos que n = 2. De la regularidad de
fX−1 (x) = √ e−(x+1) /2 y fX1 (x) = √ e−(z−1) /2 . las funciones g1 y g2 se deduce que para todo y ∈ R podemos escribir
2π 2π
A1 (y) := {x : g1 (x) ≤ y} = ∪i A1,i (y) y A2 (y) := {x : g2 (x) ≤ y} = ∪i A2,i (y),
Usando la fórmula de probabilidad total (7) se obtiene la densidad de la mezcla X
como uniones de intervalos disjuntos dos a dos. Por lo tanto,
1 1 2 1 1 2
fX (x) = pY (−1)fX−1 (x) + pY (1)fX1 (x) = √ e−(x+1) /2 + √ e−(z−1) /2 . XX
2 2π 2 2π P(g1 (X1 ) ≤ y1 , g1 (X2 ) ≤ y2 ) = P(X1 ∈ A1,i (y1 ), X2 ∈ A2,i (y2 ))
i j
El receptor pregunta P(Y = 1|X = x) =? La respuesta se obtiene usando la regla de Bayes XX
(13) = P(X1 ∈ A1,i (y1 ))P(X2 ∈ A2,i (y2 ))
i j
2
pY (1)fX1 (x) e−(x−1) /2 ex =
X
P(X1 ∈ A1,i (y1 ))
X
P(X2 ∈ A2,i (y2 ))
P(Y = 1|X = x) = = −(x−1)2 /2 2 /2 = x
. (14)
fX (x) e +e−(x+1) e + e−x i j
= P(g1 (X1 ) ≤ y1 )P(g2 (X2 ) ≤ y2 ).
6 19
Variables absolutamente continuas. Si las variables Xm son absolutamente continuas
En rigor de verdad, vale un resultado mucho más general. con densidades fXm (x), respectivamente, la mezcla X es absolutamente continua y tiene
densidad
Teorema 4.4. Si para 1 ≤ i ≤ n, 1 ≤ j ≤ mi , Xi,j son independientes y fi : Rmi → R son X
medibles entonces fi (Xi,1 , . . . , Xi,mi ) son independientes. fX (x) = fXm (x)pM (m). (7)
m∈M
Demostración. Durrett(1996), p.25-27.
Ejemplo 1.3. Para simular los valores de una variable aleatoria X se recurre al siguiente al-
Un caso concreto que usaremos permanentemente al estudiar sumas es el siguiente: si
goritmo: se simula el valor de un variable aleatoria M con distribución Bernoulli de parámetro
X1 , . . . , Xn son independientes, entonces X = X1 + · · · + Xn−1 y Xn son independientes.
p = 1/5. Si M = 0, se simula el valor de una variable aleatoria X0 con distribución uniforme
sobre el intervalo (0, 4). Si M = 1, se simula el valor de una variable aleatoria X1 con dis-
Ejercicios adicionales tribución uniforme sobre el intervalo (2, 6). Se quiere hallar la densidad de probabilidades de
la variable X ası́ simulada.
9. (Fragmentaciones aleatorias.) Si U1 , . . . , Un son independientes con distribución común La variable X es una mezcla. La variable mezcladora es M y las variables aleatorias que
U(0, 1), entonces componen la mezcla son X0 y X1 1. Por hipótesis, la variable mezcladora M se distribuye de
Y n acuerdo con la función de probabilidad pM (0) = 4/5, pM (1) = 1/5 y las distribuciones de las
− log Ui ∼ Γ(n, 1). variables componentes son X0 ∼ U(0, 4) y X1 ∼ U(2, 6). En otras palabras, las densidades de
i=1 las variables componente son fX0 (x) = 14 1{0 < x < 4} y fX1 (x) = 41 1{2 < x < 6}. Usando la
fórmula de probabilidad total (7) se obtiene la densidad de la mezcla X
10. Una varilla de 1 metro de longitud es sometida a un proceso de fragmentación aleatoria.
4 1 1 1
En la primera fase se elige un punto al azar de la misma y se la divide por el punto elegido en fX (x) = pM (0)fX0 (x) + pM (1)fX1 (x) = 1{0 < x < 4} + 1{2 < x < 6}
5 4 5 4
dos varillas de longitudes L1 y L2 . En la segunda fase se elige un punto al azar de la varilla
4 5 1
de longitud L1 y se la divide por el punto elegido en dos varillas de longitudes L1,1 y L1,2 . = 1{0 < x ≤ 2} + 1{2 < x < 4} + 1{4 ≤ x < 6}. (8)
Calcular la probabilidad de que L1,1 sea mayor que 25 centı́metros. 20 20 20
5. Bibliografı́a consultada 1.3. Sobre la regla de Bayes

Sean (Ω, A, P) un espacio de probabilidad; M : Ω → R una variable aleatoria discreta tal
Para redactar estas notas se consultaron los siguientes libros: que M (Ω) = M y pM (m) = P(M = m) > 0 para todo m ∈ M. Sea (Xm : m ∈ M) una
1. Durrett R.:Probability. Theory and Examples. Duxbury Press, Belmont. (1996). familia de variables aleatorias definidas sobre el mismo espacio de probabilidad (Ω, A, P) e
independiente de M . Supongamos además que las variables Xm , m ∈ M son absolutamente
2. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 2. John continuas con densidades de probabilidad continuas fXm (x), m ∈ M, respectivamente.
Wiley & Sons, New York. (1971). Sea X := XM la mezcla de las variables Mm obtenida mediante la variable mezcladora M .
¿Qué sentido deberı́a tener la expresión P(M = m|X = x)? No debe olvidarse que la variable
3. James, B. R.: probabilidade: um curso em nı́vel intermediario. IMPA, Rio de Janeiro. X es absolutamente continua y en consecuencia P(X = x) = 0. Por lo tanto, no tiene ningún
(2002). sentido definir P(M = m|X = x) mediante un cociente de la forma
4. Meester, R.: A Natural Introduction to Probability Theory. Birkhauser, Berlin. (2008). P(X = x, M = m) 0
P(M = m|X = x) = = .
5. Meyer, P. L.: Introductory Probability and Statistical Applications. Addison-Wesley, P(X = x) 0
Massachusetts. (1972).
¿Qué hacer? El obstáculo se puede superar siempre y cuando fX (x) > 0. En tal caso, si
6. Ross, S.: Introduction to Probability Models. Academic Press, San Diego. (2007) “engordamos” el punto x mediante el intervalo de radio h > 0 (suficientemente chico) centrado
en x, Bh (x) := {x − h < t < x + h}, el evento {X ∈ Bh (x)} tiene probabilidad positiva
7. Soong, T. T.: Fundamentals of Probability and Statistics for Engineers. John Wiley & Z x+h
Sons Ltd. (2004).
P(X ∈ Bh (x)) = fY (t)dt = 2hfX (θ(h)), θ(h) ∈ Bh (x). (9)
x−h
20 5
Notar que la función de probabilidad condicional obtenida es diferente de la correspondi-
ente a la marginal de Y , pY (y). Del Cuadro 2 y la definición (3) se deduce que
4 2
E[Y |X = x] = 1{x = 0} + 1{x = 1}.
3 3
(4) Condicionales
Nota Bene. Observar que en general la función de probabilidad condicional pY |X=x (y) es
Sebastian Grynberg
diferente de la función de probabilidad pY (y). Esto indica que se pueden hacer inferencias
sobre los valores posibles de Y a partir de los valores observados de X y viceversa; las dos 8-10 de abril 2013
variables son (estocásticamente) dependientes. Más adelante veremos algunas maneras de
hacer este tipo de inferencias.
1.2. Mezclas
Definición 1.2 (Mezcla). Sea (Ω, A, P) un espacio de probabilidad. Sea M : Ω → R una
variable aleatoria discreta tal que M (Ω) = M y pM (m) = P(M = m) > 0 para todo m ∈ M.
Sea (Xm : m ∈ M) una familia de variables aleatorias definidas sobre el mismo espacio de
probabilidad (Ω, A, P) e independiente de M . En tal caso, la variable aleatoria X := XM
está bien definida y se llama la mezcla de las variables Xm obtenida mediante la variable
mezcladora M .
Nota Bene. La distribución de probabilidades de M indica la proporción en que deben

mezclarse las variables Xm : para cada m ∈ M, la probabilidad pM (m) representa la propor-
ción con que la variable Xm participa de la mezcla XM .
Cálculo de la función de distribución. La función de distribución de la mezcla X se

obtiene utilizando la fórmula de probabilidad total:
X
FX (x) = P(XM ≤ x) = P(XM ≤ x|M = m)P(M = m)
m∈M
X
= P(Xm ≤ x|M = m)pM (m)
m∈M
X
= P(Xm ≤ x)pM (m) (pues (Xm : m ∈ M) y M son indep.)
m∈M
Serpientes de Akiyoshi Kitaoka.
X
= FXm (x)pM (m), (5)
m∈M
donde, para cada m ∈ M, FXm (x) = P(Xm ≤ x) es la función de distribución de la variable Si no se espera,
Xm . no se encontrará lo inesperado,
pues el sendero que a ello conduce
Variables discretas. Si las variables aleatorias Xm son discretas con funciones de prob- es inaccesible
abilidad pXm (x) = P(Xm = x), respectivamente, la mezcla X es discreta y su función de
(Heráclito.)
probabilidad es
X
pX (x) = pXm (x)pM (m). (6)
m∈M
4 1
Índice Nota Bene 1. La función FY |X=x : R → R definida en (2) es una función de distribución
genuina: es no decreciente, continua a derecha, tiende a 0 cuando y → −∞ y tiende a 1
1. Condicionales 2 cuando y → ∞. Por lo tanto, podemos interpretarla como la función de distribución de una
1.1. Caso discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 nueva variable aleatoria, Y |X = x, cuya ley de distribución coincide con la de Y cuando se
1.2. Mezclas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 sabe que ocurrió el evento X = x. Motivo por el cual la llamaremos Y condicional a que
1.3. Sobre la regla de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 X = x.
1.4. Caso continuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
Nota Bene 2. Todas las nociones asociadas a las distribuciones condicionales se definen
2. Predicción y Esperanza condicional 10 de la misma manera que en el caso de una única variable aleatoria discreta, salvo que ahora
2.1. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 todas las probabilidades se determinan condicionales al evento X = x. Las definiciones tienen
2.1.1. Caso continuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 sentido siempre y cuando x ∈ Sop(pX ).
2.1.2. Regla de Bayes para mezclas . . . . . . . . . . . . . . . . . . . . . . . 12
2.1.3. Caso discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Nota Bene 3. Si se quieren calcular las funciones de probabilidad de las variables Y |X = x,
2.2. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
x ∈ Sop(pX ), la fórmula (1) dice que basta dividir cada fila de la representación matricial
2.3. Ejemplo: sumas aleatorias de variables aleatorias . . . . . . . . . . . . . . . . 16
de la función de probabilidad conjunta de X e Y , pX,Y (x, y) por el correspondiente valor de
2.4. Ejemplo: esperanza y varianza de una mezcla. . . . . . . . . . . . . . . . . . . 17
su margen derecho, pX (x). En la fila x de la matriz resultante se encuentra la función de
3. Predicción lineal y coeficiente de correlación 18 probabilidad condicional de Y dado que X = x, pY |X=x (y).
Ejemplo 1.1. En una urna hay 3 bolas rojas, 2 amarillas y 1 verde. Se extraen dos. Sean
X e Y la cantidad de bolas rojas y amarillas extraı́das, respectivamente. La representación
matricial de la función de probabilidad conjunta pX,Y (x, y) y de sus marginales pX (x), pY (y)
1. Condicionales es la siguiente
1.1. Caso discreto X \Y 0 1 2 pX

0 0 2/15 1/15 3/15
Sean X e Y dos variables aleatorias discretas definidas sobre un mismo espacio de probabil- 1 3/15 6/15 0 9/15
idad (Ω, A, P). Fijemos un valor x ∈ R tal que pX (x) > 0. Usando la noción de probabilidad 2 3/15 0 0 3/15
condicional podemos definir la función de probabilidad condicional de Y dado que X = x,
pY 6/15 8/15 1/15
mediante
P(X = x, Y = y) pX,Y (x, y) Cuadro 1: Distribución conjunta de X e Y y sus respectivas marginales.
pY |X=x (y) := P(Y = y|X = x) = = . (1)
P(X = x) pX (x) Dividiendo cada fila de la matriz pX,Y (x, y) por el correspondiente valor de su margen
derecho se obtiene el Cuadro 2 que contiene toda la información sobre las funciones de prob-
Función de distribución condicional de Y dado que X = x. La función de distribución
abilidad de las condicionales Y |X = x.
condicional de Y dado que X = x se define por
X X X \Y 0 1 2
FY |X=x (y) := P(Y ≤ y|X = x) = P(Y = z|X = x) = pY |X=x (z). (2) 0 0 2/3 1/3
z≤y z≤y
1 1/3 2/3 0
2 1 0 0
Esperanza condicional de Y dado que X = x. La esperanza condicional de Y dado que
X = x se define por Cuadro 2: Distribuciones de las variables condicionales Y dado que X = x. Interpretación
X intuitiva de los resultados: a medida que X aumenta el grado de indeterminación de Y dis-
E[Y |X = x] := y pY |X=x (y). (3) minuye.
y
Por ejemplo, la función de probabilidad condicional de Y dado que X = 0, es la función de
y definida en la primera fila del Cuadro 2: pY |X=0 (0) = 0, pY |X=0 (1) = 2/3 y pY |X=0 (2) = 1/3.
2 3
definen los tiempos de espera entre arribos posteriores a t. Sustituyendo el valor de a en la segunda y despejando b se obtiene
Debido a la independencia de las Tk y la propiedad de pérdida de memoria de la distribu-
ción exponencial, parece intuitivamente claro que condicionando al evento {N (t) = n} las Cov(X, Y )
b = E[Y ] − E[X].
variables aleatorias (11) son independientes y con distribución exponencial. V(X)
(t) (t)
En lo que sigue mostraremos que N (t), T1 , T2 , . . . son variables aleatorias independi- Por lo tanto, la recta de regresión de Y basada en X es
entes y que
Cov(X, Y ) Cov(X, Y )
(t) (t)
(T1 , T2 , . . . ) ∼ (T1 , T2 , . . . ). (12) Ŷ = X + E[Y ] − E[X]
V(X) V(X)
Basta mostrar que para todo n ≥ 0 y para toda elección de números positivos t1 , . . . , tm , Cov(X, Y )
= (X − E[X]) + E[Y ]. (34)
m ∈ N, vale que V(X)
(t) (t) Además el error cuadrático medio es igual a
P(N (t) = n, T1 > t1 , . . . , Tm > tm ) = P(N (t) = n)e−λt1 · · · e−λtm . (13)
E[(Y − Ŷ )2 ] = V(Y ) 1 − ρ(X, Y )2 ,

Para probarlo condicionaremos sobre la variable Sn , (35)
(t)
P(N (t) = n, T1 > t1 ) = P(Sn ≤ t < Sn+1 , Sn+1 − t > t1 ) donde
= P(Sn ≤ t, Tn+1 > t1 + t − Sn ) Cov(X, Y )
Z t ρ(X, Y ) := (36)
= P(Tn+1 > t1 + t − s)fSn (s)ds σ(X)σ(Y )
0
Z t es el llamado coeficiente de correlación de las variables X, Y .
= e−λt1 P(Tn+1 > t − s)fSn (s)ds
0
Coeficiente de correlación
= e−λt1 P(Sn ≤ t, Tn+1 > t − Sn )
= P(N (t) = n)e −λt1
. El coeficiente de correlación definido en (36) es la covarianza de las variables normalizadas
Para obtener la segunda igualdad hay que observar que {Sn+1 > t} ∩ {Sn+1 − t > t1 } = X − E[X] Y − E[Y ]
X ∗ := , Y ∗ := . (37)
{Sn+1 > t1 + t} y escribir Sn+1 = Sn + Tn+1 ; la tercera se obtiene condicionando sobre Sn ; la σ(X) σ(Y )
cuarta se obtiene usando la propiedad de pérdida de memoria de la exponencial (P(Tn+1 >
t1 + t − s) = P(Tn+1 > t1 )P(Tn+1 > t − s) = e−λt1 P(Tn+1 > t − s)). Este coeficiente es independiente de los orı́genes y unidades de medida, esto es, para constantes
Por la independencia de las variables Tn , a1 , a2 , b1 , b2 con a1 > 0, a2 > 0, tenemos ρ(a1 X + b1 , a2 Y + b2 ) = ρ(X, Y ).
Desafortunadamente, el término correlación sugiere implicaciones que no le son inherentes.
(t) (t)
P(N (t) = n, T1 > t1 , . . . , Tm > tm ) Si X e Y son independientes, ρ(X, Y ) = 0. Sin embargo la recı́proca no es cierta. De hecho,
= P(Sn ≤ t < Sn+1 , Sn+1 − t > t1 , Tn+2 > t2 , Tn+m > tm ) el coeficiente de correlación ρ(X, Y ) puede anularse incluso cuando Y es función de X.
= P(Sn ≤ t < Sn+1 , Sn+1 − t > t1 )e−λt2 · · · e−λtm Ejemplo 3.2.
= P(N (t) = n)e−λt1 · · · e−λtm .
1
1. Sea X una variable aleatoria que toma valores ±1, ±2 cada uno con probabilidad 4 y
sea Y = X 2 . La distribución conjunta está dada por
4. Incrementos estacionarios e independientes. Por (6), N (t + s) − N (t) ≥ m, o N (t +
(t) (t) p(−1, 1) = p(1, 1) = p(−2, 4) = p(2, 4) = 1/4.
s) ≥ N (t) + m, si y solo si SN (t)+m ≤ t + s, que es la misma cosa que T1 + · · · + Tm ≤ s. Ası́
(t)(t) Por razones de simetrı́a (E[X] = 0 y E[XY ] = 0) ρ(X, Y ) = 0 incluso cuando Y es una
N (t + s) − N (t) = máx{m : T1 + · · · + Tm ≤ s}. (14) función de X.
Comparando (14) y (3) se puede ver que para t fijo las variables aleatorias N (t + s) − N (t)
2. Sean U y V variables independientes con la misma distribución, y sean X = U + V ,
para s ≥ 0 se definen en términos de la sucesión (11) exactamente de la misma manera en
Y = U − V . Entonces E[XY ] = E[U 2 ] − E[V 2 ] = 0 y E[Y ] = 0. En consecuencia,
que las N (s) se definen en términos de la sucesión original de tiempos de espera. En otras
Cov(X, Y ) = 0 y por lo tanto también ρ(X, Y ) = 0. Por ejemplo, X e Y podrı́an ser
palabras,
la suma y la diferencia de los puntos de dos dados. Entonces X e Y son ambos pares
(t) (t)
N (t + s) − N (t) = Ψ(s; T1 , T2 , . . . ), (15) ó ambos impares y por lo tanto dependientes.
6 19
Nota Bene. El coeficiente de correlación no es una medida general de la dependencia entre En efecto, de la relación básica (6) se deduce que si {Sn : n ≥ 0} es un proceso de Poisson
X e Y . Sin embargo, ρ(X, Y ) está conectado con la dependencia lineal de X e Y . En efecto, de intensidad λ, entonces las variables Sn tienen distribución Γ(n, λ):
de la identidad (35) se deduce que |ρ(X, Y )| ≤ 1 y que ρ(X, Y ) = ±1 si y solo si Y es una
n−1 n−1
función lineal de X (cası́ seguramente). X X (λt)k
P(Sn > t) = P(N (t) < n) = P(N (t) = k) = e−λt .
k!
k=0 k=0
1.3. Construcción
1. Billingsley, P.: Probability and measure. John Wiley & Sons, New York. (1986)
En lo que sigue mostraremos una forma de construir un proceso puntual de Poisson {Sn :
2. Bertsekas, D. P., Tsitsiklis, J. N.: Introduction to Probability. M.I.T. Lecture Notes. n ≥ 0} de intensidad λ. Los arribos, Sn , se construyen utilizando una sucesión de variables
(2000) aleatorias a valores positivos {Tn : n ≥ 1}:
3. Durrett R.:Probability.Theory and Examples. Duxbury Press, Belmont. (1996) n

X
S0 := 0, Sn := Ti , n = 1, 2, . . . . (9)
4. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 1. John i=1
Teorema 1.4. Sea {Tn : n ≥ 1} una sucesión de variables aleatorias independientes, cada
5. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 2. John una con distribución exponencial de intensidad λ. El proceso de arribos {Sn : n ≥ 0} definido
Wiley & Sons, New York. (1971) en (9) es un proceso puntual de Poisson de intensidad λ. (Ver la Definición 1.3).
6. Maronna R.: Probabilidad y Estadı́stica Elementales para Estudiantes de Ciencias. Ed-

Demostración.
itorial Exacta, La Plata. (1995)
1. ProcesoPPuntual. Para cada n ≥ 1, P(Tn > 0) = 1 y por la ley fuerte de los grandes
7. Ross, S.: Introduction to Probability Models. Academic Press, San Diego. (2007) números n1 ni=1 Ti → λ1 casi seguramente. Por lo tanto, {Sn : n ≥ 0} es un proceso puntual.
2. Distribuciones Poisson. Para cada n ≥ 1, Sn = T1 + · · · + Tn tiene distribución Γ(n, λ):
n−1
! ∞
!
X (λt)k X (λt)k
−λt −λt
FSn (t) = P(Sn ≤ t) = 1 − e 1{t ≥ 0} = e 1{t ≥ 0}.
k! k!
k=0 k=n
Observando que {N (t) = n} = {N (t) < n + 1} \ {N (t) < n} y usando la relación básica,
N (t) < n ⇐⇒ Sn > t, se deduce que
P(N (t) = n) = P(N (t) < n + 1) − P(N (t) < n) = P(Sn+1 > t) − P(Sn > t)
n n−1
X (λt)k X (λt)k (λt)n
= e−λt − e−λt = e−λt , n = 0, 1, . . . . (10)
k! k! n!
k=0 k=0
Por lo tanto, para cada t > 0 fijo, el incremento N (t) tiene una distribución Poisson de media
λt:
N (t) ∼ P oisson(λt).
3. Pérdida de memoria. Fijamos t > 0 y consideramos los arribos posteriores al instante t.
Por (3) tenemos que SN (t) ≤ t < SN (t)+1 . El tiempo de espera desde t hasta el primer arribo
posterior a t es SN (t)+1 − t; el tiempo de espera entre el primer y el segundo arribo posteriores
a t es TN (t)+2 ; y ası́ siguiendo. De este modo
(t) (t) (t)

T1 := SN (t)+1 − t, T2 := TN (t)+2 , T3 := TN (t)+3 , . . . (11)
20 5
(iii) Si s < t, entonces N (s) ≤ N (t).
(iv) Como el intervalo (0, t] es cerrado a la derecha, la función (aleatoria) N : R+ → N0
es continua a derecha. Además, en los puntos de discontinuidad tiene saltos de longitud 1.
En otras palabras, el gráfico de la función aleatoria N : R+ → N0 es una escalera no Ensayos Bernoulli y otras cositas
decreciente, continua a derecha y con saltos de longitud 1 en cada uno de los arribos del
proceso puntual. (Borradores, Curso 23)
Programa. En lo que sigue estudiaremos la distribución conjunta de las N (t) bajo ciertas Sebastian Grynberg
condiciones sobre los tiempos de espera entre arribos Tn y vice versa.
15-17 de abril de 2013
1.2. Procesos de Poisson
Existen varias definiciones equivalentes de procesos de Poisson. Adoptamos la que nos
parece más sencilla y generalizable. 1
Definición 1.3 (Proceso de Poisson). Un proceso puntual {Sn : n ≥ 0} sobre la semi-recta

positiva es un proceso de Poisson de intensidad λ > 0 si satisface las siguientes condiciones
(i) El proceso tiene incrementos independientes: para cada colección finita de tiempos 0 =
t0 < t1 < · · · < tn , los incrementos N (ti−1 , ti ] = N (ti ) − N (ti−1 ), i = 1, . . . , n son
independientes.
(ii) Los incrementos individuales N (s, t] = N (t) − N (s) tienen la distribución Poisson:
(λ(t − s))n
P(N (s, t] = n) = e−λ(t−s) , n = 0, 1, . . . , 0 ≤ s < t. (8)
n!
Nota Bene. La condición (ii) de la Definición 1.3 se puede descomponer en dos partes.
(a) Los incrementos son temporalmente homogéneos (i.e., la distribución de los incrementos
depende solamente de la longitud del intervalo de tiempo pero no de su posición) y (b) la
distribución de cada incremento individual es Poisson de media proporcional a la cantidad de
tiempo considerado.
Que un proceso puntual sea temporalmente homogéneo y que tenga incrementos independi-
entes significa que si se lo reinicia desde cualquier instante de tiempo t, el proceso ası́ obtenido
es independiente de todo lo que ocurrió previamente (por tener incrementos independientes)
y que tiene la misma distribución que el proceso original (por ser temporalmente homogéneo).
En otras palabras, el proceso no tiene memoria.
Es de suponer que, bajo esas condiciones, los tiempos de espera entre arribos tienen
que ser variables aleatorias independientes, cada una con distribución exponencial del mismo
parámetro. Ésto último es consistente con la condición sobre la distribución que tienen los Jakob Bernoulli (1654 - 1705)
incrementos individuales (8).
1
Elegimos la Definición 1.3 porque tiene la virtud de que se puede extender a Rd sin ninguna dificultad:
un subconjunto aleatorio (numerable) Π de Rd se llama un proceso de Poisson de intensidad λ si, para todo
En la “buena” te encontré
A ∈ B(Rd ), las variables aleatorias N (A) = |Π ∩ A| satisfacen (a) N (A) tiene la distribución Poisson de y en la “mala” te perdı́ ...
parámetro λ|A|, y (b) Si A1 , A2 , . . . , An ∈ B(Rd ) son conjuntos disjuntos, entonces N (A1 ), N (A2 ), . . . N (An )
son variables aleatorias independientes.
(Enrique Cadı́camo)
4 1
N (t)
Índice
1. Ensayos Bernoulli 3 5
1.1. La distribución binomial: cantidad de éxitos en n ensayos . . . . . . . . . . . 4
4
1.2. Término central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3. La distribución geométrica: tiempo de espera hasta el primer éxito . . . . . . 6 3
1.4. La distribución Pascal: tiempo de espera hasta el k-ésimo éxito . . . . . . . . 8
1.5. La distribución multinomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2
1.6. j Miscelánea de ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1
2. La distribución de Poisson 12
2.1. Motivación: Aproximación de Poisson de la distribución binomial . . . . . . . 12
2.2. La distribución Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 S1 S2 S3 S4 S5 t
2.3. e La aproximación Poisson. (Técnica de acoplamiento) . . . . . . . . . . . . 16
T1 T2 T3 T4 T5
3. Cuentas con exponenciales 20
3.1. Motivación: pasaje de lo discreto a lo continuo . . . . . . . . . . . . . . . . . 20
3.2. Distribución exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 Figura 1: Realización tı́pica de un proceso puntual aleatorio sobre la semi-recta positiva.
3.3. Suma de exponenciales independientes de igual intensidad . . . . . . . . . . . 21
3.4. Mı́nimos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 Observación 1.2. Notar que N (t) es una función de t y de las variables aleatorias T1 , T2 , . . .
a valores enteros no negativos. Indicaremos esa relación de la siguiente manera
N (t) = Ψ(t; T1 , T2 , . . . ), (4)
donde Ψ es la relación definida en (2).
La cantidad de arribos ocurridos durante el intervalo de tiempo (s, t] ⊂ R+ , N (s, t], es el

incremento N (t) − N (s)
X
N (s, t] := N (t) − N (s) = 1{s < Sn ≤ t}. (5)
n≥1
De (3) se obtiene la relación básica que conecta a las variables N (t) con las Sn :
N (t) ≥ n ⇐⇒ Sn ≤ t. (6)
De allı́ se desprende que
N (t) = n ⇐⇒ Sn ≤ t < Sn+1 . (7)
Proceso de conteo. La familia de variables aleatorias {N (t) : t ≥ 0} es un proceso es-

tocástico denominado el proceso de conteo de la sucesión de arribos {Sn : n ≥ 0}. Debido a que
la sucesión de arribos se puede reconstruir a partir de N , N también recibe la denominación
“proceso puntual ”.
Propiedades. Por definición, el proceso de conteo satisface las siguientes propiedades:

(i) Para cada t ≥ 0, la variable aleatoria N (t) tiene valores enteros no negativos.
(ii) N (0) = 0 y lı́mt→∞ N (t) = ∞.
2 3
Índice 1. Ensayos Bernoulli
1. Proceso puntual de Poisson 2 Se trata de ensayos repetidos en forma independiente en los que hay sólo dos resultados
1.1. Procesos puntuales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 posibles, usualmente denominados “éxito” y “fracaso”, cuyas probabilidades, p y 1 − p, se
1.2. Procesos de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 mantienen constantes a lo largo de todos los ensayos.
1.3. Construcción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 El espacio muestral de cada ensayo individual está formado por dos puntos S y F . El
1.4. Distribución condicional de los tiempos de llegada . . . . . . . . . . . . . . . 10 espacio muestral de n ensayos Bernoulli contiene 2n puntos o secuencias de n sı́mbolos S y
1.5. Coloración y adelgazamiento de procesos de Poisson . . . . . . . . . . . . . . 11 F , cada punto representa un resultado posible del experimento compuesto. Como los ensayos
1.6. Superposición de Procesos de Poisson: competencia . . . . . . . . . . . . . . . 13 son independientes las probabilidades se multiplican. En otras palabras, la probabilidad de
1.7. Procesos de Poisson compuestos . . . . . . . . . . . . . . . . . . . . . . . . . . 15 cada sucesión particular es el producto que se obtiene reemplazando los sı́mbolos S y F por p
y 1 − p, respectivamente. Ası́,
P(SSF SF . . . F F S) = pp(1 − p)p(1 − p) · · · (1 − p)(1 − p)p.
1. Proceso puntual de Poisson

1.1. Procesos puntuales Ejemplo 1.1. Si repetimos en forma independiente un experimento aleatorio y estamos in-
teresados en la ocurrencia del evento A al que consideramos “éxito”, tenemos ensayos Bernoulli
Informalmente, un proceso puntual aleatorio es un conjunto enumerable de puntos aleato- con p = P(A).
rios ubicados sobre la recta real. En la mayorı́a de las aplicaciones un punto de un proceso
puntual es el instante en que ocurre algún evento, motivo por el cual los puntos también se
Modelando ensayos Bernoulli. Los ensayos Bernoulli (con probabilidad de éxito p) se
llaman eventos o arribos. Por ejemplo, los tiempos de arribo de clientes a la caja de un super-
describen mediante una sucesión de variables aleatorias independientes e idénticamente dis-
mercado o de los trabajos al procesador central de una computadora son procesos puntuales.
tribuidas (Xi : i ∈ N) cada una con distribución Bernoulli(p),
En teorı́a fiabilidad, un evento podrı́a ser el instante en que ocurre una falla. El ejemplo básico
de este tipo de procesos es el proceso de Poisson. P(Xi = xi ) = pxi (1 − p)1−xi , xi ∈ {0, 1}. (1)
Definición 1.1 (Proceso puntual aleatorio). Un proceso puntual aleatorio sobre la semi-
Esto es, P(Xi = 1) = p y P(Xi = 0) = 1 − p. En este contexto, Xi = 1 significa que “el
recta positiva es una sucesión {Sn : n ≥ 0} de variables aleatorias no negativas tales que, casi
resultado del i-ésimo ensayo es éxito”.
seguramente,
(a) S0 ≡ 0, Preguntas elementales. Se pueden formular varios tipos de preguntas relacionadas con
los ensayos Bernoulli. Las más sencillas son las siguientes:
(b) 0 < S1 < S2 < · · · ,
(a) ¿Cuál es la cantidad total de éxitos en los primeros n ensayos?
(c) lı́mn→∞ Sn = +∞.
(b) ¿En n ensayos, cuál es el número de éxitos más probable?
La condición (b) significa que no hay arribos simultáneos. La condición (c) significa que
no hay explosiones, esto es, no hay una acumulación de arribos en tiempos finitos. (c) ¿Cuánto “tiempo” hay que esperar para observar el primer éxito?
La sucesión de variables aleatorias {Tn : n ≥ 1} definida por
(d) ¿Cuánto “tiempo” hay que esperar para observar el k-ésimo éxito?
Tn := Sn − Sn−1 (1)
En lo que sigue expresaremos las preguntas (a)-(d) en términos de las variables aleatorias
se llama la sucesión de tiempos de espera entre arribos. Xi , i ≥ 1, que describen los ensayos Bernoulli.
Introducimos una familia de nuevas variables aleatorias N (t), t ≥ 0, de la siguiente manera: La cantidad de éxitos en los primeros n ensayos se describe mediante la suma de las
para cada t ≥ 0 definimos N (t) como la cantidad de arribos ocurridos durante el intervalo de primeras variables X1 , . . . , Xn
tiempo (0, t], n
X
X Sn := Xi . (2)
N (t) := 1{Sn ≤ t} (2) i=1
n≥1
= máx{n ≥ 0 : Sn ≤ t}. (3)
2 3
La pregunta (a) interroga por la distribución de probabilidades de la variable aleatoria
Sn definida en (2). Esto es, para cada k = 0, . . . , n, se trata de determinar cuánto valen
las probabilidades P(Sn = k). En cambio, la pregunta (b) interroga por el valor de k que
maximiza a la función de k, P(Sn = k). Procesos de Poisson
El tiempo de espera hasta el primer éxito se describe mediante la variable aleatoria
T1 := mı́n{i ∈ N : Xi = 1}, (3)
y en general, el tiempo de espera hasta el k-ésimo éxito, k ≥ 1 se describe, recursivamente, Sebastian Grynberg
mediante
22 de abril de 2013
Tk := mı́n{i > Tk−1 : Xi = 1}. (4)
La pregunta (c) interroga por la distribución de probabilidades de la variable T1 definida en

(3): cuánto valen las probabilidades P(T1 = n), n ∈ N? Finalmente, la pregunta (d) interroga
por la distribución de probabilidades de las variables Tk , k ≥ 2, definidas en (4): cuánto valen
las probabilidades P(Tk = n), n ≥ k?
1.1. La distribución binomial: cantidad de éxitos en n ensayos

La cantidad de éxitos puede ser 0, 1, . . . , n. El primer problema es determinar las corre-
spondientes probabilidades. El evento en n ensayos resultaron k éxitos y n − k fracasos
n
( )
X
(X1 , . . . , Xn ) = (x1 , . . . , xn ) : xi = k
i=1
puede ocurrir de tantas formas distintas como k sı́mbolos 1 se puedan ubicar en n lugares.
En otras palabras, el evento considerado contiene nk puntos, cada uno de probabilidad

n n
!
\ Y Pn Pn
P {Xi = xi } = pxi (1 − p)1−xi = p i=1 xi (1 − p)n− i=1 xi
i=1 i=1
= pk (1 − p)n−k .
Por lo tanto,

n k
P(Sn = k) = p (1 − p)n−k 0 ≤ k ≤ n. (5)
k
ollin tonatiuh
En particular, la probabilidad de que no ocurra ningún éxito en n ensayos es (1 − p)n y la
probabilidad de que ocurra al menos un éxito es 1 − (1 − p)n .
La distribución de Sn , determinada en (5), se denomina la distribución binomial de el tiempo sólo es tardanza
parámetros n y p y se denota Binomial(n, p). de lo que está por venir
Nota Bene. Por definición, la distribución binomial de parámetros n y p es la distribución (Martı́n Fierro)
de una suma de n variables aleatorias independientes cada con distribución Bernoulli de
parámetro p.
4 1
5. Suma geométrica de exponenciales independientes. Sean T1 , T2 , . . . variables aleatorias Ejemplo 1.2. Se tira un dado equilibrado 11 veces y en cada tiro se apuesta al 6, ¿cuál es
independientes idénticamente distribuidas con ley exponencial de intensidad λ. Se define la probabilidad de ganar exactamente 2 veces? Como el dado es equilibrado, la probabilidad
T = N
P
i=1 Ti , donde N es una variable aleatoria con distribución geométrica de parámetro de éxito es 1/6 y la cantidad de éxitos en 11 tiros tiene distribución Binomial (11, 1/6). Por
p, independiente de las variables T1 , T2 , . . . . Hallar la distribución de T . (Sugerencia: Utilizar lo tanto, la probabilidad requerida es
la fórmula de probabilidad total condicionando a los posibles valores de N y el desarrollo en 2 9
11 1 5
serie de Taylor de la función exponencial.) = 0.2960 . . .
2 6 6
4. Bibliografı́a consultada Ejemplo 1.3. Cada artı́culo producido por una máquina será defectuoso con probabilidad
0.1, independientemente de los demás. En una muestra de 3, ¿cuál es la probabilidad de
Para redactar estas notas se consultaron los siguientes libros: encontrar a lo sumo un defectuoso?
Si X es la cantidad de artı́culos defectuosos en la muestra, entonces X ∼ Binomial(3, 0.1).
1. Billingsley, P.: Probability and measure. John Wiley & Sons, New York. (1986)
En consecuencia,
2. Durrett R.:Probability. Theory and Examples. Duxbury Press, Belmont. (1996)
3

3
P(X ≤ 1) = P(X = 0) + P(X = 1) = (0.1)0 (0.9)3 + (0.1)1 (0.9)2 = 0.972.
3. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 1. John 0 1
4. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 2. John Ejemplo 1.4. Un avión se mantendrá en vuelo mientras funcionen al menos el 50 % de sus
Wiley & Sons, New York. (1971) motores. Si cada motor del avión en vuelo puede fallar con probabilidad 1 − p independien-
temente de los demás, ¿para cuáles valores de p ∈ (0, 1) es más seguro un avión de 4 motores
5. Grimmett, G. R., Stirzaker, D. R.: Probability and Random Processes. Oxford Univer- que uno de 2?
sity Press, New York. (2001) Como cada motor puede fallar o funcionar independientemente de los demás, la cantidad
6. Meester, R.: A Natural Introduction to Probability Theory. Birkhauser, Berlin. (2008). de motores que siguen funcionando es una variable aleatoria con distribución binomial. La
probabilidad de que un avión de 4 motores realice un vuelo exitoso es
4 2 4 3 4 4
Massachusetts. (1972) p (1 − p)2 + p (1 − p) + p = 6p2 (1 − p)2 + 4p3 (1 − p) + p4 ,
2 3 4
8. Ross, S. M: Introduction to Probability and Statistics for Engineers and Scientists. mientras que la correspondiente probabilidad para un avión de 2 motores es
2 2 2
9. Soong, T. T.: Fundamentals of Probability and Statistics for Engineers. John Wiley & p(1 − p) + p = 2p(1 − p) + p2 .
1 2
Sons Ltd. (2004)
En consecuencia, el avión de 4 motores es más seguro que el de 2 si
6p2 (1 − p)2 + 4p3 (1 − p) + p4 > 2p(1 − p) + p2
lo que es equivalente a las siguientes expresiones simplificadas
3p3 − 8p2 + 7p − 2 > 0 ⇐⇒ 3(p − 2/3)(p − 1)2 > 0 ⇐⇒ p > 2/3.
Por lo tanto, el avión de 4 motores es más seguro cuando la probabilidad de que cada motor
se mantenga en funcionamiento es mayor que 2/3, mientras que el avión de 2 motores es más
seguro cuando esa probabilidad es menor que 2/3.
Ejemplo 1.5. Si la probabilidad de éxito es p = 0.01, cuántos ensayos se deben realizar para
asegurar que la probabilidad de que ocurra por lo menos un éxito sea al menos 1/2?
Buscamos el menor entero n tal que 1 − (0.99)n ≥ 21 , o equivalentemente 12 ≥ (0.99)n .
Tomando logaritmos − log 2 ≥ n log(0.99) y despejando n resulta n ≥ − log(2)/ log(0.99) ≈
68.96. Por lo tanto, n = 69.
24 5
1.2. Término central Teorema 3.3. Sean T1 , T2 , . . . , Tn variables aleatorias exponenciales independientes de in-
tensidades λ1 , λ2 , . . . , λn , respectivamente. Sean T y J las variables aleatorias definidas por
De la fórmula (5) se puede ver que
n k
n−k T := mı́n Ti , J := ı́ndice que realiza T.
P(Sn = k) k p (1 − p) (k − 1)!(n − k + 1)!p i
= n
=
P(Sn = k − 1) p k−1 (1 − p)n−k+1 k!(n − k)!(1 − p)
k−1 Entonces, T tiene distribución exponencial de intensidad λ1 + · · · + λn y
(n − k + 1)p (n + 1)p − k
= =1+ . (6) λj
k(1 − p) k(1 − p) P(J = j) = .
λ1 + · · · + λn
De (6) se deduce que P(Sn = k) crece cuando k < (n + 1)p y decrece cuando k > (n + 1)p. Si
(n + 1)p es un número entero, entonces P(Sn = (n + 1)p) = P(Sn = (n + 1)p − 1). En otras Más aún, las variables T y J son independientes.
palabras, la cantidad más probable de éxitos en n ensayos es m := [(n + 1)p]. Salvo en el caso
en que m = (n + 1)p, donde también lo es m − 1. Demostración. En primer lugar, hay que observar que T > t si y solo si Ti > t para
Cuando p = 12 el resultado anterior se puede observar directamente en el triángulo de todo i = 1, . . . , n. Como las variables T1 , T2 , . . . , Tn son exponenciales independientes de
Pascal: en el centro de las filas pares está el máximo. En la región central de las filas impares intensidades λ1 , λ2 , . . . λn tenemos que
hay dos máximos. n
Y n
Y
P(T > t) = P(Ti > t) = e−λi t = e−(λ1 +···+λn )t .
Ejemplo 1.6. Se tira un dado equilibrado n veces y en cada tiro se apuesta al 6. ¿Cuál es la
i=1 i=1
cantidad más probable de éxitos cuando n = 12? y cuando n = 11?
La cantidad de éxitos tiene distribución Binomial (n, p), donde p = 1/6. Cuando n = 12, Por lo tanto, T tiene distribución exponencial de intensidad λ1 + · · · + λn .
(n + 1)p = 13/6 = 2.16... y entonces la cantidad más probable de éxitos es m = 2. Cuando En segundo lugar hay que observar que J = j si y solo si T = Tj . Por lo tanto,
n = 11, (n + 1)p = 2 y entonces la cantidad más probable de éxitos es m = 1 o m = 2.
λj
P(J = j) = P(Tj = mı́n Ti ) = P(Tj < mı́n Ti ) = .
1.3. La distribución geométrica: tiempo de espera hasta el primer éxito i i6=j λ1 + · · · + λn
El tiempo que hay que esperar para observar el primer éxito en una sucesión de ensayos La última igualdad se obtiene utilizando el Lema 3.2P pues las variables Tj y mı́ni6=j Ti son
Bernoulli puede ser n = 1, 2, . . . . El evento T1 = 1 significa que se obtuvo éxito en el primer independientes y exponenciales con intensidades λj y i6=j λi , respectivamente.
ensayo y tiene probabilidad p. Para cada n ≥ 2, el evento T1 = n significa que en los primeros Finalmente, si para cada j definimos Uj = mı́ni6=j Ti , tenemos que
n − 1 ensayos se obtuvieron fracasos y que en el n-ésimo se obtuvo éxito, lo que tiene proba-
P(J = j, T ≥ t) = P(t ≤ Tj < Uj )
bilidad (1 − p)n−1 p. Por lo tanto, la distribución de T1 es Z ∞
= P(Tj < Uj |Tj = s)λj e−λj s ds
P(T1 = n) = (1 − p)n−1 p, n ∈ N. (7) t
Z ∞ Z ∞
e−( i6=j λi )s e−λj s ds
P
El evento T1 > n significa que los primeros n ensayos de la sucesión resultaron fracaso. Por = λj P(Uj > s)e−λj s ds = λj
t t
lo tanto, λj
Z ∞
= (λ1 + · · · + λn )e−(λ1 +···+λn )s ds
P(T1 > n) = (1 − p)n , n ≥ 1. (8) λ1 + · · · + λn t
λj
= e−(λ1 +···+λn )t .
La distribución de T1 se denomina distribución geométrica de parámetro p y se designa me- λ1 + · · · + λn
diante Geométrica(p).
Lo que completa la demostración.
Ejemplo 1.7. Se arroja repetidamente un dado equilibrado. ¿Cuál es la probabilidad de
que el primer 6 aparezca antes del quinto tiro?. La probabilidad de obtener 6 es 1/6 y la
cantidad de tiros hasta obtener el primer as tiene distribución Geométrica(1/6). Por lo tanto, Ejercicios adicionales
la probabilidad requerida es
4. Sean T1 y T2 variables aleatorias independientes exponenciales de intensidad 2. Sean
1 − (5/6)4 T(1) = mı́n(T1 , T2 ) y T(2) = máx(T1 , T2 ). Hallar la esperanza y la varianza de T(1) y de T(2) .

1/6 + (5/6)(1/6) + (5/6)2 (1/6) + (5/6)3 (1/6) = (1/6) = 1 − (5/6)4 = 0.5177 . . .
1 − (5/6)
6 23
Demostración. Por inducción. Para n = 1 no hay nada que probar: S1 = T1 ∼ Exp(λ). Ejemplo 1.8 (Ocurrencias casi seguras). Si al realizarse un experimento aleatorio un evento
Supongamos ahora que la suma Sn = T1 + · · · + Tn admite una densidad de la forma (48). A tiene probabilidad positiva de ocurrir, entonces en una sucesión de experimentos indepen-
Debido a que las variables aleatorias Sn y Tn+1 son independientes, la densidad de Sn+1 = dientes el evento A ocurrirá casi seguramente.
Sn + Tn+1 se obtiene convolucionando las densidades de Sn y Tn+1 : En efecto, el tiempo de espera hasta que ocurra el evento A es una variable aleatoria TA
Z t con distribución geométrica de parámetro p = P(A). Si se observa que
fSn+1 (t) = (fSn ∗ fTn+1 )(t) = fSn (t − x)fTn+1 (x)dx {TA > 1} ⊇ {TA > 2} ⊇ {TA > 3} ⊇ · · ·
0
Z t
(λ(t − x))n−1 −λx y que
= λe−λ(t−x) λe dx
0 (n − 1)! \
Z t {TA = ∞} = {TA > n}
λ n λn tn
= λe−λt (t − x)n−1 dx = λe−λt n≥1
(n − 1)! 0 (n − 1)! n
y se usa la propiedad de continuidad de P, se obtiene que
(λt)n
= λe−λt .
 
n! \
P(TA = ∞) = P  {TA > n} = lı́m P(TA > n) = lı́m (1 − p)n = 0.
n→∞ n→∞
Las funciones de distribución (49) se obtienen integrando las densidades (48). Sea t ≥ 0, n≥1
integrando por partes puede verse que
Por lo tanto, P(TA < ∞) = 1.
Z t Z t
(λs)n−1 −λs
FSn (t) = fSn (s)ds = λe ds
0 0 (n − 1)! Pérdida de memoria
t t
(λs)n−1 −λs (λs)n−2 −λt
Z
La variable aleatoria, T , con distribución geométrica de parámetro p tiene la propiedad
= − e + λe ds
(n − 1)! 0 0 (n − 2)! de pérdida de memoria,
(λt)n−1 −λt P(T > n + m|T > n) = P(T > m) n, m ∈ N (9)
= − e + FSn−1 (t). (50)
(n − 1)!
La identidad (9) se obtiene de (8) y de la fórmula de probabilidad condicional:
Iterando (50) obtenemos (49). P(T > n + m, T > n)
P(T > n + m|T > n) =
P(T > n)
Nota Bene. En la demostración anterior se utilizó el siguiente resultado: si T1 , . . . , Tn son
P(T > n + m) (1 − p)n+m
variables aleatorias independientes, entonces funciones (medibles) de familias disjuntas de las = =
P(T > n) (1 − p)n
Ti también son independientes. (Para más detalles ver el Capı́tulo 1 de Durrett, R., (1996).
Probability Theory and Examples, Duxbury Press, New York.) = (1 − p)m = P(T > m).
De hecho, la propiedad de pérdida de memoria definida en (9) caracteriza a la distribución
3.4. Mı́nimos geométrica.
Lema 3.2. Sean T1 y T2 dos variables aleatorias independientes y exponenciales de intensi- Teorema 1.9. Si T es una variable aleatoria a valores en N con la propiedad de pérdida de
dades λ1 y λ2 , respectivamente. Vale que memoria, entonces T ∼ Geométrica(p), donde p = P(T = 1).
λ1 Demostración. Sea G(n) := P(T > n). Si T pierde memoria, tenemos que
P(T1 < T2 ) = . (51)
λ1 + λ2
G(n + m) = G(n)G(m) (10)
Demostración. La probabilidad P(T1 < T2 ) puede calcularse condicionando sobre T1 : De (10) sigue que G(2) = G(1)G(1) = G(1)2 ,
G(3) = G(2)G(1) = G(1)3 y en general
Z ∞ Z ∞ G(n) = G(1)n cualquiera sea n ∈ N. En otros términos, la distribución de T es tal que
P(T1 < T2 ) = P(T1 < T2 |T1 = t)fT1 (t)dt = P(t < T2 )λ1 e−λ1 t dt
0 0 P(T > n) = G(1)n .
Z ∞ Z ∞
λ1
= λ1 e−λ2 t e−λ1 t dt = λ1 e−(λ1 +λ2 )t dt = . Por lo tanto,
0 0 λ1 + λ2
P(T = n) = P(T > n − 1) − P(T > n) = G(1)n−1 − G(1)n = G(1)n−1 (1 − G(1)).
22 7
1.4. La distribución Pascal: tiempo de espera hasta el k-ésimo éxito Si no discretizamos el tiempo tenemos que tratar con variables aleatorias continuas. El rol
de la distribución geométrica para los tiempos de espera lo ocupa la distribución exponencial.
Si se quieren observar k-éxitos en una sucesión de ensayos Bernoulli lo mı́nimo que se
Es la única variable continua dotada de una completa falta de memoria. En otras palabras, la
debe esperar es k ensayos. ¿Cuándo ocurre el evento Tk = n, n ≥ k? El n-ésimo ensayo debe
probabilidad de que una conversación que llegó hasta el tiempo t continúe más allá del tiempo
ser éxito y en los n − 1 ensayos anteriores deben ocurrir exactamente k − 1 éxitos. Hay n−1
k−1 t + s es independiente de la duración pasada de la conversación si, y solo si, la probabilidad
formas distintas de ubicar k − 1 sı́mbolos 1 en n − 1 lugares. Por lo tanto,
que la conversación dure por lo menos t unidades de tiempo está dada por una exponencial
n−1 k e−λt .
P(Tk = n) = p (1 − p)n−k n ≥ k. (11)
k−1
La distribución de Tk se denomina distribución Pascal de parámetros k y p y se designa Nota Bene Si en un momento arbitrario t la lı́nea está ocupada, entonces la probabilidad
mediante Pascal(k, p). de un cambio de estado durante el próximo segundo depende de cuan larga ha sido la con-
La distribución Pascal de parámetros k y p es la distribución de una suma de k variables versación. En otras palabras, el pasado influye sobre el futuro. Esta circunstancia es la fuente
aleatorias independientes cada una con ley Geométrica(p). Lo cual es intuitivamente claro si de muchas dificultades en problemas más complicados.
se piensa en el modo que arribamos a su definición.
En efecto, definiendo T0 := 0 vale que 3.2. Distribución exponencial
k
X Se dice que la variable aleatoria T tiene distribución exponencial de intensidad λ > 0 y se
Tk = (Ti − Ti−1 ). denota T ∼ Exp(λ) si la función de distribución de T es de la forma
i=1
Basta ver que para cada i = 1, . . . , k las diferencias Ti − Ti−1 son independientes y todas se FT (t) := P(T ≤ t) = 1 − e−λt 1{t ≥ 0}. (46)
distribuyen como T1 ∼ Geométrica(p). De acuerdo con la regla del producto
En tal caso T admite la siguiente función densidad de probabilidades
P ∩ki=1 {Ti − Ti−1 = mi } = P(T1 = m1 )
n−1
fT (t) = λe−λt 1{t ≥ 0}. (47)
Y
× P Ti − Ti−1 = mi | ∩i−1
j=1 {Tj − Tj−1 = mj } . (12)
i=2 Media y Varianza. Los valores de la esperanza y la varianza de T son, respectivamente,
E[T ] = 1/λ y V(T ) = 1/λ2 .
Si se sabe que T1 = m1 , . . . , Ti−1 − Ti−2 = mi−1 , entonces el evento Ti − Ti−1 = mi depende
las variables aleatorias XPi−1 mj +1 , . . . , XPi mj y equivale a decir que las primeras mi − 1
j=1 j=1 3.3. Suma de exponenciales independientes de igual intensidad
de esas variables valen 0 y la última vale 1. En consecuencia,

i−1
Teorema 3.1. Sean T1 , T2 , . . . , Tn variables aleatorias independientes, idénticamente dis-
P Ti − Ti−1 = mi | ∩j=1 {Tj − Tj−1 = mj } = (1 − p)mi −1 p. (13) tribuidas, con distribución exponencial de intensidad λ > 0. La suma Sn = T1 + · · · + Tn
admite una densidad de probabilidades de la forma
De (12) y (13) se deduce que
k (λt)n−1
Y fSn (t) = λe−λt 1{t > 0} (48)
P ∩ki=1 {Ti − Ti−1 = mi } = (1 − p)mi −1 p. (14) (n − 1)!
i=1
y su función de distribución es
De la factorización (14) se deduce que T1 , T2 − T1 , . . . , Tk − Tk−1 son independientes y que
cada una tiene distribución geométrica de parámetro p. n−1
!
X (λt)i
FSn (t) = 1 − e−λt 1{t ≥ 0}. (49)
Ejemplo 1.10. Lucas y Monk disputan la final de un campeonato de ajedrez. El primero i!
i=0
que gane 6 partidas (no hay tablas) resulta ganador. La probabilidad de que Lucas gane
cada partida es 3/4. ¿Cuál es la probabilidad de que Lucas gane el campeonato en la novena En otras palabras, la suma de n variables aleatorias independientes exponenciales de intensi-
partida? La cantidad de partidas que deben jugarse hasta que Lucas gane el campeonato tiene dad λ > 0 tiene distribución Gamma de parámetros n y λ: Γ(n, λ).
distribución Pascal(6, 3/4). Por lo tanto, la probabilidad requerida es
6 3
8 3 1
= 0.1557 . . .
5 4 4
8 21
Wn,k tiene distribución Poisson de media pn,k . PuestoPque las Wn,k son independientes, Wn = Ejemplo 1.11. En una calle hay tres parquı́metros desocupados. Se estima que en los próxi-
P rn rn −p
k=1 Wn.k tiene distribución Poisson de media λn = k=1 pn,k . De la desigualdad 1−p ≤ e , mos 10 minutos pasarán 6 coches por esa calle y, en media, el 80 % tendrá que estacionarse
se obtiene como consecuencia que en alguno de ellos. Calcular la probabilidad de que los tres parquı́metros sean ocupados en
los próximos 10 minutos.
P(Vn,k 6= Wn,k ) = P(Vn.k = 1 6= Wn,k ) = P(Uk ∈ I1 (pn,k ) − J1 (pn,k )) La probabilidad requerida es la probabilidad de que la cantidad, N , de ensayos hasta el
= pn,k − e−pn,k pn,k ≤ p2n,k , tercer éxito sea menor o igual que 6. Como N tiene distribución Pascal(3, 0.8) resulta que
6 6
y por (42)

X X n−1
P(N ≤ 6) = P(N = n) = (0.8)3 (0.2)n−3
rn 2
X n=3 n=3
P(Vn 6= Wn ) ≤ p2n,k ≤ λn máx pn,k → 0.
2

3

4

5

k=1
1≤k≤rn = (0.8)3 (0.2)0 + (0.2)1 + (0.2)2 + (0.2)3
2 2 2 2
= (0.8)3 1 + 3(0.2) + 6(0.2)2 + 10(0.2)3

(44) y (43) se obtienen de observar que
= 0.983 . . .
λin λn
P(Wn = i) = e−λn → e−λ .
n! n! Notar que una forma alternativa de obtener el mismo resultado es sumar las probabilidades
de observar 3, 4, 5, 6 éxitos en 6 ensayos Bernoulli.
Relación entre las distribuciones Binomial y Pascal. Sean Sn ∼ Binomial(n, p) y

3. Cuentas con exponenciales Tk ∼ Pascal(k, p). Vale que
3.1. Motivación: pasaje de lo discreto a lo continuo P(Sn ≥ k) = P(Tk ≤ n). (15)
Para fijar ideas consideraremos una conversación telefónica y supondremos que su duración
es un número entero de segundos. La duración de la conversación será tratada como una En efecto, decir que en n ensayos Bernoulli ocurren por lo menos k éxitos es lo mismo que
variable aleatoria T cuya distribución de probabilidades pn = P(T = n) es conocida. La lı́nea decir que el tiempo de espera hasta observar el k-ésimo éxito no supera a n.
telefónica representa un sistema fı́sico con dos estados posibles “ocupada” (E0 ) y “libre” (E1 ).
Imaginemos que cada segundo se decide si la conversación continúa o no por medio de 1.5. La distribución multinomial
una moneda cargada. En otras palabras, se realiza una sucesión de ensayos Bernoulli con La distribución binomial se puede generalizar al caso de n ensayos independientes donde
probabilidad de éxito p a una tasa de un ensayo por segundo y se continúa hasta el primer cada ensayo puede tomar uno de varios resultados. Sean 1, 2, . . . , r los resultados posibles de
éxito. La conversación termina cuando ocurre el primer éxito. En este caso la duración total cada ensayo y supongamos que para cada k ∈ {1, 2, . . . , r} la probabilidad pk de observar el
de la conversación, el tiempo de espera, tiene distribución geométrica pn = (1 − p)n−1 p. Si en valor k se mantiene constante a lo largo de los ensayos. La pregunta es: ¿Cuántas veces ocurre
un instante cualquiera la lı́nea está ocupada, la probabilidad que permanezca ocupada por cada uno de los resultados en los primeros n ensayos?
más de un segundo es (1 − p), y la probabilidad de transición E0 → E1 en el siguiente paso Consideramos una sucesión X1 , X2 , . . . de variables aleatorias independientes e idénti-
es p. En este caso esas probabilidades son independientes de cuánto tiempo estuvo ocupada camente distribuidas a valores {1, 2, . . . ,P
r} tal que P(Xi = k) = pk . Fijado n, para cada
la lı́nea. k = 1, . . . , r definimos la variables Mk = ni=1 1{Xi = k}. La variable Mk cuenta la cantidad
La descripción de los tiempos de espera mediante modelos discretos presupone la cuanti- de veces que ocurre el resultado k en n ensayos. La probabilidad de que en n ensayos el
zación del tiempo y que los cambios solo pueden ocurrir en las épocas ε, 2ε, . . . . El tiempo de resultado 1 ocurra m1 veces, el resultado 2 ocurra m2 veces, etc. es
espera T más sencillo es el tiempo de espera hasta el primer éxito en una sucesión de ensayos
Bernoulli con probabilidad de éxito p(ε). En tal caso P(T > nε) = (1 − p(ε))n y el tiempo n!
P(M1 = m1 , M2 = m2 , . . . , Mr = mr ) = pm1 pm2 · · · pm
r ,
r
(16)
medio de espera es E[T ] = ε/p(ε). Este modelo puede se puede refinar haciendo que ε sea m1 !m2 ! · · · mr ! 1 2
cada vez más chico pero manteniendo fija la esperanza ε/p(ε) = 1/λ. Para un intervalo de
donde los mk son enteros no negativos sujetos a la condición m1 + m2 + · · · + mr = n.
duración t corresponden aproximadamente n ≈ t/ε ensayos, y entonces para ε pequeño
Si r = 2, entonces (16) se reduce a la distribución Binomial con p1 = p, p2 = 1 − p, k1 = k
P(T > t) ≈ (1 − λε)t/ε ≈ e−λt . (45) y k2 = n − k.
Este modelo considera el tiempo de espera como una variable aleatoria discreta distribuida
geométricamente y (45) dice que “en el lı́mite” se obtiene una distribución exponencial.
20 9
1.6. j Miscelánea de ejemplos Demostración. Sean U1 , . . . , Un variables aleatorias independientes con distribución común
U[0, 1). Para cada i = 1, . . . , n definimos parejas de variables aleatorias (Vi , Wi ) independientes
Observación 1.12 (Desarrollo de Taylor). Para todo x ∈ (0, 1) vale que
∞
1 X n + k Vi := 1{Ui ∈ I1 (p)}, Wi :=
X
k1{Ui ∈ Jk (p)}.
k+1
= xn . (17)
(1 − x) k k=0
n≥0
Por construcción, Vi ∼ Bernoulli(p) y Wi ∼ Poisson(p), en consecuencia las sumas

La identidad (17) se obtiene desarrollando la función h(x) = (1 − x)−(k+1) en serie de
Taylor alrededor del 0: observando que h(n) (0) = (k + 1)(k + 2) · · · (k + n), se obtiene que n
X n
X
h(n) (0) S= Vi , N= Wi
= n+k

n! k . i=1 i=1
Ejemplo 1.13 (Variable compuesta). Sean N1 ; X1 , X2 , . . . una sucesión de variables aleato-
son variables aleatorias con distribuciones Binomial(n, p) y Poisson(np), respectivamente. De
rias independientes. Supongamos que N1 ∼ Geométrica(p1 ) y que Xi ∼ Bernoulli(p2 ), i ≥ 1.
acuerdo con la demostración del Teorema de Le Cam tenemos que
Entonces,

λ n−k λ k k λ2
n
−λ λ
NX
1 −1
1− −e = |P(S = k) − P(N = k)| ≤ 2np2 = 2 → 0.

p1 k n n k! n

N2 = Xi ∼ Geométrica − 1. (18)
p1 + p2 (1 − p1 )
i=1
Por definición N2 |N1 = n ∼ Binomial(n − 1, p2 ). Aplicando la fórmula de probabilidad total

obtenemos Teorema 2.7. Supongamos que para cada n, Xn,1 , . . . , Xn,rn son variables aleatorias inde-
X pendientes con distribución Bernoulli(pn,k ). Si
P(N2 = k) = P(N2 = k|N1 = n)P(N1 = n)
rn
n≥1 X
X n − 1 pn,k → λ ≥ 0, máx pn,k → 0, (42)
1≤k≤rn
= pk2 (1 − p2 )n−1−k (1 − p1 )n−1 p1 k=1
k
n≥k+1
entonces
X m + k
= pk2 (1 − p2 )m (1 − p1 )m+k p1 rn
!
k X λi
m≥0 P Xn,k = i → e−λ , i = 0, 1, 2, . . . . (43)
X n + k i!
k=1
= (p2 (1 − p1 ))k p1 [(1 − p1 )(1 − p2 )]m . (19)
k Si λ = 0, el lı́mite (43) se interpreta como 1 para i = 0 y 0 para i ≥ 1. En el caso rn = n
m≥0
y pn,k = λ/n, (43) es la aproximación Poisson a la binomial. Notar que si λ > 0, entonces
Usando (17) vemos que (42) implica que rn → ∞.
X m + k 1
[(1 − p1 )(1 − p2 )]m = Demostración. Sea U1 , U2 , . . . una sucesión de variables aleatorias independientes, con
k (1 − (1 − p1 )(1 − p2 ))k+1
m≥0 distribución común U[0, 1). Definimos
1
= . (20) Vn,k := 1{Uk ∈ I1 (pn,k )}.
(p1 + p2 (1 − p1 ))k+1
Combinando (19) y (20) obtenemos que Las variables Vn,1 , . . . , Vn,rn son independientes y con distribución Bernoulli(pn,k ). Puesto que
k n,rn tienen la misma distribución que Xn,1 , . . . , Xn,rn , (43) se obtiene mostrando
Vn,1 , . . . , VP
(p2 (1 − p1 ))k p1 que Vn = rk=1

p2 (1 − p1 ) p1 n
Vn,k satisface
P(N2 = k) = = . (21)
(p1 + p2 (1 − p1 ))k+1 p1 + p2 (1 − p1 ) p1 + p2 (1 − p1 )
λi
P(Vn = i) → e−λ . (44)
i!
Ejemplo 1.14 (Rachas). Para cada número entero m > 1 sea Ym la cantidad de ensayos Ahora definimos
∞
Bernoulli(p) que se deben realizar hasta obtener por primera vez una racha de m éxitos segui-
X
Wn,k := i1{Uk ∈ Ji (pn,k )}
dos. En lo que sigue vamos a calcular E[Ym ] mediante condicionales. Para ello introducimos i=0
10 19
Nota Bene. Esta técnica, denominada técnica de acoplamiento de variables aleatorias, una variable aleatoria auxiliar N que cuenta la cantidad de ensayos que deben realizarse hasta
permite probar (sin usar la fórmula de Stirling) que la distribución Binomial converge a la obtener por primera vez un fracaso y usaremos la identidad E[Ym ] = E[E[Ym |N ]].
distribución Poisson. Observando que

Teorema 2.5 (Le Cam). Sean X1 , . . . , Xn variables aleatorias independientes con distribu- n + Ym si n ≤ m,
Ym |N = n ∼
ción Bernoulli de parámetros p1 , . . . , pn , respectivamente y sea S = ni=1 Xi . Entonces
P
m si n > m,
X n
X obtenemos la expresión de la función de regresión
|P(S = k) − P(N = k)| ≤ 2 p2i , (41)
k i=1 n + E[Ym ] si n ≤ m,
ϕ(n) = E[Ym |N = n] =
Pn m si n > m.
donde N es una variable aleatoria con distribución Poisson de media λ = i=1 pi .
En consecuencia, E[Ym |N ] = N 1{N ≤ m} + E[Ym ]1{N ≤ m} + m1{N > m}, de donde se
Demostración. Sean U1 , . . . , Un variables aleatorias independientes con distribución común deduce que E[Ym ] = E[N 1{N ≤ m}] + E[Ym ]P(N ≤ m) + mP(N > m). Equivalentemente,
U[0, 1). Construimos variables aleatorias acopladas Vi ∼ Bernoulli(pi ) y Wi ∼Poisson(pi ), E[N 1{N ≤ m}]
i = 1, . . . , n: E[Ym ] = + m. (22)
P(N > m)
∞
Debido a que N 1{N ≤ m} = N − N 1{N > m} el primer término del lado derecho de la
X
Vi := 1{Ui ∈ I1 (pi )}, Wi := k1{Ui ∈ Jk (pi )},
k=0
igualdad (22) se puede expresar de siguiente forma
y las sumamos E[N 1{N ≤ m}] E[N ] − E[N 1{N > m}] E[N ]
n n = = − E[N |N > m]
∗
X X P(N > m) P(N > m) P(N > m)
S = Vi , N= Wi . E[N ]
i=1 i=1 = − E[N ] − m. (23)
P(N > m)
Por construcción, las variables V1 , . . . , Vn son independientes y con distribución Bernoulli(pi ),
respectivamente, y entonces, la variable S ∗ tiene la misma distribución que S; las variables La última igualdad se deduce de la propiedad de pérdida de memoria de la distribución
W1 , . . . , Wn son independientes y tienen distribución Poisson(p i ), respectivamente, y entonces,
Geométrica. De N |N > m ∼ m + N , resulta que E[N |N > m] = m + E[N ].
la variable N tiene distribución Poisson de media λ = ni=1 pi . Combinando (22) y (23) obtenemos
P
Observando que cada k
E[N ] E[N ]P(N ≤ m) 1 − pm
E[Ym ] = − E[N ] = = . (24)
|P(S ∗ = k) − P(N = k)| ≤ P(S ∗ = k, N 6= k) + P(N = k, S ∗ 6= k). P(N > m) P(N > m) (1 − p)pm
se obtiene que
X Ejemplo 1.15 (Coleccionista I). Sea M una variable aleatoria a valores 1, 2, . . . , m. Sea
|P(S ∗ = k) − P(N = k)| ≤ 2P(S ∗ 6= N ). (Mn : n ∈ N) una sucesión de variables aleatorias independientes tal que Mn ∼ M para
k todo n ∈ N. Sea K = mı́n{n ≥ m : {M1 , . . . , Mn } = {1, 2, . . . , m}} el tamaño de muestra
mı́nimo que se necesita para “coleccionar” todos los valores 1, 2, . . . , m. En lo que sigue vamos
Si S ∗ 6= N , entonces Vi 6= Wi para algún i = 1, . . . , n. En consecuencia,
a calcular E[K] mediante condicionales. Introducimos un elemento aleatorio C que indica el
n
X n
X orden en que se obtuvieron los valores 1, 2, . . . , m y usamos la identidad E[K] = E[E[K|C]].
P(S ∗ 6= N ) ≤ P(Vi 6= Wi ) ≤ p2i . Sea S(m) al conjunto de todas las permutaciones de los números 1, 2, . . . , m. Para cada
i=1 i=1 permutación σ = (σ1 , σ2 , . . . , σm ) ∈ S(m) vale que:
m−1
Y P(M = σk )
P(C = σ) = Pm .
Corolario 2.6 (Aproximación Poisson). Para cada k ≥ 0 i=k P(M = σi )
k=1
λ n−k λ k λk

n Por otra parte
lı́m 1− = e−λ
n→∞ k n n k! m−1
X
K|C = σ ∼ 1 + N (σi : 1 ≤ 1 ≤ k),
k=1
18 11
Pm
donde N (σi : 1 ≤ i ≤ k) ∼ Geométrica i=k+1 P(M = σi ) . Por lo tanto, Construcción conjunta de variables Bernoulli y Poisson (Acoplamiento).
X Para cada p ∈ [0, 1] dividimos el intervalo [0, 1) en dos intervalos
E[K] = E[K|C = σ]P(C = σ)
σ∈S(m) I0 (p) = [0, 1 − p), I1 (p) = [1 − p, 1) (34)
m−1
! m−1
X X 1 Y P(M = σk ) y en la sucesión de intervalos
= 1+ Pm Pm . (25)
i=k+1 P(M = σi ) i=k P(M = σi )

k−1 k

σ∈S(m) k=1 k=1 k X k
−p
X
−p p −p p
J0 (p) = [0, e ), Jk (p) =  e , e , k = 1, 2, . . . . (35)
En el caso particular en que P(M = i) = 1/m para todo i ∈ {1, 2, . . . , m} tenemos que k! k!
j=0 j=0
m−1
! m−1
X X 1 Y 1/m Consideramos una variable aleatoria U con distribución U[0, 1) y construimos dos variables
E[K] = 1+ Pm Pm
i=k+1 1/m i=k 1/m
aleatorias V y W con distribuciones Bernoulli(p) y Poisson(p), respectivamente:
σ∈S(m) k=1 k=1
m−1
! m−1 m ∞
1 1 1 1
X
V := 1{U ∈ I1 (p)}, W := k1{U ∈ Jk (p)}. (36)
X X X
= m! 1 + Pm = Pm =m . (26)
i=k+1 1/m m! i=k+1 1/m i k=0
k=1 k=0 i=1
De la desigualdad 1 − p ≤ e−p resulta que I0 (p) ⊂ J0 (p) y que J1 (p) ⊂ I1 (p). En consecuencia,
V = W ⇐⇒ U ∈ I0 (p) ∪ J1 (p). Por ende,
Ejemplo 1.16 (Coleccionista II). Sea X1 , X2 , . . . una sucesión de variables aleatorias inde-
pendientes e idénticamente distribuidas aPvalores 1, 2, . . . , r. Sea Nr = mı́n{n ≥ 1 : Xn = r}. P(V = W ) = P(U ∈ I0 (p) ∪ J1 (p)) = 1 − p + e−p p, (37)
Nr −1
Para cada i = 1, . . . , r − 1 sea Mi = n=1 1{Xn = i}. Queremos hallar la función de y en consecuencia,
probabilidad de Mi .
Por definición Nr ∼ Geométrica(pr ) y Mi |Nr = n ∼ Binomial n − 1, pi (1 − pr )−1 . De

P(V 6= W ) = p − e−p p = p(1 − e−p ) ≤ p2 . (38)
acuerdo con el Ejemplo 1.13 tenemos que
Usando la desigualdad (38) pueden obtenerse las siguientes cotas:
pr pr
Mi ∼ Geométrica − 1 = Geométrica − 1.
−1
pr + pi (1 − pr ) (1 − pr ) pr + pi sup |P(V = k) − P(W = k)| ≤ p2 , (39)
k≥0
pi )/p2r .
X
En particular, E[Mi ] = pi /pr y V(Mi ) = pi (pr + |P(V = k) − P(W = k)| ≤ 2p2 . (40)
k
2. La distribución de Poisson La cota (39) se deduce de observar que
2.1. Motivación: Aproximación de Poisson de la distribución binomial |P(V = k) − P(W = k)| = |E[1{V = k}] − E[1{W = k}]|
En diversas aplicaciones tenemos que tratar con ensayos Bernoulli donde, para decirlo = |E[1{V = k} − 1{W = k}]|
de algún modo, n es grande y p es pequeño, mientras que el producto λ = np es modera- ≤ E[|1{V = k} − 1{W = k}|]
do. En tales casos conviene usar una aproximación de las probabilidades P(Sn = k), donde ≤ E[1{V 6= W }]
Sn ∼Binomial(n, p) y p = λ/n. Para k = 0 tenemos = P(V 6= W ).
λ n

P(Sn = 0) = (1 − p)n = 1 − . (27) La cota (40) se deduce de observar que para todo k = 0, 1, . . .
n
|P(V = k) − P(W = k)| = |P(V = k, W 6= k) − P(W = k, V 6= k)|
Tomando logaritmos y usando el desarrollo de Taylor,
≤ P(V = k, V 6= W ) + P(W = k, V 6= W ),
1 1 1
log(1 − t) = −t − t2 − t3 − t4 − · · · , y luego sumar sobre los posibles valores de k:
2 3 4
X
se obtiene |P(V = k) − P(W = k)| ≤ 2P(V 6= W ).
k
λ2

λ
log P(Sn = 0) = n log 1 − = −λ − − ··· (28)
n 2n
12 17
En consecuencia, para n grande se tiene que
Ejercicios adicionales P(Sn = 0) ≈ e−λ , (29)
1. Sea N una variable aleatoria con distribución Poisson de media λ. Mostrar que donde el signo ≈ se usa para indicar una igualdad aproximada (en este caso de orden de
magnitud 1/n). Más aún, usando la identidad (6) se puede ver que para cada k fijo y n
λ
P(N = n) = P(N = n − 1), n = 1, 2, . . . suficientemente grande
n
P(Sn = k) (n − k + 1)p λ
Usar ese resultado para encontrar el valor de n para el cual P(N = n) es maximal. = ≈ . (30)
P(Sn = k − 1) k(1 − p) k

2. Se lanza una moneda una cantidad aleatoria N de veces, donde N tiene distribución Recursivamente se concluye que
Poisson. Sean N1 y N2 la cantidad de total de caras y de cecas observadas, respectivamente.
Mostrar que las variables aleatorias N1 y N2 son independientes y que tienen distribución P(Sn = 1) ≈ λ · P(Sn = 0) ≈ λe−λ ,
Poisson. λ λ2 −λ
P(Sn = 2) ≈ · P(Sn = 1) ≈ e ,
2 2
3. Sea X1 , X2 , . . . una sucesión de variables aleatorias
P independientes, cada una con distribu-
ción Bernoulli(p). Para cada n ≥ 1 se define Sn := ni=1 Xi . Por convención, S0 := 0. Sea N y en general
una variable aleatoria con distribución Poisson(λ). Mostrar que SN ∼ Poisson(pλ).
λk −λ
P(Sn = k) ≈ e . (31)
k!
e La aproximación Poisson. (Técnica de acoplamiento)

La igualdad aproximada (31) se llama la aproximación de Poisson de la distribución binomial.
2.3.
En lo que sigue mostraremos que cuando se consideran una gran cantidad de eventos inde- 0.35
pendientes y cada uno de ellos tiene una probabilidad muy pequeña de ocurrir, la cantidad de
tales eventos que realmente ocurre tiene una distribución “cercana” a la distribución Poisson. 0.3
0.25
0.8
0.2
0.7
0.15
0.6
0.5 0.1
0.4 0.05
0.3
0
0 2 4 6 8 10
0.2
0.1
0
0 0.5 1 1.5 2 2.5 3
Figura 1: Comparación. Funciones de probabilidad de las distribuciones Binomial(10, 1/5)
(bolita negra) y Poisson(2) (cuadradillo vacı́o).
Figura 2: Comparación de las funciones de probabilidad de las distribuciones Bernoulli(1/4) Otro modo de obtener el mismo resultado.
(bolita negra) y Poisson(1/4) (cuadradillo vacı́o)
np k λk −λ

n k 1
P(Sn = k) = p (1 − p)n−k ∼ (1 − p)n−k → e .
k k! 1 − p k!
16 13
Ejemplo 2.1 (Artı́culos defectuosos). Una industria produce tornillos. Supongamos que la Nota Bene. El resultado del Teorema 2.2 se extiende por inducción a la suma de una
probabilidad de que un tornillo resulte defectuoso sea p = 0.015, entonces la probabilidad de cantidad finita de variables aleatorias independientes con distribución Poisson.
que una caja de 100 tornillos no contenga ninguno defectuoso es (0.985)100 = 0.2206... La
Teorema 2.3 (Competencia). Sean N1 , N2 , . . . , Nm variables aleatorias independientes, cada
aproximación de Poisson es e−1.5 = 0.2231... y es suficientemente próxima para la mayorı́a de
Nj con distribución Poisson de media λj , respectivamente. Sea S = N1 + · · · + Nm . Entonces,
los propósitos prácticos. Si se pregunta: Cuántos tornillos deberı́a contener la caja para que la
para cada n ≥ 1 vale que
probabilidad de encontrar al menos 100 tornillos sin defectos sea 0.8 o mejor? Si 100 + x es el
número buscado, entonces x es un número pequeño. Para aplicar la aproximación de Poisson λ1 λ2 λm
(N1 , N2 , . . . , Nm )|S = n ∼ M ultinomial n, , , . . . , ,
para n = 100 + x ensayos debemos poner λ = np, pero np es aproximadamente 100p = 1.5. λ λ λ
Buscamos el menor entero x para el cual P
donde λ = j λj . En particular,
(1.5)x

1.5 λj
e−1.5 1 + + ··· ≥ 0.8 (32) P(Nj = 1|S = 1) = .
1 x! λ
Para x = 1 el valor del lado izquierdo de la inecuación (32) es aproximadamente 0.558, para P
Demostración. La suma S = N1 +· · ·+Nm tiene distribución Poisson de media λ = j λj ;
x = 2 es aproximadamente 0.809. Por lo tanto, la aproximación de Poisson permite concluir
y entonces siempre que n1 + · · · + nm = n,
que se necesitan 102 tornillos. En realidad la probabilidad de encontrar al menos 100 tornillos
sin defectos en una caja de 102 es 0.8022 . . . . P(N1 = n1 , . . . , Nm = nm )
P(N1 = n1 , . . . , Nm = nm |S = n) =
P(S = n)
n !,
2.2. La distribución Poisson Y
−λj j
λ j λn

= e e−λ
Sea λ > 0. Una variable aleatoria N tiene distribución Poisson(λ) si sus posibles valores nj ! n!
j
son los enteros no negativos y si n! Y nj
λj
= .
λn n1 !n2 ! · · · nm ! λ
j
P(N = n) = e−λ , n = 0, 1, . . . (33)
n!
P∞ xn
Media y varianza. Usando el desarrollo de Taylor de la función exponencial ex = n=0 n!
se demuestra que E[N ] = λ y V(N ) = λ. Nota Bene. En el caso particular n = 2, el resultado del Teorema 2.3 se reduce a que,
si N1 y N2 son variables aleatorias independientes con distribución Poisson de medias λ1 y
λ2 , respectivamente, entonces, dado que N1 + N2 = n, la distribución condicional de N1 es
Aditividad. El rasgo más importante de la distribución Poisson es su aditividad.
Binomial(n, p), donde p = λ1λ+λ
1
2
.
Teorema 2.2 (Aditividad). Si N1 y N2 son variables aleatorias independientes con distribu- Teorema 2.4 (Adelgazamiento). Sea N una variable aleatoria Poisson de media λ. Sea M
ción Poisson de medias λ1 y λ2 , respectivamente. Entonces, una variable aleatoria tal que
N1 + N2 ∼ P oisson(λ1 + λ2 ). M |N = n ∼ Binomial(n, p).
Demostración. Entonces, M y N − M son variables aleatorias independientes con distribución Poisson de

medias pλ y (1 − p)λ, respectivamente.
n
X n
X
P(N1 + N2 = n) = P(N1 = m, N2 = n − m) = P(N1 = m)P(N2 = n − m)
Demostración. Sean m, k ≥ 0
m=0 m=0
n n
X m
−λ1 λ1 −λ2 λ2n−m e−(λ1 +λ2 ) X n m n−m P(M = m, N − M = k) = P(M = m, N − M = k|N = m + k)P(N = m + k)
= e e = λ λ
m! (n − m)! n! m 1 2 = P(M = m|N = m + k)P(N = m + k)
m=0 m=0
λm+k

(λ1 + λ2 )n m+k m
= e−(λ1 +λ2 ) . = p (1 − p)k e−λ
n! m (m + k)!
(pλ)m ((1 − p)λ)k

= e−pλ e−(1−p)λ .
m! k!
14 15
La última expresión que aparece en el lado derecho de la identidad (30) es la expresión de la donde Ψ es la función definida en la Observación 4. De acuerdo con (12)
densidad de la distribución Γ 21 , 12 . Por lo tanto,
{N (t + s) − N (t) : s ≥ 0} ∼ {N (s) : s ≥ 0}. (16)

1 1
χ21 = Γ , . De (15) y lo visto en 3. se deduce que N (t) y {N (t+s)−N (t) : s ≥ 0} son independientes.
2 2
Sean n ≥ 2 y 0 < t1 < t2 < . . . < tn . Como (N (t2 ) − N (t1 ), . . . , N (tn ) − N (tn−1 )) es una
2 función de {N (t1 + s) − N (t1 ) : s ≥ 0}, tenemos que
X−µ X−µ
Nota Bene. Notar que si X ∼ N (µ, σ 2 ), entonces σ ∼ N (0, 1), y por lo tanto σ ∼
N (t1 ) y (N (t2 ) − N (t1 ), . . . , N (tn ) − N (tn−1 ))
χ21 .
son independientes. Esto es,
Definición 4.2 (Distribución chi-cuadrado). Si U1 , U2 , . . . , Un P
son variables aleatorias inde-
pendientes, cada una con distribución χ21 , la distribución de V = ni=1 Ui se llama distribución P(N (t1 ) = m1 , N (t2 ) − N (t1 ) = m2 , . . . , N (tn ) − N (tn−1 ) = mn )
chi-cuadrado con n grados de libertad y se denota χ2n .
= P(N (t1 ) = m1 )P(N (t2 ) − N (t1 ) = m2 , . . . , N (tn ) − N (tn−1 ) = mn )
Caracterización de la distribución chi-cuadrado. La distribución χ2n es un caso par- En particular, se obtiene la la independencia de los incrementos para el caso en que n = 2:
ticular de la distribución Gamma. Más precisamente,
P(N (t1 ) = m1 , N (t2 ) − N (t1 ) = m2 ) = P(N (t1 ) = m1 )P(N (t2 ) − N (t1 ) = m2 ).
n 1
χ2n = Γ , . Usando (16) se concluye que
2 2
Basta recordar que la suma de variables Γ i.i.d. también es Γ. En particular, la función (N (t2 ) − N (t1 ), N (t3 ) − N (t2 ), . . . , N (tn ) − N (tn−1 ))
densidad de V es n ∼ (N (t2 − t1 ), N (t3 − t1 ) − N (t2 − t1 ), . . . , N (tn − t1 ) − N (tn−1 − t1 )). (17)
(1/2) 2 n −1 − 1 v
fV (v) = n v
2 e 2 1{v > 0}.
El caso general se obtiene por iteración del mismo argumento, aplicado al lado derecho de
Γ 2
(17):
P(N (t2 ) − N (t1 ) = m2 , N (tk ) − N (tk−1 ) = mk , 3 ≤ k ≤ n)

Nota Bene. La distribución χ2n no es simétrica. = P(N (t2 − t1 ) = m2 , N (tk − t1 ) − N (tk−1 − t1 ) = mk , 3 ≤ k ≤ n)
0.14 = P(N (t2 − t1 ) = m2 )P(N (tk − t1 ) − N (tk−1 − t1 ) = mk , 3 ≤ k ≤ n)
= P(N (t2 ) − N (t1 ) = m2 )P(N (tk ) − N (tk−1 ) = mk , 3 ≤ k ≤ n)
0.12
= ···
Yn
0.1 = P(N (tk ) − N (tk−1 ) = mk ).
k=2
0.08
Por lo tanto, si 0 = t0 < t1 < · · · < tn , entonces
n
Y
0.06
P(N (tk ) − N (tk−1 ) = mk , 1 ≤ k ≤ n) = P(N (tk − tk−1 ) = mk ). (18)
k=1
0.04
De (18) y (10) se obtienen las dos condiciones que definen a un proceso de Poisson.
0.02
En lo que sigue mostraremos que vale la recı́proca. Esto es, los tiempos de espera entre
arribos de un proceso de Poisson de intensidad λ son variables aleatorias independientes cada
0
0 5 10 15 20 25 una con distribución exponencial de intensidad λ.
Teorema 1.5. Sea {Sn : n ≥ 0} un proceso puntual de Poisson de intensidad λ sobre la semi-
Figura 8: Gráfico de la función densidad de probabilidad de la distribución χ27 . recta positiva. Los tiempos de espera entre arribos Tn , n ≥ 1, definidos en (1), constituyen
una sucesión de variables aleatorias independientes cada una con distribución exponencial de
intensidad λ.
20 7
Demostración. La densidad conjunta de T = (T1 , T2 . . . , Tn ) se obtendrá a partir de la 4. Distribuciones relacionadas con la Normal
densidad conjunta de las variables S = (S1 , S2 , . . . , Sn ) usando el método del Jacobiano. Por
definición, En esta sección se presentan tres distribuciones de probabilidad relacionadas con la dis-
(T1 , T2 , . . . , Tn ) = g(S1 , S2 , . . . , Sn ), tribución normal: las distribuciones χ2 , t y F . Esas distribuciones aparecen en muchos prob-
lemas estadı́sticos.
donde g : G0 → G es la transformación lineal biyectiva entre los conjuntos abiertos G0 =
{(s1 , . . . , sn ) ∈ Rn : 0 < s1 < s2 < · · · < sn } y G = {(t1 , . . . , tn ) : t1 > 0, . . . , tn > 0} definida
por 4.1. χ2 (chi-cuadrado)
g(s1 , s2 , . . . , sn ) = (s1 , s2 − s1 , . . . , sn − sn−1 ). Definición 4.1 (Distribución chi-cuadrado con un grado de libertad). Si Z es una una vari-
La función inversa h = g −1 es de la forma able aleatoria con distribución normal estándar, la distribución de U = Z 2 se llama la dis-
tribución chi-cuadrado con 1 grado de libertad.
h(t1 , . . . , tn ) = (t1 , t1 + t2 , . . . , t1 + · · · + tn )
y sus derivadas parciales
1.8
∂ ik=1 tk
P
∂si
= = 1{j ≤ i}, 1 ≤ i, j ≤ n 1.6
∂tj ∂tj
1.4
son continuas en G. El jacobiano es
1.2
∂si
J(s, t) = =1 1
∂tj
0.8
debido a que se trata de una matriz triangular inferior con 1’s en la diagonal. Bajo esas
condiciones tenemos que 0.6
fT (t) = fS (h(t))1{t ∈ G}. 0.4
La densidad conjunta de las variables (S1 , . . . , S2 ) queda unı́vocamente determinada por la 0.2
relación Z
0
P(S ∈ A) = fS (s)ds, A = (a1 , b1 ] × · · · (an , bn ] ⊂ G0 . 0 1 2 3 4 5
A
Supongamos T que 0 = b0 ≤ a1 < b1 < a2 < b2 < · · · < aT n < bn y calculemos laTprobabilidad
del evento ni=1 {ai < Si ≤ bi }. Para ello observamos que ni=1 {ai < Si ≤ bi } = i=1 n−1
{N (ai )−
N (bi−1 ) = 0, N (bi ) − N (ai ) = 1} ∩ {N (an ) − N (bn−1 ) = 0, N (bn ) − N (an ) ≥ 1} y usamos las Figura 7: Gráfico de la función densidad de probabilidad de la distribución χ21 .
propiedades de independencia y homogeneidad temporal que caracterizan a los incrementos
de un proceso de Poisson de intensidad λ:
n
! Caracterización de la distribución χ21 . La función de distribución de la variable U = Z 2
es FU (u) = P(Z 2 ≤ u), donde Z es N (0, 1). Para cada u > 0, vale que
\
P {ai < Si ≤ bi }
Z √u
i=1 √ √ √ 1 2
n−1
! F (x) = P(Z 2 ≤ u) = P(|Z| ≤ u) = P(− u ≤ Z ≤ u) = √ √ e−z /2 dz.
Y 2π
= e−λ(ai −bi−1 ) λ(bi − ai )e−λ(bi −ai ) e−λ(an −bn−1 ) (1 − e−λ(bn −an ) ) − u
i=1 Usando el teorema fundamental del cálculo integral y la regla de la cadena obtenemos que
n−1
Y
! para cada u > 0 vale que
= λ(bi − ai ) e−λan (1 − e−λ(bn −an ) ) Z √u
d d 1 2
i=1 fU (u) = FU (u) = √ e−z /2 dz
n−1
! du du −√u 2π
Y
λ(bi − ai ) (e−λan − e−λbn ) d √ √
√ √ 2

= 1 2 d
= √ e−( u) /2 ( u) − e−(− u) /2 (− u)
i=1 2π du du
Z b1 Z bn−1 Z bn
1 −u/2 1 −u/2 1 1 1
= λds1 · · · λdsn−1 λe−λsn dsn = √ e √ +e √ =√ e−u/2 √
a1 an−1 an 2π 2 u 2 u 2π u
Z b1 Z bn−1 Z bn 1 1
(1/2) 2
(1/2) 12
= ··· λn e−λsn ds1 · · · dsn−1 dsn (19) = √ u−1/2 e−(1/2)u = √ u 2 −1 e−(1/2)u . (30)
a1 an−1 an π π
8 19
una nueva. Suponiendo que se dispone de un stock de 25 baterı́as, cuyos tiempos de vida son De (19) se deduce que la densidad conjunta de (S1 , . . . , Sn ) es
independientes, aproximar la probabilidad de que pueda obtenerse un uso superior a las 1100
horas. f(S1 ,...,Sn ) (s1 , . . . , sn ) = λn e−λsn 1{0 < s1 < · · · < sn }.
Por lo tanto,
Solución: Si ponemos Xi para denotar el tiempo de vida de la i-ésima baterı́a puesta en
uso, lo que buscamos es el valor de p = P(X1 + · · · + X25 > 1000), que puede aproximarse de
Pn
f(T1 ,...,Tn ) (t1 , . . . , tn ) = λn e−λ i=1 ti 1{t1 > 0, . . . , tn > 0}
la siguiente manera: n
Y
λe−λti 1{ti > 0}.
P25 !
i − 1000
i=1 X√ 1100 − 1000 = (20)
p = P > √ ≈ 1 − Φ(1) = 0.1587. i=1
20 25 20 25
La identidad (20) significa que los tiempos de espera entre arribos son independientes cada
uno con distribución exponencial de intensidad λ.
Ejemplo 3.9. El peso W (en toneladas) que puede resistir un puente sin sufrir daños es-
tructurales es una variable aleatoria con distribución normal de media 1400 y desvı́o 100. El Ejemplo 1.6. Suponga que el flujo de inmigración de personas hacia un territorio es un
peso (en toneladas) de cada camión de arena es una variable aleatoria de media 22 y desvı́o proceso de Poisson de tasa λ = 1 por dı́a.
0.25. Calcular la probabilidad de que ocurran daños estructurales cuando hay 64 camiones de
arena sobre el tablero del puente. (a) ¿Cuál es el tiempo esperado hasta que se produce el arribo del décimo inmigrante?
(b) ¿Cuál es la probabilidad de que el tiempo de espera entre el décimo y el undécimo arribo
Solución: Ocurren daños estructurales cuando la suma de los pesos de los 64 camiones,
supere los dos dı́as?
X1 , . . . , X64 , supera al peso W . Por el teorema central del lı́mite, la distribución de la suma
P 64
i=1 Xi es aproximadamente una normal de media 1408 y desvı́o 2. En consecuencia, W −
P64 Solución:
i=1 Xi se distribuye (aproximadamente) como una normal de media 1400 − 1408 = −8 y
varianza 10000 + 4 = 10004. Por lo tanto, (a) E[S10 ] = 10
= 10 dı́as.
λ
64 64
! ! !
W − 64
P
X X Xi + 8 8 (b) P(T11 > 2) = e−2λ = e−2 ≈ 0.133.
P Xi > W = P W− Xi < 0 = P √ i=1 <√
i=1 i=1
10004 10004
≈ Φ(0.07998...) = 0.5318...
Ejercicios adicionales 1. En un sistema electrónico se producen fallas de acuerdo con un proceso de Poisson de tasa
2.5 por mes. Por motivos de seguridad se ha decidido cambiarlo cuando ocurran 196 fallas.
1. Un astronauta deberá permanecer 435 dı́as en el espacio y tiene que optar entre dos Hallar la media y la varianza del tiempo de uso del sistema.
alternativas. Utilizar 36 tanques de oxı́geno de tipo A o 49 tanques de oxigeno de tipo B.
Cada tanque de oxı́geno de tipo A tiene un rendimiento de media 12 dı́as y desvı́o 1/4. Cada 2. Sean T una variable aleatoria con distribución exponencial de media 2 y {N (t), t ≥ 0} un
tanque de oxı́geno de tipo B tiene un rendimiento de media de 8, 75 dı́as y desvı́o 25/28. proceso de Poisson de tasa 10 (independiente de T ). Hallar Cov(T, N (T )).
¿Qué alternativa es la más conveniente?
3. h Sea A(t) = t − SN (t) el tiempo reverso al evento más reciente en un proceso de
2. 432 números se redondean al entero más cercano y se suman. Suponiendo que los errores Poisson y sea B(t) = SN (t)+1 − t el tiempo directo hasta el próximo evento. Mostrar que
individuales de redondeo se distribuyen uniformemente sobre el intervalo (−0.5, 0.5), aproxi-
(a) A(t) y B(t) son independientes,
mar la probabilidad de que la suma de los números redondeados difiera de la suma exacta en
más de 6. (b) B(t) se distribuye como T1 (exponencial de intensidad λ) ,
(c) A(t) se distribuye como mı́n(T1 , t):
3. Dos aerolı́neas A y B que ofrecen idéntico servicio para viajar de Buenos Aires a San Pablo
compiten por la misma población de 400 clientes, cada uno de los cuales elige una aerolı́nea P(A(t) ≤ x) = (1 − e−λx )1{0 ≤ x < t} + 1{x ≥ t}.
al azar. ¿Cuál es la probabilidad de que la lı́nea A tenga más clientes que sus 210 asientos?
18 9

4. h Sea L(t) = A(t) + B(t) = SN (t)+1 − SN (t) la longitud del intervalo de tiempo entre Ejemplo 3.5 (Suma de exponenciales). La suma Sn de n variables aleatorias independientes
arribos que contiene a t. exponenciales de intensidad λ = 1 obedece a una distribución gamma, Sn ∼ Γ(n, 1). En la
siguiente figura se comparan, para distintos valores de n, la función de distribución de la suma
(a) Mostrar que L(t) tiene densidad estandarizada S√ n −E[Sn ]
con la función de distribución normal estándar.
V(Sn )
dt (x) = λ2 xe−λx 1{0 < x < t} + λ(1 + λt)e−λx 1{x ≥ t}.
(b) Mostrar que E[L(t)] converge a 2E[T1 ] cuando t → ∞. Esto parece una paradoja debido 1
a que L(t) es uno de los Tn . Dar una resolución intuitiva de esta paradoja. 0.9
0.8
0.7
1.4. Distribución condicional de los tiempos de llegada
0.6
Supongamos que sabemos que ocurrió exactamente un arribo de un proceso de Poisson
en el intervalo [0, t]. Queremos determinar la distribución del tiempo en que el arribo ocurrió. 0.5
Como el proceso de Poisson es temporalmente homogéneo y tiene incrementos independientes 0.4

es razonable pensar que los intervalos de igual longitud contenidos en el intervalo [0, t] deben
0.3
tener la misma probabilidad de contener al arribo. En otras palabras, el tiempo en que ocur-
rió el arribo debe estar distribuido uniformemente sobre el intervalo [0, t]. Esto es fácil de 0.2
verificar puesto que, para s ≤ t, 0.1
P(T1 < s, N (t) = 1)
P(T1 < s|N (t) = 1) = 0
−3 −2 −1 0 1 2 3
P(N (t) = 1)
P(1 arribo en (0, s], 0 arribos en (s, t])
=
P(N (t) = 1)
P(1 arribo en (0, s])P(0 arribos en (s, t]) Figura 6: La normal estándar (sólida) y las funciones de distribución de las variables Γ(n, 1)
=
P(N (t) = 1) estandarizadas para n = 5 (punteada), n = 10 (quebrada y punteada) y n = 30 (quebrada).
λse−λs e−λ(t−s)
=
λte−λt Ejemplo 3.6. La distribución de Poisson de media λ se puede aproximar por la normal para
s
= valores grandes de λ: si N ∼ Poisson(λ), entonces
t
Este resultado puede generalizarse N −λ
√ ≈ N (0, 1).
Teorema 1.7 (Propiedad condicional). Sea Π un proceso de Poisson de intensidad λ sobre λ
R+ . Condicional al evento N (t) = n, los n arribos ocurridos en el intervalo [0, t] tienen la mis-
ma distribución conjunta que la de n puntos independientes elegidos al azar sobre el intervalo
[0, t]. En otras palabras, condicional a N (t) = n los puntos en cuestión se distribuyen como Ejemplo 3.7. Si la emisión de una cierta clase de partı́culas obedece a un proceso de Poisson
n variables aleatorias independientes, cada una con distribución uniforme sobre el intervalo de intensidad 900 por hora, ¿cuál es la probabilidad de que se emitan más de 950 partı́culas
[0, t]. en una hora determinada?
Demostración. Sea A1 , A2 , . . . , Ak una partición del intervalo [0, t]. Si n1 +n2 +· · ·+nk = n, Solución: Sea N una variable Poisson de media 900. Calculamos P(N > 950) estandarizan-
entonces do
Q
i P(N (Ai ) = ni )

P(N (Ai ) = ni , 1 ≤ i ≤ k|N (t) = n) = N − 900 950 − 900 5
P(N (t) = n) P(N > 950) = P √ > √ ≈1−Φ = 0.04779.
900 900 3
(λ|Ai |)ni /ni !
Q −λ|Ai |
ie
=
e−λt (λt)n /n!
n! Y |Ai | ni
= . (21) Ejemplo 3.8. El tiempo de vida de una baterı́a es una variable aleatoria de media 40 horas
n1 !n2 ! · · · nk ! t y desvı́o 20 horas. Una baterı́a se usa hasta que falla, momento en el cual se la reemplaza por
i
10 17
0.45 1
Por una parte la distribución condicional de las posiciones de los n arribos queda completa-
0.4 0.9
mente caracterizada por esta función de A1 , . . . , Ak .
0.35
0.8 Por otra parte la distribución multinomial (21) es la distribución conjunta de n puntos
0.7 independientes elegidos al azar de acuerdo con la distribución uniforme sobre el intervalo [0, t].
0.3
0.6 En efecto, basta observar que si U1 , . . . , Un son variables aleatorias independientes con
0.25 P
0.5 distribución uniforme sobre un conjunto A, y M (B) = i 1{Ui ∈ B}, entonces
0.2
0.4
k ni
0.15
0.3 n! Y |Bi |
0.1
P(M (Bi ) = ni , i = 1, . . . , k) = .
0.2 n1 ! · · · nk ! |Ai |
i=1
0.05 0.1
0
−4 −3 −2 −1 0 1 2 3 4
0
−3 −2 −1 0 1 2 3 Se infiere que la distribución conjunta de los puntos en Π ∩ [0, t] condicional a que hay
exactamente n de ellos, es la misma que la de n puntos independientes elegidos al azar con
(a) (b) la distribución uniforme sobre el intervalo [0, t].
Nota Bene. La propiedad condicional permite probar la existencia de procesos de Poisson

Figura 5: (a) Comparación entre un histograma de 1000 valores, cada uno de los cuales es la mediante simulación. Sea λ > 0 y sea A1 , A2 , . . . una partición de Rd en conjuntos borelianos
suma de 12 variables uniformes U − 21 , 12 , y la función densidad normal; (b) Comparación

de medida de Lebesgue finita. Para cada i, simulamos una variable aleatoria Ni con distribu-
entre la función
dedistribución empı́rica correspondiente a 1000 valores de la suma de 12 ción Poisson de parámetro λ|Ai |. Luego muestreamos n puntos elegidos independientemente
uniformes U − 12 , 12 y la función de distribución normal. El ajuste es sorprendentemente sobre Ai , cada uno con distribución uniforme sobre Ai . La unión sobre i de tales conjuntos de
bueno, especialmente si se tiene en cuenta que 12 no se considera un número muy grande. puntos es un proceso de Poisson de intensidad λ. (Para más detalles ver el Chap 7 de Ferrari,
Galves (2001))
Solución: El error de redondeo cometido al sumar 12 números se representa por la suma
P 12 Ejemplo 1.8 (Insectos en un asado). Todo tipo de insectos aterrizan en la mesa de un asado
i=1 Xi de 12 variables aleatorias independientes X1 , . . . , X12 cada una con distribución
P uni- a la manera de un proceso de Poisson de tasa 3 por minuto. Si entre las 13:30 y las 13:35
forme sobre el intervalo − 12 , 12 . El error de redondeo excede 1 si y solamente si 12

X
i=1 i > 1.

aterrizaron 8 insectos, cuál es la probabilidad de que exactamente 3 de ellos hayan aterrizado
1 durante el primer minuto?
Puesto que E[Xi ] = 0 y V(Xi ) = 12 de acuerdo con el teorema central del lı́mite tenemos que
la distribución de
P12 12 Solución: Dado que aterrizaron 8 insectos durante 5 minutos, la distribución de cada ater-
i=1 Xi − 12E[Xi ] X rizaje se distribuye, independientemente de los demás, como una variable uniforme sobre el
p = Xi
12V(Xi ) i=1 intervalo [0, 5]. En consecuencia, la probabilidad de que cada insecto hubiese aterrizado du-
rante el primer minuto es 1/5. Por lo tanto, la probabilidad de que exactamente 3 insectos
se puede aproximar por la distribución normal estándar. En consecuencia, hayan aterrizado durante el primer minuto es
12 ! 12 ! 3 5
8 1 4 45
X X
P Xi > 1 = 1−P Xi ≤ 1 ≈ 1 − (Φ(1) − Φ(−1)) = 56 8 = 0.1468 . . .

i=1

i=1
3 5 5 5
= 1 − (2Φ(1) − 1) = 2 − 2Φ(1) = 0.3173...
1.5. Coloración y adelgazamiento de procesos de Poisson

Teorema 1.9 (Coloración). Sea Π un proceso de Poisson de intensidad λ sobre R+ . Col-
oreamos los puntos de Π de la siguiente manera. Cada punto de Π se pinta de rojo con
probabilidad p o de negro con probabilidad 1 − p. Los puntos se pintan independientemente
unos de otros. Sean Π1 y Π2 los conjuntos de puntos pintado de rojo y de negro, respec-
tivamente. Entonces Π1 y Π2 son procesos de Poisson independientes de intensidades pλ y
(1 − p)λ, respectivamente.
16 11
Demostración. Sea t > 0 fijo. Por la propiedad condicional, si N (t) = n, esos puntos tienen Demostración. Ver Capı́tulo XV de Feller, W., (1971). An Introduction to Probability
la misma distribución que n puntos independientes elegidos al azar sobre el intervalo [0, t] de Theory and Its Applications, Vol. II, John Wiley & Sons, New York.
acuerdo con la distribución uniforme. Por tanto, podemos considerar n puntos elegidos al azar
de esa manera. Por la independencia de los puntos, sus colores son independientes unos de los Corolario 3.2. Sea X1 , X2 , . . . una sucesión de variables aleatorias independientes idénti-
otros. Como la probabilidad de que un punto dado sea pintado de rojo es p y la probabilidad camente distribuidas, cada una con media µ y varianza σ 2 . Si n es suficientemente grande,
de sea pintado de negro es 1 − p se deduce que, condicional a N (t) = n, las cantidades N1 (t) para cada valor a > 0 vale la siguiente aproximación
y N2 (t) de puntos rojos y negros en [0, t] tienen, conjuntamente, la distribución binomial n
1 X
!
σ
P Xi − µ ≤ a √ ≈ 2Φ(a) − 1 (26)

n! n1 n n
p (1 − p)n2 , donde n1 + n2 = n.

P(N1 (t) = n1 , N2 (t) = n2 |N (t) = n) = i=1
n1 !n2 !
Demostración. El teorema central del lı́mite establece que si n es suficientemente grande,
Por lo tanto, la probabilidad incondicional es
entonces para cada x ∈ R vale que
(λt)n1 +n2

(n1 + n2 )! n1 Pn
p (1 − p)n2 e−λt i − nµ

P(N1 (t) = n1 , N2 (t) = n2 ) = i=1 X
√
n1 !n2 ! (n1 + n2 )! P ≤ x ≈ Φ(x) (27)
! σ n
n1 −(1−p)λt ((1 − p)λt)n2

−pλt (pλt) e
= e . De la aproximación (27) se deduce que para cada valor a > 0
n1 ! n2 !
Pn
Xi − nµ

P i=1 √

Vale decir, las cantidades N1 (t) y N2 (t) de puntos rojos y negros en el intervalo [0, t] son inde- ≤ a ≈ Φ(a) − Φ(−a) = 2Φ(a) − 1. (28)
σ n
pendientes y tienen distribuciones Poisson de intensidades pλt y (1 − p)λt, respectivamente.
La independencia de las contadoras de puntos en intervalos disjuntas sigue trivialmente El resultado se obtiene de (28) observando que
del hecho de que Π tiene esa propiedad. n √ n
Pn
i=1 Xi − nµ n 1 X n 1 X
√ = σ √n n Xi − µ = Xi − µ . (29)

Otra prueba. Sean N1 (t) y N2 (t) la cantidad de arribos de tipo I y de tipo II que ocurren σ n σ n

i=1 i=1
en [0, t], respectivamente. Es claro que N (t) = N1 (t) + N2 (t).
Los arribos de tipo I (II) son un proceso puntual aleatorio debido a que son una subsucesión
(aleatoria) infinita de los arribos del proceso original y heredan su propiedad de independencia
para intervalos disjuntos. Nota Bene. Para los usos prácticos, especialmente en estadı́stica, el resultado lı́mite en
La prueba de que {N1 (t), t ≥ 0} y que {N2 (t), t ≥ 0} son procesos de Poisson independi- sı́ mismo no es de interés primordial. Lo que interesa es usarlo como una aproximación con
entes de intensidades pλ y (1 − p)λ, respectivamente, se completa observando que valores finitos de n. Aunque no es posible dar un enunciado consiso sobre cuan buena es la
aproximación, se pueden dar algunas pautas generales y examinando algunos casos especiales
P(N1 (t) = n, N2 (t) = m) = P(N1 (t) = n)P(N2 (t) = m). se puede tener alguna idea más precisa del comportamiento de cuan buena es la aproximación.
Qué tan rápido la aproximación es buena depende de la distribución de los sumandos. Si
Condicionando a los valores de N (t) y usando probabilidades totales se obtiene
la distribución es bastante simétrica y sus colas decaen rápidamente, la aproximación es
∞
X buena para valores relativamente pequeños de n. Si la distribución es muy asimétrica o si
P(N1 (t) = n, N2 (t) = m) = P(N1 (t) = n, N2 (t) = m | N (t) = i)P(N (t) = i) sus colas decaen muy lentamente, se necesitan valores grandes de n para obtener una buena
i=0 aproximación.
Puesto que P(N1 (t) = n, N2 (t) = m | N (t) = i) = 0 cuando i 6= n + m, la ecuación anterior
se reduce a 3.1. Ejemplos
1 1
Ejemplo 3.3 (Suma de uniformes). Puesto que la distribución uniforme sobre − 2 , 2 tiene
P(N1 (t) = n, N2 (t) = m) = P(N1 (t) = n, N2 (t) = m | N (t) = n + m)P(N (t) = n + m) media 0 y varianza 12 1
, la suma de 12 variables independientes U − 21 , 21 tiene media 0 y

(λt)n+m varianza 1. La distribución de esa suma está muy cerca de la normal.
= P(N1 (t) = n, N2 (t) = m | N (t) = n + m)e−λt .
(n + m)!
Ejemplo 3.4. Para simplificar el cálculo de una suma se redondean todos los números al
Dado que ocurrieron n + m arribos, la probabilidad de que n sean de tipo I (y m sean de tipo entero más cercano. Si el error de redondeo se puede representar como una variable aleatoria
U − 12 , 12 y se suman 12 números, ¿cuál es la probabilidad de que el error de redondeo exceda
1?
12 15
o lo que es equivalente II) es la probabilidad binomial de que ocurran n éxitos en n + m ensayos. Por lo tanto,
(λt)n+m
!
n+m n
p
Sn a p(1 − p)
P − p ≤ √ ≈ 2Φ(a) − 1. (23) P(N1 (t) = n, N2 (t) = m) = p (1 − p)m e−λt
n n n (n + m)!
(n + m)! n (λt)n (λt)m
Como el verdadero valor de p es p
desconocido, la fórmula (23) no puede aplicarse directamente = p (1 − p)m e−λpt e−λ(1−p)t
p n! m! (n + m)!
ya que no se conoce el valor de p(1 − p). Sin embargo, es fácil ver que p(1 − p) ≤ 1/2 y
(λpt)n

(λ(1 − p)t)m

por lo tanto = e−λpt e−λ(1−p)t .
n! m!
p !
a p(1 − p)

Sn a Sn Lo que completa la demostración.
P − p ≤ √ ≥ P − p ≤ √ ≈ 2Φ(a) − 1. (24)
n 2 n n n
Ejemplo 1.10 (Insectos en un asado). Todo tipo de insectos aterrizan en la mesa de un
Esta última relación es la herramienta con la que podemos resolver nuestro problema. asado a la manera de un proceso de Poisson de tasa 3 por minuto y cada insecto puede ser
En primer lugar tenemos que resolver la ecuación 2Φ(a) − 1 = 0.9999 o la ecuación una mosca con probabilidad 2/3, independientemente de la naturaleza de los demás insectos.
equivalente Φ(a) = 1.9999
2 = 0.99995. La solución de está ecuación se obtiene consultando una Si a las 13:30 se sirven los chorizos, cuál es la probabilidad de que la tercer mosca tarde más
tabla de la distribución normal: a = 3.9. Reemplazando este valor de a en (24) obtenemos de 2 minutos en aterrizar en la mesa?

Sn 3.9 Solución: Las moscas aterrizan en la mesa a la manera de un proceso de Poisson de tasa

P − p ≤ √ ≥ 0.9999.
n 2 n 2
3 3 = 2 por minuto. En consecuencia, los aterrizajes de moscas ocurren cada tiempos exponen-
En segundo lugar tenemos que encontrar los valores de n que satisfacen la desigualdad ciales independientes de intensidad 2. De aquı́ se deduce que el tiempo que tarda en aterrizar
la tercer mosca, S3 tiene distribución Γ(3, 2). Por lo tanto, la probabilidad de que la tercer
3.9 mosca tarde más de 2 minutos en aterrizar en la mesa es
√ ≤ 0.02. (25)
2 n
3−1
X (2 · 2)i
Es fácil ver que n satisface la desigualdad (25) si y solo si P(S3 > 2) = e−2·2 = e−4 (1 + 4 + 8) = 0.2381 . . .
i!
i=0
3.9 2

n≥ = (97.5)2 = 9506.2
0.04
El problema está resuelto. Ejercicios adicionales
5. A un banco llegan clientes de acuerdo con un proceso de Poisson de intensidad 20 por

3. Teorema central del lı́mite hora. En forma independiente de los demás, cada cliente realiza un depósito con probabilidad
1/4 o una extracción con probabilidad 3/4.
Los teoremas sobre normalidad asintótica de sumas de variables aleatorias se llaman Teo-
remas Centrales del Lı́mite. El Teorema lı́mite de De Moivre - Laplace es un Teorema Central (a) Si el banco abre sus puertas a las 10:00, cuál es la probabilidad de que el segundo depósito
del Lı́mite para variables aleatorias independientes con distribución Bernoulli(p). Una versión se efectué pasadas las 10:30?
más general es la siguiente: (b) Cada depósito (en pesos) se distribuye como una variable U[100, 900] y cada extracción
Teorema 3.1 (Teorema Central del Lı́mite). Sea X1 , X2 , . . . una sucesión de variables aleato- como una variable U[100, 500]. Si un cliente realiza una operación bancaria de 200 pesos, cuál
rias independientes idénticamente distribuidas, cada una con media µ y varianza σ 2 . Entonces es la probabilidad de que se trate de un depósito?
la distribución de Pn
i=1 X i − nµ
√
σ n
1.6. Superposición de Procesos de Poisson: competencia
tiende a la normal estándar cuando n → ∞. Esto es,
Pn El siguiente teorema de superposición puede verse como complementario del teorema de
i − nµ

i=1 X
√ coloración.
lı́m P ≤ x = Φ(x),
n→∞ σ n
Teorema 1.11 (Superposición). Sean Π1 y Π2 dos procesos de Poisson independientes de
intensidades λ1 y λ2 , respectivamente, sobre R+ . El conjunto Π = Π1 ∪ Π2 es un proceso de
Rx 2
donde Φ(x) := −∞ √12π e−t /2 dt es la función de distribución de una normal de media 0 y
varianza 1. Poisson de intensidad λ1 + λ2 .
14 13
Demostración. Sean N1 (t) = |Π1 ∩ [0, t]| y N2 (t) = |Π2 ∩ [0, t]|. Entonces N1 (t) y N2 (t) distribución asimétrica. La mayor parte de la distribución se acumulará alrededor de 0, im-
son variables aleatorias independientes con distribución Poisson de parámetros λ1 t y λ2 t. pidiendo con ello que una curva normal se le ajuste bien. Si la media se aparta por lo menos
Se infiere que la suma N (t) = N1 (t) + N2 (t) tiene la distribución de Poisson de parámetro 5 unidades de una y otra extremidad, la distribución tiene suficiente espacio para que resulte
λ1 t + λ2 t = (λ1 + λ2 )t. Más aún, si A1 , A2 , . . . , son intervalos disjuntos las variables aleatorias bastante simétrica. (Ver la Figura 4).
N (A1 ), N (A2 ), . . . son independientes. Falta mostrar que, casi seguramente, N (t) = |Π∩[0, t]| 0.8
para todo t > 0, que es lo mismo que decir que Π1 y P12 no tienen puntos en común. Este es 0.7
0.4
un paso técnico (ver el Lema 1.12) y la prueba puede omitirse en una primera lectura.
0.5 0.35
0.6
0.3
0.4
Lema 1.12. Dos procesos de Poisson Π1 = {Sn1 : n ≥ 0} y Π2 = {Sn2 : n ≥ 0} independientes 0.5

0.25
y de tasas λ1 y λ2 , respectivamente, no tienen puntos en común. 0.4 0.3

0.2
0.3
0.15
0.2
0.2
Demostración. Basta probar que P(D(t)) = 0 para todo t, donde D(t) es el evento definido 0.1
0.1
0.1
por
0.05
0 0 0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
D(t) := {existen puntos en común en el intervalo (0, t]} (a) (b) (c)
0.25
0.25
Para simplificar la notación lo demostraremos para D = D(1). 0.3
Sean {N1 (t), t ≥ 0} y {N2 (t), t ≥ 0} los procesos de conteo de los procesos de Poisson 0.25
0.2
0.2
{Sn1 : n ≥ 0} y {Sn2 : n ≥ 0}. El evento 0.2

0.15 0.15

i i+1 i i+1 0.15
Dn := N1 n
, n + N2 n
, n ≥ 2 para algún i ∈ [0, 2n − 1] 0.1 0.1
2 2 2 2 0.1
0.05 0.05
decrece a D cuando n tiende a infinito, y por lo tanto, por la continuidad de la probabilidad 0.05
para sucesiones monótonas de eventos, 0

0 1 2 3 4 5 6 7 8 9 10
0
0 1 2 3 4 5 6 7 8 9 10
0
0 1 2 3 4 5 6 7 8 9 10
(d) (e) (f)

P(D) = lı́m P(Dn ) = 1 − lı́m P(Dnc ).
n→∞ n→∞
Pero
Figura 4: Comparación entre la distribución Binomial(10, p) y su aproximación por la normal
n −1
2\ !
i i+1

i i+1
para distintos valores de p (a) p = 0.025; (b) p = 0.05; (c) p = 0.1; (d) p = 0.2; (e) p = 0.4;
P(Dnc ) = P N1 , + N 2 , ≤ 1 (f) p = 0.5.
2n 2n 2n 2n
i=1
n
2Y −1
i i+1 i i+1
= P N1 , + N 2 , ≤ 1 . Ejemplo 2.5 (Encuesta electoral). Queremos estimar la proporción del electorado que pre-
2n 2n 2n 2n
i=1 tende votar a un cierto candidato. Para ello consideramos que el voto de cada elector tiene
Debido a que los procesos son temporalmente homogéneos, para cada i vale que una distribución Bernoulli de parámetro p. Concretamente, queremos encontrar un tamaño
muestral n suficiente para que con una certeza del 99.99 % podamos garantizar un error máxi-
i i+1 i i+1 mo de 0.02 entre el verdadero valor de p y la proporción muestral Sn /n. En otras palabras,
= P N1 2−n + N2 2−n ≤ 1

P N1 n
, n + N2 n
, n ≤1
2 2 2 2 queremos encontrar n tal que
Y el problema se reduce a calcular P (N1 (2−n ) + N2 (2−n ) ≤ 1). La última probabilidad puede
Sn
expresarse como la suma de los siguientes términos P − p ≤ 0.02 ≥ 0.9999. (21)
n
−n −n
P N1 2−n = 0, N2 2−n = 0 = e−λ1 2 e−λ2 2 ,

Para acotar la incerteza usaremos la aproximación por la normal provista por el teorema lı́mite
−n
P N1 2−n = 0, N2 2−n = 1 = e−λ1 2 e−λ2 2 λ2 2−n ,
−n
de De Moivre - Laplace. Para ello, en lugar
p de observar la variable Sn , debemos observar la

−n −n variable normalizada Sn∗ := (Sn − np)/ np(1 − p). En primer lugar observamos que, como
P N1 2−n = 1, N2 2−n = 0 = e−λ1 2 λ1 2−n e−λ2 2 .

consecuencia del teorema lı́mite, tenemos la siguiente aproximación
En consecuencia,
S − np
!
n
P p ≤ a ≈ Φ(−a) − Φ(a) = 2Φ(a) − 1 (22)

−n
P N1 2−n + N2 2−n ≤ 1 = e−(λ1 +λ2 )2 1 + (λ1 + λ2 )2−n .

(22) np(1 − p)
14 13
que cuando se considera una cantidad n (suficientemente grande) de ensayos de Bernoulli Por lo tanto,
independientes, la distribución de la variable aleatoria Sn∗ es “prácticamente indistinguible” 2n
de la distribución normal estándar N (0, 1). P(Dnc ) = e−(λ1 +λ2 ) 1 + (λ1 + λ2 )2−n . (23)
2. Técnicamente la prueba del teorema se puede hacer recurriendo a las mismas herramientas La última cantidad tiende a 1 cuando n → ∞, y se concluye que P(D) = 0.
utilizadas en la prueba del caso simétrico, pero los cálculos involucrados son más complica-
dos. Sin embargo, el resultado también es claro si se observan las gráficas de la distribución Teorema 1.13 (Competencia). En la situación del Teorema 1.11, sea T el primer arribo del
Binomial(n, p). En la Figura 3 se ilustra el caso n = 16 y p = 1/4. Nuevamente es “evidente” proceso N = N1 + N2 y J el ı́ndice del proceso de Poisson responsable por dicho arribo; en
que la forma lı́mite de distribución Binomial debe ser la distribución normal. particular T es el primer arribo de NJ . Entonces
λj
P(J = j, T ≥ t) = P(J = j)P(T ≥ t) = e−(λ1 +λ2 )t .
λ1 + λ2
0.2
λj
En particular, J y T son independientes, P(J = j) = λ1 +λ2 y T tiene distribución exponencial
de intensidad λ1 + λ2 .
0.15
Demostración. Ver la demostración del Teorema que caracteriza la distribución del mı́nimo
de dos exponenciales independientes.
0.1 Ejemplo 1.14 (Insectos en un asado). Moscas y abejas aterrizan en la mesa de un asado a la
manera de dos procesos de Poisson independientes de tasas 2 y 1 por minuto, respectivamente.
Cuál es la probabilidad de que el primer insecto en aterrizar en la mesa sea una mosca? Rta.
2/3.
0.05
1.7. Procesos de Poisson compuestos

0 Un proceso estocástico se dice un proceso de Poisson compuesto si puede representarse
0 2 4 6 8 10 12 14 16
como
N (t)
X
X(t) = Yi
Figura 3: Gráfica de la función de probabilidad binomial con n = 16 y p = 1/4. Cerca i=1
del
p término central
√ m = np = 4, salvo un cambio de escala (cuya unidad de medida es
np(1 − p) = 3) la gráfica es “indistinguible” de la gráfica de la densidad normal. donde {N (t), t ≥ 0} es un proceso de Poisson, y las variables {Yi , i ≥ 1} son iid e independi-
entes de N .
3. De la Figura 3 deberı́a estar claro que, para n suficientemente grande, debe valer lo siguiente Lema 1.15. Sea X(t) un proceso de Poisson compuesto. Si {N (t), t ≥ 0} tiene intensidad λ
! y las variables Y tienen esperanza finita, entonces
n k 1 k − np
P(Sn = k) = p (1 − p)n−k ∼ p ϕ p . (20)
k np(1 − p) np(1 − p) E[X(t)] = λtE[Y1 ].
Ejemplo 2.4. Para el caso ilustrado en la Figura 3: n = 16 y p = 1/4, la aproximación (20) Más aún, si las variables Y tienen varianza finita, entonces,
es bastante buena, incluso con un valor de n pequeño. Para k = 0, . . . 4 las probabilidades
P(Sn = 4+k) son 0.2252, 0.1802, 0.1101, 0.0524, 0.0197. Las aproximaciones correspondientes V(X(t)) = λtE[Y12 ].
son 0.2303, 0.1950, 0.1183, 0.0514, 0.0160.
Demostración. Para calcular la esperanza de X(t) condicionamos sobre N (t):
Nota Bene. El Teorema lı́mite de De Moivre-Laplace justifica el uso de los métodos de la
curva normal para aproximar probabilidades relacionadas con ensayos de Bernoulli con prob- E [X(t)] = E [E [X(t) |N (t)]]
abilidad de éxito p. La experiencia “indica” que la aproximación es bastante buena siempre
que np > 5 cuando p ≤ 1/2, y n(1 − p) cuando p > 1/2. Un valor muy pequeño de p junto
con un valor de n moderado darán lugar a una media pequeña y con ello se obtendrá una
12 15
Ahora bien, Ejemplo 2.2. Se lanza 40 veces una moneda honesta. Hallar la probabilidad de que se
  obtengan exactamente 20 caras. Usar la aproximación normal y compararla con la solución
N (t)
X exacta.
E [X(t) | N (t) = n] = E  Yi | N (t) = n
i=1
Solución: La cantidad de caras en 40 lanzamientos de una moneda honesta, S40 , es una
n
" #
X variable Binomial de parámetros n = 40 y p = 1/2. La aproximación normal (15) establece
= E Yi | N (t) = n
que
i=1
1 1
n P(S40 = 20) ∼ 1 √ ϕ(0) = √ = 0.12615...
" #
40 20π
X
= E Yi por la independencia de Yi y N (t) 2
i=1 El resultado exacto es 40
= nE[Y1 ]. 40 1
P(X = 20) = = 0.12537...
20 2
Esto implica que
E [X(t) | N (t)] = N (t)E[Y1 ]

Ejemplo 2.3. Se dice que los recién nacidos de madres fumadoras tienden a ser más pequeños
y por lo tanto, y propensos a una variedad de dolencias. Se conjetura que además parecen deformes. A un
grupo de enfermeras se les mostró una selección de fotografı́as de bebés, la mitad de los
E [X(t)] = E [N (t)E[Y1 ]] = E[N (t)]E[Y1 ] = λtE[Y1 ]. cuales nacieron de madres fumadoras; las enfermeras fueron invitadas a juzgar a partir de la
apariencia de cada uno si la madre era fumadora o no. En 1500 ensayos se obtuvieron 910
Aunque podemos obtener E[X(t)2 ] condicionando sobre N (t), usaremos la fórmula de la respuestas correctas. La conjetura es plausible?
varianza condicional
V(X(t)) = E[V(X(t)|N (t))] + V(E[X(t)|N (t)]). Solución: Aunque superficial, un argumento atendible consiste en afirmar que, si todos los
bebés parecen iguales, la cantidad de repuestas correctas Sn en n ensayos es una variable
Ahora bien, aleatoria con distribución Binomial (n, 1/2). Entonces, para n grande
  ! !
N (t) Sn − 21 n Sn − 12 n 1
P √ > 3 = 1 − P √ ≤ 3 ≈ 1 − Φ(3) ≈
X
V [X(t) | N (t) = n] = V  Yi | N (t) = n 1 1 1000
2 n 2 n
i=1
n por el Teorema lı́mite de De Moivre-Laplace. Para los valores dados de Sn ,
!
X
= V Yi | N (t) = n
i=1 Sn − 12 n 910 − 750
n
! 1√ = √ ≈ 8.
X 2 n 5 15
= V Yi por la independencia de Yi y N (t)
√
i=1 Se podrı́a decir que el evento {X − 12 n > 32 n} es tan improbable que su ocurrencia arroja
= nV[Y1 ]. dudas sobre la suposición original de que los bebés parecen iguales. Este argumento otorgarı́a
cierto grado de credibilidad a la conjetura enunciada.
Esto implica que
V (X(t) | N (t)) = N (t)V(Y1 ) Comentarios sobre el caso general
y por lo tanto, 1. En el caso general, la probabilidad de éxito en cada ensayo de Bernoulli individual es
p ∈ (0, 1). Si Sn es la cantidad de éxitos observados en los primeros n ensayos, entonces
V (X(t)) = E [N (t)V(Y1 )] + V(N (t)E[Y1 ]) E[Sn ] = np y V(Sn ) = np(1 − p). Por lo tanto, la variable aleatoria
= V(Y1 )E[N (t)] + E[Y1 ]2 V(N (t)) Sn − np
= V(Y1 )λt + E[Y1 ]2 λt Sn∗ := p (19)
np(1 − p)
= λtE[Y12 ].
es una medida de la desviación
p de Sn respecto de la media E[Sn ] = np en unidades de la
desviación tı́pica σ(Sn ) = np(1 − p). El teorema lı́mite de De Moivre-Laplace significa
16 11
Nota Bene. La relación (15) expresa matemáticamente un hecho que se observa claramente Ejemplo 1.16. Supongamos que la cantidad de accidentes en una fábrica industrial se rige por
en la Figura 2: la campana “pasa” por los puntos de base k y altura P(Sn = k). Conviene un proceso de Poisson de intensidad 4 por mes y que la cantidad de trabajadores damnificados
observar que la expresión que aparece en el lado derecho de la relación (15) es la función en cada accidente son variables aleatorias independientes con distribución uniforme sobre
de densidad de la normal N 21 n, 41 n evaluada en x = k. En la práctica, esto significa que {1, 2, 3}. Supongamos también que la cantidad de trabajadores damnificados en cada accidente
para obtener una buena aproximación de la probabilidad de observar k éxitos en n ensayos de es independiente de la cantidad de accidentes ocurridos. Se quiere hallar la media y la varianza
Bernoulli independientes, basta con evaluar la densidad de la normal N 12 n, 41 n en x = k. de la cantidad anual de trabajadores damnificados en dicha fábrica.
Sin temor a equivocarnos, podemos resumir estas observaciones mediante una expresión de
la forma Sn ∼ N ( E[Sn ], V(Sn ) ). Solución: Sean N (t) la cantidad de accidentes en t meses e Yi el número de trabajadores
Paso 4. Observar que para cada x1 < x2 vale que damnificados en el i-ésimo accidente, i = 1, 2, . . . . El número total de trabajadores damnifi-
PN (12)
cados en un año puede expresarse en la forma X(12) = i=1 Yi .
!
Sn − 1 n 1√ 1√

1 1
P x1 ≤ 1 √ 2 ≤ x2 = P n + x1 n ≤ Sn ≤ n + x2 n Utilizando los resultados del Lema 1.15 tenemos que
2 n
2 2 2 2

X 1 E[X(12)] = (4 · 12)E[Y1 ] = 48E[Y1 ] = 48 · 2 = 96
= P Sn = n + j
2 14
1√
x1 2 1√
n≤j≤x2 2 n V(X(12)) = (4 · 12)E[Y12 ] = 48 · = 224.
X 3
≈ hϕ (jh) , (16)
x1 ≤jh≤x2
donde h = √2n y la suma se realiza sobre todos los enteros j tales que x1 ≤ jh ≤ x2 . Cada
uno de los sumandos que aparecen en el lado derecho de la aproximación (16) es el área de Ejercicios adicionales
un rectángulo de base [kh, (k + 1)h y altura ϕ(kh). Como la función ϕ(·) es continua, para
valores pequeños de h la suma total de las áreas de los rectángulo debe estar próxima del área 6. Una partı́cula suspendida en agua es bombardeada por moléculas en movimiento térmico
bajo la curva de la densidad normal entre x1 y x2 . Por lo tanto, debe valer lo siguiente de acuerdo con un proceso de Poisson de intensidad 10 impactos por segundo. Cuando recibe
un impacto la partı́cula se mueve un milı́metro hacia la derecha con probabilidad 3/4 o un
! Z
Sn − 12 n x2
lı́m P x1 ≤ 1 √ ≤ x2 = ϕ(t)dt = Φ(x2 ) − Φ(x1 ). (17) milı́metro hacia la izquierda con probabilidad 1/4. Transcurrido un minuto, cuál es la posición
2 n
n→∞ x1
media de la partı́cula?
Este paso puede hacerse formalmente preciso “arremangandose y metiendo la mano en ...”
7. Un servidor recibe clientes de acuerdo con un proceso de Poisson de intensidad 4 clientes
Nota Bene. La variable aleatoria que aparece dentro de la probabilidad del lado izquierdo por hora. El tiempo de trabajo (en minutos) consumido en cada servicio es una variable
de (17) aleatoria U[1, 9]. Al cabo de 8 horas, cuál es el tiempo medio de trabajo consumido por todos
los servicios?
Sn − 21 n Sn − E[Sn ]
Sn∗ = 1√ = (18)
2 n σ(Sn )
es una medida de la desviación de Sn respecto de la media E[Sn ] en unidades de la desviación 2. Bibliografı́a consultada
tı́pica σ(Sn ). El teorema lı́mite de De Moivre-Laplace significa que cuando se considera una
cantidad n (suficientemente grande) de ensayos de Bernoulli independientes, la distribución de Para redactar estas notas se consultaron los siguientes libros:
la variable aleatoria Sn∗ es “prácticamente indistinguible” de la distribución normal estándar
1. Brémaud, P.: Markov Chains: Gibbs Fields, Monte Carlo Simulation, and Queues.
N (0, 1).
Springer, New York. (1999)
Comentario sobre prueba del Teorema 2.1. Si se sigue con cuidado la demostración 2. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 2. John
presentada por Feller se puede ver que las herramientas principales de la prueba son el desar- Wiley & Sons, New York. (1971)
rollo de Taylor (1712) de la función log(1 2
√+ t) = t + O(t ) y la fórmula asintótica de Stirling
(1730) para los números factoriales n! ∼ 2πn nn e−n . Partiendo de la función de 3. Ferrari, P. A., Galves, A.: Construction of Stochastic Procecesses, Coupling and Regen-
√probabilidad
2
de la Binomial(n, normal ( 2π)−1 e−x /2 : eration. (2001)
√ −11/2) se “deduce” la expresión de la función densidad
−x 2 /2
el factor ( 2π) proviene de la fórmula de Stirling y el factor e del desarrollo de Tay-
4. Grimmett, G. R., Stirzaker, D. R.: Probability and Random Processes. Oxford Univer-
lor. Dejando de lado los recursos técnicos utilizados en la prueba, se observa que las ideas
sity Press, New York. (2001)
involucradas son simples y “recorren el camino del descubrimiento” de De Moivre (1733).
10 17
5. Kingman, J. F. K.: Poisson Processes. Oxford University Press. New York. (2002) Teorema 2.1 (Teorema lı́mite de De Moivre-Laplace). Consideramos una sucesión de en-
sayos de Bernoulli independientes. Sean p la probabilidad de éxito en cada ensayo y Sn la
6. Meester, R.: A Natural Introduction to Probability Theory. Birkhauser, Berlin. (2008) cantidad de éxitos observados en los primeros n ensayos. Para cualquier x ∈ R vale que
7. Ross, S.: Introduction to Probability Models. Academic Press, San Diego. (2007)
!
Sn − np
lı́m P p ≤ x = Φ(x), (14)
n→∞ np(1 − p)
Rx 2
donde Φ(x) := −∞ √12π e−t /2 dt es la función distribución normal estándar.
Demostración. Ver Capı́tulo VII de Feller, W., (1971). An Introduction to Probability

Theory and Its Applications, Vol. I, John Wiley & Sons, New York.
¿Qué significa el Teorema Lı́mite de De Moivre-Laplace? Para contestar esta pre-

gunta vamos a reconstruir las ideas principales de su génesis. En otras palabras, vamos a
(re)construir el Teorema. La clave de la construcción está “embutida” en la Figura 2. La im-
agen permite “capturar de inmediato” la existencia de una forma lı́mite para la distribución
Binomial en el caso simétrico p = 1/2.
Paso 1. El primer paso en la dirección del Teorema de De Moivre consiste en darse cuenta
que la Figura 2 señala la existencia de una forma lı́mite. En una primera fase (completa-
mente abstracta) podemos conjeturar que “la distribución binomial simétrica tiene una forma
asintótica. En otras palabras, cuando la cantidad de ensayos de Bernoulli es suficientemente
grande, salvo traslaciones y cambios de escala apropiados, la distribución Binomial se parece
a una función continua par, ϕ(x), cuyo gráfico tiene la forma de una campana.”
Paso 2. El segundo paso consiste en precisar la naturaleza de la traslación y los cambios de
escala que permiten “capturar” esa forma lı́mite. Si se reflexiona sobre el significado de la
media y la varianza de una variable aleatoria, parece claro que la forma lı́mite se obtendrá cen-
trando la variable Sn en su valor medio, E[Sn ] = 12 n, y adoptando como unidad de medida
√
la desviación tı́pica de los valores observados respecto de dicho valor, σ(Sn ) = 21 n. El sig-
nificado geométrico de esta transformación consiste en (1) trasladar el origen de las abscisas
√
en 12 n y (2) dividirlas por 21 n. Para que las áreas de los rectángulos sigan representando
probabilidades, las ordenadas deben multiplicarse por el mismo número. Este paso permite
enunciar la siguiente versión mejorada de la conjetura inicial: “existe una función continua
ϕ(x) tal que
n !
n 1 1 k − 12 n
P(Sn = k) = ∼ 1√ ϕ 1 √ , (15)
k 2 2 n 2 n
siempre y cuando n sea suficientemente grande.”

Paso 3. Establecida la conjetura el problema consiste en “descubrir” la expresión de la función
ϕ(x) y en precisar cuál es el sentido de la relación aproximada que aparece en (15). En este
punto no queda otra que “arremangarse y meter la mano en el barro”. Como resultado se
obtiene que la expresión de la función ϕ(x) es
2
1 x
ϕ(x) = √ exp −
2π 2
√
y que la relación ∼ vale para valores de k del orden de n y significa que el cociente de los
dos lados tiende a 1 cuando n → ∞.
18 9
Teorema 1.6. Sean X1 , X2 , . . . , Xn variables aleatorias independientes con distribuciones
normales: Xi ∼ N (µi , σi2 ), 1 ≤ i ≤ n y sean a1 , a2 , . . . , an números reales cualesquiera.
Entonces,
n n n
!
X
ai Xi ∼ N
X
ai µi ,
X
a21 σi2 .
Normalidad y Teorema central del lı́mite
i=1 i=1 i=1 (Borradores, Curso 23)
2. Génesis de la distribución normal
Sebastian Grynberg
2.1. Teorema lı́mite de De Moivre - Laplace
24 de abril de 2013
En 1733, De Moivre observó que la distribución binomial correspondiente a la cantidad
de éxitos, Sn , en n ensayos de Bernoulli simétricos tiene la forma lı́mite de una campana.
Esta observación fue la clave que le permitió descubrir la famosa campana de Gauss y allanar
el camino que lo condujo a establecer la primera versión del Teorema Central del Lı́mite: la
convergencia de la distribución Binomial(n, 1/2) a la distribución normal estándar. En 1801,
Laplace refinó y generalizó este resultado al caso de la distribución Binomial(n, p). El Teorema
de De Moivre-Laplace, que enunciamos más abajo, mejora sustancialmente la Ley débil de los
grandes números porque proporciona una estimación mucho más precisa de las probabilidades
P | Snn − p| ≤ ǫ .
0.18
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
0 2 4 6 8 10 12 14 16
Figura 2: Relación entre la distribución Binomial simétrica y la distribución normal. La prob-

abilidad de que ocurran k éxitos en n ensayos de Bernoulli está representada por un segmento
paralelo al eje de las abscisas localizado en la ordenada k de altura igual a P(Sn = k). La curva ¿dónde es más útil aplicar la fuerza de la propia voluntad:
continua “aproxima” los valores de P(Sn = k). Observar que dichas probabilidades también en el desarrollo de la cantidad o en el de la calidad?
se pueden representar como áreas de rectángulos de altura P(Sn = k) y de base unitaria ¿Cuál de los dos aspectos es más fiscalizable?
centrada en k. ¿Cuál más fácilmente mensurable?
¿Sobre cuál se pueden hacer previsiones, construir planes de trabajo?
8 1
Índice 1.4. Suma de normales independientes
Lema 1.5. Sean X1 y X2 dos variables aleatorias independientes con distribución nor-
1. La distribución normal 2
mal N (µ1 , σ12 ) y N (µ2 , σ22 ), respectivamente. Entonces X1 + X2 tiene distribución normal
1.1. Presentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
N µ1 + µ2 , σ12 + σ22 .
1.2. Cuentas con normales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4. Suma de normales independientes . . . . . . . . . . . . . . . . . . . . . . . . . 7 Demostración. Observando que X1 + X2 = (X1 − µ1 ) + (X2 − µ2 ) + µ1 + µ2 el problema se
reduce a considerar el caso µ1 = µ2 = 0. La prueba se obtiene mostrando que la convolución de
1 1
exp −x21 /2σ12 y f2 (x2 ) = √2πσ exp −x22 /2σ22 es la densidad

2. Génesis de la distribución normal 8 las densidades f1 (x1 ) = √2πσ
1 2
2.1. Teorema lı́mite de De Moivre - Laplace . . . . . . . . . . . . . . . . . . . . . 8 normal de media µ1 + µ2 y varianza σ 2 = σ12 + σ22 . Por definición
(x − y)2 y2
Z ∞ Z ∞
3. Teorema central del lı́mite 14

1
(f1 ∗ f2 )(x) = f1 (x − y)f2 (y) = exp − − 2 dy (13)
3.1. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 −∞ 2πσ1 σ2 −∞ 2
2σ1 2σ2
4. Distribuciones relacionadas con la Normal 19 El resultado se obtendrá mediante un poco de álgebra, bastante paciencia, y un cambio de
4.1. χ2 (chi-cuadrado) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 variables en la integral del lado derecho de la identidad (13).
4.2. t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2 !
(x − y)2 y2 x2

4.3. F de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 1 σ σ2
exp − − = exp − y − x −
2σ12 2σ22 2 σ1 σ2 σσ1 2σ 2
5. Bibliografı́a consultada 23 2 !
x2

1 σ σ2
= exp − y− x exp − 2
2 σ1 σ2 σσ1 2σ
1. La distribución normal
2
1.1. Presentación La primera igualdad se obtuvo completando cuadrados respecto de y en la expresión − (x−y)
2σ 2
−
1
y2 σ σ2
Definición 1.1. La función definida por 2σ22
y reagrupando algunos términos. Mediante el cambio de variables z = σ1 σ2 y − σσ1 x, cuya
diferencial es de la forma dz = σ1σσ2 dy, se puede ver que
1 2
ϕ(x) = √ e−x /2 (1)
x2
2
x2
Z ∞
2π

1 z 1
(f1 ∗ f2 )(x) = exp − 2 exp − dz = √ exp − 2 .
se llama la función densidad normal; su integral 2πσ 2σ −∞ 2 2π σ 2σ
Z x
1 2
Φ(x) = √ e−t /2 dt (2) Este resultado se puede generalizar para una suma de n variables aleatorias independientes:
2π −∞
Sean X1 , X2 , . . . , Xn variables aleatorias independientes con distribuciones normales: Xi ∼
es la función distribución normal. N (µi , σi2 ), 1 ≤ i ≤ n. Entonces,
n n n
!
2
Folclore. Se sabe que la función e−x no admite una primitiva que pueda expresarse medi-
X X X
2
Xi ∼ N µi , σi .
ante un número finito de funciones elementales: xν , sen(x), cos(x), ax , etc.... (Ver Piskunov, i=1 i=1 i=1
N., (1983). cálculo diferencial e integral, tomo I, Mir, Moscú). Sin
R ∞embargo, usando técnicas
de cambio de variables bidimensionales se puede demostrar que −∞ ϕ(x)dx = 1. La prueba se obtiene por inducción y utilizando la siguiente propiedad “hereditaria” de
La función Φ(x) crece desde 0 hasta 1. Su gráfico es una curva con forma de S con familias de variables aleatorias independientes (cuya prueba puede verse en el Capı́tulo 1
del libro de Durrett, R.(1996): Probability Theory and Examples): Si X1 , X2 , . . . , Xn son
Φ(−x) = 1 − Φ(x). (3) variables aleatorias independientes, entonces funciones (medibles) de familias disjuntas de las
Xi también son independientes.
Nota Bene. Observando que para cada a ∈ R y X ∼ N (µ, σ 2 ) resulta que aX ∼ N (aµ, a2 σ 2 )
se obtiene el siguiente resultado:
2 7
Significado de los parámetros µ y σ 2 . La relación (9) dice que si X es una variable 0.4
aleatoria con distribución normal de parámetros µ y σ 2 , entonces X = σZ + µ donde Z es 0.35
una variable con distribución normal estándar. Cálculos de rutina muestran que E[Z] = 0 0.3
y V(Z) = 1, lo que permite deducir que la media y la varianza de la N (µ, σ 2 ) son µ y σ 2 ,
respectivamente. 0.25
0.2
1.3. Ejemplos 0.15
Ejemplo 1.3. Una maquina produce ejes cuyos diámetros X tienen distribución normal de 0.1
media µ = 10 mm y varianza σ 2 = 0.25 mm. Un eje se considera defectuoso si X < 9.5 mm.
0.05
Cuál es la probabilidad de que un eje elegido al azar resulte defectuoso?
0
−4 −3 −2 −1 0 1 2 3 4
Solución: El problema se resuelve calculando P(X < 9.5). Poniendo µ = 10 y σ = 0.5 en (a)
la fórmula (10) obtenemos P(X < 9.5) = Φ 9.5−10
0.5 = Φ (−1) = 0.1587. 1
0.9
Curva peligrosa. De inmediato podrı́a surgir una objeción al uso de la distribución nor- 0.8
mal N (10, 0.25) para modelar el diámetro de los ejes. Al fin y al cabo, los diámetros deben
0.7
ser positivos y la distribución normal adopta valores positivos y negativos. Sin embargo, el
0.6
modelo anteriorasigna una probabilidad despreciable al evento X < 0. En efecto,P(X < 0) =
0−10
P X−10
0.5 < 0.5 = P (Z < −20) = Φ (−20) = 1 −−89
Φ(20). De acuerdo con la estimación (6) 0.5
1 1
tenemos que 1 − Φ(20) ≈ ϕ(20) 20 − 2·20 3 = O(10 ). Este tipo de situación es habitual en 0.4
la práctica. Se tiene una variable aleatoria X de la que se sabe que no puede tomar valores 0.3
negativos (p.ej. una distancia, una longitud, un área, un peso, una temperatura, un precio, 0.2
etc.) y se la modela utilizando una distribución normal N (µ, σ 2 ); motivados, por ejemplo, 0.1
por cuestiones de simetrı́a. En principio, el modelo podrá ser perfectamente válido siempre 0
y cuando los valores de los parámetros µ y σ 2 sean tales que la probabilidad P(X < 0) sea
−4 −3 −2 −1 0 1 2 3 4
prácticamente 0. (b)
Nota Bene sobre grandes desvı́os. Sea X una variable aleatoria con distribución normal 2
Figura 1: (a) La función densidad normal ϕ(x) := √1 e−x /2 ; (b) La función distribución
de media µ y varianza σ 2 . Sea t > 0, utilizando la fórmula (12) podemos ver que Rx 2
2π
normal Φ(x) = √12π −∞ e−t /2 dt
tσ
pt := P (|X − µ| > tσ) = 1 − P (|X − µ| ≤ tσ) = 1 − 2Φ − 1 = 2 (1 − Φ (t)) .
σ
Tablas. La tabla de valores de la función distribución normal se puede consultar en la
Usando la tabla de la distribución normal Φ(·) se puede ver que p1 = 0.3174, p2 = 0.0454, mayorı́a de los libros sobre probabilidad y/o estadı́stica. En general se tabulan los valores
p3 = 0.0028. Estos probabilidades admiten la siguiente interpretación: cerca del 32 % de los de Φ(x) para x = d0 + d101 + 100 d2
, donde d0 ∈ {0, 1, 2, 3} y d1 , d2 ∈ {0, 1, 2, . . . , 9}. Las filas
valores de una variable X ∼ N (µ, σ 2 ) se desvı́an de su media en más de σ; solamente cerca de la tabla están indexadas por los números d0 . d1 y sus columnas por los números 0.0d2 :
de un 5 % lo hacen en más de 2σ y solamente cerca de un 3 % en más de 3σ. Esto da lugar en la posición (d0 . d1 , 0.0d2 ) de la tabla se encuentra el valor Φ(d0 . d1 d2 ). Por ejemplo, si
a que en la mayor parte de los problemas de la práctica se consideren casi imposibles las se consulta la tabla del libro de Feller, W. (1968). An Introduction to Probability Theory
desviaciones respecto de la media µ que superen 3σ y se consideren limitados por el intervalo and its Applications, en fila 1.2 y columna de 0.08 puede leerse 0.8997, lo que significa que
[µ − 3σ, µ + 3σ] todos los valores prácticamente posibles de la variable X. Φ(1.28) = 0.8997.
En el Cuadro 1.1 reproducimos algunos de los valores de la tabla del Feller:
Ejemplo 1.4. Sea X una variable aleatoria con distribución normal de media µ = 3 y
varianza σ 2 = 4. ¿Cuál es la probabilidad de que X sea no menor que 1 y no mayor que 7? Lema 1.2. Para cada x > 0 valen las siguientes desigualdades:

Solución: Poner µ = 3 y σ = 2 en la fórmula (11) y usar la tabla de la distribución normal 1 1 1
ϕ(x) − 3 < 1 − Φ(x) < ϕ(x) . (4)
Φ(·): P(1 ≤ X ≤ 7) = Φ 7−3 − Φ 1−3

= Φ(2) − Φ(−1) = 0.9773 − 0.1587 = 0.8186. x x x
2 2
6 3
x 1.28 1.64 1.96 2.33 2.58 3.09 3.29 1.2. Cuentas con normales
Φ(x) 0.8997 0.9495 0.975 0.9901 0.9951 0.9990 0.9995
Sean µ ∈ R y σ > 0 arbitrarios, pero fijos. Se dice que la variable aleatoria X tiene
Cuadro 1: En la tabla se muestran algunos valores de Φ(x) := √1
Rx −t2 /2 dt. distribución normal de parámetros µ y σ 2 y se denota X ∼ N (µ, σ 2 ) si la función densidad
2π −∞ e
de X es de la forma
(x − µ)2

Demostración. Usando que dx d
ϕ(x) = −xϕ(x) es fácil ver que las derivadas de los miembros 1
ϕµ,σ2 (x) = √ exp − . (8)
de las desigualdades (4) satisfacen: σ 2π 2σ 2

d 1 1 3 Nota Bene. Un hecho importante sobre las variables aleatorias normales es que si X tiene
ϕ(x) − 3 = −ϕ(x) 1 − 4 .
dx x x x distribución normal N (µ, σ 2 ), entonces
d
[1 − Φ(x)] = −ϕ(x). X −µ
dx Z= (9)
σ

d 1 1
ϕ(x) = −ϕ(x) 1 + 2 .
dx x x tiene distribución normal N (0, 1). En efecto,
Por lo tanto,
P(Z ≤ z) = P((X − µ)/σ ≤ z) = P(X ≤ zσ + µ)
d 1 1 d d 1 1
Z zσ+µ
(x − µ)2

−ϕ(x) − 3 < [Φ(x) − 1] < −ϕ(x) (5) = √ exp − dx
dx x x dx dx x 2σ 2
σ 2π −∞
Z z
Las desigualdades (4) se obtienen integrando desde x hasta ∞. 1 1 2
= √ e− 2 t dt por sustitución x = tσ + µ.
2π −∞
Nota Bene. De las desigualdades (4) se infiere un método de cálculo para aproximar los
valores de 1 − Φ(x): promediando los valores de los extremos de las desigualdades se obtiene Este hecho significa que si trasladamos el origen de las abscisas en µ y cambiamos la escala
una aproximación cuyo error absoluto es menor que la semi-diferencia entre ambos: de manera tal que σ represente la unidad de medida, la distribución normal N (µ, σ 2 ) se
transforma en la distribución normal N (0, 1). Su importancia práctica radica en que permite
1 − Φ(x) − ϕ(x) 1 − 1 ≤ ϕ(x) . reducir el cálculo de probabilidades de las distribuciones normales N (µ, σ 2 ) al de la distribu-

3
(6)
x 2x 2x3 ción normal N (0, 1). Motivo por el cual esta última recibe el nombre de normal estándar (o
De la desigualdad (6) se puede ver que la aproximación tı́pica). Más precisamente, si X tiene distribución normal N (µ, σ 2 ), su función de distribu-
ción podrá reducirse a la función de distribución normal Φ(·) definida en (2) de la siguiente
1 1 manera:
Φ(x) ≈ 1 − ϕ(x) − 3 (7)
x 2x
X −µ x−µ x−µ x−µ
es prácticamente inútil para valores “pequeños” de x (i.e., x ∈ (0, 1]) pero va mejorando a P(X ≤ x) = P ≤ =P Z≤ =Φ . (10)
σ σ σ σ
medida que los valores de x “crecen”. Usando la aproximación dada en (7) se obtienen las
siguientes aproximaciones La identidad (10) resume toda la información probabilı́sticamente relevante sobre la variable
aleatoria X ∼ N (µ, σ 2 ) y permite calcular (con ayuda de la tabla de la función de distribución
x 1.28 1.64 1.96 2.33 2.58 3.09 3.29 normal Φ(·)) la probabilidad de que la variable X se encuentre en cualquier intervalo prefijado
Φ(x) 0.90454 0.94839 0.97406 0.98970 0.99487 0.99896 0.99948 de antemano:
|error| ≤ 0.04192 0.01178 0.00388 0.00104 0.00041 0.00005 0.00002
b−µ a−µ
Cuadro 2: Algunos valores de Φ(x) obtenidos mediante la estimación (7). P(a < X < b) = Φ −Φ . (11)
σ σ
En particular, cuando el intervalo (a, b) es simétrico con respecto a µ, las cantidades a y b se

Nota histórica La distribución normal fue descubierta por De Moivre en 1733 como re- pueden expresar en la forma a = µ − ǫ, b = µ + ǫ, donde ǫ > 0, y la fórmula (11) adopta la
sultado de analizar la forma lı́mite de la distribución binomial simétrica y redescubierta forma
nuevamente por Gauss (1809) y Laplace (1812) quienes la estudiaron en relación con sus tra- ǫ ǫ ǫ
bajos sobre la teorı́a de los errores de observación. Laplace dio, además, el primer enunciado P (|X − µ| < ǫ) = Φ −Φ − = 2Φ − 1. (12)
σ σ σ
(incompleto) del teorema central del lı́mite. (Ver Cramer, H., (1970). Métodos matemáticos
de estadı́stica, Aguilar, Madrid.)
4 5
q 4.2. t de Student
Definición 4.3 (La distribución t de Student). Sean Z y U variables aleatorias independientes
con distribuciones N (0, 1) y χ2n , respectivamente. La distribución de la variable
Z
T =p
U/n
se llama distribución t de Student con n grados de libertad y se denota mediante tn .
qγ
La función densidad de la t de Student con n grados de libertad es
− n+1
Γ n+1

2 t2 2
fT (t) = √ n
1+ .
nπΓ 2 n
La fórmula de la densidad se obtiene por los métodos estándar desarrollados en las notas
q = Q(x, θ) sobre transformaciones de variables.
0.4
{θ : Q(x, θ) ≤ qγ }
θ 0.35
θ(x, γ)
0.3
0.25
Como el pivote Q(X, θ) es decreciente en θ tenemos que
0.2
Q(X, θ) ≤ qγ ⇐⇒ θ(X, γ) ≤ θ.
0.15
En consecuencia,
0.1
Pθ (θ(X, γ) ≤ θ) = Pθ (Q(X, θ) ≤ qγ ) = γ, ∀ θ ∈ Θ.
0.05
Por lo tanto, θ(X, γ) es una cota inferior de confianza para θ de nivel γ y una cota superior
de nivel 1 − γ. 0
−5 −4 −3 −2 −1 0 1 2 3 4 5
Método
Figura 9: Comparación de la función densidad de probabilidad de una distribución t7 (lı́nea
Sea β ∈ (0, 1). Si se dispone de un pivote Q(X, θ) que satisface las propiedades (i) y (ii)
solida) con la de la distribución N (0, 1) (lı́nea punteada).
enunciadas más arriba, entonces
la variable aleatoria, θ1 (X), que se obtiene resolviendo la ecuación Q(X, θ) = qβ es una Observación 4.4. Notar que la densidad de tn es simétrica respecto del origen. Cuando la
cota inferior de confianza para θ, de nivel β. cantidad de grados de libertad, n, es grande la distribución tn se aproxima a la la distribución
la variable aleatoria, θ2 (X), que se obtiene resolviendo la ecuación Q(X, θ) = q1−β es N (0, 1); de hecho para más de 20 o 30 grados de libertad, las distribuciones son muy cercanas.
una cota superior de confianza para θ, de nivel β. .
el intervalo aleatorio I(X) = [θ1 (X), θ2 (X)] cuyos extremos son las soluciones respectivas 4.3. F de Fisher
de las ecuaciones Q(X, θ) = q 1+β y Q(X, θ) = q 1−β , es un intervalo “bilateral” de
2 2 Definición 4.5 (Distribución F ). Sean U y V variables aleatorias independientes con dis-
confianza para θ, de nivel β.
tribuciones χ2m y χ2n , respectivamente. La distribución de la variable
Ejemplo 1.6 (Extremo superior de la distribución uniforme). Sea X = (X1 , . . . , Xn ) una U/m
muestra aleatoria de una variable aleatoria X ∼ U(0, θ), θ > 0. W =
V /n
6 21
se llama distribución F con m y n grados de libertad y se denota por Fm, n . 1.1. El método del pivote
La función densidad de W es Cuando se quieren construir intervalos de confianza para θ lo más natural es comenzar la
construcción apoyándose en algún estimador puntual del parámetro θ̂(X) (cuya distribución
Γ m+n
m
2 m 2 m −1 m − m+n
2 depende de θ). Una técnica general para construir intervalos de confianza, llamada el método
fW (w) = w2 1+ w 1{w ≥ 0}.
Γ m n

2 Γ 2
n n del pivote, consiste en transformar el estimador θ̂(X) hasta convertirlo en una variable aleato-
ria cuya distribución sea “conocida” y no dependa de θ. Para que la transformación sea útil
W es el cociente de dos variables aleatorias independientes, y su densidad se obtiene usando no debe depender de ningún otro parámetro desconocido.
los métodos estándar desarrollados en las notas sobre transformaciones de variables.
Definición 1.5 (Pivote). Una variable aleatoria de la forma Q(X, θ) se dice una cantidad
Nota Bene. Se puede mostrar que, para n > 2, E[W ] = n/(n − 2). De las definiciones de pivotal o un pivote para el parámetro θ si su distribución no depende de θ (ni de ningún
las distribuciones t y F , se deduce que el cuadrado de una variable aleatoria tn se distribuye parámetro desconocido, cuando hay varios parámetros).
como una F1,n .
Nota Bene. Por definición, la distribución del pivote Q(X, θ) no depende de θ. Para cada
0.8
α ∈ (0, 1) notaremos mediante qα el cuantil-α del pivote. Si el pivote tiene distribución
continua y su función de distribución es estrictamente creciente, qα es la única solución de la
0.7
ecuación
0.6
Pθ (Q(X, θ) ≤ qα ) = α.
0.5 Método. Si se consigue construir un pivote Q(X, θ) para el parámetro θ, el problema de la

construcción de intervalos de confianza, de nivel β, se descompone en dos partes:
0.4
1. Encontrar parejas de números reales a < b tales que Pθ (a ≤ Q(X; θ) ≤ b) = β. Por

0.3 ejemplo, a = q 1−β y b = q 1+β .
2 2
0.2 2. Despejar el parámetro θ de las desigualdades a ≤ Q (X, θ) ≤ b.
0.1 Si el pivote Q(X, θ) es una función monótona en θ se puede ver que existen θ1 (X) y θ2 (X)
tales que
0
0 1 2 3 4 5 6 7
a ≤ Q(X; θ) ≤ b ⇔ θ1 (X) ≤ θ ≤ θ2 (X)
y entonces
Pθ (θ1 (X) ≤ θ ≤ θ2 (X)) = β,
Figura 10: Gráfico tı́pico de la función densidad de probabilidad de una distribución F .
de modo que I(X) = [θ1 (X), θ2 (X)] es un intervalo de confianza para θ de nivel β.
¿Cómo usar las tablas de las distribuciones F ? Para cada α ∈ (0, 1), sea Fα,m,n el 1.1.1. Pivotes decrecientes
punto del semieje positivo de las abscisas a cuya derecha la distribución Fm,n acumula una
probabilidad α: Sea Q(X, θ) un pivote para θ que goza de las siguientes propiedades:
P(Fm,n > Fα,m,n ) = α. (i) la función de distribución de Q(X, θ) es continua y estrictamente creciente;
Observación 4.6. Notar que de las igualdades (ii) para cada x, la función Q(x, θ) es continua y monótona decreciente en la variable θ:

U/m V /n 1 V /n 1
α=P > Fα,m,n = P < =1−P ≥ θ1 < θ2 =⇒ Q(x, θ1 ) > Q(x, θ2 )
V /n U/m Fα,m,n U/m Fα,m,n
se deduce que Sea γ ∈ (0, 1), arbitrario pero fijo y sea qγ el cuantil-γ del pivote Q(X, θ).
Para cada x, sea θ(x, γ) la única solución de la ecuación en θ
1
F1−α,n,m = . (31)
Fα,m,n Q(x, θ) = qγ .
22 5
Ejemplo 1.4 (Media de la normal con varianza conocida). Sea X = (X1 , . . . , Xn ) una mues- En los manuales de estadı́stica se pueden consultar las tablas de los valores Fα,m,n para
tra aleatoria de una variable aleatoria X ∼ N (µ, σ 2 ), con varianza σ 2 conocida. Para obtener diferentes valores de m, n y α ∈ {0.01, 0.05}. Por ejemplo, según la tabla que tengo a mi
un intervalo de confianza de nivel β para µ, consideramos el estimador de máxima verosimil- disposición1
itud para µ P(F9, 9 > 3.18) = 0.05 y P(F9,9 > 5.35) = 0.01
1X
n Usando esa información queremos hallar valores φ1 y φ2 tales que
X̄ = Xi .
n P(F9, 9 > φ2 ) = 0.025 y P(F9, 9 < φ1 ) = 0.025.
i=1
La distribución de X̄ se obtiene utilizando los resultados conocidos sobre sumas de normales El valor de φ2 se obtiene por interpolación lı́neal entre los dos puntos dados en la tabla:
independientes y de cambio de escala: A = (3.18, 0.05) y B = (5.35, 0.01). La ecuación de la recta que pasa por ellos es y − 0.01 =
− 0.04 0.04
2.17 (x − 5.35). En consecuencia, φ2 será la solución de la ecuación 0.025 − 0.01 = − 2.17 (φ2 −
σ2

X̄ ∼ N µ, . 5.35). Esto es, φ2 = 4.5362.
n
El valor de φ1 se obtiene observando que la ecuación P(F9, 9 < φ1 ) = 0.025 es equivalente
En consecuencia, a la ecuación P (1/F9, 9 > 1/φ1 ) = 0.025. Por definición, la distribución de 1/F9, 9 coincide con
√ la de F9, 9 . En consecuencia, φ1 debe satisfacer la ecuación P (F9, 9 > 1/φ1 ) = 0.025. Por lo
n X̄ − µ tanto, φ1 = 1/4.5362 = 0.2204.
∼ N (0, 1) .
σ
Por lo tanto, para cada µ ∈ R vale que
√ !
n X̄ − µ
Pµ −z(1+β)/2 ≤ ≤ z(1+β)/2 = β. Para redactar estas notas se consultaron los siguientes libros:
σ
1. Cramer, H.: Métodos matemáticos de estadı́stica. Aguilar, Madrid. (1970)
Despejando µ de las desigualdades dentro de la probabilidad, resulta que
2. Durrett R.: Probability. Theory and Examples. Duxbury Press, Belmont. (1996)
σ σ
Pµ X̄ − √ z(1+β)/2 ≤ µ ≤ X̄ + √ z(1+β)/2 = β,
n n 3. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 1. John
y por lo tanto el intervalo
σ σ Wiley & Sons, New York. (1971)
I(X) = X̄ − √ z(1+β)/2 , X̄ + √ z(1+β)/2
n n
5. Hoel P. G.: Introducción a la estadı́stica matemática. Ariel, Barcelona. (1980)
es un intervalo de confianza para µ de nivel β.
6. Piskunov, N.: Cálculo diferencial e integral, tomo I. Mir, Moscú (1983)
Nota Bene. Las ideas principales para construir el intervalo de confianza contenidas en el 7. Rice, J. A.: Mathematical Statistics and Data Analysis. Duxbury Press, Belmont. (1995)
ejemplo anterior son las siguientes:
8. Ross, S. M: Introduction to Probability and Statistics for Engineers and Scientists.
1. Obtener un estimador del parámetro y caracterizar su distribución. Elsevier Academic Press, San Diego. (2004)
2. Transformar el estimador de parámetro hasta convertirlo en una variable aleatoria cuya 9. Ross, S.: Introduction to Probability Models. Academic Press, San Diego. (2007)
distribución “conocida” que no dependa del parámetro.
3. Poner cotas para el estimador transformado y despejar el parámetro.
1
Introducción a la estadı́stica matemática. Ariel, Barcelona. (1980).
4 23
1. Estimación por intervalo
En lo que sigue consideramos el problema de estimación de parámetros utilizando inter-
valos de confianza. Consideramos una muestra aleatoria X = (X1 , . . . , Xn ) de la variable
Estimadores puntuales aleatoria X cuya función de distribución F (x) := P(X ≤ x), pertenece a la familia paramétri-
(Borradores, Curso 23) ca de distribuciones (distinguibles) F = {Fθ : θ ∈ Θ}, Θ ⊂ R. La idea básica es la siguiente:
aunque no podamos determinar exactamente el valor de θ podemos tratar de construir un in-
tervalo aleatorio [θ− , θ+ ] tal que con una probabilidad bastante alta, sea capaz de “capturar”
Sebastian Grynberg el valor desconocido θ.
20-22 de mayo de 2013 Definición 1.1 (Intervalo de confianza). Un intervalo de confianza para θ de nivel β es un
intervalo aleatorio, I(X), que depende de la muestra aleatoria X, tal que
Pθ (θ ∈ I(X)) = β, (1)
para todo θ ∈ Θ.
Definición 1.2 (Cotas de confianza). Una cota inferior de confianza para θ, de nivel β,
basada en la muestra aleatoria X, es una variable aleatoria θ1 (X) tal que
Pθ (θ1 (X) ≤ θ) = β, (2)
Una cota superior de confianza para θ, de nivel β, basada en la muestra aleatoria X, es
una variable aleatoria θ2 (X) tal que
Pθ (θ ≤ θ2 (X)) = β, (3)
Nota Bene. En el caso discreto no siempre se pueden obtener las igualdades (1), (2) o (3).
Para evitar este tipo de problemas se suele definir un intervalo mediante la condición más
laxa Pθ (θ ∈ I(X)) ≥ β, ∀ θ. En este caso el mı́nθ Pθ (θ ∈ I(X)) se llama nivel de confianza.
Observación 1.3. Sean θ1 (X) una cota inferior de confianza de nivel β1 > 1/2 y θ2 (X) una
cota superior de confianza de nivel β2 > 1/2, tales que Pθ (θ1 (X) ≤ θ2 (X)) = 1 para todo
θ ∈ Θ. Entonces,
I(X) = [θ1 (X), θ2 (X)]
define un intervalo de confianza para θ de nivel β = β1 + β2 − 1. En efecto,
La libertad de los pueblos no consiste en palabras, Pθ (θ ∈ I(X)) = 1 − Pθ (θ < θ1 (X) o θ > θ2 (X))
ni debe existir en los papeles solamente. (...) = 1 − Pθ (θ < θ1 (X)) − Pθ (θ > θ2 (X))
Si deseamos que los pueblos sean libres, = 1 − (1 − β1 ) − (1 − β2 ) = β1 + β2 − 1. (4)
observemos religiosamente el sagrado dogma de la igualdad.
(Mariano Moreno) La identidad (4) muestra que la construcción de intervalos de confianza se reduce a la
construcción de cotas inferiores y superiores. Más precisamente, si se quiere construir un
intervalo de confianza de nivel β, basta construir una cota inferior de nivel β1 = (1 + β)/2 y
una cota superior de nivel β2 = (1 + β)/2.
Las ideas principales para construir intervalos de confianza están contenidas en el ejemplo
siguiente.
1 3
Índice Índice
1. Estimación por intervalo 3 1. Introducción 2
1.1. El método del pivote . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.1. Nociones y presupuestos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1. Pivotes decrecientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2. Algunas familias paramétricas . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.2. Pivotes crecientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2. Estimadores 4
2. Muestras de Poblaciones Normales 10 2.1. Error cuadrático medio, sesgo y varianza . . . . . . . . . . . . . . . . . . . . . 5
2.1. Media y varianza desconocidas . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.2. Comparación de estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1.1. Teorema llave . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.3. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.1.2. Cotas e intervalos de confianza para la varianza . . . . . . . . . . . . . 11
2.1.3. Cotas e intervalos de confianza para la media . . . . . . . . . . . . . . 12 3. Método de máxima verosimilitud 10
2.1.4. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.1. Estimador de máxima verosimilitud (emv) . . . . . . . . . . . . . . . . . . . . 10
2.2. Media de la normal con varianza conocida . . . . . . . . . . . . . . . . . . . . 13 3.2. Cálculo del emv para familias regulares . . . . . . . . . . . . . . . . . . . . . 12
2.3. Varianza de la normal con media conocida . . . . . . . . . . . . . . . . . . . . 14 3.2.1. Familias exponenciales . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2.2. Malas noticias! . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3. Intervalos aproximados para ensayos Bernoulli 15 3.3. Cálculo del emv para familias no regulares . . . . . . . . . . . . . . . . . . . . 20
3.4. Principio de invariancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4. Comparación de dos muestras normales 17
4.1. Cotas e intervalos de confianza para la diferencia de medias . . . . . . . . . . 17 4. Bibliografı́a consultada 23
4.1.1. Varianzas conocidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.1.2. Varianzas desconocidas. . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.2. Cotas e intervalos de confianza para el cociente de varianzas. . . . . . . . . . 19
1. Introducción
5. Comparación de dos muestras 19

1.1. Nociones y presupuestos básicos
5.1. Planteo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 Definición 1.1 (Muestra aleatoria). Sea (Ω, A, P) un espacio de probabilidad y X : Ω → R
5.2. Problema de dos muestras binomiales . . . . . . . . . . . . . . . . . . . . . . 20 una variable aleatoria. Una muestra aleatoria de volumen n de la variable aleatoria X es una
sucesión X1 , . . . , Xn de variables aleatorias independientes cada una con la misma distribución
6. Apéndice: Demostración del Teorema llave 22 de X.
6.1. Preliminares de Análisis y Álgebra . . . . . . . . . . . . . . . . . . . . . . . . 22
6.2. Lema previo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 Modelos paramétricos. En todo lo que sigue vamos a suponer que
6.3. Demostración del Teorema. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1. La función de distribución de la variable aleatoria X es desconocida parcialmente: se
7. Bibliografı́a consultada 24 sabe que F (x) = P(X ≤ x) pertenece a una familia, F, de distribuciones conocidas que
dependen de un parámetro θ desconocido: F = {Fθ : θ ∈ Θ}.
2. El conjunto paramétrico, Θ, es no vacı́o y está contenido en Rd .
3. Las distribuciones de la familia F son distinguibles: Fθ1 6= Fθ2 cuando θ1 6= θ2 .
4. Las distribuciones de la familia F tienen “densidad”. Si se trata de una familia de

distribuciones continuas esto significa que para cada θ ∈ Θ, existe una función densidad
d
de probabilidades (f.d.p.) f (x|θ) tal que dx Fθ (x) = f (x|θ). Si se trata de una familia
de distribuciones discretas esto significa que para cada θ ∈ Θ, existe una función de
probabilidad (f.p.) f (x|θ) tal que Fθ (x) − Fθ (x−) = f (x|θ).
5. Es posible conseguir muestras aleatorias de la variable X del volumen que se desee.
2 2
Nota Bene. De los presupuestos básicos adoptados resulta que los modelos paramétricos
adoptan la forma
F = {f (x|θ) : θ ∈ Θ} ,
donde θ es un parámetro desconocido que puede tomar valores en un espacio paramétrico Estimación por intervalo
Θ ⊂ Rd . (Borradores, Curso 23)
1.2. Algunas familias paramétricas
Sebastian Grynberg
Repasamos algunas de las familias de distribuciones que se utilizan comúnmente en el
análisis de datos en problemas prácticos. 27-29 de mayo de 2013
1. Familia Normal, N (µ, σ 2 ). Decimos que X tiene distribución normal de parámetros

µ ∈ R y σ 2 > 0 cuando la f.d.p. de X está dada por
(x − µ)2

1
f (x|µ, σ 2 ) = √ exp − 2
, −∞ < x < ∞.
σ 2π 2σ
Vale que E[X] = µ y V(X) = σ 2 .
2. Familia Gamma, Γ(ν, λ). Decimos que X tiene distribución gamma de parámetros
ν > 0 y λ > 0 cuando la f.d.p. de X está dada por
λν ν−1 −λx
f (x|ν, λ) = x e 1{x ≥ 0},
Γ(ν)
R∞
donde Γ(ν) := 0 xν−1 e−x dx. Vale que E[X] = ν/λ y V(X) = ν/λ2 .
Casos particulares de las familias Gamma son las familias exponenciales Exp(λ) = Γ(1, λ)
y las familias chi cuadrado χ2ν = Γ(ν/2, 1/2).
3. Familia Beta, β(ν1 , ν2 ). Decimos que X tiene distribución beta de parámetros ν1 > 0
y ν2 > 0 cuando la f.d.p. de X está dada por
Γ(ν1 + ν2 ) ν1 −1
f (x|ν1 , ν2 ) = x (1 − x)ν2 −1 1{0 < x < 1}.
Γ(ν1 )Γ(ν2 )
Vale que
ν1 ν1 ν2
E[X] = y V(X) = .
ν1 + ν2 (ν1 + ν2 )2 (ν1 + ν2 + 1)
Notar que cuando los parámetros ν1 y ν2 son números naturales se tiene que

Γ(ν1 + ν2 ) (ν1 + ν2 − 1)! ν1 + ν2 − 2
= = (ν1 + ν2 − 1) . Si ves al futuro, dile que no venga.
Γ(ν1 )Γ(ν2 ) (ν1 − 1)!(ν2 − 1)! ν1 − 1
(Juan José Castelli)
La distribución β(ν1 , ν2 ) se puede obtener como la distribución del cociente X1 /(X1 + X2 )
donde X1 ∼ Γ(ν1 , 1) y X2 ∼ Γ(ν2 , 1).
Notar que β(1, 1) = U(0, 1).
3 1
4. Bibliografı́a consultada 4. Familia Binomial, Binomial(n, p). Decimos que X tiene distribución Binomial de
parámetros n ∈ N y 0 < p < 1 cuando su f.p. está dada por
n
1. Bolfarine, H., Sandoval, M. C.: Introdução à Inferência Estatı́stica. SBM, Rio de Janeiro. f (x|n, p) = (1 − p)n−x px , x = 0, 1, . . . , n.
x
(2001).
Vale que E[X] = np y V(X) = np(1 − p).
2. Borovkov, A. A.: Estadı́stica matemática. Mir, Moscú. (1984).
3. Cramer, H.: Métodos matemáticos de estadı́stica. Aguilar, Madrid. (1970). 5. Familia Pascal, Pascal(n, p). Decimos que X tiene distribución Pascal de parámetros
n ∈ N y 0 < p < 1 cuando su f.p. está dada por
4. Hoel P. G.: Introducción a la estadı́stica matemática. Ariel, Barcelona. (1980).
x−1 n
5. Maronna R.: Probabilidad y Estadı́stica Elementales para Estudiantes de Ciencias. Ed- f (x|n, p) = p (1 − p)x−n , x = n, n + 1, . . . .
n−1
itorial Exacta, La Plata. (1995).
Vale que E[X] = n/p y V(X) = n(1 − p)/p2 .
6. Familia Poisson, Poisson(λ). Decimos que X tiene distribución Poisson de parámetro

λ > 0 cuando su f.p. está dada por
λx
f (x|λ) = e−λ , x = 0, 1, . . . .
x!
Vale que E[X] = λ y V(X) = λ.
2. Estimadores
El punto de partida de la investigación estadı́stica está constituido por una muestra
aleatoria, X = (X1 , . . . , Xn ), de la distribución desconocida F perteneciente a una familia
paramétrica de distribuciones F = {Fθ : θ ∈ Θ}1 . Como las distribuciones de la familia F
son distinguibles lo que se quiere saber es cuál es el parámetro θ ∈ Θ que corresponde a la
distribución F . En otras palabras, se quiere hallar θ ∈ Θ tal que F = Fθ .
Formalmente, “cualquier” función, θ̂ := θ̂(X), de la muestra aleatoria X que no depende
de parámetros desconocidos se denomina una estadı́stica.
Ejemplo 2.1. Sea X = (X1 , . . . , Xn ) una muestra aleatoria de la variable aleatoria X con
función de distribución Fθ . Ejemplos de estadı́sticas son
(i) X(1) = mı́n(X1 , . . . , Xn ),
(ii) X(n) = máx(X1 , . . . , Xn ),
(iii) X̄ = n1 ni=1 Xi ,
P
(iv) σ̂ 2 = n1 ni=1 (Xi − X̄)2 .

P
1
Notación. Si F es una familia de distribuciones Fθ con “densidades” f (x|θ), θ ∈ Θ, escribimos
Z Z
Pθ (X ∈ A) = f (x|θ)dx y Eθ [r(X)] = r(x)f (x|θ)dx
A
El subı́ndice θ indica que la probabilidad o la esperanza es con respecto a f (x|θ). Similarmente, escribimos Vθ
para la varianza.
23 4
En (i) y (ii), mı́n(·) y máx(·) denotan, respectivamente, el mı́nimo y el máximo muestrales 3.4. Principio de invariancia
observados. Por otro lado, X̄ y σ̂ 2 denotan, respectivamente, la media y la varianza muestrales.
En lo que sigue presentamos una propiedad bastante importante del método de máxima
verosimilitud.
Cualquier estadı́stica que asuma valores en el conjunto paramétrico Θ de la familia de
Teorema 3.18 (Principio de invariancia). Sea X1 , . . . , Xn una muestra aleatoria de una
distribuciones F se denomina un estimador puntual para θ. El adjetivo puntual está puesto
variable aleatoria X cuya distribución pertenece a la familia paramétrica F = {Fθ : θ ∈ Θ}.
para distinguirla de las estimaciones por intervalo que veremos más adelante.
Sea g : Θ → Λ una función biunı́voca de Θ sobre Λ. Si θ̂ es un estimador de máxima
En muchas situaciones lo que interesa es estimar una función g(θ). Por ejemplo, cuando verosimilitud para θ, entonces g(θ̂) es un estimador de máxima verosimilitud para λ = g(θ).
se considera una muestra aleatoria X de una variable X ∼ N (µ, σ 2 ) donde µ y σ 2 son
desconocidos entonces θ = (µ, σ 2 ) y el conjunto de parámetros es Θ = {(µ, σ 2 ) : µ ∈ R y σ 2 > Demostración. Como λ = g(θ) es una función biunı́voca de Θ sobre Λ, la función de
0}. Si el objetivo es estimar solamente µ, entonces g(θ) = µ. verosimilitud L(θ|x) se puede expresar en función de λ ya que θ = g −1 (λ). Denominemos a
la función de verosimilitud, como función de λ, por L∗ (λ|x). Es claro que
Definición 2.2. Cualquier estadı́stica que solamente asuma valores en el conjunto de los
posibles valores de g(θ) es un estimador para g(θ). L∗ (λ|x) = L(g −1 (λ)|x).
Uno de los grandes problemas de la estadı́stica es construir estimadores razonables para
Sea θ̂mv ∈ Θ un estimador de máxima verosimilitud para θ y sea λ̂ := g(θ̂mv ) ∈ Λ su imagen
el parámetro desconocido θ o para una función g(θ). Existen diversos métodos para elegir
por g. Hay que mostrar que vale lo siguiente:
entre todos los estimadores posibles de θ. Cada elección particular del estimador depende de
ciertas propiedades que se consideran “deseables” para la estimación. L∗ (λ̂|x) = máx L∗ (λ|x)
λ∈Λ
2.1. Error cuadrático medio, sesgo y varianza Pero esto es inmediato, debido a que
Uno de los procedimientos más usados para evaluar el desempeño de un estimador es ˆ
L∗ (λ̂|x) = L(g −1 (λ)|x) = L(θ̂mv |x) = máx L(θ|x) = máx L(g −1 (λ)|x)
considerar su error cuadrático medio. Esta noción permite precisar el sentido que se le otorga θ∈Θ λ∈Λ
a los enunciados del tipo “el estimador puntual θ̂ = θ̂(X) está próximo de θ”. = máx L∗ (λ|x).
λ∈Λ
Definición 2.3 (Error cuadrático medio). El error cuadrático medio (ECM) de un estimador
Por lo tanto,
θ̂ para el parámetro θ se define por
g(θ)
d
mv = g(θ̂mv ).
h i
ECM(θ̂) = Eθ (θ̂ − θ)2 . (1)
El ECM se puede descomponer de la siguiente manera2 Ejemplo 3.19. Sea X1 , . . . , Xn una muestra aleatoria de la variable aleatoria X ∼ N (µ, 1).
h i En el Ejemplo 3.8 vimos que µ̂mv = X̄ es el estimador de máxima verosimilitud para µ.
Eθ (θ̂ − θ)2 = Vθ (θ̂) + B2θ (θ̂), (2) Queremos estimar
g(µ) = Pµ (X ≤ 0) = Φ(−µ).
donde Bθ (θ̂) := Eθ [θ̂] − θ es el llamado sesgo del estimador. El primer término de la descom- Por el principio de invariancia, tenemos que
posición (2) describe la “variabilidad” del estimador, y el segundo el “error sistemático”: Eθ [θ̂]
describe alrededor de qué valor fluctúa θ̂ y Vθ (θ̂) mide cuánto fluctúa. g(µ̂mv ) = Φ(−X̄)
2
La descomposición (2) se obtiene escribiendo θ̂ − θ en la forma (θ̂ − Eθ [θ̂]) + (Eθ [θ̂] − θ). Desarrollando es el estimador de máxima verosimilitud para Pµ (X ≤ 0).
“ ”2
cuadrados obtenemos (θ̂ − θ)2 = (θ̂ − Eθ [θ̂])2 + 2(θ̂ − Eθ [θ̂])(Eθ [θ̂] − θ) + Eθ [θ̂] − θ . El resultado se obtiene
observando que la esperanza Eθ de los términos cruzados (θ̂ − Eθ [θ̂])(Eθ [θ̂] − θ) es igual a 0: Nota Bene En general, si λ = g(θ), aunque g no sea biunı́voca, se define el estimador de
h i » “ ”2 – máxima verosimilitud de λ por
Eθ (θ̂ − θ)2 = Eθ (θ̂ − Eθ [θ̂])2 + 2(θ̂ − Eθ [θ̂])(Eθ [θ̂] − θ) + Eθ [θ̂] − θ λ̂ = g(θ̂mv ).
h i “ ”2
= Eθ (θ̂ − Eθ [θ̂])2 + 0 + Eθ [θ̂] − θ = Vθ (θ̂) + B2θ (θ̂).
5 22
Ejemplo 3.16 (Distribución uniforme). La familia {U(0, θ) : θ > 0} de distribuciones uni- Definición 2.4 (Estimadores insesgados). Diremos que un estimador θ̂ es insesgado para el
formes no es una familia regular debido a que el soporte de la densidad de la distribución parámetro θ si
U(0, θ) es [0, θ] (y depende claramente del valor del parámetro θ). En esta situación tampoco Eθ [θ̂] = θ.
puede utilizarse la metodologı́a del Lema 3.5. En este caso Θ = (0, ∞) y las funciones de
para todo θ ∈ Θ, o sea Bθ (θ̂) ≡ 0. Si lı́mn→∞ Bθ [θ̂] = 0 para todo θ ∈ Θ, diremos que el
densidad son de la forma
1 estimador θ̂ es asintóticamente insesgado para θ.
f (x|θ) = 1{0 ≤ x ≤ θ}.
θ
La función de verosimilitud es Nota Bene. En el caso en que θ̂ es un estimador insesgado para θ, tenemos que
n n
Y 1 1 Y
L(θ|x) = 1{0 ≤ xi ≤ θ} = n 1{0 ≤ xi ≤ θ} ECM(θ̂) = Vθ (θ̂),
θ θ
i=1 i=1
o sea, el error cuadrático medio de θ̂ se reduce a su varianza.

1
= 1 máx xi ≤ θ .
θn i=1,...,n
Nota Bene. Una consecuencia destacable de la descomposición (2) para grandes muestras
Si θ < máxi xi , entonces L(θ|x) = 0. Si θ ≥ máxi xi , entonces L(θ|x) = θ−n , una función
(n >> 1) es la siguiente: si a medida que se aumenta el volumen de la muestra, el sesgo y la
decreciente en θ. En consecuencia, su máximo se alcanza en
varianza del estimador θ̂ tienden a cero, entonces, el estimador θ̂ converge en media cuadrática
θ = máx xi . al verdadero valor del parámetro θ.
i=1,...,n
Por lo tanto, el estimador de máxima verosimilitud para θ, basado en una muestra aleatoria Ejemplo 2.5 (Estimación de media). Sea F = {Fθ : θ ∈ Θ} una familia de distribuciones.
X = (X1 , . . . , Xn ) de una variable aleatoria X ∼ U(0, θ), es el máximo de la muestra Para cada θ ∈ Θ designemos mediante µ(θ) y σ 2 (θ) la media y la varianza correspondientes a
θ̂mv (X) = X(n) := máx Xi . la distribución Fθ , respectivamente. Sea X = (X1 , . . . , Xn ) una muestra aleatoria de alguna
i=1,...,n distribución perteneciente a F. Denotemos mediante X̄ el promedio de la muestra:
n
1X
Ejemplo 3.17 (Distribución uniforme). La familia {U(θ − 1/2, θ + 1/2) : θ ∈ R} de dis- X̄ = Xi .
tribuciones uniformes no es una familia regular debido a que el soporte de la densidad de n
i=1
la distribución U(θ − 1/2, θ + 1/2) es [θ − 1/2, θ + 1/2] (y depende claramente del valor del
parámetro θ). En este caso Θ = R y las funciones de densidad son de la forma En lo que sigue vamos a suponer que para cada θ ∈ Θ, µ(θ) ∈ R y σ 2 (θ) < ∞. Si la muestra
aleatoria proviene de la distribución Fθ , tenemos que
f (x|θ) = 1{θ − 1/2 ≤ x ≤ θ + 1/2}.
" n # n
La función de verosimilitud es 1X 1X
Eθ X̄ = Eθ Xi = Eθ [Xi ] = µ(θ).
n n n
i=1 i=1
Y
L(θ|x) = 1{θ − 1/2 ≤ xi ≤ θ + 1/2}
i=1 Por lo tanto X̄ es un estimador insesgado para µ(θ) y su error cuadrático medio al estimar

= 1 máx xi − 1/2 ≤ θ ≤ mı́n xi + 1/2 µ(θ) es
i=1,...,n i=1,...,n
n n
!
1X 1 X 1

= 1 x(n) − 1/2 ≤ θ ≤ x(1) + 1/2 ,
Vθ [Xi ] = σ 2 (θ).

ECM(X̄) = Vθ X̄ = Vθ Xi = 2
n n n
pues i=1 i=1
θ − 1/2 ≤ xi ≤ θ + 1/2, i = 1, . . . , n,
si y solamente si
Ejemplo 2.6 (Estimación de varianza). Sea F = {Fθ : θ ∈ Θ} una familia de distribuciones.
θ ≤ xi + 1/2 y xi − 1/2 ≤ θ, i = 1, . . . , n,
Para cada θ ∈ Θ designemos mediante µ(θ) y σ 2 (θ) la media y la varianza correspondientes
Como L(θ|x) se anula para θ < x(n) y para θ > x(1) + 1/2 y es constantemente 1 en el a la distribución Fθ , respectivamente, a las que supondremos finitas. Sea X1 , . . . , Xn una
intervalo [x(n) − 1/2, x(1) + 1/2], tenemos que cualquier punto de ese intervalo es un estimador muestra aleatoria de alguna distribución perteneciente a F. Sean X̄ y σ̂ 2 la media y la
de máxima verosimilitud para θ. En particular, varianza muestrales definidas en el Ejemplo 2.1:
x(1) + x(n) n n
θ̂(x) = 1X 1X
2 X̄ := Xi y σ̂ 2 := (Xi − X̄)2 .
es un estimador de máxima verosimilitud para θ. Etc... n n
i=1 i=1
21 6
Para analizar el sesgo de la varianza muestral conviene descomponerla de la siguiente manera: Ejemplo 3.14 (Continuación del Ejemplo 3.13). Para resolver la ecuación (36) usaremos el
n
procedimiento de Newton-Raphson aplicado a la función
1 X
σ̂ 2 = (Xi − µ(θ))2 − (X̄ − µ(θ))2 , (3) n n
n n X X β
i=1 g(β) = + log ti − ti log ti .
β
i=1 i=1
cualquiera sea θ ∈ Θ. 3 Si la muestra aleatoria, X1 , . . . , Xn , proviene de la distribución Fθ , al
tomar esperanzas en ambos lados de (3) se obtiene Como
n
1
n n X β
g ′ (β) = − − ti (log ti )2 ,
X
Eθ [σ̂ 2 ] = Eθ (Xi − µ(θ))2 − Eθ (X̄ − µ(θ))2

n β2
i=1
i=1
n
1X el procedimiento iterativo (39) adopta la forma
= Vθ (Xi ) − Vθ (X̄). (4)
n
i=1 n Pn Pn β
β + i=1 log ti − i=1 ti log ti
βj+1 = βj + . (40)
Según el Ejemplo 2.5 X̄ es un estimador insesgado para la media µ(θ) y su varianza vale n
+
Pn β
t (log ti )2
β 2 i=1 i
Vθ (X̄) = n1 σ 2 (θ), en consecuencia,
n
Generando una muestra aleatoria de tamaño n = 20 de una variable aleatoria T con
2 1X 1 n−1 2 densidad dada por (35) con β = 2 e inicializando el procedimiento iterativo (40) con β1 = T̄
Eθ [σ̂ ] = Vθ (Xi ) − Vθ (X̄) = σ 2 (θ) − σ 2 (θ) = σ (θ). (5)
n n n obtuvimos que β̂mv = 2.3674.
i=1
Generando una muestra aleatoria de tamaño n = 10000 de una variable aleatoria T con
Esto demuestra que σ̂ 2 no es un estimador insesgado para la varianza σ 2 (θ). La identidad densidad dada por (35) con β = 2 e inicializando el procedimiento iterativo (40) con β1 = T̄
Eθ [σ̂ 2 ] = n−1 2
n σ (θ) significa que si tomamos repetidas muestras de tamaño n y se promedian obtuvimos que β̂mv = 1.9969.
las varianzas muestrales resultantes, el promedio no se aproximará a la verdadera varianza,
sino que de modo sistemático el valor será más pequeño debido al factor (n − 1)/n. Este factor 3.3. Cálculo del emv para familias no regulares
adquiere importancia en las muestras pequeñas. Si n → ∞, el factor (n − 1)/n → 1 lo que
demuestra que σ̂ 2 es un estimador asintóticamente insesgado para la varianza σ 2 (θ). Venı́a rápido, muy rápido y se le soltó un patı́n ...
n
Para eliminar el sesgo en σ̂ 2 , basta multiplicar σ̂ 2 por n−1 . De (5) sigue que
Ahora mostraremos algunos ejemplos correspondientes a familias no regulares. En estos
n casos hay que analizar dónde se realiza el máximo “a mano”.
n 1 X
S 2 := σ̂ 2 = (Xi − X̄)2 (6)
n−1 n−1 Ejemplo 3.15 (Distribuciones de Bernoulli con parámetros discretos). Supongamos que los
i=1
valores observados en la secuencia (29) que aparece en el Ejemplo 3.7 fueron arrojados por una
es un estimador insesgado para la varianza. muestra aleatoria de tamaño n = 20 de una variable aleatoria X con distribución Bernoulli(p),
donde p = 0.45 o p = 0.65. La familia de distribuciones no es regular debido a que el espacio
2.2. Comparación de estimadores paramétrico {0.45, 0.65} no es abierto. En esta situación no puede utilizarse la metodologı́a
del Lema 3.5 pues conduce a resultados totalmente disparatados. Lo único que se puede hacer
El error cuadrático medio puede usarse para comparar estimadores. Diremos que θ̂1 es
es comparar los valores L(0.45|x), L(0.65|x) y quedarse con el valor de p ∈ {0.45, 0.65} que
mejor que θ̂2 si
haga máxima la probabilidad de observar el resultado x:
ECM(θ̂1 ) ≤ ECM(θ̂2 ), (7)
L(0.45|x) = (0.45)11 (0.55)9 = (7.0567...)10−7
para todo θ, con desigualdad estricta para al menos un valor de θ. En tal caso, el estimador θ̂2 L(0.65|x) = (0.65)11 (0.35)9 = (6.8969...)10−7 .
se dice inadmisible. Si existe un estimador θ̂∗ tal que para todo estimador θ̂ de θ con θ̂ 6= θ̂∗
Por lo tanto, el estimador de máxima verosimilitud, basado en las observaciones (29), será
ECM(θ̂∗ ) ≤ ECM(θ̂), (8)
p̂mv (0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0) = 0.45.
3
La descomposición (3) se obtiene haciendo lo siguiente. Para cada i escribimos (Xi − X̄) en la forma
(Xi − µ(θ)) − (X̄ − µ(θ)). Desarrollando cuadrados obtenemos (Xi − X̄)2 = (Xi − µ(θ))2 + (X̄ − µ(θ))2 −
2(Xi − µ(θ))(X̄ − µ(θ)). El resultado se obtiene observando que el promedio de los términos cruzados (Xi −
µ(θ))(X̄ − µ(θ)) es igual a (X̄ − µ(θ))2 . (Hacer la cuenta y verificarlo! )
7 20
3.2.2. Malas noticias! para todo θ, con desigualdad estricta para al menos un valor de θ, entonces θ̂∗ se dice óptimo.
Cuando la comparación se restringe a los estimadores son insesgados, el estimador óptimo,
“Esta calle es más angosta de lo que pensás”.
θ̂∗ , se dice el estimador insesgado de varianza uniformemente mı́nima. Esta denominación
(Proverbio Zen)
resulta de observar que estimadores insesgados la relación (8) adopta la forma
Ejemplo 3.13 (Fiabilidad). Sea T1 , . . . , Tn una muestra aleatoria del tiempo de duración sin
Vθ (θ̂∗ ) ≤ Vθ (θ̂),
fallas de una máquina cuya función intensidad de fallas es λ(t) = βtβ−1 1{t > 0}, donde el
parámetro de “desgaste” β > 0 es desconocido. La densidad de cada tiempo T es para todo θ, con desigualdad estricta para al menos un valor de θ.
−tβ Ejemplo 2.7. Sean X1 , X2 , X3 una muestra aleatoria de una variable aleatoria X tal que
f (t|β) = βtβ−1 e 1{t > 0} (35)
Eθ [X] = θ y Vθ (X) = 1. Consideremos los estimadores
Observando que
X1 + X2 + X3 1 1 1
X̄ = y θ̂ = X1 + X2 + X3 .
log f (t|β) = log β + (β − 1) log t − tβ 3 2 4 4
Según el Ejemplo 2.5 Eθ [X̄] = θ y Vθ (X̄) = 31 . Tenemos también que
y derivando respecto de β se obtiene
1 1 1 1 1 1
∂ log f (x|β) 1 Eθ [θ̂] = Eθ [X1 ] + Eθ [X2 ] + Eθ [X3 ] = θ + θ + θ = θ
= + log t − tβ log t. 2 4 4 2 4 4
∂β β
y
Por lo tanto, la ecuación de verosimilitud (24) adopta la forma 1 1 1 1 1 1 6
Vθ (θ̂) = Vθ (X1 ) + Vθ (X2 ) + Vθ (X3 ) = + + = .
n n
4 16 16 4 16 16 16
n X X β
Como X̄ y θ̂ son insesgados, resulta que X̄ es mejor que θ̂, pues Vθ (X̄) < Vθ (θ̂) para todo θ.
+ log ti − ti log ti = 0 (36)
β
i=1 i=1
La mala noticia es que la ecuación (36) no tiene una solución analı́tica explı́cita. Ejemplo 2.8. Sea X1 , . . . , Xn una muestra aleatoria de una variable aleatoria X ∼ U(0, θ).
Vamos a considerar θ̂1 = 2X̄ y θ̂2 = X(n) como estimadores para θ y estudiaremos su com-
El ejemplo anterior muestra que en algunos casos la ecuación de verosimilitud no presenta portamiento. Como Eθ [X] = θ/2 y Vθ (X) = θ2 /12, tenemos que
solución analı́tica explı́cita. En tales casos, los estimadores de máxima verosimilitud pueden
obtenerse mediante métodos numéricos. θ2
Eθ [θ̂1 ] = Eθ [2X̄] = θ y Vθ (θ̂1 ) = . (9)
3n
Método de Newton-Raphson. El método de Newton-Raphson es un procedimiento it- Por lo tanto, θ̂1 es un estimador insesgado para θ. En consecuencia,
erativo para obtener una raı́z de una ecuación
θ2
ECM(θ̂1 ) = Vθ (θ̂1 ) = . (10)
g(θ) = 0, (37) 3n
nxn−1
donde g(·) es una función suave. La idea es la siguiente: supongamos que θ es una raı́z de la Por otro lado, la función densidad de X(n) está dada por fθ (x) = θn 1{0 < x < θ}, de
ecuación (37). Desarrollando g(·) en serie de Taylor en torno de un punto θ0 , obtenemos que donde se deduce que
g(θ) ≈ g(θ0 ) + (θ − θ0 )g ′ (θ0 ). n nθ2

Eθ [X(n) ] = θ y Vθ (X(n) ) = . (11)
n+1 (n + 1)2 (n + 2)
En consecuencia, si θ0 está cerca de una raı́z θ de la ecuación (37), deberı́a ocurrir lo siguiente
Por lo tanto, θ̂2 es un estimador asintóticamente insesgado para θ. Combinando las identidades
g(θ0 ) (11) en (2), obtenemos
θ ≈ θ0 − . (38)
g ′ (θ0 ) 2
nθ2

n
De la ecuación (38) obtenemos el procedimiento iterativo ECM(θ̂2 ) = Vθ (θ̂2 ) + B2θ (θ̂2 ) = 2
+ θ−θ
(n + 1) (n + 2) n+1
g(θj ) nθ2 θ2 2θ2
θj+1 = θj − (39) = + = . (12)
g ′ (θj ) (n + 1)2 (n + 2) (n + 1)2 (n + 1)(n + 2)
que se inicia con un valor θ0 y produce un nuevo valor θ1 a partir de (39) y ası́ siguiendo, Es fácil, pero tedioso, ver que ECM(θ̂2 ) < ECM(θ̂1 ) para todo θ y todo n. Por lo tanto, X(n)
hasta que el proceso se estabilice, o sea, hasta que |θj+1 − θj | < ǫ para un ǫ > 0 “pequeño” y es mejor que 2X̄ para todo θ y todo n.
prefijado.
19 8
2.3. Consistencia Ejemplo 3.11 (Distribuciones exponenciales). Sea X una variable aleatoria con distribución
Exponencial(λ), λ > 0. Podemos escribir
Lo mı́nimo que se le puede exigir a un estimador puntual, θ̂(X1 , . . . , Xn ), es que, en
algún sentido, se aproxime al verdadero valor del parámetro cuando el volumen de la muestra f (x|λ) = λe−λx = e−λx+log λ
aumenta. En otras palabras, si θ ∈ Θ es tal que F = Fθ y X1 , X2 , . . . es una sucesión Por lo tanto, la distribución de X pertenece a una familia exponencial unidimensional con
de variables aleatorias independientes cada una con distribución F , en algún sentido, debe a(λ) = −λ, b(λ) = log λ, T (x) = x, S(x) = 0 y S = (0, ∞). La ecuación de verosimilitud (32)
ocurrir que adopta la forma
θ̂(X1 , . . . , Xn ) → θ, n
1 1X
cuando n → ∞. = xi = x̄ (33)
λ n
Por ejemplo, es deseable que el estimador θ̂ tenga la siguiente propiedad, llamada consis- i=1
tencia débil : para cada ǫ > 0 debe cumplir que cuya solución es λ = 1/x̄. Se puede verificar que el valor de λ ası́ obtenido maximiza el
logaritmo de la verosimilitud.
lı́m Pθ (|θ̂(X1 , . . . , Xn ) − θ| > ǫ) = 0. (13) Si la muestra aleatoria X = (X1 , . . . , Xn ) arrojó los valores x = (x1 , . . . , xn ), el estimador
n→∞
de máxima verosimilitud para λ es
Más exigente, es pedirle que tenga la siguiente propiedad, llamada consistencia fuerte:
λ̂mv (x) = (x̄)−1 .
Pθ lı́m θ̂(X1 , . . . , Xn ) = θ = 1. (14) Por lo tanto, el estimador de máxima verosimilitud para λ, basado en una muestra aleatoria
n→∞
X = (X1 , . . . , Xn ) de variables con distribución Exponencial(λ), es
Normalidad asintótica. También se le puede pedir una propiedad similar a la del teorema n
!−1
1X
central lı́mite, llamada normalidad asintótica: existe σ = σ(θ) > 0 tal que λ̂mv (X) = Xi .
n
√ ! Z i=1
x
n(θ̂(X1 , . . . , Xn ) − θ) 1 2
lı́m Pθ ≤x = √ e−t /2 dt (15)
n→∞ σ −∞ 2π Ejemplo 3.12 (Distribuciones normales con media conocida). Sea X una variable aleatoria
con distribución normal N (µ, σ 2 ), donde la media µ es conocida y la varianza σ 2 > 0. Podemos
Nota Bene. Los problemas de consistencia y normalidad asintótica están relacionados con escribir
las leyes de los grandes números y el teorema central de lı́mite. El siguiente ejemplo muestra 1 (x−µ)2 1 2 1 2
√
dicha relación para el caso en que se quiere estimar la media de una distribución. f (x|σ 2 ) = √ e− 2σ2 = e− 2σ2 (x−µ) − 2 log σ −log 2π
2πσ
Ejemplo 2.9 (Estimación de media). Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una Por lo tanto, la distribución de X pertenece a una familia exponencial √ unidimensional con
variable aleatoria cuya distribución pertenece a una familia F = {Fθ : θ ∈ Θ}. Sean µ(θ) y a(σ 2 ) = − 2σ1 2 , b(σ 2 ) = − 21 log σ 2 , T (x) = (x − µ)2 , S(x) = − log 2π y S = R. La ecuación
σ 2 (θ) la media y la varianza correspondientes a la distribución Fθ , respectivamente. Aplicando de verosimilitud (32) adopta la forma
la desigualdad de Chebychev a X̄ se obtiene que para cada ǫ > 0 n
1/2σ 2 1X
= (xi − µ)2 (34)
1 σ 2 (θ) 1/2(σ 2 )2 n

Vθ (X̄) i=1
Pθ X̄ − µ(θ) > ǫ ≤ 2
= 2
→ 0,
ǫ n ǫ
cuya solución es σ 2 = n1 ni=1 (xi − µ)2 . Se puede verificar que el valor de σ 2 ası́ obtenido
P
cuando n → ∞. maximiza el logaritmo de la verosimilitud.

Hasta aquı́, lo único que hicimos es volver a demostrar la ley débil de los grandes números. Si la muestra aleatoria X = (X1 , . . . , Xn ) arrojó los valores x = (x1 , . . . , xn ), el estimador
Lo que queremos subrayar es que en el contexto de la estimación de parámetros, la ley débil de de máxima verosimilitud para σ 2 es
los grandes números significa que el promedio de la muestra, X̄, es un estimador débilmente n
c2 mv (x) = 1
X
consistente para la la media de la distribución, µ(θ). σ (xi − µ)2 .
n
La consistencia fuerte del promedio, como estimador para la media es equivalente a la i=1
Ley fuerte de los grandes números que afirma que: Si X1 , X2 , . . . es una sucesión de variables Por lo tanto, el estimador de máxima verosimilitud para σ 2 , basado en una muestra aleatoria
aleatorias independientes e idénticamente distribuidas y si existe E[Xi ] = µ, entonces X = (X1 , . . . , Xn ) de variables con distribución N (µ, σ 2 ), es
n
c2 mv (X) = 1
X
P lı́m X̄ = µ = 1. σ (Xi − µ)2 .
n→∞ n
i=1
La normalidad asintótica es equivalente al teorema central del lı́mite.
9 18
Se puede comprobar que en ese punto de coordenadas (µ, σ 2 ) se alcanza el máximo absoluto Nota Bene. De todas las propiedades de convergencia la consistencia débil es la mas simple,
de la función log L(µ, σ 2 |x). en el sentido de que puede establecerse con unas pocas herramientas técnicas. Para verificar
Resumiendo, cuando la muestra aleatoria X = (X1 , . . . , Xn ) arroja los valores x = la consistencia débil del promedio para estimar la media solamente usamos la desigualdad
(x1 , . . . , xn ), el estimador de máxima verosimilitud para (µ, σ 2 ) es el punto del conjun- de Chebychev y las propiedades de la media y la varianza. El razonamiento utilizado en el
to paramétrico R × (0, ∞) cuyas coordenadas son el promedio y la varianza muestrales: Ejemplo 2.9 se puede extender un poco más allá.
µ̂mv (x) = n1 ni=1 xi = x̄ y σ c2 mv (x) = 1 Pn (xi − x̄)2 .
P
n i=1 Teorema 2.10. Sea θ̂ un estimador de θ basado en una muestra aleatoria de volumen n. Si θ̂
Por lo tanto, el estimador de máxima verosimilitud para (µ, σ 2 ), basado en una muestra
es asintóticamente insesgado y su varianza tiende a cero, entonces θ̂ es débilmente consistente.
aleatoria X = (X1 , . . . , Xn ) de variables normales, N (µ, σ 2 ), es el punto en R × (0, ∞) de
coordenadas aleatorias
Demostración. El resultado se obtiene usando la desigualdad de Chebychev y la identidad
n
c2 mv (X) = 1 (2):
X
µ̂mv (X) = X̄, σ (Xi − X̄)2 . (30)
n
i=1 1 h i 1
Pθ θ̂ − θ > ǫ ≤ 2 Eθ (θ̂ − θ)2 = 2 Vθ (θ̂) + B2θ (θ̂) → 0.

ǫ ǫ
3.2.1. Familias exponenciales

Muchos modelos estadı́sticos pueden considerarse como casos particulares de una familia 3. Método de máxima verosimilitud
más general de distribuciones.
El método de máxima verosimilitud es un “método universal” para construir estimadores
Definición 3.10 (Familias exponenciales). Decimos que la distribución de una variable puntuales. Su base intuitiva es la siguiente: si al realizar un experimento aleatorio se observa
aleatoria X pertenece a una familia exponencial unidimensional de distribuciones, si podemos un resultado, este debe tener alta probabilidad de ocurrir.
escribir su función de probabilidad o su función densidad como Para hacer más precisa esa base intuitiva consideremos una muestra aleatoria, X =
f (x|θ) = ea(θ)T (x)+b(θ)+S(x) , x ∈ S, (31) (X1 , . . . , Xn ), de una variable aleatoria discreta X con función de probabilidad f (x|θ), θ ∈
Θ, donde Θ es el espacio paramétrico. La probabilidad de observar los resultados X1 =
donde, a y b son funciones de θ; T y S son funciones de x y S no depende de θ. x1 , . . . , Xn = xn se calcula del siguiente modo:
n
Y n
Y
Nota Bene. Si las funciones a y b son derivables y el espacio paramétrico Θ es abierto, Pθ (X1 = x1 , . . . , Xn = xn ) = Pθ (Xi = xi ) = f (xi |θ). (16)
las densidades (31) constituyen una familia regular uniparamétrica y en consecuencia, para i=1 i=1
encontrar el estimador de máxima verosimilitud de θ, basado en una muestra aleatoria X =
(X1 , . . . , Xn ), se puede usar el resultado del Lema 3.5. Si los resultados observables deben tener una alta probabilidad de ocurrir y observamos que
Debido a que el logaritmo de la densidad (31) es X1 = x1 , . . . , Xn = xn , entonces lo razonable serı́a elegir entre todos los parámetros posibles,
θ ∈ Θ, aquél (o aquellos) que maximicen (16). En consecuencia, Q se podrı́a estimar θ como el
log f (x|θ) = a(θ)T (x) + b(θ) + S(x) valor (o los valores) de θ que hace máxima la probabilidad ni=1 f (xi |θ).
tenemos que 3.1. Estimador de máxima verosimilitud (emv)

∂ log f (x|θ) Definición 3.1 (EMV). Sea X una variable aleatoria cuya distribución pertenece a la familia
ψ(θ|x) = = a′ (θ)T (x) + b′ (θ)
∂θ paramétrica F = {Fθ : θ ∈ Θ}. Un estimador de máxima verosimilitud de θ, basado en los
y en consecuencia, la ecuación de verosimilitud (24) adopta la forma valores x = (x1 , . . . , xn ) de una muestra aleatoria X = (X1 , . . . , Xn ), es un valor θ̂mv ∈ Θ que
maximiza la función de verosimilitud
n
X
n
a′ (θ) T (xi ) + nb′ (θ) = 0. Y
i=1 L(θ|x) := f (xi |θ), (17)
i=1
Por lo tanto, el estimador de máxima verosimilitud para θ satisface la ecuación
donde, dependiendo de la naturaleza de las distribuciones de la familia F, f (x|θ) es la función
n
−b′ (θ) 1X de probabilidad o la función densidad de probabilidades de X.
′
= T (xi ). (32)
a (θ) n
i=1
17 10
Sobre la notación. Para destacar que el valor del estimador de máxima verosimilitud Usando el resultado del Lema 3.5 se puede ver que el estimador de máxima verosimilitud para
depende de los valores observados, x = (x1 , . . . , xn ), en lugar de θ̂mv escribiremos θ̂mv (x): θ es
n
θ̂mv = θ̂mv (x) := arg máx L(θ|x). (18) 1X
θ∈Θ
θ̂mv (X) = Xi = X̄.
n
i=1
Ejemplo 3.2. Supongamos que tenemos una moneda que puede ser equilibrada o totalmente
En efecto, como
cargada para que salga cara. Lanzamos la moneda n veces y registramos la sucesión de caras
y cecas. Con esa información queremos estimar qué clase de moneda tenemos. ∂ log f (x|θ) x−θ
ψ(θ|x) = =
Cada lanzamiento de la moneda se modela con una variable aleatoria X con distribución ∂θ σ2
Bernoulli(θ), donde θ es la probabilidad de que la moneda salga cara. El espacio paramétrico la ecuación de verosimilitud (24) equivale a
es el conjunto Θ = {1/2, 1}.
n
El estimador de máxima verosimilitud para θ, basado en los valores x = (x1 , . . . , xn ) de X
(xi − θ) = 0.
una muestra aleatoria X = (X1 , . . . , Xn ) de la variable X, es el valor de θ̂mv (x) ∈ Θ = {1/2, 1}
i=1
que maximiza la función de verosimilitud L(θ|x). Para encontrarlo comparamos los valores
de la función de verosimilitud L(1/2|x) y L(1|x): El resultado se obtiene despejando θ.
n
( n ) Ejemplo 3.9 (Distribuciones normales). La familia de distribuciones normales
Y X
n
L(1/2|x) = f (xi |1/2) = (1/2) , L(1|x) = 1 xi = n . {N (µ, σ 2 ) : µ ∈ R, σ 2 > 0}
i=1 i=1
es una familia regular con parámetro bidimensional θ = (µ, σ 2 ) ∈ Θ = R × (0, ∞). Para
En consecuencia, el estimador de máxima verosimilitud para θ, basado en los valores x =
encontrar el estimador de máxima verosimilitud del parámetro (µ, σ 2 ) basado en una muestra
(x1 , . . . , xn ) de una muestra aleatoria X = (X1 , . . . , Xn ) es
aleatoria X = (X1 , . . . , Xn ) usaremos los resultados del Lema 3.5. La densidad de cada
variable X es
( n ) ( n )
1 X X
− 1

(x − µ)2

θ̂mv (x) = 1 xi < n + 1 xi = n . 1
f (x|µ, σ 2 ) = (2π)− 2 σ 2 2 exp −
2 2σ 2
i=1 i=1
Por lo tanto, el estimador de máxima verosimilitud para θ basado en una muestra aleatoria con lo cual
1 1 (x − µ)2
X = (X1 , . . . , Xn ) es log f (x|µ, σ 2 ) = log(2π)− 2 − log σ 2 − .
2 2σ 2
En consecuencia,
( n ) ( n )
1 X X
θ̂mv (X) = 1 Xi < n + 1 Xi = n . ∂ log f (x|µ, σ 2 ) x−µ
2 =
i=1 i=1 ∂µ σ2
y
Por ejemplo, si en 10 lanzamientos de la moneda se observaron 10 caras, el estimador de
∂ log f (x|µ, σ 2 ) 1 (x − µ)2
máxima verosimilitud para θ es θ̂mv = 1; en cambio si se observaron 8 caras y 2 cecas, el =− 2 + .
∂σ 2 2σ 2(σ 2 )2
estimador de máxima verosimilitud es θ̂mv = 1/2.
Luego el sistema de ecuaciones (22) se transforma en el sistema

Ejemplo 3.3. Sea X una variable aleatoria con función densidad dada por n
!
1 X
xi − nµ = 0,
1 σ2
f (x|θ) = (1 + θx)1{x ∈ [−1, 1]}, θ ∈ [−1, 1]. i=1
2 n
!
1 1 X
Supongamos que queremos hallar el estimador de máxima verosimilitud para θ basado en la 2
−n + 2 (xi − µ)2 = 0.
2σ σ
realización de una muestra aleatoria tamaño 1, X1 . Si se observa el valor x1 , la función de i=1
verosimilitud adopta la forma que tiene como solución

1
L(θ|x1 ) = (1 + θx1 ) n
2 1X
µ = xi = x̄,
El gráfico de L(θ|x1 ) es un segmento de recta de pendiente x1 . Como se trata de una recta el n
i=1
máximo se alcanza en alguno de los extremos del intervalo Θ = [−1, 1]: n
2 1X
σ = (xi − x̄)2 .
1. si x1 < 0, el máximo se alcanza en θ = −1, n
i=1
11 16
Por lo tanto, el estimador de máxima verosimilitud para θ, basado en una muestra aleatoria 2. si x1 = 0, el máximo se alcanza en cualquiera de los valores del intervalo Θ,
X = (X1 , . . . , Xn ) de una variable con distribución Bernoulli(θ), es el promedio muestral
3. si x1 > 0, el máximo se alcanza en θ = 1.
n
1X
θ̂mv (X) = Xi . (28) Abusando de la notación tenemos que
n
i=1
θ̂mv (x1 ) = −1{x1 < 0} + Θ1{x1 = 0} + 1{x1 > 0}.
Por lo tanto,
Nota Bene. El estimador de máxima verosimilitud para θ, basado en una muestra aleatoria
X = (X1 , . . . , Xn ), de una variable aleatoria con distribución Bernoulli(θ), θ̂mv (X1 ) = −1{X1 < 0} + Θ1{X1 = 0} + 1{X1 > 0}.
n
1 X
X̄ = Xi ,
n
i=1 Ejemplo 3.4. Sea X una variable aleatoria con función densidad dada por
es una variable aleatoria. Subrayamos este hecho para que no se pierda de vista que los 1
estimadores puntuales son funciones de la muestra aleatoria X = (X1 , . . . , Xn ) y por lo tanto f (x|θ) = (1 + θx)1{x ∈ [−1, 1]}, θ ∈ [−1, 1].
2
son variables aleatorias. En el Ejemplo 3.6, el parámetro θ es la media de la distribución que
produce la muestra y el estimador de máxima verosimilitud para θ es el promedio muestral. Supongamos que una muestra aleatoria de tamaño 2 arrojó los valores 1/2 y 1/4 y con esa
Por lo tanto, θ̂mv es un estimador insesgado, consistente y asintóticamente normal. información queremos hallar el estimador de máxima verosimilitud para θ. La función de
verosimilitud adopta la forma
Nota Bene. Si la muestra aleatoria arrojó los valores 1, 1, . . . , 1, es fácil ver que θ̂mv = 1, 1

1

1

en cambio si arrojó 0, 0, . . . , 0 resulta que θ̂mv = 0. Estos resultados también coinciden con L(θ|1/2, 1/4) = 1+θ 1+θ ,
4 2 4
el promedio de los valores observados. Por lo tanto, el resultado obtenido en (28) se puede
extender al caso en que Θ = [0, 1]. y su gráfico es un segmento de parábola “cóncava” cuyas raı́ces son −4 y −2. Por lo tanto,
θ̂mv (1/2, 1/4) = 1.
Ejemplo 3.7 (Distribuciones de Bernoulli). Bajo el supuesto de que los valores de la secuencia Supongamos ahora que una muestra aleatoria de tamaño 2 arrojó los valores 1/2 y −1/4 y
con esa información queremos hallar el estimador de máxima verosimilitud para θ. La función
0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0. (29)
de verosimilitud adopta la forma
fueron arrojados por una muestra aleatoria de tamaño 20 de una variable aleatoria X ∼ 1

1

1

Bernoulli(θ), el estimador de máxima verosimilitud arrojará como resultado la siguiente esti- L(θ|1/2, −1/3) = 1+θ 1−θ ,
4 2 3
mación para el parámetro θ:
y su gráfico es un segmento de parábola “convexa” cuyas raı́ces son −2 y 3. Por lo tanto,
11
θ̂mv (0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0) = = 0.55 θ̂mv (1/2, −1/3) = 0.5.
20
Con esta estimación podrı́amos decir que la ley que produce esos valores es la distribución de 3.2. Cálculo del emv para familias regulares
Bernoulli (0.55). Por lo tanto, si queremos “reproducir” el generador de números aleatorios
que produjo esos resultados, debemos simular números aleatorios con distribución de Bernoulli Sea F = {Fθ : θ ∈ Θ} una familia paramétrica de distribuciones y sea {f (x|θ) : θ ∈ Θ}
de parámetro 0.55. la familia de funciones de densidad (o de probabilidad) asociada. Diremos que la familia F
es regular si satisface las siguientes condiciones:
Ejemplo 3.8 (Distribuciones normales con varianza conocida). Sea X = (X1 , . . . , Xn ) una
muestra aleatoria de una variable aleatoria X ∼ N (θ, σ 2 ), con varianza σ 2 > 0 conocida y 1. El conjunto paramétrico Θ ⊂ Rd es abierto.
media θ ∈ R. La familia de distribuciones normales N (θ, σ 2 ), θ ∈ R, es una familia regular 2. El soporte de las funciones f (x|θ) no depende del parámetro. Esto es, existe un conjunto
uniparamétrica con densidades de la forma S tal que sopf (·|θ) := {x ∈ R : f (x|θ) > 0} = S para todo θ ∈ Θ.
1 (x−θ)2
f (x|θ) = √ e− 2σ2 . 3. Para cada x ∈ S, la función f (x|θ) tiene derivadas parciales respecto de todas las
σ 2π componentes θj , j = 1, . . . , d.
15 12
Supongamos ahora que X = (X1 , . . . , Xn ) es una muestra aleatoria de tamaño n de una Nota Bene. Si la función de densidad (o de probabilidad) f (x|θ) de la variable aleatoria
variable aleatoria X con función de densidad (o de probabilidad) f (x|θ), θ ∈ Θ, perteneciente X pertenece a una familia regular uniparamétrica de distribuciones, i.e., cuando el espacio
a una familia regular de distribuciones. Debido a que la familia es regular cada uno de los paramétrico Θ es un subconjunto de la recta real R, el sistema de ecuaciones (22) se reduce
valores observados pertenece al soporte común de las funciones f (x|θ): x = (x1 , . . . , xn ) ∈ Sn . a una sola ecuación, denominada la ecuación de verosimilitud,
Por lo tanto, cualesquiera sean los valores observados, x = (x1 , . . . , xn ), vale que n
X
n
Y ψ(θ|xi ) = 0, (24)
L(θ|x) = f (xi |θ) > 0. i=1
i=1
donde, para cada x ∈ S, la función de θ, ψ(θ|x), se define por
Esto habilita a tomar logaritmos y utilizar la propiedad “el logaritmo del producto es igual
a la suma de los logaritmos”. En consecuencia, para cada x = (x1 , . . . , xn ) ∈ Sn , la función ∂ log f (x|θ)
ψ(θ|x) := . (25)
log L(θ|x) está bien definida y vale que ∂θ
n n Ejemplo 3.6 (Distribuciones de Bernoulli). Es fácil ver que la familia de distribuciones
Bernoulli(θ), θ ∈ (0, 1), es una familia uniparamétrica regular con funciones de probabilidad
Y X
log L(θ|x) = log f (xi |θ) = log f (xi |θ). (19)
i=1 i=1 de la forma f (x|θ) = (1 − θ)1−x θx , x = 0, 1. En consecuencia, para encontrar el estimador de
máxima verosimilitud para θ basado en una muestra aleatoria X = (X1 , . . . , Xn ) podemos
Como el logaritmo natural log(·) es una función monótona creciente, maximizar la función
usar el resultado del Lema 3.5.
de verosimilitud L(θ|x) será equivalente a maximizar log L(θ|x). La ventaja de maximizar el
∂ log f (x|θ)
logaritmo de la función de verosimilitud es que, bajo las condiciones de regularidad enunciadas En primer lugar hallamos la expresión de la función ψ(θ|x) = ∂θ . Observando que
previamente, los productos se convierten en sumas, aligerando considerablemente el trabajo 1−x x
log f (x|θ) = log(1 − θ) θ = (1 − x) log(1 − θ) + x log θ,
de cómputo del EMV ya que el EMV debe verificar el sistema de ecuaciones
∂ log L(θ|x) y derivando respecto de θ obtenemos
=0 j = 1, . . . , d. (20)
∂θj 1 1
ψ(θ|x) = (x − 1) + x
1−θ θ
En vista de (19) el sistema de ecuaciones (20) se transforma en
n Por lo tanto, la ecuación de verosimilitud (24) adopta la forma
X ∂ log f (xi |θ)
= 0, j = 1, . . . , d. (21) n n
∂θj 1 X 1X
i=1 (xi − 1) + xi = 0. (26)
1−θ θ
i=1 i=1
Por este camino llegamos al siguiente resultado que provee la herramienta adecuada para el
cálculo del EMV. Un poco de álgebra muestra que para cada pareja a 6= b vale que:
Lema 3.5. Sea X una variable aleatoria con función de densidad (o de probabilidad) f (x|θ), 1 1 b
a+ b=0⇔θ = . (27)
θ ∈ Θ ⊂ Rd , perteneciente a una familia regular de distribuciones. El estimador de máxima 1−θ θ b−a
verosimilitud de θ, basado en los valores x = (x1 , . . . , xn ) de una muestra aleatoria X =
Sigue de (27), poniendo a = ni=1 (xi − 1) = ni=1 xi − n y b = ni=1 xi , que la solución de la
P P P
(X1 , . . . , Xn ), es solución del siguiente sistema de ecuaciones:
ecuación (26) es
n
n
X
ψj (θ|xi ) = 0 j = 1, . . . , d, (22) 1X
θ= xi .
i=1 n
i=1
donde, para cada x ∈ S, la funciones de θ, ψj (θ|x), j = 1, . . . , d, se definen por
Con un poco más de trabajo, se puede verificar que dicha solución maximiza el logaritmo de
∂ log f (x|θ) la verosimilitud.
ψj (θ|x) := . (23)
∂θj En resumen, si x = (x1 , . . . , xn ) son los valores observados de una muestra aleatoria
X = (X1 , . . . , Xn ), el estimador de máxima verosimilitud para θ es el promedio (o media)
Nota Bene. Por supuesto que las condiciones (22) son necesarias pero no suficientes para muestral
que θ sea un máximo. Para asegurarse que θ es un máximo deberán verificarse las condi- n
ciones de segundo orden. Además debe verificarse que no se trata de un máximo relativo sino 1X
θ̂mv = θ̂mv (x) = xi
absoluto. n
i=1
13 14
es un test de nivel α para decidir entre las hipótesis√H0 : µ = µ0 contra
√
H1 : µ 6= µ0 . El estimador de máxima verosimilitud para θ es X(n) = máx(X1 , . . . , Xn ) y tiene densidad
0) 0)
Dicho en palabras, el test consiste en rechazar H0 si n(X̄−µ < zα/2 o n(X̄−µ > z1−α/2 de la forma
σ σ nxn−1
y aceptarla en otro caso. f (x) = 1{0 ≤ x ≤ θ}.
θn
Como la distribución de X(n) depende de θ, X(n) no es un pivote para θ. Sin embargo, podemos
Nota Bene. Construir un test es la primera fase para decidir entre dos hipótesis. Con- liberarnos de θ utilizando un cambio de variables lineal de la forma Q = X(n) /θ:
struido el test es “obligatorio” analizar los riesgos de tomar decisiones erróneas. En otras
palabras, el test debe acompañarse con su correspondiente función de potencia. fQ (q) = nq n−1 1{0 ≤ q ≤ 1}.
Función de potencia Por lo tanto,
Los riesgos de tomar decisiones erróneas utilizando el test de hipótesis definido en Q(X, θ) = X(n) /θ
(16) pueden evaluarse caracterizando su correspondiente función de potencia: β(µ) :=
es un pivote para θ.
P(Rechazar H0 |µ). Se trata de obtener una expresión “analı́tica”que nos permita carac-
terizar cuantitativa y cualitativamente las propiedades de dicha función.
5
Vale que
4.5
√ √
n(µ0 − µ) n(µ − µ0 ) 4
β(µ) = Φ zα/2 + + Φ zα/2 + . (17) 3.5

σ σ
3
En efecto, 2.5
β(µ) = P(Rechazar H0 |µ) 1.5

√ ¯ √ ¯
n(X − µ0 ) n(X − µ0 ) 1
= Pµ < zα/2 + Pµ > z1−α/2 0.5

σ σ
√ ¯ √ 0
0 0.2 0.4 0.6 0.8 1
n(X − µ) n(µ − µ0 )
= Pµ + < zα/2
σ σ
√ ¯ √
n(X − µ) n(µ − µ0 )
+Pµ + > z1−α/2 Figura 1: Forma tı́pica del gráfico de la densidad del pivote Q(X, θ).
σ σ
√ ¯ √
n(X − µ) n(µ0 − µ) Los cuantiles-γ para Q se obtienen observando que
= Pµ < zα/2 +
σ σ Z qγ
√ ¯ √ γ = P(Q(X, θ) ≤ qγ ) = fQ (q)dq ⇐⇒ qγ = γ 1/n .
n(X − µ) n(µ − µ0 )
+Pµ > −zα/2 − 0
σ σ
√ √ Construyendo un intervalo de confianza. Dado el nivel de confianza β ∈ (0, 1), para con-
n(µ0 − µ) n(µ − µ0 )
= Φ zα/2 + + Φ zα/2 + . struir un intervalo de confianza de nivel β notamos que
σ σ

β = Pθ (q1−β ≤ Q(X, θ) ≤ 1) = Pθ q1−β ≤ X(n) /θ ≤ 1
Notar que la función de potencia dada en (17) satisface las siguientes propiedades
Despejando θ de las desigualdades dentro de la probabilidad, resulta que
(a) β(µ) es simétrica con respecto a µ0 : β(µ0 + m) = β(µ0 − m) para todo m > 0.
X(n) X(n)

(b) β(µ) es creciente4 sobre la semi-recta (µ0 , ∞). I(X) = X(n) ,
q1−β
= X(n) , 1/n
(1 − β)
(c) β(µ0 ) = α. es un intervalo de confianza para θ de nivel β.
4
Derivar con respecto de µ la expresión (17) y hacer cuentas.
14
7
1.1.2. Pivotes crecientes es un pivote para la diferencia de medias ∆ = µX − µY .
Sea Q(X, θ) un pivote para θ que goza de las siguientes propiedades: 10. Para cociente de varianzas de normales con medias desconocidas. Si X1 , . . . , Xm
2
(i) la función de distribución de Q(X, θ) es continua y estrictamente creciente; e Y1 , . . . , Yn son dos m.a. independientes de distribuciones N (µX , σX ) y N (µY , σY2 ),
con µX y µY desconocidas, entonces
(ii’) para cada x, la función Q(x, θ) es continua y monótona creciente en la variable θ: 2
1 SX
θ1 < θ2 =⇒ Q(x, θ1 ) < Q(x, θ2 ) ∼ Fm−1, n−1
R SY2
2
es un pivote para el cociente de las varianzas R = σX /σY2 .
q
11. Para diferencia de probabilidades de éxito de Bernoulli. Si X1 , . . . , Xm e
q = Q(x, θ) Y1 , . . . , Yn son dos m.a. independientes de distribuciones Bernoulli(pX ) y Bernoulli(pY ).
Entonces,
X¯ − Y¯ − ∆
q ∼ N (0, 1)
1 ¯ ¯ + 1 Y¯ (1 − Y¯ )
m
X(1 − X) n
es un pivote aproximado para la diferencia ∆ = pX − pY .

qγ
4. Test para media de normales

En esta sección usaremos el método del pivote para construir test de hipótesis sobre la
media de distribuciones normales.
{θ : Q(x, θ) ≤ qγ } 4.1. Hipótesis sobre media con varianza conocida

θ Basados en una muestra aleatoria X = (X1 , . . . , Xn ) de una distribución normal N (µ, σ 2 )
θ(x, γ)
con varianza σ 2 conocida queremos construir un test de nivel de significación α para decidir
entre las hipótesis
Sea γ ∈ (0, 1), arbitrario pero fijo y sea qγ el cuantil-γ del pivote Q(X, θ). H0 : µ = µ0 contra H1 : µ 6= µ0 ,
Para cada x, sea θ(x, γ) la única solución de la ecuación en θ donde µ0 es un algún valor determinado.
Q(x, θ) = qγ .
Test de hipótesis
Como el pivote Q(X, θ) es creciente en θ tenemos que
Para distribuciones normales con varianza conocida sabemos que
Q(X, θ) ≤ qγ ⇐⇒ θ ≤ θ(X, γ). √ ¯
¯ µ) = n(X − µ) ∼ N (0, 1)
Q(X,
En consecuencia, σ
es un pivote para µ basado en X ¯ = 1 Pn Xi .
Pθ (θ ≤ θ(X, γ)) = Pθ (Q(X, θ) ≤ qγ ) = γ, ∀ θ ∈ Θ. n i=1
Es fácil ver que el pivote satisface las dos condiciones enunciadas al principio de la
Por lo tanto, θ(X, γ) es una cota superior de confianza para θ de nivel γ y una cota inferior Sección 3. De acuerdo con los resultados expuestos en la sección 3.1
de nivel 1 − γ. √ ¯ √ ¯
n(X − µ0 ) n(X − µ0 )
δ(X) = 1 < zα/2 + 1 > z1−α/2 , (16)
σ σ
13
8
4. Para varianza de normales con media desconocida. Si X1 , . . . , Xn es una m.a. Método
de una distribución N (µ, σ 2 ), con µ desconocida, entonces Sea β ∈ (0, 1). Si se dispone de un pivote Q(X, θ) que satisface las propiedades (i) y (ii’)
n enunciadas más arriba, entonces
(n − 1) 2 1 X ¯ 2 ∼ χ2
S = (Xi − X) n−1
σ2 σ 2 i=1 la variable aleatoria, θ1 (X), que se obtiene resolviendo la ecuación Q(X, θ) = q1−β es
una cota inferior de confianza para θ, de nivel β.
es un pivote para σ 2 .
la variable aleatoria, θ2 (X), que se obtiene resolviendo la ecuación Q(X, θ) = qβ es una
5. Para probabilidad de éxito de distribuciones Bernoulli. Si X1 , . . . , Xn es una cota superior de confianza para θ, de nivel β.
m.a. de una distribución Bernoulli(p) y n >> 1, entonces
√ ¯ el intervalo aleatorio I(X) = [θ1 (X), θ2 (X)], cuyos extremos son las soluciones respec-
n(X − p) tivas de las ecuaciones Q(X, θ) = q 1−β y Q(X, θ) = q 1+β , es un intervalo “bilateral” de
p ∼ N (0, 1) 2 2
p(1 − p) confianza para θ, de nivel β.
es un pivote aproximado para p. Ejemplo 1.7 (Intensidad de la distribución exponencial). Sea X = (X1 , . . . , Xn ) una muestra
6. Para intensidad de exponenciales. Si X1 , . . . , Xn es una m.a. de una distribución aleatoria de una variable aleatoria X ∼ Exp(λ), λ > 0.
máxima verosimilitud para λ es 1/X̄, donde X̄ = n1 ni=1 Xi . Sabemos
P
El estimador deP
Exponencial(λ), entonces n
Xn que la suma nX̄ = i=1 Xi tiene distribución Γ(n, λ).
2λnX¯ =λ Xi ∼ χ22n Como la distribución de nX̄ depende de λ, nX̄ no es un pivote para λ. Sin embargo,
i=1 podemos liberarnos de λ utilizando un cambio de variables lineal de la forma Q = anX̄,
es un pivote para λ. donde a es positivo yelegido adecuadamente para nuestros propósitos. Si a > 0 y Q = anX̄,
entonces Q∼ Γ n, λa . Poniendo a = 2λ, resulta que Q = 2λnX̄ ∼ Γ n, 12 = χ22n . (Recordar
7. Para extremo derecho de uniformes. Si X1 , . . . , Xn es una m.a. de una distribu- que Γ n2 , 12 = χ2n .)
ción U(0, θ), entonces Por lo tanto,
X(n) máx(X1 , . . . , Xn ) n
= X
θ θ Q(X, λ) = 2λnX̄ = 2λ Xi ∼ χ22n
es un pivote para θ cuya densidad es f (x) = nxn−1 1{0 ≤ x ≤ 1}. i=1
8. Para diferencia de medias de normales con varianzas conocidas. Si X1 , . . . , Xm es un pivote para λ.

2
e Y1 , . . . , Yn son dos m.a. independientes de distribuciones N (µX , σX ) y N (µY , σY2 ), Construyendo una cota superior de confianza. Dado β ∈ (0, 1), para construir una cota
2 superior de confianza para λ, de nivel β, primero observamos que el pivote Q(X, λ) = 2λnX̄
con σX y σY2 conocidas, entonces
es una función continua y decreciente en λ. Debido a que
¯ − Y¯ − ∆
X
q ∼ N (0, 1) χ2β
2
σX
+
2
σY 2λnX̄ = χ2β ⇐⇒ λ =
m n 2nX̄
es un pivote para la diferencia de medias ∆ = µX − µY . resulta que
χ2
9. Para diferencia de medias de normales con varianzas desconocidas pero λ2 (X) = Pnβ
2 i=1 Xi
iguales. Si X1 , . . . , Xm e Y1 , . . . , Yn son dos m.a. independientes de distribuciones
es una cota superior de confianza para λ de nivel β.
N (µX , σ 2 ) y N (µY , σ 2 ), con varianza común σ 2 desconocida, entonces3
X ¯ − Y¯ − ∆ Ilustración. Consideremos ahora las siguientes 10 observaciones
p q1 ∼ tm+n−2
SP2 m + n1 0.5380, 0.4470, 0.2398, 0.5365, 0.0061,
3 0.3165, 0.0086, 0.0064, 0.1995, 0.9008.
2
(m − 1)SX + (n − 1)SY2
SP2 := En tal caso tenemos 10
P
m+n−2 i=1 = 3.1992. Tomando β = 0.975, tenemos de la tabla de la distribu-
2 2
ción χ20 que χ20,0.975 = 34.17, entonces λ2 (x) = 5.34 es una cota superior de confianza para
λ de nivel β = 0.975.
12
9
2. Muestras de Poblaciones Normales 2.- Si se desea un test de nivel α para decidir entre las hipótesis
En esta sección estudiaremos la distribución de probabilidades de los estimadores de máxi- H 0 : θ ≥ θ0 contra H 1 : θ < θ0
ma verosimilitud para la media y la varianza de poblaciones normales. La técnica de análisis
se basa en la construcción de pivotes para los parámetros desconocidos. Usando esos pivotes basta considerar
mostraremos como construir intervalos de confianza en los distintos escenarios posibles que n o
se pueden presentar. ˆ
δ(X) = 1 Q(θ(X), θ0 ) < qα . (15)
Notación. En todo lo que sigue usaremos la siguiente notación: para cada γ ∈ (0, 1), zγ ˆ
En efecto, si θ ≥ θ0 , entonces Q(θ(X), ˆ
θ) ≤ Q(θ(X), θ0 ) y en consecuencia
será el único número real tal que Φ(zγ ) = γ. Gráficamente, a izquierda del punto zγ el área
bajo la campana de Gauss es igual a γ. ˆ
β(θ) = P (Rechazar H0 |θ) = Pθ Q(θ(X), ˆ
θ0 ) < qα ≤ Pθ Q(θ(X), θ) < qα = α.
Nota Bene. De la simetrı́a de la campana de Gauss, se deduce que para cada β ∈ (0, 1) Por lo tanto,
vale que z(1−β)/2 = −z(1+β)/2 . Por lo tanto, para Z ∼ N (0, 1) vale que máx β(θ) ≤ α.
θ≥θ0
1+β 1−β
ˆ

P −z(1+β)/2 ≤ Z ≤ z(1+β)/2 = Φ z(1+β)/2 − Φ −z(1+β)/2 = − = β. Pero como β(θ0 ) = Pθ0 (Q(θ(X), θ0 < qα ) = α, resulta que
2 2
2.1. Media y varianza desconocidas máx β(θ) = α.

θ≥θ0
Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable aleatoria X ∼ N (µ, σ 2 ), con
media µ y varianza desconocidas. Los estimadores de máxima verosimilitud para la media y
la varianza, basados en X, son, respectivamente,
n
3.4. Algunos pivotes
c2 mv (X) = 1
X
µ̂mv (X) = X̄, σ (Xi − X̄)2 . (5) 1. Para media de normales con varianza conocida. Si X1 , . . . , Xn es una m.a. de
n
i=1
una distribución N (µ, σ 2 ), con σ 2 conocida, entonces
2.1.1. Teorema llave √ ¯
n(X − µ)
∼ N (0, 1)
Teorema 2.1 (Llave). Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una distribución σ
N (µ, σ 2 ). Valen las siguientes afirmaciones:
√ es un pivote para µ.
n(X̄−µ)
(a) Z = σ tiene distribución N (0, 1).
n−1 2 1 Pn 2
2. Para media de normales con varianza desconocida. Si X1 , . . . , Xn es una m.a.
(b) U = σ 2 S = σ2 i=1 (Xi − X̄) tiene distribución χ2n−1 . de una distribución N (µ, σ 2 ), con σ 2 desconocida, entonces
(c) Z y U son variables aleatorias independientes. √ ¯
n(X − µ)
∼ tn−1
Nota Bene. El calificativo de “llave” para el Teorema 2.1 está puesto para destacar que S
sus resultados son la clave fundamental en la construcción de intervalos de confianza y de es un pivote para µ.
reglas de decisión sobre hipótesis estadı́sticas para distribuciones normales. La prueba de este
Teorema puede verse en el Apéndice. 3. Para varianza de normales con media conocida. Si X1 , . . . , Xn es una m.a. de
Corolario 2.2 (Pivotes para la media y la varianza).PSea X = (X1 , . . . , XP
una distribución N (µ, σ 2 ), con µ conocida, entonces
n ) una muestra
aleatoria de una distribución N (µ, σ 2 ). Sean X̄ = n1 ni=1 Xi y S 2 = n−1
1 n 2
i=1 (Xi − X̄) . n
n b2 1 X
Vale que
2
σ mv = 2 (Xi − µ)2 ∼ χ2n
σ σ i=1
(a)
(n − 1) 2
Q(X, σ 2 ) = S (6)
σ2
11
10
3.2. Hipótesis fundamental simple contra alternativa unilateral es un pivote para la varianza σ 2 y su distribución es una chi cuadrado con n − 1 grados
de libertad (en sı́mbolos, Q(X, σ 2 ) ∼ χ2n−1 ).
Se desea un test de nivel α para decidir entre las hipótesis
(b)
H 0 : θ = θ0 contra H 1 : θ > θ0 . √
n(X̄ − µ)
Q(X, µ) = (7)
Proponemos un test de la forma S
n o es un pivote para la media µ y su distribución es una t de Student con n − 1 grados de
ˆ
δ(X) = 1 Q(θ(X), θ0 ) > qγ (13) libertad (en sı́mbolos, Q(X, µ) ∼ tn−1 ).
Como la hipótesis fundamental es de la forma θ = θ0 el nivel de significación del test es Demostración.

α(δ) = β(θ0 ) = P (Rechazar H0 |θ0 ) = P Q(θ(X),ˆ θ0 ) > qγ = 1 − γ. (a) Inmediato de la afirmación (b) del Teorema 2.1.
√
(b) La afirmación (a) del Teorema 2.1 indica que Z = n(X̄ −µ)/σ ∼ N (0, 1). Pero como σ 2
√
Poniendo γ = 1 − α obtenemos que α(δ) = α. Por lo tanto, el test deseado puede obtenerse es un parámetro desconocido, la transformación n(X̄ − µ)/σ es inútil por sı́ sola para
de la siguiente manera: construir un pivote. Sin embargo, la afirmación (c) del Teorema 2.1 muestra que este
n o problema se puede resolver reemplazando la desconocida σ 2 por su estimación insesgada
ˆ
δ(X) = 1 Q(θ(X), θ0 ) > q1−α . (14) S 2 . Concretamente, tenemos que
√ √ √
n(X̄ − µ) n(X̄ − µ)/σ n(X̄ − µ)/σ Z
Q(X, µ) = = = p =p ,
S S/σ S 2 /σ 2 U/(n − 1)
√
3.3. Hipótesis fundamental unilateral contra alternativa unilat- donde Z = n(X̄ − µ)/σ ∼ N (0, 1) y U = (n−1) σ2
S 2 ∼ χ2n−1 son variables aleatorias
eral independientes. En consecuencia, Q(X, µ) ∼ tn−1 .
1.- Como consecuencia de que la función Q(t, θ) es decreciente en θ, el test definido en 2.1.2. Cotas e intervalos de confianza para la varianza
(14) también se puede utilizar como test de nivel α para decidir entre las hipótesis
Notar que el pivote para la varianza Q(X, σ 2 ) definido en (6) goza de las propiedades
H 0 : θ ≤ θ0 contra H 1 : θ > θ0 . enunciadas en la sección 1.1.1 para pivotes decrecientes:
ˆ ˆ la función de distribución de Q(X, σ 2 ) es continua y estrictamente creciente;

En efecto, si θ ≤ θ0 , entonces Q(θ(X), θ) ≥ Q(θ(X), θ0 ) y en consecuencia
para cada x, la función Q(x, σ 2 ) es continua y monótona decreciente respecto de σ 2 .
ˆ
β(θ) = P (Rechazar H0 |θ) = Pθ Q(θ(X), ˆ
θ0 ) > q1−α ≤ Pθ Q(θ(X), θ) > q1−α = α.
En consecuencia, las cotas e intervalos de confianza para la varianza se pueden construir
usando el resolviendo la ecuación Q(X, σ 2 ) = χ2n−1, γ , donde chi2n−1, γ designa el cuantil-γ de
Por lo tanto,
la distribución chi cuadrado con n − 1 grados de libertad.
máx β(θ) ≤ α.
θ≤θ0 Observando que

ˆ
Pero como β(θ0 ) = Pθ0 Q(θ(X), θ0 ) > q1−α = α, resulta que (n − 1)S 2 (n − 1)S 2
Q(X, σ 2 ) = χ2n−1, γ ⇐⇒ = χ2n−1, γ ⇐⇒ σ 2 = , (8)
σ2 χ2n−1, γ
máx β(θ) = α.
θ≤θ0 se deduce que, para cada β ∈ (0, 1),
1.
(n − 1)S 2
σ12 (X) =
χ2n−1, β
es una cota inferior de confianza de nivel β para σ 2 ;
10
11
2. 3. Si [θ1 (X), θ2 (X)] es un intervalo de confianza de nivel 1 − α para θ. Entonces
(n − 1)S 2
σ22 (X) = δ(X) = 1{[θ1 (X), θ2 (X)] 6∋ θ0 }
χ2n−1, 1−β
es un test de nivel α para decidir entre las hipótesis
es una cota superior de confianza de nivel β para σ 2 ;
H 0 : θ = θ0 contra H1 : θ 6= θ0 .
3. " #
(n − 1)S 2 (n − 1)S 2 Nota Bene. Notar que en cualquiera de los tres casos se rechaza la hipótesis H0 cuando
I(X) = ,
χ2n−1, (1+β)/2 χ2n−1, (1−β)/2 y solo cuando los intervalos de confianza están contenidos en la hipótesis alternativa H1 .
es un intervalo de confianza de nivel β para σ 2 .
3. El método del pivote
2.1.3. Cotas e intervalos de confianza para la media
Notar que el pivote para la media Q(X, µ) definido en (7) goza de las propiedades enun- Cuando se quieren construir test de hipótesis para el parámetro desconocido θ lo más
ciadas en la sección 1.1.1 para pivotes decrecientes: natural es comenzar la construcción apoyándose en algún estimador puntual del parámetro
ˆ
θ(X) (cuya distribución depende de θ). El método del pivote consiste en transformar el
la función de distribución de Q(X, µ) es continua y estrictamente creciente; ˆ
estimador θ(X) ˆ
en un pivote Q(θ(X), θ) y utilizarlo para construir el test deseado.
para cada x, la función Q(x, µ) es continua y monótona decreciente respecto de µ.
ˆ
Nota Bene. Por definición, la distribución del pivote Q(θ(X), θ) no depende de θ. Para
En consecuencia, las cotas e intervalos de confianza para la varianza se pueden construir cada γ ∈ (0, 1) notaremos mediante qγ el cuantil-γ del pivote.
usando el resolviendo la ecuación Q(X, µ) = tn−1, γ , donde tn−1, γ designa el cuantil-γ de la En todo lo que sigue vamos a suponer que Q(θ(X), ˆ θ) es un pivote que goza de las
distribución t de Student con n − 1 grados de libertad. siguientes propiedades:
Observando que
ˆ
1. La función de distribución de Q(θ(X), θ) es continua y estrictamente creciente.
√
n(X̄ − µ) S
Q(X, µ) = tn−1, γ ⇐⇒ = tn−1, γ ⇐⇒ µ = X̄ − √ tn−1, γ , (9) 2. La función Q(t, θ) es monótona decreciente en θ:
S n
θ1 < θ2 =⇒ Q(t, θ1 ) > Q(t, θ2 ). (10)
y usando que que la densidad de la distribución tn−1 es simétrica respecto del origen (i.e,
tn−1, 1−γ = −tn−1, γ ), tenemos que, para cada β ∈ (0.5, 1),
3.1. Hipótesis fundamental simple contra alternativa bilateral
1.
S Se desea un test de nivel α para decidir entre las hipótesis
µ1 (X) = X̄ − √ tn−1, β
n H 0 : θ = θ0 contra H1 : θ 6= θ0 .
es una cota inferior de confianza de nivel β para µ; Proponemos un test de la forma
n o n o
2. ˆ
δ(X) = 1 Q(θ(X), ˆ
θ0 ) < qγ1 + 1 Q(θ(X), θ0 ) > qγ2 (11)
S S
µ2 (X) = X̄ − √ tn−1, 1−β = X̄ + √ tn−1, β
n n Como la hipótesis fundamental es de la forma θ = θ0 el nivel de significación del test es
es una cota superior de confianza de nivel β para µ; ˆ

ˆ

α(δ) = β(θ0 ) = P (Rechazar H0 |θ0 ) = P(Q(θ(X), θ0 ) < qγ1 ) + P Q(θ(X), θ0 ) > qγ2
3.
ˆ ˆ

S S = P(Q(θ(X), θ0 ) ≤ qγ1 ) + 1 − P Q(θ(X), θ0 ) ≤ q γ 2 = γ1 + 1 − γ2 .
I(X) = X̄ − √ tn−1, (1+β)/2 , X̄ + √ tn−1, (1+β)/2
n n
Poniendo γ1 = α/2 y γ2 = 1 − α/2 obtenemos que α(δ) = α. Por lo tanto, el test de
es un intervalo de confianza de nivel β para µ.
hipótesis deseado puede obtenerse de la siguiente manera:
n o n o
ˆ
δ(X) = 1 Q(θ(X), ˆ
θ0 ) < qα/2 + 1 Q(θ(X), θ0 ) > q1−α/2 . (12)
9
12
3. Construcción de test prefijando el nivel α y la potencia β en alguno de los parámetros 2.1.4. Ejemplo
alternativos. Para fijar ideas vamos a construir intervalos de confianza de nivel β = 0.95 para la media
y la varianza de una variable normal N (µ, σ 2 ), basados en una muestra aleatoria de volumen
Nota Bene. El objetivo de estas notas es presentar una introducción para tratar algunos n = 8 que arrojó los resultados siguientes: 9, 14, 10, 12, 7, 13, 11, 12.
problemas de carácter muy elemental y el modo de resolverlos mediante razonamientos El problema se resuelve recurriendo a las tablas de las distribuciones χ2 y t y haciendo
intuitivos (lo más rigurosos posibles dentro del marco de un curso elemental).2 algunas cuentas.
Como n = 8 consultamos las tablas de χ27 y de t7 . Para el nivel β = 0.95 tenemos que
(1 + β)/2 = 0.975 y (1 − β)/2 = 0.025. De acuerdo con las tablas χ27, 0.975 = 16.0127, χ27, 0.025 =
2. Regiones de confianza y test de hipótesis 1.6898 y t7, 0.975 = 2.3646. Por otra parte, X̄ = 11, S 2 = 36/7 = 5.1428 y S = 2.2677.
Algunas cuentas más (y un poco de paciencia) permiten rematar este asunto. Salvo errores
Supongamos que disponemos de regiones de confianza S(X) de nivel β para el parámetro de cuentas, I1 = [2.248, 21.304] es un intervalo de confianza de nivel 0.95 para la varianza,
θ y queremos construir un test para decidir entre las hipótesis mientras que I2 = [9.104, 12.895] es un intervalo de confianza de nivel 0.95 para la media.
H 0 : θ = θ0 contra H1 : θ 6= θ0 .
2.2. Media de la normal con varianza conocida
Debido a que la región de confianza se construye con el objeto de capturar al verdadero Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable aleatoria X ∼ N (µ, σ 2 ), con
valor del parámetro (con alta probabilidad de lograrlo) parece claro que si se observa un varianza σ 2 conocida. En el Ejemplo 1.4 mostramos que
resultado x tal que la región S(x) contenga a θ0 deberemos aceptar la hipótesis H0 y √
n(X̄ − µ)
rechazar la contraria H1 . El argumento permite construir el siguiente test Q(X, µ) = ∼ N (0, 1)
σ
δ(X) = 1{S(X) 6∋ θ0 }. es un pivote para la media µ.
Como el pivote para la media goza de las propiedades enunciadas en la sección 1.1.1 para
cuyo nivel de significación es pivotes decrecientes,
α(δ) = P (RechazarH0 |θ0 ) = Pθ0 (S(X) 6∋ θ0 ) = 1 − Pθ0 (S(X) ∋ θ0 ) = 1 − β. la función de distribución de Q(X, µ) es continua y estrictamente creciente,
para cada x, la función Q(x, µ) es continua y monótona decreciente respecto de µ,
Usando argumentos similares se obtienen los siguientes resultados. las cotas e intervalos de confianza para la media se pueden construir resolviendo la ecuación
Q(X, µ) = zγ , donde zγ designa el cuantil-γ de la distribución normal estándar N (0, 1).
1. Si θ1 (X) es una cota inferior de confianza de nivel 1 − α para θ, entonces Observando que
√
δ(X) = 1{θ0 < θ1 (X)} n(X̄ − µ) σ
Q(X, µ) = zγ ⇐⇒ = zγ ⇐⇒ µ = X̄ − √ zγ ,
σ n
es un test de nivel α para decidir entre las hipótesis
y usando que que la densidad de la distribución N (0, 1) es simétrica respecto del origen (i.e,
H 0 : θ ≤ θ0 contra H 1 : θ > θ0 . z1−γ = −zγ ), tenemos que, para cada β ∈ (0.5, 1),
1.
σ
2. Si θ2 (X) es una cota superior de confianza de nivel 1 − α para θ, entonces µ1 (X) = X̄ − √ zβ
n
δ(X) = 1{θ0 > θ2 (X)} es una cota inferior de confianza de nivel β para µ;
es un test de nivel α para decidir entre las hipótesis 2.

σ
µ2 (X) = X̄ + √ zβ
n
H 0 : θ ≥ θ0 contra H 1 : θ < θ0 .
es una cota superior de confianza de nivel β para µ;
2
Dependiendo de las normas de calidad que se le impongan al test y de la naturaleza de las hipótesis
a ser confrontadas, existen metodologı́as generales para construir test óptimos que pueden consultarse 3.
en cualquier libro de Estadı́stica matemática. Una exposición rigurosa puede encontrarse en el libro de
σ σ
I(X) = X̄ − √ z(1+β)/2 , X̄ + √ z(1+β)/2
Borovkov. n n
es un intervalo de confianza de nivel β para µ.
8
13
2.3. Varianza de la normal con media conocida en su contra para que se renuncie a ella. En tales condiciones hacen falta criterios de
Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable aleatoria X ∼ N (µ, σ 2 ), con nivel α muy pequeños. Entonces, si la hipótesis fundamental es verdadera, la realización
media µ conocida. El estimador de máxima verosimilitud para σ 2 es de un valor de muestra perteneciente a la región crı́tica R será demasiado inverosı́mil. La
n concepción en la que se basa todo el razonamiento es la siguiente: si la probabilidad ǫ de
c2 mv (X) = 1
X
σ (Xi − µ)2 . cierto evento A es muy pequeña, consideramos prácticamente imposible el hecho de que
n este evento ocurra al realizar una sola prueba. Si ocurre, significa que su probabilidad no
i=1
Para construir un pivote para la varianza observamos que era tan pequeña.
n n
Xi − µ 2 X 2

n c2 X
σ mv (X) = = Zi , Máxima potencia. Elegido el nivel de significación α del test de hipótesis, hay que
σ2 σ
i=1 i=1
prestarle atención a los valores de su función de potencia en la región alternativa Θ1 . Si
Xi −µ
donde Zi = σ son variables independientes cada una con distribución normal estándar la potencia en Θ1 resulta demasiado pequeña, los riesgos de cometer errores de tipo II son
N (0, 1). En otras palabras, la distribución n c 2 muy grandes y tal vez sea conveniente sustituir el nivel de significación por uno mayor.
P de la variable aleatoria σ2 σ mv (X) coincide con la
distribución de una suma de la forma ni=1 Zi2 , donde las Zi son N (0, 1) independientes. Por Entre todos los test de nivel α se prefieren aquellos que tengan la potencia más alta en
lo tanto, toda la región alternativa Θ1 .
c2 mv (X)
nσ
Q(X, σ 2 ) = ∼ χ2n
σ2 1.4. Sobre la construcción de reglas de decisión
En la práctica, las reglas de decisión se construyen basándose en una estadı́stica de la
Como el pivote para la varianza Q(X, σ 2 ) goza de las propiedades enunciadas en la sección
muestra aleatoria X = (X1 , . . . , Xn ), i.e., son de la forma
1.1.1 para pivotes decrecientes,
la función de distribución de Q(X, σ 2 ) es continua y estrictamente creciente, δ(X) = 1{T (X) ∈ C}, (9)
para cada x, la función Q(x, σ 2 ) es continua y monótona decreciente respecto de σ2, donde T : Rn → R es una función a valores reales y C es una región de la recta real
las cotas e intervalos de confianza para la varianza se pueden construir resolviendo la ecuación denominada la región crı́tica o región de rechazo del test: si δ(X) = 1 rechazamos la
Q(X, σ 2 ) = χ2n, γ , donde χ2n, γ designa el cuantil-γ de la distribución chi cuadrado con n grados hipótesis H0 y si δ(X) = 0 no la rechazamos.
de libertad.
Observando que Nota Bene. La estadı́stica de la muestra, T (X), con la que se construye la regla de
2
c2 mv (X)
nσ c2 mv (X)
nσ decisión (9) debe contener toda la información relevante que hay en la muestra X para
Q(X, σ ) = χ2n, γ ⇐⇒ = χ2n, γ ⇐⇒ σ 2 = ,
σ 2 χ2n−1, γ reconstruir el parámetro θ sobre el que recaen las hipótesis H0 y H1 . Por ejemplo, si se hacen
hipótesis sobre la media de la variable aleatoria X, es inútil observar simplemente todos
se deduce que, para cada β ∈ (0, 1),
los datos contenidos en la muestra aleatoria X = (X1 , . . . , Xn ). Es intuitivamente claro
1. que si se quiere tomar una decisión entre dos hipótesis sobre la media de una distribución
c2 mv (X)
nσ
σ12 (X) = hay que observar el promedio muestral X ¯ := 1 Pn Xi . Si la muestra es suficientemente
n i=1
χ2n, β
grande, este valor se no puede desviar demasiado del verdadero valor de la media. Si el
es una cota inferior de confianza de nivel β para σ 2 ; desvı́o fuese desconocido, para tener
1
Pnuna idea de¯ 2
su tamaño bastará con observar el valor
2. de la varianza muestral S 2 := n−1 i=1 (Xi − X) . Esos dos datos deberı́an ser suficientes
c2 mv (X)
nσ para tomar una decisión sobre una hipótesis sobre la media.
σ22 (X) =
χ2n, 1−β
Algunos problemas
es una cota superior de confianza de nivel β para σ 2 ;
3. " #
1. Dado un test caracterizar su función de potencia, determinar su nivel y los distintos
c2 mv (X) nσ
nσ c2 mv (X) tipos de riesgos estadı́sticos.
I(X) = ,
χ2n, (1+β)/2 χ2n, (1−β)/2
2. Construcción de test prefijando el nivel α y el volumen de la muestra aleatoria n.
es un intervalo de confianza de nivel β para σ 2 .
7
14
En efecto, la probabilidad de que ocurra un error de tipo I cuando el verdadero valor 3. Intervalos aproximados para ensayos Bernoulli
del parámetro es θ ∈ Θ0 será el valor de la probabilidad β(θ) y la probabilidad de cometer
Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable aleatoria X ∼ Bernoulli(p),
un error de tipo II cuando el verdadero valor del parámetro es θ ∈ Θ1 será el valor de la
donde n >> 1. El estimador de máxima verosimilitud para p es
probabilidad 1 − β(θ).
n
1X
Nota Bene. Una test puede considerarse “bueno” si los valores de su función de potencia X̄ = Xi .
n
i=1
están cerca del 0 en la región fundamental Θ0 y cerca del 1 en la región alternativa Θ1 . En
general, establecido el volumen de la muestra, X = (X1 , . . . , Xn ), no es posible construir Para construir un pivote para la varianza observamos que de acuerdo con el Teorema cen-
tral del lı́mite la distribución aproximada de ni=1 Xi es una normal N (np, np(1 − p)) y en
P
test capaces de conciliar ambas exigencias.
consecuencia √
n(X̄ − p)
1.3. Nivel de significación Q(X, p) = p ∼ N (0, 1)
p(1 − p)
Sea δ un test para decidir entre las hipótesis H0 : θ ∈ Θ0 contra H1 : θ ∈ Θ1 . El es un pivote asintótico para p.
número Usando métodos analı́ticos se puede mostrar que Q(X, p) es una función continua y de-
creciente en p ∈ (0, 1). Como el pivote asintótico para p goza de las propiedades enunciadas
α(δ) = máx β(θ) (8) en la sección 1.1.1 para pivotes decrecientes, las cotas e intervalos de confianza para p se
θ∈Θ0
pueden construir resolviendo la ecuación Q(X, p) = zγ , donde zγ designa el cuantil-γ de la
se llama nivel de significación del test. Dicho en palabras, el nivel de significación de un distribución normal estándar N (0, 1).
test es la máxima probabilidad de rechazar la hipótesis fundamental H0 cuando ella es Para resolver la ecuación Q(X, p) = z se elevan ambos miembros al cuadrado y se obtiene
verdadera. una ecuación cuadrática en p cuya solución es
p
Ejemplo 1.2. Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una distribución U(0, θ) z 2 + 2nX̄ z z 2 + 4nX̄(1 − X̄)
p= ±
y sea δ el test definido en el Ejemplo 1.1 para decidir entre las dos hipótesis H0 : θ ≥ 2 2z 2 + 2n 2z 2 + 2n
contra H1 : θ < 2. Usando que la densidad de la distribución N (0, 1) es simétrica respecto del origen tenemos
Debido a que la función de potencia β(θ) es decreciente en θ, el nivel de significación que, para cada β ∈ (0.5, 1),
del test es n
3 1.
α(δ) = máx β(θ) = β(2) = .
θ≥2 4 q
zβ2 + 2nX̄ zβ zβ2 + 4nX̄(1 − X̄)
Para que, por ejemplo, el nivel de significación del test sea ≤ 0.05, debe tomarse un volumen p1 (X) = −
2zβ2 + 2n 2zβ2 + 2n
de muestra n tal que (3/4)n ≤ 0.05. Equivalentemente, n ≥ log(0.05)/ log(3/4) = 10.413.
Para n = 11 el nivel del test resulta α(δ) = 0.042... es una cota inferior de confianza de nivel β para p;
Comentario sobre el nivel de significación. Utilizar un test de nivel de significación 2.

α significa que, en una larga serie de experimentos, no nos equivocaremos al rechazar la
q
zβ2 + 2nX̄ zβ zβ2 + 4nX̄(1 − X̄)
hipótesis H0 , siendo que ella es verdadera, más que un 100 α % de los casos. La elección p2 (X) = +
del nivel de significación del test es arbitraria. Habitualmente, en calidad de α se elige 2zβ2 + 2n 2zβ2 + 2n
alguno de los valores estándar, tales como 0.005, 0.01, 0.05, 0.1. Esta estandarización tiene
es una cota superior de confianza de nivel β para p;
la ventaja de que permite reducir el volumen de las tablas que se utilizan en el trabajo
estadı́stico. 3.
 q 
2 z(1+β)/2 2
z(1+β)/2 + 4nX̄(1 − X̄)
Nota Bene. La actitud que se tenga hacia la hipótesis fundamental antes de realizar el z(1+β)/2 + 2nX̄
I(X) =  2 ± 2
 (10)
experimento es una circunstancia importante que puede influir en la elección del nivel de 2z(1+β)/2 + 2n 2z(1+β)/2 + 2n
significación. Si se cree firmemente en su veracidad se necesitarán pruebas convincentes
donde [a ± b] = [a − b, a + b], es un intervalo de confianza de nivel β para p.
6
15
1
0.9
0.8
1/2 1/2 sen α 0.7

α
0.6
0.5
0.4
Ejemplo 3.1 (Las agujas de Buffon). Se arroja al azar una aguja de longitud 1 sobre un
plano dividido por rectas paralelas separadas por una distancia igual a 2. 0.3
Si localizamos la aguja mediante la distancia ρ de su centro a la recta más cercana y el 0.2

ángulo agudo α entre la recta y la aguja, el espacio muestral es el rectángulo 0 ≤ ρ ≤ 1 0.1
y 0 ≤ α ≤ π/2. El evento “la aguja interesecta la recta” ocurre cuando ρ ≤ 12 sen α y su
0
probabilidad es 0 1 2 3 4 5 6
R π/2 1
sen αdα 1
p= 0 2 = .
π/2 π
Con el objeto de estimar π se propone construir un intervalo de confianza de nivel β = 0.95 Figura 1: Gráfico de la función β(θ) para distintos volúmenes de muestra: en lı́nea quebrada
para p, basado en los resultados de realizar el experimentos de Buffon con n = 100 agujas. para volumen n = 3; en lı́nea sólida para volumen n = 11. Notar que cuando n aumenta
Poniendo en (10) n = 100 y z(1+β)/2 = z0.975 = 1.96 se obtiene que
disminuyen las probabilidades de los errores de tipo I, pero aumentan las de los errores de
" p # tipo II.
1.962 + 200X̄ 1.96 1.962 + 400X̄(1 − X̄)
I(X) = ±
2(1.96)2 + 200 2(1.96)2 + 200
" p # la probabilidad de que ocurra un error de tipo I cuando el verdadero valor del
3.8416 + 200X̄ 1.96 3.8416 + 400X̄(1 − X̄) 3 n
= ± parámetro θ satisface θ ≥ 2 es β(θ) = 2θ ,
207.6832 207.6832
la probabilidad de que ocurra un error de tipo II cuando el verdadero valor del
Al realizar el experimento se observó que 28 de las 100 agujas intersectaron alguna recta. parámetro θ satisface θ ∈ (0, 3/2] es 1 − β(θ) = 1 − 1 = 0,
Con ese dato el estimador de máxima verosimilitud para p es X̄ = 0.28 y en consecuencia se
obtiene el siguiente intervalo de confianza para p la probabilidad de que ocurra un error de tipo II cuando el verdadero valor del
3 n

" p # parámetro θ satisface θ ∈ (3/2, 2) es 1 − β(θ) = 1 − 2θ .
3.8416 + 200(0.28) 1.96 3.8416 + 400(0.28)(1 − 0.28)
I(X) = ±
207.6832 207.6832
= [0.28814 ± 0.08674] = [0.20140, 0.37488].
1.2. Función de potencia
De donde se obtiene la siguiente estimación: 2.66 ≤ π ≤ 4.96.
La calidad de un test de hipótesis δ(·) se caracteriza por el conjunto de probabilidades
Nota Bene. Notando que la longitud del intervalo de confianza de nivel β > 1/2 para p se de decisiones erróneas (o riesgos de decisión).
puede acotar de la siguiente forma Las probabilidades de los errores de un test δ(·) se pueden representar en el gráfico de
q q la función β : Θ → [0, 1] definida por
2
z(1+β)/2 z(1+β)/2 + 4nX̄(1 − X̄) 2
z(1+β)/2 z(1+β)/2 +n z(1+β)/2 β(θ) := P (Rechazar H0 | θ) = P (δ(X) = 1| θ) = Pθ (X ∈ R) , (7)
|I(X)| = 2 ≤ 2 < √ ,
z(1+β)/2 + n z(1+β)/2 + n n
1
llamada la función de potencia del test.
se puede mostrar que para garantizar que |I(X)| < ǫ, donde ǫ es positivo y “pequeño” basta 1
2 En control de calidad, a la función L(θ) = 1 − β(θ) se la llama caracterı́stica operativa y su gráfico se
tomar n ≥ z(1+β)/2 /ǫ .
llama la curva caracterı́stica operativa del test.
5
16
se denomina región crı́tica o región de rechazo de la hipótesis fundamental. La región crı́tica, Ejemplo 3.2 (Las agujas de Buffon (continuación)). ¿Cuántas agujas deben arrojarse si se
R, se identifica con la regla de decisión δ debido a que desea estimar π utilizando un intervalo de confianza para p, de nivel 0.95, cuyo margen de
error sea 0.01? De acuerdo con la observación anterior basta tomar n ≥ (1.96/0.01)2 = 38416.
δ(x) = 1{x ∈ R}. (4) Simulando 38416 veces el experimento de Buffon obtuvimos 12222 éxitos. Con ese dato el
estimador de máxima verosimilitud para p es 0.31814... y el intervalo para p es
Tipos de error. Todo test para decidir entre las hipótesis H0 contra H1 conduce a
I(X) = [0.31350, 0.32282] .
decisiones erróneas. Hay dos clases de decisiones erróneas.
De donde se obtiene la siguiente estimación: 3.09766 ≤ π ≤ 3.18969.
Las llamadas errores de tipo I que consisten en RECHAZAR la hipótesis H0 cuando
ésta es verdadera.
4. Comparación de dos muestras normales
Las llamadas errores de tipo II que consisten en ACEPTAR la hipótesis H0 cuando
ésta es falsa. Supongamos que X = (X1 , . . . , Xm ) es una muestra aleatoria de tamaño m de una dis-
2 ), y que Y = (Y , . . . , Y ) es una muestra aleatoria de tamaño n
tribución normal N (µX , σX 1 n
de una distribución normal N (µY , σY2 ). Más aún, supongamos que las muestras X e Y son
Nota Bene. Cuando θ ∈ Θ0 , la probabilidad de cometer un error de tipo I será 2 y σ 2 son desconocidos.
independientes. Usualmente los parámetros µX , µY , σX Y
P(Rechazar H0 |θ) = P(δ(X) = 1|θ) = P(X ∈ R|θ).
4.1. Cotas e intervalos de confianza para la diferencia de medias
Cuando θ ∈ Θ1 , la probabilidad de cometer un error de tipo II será Queremos estimar ∆ = µX − µY .
P(Aceptar H0 |θ) = P(δ(X) = 0|θ) = P(X 6∈ R|θ) = 1 − P(X ∈ R|θ).
4.1.1. Varianzas conocidas
Ejemplo 1.1. Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una distribución uniforme 2 y σ2
Para construir un pivote para la diferencia de medias, ∆, cuando las varianzas σX Y
sobre el intervalo (0, θ), θ > 0. Para decidir entre las dos hipótesis son conocidas, observamos que el estimador de máxima verosimilitud para ∆ = µX − µY es
X̄ − Ȳ y que
H0 : θ ≥ 2 contra H1 : θ < 2
σ2 σ2

X̄ − Ȳ ∼ N ∆, X + Y (11)
consideramos el test δ(x) = 1{x(n) ≤ 3/2}, donde x(n) = máx(x1 , . . . , xn ) y queremos m n
determinar, para cada θ > 0, la probabilidad de decidir erróneamente.
En consecuencia,
Solución. Para calcular las probabilidades de decidir erróneamente estudiaremos la fun- X̄ − Ȳ − ∆
Q(X, Y, ∆) = q 2 ∼ N (0, 1), (12)
ción β : (0, ∞) → [0, 1] definida por σX 2
σY
m + n
3
β(θ) = P(Rechazar H0 |θ) = P(δ(X) = 1|θ) = Pθ X(n) ≤ , θ > 0. (5) es un pivote para la diferencia de medias ∆.
2 Como el pivote para la diferencia de medias, Q(X, Y, ∆), goza de las propiedades enun-
ciadas en la sección 1.1.1 las cotas e intervalos de confianza para ∆ se pueden construir
Sabemos que Q(X, θ) = X(n) /θ es un pivote para θ y que su distribución tiene densidad
resolviendo la ecuación Q(X, Y, ∆) = zγ , donde zγ designa el cuantil-γ de la distribución
de probabilidades fQ (q) = nq n−1 1{0 < q < 1}. En consecuencia,
N (0, 1).
Z mı́n(1, 3 )
3 X(n) 3 2θ
β(θ) = Pθ X(n) ≤ =P ≤ = nq n−1 dq 4.1.2. Varianzas desconocidas.
2 θ 2θ 0
n n Supongamos ahora que las varianzas σX 2 y σ 2 son desconocidas. Hay dos posibilidades:
3 3 3 3 Y
= mı́n 1, =1 0<θ≤ + 1 θ> . (6) las varianzas son iguales o las varianzas son distintas.
2θ 2 2θ 2
Por lo tanto,
4
17
Caso 1: Varianzas iguales. 2 = σ 2 = σ 2 . En tal caso
Supongamos que σX Y 9. Bibliografı́a consultada 52
X̄ − Ȳ − ∆ X̄ − Ȳ − ∆
Z= q =√ q ∼ N (0, 1).
σ2
m + n
σ2 σ2 m 1
+ n1 1. Planteo del problema
La varianza desconocida 2
Pσ se puede estimar ponderando “adecuadamente” los estimadores 1.1. Test de hipótesis
2 = 1
de varianza SX 1 P
(Xi − X̄)2 y SY2 = n−1 (Yj − Ȳ )2 ,
m−1 Hipótesis estadı́stica. El punto de partida es una muestra aleatoria X = (X1 , . . . , Xn )
m−1 n−1 2 + (n − 1)S 2
(m − 1)SX de una variable aleatoria X cuya función de distribución FX (x) = P(X ≤ x) pertenece a
SP2 := S2 + S2 = Y
. una familia paramétrica de distribuciones de probabilidad, F = {Fθ : θ ∈ Θ}.
m+n−2 X m+n−2 Y m+n−2
En este contexto, una hipótesis estadı́stica respecto de la distribución de probabilidades
Se puede mostrar que de la variable aleatoria X es una afirmación de la forma siguiente:
2 + (n − 1)S 2
(m − 1)SX
(n + m − 2) 2 Y
U := SP = ∼ χn+m−2 . “F = Fθ para algún θ ∈ Θ∗ ”, (1)
σ2 σ2
Como las variables Z y U son independientes, se obtiene que donde Θ∗ es alguna parte del conjunto paramétrico Θ. Para simplificar la escritura, las
hipótesis estadı́sticas (1) serán denotadas
Z X̄ − Ȳ − ∆
T =p =q q ∼ tm+n−2
U/(m + n − 2) SP2 m 1
+ n1 H : θ ∈ Θ∗ . (2)
Por lo tanto,
El problema general consiste en lo siguiente: en base a los resultados arrojados por la
muestra aleatoria X se quiere decidir entre dos hipótesis estadı́sticas sobre la distribución
X̄ − Ȳ − ∆ de probabilidades de la variable aleatoria X.
Q(X, Y, ∆) = q q (13)
1
SP2 m + n1
Test de hipótesis. Sean Θ0 y Θ1 dos subconjuntos del espacio paramétrico tales que
es un pivote para la diferencia de medias ∆. Debido a que el pivote goza de las propiedades Θ0 ∩ Θ1 = ∅. El problema consiste en decidir entre las dos hipótesis
enunciadas en la sección 1.1.1, las cotas e intervalos de confianza para ∆ se pueden construir
resolviendo la ecuación Q(X, Y, ∆) = tm+n−2, γ , donde tm+n−2 γ designa el cuantil-γ de la H0 : θ ∈ Θ0 contra H1 : θ ∈ Θ1 ,
distribución t de Student con m + n − 2 grados de libertad.
basándose en el conocimiento de una muestra aleatoria, X = (X1 , . . . , Xn ).
Caso 2: Varianzas distintas. En varios manuales de Estadı́stica (el de Walpole, por Como los valores de θ que no pertenecen a Θ0 ∪ Θ1 no se examinan, se puede suponer
ejemplo) se afirma que la distribución de la variable que Θ = Θ0 ∪ Θ1 , y que H1 es la hipótesis contraria de H0 . En tal caso, la hipótesis
H1 se puede escribir en la forma H1 : θ ∈ / Θ0 . La hipótesis H0 será llamada hipótesis
X̄ − Ȳ − ∆ fundamental o hipótesis nula y las hipótesis de la forma H : θ = θ1 , para θ1 ∈ Θ1 , se
Q(X, Y, ∆) = q 2
SX SY2 llamarán alternativas.
m + n
Un test (o regla de decisión) para decidir entre las dos hipótesis H0 contra H1 es una
es una t de Student con ν grados de libertad, donde aplicación medible δ : Rn → {0, 1} que le asigna a cada posible realización de la muestra
2 aleatoria x una y sólo una de las hipótesis. Concretamente, δ(X) es una variable aleatoria
2 SY2

SX
m + n
a valores en el {0, 1}. Cuando δ(X) = 1 se rechazará la hipótesis H0 a favor de la hipótesis
ν= „ 2 «2 «2 H1 . En cambio, cuando, δ(X) = 0 se aceptará la hipótesis H0 .
S2
„
S
X Y
m n
m−1 + n−1
Región crı́tica. Sea δ : Rn → {0, 1} un test para decidir entre las hipótesis H0 contra
Es de suponer que este “misterioso” valor de ν es el resultado de alguna controversia entre H1 . La región del espacio Rn en la que δ(x) = 1:
Estadı́sticos profesionales con suficiente experiencia para traducir semejante jeroglı́fico. Sin
embargo,ninguno de los manuales se ocupa de revelar este misterio. R := {x ∈ Rn : δ(x) = 1} (3)
3
18
Índice 4.2. Cotas e intervalos de confianza para el cociente de varianzas.
Queremos estimar el cociente de las varianzas R = σX 2 /σ 2 .
Y
1. Planteo del problema 3 Si las medias µX y µY son desconocidas, las varianzas σX2 y σ 2 se pueden estimar mediante
Y
1.1. Test de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2 1 Pm 2 2 1 Pn 2
sus estimadores insesgados SX = m−1 i=1 (Xi − X̄) y SY = n−1 j=1 (Yj − Ȳ ) .
1.2. Función de potencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Debido a que las variables
1.3. Nivel de significación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
(m − 1) 2 (n − 1) 2
1.4. Sobre la construcción de reglas de decisión . . . . . . . . . . . . . . . . . . 7 U := 2 SX ∼ χ2m−1 y V := SY ∼ χ2n−1
σX σY2
2. Regiones de confianza y test de hipótesis 8
son independientes, tenemos que el cociente
3. El método del pivote 9 U/(m − 1) S 2 /σX2
1
2
SX

3.1. Hipótesis fundamental simple contra alternativa bilateral . . . . . . . . . . 9 = X =
V /(n − 1) SY2 /σY2 R SY2
3.2. Hipótesis fundamental simple contra alternativa unilateral . . . . . . . . . 10
3.3. Hipótesis fundamental unilateral contra alternativa unilateral . . . . . . . . 10 se distribuye como una F de Fisher con m − 1 y n − 1 grados de libertad.
3.4. Algunos pivotes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Por lo tanto,
2
1 SX
4. Test para media de normales 13 Q(X, Y, R) = ∼ Fm−1, n−1
4.1. Hipótesis sobre media con varianza conocida . . . . . . . . . . . . . . . . . 13 R SY2
4.2. Variaciones sobre el mismo tema . . . . . . . . . . . . . . . . . . . . . . . . 18 es un pivote para el cociente de varianzas R = σX 2 /σ 2 . Debido a que el pivote goza de
Y
4.3. Hipótesis sobre media con varianza desconocida . . . . . . . . . . . . . . . 20 las propiedades enunciadas en la sección 1.1.1, las cotas e intervalos de confianza para R se
pueden construir resolviendo la ecuación Q(X, Y, R) = Fm−1,n−1, γ , donde Fm−1,n−1 γ designa
5. Test para probabilidad de éxito de distribuciones Bernoulli 22 el cuantil-γ de la distribución F de Fisher con m − 1 y n − 1 grados de libertad.
5.1. Test para moneda honesta (de lo simple a lo complejo) . . . . . . . . . . . 23
5.2. Hipótesis fundamental simple . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.3. Hipótesis fundamental compuesta . . . . . . . . . . . . . . . . . . . . . . . 32 5. Comparación de dos muestras
6. Test para varianza de normales 34 5.1. Planteo general

6.1. Hipótesis sobre varianza con media conocida . . . . . . . . . . . . . . . . . 34 Supongamos que tenemos dos muestras aleatorias independientes X = (X1 , . . . , Xm ) e
6.2. Hipótesis sobre varianza con media desconocida . . . . . . . . . . . . . . . 36 Y = (Y1 , . . . , Yn ) con distribuciones dependientes de los parámetros ξ y η, respectivamente.
Queremos estimar la diferencia
7. Comparación de dos muestras 37 ∆ = ξ − η.
7.1. Test para medias de dos muestras normales. . . . . . . . . . . . . . . . . . 37
En lo que sigue mostraremos que, bajo ciertas hipótesis, podemos construir cotas e intervalos
7.1.1. Varianzas conocidas . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 de confianza (aproximados) basados en el comportamiento de la diferencia ξˆm − η̂n , donde
7.1.2. Varianzas desconocidas pero iguales. . . . . . . . . . . . . . . . . . 37 ξˆm = ξ(X)
ˆ y η̂n = η̂(Y) son estimadores de los parámetros ξ y η, respectivamente.
7.2. Test F para varianzas de normales. . . . . . . . . . . . . . . . . . . . . . . 38 En todo lo que sigue vamos a suponer que los estimadores ξˆm y η̂n tienen la propiedad de
7.3. Planteo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 normalidad asintótica. Esto es,
7.4. Problema de dos muestras binomiales . . . . . . . . . . . . . . . . . . . . . 40 √
m(ξˆm − ξ) → N (0, σ 2 ) cuando m → ∞,
2
8. Test de la χ para bondad de ajuste 42 √
n(η̂n − η) → N (0, τ 2 ) cuando n → ∞,
8.1. Planteo del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
8.2. Test de bondad de ajuste para hipótesis simples . . . . . . . . . . . . . . . 43 donde σ 2 y τ 2 pueden depender de ξ y η, respectivamente. Sea N = m + n y supongamos que
8.3. Ejemplos (1a parte) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 para algún 0 < ρ < 1,
8.4. Comentarios sobre el método . . . . . . . . . . . . . . . . . . . . . . . . . . 48 m n
8.5. Test de bondad de ajuste para hipótesis compuestas . . . . . . . . . . . . . 51 → ρ, →1−ρ cuando m y n → ∞,
N M
2
19
de modo que, cuando N → ∞ tenemos
√ σ2 √ τ2

N (ξˆm − ξ) → N 0, y N (η̂n − η) → N 0, .
ρ 1−ρ
Entonces, vale que
Test de hipótesis y Test de bondad de ajuste
√ h i
σ2 τ2
N (ξˆm − ξ) − (η̂n − η) → N 0, +
ρ 1−ρ
o, equivalentemente, que Sebastian Grynberg
(ξˆm − η̂n ) − ∆ 3-12 de junio de 2013
q → N (0, 1) (14)
σ2 τ2
m + n
Si σ 2 y τ 2 son conocidas, de (14) resulta que
(ξˆm − η̂n ) − ∆
Q(X, Y, ∆) = q (15)
σ2 τ2
m + n
es un pivote (aproximado) para la diferencia ∆.

Si σ 2 y τ 2 son desconocidas y σ
c2 y τb2 son estimadores consistentes para σ 2 y τ 2 , se puede
demostrar que la relación (14) conserva su validez cuando σ 2 y τ 2 se reemplazan por σ c2 y τb2 ,
respectivamente y entonces
(ξˆm − η̂n ) − ∆
Q(X, Y, ∆) = q (16)
c2
σ τc2
m + n
es un pivote (aproximado) para la diferencia ∆.

Para mayores detalles se puede consultar el libro Lehmann, E. L. (1999) Elements of
Large-Sample Theory. Springer, New York.
Nota Bene. Notar que el argumento anterior proporciona un método general de naturaleza
asintótica. En otras palabras, en la práctica los resultados que se obtienen son aproximados.
Dependiendo de los casos particulares existen diversos refinamientos que permiten mejorar
esta primera aproximación.
5.2. Problema de dos muestras binomiales

Sean X = (X1 , . . . , Xm ) e Y = (Y1 , . . . , Yn ) dos muestras aleatorias independientes de dos
variables aleatorias X e Y con distribución Bernoulli de parámetros pX y pY , respectivamente.
Queremos estimar la diferencia
∆ = pX = pY
Para construir cotas e intervalos de confianza usaremos los estimadores de máxima verosimil- Que no se oiga ya que los ricos devoran a los pobres,
itud para las probabilidades pX y pY y que la justicia es sólo para los ricos.
m n
(Manuel Belgrano)
1 X 1X
p̂X = X̄ = Xi , p̂Y = Ȳ = Yj ,
m n
i=1 j=1
1
20
En consecuencia, Vamos a suponer que los volúmenes de las muestras, m y n, son suficientemente grandes y
n n n n
que ninguna de las dos variables está sobre representada (i.e. m y n son del mismo orden de
X
Yi2 =
X
Xi2 − Y12 =
X
Xi2 − nX̄ 2 =
X
Xi − X̄
2
. magnitud).
i=2 i=1 i=1 i=1
Debido a que los estimadores X̄ y Ȳ son consistentes para las pX y pY , resulta que los
√ estimadores X̄(1− X̄) y Ȳ (1− Ȳ ) son consistentes para las varianzas pX (1−pX ) y pY (1−pY ),
Las variables Y1 , . . . , Yn son independientes. Como n(X̄) depende de Y1 , mientras que respectivamente. Por lo tanto,
Pn 2
i=1 Xi − X̄ depende de Y2 , . . . , Yn , resulta que X̄ y S 2 son independientes (lo que prueba
√ √ X̄ − Ȳ − ∆
la parte (c)). Además, n(X̄) = Y1 ∼ N (0, σ 2 ), por lo tanto Z = n(σX̄) ∼ N (0, 1) (lo que Q(X, Y, ∆) = q (17)
1
prueba la parte (a)). La parte (b) se deduce de que m X̄(1 − X̄) + n1 Ȳ (1 − Ȳ )
n n
(n − 1)S 2 Yi 2 es un pivote (aproximado) para ∆.

1 X 2 X
2
= 2 Xi − X̄ = ∼ χ2n−1 ,
σ σ σ
i=1 i=2 Ejemplo 5.1. Se toma una muestra aleatoria de 180 argentinos y resulta que 30 están desocu-
pados. Se toma otra muestra aleatoria de 200 uruguayos y resulta que 25 están desocupados.
pues las n − 1 variables Y2 /σ, . . . , Yn /σ son independientes y con distribución N (0, 1).
¿Hay evidencia suficiente para afirmar que la tasa de desocupación de la población Argentina
es superior a la del Uruguay?
Solución. La población desocupada de la Argentina puede modelarse con una variable
Para redactar estas notas se consultaron los siguientes libros: aleatoria X ∼ Bernoulli(pX ) y la del Uruguay con una variable aleatoria Y ∼ Bernoulli(pY ).
1. Bolfarine, H., Sandoval, M. C.: Introdução à Inferência Estatı́stica. SBM, Rio de Janeiro. Para resolver el problema utilizaremos una cota inferior de nivel de significación β = 0.95
(2001). para la diferencia ∆ = pX − pY basada en dos muestras aleatorias independientes X e Y de
volúmenes m = 180 y n = 200, respectivamente.
2. Borovkov, A. A.: Estadı́stica matemática. Mir, Moscú. (1984). En vista de que el pivote definido en (17) goza de las propiedades enunciadas en la sección
1.1.1, la cota inferior de nivel β = 0.95 para ∆ se obtiene resolviendo la ecuación Q(X, Y, ∆) =
3. Cramer, H.: Métodos matemáticos de estadı́stica. Aguilar, Madrid. (1970). z0.95 .
4. Hoel P. G.: Introducción a la estadı́stica matemática. Ariel, Barcelona. (1980). Observando que
5. Lehmann, E. L.: Elements of Large-Sample Theory. Springer, New York. (1999) X̄ − Ȳ − ∆

Q(X, Y, ∆) = z0.95 ⇐⇒ q = 1.64
1 1
180 X̄(1 − X̄) + 200 Ȳ (1 − Ȳ )
6. Maronna R.: Probabilidad y Estadı́stica Elementales para Estudiantes de Ciencias. Ed- r
itorial Exacta, La Plata. (1995). 1 1
⇐⇒ ∆ = X̄ − Ȳ − 1.64 X̄(1 − X̄) + Ȳ (1 − Ȳ )
180 200
30
Massachusetts. (1972). De cuerdo con los datos observados, X̄ = 180 = 61 y Ȳ = 200
25
= 81 . Por lo tanto, la cota inferior
para ∆ adopta la forma
8. Walpole, R. E.: Probabilidad y estadı́stica para ingenieros, 6a. ed., Prentice Hall, México.
(1998)
s
1 1 1 1 5 1 1 7
∆(x, y) = − − 1.64 + = −0.0178...
6 8 180 6 6 200 8 8
De este modo se obtiene la siguiente estimación pX − pY > −0.0178 y de allı́ no se puede

concluir que pX > pY .
24 21
6. Apéndice: Demostración del Teorema llave 6.2. Lema previo
6.1. Preliminares de Análisis y Álgebra Observación 6.3. Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una distribución N (0, σ 2 ).
Por independencia, la distribución conjunta de las variables X1 , . . . , Xn tiene función densidad
En la prueba del Teorema 2.1 se usarán algunas nociones de Álgebra Lı́neal1 y el Teorema de probabilidad de la forma
de cambio de variables para la integral múltiple2 .
n n
!
Y 1 1 1 1 X 2
Teorema 6.1 (Cambio de variables en la integral múltiple). Sea f : Rn → R una función f (x) = √ exp − 2 x2i = exp − xi
2πσ 2σ (2π)n/2 σ n 2σ 2
integrable. Sea g : Rn → Rn , g = (g1 , . . . , gn ) una aplicación biyectiva, cuyas componentes i1

i=1
tienen derivadas parciales de primer orden continuas. Esto es, para todo 1 ≤ i, j ≤ n, las 1 1 2
= exp − 2 ||x||2 .
funciones ∂y∂ j gi (y) son continuas. Si el Jacobiano de g es diferente de cero en casi todo (2π)n/2 σ n 2σ
punto, entonces,
Z Z De la observación anterior es claro que la distribución conjunta de las variables X1 , . . . , Xn
es invariante por rotaciones. Más concretamente vale el siguiente resultado:
f (x)dx = f (g(y))|Jg (y)|dy,
A g −1 (A)
Lema 6.4 (Isotropı́a). Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable N (0, σ 2 )
y sea B ∈ Rn×n una matriz ortogonal, i.e. B T B = BB T = In . Si X = [X1 . . . Xn ]T , entonces

∂gi (y)
para todo conjunto abierto A ⊂ Rn , donde Jg (y) = det ∂yj . Y = [Y1 . . . Yn ]T = BX tiene la misma distribución conjunta que X. En particular las vari-
i,j
ables aleatorias Y1 , . . . , Yn son independientes y son todas N (0, σ 2 ).
El siguiente resultado, que caracteriza la distribución de un cambio de variables aleatorias,
es una consecuencia inmediata del Teorema 6.1. Demostración. Es consecuencia inmediata del Teorema de cambio de variables para y =
Corolario 6.2. Sea X un vector aleatorio n-dimensional con función densidad de probabilidad g(x) = Bx. Debido a que B es una matriz ortogonal, g −1 (y) = B T y y Jg−1 (y) = det B T =
fX (x). Sea ϕ : Rn → Rn una aplicación que satisface las hipótesis del Teorema 6.1. Entonces, ±1
el vector aleatorio Y = ϕ(X) tiene función densidad de probabilidad fY (y) de la forma: 1

1

2
fY (y) = fX (B T y)| det(B T )| = exp − ||B T
y||2 | det(B T )|
(2π)n/2 σ n 2σ 2
fY (y) = fX (ϕ−1 (y))|Jϕ−1 (y)|.
1 1
= n/2 n
exp − 2 ||y||22 .
(2π) σ 2σ
Demostración. Cualquiera sea el conjunto abierto A se tiene que
Z En la última igualdad usamos que ||B T y||2 = ||y||2 debido a que las transformaciones ortog-
P (Y ∈ A) = P (ϕ(X) ∈ A) = P(X ∈ ϕ−1 (A)) = fX (x)dx. onales preservan longitudes.
ϕ−1 (A)
Aplicando el Teorema 6.1 para g = ϕ−1 se obtiene 6.3. Demostración del Teorema.
Z Z Sin perder generalidad se puede suponer que µ = 0. Sea B = {b1 , b2 , . . . , bn } una base
fX (x)dx = fX (ϕ−1 (y))|Jϕ−1 (y)|dy. ortonormal de Rn , donde b1 = √1n [1 . . . 1]T . Sea B ∈ Rn×n la matriz ortogonal cuya i-ésima
ϕ−1 (A) A
fila es bTi . De acuerdo con el Lema 6.4 el vector aleatorio Y = [Y1 . . . Yn ]T = BX tiene la
Por ende misma distribución que X.
Z En primer lugar, observamos que
P (Y ∈ A) = fX (ϕ−1 (y))|Jϕ−1 (y)|dy.
A n
1 X √
Y1 = bT1 X = √ Xi = n(X̄).
Por lo tanto, el vector aleatorio Y tiene función densidad de probabilidad de la forma fY (y) = n
i=1
fX (ϕ−1 (y))|Jϕ−1 (y)|.
En segundo lugar,
1
La noción de base ortonormal respecto del producto interno canónico en Rn y la noción de matriz ortogonal.
Si lo desea, aunque no es del todo cierto, puede pensar que las matrices ortogonales corresponden a rotaciones n
X n
X
espaciales. Yi2 = Y T Y = (BX)T BX = X T B T BX = X T X = Xi2 .
2
Sobre la nomenclatura: Los vectores de Rn se piensan como vectores columna y se notarán en negrita i=1 i=1
x = [x1 . . . xn ]T .
22 23
Ejemplo 8.1. (Continuación) Se trata de un caso particular del esquema anterior, (d) lı́mµ↑+∞ β(µ) = 1
donde p0 = 1/2 y n = 100. En consecuencia, la medida de dispersión (67) es
Esto significa que a medida que nos alejamos de la hipótesis µ = µ0 disminuye el riesgo
2
n1 − 50 de aceptar dicha hipótesis cuando es falsa. La forma tı́pica del gráfico de la función de
D2 = , potencia correspondiente al test de la forma (16) para decidir entre las hipótesis H0 : µ = µ0
5
contra H1 : µ 6= µ1 puede observarse en las Figuras 2 y 3.
y para un nivel de significación α el test de hipótesis (66) adopta la forma
Nota Bene. La función de potencia es útil para determinar cuan grande debe ser la
( 2 )
n1 − 50 2
δ(X) = 1 > χ1, 1−α . muestra aleatoria para conseguir ciertas especificaciones relativas a los errores de tipo II.
5
Por ejemplo, supongamos que queremos determinar el volumen de la muestra n necesario
para asegurar que la probabilidad de rechazar H0 : µ = µ0 cuando el verdadero valor de la
media es µ1 sea aproximadamente β. Esto es, queremos determinar n tal que
1.8
1.6 β(µ1 ) ≈ β.
1.4
1.2 De la expresión (17), esto es equivalente a

1 √ √
n(µ0 − µ) n(µ − µ0 )
0.8 Φ zα/2 + + Φ zα/2 + ≈ β. (18)
σ σ
0.6
0.4 Aunque la ecuación (18) no se pueda resolver analı́ticamente, se puede conseguir una
0.2 solución aproximada mediante la siguiente observación.
0
0 0.5 1 1.5 2 2.5 3 3.5 4
1. Supongamos que µ1 > µ0 . En tal caso, el primer término del lado izquierdo de (18) es
despreciable, (es fácil ver que está acotado por α/2 ≈ 0) y por lo tanto, el problema
se reduce a resolver la ecuación aproximada
Figura 11: La densidad χ21 . √
n(µ1 − µ0 )
Φ zα/2 + ≈ β.
Consultado la tabla de cuantiles de la distribución χ21 vemos que χ21, 0.95 = 3.841. σ
2
De acuerdo con los datos observados n1 = 55, de donde sigue que como D2 = 55−50 5
= √
n(µ1 −µ0 )
En consecuencia, basta tomar n tal que zα/2 + ≈ zβ ó lo que es equivalente
1. En vista de que 1 < χ21, 0.95 , a un nivel de significación del 5 % el test no rechaza la σ
hipótesis de que se la moneda sea honesta. 2

σ(zβ − zα/2 )

n≈ . (19)
µ1 − µ0
Ejemplo 8.2. (Continuación) El color en cada pixel se modela con una variable aleato-
ria X a valores {r, g, b} cuya distribución está completamente determinada por los valores
2. Supongamos que µ1 < µ0 . En tal caso, el segundo término del lado izquierdo de
de las probabilidades P(X = r) = pr , P(X = g) = pg y P(X = b) = pb . Queremos decidir
(18) es despreciable, y por lo tanto, el problema se reduce a resolver la ecuación
si los datos obtenidos son compatibles (o no) con la hipótesis
aproximada √
H0 : pr = 3/6, pg = 2/6, pb = 1/6. n(µ0 − µ1 )
Φ zα/2 + ≈ β.
σ
Para ello construimos un test de bondad de ajuste basado en una muestra aleatoria,
En consecuencia, basta tomar n tal que
X = (X1 , . . . , Xn ) de volumen n = 10 × 10 = 100. Prescrito el nivel de significación α
y clasificando los datos de acuerdo con el color observado obtenemos un test de la forma
σ(zβ − zα/2 ) 2

n≈ . (20)
δ(X) = 1{D2 > χ22, 1−α }, µ0 − µ1
46 15
El resultado obtenido en (19) coincide con el resultado obtenido en (20) y es una aproxi- 8.3. Ejemplos (1a parte)
mación razonable para el volumen de muestra necesario para asegurar que el error de tipo
El siguiente ejemplo tiene la virtud de mostrar, en un caso particular, una lı́nea de
II en el valor µ = µ1 es aproximadamente igual a 1 − β.
demostración del resultado de Pearson sobre la distribución asintótica de D2 .
Ejemplo 4.1. Si se envı́a una señal de valor µ desde un sitio A, el valor recibido en el
sitio B se distribuye como una normal de media µ y desvı́o estándar 2. Esto es, el ruido Ejemplo 8.6 (Bernoulli). Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una distribución
que perturba la señal es una variable aleatoria N (0, 4). El receptor de la señal en el sitio Bernoulli con probabilidad de éxito p. Queremos testear la hipótesis H0 : p = p0 contra
B tiene suficientes motivos para sospechar que recibirá una señal de valor µ = 8. Analizar H1 : p 6= p0 , donde p0 ∈ (0, 1) es un valor determinado.
la consistencia de dicha hipótesis suponiendo que la misma señal fue enviada en forma La medida de dispersión definida en (65) entre las frecuencias observadas
independientemente 5 veces desde el sitio A y el promedio del valor recibido en el sitio B n
¯ = 9.5.
X
es X n1 = Xi y n2 = n − n1
i=1
Solución. Se trata de construir un test de hipótesis para decidir entre las hipótesis
y las frecuencias esperadas
H0 : µ = 8 contra H1 : µ 6= 8, np0 y n(1 − p0 )
usando una muestra X = (X1 , . . . , X5 ) de una distribución N (µ, 4). tiene la siguiente expresión
(n1 − np0 )2 (n − n1 − n(1 − p0 ))2

Test de hipótesis. Para un nivel de significación del 5 % el test es de la forma D2 = + .
np0 n(1 − p0 )
( √ )
5(X ¯ − 8)
δ(X) = 1

> 1.96 (21) Observando que
2
(n1 − np0 )2 (n − n1 − n(1 − p0 ))2 (n1 − np0 )2 (np0 − n1 )2
+ = +
Decisión basada en la muestra observada. Calculamos el valor np0 n(1 − p0 ) np0 n(1 − p0 )
√ √
¯ − µ0 ) 5(9.5 − 8) (1 − p0 )(n1 − np0 )2 + p0 (n1 − np0 )2
n(X =
= = 1.68 np0 (1 − p0 )
σ 2
(n1 − np0 )2

= ,
Como este valor es menor que z1−α/2 = z0.975 = 1.96, se acepta la hipótesis µ = 8. En otras np0 (1 − p0 )
palabras, los datos no son inconsistentes con la hipótesis µ = 8.
se obtiene que
Nota Bene. Notar que, si se relaja el nivel de significación al 10 %, entonces la hipótesis !2
2 n1 − np0
µ = 8 debe rechazarse debido a que el valor z0.95 = 1.645 es menor que 1.68. D = p (67)
np0 (1 − p0 )
Función de potencia. La función de potencia es
Cuando la hipótesis H0 es verdadera, n1 ∼ Binomial (n, p0 ), y de acuerdo con el teorema
√ ! √ !
5(8 − µ) 5(µ − 8) central del lı́mite la distribución de la variable aleatoria
β(µ) = Φ −1.96 + + Φ −1.96 + . (22)
2 2 n1 − np0
p
np0 (1 − p0 )
Si se quiere determinar la probabilidad de cometer un error de tipo II cuando el valor
real enviado es 10 basta poner µ = 10 en la expresión (22) y calcular 1 − β(10): es asintóticamente normal N (0, 1). Por lo tanto, para valores grandes de n, D2 tiene una
√ √ distribución aproximadamente igual a χ21 .
1 − Φ −1.96 − 5 − Φ −1.96 + 5 = Φ (−0.276) − Φ(−4.196) = 0.392.
16 45
alguna medida de la discrepancia entre ambas distribuciones y basar el test de hipótesis en 1
las propiedades de la distribución de dicha medida.
0.9
Hay varias formas de construir esas medidas. La que sigue fue introducida por Karl
Pearson. 0.8
Se divide el rango de la variable aleatoria X en una cantidad finita k de partes disjuntas 0.7
dos a dos, C1 , . . . , Ck , llamadas clases 5 tales que las probabilidades pi = P(X ∈ Ci |H0 ) > 0. 0.6
Las k clases, Ci , serán los k conjuntos en los que agruparemos los datos para tabularlos. 0.5
Se consideran n1 , . . . , nk las frecuencias de aparición de las clases C1 , . . . , Cn en la muestra 0.4
aleatoria X = (X1 , . . . , Xn ),
0.3
n
X k
X 0.2
ni = 1{Xj ∈ Ci } y ni = n.
j=1 i=1 0.1
Bajo la distribución hipotética la cantidad de valores muestrales ni pertenecientes a la 0

2 4 6 8 10 12 14
clase Ci se distribuye como una Binomial(n, pi ), y en consecuencia, para valores grandes
de n, las frecuencias relativas nni deben tener valores muy próximos a las probabilidades pi .
La dispersión entre las frecuencias relativas nni y las probabilidades pi se puede medir del
siguiente modo Figura 2: Gráfico de la función de potencia (22) correspondiente al test de hipótesis definido
k k en (21) para decidir entre H0 : µ = 8 contra H1 : µ 6= 8 con un nivel de significación del
X n
i
2 X (ni − npi )2 5 % y basado en una muestra de volumen 5.
D2 = wi − pi = wi , (64)
i=1
n i=1
n2
donde los coeficientes wi > 0 se pueden elegir de manera más o menos arbitraria. Cuando Ejemplo 4.2. Volvamos al problema del Ejemplo 4.1. Cuántas señales deberı́an enviarse
la hipótesis H0 es verdadera los valores de la medida de dispersión D2 deben ser pequeños, para que el test de nivel de significación α = 0.05 para H0 : µ = 8 contra H1 : µ 6= 8 tenga
lo que sugiere diseñar un test de hipótesis que decida rechazar la hipótesis H0 cuando y al menos una probabilidad igual a 0.75 de rechazar esa hipótesis cuando µ = 9.2?
solo cuando se observa que D2 > M , donde M es una constante arbitraria pero fija.
Karl Pearson demostró que cuando n es grande y la hipótesis H0 es verdadera, poniendo 2
Solución. Como z0.025 = −1.96 y z0.75 = 0.67, de (19) resulta n ≈ 2(0.67+1.96) = 19.21.
wi = pni en (64), la distribución de la medida de dispersión 9.2−8
Para una muestra de volumen 20 el test adopta la forma
k
X (ni − npi )2 ( √
D2 =

(65)
)
, 20(X¯ − 8) n√ o
i=1
npi δ(X) = 1

> 1.96 = 1 5(X
¯ − 8) > 1.96 (23)
2
es aproximadamente igual a una chi cuadrado con k − 1 grados de libertad. (Una de-
mostración de este resultado puede consultarse en: Cramer, H.: Métodos matemáticos de y su función de potencia adopta la expresión
estadı́stica. Aguilar, Madrid. (1970).) √ √
β(µ) = Φ −1.96 + 5(8 − µ) + Φ −1.96 + 5(µ − 8) . (24)
Test de bondad de ajuste χ2 . Para decidir si la muestra aleatoria X = (X1 , . . . , Xn )
proviene de la distribución F se puede adoptar el siguiente criterio: En consecuencia,
δ(X) = 1{D2 > χ2k−1, 1−α }, (66)
β(9.2) = Φ (−4.6433) + Φ (0.72328) = 0.76525.
donde α ∈ (0, 1). Dicho en palabras, rechazar que FX = F cuando y solo cuando la medida
de dispersión D2 definida en (65) supera al cuantil 1 − α de la distribución chi cuadrado Dicho en palabras, si el mensaje se envı́a 20 veces, entonces hay un 76.52 % de posibilidades
con k − 1 grados de libertad. En tal caso, la probabilidad de rechazar H0 cuando H0 es de que la hipótesis nula µ = 8 sea rechazada cuando la media verdadera es 9.2.
verdadera es aproximadamente α.
5
Los valores de la variable aleatoria X pertenecen a una y solo a una de las clases C1 , . . . , Ck .
44 17
1
Ejemplo 8.3 (Números aleatorios). Se producen 10000 números con un generador de
“números aleatorios”. Para economizar espacio se registra la cantidad de números de la
0.9
forma 0. d..., donde d = 0, 1, . . . , 9. Se obtuvieron los resultados siguientes:
0.8
0.7 d 0 1 2 3 4 5 6 7 8 9
(61)
0.6
#{0. d...} 1008 1043 1014 1027 952 976 973 1021 998 988
0.5
¿Los datos se ajustan a una distribución uniforme U[0, 1]?
0.4
0.3
Ejemplo 8.4 (Poisson). Una partı́cula de polen suspendida en agua es bombardeada por
moléculas en movimiento térmico. Se la observa durante una hora y se registra la cantidad
0.2
de impactos que recibe por segundo. Sea X la variable aleatoria que cuenta la cantidad de
0.1
impactos por segundo recibidos por la partı́cula. Se obtuvieron los siguientes datos
0
2 4 6 8 10 12 14
X 0 1 2 3 4 5 6
(62)
# de s. con X impactos 1364 1296 642 225 55 15 3
Figura 3: Gráfico de la función de potencia (24) correspondiente al test definido en (23) Se quiere decidir si los datos provienen de una distribución de Poisson.
para decidir entre las hipótesis H0 : µ = 8 contra H1 : µ 6= 8 con un nivel de significación
Ejemplo 8.5 (Velocidad de la luz). En la siguiente tabla se muestran las mediciones de
del 5 % y basado en una muestra de volumen 20.
la velocidad de la luz realizadas por el fı́sico Albert Michelson entre el 5 de junio y el 5 de
julio de 1879. Los valores dados + 299.000 son las mediciones de Michelson en km/s.
Nota Bene. Comparando las Figuras 2 y 3 se puede ver que, fijado el nivel de signifi-
cación del test, cuando se aumenta el volumen de la muestra disminuyen los errores de tipo 850 740 900 1070 930 850 950 980 980 880
II. 1000 980 930 650 760 810 1000 1000 960 960
960 940 960 940 880 800 850 880 900 840
830 790 810 880 880 830 800 790 760 800
4.2. Variaciones sobre el mismo tema
880 880 880 860 720 720 620 860 970 950
(63)
Basados en una muestra X = (X1 , . . . , Xn ) de una distribución normal N (µ, σ 2 ) con 880 910 850 870 840 840 850 840 840 840
varianza σ 2 conocida se quiere construir un test de nivel de significación α para decidir 890 810 810 820 800 770 760 740 750 760
entre las hipótesis 910 920 890 860 880 720 840 850 850 780
H0 : µ = µ0 contra H 1 : µ > µ0 , 890 840 780 810 760 810 790 810 820 850
870 870 810 740 810 940 950 800 810 870
donde µ0 es un algún valor determinado.
Usando los resultados expuestos en la sección 3.2 tenemos que Las mediciones de la velocidad de la luz de Michelson, ¿se ajustan a una distribución
√ ¯ normal?
n(X − µ0 )
δ(X) = 1 > z1−α . (25)
σ
8.2. Test de bondad de ajuste para hipótesis simples
es un test de nivel α para decidir entre H0 : µ = µ0 contra H1 : µ 6= µ0 . Dicho en palabras,
¯ > µ0 + √σ z1−α y aceptarla en otro caso.
el test de hipótesis consiste en rechazar H0 si X La hipótesis nula afirma que
n
H0 : FX = F,
donde F es una distribución de probabilidades completamente determinada.
Si la hipótesis H0 es verdadera, la función de distribución empı́rica, Fn de los n valores
observados debe ser parecida a la función de distribución F . Lo que sugiere introducir
18 43
basada en dos muestras aleatorias independientes X e Y de volúmenes m = 180 y n = 200, Función de potencia. La función de potencia correspondiente al test (25) es
respectivamente. √ ¯
El test de hipótesis dado en (59) adopta la forma n(X − µ0 )
β(µ) = P (RechazarH0 |µ) = Pµ > z1−α
σ
  √ ¯ √
 √  n(X − µ) n(µ − µ0 )

 ¯
X −Y ¯ 36000

 = Pµ + > z1−α
δ(X, Y) = 1 r > 1.64 (60) σ σ
√ ¯ √

 (180X
 ¯ + 200Y¯ ) 1 − 180X̄+200Ȳ

 n(X − µ) n(µ − µ0 )
= Pµ > −zα −

380
σ σ
√
De acuerdo con los datos observados X ¯ = 30/180 y Y¯ = 25/200: n(µ − µ0 )
= Φ zα + . (26)
√ σ
30 25
180
− 200 36000
q = 1.152 . . . De las propiedades de la función Φ(·) y de la expresión (26) para la función de potencia se
55
55 1 − 380 deduce que
(a) β(µ) creciente.
Debido a que 1.152 . . . < 1.64, no hay evidencia suficiente para rechazar la hipótesis pX =
pY . Por lo tanto, con un 5 % de nivel de significación, no hay evidencia suficiente para (b) β(µ0 ) = α
afirmar que la tasa de desocupación en la Argentina sea superior a la del Uruguay.
(c) lı́mµ↑+∞ β(µ) = 1 y lı́mµ↓−∞ β(µ) = 0.
8. Test de la χ2 para bondad de ajuste Debido a que la función de potencia (26) es creciente, el test definido en (25) también
se puede usar para decidir, con un nivel de significación α, entre la hipótesis
8.1. Planteo del problema H0 : µ ≤ µ0 contra H 1 : µ > µ0 .
Los test de bondad de ajuste tienen por objeto decidir si los datos observados se Ejemplo 4.3. Volvamos al problema presentado en el Ejemplo 4.1 pero supongamos que
ajustan a una determinada distribución de probabilidades. Más precisamente, se formula esta vez estamos interesados en testear con nivel de significación, α = 0.05, la hipótesis
una hipótesis, H, que afirma que los datos observados constituyen una muestra aleatoria H0 : µ ≤ 8 contra la hipótesis alternativa H1 : µ > 8. (Recordar que disponemos de muestra
X = (X1 , . . . , Xn ) de una distribución F . La distribución F puede estar completamente ¯ = 9.5)
aleatoria de volumen 5 de una población normal N (µ, 4) cuyo promedio resultó ser X
especificada (hipótesis simple) o puede pertenecer a una familia paramétrica (hipótesis En este caso, el test de hipótesis definido en (25) puede enunciarse de la siguiente
compuesta). manera:
Algunos ejemplos (para fijar ideas): ¯ > 8 + √2 z0.95 = 9.4712 y aceptarla en otro caso.
Rechazar H0 cuando X (27)
5
Ejemplo 8.1 (Moneda honesta). En una sucesión de 100 lanzamientos independientes de Si se observó que X¯ = 9.5, entonces debe rechazarse la hipótesis µ ≤ 8 a favor de la
una moneda se observaron 55 caras y 45 cecas ¿Estos datos son compatibles con la hipótesis alternativa µ > 9. La función de potencia correspondiente al test de hipótesis (27) es
de que la moneda es honesta?
√ !
5(µ − 8)
Ejemplo 8.2 (Multinomial). Para identificar las obras de su serie titulada Los paisajes β(µ) = Φ −1.64 + (28)
binarios el artista digital Nelo las firma con una imagen aleatoria de 10 × 10 pixels: por 2
cada pixel lanza un dado equilibrado: si sale 1, 2 o 3 lo pinta de rojo; si sale 4 o 5 lo pinta de Si se quiere determinar la probabilidad de aceptar la hipótesis µ ≤ 8 cuando el valor
verde y si sale 6 lo pinta de azul. Se somete a examen la firma de una obra digital titulada real enviado es µ = 10 basta poner µ = 10 en la expresión (28) y calculamos:
Cordillera binaria y se obtienen los siguientes resultados: 46 pixels rojos, 37 verdes y 17 √
azules. ¿La obra Cordillera binaria pertenece a la serie Los paisajes binarios? 1 − β(10) = 1 − Φ −1.64 + 5 = 0.27... (29)
42 19
1
Para construir el test usaremos los estimadores de máxima verosimilitud para las proba-
bilidades px y pY , p̂X = X¯ y p̂Y = Y¯ .
0.9
Vamos a suponer que los volúmenes de las muestras, m y n, son suficientemente grandes
0.8
y que ninguna de las dos variables está sobre representada.
0.7 Puesto que X ¯ y Y¯ son estimadores consistentes para las probabilidades pX y pY , resulta
¯ − X) ¯ y Y¯ 1 − Y¯ son consistentes de las varianzas pX (1 − pX ) y

0.6 que los estimadores X(1
0.5
pY (1 − pY ), respectivamente. Por lo tanto,
 
0.4
 ¯ − Y¯
X 
0.3 δ(X, Y) = 1 q > z1−α
 1X ¯ 1−X ¯ + 1 Y¯ 1 − Y¯

0.2 m n
0.1
es un test, de nivel aproximado α, para decidir entre las hipótesis H0 : ∆ = 0 contra
0
2 4 6 8 10 12 14 H1 : ∆ > 0.
Nota Bene. Observar que el nivel del test se calcula bajo la hipótesis pX = pY , en tal
¯ − Y¯ es de la forma
caso la desviación estándar de la diferencia X
Figura 4: Gráfico de la función de potencia (28) correspondiente al test definido en (27) r r
para decidir entre las hipótesis H0 : µ ≤ 8 contra H1 : µ > 8 con un nivel de significación pX (1 − pX ) pY (1 − pY ) p 1 1
del 5 % y basado en una muestra de volumen 5. + = pX (1 − pX ) +
m n m n
y podemos estimarla mediante
4.3. Hipótesis sobre media con varianza desconocida s
¯ + nY¯ ¯ + nY¯ 1
r
Basados en una muestra aleatoria X = (X1 , . . . , Xn ) de una distribución normal N (µ, σ 2 ) mX mX 1
1− + .
queremos construir un test de nivel de significación α para decidir entre las hipótesis m+n m+n m n
H0 : µ = µ0 contra H1 : µ 6= µ0 , Lo que produce el test

 
donde µ0 es un algún valor determinado.  √ 

 ¯ − Y¯
X mn


δ(X, Y) = 1 r > z1−α  (59)
Test de hipótesis

¯ + nY¯ ) 1 − mX̄+nȲ


 (mX m+n


Para distribuciones normales sabemos que
√ ¯
Q(X,¯ µ) = n(X − µ) ∼ tn−1
S Ejemplo 7.2. Se toma una muestra aleatoria de 180 argentinos y resulta que 30 están
¯ = 1 Pn Xi y S 2 = 1 Pn (Xi − X) ¯ 2. desocupados. Se toma otra muestra aleatoria de 200 uruguayos y resulta que 25 están
es un pivote para µ basado en X n i=1 n−1 i=1 desocupados. ¿Hay evidencia suficiente para afirmar que la tasa de desocupación de la
Es fácil ver que el pivote satisface las dos condiciones enunciadas al principio de la
población Argentina es superior a la del Uruguay?
Sección 3. De acuerdo con los resultados expuestos en la sección 3.1
√ ¯ √ ¯
n(X − µ0 ) n(X − µ0 ) Solución. La población desocupada de la Argentina puede modelarse con una variable
δ(X) = 1 < tn−1, α/2 + 1 > tn−1, 1−α/2 , (30)
S S aleatoria X ∼ Bernoulli(pX ) y la del Uruguay con una variable aleatoria Y ∼ Bernoulli(pY ).
Para resolver el problema utilizaremos un test de nivel de significación α = 0.05 para
es un test de nivel α para decidir entre las √hipótesis H0 : µ = µ√0 contra H1 : µ 6= µ0 .
0) 0)
decidir entre las hipótesis
Dicho en palabras, el test en rechazar H0 si n(X̄−µ
S
< tn−1, α/2 o n(X̄−µ
S
> tn−1, 1−α/2 y
aceptarla en otro caso. H0 : pX = pY contra H 1 : p X > pY
20 41
Si σ 2 y τ 2 son conocidas, de (58) resulta que las regiones de rechazo: Ejemplo
(ξˆm − η̂n ) − δ0 Ejemplo 4.4. En la siguiente tabla se muestran las mediciones, en segundos de grado,
(a) q > z1−α ; obtenidas por James Short (1761), de la paralaje solar (ángulo bajo el que se ve el radio
σ2 2
m
+ τn ecuatorial de la tierra desde el centro del sol) .
(ξˆm − η̂n ) − δ0
(b) q < zα ; 8.50 8.50 7.33 8.64 9.27 9.06 9.25 9.09 8.50 8.06
σ2 2
m
+ τn 8.43 8.44 8.14 7.68 10.34 8.07 8.36 9.71 8.65 8.35
8.71 8.31 8.36 8.58 7.80 7.71 8.30 9.71 8.50 8.28
(ξˆm − η̂n ) − δ0

9.87 8.86 5.76 8.44 8.23 8.50 8.80 8.40 8.82 9.02
(c) q > z1−α/2
σ2
+ τ2

10.57 9.11 8.66 8.34 8.60 7.99 8.58 8.34 9.64 8.34
m n
8.55 9.54 9.07
producen un test para H0 contra H1 de nivel asintótico α, para cada uno de los casos
¯ = 8.6162 y S = 0.749. En la Figura 5 se muestra un
Con esos datos tenemos que X
considerados, respectivamente.
Si σ 2 y τ 2 son desconocidas y σb2 y τb2 son estimadores consistentes para σ 2 y τ 2 , se puede histograma de los datos.
demostrar que las regiones de rechazo conservan su validez cuando σ 2 y τ 2 se reemplazan
por σb2 y τb2 , respectivamente y entonces el test con región de rechazo 0.7
(ξˆm − η̂n ) − δ0 0.6

(a) q > z1−α ;
c2
σ c2
m
+ τn 0.5
(ξˆm − η̂n ) − δ0 0.4

(b) q < zα ;
c2
σ τc2
m
+ n 0.3

(ξˆm − η̂n ) − δ0

0.2
(c) q > z1−α/2

c2
σ τc2

m
+ n

0.1
también tiene nivel asintótico α. 0

5 6 7 8 9 10 11 12
Para mayores detalles se puede consultar el libro Lehmann, E. L. (1999) Elements of
Large-Sample Theory. Springer, New York.
Nota Bene. Notar que el argumento anterior proporciona un método general de nat- Figura 5: Histograma de las mediciones obtenidas por James Short. Parece razonable
uraleza asintótica. En otras palabras, en la práctica los resultados que se obtienen son asumir que las mediciones de la paralaje solar tienen distribución normal.
aproximados. Dependiendo de los casos particulares existen diversos refinamientos que
permiten mejorar esta primera aproximación. Asumiendo que las mediciones tienen distribución N (µ, σ 2 ) queremos decidir, con un
nivel de significación α = 0.05, entre las hipótesis
7.4. Problema de dos muestras binomiales
H0 : µ = 8.798 contra H1 : µ 6= 8.798
Sean X = (X1 , . . . , Xm ) e Y = (Y1 , . . . , Yn ) dos muestras aleatorias independientes
Como n = 53 y t52, 0.025 = −t52, 0.975 = −2.0066, el test de hipótesis (30) adopta la forma
de dos variables aleatorias X e Y con distribución Bernoulli de parámetros pX y pY ,
respectivamente. Sea ∆ = pX − pY . Queremos un test para decidir entre las hipótesis (√ ) (√ )
53(X ¯ − 8.798) 53(X¯ − 8.798)
δ(X) = 1 < −2.0066 + 1 > 2.0066 .
H0 : ∆ = 0 contra H1 : ∆ > 0 S S
40 21
Usando los datos de las mediciones tenemos que Ejemplo 7.1. Queremos construir un test de nivel α = 0.05 para decidir entre H0 : R = 1
√ √ contra H1 : R 6= 1 usando muestras X y Y de volumen m = n = 10.
53(X¯ − 8.798) 53(8.6162 − 8.798) Proponemos un test de la forma (57). El problema se reduce determinar valores φ1 y
= = −1.7667.
S 0.749 φ2 tales que
Por lo tanto, no hay evidencia suficiente para rechazar que la paralaje solar es µ = 8.798. P(F9, 9 > φ2 ) = 0.025 y P(F9, 9 < φ1 ) = 0.025.
′′
Usando como paralaje solar el valor µ = 8.798 y como radio ecuatorial de la tierra el Usando las tablas de las distribuciones F resulta que φ2 = 4.5362 y que φ1 = 1/φ2 = 0.2204.
valor R = 6378 km., trigonometrı́a mediante, se puede determinar la distancia D entre la Finalmente, se obtiene el test
tierra y el sol:
8.798 π 6378 δ(X, Y) = {F ∈
/ [0.2204, 4.5362]} .
tan × = ⇐⇒ D = 1.4953 × 108 .
3600 180 D
Lo que significa que la distancia entre la tierra y el sol es 149.53 millones de km.
7.3. Planteo general

5. Test para probabilidad de éxito de distribuciones Supongamos que tenemos dos muestras aleatorias independientes X = (X1 , . . . , Xm ) e
Bernoulli Y = (Y1 , . . . , Yn ) con distribuciones dependientes de los parámetros ξ y η, respectivamente.
Sea ∆ = ξ − η.
Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable aleatoria con distribución Se quiere decidir entre la hipótesis fundamental
Bernoulli(p), p ∈ (0, 1). Basados en la muestra aleatoria, X, queremos construir test para
decidir entre dos hipótesis sobre la probabilidad de éxito p. H0 : ∆ = δ0
La cantidad de éxitos en la muestra
n
contra cualquiera de las hipótesis alternativas:
X
N= Xi
(a) H1 : ∆ > δ0 ;
i=1
(b) H1 : ∆ < δ0 ;
tiene distribución Binomial(n, p) y resume toda la información relevante sobre el parámetro (c) 6 δ0 .
H1 : ∆ =
p contenida en la muestra aleatoria X. La media y la varianza de N son, respectivamente,
Ep [N ] = np y Vp (N ) = np(1 − p). Sabemos que si dos estimadores para ξ y η, ξˆm y η̂n , tienen la propiedad de normalidad
asintótica
Lema 5.1 (Dominación estocástica). Sean 0 < p1 < p2 < 1 arbitrarios pero fijos. Si N1 ∼
Binomial(n, p1 ) y N2 ∼ Binomial(n, p2 ), entonces para cada x ∈ R vale que √ ˆ
m(ξm − ξ) → N (0, σ 2 ) cuando m → ∞,
√
P(N2 ≤ x) ≤ P(N1 ≤ x). n(η̂n − η) → N (0, τ 2 ) cuando n → ∞,
donde σ 2 y τ 2 pueden depender de ξ y η, respectivamente y ninguna de las variables

Demostración Sean U1 , . . . , Un variables aleatorias independientes cada una con dis- está sobre-representada (i.e., m y n son del mismo orden de magnitud), entonces
tribución U(0, 1). Para cada i = 1, . . . , n construya las siguientes variables
(ξˆm − η̂n ) − (ξ − η)
X1,i := 1{Ui ≤ p1 }, X2,i := 1{Ui ≤ p2 }. q → N (0, 1) (58)
σ2 2
m
+ τn
Por construcción valen las siguientes propiedades:
(a) las variables X1,1 , . . . , X1,n son iid Bernoulli(p1 );
(b) las variables X2,1 , . . . , X2,n son iid Bernoulli(p2 );
22 39
Se puede mostrar que (c) para cada i vale que X2,i ≥ X1,i .
2
(n + m − 2) 2 (m − 1)SX + (n − 1)SY2 En consecuencia, las variables
U= SP = ∼ χn+m−2 .
σ2 σ2 n n
X X
ˆ1 := X1,i ∼ Binomial(n, p1 ), ˆ2 := X2,i ∼ Binomial(n, p2 )
Debido a que las variables Z y U son independientes, tenemos que N N
i=1 i=1
Z ¯ − Y¯
X
T =p =p q ∼ tm+n−2 verifican que Nˆ1 ≤ Nˆ2 . Se deduce entonces que que {Nˆ2 ≤ x} ⊆ {Nˆ1 ≤ x}, para cualquier
U/(m + n − 2) SP m1 +
2 1
n x ∈ R. Por lo tanto,

Por lo tanto,   P(N2 ≤ x) = P Nˆ2 ≤ x ≤ P Nˆ1 ≤ x = P (N1 ≤ x) .
¯ − Y¯

X 
δ(X, Y) = 1 p q > tm+n−2, 1−α .
 S2 1 + 1 
P m n
Corolario 5.2. Sea N una variable aleatoria con distribución Binomial(n, p), p ∈ (0, 1).
es un test de nivel de significación α para decidir entre las hipótesis H0 : ∆ = 0 contra
Fijado un valor x ∈ R+ , la función polinómica de grado n, h : (0, 1) → [0, 1], definida por
H1 : ∆ > 0.
[x]
X n
7.2. Test F para varianzas de normales. h(p) = Pp (N ≤ x) = pk (1 − p)n−k
k=0
k
2
de distribuciones normales N (µX , σX ) y N (µY , σY2 ), respectivamente. Sea R = σX 2
/σY2 . es decreciente.
Queremos un test para decidir entre las hipótesis
5.1. Test para moneda honesta (de lo simple a lo complejo)
H0 : R = 1 contra H1 : R 6= 1.
Se quiere decidir si una moneda es honesta o no lo es. Formalmente, se trata de construir
2
Las varianzas σX y σY2 se pueden estimar mediante sus estimadores insesgados SX
2
y SY2 . un test para decidir entre las hipótesis
Las variables
1 1
(m − 1) 2 (n − 1) 2 H0 : p = contra H1 : p 6= .
U= SX ∼ χ2m−1 y V = SY ∼ χ2n−1 2 2
2
σX σY2
1.- Se quiere decidir tirando la moneda 6 veces. ¿Qué hacer? Observamos la cantidad N
son independientes. de caras obtenidas en los 6 tiros. Para cada p tenemos que N ∼ Binomial(6, p). Cuando
la moneda es honesta, E1/2 [N ] = 3. Teniendo en cuenta la existencia de fluctuaciones
Test de hipótesis. Bajo la hipótesis H0 : R = 1, vale que parece razonable aceptar que la moneda es honesta cuando observamos que 2 ≤ N ≤ 4.
2 Proponemos entonces el siguiente test
SX S 2 /σ 2
F = 2
= X2 X ∼ Fm−1, n−1 .
SY SY /σY2 δ(X) = 1 − 1{2 ≤ N ≤ 4} = 1{N < 2} + 1{N > 4},
Por lo tanto, cuya función de potencia des
δ(X, Y) = 1 {F ∈
/ [φ1 , φ2 ]} , (57) β(p) = Pp (N ≤ 1) + Pp (N ≥ 5) = (1 − p)6 + 6p(1 − p)5 + 6p5 (1 − p) + p6 .
donde φ1 y φ2 son tales que P(F < φ1 ) = P(F > φ2 ) = α/2, es un test de nivel α para Dada una moneda honesta, ¿qué riesgo se corre de rechazarla como falsa? Esta pregunta
6 1.
decidir entre las hipótesis H0 : R = 1 contra H1 : R = se contesta calculando el nivel de significación del test α = β(1/2) = 14 = 0.21875.
64
38 23
1
Ejemplo 6.2. En la Sección dedicada al estudio de intervalos de confianza mostramos
que cuando una muestra aleatoria X (de volumen 8) de una población normal N (µ, σ 2 )
0.9 arroja los valores 9, 14, 10, 12, 7, 13, 11, 12, el intervalo Iσ2 = [2.248, 21.304] es un intervalo
0.8
de confianza de nivel β = 0.95 para la varianza σ 2 .
Si se quiere decidir al 5 % de significación entre las hipótesis
0.7
H0 : σ 2 = 4 contra H1 : σ 2 6= 4.
0.6
el test de hipótesis (56) conduce a no rechazar la hipótesis σ 2 = 4.
0.5
0.4
7. Comparación de dos muestras
0.3
0.2 7.1. Test para medias de dos muestras normales.

0 0.2 0.4 0.6 0.8 1

2
de distribuciones normales N (µX , σX ) y N (µY , σY2 ), respectivamente. Sea ∆ = µX − µY .
Queremos un test para decidir entre las hipótesis
Figura 6: Gráfico de la función de potencia del test δ(X) = 1{N < 2} + 1{N > 4}.
H0 : ∆ = 0 contra H1 : ∆ > 0.
2.- Se propone el siguiente test: lanzar la moneda 100 veces y contar la cantidad de caras
observadas N . Si 40 ≤ N ≤ 60 se decide que la moneda es honesta. En caso contrario, se 7.1.1. Varianzas conocidas
decide que no lo es. 2
Supongamos que las varianzas σX y σY2 son conocidas. Para construir el test de hipótesis
Definido el test lo único que queda por hacer es evaluar los riesgos de decisiones erróneas. usaremos los estimadores de media: X¯ y Y¯ . Puesto que
Para ello calculamos la función de potencia 2 2

X¯ − Y¯ ∼ N ∆, σX + σY
β(p) = P(RechazarH0 | p) = Pp (N < 40) + Pp (N > 60). m n
Para cada p la cantidad de caras observadas en 100 lanzamientos se distribuye como una el test de nivel α decidir entre H0 : ∆ = 0 contra H1 : ∆ > 0 es
 
Binomial: N ∼ Binomial(100, p). En consecuencia,  X ¯ − Y¯ 
δ(X, Y) = 1 q 2 > z1−α
39 100  σX σY2
X 100 X 100 + n

β(p) = pk (1 − p)100−k + pk (1 − p)100−k . (31) m
k=0
k k=61
k
Sin una herramienta computacional a la mano es insensato calcular riesgos utilizando

la expresión obtenida en (31). Como el volumen de la muestra es 100 usando el teorema 7.1.2. Varianzas desconocidas pero iguales.
central del lı́mite, N ∼ N (100p, 100p(1 − p), podemos obtener una buena aproximación 2
Supongamos las varianzas σX = σY2 = σ 2 . En tal caso, bajo la hipótesis ∆ = 0 tenemos
de la función de potencia, (al menos para valores de p contenidos en el intervalo abierto que
(0.12, 0.88)) X¯ − Y¯
Z=√ q ∼ N (0, 1).
1
2 + n1
! !
40 − 100p 60 − 100p σ m
β(p) ≈ Φ p +1−Φ p
100p(1 − p) 100p(1 − p) Para estimar la varianza σ 2 ponderamos “adecuadamente” los estimadores de varianza SX
2
2
! ! y SY ,
4 − 10p 10p − 6 m−1 n−1 2
(m − 1)SX + (n − 1)SY2
= Φ p +Φ p (32) SP2 := 2
SX + SY2 = .
p(1 − p) p(1 − p) m+n−2 m+n−2 m+n−2
24 37
1 1
0.9 0.9
0.8 0.8
0.7
0.7
0.6
0.6
0.5
0.5
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
0 1 2 3 4 5 6 7 8 9
0
0 0.2 0.4 0.6 0.8 1
Figura 10: Gráfico de la función de potencia del test (55).

Figura 7: Gráfico de la función de potencia del test δ(X) = 1{N < 40} + 1{N > 60}. En
lı́nea quebrada aproximación usando el TCL.
6.2. Hipótesis sobre varianza con media desconocida
Usando intervalos de confianza para la varianza de una distribución normal N (µ, σ 2 ) Es más o menos claro que la función de potencia es simétrica respecto de p = 1/2. Esto es,
vamos a construir test de hipótesis de nivel de significación α para decidir entre para cada q ∈ (0, 1/2)), vale que β(1/2 − q) = β(1/2 + q).
Riesgos:
H0 : σ 2 = σ02 contra H1 : σ 2 6= σ02 ,
1. El nivel de significación del test es α = β(1/2). Calculamos β(1/2) utilizando la
para algún valor σ02 determinado. aproximación obtenida en (32)
Dada una muestra aleatoria X = (X1 , . . . , Xn ) de la distribución normal N (µ, σ 2 )
! !
sabemos que 4−5 5−6
β(1/2) ≈ Φ p = Φ(−2) + Φ(−2) ≈ 0.0455
" #
(n − 1)S 2 (n − 1)S 2 +Φ p
I(X) = , , 1/4 1/4
χ2n−1, 1−α/2 χ2n−1, α/2
Esto significa que la probabilidad de rechazar que la moneda es honesta, cuando en
es un intervalo de confianza para σ 2 de nivel β. Poniendo β = 1 − α se obtiene el siguiente
verdad lo es, será 0.0455. En palabras: de cada 100 monedas honestas sometidas a
test de nivel α para decidir entre las hipótesis H0 : σ 2 = σ02 contra H1 : σ 2 6= σ02
verificación (en promedio) serán rechazadas como falsas 4 o 5 de ellas.
δ(X) = 1{I(X) 6∋ σ02 } 2. ¿Qué riesgo se corre de aceptar como honesta una moneda falsa, con carga 0.7 hacia
(n − 1)S 2 (n − 1)S 2

= 1 < χ 2
+ 1 > χ 2
(56) el lado de la cara? Para contestar esta pregunta tenemos que calcular el valor de
n−1, α/2 n−1, 1−α/2 .
σ02 σ02 1 − β(0.7). Usando (32) obtenemos

Función de potencia. Notar que el análisis de función de potencia de test (56) es 4−7 7−6
1 − β(0.7) ≈ 1 − Φ √ −Φ √ ≈ 0.0146.
completamente análogo al desarrollado para el caso en que suponı́amos que la media µ es 0.21 0.21
conocida.
Grosso modo el resultado se interpreta de la siguiente manera: de cada 100 monedas
cargadas con 0.7 para el lado de cara sometidas a verificación (en promedio) serán
Nota Bene. Notar que los test de hipótesis definidas en (54) y (56) son inmediatamente
aceptadas como honestas 1 o 2 de ellas.
útiles para tomar decisiones.
36 25
3.- Queremos un test de nivel de significación α = 0.05, basado en 64 lanzamientos de la para algún valor σ02 determinado.
moneda. Parece razonable proponer un test de la forma Dada una muestra aleatoria X = (X1 , . . . , Xn ) de la distribución normal N (µ, σ 2 ) con
media µ conocida, sabemos que
δ(X) = 1{N < 32 − k} + 1{N > 32 + k}. " #
nσb2 mv nσb2 mv
El problema consiste en determinar el valor de k. El nivel de significación del test es I(X) = , ,
χ2n, (1+β)/2 χ2n, (1−β)/2
β(1/2) = P1/2 (N < 32 − k) + P1/2 (N > 32 + k)
donde nσb2 mv = ni=1 (Xi − µ)2 , es un intervalo de confianza para σ 2 de nivel β. Poniendo
P
Para p = 1/2, N ∼ Binomial(64, 1/2) y usando el teorema central de lı́mite obtenemos β = 1−α se obtiene el siguiente test de nivel α para decidir entre las hipótesis H0 : σ 2 = σ02
que la distribución de N es aproximadamente normal de media E1/2 [N ] = (1/2)64 = 32 y contra H1 : σ 2 6= σ02
varianza V1/2 (N ) = (1/2)(1/2)64 = 16.
δ(X) = 1{I(X) 6∋ σ02 }
β(1/2) = P1/2 (N < 32 − k) + P1/2 (N > 32 + k)
( n
) ( n
)
1 X 2 2 1 X 2 2

N − 32

N − 32
= 1 (Xi − µ) < χ n, α/2 + 1 (Xi − µ) > χ n, 1−α/2 . (54)
≈ P1/2 <−
k
+ P1/2 >
k σ02 i=1 σ02 i=1
4 4 4 4

k k k Función de potencia. Para calcular y analizar el comportamiento de la función de
= Φ − +Φ − = 2Φ −
4 4 4 potencia,
β(σ 2 ) = P(RechazarH0 |σ 2 ),
En consecuencia,
debe recordarse que cuando el verdadero valor de la varianza es σ 2 , la variable aleatoria
k k 1
Pn 2 2 σ02
β(1/2) = 0.05 ⇐⇒ Φ − = 0.025 ⇐⇒ − = z0.025 = −1.96 ⇐⇒ k = 7.84. σ2 i=1 (Xi −µ) tiene distribución χn = Γ(n/2, 1/2). Multiplicando por σ 2 en las desigual-
4 4 dades dentro de las llaves en la fórmula del test (54), y “calculando” las correspondientes
probabilidades, obtenemos la siguiente expresión
Por lo tanto, el test adopta la forma
a(σ 2 ) ∞
(1/2)n/2 (n/2)−1 − 1 x (1/2)n/2 (n/2)−1 − 1 x
Z Z
δ(X) = 1{N < 32 − 7.84} + 1{N > 32 + 7.84} = 1{N < 25} + 1{N > 39}. β(σ 2 ) = x e 2 dx + x e 2 dx,
0 Γ(n/2) b(σ 2 ) Γ(n/2)
En palabras, el test consiste en lo siguiente: lanzar la moneda 64 veces; si la cantidad de
caras observadas es menor que 25 o mayor que 39, se decide que la moneda está cargada; donde
σ02 2 σ02 2
en caso contrario, se decide que la moneda es honesta. a(σ 2 ) = χ , b(σ 2 ) = χ .
σ 2 n, α/2 σ 2 n,1−α/2
¿Qué riesgo se corre de aceptar como honesta una moneda con carga 0.7 hacia el lado
de la cara? La respuesta
p se obtiene calculando 1 − β(0.7). Para p = 0.7 el TCL establece
que (N − 0.7(64))/ (0.7)(0.3)64 ∼ N (0, 1), en consecuencia, Ejemplo 6.1. Dada una muestra aleatoria de volumen 10 de una población normal de
! ! media 0 se quiere construir un test de nivel α = 0.05 para decidir entre las hipótesis
25 − 0.7(64) 0.7(64) − 39 H0 : σ 2 = 1 contra H1 : σ 2 6= 1.
β(0.7) ≈ Φ p +Φ p ≈ Φ(1.5821) = 0.94318.
(0.21)64 (0.21)64
Solución. Como χ210, 0.025 = 3.247 y χ210, 0.975 = 20.483, el test de hipótesis (54) adopta la
Por lo tanto, 1 − β(0.7) = 0.0568... forma
( n ) ( n )
4.- Queremos un test de nivel de significación α = 0.05, cuya potencia cuando la carga X X
δ(X) = 1 Xi2 < 3.247 + 1 Xi2 > 20.483 . (55)
difiere de 0.5 en más de 0.1 sea como mı́nimo 0.90. Parece razonable proponer una regla
i=1 i=1
de la forma
δ(X) = 1{N < n(1/2) − k} + 1{N > n(1/2) + k}.
26 35
Potencia en una alternativa. El análisis de la potencia en las hipótesis alternativas 1
simples p = p1 , con p1 > p0 , se realiza siguiendo las mismas lı́neas desarrolladas en la
0.9
sección anterior.
0.8
Ejemplo 5.3. Un productor de chips afirma que no más del 2 % de los chips que produce 0.7
son defectuosos. Una compañı́a electrónica (impresionada por dicha afirmación) le compra 0.6
una gran cantidad de chips. Para determinar si la afirmación del productor se puede tomar
0.5
literalmente, la compañı́a decide testear una muestra de 300 de esos chips. Si se encuentra
0.4
que 10 de los 300 chips son defectuosos, deberı́a rechazarse la afirmación del productor?
0.3
Solución. Formalmente, el problema consiste en construir un test de hipótesis para de- 0.2
cidir entre 0.1
H0 : p ≤ 0.02 contra H1 : p > 0.02. 0

0 0.2 0.4 0.6 0.8 1
sobre la base de una muestra de volumen 300.
Fijado un nivel de significación, por ejemplo α = 0.05, el test de hipótesis (52) adopta
la forma
n p o Figura 8: Gráfico de la función de potencia del test δ(X) = 1{N < 25} + 1{N > 39}. En
δ(X) = 1 N > 300(0.02) + z0.95 300(0.02)(0.98) = 1{N > 9.9886} lı́nea quebrada aproximación usando el TCL.
= 1{N ≥ 10}. (53)
El problema consiste en determinar el volumen de la muestra, n, y el valor de k. Las
Dicho en palabras, al nivel del 5 % de significación, un test para decidir entre las condiciones impuestas al test pueden expresarse de la siguiente manera
hipótesis H0 : p ≤ 0.02 contra H1 : p > 0.02, basado en una muestra de volumen 300,
α(δ) ≤ 0.05 y β(0.6) ≥ 0.90, (33)
consiste en rechazar la hipótesis H0 siempre que se observen 10 o más éxitos.
Traducido al problema que estamos examinando, el criterio de decisión puede enunciarse donde α(δ) = β(1/2) es en nivel del test y β(0.6) es la potencia en p = 0.6.
de la siguiente manera: “examinar 300 componentes. Si se observan 10 o más defectuosos Ambos problemas se resuelven caracterizando la función de potencia del test
debe rechazarse la afirmación del productor de que produce con una calidad de a lo sumo
β(p) = Pp (N < n(1/2) − nǫ) + Pp (N > n(1/2) + nǫ)
un 2 %, si se observan menos de 10 defectuosos no hay evidencia suficiente para rechazar
su afirmación.” De acuerdo con el el TCL tenemos que para cada p
En conclusión, como en la muestra examinada se observaron 10 chips defectuosos, al N − np
nivel del 5 % de significación, la afirmación del productor debe rechazarse. Z=p ∼ N (0, 1),
np(1 − p)
en consecuencia,
6. Test para varianza de normales ! !
n(1/2 − p) − nǫ n(1/2 − p) + nǫ
El objetivo de esta sección es ilustrar cómo se pueden obtener test de hipótesis usando β(p) ≈ Pp Z< p + Pp Z > p
np(1 − p) np(1 − p)
intervalos de confianza. √ ! √ !
n(1/2 − p − ǫ) n(p − 1/2 − ǫ)
= Φ p +Φ p
6.1. Hipótesis sobre varianza con media conocida p(1 − p) p(1 − p)
Usando intervalos de confianza para la varianza de una distribución normal N (µ, σ 2 ) Notar que para p > 1/2 el primer término del lado derecho de la igualdad es despreciable
con media µ conocida vamos a construir test de hipótesis de nivel de significación α para y entonces
√
decidir entre

n(0.1 − ǫ)
H0 : σ 2 = σ02 contra H1 : σ 2 6= σ02 , β(0.6) ≈ Φ √
0.24
34 27
Por otra parte, Test de hipótesis. En este caso resulta intuitivamente claro proponer test de forma
√ !
− nǫ √ δ(X) = 1{N > np0 + nǫ}, (47)
β(1/2) ≈ 2Φ p = 2Φ −2 nǫ
1/4
donde n y ǫ son parámetros ajustables.
En consecuencia, las desigualdades (33) son equivalentes a las siguientes:
√
√

n(0.1 − ǫ) Función de potencia. Fijados n y ǫ la función de potencia del test es
2Φ −2 nǫ ≤ 0.05 y Φ √ ≥ 0.90.
0.24
β(p) = P (rechazarH0 | p) = Pp (δ(X) = 1) = Pp (N > np0 + nǫ)
Por lo tanto, n y ǫ deben ser tales que n
√ n k
X
√ n(0.1 − ǫ) = p (1 − p)n−k . (48)
2ǫ n ≥ z0.975 y √ ≥ z0.90 (34) k
k=[np0 +nǫ]+1
0.24
Recurriendo a una tabla de la distribución normal, usando una calculadora de almacenero De acuerdo con el Corolario 5.2 la función de potencia es creciente. Esto es intuitivamente
√
(que tenga una tecla con el sı́mbolo ·), y operando con las desigualdades (34) se pueden claro si se piensa que cuando aumenta la probabilidad de cada éxito, la cantidad de éxitos
obtener soluciones particulares. Por ejemplo, n = 259 y ǫ = 0.061. debe aumentar.
Tomando n = 259 y ǫ = 0.061 obtenemos la siguiente regla de decisión:
δ(X) = 1{N < 114} + 1{N > 145}. Aproximación por TCL. Si el volumen de muestra es suficientemente grande, usando
el teorema central del lı́mite podemos obtener la siguiente expresión aproximada de la
En palabras, el test establece que hay que lanzar la moneda 259 veces y contar la cantidad función de potencia
de caras observadas. Si la cantidad de caras observadas es menor que 114 o mayor que 145 ! √ !
se decide que la moneda está cargada. En caso contrario, se decide que es honesta. N − np np0 + nǫ − np n(p − p0 − ǫ)
β(p) = Pp p > p ≈Φ p . (49)
np(1 − p) np(1 − p) p(1 − p)
Una cuenta. Para obtener el resultado particular n = 259 y ǫ = 0.061 hay que hacer lo
siguiente: En primer lugar, hay que observar que Nivel de significación. Como la función de potencia es creciente, el nivel de significación
√
n(0.1 − ǫ) √ √ del test se obtiene de la siguiente manera
√ ≥ z0.90 ⇐⇒ n(0.1 − ǫ) ≥ z0.90 0.24
0.24
√ n √ !
√ √

X n k − nǫ
⇐⇒ 0.1 n − z0.90 0.24 ≥ ǫ n α(δ) = máx β(p) = β(p0 ) = p0 (1 − p0 )n−k ≈ Φ p . (50)
√ √ √ p≤p0 k
k=[np0 +nǫ]+1
p0 (1 − p0 )
⇐⇒ 2 0.1 n − z0.90 0.24 ≥ 2ǫ n (35)
La última desigualdad de (35) combinada con la primera de (34) implican que n debe La aproximación en (50) presupone que el volumen de muestra es suficientemente grande
satisfacer las desigualdades (por ejemplo, np0 (1 − p0 ) > 10).
√ √ √ √ Prefijados un volumen de muestra suficientemente grande y un nivel de significación α
0.2 n − 2z0.90 0.24 ≥ z0.975 ⇐⇒ n ≥ 5 z0.975 + 2z0.90 0.24 para el test de hipótesis, la aproximación (50) permite hallar el valor de ǫ
√ 2 p √
⇐⇒ n ≥ 25 z0.975 + 2z0.90 0.24 z1−α p0 (1 − p0 ) = nǫ. (51)
Tabla de la distribución normal (z0.975 = 1.96, z0.90 = 1.28) y calculadora mediante, se Test de hipótesis con nivel de significación aproximado. Usando el diseño (47)
obtiene que n ≥ 259. Poniendo n = 259 en la tercera desigualdad de (35) se puede ver que y el resultado obtenido en (51) se deduce que, para n suficientemente grande y fijo, la
ǫ debe ser tal que forma del test de hipótesis de nivel de significación α para decidir entre H0 : p ≤ p0 contra
√
0.24 H1 : p > p0 es
ǫ ≤ 0.1 − z0.90 √ ≈ 0.061.
259 n p o
δ(X) = 1 N > np0 + z1−α np0 (1 − p0 ) . (52)
Podemos elegir ǫ = 0.061.
28 33
Potencia en una alternativa. El mismo problema se presenta cuando se prescribe una 1
potencia β para una alternativa p1 . En esta situación trataremos de resolver la desigualdad
0.9
β(p1 ) ≥ β. Nuevamente la aproximación (39) permite resolver el problema:
0.8
Si p1 < p0 el segundo término en (39) es despreciable respecto del primero y entonces 0.7
obtenemos la siguiente aproximación: 0.6
√ !
0.5
n(p − p1 − ǫ)
β(p1 ) ≈ Φ p 0 . (44) 0.4
p1 (1 − p1 )
0.3
0.2
Si p1 > p0 el primer término es despreciable respecto del segundo y entonces obten-
emos la siguiente aproximación: 0.1
0
√ ! 0 0.2 0.4 0.6 0.8 1
n(p − p0 − ǫ)
β(p1 ) ≈ Φ p 1 . (45)
p1 (1 − p1 )
Para fijar ideas supongamos que p1 > p0 . Razonando del mismo modo que antes se Figura 9: Gráfico de la función de potencia del test δ(X) = 1{N < 114} + 1{N > 145}.
obtiene la siguiente solución “aproximada” de la inecuación β(p1 ) ≥ β: En lı́nea quebrada aproximación usando el TCL.
√
n(p − p0 − ǫ) 5.2. Hipótesis fundamental simple
p 1 ≥ zβ . (46)
p1 (1 − p1 )
Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable aleatoria con distribución
El razonamiento anterior muestra que, prefijados dos valores α y β, se pueden diseñar test Bernoulli(p), p ∈ (0, 1). Basados en la muestra aleatoria X queremos construir test para
de hipótesis de la forma (36) con prescripciones del siguiente tipo: nivel de significación decidir entre las hipótesis
menor o igual que α y/o potencia en una alternativa particular superior a β.
H0 : p = p0 contra H1 : p 6= p0 ,
5.3. Hipótesis fundamental compuesta donde p0 ∈ (0, 1) es un valor arbitrario pero fijo.
Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable aleatoria con distribución
Bernoulli(p), p ∈ (0, 1). Basados en la muestra aleatoria X queremos construir test para Primera fase: diseñar un test de hipótesis
decidir entre las hipótesis Cuando la hipótesis H0 es verdadera,
Pn
p la cantidad de éxitos N = i=1 Xi tiene distribu-
ción binomial de media np0 y desvı́o np0 (1 − p0 ). Parece razonable construir reglas de
H0 : p ≤ p0 contra H1 : p > p0 ,
decisión de la forma
donde p0 ∈ (0, 1) es un valor arbitrario pero fijo.
δ(X) = 1 {N < np0 − nǫ} + 1 {N > np0 + nǫ} , (36)
Programa de actividades. Adaptaremos los argumentos y razonamientos desarrollados donde n ∈ N y ǫ > 0 son arbitrarios pero fijos.
en la sección 5.2. La primera fase del programa consiste en construir test de hipótesis En castellano, el test de hipótesis definido en (36) establece el siguiente procedimiento
basados en la cantidad de éxitos de la muestra N = ni=1 Xi . La segunda fase del programa
P
de decisión:
consiste en evaluar los riesgos de tomar decisiones erróneas con los test construidas: se trata
de caracterizar analı́ticamente la función de potencia y estudiar sus propiedades cualitativas 1. Examinar una muestra de tamaño n de la variableP
aleatoria Bernoulli, X = (X1 , . . . , Xn )
y cuantitativas: cálculo del nivel de significación y de la potencia en las hipótesis alternativas y contar la cantidad de éxitos observados: N = ni=1 Xi .
simples.
32 29
2. Si la cantidad de éxitos observados es menor que np0 − nǫ o mayor que np0 + nǫ se Esto permite aproximar el valor de β(p) de la siguiente manera
rechaza la hipótesis p = p0 y se decide que p 6= p0 . En caso contrario, se no se rechaza ! !
la hipótesis p = p0 . n(p0 − p − ǫ) n(p0 − p + ǫ)
β(p) = Pp Z < p + Pp Z > p
np(1 − p) np(1 − p)
Segunda fase: caracterizar la función de potencia √ ! √ !
n(p0 − p − ǫ) n(p − p0 − ǫ)
≈ Φ +Φ . (39)
La segunda fase del programa consiste en “calcular” la función de potencia. Esta función
p p
p(1 − p) p(1 − p)
permite calcular los riesgos de tomar decisiones erróneas:
Aunque la aproximación (39) pueda resultar “grosera” y no sea lo suficientemente buena
β(p) = P (Rechazar H0 | p) = Pp (δ(X) = 1) para todos los posibles valores de p, permite capturar el comportamiento cualitativo de la
= Pp (N < np0 − nǫ) + Pp (N > np0 + nǫ) función de potencia.
[np0 −nǫ] n
X n k X n k Nivel de significación. Poniendo p = p0 , la aproximación (39) permite observar que
= p (1 − p)n−k + p (1 − p)n−k . (37)
k k
k=0 k=[np0 −nǫ]+1 √ !
− nǫ
α(δ) = β(p0 ) = 2Φ p . (40)
Notar que la función de potencia resultó ser un complicado polinomio de grado n y no es p0 (1 − p0 )
fácil capturar a simple vista su comportamiento cualitativo.
Esto indica que basta tomar n suficientemente grande para que β(p0 ) se ubique todo lo
Nivel de significación. Debido a que la hipótesis fundamental es de la forma p = p0 , cerca del 0 que uno quiera. En otras palabras, el test puede construirse para garantizar que
para cada n y ǫ, el nivel de significación del test es la probabilidad de rechazar la hipótesis p = p0 cuando ella es verdadera sea todo lo chica
que uno quiera.
[np0 −nǫ]
X
n k
n
X
n k La aproximación (40) se puede utilizar para ajustar los valores de los parámetros n
α(δ) = β(p0 ) = p (1 − p0 )n−k + p (1 − p0 )n−k . (38) y ǫ para que valga la desigualdad α(δ) ≤ α. Para ello basta observar que la desigualdad
k 0 k 0
k=0 k=[np0 −nǫ]+1 aproximada
√ ! √
Nota Bene 1. Notar que los test (36) contienen un juego de dos parámetros, n y ǫ. − nǫ − nǫ
2Φ p ≤ α ⇐⇒ p ≤ zα/2 . (41)
Estos parámetros determinan la calidad de cada test y deben ajustarse de acuerdo con p0 (1 − p0 ) p0 (1 − p0 )
las prescripciones impuestas al test sobre su nivel de significación y su potencia en alguna
hipótesis alternativa. Por lo tanto, las soluciones de la desigualdad (41) serán todos los valores de n ∈ N y todos
los valores de ǫ > 0 que satisfagan
√
Nota Bene 2. Notar que si la muestra tiene volumen prefijado n, por más que se mueva nǫ
el valor de ǫ, el nivel de significación del test α(δ) puede tomar a lo sumo n + 1 valores
p ≥ z1−α/2 . (42)
p0 (1 − p0 )
distintos. Por lo tanto, si se prescribe que el nivel de significación del test δ(X) debe ser
α, casi seguramente la ecuación α(δ) = α no tendrá solución. Fijada una solución particular de (42), una alta dosis de paciencia permite calcular a mano
el valor exacto del nivel de significación α(δ) obtenido en (38) y comprobar si efectivamente
Aproximación por TCL para muestras “grandes” satisface α(δ) ≤ α.
La función de potencia (37) se puede aproximar utilizando el teorema central del lı́mite. Test de hipótesis con nivel de significación aproximado. Basados en los argu-
Si la muestra es suficientemente grande, para cada valor de p, tenemos que mentos y razonamientos anteriores, podemos diseñar test para decidir entre las hipótesis
N − np H0 : p = p0 contra H1 : p 6= p0 con nivel de significación “aproximadamente” α. Usando el
Z=p ∼ N (0, 1). diseño (36) para valores de n y ǫ que verifiquen la desigualdad (42) obtenemos
np(1 − p) n o n o
p p
δ(X) = 1 N < np0 − z1−α/2 np0 (1 − p0 ) + 1 N > np0 + z1−α/2 np0 (1 − p0 ) . (43)
30 31
donde
(nr − 100(3/6))2 (ng − 100(2/6))2 (nb − 100(1/6))2
D2 = + + .
100(3/6) 100(2/6) 100(1/6)
Por ejemplo, si se prescribe un nivel de significación del 1 % (i.e., α = 0.01) tenemos que
χ22, 1−α = χ22, 0.99 = 9.2103 y el test adopta la forma
(nr − 50)2 (ng − 33.33...)2 (nb − 16.66...)2

δ(X) = 1 + + > 9.2103 ,
50 33.33... 16.66...
0.5
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
0 2 4 6 8 10 12
Figura 12: La densidad χ22 .

De acuerdo con los datos observados: nr = 46, ng = 37 y nb = 17 y la medida de
dispersión de Pearson vale
(46 − 50)2 (37 − 33.33...)2 (17 − 16.66...)2
D2 = + + = 0.73
50 33.33... 16.66...
Motivo por el cual, no hay evidencia que permita rechazar que la obra Cordillera binaria
pertenece a la serie Los paisajes binarios del artista Nelo.
Notar que para rechazar que la obra citada pertenece al artista se necesitaba un test de
la forma δ(X) = {D2 ≥ 0.73}. Bajo la hipótesis H0 , D2 ∼ χ22 y p = P(D2 ≥ 0.73) = 0.694...
y en ese caso, la probabilidad de equivocarse al rechazar que la obra pertenece a Nelo es
del orden del 69 %.
Ejemplo
i−1 i
8.3. (Continuación) En este caso las clases Ci son los intervalos de la forma
,
10 10
, i = 1, . . . , 10. Si la variable aleatoria X tuviese distribución U[0, 1], pi = P(X ∈
Ci ) = 1/10. El volumen de la muestra es n = 10000. Las frecuencias observadas, ni , son los
valores que se muestran en la tabla (61). Las frecuencias esperadas, npi , son todas iguales
y valen 1000. Por lo tanto, la medida de dispersión de Pearson vale
1
D2 = 82 + 432 + 142 + 272 + 482 + 242 + 272 + 212 + 22 + 122 = 7.036

1000
47
0.12
0.1
0.08
¡Gracias por encuadernar tu libro con La Patonejo!
0.06
0.04
La Patonejo somos un pequeño grupo de perso-
0.02 nas que nos gusta hacer libros.
0
Aprendimos del boca a boca y juntándonos a en-
cuadernar apuntes y algún que otro librito para
0 5 10 15 20 25 30
nosotrxs, y así fue creciendo hasta que un día

Figura 13: La densidad χ29 . El área bajo la curva a la derecha del valor 7.036 es 0.6336.... nos preguntamos ¿por qué no hacer libros arte-
sanales para más gente?
Bajo la hipótesis X ∼ U[0, 1], la medida de dispersión D2 se distribuye como una chi
cuadrado con 9 grados de libertad. Si se observa la Figura 13 se puede ver que un valor de
7.036 para D2 no es inusual, lo que indica que no hay evidencia suficiente para rechazar
Así fuimos aprendiendo cada vez más a meJorar
la hipótesis X ∼ U[0, 1]. Para rechazar dicha hipótesis se necesita un test de la forma los archivos que nos manda la gente, diseñar
δ(X) = {D2 ≥ 7.036}. Bajo la hipótesis X ∼ U[0, 1], p = P(D2 ≥ 7.036) = 0.6336... portadas y encuadernar.
y en tal caso, la probabilidad de equivocarse al rechazar que los datos provienen de una
distribución uniforme es del orden del 63 %.
8.4. Comentarios sobre el método lapatonejo@gmail.com

En la sección 8.2 presentamos el test de bondad de ajuste χ2 de Pearson. En la sección
8.3 ilustramos su implementación en algunos ejemplos muy simples. Esos ejemplos com-
parten una caracterı́stica en común: las clases en que dividimos el rango de la variable X
estaban condicionadas por el modo en que estaban tabulados los datos observados.
Esos ejemplos podrı́an oscurecer el siguiente hecho que no puede pasar desapercibido:
el procedimiento de construcción de las clases C1 , . . . , Ck en que se divide el rango de la
variable es (más o menos) arbitrario. En la descripción del método presentada en la sección . :..._---
8.2 no se indica cuántas clases deben considerarse ni se indica cómo deben ser esas clases.

Sobre la cantidad de clases (1). Un lector desprevenido podrı́a pensar que para Encuadernado por Maconejo
implementar el método basta dividir el rango de la variable en dos clases. Ese modo de
proceder no es recomendable. ¿Usando las clases, C1 = [−1, 0] y C2 = (0, 1], podrı́an
distinguirse la distribución uniforme sobre el [-1,1] de la distribución triangular con el
mismo soporte? Evidentemente no. Sin embargo, en cuanto aumentamos la cantidad de
Diseño de portada Mononejo
clases, a 4 por ejemplo, la diferencia se podrı́a percibir.
Cuando agrupamos los datos en clases y conservamos solamente la frecuencia con que
48
Ejemplo 2.3. La cantidad de errores de tipeo por hoja que comete una secretaria profesional se observa cada clase destruimos información sobre la variable muestreada. Si la cantidad
puede modelarse con una distribución de Poisson de parámetro θ (¿Por qué?). A priori, se de partes es muy chica, se pierde mucha información y la resolución del test es bastante
supone que el parámetro θ sigue una distribución exponencial de intensidad 1 (Esta hipótesis mala.
sobre la distribución de θ es la menos informativa si se supone que la media de la distribución
es 1). Se analizan 10 hojas tipeadas por la mencionada secretaria y resulta que la cantidad
de errores por página es
Sobre la cantidad y la forma de las clases (2). Se podrı́a pensar que al aumentar
la cantidad de clases en que se divide el rango de la variable mejora la resolución del test,
1 3 3 3 4 6 3 2 2 2 esto es parcialmente correcto. Si nos excedemos en la cantidad de clases la distribución de
la medida de dispersión D2 deja de parecerse a la χ2 .
Si la secretaria tipea una nueva hoja, cuál es la probabilidad de que cometa como máximo un
Debido a su naturaleza asintótica, el test de bondad de ajuste χ2 funciona bien sola-
error?
mente cuando las frecuencias esperadas en todas las clases es relativamente grande. En la
Bibliografı́a consultada no se comenta ningún método “óptimo” para determinar la can-
Solución. Para resolver este problema utilizaremos la función de probabilidad predictiva.
De acuerdo con (54), como la distribución a priori de θ es una Exp(1) = Γ(1, 1), dicha función tidad de clases en que debe dividirse el rango de la variable aleatoria. Aunque sobre este
es de la forma asunto parece no existir acuerdo entre los especialistas, todos coinciden en que la cantidad
x ν(x) x 30 de clases está limitada por una condición del siguiente tipo:
ν(x) + x − 1 1 n+λ 29 + x 1 11
f (x|x) = = , npi ≥ 5 para i = 1, . . . , k (Fisher);
ν(x) − 1 n+λ+1 n+λ+1 29 12 12
debido a que n = 10, ν(x) = ni=1 xi + 1 = 30 y λ = 1. Por lo tanto, la probabilidad de que

P npi ≥ 10 para i = 1, . . . , k (Cramer);
la secretaria cometa como máximo un error al tipear una nueva hoja será
npi ≥ 8 para i = 1, . . . , k (Borovkov).
0 30 1 30
29 1 11 30 1 11 DeGroot indica que la condición de Fisher es suficiente para que la distribución χ2 sea una
f (0|x) + f (1|x) = +
29 12 12 29 12 12 buena aproximación de la distribución de D2 . Incluso afirma que, poniendo npi > 1.5 la
30 30
11 1 11 7 aproximación continua siendo satisfactoria.
= 1 + 30 = = 0.257 . . .
12 12 12 2 En todo lo que sigue adoptaremos la condición de Cramer sobre la cantidad y forma de
las clases: npi ≥ 10 para i = 1, . . . , k. De este modo, si para algún i ocurriese que npi < 10
redefinimos la partición C1 , . . . , Ck del rango de la variable. Por ejemplo, uniendo Ci con
Ci+1 . Esta condición implica que si el volumen de la muestra no es muy grande, la partición
3. Bibliografı́a consultada del rango de la variable no puede ser muy fina.
Para redactar estas notas se consultaron los siguientes libros: Ejemplo 8.7 (Exponencial). Se dispone de los siguientes datos sobre la duración en horas
1. Bolfarine, H., Sandoval, M. C.: Introdução à Inferência Estatı́stica. SBM, Rio de Janeiro. de 100 baterı́as:
(2001) 3.9662191 0.5819433 0.1842986 0.5977917 1.9781844
2. Borovkov, A. A.: Estadı́stica matemática. Mir, Moscú. (1984) 0.6048519 0.7259459 1.5896094 0.2411217 2.4502631
1.6993148 0.9884268 0.4281823 2.0079459 0.0022114
3. Hoel P. G.: Introducción a la estadı́stica matemática. Ariel, Barcelona. (1980) 0.0422904 1.6384416 0.2214073 0.4350003 0.1934794
4. Pugachev, V. S.: Introducción a la Teorı́a de Probabilidades. Mir, Moscu. (1973) 0.3548681 0.7775309 0.1052627 0.6497803 0.7227835
3.0542040 3.4097021 0.3577800 1.4532404 2.2825177
5. Robert, C. P.: The Bayesian Choice. Springer, New York. (2007) 1.4903543 0.6062705 0.9444304 0.1119637 1.2789623
0.3598502 0.8901427 0.1282656 0.3331565 1.6096607
6. Ross, S. M.: Introduction to Probability and Statistics for Engieneers and Scientists.
1.3348741 3.1158026 0.4525998 0.4554032 0.8698826
0.0215405 0.7115861 0.4859616 1.3781469 0.0979241
0.8608390 0.1999889 0.6616866 0.6960469 1.4041375
1.6087253 0.2149426 0.4833662 2.3159498 1.0346222
49
19
donde ν(x) = ni=1 xi + ν. Integrando respecto de t ambos lados de la identidad (53), obten-
P
0.2056717 0.5228204 1.8704697 0.2166610 0.9409121
3.4983549 0.3543629 1.5233421 0.1877053 0.3911424 emos la expresión de la función de probabilidad incondicional (o predictiva)
0.1840173 1.1453108 0.0161651 1.7702696 1.0397349
(n + λ)ν(x) ∞
Z
0.0772446 0.0421012 0.4814322 2.5107661 1.6500077 f (x|x) = tν(x)+x−1 e−(n+λ+1)t dt
x!Γ(ν(x)) 0
1.2448903 0.1030540 0.4572152 0.6299386 0.1021735
0.2197928 1.1234052 0.0936486 1.6546837 3.1267264 (n + λ)ν(x) Γ(ν(x) + x)
=
1.4791009 0.3132625 1.0092715 1.2217523 3.2381804 x!Γ(ν(x)) (n + λ + 1)ν(x)+x
0.1215625 0.7677260 0.2124635 2.2532736 0.7156024 Γ(ν(x) + x) (n + λ)ν(x)
=
Γ(ν(x))x! (n + λ + 1)ν(x)+x
¿Puede afirmarse a un nivel del 1 % que la duración de las baterı́as se ajusta a una dis- x ν(x)
tribución exponencial de media 2 horas? Γ(ν(x) + x) 1 n+λ
= . (54)
Γ(ν(x))x! n+λ+1 n+λ+1
Solución. Una expresión que con un poco de paciencia (o una computadora a la mano) se puede calcular
1. Construyendo una partición. Lo primero que tenemos que hacer es determinar la cantidad para cada valor de x.
y la forma de las clases en que agruparemos los datos.
Con la indicación de Cramer (npi ≥ 10, para i = 1, . . . , k) la máxima cantidad de Caso ν ∈ N. En este caso la expresión para la función de probabilidad incondicional (54)
clases que podemos elegir es 10. Para simplificar un poco las cuentas elegiremos una par- adopta la forma
tición en 7 clases, C1 , . . . , C7 , que sean equiprobables bajo la distribución hipotética: X ∼ x ν(x)
Exponencial(1/2).6

(ν(x) + x − 1)! 1 n+λ
f (x|x) =
Cuando la función de distribución de una variable aleatoria es continua la construcción (ν(x) − 1)!x! n+λ+1 n+λ+1
x ν(x)
de la partición enh k clases equiprobables se resuelve utilizando los cuantiles. La clase Ci

ν(x) + x − 1

1 n+λ
= . (55)
será el intervalo x i−1 , x i , donde x i es el cuantil- ki de la distribución hipotética. ν(x) − 1 n+λ+1 n+λ+1
k k k
La función de distribución de la exponencial de media 2 es F (x) = (1 − e−x/2 )1{x ≥ 0} La expresión (55) para la función de probabilidad condicional f (x|x) admite la siguiente
y su cuantil-γ es la única solución de la ecuación F (xγ ) = γ. En consecuencia, xγ = interpretación probabilı́stica: Dado que X = x, la probabilidad incondicional de que la variable
−2 log(1 − γ). En consecuencia, para obtener 7 clases equiprobables basta poner Poisson asuma el valor x es igual a la probabilidad de que en una sucesión de ensayos Bernoulli
n+λ
independientes de parámetro n+λ+1 el ν(x)-ésimo éxito ocurra en el (ν(x) + x)-ésimo ensayo.
i−1 i
Ci = −2 log 1 − , −2 log 1 − , i = 1, . . . , 7,
7 7
Estimación por intervalo. Dado que X = x, podemos construir un intervalo estimador
lo que produce: C1 = [0, 0.3083), C2 = [0.3083, 0.6729), C3 = [0.6729, 1.1192), C4 = de nivel 1 − α para θ observando que
[1.1192, 1.6946), C5 = [1.6946, 2.5055), C6 = [2.5055, 3.8918) y C7 = [3.8918, ∞).
2ν(x) 1

2(n + λ)θ ∼ Γ , .
2. Agrupando los datos. Determinadas las clases agrupamos los datos. En la siguiente tabla 2 2
se muestran las frecuencias observadas y la cantidad que aporta cada clase a la medida de
Si además ν ∈ N, entonces
dispersión D2 :
2(n + λ)θ ∼ χ22ν(x) .
ni 26 23 16 18 9 7 1 En tal caso,
(ni − npi )2 /npi 9.60571 5.31571 0.20571 0.96571 1.95571 3.71571 12.35571 h i
P 2(n + λ)θ ∈ χ22ν(x),α/2 , χ22ν(x),1−α/2 = 1 − α.
3. Decisión al 1 %. Finalmente comparamos el valor obtenido para D2 = 34.12 con el cuantil Por lo tanto, si ν ∈ N y sabiendo que X = x el intervalo
0.99 de la distribución χ26,0.99 = 16.812. Como D2 > χ26,0.99 concluimos que la duración de " 2
χ2ν(x),α/2 χ22ν(x),1−α/2
#
las pilas no se ajusta a la distribución exponencial de media 2 horas.
, ,
6
Notar que al elegir el criterio de las clases “equiprobables” para construir la partición, garantizamos 2(n + λ) 2(n + λ)
de entrada que no habrá partes sub o sobre dimensionadas y no vamos a encontrarnos con el problema de Pn
tener que unir dos clases porque quedaron muy “flacas”. donde ν(x) = i=1 xi + ν, es un intervalo estimador de nivel 1 − α para θ.
50
18
Distribución a posteriori. La densidad a posteriori de θ, dado que X = x, queda carac- Nota Bene. No siempre se puede dividir el rango de la variable en clases de igual prob-
terizada por la relación de proporcionalidad π(t|x) ∝ L(t|x)πθ (t), donde L(t|x) es la función abilidad. Las variables discretas no lo permiten. En tal caso habrá que conformarse con
de verosimilitud y πθ (t) es la densidad a priori de θ. En este caso la función de verosimilitud algunas partes suficientemente “gorditas” como para que valga la condición npi ≥ 10
es de la forma
Pn
L(t|x) ∝ e−nt t i=1 xi
. (48) 8.5. Test de bondad de ajuste para hipótesis compuestas
De (47) y (48) se deduce que la densidad a posteriori de θ dado que X = x satisface La hipótesis nula afirma que
Pn Pn
xi ν−1 −λt xi +ν−1 −(n+λ)t
π(t|x) ∝ e−nt t i=1 t e 1{t > 0} = t i=1 e 1{t > 0}. (49) H0 : FX = Fθ1 , ..., θr ,
Por lo tanto, la distribución a posteriori de θ dado que X = x es una Gamma donde Fθ1 , ..., θr es una distribución de probabilidades perteneciente a una familia paramétri-
n
! ca completamente determinada y los valores de los parámetros θ1 , . . . , θr son desconocidos.
En este caso los r parámetros desconocidos se estiman usando el método de máxima
X
Γ xi + ν, n + λ .
i=1 verosimilitud. Los valores de las r estimaciones se “enchufan” en la distribución paramétrica
como si fuesen los verdaderos valores de los parámetros y se aplica el test χ2 desarrollado en
Estimadores Bayesianos. la sección 8.2. Solo que ahora se perderá un grado de libertad por cada parámetro estimado.
Si para construir la medida de dispersión D2 se recurrió a una partición del rango de la
1. Utilizando la esperanza condicional de θ|X = x obtenemos la siguiente estimación.
variable X en k clases, la distribución de D2 será aproximadamente una χ2k−1−r .
Pn
xi + ν
θ̂ = E[θ|X = x] = i=1 (50)
n+λ Ejemplo 8.4. (Continuación) La hipótesis H0 afirma que la cantidad de impactos por
segundo recibidos por la partı́cula de polen sigue una distribución de Poisson, pero no
2. La estimación por máximo a posteriori se obtiene observando que indica cuál es su media (el parámetro λ).
b El estimador de máxima verosimilitud para la media de una distribución de Poisson es
arg máx ta e−bt = arg máx log ta e−bt = arg máx(a log t − bt) = . ˆ mv = X.
¯ Usando los datos que aparecen en la tabla (62) obtenemos
t>0 t>0 t>0 a λ
Por lo tanto,
ˆ mv = 0(1364) + 1(1296) + 2(642) + 3(225) + 4(55) + 5(15) + 6(3) = 3568 = 0.9911 ≈ 1.
λ
Pn
+ν−1 3600 3600
i=1 xi
θ̂map = . (51)
n+λ Las clases Ci se pueden construir usando como criterio que 3600P(X ∈ Ci ) ≥ 10. Si
suponemos que X ∼ Poisson(1), su función de probabilidades será P(X = n) = e−1 /n!,
Nota Bene. Notar que
n = 0, 1, . . . .
Pn Pn
Usaremos como partición las siguientes clases: C1 = {0}, C2 = {1}, C3 = {2}, C4 =

i=1 xi
+ν n i=1 xi λ ν
θ̂ = = +
n+λ n+λ n n+λ λ {3, 4, 5, . . . }, cuyas probabilidades son p1 = p2 = 0.3678, p3 = 0.1839 y p4 = 0.0805.
n λ Obtenemos que
= x̄ + E[Γ(ν, λ)]. (52)
n+λ n+λ
(1364 − 3600p1 )2 (1296 − 3600p2 )2 (642 − 3600p3 )2 (298 − 3600p4 )2
D2 = + + +
Función de probabilidad predictiva. El producto de la probabilidad condicional de X 3600p1 3600p2 3600p3 3600p4
dado que θ = t por la densidad a posteriori de θ dado que X = x: 1593.6064 788.4864 401.6016 67.24
= + + + = 2.6376
1324.08 1324.08 662.04 289.8
tx (n + λ)ν(x) ν(x)−1 −(n+λ)t
f (x|t)π(t|x) = e−t t e 1{t > 0}
x! Γ(ν(x)) Si se observa la Figura 12 se puede ver que un valor de 2.6376 para D2 no es inusual para
(n + λ)ν(x) ν(x)+x−1 −(n+λ+1)t una distribución χ22 , lo que indica que la cantidad de impactos recibidos por la partı́cula
= t e 1{t > 0}, (53) de polen se puede considerar como una variable aleatoria con distribución Poisson.
x!Γ(ν(x))
51
17
Ejemplo 8.5. (Continuación) La hipótesis nula es de la forma H0 : X ∼ N (µ, σ 2 ). En palabras informales y poco rigurosas, si se destruye la información contenida en la distribu-
Informalmente, se puede ver usando un histograma que los datos “obedecen” a una dis- ción a priori N (µ, ρ2 ) mediante el procedimiento de hacer ρ2 → ∞ se obtiene una densidad
tribución normal. de probabilidades proporcional a la verosimilitud. Vale decir, en el caso lı́mite se obtiene el
enfoque Bayesiano generalizado. Desde esta perspectiva, el enfoque Bayesiano generalizado
6
−3
x 10 puede interpretarse como una metodologı́a orientada a destruir toda la información contenida
en las distribuciones a priori del parámetro.
5
Ejemplo 2.2. Se tiene la siguiente muestra aleatoria de volumen n = 10 de una población
4
N (θ, 1)
2.0135 0.9233 0.0935 0.0907 0.3909
3
0.3781 -1.9313 -0.8401 3.4864 -0.6258
2 Si, a priori, suponemos que θ ∼ N (0, 1), entonces la distribución a posteriori de θ es una
normal, ver (33), N 10x̄ 1
11 , 11 . Observando la muestra se obtiene que x̄ = 0.3979. Por lo tanto,
1
la distribución a posteriori del parámetro es una normal N ( 3.979 1
11 , 11 ).
0
645 695 745 795 845 895 945 995 1045
1.4
1.2
Figura 14: Histograma de los mediciones de Michelson y gráfico de la densidad de la 1

¯ = 852.4 y varianza S 2 = 79.0105.
distribución de media X
0.8
Usando los cuantiles de la distribución normal de media 852.4 y varianza 79.0105, 0.6
construimos 9 clases equiprobables delimitadas por los valores: 756, 792, 818, 841, 863, 886,
913 y 949. Las frecuencias observadas en cada una de las 9 clases son, respectivamente, 0.4
9, 11, 15, 12, 11, 14, 7, 6 y 15. Con esos datos, la medida de dispersión resulta D2 = 7.82 <
0.2
χ26, 0.90 ...
0
−3 −2 −1 0 1 2 3
Para redactar estas notas se consultaron los siguientes libros: Figura 2: Gráficos de las densidades a priori (en verde) y a posteriori (en azul).
1. Bolfarine, H., Sandoval, M. C.: Introdução à Inferência Estatı́stica. SBM, Rio de Como la moda y la media de la distribución normal coinciden, el estimador puntual
Janeiro. (2001). Bayesiano resulta ser θ̂ = 3.979/11 = 0.3617 . . . .
Utilizando la tabla de la normal estándar puede verse que I = [−0.22920.9527] es un
2. Borovkov, A. A.: Estadı́stica matemática. Mir, Moscú. (1984).
intervalo de nivel 0.95.
3. Cramer, H.: Métodos matemáticos de estadı́stica. Aguilar, Madrid. (1970). Etcétera...
4. DeGroot, M. H.: Probability and Statistics. Addion-Wesley, Massachusetts. (1986). 2.3. Distribuciones Poisson con a priori Gamma
5. Fisher, R. A.: Statistical methods for research workers. Hafner, New York (1954). Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una distribución Poisson de parámetro θ,
θ > 0. Supongamos que la distribución a priori del parámetro θ es una Gamma de parámetros
6. Hoel P. G.: Introducción a la estadı́stica matemática. Ariel, Barcelona. (1980). ν y λ. Esto es, la densidad a priori del parámetro es de la forma
7. Lehmann, E. L.: Elements of Large-Sample Theory. Springer, New York. (1999) πθ (t) ∝ tν−1 e−λt 1{t > 0} (47)
.
52
16
Estimadores Bayesianos. En este caso, como el máximo de la normal se alcanza en la 8. Maronna R.: Probabilidad y Estadı́stica Elementales para Estudiantes de Ciencias.
media ambos estimadores coinciden: Editorial Exacta, La Plata. (1995).
nρ2 x̄ + σ 2 µ 9. Meyer, P. L.: Introductory Probability and Statistical Applications. Addison-Wesley,
θ̂ = . (39)
nρ2 + σ 2 Massachusetts. (1972).
Nota Bene. Note que 10. Rice, J. A.: Mathematical Statistics and Data Analysis. Duxbury Press, Belmont.
nρ2 σ2 nρ2 σ2 (1995).
θ̂ = 2 2
x̄ + 2 2
µ= 2 2
x̄ + 2 E[N (µ, ρ2 )] (40)
nρ + σ nρ + σ nρ + σ nρ + σ 2 11. Ross, S. M.: Introduction to Probability and Statistics for Engieneers and Scientists.
Estimación por intervalo. En lo que sigue construiremos un intervalo estimador de nivel
1 − α para θ sabiendo que X = x. Sabemos que θ|X = x se distribuye como una normal de 12. Walpole, R. E.: Probabilidad y estadı́stica para ingenieros, 6a. ed., Prentice Hall,
media µ∗ y varianza ρ2∗ . Proponiendo un intervalo centrado en la media µ∗ de la forma México. (1998)
[µ∗ − ǫ, µ∗ + ǫ] (41)
y usando la simetrı́a de la normal con respecto a su media, el problema se reduce a encontrar

el valor de ǫ que resuelve la ecuación siguiente

α θ − µ∗ ǫ ǫ
1 − = P (θ ≤ µ∗ + ǫ|X = x) = P ≤ X = x = Φ . (42)
2 ρ∗ ρ∗ ρ∗
En consecuencia,
s
−1
α σ 2 ρ2 α σρ α
ǫ = ρ∗ Φ 1− = Φ−1 1 − =p Φ−1 1 − (43)
2 nρ2 + σ 2 2 2
nρ + σ 2 2
Por lo tanto, el intervalo

" #
nρ2 x̄ + σ 2 µ σρ −1
α nρ2 x̄ + σ 2 µ σρ −1
α
− Φ 1 − , + Φ 1 − (44)
nρ2 + σ 2 nρ2 + σ 2
p p
nρ2 + σ 2 2 nρ2 + σ 2 2
es un intervalo estimador de nivel 1 − α para θ sabiendo que X = x. Note que la longitud del
intervalo no depende los valores arrojados por la muestra y es del orden de √1n .
Curva peligrosa. Para una muestra de una N (θ, σ 2 ) con distribución a priori para θ de la
forma N (µ, ρ2 ) obtuvimos que la distribución a posteriori satisface
2 !
nρ2 + σ 2 nρ2 x̄ + σ 2 µ

f (t|x) ∝ exp − t− . (45)
2σ 2 ρ2 nρ2 + σ 2
A medida que aumentamos el valor de ρ2 la información contenida en la distribución a priori

se va “destruyendo” y la densidad a posteriori se va aproximando a la densidad de una normal
de media x̄ y varianza σ 2 /n:
!
n (t − x̄)2
lı́m f (t|x) ∝ exp − ∝ Lt (x). (46)
ρ2 →∞ 2σ 2
53
15
donde “otras cosas” son expresiones que no dependen de t. En consecuencia,
2 !
nρ2 + σ 2 nρ2 x̄ + σ 2 µ

π(t|x) ∝ exp − t − . (32)
Análisis Bayesiano 2σ 2 ρ2 nρ2 + σ 2
(Borradores, Curso 23) Por lo tanto, la distribución a posteriori de θ dado que X = x es una normal
2
nρ x̄ + σ 2 µ σ 2 ρ2

N , 2 . (33)
Sebastian Grynberg 2
nρ + σ 2 nρ + σ 2
17-19 de junio de 2013 Función densidad predictiva. Comenzamos calculando el producto de la densidad condi-
cional de X dado que θ = t por la densidad a posteriori de θ dado que X = x:
(x − t)2 (t − µ∗ )2

1 1
f (x|t)π(t|x) = √ exp − 2
√ exp − 2
2πσ 2σ 2πρ∗ 2ρ∗
(x − t)2 (t − µ∗ )2

1 1
= √ √ exp − + , (34)
2π 2πρ∗ σ 2σ 2 2ρ2∗
donde µ∗ y ρ2∗ son la media y la varianza de la distribución a posteriori de θ dado que X = x
nρ2 x̄ + σ 2 µ σ 2 ρ2
µ∗ = y ρ2∗ = (35)
nρ2 + σ 2 nρ2 + σ 2
Con un poco de paciencia, puede verse que
2
(x − t)2 (t − µ∗ )2 ρ2∗ + σ 2 ρ2 x + σ 2 µ∗ (x − µ∗ )2

+ = t− ∗ 2 + (36)
2σ 2 2ρ2∗ 2σ 2 ρ2∗ ρ∗ + σ 2 2(ρ2∗ + σ 2 )
En consecuencia,
f (x|t)π(t|x)
" 2 #!
ρ2 + σ 2 ρ2 x + σ 2 µ∗ (x − µ∗ )2

1 1
=√ √ exp − ∗ 2 2 t − ∗ 2 +
2πσ 2πρ∗ 2σ ρ∗ ρ∗ + σ 2 2(ρ2∗ + σ 2 )
!
1 (x − µ∗ )2
=p exp −
2π(ρ2∗ + σ 2 ) 2(ρ2∗ + σ 2 )
2 !
ρ2∗ + σ 2 ρ2∗ x + σ 2 µ∗

1
×q exp − t − . (37)
2 2
2π ρ∗ σ 2σ 2 ρ2∗ ρ2∗ + σ 2
ρ2∗ +σ 2
Aquı́ no valen Dotores,
Solo vale la esperiencia, Integrando respecto de t, ambos lados de identidad (37), obtenemos la expresión de la densidad
Aquı́ verı́an su inocencia predictiva
Esos que todo lo saben; !
1 (x − µ∗ )2
Z
Por que esto tiene otra llave f (x|x) = f (x|t)π(t|x)dt = p exp − . (38)
Y el gaucho tiene su ciencia. 2π(ρ2∗ + σ 2 ) 2(ρ2∗ + σ 2 )
(Martı́n Fierro)
En otras palabras, la distribución de la variable aleatoria X dado que X = x, es una nor-
mal de media µ∗ y varianza σ 2 + ρ2∗ . El resultado obtenido nos permite calcular todas las
probabilidades de la forma P(X ∈ A|X = x).
1 14
Estimación por intervalo Para construir un intervalo [a, b], de nivel 0.95, para θ podemos Índice
resolver las siguientes ecuaciones
Z a Z b 1. Análisis Bayesiano 2
21! 11 21! 11 1.1. Distribuciones a priori y a posteriori . . . . . . . . . . . . . . . . . . . . . . . 2
t (1 − t)9 dt = 0.025, t (1 − t)9 dt = 0.975.
0 11!9! 0 11!9! 1.2. Distribuciones predictivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Utilizando una herramienta de cálculo obtenemos que a = 0.3402 y b = 0.7429. 1.3. Estimadores Bayesianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4. Estimación por intervalo para parámetro continuo . . . . . . . . . . . . . . . 6
1.5. Sobre la distribución a priori uniforme. . . . . . . . . . . . . . . . . . . . . . . 7
2.2. Normales de varianza conocida y media normal
Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una familia normal N (θ, σ 2 ), con σ 2 2. Ejemplos 8
conocido. Supongamos que la distribución a priori del parámetro θ es una normal N (µ, ρ2 ) 2.1. Las distribuciones β y el problema del “control de calidad” . . . . . . . . . . 8
2.2. Normales de varianza conocida y media normal . . . . . . . . . . . . . . . . . 13
Distribución a posteriori. Por definición, ver (4), la densidad a posteriori de θ, dado que 2.3. Distribuciones Poisson con a priori Gamma . . . . . . . . . . . . . . . . . . . 16
X = x, queda caracterizada por la relación de proporcionalidad π(t|x) ∝ L(t|x)πθ (t), donde
L(t|x) es la función de verosimilitud y πθ (t) la densidad a priori de θ.
Primero calculamos la función de verosimilitud. De las igualdades
n n 1. Análisis Bayesiano
(xi − µ)2

Y Y 1
L(µ, σ 2 |x) = f (xi |µ, σ 2 ) = √ exp − 2
2πσ 2σ Si se lo compara con el modelado probabilı́stico, el propósito del análisis estadı́stico es fun-
i=1 i=1
n n
! damentalmente un propósito de inversión, ya que se propone inferir las causas (los parámetros
1 1 X
del mecanismo aleatorio) a partir de los efectos (las observaciones). En otras palabras, cuando
= √ exp − 2 (xi − µ)2
2πσ 2σ observamos un fenómeno aleatorio regulado por un parámetro θ, los métodos estadı́sticos nos
i=1

1
n Pn
(xi − x̄)2

n(x̄ − µ)2
permiten deducir de las observaciones una inferencia (esto es, un resumen, una caracteri-
= √ exp − i=1 2 exp − , (27) zación) sobre θ, mientras que el modelado probabilı́stico caracteriza el comportamiento de las
2πσ 2σ 2σ 2
observaciones futuras condicionales a θ. Este aspecto de la estadı́stica es obvio en la noción
donde x̄ = n1 ni=1 xi ,2 se deduce que de función de verosimilitud, puesto que, formalmente, es la densidad conjunta de la muestra
P
reescrita en el orden propio
n(x̄ − t)2

L(t|x) ∝ exp − . (28)
2σ 2 L(θ|x) = f (x|θ), (1)
Por hipótesis, θ ∼ N (µ, ρ2 ). En consecuencia, i.e., como una función de θ, que es desconocida, que depende de los valores observados x.
La regla de Bayes es una descripción general de la inversión de probabilidades: si A y E
(t − µ)2

πθ (t) ∝ exp − (29) son eventos de probabilidad positiva, P(A|E) y P(E |A) están relacionados por
2ρ2
P(E |A)P(A) P(E |A)P(A)
De (28) y (29), la densidad a posteriori satisface P(A|E) = = .
P(E) P(E |A)P(A) + P(E |Ac )P(Ac )
n(x̄ − t)2 (t − µ)2

π(t|x) ∝ exp − + . (30) En su versión continua, la regla de Bayes establece que dadas dos variables aleatorias X
2σ 2 2ρ 2
e Y , con distribución condicional fX|Y =y (x) y distribución marginal fY (y), la distribución
Completando cuadrados respecto de t se obtiene condicional de Y dado que X = x es
2 fX|Y =y (x)fY (y)
n(x̄ − t)2 (t − µ)2 nρ2 + σ 2 nρ2 x̄ + σ 2 µ

+ = t − + otras cosas (31) fY |X=x (y) = R .
2σ 2 2ρ2 2σ 2 ρ2 nρ2 + σ 2 fX|Y =y (x)fY (y)dy
2
La última igualdad de (27) se obtiene observando que 1.1. Distribuciones a priori y a posteriori
n n
Desde el punto de vista probabilı́stico el teorema de inversión es bastante natural. Bayes
X X
(xi − µ)2 = (xi − x̄)2 + n(x̄ − µ)2 .
i=1 i=1 y Laplace fueron más allá y consideraron que la incerteza sobre el parámetro desconocido de
13 2
un modelo paramétrico puede modelarse mediante una distribución de probabilidad sobre el
4
espacio paramétrico.
La esencia del enfoque Bayesiano consiste en que el parámetro desconocido, θ, se considera 3.5
como variable aleatoria con cierta función densidad de probabilidades

3
πθ (t), t ∈ Θ. 2.5
La densidad πθ (t) se llama densidad a priori, o sea, dada antes del experimento. El enfoque 2
Bayesiano supone que el parámetro desconocido θ se ha escogido aleatoriamente de la dis-

1.5
tribución cuya densidad es πθ (t).
1
Definición 1.1. Un modelo estadı́stico Bayesiano está hecho de un modelo paramétrico
F = {f (x|t) : t ∈ Θ} para las observaciones y una distribución de probabilidad a priori πθ (t) 0.5
sobre el espacio paramétrico Θ.

0
0 0.2 0.4 0.6 0.8 1
Nota Bene. En un modelo Bayesiano, la “densidad” muestral f (x|t), t ∈ Θ, es la “densi-

dad” condicional de la variable aleatoria X dado que θ = t.
Figura 1: Gráficos de las densidades a priori y a posteriori: en verde el gráfico de la densidad
Dado un modelo Bayesiano podemos construir varias distribuciones, a saber:
de la distribución U[0, 1] y en azul el de la distribución β(12, 10).
1. La distribución conjunta del parámetro θ y la muestra aleatoria X = (X1 , . . . , Xn ):
n
! Predicción. ¿Cuál es la probabilidad de que en una nueva muestra de volumen 5 resulten
exactamente 2 éxitos?
Y
fθ,X (t, x) = f (x|t)πθ (t) = f (xi |t) πθ (t). (2)
i=1 En primer lugar hay que observar que dado que θ = t la cantidad de éxitos N en una
muestra de volumen 5 tiene distribución Binomial(5, t). Por lo tanto,
2. La distribución marginal de la muestra aleatoria X = (X1 , . . . Xn ):
5 2
Z Z P(N = 2|t) = t (1 − t)3 = 10t2 (1 − t)3 .
fX (x) = fθ,X (t, x)dt = f (x|t)πθ (t)dt. (3) 2
Θ Θ
Como la densidad a posteriori de θ resultó ser
3. La distribución a posteriori (o sea, después del experimento) de la variable aleatoria θ,
21! 11
obtenida mediante la fórmula de Bayes: π(t|x) = t (1 − t)9 1{t ∈ [0, 1]},
11!9!
fθ,X (t, x) f (x|t)πθ (t) de la fórmula de probabilidad total se deduce que
π(t|x) = R =R . (4)
Θ fθ,X (t, x)dt Θ f (x|t)πθ (t)dt Z 1 Z 1
21! 11
P(N = 2|x) = P(N = 2|t)f (t|x)dt = 10t2 (1 − t)3 t (1 − t)9 dt
Nota Bene. Si el parámetro θ es una variable aleatoria discreta, la “densidad” a priori
R 0 0 11!9!
πθ (t) debe interpretarse como la función deP
probabilidades y las expresiones del tipo dt 21!
Z 1
21! 13!12! 6
deben reemplazarse por expresiones del tipo t . = 10 t13 (1 − t)12 dt = 10 = = 0.26 . . .
11!9! 0 11!9! 26! 23
Ejemplo 1.2 (Bayes (1764)). Se echa a rodar una bola de billar B1 sobre una lı́nea de
longitud 1, con probabilidad uniforme de que se detenga en cualquier lugar. Se detiene en θ. Estimadores Bayesianos
Una segunda bola B2 se echa a rodar 5 veces bajo las mismas condiciones que la primera y 1. Esperanza condicional:
X denota la cantidad de veces que la bola B2 se detuvo a la izquierda de donde lo hizo B1 .
Dado que X = x, ¿qué se puede inferir sobre θ? 12 6
θ̂ = E[θ|X = x] = = = 0.5454 . . . .
El problema consiste en hallar la distribución a posteriori de θ dado que X = x, cuando 22 11
la distribución a priori de θ es uniforme sobre (0, 1) y X ∼ Binomial(5, θ). Puesto que
2. Máximo a posteriori:

5 x 11
f (x|t) = t (1 − t)5−x y πθ (t) = 1{t ∈ (0, 1)}, θ̂map = x̄ = = 0.55.
x 20
3 12
Estimación por intervalo Se quiere construir un intervalo estimador (de nivel 1 − α) para la distribución conjunta del parámetro θ y la variable aleatoria X es
θ sabiendo que en una muestra de volumen n se observaron k artı́culos defectuosos.
5 x
En este caso la ecuación (9) adopta la forma fθ,X (t, x) = t (1 − t)5−x 1{t ∈ (0, 1)}
x
b
(n + 1)! k
Z
1−α= t (1 − t)n−k dt. (24) y la distribución marginal de la variable X es
a k!(n − k)!
Z 1 Z 1
5 x 5 5 Γ(x + 1)Γ(6 − x)
El problema equivale a encontrar las raı́ces de un polinomio de grado n + 1 en las variables fX (x) = t (1 − t)5−x dt = tx (1 − t)5−x dt =
0 x x 0 x Γ(7)
a y b y no hay métodos generales para encontrarlas. El problema se puede resolver mediante
5! x!(5 − x!) 1
alguna técnica de cálculo numérico para aproximar raı́ces de polinomios implementada en un = = , x = 0, 1, . . . , 5
computador. Para 3 ≤ n + 1 ≤ 4 pueden utilizarse las fórmulas de Tartaglia para resolver x!(5 − x)! 6! 6
ecuaciones de tercer y cuarto grado. Estas fórmulas pueden consultarse en el Tomo 1 del (En palabras, los 6 posibles valores de X son igualmente probables.)
Análisis matemático de Rey Pastor. De lo anterior se deduce que la distribución a posteriori de θ dado que X = x
Cuando k = 0 o k = n la ecuación (24) se puede resolver “a mano”: si k = 0 la ecuación
(24) adopta la forma 5 x
π(t|x) = 6 t (1 − t)5−x 1{t ∈ (0, 1)},
b ! x
Z b
(1 − t)n+1
1−α = (n + 1)(1 − t)n dt = (n + 1) − i.e., la distribución de θ condicional a que X = x es la distribución β(x + 1, 6 − x).
a n + 1 a

(1 − a)n+1 (1 − b)n+1
Ejemplo 1.3 (Laplace (1773)). En una urna hay 12 bolas blancas y negras. Si la primer bola
= (n + 1) − extraı́da es blanca, ¿cuál es la probabilidad de que la proporción θ de bolas blancas sea 2/3?
n+1 n+1
Asumiendo a priori que las cantidades 2 a 11 de bolas blancas son igualmente probables, i.e.,
= (1 − a)n+1 − (1 − b)n+1 . que θ es equiprobable sobre {2/12, . . . , 11/12}. La distribución a posteriori de θ se deduce
usando el teorema de Bayes:
Fijado un valor “razonable” de a se puede despejar el valor de b
p √ (2/3)(1/10) (2/3) 8 8
b = 1 − n+1 (1 − a)n+1 − (1 − α), 0≤a≤1− n+1
1−α (25) π(2/3|datos) = P11/12 = P11 = = .
n/12 (11 × 12)/2 − 1 65
p=2/12 p(1/10) n=2
Hemos visto que, para k = 0 el máximo a posteriori es 0, poniendo a = 0 se obtiene b =
√
1 − n+1 α. Por lo tanto, el intervalo
√
0, 1 − n+1 α Principio de verosimilitud. La fórmula de Bayes (4) puede leerse del siguiente modo:
observado que la muestra aleatoria X arrojó los valores x, la distribución a posteriori de θ es
es un intervalo estimador de nivel 1 − α. proporcional a la función de verosimilitud L(t|x) = f (x|t) multiplicada por la distribución a
priori de θ. En sı́mbolos
Ejemplo 2.1. Sea X una variable aleatoria Bernoulli de parámetro θ. A priori se supone
π(t|x) ∝ L(t|x)πθ (t).
que la distribución de θ es uniforme sobre el intervalo [0, 1]. Supongamos que una muestra
aleatoria de volumen n = 20 arroja los siguientes resultados: Esto significa que la información sobre la variable θ que viene en una muestra x está comple-
tamente contenida en la función de verosimilitud L(t|x). Más aún, cuando x1 y x2 son dos
x = (0, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 1, 1, 0, 1) observaciones que dependen del mismo parámetro θ y existe una constante c que satisface
L1 (t|x1 ) = cL2 (t|x2 )

Distribución a posteriori. Como la cantidad de éxitos observados es k = 11, tenemos
que θ|X = x ∼ β(12, 10). En otras palabras, la densidad a posteriori es de la forma para cada t ∈ Θ, entonces x1 y x2 tienen la misma información sobre θ y deben conducir
a inferencias idénticas. Esto es ası́ porque el análisis Bayesiano se basa completamente en la
21! 11 distribución a posteriori π(t|x) que depende de x solo a través de L(t|x).
π(t|x) = t (1 − t)9 1{t ∈ [0, 1]}. (26)
11!9!
Ejemplo 1.4. Trabajando sobre el ranking de una serie televisiva un investigador encontró 9
En la Figura 1 se muestran los gráficos de la distribución a priori de θ y de la distribución a espectadores que la miran y 3 que no la miran. Si no se dispone de más información sobre el
posteriori de θ vista la muestra. experimento, se pueden proponer al menos dos modelos. Si θ ∈ (0, 1) representa la proporción
de los espectadores que mira la serie:
11 4
(1) El investigador encuestó a 12 personas y por lo tanto observó X ∼ Binomial(12, θ) Función de probabilidad predictiva Supongamos ahora que en una muestra de volumen
con X = 9. n se observaron exactamente k artı́culos defectuosos. Cuál es la probabilidad p de que un nuevo
(2) El investigador encuestó Y personas hasta que encontró 3 que no miraban la serie y artı́culo resulte defectuoso?
por lo tanto observó Y ∼ Pascal(3, 1 − θ) con Y = 12. Para calcular p usamos la función de probabilidad predictiva obtenida en (5):
El punto importante es que, en cualquiera de los dos modelos, la verosimilitud es propor-
1 1
k+1
Z Z
cional a p = f (1|x) = f (1|t)π(t|x)dt = tπ(t|x)dx = E[θ|X = x] = . (21)
θ3 (1 − θ)9 . 0 0 n+2
Por lo tanto, el principio de verosimilitud implica que la inferencia sobre θ debe ser idéntica Esto es, si los primeros n artı́culos resultaron en k defectuosos, entonces el próximo artı́culo
para ambos modelos. será defectuoso con probabilidad (k + 1)/(n + 2).
De la ecuación (21) resulta una descripción alternativa del proceso de producción exam-
1.2. Distribuciones predictivas inado: Hay una urna que inicialmente contiene una bola blanca y una bola negra. En cada
paso se extrae al azar una bola de la urna y se la repone junto con otra del mismo color.
Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una distribución indexada por θ. Se Después de cada extracción la cantidad de bolas del color extraı́do aumenta una unidad y la
observa que X = x y se quiere predecir una el comportamiento de una nueva observación cantidad de bolas del color opuesto se mantiene constante. Si de las primeras n bolas elegi-
Y ∼ g(y|θ), donde Y es una variable aleatoria que depende del mismo parámetro θ. En el das, k fueron blancas, entonces en la urna al momento de la n + 1-ésima extracción hay k + 1
contexto probabilı́stico predecir significa contestar preguntas del tipo: ¿con qué probabilidad blancas y n − k + 1 negras, y por lo tanto la siguiente bola será blanca con probabilidad
se observaran valores en un intervalo dado? En otras palabras ¿cuál será la distribución de la (k + 1)/(n + 2). Identificando la extracción de una bola blanca con un artı́culo defectuoso,
nueva observación Y ? tenemos una descripción alternativa del modelo original. Esté último se llama modelo de urna
Este problema se puede resolver usando la fórmula de probabilidad total. Dado que se de Polya.
observó X = x, la función densidad predictiva (o incondicional) de la nueva observación Y
será
Estimadores Bayesianos
Z
g(y|x) = g(y|t)π(t|x)dt. (5) 1. Utilizando la esperanza condicional de θ|X = x obtenemos la siguiente estimación
n
!
El primer factor del integrando que aparece en (5) corresponde a las densidades de la variable 1 X
θ̂(x) = E[θ|X = x] = 1+ xi . (22)
aleatoria Y condicionadas al conocimiento de que θ = t. El segundo factor corresponde a la n+2
i=1
densidad a posteriori del parámetro aleatorio θ.
Si tuviésemos la capacidad de observar qué valor arrojó la variable θ y observáramos 2. El estimador máximo a posteriori se obtiene observando que
que θ = t, la predicción de Y quedarı́a determinada por la densidad condicional g(y|t).
Sin embargo, la hipótesis fundamental de este enfoque es que el parámetro θ no puede ser n k
θ̂map (x) = arg máx (n + 1) t (1 − t)n−k = arg máx tk (1 − t)n−k
observado y lo único que podemos observar es la muestra aleatoria X. El calificativo de t∈(0,1) k t∈(0,1)
incondicional que se le otorga a la densidad g(y|x) obtenida en (5) está puesto para destacar = arg máx log tk (1 − t)n−k = arg máx (k log t + (n − k) log(1 − t))
que su construcción no utiliza observaciones del parámetro θ. t∈(0,1) t∈(0,1)
k
Ejemplo 1.5 (Bayes (1764) Continuación.). Supongamos ahora que la bola B2 se detuvo = ,
n
exactamente 3 veces a la izquierda de donde lo hizo la bola B1 , ¿cuál es la probabilidad p de Pn
que al echar a rodar una tercera bola de billar B3 también se detenga a la izquierda de donde donde k = i=1 xi . Por lo tanto,
se detuvo B1 ?
Sea Y ∼ Bernoulli(θ) la variable aleatoria que vale 1 si la bola B3 se detiene a la izquierda θ̂map (x) = x̄. (23)
de donde se detuvo B1 y 0 en caso contrario. Para calcular p usamos la distribución predictiva:
Z 1 Z 1 Nota Bene. Notar que
p = P(Y = 1|X = 3) = P(Y = 1|t)π(t|3)dt = tπ(t|3) = E[θ|X = 3]. n 1 n 2
0 0 θ̂(x) = x̄ + = x̄ + E[U(0, 1)],
n+2 n+2 n+2 n+2
Como θ|X = 3 ∼ β(4, 2), resulta que p = 4/6. Pn
1
donde x̄ = n i=1 xi .
5 10
una variable aleatoria de Bernoulli, X ∼ Bernoulli(θ), cuyo parámetro θ denota la probabili- 1.3. Estimadores Bayesianos
dad de que el artı́culo sea defectuoso.
1. Estimación bayesiana por esperanza condicional. En el contexto Bayesiano θ es
El punto de partida del enfoque Bayesiano es la distribución a priori del parámetro.
una variable aleatoria. Entre todas las funciones (de la muestra aleatoria X) θ̂ = ϕ(X)
Supongamos que, a priori, θ ∼ U(0, 1). Se observa una muestra aleatoria X = (X1 , . . . , Xn ) y
la mejor estimación para θ (desde el punto de vista de minimizar el error cuadrático
usando la fórmula de Bayes (4) se obtiene la densidad, π(t|x), de la distribución a posteriori
medio E[(θ − ϕ(X))2 ]) es la esperanza condicional E[θ|X]:
de θ dado que X = x. Cuando la densidad a priori es uniforme la densidad a posteriori es
proporcional a la verosimilitud. Por lo tanto,
Z
θ̂(X) = E[θ|X] = tπ(t|X)dt. (6)
π(t|x) ∝ L(t|x) = tk(x) (1 − t)n−k(x) 1{t ∈ (0, 1)}, (16)
Pn 2. Estimación bayesiana por máximo a posteriori. Otro estimador, de uso frecuente,
donde k(x) = i=1 xi . De la identidad (16) se concluye que θ|X = x tiene una distribución es el llamado máximo a posteriori (o moda) definido por
beta de parámetros k(x) + 1 y n − k(x) + 1. En consecuencia la constante de proporcionalidad
será θ̂map (X) := arg máx π(t|X). (7)
t∈Θ

Γ(n + 2) (n + 1)! n
= = (n + 1) . (17) Ejemplo 1.6 (Bayes (1764) Continuación.). Supongamos ahora que la bola B2 se detuvo
Γ(k(x) + 1)Γ(n − k(x) + 1) k(x)!(n − k(x))! k(x)
exactamente 3 veces a la izquierda de donde lo hizo la bola B1 . En tal caso
Conclusión. Sea X = (X1 , . . . , Xn ) una muestra aleatoria de volumen n correspondiente 4
θ̂(3) = E[θ|X = 3] =
a una variable aleatoria X ∼ Bernoulli(θ). Si la distribución a priori del parámetro θ es 6
uniforme sobre el intervalo (0, 1) y se observa que X = x, entonces la distribución a posteriori y
(del parámetro θ) es una β(k + 1, n − k + 1), donde k es la cantidad de éxitos observados. En
otras palabras, la densidad de θ|X = x es 5 3
θ̂map (3) = arg máx 6 t (1 − t)2 = arg máx t3 (1 − t)2 .
t∈(0,1) 3 t∈(0,1)
n k
π(t|x) = (n + 1) t (1 − t)n−k 1{t ∈ (0, 1)}, (18) Como el logaritmo es una función creciente, el argumento que maximiza a la función t3 (1 − t)2
k
coincide con el argumento maximizador de la función ψ(t) = log(t3 (1 − t)2 ) = 3 log(t) +
donde k = ni=1 xi .
P
2 log(1 − t). Observando que
d 3 2 3
Función de probabilidad marginal. Cuál es la probabilidad de que en una muestra 0= ψ(t) = − ⇐⇒ 3(1 − t) − 2t = 0 ⇐⇒ t = ,
dt t 1−t 5
de volumen n se observen exactamente k artı́culos defectuosos. La cantidad de artı́culos
defectuosos será N = ni=1 Xi . Dado que θ = t, las variables X1 , . . . , Xn serán independientes, se puede deducir que
P
cada una con distribución de Bernoulli(t) y en tal caso N ∼ Binomial(n, t) 3
θ̂map (3) = .

n k 5
P(N = k|t) = t (1 − t)n−k , k = 0, 1, . . . , n (19)
k
Por lo tanto, condicionando sobre θ = t y usando la fórmula de probabilidad total, obtenemos 1.4. Estimación por intervalo para parámetro continuo
que
Z 1 Z 1 Dada la muestra aleatoria X se desea construir intervalos (acotados) que capturen casi
n k toda la variabilidad del parámetro aleatorio θ. Si el intervalo [a, b] es tal que
P(N = k) = P(N = k|t)πθ (t)dt = t (1 − t)n−k dt
0 0 k
Z 1 P(θ ∈ [a, b]|X) = 1 − α, (8)
n n k!(n − k)!
= tk (1 − t)n−k dt =
k 0 k (n + 1)! será llamado intervalo estimador de nivel 1 − α. En la práctica, los valores de α son pequeños:
1 0.1 o 0.05 o 0.01. En general, los valores de a y b dependerán de los valores de la muestra
= k = 0, 1, . . . , n (20)
n+1 aleatoria x. Dado que X = x, los intervalos estimadores de nivel 1 − α se obtienen resolviendo
la siguiente ecuación de las variables a y b:
En otras palabras, los n + 1 valores posibles de N son igualmente probables.
Z b
π(t|x)dt = 1 − α. (9)
a
9 6
De todas las soluciones posibles de la ecuación (9) se prefieren aquellas que producen intervalos Teorema 1.8. Entre todas las variables aleatorias continuas a valores en [a, b] la que maxi-
de longitud lo más pequeña posible. miza la entropı́a es la U[a, b].
Una solución particular de la ecuación (9) puede obtenerse mediante el siguiente razon-
amiento: como la distribución a posteriori del parámetro θ está centrada alrededor de su Demostración. No se pierde generalidad si se supone que [a, b] = [0, 1]. Si X ∼ U[0, 1],
esperanza, θ̂(x) := E[θ|X = x], y no puede desviarse demasiado de allı́, los intervalos que la entonces Z 1
contengan deben ser relativamente pequeños. Esto sugiere la siguiente construcción: dividir
H(X) = − 1 log(1)dx = 0.
a la mitad el nivel y tratar de capturar cada una de las mitades a izquierda y a derecha de 0
θ̂(x). En otras palabras, se trata de resolver las siguientes ecuaciones: El resultado se obtiene mostrando que si X es una variable aleatoria continua a valores en el
Z θ̂(x)
1−α
Z b
1−α [0, 1], entonces H(X) ≤ 0.
π(t|x)dt = , π(t|x)dt = . (10) Es fácil ver que para todo x > 0 vale la desigualdad
a 2 θ̂(x) 2
Ejemplo 1.7. Se considera el siguiente modelo Bayesiano: X ∼ N (θ, 1) con distribución a log(x) ≤ x − 1 (13)
priori θ ∼ N (0, 10). Sobre la base de una muestra de tamaño 1 de X se quiere determinar un
intervalo de nivel 1 − α para la variable θ. Poniendo x = u1 , u > 0, en la desigualdad (13) se obtiene
Dado que X = x tenemos que
1 1
! − log u = log ≤ −1 (14)
(x − t)2 t2 10x 2

11 u u
π(t|x) ∝ L(θ|x)πθ (t) ∝ exp − − ∝ exp − t−
2 20 20 11
La desigualdad (14) se usa para obtener
10x 10

y por lo tanto θ|X = x ∼ N 11 , 11 . Como la variable Z 1 Z 1 Z 1 Z 1
1
(θ|X = x) − (10x/11) H(X) = − f (x) log f (x)dx ≤ f (x) − 1 dx = 1dx − f (x)dx = 0.
Z= p ∼ N (0, 1) 0 0 f (x) 0 0
10/11

tenemos que P |Z| < z1−α/2 = 1 − α y de allı́ se deduce dado que X = x el intervalo
Comentario Bibliográfico. Una exposición elemental de la noción de entropı́a y de las
" r r #
10x 10 10x 10
− z1−α/2 , + z1−α/2 distribuciones menos informativas puede leerse en Pugachev, V.S., (1973). Introducción a la
11 11 11 11
Teorı́a de Probabilidades, Mir, Moscu.
es un intervalo estimador de nivel 1 − α.
EnfoqueR Bayesiano generalizado. Si la función de verosimilitud L(t|x) es integrable,
∞
1.5. Sobre la distribución a priori uniforme. i.e., 0 < −∞ L(t|x)dt < ∞, la expresión
1
Cuando el parámetro θ tiene distribución a priori U[a, b], esto es πθ (t) = b−a 1{t ∈ [a, b]} L(t|x)
el enfoque Bayesiano se simplifica abruptamente. π(t|x) := R ∞ (15)
La fórmula de Bayes para la distribución a posteriori (4) adopta la forma −∞ L(t|x)dt
1
L(t|x) b−a 1{t ∈ [a, b]} L(t|x)1{t ∈ [a, b]} define una densidad de probabilidades en R. Por abuso del lenguaje, algunos autores suelen
π(t|x) = R 1 = Rb . (11) llamarla la densidad a posteriori correspondiente a la distribución a priori “uniforme sobre la
L(t|x) b−a 1{t ∈ [a, b]}dt
a L(t|x)dt recta”1 No hay ningún problema en utilizar este enfoque siempre que no se pierda de vista
En palabras, si la distribución a priori del parámetro es uniforme, la densidad de su distribu- que no existe ninguna distribución uniforme sobre regiones de longitud infinita. El enfoque
ción a posteriori es proporcional a la función de verosimilitud: π(t|x) ∝ L(t|x). que postula una densidad a posteriori de la forma (15) será llamado Bayesiano generalizado.
Nota Bene. En cierto sentido, que puede precisarse, la distribución U[a, b] es la menos
informativa entre todas las distribuciones continuas a valores en [a, b].
2. Ejemplos
En teorı́a de la información la indeterminación de una variable aleatoria X se mide con 2.1. Las distribuciones β y el problema del “control de calidad”
la entropı́a definida por H(X) := E[− log f (X)], donde f (x) es la densidad de probabilidades
de la variable aleatoria X. En otros términos Control de calidad. La calidad de un proceso de producción puede medirse por el por-
Z centaje, 100 θ %, de artı́culos defectuosos producidos. Cada artı́culo producido tiene asociada
H(X) := − f (x) log f (x)dx. (12)
1
Nota histórica: la denominación para esta a priori impropia se debe a Laplace.
7 8

ECOgrynberg Booklet

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

ECOgrynberg Booklet

Cargado por

Copyright:

Formatos disponibles

(r1 , . . .

, rn ), donde r1 + · · · + rn = r y ri es la cantidad de partı́culas en la i-ésima celda,

3. Estadı́stica de Fermi-Dirac. En este caso r < n y cada

Ejemplo 4.1. Se distribuyen 5 partı́culas en 10 celdas numeradas 1, 2, . . . , 10. Calcular, para

1. Maxwell-Boltzmann. Las bolas son distinguibles y todas las configuraciones diferentes

2. Bose-Einstein. Las partı́culas son indistinguibles y todas las configuraciones distintas

1. Estadı́stica de Maxwell-Boltzmann. Suponemos que todas las partı́culas son distintas y

2. Estadı́stica de Bose-Einstein. Las partı́culas son indistinguibles. De nuevo, todas las

r = el número de peces en la segunda captura.

k = el número de peces rojos en la segunda captura.

pk (n) = la probabilidad de que la segunda captura contenga exactamente k peces rojos.

Con este planteo la probabilidad pk (n) se obtiene poniendo n2 = n − n1 en la fórmula (21):

En la práctica n1 , r, y k pueden observarse, pero n es desconocido.

1000 900 1900 −1 (1000!)2

3.5.2. Estimación por captura y recaptura.

III. Aditividad. Si los eventos A y B no tienen elementos en común, entonces

n(A ∪ B) n(A) n(B)

Teorema 3.8. Una población de n elementos tiene

Triángulo de Pascal. Las ecuaciones en diferencias

P(A) := b − a, si A ∈ A0 , Cumpleaños. Los cumpleaños de k personas constituyen una muestra de tamaño k de la

Demostración. Ejercicios adicionales

n! = 1 · 2 · · · n. (10) donde ak (U ) ∈ {0, 1, 2}, k ≥ 1.

Teorema 1.11 (σ-aditividad). Si A1 , A2 , . . . , es una sucesión de eventos disjuntos dos a dos

De (4) y (3) se obtiene (2).

1. Partir el intervalo (0, 1] en 6 intervalos sucesivos de longitud 1/6: I1 = (0, 1/6], I2 =

0 = lı́m P(An ) = lı́m P(x0 < X ≤ x0 + ǫn ) = lı́m F (x0 + ǫn ) − F (x0 ).

Por lo tanto, Ejercicios adicionales

Observación 1.5. Si se define

FX (x− 4.1. Algunas distribuciones relacionadas con la estadı́stica de Maxwell-

por celda se mantiene constante, entonces

de Poisson de media λ definida por

Demostración. Primero observamos que:

Si la función de distribución de T admite derivada continua, salvo términos de segundo orden

Usando que FT (0) = 0 se deduce que C = 0.

(λn + n − 1)λn+n−1+ 2 e−λn−n+1

1. Variables aleatorias 3 12. Considerando la estadı́stica de Maxwell-Boltzmann para la distribución aleatoria de r

6. Grinstead, C. M. & Snell, J. L. Introduction to Probability. American Mathematical

7. Kolmogorov, A. N.: Foundations of the Theory of Probability. Chelsea Publishing Co.,

8. Kolmogorov, A. N.: The Theory of Probability. Mathematics. Its Content, Methods,

9. Meester, R.: A Natural Introduction to Probability Theory. Birkhauser, Berlin. (2008)

10. Meyer, P. L.: Introductory Probability and Statistical Applications. Addison-Wesley,

... el único héroe válido es el héroe “en grupo”,

5. Grinstead, C. M. & Snell, J. L. Introduction to Probability. American Mathematical

6. Meester, R.: A Natural Introduction to Probability Theory. Birkhauser, Berlin. (2008)

7. Meyer, P. L.: Introductory Probability and Statistical Applications. Addison-Wesley,

8. Ross, S. M: Introduction to Probability and Statistics foe Engineers and Scientists.

9. Skorokhod, A. V.: Basic Principles and Applications of Probability Theory. Springer-

“No importa lo que yo piense.

4.4. De las masas puntuales a la masa continua . . . . . . . . . . . . . . . . . . . 18

Ejemplo 4.5 (Gaussiana). La función ρ : R2 → R+ definida por

Por lo tanto, la función ϕ : R → R+ definida por

P(A2 ) = P(T T ) + P(T HH) + P(T HT T ) + P(T HT HH) + · · · P(B|A)P(A)

(iii) σ-aditividad. Si A1 , A2 , . . . es una sucesión de eventos disjuntos dos a dos, entonces

En particular, para cada x ∈ R, vale que

Nota Bene. Notar que de (12) se deduce que

Interpretación intuitiva de la densidad de probabilidad. Sea X una variable aleatoria

Dicho en palabras, la probabilidad de que el valor de X se encuentre en un intervalo de

FU (u) = u1{0 ≤ u < 1} + 1{u ≥ 1}.

Figura 6: La región sombreada representa al conjunto B que es la unión de dos triángulos

. 1.3.2. Caso bidimensional continuo

Criterios para detectar (in)dependencia.

x\y 1 2 3 4 5 6 pX α es acotado inferiormente porque lı́m F (x) = 0.

De las propiedades anteriores se deduce que

FS (s) = α ⇐⇒ exp −(1 − s)2 = α ⇐⇒ −(1 − s)2 = log(α)