Está en la página 1de 38

[61.

09] Probabilidad y Estadística

María Inés Parnisari

26 de julio de 2012

Índice

I Probabilidad 2
1. Introducción a la estadística y el análisis de datos 2
2. Probabilidad 2
3. Variables aleatorias y distribuciones de probabilidad 6
4. Representación mediante grácos 9
5. Media, varianza y covarianza de variables aleatorias 10
6. Procesos de Bernoulli, Poisson e hipergeométrico 12
7. Distribución uniforme, normal... y otras 16
8. Aproximaciones de distribuciones 21
9. Funciones de variables aleatorias 22
10.Simulación 25

II Estadística 26
11.Deniciones 26
12.Estadística inferencial 26
13.Estimadores puntuales 28
14.Estimación por intervalo 29
15.Test de hipótesis 33
16.Estadística Bayesiana 36

1
Parte I
Probabilidad
1 Introducción a la estadística y el análisis de datos
Sean x1 , x2 , ..., xn las observaciones en una muestra.
Media de una muestra: es un promedio numérico. Se dene como:
x1 + x2 + ... + xn
x̄ =
 n 
1
= x : FX (x) =
2

Mediana de una muestra: si las observaciones están ordenadas en orden creciente, la mediana
es:
(
x n+1 si n es impar
x̃ = 2
1
si n es par

x +x
2
n
2
n
2 +1
(
1
P (X < x̃) ≤ 2
= 1
P (X > x̃) ≥ 2

Moda de una muestra: es el valor que ocurre con más frecuencia en la muestra. Se dene como:

modx = {x : fX (x) es máximo}

Rango de la muestra: xmáx − xmin


Varianza de la muestra: σ2 = ni=1 (xn−1
2
P −x̄) i


Desvío de la muestra: σ = σ2

2 Probabilidad
Probabilidad: estudio de los fenómenos aleatorios.

2.1 Espacio muestral


Espacio muestral: conjunto de todos los resultados posibles de un experimento estadístico. Se
representa con la letra Ω. Hay de dos tipos:

Espacio muestral discreto: contiene un número nito de posibilidades, o una serie inter-
minable con tantos elementos como números existen.
Espacio muestral continuo: contiene un número innito de posibilidades, tantas como el
número de puntos en un segmento de recta.

Punto muestral: cada resultado en un espacio muestral.

2.2 Eventos
Evento: subconjunto de un espacio muestral.
Denimos las operaciones sobre eventos:

2
Complemento: dado un evento A de un espacio muestral Ω, es el subconjunto de todos los
elementos de Ω que no están en A. Se representa con el símbolo Ā.

Intersección: dados dos eventos A y B , se dene a la intersección como A ∩ B = todos los


elementos que están en A y en B . Dos eventos son mutuamente excluyentes o disjuntos
si A ∩ B = ∅.

Unión: dados dos eventos A y B , se dene a la unión A ∪ B = todos los elementos que están
en A, o en B , o en ambos.

La relación entre eventos y el correspondiente espacio muestral Ω se puede ilustrar de forma gráca
usando diagramas de Venn.

Figura 1: Diagrama de Venn

2.3 Conteo de puntos muestrales


Regla de multiplicación generalizada: si una operación se puede ejecutar en n1 formas, y
si para cada una de éstas se puede llevar a cabo una segunda Qk operación en n2 formas, y así
sucesivamente, la serie de k operaciones se puede realizar en i=1 ni formas.
Permutación simple: arreglo de todos los elementos de un conjunto de n objetos, de manera que
el orden sí importa y no se repiten los elementos.

Pn = n!

Ejemplo: las permutaciones posibles de las letras a,b,c (n = 3) son: abc, acb, bac, bca, cab y cba
(P3 = 3! = 6).
Permutación con repetición: número de permutaciones distintas de n objetos de los que n1 son
de una clase, n2 de una segunda clase,...,nk de una k-ésima clase.

n!
Pn[n1 ,n2 ,...,nk ] =
n1 !n2 ! · · · nk !
Ejemplo: un entrenador necesita tener a 10 jugadores parados en una la. Hay 1 jugador de primer
año, 2 de segundo año, 4 de tercer año y 3 de cuarto año. El número de formas diferentes para
formar la la es 1!2!4!3!
10!
= 12,600.
Particiones: número de formas de partir un conjunto de n objetos en r celdas con n1 objetos en
la primera celda, n2 objetos en la segunda, y así sucesivamente, es
 
n n!
=
n1 , n2 , . . . , nr n1 !n2 ! · · · nr !
donde n1 + n2 + ... + nr = n.
Ejemplo: la cantidad de formas de asignar 7 personas (n = 3) a una habitación triple y a 2 dobles
(r = 3) es 3,2,2
7 7!
= 210.

= 3!2!2!

3
Combinaciones simples: número de formas de seleccionar m objetos de n sin importar el orden.
Es un tipo especial de partición con 2 celdas: una con m elementos y la otra con los n − m objetos
restantes.
 
n n!
Cn,m = =
m (n − m)!m!

Ejemplo: el número de formas de seleccionar 3 juegos de 10 disponibles es 10 10!


= 120.

3 = 7!3!
Combinaciones con repetición: número de formas de seleccionar m objetos de n donde no
importa el orden y sí se repiten los elementos.
 
n+m−1 (n + m − 1)!
CRn,m = =
n (m − 1)!n!
Ejemplo: en una bodega hay 5 tipos diferentes de botellas. ¾De cuántas formas se pueden elegir 4
botellas? La respuesta es 5+4−1 3!5! = 56.
8!

5 =
Variación simple: se llama variación de m elementos tomados de n a los distintos grupos formados
por m elementos de forma que sí importa el orden, y no se repiten los elementos.

n!
Vn,m =
(n − m)!
Ejemplo: se tienen 7 libros y solo 3 espacios en una biblioteca. La cantidad de formas en las que
se pueden colocar 3 libros elegidos es V7,3 = (7−3)!
7!
= 210.
Variación con repetición: se llama variaciones con repetición de m elementos tomados de n a
los distintos grupos formados por m elementos de manera que sí importa el orden, y sí se repiten
los elementos.

V Rn,m = nm

Ejemplo: ¾cuántos números de 3 cifras se puede formar con los dígitos: 1, 2, 3, 4 y 5? La respuesta
es 53 = 125.

2.4 Probabilidad de un evento


Probabilidad (denición axiomática): la probabilidad de un evento A es la suma de las probabil-
idades de todos los puntos muestrales en A. Por lo tanto:

1. 0 ≤ P (A) ≤ 1

2. P (∅) = 0

3. P (Ω) = 1

Teorema de Laplace : si un experimento puede tener N diferentes resultados equiprobables, y si n


de estos resultados corresponden al evento A, entonces P (A) = N.
n

Axioma de continuidad : para cada sucesión de eventos A1 ⊃ A2 ⊃ · · · ⊃ An ⊃ · · · tal que



Ai = ∅, entonces lı́mn→∞ P (An ) = 0.
T
i=1

2.5 Reglas aditivas


Teorema : si A y B son dos eventos, entonces
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)

4
Corolario 1: si A1 , ..., An son mutuamente excluyentes, entonces

P (A1 ∪ · · · ∪ An ) = P (A1 ) + · · · + P (An )

Corolario 2: si A1 , . . . , An es una partición del espacio muestral Ω, entonces

P (A1 ∪ · · · ∪ An ) = P (A1 ) + . . . + P (An ) = P (Ω) = 1

Teorema : si A y Ā son eventos complementarios, entonces P (A) + P (Ā) = 1.

2.6 Probabilidad condicional


Probabilidad condicional: la probabilidad de que un evento B ocurra cuando se sabe que ya
ocurrió un evento A se llama probabilidad condicional. Se denota como P (B|A) y se dene como

P (A ∩ B)
P (B|A) =
P (A)

Eventos independientes: dos eventos A y B son independientes si y sólo si P (B|A) = P (B) y


P (A|B) = P (A).

2.7 Reglas multiplicativas


Regla multiplicativa: si en un experimento pueden ocurrir los eventos A y B , entonces
P (A ∩ B) = P (A) · P (B|A) = P (B ∩ A) = P (B) · P (A|B)

Eventos independientes: dos eventos A y B son independientes si y sólo si

P (A ∩ B) = P (A) · P (B)

2.8 Regla de Bayes


Regla de eliminación / probabilidad total: si los eventos B1 , ..., Bk constituyen una partición
del espacio muestral Ω tal que P (Bi ) 6= 0 para i = 1, ..., k , entonces para cualquier evento A de Ω:

k
X k
X
P (A) = P (Bi ∩ A) = P (Bi ) · P (A|Bi )
i=1 i=1

Figura 2: Diagrama de árbol

5
Regla de Bayes: si los eventos B1 , ..., Bk constituyen una partición del espacio muestral Ω tal
que P (Bi ) 6= 0 para i = 1, ..., k , entonces para cualquier evento A de Ω tal que P (A) 6= 0:

P (Br ∩ A) P (Br ) · P (A|Br )


P (Br |A) = Pk = Pk
i=1 P (Bi ∩ A) i=1 P (Bi ) · P (A|Bi )

2.9 Mecánica Estadística


Hay n celdas y r partículas que se distribuyen al azar en las celdas. La distribución de las partículas
en las celdas:
Estadística de Estadística de Bose-Einstein Estadística de Fermi-Dirac
Maxwell-Boltzmann
Las r partículas son distintas. Las r partículas son Hay r < n partículas.
indistinguibles.
Todas las ubicaciones de las Todas las ubicaciones de las Cada celda puede contener, a lo
partículas son igualmente partículas son igualmente sumo, 1 partícula.
posibles. posibles.
Evento elemental: r − upla Evento elemental: n − upla Evento elemental: n − upla
(x1 , . . . , xr ) donde xi = número (r1 , . . . , rn ) donde ri = cantidad (b1 , . . . , bn ) donde
de celda donde cayó la partícula de partículas Pn en la celda i, (
i i=1 ri = r 1 si la celda i está ocupada
bi =
0 si no

Cantidad de tuplas posibles: nr Cantidad de tuplas


 posibles: Cantidad de eventos
r+n−1
elementales: nr

n−1
P [evento elemental] = 1
nr P [evento elemental] = 1
P [evento elemental] = 1
(r+n−1
n−1 ) (nr)

3 Variables aleatorias y distribuciones de probabilidad


3.1 Concepto de variable aleatoria
Variable aleatoria: función que asocia un número real con cada elemento del espacio muestral.
Tiene la forma fX (x) : Ω → <, donde X denota la variable aleatoria, x uno de sus valores, y Ω el
espacio muestral. Hay de tres tipos:

Discreta: hay nitos resultados posibles, o innitos numerables resultados posibles. Repre-
sentan datos por conteo.
Continua: su conjunto de valores posibles es un intervalo de números. Representan datos
medidos (pesos, alturas, distancias, etc.)
Mixta.
Teorema : X e Y son variables aleatorias independientes sí y sólo si f (x, y) = f (x)f (y) ∀(x, y).
Condición necesaria (pero no suciente) para que X ,Y sean independientes : el soporte de f (x, y)
debe ser un rectángulo o un conjunto ordenado de ellos.

3.2 Distribuciones discretas de probabilidad


Función de probabilidad de una variable aleatoria discreta X : conjunto de pares ordenados
(x, P (X = x)) tales que para cada resultado posible x:

1. P (X = x) ≥ 0,

6
2. P (X = x) = 1.
P
∀x

Función de distribución acumulada de una variable aleatoria discreta X : dada la dis-


tribución de probabilidad P (X = x),
X
FX (x) = P (X ≤ x) = P (X = t) para −∞ < x < ∞
t≤x

Propiedades de la función de distribución:

1. P (a < X ≤ b) = FX (b) − FX (a)

2. P (a ≤ X ≤ b) = FX (b) − FX (a) + P (a)

3. P (a ≤ X < b) = FX (b) − FX (a) + P (a) − P (b)

4. P (a < X < b) = FX (b) − FX (a) − P (b)

5. FX (x) es no decreciente y continua a derecha

6. lı́mx→−∞ FX (x) = 0; lı́mx→+∞ FX (x) = 1

Átomo de X : se dice que a ∈ < es un átomo de la variable aleatoria discreta X si P (X = a) > 0.

3.3 Distribuciones continuas de probabilidad


Función de densidad de probabilidad de una variable aleatoria continua X : función f (x)
denida en el conjunto <, tal que:

1. f (x) ≥ 0 para toda x ∈ <


´∞
2. −∞ f (x) dx = 1

3. P (X = x) = 0 para toda x ∈ <


´b
4. P (a < X < b) = P (a ≤ X ≤ b) = a
f (x) dx

Función de distribución acumulada de una variable aleatoria continua X : dada la función


de densidad f (x), se dene a la función de distribución como
ˆ x
FX (x) = P (X ≤ x) = f (t) dt para − ∞ < x < ∞
−∞

3.4 Distribuciones mixtas de probabilidad


X es una variablea aleatoria mixta cuando:
Existen a tales que P (X = a) > 0. Dichos puntos a son los puntos pesados de X , es decir,
que acumulan probabilidad.
h´ i
b
P (a ≤ X ≤ b) = a fX (x) dx + P (X = a) + P (X = b)

7
3.5 Distribuciones de probabilidad conjunta
3.5.1 Caso discreto
Función de probabilidad conjunta: si X e Y son dos variables aleatorias discretas, la distribu-
ción de probabilidad para sus ocurrencias simultáneas se representa mediante una función P (x, y)
que verica:

1. P (x, y) = P [(X = x) ∩ (Y = y)]

2. P (x, y) ≥ 0 para todo (x, y)

3.
P P
∀x ∀y P (x, y) = 1
( P
P (X = x) = ∀y P (x, y)
Función de probabilidad marginal: P
P (Y = y) = ∀x P (x, y)
(
P (Y = y|X = x) = PP(X=x)
(x,y)
Función de probabilidad condicional:
P (X = x|Y = y) = PP(Y(x,y)
=y)
Función de probabilidad conjunta: P (x, y) = P (x) · P (y|x) = P (y) · P (x|y)

3.5.2 Caso continuo


Función de densidad conjunta: la función f (x, y) es una función de densidad conjunta de las
variables aleatorias continuas X y Y si:

1. f (x, y) ≥ 0 para todo (x, y)


´ +∞ ´ +∞
2. −∞ −∞ f (x, y) dx dy = 1
˜
3. P [(X, Y ) ∈ A] = A f (x, y) dx dy
( ´ +∞
fX (x) = −∞ f (x, y) dy
Función de probabilidad marginal: ´ +∞
fY (y) = −∞ f (x, y) dx
(
f (y|x) = ffX
(x,y)
Función de probabilidad condicional: Y |X (x)
f (x,y)
fX|Y (x|y) = fY (y)
Función de probabilidad conjunta: f (x, y) = f (x) · f (y|x) = f (y) · f (x|y)

3.6 Variables truncadas


Truncado: truncar la variable aleatoria X a un conjunto B ⊂ R signica condicionarla a tomar
valores en el conjunto B .

P (X ≤ x, X ∈ B)
FX|X∈B (x) = P (X ≤ x|X ∈ B) =
P (X ∈ B)

fX (x)1{x ∈ B}
fX|X∈B (x) =
P (X ∈ B)

8
3.7 Mezcla de variables aleatorias
Sean n variables aleatorias Xi , donde cada una se asocia a un resultado Pn Ri de un experimento
aleatorio. Si P (Ri ) es la probabilidad de ocurrencia de cada resultado, y i=1 P (Ri ) = 1, entonces:

fXM (x) = fX1 (x) · P (R1 ) + fX2 (x) · P (R2 ) + · · · + fXn (x) · P (Rn )

Propiedades:
Pn
E [XM ] = E [Xi ] · P (Ri )
i=1
Pn h i
2 2 2
σX M
= i=1 P (Ri ) · σX i
+ (E [Xi ] − E [XM ])

3.8 Suma aleatoria de variables aleatorias


Dada una cantidad aleatoria Y de términos Xi idénticamente distribuidos, y sea la variable aleatoria
Y
X
W |Y = Xi
i=1

Entonces:

E(W ) = E(Y ) · E(X)


σ 2 (W ) = E(Y )σ 2 (X) + E 2 (X)σ 2 (Y )

4 Representación mediante grácos


Distribución empírica: la función de distribución empírica
Fn (x) de n puntos sobre la recta x1 , ..., xn es la función escalera
con saltos de altura n1 en los puntos x1 , ..., xn .
n
1X
Fn (x) = 1{xi ≤ x}
n i=1

La distribución empírica es una aproximación a la función de


distribución acumulada, FX (x).
Histograma: un histograma de una muestra x1 , . . . , xn
se ob-
Figura 3: Distribución empírica.
tiene eligiendo una partición en m intervalos de extremos a0 < · · · < am con longitudes
Lj = aj − aj−1 ; calculando las frecuencias relativas
n
1X
pj = 1 {aj−1 < xi < aj }
n i=1
pj
y gracando la función igual a Lj en el intervalo (aj−1 , aj ] y a 0 fuera de los intervalos:

m
X pj
fx1 ,...,xn ;a0 ,...,am (x) = 1 {x ∈ (aj−1 , aj ]}
L
j=1 j

O sea, un conjunto de rectágulos con área pj .

9
Un histograma es una aproximación a la función de densidad de prob-
abilidad, fX (x).
Cuantil-α de X : es cualquier número xα ∈ R, con α ∈ (0, 1) tal que
P (X < xα ) ≤ α y P (X ≥ xα ) ≥ α

El cuantil-α de una variable aleatoria absolutamente continua es la


única solución de la ecuación ˆ xα
fX (x) dx = α
−∞
Figura 4: Histograma.

5 Media, varianza y covarianza de variables aleatorias


5.1 Media de una variable aleatoria
5.1.1 Caso univariante
Media / valor esperado / esperanza: sea X una variable aleatoria. La media o valor esperado
de X es un tipo de promedio que describe el lugar donde se centra la distribución de probabilidad
de X . Es un número real, que a veces no existe.

si X es discreta
P
´ ∀x x · P (X = x)

+∞
µx = E [X] = x · f (x) dx si X es continua
−∞ ´
si X es mixta
P
∀x:P (x)6=0 x · P (X = x) + ∀x:f (x)6=0 x · f (x) dx

Teorema : sea X una variable aleatoria. El valor esperado de la variable aleatoria g(X) es:

si X es discreta
P
´ ∀x g(x) · P (X = x)

+∞
µg(X) = E [g(X)] = g(x) · f (x) dx si X es continua
−∞ ´
∀x:P (x)6=0 g(x) · P (X = x) + ∀x:f (x)6=0 g(x) · f (x) dx si X es mixta

P

Esperanza condicional: dada la función de densidad f (x) de una variable aleatoria X , y dado
un conjunto A, denimos:
(P P (X=x)
x· si X es discreta
E [X|X ∈ A] = ´ +∞
∀x P (x∈A)
f (x)
−∞
x· P (x∈A) dx si X es continua

Teorema : dada una variable aleatoria X y un conjunto A de X , tenemos que


  
E [X|A] · P (A) + E X|Ā · P Ā = E[X]

5.1.2 Caso bivariante


Media / valor esperado / esperanza: sean X e Y variables aleatorias con función de densidad
de probabilidad conjunta f (x, y ). La media o valor esperado de la variable aleatoria g(X, Y ) es:
(P P
∀x ´ ∀y g(x, y) P (x, y) si X e Y son discretas
µg(X,Y ) = E [g(X, Y )] = ´ +∞ +∞
−∞ −∞
g(x, y) f (x, y) dx dy si X e Y son continuas

Esperanza condicional: sean las variables aleatorias X , Y con función de densidad condicional
fY |X (y|x). La esperanza de X dado Y = y es una variable aleatoria tal que, para cada y ∈ R

10
(P
x · P (x|y) si X es discreta
E [X|Y = y] = ´ +∞
∀x

−∞
x · fX|Y (x|y) dx si X es continua

Línea de regresión: considerando a x como una variable,


ˆ +∞
ϕ(x) = E [Y |X = x] = y · fY |X (y|x) dy
−∞

Recta de regresión: la recta de regresión


s de Y basada en X es la función lineal Ŷ = aX + b que
   2 
minimiza la distancia d Ŷ , Y = E Y − Ŷ , y se calcula como:

cov(X, Y )
Ŷ = (X − E [X]) + E [Y ]
var(X)

5.2 Varianza y covarianza de variables aleatorias


Varianza: sea X una variable aleatoria con densidad de probabilidad f (x) y media µ. La varianza
de X es el número σX
2
≥ 0 que mide las uctuaciones de X en torno a µ:
(P
∀x (x − µ) · P (X = x) si X es discreta
2
2
= E (X − µ)2 = ´ +∞
 
σX
−∞
(x − µ)2 · f (x) dx si X es continua

Teorema : sea X una variable aleatoria con densidad de probabilidad f (x). La varianza de la variable
aleatoria g(X) es:
(P  2
n 2 o ∀x g(x) − µg(X) P (X = x) si X es discreta
2
σg(X) =E g(X) − µg(x) = ´∞  2
−∞
g(x) − µg(X) f (x) dx si X es continua

Teorema : σX
2

= E X 2 − E(X)2
Teorema de Pitágoras : σX
2
 
= σ 2 [E [Y |X]] + E σ 2 [Y |X]
Varianza condicional: σ2 (Y |X) = E Y 2 |X − (E [Y |X])2
 

Desviación estándar: σ = σ2
Covarianza: sean X e Y variables aleatorias con densidad de probabilidad conjunta f (x, y). La
covarianza de X e Y es:

(P
si X e Y son discretas
P
(x − µX )(y − µY ) · P (x, y)
cov(X, Y ) = E [(X − µX ) (Y − µY )] = ´ ∞∀x ´ ∞∀y
−∞ −∞
(x − µX )(y − µY ) · f (x, y) dx dy si X e Y son continuas

Lo que nos importa de la covarianza es su signo.


Teorema : la covarianza de dos variables aleatorias X e Y es cov(X, Y ) = E(XY ) − E(X)E(Y )
Coeciente de correlación: sean X y Y variables aleatorias con covarianza cov(X, Y ) y desviación
estándar σX y σY respectivamente. El coeciente de correlación de X y Y es:

cov(X, Y )
ρXY =
σX σY
El coeciente de correlación mide el grado de linealidad entre dos variables aleatorias.
Teorema : |ρXY | ≤ 1

11
5.3 Medias, varianzas y covarianzas de combinaciones lin-
eales de variables aleatorias
Desigualdad de Cauchy-Schwartz: E [|XY |] ≤
p
E [X 2 ] E [Y 2 ]
Teorema : si X, Y son variables aleatorias, E[X] = E [E[X|Y ]]
Teorema : si X, Y son variables aleatorias, E [X · g(Y )|Y ] = g(Y ) · E [X|Y ]
Teorema : si X e Y son independientes, E [Y |X] = E [Y ]
(´ ∞
(1 − FX (x)) dx si FX (x) = 0 para x < 0
Teorema : E[X] = ´0∞ ´0
0
(1 − FX (x)) dx − −∞ FX (x) dx si FX (x) 6= 0 para x < 0
Teorema : si a ∈ <, entonces E[a] = a.
Teorema : si a ∈ <, entonces E [a|Y ] = a.
Teorema : si a, b ∈ < y X es una variable aleatoria, entonces E [aX + b] = aE[X] + b.
Teorema : si a, b ∈ < y X, Y, Z son variables aleatorias, entonces E [aX + bZ|Y ] = aE [X|Y ] +
bE [Z|Y ].
Teorema : E[g(X) ± h(X)] = E[g(X)] ± E[h(X)].
Teorema : E[g(X, Y ) ± h(X, Y )] = E[g(X, Y )] ± E[h(X, Y )].
Teorema : si X e Y son dos variables aleatorias independientes, entonces E(XY ) = E(X)E(Y ).
Teorema : si X e Y son dos variables aleatorias independientes, entonces cov(X, Y ) = 0. La recíproca
no es cierta.
Teorema : si a y b son constantes, entonces σaX+b
2
= a2 σX
2
.
Teorema : si X e Y son variables aleatorias con densidad de probabilidad conjunta f (x, y) entonces
2
σaX+bY = a2 σX
2
+ b2 σY2 + 2abσXY
Teorema : cov(X, X) = σX2
.
Teorema : cov(aX, bY ) = ab · cov(X, Y ).
Teorema : cov(X, Y + Z) = cov(X, Y ) + cov(X, Z).

6 Procesos de Bernoulli, Poisson e hipergeométrico


Notación: Y ∼ XBE (p) signica la variable aleatoria Y distribuye como una variable aleatoria
Bernoulli de parámetro p.

6.1 Proceso de Bernoulli y variables asociadas


Proceso de Bernoulli: debe tener las siguientes propiedades.
1. Consistir en n ensayos.

2. Cada ensayo debe tener 2 posibles resultados, éxito o fracaso.

3. La probabilidad de éxito (p ∈ (0, 1)) debe mantenerse constante en cada ensayo.

4. Los ensayos son independientes (i.e. el muestreo se realiza con reemplazo ).

Variable de Bernoulli: variable aleatoria dicotómica (0 es fracaso y 1 es éxito) que verica
(
x 1−x p si x = 1
P (XBE = x) = p (1 − p) =
1 − p si x = 0

Media: p

12
Varianza: p(1 − p)

Propiedades:

Sean X1 , X2 , . . . variables aleatorias independientes tales que Xi ∼ Bernoulli(p). Sea SN =


PN
i=1 Xi . Si N ∼ P oisson (λ), entonces SN ∼ P oisson (λp)

Variable binomial: variable aleatoria que representa la cantidad de éxitos obtenidos en n ex-
perimentos Bernoulli independientes, donde la probabilidad de éxito en un experimento es p. Su
distribución de probabilidad es:
( 
n
x px (1 − p)n−x si x = 0, 1, . . . , n
P (XBI = x) =
0 ∀ otro x

Media: np
Varianza: np(1 − p)

Propiedades:

1. La suma de n variables aleatorias Bernoulli de parámetro p es una variable aleatoria binomial


de parámetros n y p.
2. Si X ∼ Binomial (nX , p) y Y ∼ Binomial (nY , p) y X, Y son independientes, entonces la
variable aleatoria W = X + Y es W ∼ Binomial (nX + nY , p).

Ejemplo: la probabilidad de que una persona se cure de una enfermedad es 0, 4. Si se sabe que
15 contraen
 5esa 10enfermedad, la probabilidad de que se curen exactamente 5 personas es P (XBI =
5) = 155 0,4 0,6 = 0, 186.
Variable geométrica: variable aleatoria que representa la cantidad de experimentos Bernoulli
independientes necesarios hasta obtener el primer éxito (incluyéndolo). Su distribución de proba-
bilidad es:
(
(1 − p)x−1 p si x = 1, 2, . . . , ∞
P (XG = x) =
0 ∀ otro x

Media: 1
p

Varianza: 1−p
p2

Propiedades:

1. Las variables geométricas tienen la propiedad de pérdida de memoria. Es decir, si X ∼


Geom(p), entonces P (X > n + m|X > n) = P (X > m), donde n, m ∈ N.
2. Si X es una variable aleatoria en N con la propiedad de pérdida de memoria, entonces
X ∼ Geom(p), donde p = P (X = 1).

Ejemplo: en un proceso de fabricación, en promedio, 1 de cada 100 artículos está defectuoso. La


probabilidad de que el 5to artículo que se inspecciona sea el primer defectuoso encontrado es
99 4
1
= 0, 0096.

P (XG = 5) = 100 · 100
Variable Pascal / binomial negativa: variable aleatoria que representa la cantidad de exper-
imentos Bernoulli independientes hasta obtener el r-ésimo éxito. Su distribución de probabilidad
es:
(
n−1
si n = r, r + 1, . . . , ∞

r−1 pr (1 − p)n−r
P (XP A = n) =
0 ∀ otro n

13
Media: r
p

r(1−p)
Varianza: p2

Propiedades:

1. La suma de n variables aleatorias geométricas de parámetro p es una variable aleatoria Pascal


de parámetros n y p.

2. Si Xn ∼ Binomial (n, p) y Tk ∼ P ascal (k, p) vale que P (Sn ≥ k) = P (Tk ≤ n).

Proceso multinomial: debe tener las siguientes propiedades.


1. Consistir en n ensayos.

2. Cada ensayo debe tener k posibles resultados.

3. La probabilidad de éxito (pk ) debe mantenerse constante para cada k .

4. Los ensayos son independientes.

Distribución multinomial: dado un experimento multinomial que consiste en n ensayos indepen-


dientes, con una probabilidad pk de obtener el resultado Ek para cada k , entonces la distribución
de probabilidad de las variables aleatorias X1 , ..., Xk (que representan el número de ocurrencias de
E1 , ..., Ek ) es:
 
n
f (x1 , ..., xk ; p1 , ..., pk , n) = px1 px2 ...pxkk
x1 , . . . , x k 1 2
Ejemplo: un aeropuerto tiene 3 pistas. Las probabilidades de que cada una de las pistas sean
utilizadas por un avión son P1 = 92 , P2 = 16 1
, P3 = 11
18 . ¾Cuál es la probabilidad de que 6 aviones
que llegan al azar se distribuyan de la siguiente manera: 2, 1, 3? Resolvemos: f (2, 1, 3; 29 , 16
1 11
, 18 , 6) =
2 2 1 1 11 3
6
= 0, 1127.
   
2,1,3 9 16 18

6.2 Proceso Poisson y variables asociadas


Proceso Poisson: debe tener las siguientes propiedades.
1. El número de resultados que ocurren en un intervalo o región especíca es independiente
del número que ocurre en cualquier otro intervalo o región del espacio disjunto. Es decir, el
proceso Poisson no tiene memoria.

2. La probabilidad de que ocurra un solo resultado en un intervalo muy corto es proporcional a


la longitud del intervalo.

3. La probabilidad de que ocurra más de un resultado en un intervalo corto es insignicante.

4. La tasa de éxito λ por unidad de continuo t debe ser constante, λ > 0.

Teorema (distribución condicional de los tiempos de llegada) : dado un proceso Poisson de intensidad
λ sobre R+ . Si se sabe que en un tiempo  t hubo  n éxitos, entonces cada éxito tiene distribución
∼ f (0, t) independiente de los demás.
Variable Poisson: variable aleatoria que representa la cantidad de éxitos obtenidos en un proceso
Poisson. Su distribución es:

(λt)x −λt
(
x! e con x ∈ N
P (XP O = x) =
0 ∀ otro x

14
Media: λt
Varianza: λt

Propiedades:
1. Teorema de superposición : La suma de n variables Poisson de parámetros λ y t genera otra
variable Poisson de parámetros nλ y t.
2. Teorema de aditividad : si X ∼ P oisson (λ1 ) y Y ∼ P oisson (λ2 ), y X, Y son independientes,
enonces S = X + Y distribuye como S ∼ P oisson (λ1 + λ2 ).
3. Teorema del adelgazamiento : si X ∼ P oisson (λx , t) y Y |X ∼ Binomial(p) entonces Y ∼
P oisson (λy = λx · p, t) y además X − Y ∼ P oisson (λx−y = (1 − p) · λx ).
Variable exponencial: variable aleatoria que representa la cantidad de continuo t hasta obtener
el primer éxito en un proceso Poisson, o la cantidad de continuo t entre dos éxitos. Su distribución
es:
(
λe−λt si t > 0
P (XEXP = t) =
0 si t ≤ 0

Media: 1
λ

Varianza: 1
λ2

Función de distribución acumulada: FXE (t) = 1 − e−λt si t > 0

Propiedades:
 
1. Las variables aleatorias exponenciales no tienen memoria. Es decir: P XEXP >t+h
XEXP >t = P (XEXP > h).

2. Teorema : sea T una variable aleatoria continua a valores en R+ . Si T pierde memoria, entonces
T ∼ Exp (λ = − log [P (T > 1]).
3. Teorema de la competencia : si T1 ∼ Exp (λ1 ) y T2 ∼ Exp (λ2 ), y ambas son independientes,
entonces P (mı́n (T1 , T2 ) = T1 ) = λ1λ+λ
1
2
, y P (mı́n (T1 , T2 ) = T2 ) = λ1λ+λ
2
2
.
4. Teorema de la competencia generalizado : sean las variables aleatorias independientes T1 ∼
Exp (λ1 ), T2 ∼ Exp (λ2 ), ..., Tn ∼ Exp (λn ). Sea M = mı́n (T1 , T2 , . . . , Tn ). Entonces M ∼
λj
Exp (λ1 + λ2 + · · · + λn ) y P (M = Tj ) = λ1 +···+λ n
.
5. Teorema (suma geométrica de exponenciales independientes) : sean X1 , X2 , . . . variables i.i.d
PN
tales que Xi ∼ Exp (λ). Si S = i=1 Xi , donde N ∼ Geom (p), entonces S ∼ Exp (λp)
Variable Gamma: variable aleatoria que representa la cantidad de continuo t hasta obtener el
k-ésimo éxito en un proceso Poisson. Su distribución es:
( k−1
t
λk e−λt si t > 0
P (XΓ = t) = (k−1)!
0 ∀ otra t

Media: k
λ

Varianza: k
λ2

Propiedades:
1. La suma de n variables aleatorias exponenciales de parámetro λ es una variable aleatoria
Gamma de parámetros (n, λ).
2. Si X ∼ Γ (k1 , λ) y Y ∼ Γ (k2 , λ) entonces la variable Z = X + Y distribuye como Z ∼
Γ (k1 + k2 , λ).
3. Si X ∼ Γ(k, λ) entonces P (X > x) = P (Y < k) donde Y ∼ P O (λ, x).

15
6.3 Proceso hipergeométrico y variables asociadas
Proceso hipergeométrico: posee las siguientes propiedades.
1. Dados N artículos, se seleccionan aleatoriamente n de ellos.
2. k de los N artículos se clasican como éxito y N − k como fracaso.
3. El muestreo se realiza sin reemplazo.

Variable hipergeométrica: variable aleatoria que representa la cantidad de éxitos obtenidos en


un proceso hipergeométrico. Su distribución es:
 k N −k
 (x)( n−x ) si x ∈ {máx(0, n + m − N, . . . , mı́n(m, n)}
P (XHG = x) = (Nn )
0 en otro caso

Media: nk
N

Varianza: N −n k k

N −1 n N 1− N

Ejemplo: tenemos un lote de 100 artículos, de los cuales 12 están defectuosos. La probabilidad de
(12)(88)
que haya 3 defectuosos en una muestra de 10 artículos es P (X = 3) = 3 100 7 = 0, 08.
( 10 )
Variable hiperpascal: variable aleatoria que representa la cantidad de extracciones sin reposición
en un proceso hipergeométrico hasta obtener el r-ésimo éxito. Su distribución es:

k N −k
 
r−1 n−r k−r+1
P (XHP = x) = N
· con r ≤ x ≤ (N − k) + r
N −x+1

x−1

Distribución hipergeométrica multivariada: dado un experimento hipergeométrico multi-


variado que consiste en seleccionar n elementos de un universo de tamaño N , donde el universo se
puede dividir en k celdas A1 , ..., Ak con a1 , ..., ak elementos cada una, entonces la distribución de
probabilidad de las variables aleatorias X1 , ..., Xk (que representan el número de elementos que se
seleccionan de Ak ) es:
a1 a2 ak
  
x1 x2 ··· xk
f (x1 , ..., xk ; a1 , ..., ak ; N ; n) = N

n

Ejemplo: 10 personas se usan para un estudio biológico. El grupo contiene 3 personas con sangre
tipo O, 4 con sangre tipo A y 3 personas con tipo B. La probabilidad de que una muestra aleatoria
de 5 personas contenga 1 persona con sangre tipo O, 2 personas con tipo A y 2 personas con tipo
(3)(42)(32)
B es f (1, 2, 2; 3, 4, 3; 10, 5) = 1 10 = 0, 214.
(5)

7 Distribución uniforme, normal... y otras


7.1 Distribución uniforme
Distribución uniforme discreta: si la variable aleatoria X toma los valores x1 , x2 , ..., xk con
idénticas probabilidades, entonces la distribución uniforme discreta está dada por
(
1
si x ∈ {x1 , x2 , . . . , xk }
P (X = x) = k
0 ∀ otro x
Pk
Media: 1
k i=1 xi

16
Pk
Varianza: 1
k i=1 (xi − µ)2

Distribución uniforme continua: la función de densidad de la variable aleatoria uniforme con-


tinua X en el intervalo (a, b) es
(
1
b−a si a < x < b
f (x) =
0 ∀ otro x

Media: a+b
2

(b−a)2
Varianza: 12

7.2 Distribución normal


Distribución normal: la función de densidad de la variable
aleatoria normal X , con media µ y desviación estándar σ es:
1 1 x−µ 2
fX (x) = √ · e− 2 ( σ ) para − ∞ < x < ∞
2πσ
´b
La probabilidad P (a < X < b) = a fX (x) dx no se puede
calcular analíticamente, porque no existe una primitiva de la
función fX (x). Para efectuar dicho cálculo la variable aleatoria
X deberá ser llevada a su forma normal estándar Z , que tiene Figura 5: Distribución normal.
media 0 y desvío 1:

X − µX 1 1 2
Z= siendo fZ (z) = √ e− 2 z
σX 2π
Entonces, volviendo al cálculo anterior:
 
a − µX b − µX
P (a < X < b) = P <Z<
tabulado σX σX
Propiedades:

1. FZ (z) = φ(z)

2. φ(−z) = 1 − φ(z)
Pk
3. Si W = i=1 (ci Xi ) con ci ∈ R y Xi variables aleatorias con distribución normal de media
Pk
µXi y varianza σX 2
i
, entonces W es una variable aleatoria normal con µW = i=1 (ci · µXi )
k
y si las Xi son independientes entonces σW .
2

= i=1 c2i · σX 2
P
i

4. La mezcla de variables aleatorias normales no es una variable aleatoria normal.

7.2.1 Teorema Central del Límite (TCL)


Teorema : dados n valores
PnXi independientes e idénticamente distribuidos, con media µX y desvío
σX conocidos, si W = i=1 Xi y si n es sucientemente√ grande (generalmente n > 25) entonces
W tiene distribución normal con media nµX y desvío nσX .

17
7.3 Distribución chi cuadrada

Figura 6: Distribución chi cuadrada

Distribución chi cuadrada: la variable aleatoria continua X tiene una distribución chi cuadrada,
con ν grados de libertad, si su función de densidad está dada por
ν x
· x 2 −1 · e− 2 si x > 0
( 1
ν
2 2 Γ( ν )
f (x; ν) = 2

0 ∀ otro x

Media: ν
Varianza: 2ν

La distribución χ2ν NO es simétrica.


Teorema: si Z ∼ N (0, 1), entonces U = Z 2 distribuye como U ∼ χ2ν=1
Teorema : sea T = ni=1 (Zi )2 , donde las Zi ∼ N (0, 1) son independientes, entonces T ∼ Γ α = n 1
,
P 
2,β = 2
o lo que es lo mismo, T ∼ χ2ν=n .

7.4 Distribución de Weibull

Figura 7: Distribución de Weibull

Distribución de Weibull: la variable aleatoria continua X tiene una distribución de Weibull,


con parámetros α > 0 y β > 0, si su función de densidad está dada por
( β
αβxβ−1 e−αx si x > 0
f (x; α; β) =
0 ∀ otro x

18
1
Media: α− β · Γ(1 + β1 )
 h i2 
2
Varianza: α− β Γ(1 + β2 ) − Γ(1 + β1 )

β
Función de distribución acumulada: FX (x) = 1 − e−αx para x ≥ 0

7.5 Distribución Gamma generalizada


Distribución Gamma generalizada: la variable aleatoria continua X tiene una distribución
Gamma generalizada, con parámetros α > 0 y β > 0, si su función de densidad está dada por
(
α
1
xα−1 e−x/β si x > 0
f (x; α; β) = β Γ(α)
0 ∀ otro x
´∞ √
donde Γ(α) = 0
xα−1 e−x dx, Γ(n) = (n − 1)! y Γ(0,5) = π.
Media: αβ
Varianza: αβ 2

7.6 Distribución Beta

Figura 8: Distribución Beta

Distribución Beta: la variable aleatoria continua X tiene una distribución Beta, con parámetros
α > 0 y β > 0, si su función de densidad está dada por
(
Γ(α+β) α−1
x (1 − x)β−1 si 0 < x < 1
f (x; α; β) = Γ(α)Γ(β)
0 ∀ otro x
´∞ √
donde Γ(α) = 0
xα−1 e−x dx, Γ(n) = (n − 1)! y Γ(0,5) = π.
Media: α
α+β

Varianza: αβ
(α+β)2 (α+β+1)

19
7.7 Distribución t de Student

Figura 9: Distribución t de Student

Teorema : sean Z ∼ N (0, 1) y V ∼ χ2ν . Si Z y V son independientes, entonces la distribución de


Z
T =p
V /ν

está dada por


−(ν+1)/2
Γ ν+1
  
x2
h(x) = 2
√ 1+ para t ∈ R
Γ ν2
 
πν v
que es la distribución t de Student con ν grados de libertad.

Media: 0 (para v > 1)

Varianza: ν
ν−2 para ν > 2

h(x) es simétrica.

Teorema : conforme ν → ∞, tν → Z , siendo Z ∼ N (0, 1). En general basta con que ν ≥ 20.

7.8 Distribución F de Fisher

Figura 10: Distribución F de Fisher

Teorema : sean U y V dos variables aleatorias independientes tales que U ∼ χ2u y V ∼ χ2v . La
distribuci
pon de la variable aleatoria
U/u
F =
V /v

20
está dada por  u+v u u/2
 Γ[ 2 ]( v ) f (u/2)−1
si f > 0
h(f ) = Γ[ u
2 ]Γ[ 2 ]
v (1+uf /v)(u+v)/2

0 si f ≤ 0

y se conoce como la distribución F de Fisher con u y v grados de libertad. Se la denota como


Fu,v .

Media: v
v−2 (para v > 2)
2v 2 (u+v−2)
Varianza: u(v−2)2 (v−4) (para v > 4)

8 Aproximaciones de distribuciones
8.1 Aproximación de la binomial mediante la normal
Si X ∼ BI(n, p), entonces cuando n → ∞ y p → 12 , X tiene aproximadamente una distribución
normal Y ∼ N µ = np, σ 2 = np(1 − p) , y además

P (X ≤ x) ≈ P (Y ≤ x + 0,5)
P (X = x) ≈ P (x − 0,5 < Y < x + 0,5)

La aproximación será buena si np ≥ 5 cuando p ≤ 1


2 , o si np(1 − p) ≥ 5 cuando p > 21 .

8.2 Aproximación de la binomial mediante la Poisson


Si X ∼ BI(n, p), entonces cuando n → ∞, p → 0 y np → µ permanece constante, X tiene
aproximadamente una distribución Poisson Y ∼ P O(µ = np).

P (X = x) ≈ P (Y = x)

8.3 Aproximación de la Poisson mediante la normal


Si X ∼ P O (λt), y λ > 10 entonces X tiene aproximadamente una distribución normal Y ∼
N µ = λt, σ 2 = λt .

P (X = x) ≈ P (x − 0,5 < Y < x + 0,579)

Cuando λ > 1000, P (X ≤ x) = P (Y ≤ y)

8.4 Aproximación de la hipergeométrica mediante la binomi-


al
Si X ∼ HIP (k, N, n), y N
n
≤ 0,05, entonces X tiene aproximadamente una distribución binomial
nk k k
.
2

Y ∼ BI µ = N , σ = n · N 1 − N

P (X = x) ≈ P (Y = x)

21
9 Funciones de variables aleatorias
9.1 Transformación de variables aleatorias
9.1.1 Caso discreto
Teorema : sea X una variable aleatoria discreta con distribución de probabilidad f (x). Si tenemos
la transformación Y = u(X), que es una función inyectiva y = u(x) de la cual podemos resolver
para x en términos de y mediante x = w(y), entonces la distribución de probabilidad de Y es

g(y) = f [w(y)]

Teorema : sean X1 y X2 variables aleatorias discretas


( con distribución de probabilidad conjun-
Y1 = u1 (x1 , x2 )
ta f (x1 , x2 ). Si tenemos las transformaciones , que son funciones inyectivas
Y2 = u2 (x1 , x2 )
( (
y1 = u1 (x1 , x2 ) x1 = w1 (y1 , y2 )
, de las cuales podemos resolver x1 , x2 en términos de y1 , y2 mediante ,
y2 = u2 (x1 , x2 ) x2 = w2 (y1 , y2 )
entonces la distribución de probabilidad conjunta de Y1 y Y2 es

g(y1 , y2 ) = f [w1 (y1 , y2 ), w2 (y1 , y2 )]

9.1.2 Caso continuo


Teorema : sea X una variable aleatoria continua con distribución de probabilidad f (x). Denamos
con Y = u(X) una transformación inyectiva entre los valores de X y Y , de manera que la ecuación
y = u(x) se resuelva para x en términos de y mediante x = w(y). Entonces, la distribución de
probabilidad de Y es

g(y) = f [w(y)] · |J|


donde J = w0 (y) es el jacobiano de la transformación.
Teorema : suponga que X es una variable aleatoria continua con distribución de probabilidad f (x).
Denamos la transformación no inyectiva Y = u(X). Si el intervalo sobre el que se dene X se
puede dividir en k conjuntos disjuntos, de manera que cada una de las funciones inversas xk = wk (y)
de y = u(x) dena una correspondencia inyectiva, entonces la distribución de probabilidad de Y
es
Xk
g(y) = f [wi (y)] · |Ji |
i=1

donde Ji = wi0 (y), i = 1, 2, ..., k .


Teorema : suponga que X1 y X2 son variables aleatorias continuas ( con distribución de probabilidad
Y1 = u1 (X1 , X2 )
conjunta f (x1 , x2 ). Denamos la transformación inyectiva , de manera que
Y2 = u2 (X1 , X2 )
(
y1 = u1 (x1 , x2 )
las ecuaciones se pueden resolver para x1 , x2 en términos de y1 , y2 mediante
y2 = u2 (x1 , x2 )
(
x1 = w1 (y1 , y2 )
. Entonces, la distribución de probabilidad conjunta de Y1 , Y2 es
x2 = w2 (y1 , y2 )

g(y1 , y2 ) = f [w1 (y1 , y2 ), w2 (y1 , y2 )] · |J|


" #
∂x1 ∂x1
donde J = det ∂y1
∂x2
∂y2
∂x2
∂y1 ∂y2

22
9.2 Extremos de n variables aleatorias
Sean las variables aleatorias independientes e idénticamente distribuídas X1 , . . . , Xn con función
de densidad fX (x) y función de distribución FX (x).

Máximo Mínimo
XM = máx {X1 , . . . , Xn } Xm = mı́n {X1 , . . . , Xn }

n−1 n−1
fXM (x) = nfX (x) [FX (x)] fXm (x) = nfX (x) [1 − FX (x)]
n n
FXM (x) = [FX (x)] FXm (x) = 1 − [1 − FX (x)]

9.3 Suma de dos variables aleatorias


Sean X, Y dos variables aleatorias con densidad conjunta fX,Y (x, y). Sea Z = X + Y . Para cada
z ∈ R, Bz = {(x, y) ∈ R² : y ≤ z − x} vale que
ˆ +∞
fZ (z) = fX,Y (x, z − x) dx
−∞

9.4 Mínimo entre dos variables aleatorias


Sean X, Y dos variables aleatorias con densidad conjunta fX,Y (x, y). Sea U = mı́n{X, Y }. Para
cada u ∈ R vale que ˆ ∞ˆ ∞
FU (u) = 1 − fX,Y (x, y) dx dy
u u

9.5 Cambio de variable lineal


Sea la variable aleatoria X con función de densidad fX (x). La función de densidad del cambio de
variable Y = aX + b, donde a > 0 y b ∈ N, es:
 
1 y−b
fY (y) = · fX
a a

9.6 Ejemplo de cambio de variable


2
Sea la variable aleatoria X tal que fX (x) = 19 (x + 1) para x ∈ [−1, 2].
(
X si − 1 ≤ X < 1
Sea la variable aleatoria Y =
1 si X ≥ 1

23
La función de distribución de Y es:

FY (y) = P (Y ≤ y)
(
P [X ≤ y] si − 1 ≤ y < 1
=
P [1 ≤ y] si y ≥ 1
(´ y
2
1
9 (x + 1) dx si − 1 ≤ y < 1
= ´−1
1 1 2
−1 9
(x + 1) dx si y ≥ 1

0
 si y < −1
= 1
27 (y + 1)
3
si − 1 ≤ y < 1
si y >≥ 1

1

La función de densidad
( de Y es:
1
(y + 1)2 si − 1 ≤ y ≤ 1
fY (y) = dFdy
Y (y)
= 9
0 ∀ otro y

9.7 Ejemplo de cambio de variable bidimensional


Sean la variables aleatorias independientes U1 , U2 tales que fUi (ui ) = 1 si ui ∈ − 12 , 12 para cada


i ∈ {1, 2}.
Como son independientes, la función de densidad conjunta es fU1 ,U2 (u1 , u2 ) = 1 para u1 , u2 ∈
− 12 , 12 .
Sea la variable aleatoria Z = U1 + U2 . Es claro que el rango posible de Z es z ∈ (−1, 1).

Figura 11: Algunas curvas de nivel: U1 + U2 = k para k ∈ R

La probabilidad P (Z ≤ z) , cuando z ≤ 0, se interpreta grácamente como el área que está a la


izquierda y abajo de la recta U1 + U2 = z (el triángulo). Cuando
 z ≥ 0, la probabilidad P (Z ≤ z)
puede verse como el área del triangulo de vértices − 12 , − 21 , 12 , − 12 , − 12 , 12 más el área del


24
trapecio delimitado por las rectas U1 + U2 = 0 y U1 + U2 = z . O también puede pensarse como 1
menos el área del triangulo que está a la derecha y arriba de la recta U1 + U2 = z .
La función de distribución de Z es:

FZ (z) = P (Z ≤ z)
si z < −1

´0 z+0,5 ´ z−x

si −1≤z <0

 1 dy dx
= ´ 0,5−0,5
−0,5 ´ 0,5


 1 − z−0,5 z−x 1 dy dx si 0 ≤ z < 1
si z > 1

1
si z < −1

0
´ z+0,5 (z − x + 0,5) dx


si − 1 ≤ z < 0

= ´ 0,5
−0,5


 1 − z−0,5 (0,5 − z + x) dx si 0 ≤ z < 1
si z > 1

1
si z < −1


 0
0,5z 2 + z + 0,5 si − 1 ≤ z < 0

=


 −0,5z + z + 0,5 si 0 ≤ z < 1
2

1 si z > 1

Por lo tanto, la función de densidad de Z es:



z + 1 si − 1 ≤ z < 0
d (Fz (z)) 
fZ (z) = = 1 − z si 0 ≤ z < 1
dz
∀ otro z

0

10 Simulación
Sea U una variable aleatoria tal que U ∼ f(0, 1). Sea X una variable aleatoria tal que su función
de distribución es FX (x). Si
(
−1
FX (U ) si FX es creciente
X =
sup {x ∈ < : FX (x) < u} en otro caso

entonces X es una variable aleatoria tal que su función de distribución es FX (x).


Ejemplo: sea X una variable aleatoria exponencial de parámetro λ = 1.

fX (x) = e−x
FX (x) = 1 − e−x
−1
x = FX (u)
x = − ln (1 − u)

25
Parte II
Estadística
Objetivo : a partir de las observaciones de un fenómeno aleatorio, hacer inferencias sobre la dis-
tribución de probabilidades subyacente.

11 Deniciones
Población: totalidad de las observaciones en las que estamos interesados, de número nito o
innito.
Muestra: subconjunto de una población.
Muestra aleatoria: sean X1 , X2 , . . . , Xn variables aleatorias independientes, cada una con la mis-
ma distribución de probabilidad fX (x). Denimos X1 , X2 , . . . , Xn como una muestra aleatoria de
tamaño n de la población fX (x), y su distribución de probabilidad conjunta es f (x1 , x2 , . . . , xn ) =
f (x1 ) f (x2 ) · · · f (xn ).
Estadístico: variable aleatoria que es función de variables aleatorias que forman una muestra
aleatoria.
Estimador: estadístico que se usa para estimar el valor de un parámetro desconocido de una
distribución de probabilidad.

12 Estadística inferencial
12.1 Propiedades de los estimadores
Sea X una variable aleatoria que depende de un parámetro desconocido θ. Sea θ̂ un estimador de
θ basado en una muestra aleatoria de tamaño n.
1. Sesgo: B θ̂ = E θ̂ − θ
h i h i

Si B θ̂ = 0 para el parámetro θ, el estimador θ̂ es insesgado.


h i

Si lı́mn→∞ B θ̂ = 0, el estimador θ̂ es asintóticamente insesgado, y por lo tanto,


h i
h i h i
ECM θ̂ = var θ̂

Varianza: var
h i h i
2. θ̂ = E (θ̂ − θ)2

3. Error cuadrático medio:


h i  2 
ECM θ̂ = E θ̂ − θ
h i h i
= var θ̂ + B 2 θ̂

4. Consistencia: a medida que aumenta el tamaño de la muestra, el estimador se aproxima al


verdadero valor del parámetro.

a ) Consistencia débil: para cada  > 0, debe cumplir que


 
lı́m P θ̂ − θ >  = 0

n→∞
h i
Teorema : si θ̂ es asintóticamente insesgado y var θ̂ −→ 0, entonces θ̂ es débilmente
n→∞
consistente.

26
b ) Consistencia fuerte:  
P lı́m θ̂ = θ = 1
n→∞

5. Eciencia: si var θ̂1 < var θ̂2 entonces θ̂1 es mejor estimador que θ̂2 .
h i h i

12.2 Comparación de estimadores


h i h i
El estimador θ̂1 es mejor que el estimador θ̂2 si ECM θ̂1 ≤ ECM θ̂2 para todo θ, con desigual-
dad estricta para al menos un valor de θ.

12.3 Algunos estadísticos importantes


Sean X1 , X2 , . . . , Xn una muestra aleatoria de tamaño n de una población con distribución X ∼
N µ, σ 2 .
Media de la muestra:
n
1X
X̄ = Xi
n i=1

ˆ Es insesgado.
2
ˆ ECM X̄ = σn
 
 
σ2
ˆ Distribución muestral de X̄ : X̄ ∼ N µX̄ = µ, σX̄
2
= n .
(Si X 6∼ N (µ, σ 2 ), la distribución anterior vale sólo para n sucientemente grande).

Varianza de la muestra:
n
2 1 X 2
S = Xi − X̄
n − 1 i=1
 !2 
n n
1 X X
= n Xi2 − Xi 
n (n − 1) i=1 i=1

ˆ Es insesgado.
ˆ Teorema : si S 2 es la varianza de una muestra aleatoria de tamaño n que se toma de
2
una población normal que tiene varianza σ 2 , entonces el estadístico U = (n−1)·S
σ2 =
Pn (Xi −X̄ )2
i=1 σ2 tiene una distribución chi cuadrada con ν = n − 1 grados de libertad.

Proporción de la muestra:
X
P̂ =
n
donde X es la cantidad de éxitos en n experimentos.
 
ˆ Distribución muestral de P̂ : P̂ ∼ N p, p(1−p)
n

Diferencia de dos medias:


∆ = X̄1 − X̄2
σ12 σ22
 
ˆ Distribución muestral de ∆: ∆ ∼ N µ∆ = µ1 − µ2 , σ∆
2
= n1 + n2

Diferencia de dos proporciones:


∆ = P̂1 − P̂2
 
p1 (1−p1 ) p2 (1−p2 )
ˆ Distribución muestral de ∆: ∆ ∼ N µ∆ = p1 − p2 , σ∆
2
= n1 + n2

27
13 Estimadores puntuales
Sea X una variable aleatoria cuya distribución pertenece a la familia paramétrica F = {Fθ (x) : θ ∈ Θ}.
Sean los valores x̄ = (x1 , x2 , . . . , xn ) de una muestra aleatoria X̄ = (X1 , X2 , . . . , Xn ).
Familia regular: la familia F = {Fθ (x) : θ ∈ Θ} es regular si cumple que:

1. El conjunto de parámetros Θ es abierto.

2. El soporte de fX (x) no depende de θ.

3. La función fX (x) es derivable respecto a θ.

Ejemplo: algunas familias no regulares:

Bernoulli discreta (no se cumple 1)

Uniforme continua (no se cumple 2)

Estimador puntual del parámetro θ: variable aleatoria θ̂(X̄) que depende de la muestra aleato-
ria pero no del parámetro.

13.0.1 Estimadores de máxima verosimilitud


Estimador de máxima verosimilitud: valor θ̂mv ∈ Θ que maximiza la función de verosimilitud
n
Y
L (θ|x̄) = f (xi |θ)
i=1

Cálculo del emv para familiares no regulares : debe hacerse a mano.


Cálculo del emv para familias regulares : θ̂mv es solución del siguiente sistema de ecuaciones:
(Pn
i=1 ψj (θ|xi ) = 0 si j = 1, . . . , d
ψj (θ|x) = ∂ log∂θf j(x|θ) para cada x, y para j = 1, . . . , d

Esta condición es necesaria pero no suciente. Para asegurarse que θ es un máximo, debe vericarse
las condiciones de segundo orden, y vericar que sea un máximo absoluto.
Dada una muestra aleatoria X = (X1 , X2 , . . . , Xn ) de tamaño n:
Distribución Estimador de máxima verosimilitud
X ∼ f (0, θ) θ̂mv (X) = máx (X1 , X2 , . . . , Xn )
X ∼ Bernoulli(p) p̂mv (X) = X̄
X ∼ Binom (n, p) p̂mv (X) = X n , X = cantidad éxitos
1
X ∼ Geom(p) p̂mv (X) = X̄
r
X ∼ P ascal(r, θ) θ̂mv (X) = X̄
X ∼ P oisson (λt) ˆ mv (X) = X̄
λt
1
X ∼ Exp (λ) λ̂mv (X) = X̄
X ∼ Gamma (λ, k), k conocido λ̂mv (X) = Pnnk Xi
i=1
∼ N µ, σ 2 , σ 2 > 0 conocida

X µ̂mv (X) = X̄
σˆ2 mv (X) = n1 i=1 (Xi − µ)
Pn 2
∼ N µ, σ 2 , µ conocida

X
 µ̂mv (X) = X̄
X ∼ N µ, σ 2 2
σˆ2 mv (X) = n1 i=1 Xi − X̄
Pn

Teorema (principio de invarianza) : sea X1 , X2 , . . . , Xn una muestra aleatoria de una variable


aleatoria X cuya distribución pertenece a la familia paramétrica F = {Fθ : θ ∈ Θ}. Sea g : Θ → Λ

28
una función biunívoca de Θ sobre Λ. Si θ̂mv es un estimador de máxima verosimilitud para θ,
entonces el estimador de máxima verosimilitud para λ = g(θ) es
 
λ̂mv = g θ̂mv

Teorema : sea X1 , X2 , . . . , Xn una muestra aleatoria de tamaño n de una variable aleatoria X


perteneciente a una familia exponencial uniparamétrica con función de probabilidad de la forma

fX|θ (x) = c(x) · ea(θ)·T (x)+b(θ)

El estimador de máxima verosimilitud de θ basado en la muestra es solución de la ecuación


n
b0 (θ) 1X
− 0
= T (Xi )
a (θ) n i=1

siempre y cuando la solución pertenezca al espacio paramétrico Θ.

14 Estimación por intervalo


Sea una muestra aleatoria X = (X1 , X2 , . . . , Xn ) de la variable aleatoria X cuya función de dis-
tribución pertenece a la familia paramétrica de funciones F = {Fθ : θ ∈ Θ}, Θ ∈ <.
Intervalo de conanza para θ de nivel 1 − α: intervalo aleatorio I(X) que depende de una
muestra aleatoria X, tal que
P (θ ∈ I(X)) = 1 − α

Cota inferior de conanza para θ de nivel 1 − α: variable aleatoria a(X) que depende de una
muestra aleatoria X, tal que
P (a(X) ≤ θ) = 1 − α

Cota superior de conanza para θ de nivel 1 − α: variable aleatoria a(X) que depende de
una muestra aleatoria X, tal que
P (θ ≤ a(X)) = 1 − α

Pivote: dada una variable aleatoria Xθ y dada una muestra X = x, un pivote es una variable
aleatoria de la forma Q(X, θ) cuya distribución es conocida, y no depende de θ.
Método de construcción de intervalo de conanza: sea la variable aleatoria X que depende
de un parámetro θ. Sea una muestra X = x. Para construir un intervalo de conanza para θ,
P (θ ∈ I(X)) = 1 − α, los pasos a seguir son:

1. Obtener un estimador puntual del parámetro, θ̂, en general por máxima verosimilitud.

2. Caracterizar la distribución de θ̂.

3. Hallar un pivote de θ.

4. Poner cotas al pivote y despejar el parámetro.

Error: si tenemos una estimación θ̂ del parámetro desconocido θ,  = θ̂ − θ es el error cometido


en la estimación.
Teorema llave : sea Xi ∼ N µ, σ 2 . Sea la muestra aleatoria X = (X1 , X2 , . . . , Xn ). Valen las


siguientes armaciones:

n(X̄−µ)
1. Z = σ tiene distribución Z ∼ N (0, 1).
Pn 2
2. U = n−1 2 1
σ2 S = σ2 i=1 Xi − X̄ tiene distribución U ∼ χ2v=n−1 .

29
3. Z y U son variables aleatorias independientes.

Teorema : sean X1 , X2 , . . . , Xn variables aleatorias independientes tales que X ∼ N (µ, σ). Sean los
estadísticos
n
1X
X̄ = Xi
n i=1
n
1 X 2
S2 = Xi − X̄
n − 1 i=1

Entonces la variable aleatoria T = X̄−µ



S/ n
es T ∼ tν=n−1 .

30
Tenemos las muestras X1 , X2 , . . . , Xn . Notar que [a ∓ b] = [a − b, a + b].

Dist de muestra Parámetro Pivote para el parámetro Dist del pivote I. de C. de nivel 1 − α Error
X(n) = máx (Xi ) fY (y) = ny n−1
h i
X(n)
Xi ∼ f(0, θ) θ X X(n) , √
n α
Y = θ(n) y ∈ [0, 1]
h i
Xi ∼ N µ, σ 2 , σ 2 X̄−µ √σ  ≤ z(1−α/2) √σn

µ Z= √
σ/ n
Z ∼ N (0, 1) X̄ ∓ n
· z(1−α/2)
conocida P 
Pn 2 n 2 Pn 2
i=1 (Xi −µ) i=1 (Xi −µ) i=1 (Xi −µ)
Xi ∼ N µ, σ 2 , µ

σ2 U= σ2 U ∼ χ2v=n χ2n,(1−α/2)
, χ2n,(α/2)
conocida q
1
Pn 2 h i
2
 S= n−1 i=1 Xi − X̄ I(X)µ = X̄ ∓ tv=n−1,(1−α/2) √sn
Xi ∼ N µ, σ Y ∼ tv=n−1
µ, σ 2 X̄−µ  
µ, σ 2 desconocidos Y = S/ √
U ∼ χ2v=n−1 2 2

(n−1) 2
n I(X)σ2 = χ2 (n−1)s , χ2 (n−1)s
U = σ2 S "
v=n−1,(1−α/2) v=n−1,(α/2)
#

q
2
Xi ∼ Bernoulli(p) n(X̄−p) 2
z(1−α/2) +2nX̄ z(1−α/2) z(1−α/2) +4nX̄(1−X̄) 2
z(1−α/2)
p Z = √n(1−p) Z ∼ N (0, 1) 2
2z(1−α/2) +2n
∓ 2
2z(1−α/2) +2n
n≥ 2
n >> 1
Con conanza (1q− α)100 %:
31

 ≤ z(1−α/2) p̂(1− p̂)


 q 
ˆ
qP̂ −p
p̂(1−p) n
Xi ∼ Binom (n, p) p Z= Z ∼ N (0, 1) P̂ ∓ z(α/2)
p̂(1−p̂)
n
n Con conanza ≥ (1q− α)100 %:
1
 ≤ z(1−α/2) 4
n
Pn  
X = i=1 Xi χ2v=2n,(α/2) χ2v=2n,(1−α/2)
Xi ∼ Exp(λ) λ U ∼ χ2v=2n 2X , 2X
U= P2λX
n  
X = i=1 Xi 2
q 2
X z(1−α/2) z(1−α/2) X z(1−α/2)
Xi ∼ P oisson(λ) λ X−nλ Z ∼ N (0, 1) + ∓ √ +
Z = √nλ n 2n n n 4n
2

Ai ∼ N µA , σA  q 
2
 (rĀ−B̄ )−∆  2
σA 2
σB
Bi ∼ N µB , σB ∆ = µA − µB Z= Z ∼ N (0, 1) Ā − B̄ ∓ z(1−α/2) nA + nB
σ2 σ2
2
σA 2
, σB conocidas A
nA + nB
B
Dist de muestra Parámetro Pivote para el parámetro Dist del pivote I. de C. de nivel 1 − α Error
SA2 2
, SB son los
estimadores de
varianza de A y B
2

Ai ∼ N µA , σA  r 
SP2 =

1
2
 
Bi ∼ N µB , σB ∆ = µA − µB 2 2
T ∼ tv=nA +nB −2 Ā − B̄ ∓ tv=15,(1−α/2) SP2 nA +nB
(nA −1)SA +(nB −1)SB
2
σA = σB2
desconocidas nA +nB −2
T = r (Ā− 
B̄)−∆

2 1
SP n +n
A B
 2 2
 2
SA SB
nA + nB
2

Ai ∼ N µA , σA ν= !2 !2
(Ā−B̄)−∆ S2 S2
2

Bi ∼ N µB , σB ∆ = µA − µB T = r A
nA
B
nB
S2 S2
2
σA 2
6= σB desconocidas A
nA + nB
B
nA +1 + nB +1

 T ∼ tν
2
Ai ∼ N µA , σA 2
 2

2
 σA 1 SA
Bi ∼ N µB , σB R= 2
σB
F = R 2
SB
F ∼ FnA −1,nB −1
µA , µB desconocidas
Xi ∼ Bern (p1 )
" r #
X̄−Ȳ −∆ X̄ (1−X̄ ) Ȳ (1−Ȳ )
Yi ∼ Bern (p2 ) ∆ = p1 − p2 Z= Z ∼ N (0, 1) X̄ − Ȳ ∓ z(1−α/2) +
32

q
X̄(1−X̄) Ȳ (1−Ȳ ) n1 n2
+ n
n1 ≈ n2 , grandes n1 2
15 Test de hipótesis
Objetivo : formar un procedimiento de decisión que se base en datos muestrales, para ofrecer una
conclusión acerca de una conjetura. Dicho procedimiento de decisión debe hacerse con la noción
de la probabilidad de una conclusión errónea.

15.1 Deniciones
Hipótesis estadística: conjetura con respecto a una o más poblaciones. En toda conjetura hay
dos hipótesis:

H0 : hipótesis nula. Se opone a H1 y a menudo (no siempre ) es su complemento lógico. A


menudo representa el status quo contrario a una nueva idea. Las conclusiones no implican
una aceptación literal de H0 .

H0 : θ ∈ Θ0

H1 : hipótesis alternativa. Por lo general, representa la teoría que debe probarse.

H1 : θ ∈ Θ1

Tipos de hipótesis:

Hipótesis simple: es del tipo H : θ = θ0 , donde θ0 ∈ R.


Hipótesis compuesta: es del tipo H : θ ∈ Θ, donde Θ es un subconjunto de R.
Tipos de pruebas:

1. Prueba de una sola cola: prueba donde la alternativa es unilateral, es decir


( (
H0 : θ = θ0 H0 : θ = θ 0
o
H1 : θ > θ0 H1 : θ < θ 0

2. Prueba de dos colas: prueba donde la alternativa es bilateral, es decir


(
H0 : θ = θ0
H1 : θ 6= θ0

Test / Regla de Decisión: función δ : Rn → {0, 1} que le asigna a cada posible realización de la
muestra x una y solo una de las hipótesis.
( (
rechazamos H0 si X ∈ R 1 si X ∈ R
δ(X) = =
aceptamos H0 si X ∈
/R 0 si X ∈
/R

Región crítica: región del espacio Rn sobre la que rechazamos H0 .

R = {x ∈ Rn : δ(x) = 1}

Región de aceptación: región sobre la que no rechazamos H0 .


Valor crítico: valor xc para el cual si x > xc , rechazamos H0 .
Estadístico de prueba: variable aleatoria X que depende de una muestra aleatoria, sobre la cual
se basa la decisión.

33
15.2 Errores
Situaciones posibles al probar una hipótesis estadística:

Conclusión \ Realidad H0 es verdadera H0 es falsa


No rechace H0 Decisión correcta Error tipo II
Rechace H0 Error tipo I Decisión correcta

α = P [error tipo I] = P [rechazar H0 |H0 es verdadera]


β = P [error tipo II] = P [no rechazar H0 |H0 es falsa]

Propiedades:

Los errores tipo I y II están relacionados. En general, cuando disminuye la probabilidad de


uno, aumenta la probabilidad del otro.

El tamaño de la región crítica, y por lo tanto la probabilidad de cometer un error tipo I, se


puede reducir al ajustar el(los) valor(es) crítico(s).

Si aumentamos el tamaño muestral n, entonces α y β se reducen de forma simultánea.

Para un valor n jo, si aumenta α disminuye β .

Si H0 es falsa, β es máximo cuando el valor real del parámetro se aproxima al valor hipotético.

Nivel de signicancia del test: sea δ un test para decidir entre las hipótesis H0 : θ ∈ Θ0 contra
H1 : θ ∈ Θ1 . El nivel de signicación del test es la máxima probabilidad de rechazar la hipótesis
H0 cuando ésta es verdadera.

α = N S = máx {P [rechazar H0 |H0 es V]} = máx β(θ)


θ∈Θ0

Su elección es arbitraria, pero generalmente α = 0,05; 0,01; 0,1, etc.


Nivel de conanza del test:
NC = 1 − α

Función de potencia:
β(θ) = P [rechazar H0 |θ]

Un test será bueno si para θ ∈ Θ0 , β(θ) ≈ 0, y si para θ ∈ Θ1 , β(θ) ≈ 1.

Potencia del test: es la probabilidad de NO cometer error de tipo II. Lo ideal es que tienda a
ser 1. La potencia se ve afectada por tres factores:

1. Tamaño de la muestra (n): a mayor n, mayor potencia.

2. Nivel de signicancia: a mayor nivel de signicancia, mayor potencia, y menor es la región


de aceptación.

3. El verdadero valor del parámetro que está bajo prueba. Cuanto mayor es la diferencia entre
ese valor y el valor especicado por H0 , mayor potencia, mayor potencia.

Característica operativa: función L(θ) = 1 − β(θ).

34
15.3 Construcción de reglas de decisión
1. Si θ1 (X) es una cota inferior de conanza de nivel 1 − α para θ, entonces
(
1 si θ0 < θ1 (X)
δ(X) =
0 si θ0 ≥ θ1 (X)

es un test de nivel α para decidir entre las hipótesis

H0 : θ ≤ θ0 contra H1 : θ > θ0

2. Si θ2 (X) es una cota superior de conanza de nivel 1 − α para θ, entonces


(
1 si θ0 > θ2 (X)
δ(X) =
0 si θ0 ≤ θ2 (X)

es un test de nivel α para decidir entre las hipótesis

H0 : θ ≥ θ0 contra H1 : θ < θ0

3. Si [θ1 (X), θ2 (X)] es un intervalo de conanza de nivel 1 − α para θ, entonces


(
1 si θ0 ∈
/ [θ1 (X), θ2 (X)]
δ(X) =
0 si θ0 ∈ [θ1 (X), θ2 (X)]

es un test de nivel α para decidir entre las hipótesis

H0 : θ = θ0 contra H1 : θ 6= θ0

4. Un test de nivel α para decidir entre las hipótesis

H0 : θ = θ0 contra H1 : θ > θ0

es   
1 si Q θ̂(X), θ0 > q1−α
δ(X) =  
0 si Q θ̂(X), θ0 ≤ q1−α

15.4 Test de la χ2 para bondad de ajuste


Objetivo : decidir a favor o en contra de una hipótesis H que arma que los datos observados
constituyen una muestra aleatoria X = (X1 , . . . , Xn ) de una distribución F .
Tipos de hipótesis:

Hipótesis simple: F está completamente especicada.

Hipótesis compuesta: F pertenece a una familia paramétrica, que depende de r parámetros


desconocidos.

Procedimiento: dada una muestra aleatoria de tamaño n, X = (x1 , . . . xn ), donde X ∼ FX y la


hipótesis H0 : FX = Fr ; dado un nivel de signicancia de α.

1. Si r ≥ 1, estimar los parámetros desconocidos con EMV, y establecer que FX = Fr̂mv .

35
2. Dividir el rango de la variable aleatoria X en una cantidad k de conjuntos disjuntos (clases
Ci ) tales que

pi = P [x ∈ Ci |H0 es verdadera]
k
X
pi = 1
i=1
pi > 0
npi ≥ 5 (regla de Fisher)

Para evitar que haya clases sub o sobre dimensionadas, utilizar el criterio pi ≈ pj para
Ci 6= Cj .
3. Agrupar los datos de la muestra según las clases establecidas, y contar las frecuencias obser-
vadas (ni , i = 1...k ).
4. Calcular el valor del estadístico:
k 2
X (ni − npi )
D2 =
i=1
npi

5. Test: n o
δ(X) = 1 D2 > χ2ν=k−r−1,(1−α)

16 Estadística Bayesiana
Objetivo : sea X una variable aleatoria cuya función de densidad es conocida y depende de un
parámetro θ. La esencia del enfoque Bayesiano consiste en realizar estimaciones acerca de θ
suponiendo que θ es una variable aleatoria con cierta función de densidad de probabilidades a
priori.
Regla de Bayes:
P (E|A)P (A)
Caso discreto: P (A|E) = P (E|A)P (A)+P (E|Ā)P (Ā)

f (x)·fY (y)
Caso continuo: fY |X=x (y) = ´ +∞ X|Y =y
f (x)·fY (y) dy
−∞ X|Y =y

Función de densidad a priori : función de densidad del parámetro desconocido θ antes de


realizar el experimento. Es subjetiva.
πθ (t) , t ∈ Θ

Función de densidad a posteriori : sea la variable aleatoria X con función de densidad f (x|θ),
donde la función de densidad a priori de θ es πθ (t). La densidad del parámetro desconocido θ
después de obtener una muestra x es:
f (x|t) · πθ (t)
πθ (t|x) = ´
Θ
f (x|t) · πθ (t) dt

Si la muestra es x̄ = (x1 , . . . , xn ) entonces la función de densidad a posteriori es:


Qn
f (xi |t) · πθ (t)
πθ (t|x̄) = ´ Qi=1
n
Θ i=1 f (xi |t) · πθ (t) dt

Tener en cuenta que el espacio paramétrico Θ puede cambiar luego de realizar el experimento.
Ejemplo: sea X ∼ f(0, θ). A priori, θ ∼ f(2, 3). El espacio paramétrico a priori es Θ ∈ (2, 3). Si
la muestra obtenida es x = 8, entonces el espacio paramétrico a posteriori es Θ = (8, ∞).

36
Distribuciones predictivas: sea X = (X1 , . . . , Xn ) una muestra aleatoria de una distribución
indexada por θ. Se observa que X = x y se quiere predecir el comportamiento de una nueva
observación Y ∼ g (y|θ), donde Y depende de θ. La función de densidad predictiva (o incondicional )
de la nueva observación Y será:
ˆ
g (y|x) = g (y|t) · π (t|x) dt

Teorema : si la distribución a priori del parámetro θ es ∼ f(a, b), la densidad a posteriori es


proporcional a la función de verosimilitud.

π (t|x) ∝ L (t|x)

16.1 Estimadores bayesianos


Se trata de obtener una estimación puntual o por intervalo para θ, después de haber obtenido una
muestra aleatoria X, donde X tiene función de densidad f (x|θ).
´
Estimación bayesiana por esperanza condicional: θ̂(X) = E [θ|X] = t · π (t|X) dt

Estimación bayesiana por máximo a posteriori: θ̂map (X) = máxt∈Θ π (t|X)


Estimación por intervalo para parámetro continuo: dada la muestra aleatoria X, para encon-
trar un intervalo [a, b] tal que P (θ ∈ [a, b] |X) = 1 − α y que la longitud de ese intervalo sea
la mínima posible, hay que resolver las siguientes ecuaciones:
´ θ̂(x)
ˆ a
π (t|x) dt = 1−α
2
´b
ˆ θ̂(x)
π (t|x) dt = 1−α
2

16.2 Estadísticos bayesianos conocidos


Sea X = (X1 , . . . , Xn ) una muestra aleatoria de tamaño n correspondiente a una variable aleatoria
X.

1. Si X ∼ Bernoulli(θ) y la distribución a priori de θ es ∼ f (0, 1)...

a ) Distribución a posteriori de θ: ∼ β(k + 1, n − k + 1) donde k es la cantidad de éxitos


que hubo en la muestra
 
b ) Función de probabilidad predictiva: ∼ Bernoulli k+1
n+2

c ) Estimadores bayesianos:
1
Pn
θ̂(x) = n+2 (1 + i=1 xi )
k
θ̂map (x) = n = x̄

d ) Estimación por intervalo: [0, 1 − n+1
α]

2. Si X ∼ N θ, σ (σ 2 conocido) y la distribución a priori de θ es ∼ N µ, ρ2 ...


2
 

 2 2

σ 2 ρ2
a ) Distribución a posteriori de θ: ∼ N nρnρx̄+σ µ
2 +σ 2 , nρ2 +σ 2

b ) Función de probabilidad predictiva: ∼ N µ∗ , σ 2 + ρ2∗ con




nρ2 x̄+σ 2 µ
µ∗ = nρ2 +σ 2 y
2 2
σ ρ
ρ2∗ = nρ2 +σ 2
nρ2 x̄+σ 2 µ
c ) Estimadores bayesianos: θ̂ = nρ2 +σ 2

37
d ) Estimación por intervalo:
3. Si X ∼ P oisson(θ) y la distribución a priori de θ es ∼ Γ (ν, λ)...

a ) Distribución a posteriori de θ: ∼ Γ ( ni=1 xi + ν, n + λ)


P
 x  ν(x)
b ) Función de probabilidad predictiva: f (x|x) = Γ(ν(x)+x)
Γ(ν(x))x!
1
n+λ+1
n+λ
n+λ+1

c ) Estimadores bayesianos:
P n
xi +ν
θ̂ = i=1
n+λ
Pn
xi +ν−1
θ̂map = i=1n+λ
 
χ22ν(x),α/2 χ22ν(x),1−α/2
d ) Estimación por intervalo: 2(n+λ) , 2(n+λ)

4. Si X ∼ Binom(n, P ) y la distribución a priori de P es ∼ f(0, 1)...

a ) Distribución a posteriori de P : ∼ β (n, x) donde x es la cantidad de éxitos observados


en la muestra y n es el tamaño de la muestra.

5. Si X ∼ P oisson (λt = θ) y la densidad a priori de θ es ∼ Γ (λ, ν)...

a ) Distribución a posteriori de θ: ∼ GammaGeneralizada (λΓ = n + λ, kΓ = (


Pn
i=1 xi ) + ν)
b ) Estimadores bayesianos:
n+ν−1
θ̂ = λ+ n
P
i=1 xi

38

También podría gustarte