Está en la página 1de 10

Profesores : Pablo Barros, Juan Díaz,

Eduardo Engel, Benjamín Peña


y Esteban Puentes.
Curso : Estadística II
Semestre : Primavera 2022

1 Familias de Distribuciones Relevantes


Las siguientes distribuciones se cubrieron en Estadística I y II. Los parámetro n y m toman valores enteros
estrictamente positivos; p ∈ [0, 1]; λ, σ 2 , α, β > 0; −∞ < a < b < +∞; µ ∈ R.

Nombre Parámetros Soporte F.p. o f.d.p. E(X) Var(X)


x 1−x
Bernoulli p 0, 1 p (1 − p) p p(1 − p)
n
Binomial n, p 0, 1, 2, ..., n k pk (1 − p)n−k np np(1 − p)
Geométrica p 0, 1, 2, ... p(1 − p)k (1 − p)/p (1 − p)/p2
Poisson λ 0, 1, 2, ... e−λ λk /k! λ λ
Uniforme discreta m, n m, m + 1, ..., n 1/(n − m + 1) (m + n)/2 [(n − m + 1)2 − 1]/12
Uniforme a, b a≤x≤b 1/(b − a) (a + b)/2 (b − a)2 /12
Exponencial λ x≥0 λe−λx 1/λ 1/λ2
−(x−µ)2 /2σ 2

Normal µ, σ 2 −∞ < x < +∞ e /σ 2π µ σ2
t m −∞ < x < +∞ c(1 + x2 /m)(m+1)/2 0 si m > 1 m/m − 2 si m > 2
n x
χ2 n x≥0 cx 2 −1 e− 2 n 2n
Beta α, β 0<x≤1 Cxα−1 (1 − x)β−1 α/(α + β) αβ/(α + β)2 (α + β + 1)
Gamma α, β x>0 Cxα−1 e−βx α/β α/β 2

2 Testeando causalidad: test exacto de Fisher


Resultados potenciales:
• Yi (1): resultado potencial de la unidad i si recibe el tratamiento.
• Yi (0): resultado potencial de la unidad i si recibe el tratamiento de control.
• Wi = 1 si la unidad i recibió el tratamiento.
• Wi = 0 si la unidad i fue control.

Hipótesis nula dura de Fisher: Yi (1) = Yi (0), i = 1, 2, ..., n.

Calcuando el valor-p:

• Se selecciona un estadístico de prueba, T .


• Se calcula el valor observado de T , tobs .
• Para todas las configuraciones posibles de tratados y controles contempladas en el diseño del experi-
mento, calculamos el valor de T .
• El valor-p es la fracción de valores de T tanto o más extremos que tobs .
• Si el test es unilateral, “tanto o más extremos” serán valores mayores o iguales (o menores o iguales)
que tobs , dependiendo de cuál sea la hipótesis alternativa.

1
• Si el test es bilateral y la media de T bajo H0 es µ, “tanto o más extremos” serán valores de T con
|T − µ| ≥ |tobs − µ|.

Es el valor-p exacto de Fisher porque conocemos la distribución de T bajo H0 perfectamente al momento de


calcular el valor-p.

3 Variables Aleatorias Multivariadas


En lo que sigue, f (x, y) denota la función de densidad de probabilidad (f.d.p.) conjunta de las variables
aleatorias X y Y (caso continuo) o su función de probabilidad conjunta (caso discreto).
P R
En las expresiones que siguen, las aplican en el caso discreto y las en el caso continuo.

La f.p. o f.d.p. de X, fX (x), se obtiene a partir de f (x, y) con:


X Z ∞
fX (x) = f (x, y) = f (x, y)dy.
y −∞

La f.p. o f.d.p. de Y condicional en X = x, fY |X (y | x), viene dada por:

f (x, y)
fY |X (y|x) =
fX (x)
y la esperanza condicional correspondiente por
X Z ∞
E(Y |X = x) = fY |X (y | x) = fY |X (y | x)dy.
y −∞

Indpendencia de dos variables aleatorias:


Dos variables aleatorias (discretas o continuas) X e Y son independientes si para todo x e y,

f (x, y) = fX (x) · fY (y).

Ley del Estadístico Inconsciente:


XX Z ∞ Z ∞
E[g(X, Y )] = g(x, y)f (x, y) = g(x, y)fX,Y (x, y)dxdy.
y x −∞ −∞

Covarianza y Correlación
Tanto en el caso discreto como en el caso continuo, la covarianza y correlación de X e Y satisfacen
Cov(X, Y )
Cov(X, Y ) = E[(X − E(X))(Y − E(Y ))] = E[XY ] − E[X]E[Y ]; ρ(X, Y ) = ,
DS(X)DS(Y )

donde DS(X) y DS(Y ) denotan la desviación estándar de X e Y .

Ley de Adán y Ley de Eva:

E[E[Y |X]] = E[Y ], Var(Y ) = E[Var(Y |X)] + Var(E[Y |X])

2
4 Estadísticas descriptivas para datos bivariados
Datos: (x1 , y1 ), (x2 , y2 ), ... , (xn , yn ).
Covarianza muestral:
n
1X
σ
bx,y = (xi − x)(yi − y).
n i=1
Propiedades de la covarianza de dos v.a. y de la covarianza muestral

Covarianza de v.a. Covarianza muestral


Pn
Cov(X, Y ) = E(XY ) − E(X) · E(Y ) bx,y = n1 i=1 xi yi − x · y
σ
Cov(X, c) = Cov(c, X) = 0 σbx,c = σbc,x = 0
Cov(X, X) = Var(X) σ
bx,x = σbx2
Cov(X, Y + Z) = Cov(X, Y ) + Cov(X, Z) σ
bx,y+z = σ bx,y + σbx,z
Cov(X + Y, Z) = Cov(X, Z) + Cov(Y, Z) σ
bx+y,z = σ bx,z + σby,z
Cov(aX, Y ) = aCov(X, Y ), Cov(X, bY ) = bCov(X, Y ) σ
bax,y = abσx,y , σ bx,by = bbσx,y

1
Pn
• σ bx2 =
bx2 denota la varianza muestral de los xi : σ n i=1 (xi − x)2 .
• c una v.a. constante (columna izquierda) y un vector constante (columna derecha).
• x + y denota el vector (x1 + y1 , ..., xn + yn ); y + z el vector (y1 + z1 , ..., yn + zn ).
• ax denota el vector (ax1 , ..., axn ); by denota el vector (by1 , ..., byn ).

Coeficiente de correlación de Pearson


σ
bx,y
rx,y = .
σ
bx σ
by

Propiedades del coeficiente de correlación de Pearson y de la correlaci|ón de dos v.a.

Correlación de dos v.a. Coeficiente de correlación de Pearson


ρ(X, Y ) = ρ(Y, X) rx,y = ry,x
ρ(X, c) = ρ(c, X) = 0 rx,c = rc,x = 0
−1 ≤ ρ(X, Y ) ≤ 1 −1 ≤ rx,y ≤ 1
ρ(X + c, Y + d) = ρ(X, Y ) rx+c,y+d = rx,y
ρ(aX, bY ) = ρ(X, Y ) rax,by = rx,y

Donde en la última propiedad suponemos a > 0, b > 0.

5 Normal bivariada
Definición: Caso estándar.
X y Y variables aleatorias normales estándar con correlación ρ.
Sean U ypV i.i.d. N(0, 1). El vector aleatorio (X, Y ) tiene una distribución normal bivariada estándar si
(U, ρU + 1 − ρ2 V ) tiene la misma distribución conjunta que (X, Y ).

Propiedades de la normal bivariada estandarizada


• Cualquier combinación lineal de X e Y , t1 X + t2 Y , es normal:

3
• (Y |X = x) ∼ N(ρx, 1 − ρ2 ), por lo cual E(Y |X = x) = ρx, Var(Y |X = x) = 1 − ρ2 .

Definición: Caso general


X y Y variables aleatorias normales con esperanzas µx , µy ; varianzas σx2 , σy2 y correlación ρ.
El vector aleatorio (X, Y ) sigue una normal bivariada si el vector aleatorio (X̃, Ỹ ) sigue una normal bivariada
estándar, donde X̃ = (X − µx )/σx , Ỹ = (Y − µy )/σy .

Propiedades de la normal bivariada


• Cualquier combinación lineal de X e Y , t1 X + t2 Y , es normal:
• Tenemos
σy σy
(Y |X = x) ∼ N(µy +ρ (x−µx ), (1−ρ2 )σy2 ) =⇒ E(Y |X) = µy +ρ (X−µx ), Var(Y |X) = (1−ρ2 )σy2 .
σx σx

6 Error cuadrático medio (ECM):


El error cuadrático medio de un estimador θb de θ ∈ Θ se define como
h i
ECM(θ) = E (θb − θ)2 = Var(θ) b + [b(θ)]2

b − θ es el sesgo del estimador.


donde b(θ) = E(θ)

7 Propiedades de los estimadores:


1. Insesgado: (∀θ ∈ Θ) b(θ) = 0.
2. Consistente: (∀θ ∈ Θ) limn→∞ θbn = θ ⇐⇒ (∀θ ∈ Θ) limn→∞ ECM(θ, θbn ) = 0.
3. Asintóticamente insesgado: (∀θ ∈ Θ) limn→∞ E(θbn ) = θ.
4. Unicidad: El método entrega un único estimador.
5. Invariante: Si θb es un estimador de θ entonces g(θ)
b es un estimador para g(θ).

6. θbn es asintóticamente eficiente si es consistente y para cualquier otro estimador consistente θ̃n , se tiene
ECM(θbn ; θ) ≤ (1 + δ) ECM(θ̃n ; θ)
para δ > 0 peque no y n suficientemente grande.

8 Método de momentos

Momentos: µk = E Xik .

1
Pn
Momentos muestrales: Mk = n i=1 Xik , k = 1, 2, ....

Para obtener un estimador MdM:


1. Exprese el parámetro de interés, θ, en función de los momentos del modelo: θ = h (µ1 , . . . , µk ) .
2. Se obtiene el estimador MdM reemplazando los momentos por los momentos muestrales en la expresión
anterior: θb = h (M1 , . . . , Mk ) .
En su versión más general, en el Paso 1 se puede expresar el parámetro de interés, θ, como función de
esperanzas de variables aleatorias del modelo (y funciones de estas variables aleatorias).

4
9 Estimador de máxima verosimilitud
• Función de verosimilitd: L (θ; x1 , . . . , xn ) = fn (x1 , . . . , xn | θ).

• Valor estimado de m.v.: θ̂ (x1 , . . . , xn ) = argmaxθ L (θ; x1 , . . . , xn ).

• Estimador de m.v.: θ̂ = θ̂ (X1 , . . . , Xn ).

10 EMV para casos específicos


X1 , ..., Xn i.i.d. Parámetros E.m.v.
Bernoulli(p) p pb = X
Binomial(m,p) p pb = X/m
Geométrica(p) p pb = 1/(X + 1)
Poisson(λ) λ λ
b=X
Uniforme(0,θ) θ θ = max(X1 , ..., Xn )
b
Exponencial(λ) λ λ
b = 1/X
Normal(µ,σ 2 ) µ, σ 2 b2 = n1 (Xi − X)2
P
µ
b = X; σ

11 Precisión de estimadores, método delta


τ2 2
   
a a 0 2τ
b ∼ N α,
α =⇒ α) ∼ N g(α), [g (α)]
g(b .
n n

Es decir, si n es grande, g(b


α) tiene una distribución aproximadamente normal con

τ2
α)) ' g(α),
E(g(b α)) ' [g 0 (α)]2 Var(b
Var(g(b α) = [g 0 (α)]2 .
n

12 Intervalos de Confianza
Los tres intervalos de confianza que estudiamos son:

En todos los casos, el intervalo de confianza del 100(1 − α)% es de la forma


 
τ τ
x̄ − k √ , x̄ + k √
n n

con τ = σ (la desviación estándar de la distribución si esta es conocida) y τ = σ 0 (la desviación estándar de
los datos) si no.

Denotamos la cumulativa del pivote por F (normal estándar o t(n − 1)). Entonces k es la solución de
α
F (k) = 1 −
2

5
En el caso particular en que los xi solo pueden tomar los valores 0 y 1 , el intervalo del 95%( útil si
0, 4 < p < 0, 6) se puede aproximar por:
 
1 1
x̄ − √ , x̄ + √
n n
El margen de error e asociado a un tamaño muestral n :
100
e= √
n
El tamaño muestral n necesario para obtener un margen de error e :
 2
100
n=
e

13 Regresión lineal
Estimadores de máxima verosimilitud
 −1
Xn n
X
2 
(b̂ | X = x) =  (xj − x̄)  (xi − x̄) Yi − Ȳ
j=1 i=1

(â | X = x) = Ȳ − (b̂ | X = x)x̄

Distribución de los EMV


!
σ2
(b̂ | X = x) ∼ N b, P 2
i (xi − x̄)
!!
2 1 x̄2
(â | X = x) ∼ N a, σ +P 2
n i (xi − x)

Intervalo de confianza de un 95% para a


 !1/2 !1/2 
2
1 x̄ 1 x̄2
a − 1, 96b
b σ +P 2 ,b
a + 1, 96b
σ +P 2

n i (xi − x̄)
n i (xi − x̄)

Intervalo de confianza de un 95% para b


 !−1/2 !−1/2 
X X
bb − 1.96σ (xi − x)2 , bb + 1.96σ (xi − x)2 .
i i

2
R
Pn 2 Pn 2
2 (ŷi − ȳ) (yi − ŷi )
R = Pi=1
n 2 = 1 − Pi=1
n 2
i=1 (yi − ȳ) i=1 (yi − ȳ)
Caso con predictor binario:
a = y0 , bb = y − y .
b 1 0

n
X n1 n0
(xj − x)2 = ,
j=1
n

6
14 Muestreo
Notación general
• Unidades de la población objetivo (que se supone igual a la población muestreada):

U = {1, 2, ..., N }.

• Valor que toma la variable de interés para la unidad i: yi :


• Media y varianza poblacional:
N N
1 X 1 X
µ= yi , σ2 = (yi − µ)2 .
N i=1 N i=1

• Parámetro de interés: µ.

Muestra aleatoria simple con reemplazo

• Datos: Una muestra aleatoria simple con reemplazo de tamaño n: y1 , ..., yn . En realidad son yi1 , ..., yin .
• Modelo estadístico: Los yi de la muestra son realizaciones de variables aleatorias i.i.d. Y1 , ..., Yn con
E(Yi ) = µ y Var(Yi ) = σ 2 .

• Se usa la media muestral, Y , para estimar µ. La media muestral es un estimador


– Insesgado.
– Con varianza σ 2 /n.
– Aproximadamente normal para n grande.

• Intervalo de confianza del 95%:


 
σ σ
y − 1, 96 √ , y + 1, 96 √ .
b b
n n

• Margen de error: Si el intervalo anterior se escribe [y − e, y + e], decimos que e es el margen de


error. A veces el estimador y su margen de error se reportan como y ± e.
• Determinando el tamaño de muestra: El tamaño muestral n que asegura un margen de error
(aproximadamente) igual a e es
σ2
4b
n ∼= 2 .
e
El caso particular con yi ∈ {0, 1}:

Expresiones que se simplifican para este caso:


• µ = p = Fracción de unos en la población.

• y: Fracción de unos en la muestra.


• Las v.a. que describen la muestra aleatoria son i.i.d. Bernoulli(p): σ 2 = p(1 − p), b2 = y(1 − y).
σ

7

• Regla de n: En este caso σ 2 ≤ 1/2 y y(1 − y) ≤ 1/2, de modo que un intervalo de confianza de al
menos 95% será  
1 1
y− √ , y+ √ .
n n
Y el tamaño muestral n que asegura un margen menor o igual que e cualesquiera sea p es:
1 1
n= ⇐⇒ e= √ .
e2 n

Muestra aleatoria simple sin reemplazo

• Única diferencia con el caso anterior: el muestreo es sin reemplazo.


• Se sigue usando la media muestral Y para estimar µ
• Modelo estadístico: Los yi de la muestra son realizaciones de variables aleatorias Y1 , ..., Yn que son
idénticamente distribuidas, pero no independientes:

σ2
E(Yi ) = µ, Var(Yi ) = σ 2 , Cov(Yi , Yj ) = − .
N −1

• Propiedades de la media muestral, Y : Sigue siendo insesgado y aproximadamente normal para n


grande, pero su varianza es:
σ2
Varsin (Y ) = f Varcon (Y ) = f ,
n
donde
n−1
f =1−
N −1
es la corrección por población finita.

• Intervalo de confianza:  
p σ p σ
y − 1, 96 f √ , y + 1, 96 f √ .
b b
n n

Muestreo estratificado

Cuando es posible particionar la población en varios estratos y las media o varianzas varían entre estratos,
es posible obtener estimadores más precisos usando muestreo estratificado (para un tamaño n dado de la
muestra total).
Muestreo estratificado consiste en tomar una muestra aleatoria simple (que suponemos con reemplazo) en
cada uno de los estratos.
Notación:
• K: Número de estratos, 1,2,...,K. El estrato genérico tiene subíndice k.
• Nk : Número de unidades en el estrato k.

• wk = Nk /N : Fracción de unidades en el estrato k.


• µk : Media poblacional del estrato k.
• σk2 : Varianza poblacional del estrato k.

• nk : Tamaño de la muestra aleatoria simple que se obtiene del estrato k.

8
• Y k : Media muestral del estrato k, con valor observado y k .
bk2 : Varianza muestral del estrato k.
• σ
Seguimos denotando por µ la media poblacional y por σ 2 la varianza poblacional.
Tenemos:
X X X X X
N = Nk , n = nk , µ = wk µk , σ2 = wk σk2 + wk (µk − µ)2 .
k k k k k

Para la media muestral del estrato k, Y k , se tiene

σ2 σ2
 
a
E(Y k ) = µk , Var(Y k ) = k , Y k ∼ N µk , k .
nk nk

Consideramos el estimador de µ que viene dada por el promedio ponderado (los ponderadores son los los
tamaños relativos de los estratos) de medias muestrales de estratos:
K
s X
Y = wk Y k .
k=1
s
Entonces Y es un estimador insesgado de µ, con una distribución aproximadamente normal y con

s X σk2
Var(Y ) = wk2 .
nk
k

Un intervalo de confianza del 95% para µ:


c s ) , y s + 1, 96DS(Y
[y s − 1, 96DS(Y c s )],

con s
s X bk2
σ
DS(Y
c )= wk2 .
nk
k

Asignación de unidades a estratos:

Definimos X X
σ2 = wk σk2 , σ= wk σk .
k k

Asignación proporcional y asignación óptima:


σk σk prop
nprop
k = wk n, nopt
k = wk n = n .
σ σ k
Entonces:
σ2 s σ2 s σ2
Var(Y m.a.s. ) = , Var(Y prop ) = , Var(Y opt ) = .
n n n

15 Estimación Bayesiana
• Parámetro de interés: θ.
• Datos: x = (x1 , ..., xn ).
• Modelo estadístico: Los datos son realizaciones de variables aleatorias i.i.d. X1 , ..., Xn con f.d.p. (o
f.p.) que depende de θ.

9
• Previa: π(θ).
• Verosimilitud: L(θ; x) = f (x | θ) = f (x1 | θ) · f (x2 | θ) · ... · f (xn | θ).
• Posterior: π(θ | x) ∝ L(θ; x) · π(θ).

Resumiendo la posterior:
• Estimador de Bayes: θbBayes (x) = E(θ | x).

• Intervalo de credibilidad de 95%: Usando la cumulativa de la posterior se construye un intervalo con


probabilidad del 95%.

Previas conjugadas
Modelo Bernoulli-Beta:
• Modelo estadístico: X1 , ..., Xn i.i.d. Ber(θ).

• Previa: θ ∼ Beta(α, β). Recuerde: E(θ) = α/(α + β).


P P P
• Posterior: (θ | x) ∼ Beta(α + xi , β + n − xi ). Estimador de Bayes: θbBayes (x) = (α + xi )/(α +
β + n).

Modelo Poisson-Gamma:

• Modelo estadístico: X1 , ..., Xn i.i.d. Poi(θ).


• Previa: θ ∼ Gamma(α, β). Recuerde: E(θ) = α/β.
P P
• Posterior: (θ | x) ∼ Gamma(α + xi , β + n). Estimador de Bayes: θbBayes (x) = (α + xi )/(β + n).

16 Propiedades: MdM, EMV y Bayes


Propiedad MdM EMV Bayes
Insesgado: ×
√√ ×
√√ ×
√√
Consistente: √√ √√ √√
Asintóticamente insesgado: √ √√
Unicidad: ××
√√ √√
Invariante: √√ ×
Asintóticamente eficiente: × —
√√
Eficiente: — —

Donde la última propiedad, eficiencia, se refiere a que el el estimador de Bayes minimiza la esperanza del
ECM, usando como ponderador la densidad posteror:
Z
θBayes = argminθb ECM(θ; θ)π(θ
b b | x)dθ.

10

También podría gustarte