Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Capitulo 1 1 PDF
Capitulo 1 1 PDF
MÉTODOS ESTADÍSTICOS
PREDICTIVOS
Nancy Lacourly.
2008
2
PREFACIO
El curso de métodos estadísticos predictivos, obligatorio para los alumnos de ingeniería matemá-tica, pro-
fundiza y complementa los temas de análisis multivariados vistos en el curso de estadística. Se trata de dar
justificaciones matemáticas de los métodos así como aspectos aplicados.
Los modelos pretenden representar estructuras de un fenómeno descrito mediante datos. Todo modelo es-
tadístico se basa en supuestos y simplifica la realidad. Es entonces importante verificar la validez del modelo,
tanto los supuestos en los cuales se basa el modelo así como la calidad de la aproximación que el modelo
hace del fenómeno.
3
4
Índice general
1. FUNDAMENTOS MATEMÁTICOS 7
1.1.1. Definiciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.1.2. Aplicaciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.1. M-simetría. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.2. Proyectores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
5
1.6.1. Desigualdad de Cramer-Rao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.7. Ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
1.8. BIBLIOGRAFÍA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
6
Capítulo 1
FUNDAMENTOS MATEMÁTICOS
7
8
En este capítulo se ven algunos resultados matemáticos o estadísticos útiles para los capítulos siguientes.
1.1.1. Definiciones.
∂2 f ∂2 f ∂2 f
...
∂x12 ∂x1 ∂x2 ∂x1 ∂x p
∂2 f ∂2 f ∂2 f
2
∂ f ∂∇ f ...
∂x22
Hf = = = ∂x2 ∂x1 ∂x2 ∂x p
.
∂xi ∂x j i, j ∂X .. .. .. ..
.
. . .
∂2 f ∂2 f
... ...
∂x p ∂x1 ∂x2p
∂f ∂f
Si f depende de una matriz A = (ai j )i, j , entonces es una matriz de término general .
∂A ∂ai j
1.1.2. Aplicaciones.
f = ut X = X t u ∂ f /∂X = u
f = AX ∂ f /∂X = A
f= X t BY ∂ f /∂X = BY ∂2 f /∂X∂Y = B
f = X t AX (p = r) ∂ f /∂X = (A + At )X ∂2 f /∂X 2 = A + At
f = X t AX (p = r) ∂ f /∂A = XX t
f = X t AX (A = At ) ∂ f /∂X = 2AX ∂2 f /∂X 2 = 2A
f = Traza(BA) ∂ f /∂A = Bt
f = Traza(BAAt ) (p = r) ∂ f /∂A = (B + Bt )A
9
Se denotan |A| al determinante de A y Ai j al menor de ai j afectando su signo en (−1)i+ j
p
|A| = ∑ ai j Ai j
j=1
∂|A| A ji
entonces = |A|(At )−1 dado que (A−1 )i j = .
∂A |A|
La matriz g-inversa no es invertible ni única. Para definir una g-inversa única se puede imponer que la
g-inversa de Γ− sea Γ y que ΓΓ− y Γ− Γ sean simétricas. Tal inversa generalizada única1 es la inversa
generalizada de Penrose que se denotará Γ+ .
Propiedades: Sea X(nxp) de rango incompleto r < p y G una g-inversa de X t X. Muestre que
Gt es una g-inversa de X t X.
XGX t es invariante para cualquier g-inversa G de X t X. Del resultado anterior se deduce que si G1 y
G2 son g-inversas de X t X, XG1 X t X = XG2 X t X, o sea XG1 X t = XG2 X t .
Se nota que las segunda y tercera propiedades anteriores se basan en el siguiente resultado:
1 Ver página 35, ejercicio 5.
10
Proposición 1.1 Sea A(mxn)
AB = AC ⇔ At AB = At AC
Demostración
(a) Si AB = AC ⇒ At AB = At AC.
Recíprocamente, si At AB = At AC ⇒ At AB − At AC = 0
Luego (Bt −Ct )(At AB − At AC) = 0 ⇒ (AB − AC)(AB − AC) = 0 ⇒ AB − AC = 0.
La parte (b) es similar.
1.3.1. M-simetría.
Sea F un espacio vectorial real (e.v.r) de dimensión n (F = IRn ) y M una matriz simétrica definida positiva
(f.c.d.p.s.) sobre F. A todo x e y de F se le asocia el producto escalar M, que define una metrica euclideana
en F:
< x, y >M = M(x, y) = xt My = yt Mx
Definición 1.1 Se dice que una aplicación lineal A de F en F es M-simétrica si y solo si M es simétrica,
definida positiva y ∀x, y ∈ F :< x, A(y) >M =< A(x), y >M .
11
Proposición 1.2 Si A es M-simétrica, sus valores propios son reales y existe una base M-ortonormal de F
formada de vectores propios de A. Si λ1 , λ2 ,. . . , λn son los valores propios de A, entonces existe una matriz
U tal que si U1 , U2 ,. . . , Un son las columnas de U entonces AU j = λ jU j con U t MU = In .
1.3.2. Proyectores.
< P(x), P(y) >M =< P(x), P(y) + Q(y) >M =< P(x), y >M .
X t My = X t MPy
Ahora bien Py ∈ H, luego existe un vector b ∈ IRr tal que Py = Xb. De aquí se obtienen las ecuaciones
normales:
X t MXb = X t My
12
Si X es de rango r, entonces se obtiene el vector b y la expresión del proyector:
b = (X t MX)−1 X t My
P = X(X t MX)−1 X t M
Si X no es de rango r (los x j no forman una base de H) se pueden suprimir columnas de X hasta extraer una
base de H.
con γi, j = Cov(yi , y j ) si i 6= j y γi,i = Var(yi ). La matriz Γ es semi-definida positiva. En efecto ut Γu es una
forma cuadrática igual a la varianza de la variable aleatoria ut Y .
E(Z) = AE(Y ) = Aµ
T = UD1/2
13
Si Γ es de rango r (r < p) y la matriz Λ restricción de T a los r vectores asociados a los valores propios
no nulos, entonces: Γ = ΛΛT . Si el vector aleatorio Z es un vector de media nula y matriz de varianza-
covarianza igual a Ip , entonces µ + ΛZ es un vector de media µ y matriz de varianza-covarianza Γ = ΛΛt .
Existen una infinidad de descomposiciones de Γ, pero si se pide que T sea triangular inferior, se obtiene la
descomposición de Choleski.
p
kXk2Ip = ∑ xi2 = X t X = Y t (Λt )−1 Λ−1Y = Y t Γ−1Y = kY k2Γ−1
i=1
|Zk2Ip = kY − µk2Γ−1
p p
E(kY − µk2Γ−1 ) = E(kZk2Ip ) = ∑ E(z2i ) = ∑ Var(zi ) = p
i=1 i=1
!
p
Var(kY − µk2Γ−1 ) = Var(kZk2Ip ) = Var ∑ z2i .
i=1
Var(kY − µk2Γ−1 ) = p.
E(X T AX) = E((X − E(X))T A(X − E(X))) + E{E(X)T AX + X T AE(X) − E(X)T AE(X)}
luego:
E(X T AX) = E((X − E(X))T A(X − E(X))) + E(X)T AE(X)
14
el resultado buscado2 .
Se supone ahora que el vector Y ∈ IR p es un vector normal. Se puede definir de dos maneras equivalentes la
distribución normal multivariada.
Definición 1.2 Se dice que Y es un vector normal multivariado de orden p de vector de media µ y de
matriz de varianza-covarianza Γ (se denota Y ∼ Np (µ, Γ)), si y sólo si:
∀u ∈ IR p → IR : uT Y ∼ N(uT µ, uT Γu).
Es decir que si Y es un vector normal entonces toda combinación lineal de Y es una variable aleatoria
normal.
Tomando como vector u a los distintos vectores canónicos, se obtienen que las leyes marginales de
Y son normales, pero la recíproca es falsa: un vector formado de variables normales no es necesaria-
mente un vector normal.
es decir que las componentes del vector X son centradas, normalizadas e independientes entre si.
15
Esta última propiedad permite calcular la densidad del vector X en el caso que Γ es invertible. En efecto, se
puede calcular la densidad del vector X ∼ Np (0, Ip ):
2p ! 2p
p
1 p
1 1 1 TX
f (X) = ∏ fi (xi ) = exp − ∑ xi2 = e− 2 X .
i=1 2π 2 i=1 2π
Como X T X = (Λ−1 (Y − µ))T Λ−1 (Y − µ) = (Y − µ)T Γ−1 (Y − µ), el jacobiano de la transformación es:
1 1
|J(X −→ Y )| = =p .
|Λ| |Γ|
Entonces se observará que la densidad de la distribución Np (0, Ip ) es constante sobre los elipsoides de la
forma: (Y − µ)T Γ−1 (Y − µ) = d 2 .
Proposición 1.3 Sean dos vectores normales Y1 ∼ Np1 (µ1 , Γ11 ) e Y2 ∼ Np2 (µ2 , Γ22 ), con Γ12 como la matriz
de covarianza entre Y1 e Y2 . Entonces la distribución condicional de Y1 dado Y2 es una normal:
Determinemos
! la ley condicional de!Y1 dado Y2 cuando la matriz Γ2,2 es invertible: sea el cambio de variables
T1 Y1 − Γ12 Γ−1
22 Y2
T= = y calculemos su esperanza y su matriz de varianza-covarianza:
T2 Y2
!
µ1 − Γ12 Γ−1
22 µ2
E(T ) =
µ2
" # " #
Γ11 − Γ12 Γ−1 T −1
22 Γ12 Γ12 − Γ12 Γ22 Γ22 Γ11 − Γ12 Γ−1 T
22 Γ12 0
Var(T ) = =
ΓT12 − ΓT12 Γ−1
22 Γ22 Γ22 0 Γ22
16
Se deduce que los vectores T1 y T2 son normales e independientes entre si. La densidad conjunta de Y1 e Y2
puede escribirse a partir de la densidad de T1 y T2 : si llamamos f como la función densidad de la variable T
y φ la función densidad de la variable Y entonces
φ(Y ) = f (T (Y ))|J(T −→ Y )|
Si denotamos ϕ(T1 ) y ϕ(T2 ) como las funciones de densidad de T1 y T2 respectivamente y g(•) como la
función densidad de su argumento (•), entonces tenemos que
φ(Y ) f (T (Y ))
f (T ) = ϕ(T1 )ϕ(T2 ) ⇒ g(Y1 |Y2 ) = = = ϕ(T1 (Y1 ,Y2 ))
g(Y2 ) ϕ(T2 )
Sabemos ahora que Y1 |Y2 posee una distribución normal. Calculemos su esperanza y su matriz de varianza-
covarianza:
E(Y1 |Y2 ) = E T1 + Γ12 Γ−1 −1
22 T2 |T2 = µ1 + Γ12 Γ22 (Y2 − µ2 )
Notas:
Proposición 1.4 Sea Y ∼ Np (µ, Γ) y Γ regular, entonces si u y v ∈ IR p , A y B son dos matrices simétricas
de orden p, se tienen las propiedades de independencia siguientes:
1. uT Y y vT Y son independientes ⇐⇒ uT Γv = 0
2. uT Y y Y T AY son independientes ⇐⇒ uT ΓA = 0
17
1.4.2. Varianza de una forma cuadrática.
Calcularemos la varianza de la forma cuadrática cuando el vector X sea una normal multivariada (x1 , x2 , . . . , xn ) ∼
Nn (θ, σ2 In ). Estos cálculos nos dará:
En efecto,
Q = (X − θ)T A(X − θ) + 2θT A(X − θ) + θT Aθ,
entonces
Q2 = {(X − θ)T A(X − θ)}2 + 4{θT A(X − θ)}2 + (θT Aθ)2 +
2θT Aθ{(X − θ)T A(X − θ) + 2θT A(X − θ)} + 4θT A(X − θ)(X − θ)T A(X − θ).
" #
n
.·. E{(Y T AY )2 } = 3σ4 ∑ a2ii + σ4 ∑ aii akk + ∑ ai j a ji + ∑ a2i j
i=1 i6=k i6= j i6= j
" ! !#
n n
= σ4 ∑ a2ii + ∑ aii akk +2 ∑ a2ii + ∑ a2i j = σ4 [(Traza(A))2 + 2Traza(A2 )]
i=1 i6=k i=1 i6= j
Dado que !
AT = A ⇒ Traza(A2 ) = ∑ a2i, j ⇒ E[(θT AY )2 ] = E ∑ bi b jYiY j con b = Aθ
i, j i, j
n
⇒ E[(θT AY )2 ] = σ2 ∑ b2i = σ2 bT b = σ2 θT A2 θ.
i=1
18
Como3 E[(θT AY )(Y T AY )] = 0 y E(Q) = E(X T AX) = σ2 Traza(A) + θT Aθ, entonces
Además si θ = 0, entonces Var(Q) = 2σ4 Traza(A2 ). Para el caso general4 Y ∼ Np (µ, Γ) ⇒ Var(Y T AY ) =
2Traza((AΓ)2 ) + 4µT AΓAµ.
Se repasan aquí las distribuciones univariadas clásicas derivadas de la normal, algunas aplicaciones y se
introducen nuevas distribuciones que las generalizan y que utilizaremos más adelante.
Si X ∼ Nn (0, In ), entonces:
n
kXk2 = ∑ xi2 ∼ χ2n .
i=1
con el decentramiento n
δ2 = ∑ µ2i = kµk2 .
i=1
Se observa que kXk2 ∼ χ2n (kµk2 ) si sólo si kX − µk2 ∼ χ2n . Se deduce que:
Propiedades:
3 Por qué?
4 Ver página 36, ejercicio 7.
19
!
La suma de variables χ2ri independientes ∑ ri = n tiene una distribución χ2n (con un número de
i
grados de libertad igual a la suma de los grados de libertad).
Su distribución asintótica es normal; se tiene entonces como aproximación: para n grande χ2n ≈
N(n, 2n).
Proposición 1.5 Si Y ∼ Np (µ, Γ) con Γ de rango r, entonces kY − µk2Γ+ ∼ χ2r , en donde Γ+ es la inversa
generalizada de Penrose de Γ.
Demostración: Como Γ = ΛΛT , con Λ de mismo rango r que Γ, existe X tal que Y = µ + ΛX, con X ∼
Nr (0, Ir ). Pero
r
kXk2 = ∑ xi2 ∼ χ2r .
i=1
Condición suficiente: sea AΓ idempotente, tiene rango r, entonces AΓ tiene sus valores propios λi
iguales a 1 con multiplicidad r y 0 con multiplicidad n − r. Consideremos ahora la función generatriz
de los momentos (f.g.m.) o función característica de Q:
n2
1
Z Z
tQ − 12 1 T Γ−1Y
etQ− 2 Y
E e = |Γ| ··· dy1 . . . dyn con t ∈] − ∞, 1/2]
2π IR IR
1
n 1 r
E etQ = |In − 2tAΓ|− 2 = ∏(1 − 2tλi )− 2 = (1 − 2t)− 2
i=1
5 Compruébelo.
20
que es la f.g.m. de χ2r
Nota: si la media de Y es µ, se obtiene una χ2r con un decentramiento µT Aµ.
r 1
Condición necesaria: sea Q ∼ χ2r , entonces E etQ = (1−2t)− 2 = |In −2tAΓ|− 2 . Sea u = 2t, entonces
n
(1 − u)r = |In − uAΓ| = ∏(1 − uλi ) con u ∈] − ∞, 1].
i=1
y pasando a
r
r ln(1 − u) = ∑ ln(1 − uλi )
i=1
se obtiene que ∀i = 1, . . . , r : λi = 1. Como los otros valores propios son nulos, entonces AΓ es idem-
potente de rango r.
2. Qh ∼ χ2rh (µT Ah µ)
3. ∀h 6= k : Qh y Qk son independientes
4.
p
∑ rh = r.
h=1
Entonces dos de las proposiciones, salvo las dos últimas que son equivalentes, implican las dos otras.
21
la proposición (2) es equivalente a decir que los Ah Γ son operadores idempotentes de rango rh y
Ah ΓAh = Ah .
Además la proposición (3) es equivalente6 a decir que ∀h 6= k : Ah ΓAk = 0. Utilizaremos estas equivalencias
para la demostración:
Como
p p p p p
A= ∑ Ah ⇒ kΓAY k2Γ−1 = ∑ Y T AhY = ∑ Qh = ∑ Y T Ah ΓAhY = ∑ kΓAhY k2Γ
−1 .
h=1 h=1 h=1 h=1 h=1
Luego si Z = Ah ΓY ⇒ Z ∈ Im(AΓ) y
p
Ah ΓY = AΓZ = AΓAh ΓY = ∑ Ak ΓAh ΓY = (Ah Γ)2Y.
k=1
6 Ver 36, ejercicio 8(c).
7 Ver 36, ejercicio 8(c).
22
Corolario 1.1 (Teorema de Cochran) Dado el vector aleatorio Y ∼ Nn (0, Γ) con Γ regular, se considera
la forma cuadrática Q = Y T AY con A simétrica de rango r y las p formas cuadráticas Qh = Y T AhY con Ah
simétrica de rango rh (1 ≤ h ≤ p) tales que
!
p p
Q= ∑ Qh , A= ∑ Ah .
h=1 h=1
Entonces:
p
AΓ idempotente orden 2 y ∑ rh = r ⇐⇒ Qh ∼ χ2rh ∧ ∀h 6= k : Qh y Qk independientes.
h=1
Se estudia el cociente de dos formas cuadráticas independientes: si U ∼ χ2m y V ∼ χ2n con U y V independi-
nU
entes, se dice que F = sigue una forma distribución F de Fisher a m y n grados de libertad (se denota
mV
Fm,n ).
Propiedades:
n
E(Fm,n ) = (n > 2).
n−2
2n2 (m + n − 2)
Var(Fm,n ) = (n > 4).
m(n − 4)(n − 2)2
F1,n = tn2 .
1 n
∑ (xi − µ)2 ∼ χ2n
σ2 i=1
y si
1 n 1 n
x̄n = ∑ xi ⇒ 2 ∑ (xi − x̄n )2 ∼ χ2n−1 .
n i=1 σ i=1
23
Consideremos una muestra aleatoria simple de tamaño n de un vector aleatorio de IRn de distribución
Np (µ, Γ). Sea X ∈ Mn,p la matriz que tiene en fila las realizaciones independientes Xi ∼ Np (µ, Γ), o sea
X1T
T
X2
X =
..
.
XnT
n
Consideremos D = (X −1n µT )T (X −1n µT ) = ∑ (Xi −µ)(Xi −µ)T es decir la matriz de las sumas y productos
i=1
de las observaciones centradas en las medias de la población.
Propiedades:
1 n
∑ (xi − µ)2
n i=1
1
q
1 −1
f (D) = |D|n−p−1 e− 2 Traza(Γ D)
K
1
Se puede mostrar que E(D) = nΓ y E(D−1 ) = Γ−1 si n − p − 1 > 0.
n− p−1
Notas:
Para p = 1
n
W1 (n, σ2 ) = ∑ (xi − µ)2 ∼ σ2 χ2n .
i=1
8 Ver página 36, ejercicio 10.
24
Si D ∼ Wp (n, Γ), entonces ∀u ∈ IR p \ Ker(Γ) : uT Du ∼ W1 (n, uT Γu).
Proposición 1.6 La suma de matrices mutuamente independientes Dk ∼ Wp (nk , Γ), n = ∑ nk , sigue una
k
distribución de Wishart Wp (n, Γ).
Demostración: Se deja la demostración como ejercicio.
Proposición 1.7 Sea el vector de medias empíricas
1 n
g= ∑ Xi ,
n i=1
entonces g ∼ Np µ, 1n Γ y V = (X − 1n gT )T (X − 1n gT ) ∼ Wp (n − 1, Γ).
Demostración: Se observa que V = D − n(q − µ)(g − µ)T y que n(q − µ)(g − µ)T ∼ Wp (1, Γ) y se aplica la
proposición 1.4.
Proposición 1.8 Sea D ∼ Wp (n, Γ), entonces para todo vector constante u ∈ IR p , se tiene
uT Du
∼ χ2n .
ut T Γu
u Du
Demostración: Como ut Du ∼ W1 (n, uT Γu), t ∼ W1 (n, 1) = χ2n . Se puede demostrar también que
u Γu
ut Γ−1 u
∼ χ2n−p+1 ; estos resultados, que se generalizan para vectores u aleatorios, son delicados a demostrar.
ut D−1 u
25
1 1
AΓ− 2 tiene en filas los vectores Γ− 2 Ai que son realizaciones independientes de Np (0, Ip ). Luego BT B =
1 1 1
Γ− 2 DΓ− 2 ∼ Wp (n, Ip ). Por otro lado Γ− 2 (X − µ) ∼ Np (0, Ip ). Se deduce entonces de la definición que
n(X − µ)T D−1 (X − µ) sigue una distribución de Hotelling Tp2 (n).
Proposición 1.10 Se puede escribir la Tp2 (n) de Hotelling en función de una F de Fisher:
np
Tp2 (n) =
Fp,n−p+1 .
n− p+1
Demostración: En efecto: X ∼ Np (µ, Γ), entonces se puede escribir:
Esta distribución, que generaliza la distribución F de Fisher, es la distribución del cociente de determinantes
de matrices de varianzas con distribución de Wishart.
|A|
Definición 1.5 Sean A ∼ Wp (m, Γ) y B ∼ Wp (n, Γ) dos matrices independientes, entonces Λ =
|A + B|
tiene la distribución de Wilks de parámetros p, m, n (se denota Λ p,m,n ).
Propiedades:
|A| 1
Λ= = −1 .
|A + B| |A B + Ip |
Si A y B son definidas-positivas, entonces Λ ∈ [0, 1], además se expresa en función de los valores
propios: sean λ1 , . . . , λ p de A−1 B:
p
1
Λ=∏ .
i=1 1 + λi
26
calcularla se usan en general aproximaciones. La más usada es la de Bartlett, cuando m es grande:
1
− m − (p − n + 1) ln(Λ p,m,n ) ∼
= χ2np .
2
1 − Λ p,m,1 p
= Fp,m−p+1 .
Λ p,m,1 m− p+1
1 − Λ1,m,n n
= Fn,m .
Λ1,m,n m
La desigualdad de Cramer-Rao, que vamos a establecer, permite dar una cota inferior de la varianza de un
estimador. Esta cota se basa en la cantidad de la información de Fisher.
Sea una v.a. X de función de densidad o función de probabilidad f (x|θ) en donde θ es un parámetro de-
sconocido en el conjunto Ω.
Definición 1.6 Se llama cantidad de información de Fisher dada por X sobre el parámetro θ a la
cantidad " 2 #
∂ ln f
I(θ) = E .
∂θ
f0
∂ ln f ∂ ln f ∂ ln f
Además = , luego E = 0 y ∀θ ∈ Ω : I(θ) = Var .
∂θ f ∂θ ∂θ
El teorema siguiente nos da otra expresión para I(θ), que a menudo es más fácil de determinar.
27
Teorema 1.4 Si el dominio S de X no depende de θ, entonces:
∂2 ln f
I(θ) = −E
∂θ2
∂2 ln f f f 00 − ( f 0 )2 f 00 ∂ ln f 2
= = − .
∂θ2 f2 f ∂θ
Como
∂2 ln f
Z
E = f 00 (x|θ)dx − I(θ),
∂θ2 S
se deduce que
∂2 ln f
I(θ) = −E .
∂θ2
Sea una m.a.s. {x1 , x2 , . . . , xn }, xi de función de densidad o función de probabilidad f (x|θ) en donde θ es un
parámetro desconocido en el conjunto Ω. Sea L la función de verosimilitud de la muestra.
Definición 1.7 Se llama cantidad de información de Fisher de una muestra aleatoria de tamaño n
sobre el parámetro θ a la cantidad
" 2 #
∂ ln L
In (θ) = E .
∂θ
Se tienen las dos otras formas de expresar In (θ) como en el caso de una v.a. X:
∂2 ln L
∂ ln L
In (θ) = Var = −E .
∂θ ∂θ2
Teorema 1.5 Si I(θ) es la cantidad de Fisher dada por cada xi sobre el parámetro θ, entonces
In (θ) = nI(θ).
La desigualdad de información.
Sea una m.a.s. {x1 , x2 , . . . , xn }, xi con función de densidad o función de probabilidad f (x|θ). Se tiene la
desigualdad de Cramer-Rao:
28
Teorema 1.6 Si el dominio S de X no depende de θ, para todo estimador T insesgado de θ se tiene:
1
Var(T ) ≥ .
In (θ)
(h0 (θ))2
Var(T ) ≥ .
In (θ)
Demostración: Como
Z
∂ ln L ∂ ln L ∂ ln L ∂ ln L
Z
∂L
E = 0 ⇒ Cov T, =E T = T Ldx = T dx
∂θ ∂θ ∂θ S ∂θ S ∂θ
∂ ln L ∂E(T )
Cov T, = = h0 (θ).
∂θ ∂θ
Por otro lado, de la desigualdad de Schwartz se obtiene:
2
∂ ln L ∂ ln L
Cov T, ≤ Var(T )Var .
∂θ ∂θ
Es decir que
(h0 (θ))2 ≤ Var(T )In (θ).
La pregunta que se plantea entonces es si se puede alcanzar la cota mínima de la varianza. Un tal estimador
se llama eficaz. Se estudian las condiciones para obtener un estimador eficaz en Inferencia Estadística.
1.6.2. Test de hipótesis.
Generalidades.
Para decidir, se necesita una regla de decisión. Cualquier regla de decisión debería tratar de minimizar los
errores de decisión. Si δ es la regla de decisión adoptada y α(δ) la probabilidad de equivocarse cuando la
29
hipótesis nula es cierta y β(δ) la probabilidad de equivocarse cuando la hipótesis alternativa es cierta, uno
buscará minimizar ambas probabilidades de error.
Dada una hipótesis nula H0 , α(δ) es la probabilidad condicional de rechazar la hipótesis H0 con la regla δ
cuando H0 es cierta. Ahora bien la regla δ se basa en los valores muestrales: si la muestra es de tamaño n y
los valores muéstrales en IR, una regla de decisión δ consiste en dividir el dominio IRn del conjunto de todas
las muestras de tamaño n en dos partes disjuntas: la parte Wn en donde se rechaza la hipótesis nula H0 y la
parte Wn en donde no se rechaza H0 . La parte Wn se llama región de rechazo de H0 o región crítica del test.
Como la región crítica del test es aquella en donde se rechaza H0 , debería tomarse en cuenta la hipótesis
alternativa. Una regla de decisión consiste entonces en determinar la región crítica del test en función de las
dos hipótesis.
La región crítica ideal es aquella que produce una función de potencia tal que:
(
0 si θ ∈ Ω0
π(θ) = .
1 si θ ∈ Ω \ Ω0
En efecto, para todo θ ∈ Ω0 la decisión de rechazar H0 es una decisión equivocada, entonces π(θ) es una
probabilidad de error de tipo I (o riesgo de primer especie). Por otro lado, para todo θ ∈ Ω\Ω0 , la decisión
de rechazar H0 es una decisión correcta, entonces 1−π(θ) es una probabilidad de error de tipo II (o riesgo
de segundo especie).
El problema es que tal región crítica ideal no existe. Entonces se busca en general propiedades más débiles,
como un test insesgado o consistente y se fija un nivel de error aceptable.
Definición 1.9 Se llama nivel de significación del test al valor que uno se fija como cota máxima del
error de tipo I.
Definición 1.10 Se dice que un test es insesgado si dado un nivel de significación α se tiene a la vez
IP(x ∈ Wn |θ ∈ Ω0 ) ≤ α y IP(x ∈ Wn |θ ∈ Ω \ Ω0 ) > α. Es decir que el error de tipo I está controlado y
no está sobrepasado por el error de tipo II.
Definición 1.12 Si
∀θ ∈ Ω \ Ω0 : lı́m IP(x ∈ Wn |θ) = 1
n→+∞
entonces se dice que el test es consistente de tamaño α para la hipótesis H0 contra la hipótesis H1 .
30
Si Wn y Wn∗ son dos regiones críticas para la hipótesis H0 contra la hipótesis H1 con un tamaño del test igual
a α, se dice que Wn∗ es uniformemente más potente que Wn para H0 contra H1 si y sólo si
Consideramos aquí el caso de Ω0 reducido a un solo punto: Ω0 = {θ0 } y Ω \ Ω0 = {θ1 } reducido a un punto
también: es decir Ω = {θ0 , θ1 }. Bajo ciertas condiciones, existe un test insesgado y más potente para la
hipótesis H0 contra la hipótesis H1 .
Lema 1.1 (Lema de Neyman-Pearson) Sea {x1 , x2 , . . . , xn } una m.a.s. de función de verosimilitud
fn (x1 , x2 , . . . , xn |θ) y el espacio muestral Ω de θ con dos puntos θ0 y θ1 . Para un cα > 0, llamemos Wn
el subconjunto de IRn tal que
y IP(x ∈ Wn |θ0 ) = α. Si Wn∗ es un subconjunto de IRn tal que IP(x ∈ Wn∗ |θ0 ) ≤ α, entonces
Es decir que la región crítica Wn es insesgada y la más potente que cualquier Wn∗ para H0 : θ = θ0 contra
H1 : θ = θ1 de nivel α.
Propiedades:
El test es insesgado.
El test es consistente.
Cuando existe un estadístico suficiente T para θ, fn (x1 , x2 , . . . , xn |θ) = g(T, θ)h(x1 , x2 , . . . , xn ), en-
tonces el test se reduce a
g(T, θ1 )
> cα .
g(T, θ0 )
Queremos aquí construir una región crítica más potente con hipótesis no simples.
Definición 1.13 Se dice que un test es UMP (uniformemente más potente) cuando existe una región
crítica óptima común para todo valor de la hipótesis alternativa H1 .
Sea la hipótesis nula H0 : θ = θ0 y la hipótesis alternativa H1 : θ > θ0 (o H1 : θ 6= θ0 ). La región crítica
óptima de nivel de significación α no cambia para todo θ > θ0 pero si cambia para θ 6= θ0 .
31
La existencia de un test UMP está dada por el teorema de Lehmann:
Teorema 1.7 Existe un test UMP si para un estadístico T el cociente
fn (x1 , x2 , . . . , xn |θ1 )
fn (x1 , x2 , . . . , xn |θ2 )
Este test permite extender el caso anterior cuando no existe un test UMP. Sea la hipótesis nula H0 : θ ∈ Ω0
contra la hipótesis alternativa H1 : θ ∈ Ω1 con Ω = Ω0 ∪ Ω1 . Se define la razón de verosimilitudes:
L(x, Ω0 )
Λ=
L(x, Ω)
en donde
L(x, Ω0 ) = sup fn (x1 , x2 , . . . , xn |θ)
θ∈Ω0
Propiedades:
Ejemplo 1.1 Sea una m.a.s. {x1 , x2 , . . . , xn } con ∀i : xi ∼ N(µ, σ2 ). Se considera las hipótesis H0 : µ = µ0
contra H1 : µ 6= µ0 . Aquí Ω = IR y Ω0 = {µ0 }.
n2 ( )
1 n
2 1
L(x|µ, σ ) = exp − 2 ∑ (xi − µ)2
2πσ2 2σ i=1
máx L(x|µ, σ2 )
Ω0 L(x|µ0 , s20 )
Λ= =
máx L(x|µ, σ2 ) L(x|x̄, s2n )
Ω
con
1 n
s2n = ∑ (xi − x̄)2
n i=1
1 n
s20 = ∑ (xi − µ0 )2
n i=1
32
n 2n n − n2 − n2
2 2
∑ (xi − x̄) ∑ (xi − µ0 ) 1 + n(x̄ − µ )2
i=1 i=1 0
⇒Λ= = n = n =
n
∑ (xi − µ0 )2 ∑ (xi − x̄)2 ∑ (xi − x̄)2
i=1 i=1 i=1
− n2 − n2
(x̄ − µ0 )2 a2
1+ = 1+
s2n n−1
en donde a sigue una distribución t de Student a n − 1 grados de libertad. El test de razón de verosimilitudes
equivale en este caso al test t de Student.
Ejemplo 1.2 Sea el vector Y formado de una m.a.s. {y1 , y2 , . . . , yn } con ∀i : yi ∼ N(µ, σ2 ). Sea la matriz
! de vectores constantes X ∈ Mn,p con X = (X0 |X1 ), X0 ∈ Mn,p0 , X1 ∈ Mn,p1 , p = p1 + p2 y β =
formada
β0
.
β1
Sean las hipótesis H0 : E(Y ) = X0 β0 contra H1 : E(Y ) = X1 β1 . Los conjuntos Ω y Ω0 son subespacios
vectoriales de IR p : Ω = Imagen(X) y Ω0 = Imagen(X0 ).
n2
2 1 − 1
kY −µk2
L(Y |µ, σ ) = e 2σ2
2πσ2
Para el denominador: n2
n n
máx L(Y |µ, σ ) = 2
e− 2
E(Y )=Xβ 2πkY − Xβk2
kY − Xβk2
dado que en este caso el estimador de σ2 es .
n
Para el numerador: n2
n n
máx 2
L(Y |µ, σ ) = e− 2
E(Y )=X0 β0 2πkY − X0 β0 k2
kY − X0 β0 k2
dado que en este caso el estimador de σ2 es .
n
Si SΩ = kY − Xβk2 y SΩ0 = kY − X0 β0 k2 , entonces
n2 − n2
SΩ SΩ0
Λ= = .
SΩ0 SΩ
SΩ SΩ − SΩ
Del teorema de Cochran se obtiene que 2
∼ χ2n−p y 0 2 ∼ χ2p1 son independientes entre si. De aquí
σ σ
obtenemos el estadístico
n − p SΩ0 − SΩ
F= ∼ Fp1 ,n−p
p1 SΩ
33
bajo la hipótesis H0 y
− n2
p1
Λ = 1+ F .
n− p
Es decir que
n − p −2/n
(Λ − 1) ∼ Fp1 ,n−p
p1
bajo la hipótesis nula H0 .
En estos dos casos se puede fácilmente deducir una región crítica, pero en casos más generales, para encon-
trar el valor cα y calcular la potencia del test se requiere conocer la distribución de Λ.
∂ ln(L(x|θ̂)) 1 ∂2 ln(L(x|θ̂))
ln(L(x|θ0 )) = ln(L(x|θ̂)) + (θ0 − θ̂) + (θ0 − θ̂)2 +...
∂θ 2 ∂θ2
∂ ln(L(x|θ̂)) 1 ∂2 ln(L(x|θ̂))
ln(Λ) = (θ0 − θ̂) + (θ0 − θ̂)2 +...
∂θ 2 ∂θ2
∂ ln(L(x|θ̂)) 1 ∂2 ln(L(x|θ∗ ))
ln(Λ) = (θ0 − θ̂) + (θ0 − θ̂)2 +... con |θ0 − θ∗ | < |θ0 − θ̂|.
∂θ 2 ∂θ2
∂ ln(L(x|θ̂))
Dado que θ̂ es el estimador de M.V. de θ, entonces = 0. Luego
∂θ
∂2 ln(L(x|θ∗ ))
−2 ln(Λ) ≈ −(θ0 − θ̂)2 .
∂θ2
c.s.
Si H0 : θ = θ0 , θ̂ → θ0 ⇒ θ∗ → θ0 .
34
en donde I1 (θ) es la cantidad de información de Fisher. Luego
ln(L(x|θ))
→ nI1 (θ) = In (θ).
∂θ2
Se deduce que
θ − θ̂
p0 → N(0, 1) ⇒ (θ0 − θ̂)2 In (θ) → χ21 .
1/In (θ)
1.7. Ejercicios.
uT Au
3. Sean A y B dos matrices simétricas del mismo orden, B invertible. Muestre que el cociente es
uT Bu
máximo para el vector propio u de B−1 A, asociado al mayor valor propio.
4. Sea Γ una matriz cuadrada no invertible de rango r. Muestre que existe una inversa generalizada de Γ
que puede escribirse como: " #
− A−1 0
Γ =
0 0
en donde A es una matriz cuadrada invertible de orden r.
5. Demuestre que existe una única inversa generalizada de Penrose para una matriz dada.
35
7. Muestre que si Y ∼ Np (µ, Γ), A es una matriz simétrica de orden p, entonces
8. Sea Y ∼ Np (µ, Γ), Γ regular, entonces si u y v ∈ IR p , A y B son dos matrices simétricas de orden p y
L ∈ Mm,p se tienen las siguientes propiedades de independencia:
a) uT Y y vT Y son independientes ⇐⇒ uT Γv = 0
b) LY e Y T AY son independientes ⇐⇒ LΓA = 0
c) Y T AY e Y T BY son independientes ⇐⇒ AΓB = 0.
9. Aplique el teorema de Cochran para demostrar la independencia entre la media empírica y la varianza
empírica de una variable normal.
10. Sea X ∈ Mn,p la matriz que tiene en fila las realizaciones independientes Xi ∼ Np (µ, Γ). Muestre que
1 1
D = (X − 1n µT )T (X − 1n µT )
n n
1
E(D−1 ) = Γ−1
n− p−1
si n − p − 1 > 0.
11. Muestre que la cantidad de información de Fisher dada por una v.a. de Bernoulli sobre su parámetro
1
p es I(p) = .
p(1 − p)
12. Muestre que la cantidad de información de Fisher dada por una v.a. X ∼ N(µ, σ2 ) sobre el parámetro
1
µ desconocido y la varianza σ2 conocida es I(µ) = 2 .
σ
1.8. BIBLIOGRAFÍA
CHRISTENSEN R. (1990), Linear Models for Multivariate, Time Series and Spatial Data, Springer.
COX D.R., SNELL E.G. (1992), Analysis of Binary Data, Chapman and Hall.
36
DRAPER N., SMITH H. (1998), Applied Regression Analysis, Wiley.
HASTIE T., TIBSHIRANI R., FRIEDMAN J. (2001), The Elements of Statistical Learning. Data Mining,
Inference and Prediction, Springer.
RAO C.R. (1973), Linear Statistical Inference and its Applications, Wiley.
RAO C.R., TOUTENBURG H. (1995), Linear Models, Least squares and Alternatives, Springer
RAVISHANDER N, DIPAK K. D. (2002 ), A First Course in Linear Model Theory, Chapman and Hall.
37