Documentos de Académico
Documentos de Profesional
Documentos de Cultura
∏T
t= 1
( - 1 ∑T
2σ2 t= 1
ε2 .
Si los elementos X1,. . . , XT son un conjunto de números fijos, entonces se deduce que el pdf
condicional de la muestra y1,. . . , yT es
2σ2 t= 1
(yt-
α - βXt) .
El principio de máxima verosimilitud sugiere que α, β y σ2 debe estimarse eligiendo los valores
que maximicen la medida de probabilidad que se atribuye a la muestra y1,. . . , yT . Es decir, se
opta por considerar los eventos que han generado la muestra como los más probables de
todos los eventos que pudieron haber ocurrido.
Note que, cuando α, β y σ2 son los argumentos de la función F en lugar de sus parámetros, y
cuando y1,. . . , yT son valores de datos en lugar de variables aleatorias, la función ya no es una
función de densidad de probabilidad. Por esta razón, llamó a una función de verosimilitud y se
denota porL(α, β, σ2).
El logaritmo de la función de verosimilitud, que tiene los mismos valores maximizadores que la
función original, es
registro (2π) -
2 Iniciar sesión(σ2) -
1∑T
2σ2 t= 1
(yt
- α - βX
t)2.
Es evidente que, dado el valor de σ2, la probabilidad se maximiza por los valoresα̂ y β̂ que
minimizan la suma de cuadrados; y expresiones paraα̂ y β̂ ya se han dado en (1.42) y (1.45)
respectivamente.
(5)
∂ Iniciar sesión L= -
T + 1∑T
y - α - βx
= 0.
∂σ2
2σ2
2σ4
(t
t= 1
t)2
(6) σ
α, β
1 ∑T
y - α - βx . 2
2( )=
t)
t= 1
mit es
Para derivar un estimador de ML, es necesario hacer una suposición sobre la forma funcional
de la distribución que genera los datos. Sin embargo, el supuesto a menudo se puede variar sin
afectar la forma del estimador de ML; y la teoría general de la estimación de máxima
verosimilitud se puede desarrollar sin referencia a una distribución específica.
Considere el caso donde θ es el único parámetro de una función log-verosimilitud log L(y; θ) en
donde y = [y1,. . . , yT ] es un vector de elementos de muestra. Al tratar de estimar el
parámetro, consideramosθ como argumento de la función, mientras que los elementos de y se
consideran fijos. Sin embargo, al analizar las propiedades estadísticas de la función,
restauramos el carácter aleatorio a los elementos de la muestra. La aleatoriedad se transmite
al valor maximizadorθ̂, que adquiere así una distribución.
y por lo tanto
∏T
t= 1
F(yt; θ),
(8)
1 ∑T
T t= 1
Por cualquier valor de θ, esto representa una suma de variables aleatorias distribuidas de
forma independiente e idéntica. Por tanto, se puede aplicar la ley de los grandes números para
demostrar que
(9)
plimT → ∞
) Iniciar seTsión
L(y; θ) = mi
Iniciar sesión
F(y ; θt ) .
El siguiente paso es demostrar que MI{Iniciar sesión L(y; θ0)} ≥ MI{Iniciar sesión L(y; θ)}, lo que
quiere decir que la función logarítmica de verosimilitud esperada, a la que converge la función
de verosimilitud de la muestra, se maximiza mediante el valor verdadero del parámetro θ0.
(10)
dθ
= 1
L(y; θ)
dL(y; θ)
dθ
D{ }
{ }
1 dL(y; θ)
(11)
dθ y
L(y; θ) dθ
L(y; θ 0)Dy ,
(12)
∫ dL(y; θ 0) dy =
y
D∫
dθ y
L(y; θ0)dy = 0,
donde la igualdad final se sigue del hecho de que la integral es unidad, lo que implica que su
derivada es cero. Por lo tanto
D{ }
{ }
(13)
dθ = 0;
y esta es una condición de primer orden que indica que el MI{Iniciar sesión L(y; θ)/ T} se
maximiza en el valor real del parámetro θ0.
Dado que el registro L(y; θ)/ T converge a MI{Iniciar sesión L(y; θ)/ T}, se sigue, mediante
algunos argumentos analíticos simples, que el valor maximizador del primero debe converger
al valor maximizador del segundo: lo que equivale a decir que θ̂ debe converger a θ0.
Ahora diferenciamos (8) con respecto a θ y tomar expectativas. Siempre que el orden de estas
operaciones pueda intercambiarse, entonces
(14)
D∫
dθ y
dθ
L(y; θ)dy =
D2 ∫
dθ2 y
L(y; θ)dy = 0,
donde la igualdad final sigue de la misma manera que la de (11). El LHS se puede expresar
como
∫ ∫
(15)
y 2
y dθ dθ
dy = 0
y, al sustituir de (11) al segundo término, se convierte en
∫ ∫{ }2
(dieciséis)
y dθ2
L(y; θ)dy +
y dθ
L(y; θ)dy = 0.
{ } [{ }]2
(17) mi -
dθ2
= mi
Esta medida se conoce como información de Fisher. Dado que (12) indica que la puntuación D
Iniciar sesión L(y; θ0)/ dθ tiene un valor esperado de cero, se deduce que la información de
Fisher representa la varianza de la puntuación en θ0.
Claramente, la medida de la información aumenta con el tamaño de la muestra. Para obtener
una medida de la información sobreθ que está contenido, en promedio, en una sola
observación, podemos definir φ = Φ/ T
(18)
dθ
(θ - θ 0) +
2 2
de θ que podemos considerar. De ello se desprende que, entre las condiciones de regularidad,
debe existir al menos la disposición de que las derivadas de la función sean de valor finito
hasta el tercer orden.
(θ - θ )0+
dθ2
(θ - θ )02.
(20)
dθ
√ {
}-1 {
1 D2 Iniciar sesión
L(θ0)T dθ2
T dθ
√ T (θ̂ - θ0)
tiene dos hilos. Primero, se invoca la ley de los grandes números para demostrar que
(22) -
1 D2 Iniciar sesión L = -
T dθt 2
(22)
T dθ
T dθt
tiene una distribución normal limitante que es norte(0, φ). Este resultado depende
fundamentalmente del hecho de que Φ =T φ es el√varianza de D Iniciar sesión L(y; θ0)/ dθ. Por
lo tanto, la
limitar la distribución de la cantidad T (θ̂ - θ0) es lo normal norte(0, φ-1) distribución, ya que
esta es la distribución de φ-1 veces unno√rte(0, φ) variable.
Dentro de este argumento, el dispositivo de escalar θ̂ por T tiene el propósito de evitar que la
varianza desaparezca y que la distribución colapse, ya que el tamaño de la muestra aumenta
indefinidamente. Una vez completado el argumento, podemos eliminar el factor de escala; y la
conclusión que se extrae es la siguiente:
(23) Dejar θ̂ ser el estimador de máxima verosimilitud obtenido al resolver la ecuación D
Iniciar sesión L(y, θ)/ dθ = 0, y deja θ0 ser el verdadero valor de
MÁXIMA VEROSIMILITUD
{ } { }
(24) mi -
∂θI∂θj
∂θI
∂θj