Está en la página 1de 16

El método de máxima verosimilitud

El método de máxima verosimilitud constituye un principio de estimación que puede aplicarse


a una amplia variedad de problemas. Uno de los atractivos del método es que, dado el
cumplimiento de los supuestos en los que se basa, se puede demostrar que las estimaciones
resultantes tienen propiedades óptimas. En general, se puede demostrar que, al menos en
muestras grandes, la varianza de las estimaciones resultantes es la mínima que se puede lograr
con cualquier método.

El costo de usar el método es la necesidad de hacer las suposiciones necesarias para


sustentarlo. A menudo es difícil evaluar, sin mucho análisis adicional, hasta qué punto
sobreviven las propiedades deseables de los estimadores de máxima verosimilitud cuando
estos supuestos no se cumplen. En el caso del modelo de regresión, existe un conocimiento
considerable al respecto, algunos de los cuales se presentarán en capítulos posteriores.

El método se aplicará al modelo de regresión con perturbaciones distribuidas de forma


independiente e idéntica que siguen una ley de probabilidad normal. Las funciones de
densidad de probabilidad de las perturbaciones individuales εt; t = 1,. . . , T son dadas por

Desde el εse supone que se distribuyen de forma independiente, su función de densidad de


probabilidad conjunta (pdf) es

∏T

norte(εt; 0, σ2) = (2πσ2)

t= 1

( - 1 ∑T

2σ2 t= 1

ε2 .

Si los elementos X1,. . . , XT son un conjunto de números fijos, entonces se deduce que el pdf
condicional de la muestra y1,. . . , yT es

(3) F(y1,. . . , yT |X1,. . . , XT ) = (2πσ2)−T /2 Exp


{ - 1 ∑T

2σ2 t= 1

(yt-

α - βXt) .

El principio de máxima verosimilitud sugiere que α, β y σ2 debe estimarse eligiendo los valores
que maximicen la medida de probabilidad que se atribuye a la muestra y1,. . . , yT . Es decir, se
opta por considerar los eventos que han generado la muestra como los más probables de
todos los eventos que pudieron haber ocurrido.

Note que, cuando α, β y σ2 son los argumentos de la función F en lugar de sus parámetros, y
cuando y1,. . . , yT son valores de datos en lugar de variables aleatorias, la función ya no es una
función de densidad de probabilidad. Por esta razón, llamó a una función de verosimilitud y se
denota porL(α, β, σ2).

El logaritmo de la función de verosimilitud, que tiene los mismos valores maximizadores que la
función original, es

(4) Iniciar sesión L = - T

registro (2π) -

2 Iniciar sesión(σ2) -

1∑T

2σ2 t= 1
(yt

- α - βX

t)2.

Es evidente que, dado el valor de σ2, la probabilidad se maximiza por los valoresα̂ y β̂ que
minimizan la suma de cuadrados; y expresiones paraα̂ y β̂ ya se han dado en (1.42) y (1.45)
respectivamente.

El estimador de máxima verosimilitud para σ2 se puede obtener de la siguiente condición de


primer orden:

(5)

∂ Iniciar sesión L= -

T + 1∑T

y - α - βx
= 0.

∂σ2

2σ2

2σ4

(t

t= 1

t)2

Multiplicando todo por 2σ4/ T y reordenando el resultado, se deriva la siguiente ecuación de


estimación:

(6) σ

α, β

1 ∑T

y - α - βx . 2

2( )=
t)

t= 1

Poniendo α̂ y β̂ en su lugar, el estimador σ̃2 = σ2(α̂, β̂) = T-1

obtenido, que ya se había dado en (1.46).

La teoría general de la estimación de ML

mit es

Para derivar un estimador de ML, es necesario hacer una suposición sobre la forma funcional
de la distribución que genera los datos. Sin embargo, el supuesto a menudo se puede variar sin
afectar la forma del estimador de ML; y la teoría general de la estimación de máxima
verosimilitud se puede desarrollar sin referencia a una distribución específica.

De hecho, el método ML es de tal generalidad que proporciona un modelo para la mayoría de


los otros métodos de estimación. Porque los otros métodos tienden a generar

estimadores que se pueden representar como aproximaciones a los estimadores de máxima


verosimilitud, si no son realmente idénticos a estos últimos.

Para revelar las características importantes de los estimadores de verosimilitud, debemos


investigar las propiedades de la función logarítmica de verosimilitud en sí.

Considere el caso donde θ es el único parámetro de una función log-verosimilitud log L(y; θ) en
donde y = [y1,. . . , yT ] es un vector de elementos de muestra. Al tratar de estimar el
parámetro, consideramosθ como argumento de la función, mientras que los elementos de y se
consideran fijos. Sin embargo, al analizar las propiedades estadísticas de la función,
restauramos el carácter aleatorio a los elementos de la muestra. La aleatoriedad se transmite
al valor maximizadorθ̂, que adquiere así una distribución.

Un resultado fundamental es que, a medida que aumenta el tamaño de la muestra, la función


de verosimilitud dividida por el tamaño de la muestra tiende a estabilizarse en el sentido de
que converge en probabilidad, en cada punto de su dominio, a una función constante. En el
proceso, la distribución deθ̂ se concentra cada vez más en las proximidades del valor real del
parámetro θ0. Esto explica la consistencia de la estimación de máxima verosimilitud.

Para demostrar la convergencia de la función logarítmica de verosimilitud, asumiremos, como


antes, que los elementos de y = [y1,. . . , yT ] formar una muestra aleatoria. Luego
(7) L(y; θ) =

y por lo tanto

∏T

t= 1

F(yt; θ),

(8)

T Iniciar sesión L(y; θ) =

1 ∑T

T t= 1

Iniciar sesión F(yt; θ).

Por cualquier valor de θ, esto representa una suma de variables aleatorias distribuidas de
forma independiente e idéntica. Por tanto, se puede aplicar la ley de los grandes números para
demostrar que

(9)
plimT → ∞

) Iniciar seTsión

L(y; θ) = mi

Iniciar sesión

F(y ; θt ) .

El siguiente paso es demostrar que MI{Iniciar sesión L(y; θ0)} ≥ MI{Iniciar sesión L(y; θ)}, lo que
quiere decir que la función logarítmica de verosimilitud esperada, a la que converge la función
de verosimilitud de la muestra, se maximiza mediante el valor verdadero del parámetro θ0.

La primera derivada de la función logarítmica de verosimilitud es

(10)

D Iniciar sesión L(y; θ)

= 1

L(y; θ)

dL(y; θ)

Esto se conoce como la puntuación de la función logarítmica de verosimilitud en θ. En


condiciones que permiten que la derivada y la integral conmuten, la derivada de la expectativa
es la expectativa de la derivada. Así, de (10),

D{ }

{ }

1 dL(y; θ)

(11)

mi Iniciar sesión L(y; θ) =

dθ y

L(y; θ) dθ

L(y; θ 0)Dy ,

dónde θ0 es el verdadero valor de θ y L(y, θ0) es la función de densidad de probabilidad de y.


Cuandoθ = θ0, la expresión en el RHS se simplifica como consecuencia de la cancelación de L(y,
θ) en el denominador con L(y, θ0) en el numerador. Entonces obtenemos

(12)

∫ dL(y; θ 0) dy =

y
D∫

dθ y

L(y; θ0)dy = 0,

donde la igualdad final se sigue del hecho de que la integral es unidad, lo que implica que su
derivada es cero. Por lo tanto

D{ }

{ }

D Iniciar sesión L(y; 0θ )

(13)

mi Iniciar sesión L0(y; θ ) = E dθ

dθ = 0;

y esta es una condición de primer orden que indica que el MI{Iniciar sesión L(y; θ)/ T} se
maximiza en el valor real del parámetro θ0.

Dado que el registro L(y; θ)/ T converge a MI{Iniciar sesión L(y; θ)/ T}, se sigue, mediante
algunos argumentos analíticos simples, que el valor maximizador del primero debe converger
al valor maximizador del segundo: lo que equivale a decir que θ̂ debe converger a θ0.

Ahora diferenciamos (8) con respecto a θ y tomar expectativas. Siempre que el orden de estas
operaciones pueda intercambiarse, entonces

(14)
D∫

dθ y

D Iniciar sesión L(y; θ)

L(y; θ)dy =

D2 ∫

dθ2 y

L(y; θ)dy = 0,

donde la igualdad final sigue de la misma manera que la de (11). El LHS se puede expresar
como

∫ ∫

(15)

D2 Iniciar sesión L(y; θ) L(y; θ)dy +

y 2

D Iniciar sesión L(y; θ) dL(y; θ)

y dθ dθ

dy = 0
y, al sustituir de (11) al segundo término, se convierte en

∫ ∫{ }2

(dieciséis)

D2 Iniciar sesión L(y; θ)

y dθ2

L(y; θ)dy +

D Iniciar sesión L(y; θ)

y dθ

L(y; θ)dy = 0.

Por tanto, cuando θ = θ0, obtenemos

{ } [{ }]2

(17) mi -

D2 Iniciar sesión L(y; θ0)

dθ2

= mi

DIniciar sesión L(y; θ 0)= Φ.

Esta medida se conoce como información de Fisher. Dado que (12) indica que la puntuación D
Iniciar sesión L(y; θ0)/ dθ tiene un valor esperado de cero, se deduce que la información de
Fisher representa la varianza de la puntuación en θ0.
Claramente, la medida de la información aumenta con el tamaño de la muestra. Para obtener
una medida de la información sobreθ que está contenido, en promedio, en una sola
observación, podemos definir φ = Φ/ T

La importancia de la medida de información Φ es que su inverso proporciona una


aproximación a la varianza del estimador de máxima verosimilitud que se vuelve cada vez más
precisa a medida que aumenta el tamaño de la muestra. De hecho, esta es la explicación de la
terminología. El famoso teorema de Cramèr-Rao indica que la inversa de la medida de
información proporciona un límite inferior para la varianza de cualquier estimador insesgado
deθ. El hecho de que la varianza asintótica del estimador de máxima verosimilitud alcance este
límite, como veremos a continuación, es la prueba de la eficiencia del estimador.

La distribución asintótica del estimador ML

La distribución asintótica del estimador de máxima verosimilitud se establece bajo el supuesto


de que la función logarítmica de verosimilitud obedece a ciertas condiciones de regularidad.
Algunas de estas condiciones no se pueden explicar fácilmente sin un contexto. Por lo tanto,
en lugar de detallar las condiciones, haremos una suposición general que sea apropiada para
nuestros propios propósitos, pero que sea más fuerte de lo estrictamente necesario.
Dibujaremos ese registroL(y; θ) es una función analítica que se puede representar mediante
una expansión de la serie de Taylor sobre el puntoθ0:

(18)

Iniciar sesión L(θ) = registro L(θ 0) +

D Iniciar sesión L(0θ )

(θ - θ 0) +

1 D2 Iniciar sesión L0(θ ) (θ - θ )0 2

2 2

+ 1 D3 Iniciar sesión L(θ 0) (θ - θ )03 + · · ·.


3! dθ3

Al perseguir la distribución asintótica del estimador de máxima verosimilitud, podemos


concentrarnos en una aproximación cuadrática que se basa en los primeros tres términos de
esta expansión. La razón es que, como hemos mostrado, la distribución del estimador se
concentra cada vez más en la vecindad del valor verdadero del parámetro a medida que
aumenta el tamaño de la muestra. Por lo tanto, la aproximación cuadrática se vuelve cada vez
más precisa para el rango de valores

de θ que podemos considerar. De ello se desprende que, entre las condiciones de regularidad,
debe existir al menos la disposición de que las derivadas de la función sean de valor finito
hasta el tercer orden.

La aproximación cuadrática a la función, tomada en el punto θ0, es

D Iniciar sesión L(θ0) 1 D2 Iniciar sesión L(θ0) 2

(19) registro L(θ) = registro L(θ0) + dθ

Su derivada con respecto a θ es

(θ - θ )0+

dθ2

(θ - θ )02.

(20)

D Iniciar sesión L(θ)

D Iniciar sesión L(θ0)


D2 Iniciar sesión L(θ 0) (θ - θ )0.

Configurando θ = θ̂ y utilizando el hecho de que D Iniciar sesión L(θ̂)/ dθ = 0, que se desprende


de la definición del estimador de máxima verosimilitud, encontramos que

√ {

}-1 {

1 D2 Iniciar sesión

1 D Iniciar sesión L(0θ )

(21) T (θ̂ - θ0) = - √ .

L(θ0)T dθ2

T dθ

El argumento que establece la distribución limitante de

√ T (θ̂ - θ0)

tiene dos hilos. Primero, se invoca la ley de los grandes números para demostrar que
(22) -

1 D2 Iniciar sesión L = -

(y; θ0)T dθ2

1 ∑ D2 Iniciar sesión F(y t; θ0)

T dθt 2

debe converger a su valor esperado que es la medida de información φ = Φ/ T .A continuación,


se invoca el teorema del límite central para demostrar que

(22)

1 D Iniciar sesión L(y; 0θ )

T dθ

) = √ 1 ∑ D Iniciar sesión F(yt; θ0

T dθt

tiene una distribución normal limitante que es norte(0, φ). Este resultado depende
fundamentalmente del hecho de que Φ =T φ es el√varianza de D Iniciar sesión L(y; θ0)/ dθ. Por
lo tanto, la

limitar la distribución de la cantidad T (θ̂ - θ0) es lo normal norte(0, φ-1) distribución, ya que
esta es la distribución de φ-1 veces unno√rte(0, φ) variable.

Dentro de este argumento, el dispositivo de escalar θ̂ por T tiene el propósito de evitar que la
varianza desaparezca y que la distribución colapse, ya que el tamaño de la muestra aumenta
indefinidamente. Una vez completado el argumento, podemos eliminar el factor de escala; y la
conclusión que se extrae es la siguiente:
(23) Dejar θ̂ ser el estimador de máxima verosimilitud obtenido al resolver la ecuación D
Iniciar sesión L(y, θ)/ dθ = 0, y deja θ0 ser el verdadero valor de

MÁXIMA VEROSIMILITUD

El parámetro. Luegoθ̂ se distribuye aproximadamente según la distribución norte(θ0, Φ-1),


donde Φ-1 es la inversa de la medida de información de Fisher.

Al establecer estos resultados, hemos considerado solo el caso en el que se va a estimar un


solo parámetro. Esto nos ha permitido proceder sin la panoplia de vectores y matrices. Sin
embargo, no se ha omitido nada esencial de nuestros argumentos. En el caso dondeθ es un
vector de k elementos, definimos la matriz de información como la matriz cuyos elementos
son las varianzas y covarianzas de los elementos del vector de puntuación. Así, el elemento
genérico de la matriz de información, en elijla posición, es

{ } { }

(24) mi -

∂2 Iniciar sesión L(θ 0) = mi

∂ Iniciar sesión L(θ 0) ∂ I.niciar sesión L(θ0) .

∂θI∂θj

∂θI

∂θj

También podría gustarte