Máxima Verosimilitud

UNIVERSIDAD NACIONAL DE INGENIERÍA
FACULTAD DE INGENIERÍA ECONÓMICA, ESTADÍSTICA Y CC.SS.
ECONOMETRÍA II
TEMA 2:
Máxima Verosimilitud
Abdel Arancibia Flores1

rarancibiaf@uni.pe
1
UNIVERSIDAD NACIONAL DE INGENIERÍA
2020-II
UNIVERSIDAD NACIONAL DE INGENIERÍA ECONOMETRÍA II
Escuela Profesional de Ingenierı́a Económica INDICE Máxima Verosimilitud
Índice
1. Introducción 2
2. ¿Qué es la Máxima Verosimilitud? 3
3. Construcción de la Función de Verosimilitud 6
4. Propiedades del Estimador de Máxima Verosimilitud 9

4.1. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4.2. Normalidad Asintótica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4.3. Eficiencia Asintótica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
4.4. Invarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
4.5. Insesgadez Asintótica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
5. Inferencia en Máxima Verosimilitud 11

5.1. Prueba del Contraste de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
5.2. Prueba del Ratio de Verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
5.3. Prueba del Multiplicador de Lagrange . . . . . . . . . . . . . . . . . . . . . . . . . . 14
Referencias 17
Abdel Arancibia Flores 1 rarancibiaf@uni.pe

1. Introducción
En microeconometrı́a ocurre el hecho de que la mayorı́a de datos a tratar son discretos y ca-
tegóricos, esto nos induce a que no necesariamente se utilicen modelos lineales. El estimador de
Mı́nimos Cuadrados Ordinarios (MCO) presenta limitantes en modelos no lineales, por lo cual
tenemos que recurrir a otras técnicas de estimación.
Existen otros métodos de estimación para calcular los parámetros de un modelo. En este caso,
desarrollaremos la técnica de Máxima Verosimilitud (MV) ya que también permite realizar la
estimación de los parámetros de un modelo, aún cuando este es no lineal.

2. ¿Qué es la Máxima Verosimilitud?

Es un método de estimación que busca maximizar la probabilidad de ocurrencia de una muestra
observada. Es decir, busca maximizar la probabilidad de replicar el verdadero proceso generador
de datos (PGD) sujeto a un conjunto de parámetros.
A diferencia de la estimación por mı́nimos cuadrados ordinarios, la estimación por máxima vero-
similitud descansa en un determinado supuesto respecto de la distribución del término de error
(se asume una distribución para el error). La ventaja de la estimación por MV es que puede
producir estimadores consistentes y asintóticamente eficientes cuando el estimador MCO falla.
La estimación por Máxima Verosimilitud presenta una ventaja frente a la estimación por Mı́nimos
Cuadrados Ordinarios ya que se utiliza en modelos no lineales.

¿Qué se desea realizar?

Sea Y 0 = (y1 , y2 , . . . , yN ) una muestra aleatoria con N observaciones y condicionada a un vector
de K parámetros θ 0 = (θ1 , . . . , θK ).
Y θ
   
y1 ← θ1 θ2 ··· θK

 y2 
 ← 
 θ1 θ2 ··· θK 

 ..  ..  .. .. .. .. 

 . 
 . 
 . . . . 

 yN −1  ←  θ1 θ2 ··· θK 
yN ← θ1 θ2 ··· θK
se desea obtener una estimación del vector θ por el método de estimación por máxima vero-
similitud.
Función de Verosimilitud (Likelihood Function)

La probabilidad de haber observado la muestra (y1 , y2 , . . . , yN ) está caracterizada por la función
de verosimilitud (función de densidad conjunta poblacional).
fYN ,YN −1 ,...,Y1 (yN , yN −1 , . . . , y1 ; θ) (1)

Objetivo del método MV

Encontrar el valor de θ que maximiza (1).
Intuición: Encontrar el vector de parámetros poblacionales θ para el cual sea más probable que
una determinada muestra (y1 , y2 , . . . , yn ) haya sido observada.
Requisito del método MV

El método MV requiere la especificación de una distribución particular para el término de per-
turbación del PGD.
NOTA:
En el caso del Modelo Lineal Clásico (MLC) se asume una distribución normal para el
término de perturbación (i ).
i ∼ iid N 0, σ 2

Resumen del método MV

Los pasos para el método MV son:
1. Obtener una forma funcional de la función de verosimilitud.

2. Encontrar el valor de θ que maximiza la función de verosimilitud.

3. Construcción de la Función de Verosimilitud

Para la construcción de la función de verosimilitud partiremos de (1) y se utilizarán las densidades
condicionales.
f (yN , yN −1 , . . . , y1 ; θ) = f (yN |yN −1 , . . . , y1 ; θ) · f (yN −1 , . . . , y1 ; θ)
donde
f (yN −1 , yN −2 , . . . , y1 ; θ) = f (yN −1 |yN −2 , . . . , y1 ; θ) · f (yN −2 , . . . , y1 ; θ)

..
.
f (y3 , y2 , y1 ; θ) = f (y3 |y2 , y1 ; θ) · f (y2 , y1 ; θ)
f (y2 , y1 ; θ) = f (y2 |y1 ; θ) · f (y1 ; θ)
esto es
f (yN , yN −1 , . . . , y1 ; θ) = f (yN |yN −1 , . . . , y1 ; θ) · · · f (y2 |y1 ; θ) · f (y1 ; θ)
N
Y
f (yN , yN −1 , . . . , y1 ; θ) = f (y1 ; θ) · f (yi |yi−1 , yi−2 , · · · , y1 ; θ)
i=2

Si asumimos que las observaciones {yi }N

i=1 están idéntica e independientemente distribuidas,
entonces
N
Y
f (yN , yN −1 , . . . , y1 ; θ) = f (yi ; θ)
i=1
La función de log verosimilitud, denotada como L (θ; Y ) puede ser encontrada tomando
logaritmos
N
X
L (θ; Y ) = ln f (yi ; θ) (2)
i=1
El estimador θ̂ obtenido por Máxima Verosimilitud es el valor para el cual se maximiza L (θ; Y )
arg máxθ L (θ; Y ) = θ̂ MV (3)

θ̂
En un principio esto requiere la diferenciación de L (θ; Y ) e igualar el resultado a cero. En

la práctica cuando se lleva a cabo un intento, el resultado es un sistema de ecuaciones no
lineales en θ y (y1 , y2 , . . . , yN ) para los cuales no hay una solución única para θ en térmi-
nos de (y1 , y2 , . . . , yN ). La maximización de L (θ; Y ) requiere procedimientos iterativos o
numéricos.

La primera derivada de L (θ; Y ) es conocida como score o vector gradiente. El score está
denotado como g(θ) o S(θ), con lo cual θ̂ MV se obtiene al igualar el score a cero.
∂L (θ; Y )
g(θ) = S(θ) =
∂θ
La matriz de segundas derivadas de L (θ; Y ) es conocida como la matriz Hessiana. La matriz

Hessiana está denotada como H(θ) y debe ser definida negativa para que θ̂ MV sea el estimador
que maximiza L (θ; Y ).
∂ 2 L (θ; Y )
H(θ) =
∂θ ∂θ 0

4. Propiedades del Estimador de Máxima Verosimilitud

Los estimadores de máxima verosimilitud (MV) resultan bastante atractivos por sus propiedades
asintóticas.
4.1. Consistencia
Convergen al valor poblacional conforme se incremente el tamaño de la muestra, formalmente
se expresa como:
plim θ̂ MV = θ
4.2. Normalidad Asintótica

El estimador θ̂ MV se distribuye asintóticamente como una normal con media θ y varianza igual
al inverso de la matriz de información {I(θ)}.
a
θ̂ MV −→ N θ, {I(θ)}−1

La matriz de información se define como:
I(θ) = −E [H(θ)] = E S(θ) · S(θ)0


4.3. Eficiencia Asintótica

La varianza del estimador θ̂ MV alcanza la llamada cota inferior de Cramér-Rao, es decir
{I(θ)}−1 .
La cota inferior de Cramér-Rao corresponde al inverso de la matriz de información, la cual

corresponde a la mı́nima varianza que puede poseer un estimador insesgado.
4.4. Invarianza
Si θ̂ MV es el estimador de θ y c(θ) es una función continua y continuamente diferenciable de θ,
entonces el estimador de máxima verosimilitud de γ = c(θ) es c(θ̂ MV )
4.5. Insesgadez Asintótica

Se cumple que:
lı́m (θ̂ MV − θ) = 0
N →∞
NOTA: A diferencia del estimador MCO, el estimador MV no siempre es insesgado. Por lo

cual, el estimador MCO es usualmente preferible.

5. Inferencia en Máxima Verosimilitud

5.1. Prueba del Contraste de Wald
La prueba del contraste de Wald se basa en evaluar la hipótesis nula en los coeficientes estimados.
Se busca determinar cuan cercano es el resultado comparado con lo propuesto en la hipótesis
nula.
Sea θ̂ MV el vector de parámetros del modelo sin restricciones. Plantearemos el siguiente conjunto
hipotético de restricciones sobre la hipótesis nula,
H0 : h(θ) = r
Si las restricciones son válidas, entonces, al menos aproximadamente, θ̂ MV deberı́a satisfacerlas.
Si las hipótesis son erróneas, h(θ) − r deberı́a tomar un valor suficientemente lejano de cero que
se explicarı́a únicamente por la variabilidad muestral.
El instrumento que utilizaremos para formalizar esta intuición es el contraste de Wald.

h i0 −1 h i
d
W = h(θ̂) − r Var[h(θ̂) − r] h(θ̂) − r −→ χ2(m)
donde m son los grados de libertad, están dados por el número de ecuaciones en h(θ) − r = 0.

Donde la varianza asintótica se obtiene aplicando el método delta.

" # " #0
ˆ ∂h(θ̂) ∂h(θ̂)
Var[h(θ̂) − r] = Var(θ̂)
∂ θ̂ ∂ θ̂
" # " #0
∂h( θ̂) ∂h( θ̂)
ˆ
Var[h( θ̂) − r] = {I(θ)}−1
∂ θ̂ ∂ θ̂
Si se desea testear un conjunto de restricciones lineales: h(θ) = Rθ,
H0 : Rθ − r = 0
y el contraste de Wald estarı́a dado por:

h i0 −1 h i
d
W = Rθ̂ − r R{I(θ)}−1 R0 Rθ̂ − r −→ χ2(m)

5.2. Prueba del Ratio de Verosimilitud

Es una prueba de hipótesis sobre los parámetros que son estimados por máxima verosimilitud.
Busca comparar la verosimilitud alcanzada por el modelo restringido y compararla con la alcan-
zada por el modelo sin restringir.
Suponga una hipótesis nula que implique un conjunto de m diferentes restricciones sobre el valor
de parámetros θ.
• Primero, maximizamos la función de verosimilitud ignorando estas restricciones para obtener

un θ̂ MV irrestricto.
• Luego, encontramos un estimador θ e que haga a la verosimilitud lo más grande que sea
posible mientras aún se satisfagan todas las restricciones.

Sea L θ b el valor de la función de log verosimilitud en el estimador irrestricto, y sea L θe

el valor de la función log verosimilitud en el estimador restricto. Claramente L θ b >L θ e ,
y esto a menudo prueba ser el caso en el que
h i
a
LR = −2 L θ e −L θ
b −→ χ2(m)

5.3. Prueba del Multiplicador de Lagrange

La prueba del Multiplicador de Lagrange se basa en el score.
Busca evaluar si el score evaluado en el estimador MV restringido (aquel θ

e que cumpla H0 ) es
igual a cero.
Es necesario encontrar tanto el θ

bMV irrestricto como el θ
eMV restricto.
La prueba del multiplicador de Lagrange de la hipótesis nula de que las restricciones son verda-
deras está dada por el siguiente estadı́stico
0
e {I(θ)}−1 S θ a
LM = S θ e −→ χ2(m)
donde m son los grados de libertad que están dados por el número de ecuaciones en h(θ)−r = 0.
Esta prueba es útil cuando es más fácil calcular el estimador restricto θ

e que el estimador irres-
tricto.

ln 𝐿(𝜃)
𝑑 ln 𝐿(𝜃) |𝑑𝜃
𝑐(𝜃)
𝑑 ln 𝐿(𝜃) |𝑑𝜃
ln 𝐿
Likelihood
ratio
ln 𝐿𝑅 ln 𝐿(𝜃)
𝑐(𝜃)
Lagrange
multiplier
Wald
0 𝜃
𝜃𝑅 𝜃𝑀𝐿𝐸
Figura 1: Tres criterios para el contraste de hipótesis

Consideraciones finales
1. Los tres tests llegan al mismo resultado de manera asintótica; es decir, son asintóticamente
equivalentes. Sin embargo, en muestras pequeñas pueden diferir. En general, en un modelo lineal
normal se cumple que: W ≥ LR ≥ LM .
2. Los tres estadı́sticos pueden ser definidos tanto para modelos como restricciones no lineales.
3. Las tres pruebas pueden ser definidas para “non-likelihoods” models.
4. Cada test es una perspectiva distinta al mismo problema:
a) La prueba del contraste de Wald trabaja con el estimador MV no restringido y evalúa si

cumple la restricción.
b) La prueba LM trabaja con el estimador MV restringido y evalúa si se cumple que el score
de este estimador es igual a cero.
c) La prueba LR trabaja con ambos estimadores y evalúa si la verosimilitud máxima obtenida
por ambos estimadores son iguales.

Referencias
[1] Greene, W. (2018). Econometric Analysis. The Pearson series in economics. Pearson.
[2] Hamilton, J. D. (1994). Time Series Analysis. Princeton University Press.
[3] Wooldridge, J. M. (2002). Econometric Analysis of Cross Section and Panel Data. Cambridge, MA:
MIT press.

Máxima Verosimilitud

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Máxima Verosimilitud

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD NACIONAL DE INGENIERÍA

FACULTAD DE INGENIERÍA ECONÓMICA, ESTADÍSTICA Y CC.SS.

Abdel Arancibia Flores1

2. ¿Qué es la Máxima Verosimilitud? 3

3. Construcción de la Función de Verosimilitud 6

4. Propiedades del Estimador de Máxima Verosimilitud 9

5. Inferencia en Máxima Verosimilitud 11

Abdel Arancibia Flores 1 rarancibiaf@uni.pe

Abdel Arancibia Flores 2 rarancibiaf@uni.pe

2. ¿Qué es la Máxima Verosimilitud?

Abdel Arancibia Flores 3 rarancibiaf@uni.pe

¿Qué se desea realizar?

Función de Verosimilitud (Likelihood Function)

fYN ,YN −1 ,...,Y1 (yN , yN −1 , . . . , y1 ; θ) (1)

Abdel Arancibia Flores 4 rarancibiaf@uni.pe

Objetivo del método MV

Requisito del método MV

Resumen del método MV

1. Obtener una forma funcional de la función de verosimilitud.

Abdel Arancibia Flores 5 rarancibiaf@uni.pe

3. Construcción de la Función de Verosimilitud

f (yN , yN −1 , . . . , y1 ; θ) = f (yN |yN −1 , . . . , y1 ; θ) · f (yN −1 , . . . , y1 ; θ)

f (yN −1 , yN −2 , . . . , y1 ; θ) = f (yN −1 |yN −2 , . . . , y1 ; θ) · f (yN −2 , . . . , y1 ; θ)

f (yN , yN −1 , . . . , y1 ; θ) = f (yN |yN −1 , . . . , y1 ; θ) · · · f (y2 |y1 ; θ) · f (y1 ; θ)

Abdel Arancibia Flores 6 rarancibiaf@uni.pe

Si asumimos que las observaciones {yi }N

arg máxθ L (θ; Y ) = θ̂ MV (3)

En un principio esto requiere la diferenciación de L (θ; Y ) e igualar el resultado a cero. En

Abdel Arancibia Flores 7 rarancibiaf@uni.pe

La matriz de segundas derivadas de L (θ; Y ) es conocida como la matriz Hessiana. La matriz

Abdel Arancibia Flores 8 rarancibiaf@uni.pe

4. Propiedades del Estimador de Máxima Verosimilitud

4.2. Normalidad Asintótica

La matriz de información se define como:

I(θ) = −E [H(θ)] = E S(θ) · S(θ)0

Abdel Arancibia Flores 9 rarancibiaf@uni.pe

4.3. Eficiencia Asintótica

La cota inferior de Cramér-Rao corresponde al inverso de la matriz de información, la cual

4.5. Insesgadez Asintótica

NOTA: A diferencia del estimador MCO, el estimador MV no siempre es insesgado. Por lo

Abdel Arancibia Flores 10 rarancibiaf@uni.pe

5. Inferencia en Máxima Verosimilitud

Si las restricciones son válidas, entonces, al menos aproximadamente, θ̂ MV deberı́a satisfacerlas.

El instrumento que utilizaremos para formalizar esta intuición es el contraste de Wald.

Abdel Arancibia Flores 11 rarancibiaf@uni.pe

Donde la varianza asintótica se obtiene aplicando el método delta.

Si se desea testear un conjunto de restricciones lineales: h(θ) = Rθ,

y el contraste de Wald estarı́a dado por:

Abdel Arancibia Flores 12 rarancibiaf@uni.pe

5.2. Prueba del Ratio de Verosimilitud

• Primero, maximizamos la función de verosimilitud ignorando estas restricciones para obtener

Abdel Arancibia Flores 13 rarancibiaf@uni.pe

5.3. Prueba del Multiplicador de Lagrange

Busca evaluar si el score evaluado en el estimador MV restringido (aquel θ

Es necesario encontrar tanto el θ

Esta prueba es útil cuando es más fácil calcular el estimador restricto θ

Abdel Arancibia Flores 14 rarancibiaf@uni.pe

Figura 1: Tres criterios para el contraste de hipótesis

Abdel Arancibia Flores 15 rarancibiaf@uni.pe

3. Las tres pruebas pueden ser definidas para “non-likelihoods” models.

4. Cada test es una perspectiva distinta al mismo problema:

a) La prueba del contraste de Wald trabaja con el estimador MV no restringido y evalúa si

Abdel Arancibia Flores 16 rarancibiaf@uni.pe