Máxima Verosimilitud

María Teresa González Valencia
Luis Alejandro Villacorta Devoto

• Forma alternativa de estimación: De diversos
estimadores (método generalizado de momentos,
semiparamétricos, no-paramétricos, bayesiano), destaca
el EMV.
• Función de densidad de probabilidad: Una variable

aleatoria “y” condicionada a un conjunto “” de
parámetros, se define como FDP:
𝑓(𝑦ȁ𝜃)
Con lo cual se identifica el proceso generador de datos

• Densidad conjunta: Si se tienen «n» observaciones
idéntica e independientemente distribuidas, la densidad
conjunta será expresable a manera de una
multiplicatoria.
𝑓(𝑦1 , … , 𝑦𝑛 ȁ𝜃) = ෑ 𝑓(𝑦𝑖 ȁ𝜃) = 𝐿(𝜃ȁ𝑦)

𝑖=1
• Es la función de verosimilitud.
• Logaritmos: Permite pasar de una multiplicatoria a una
sumatoria.
ln 𝐿 𝜃 ȁ𝑦 = ෍ ln 𝑓(𝑦𝑖 ȁ𝜃)
𝑖=1
• Máxima verosimilitud: Se escoge un estimador

asintóticamente eficiente del parámetro o conjunto de
parámetros «».
• Ejemplo: Distribución de Poisson.
𝑒 −𝜃 𝜃 𝑦
𝑓(𝑦𝑖 ȁ𝜃) =
𝑦𝑖 !
• Considerando una secuencia de resultados:
5, 0, 1, 1, 0, 3, 2, 3, 4, 1
• La densidad conjunta será:
10
𝑓(𝑦1 , … , 𝑦10 ȁ𝜃) = ෑ 𝑓(𝑦𝑖 ȁ𝜃)

𝑖=1
10
𝑒 −10𝜃 𝜃 σ𝑖=1 𝑦𝑖 𝑒 −10𝜃 𝜃 20
𝑓(𝑦𝑖 ȁ𝜃) = =
ς10 𝑦
𝑖=1 𝑖 ! 207,360
• El resultado final representa la probabilidad de haber

obtenido la muestra a partir de una distribución de
Poisson con parámetro aún desconocido.
• ¿Qué valor de  hará más probable la obtención de esta
muestra? Ploteo de valores distintos para :
• Se presenta un punto máximo cuando  = 2. Ése es el
valor que corresponderá al estimador de máxima
verosimilitud (EMV) de .
• Maximización: Considerando la distribución de Poisson.

𝑛 𝑛
𝑙𝑛𝐿(𝜃ȁ𝑌) = −𝑛𝜃 + 𝑙𝑛𝜃 ෍ 𝑦𝑖 − ෍ ln(𝑦𝑖 !)

𝑖=1 𝑖=1
• Derivación con respecto a :

𝑛
𝜕 ln 𝐿(𝜃 ȁ𝑦) 1
= −𝑛 + ෍ 𝑦𝑖 = 0 = 𝜃෢
𝑀𝐿 = 𝑦𝑛
𝜕𝜃 𝜃
𝑖=1
• Con los datos de la muestra:
ln 𝐿 𝜃 ȁ𝑦 = −10𝜃 + 20𝑙𝑛𝜃 − 12.242
𝑑 ln 𝐿(𝜃ȁ𝑦) 20
= −10 + = 0 = 𝜃መ = 2
𝑑𝜃 𝜃
• Segunda derivación:
𝑑 2 ln 𝐿(𝜃 ȁ𝑦) −20
= 2 <0
𝑑𝜃 2 𝜃
Se trata de un máximo.
• Caso continuo: Si bien un dato discreto tiene
probabilidad cero, se cumple el procedimiento.
𝛿 ln 𝐿(𝜃 ȁ𝑑𝑎𝑡𝑎)
=0
𝑑𝜃
• Se define así la ecuación de verosimilitud.

• Propiedades:
– Consistencia:
𝑝𝑙𝑖𝑚𝜃መ = 𝜃0
– Normalidad asintótica:
መ
𝜃~𝑁 𝜃0 , 𝐼(𝜃0 ) −1
𝐼 𝜃0 = −𝐸0 𝛿 2 ln 𝐿/𝛿𝜃0 𝛿𝜃0′
– Eficiencia asintótica: Cumple la cota de Rao-Crámer.
– Invariante
• En el Modelo de Regresión Lineal:
𝑦𝑖 = 𝑥𝑖′ 𝛽 + 𝜀𝑖
• Función de verosimilitud: (muestra de «n»

perturbaciones)
2)
𝐿 = (2𝜋𝜎 2 )−𝑛/2 𝑒 −𝜀′𝜀/(2𝜎
• Reemplazando:
1
2 −𝑛/2 (− 2 ))(𝑦−𝑋𝛽)′(𝑦−𝑋𝛽)
𝐿= (2𝜋𝜎 ) 𝑒 2𝜎
• Función de log-verosimilitud:
𝑛 𝑛 2
(𝑦 − 𝑋𝛽)′(𝑦 − 𝑋𝛽)
ln 𝐿 = − 𝑙𝑛2𝜋 − 𝑙𝑛𝜎 −
2 2 2𝜎 2
• Condiciones para maximización:
𝛿𝑙𝑛𝐿 𝑋′(𝑦 − 𝑋𝛽)

𝛿𝛽 𝜎 2 0
= =
𝛿𝑙𝑛𝐿 −𝑛 (𝑦 − 𝑋𝛽)′(𝑦 − 𝑋𝛽) 0
+
𝛿𝜎 2 2𝜎 2 2𝜎 4
• Obtención de los estimadores:
𝛽መ𝑀𝐿 = (𝑋 ′ 𝑋)−1 𝑋 ′ 𝑦 = 𝑏
2
𝑒 ′𝑒
𝜎ො𝑀𝐿 =
𝑛
• El estimador de la varianza de la perturbación difiere del

caso de MCO.
• Pruebas de hipótesis en MV:
– Ratio de verosimilitud
– Wald
– Multiplicador de Lagrange
• Prueba de ratio de verosimilitud (LR):
• Ante la restricción sobre un coeficiente:

𝐻0 : 𝑐 𝜃 = 𝑞
• Se evalúa la función de verosimilitud con la restricción y

sin ella, y se propone el siguiente ratio lambda:
𝐿෠ 𝑅
𝜆=
𝐿෠ 𝑈
• LR será siempre menor que LU (toda vez que LU
corresponde a un máximo)
• Si la restricción es válida, el ratio será pequeño. En

logaritmos:
ln 𝐿𝑈 − 𝑙𝑛𝐿𝑅
• El valor obtenido se contrasta con el correspondiente a

la distribución chi-cuadrado (los grados de libertad son
tantos como restricciones se impongan).
• Prueba de Wald (W):
• Suele ser complejo encontrar los valores para el caso

restringido y no restringido.
• Se utiliza la forma cuadrática de rango completo para un

vector de variables aleatorias “x” de distribución normal:
(𝑥 − 𝜇)′Σ −1 (𝑥 − 𝜇)
• La cual sigue una distribución chi-cuadrado

• Si la restricción es válida, se cumple la forma de la
distribución chi-cuadrado descrita. Si no es válida, surge
una diferencia respecto de esa distribución. Se rechaza
la hipótesis nula (restricción) si la diferencia es
significativamente distinta de cero.
• Esta prueba se enfoca en los coeficientes no

restringidos.
• Estadístico de Wald:
𝑊 = 𝑐 𝜃መ − 𝑞 ′(𝐴𝑠𝑦. 𝑉𝑎𝑟 𝑐 𝜃መ − 𝑞 )−1 𝑐 𝜃መ − 𝑞
• Prueba de multiplicador de Lagrange (LM):
• Se le conoce también como prueba de score eficiente o

simplemente score.
• Consiste en asumir que se maximiza la log-verosimilitud

con un conjunto de restricciones sobre los coeficientes.
• Habrá un vector lambda de multiplicadores de Lagrange

y la consecuente función lagrangeana.
• Planteamiento:
ln 𝐿∗ 𝜃 = ln 𝐿 𝜃 + 𝜆′(𝑐 𝜃 − 𝑞)
• Si las restricciones son válidas, no se generará una

diferencia significativa respecto de la función de log-
verosimilitud original. La pendiente de la función será
cercana a cero en el valor del coeficiente restringido.
• Esta prueba se enfoca en los coeficientes restringidos.

Máxima Verosimilitud

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Máxima Verosimilitud

Cargado por

Copyright:

Formatos disponibles

María Teresa González Valencia

Luis Alejandro Villacorta Devoto

• Función de densidad de probabilidad: Una variable

Con lo cual se identifica el proceso generador de datos

𝑓(𝑦1 , … , 𝑦𝑛 ȁ𝜃) = ෑ 𝑓(𝑦𝑖 ȁ𝜃) = 𝐿(𝜃ȁ𝑦)

• Máxima verosimilitud: Se escoge un estimador

• Considerando una secuencia de resultados:

𝑓(𝑦1 , … , 𝑦10 ȁ𝜃) = ෑ 𝑓(𝑦𝑖 ȁ𝜃)

• El resultado final representa la probabilidad de haber

• Maximización: Considerando la distribución de Poisson.

𝑙𝑛𝐿(𝜃ȁ𝑌) = −𝑛𝜃 + 𝑙𝑛𝜃 ෍ 𝑦𝑖 − ෍ ln(𝑦𝑖 !)

• Derivación con respecto a :

ln 𝐿 𝜃 ȁ𝑦 = −10𝜃 + 20𝑙𝑛𝜃 − 12.242

• Se define así la ecuación de verosimilitud.

𝐼 𝜃0 = −𝐸0 𝛿 2 ln 𝐿/𝛿𝜃0 𝛿𝜃0′

– Eficiencia asintótica: Cumple la cota de Rao-Crámer.

• Función de verosimilitud: (muestra de «n»

• Condiciones para maximización:

𝛿𝑙𝑛𝐿 𝑋′(𝑦 − 𝑋𝛽)

• El estimador de la varianza de la perturbación difiere del

• Ante la restricción sobre un coeficiente:

• Se evalúa la función de verosimilitud con la restricción y

• Si la restricción es válida, el ratio será pequeño. En

• El valor obtenido se contrasta con el correspondiente a

• Suele ser complejo encontrar los valores para el caso

• Se utiliza la forma cuadrática de rango completo para un

• La cual sigue una distribución chi-cuadrado

• Esta prueba se enfoca en los coeficientes no

• Se le conoce también como prueba de score eficiente o

• Consiste en asumir que se maximiza la log-verosimilitud

• Habrá un vector lambda de multiplicadores de Lagrange

• Si las restricciones son válidas, no se generará una

• Esta prueba se enfoca en los coeficientes restringidos.

También podría gustarte