Está en la página 1de 22

María Teresa González Valencia

Luis Alejandro Villacorta Devoto


• Forma alternativa de estimación: De diversos
estimadores (método generalizado de momentos,
semiparamétricos, no-paramétricos, bayesiano), destaca
el EMV.

• Función de densidad de probabilidad: Una variable


aleatoria “y” condicionada a un conjunto “” de
parámetros, se define como FDP:
𝑓(𝑦ȁ𝜃)

Con lo cual se identifica el proceso generador de datos


• Densidad conjunta: Si se tienen «n» observaciones
idéntica e independientemente distribuidas, la densidad
conjunta será expresable a manera de una
multiplicatoria.

𝑓(𝑦1 , … , 𝑦𝑛 ȁ𝜃) = ෑ 𝑓(𝑦𝑖 ȁ𝜃) = 𝐿(𝜃ȁ𝑦)


𝑖=1

• Es la función de verosimilitud.
• Logaritmos: Permite pasar de una multiplicatoria a una
sumatoria.

ln 𝐿 𝜃 ȁ𝑦 = ෍ ln 𝑓(𝑦𝑖 ȁ𝜃)
𝑖=1

• Máxima verosimilitud: Se escoge un estimador


asintóticamente eficiente del parámetro o conjunto de
parámetros «».
• Ejemplo: Distribución de Poisson.

𝑒 −𝜃 𝜃 𝑦
𝑓(𝑦𝑖 ȁ𝜃) =
𝑦𝑖 !

• Considerando una secuencia de resultados:

5, 0, 1, 1, 0, 3, 2, 3, 4, 1
• La densidad conjunta será:
10

𝑓(𝑦1 , … , 𝑦10 ȁ𝜃) = ෑ 𝑓(𝑦𝑖 ȁ𝜃)


𝑖=1

10
𝑒 −10𝜃 𝜃 σ𝑖=1 𝑦𝑖 𝑒 −10𝜃 𝜃 20
𝑓(𝑦𝑖 ȁ𝜃) = =
ς10 𝑦
𝑖=1 𝑖 ! 207,360

• El resultado final representa la probabilidad de haber


obtenido la muestra a partir de una distribución de
Poisson con parámetro aún desconocido.
• ¿Qué valor de  hará más probable la obtención de esta
muestra? Ploteo de valores distintos para :
• Se presenta un punto máximo cuando  = 2. Ése es el
valor que corresponderá al estimador de máxima
verosimilitud (EMV) de .

• Maximización: Considerando la distribución de Poisson.


𝑛 𝑛

𝑙𝑛𝐿(𝜃ȁ𝑌) = −𝑛𝜃 + 𝑙𝑛𝜃 ෍ 𝑦𝑖 − ෍ ln(𝑦𝑖 !)


𝑖=1 𝑖=1

• Derivación con respecto a :


𝑛
𝜕 ln 𝐿(𝜃 ȁ𝑦) 1
= −𝑛 + ෍ 𝑦𝑖 = 0 = 𝜃෢
𝑀𝐿 = 𝑦𝑛
𝜕𝜃 𝜃
𝑖=1
• Con los datos de la muestra:

ln 𝐿 𝜃 ȁ𝑦 = −10𝜃 + 20𝑙𝑛𝜃 − 12.242

𝑑 ln 𝐿(𝜃ȁ𝑦) 20
= −10 + = 0 = 𝜃መ = 2
𝑑𝜃 𝜃

• Segunda derivación:
𝑑 2 ln 𝐿(𝜃 ȁ𝑦) −20
= 2 <0
𝑑𝜃 2 𝜃

Se trata de un máximo.
• Caso continuo: Si bien un dato discreto tiene
probabilidad cero, se cumple el procedimiento.

𝛿 ln 𝐿(𝜃 ȁ𝑑𝑎𝑡𝑎)
=0
𝑑𝜃

• Se define así la ecuación de verosimilitud.


• Propiedades:

– Consistencia:
𝑝𝑙𝑖𝑚𝜃መ = 𝜃0

– Normalidad asintótica:

𝜃~𝑁 𝜃0 , 𝐼(𝜃0 ) −1

𝐼 𝜃0 = −𝐸0 𝛿 2 ln 𝐿/𝛿𝜃0 𝛿𝜃0′

– Eficiencia asintótica: Cumple la cota de Rao-Crámer.

– Invariante
• En el Modelo de Regresión Lineal:

𝑦𝑖 = 𝑥𝑖′ 𝛽 + 𝜀𝑖

• Función de verosimilitud: (muestra de «n»


perturbaciones)
2)
𝐿 = (2𝜋𝜎 2 )−𝑛/2 𝑒 −𝜀′𝜀/(2𝜎

• Reemplazando:
1
2 −𝑛/2 (− 2 ))(𝑦−𝑋𝛽)′(𝑦−𝑋𝛽)
𝐿= (2𝜋𝜎 ) 𝑒 2𝜎
• Función de log-verosimilitud:

𝑛 𝑛 2
(𝑦 − 𝑋𝛽)′(𝑦 − 𝑋𝛽)
ln 𝐿 = − 𝑙𝑛2𝜋 − 𝑙𝑛𝜎 −
2 2 2𝜎 2

• Condiciones para maximización:

𝛿𝑙𝑛𝐿 𝑋′(𝑦 − 𝑋𝛽)


𝛿𝛽 𝜎 2 0
= =
𝛿𝑙𝑛𝐿 −𝑛 (𝑦 − 𝑋𝛽)′(𝑦 − 𝑋𝛽) 0
+
𝛿𝜎 2 2𝜎 2 2𝜎 4
• Obtención de los estimadores:

𝛽መ𝑀𝐿 = (𝑋 ′ 𝑋)−1 𝑋 ′ 𝑦 = 𝑏

2
𝑒 ′𝑒
𝜎ො𝑀𝐿 =
𝑛

• El estimador de la varianza de la perturbación difiere del


caso de MCO.
• Pruebas de hipótesis en MV:

– Ratio de verosimilitud

– Wald

– Multiplicador de Lagrange
• Prueba de ratio de verosimilitud (LR):

• Ante la restricción sobre un coeficiente:


𝐻0 : 𝑐 𝜃 = 𝑞

• Se evalúa la función de verosimilitud con la restricción y


sin ella, y se propone el siguiente ratio lambda:

𝐿෠ 𝑅
𝜆=
𝐿෠ 𝑈
• LR será siempre menor que LU (toda vez que LU
corresponde a un máximo)

• Si la restricción es válida, el ratio será pequeño. En


logaritmos:
ln 𝐿𝑈 − 𝑙𝑛𝐿𝑅

• El valor obtenido se contrasta con el correspondiente a


la distribución chi-cuadrado (los grados de libertad son
tantos como restricciones se impongan).
• Prueba de Wald (W):

• Suele ser complejo encontrar los valores para el caso


restringido y no restringido.

• Se utiliza la forma cuadrática de rango completo para un


vector de variables aleatorias “x” de distribución normal:
(𝑥 − 𝜇)′Σ −1 (𝑥 − 𝜇)

• La cual sigue una distribución chi-cuadrado


• Si la restricción es válida, se cumple la forma de la
distribución chi-cuadrado descrita. Si no es válida, surge
una diferencia respecto de esa distribución. Se rechaza
la hipótesis nula (restricción) si la diferencia es
significativamente distinta de cero.

• Esta prueba se enfoca en los coeficientes no


restringidos.

• Estadístico de Wald:
𝑊 = 𝑐 𝜃መ − 𝑞 ′(𝐴𝑠𝑦. 𝑉𝑎𝑟 𝑐 𝜃መ − 𝑞 )−1 𝑐 𝜃መ − 𝑞
• Prueba de multiplicador de Lagrange (LM):

• Se le conoce también como prueba de score eficiente o


simplemente score.

• Consiste en asumir que se maximiza la log-verosimilitud


con un conjunto de restricciones sobre los coeficientes.

• Habrá un vector lambda de multiplicadores de Lagrange


y la consecuente función lagrangeana.
• Planteamiento:
ln 𝐿∗ 𝜃 = ln 𝐿 𝜃 + 𝜆′(𝑐 𝜃 − 𝑞)

• Si las restricciones son válidas, no se generará una


diferencia significativa respecto de la función de log-
verosimilitud original. La pendiente de la función será
cercana a cero en el valor del coeficiente restringido.

• Esta prueba se enfoca en los coeficientes restringidos.

También podría gustarte