Documentos de Académico
Documentos de Profesional
Documentos de Cultura
17
MXIMA VEROSIMILITUD
ESTIMACION
Q
17.1 INTRODUCCIN
La funcin de densidad de probabilidad, o pdf para una variable aleatoria Y, condicionado a un conjunto de parmetros,
, se denota f (y | ). 1 Esta funcin identi fi ca el proceso de generacin de datos que subyace en una muestra
observada de datos y, al mismo tiempo, proporciona una descripcin matemtica de los datos que va a producir el
proceso. La densidad conjunta de n independiente y idnticamente distribuidas ( iid) observaciones de este proceso es
el producto de las densidades individuales;
f (y 1, . . . , y n | ) = norte f (y i | ) = L ( | y). (17-1)
i=1
Esta densidad conjunta es la funcin de verosimilitud, definida como una funcin del vector de parmetro desconocido, , dnde
y se utiliza para indicar la recogida de datos de la muestra. Tenga en cuenta que escribimos la densidad conjunta como una
funcin de los datos de acondicionado de los parmetros mientras que cuando se forma la funcin de probabilidad,
escribimos esta funcin a la inversa, como una funcin de los parmetros, condicionado a los datos. Aunque las dos
funciones son las mismas, es de destacar que la funcin de probabilidad se escribe de esta manera a
1 Ms adelante vamos a extender esto al caso de un vector aleatorio, Y, con una densidad multivariante, pero en este punto, que complicara la
468
Greene-50240 libro 26 de de junio de, de 2002 15: 8
destacar nuestro inters en theparameters y la themthat informationabout est contenida en los datos observados. Sin
embargo, se entiende que la funcin de probabilidad no est destinado a representar una densidad de probabilidad para
los parmetros como lo es en la Seccin 16.2.2. En este marco de estimacin clsica, los parmetros se supone que son
constantes fi jo que esperamos para aprender acerca de los datos.
En L ( | y) = norte En f (y i | ). (17-2)
i=1
Una vez ms, para enfatizar nuestro inters en los parmetros, dados los datos observados, denotamos esta funcin L
( | datos) = L ( | y). La funcin de probabilidad y su logaritmo, evaluada en , a veces se designan simplemente L ( ) y ln
L ( ), respectivelyor, wherenoambiguity puede surgir, justo L o ln L.
Por lo general ser necesario generalizar el concepto de la funcin de verosimilitud para permitir que la densidad de
depender de otras variables condicionantes. Para saltar inmediatamente a una de nuestras aplicaciones centrales,
supongamos que la perturbacin en el modelo clsico de regresin lineal se distribuye normalmente. Entonces, bajo la
condicin de que es especfico x yo , y yo se distribuye normalmente con media i = x '
norte
En L ( | Y, X) = norte En f (y i | x yo , ) = - 1 [ln 2 + ln (2 ) + ( y yo - x ' yo ) 2 / 2], ( 17-3)
2
i=1 i=1
Este resultado ser crucial en varios puntos en lo que sigue. Consideramos dos ejemplos, el primero de los cuales ser
muy familiar para usted por ahora.
yo a = 0 para cada x yo . Luego hay otro vector parmetro, = + a = de tal manera que
Greene-50240 libro 26 de de junio de, de 2002 15: 8
x 'yo = x '
yo para cada x yo . Se puede ver en (17-3), que si este es el caso, entonces el diario de probabilidad es la misma si se
evala en o en . Como tal, no es posible considerar la estimacin de en este modelo, ya no se puede distinguir de . Este
es el caso de la perfecta colinealidad en el modelo de regresin que descartado cuando nos propusimos la primera modelo de
regresin lineal con Supuesto 2. capacidad identificaciones de los parmetros del modelo.
Lo anterior tratado con una caracterstica necesaria de los datos de la muestra. Ahora consideramos un modelo en el que la
identi fi cacin est asegurada por la especi fi cacin de los parmetros en el modelo. (Vamos a estudiar este modelo en detalle en
el captulo 21.) Considere una forma sencilla del modelo de regresin considerado anteriormente, y i = 1 + 2 x i + yo , dnde i | x yo tiene
una distribucin normal con media cero y varianza 2. Para poner el modelo en un contexto, considere la compra de un consumidor
de un gran mercanca, como un automvil, donde x yo es el ingreso del consumidor y y yo es la diferencia entre lo que el consumidor
est dispuesto a pagar por el coche, pag *
informacin, nuestro modelo indica que van a comprar el coche si y i> 0 y no comprarlo si
y yo 0. Formemos la funcin de verosimilitud de los datos observados, que son de compra (o no) y los ingresos. La variable
aleatoria en este modelo es comprar o no comprar -hay slo dos resultados. La probabilidad de una compra es
= Prob ( 1 + 2 x i + i> 0 | 1, 2, , x yo )
= Prob [ i> - ( 1 + 2 x i) | 1, 2, , x yo ]
= Prob [ yo / > - ( 1 + 2 x yo ) / | 1, 2, , x yo ]
= Prob [ z i> - ( 1 + 2 x yo ) / | 1, 2, , x yo ]
dnde z yo tiene una distribucin normal estndar. La probabilidad de no compra es slo uno menos esta probabilidad. La funcin
de verosimilitud es
[Problema resuelto (compra | 1, 2, , x yo ) ] [1 - Prob (compra | 1, 2, , x yo ) ].
i = comprado No = comprado
Tenemos que ir ms lejos para ver que los parmetros de thismodel no se identifican. Si 1, 2 y
son todos multiplicado por la misma constante diferente de cero, independientemente de lo que es, a continuacin, Prob (compra) es sin
cambios, 1 - Prob (compra) es tambin, y la funcin de probabilidad no cambia. Este modelo requiere una normalizacin. El uno
generalmente utilizado es = 1, pero algunos autores [por ejemplo, Horowitz (1993)] han utilizado 1 = 1 en su lugar.
El principio de mxima verosimilitud proporciona un medio de elegir un estimador fi ciente asintticamente ef para
un parmetro o un conjunto de parmetros. La lgica de la tcnica se ilustra fcilmente en el contexto de una
distribucin discreta. Considere una muestra aleatoria de los siguientes 10 observaciones de una distribucin de
Poisson: 5, 0, 1, 1, 0, 3, 2, 3, 4 y 1. La densidad para cada observacin es
f (y i | ) = mi - y yo
y yo ! .
Greene-50240 libro 26 de de junio de, de 2002 15: 8
0.13 26
0.12 24
0.11 22
0.10 20
0.09 18
L ( x)
0.08 16
0.07 14
En L ( x) 25
L ( x) 10 7
0.06 12
0.05 10 8
En L ( x)
0.04 64
0.03 20
0.02
0.01
0 0.5 0.8 1.1 1.4 1.7 2.0 2.3 2.6 2.9 3.2 3.5
Dado que las observaciones son independientes, su densidad conjunta, que es la probabilidad para esta muestra, es
i = 1 y yo
f (y 1, y 2, . . . , y 10 | ) = 10 f (y i | ) = mi - 10
1010
207, 360.
i=1 i=1 y yo ! = mi - 10 20
El ltimo resultado da la probabilidad de observar esta muestra particular, suponiendo que una distribucin de
Poisson con parmetro an desconocido generado los datos. Qu valor de hara que esta muestra ms
probable? Figura 17.1 parcelas esta funcin para varios valores de . Tiene un nico modo en = 2, lo que sera el estimado
mximo de verosimilitud, o MLE, de .
Considere la maximizacin L ( | y) con respecto a . Dado que la funcin de registro es montona creciente y
ms fcil de trabajar, por lo general maximizar ln L ( | y) en lugar; en el muestreo de una poblacin de Poisson,
norte
En L ( | y) = - norte + En y yo - norte ln ( y yo !),
i=1 i=1
En L ( | y) norte
=-n+1 yi= 0 ML = y norte.
i=1
En L ( | y) = - 10 + 20 En - 12.242,
re En L ( | y)
= - 10 + 20 = 2,
re =0
Greene-50240 libro 26 de de junio de, de 2002 15: 8
re 2 En L ( | y)
= - 20
re 2 2 < 0 este es un mximo.
La solucin es la misma que antes. Figura 17.1 tambin traza el registro de L ( | y) para ilustrar el resultado.
La referencia a la probabilidad de observar la muestra dada no es exacta en una distribucin continua, ya que
una muestra particular tiene una probabilidad de cero. Sin embargo, el principio es el mismo. Los valores de los
parmetros que maximizan L ( | datos) o su registro son las estimaciones de mxima verosimilitud, denotados
. Dado que el logaritmo es una montona
funcin, los valores que maximizan L ( | datos) son los mismos que los que maximizar ln L ( | datos). La condicin
necesaria para maximizar ln L ( | datos) es
En L ( | datos)
= 0. (17-4)
Esto se llama el ecuacin de probabilidad. El resultado general es, entonces, que el MLE es una raz de la ecuacin de
probabilidad. La aplicacin a los parmetros de la DGP para una variable aleatoria discreta son sugestivos de que la mxima
probabilidad es un buen uso de los datos. Queda por establecer esto como un principio general. Nos dirigimos a esa
cuestin en la siguiente seccin.
[( y yo - ) 2 ]
norte
En L ( , 2) = - norte , (17-5)
2 ln (2 ) - norte 2 ln 2 - 1 2 2
i=1
En L
norte
( y yo - ) = 0, (17-6)
= 1 2
i=1
En L
norte
( y yo - ) 2 = 0. (17-7)
2 = - norte 2 2 + 1 2 4
i=1
Para resolver las ecuaciones de probabilidad, multiplicar (17-6) por 2 y resolver para , a continuacin, insertar esta solucin
de (17-7) y resolver para 2. Las soluciones son
norte norte
ML = 1 y i = y norte y 2 ML = 1 ( y yo - y norte) 2. (17-8)
norte norte
i=1 i=1
estimadores de mxima verosimilitud (MLE) son los ms atractivos debido a su largesample o propiedades
asintticas.
Greene-50240 libro 26 de de junio de, de 2002 15: 8
Si se cumplen ciertas condiciones de regularidad, el MLE tendr estas propiedades. Las propiedades de la muestra finitos son
a veces menos que ptima. Por ejemplo, el MLE puede estar sesgada; theMLEof 2 el Ejemplo 17.2 est sesgada hacia abajo.
La declaracin de vez en cuando que las propiedades de theMLE son solamente ptima en muestras grandes no es cierto, sin
embargo. Se puede demostrar que cuando el muestreo es de la familia exponencial froman de las distribuciones (simiente fi
nition18.1), therewill existo SUF estadsticas fi cientes. Si es as, MLEswill ser funciones de ellos, lo que significa que cuando
existen mnima varianza estimadores no sesgados, lo harn beMLEs. [Ver Stuart y Ord (1989).] La mayora de las
aplicaciones en econometra no implican familias exponenciales, por lo que el recurso de la MLE sigue siendo principalmente
sus propiedades asintticas.
Para boceto pruebas de estos resultados, se primera obtenemos algunas propiedades tiles de funciones de densidad de
probabilidad. Asumimos que ( y 1, . . . , y norte) es una muestra aleatoria de la poblacin
2 no mayor se define en el sentido de (A-118): La matriz de covarianza de los menos ef estimador fi ciente es igual a la de la estimador e fi ciente adems
con funcin de densidad f (y i | 0) y que la siguiente condiciones de regularidad sostener. [Nuestra declaracin de
stos es informal. Un tratamiento ms rigurosa puede ser encontrado en Stuart y Ord (1989) o Davidson y MacKinnon
(1993)].
R2. Las condiciones necesarias para obtener las expectativas de la primera y segunda
derivados de En f (y i | ) se cumplan.
R3. Para todos los valores de , | 3 En f (y i | ) / j k l | es menor que una funcin que
tiene una expectativa infinita. Esta condicin nos permitir truncar la serie de Taylor.
Densidades que son regular por definicin 17.3 tienen tres propiedades que se utilizan en el establecimiento de las
propiedades de los estimadores de mxima verosimilitud:
para una distribucin uniforme continua con rango [0, 0].) ( En lo siguiente, la nica integral . . . dy yo , wouldbeused para
indicar themultiple integrationover todos los elementos de un multivariante de y yo si fuera necesario). Por definicin,
SEGUNDO( 0)
f (y - i | 0) dy i = 1.
UN( 0)
SEGUNDO( 0)
UN( 0) f (y i | 0) dy yo f (y i | 0)
= SEGUNDO( 0) dy i + f (B ( 0) | 0) SEGUNDO( 0)
0 UN( 0) 0 0
- f (A ( 0) | 0) UN( 0)
0
= 0.
Si los trminos segundo y tercero van a cero, entonces podemos intercambiar las operaciones de diferenciacin e
integracin. La condicin necesaria es que lim y yo UN( 0) f (y i | 0) =
lim y yo SEGUNDO( 0) f (y i | 0) = 0. (Tenga en cuenta que la distribucin uniforme sugiri anteriormente viole esta condicin.)
Condiciones su fi ciente son que el intervalo de la observada randomvariable,
y yo , no depende de los parmetros, que whichmeans UN( 0) / 0 = SEGUNDO( 0) / 0 = 0
o que la densidad es cero en los puntos terminales. Esta condicin, entonces, es condicin de regularidad R2. Este
ltimo se suele suponer, y vamos a suponer que en lo que sigue. Asi que,
[ En f (y i | 0) ] = 0.
f (y i | 0) dy yo
= f (y i | 0) dy i = En f (y i | 0) f (y i | 0) dy i = mi 0
0 0 0 0
Pero
f (y i | 0)
= f (y i | 0) En f (y i | 0) ,
'0 '0
El lado izquierdo de la ecuacin es el negativo de la matriz de segundas derivadas se esperaba. El lado derecho es el
cuadrado esperado (producto externo) del vector de primera derivada. Sin embargo, el valor ya que este vector se
esperaba 0 ( hemos mostrado este), el lado derecho es la varianza de la primera derivada del vector, lo que demuestra
D3:
[ En f (y i | 0) ] = mi 0 [( En f (y i | 0) ) ( En f (y i | 0) )] = - mi [ 2 En f (y i | 0) ]
var 0 .
0 0 '0 0 '0
Greene-50240 libro 26 de de junio de, de 2002 15: 8
En L ( | y) = norte En f (y i | ).
i=1
En f (y i | )
g = En L ( | y) = norte = norte gramo yo . (17-9)
i=1 i=1
mi 0 (17-10)
0
2 En f (y i | )
H = 2 En L ( | y) = norte = norte MARIDO yo .
' '
i=1 i=1
i=1 j=1
i=1 i=1
as que eso
[ En L ( 0 | y) ] = mi 0 [( En L ( 0 | y) ) ( En L ( 0 | y) )]
var 0
0 0 '0
[ 2 En L ( 0 | y) ] (17-11)
= - mi 0 .
0 '0
Este resultado muy til se conoce como el informacin sobre igualdad de matriz.
Ahora podemos esbozar una derivacin de las propiedades asintticas de theMLE. pruebas formales de estos resultados
requieren algo de matemticas bastante complejas. Dos derivaciones ampliamente citadas son las de Cram'
er (1948) y Amemiya (1985). Para sugerir la Avor fl del ejercicio,
Greene-50240 libro 26 de de junio de, de 2002 15: 8
vamos a esbozar un anlisis proporcionado por Stuart y Ord (1989) para un caso simple, e indicar en las que ser
necesario ampliar la derivacin si fuera a ser totalmente general.
CONSISTENCIA 17.4.5.a
Asumimos que f ( y i | 0) es una densidad posiblemente multivariante que en este punto no depende de covariables, x yo . Por
lo tanto, este es el caso de muestreo iid, al azar. Ya que es theMLE,
en cualquier muestra finita, para cualquier = ( incluido el verdadero 0) que debe ser cierto que ln L (
) En L ( ). (17-12)
Consideremos, a continuacin, la variable aleatoria L ( ) / L ( 0). Dado que la funcin de registro es estrictamente cncava, de la
desigualdad de Jensen (Teorema D.8.), Tenemos
[ ] [ L ( ) ]
mi 0 Iniciar sesin L ( ) < Iniciar sesin mi 0 . (17-13)
L ( 0) L ( 0)
es simplemente la integral de una densidad conjunta. Ahora, tomar registros en ambos lados de (17-13), inserte el resultado de (17-14), a
En palabras, el valor esperado del diario de probabilidad se maximiza en el verdadero valor de los parmetros.
norte
[(1 / norte) En L ( )] = ( 1 / norte) En f (y i | )
i=1
es la media de la muestra de norte IID variables aleatorias, con la expectativa mi 0 [( 1 / norte) En L ( )]. Puesto que el
muestreo es iid por las condiciones de regularidad, podemos invocar la Khinchine teorema, D.5; la media de la muestra
converge en probabilidad a la media poblacional. Utilizando =
, se deduce del teorema 17.3 que a medida norte , limProb {[(1 / norte) En L ( )] <
[(1 / norte) En L ( 0)]} = 1 si = 0. Pero es el MLE, por lo que para cada n, ( 1 / norte) En L ( )
( 1 / norte) En L ( 0). La nica forma en que estos pueden ser verdad si es (1 / norte) veces el loglikelihood muestra
evaluada en el MLE converge a la expectativa de la poblacin de (1 / norte)
veces el de probabilidad logartmica evaluada en los parmetros verdaderos. Queda un ltimo paso.
Greene-50240 libro 26 de de junio de, de 2002 15: 8
Esta es una prueba heurstica. Como se ha sealado, las presentaciones formales aparecen en ms avanzada
tratados que ste. Debemos sealar tambin, que hemos asumido en varios puntos que medias de la muestra
convergieron a las expectativas de la poblacin. Es probable que esto sea cierto para el tipo de aplicaciones que
habitualmente se encuentran en la econometra, sino un conjunto totalmente general de los resultados se vera ms de
cerca a esta condicin. muestreo iid En segundo lugar, hemos asumido en el anterior, es decir, la densidad de y yo no
depende de ninguna otra variable, x yo . Esto casi nunca ser cierto en la prctica. Las suposiciones sobre el
comportamiento de estas variables entrarn en las pruebas tambin. Por ejemplo, en la evaluacin del comportamiento
gran muestra del estimador de mnimos cuadrados, hemos invocado el supuesto de que los datos se comportan bien. El
mismo tipo de examen se aplican aqu tambin. Volveremos a este tema en breve. Con todo esto en su lugar, tenemos la
propiedad M1, plim
= 0.
En el estimador de mxima verosimilitud, el gradiente de la probabilidad log-es igual a cero (por definicin), por lo
) = 0.
gramo(
(Este es el estadstico de contraste, no la expectativa.) Abrir este conjunto de ecuaciones en una serie de Taylor de segundo
orden alrededor de los verdaderos parmetros 0. Vamos a utilizar el teorema del valor medio para truncar la serie de Taylor en el
segundo perodo.
) = gramo(
gramo( 0) + MARIDO( ) ( - 0) = 0.
norte(
- 0) = [ - MARIDO( )] - 1 [ norte gramo( 0)].
norte(
- 0) re - [- MARIDO( 0)] - 1 [ norte gramo( 0)].
norte(
- 0) re - [- 1 norte
gramo( 0)].
MARIDO( 0)] - 1 [ norte
Podemos aplicar el teorema de Lindberg-Levy lmite central (D.18) a [ norte gramo( 0)], Desde que
es norte veces mi media de una muestra aleatoria; hemos invocado D1 nuevo. La varianza limitante de [ norte
gramo( 0)] es - mi 0 [( 1 / norte) MARIDO( 0)], asi que
norte [1
NORTE{ 0, - mi 0
gramo( 0)- re
norte MARIDO( 0)]}.
Greene-50240 libro 26 de de junio de, de 2002 15: 8
En virtud del teorema D.2, plim [ - ( 1 / norte) MARIDO( 0)] = - mi 0 [( 1 / norte) MARIDO( 0)]. Dado que este resultado es una matriz constante,
[ -1 [1 [1
NORTE[ 0, { - mi 0
gramo( 0)- re
norte MARIDO( 0)] - 1 norte norte MARIDO( 0)]} - 1 { - mi 0 norte MARIDO( 0)]} { - mi 0 [ 1 norte MARIDO( 0)]} - 1],
o
norte( [1
- 0) re - NORTE[ 0, { - mi 0
norte MARIDO( 0)]} - 1],
2 En L
2 = - norte 2,
2 En L
norte
( x yo - ) 2,
( 2) 2 = norte 2 4- 1 6
i=1
2 En L
norte
( x yo - ) .
2 = - 1 4
i=1
para el varianza asinttica themaximum del estimador de probabilidad, tenemos que las expectativas de estos derivados. El
primero es no estocstico, y el tercero tiene la expectativa 0, como se E [x i] = .
Eso deja a la segunda, que se puede comprobar tiene la expectativa - norte/( 2 4) porque cada una de las
norte trminos ( x yo - ) 2 tiene valor esperado 2. La recoleccin de estos en la matriz de informacin, la inversin de la seal, y la
inversin de la matriz da la matriz de covarianza asinttica para los estimadores de mxima verosimilitud: { - mi 0
[ 2 En L ]} - 1 = [ 2 / norte ]
0
.
0 '0 0 2 4 / norte
TheoremC.2 proporciona el lmite inferior de la varianza de un estimador imparcial. Dado que la varianza asinttica
de theMLE alcanza este lmite, parece natural para extender el resultado directamente. Hay, sin embargo, un cabo
suelto en la que theMLE casi nunca es imparcial. Como tal, necesitamos una versin asinttica de la cota, la cual fue
proporcionada por Cram' er
(1948) y Rao (1945) (de ah el nombre):
[ YO( 0)] - 1 = ( - mi 0 mi 0 .
0 '0 0 0
Greene-50240 libro 26 de de junio de, de 2002 15: 8
INVARIANZA 17.4.5.d
Por ltimo, la propiedad de invariancia, M4, es resultado de amathematical themethod de MLEs de computacin; que no es un
resultado estadstico como tal. Ms formalmente, es invariante a theMLE doce y cincuenta y nueve de la noche transformaciones
de . Cualquier transformacin que no es uno a uno o bien hace que el modelo de incalculable si se trata de uno a muchos o
impone restricciones si se trata de muchos a uno. Algunos aspectos tericos de esta caracterstica se discuten en Davidson y
MacKinnon (1993, pp. 253-255). Para el practicante, el resultado puede ser extremadamente til. Por ejemplo, cuando un
parmetro aparece en una funcin de probabilidad de la forma 1 / j, es por lo general vale la pena reparametrizar el modelo en
trminos de j = 1 / j. En una aplicacin importante, Olsen (1978) utiliz este resultado con gran ventaja. (Vase la Seccin
22.2.3.) Supongamos que el diario de probabilidad normal en el Ejemplo 17.2 se parametriza en trminos de la parmetro de
precisin,
norte
En L ( , 2) = - ( norte/ 2) ln (2 ) + ( norte/ 2) ln 2 - 2 ( y yo - ) 2.
2
i=1
que tiene solucin 2 = norte/ norte i = 1 ( y yo - ) 2 = 1 / 2, como se esperaba. Hay un segundo implica-
catin. Si se desea analizar una funcin de anMLE, entonces la funcin de ser, en s,
ser el MLE.
CONCLUSIN 17.4.5.e
La matriz de covarianza asinttica del estimador de probabilidad mxima es una matriz de parmetros que deben
ser estimadas (es decir, que es una funcin de la 0 que est siendo estimado). Si la forma de los valores esperados
de las segundas derivadas de la loglikelihood se conoce, a continuacin,
[ 2 En L ( 0) ]} - 1
[ YO( 0)] - 1 = { - mi 0 (17-16)
0 '0
3 Un resultado reportado por LeCam (1953) y se relata en Amemiya (1985, p. 124) sugiere que, en principio, s existen funciones lata de los datos con
las variaciones ms pequeas que la MLE. Pero el hallazgo es el resultado estrecho sin consecuencias prcticas. A efectos prcticos, la declaracin
puede ser tomado como dado.
Greene-50240 libro 26 de de junio de, de 2002 15: 8
puede ser evaluado en para estimar la matriz de covarianza para el MLE. este estimador
poco frecuente que existan. Las segundas derivadas del logaritmo de la verosimilitud casi siempre ser complicadas
funciones no lineales de los datos cuyos valores exacta esperada ser desconocido. Hay, sin embargo, dos
alternativas. Un segundo estimador es
) -1
)
[ YO()]
- 1 = ( - 2 En L ( . (17-17)
'
]-1=[
[ YO()]
- 1 = [ norte gramo
gramo
gramo
yo
yo ' GRAMO
GRAMO]
' - 1, (17-18)
i=1
dnde
)
gramo i = En f ( x yo ,
gramo
G = [
G gramogramo
1, 2, . . . , gramo
gramo norte] '.
GRAMO es un norte K matriz con yo fila igual a la transpuesta de la yo simo vector de derivados en los trminos de
GRAMO
la funcin de probabilidad logartmica. Para un solo parmetro, este estimador es el recproco de la suma de los
cuadrados de los derivados primeros. Este estimador es muy conveniente, en la mayora de los casos, ya que no
requiere ningn clculo all de las requeridas para resolver la ecuacin de verosimilitud. Tiene adems la virtud de que
siempre es no negativo de fi nita. Para algunas funciones de probabilidad logartmica extremadamente complicadas, a
veces por error de redondeo, la observado Arpillera puede ser inde finito, incluso en el mximo de la funcin. El
estimador de (17-18) se conoce como el BHHH estimador 4 y el producto externo de los gradientes, o OPG, estimador.
Ninguno de los tres estimadores que se dan aqu es preferible a los dems por motivos estadsticos; todos son
asintticamente equivalente. En la mayora de los casos, el estimador BHHH ser el ms fcil de calcular. Una precaucin
est en orden. Como muestra el ejemplo de abajo ilustra, estos estimadores pueden dar resultados diferentes en una
muestra finita. Se trata de un problema de muestra finita inevitables que pueden, en algunos casos, dar lugar a diferentes
conclusiones estadsticas. El ejemplo es un caso en punto. Usando los procedimientos habituales, se rechazar la hiptesis
de que = 0 si se utilizaron cualquiera de los dos primeros estimadores de la varianza, pero no si el thirdwere utilizado. El
estimador de (17-16) es por lo general no est disponible, ya que la expectativa exacta del de Hesse rara vez se conoce. La
evidencia disponible sugiere que en muestras pequeas o moderadas, (17-17) (la de Hesse) es preferible.
4 Parece haber sido defendido primera en la literatura econometra en Berndt et al. (1974).
Greene-50240 libro 26 de de junio de, de 2002 15: 8
f (y yo , x yo , ) = 1 mi - yi / ( + xi) ,
+ x yo
y yo
En L ( ) = - norte ln ( + x yo ) - norte .
+ x yo
i=1 i=1
La ecuacin de probabilidad es
En L ( )
1 norte y yo
+ (17-19)
= - norte + x yo ( + x yo ) 2 = 0,
i=1 i=1
que tiene la solucin = 15,602727. Para calcular la varianza asinttica del MLE, nos
exigir
2 En L ( )
1 ( + x yo ) 2 - 2
norte
y yo
= norte (17-20)
2 ( + x yo ) 3.
i=1 i=1
Dado que la funcin E (y i) = + x yo se conoce, se conoce la forma exacta del valor esperado de (17-20). Insercin + x yo para y yo en
(17-20) y tomando los rendimientos recprocos la estimacin de la varianza primera, 44,2546. simplemente insertando
= 15.602727 en (17-20) y tomando el negativo de la
recproco da la segunda estimacin, 46.16337. Por ltimo, mediante el clculo de la inversa de la suma de cuadrados de los
derivados primeras de las densidades evaluadas en ,
1
[ YO()]
-1= norte
i=1[ - 1 / ( + x yo ) + y yo /( + x yo ) 2] 2,
Todos los resultados anteriores forman los fundamentos estadsticos de la tcnica de estimacin de mxima verosimilitud. Sin
embargo, para nuestros propsitos, un elemento crucial es que falta. Hemos hecho el anlisis en trminos de la densidad de
una variable aleatoria observada y un vector de parmetros, f (y i | ). Sin embargo, los modelos economtricos implicarn
variables exgenas o predeterminadas, x yo , por lo que los resultados deben ser extendidos. Un enfoque viable es tratar a este
marco de modelado el mismo que el que est en el captulo 5, donde se consideraron las grandes propiedades de la muestra
del modelo de regresin lineal. Por lo tanto, vamos a permitir x yo para denotar una mezcla de variables aleatorias y constantes
que entran en la densidad condicional de y yo . Mediante la particin de la densidad conjunta de y yo y x yo en el producto de la
condicional y el marginal, la funcin de probabilidad logartmica puede ser escrita
En L ( | datos) = norte En f (y yo , x i | ) = norte En f (y i | x yo , ) + norte En gramo( x i | ),
donde cualquier elemento estocsticas en x yo tal como una tendencia en el tiempo o variable ficticia, se estn llevando a como
constantes. Con el fin de continuar, vamos a suponer que lo hacamos antes de que el
Greene-50240 libro 26 de de junio de, de 2002 15: 8
generadora de proceso x yo se lleva a cabo fuera del modelo de inters. Para los fines actuales, lo que significa que los
parmetros que aparecen en las gramo( x i | ) no se superponen con los que aparecen en f (y i | x yo , ). Por lo tanto, dividimos dentro
[ , ] por lo que la funcin de probabilidad logartmica se puede escribir
En L ( , | datos) = norte En f (y yo , x i | ) = norte En f (y i | x yo , ) + norte En gramo( x i | ).
Mientras y no tienen elementos en comn y no hay restricciones a conectar (por ejemplo, + = 1), entonces las dos
partes de la probabilidad de registro pueden ser analizados por separado. En la mayora de casos, la distribucin marginal
de x yo ser de inters secundario (o no).
resultados asintticos para el estimador de mxima verosimilitud condicional ahora deben dar cuenta de la presencia de x
yo en las funciones y derivados de ln f (y i | x yo , ). Vamos a proceder bajo el supuesto de los datos de buen comportamiento para
que los promedios de la muestra, tales como
norte
( 1 / norte) En L ( | Y, X) = 1 En f (y i | x yo , )
norte
i=1
y su gradiente con respecto a convergern en probabilidad a sus expectativas de la poblacin. Tambin tendremos
que invocar teoremas del lmite central para establecer la normalidad asinttica de la pendiente del logaritmo de
verosimilitud, a fin de poder caracterizar la propia MLE. Vamos a dejar a ms tratados por adelantado como
Amemiya (1985) y Newey y McFadden (1994) para establecer las condiciones espec fi cas y los puntos de fi ne que
deben asumir para reclamar las propiedades habituales para estimadores de mxima verosimilitud. Para los fines
actuales (y la gran mayora de aplicaciones empricas), las siguientes suposiciones mnimas deberan bastar:
espacio de parmetros. espacios de parmetros que tienen lagunas y no convexidades en ellos generalmente
desactivar estos procedimientos. Un problema de estimacin que produce este fallo es el de estimar un parmetro
que puede tomar slo uno entre un conjunto discreto de valores. Por ejemplo, este conjunto de procedimientos no
incluye estimar el momento de un cambio estructural en un modelo. (Vase la Seccin 7.4.) La funcin de
probabilidad debe ser una funcin continua de un espacio de parmetros convexa. Nos permitimos espacios de
parmetros acotados, como > 0 en el modelo de regresin, por ejemplo.
capacidad fi cacin. La estimacin debe ser factible. Este es el tema de la definicin 17.1 relativa
identificacin y la discusin que rodea.
As se comportaron los datos. Leyes de los grandes nmeros se aplican a la muestra medios que implican los datos y alguna
forma de teorema del lmite central (generalmente Lyapounov) se pueden aplicar al gradiente. estacionariedad ergdico es lo
suficientemente amplia como para abarcar cualquier situacin que pueda surgir en la prctica, aunque es probablymore
necesidad thanwe general para la mayora de las aplicaciones, ya que no vamos a encontrar observaciones dependientes
especficamente hasta ms tarde en el libro. Las de fi niciones en el captulo 5 se supone que mantenga general.
Con estos en su lugar, el anlisis es esencialmente la misma en carcter como que hemos utilizado en la inChapter
regressionmodel lineal 5 y sigue con precisin a lo largo de las lneas de Section16.5.
Greene-50240 libro 26 de de junio de, de 2002 15: 8
Las siguientes secciones discutirn los procedimientos de prueba ms comnmente utilizados: el cociente de probabilidad,
las pruebas de Wald multiplicadores, y Lagrange. [Extensa discusin de estos procedimientos se da en Godfrey (1988).]
Consideramos estimacin de mxima verosimilitud de un parmetro y una prueba de la hiptesis MARIDO 0: do( ) = 0. La
lgica de las pruebas se puede ver en la Figura 17.2. 5 En la figura se representa grficamente la funcin de probabilidad
logartmica ln L ( ), su derivada con respecto a , re En L ( ) / re , y la restriccin do( ). Hay tres enfoques para probar la
hiptesis sugiere en la figura:
prueba de razn de verosimilitud. Si la restriccin do( ) = 0 es vlido, entonces la imposicin no debe dar lugar a
una gran reduccin de la funcin de probabilidad logartmica. Por lo tanto, basamos la prueba de la diferencia, ln L T - En
L R, dnde L T es el valor de la funcin de probabilidad en el valor sin restricciones de y L R es el valor de la funcin de
probabilidad en la estimacin restringida.
prueba de Wald. Si la restriccin es vlida, entonces do( MLE) debe estar cerca de cero desde
el MLE es consistente. Por lo tanto, la prueba se basa en do( MLE). Rechazamos la
hiptesis de si este valor es significativamente diferente de cero.
prueba multiplicador de Lagrange. Si la restriccin es vlida, entonces el estimador restringidas estarn cerca
del punto que maximiza la probabilidad log-. Por lo tanto, la pendiente de la funcin de probabilidad logartmica
debe estar cerca de cero en el estimador restringido. La prueba se basa en la pendiente de la probabilidad
log-en el punto donde la funcin se maximiza sujeto a la restriccin.
Estas tres pruebas son asintticamente equivalente bajo la hiptesis nula, pero pueden comportarse de forma diferente en
una pequea muestra. Por desgracia, sus propiedades con muestras pequeas se desconocen, excepto en unos pocos
casos especiales. Como consecuencia, la eleccin entre ellos se hace tpicamente sobre la base de la facilidad de clculo.
La prueba de razn de verosimilitud requiere el clculo de ambos estimadores restringidos y sin restricciones. Si ambos son
fciles de calcular, a continuacin, esta forma de proceder es conveniente. La prueba de Wald requiere slo el estimador
sin restricciones, y la prueba del multiplicador de Lagrange requiere slo el estimador restringido. En algunos problemas,
uno de estos estimadores puede ser mucho ms fcil de calcular que el otro. Por ejemplo, un modelo lineal es simple de
estimar, pero se convierte en no lineal y engorroso si se impone una restriccin no lineal. En este caso, el estadstico de
Wald podra ser preferible. Alternativamente, las restricciones a veces queden reducidas a la eliminacin de la no
linealidad, lo que hara que el multiplicador de Lagrange pruebe el procedimiento ms simple.
Dejar beavector de parmetros tobeestimated, y dejar MARIDO 0 especifique algn tipo de restriccin en estos parmetros.
Dejar T ser themaximum estimador de probabilidad de obtainedwithout
Respecto a las limitaciones, y dejar R ser el estimador de mxima verosimilitud restringida.
Si L T y L R son las funciones de verosimilitud evaluados en estas dos estimaciones, entonces el
5 Ver Buse (1982). Tenga en cuenta que la escala del eje vertical sera diferente para cada curva. Como tal, los puntos de interseccin no tienen ninguna
significacin.
Greene-50240 libro 26 de de junio de, de 2002 15: 8
En L ( )
d ln L ( ) re
do( )
d ln L ( ) re
En L
ndice de
probabilidad
ln L R
En L ( )
do( )
multiplicador de
Lagrange
Wald
0
^R ^ MLE
ndice de probabilidad es
LR
= . (17-21)
L T
L
Esta funcin debe estar entre cero y uno. Ambas probabilidades son positivos, y LR
no puede ser mayor que L U. ( Una ptima restringida nunca es superior a una sin restricciones
uno). Si es demasiado pequeo, entonces se pone en duda en las restricciones.
Un ejemplo de una distribucin discreta ayuda a fi x estas ideas. En la estimacin de una muestra de 10 froma
distribucin de Poisson en el comienzo de la Seccin 17.3, encontramos el
Greene-50240 libro 26 de de junio de, de 2002 15: 8
MLE del parmetro a ser 2. En este valor, la probabilidad, que es la probabilidad de observar la muestra que
hicimos, es 0,104 10 - 8. Son consistentes con estos datos MARIDO 0: = 1.8?
L R = 0,936 10 - 9, que es, como se esperaba, ms pequeo. Esta muestra particular es algo menos probable bajo la
hiptesis.
El procedimiento de prueba formal se basa en el siguiente resultado.
La hiptesis nula se rechaza si este valor es superior al valor crtico apropiado de las tablas de chi-cuadrado.
Por lo tanto, para el ejemplo de Poisson,
( 0,0936 )
- 2 ln = - 2 ln = 0,21072.
0,104
Esta estadstica de chi-cuadrado con un grado de libertad no es significativo en cualquier nivel convencional, por lo
que no rechazara la hiptesis de que = 1.8 sobre la base de esta prueba. 6
Es tentador usar la prueba de razn de verosimilitud para probar una hiptesis nula simple contra una alternativa
simple. Por ejemplo, podemos estar interesados en el establecimiento de Poisson en la prueba MARIDO 0: = 1.8 contra MARIDO
1: = 2.2. Pero la prueba no puede ser utilizado de esta manera. Los grados de libertad de la estadstica de ji cuadrado para la
prueba de razn de verosimilitud es igual a la reduccin de thenumber de las dimensiones en el espacio theparameter que
los resultados fromimposing las restricciones. Al comprobar si una hiptesis nula simple contra una alternativa sencilla, este
valor es cero. 7 En segundo lugar, a veces se encuentra un intento de probar una hiptesis de distribucin contra otro con una
prueba de razn de verosimilitud; por ejemplo, se estima un cierto modelo suponiendo una distribucin normal y luego
asumiendo una t distribucin. se compara entonces la relacin de las dos probabilidades para determinar qu distribucin se
prefiere. Esta comparacin tambin es inapropiada. Los espacios de parmetros, y por lo tanto las funciones de verosimilitud
de los dos casos, no estn relacionados.
Un inconveniente prctico de la prueba de razn de verosimilitud es que por lo general requiere la estimacin de ambos los
vectores de parmetros con y sin restricciones. En los modelos complejos, una u otra de estas estimaciones pueden ser
muy difciles de calcular. Afortunadamente, existen dos procedimientos de ensayo alternativos, la prueba de Wald y la
prueba del multiplicador de Lagrange, que eluden este problema. Ambas pruebas se basan en un estimador que se
asintticamente distribuye normalmente.
6 Por supuesto, el uso del resultado de muestra grande en una muestra de 10 podra ser cuestionable.
7 Tenga en cuenta que debido a que ambas probabilidades estn restringidos en este caso, no hay nada que impida - 2 ln de ser negativo.
Greene-50240 libro 26 de de junio de, de 2002 15: 8
Estas dos pruebas se basan en la distribucin de la forma cuadrtica de rango completo considerado en la Seccin
B.11.6. Especficamente,
En el contexto de una prueba de hiptesis, bajo la hiptesis de que MI( x) = , la forma cuadrtica tiene la distribucin
chi-cuadrado. Si la hiptesis de que MI( x) = es falso, sin embargo, a continuacin, la forma cuadrtica que acabamos de
dar, en promedio, ser ms grande de lo que sera si la hiptesis fuera cierta. 8 Esta condicin es la base de las estadsticas
de prueba analizados en este y el siguiente apartado.
Dejar ser el vector de estimaciones de los parmetros obtenidos sin restricciones. Nuestra hiptesis es un conjunto de
restricciones
MARIDO 0: do( ) = q.
Si las restricciones son vlidas, entonces por lo menos aproximadamente debe satisfacerlas. Si el
hiptesis es errnea, sin embargo, a continuacin, do( ) - q debera estar ms lejos de 0 lo que lo hara
explicarse por la variabilidad del muestreo solo. El dispositivo se utiliza para formalizar esta idea es la prueba de Wald.
bajo H 0, en muestras grandes, W tiene una distribucin chi-cuadrado con grados de libertad igual al
nmero de restricciones [es decir, el nmero de ecuaciones en
do()
)
- q = 0]. Aderivation de la distribucin lmite de theWald estadstica aparece en el teorema 6.15.
Es decir, do es el J K matriz cuyas j fila es los derivados de la j restriccin con respecto a la K elementos de . Una
aplicacin comn se produce en la prueba de un conjunto de restricciones lineales.
8 Si la media no es , a continuacin, la estadstica de (17-22) tendr una no central de distribucin de chi-cuadrado. Este distributionhas la forma
samebasic como el chi-squareddistribution central, con los samedegrees de libertad, pero se encuentra a la derecha de la misma. Por lo tanto, un
sorteo de la distribucin no central tender, en promedio, para ser ms grande que una observacin aleatoria de la distribucin central.
Greene-50240 libro 26 de de junio de, de 2002 15: 8
MARIDO 0: do( ) - q = R - q = 0,
] = R ',
)
C = [ do(
C (17-24)
'
- 0|
z=| (17-25)
s ( ),
dnde s ( ) es el error estndar estimado asinttica. La estadstica de prueba se compara con el valor apropiado
de la tabla normal estndar. La prueba de Wald se basar en
- 0) 2
W = [( - 0) - 0] (Asy. Var [( - 0) - 0]) - 1 [( - 0) - 0] = (
Asy. var [ ] = z 2. ( 17-26)
aqu W tiene una distribucin chi-cuadrado con un grado de libertad, que es la distribucin del cuadrado de la
estadstica de prueba normal estndar en (17-25).
En resumen, la prueba de Wald se basa en medir el grado en que las estimaciones de libre disposicin no
satisfacen las restricciones hiptesis. Hay dos deficiencias de la prueba de Wald. En primer lugar, se trata de una prueba
de signi fi cado pura en contra de la hiptesis nula, no necesariamente para una hiptesis alternativa especfica. Como
tal, su poder puede ser limitado en algunos escenarios. De hecho, la estadstica de prueba tiende a ser bastante grande
en las aplicaciones. El segundo defecto no es compartida por cualquiera de las otras pruebas estadsticas discutidos
aqu. El estadstico de Wald no es invariante a la formulacin de las restricciones. Por ejemplo, para una prueba de la
hiptesis de que una funcin = / ( 1 - ) es igual a un valor c especificidad q hay dos enfoques que se podra elegir.
Awald prueba basada directamente en - q = 0 usara un estadstico basado en la varianza de esta funcin no lineal. Un
enfoque alternativo sera analizar la restriccin lineal - q ( 1 - ) = 0, que es un equivalente, pero lineal, restriccin. Las
estadsticas de Wald para estas dos pruebas podran ser diferentes y podran dar lugar a diferentes inferencias. Estas
dos deficiencias han sido ampliamente visto como argumentos de peso contra el uso del test de Wald. Pero, a su favor,
la prueba de Wald no se basa en una fuerte suposicin de distribucin, al igual que el cociente de probabilidad y pruebas
de multiplicadores de Lagrange. La literatura economtrica reciente est repleta de aplicaciones que se basan en
procedimientos de estimacin libre distribucin, como el mtodo GMM. Por lo tanto, en los ltimos aos, la prueba de
Wald ha disfrutado de una redencin de las clases.
Greene-50240 libro 26 de de junio de, de 2002 15: 8
El tercer procedimiento de ensayo es el Multiplicadores de Lagrange (LM) o puntuacin e fi ciente ( o solo Puntuacin)
prueba. Se basa en el modelo restringido en lugar del modelo no restringido. Supongamos que se maximiza la
probabilidad log-sujetos al conjunto de restricciones do( ) - q = 0. Dejar ser un vector de multiplicadores de Lagrange y
definen la funcin de Lagrange
En L *
= En L ( ) + do ' = 0,
(17-27)
En L *
= do( ) - q = 0,
dnde do ' es la transpuesta de la matriz de derivados en la segunda lnea de (17-23). Si las restricciones son vlidas,
entonces imponerlos no darn lugar a una diferencia significativa en el valor maximizado de la funcin de verosimilitud. En las
condiciones de primer orden, el significado es que el segundo trmino en el vector derivado ser pequeo. En particular, ser
pequeo. Podramos probar esto directamente, es decir, la prueba MARIDO 0: = 0, lo que conduce a la prueba del multiplicador
de Lagrange. Existe una formulacin ms simple equivalente, sin embargo. En la mxima restringida, las derivadas de la
funcin de probabilidad logartmica son
En L ( R)
=- do '
= gramo R. (17-28)
R
Si las restricciones son vlidas, por lo menos dentro del intervalo de variabilidad de la muestra, a continuacin, gramo R = 0.
Es decir, los derivados de la probabilidad log-evaluada en el vector de parmetros restringido sern de aproximadamente
cero. El vector de derivados primeros del diario de probabilidad es el vector de puntajes e fi cientes. Dado que la prueba se
basa en este vector, se llama la Resultado de prueba
as como la prueba del multiplicador de Lagrange. La varianza del vector de primera derivada es la matriz de informacin,
que hemos utilizado para calcular la matriz de covarianza asinttica de la MLE. La estadstica de prueba se basa en un
razonamiento anlogo al que subyace a la estadstica de prueba Wald.
) ' ( En L ( )
R) R)
LM = ( En L ( [ YO( R)] - 1 .
R R
El estadstico LM tiene una forma til. Dejar gramo i R denotar la yo simo trmino en el gradiente de
gramo R = n
gramo gramo i R = GRAMO
gramo GRAMO ' R yo,
i=1
dnde GRAMO R es el norte K matriz con yo fila igual a gramo ' iRy yo es una columna de 1s. Si utilizamos
el estimador BHHH (producto exterior de gradientes) en (17-18) para estimar la Hessian, entonces
[ YO()]
-1=[ GRAMO 'R
GRAMO R] - 1
LM = yo ' GRAMO
GRAMO
R [ GRAMO
'R R] -GRAMO
1 ' R yo.
uncentered squaredmultiple coeficiente de correlacin en una regresin lineal de una columna de 1s en las derivadas de la
funcin de probabilidad logartmica calculada en el estimador restringido. Nos encontraremos con este resultado en varias
formas en varios puntos en el libro.
Consideremos, de nuevo, los datos en el Ejemplo C.1. En el Ejemplo 17.4, el parmetro en el modelo
f (y i | x yo , ) = 1 mi - y yo /( + x yo ) (17-29)
+ x yo
fue estimado por mxima verosimilitud. Para mayor comodidad, y mucho i = 1 / ( + x yo ). Esta densidad exponencial es una
forma restringida de una distribucin ms general gamma,
yo
f (y i | x yo , , ) = yo
mi - y yo yo . (17-30)
() y - 1
utilizando los diversos procedimientos describedpreviously. El diario de probabilidad y sus derivados son
norte norte
En L ( , ) = En yo - norte ln ( ) + ( - 1) En y yo - norte y yo yo ,
En L norte En L
i+n y yo 2yo , En yo - n ( ) + norte En y yo , (17-31)
= - = norte
i=1 i=1 i=1 i=1
2 En L norte norte 2 En L 2 En L
2yo - 2 y yo 3yo , yo .
2 = 2 = - norte '( ), = - norte
i=1 i=1 i=1
(Ya sea por integracin directa o, ms simplemente, usando el resultado de que MI[ En L / ] = 0 deducirlo). Por lo tanto,
tambin podemos utilizar el grupo de accin esperada como en (17-16) para calcular V E = { - yo MI[ 2 En L / ']} - 1. Por ltimo,
mediante el uso de las sumas de cuadrados y productos cruzados de los derivados de primeros, obtenemos el estimador
BHHH en (17-18), V B =
[ yo ( En L / ) ( En L / ')] - 1. Resultados en la Tabla 17.1 se basan en V.
Los tres estimadores de la covariancematrix asinttica producen notablemente diferentes resultados:
] ] ]
V = [ 5.495 - 1.652 , V E = [ 4,897 - 1.473 , V B = [ 13.35 - 4.314 .
- 1.652 0.6309 - 1.473 0.5770 - 4.314 1.535
Dado el pequeo tamao de la muestra, las diferencias son Tobe espera. No obstante, la notable diferencia del
estimador BHHH es tpico de su funcionamiento errtico en muestras pequeas.
La confianza Intervalo de prueba: Un 95 por ciento c en fi d intervalo de ENCE para sobre la base de las estimaciones
de libre disposicin es 3,1517 1.96 0,6309 = [1,5942, 4,7085]. Este intervalo no contiene = 1, por lo que se rechaza la
hiptesis.
Relacin de probabilidad de prueba: La estadstica es LR = - 2 [ - 88.43771 - (- 82.91444)] =
11.0465. El valor de la tabla de la prueba, con un grado de libertad, es 3.842. Dado que el valor calculado
es mayor que este valor crtico, se rechaza la hiptesis de nuevo.
Prueba de Wald: La prueba de Wald se basa en las estimaciones de libre disposicin. Para esta restriccin, do( ) - q = - 1, corriente
El valor crtico es el mismo que el anterior. Por lo tanto, MARIDO 0 se rechaza una vez ms. Tenga en cuenta que la estadstica de
Wald es el cuadrado de las Corres Pondi estadstica de prueba ng que se utilizara en el intervalo de confianza de prueba en contra, |
3,1517 - 1 | / 0,6309 = 2,70895.
Greene-50240 libro 26 de de junio de, de 2002 15: 8
Lagrange prueba multiplicador: La prueba del multiplicador de Lagrange se basa en los estimadores restringidos.
La matriz de covarianza asinttica estimado de los derivados utilizados para calcular la estadstica puede ser
cualquiera de los tres estimadores discutidos anteriormente. El estimador BHHH, V SEGUNDO, es el estimador emprico
de la varianza de la pendiente y es la que generalmente se usa en la prctica. Este clculo produce
La conclusin es la misma que antes. Tenga en cuenta que el mismo clculo realizado utilizando V ms bien que V
segundo produce un valor de 5,1182. Como antes, se observa la variacin de muestra pequeo sustancial producida por
los diferentes estimadores. Las tres ltimas estadsticas de prueba tienen valores sustancialmente diferentes. Es
posible llegar a conclusiones diferentes, dependiendo de la que se utiliza una. Por ejemplo, si la prueba se ha llevado
a cabo en el nivel de 1 por ciento de significacin en lugar de 5 por ciento y LM haba sido calculada utilizando V, entonces
el valor crtico del estadstico chi-cuadrado habra sido 6.635 y la hiptesis no habra sido rechazada por el lmtest.
Asintticamente, las tres pruebas son equivalentes. Pero, en una muestra finita como este, las diferencias son de
esperar. 10 Desafortunadamente, no existe una regla clara para la forma de proceder en tal caso, lo que pone de
relieve el problema de depender de un nivel de signi fi cado particular y dibujando una fi rma rechazar o aceptar
conclusin basada en la evidencia muestra.
A continuacin examinaremos tres aplicaciones del estimador de mxima verosimilitud. El primero se extiende los
resultados de los captulos 2 a 5 para la regressionmodel lineal con perturbaciones distribuidas normalmente. En la
segunda aplicacin, que fi t un modelo de regresin no lineal por mxima verosimilitud. Esta aplicacin ilustra el
efecto de la transformacin de la variable dependiente. La tercera aplicacin es un uso relativamente sencillo de la
tcnica de mxima probabilidad en un modelo no lineal que no implica la distribucin normal. Esta aplicacin ilustra
los tipos de extensiones de theMLE en la configuracin que se apartan de la modelo lineal de los captulos
anteriores y que son tpicos en el anlisis economtrico.
yi= x' yo + yo .
La funcin de probabilidad para una muestra de norte perturbaciones independientes, distribuidas idnticamente y normalmente
se
10 Para una mayor discusin de este problema, consulte Berndt y Savin (1977).
Greene-50240 libro 26 de de junio de, de 2002 15: 8
| yo / y i |, es uno. 11 Logrando que la transformacin, se encuentra que la funcin de verosimilitud para el norte las observaciones
de la variable aleatoria observada es
Para maximizar esta funcin con respecto a , ser necesario para maximizar el exponente o minimizar la suma de los
cuadrados familiarizado. Tomando los registros, se obtiene la funcin de probabilidad logartmica para el modelo de regresin
clsica:
En L = - norte . (17-34)
2 ln 2 - norte 2 ln 2 - ( y - x ) '( y - x2)
2
2 2 2 + ( y - x ) '( y - 2x
)4
Los valores que satisfacen estas ecuaciones son
El estimador de mnimos cuadrados pendiente es el estimador de mxima verosimilitud para este modelo. Por lo tanto, hereda
todos los deseable asinttico propiedades de los estimadores de mxima verosimilitud.
Hemos demostrado anteriormente que s 2 = mi ' mi/( norte - K) es un estimador insesgado de 2. Por lo tanto, el estimador de
mxima verosimilitud est sesgado hacia cero:
)
] = norte - K
MI[ 2 ML 1-K 2 < 2. (17-39)
norte 2 = ( norte
11 Ver (B-41) en la seccin B.5. El anlisis de seguir est condicionada a X. Para evitar llenar la notacin, vamos a dejar este aspecto del modelo
implcito en los resultados. Como se seal anteriormente, se supone que los datos de proceso para generar x no implica o 2 y que los datos se
comportan bien como se discuti en el Captulo 5.
12 Como regla general, estimadores de mxima verosimilitud no hacen correcciones para grados de libertad.
Greene-50240 libro 26 de de junio de, de 2002 15: 8
A pesar de su sesgo pequea muestra, el estimador de mxima verosimilitud de 2 tiene las mismas propiedades
asintticas deseables. Vemos en (17-39) que s 2 y 2 slo difieren por un factor
- K / n, que se desvanece en muestras grandes. Es instructivo para formalizar la equivalencia asinttica de los dos. A
partir de (17-38), sabemos que
norte(
2 ML - 2) re - NORTE[ 0, 2 4].
Sigue
) )
norte(
zn=( 1-K 2 ML - 2) + K norte 2 re- ( 1-K NORTE[ 0, 2 4] + K norte 2.
norte norte
Pero K / norte y K / n desvanecer como norte , por lo que la distribucin lmite de z norte es tambin NORTE[ 0, 2 4].
Ya que z n = n (s 2 - 2), hemos demostrado que la distribucin asinttica de s 2 es la misma que la del estimador de
mxima verosimilitud.
La estadstica de prueba estndar para evaluar la validez de un conjunto de restricciones lineales en el modelo lineal, R - q
= 0, es el F proporcin,
Con perturbaciones distribuidas normalmente, la F prueba es vlida en cualquier tamao de la muestra. Sigue habiendo un
problema con restricciones no lineales de la forma do( ) = 0, ya que la contrapartida de F, que examinaremos aqu, tiene validez
solamente asintticamente incluso con perturbaciones distribuidas normalmente. En esta seccin, vamos a reconsiderar el
estadstico de Wald y examinar dos estadsticas relacionadas, el cociente de probabilidad estadstica y la estadstica
multiplicador de Lagrange. Estas estadsticas se basan tanto en la funcin de verosimilitud y, como el estadstico de Wald, en
general son vlidos slo asintticamente.
Sin simplicidad es adquirida por ceirnos a restricciones lineales en este punto, por lo que tendr en cuenta las
hiptesis generales de la forma
MARIDO 0: do( ) = 0,
MARIDO 1: do( ) = 0.
los estadstico de Wald para probar esta hiptesis y su distribucin lmite bajo MARIDO 0 sera
dnde
los relacin de probabilidad de prueba (LR) se lleva a cabo mediante la comparacin de los valores de la funcin
loglikelihood con y sin las restricciones impuestas. Dejamos a un lado por el momento cmo el estimador restringido segundo * se
calcula (excepto para el modelo lineal, lo que hemos visto anteriormente). La estadstica de prueba y est limitando su distribucin
bajo MARIDO 0 son
El diario de probabilidad para el regressionmodel se da en (17-34). Las condiciones de primer orden implican que,
independientemente de cmo las pendientes se calculan, el estimador de 2 sin
Greene-50240 libro 26 de de junio de, de 2002 15: 8
restricciones a la estarn 2 = ( y - xb) '( y - Xb) / norte y del mismo modo para un estimador restringido
*2= ( y - xb *) '( y - xb *) / n = mi ' * mi * / norte. los concentrado de probabilidad logartmica 13 estarn
En L c = - norte
2 [1 + ln 2 + ln ( mi ' mi/ norte)]
y del mismo modo para el caso restringido. Si insertamos estos en la definicin de LR, entonces obtenemos
los multiplicador de Lagrange (LM) prueba se basa en el gradiente de la funcin de probabilidad logartmica. El principio
de la prueba es que si la hiptesis es vlida, entonces en el estimador restringido, las derivadas de la funcin de probabilidad
logartmica debe estar cerca de cero. Hay dos maneras de llevar a cabo la prueba LM. La funcin de probabilidad logartmica
puede maximizarse sujeta a un conjunto de restricciones mediante el uso de
[ ] + ' do( ).
En L LM = - norte ln 2 + En 2 + [( y - x ) '( y - x )] / norte
2 2
Una forma alternativa de calcular el estadstico LM menudo produce resultados interesantes. situaciones ms ntimas,
wemaximize la funcin de probabilidad logartmica sin tener que calcular el vector de multiplicadores de Lagrange. (Las
restricciones son generalmente impuestas alguna otra manera.) Una manera alternativa de calcular la estadstica est
basada en el (general) resultado de que bajo la hiptesis que se prueba,
14 Esto hace uso del hecho de que el grupo de accin es diagonal por bloques.
Greene-50240 libro 26 de de junio de, de 2002 15: 8
Podemos probar la hiptesis de que en el estimador restringido, los derivados son iguales a cero. La estadstica
sera
En esta forma, el estadstico LM es norte veces el coeficiente de determinacin en una regresin de los residuos mi yo * = ( y yo
- x'
yo segundo *) en el conjunto de regresores.
Con un poco de manipulacin se puede demostrar que W = [n / (n - K)] JF y LR y LM son aproximadamente iguales a
esta funcin de F. 15 Los tres estadsticas convergen para JF como norte
aumenta. El modelo lineal es un caso especial en el que la estadstica de la LR se basa nicamente en el estimador sin
restricciones y en realidad no requiere clculo del estimador de mnimos cuadrados restringido, aunque el clculo de F En
qu consiste la mayor parte del clculo de segundo *. Dado que la funcin log es cncava, y W / n ln (1 + W / n), Godfrey
(1988) muestra tambin que W LR LM, por lo que para el modelo lineal, tenemos un ranking firme de las tres
estadsticas.
Existe amplia evidencia de que los resultados asintticos para estas estadsticas son problemticos en muestras
pequeas o de tamao moderado. [Vase, por ejemplo, Davidson y MacKinnon (1993, pp. 456-457).] Los verdaderos
distribuciones de los tres estadsticas implican los datos y los parmetros desconocidos y, como sugiere el lgebra,
convergen a la F distribucin
desde arriba. La implicacin es que los valores crticos de la distribucin chi-cuadrado es probable que sean demasiado pequeo; Es
decir, utilizando la limitacin de distribucin chi cuadrado en muestras pequeas o de tamao moderado es probable que exagerar
la significacin de los resultados empricos. Por lo tanto, en las aplicaciones, la ms conservadora F estadstica (o t para una
restriccin) es probable que sea preferible menos que los datos de uno son abundantes.
En el captulo 9, se consider que los modelos de regresin no lineal en el que la no linealidad en los parmetros
apareci totalmente en el lado derecho de la ecuacin. Hay modelos en los que aparecen los parmetros de forma
no lineal en funcin de la variable dependiente tambin.
g (y yo , ) = marido( x yo , ) + yo .
S ( , ) = norte [ g (y yo , ) - marido( x yo , )] 2.
i=1
No hay ninguna razn para esperar que este mnimos cuadrados no lineales estimador sea consistente, sin embargo, a pesar
de que se di fi culto a mostrar este analticamente. El problema es que los mnimos cuadrados no lineales ignora el Jacobiano
de la transformacin. Davidson y MacKinnon (1993,
pag. 244) sugieren un argumento cualitativo, whichwe puede illustratewith un ejemplo. Suponer
y es positivo, g (y, ) = exp ( y) y marido( x, ) = x. En este caso, una solucin es obvio
= 0 y -, que produce una suma de cuadrados de cero. Estimacin se convierte en un no-tema. Para este tipo de
modelo de regresin, sin embargo, la estimacin de mxima verosimilitud es consistente, e fi ciente, y generalmente no
apreciablemente ms difcil que los mnimos cuadrados.
Para perturbaciones distribuidas normalmente, la densidad de y yo es
|||| ( 2 2) - 1/2 mi - [ g (y yo , ) - marido( x yo , )] 2 / ( 2 2).
f (y i) = |||| yo
y yo
J (y yo , ) = |||| yo
y yo y yo
i=1[ g (y yo , ) - marido( x yo , )] 2
En L = norte -1 En J (y yo , ) - norte . (17-48)
2 [ln 2 + En 2] + norte 2 2
i=1 i=1
En muchos casos, incluyendo las aplicaciones consideradas aqu, hay una inconsistencia en el modelo en el que
la transformacin de la variable dependiente puede descartar algunos valores. Por lo tanto, la normalidad asumido de
las perturbaciones no puede ser estrictamente correcto. En la funcin de produccin generalizada, hay una
singularidad en y i = 0 donde el jacobiano se vuelve infinita. Algunas investigaciones se ha hecho en especfico cmodi fi
cationes de themodel para dar cabida a la restriccin [por ejemplo, Poirier (1978) y Poirier andMelino (1978)], pero en
la prctica, la aplicacin tpica implica datos forwhich la restriccin es intrascendente.
Sin embargo, para los jacobianos, mnimos cuadrados no lineales seran de mxima verosimilitud. Si los trminos implican
Jacobianas , sin embargo, entonces mnimos cuadrados no es de mxima verosimilitud.
En cuanto a 2, esta funcin de probabilidad es esencialmente la misma que para el modelo de regresin no lineal
simple. El estimador de mxima verosimilitud de 2 estarn
norte norte
2 = 1
[ g (y yo , ) - marido( x yo , )] 2 = 1 miyo2 . (17-49)
norte norte
i=1 i=1
Estas ecuaciones sern generalmente no lineal, por lo que una solucin debe ser obtenido de forma iterativa. Un caso especial
que es comn es un modelo en el que es un nico parmetro. Dado un valor particular de , queremos maximizar ln L con
respecto a mediante el uso de mnimos cuadrados no lineales. [Sera ms sencillo an si, adems, marido( x yo , ) fueron
lineales para que pudiramos utilizar lineales de mnimos cuadrados. Ver la siguiente aplicacin.] Por lo tanto, una manera de
maximizar L para todos los parmetros es para escanear a travs de los valores por el que, con las plazas asociadas
estimaciones de mnimos de y 2, da el valor ms alto de ln L. ( Por supuesto, esto requiere que sabemos ms o menos lo
valores de examinar.)
Greene-50240 libro 26 de de junio de, de 2002 15: 8
[1 ]
norte
En L c = n En J (y yo , ) - norte yo
2 . (17-51)
2 [1 + ln (2 )] - norte 2 ln norte
i=1 i=1
En L yo / ( yo / 2) [ marido( x yo , ) / ]
gramo i = En L yo / = ( 1 / J yo )[ J yo / ] - ( yo / 2) [ g (y yo , ) / ] . (17-52)
En L yo / 2 ( 1 / (2 2)) [ 2 yo / 2 - 1]
La matriz de covarianza asinttica para los estimadores de mxima verosimilitud se estima utilizando
]-1=(
Est.Asy. Var [MLE] = [ norte gramo
gramo
gramo
yo ' GRAMO)
GRAMO ' - 1. (17-53)
i=1
Tenga en cuenta que el anterior incluye de una fila y una columna para 2 en la matriz de covarianza. En un modelo
que transforma y tanto como x, la Hessian del diario de probabilidad general no se bloquean diagonal con respecto a y 2.
Cuando y se transforma, los estimadores de mxima verosimilitud de y 2 Existe una correlacin positiva, ya que ambos
parmetros reflejan la escala de la variable dependiente en el modelo. Este resultado puede parecer contradictorio.
Tenga en cuenta la diferencia en los estimadores de la varianza que se produce cuando se estima un modelo lineal y
loglineales. La varianza de ln y alrededor de su media es obviamente diferente de la de y alrededor de su media. Por el
contrario, tenga en cuenta lo que sucede cuando se transforman slo las variables independientes, por ejemplo, por la
transformacin de Box-Cox. Los estimadores de pendiente varan en consecuencia, pero de tal manera que la varianza
de y en torno a su media condicional se mantendr constante. diecisis
Mxima verosimilitud
En y + y = En + ( 1 - ) En K + En L + .
Tenga en cuenta que el lado derecho de su modelo es intrnsecamente lineal de acuerdo con los resultados de la Seccin 7.3.3. El
modelo como un todo, sin embargo, es intrnsecamente no lineal debido a la transformacin paramtrica de y aparece a la izquierda.
norte
En L = norte ln (1 + y yo ) - norte En y yo - norte 2yo ,
2 ln (2 ) - norte 2 ln 2 - 1 2 2
i=1 i=1 i=1
dnde i = ( En y i + y yo - 1 - 2 En la capital yo - 3 En el trabajo yo ). La estimacin de este modelo es directo. Para un valor dado de , y 2
se estima por mnimos cuadrados lineales. Por lo tanto, para estimar el conjunto completo de parmetros, podramos escanear a
travs de la gama de cero a uno para .
El valor de que, con sus asociados estimaciones de mnimos cuadrados de y 2, maximiza la funcin de probabilidad logartmica
proporciona la estimacin de mxima verosimilitud. Este procedimiento fue utilizado por Zellner y Revankar. Los resultados dados en la
Tabla 17.2 se obtuvieron mediante la maximizacin de la funcin de probabilidad logartmica directamente, en lugar. Los datos a nivel
estatal sobre la produccin, el capital, el trabajo y el nmero de establecimientos de la industria del transporte utilizada en el estudio
Zellner y de Revankar se dan en el Apndice Tabla F9.2 y en el ejemplo 16.6. Para esta aplicacin, y = valor aadido por fi rm, K = capital
por firme, y L = mano de obra por firme.
Mxima verosimilitud y no lineales de mnimos cuadrados estimaciones se muestran en la Tabla 17.2. Los errores estndar
asintticos para las estimaciones de mxima verosimilitud se etiquetan SE (1). Estos se calculan utilizando la forma BHHH de la matriz
de covarianza asinttica. El segundo conjunto, SE (2), se calculan el tratamiento de la estimacin de como fija; ellos son los habituales
lineales de mnimos cuadrados resultados utilizando (ln y + y) como la variable dependiente en una regresin lineal. Es evidente que
estos resultados seran muy engaoso. La columna final de la Tabla 10.2 se enumeran las simples estimaciones no lineales de mnimos
cuadrados. No hay errores estndar se dan, porque no existe una frmula apropiada para el clculo de la matriz de covarianza
asinttica. La suma de cuadrados no proporciona un mtodo apropiado para el clculo de los pseudoregressors para los parmetros en
la formacin trans-. Las dos ltimas filas de la tabla muestran la suma de los cuadrados y la funcin de log-verosimilitud evaluada en las
estimaciones de los parmetros. Como era de esperar, el diario de probabilidad es mucho ms grande en las estimaciones de mxima
verosimilitud. Por el contrario, las estimaciones no lineales de mnimos cuadrados conducen a una suma mucho menor de cuadrados;
mnimos cuadrados es todava menos cuadrcula.
17 Un enfoque alternativo es tomodel costes directamente con una forma funcional flexible como el translogmodel. Este enfoque se examina en detalle
en el captulo 14.
Greene-50240 libro 26 de de junio de, de 2002 15: 8
y ( ) = ' x( ) + . (17-54)
dnde z ( ) = ( z - 1) / . Este formulario incluye el lineal ( = 1) y loglineales ( = 0) modelos como casos especiales. El Jacobiano de
la transformacin es | re / dy | = y - 1. La funcin de probabilidad logartmica para el modelo con alteraciones distribuidas
normalmente es
norte norte ( y ( ) ) 2.
En L = - norte En y yo - 1 yo - ' x( ) yo
(17-55)
2 ln (2 ) - norte 2 ln 2 + ( - 1) 2 2
i=1 i=1
El MLEs de y se calculan mediante la maximizacin de esta funcin. El estimador de 2 es el cuadrado medio residual como
de costumbre. Podemos utilizar una bsqueda rejilla unidimensional sobre -Para un valor dado de , la EMV de es mnimos
cuadrados utilizando los datos transformados. Debe recordarse, sin embargo, que la funcin de criterio incluye el trmino
Jacobiana.
Vamos a utilizar el estimador BHHH de la matriz de covarianza asinttica de la mxima verosimilitud. Los derivados de la
probabilidad de registro se
En L yo x (yo)
2
[ ]
y yo( ) x (ik)
En L En y yo - yo k
= norte 2 - K
= norte gramo yo (17-56)
i=1 [ 2
k=1
] i=1
En L 1
yo
2 2 2 2- 1
dnde
[ z - 1] / ( z En z - z ( ) ).
= z En z - ( z - 1) =1 (17-57)
2
(Vase el ejercicio 6 en el captulo 9.) El estimador de la matriz de covarianza asinttica para el estimador de mxima
verosimilitud se da en (17-53).
El modelo Box-Cox proporciona un marco para una prueba de fi especificacin de linealidad frente a la linealidad logartmica. Para montar
este resultado, consideremos primero el modelo bsico
y = f ( x, 1, 2, ) + = 1 + 2 x( ) + .
Por lo tanto, lim 0 x * 3 = 2 [ 1 2 ( En x) 2]. La prueba del multiplicador de Lagrange se lleva a cabo en dos etapas.
En primer lugar, hacemos una regresin y en una constante y ln x y calcular los residuales. En segundo lugar, hacemos una regresin estos
residuos en una constante, ln x, y segundo 2 ( 1 2 En 2 x) , dnde segundo 2 es el coeficiente de ln x en la primera de regresin. La estadstica es
multiplicador de Lagrange nR 2 de la segunda regresin. Para generalizar este procedimiento para varios regresores, usaramos los registros
de todas las variables independientes en el primer paso. Entonces, el regresor adicional para la segunda regresin sera
x * = K segundo k ( 1 2 En 2 x k) ,
k=1
Greene-50240 libro 26 de de junio de, de 2002 15: 8
donde la suma se toma sobre todas las variables que se transforman en el modelo original y el segundo k 'S son los mnimos cuadrados
cientes coeficientes en la primera regresin fi.
Al extender este proceso para el modelo de (17-54), podemos idear un bona fi de test de log-linealidad (contra el modelo
ms general, no linealidad). [Ver Davidson y MacKinnon (1985). Una prueba de la linealidad puede realizarse usando = 1, en su
lugar.) Clculo de los diversos trminos en = 0 de nuevo, tenemos
i = En y yo - 1- 2 En x yo ,
donde como antes, 1y 2 se calculan por la regresin de mnimos cuadrados de ln y en una constante
y ln x. Dejar *i = 1 2 En 2 y yo - 2 ( 1 2 En 2 x yo ) . Entonces
yo /
2
(ln x yo ) yo /
2
gramo
.
i=
En y yo - yo
*yo / 2
(
2yo / 2 - 1) / (2 2)
(1 )
*i = 1 k .
2 ln 2 y yo - K 2 ln 2 x ik
k=1
Uso de la Berndt et al. estimador dada en (10-54), ahora podemos construir el Lagrange multi- tiplier estadstica como
dnde GRAMO es el norte x ( K + 2) matriz cuyas columnas son gramo 1 mediante gramo K + 2 y yo es una columna de 1s. La utilidad
de este enfoque para cualquiera de los modelos que hemos examinado es que en la prueba de la hiptesis, no es necesario
calcular la no lineal, sin restricciones, la regresin de Box-Cox.
Esta aplicacin fi nal examinar un modelo regressionlike en el que las perturbaciones no tienen una distribucin
normal. El modelo desarrollado aqu tambin presenta una platformonwhich conveniente para ilustrar theuseof los
estimadores invariancepropertyofmaximumlikelihood para simplificar la estimacin del modelo.
Un largo literatura comenzando con el trabajo terico por Knight (1933), Debreu (1951), y Farrell (1957) y el
estudio emprico pionero por Aigner, Lovell y Schmidt (1977) se ha dirigido a los modelos de produccin que espec
cuenta fi camente para la propuesta de libro de texto que una funcin de produccin es un ideal terico. 18 Si y = f ( x)
de fi ne una relacin de produccin entre las entradas, x, y una salida, Y, entonces para cualquier dado
x, el valor observado de y debe ser menor que o igual a f ( x). La implicacin para un modelo de regresin emprica es
que en una formulacin tal como Y = H ( x, ) + u, u debe ser negativo. Dado que la funcin de produccin terica es
un ideal-la frontera de e fi ciente
18 Una encuesta realizada por Greene (1997b) aparece en Pesaran y Schmidt (1997). Kumbhakar y Lovell (2000) es una referencia completa sobre el
tema.
Greene-50240 libro 26 de de junio de, de 2002 15: 8
produccin-cualquier perturbacin distinto de cero debe interpretarse como el resultado de ineficiencia. Una interpretacin
estrictamente ortodoxa incrustado en un modelo de produccin Cobb-Douglas podra producir un modelo de produccin
frontera emprica como
En y = 1 + k k En x k - u, u 0.
].
En y = 1 + k k En x k - u + v, u 0, v ~ NORTE[ 0, 2 v
= 1 + k k En x k + .
La frontera para cualquier particular, rm fi marido( x, ) + v, de ah el nombre de frontera estocstica. El trmino ine fi ciencia
es u, una variable aleatoria de especial inters en este contexto. Dado que los datos estn en trminos de registro, u es una
medida del porcentaje por el que la observacin particular no logra alcanzar la frontera, la tasa de produccin ideal.
Para completar la especificacin, sugirieron dos distribuciones posibles para el trmino deficiencia inef, el valor
absoluto de una variable normalmente distribuida y una variable exponencialmente distribuido. Las funciones de
densidad para estas dos distribuciones de compuestos estn dadas por Aigner, Lovell y Schmidt; dejar = v - u, = u
/ v, = ( 2
u + 2 v) 1/2,
y ( z) = la probabilidad a la izquierda de z en la distribucin normal estndar [ver Secciones B.4.1 y E.5.6]. Para el
modelo medio-normal,
) ( yo ) 2+ En ( - yo )]
En marido( i | , , ) = [ - En - ( 1 Iniciar sesin 2 ,
2 -1 2
Tanto estas distribuciones son asimtricas. Tenemos as un modelo de regresin con una distribucin no
normal especfico ed para la perturbacin. La perturbacin, , tiene una media distinta de cero, as; MI[ ] = - u ( 2 / ) 1/2 para
el modelo medio-normal y - 1 / para el modelo exponencial. La figura 17.3 ilustra la densidad para el modelo
medio-normal con = 1 y = 2. Por escrito 0 = 1+ MI[ ] y * = - MI[ ], obtenemos Amore formulacin convencional
En y = 0 + k k En x k + *
que tiene un disturbancewith un zeromean pero una, la distribucin no normal asimtrica. La asimetra de la
distribucin de * no invalida los resultados bsicos de mnimos cuadrados en este modelo de regresin clsico. Este
modelo de fi ca satisface las hiptesis del
Greene-50240 libro 26 de de junio de, de 2002 15: 8
. 70
. 56
. 42
Densidad
. 28
. 14
. 00
4.0 2.8 1.6 .4 .8 2.0
Gauss-Markov teorema, por lo que los mnimos cuadrados es imparcial y consistente (salvo por el trmino constante), y e fi
ciente entre estimadores lineales insesgados. En este modelo, sin embargo, el estimador de mxima verosimilitud no es
lineal, y es ms e fi ciente de los mnimos cuadrados.
Vamos a trabajar a travs de la estimacin de mxima verosimilitud del modelo semi-normal en detalle para ilustrar la
tcnica. El logaritmo de verosimilitud es
( yo ) ( - yo )
norte 2 + norte
En L = - norte En - norte En .
2 ln 2 - 1 2
i=1 i=1
Esto no es una particularmente di fi culto diario de probabilidad tomaximize numricamente. Sin embargo, es instructivo para hacer
uso de una comodidad que hemos sealado anteriormente. Recordemos que los estimadores de mxima verosimilitud son invariantes
a la transformacin de uno a uno. Si dejamos = 1 / y
= ( 1 / ) , la funcin de log-verosimilitud se convierte
norte
En L = n En - norte ( y yo - ' x yo ) 2 + norte ln [ - ( y yo - ' x yo )].
2 ln 2 - 1 2
i=1 i=1
Como se poda comprobar por tratar las derivaciones, esta transformacin trae una simplificacin drstica en la
manipulacin del diario de probabilidad y sus derivados. Haremos uso repetido de las funciones
i = yo / = y yo - ' x yo ,
( y yo , x yo , , , ) = [ - yo ]
[ - i] = yo .
i= - yo ( - i + yo )
Greene-50240 libro 26 de de junio de, de 2002 15: 8
(El segundo de stos es la derivada de la funcin en el trmino nal fi en el registro L. La tercera es la derivada de yo con
respecto a su argumento; i< 0 para todos los valores de yo .) Eso
Tambin ser conveniente para definir la ( K + 1) 1 columnas vectores z i = ( x ' yo , - y yo ) ' y
t i = ( 0 ', 1 / ) '. Las ecuaciones de probabilidad son
En L norte
ti+n yo z i + yo z i = 0,
( ', ) '= norte
i=1 i=1 i=1
En L
yo i = 0
= - norte
i=1
Hay dos tipos de transformaciones de los parmetros en nuestra formulacin. Con el fin de recuperar las
estimaciones de los parmetros estructurales originales = 1 / y = /
slo tenemos que transformar la MLE. Dado que estas transformaciones son uno a uno, el de los MLE y son 1 /
y / . Para calcular una matriz de covarianza asinttica para
estos estimadores vamos a utilizar el mtodo delta, que utilizar la matriz derivado
/ ' / / ( 1 / ) yo - ( 1 / 2) 0
G = / ' / / = 0' - ( 1 / 2) 0 .
/ ' / / 0' 0 1
Para el modelo de la mitad de lo normal, wewould tambin se basan en la invariancia de estimadores de mxima verosimilitud para recuperar
las estimaciones de los parmetros de varianza ms profundas, 2
v= 2 / ( 1 + 2)
y 2 u= 2 2 / ( 1 + 2).
El modelo de frontera estocstica es un poco diferentes de las que se han analizado anteriormente en que la
perturbacin es el foco central del anlisis en lugar de la catchall para los factores desconocidos e incognoscibles
omitidas de la ecuacin. Idealmente, nos gustara estimar u yo para cada fi rma en la muestra para comparar themon la
base de su productiva e fi ciencia. (Los parmetros de la funcin de produccin suelen ser de inters secundario en
estos estudios.) Por desgracia, los datos no permiten una estimacin directa, ya que con las estimaciones de en la
mano, slo somos capaces de calcular una estimacin directa de = y - x ' .
Jondrow et al. (1982), sin embargo, han derivado una aproximacin til que ahora es la medida estndar en estas
configuraciones,
[ ( z) ]
E [u | ] = , z =
1 + 2 1 - ( z) - z ,
Greene-50240 libro 26 de de junio de, de 2002 15: 8
Constante 1.844 0,234 7,896 2,081 0,422 4,933 2,069 0,290 7.135
k 0,245 0,107 2,297 0,259 0,144 1,800 0,262 0,120 2,184
l 0,805 0,126 6,373 0,780 0,170 4.595 0,770 0,138 5.581
0,236 0,282 0,087 3,237
u - 0,222 0,136
v - 0,190 0,171 0,054 3.170
- 1.265 1.620 0,781
- 7.398 3,931 1,882
Iniciar sesin L 2.2537 2.4695 2.8605
( z / v)
E [u | ] = z + v z = - 2 v
( z / v) ,
El Jondrow, et al. (1982) las estimaciones de los trminos fi ciencia de INEF se enumeran en la Tabla 17.4. Las estimaciones de los
parmetros de la funcin de produccin, 1, 2, y 3 son bastante similares, pero los parmetros de la varianza, u y v, parecen ser bastante
diferentes. Algunas de las diferencias de parmetros es ilusorio, sin embargo. Los componentes de la varianza para el modelo de
medio-normal, son (1 - 2 / ) 2
u=
0,0179 y 2 v= 0,0361, mientras que aquellos para el modelo exponencial son 1 / 2 = 0,0183 y
v2= 0,0293. En cada caso, alrededor de un tercio de la varianza total de se explica por la varianza de u.
Una serie de estudios ha demostrado cmo utilizar restricciones de momentos condicionales para las pruebas de especi
fi cacin, as como una estimacin. 20 La lgica del momento condicional (CM) espec prueba fi cacin basado es como sigue.
El modelo espec fi cacin implica que cierto momento restrictionswill mantenga en la poblacin fromwhich la datawere
dibujado. Si la especificacin
19 norte es el nmero de establecimientos en el estado. Zellner y Revankar utilizados por datos del establecimiento en su estudio. El modelo de frontera
estocstica tiene la propiedad interesante que si las plazas residuos mnimos estn sesgados en la direccin positiva, entonces con mnimos cuadrados = 0 maximiza
el logaritmo de la verosimilitud. Esta propiedad, de hecho, caracteriza a los datos anteriores cuando se escala por NORTE. Dado que deja un ejemplo no es
particularmente interesante y que no se produce cuando no se normalizan los datos, a los efectos de esta ilustracin se han utilizado los datos sin escala para
producir la Tabla 17.3. Nosotros observamos que este resultado es una ocurrencia comn en la prctica irritante.
es correcta, entonces los datos de la muestra deben imitar las relaciones implcitas. Por ejemplo, en el modelo de
regresin clsica, el supuesto de homocedasticidad implica que la varianza perturbacin es independiente de los
regresores. Como tal,
( 2
MI{ x yo [( y yo - ' x yo ) 2 - 2]} = MI[ x yo yo - 2)] = 0.
Si, por el contrario, la regresin es heterocedstico de una manera que depende de x yo , entonces este covarianza no
ser cero. Si la hiptesis de homocedasticidad es correcta, entonces esperaramos que la contraparte de la muestra a
la condicin de momento,
norte ( mi 2
rr = 1 x yo yo - s 2),
norte
i=1
dnde mi yo es el residual OLS, para estar cerca de cero. (Este clculo aparece en Breusch- y de Pagan LM para
homocedasticidad Ver la Seccin 11.4.3.). Los problemas prcticos que resolver son (1) la formulacin de
condiciones de momentos adecuados que corresponden a la prueba de hiptesis, que suele ser sencillo; (2) para
elaborar el homlogo apropiado de la muestra; y (3) para idear una medida adecuada de cercana a cero de la
muestra momento estimador. El ltimo de ellos ser en el marco de las estadsticas theWald que hemos examinado
en varios puntos de este libro. As que el problema es llegar a la matriz de covarianza apropiado para los momentos
de la muestra.
Consideremos un caso general en el que la condicin momento en que se escribe en trminos de las variables en el
modelo [ y yo , x yo , z yo ] y parmetros (como en el modelo de regresin lineal) . los
momento de la muestra se puede escribir
norte norte
rr = 1 r yo ( y yo , x yo , z yo , ) =1 rr yo . (17 a 58)
norte norte
i=1 i=1
norte
r ( ) re- NORTE[ 0,]
Greene-50240 libro 26 de de junio de, de 2002 15: 8
por alguna matriz de covarianza que an tenemos que estimar, se deduce que el Wald
estadstica,
r ' - 1 r re-
norte 2 ( J), (17-59)
donde los grados de libertad J est siendo probado el nmero de restricciones momento y es una estimacin de
. Por lo tanto, la estadstica se puede hacer referencia a la tabla de chi-cuadrado.
plegado. [Ver Pagan y Vella (1989, pp. S32-S33).] Pero cuando el vector de estimadores de parmetros es un estimador de
mxima verosimilitud, como lo sera para el cuadrados estimador menos con perturbaciones distribuidas normalmente y para la
mayora de los otros estimadores nos consideran, un estimador sorprendentemente simple se puede utilizar. Supongamos que el
vector de los parmetros utilizados para calcular los momentos se obtenidos anteriormente mediante la resolucin de las
ecuaciones
1 norte
norte
), =
gramo( y yo , x yo , z yo 1 gramo i = 0,
gramo (17-60)
norte norte
i=1 i=1
1 norte
x yo ( y yo - x ' yo b) = 0.
norte x ' e = 1 norte
i=1
Dejar que la matriz GRAMO ser el norte K matriz con yo fila igual a gramo '
yo . En una de mxima verosimilitud
problema, GRAMO es la matriz de los derivados de los trminos individuales de la funcin de probabilidad logartmica con
respecto a los parmetros. Este es el GRAMO utilizado para calcular el estimador BHHH de la matriz de informacin. [Ver
(17-18).] Let R ser el norte J matriz cuyas
yo fila es r yo
'
. Pagan y Vella muestran que para los estimadores de mxima verosimilitud,
puede ser
estimado usando
S=1 (17-61)
norte[ R ' R - R ' G (G ' GRAMO) - 1 GRAMO ' R]. 21
Esta ecuacin se parece a una matriz de clculo implicados, pero es sencillo con cualquier programa de regresin. Cada
elemento de S es el cuadrado o producto cruzado media de los residuales de mnimos cuadrados en una regresin lineal de
una columna de R en las variables de GRAMO. 22
C = n r ' S - 1 rr = 1 (17-62)
norte yo ' R [R ' R - R ' G (G ' GRAMO) - 1 GRAMO ' R] - 1 R ' yo,
dnde yo es un norte 1 columna de unos, que, una vez ms, se denomina el valor crtico apropiado en la tabla de
chi-cuadrado. Este resultado proporciona una prueba conjunta que todas las condiciones themoment son satis fi ed
simultneamente. Una prueba individual de uno solo de estos momentos
21 Podra ser tentador slo para usar (1 / norte) R ' R. Esta idea sera incorrecto, porque S cuentas para R ser una funcin del vector de parmetro estimado
que est convergiendo a su lmite de probabilidad en la misma tasa que los momentos de la muestra estn convergiendo a la de ellos.
restricciones en el aislamiento pueden calcularse incluso ms fcilmente que una prueba conjunta. Para el ensayo de una de las L condiciones,
dicen que la uno, la prueba puede llevarse a cabo mediante un simple t prueba de si el trmino constante es cero en una regresin
lineal de la sima columna de R en un trmino constante y todas las columnas de GRAMO. De hecho, la estadstica de prueba en
(17-62) tambin se podra obtener por el apilamiento de la J columnas de R y el tratamiento de la L ecuaciones como un modelo de
regresiones aparentemente no relacionadas con ( yo, GRAMO) como los regresores (idnticos) en cada ecuacin y luego probar la
hiptesis conjunta de que todos los trminos constantes son cero. (Vase la Seccin 14.2.3.)
y i = 1 + 2 x i + 3 z i + yo .
Para probar si
( 2
E [z 2yo yo - 2)] = 0,
el trmino constante en esta regresin es cero lleva a cabo la prueba. Para probar la hiptesis conjunta de que no hay
heteroscedasticidad con respecto a ambos x y z, tendramos una regresin tanto
x yo2 ( miyo
2 - s 2) y z 2 2 - s 2) yo en 1, mi yo , x yo mi yo , z yo mi yo ] y recoger las dos columnas de residuos en V.
yo ( miyo
Vamos a examinar otras pruebas momento condicional utilizando este mtodo en la Seccin 22.3.4, donde se estudia
la especificacin del modelo de regresin censurada.
La literatura aplicado contiene un nmero grande y creciente de modelos en los que un modelo est incrustado en
otro, lo que produce lo que se conoce ampliamente como de dos pasos problemas de estimacin. Consideremos un
ejemplo (la verdad artificial) en whichwe tienen las siguientes.
Hay dos vectores de parmetros, 1 y 2. El primero aparece en el segundo modelo, aunque no a la inversa. En tal
situacin, hay dos maneras de proceder. La informacin completa de mxima verosimilitud (FIML) estimacin
implicara la formacin de la distribucin conjunta f (y 1, y 2 | x 1, x 2, 1, 2) de las dos variables aleatorias y luego maximizar
Greene-50240 libro 26 de de junio de, de 2002 15: 8
En L = norte f (y yo 1, y yo 2 | x yo 1, x yo 2, 1, 2).
i=1
Un segundo, o de dos etapas, informacin limitada de mxima verosimilitud (LIML) procedimiento para este tipo de modelo
podra hacerse mediante la estimacin de los parmetros del modelo 1, ya que no implica 2, y luego maximizar una funcin de
probabilidad logartmica condicional utilizando las estimaciones de la Etapa 1:
En L = norte f [y yo 2 | x yo 2, 2, ( x yo 1, 1)].
i=1
Hay al menos dos razones onemight proceder de esta manera. En primer lugar, itmay ser sencillo para formular las dos
log-probabilidades separadas, pero muy complicado para derivar la distribucin conjunta. Esta situacin surge con
frecuencia cuando las dos variables beingmodeled son de diferentes tipos de poblaciones, como una discreta y uno
continuo (que es un caso muy comn en este marco). La segunda razn es que la maximizacin de las verosimilitudes
log separado puede ser bastante sencillo, pero maximizando el diario de probabilidad conjunta puede ser
numricamente complicado o difcil. 23 Vamos a considerar algunos ejemplos. A pesar de que vamos a encontrar
problemas FIML en varios puntos adelante en el libro, por ahora vamos a presentar algunos resultados bsicos para la
estimacin de dos pasos. Las pruebas de los resultados dados aqu se pueden encontrar en una referencia importante
sobre el tema, Murphy y Topel (1985).
Supongamos, pues, que nuestro modelo se compone de las dos distribuciones marginales, F 1 ( y 1 | x 1,
1) y F 2 ( y 2 | x 1, x 2, 1, 2). Estimacin procede en dos etapas.
1. Estimar 1 por mxima verosimilitud en el Modelo 1. Sea (1 / norte) V 1 ser norte cualquier momento de la
Theargument para consistencyof 2 es esencialmente que si 1 fueron conocido, thenall nuestros resultados
23 Hay una tercera possiblemotivation. Si cualquiera de los modelos es misspeci fi ed, a continuacin, las estimaciones FIML de bothmodels sern inconsistentes.
Pero si slo la segunda es misspeci fi cada, al menos se puede estimar consistentemente la primera. Por supuesto, este resultado slo es mitad de un pan, pero
dnde
[ 1 ( En L 2 ) ( En L 2 )] [ 1 ( En L 2 ) ( En L 1 )]
C = mi , R = mi .
norte 2 '1 norte 2 '1
y
( En F yo 2 ) ( En F yo 2 )] - 1
norte
V 2 = [ 1
V
norte 2 ' 2
i=1
son usados. las matrices R y do se obtienen mediante la suma de las observaciones individuales sobre los
productos cruzados de los derivados. Estos se estiman con
( En F yo 2 ) ( En F yo 2 )
norte
C = 1
C
norte 2 ' 1
i=1
y
( En F yo 2 ) ( En F yo 1 )
norte
R = 1
R
norte 2 ' 1
i=1
yo 2 + E [yi 1 | x ' yo 1]
Prob [ y yo 2 = 1 | x yo 1, x yo 2] = mi x '
1 + mi x ' yo 2 + E [yi 1 | x ' yo 1]
Greene-50240 libro 26 de de junio de, de 2002 15: 8
y Prob [ y yo 2 = 0 | x yo 1, x yo 2] = 1 - Prob [ y yo 2 = 1 | x yo 1, x yo 2], dnde x yo 2 es algunas covariables que podra influir en la decisin, como el estado civil
o la edad y x yo 1 son factores determinantes del tamao de la familia. Esta configuracin es una logit modelo. Vamos a desarrollar este
modelo con ms detalle en el captulo 21. La
valor esperado de y yo 1 aparece en la probabilidad. (Observacin:. La era de esperar, en lugar del valor real se eligi
deliberadamente De lo contrario, los modelos podran diferir sustancialmente en nuestro caso, podemos ver la diferencia que
hay entre una decisin ex ante y ex post uno..) Supongamos que el nmero de los nios pueden ser descritos por una
distribucin de Poisson (vase la Seccin
B.4.8) depende de algunas variables x yo 1 tales como la educacin, la edad, y as sucesivamente. Entonces
yo
Prob [ y yo 1 = j | x yo 1] = mi - yo j , j = 0, 1,. . . ,
j!
E [y yo 1] = i = exp ( x ' yo 1 ) .
Los modelos implican = [, , ], dnde 1 = . De hecho, no est claro cul es la distribu- cin conjunta de y 1 y y 2 podra ser,
pero la estimacin de dos pasos es sencillo. Para el modelo 1, el diario de probabilidad y sus derivados primeros son
En L 1 = norte En F 1 ( y yo 1 | x yo 1, )
i=1
= norte [ - i + y yo 1 En yo - En y yo 1!] = norte [ - exp ( x ' yo 1 ) + y yo 1 ( x ' yo 1 ) - En y yo 1!],
i=1 i=1
En L 1
( y yo 1 - yo ) x yo 1 = norte u yo x yo 1.
= norte
i=1 i=1
Clculo de las estimaciones se desarrolla en el Captulo 21. Cualquiera de los tres estimadores de V 1
Tambin es fcil de calcular, pero el estimador BHHH es ms conveniente, de manera que usamos
[ ]-1
1
norte
V 1 =
V u 2yo x yo 1 x ' yo 1
u .
norte
i=1
[En esta y las siguientes sumas, en realidad estamos estimando expectativas de las diversas matrices.]
F 2 ( y yo 2 | x yo 1, x yo 2, , , ) = PAG yi 2 yo x ( 1 - PAG yo ) 1 - yi 2,
En L 2 = norte y yo 2 En PAG i + ( 1 - y yo 2) ln (1 - PAG yo ) .
i=1
En L 2 = norte y yo 2 [ x *yo' 2 2 - ln (1 + exp ( x *yo' 2 2) )] + ( 1 - y yo 2) [ - ln (1 + exp ( x *yo' 2 2) )].
i=1
As, en el segundo paso, creamos la variable adicional, lo dejar x yo 2, y la estimacin del modelo logit como si ( y esta variable
adicional) se observ en realidad en lugar de estima. Las estimaciones de mxima verosimilitud de [ , ] se obtienen mediante la
maximizacin de esta funcin. (Ver
Greene-50240 libro 26 de de junio de, de 2002 15: 8
En L 2
= norte ( y yo 2 - PAG yo ) x *yo 2 = norte v yo x
x
*
yo 2.
2
i=1 i=1
Una vez ms, cualquiera de los tres estimadores podran utilizarse para estimar la matriz de covarianza asinttica Ance, pero el
estimador BHHH es conveniente, por lo que utilizar
[ ]-1
1
norte
V 2 =
V vv yo2 x
x * xx * '
yo 2 yo 2
.
norte
i=1
Para la etapa final, hay que corregir la matriz de covarianza asinttica utilizando do y R. Qu
permanece para derivar las pocas lneas, se dejan para el lector-es
En L 2
v yo [ exp ( x ' yo 1 )] x yo 1.
= norte
i=1
norte norte
C = 1
C vv yo
2 )] x *yo 2 x 'yo
)]
[ exp ( x ' yo 1 yo 1, y
R = 1
R u yo vv yo x
x
*
yo 2 x 'yo
yo 1.
norte norte
i=1 i=1
maywell que no estn correlacionadas. Este assumptionmust puede comprobar en base AMODEL por modelo, pero en tal
caso, el tercer y cuarto trminos en V * 2 desaparece asintticamente y lo que queda es la alternativa ms simple,
Vamos a examinar algunas aplicaciones adicionales de esta tcnica (incluyendo una aplicacin emprica del ejemplo
anterior) ms adelante en el libro. Tal vez la aplicacin ms comn de estimacin de mxima verosimilitud de dos
pasos en la literatura actual, especialmente en el anlisis de regresin, implica la insercin de una prediccin de una
variable en una funcin que describe el comportamiento de otro.
La tcnica de la probabilidad simulada mxima (MSL) es esencialmente una clsica homlogo teora de muestreo para
el estimador Bayesiano jerrquica hemos considerado en la Seccin 16.2.4. Ya que el papel celebrado de Berry,
Levinsohn, y Pakes (1995), y una literatura relacionada defendida por McFadden y tren (2000), la estimacin de
mxima verosimilitud simulada se ha utilizado en un gran y creciente nmero de estudios basado en las
verosimilitudes log que implican integrales que son las expectativas. 24 En esta seccin, vamos a exponer algunos
resultados generales para la estimacin MSL mediante el desarrollo de una aplicacin en particular,
24 Importante motivo de referencia para este conjunto de tcnicas es Gourieroux y Monfort (1996).
Greene-50240 libro 26 de de junio de, de 2002 15: 8
el modelo de parmetros aleatorios. Este marco general de modelizacin se ha utilizado en la mayora de las solicitudes
recibidas. a continuacin, vamos a seguir la aplicacin del modelo de eleccin discreta para datos de panel que
comenzamos en la Seccin 16.2.4.
La densidad de y eso cuando el vector de parmetro es yo es f (y l | x eso , yo ). El vector de parmetros yo est distribuido al
azar sobre los individuos de acuerdo con
i = +? z i + v yo
f ( y i | x yo , i) = T f (y l | x eso , yo ).
t=1
{ [T ] }
En L = norte En f (y l | x eso , +? z i + v yo ) gramo( v i | ) re v yo
v yo
i=1 t=1
{ }
= norte En f ( y i | x yo , +? z i + v yo ) gramo( v i | ) re v yo .
v yo
i=1
Cada una de las norte trminos implica una expectativa sobre v yo . El resultado final de la integracin es una funcin de ( ,?,
?) que luego se maximiza.
Al igual que en las aplicaciones anteriores, no ser posible tomaximize el diario de probabilidad en esta forma
porque no hay forma cerrada para la integral. Hemos considerado dos enfoques para maximizar la probabilidad
log-tales. En la formulacin de clase latente, se supone que el vector de parmetro toma uno de un conjunto
discreto de valores, y la loglikelihood se maximiza a travs de esta distribucin discreta, as como los parmetros
estructurales. (Vase la Seccin 16.2.3.) El procedimiento de Bayes jerrquica mtodos usedMarkovChain-Monte
Carlo para muestra de la distribucin posterior conjunta de los parmetros subyacentes y se utiliza la media
emprica de la muestra de sorteos como el estimador. Ahora consideramos un tercer enfoque para estimar los
parmetros de un modelo de esta forma, la estimacin de mxima verosimilitud simulada.
En L i = mi v yo [ f ( y i | x yo , +? z i + v yo )].
Como se ha sealado, Wedonot Have cerrado formfor esta funcin, sowe no se puede calcular directamente. Supongamos
que pudimos probar al azar de la distribucin de v yo . Si una ley apropiada
Greene-50240 libro 26 de de junio de, de 2002 15: 8
R
1
lim f ( y i | x yo , +? z i + v IR) = mi v yo [ f ( y i | x yo , +? z i + v yo )]
R R
r=1
dnde v IR es el r sorteo de la distribucin. Esto sugiere una estrategia para calcular el logaritmo de la verosimilitud.
Podemos sustituir esta aproximacin a la expectativa en los log-verosimilitud function.With suf randomdraws fi
cientes, theapproximationcanbe hizo lo ms cercano a la funcin verdadera si lo deseas. [La teora de este enfoque
se discute inGourieroux andMonfort (1996), Bhat (1999), andTrain (1999, 2002). Los detalles prcticos sobre
aplicaciones del mtodo se dan en Greene (2001).] Un detalle para agregar preocupaciones cmo muestrear a partir
de la distribucin de v yo . Hay muchas posibilidades, pero por ahora, consideramos el caso ms simple, la distribucin
normal multivariante. Escribir
en el
forma Cholesky = LL ' dnde L es una matriz triangular inferior. Ahora deja u IR ser un vector de K independiente sorteos
de la distribucin normal estndar. A continuacin, un sorteo de la distribucin multivariada con matriz de covarianza
es simple v IR = Lu IR. la simulado
diario de probabilidad es
{1 [T ]}
R
En L S = n En f (y l | x eso , +? z i + Lu IR) .
R
i=1 r=1 t=1
Inferencia en este contexto no implica nuevos resultados. La matriz de covarianza asinttica estimada para los
parmetros estimados se calcula mediante la manipulacin de los derivados de la simulada de probabilidad logartmica. Las
estadsticas de relacin de Wald y la probabilidad tambin se calculan de la manera que normalmente sera. Al igual que antes,
estamos interesados en la estimacin de parmetros espec fi cos persona. Una estimacin previa podra simplemente utilizar
+? z yo , pero esto no sera utilizar toda la informacin de la muestra. Una estimacin posterior calculara
r=1
IR f ( y i | x yo , IR)
mi v yo [ i | ,?, z i,] = R
mi R IR = + z i + Lu IR.
r=1f ( y i | x yo , IR) ,
se omiten detalles mecnicos en el clculo de la MSLE. El lector interesado puede consultar Gourieroux y Monfort
(1996), Tren (2000, 2002), y Greene (2001,
2002) para ms detalles.
x eso 1 = constante,
x eso 3 = tamao relativo = proporcin de empleo en la unidad de negocio para el empleo en la industria,
x eso 5 = relacin de la industria de la inversin extranjera directa a (la industria de venta + importaciones),
x eso 7 = variable ficticia que indica el rm fi est en el sector de los materiales en bruto,
x eso 8 = variable ficticia que indica la fi rma se encuentra en el sector de bienes de inversin. La muestra se compone de 1.270
firmas de fabricacin alemana observados durante cinco aos, 1984-1988. La densidad que entra en el diario de probabilidad es
dnde
i = + v yo , v yo ~ NORTE[ 0, ].
Para ser coherente con Bertschek y Lechner (1998) que no fi t cualquier fi rm-especfico, componentes invariables tiempo- en la
ecuacin principal para yo .
Tabla 17.5 se presentan los coeficientes estimados para la probitmodel bsica en la primera columna. Las estimaciones de los
medios, se muestran en la segunda columna. Parece que hay grandes diferencias en las estimaciones de los parmetros, aunque
esto puede bemisleading ya que hay gran variabilidad acin a travs de las firmas en las estimaciones posteriores. La tercera columna
presenta las races cuadradas de los elementos diagonales implcitas de
calculado como los elementos diagonales de LL '. estos estimacin
apareadas desviaciones estndar son para la distribucin subyacente de parmetro en el modelo- no son estimaciones de la
desviacin estndar de la distribucin de muestreo del estimador. Para el parmetro media, que se muestra entre parntesis en
la segunda columna. El cuarto UMN COL- presenta las medias de la muestra y las desviaciones estndar del 1270 posterior
estimado
En L - 4114.05 - 3498.654
Greene-50240 libro 26 de de junio de, de 2002 15: 8
las estimaciones de los coeficientes. La ltima columna repite las estimaciones para el classmodel latente. El acuerdo de los dos
conjuntos de estimaciones es sorprendente en vista de la cruda aproximacin dada por el modelo de clases latentes.
Figuras 17.4a y B presentes estimadores de densidad kernel de las probabilidades fi rm-espec fi calculadas en el 5-aos
significa para el modelo parmetros aleatorios y con las estimaciones probit originales. Las probabilidades estimadas son
sorprendentemente similares al modelo de clases latentes, y tambin es bastante similar, aunque ms suave que las estimaciones
probit.
3.30
2.64
1.98
Densidad
1.32
0.66
0.00
.0 .2 .4 .6 .8 1.0 1.2
PPR
1.60
1.28
0.96
Densidad
0.64
0.32
0.00
.2 .0 .2 .4 .6 .8 1.0 1.2
PRI
Greene-50240 libro 26 de de junio de, de 2002 15: 8
La figura 17.5 muestra la estimacin de densidad kernel para las estimaciones fi rm-espec fi del coef ventas de trozas fi
ciente. La comparacin a la figura 16.5 muestra algunos notable diferencia. El modelo de parmetros aleatorios produce
estimaciones que son similares en magnitud, pero las distribuciones son en realidad muy diferente. Que debe ser preferido?
Slo sobre la base de que el modelo de clases latentes discreta tres puntos es una aproximacin al modelo de variacin
continua, que prefiere este ltimo.
6.40
5.12
3.84
Densidad
2.56
1.28
0.00
.2 .1 .0 .1 .2 .3 .4 .5 .6 .7
BS
7.20
5.76
4.32
Densidad
2.88
1.44
0.00
.2 .3 .4 .5 .6
BSALES
Greene-50240 libro 26 de de junio de, de 2002 15: 8
estimacin de mxima verosimilitud requiere completa catin especfico de la distribucin de la variable aleatoria
observada. Si la distribucin correcta es algo distinto de lo que suponemos, a continuacin, la funcin de verosimilitud es
misspeci fi cado y las propiedades deseables de la MLE podra no contener. En esta seccin se considera un conjunto de
resultados en un enfoque de estimacin que es robusto a algunos tipos de modelo misspeci fi cacin. Por ejemplo, hemos
encontrado que en un modelo, si la funcin de media condicional es E [y | x] = x ' , a continuacin, ciertos estimadores, como
mnimos cuadrados, son robusto a la especificacin de la distribucin equivocado de las perturbaciones. Es decir, LS es
MLE si las perturbaciones se distribuyen normalmente, pero todava puede reclamar algunas propiedades deseables para
LS, incluyendo la consistencia, incluso si las perturbaciones no se distribuyen normalmente. Esta seccin discutir algunos
resultados que se relacionan towhat sucede ifwemaximize la funcin de log-verosimilitud malo, y para aquellos casos en
los que el estimador es consistente a pesar de esto, la forma de calcular una matriz de covarianza asinttica adecuado para
ello. 25
Dejar f (y i | x yo , ) ser la verdadera densidad de probabilidad de una variable aleatoria y yo dado un conjunto de covariables x yo y el parmetro
X) = ( 1 / norte) norte
i = 1 Iniciar sesin f (y i | x yo , ). El MLE,
ML, es la estadstica muestra que maximiza
esta funcin. (La divisin del registro L por norte no afecta a la solucin.) Maximizamos la funcin de probabilidad
logartmica igualando sus derivados a cero, por lo que el MLE se obtiene resolviendo el sistema de ecuaciones empricas
momento
1 norte
norte
Iniciar sesin f (y i | x yo ,
ML)
=1 re yo (
ML) = re(
ML) = 0.
norte ML norte
i=1 i=1
[1 ] = mi [1 ] = MI[
Iniciar sesin L norte
mi re yo ( ) re( )] = 0.
norte norte
i=1
Usando lo que sabemos acerca de los estimadores GMM, si MI[ re( )] = 0, entonces ML es consistente
y asintticamente normalmente distribuido, con matriz de covarianza asinttica igual a
V ML = [ GRAMO( ) ' GRAMO( )] - 1 GRAMO( ) '{ Var [ re( )]} GRAMO( ) [ GRAMO( ) ' GRAMO( )] - 1,
dnde GRAMO( ) = Plim re( ) / '. Ya que re( ) es el vector derivado, GRAMO( ) es 1 / norte veces
el grupo de accin esperada de registro L; es decir, (1 / nordeste[ MARIDO( )] = MARIDO( ). Como hemos visto antes,
var [ Iniciar sesin L / ] = - MI[ MARIDO( )]. La recogida de los siete apariciones de (1 / nordeste[ MARIDO( )], obtenemos el resultado
familiarizado V ML = { - MI[ MARIDO( )]} - 1. [ Todos norte s cancelar y Var [ d] =
( 1 / norte)MARIDO(
)]. Tenga en cuenta que este resultado depende de manera crucial en el resultado Var [ Iniciar sesin L / ] =
25 El followingwill esbozar un conjunto de resultados relacionados con este problema de estimacin. Las referencias importantes sobre este tema son
de color blanco (1982a); Gourieroux, Monfort, y Trognon (1984); Huber (1967); y Amemiya (1985). Un trabajo reciente con una gran cantidad de
discusin sobre el tema es Mittelhammer et al. (2000). Las derivaciones en estas obras son complejas, y que slo se tratar de proporcionar una
introduccin intuitiva con el tema.
Greene-50240 libro 26 de de junio de, de 2002 15: 8
Dado que esta funcin es el logaritmo de la verosimilitud de la muestra, sino que tambin es el caso (no demostrado aqu) que, como norte
, alcanza su mximo nico en el verdadero vector de parmetros, .
(Utilizamos este resultado para demostrar la consistencia del estimador de mxima verosimilitud.) Desde Plim
marido norte( Y, X, ) = MI[ marido norte( Y, X, )], se deduce (intercambiando diferenciacin y
la operacin expectativa) que plim marido norte( Y, X, ) / = MI[ marido norte( Y, X, ) / ]. Pero, si esto
funcin alcanza su mximo a , entonces tiene que ser el caso de que plim marido norte( Y, X, ) /
= 0.
Un estimador que se obtiene mediante la maximizacin de una funcin de criterio se llama una METRO
estimador [Huber (1967)] o un estimador extremum [Amemiya (1985)]. Supongamos que obtenemos un estimador mediante la
maximizacin de alguna otra funcin, METRO norte( Y, X, ) que, aunque no es la funcin de probabilidad logartmica, tambin alcanza
su uniquemaximumat la verdadera como norte .
Entonces theprecedingargumentmight produceaconsistent distribucin estimatorwithaknownasymptotic. Por ejemplo,
el diario de probabilidad para un modelo de regresin lineal con perturbaciones normalmente distribuidas con diferente
varianzas, 2 yo , es
{-1 [ ]}
norte
yo ) 2
marido norte( Y, X, ) = 1
marido log (2 2 yo ) + ( y yo - x ' .
norte 2 2 yo
i=1
Al maximizar esta funcin, se obtiene el estimador de mxima verosimilitud. Pero tambin examinamos otro estimador
de mnimos cuadrados simples, lo que maximiza METRO norte( Y, X, ) =
- ( 1 / norte) norte
i=1( y yo - x ' yo ) 2. Como hemos demostrado anteriormente, los mnimos cuadrados es consistente y asymp-
totically distribuido normalmente incluso con esta extensin, por lo que cali fi ca como una METRO estimador del tipo que estamos
considerando aqu.
Nowconsider thegeneral caso. Supongamos thatweestimate funcin bymaximizingacriterion
norte
METRO norte( Y | X, ) = 1 Iniciar sesin g (y i | x yo , ).
norte
i=1
Supongamos tambin que Plim METRO norte( Y, X, ) = E [M norte( Y, X, )] y que, como norte , E [M norte( Y,
X, )] alcanza su mximo en el nico . Entonces, el argumento se utiliz anteriormente para el MLE, plim METRO norte( Y, X, ) / = MI[
METRO norte( Y, X, ) / ] = 0. Una vez ms, tenemos un conjunto de ecuaciones de momentos para la estimacin. Dejar
mi el estimador que maximiza METRO norte( Y, X, ).
A continuacin, el estimador se define por
El grupo de accin en V mi puede ser fcilmente estimada mediante el uso de su contraparte emprica,
Pero, sigue siendo Tobe especi fi, y es poco probable thatwewouldknowwhat funcin touse. La diferencia importante es que
en este caso, la variacin del vector primeros derivados fi no tiene por qu ser igual el grupo de accin, por lo V mi no simplifica.
Podemos, sin embargo, estimar consistentemente mediante el uso de la varianza de la muestra de los derivados de primeros,
[ ][ ]
norte Iniciar sesin g (y i | x )
yo , Iniciar sesin g (y i | x )
yo ,
=1 .
norte '
i=1
Si este fuera el estimador de mxima verosimilitud, a continuacin, sera el estimador BHHH que hemos utilizado en
varios puntos. Por ejemplo, para el estimador de mnimos cuadrados en el modelo de regresin lineal heteroscedastic, el
criterio es METRO norte( Y, X, ) = - ( 1 / norte) norte
i=1
( y yo - x ' yo ) 2, la solucion es b, G (b) = ( - 2 / norte) x ' X, y
norte norte
=1 [2 x yo ( y yo - x ' miyo2 x yo x yo
yo )] [ 2 x yo ( y yo - x ' yo )] '= 4 ' .
norte norte
i=1 i=1
En este punto, tenemos en cuenta la motivacin de toda esta teora de peso. Una desventaja de estimacin de
mxima verosimilitud es su requisito de que la densidad de la variable aleatoria observada (s) sea completamente
especi fi. La discusin anterior sugiere que en algunas situaciones, podemos hacer un poco menor nmero de
hiptesis acerca de la distribucin de una especificacin completa requerira. El estimador de valor extremo es
robusto a algunos tipos de errores fi caciones. Un resultado til para emerger de esta derivacin es un estimador
para el covariancematrix asinttico de la extremumestimator que es robusto al menos en cierta catin fi misspeci. En
particular, si obtenemos
mi maximizando una funcin de criterio
que satisface la otros supuestos, entonces el estimador apropiado de la matriz de covarianza asinttica es
Est. V E = 1 MI)] - 1 (
MARIDO( MI)[ MARIDO(
MI)] - 1.
norte[
Uno podra preguntarse en este punto qu tan probable es que se cumplan las condiciones necesarias para que
todo esto funcione. Hay aplicaciones en la literatura en la que este mecanismo se ha utilizado que probablemente no
cumpla con estas condiciones, tales como el modelo Tobit del captulo 22. Hemos visto un caso importante. Mnimos
cuadrados en la generalizada
Greene-50240 libro 26 de de junio de, de 2002 15: 8
modelo de regresin pasa la prueba. Otra aplicacin importante es modelos de heterogeneidad individual en los datos de
seccin transversal. La evidencia sugiere que los modelos simples suelen pasar por alto las fuentes no observados de
variacin entre individuos en las secciones transversales, como no medibles efectos de la familia en los estudios de ingresos
o empleo. Supongamos que el modelo correcto para una variable es h (y i | x yo , v yo , , ), dnde v yo es un trmino aleatorio que no
se observa y es un parmetro de la distribucin de v. La funcin correcta de probabilidad logartmica es
yo Iniciar sesin f (y i | x yo , , ) = yo Iniciar sesin v h (y i | x yo , v yo , , ) f ( v yo ) re v yo . Supongamos que maximizamos alguna otra funcin
seudo-log-verosimilitud, yo Iniciar sesin g (y i | x yo , ) y luego utilizar el sndwich
estimador para estimar la matriz de covarianza asinttica de . Es que esto produce una con-
sistente estimador del verdadero vector de parmetros? Sorprendentemente, a veces lo hace, a pesar de que ha
ignorado el parmetro de ruido, . Vimos un caso, en el modelo usingOLS gr con alteraciones heterocedsticos.
Inapropiadamente fi tting un modelo de Poisson cuando el modelo binomial negativo es correcta, vase la Seccin
21.9.3, es otro caso. Para algunas especificaciones, utilizando la funcin de probabilidad mal en el modelo probit con
datos de proporciones (Seccin 21.4.6) es un tercio. [Se sugieren estos dos ejemplos, con varios otros, por
Gourieroux, Monfort, y Trognon (1984).] Nosotros enfatizamos nuevamente que el estimador de sandwich, en y de s
mismo, no es necesariamente de cualquier virtud si la funcin de verosimilitud es misspeci fi ed y las dems
condiciones de la METRO estimador no se cumplen.
En este captulo se presenta la teora y varias aplicaciones de estimacin de mxima verosimilitud, que es la tcnica
ms utilizada en la estimacin de la econometra despus de los mnimos cuadrados. Los estimadores de mxima
verosimilitud son consistentes, asintticamente distribuido normalmente, y e fi ciente entre estimadores que tienen
estas propiedades. El inconveniente de la tcnica es que requiere un completamente paramtrico, detallada
especificacin del proceso de generacin de datos. Como tal, es vulnerable a problemas misspeci fi cacin. El
siguiente captulo considera tcnicas de estimacin GMM que son menos paramtrico, pero ms robusto a la variacin
en el proceso de generacin de datos subyacente.
verosimilitud verosimilitud
Greene-50240 libro 26 de de junio de, de 2002 15: 8
Ceremonias
f (x, y) = mi - ( + ) y ( y) x , , > 0, y 0, x = 0, 1, 2, . . . .
x!
f (x) = ( 1 - ) x, x = 0, 1, 2, . . . ,
f (y | x) = mi - y ( y) x , y 0, > 0.
x!
f (y) = mi - Y, y 0, > 0.
f (x | y) = e - y ( y) x , x = 0, 1, 2, . . . , > 0.
x!
f (x) = x - 1 mi - x , x 0, , > 0.
segundo. Puesto que la densidad conjunta es igual al producto de los tiempos condicionales la marginales, la funcin de
probabilidad logartmica se puede escribir de forma equivalente en trminos de la densidad factorizada. Escribe, en trminos
generales.
do. el parmetro se puede estimar por s mismo utilizando slo los datos sobre x y el registro
probabilidad formado usando la densidad marginal para x. Tambin se puede estimar con
mediante el uso de la funcin de probabilidad logartmica completa y datos sobre ambos y y x. Mostrar esto.
re. Demostrar que el estimador de primera fi en la Parte C tiene una varianza asinttica mayor que la segunda.
Esta es la diferencia entre una informacin limitada estimador de mxima verosimilitud y una informacin
completa estimador de mxima verosimilitud.
mi. Demostrar que si 2 En f (y | x, , ) / = 0, entonces el resultado en la parte D ya no es
cierto.
7. Demostrar que la desigualdad de probabilidades en el teorema 17.3 se mantiene para la distribucin de Poisson se utiliza en la Seccin
17.3, mostrando que MI[( 1 / norte) En L ( | y)] est en uniquelymaximized = 0. Sugerencia: En primer lugar muestran que la
expectativa es - + 0 En - mi 0 [ En y yo !].
8. Demostrar que la desigualdad de probabilidades en el teorema 17.3 se mantiene para la distribucin normal.
9. Para el muestreo aleatorio a partir del modelo de regresin clsica en (17-3), reparametrizar la funcin de
probabilidad en trminos de = 1 / y = ( 1 / ) . Encontrar el mximo
Greene-50240 libro 26 de de junio de, de 2002 15: 8
funcin.)
11. Considrese, el muestreo de una distribucin normal multivariante con vector medio
= ( 1, 2, . . . , METRO) y matriz de covarianza 2 YO. La funcin de probabilidad logartmica es
norte
En L = - Nuevo Mjico ln (2 ) - Nuevo Mjico ( y yo - ) '( y yo - ).
2 2 ln 2- 1 2 2
i=1
Deducir la segunda matriz de derivados y muestran que la matriz de covarianza asinttica para los
estimadores de mxima verosimilitud es
{ - mi [ 2 En L ]} - 1 = [ 2 YO/ norte ]
0
.
' 0 2 4 / ( Nuevo Mjico)
Supongamos que deseamos probar la hiptesis de que themeans de la METRO distribuciones eran todos iguales a un
valor particular 0. Demostrar que el estadstico de Wald sera
) -1 )
2
W = ( y - 0 yo) '( y - 0 i), = ( norte
( y ( y
y - 0 yo) '( y - 0 yo),
norte yo s2