1capitulo 17 Greene Traducido

Greene-50240 libro 26 de de junio de, de 2002 15: 8
17
MXIMA VEROSIMILITUD
ESTIMACION
Q
17.1 INTRODUCCIN
El mtodo generalizado de momentos analizados en el captulo 18 y los estimadores semiparamtricos, no paramtricos, y

bayesianos discutidos en el Captulo 16 estn siendo ampliamente utilizado por los constructores de modelos. No obstante,
el estimador de mxima verosimilitud discutido en este captulo sigue siendo el estimador preferido en muchos ms ajustes
que los otros mencionados. Como tal, nos centramos nuestra discusin de los mtodos de estimacin de aplicacin general
en esta tcnica. Secciones 17.2 a 17.5 a travs de los resultados estadsticos actuales para la estimacin y prueba de
hiptesis basadas en el principio de mxima verosimilitud. Despus de establecer algunos resultados generales de este
mtodo de estimacin, a continuacin, vamos a extenderlas a la configuracin ms familiar de econometricmodels. Algunas
aplicaciones se presentan en la Seccin 17.6. Finalmente, tres variaciones de la tcnica, de mxima verosimilitud simulada,
la estimacin de dos pasos y la estimacin de probabilidad pseudomaximum se describen en las Secciones 17.7 a travs de
17,9.
17.2 la funcin de probabilidad E IDENTIFICACIN DE LOS PARMETROS
La funcin de densidad de probabilidad, o pdf para una variable aleatoria Y, condicionado a un conjunto de parmetros,
, se denota f (y | ). 1 Esta funcin identi fi ca el proceso de generacin de datos que subyace en una muestra
observada de datos y, al mismo tiempo, proporciona una descripcin matemtica de los datos que va a producir el
proceso. La densidad conjunta de n independiente y idnticamente distribuidas ( iid) observaciones de este proceso es
el producto de las densidades individuales;

f (y 1, . . . , y n | ) = norte f (y i | ) = L ( | y). (17-1)
i=1
Esta densidad conjunta es la funcin de verosimilitud, definida como una funcin del vector de parmetro desconocido, , dnde
y se utiliza para indicar la recogida de datos de la muestra. Tenga en cuenta que escribimos la densidad conjunta como una
funcin de los datos de acondicionado de los parmetros mientras que cuando se forma la funcin de probabilidad,
escribimos esta funcin a la inversa, como una funcin de los parmetros, condicionado a los datos. Aunque las dos
funciones son las mismas, es de destacar que la funcin de probabilidad se escribe de esta manera a
1 Ms adelante vamos a extender esto al caso de un vector aleatorio, Y, con una densidad multivariante, pero en este punto, que complicara la
notacin sin aadir nada sustancial a la discusin.
468
CAPTULO 17 Estimacin de mxima verosimilitud 469
destacar nuestro inters en theparameters y la themthat informationabout est contenida en los datos observados. Sin
embargo, se entiende que la funcin de probabilidad no est destinado a representar una densidad de probabilidad para
los parmetros como lo es en la Seccin 16.2.2. En este marco de estimacin clsica, los parmetros se supone que son
constantes fi jo que esperamos para aprender acerca de los datos.
Por lo general es ms fcil trabajar con el logaritmo de la funcin de verosimilitud:

En L ( | y) = norte En f (y i | ). (17-2)
i=1
Una vez ms, para enfatizar nuestro inters en los parmetros, dados los datos observados, denotamos esta funcin L
( | datos) = L ( | y). La funcin de probabilidad y su logaritmo, evaluada en , a veces se designan simplemente L ( ) y ln
L ( ), respectivelyor, wherenoambiguity puede surgir, justo L o ln L.
Por lo general ser necesario generalizar el concepto de la funcin de verosimilitud para permitir que la densidad de
depender de otras variables condicionantes. Para saltar inmediatamente a una de nuestras aplicaciones centrales,
supongamos que la perturbacin en el modelo clsico de regresin lineal se distribuye normalmente. Entonces, bajo la
condicin de que es especfico x yo , y yo se distribuye normalmente con media i = x '
yo y la varianza 2. Eso significa que el observado ran-

variables de DOM no son iid; tienen diferentes medios. Sin embargo, las observaciones son independientes, y como
vamos a examinar con ms detalle,
norte
En L ( | Y, X) = norte En f (y i | x yo , ) = - 1 [ln 2 + ln (2 ) + ( y yo - x ' yo ) 2 / 2], ( 17-3)
2
i=1 i=1
dnde x es el norte K matriz de datos con yo fila igual a x ' yo .
El resto de este chapterwill ser concernedwithobtainingestimates de theparameters,

y en las pruebas de hiptesis sobre ellos y sobre el proceso de generacin de datos. Antes de comenzar este estudio,
consideramos que la cuestin de si la estimacin de los parmetros es posible en absoluto la cuestin de identificacin. Identi fi
cacin es un problema relacionado con la formulacin de themodel. El tema de la identi fi cationmust resolverse antes de la
estimacin puede incluso ser considerada. La pregunta planteada es esencialmente la siguiente: Supongamos que tenemos un
infinitamente amplia muestra, es decir, para los propsitos actuales, toda la informacin no se tendrn en cuenta acerca de los
parmetros. Podramos determinar de forma nica los valores de a partir de una muestra de este tipo? Como ser evidente en
breve, a veces la respuesta es no.
DEFINICIN 17.1 identi fi cacin

El vector de parmetros es identi fi ed ( estimable) si por cualquier otro vector de parmetros,
* = , para algunos datos Y, L ( * | y) = L ( | y).
Este resultado ser crucial en varios puntos en lo que sigue. Consideramos dos ejemplos, el primero de los cuales ser
muy familiar para usted por ahora.
Ejemplo 17.1 La identificacin de los parmetros

Para el modelo de regresin se especifica en (17-3), supngase que existe un vector distinto de cero un de tal manera que x '
yo a = 0 para cada x yo . Luego hay otro vector parmetro, = + a = de tal manera que
470 CAPTULO 17 Estimacin de mxima verosimilitud
x 'yo = x '
yo para cada x yo . Se puede ver en (17-3), que si este es el caso, entonces el diario de probabilidad es la misma si se
evala en o en . Como tal, no es posible considerar la estimacin de en este modelo, ya no se puede distinguir de . Este
es el caso de la perfecta colinealidad en el modelo de regresin que descartado cuando nos propusimos la primera modelo de
regresin lineal con Supuesto 2. capacidad identificaciones de los parmetros del modelo.
Lo anterior tratado con una caracterstica necesaria de los datos de la muestra. Ahora consideramos un modelo en el que la
identi fi cacin est asegurada por la especi fi cacin de los parmetros en el modelo. (Vamos a estudiar este modelo en detalle en
el captulo 21.) Considere una forma sencilla del modelo de regresin considerado anteriormente, y i = 1 + 2 x i + yo , dnde i | x yo tiene
una distribucin normal con media cero y varianza 2. Para poner el modelo en un contexto, considere la compra de un consumidor
de un gran mercanca, como un automvil, donde x yo es el ingreso del consumidor y y yo es la diferencia entre lo que el consumidor
est dispuesto a pagar por el coche, pag *
yo , y la etiqueta de precio en el coche,

pag yo . Supongamos que en lugar de observar pag * pag yo , observamos solamente si el consumidor realidad
yo o
compra el coche, que, suponemos, se produce cuando y i = pag * yo - pag yo es positivo. la recopilacin de esta
informacin, nuestro modelo indica que van a comprar el coche si y i> 0 y no comprarlo si
y yo 0. Formemos la funcin de verosimilitud de los datos observados, que son de compra (o no) y los ingresos. La variable
aleatoria en este modelo es comprar o no comprar -hay slo dos resultados. La probabilidad de una compra es
Prob (compra | 1, 2, , x i) = Prob ( y i> 0 | 1, 2, , x yo )
= Prob ( 1 + 2 x i + i> 0 | 1, 2, , x yo )
= Prob [ i> - ( 1 + 2 x i) | 1, 2, , x yo ]
= Prob [ yo / > - ( 1 + 2 x yo ) / | 1, 2, , x yo ]
= Prob [ z i> - ( 1 + 2 x yo ) / | 1, 2, , x yo ]
dnde z yo tiene una distribucin normal estndar. La probabilidad de no compra es slo uno menos esta probabilidad. La funcin
de verosimilitud es

[Problema resuelto (compra | 1, 2, , x yo ) ] [1 - Prob (compra | 1, 2, , x yo ) ].
i = comprado No = comprado
Tenemos que ir ms lejos para ver que los parmetros de thismodel no se identifican. Si 1, 2 y
son todos multiplicado por la misma constante diferente de cero, independientemente de lo que es, a continuacin, Prob (compra) es sin
cambios, 1 - Prob (compra) es tambin, y la funcin de probabilidad no cambia. Este modelo requiere una normalizacin. El uno
generalmente utilizado es = 1, pero algunos autores [por ejemplo, Horowitz (1993)] han utilizado 1 = 1 en su lugar.
17.3 ESTIMACIN EFICAZ: el principio de mxima verosimilitud
El principio de mxima verosimilitud proporciona un medio de elegir un estimador fi ciente asintticamente ef para
un parmetro o un conjunto de parmetros. La lgica de la tcnica se ilustra fcilmente en el contexto de una
distribucin discreta. Considere una muestra aleatoria de los siguientes 10 observaciones de una distribucin de
Poisson: 5, 0, 1, 1, 0, 3, 2, 3, 4 y 1. La densidad para cada observacin es
f (y i | ) = mi - y yo
y yo ! .
0.13 26
0.12 24
0.11 22
0.10 20
0.09 18
L ( x)
0.08 16
0.07 14
En L ( x) 25
L ( x) 10 7
0.06 12
0.05 10 8
En L ( x)
0.04 64
0.03 20
0.02
0.01
0 0.5 0.8 1.1 1.4 1.7 2.0 2.3 2.6 2.9 3.2 3.5
FIGURA 17.1 Probabilidad y de probabilidad logartmica Funciones para un Poisson

Distribucin.
Dado que las observaciones son independientes, su densidad conjunta, que es la probabilidad para esta muestra, es
i = 1 y yo
f (y 1, y 2, . . . , y 10 | ) = 10 f (y i | ) = mi - 10
1010
207, 360.
i=1 i=1 y yo ! = mi - 10 20
El ltimo resultado da la probabilidad de observar esta muestra particular, suponiendo que una distribucin de
Poisson con parmetro an desconocido generado los datos. Qu valor de hara que esta muestra ms
probable? Figura 17.1 parcelas esta funcin para varios valores de . Tiene un nico modo en = 2, lo que sera el estimado
mximo de verosimilitud, o MLE, de .
Considere la maximizacin L ( | y) con respecto a . Dado que la funcin de registro es montona creciente y
ms fcil de trabajar, por lo general maximizar ln L ( | y) en lugar; en el muestreo de una poblacin de Poisson,
norte
En L ( | y) = - norte + En y yo - norte ln ( y yo !),
i=1 i=1
En L ( | y) norte
=-n+1 yi= 0 ML = y norte.

i=1
Para la muestra asumido de observaciones,
En L ( | y) = - 10 + 20 En - 12.242,
re En L ( | y)
= - 10 + 20 = 2,
re =0
re 2 En L ( | y)
= - 20
re 2 2 < 0 este es un mximo.
La solucin es la misma que antes. Figura 17.1 tambin traza el registro de L ( | y) para ilustrar el resultado.
La referencia a la probabilidad de observar la muestra dada no es exacta en una distribucin continua, ya que
una muestra particular tiene una probabilidad de cero. Sin embargo, el principio es el mismo. Los valores de los
parmetros que maximizan L ( | datos) o su registro son las estimaciones de mxima verosimilitud, denotados
. Dado que el logaritmo es una montona
funcin, los valores que maximizan L ( | datos) son los mismos que los que maximizar ln L ( | datos). La condicin
necesaria para maximizar ln L ( | datos) es
En L ( | datos)
= 0. (17-4)

Esto se llama el ecuacin de probabilidad. El resultado general es, entonces, que el MLE es una raz de la ecuacin de
probabilidad. La aplicacin a los parmetros de la DGP para una variable aleatoria discreta son sugestivos de que la mxima
probabilidad es un buen uso de los datos. Queda por establecer esto como un principio general. Nos dirigimos a esa
cuestin en la siguiente seccin.
Ejemplo 17.2 Iniciar funcin de probabilidad y la probabilidad Ecuaciones

para la distribucin normal
En el muestreo de una distribucin normal con media y la varianza 2, la fun- ecuaciones de probabilidad logartmica cin y la
probabilidad de y 2 son
[( y yo - ) 2 ]
norte
En L ( , 2) = - norte , (17-5)
2 ln (2 ) - norte 2 ln 2 - 1 2 2
i=1
En L
norte
( y yo - ) = 0, (17-6)
= 1 2
i=1
En L
norte
( y yo - ) 2 = 0. (17-7)
2 = - norte 2 2 + 1 2 4
i=1
Para resolver las ecuaciones de probabilidad, multiplicar (17-6) por 2 y resolver para , a continuacin, insertar esta solucin
de (17-7) y resolver para 2. Las soluciones son
norte norte
ML = 1 y i = y norte y 2 ML = 1 ( y yo - y norte) 2. (17-8)
norte norte
i=1 i=1
17.4 propiedades de los estimadores de mxima verosimilitud
estimadores de mxima verosimilitud (MLE) son los ms atractivos debido a su largesample o propiedades
asintticas.
DEFINICIN 17.2 asinttica e fi ciencia

Un estimador es asintticamente e fi ciente si es consistente, asintticamente distribuido normalmente
(CAN), andhas un covariancematrix asinttica que no es mayor que la covariancematrix asinttica de
cualquier otro estimador consistente, asintticamente distribuido normalmente. 2
Si se cumplen ciertas condiciones de regularidad, el MLE tendr estas propiedades. Las propiedades de la muestra finitos son
a veces menos que ptima. Por ejemplo, el MLE puede estar sesgada; theMLEof 2 el Ejemplo 17.2 est sesgada hacia abajo.
La declaracin de vez en cuando que las propiedades de theMLE son solamente ptima en muestras grandes no es cierto, sin
embargo. Se puede demostrar que cuando el muestreo es de la familia exponencial froman de las distribuciones (simiente fi
nition18.1), therewill existo SUF estadsticas fi cientes. Si es as, MLEswill ser funciones de ellos, lo que significa que cuando
existen mnima varianza estimadores no sesgados, lo harn beMLEs. [Ver Stuart y Ord (1989).] La mayora de las
aplicaciones en econometra no implican familias exponenciales, por lo que el recurso de la MLE sigue siendo principalmente
sus propiedades asintticas.
Usamos la siguiente notacin es el estimador de mxima verosimilitud; 0 Delaware-

observa el verdadero valor del vector de parmetro; denota otro valor posible del vector de parmetros, no el MLE y no
necesariamente los valores verdaderos. Expectativa basada en los verdaderos valores de los parmetros se denota mi 0 [.]. Si
asumimos que las condiciones de regularidad se analizan a continuacin se encuentran con f ( x, 0), entonces tenemos el
siguiente teorema.
TEOREMA 17.1 propiedades de un MLE

Bajo la regularidad, el estimador de probabilidad mxima (MLE) tiene las siguientes propiedades
asintticas:
M1. Consistencia: Plim = 0.

M2. normalidad asinttica: un~ NORTE[ 0, { YO( 0)} - 1], dnde
YO( 0) = - mi 0 [ 2 En L / 0 ' 0].
M3. Asinttica e fi ciencia: es asintticamente e fi ciente y logra el

Atestar er-Rao lmite inferior para estimadores consistentes, dada en M2 y el Teorema C.2.
M4. invariancia: El estimador de mxima verosimilitud de 0 = do( 0) es do( ) Si

do( 0) es una funcin continua y continuamente derivable.
17.4.1 condiciones de regularidad
Para boceto pruebas de estos resultados, se primera obtenemos algunas propiedades tiles de funciones de densidad de
probabilidad. Asumimos que ( y 1, . . . , y norte) es una muestra aleatoria de la poblacin
2 no mayor se define en el sentido de (A-118): La matriz de covarianza de los menos ef estimador fi ciente es igual a la de la estimador e fi ciente adems
de una matriz infinita de fi no negativo.

con funcin de densidad f (y i | 0) y que la siguiente condiciones de regularidad sostener. [Nuestra declaracin de
stos es informal. Un tratamiento ms rigurosa puede ser encontrado en Stuart y Ord (1989) o Davidson y MacKinnon
(1993)].
DEFINICIN 17.3 Condiciones de Regularidad
R1. La primera tres derivados de En f (y i | ) con respecto a son continuas

y finito para casi todos y yo y para todos . Esta condicin asegura la existencia de una cierta
aproximacin en serie de Taylor y la varianza finita de los derivados de En L.
R2. Las condiciones necesarias para obtener las expectativas de la primera y segunda
derivados de En f (y i | ) se cumplan.
R3. Para todos los valores de , | 3 En f (y i | ) / j k l | es menor que una funcin que
tiene una expectativa infinita. Esta condicin nos permitir truncar la serie de Taylor.
Con estas condiciones de regularidad, obtendremos las siguientes caractersticas fundamentales de f (y i | ): D1

es simplemente una consecuencia de la definicin de la funcin de verosimilitud. D2 conduce a la condicin de
momentos que define el estimador de mxima verosimilitud. Por un lado, el MLE se encuentra como el maximizador
de una funcin, que obliga a fi Nding el vector que equivale el gradiente a cero. Por otro lado, D2 es un
relationshipwhichplaces theMLE ms fundamental en la clase de generalizedmethod de momentos estimadores. D3
produce lo que se conoce como el Informacin sobre igualdad de matriz.
Esta relacin muestra cmo obtener la matriz de covarianza asinttica de la MLE.
17.4.2 PROPIEDADES de las densidades REGULAR
Densidades que son regular por definicin 17.3 tienen tres propiedades que se utilizan en el establecimiento de las
propiedades de los estimadores de mxima verosimilitud:
TEOREMA 17.2 Momentos de los Derivados del diario de probabilidad
D1. En f (y i | ), gramo i = En f (y i | ) / , y MARIDO i = 2 En f (y i | ) / ',

i = 1, . . . , norte, son todas las muestras al azar de variables aleatorias. Esta afirmacin se desprende de
nuestro supuesto de muestreo aleatorio. la notacin gramo yo ( 0)
y MARIDO yo ( 0) indica la derivada evaluada en 0.
D2. mi 0 [ gramo yo ( 0)] = 0.
D3. var [ gramo yo ( 0)] = - MI[ MARIDO yo ( 0)].
Condicin D1 es simplemente una consecuencia de la definicin de la densidad.
Para themoment, permitimos que la gama de y yo todependon los parmetros; UN( 0) y yo

SEGUNDO( 0). ( Consideremos, por ejemplo, hallazgo el estimador de mxima verosimilitud de / descanso
para una distribucin uniforme continua con rango [0, 0].) ( En lo siguiente, la nica integral . . . dy yo , wouldbeused para
indicar themultiple integrationover todos los elementos de un multivariante de y yo si fuera necesario). Por definicin,
SEGUNDO( 0)
f (y - i | 0) dy i = 1.
UN( 0)
Ahora, diferenciar esta expresin con respecto a 0. El teorema de Leibnitz da
SEGUNDO( 0)
UN( 0) f (y i | 0) dy yo f (y i | 0)
= SEGUNDO( 0) dy i + f (B ( 0) | 0) SEGUNDO( 0)
0 UN( 0) 0 0
- f (A ( 0) | 0) UN( 0)
0
= 0.
Si los trminos segundo y tercero van a cero, entonces podemos intercambiar las operaciones de diferenciacin e
integracin. La condicin necesaria es que lim y yo UN( 0) f (y i | 0) =
lim y yo SEGUNDO( 0) f (y i | 0) = 0. (Tenga en cuenta que la distribucin uniforme sugiri anteriormente viole esta condicin.)
Condiciones su fi ciente son que el intervalo de la observada randomvariable,
y yo , no depende de los parmetros, que whichmeans UN( 0) / 0 = SEGUNDO( 0) / 0 = 0
o que la densidad es cero en los puntos terminales. Esta condicin, entonces, es condicin de regularidad R2. Este
ltimo se suele suponer, y vamos a suponer que en lo que sigue. Asi que,
[ En f (y i | 0) ] = 0.
f (y i | 0) dy yo
= f (y i | 0) dy i = En f (y i | 0) f (y i | 0) dy i = mi 0
0 0 0 0
Esto demuestra D2.

Ya que pueden intercambiar las operaciones de integracin y diferenciacin, diferenciamos bajo la integral una
vez ms para obtener
[ 2 En f (y i | 0) ]
f (y i | 0)
f (y i | 0) + En f (y i | 0) dy i = 0.
0 '0 0 '0
Pero
f (y i | 0)
= f (y i | 0) En f (y i | 0) ,
'0 '0
y la integral de una suma es la suma de las integrales. Por lo tanto,

] ]
En f (y i | 0)
- [ 2 En f (y i | 0) f (y i | 0) dy i = [ En f (y i | 0) f (y i | 0) dy i = [ 0].
0 '0 0 '0
El lado izquierdo de la ecuacin es el negativo de la matriz de segundas derivadas se esperaba. El lado derecho es el
cuadrado esperado (producto externo) del vector de primera derivada. Sin embargo, el valor ya que este vector se
esperaba 0 ( hemos mostrado este), el lado derecho es la varianza de la primera derivada del vector, lo que demuestra
D3:
[ En f (y i | 0) ] = mi 0 [( En f (y i | 0) ) ( En f (y i | 0) )] = - mi [ 2 En f (y i | 0) ]
var 0 .
0 0 '0 0 '0
17.4.3 LA ECUACIN PROBABILIDAD
La funcin de probabilidad logartmica es

En L ( | y) = norte En f (y i | ).
i=1
El primer vector derivado de, o vector de puntuacin, es
En f (y i | )
g = En L ( | y) = norte = norte gramo yo . (17-9)

i=1 i=1
Dado que slo estamos agregando trminos, se deduce de D1 y D2 que por lo 0,

[ En L ( 0 | y) ] = mi 0 [ gramo 0] = 0.
mi 0 (17-10)
0
Cul es el ecuacin probabilidad antes mencionado.
17.4.4 LA IGUALDAD INFORMACIN MATRIX
El Hessian del diario de probabilidad es
2 En f (y i | )
H = 2 En L ( | y) = norte = norte MARIDO yo .
' '
i=1 i=1
Evaluar una vez ms en 0, tomando

norte norte
0
mi 0 [ gramo 0 gramo ' 0] = mi gramo 0 yogramo ' 0 j
i=1 j=1
Y, debido a D1, dejando caer un acuerdo con subndices desiguales obtenemos

[ norte ] = mi 0 [ norte ] = - mi 0 [ MARIDO 0],

mi 0 [ gramo 0 gramo ' 0] = mi 0 gramo 0 yo gramo ' 0 yo ( - MARIDO 0 yo )
i=1 i=1
as que eso
[ En L ( 0 | y) ] = mi 0 [( En L ( 0 | y) ) ( En L ( 0 | y) )]
var 0
0 0 '0
[ 2 En L ( 0 | y) ] (17-11)
= - mi 0 .
0 '0
Este resultado muy til se conoce como el informacin sobre igualdad de matriz.
17.4.5 propiedades asintticas del mximo

ESTIMADOR PROBABILIDAD
Ahora podemos esbozar una derivacin de las propiedades asintticas de theMLE. pruebas formales de estos resultados
requieren algo de matemticas bastante complejas. Dos derivaciones ampliamente citadas son las de Cram'
er (1948) y Amemiya (1985). Para sugerir la Avor fl del ejercicio,
vamos a esbozar un anlisis proporcionado por Stuart y Ord (1989) para un caso simple, e indicar en las que ser
necesario ampliar la derivacin si fuera a ser totalmente general.
CONSISTENCIA 17.4.5.a
Asumimos que f ( y i | 0) es una densidad posiblemente multivariante que en este punto no depende de covariables, x yo . Por
lo tanto, este es el caso de muestreo iid, al azar. Ya que es theMLE,
en cualquier muestra finita, para cualquier = ( incluido el verdadero 0) que debe ser cierto que ln L (
) En L ( ). (17-12)
Consideremos, a continuacin, la variable aleatoria L ( ) / L ( 0). Dado que la funcin de registro es estrictamente cncava, de la
desigualdad de Jensen (Teorema D.8.), Tenemos
[ ] [ L ( ) ]
mi 0 Iniciar sesin L ( ) < Iniciar sesin mi 0 . (17-13)
L ( 0) L ( 0)
La expectativa en el lado derecho es exactamente igual a uno, como

[ L ( ) ] = ( L ( ) )
mi 0 L ( 0) re y = 1 (17-14)
L ( 0) L ( 0)
es simplemente la integral de una densidad conjunta. Ahora, tomar registros en ambos lados de (17-13), inserte el resultado de (17-14), a
continuacin dividir por norte para producir
mi 0 [ 1 / norte En L ( )] - mi 0 [ 1 / norte En L ( 0)] < 0. (17-15)
Esto produce un resultado centro:
Teorema 17.3 Probabilidad Desigualdad
mi 0 [( 1 / norte) En L ( 0)] > mi 0 [( 1 / norte) En L ( )] para cualquier = 0 ( incluyendo ).
Este resultado es (17-15).
En palabras, el valor esperado del diario de probabilidad se maximiza en el verdadero valor de los parmetros.
Para cualquier , incluyendo ,
norte
[(1 / norte) En L ( )] = ( 1 / norte) En f (y i | )
i=1
es la media de la muestra de norte IID variables aleatorias, con la expectativa mi 0 [( 1 / norte) En L ( )]. Puesto que el
muestreo es iid por las condiciones de regularidad, podemos invocar la Khinchine teorema, D.5; la media de la muestra
converge en probabilidad a la media poblacional. Utilizando =
, se deduce del teorema 17.3 que a medida norte , limProb {[(1 / norte) En L ( )] <
[(1 / norte) En L ( 0)]} = 1 si = 0. Pero es el MLE, por lo que para cada n, ( 1 / norte) En L ( )
( 1 / norte) En L ( 0). La nica forma en que estos pueden ser verdad si es (1 / norte) veces el loglikelihood muestra
evaluada en el MLE converge a la expectativa de la poblacin de (1 / norte)
veces el de probabilidad logartmica evaluada en los parmetros verdaderos. Queda un ltimo paso.
Hace (1 / norte) En L ( ) ( 1 / norte) En L ( 0) implica que 0? Si hay un solo parmetro

y la funcin de probabilidad es de uno a uno, entonces claramente de modo. Para los casos ms generales, esto requiere
una caracterizacin adicional de la funcin de probabilidad. Si la probabilidad es estrictamente continua y dos veces
diferenciable, que se supone en las condiciones de regularidad, y si los parmetros del modelo se identifican los cuales se
asumi a principios de esta discusin, entonces s, lo hace, por lo que tenemos el resultado.
Esta es una prueba heurstica. Como se ha sealado, las presentaciones formales aparecen en ms avanzada
tratados que ste. Debemos sealar tambin, que hemos asumido en varios puntos que medias de la muestra
convergieron a las expectativas de la poblacin. Es probable que esto sea cierto para el tipo de aplicaciones que
habitualmente se encuentran en la econometra, sino un conjunto totalmente general de los resultados se vera ms de
cerca a esta condicin. muestreo iid En segundo lugar, hemos asumido en el anterior, es decir, la densidad de y yo no
depende de ninguna otra variable, x yo . Esto casi nunca ser cierto en la prctica. Las suposiciones sobre el
comportamiento de estas variables entrarn en las pruebas tambin. Por ejemplo, en la evaluacin del comportamiento
gran muestra del estimador de mnimos cuadrados, hemos invocado el supuesto de que los datos se comportan bien. El
mismo tipo de examen se aplican aqu tambin. Volveremos a este tema en breve. Con todo esto en su lugar, tenemos la
propiedad M1, plim
= 0.
17.4.5.b normalidad asinttica
En el estimador de mxima verosimilitud, el gradiente de la probabilidad log-es igual a cero (por definicin), por lo
) = 0.
gramo(
(Este es el estadstico de contraste, no la expectativa.) Abrir este conjunto de ecuaciones en una serie de Taylor de segundo
orden alrededor de los verdaderos parmetros 0. Vamos a utilizar el teorema del valor medio para truncar la serie de Taylor en el
segundo perodo.
) = gramo(
gramo( 0) + MARIDO( ) ( - 0) = 0.
El Hessian se evala en un punto es decir, entre y 0( = w + ( 1 - w) 0 para

algunos 0 < w < 1). A continuacin, cambiando esta funcin y multiplicar el resultado por norte para obtener
norte(
- 0) = [ - MARIDO( )] - 1 [ norte gramo( 0)].
Debido a Plim ( - 0) = 0, Plim ( - ) = 0 tambin. Los secondderivatives son continuas

funciones. Por lo tanto, si existe la distribucin lmite, entonces
norte(
- 0) re - [- MARIDO( 0)] - 1 [ norte gramo( 0)].
Dividiendo MARIDO( 0) y gramo( 0) por norte, obtenemos
norte(
- 0) re - [- 1 norte
gramo( 0)].
MARIDO( 0)] - 1 [ norte
Podemos aplicar el teorema de Lindberg-Levy lmite central (D.18) a [ norte gramo( 0)], Desde que
es norte veces mi media de una muestra aleatoria; hemos invocado D1 nuevo. La varianza limitante de [ norte
gramo( 0)] es - mi 0 [( 1 / norte) MARIDO( 0)], asi que
norte [1
NORTE{ 0, - mi 0
gramo( 0)- re
norte MARIDO( 0)]}.
En virtud del teorema D.2, plim [ - ( 1 / norte) MARIDO( 0)] = - mi 0 [( 1 / norte) MARIDO( 0)]. Dado que este resultado es una matriz constante,
podemos combinar resultados para obtener
[ -1 [1 [1
NORTE[ 0, { - mi 0
gramo( 0)- re
norte MARIDO( 0)] - 1 norte norte MARIDO( 0)]} - 1 { - mi 0 norte MARIDO( 0)]} { - mi 0 [ 1 norte MARIDO( 0)]} - 1],
o
norte( [1
- 0) re - NORTE[ 0, { - mi 0
norte MARIDO( 0)]} - 1],
que da la distribucin asinttica de la MLE:
un~ NORTE[ 0, { YO( 0)} - 1].
Este ltimo paso se completa M2.
Ejemplo 17.3 Matriz de informacin para la distribucin normal

Para la funcin de probabilidad en el Ejemplo 17.2, las segundas derivadas son
2 En L
2 = - norte 2,
2 En L
norte
( x yo - ) 2,
( 2) 2 = norte 2 4- 1 6
i=1
2 En L
norte
( x yo - ) .
2 = - 1 4
i=1
para el varianza asinttica themaximum del estimador de probabilidad, tenemos que las expectativas de estos derivados. El
primero es no estocstico, y el tercero tiene la expectativa 0, como se E [x i] = .
Eso deja a la segunda, que se puede comprobar tiene la expectativa - norte/( 2 4) porque cada una de las
norte trminos ( x yo - ) 2 tiene valor esperado 2. La recoleccin de estos en la matriz de informacin, la inversin de la seal, y la
inversin de la matriz da la matriz de covarianza asinttica para los estimadores de mxima verosimilitud: { - mi 0
[ 2 En L ]} - 1 = [ 2 / norte ]
0
.
0 '0 0 2 4 / norte
17.4.5.c eficiencia asinttica
TheoremC.2 proporciona el lmite inferior de la varianza de un estimador imparcial. Dado que la varianza asinttica
de theMLE alcanza este lmite, parece natural para extender el resultado directamente. Hay, sin embargo, un cabo
suelto en la que theMLE casi nunca es imparcial. Como tal, necesitamos una versin asinttica de la cota, la cual fue
proporcionada por Cram' er
(1948) y Rao (1945) (de ah el nombre):
Teorema 17.4 Cram' er-Rao

Suponiendo que la densidad de y yo satisface la condiciones de regularidad R1-R3, la varianza asinttica de un
estimador consistente y asintticamente distribuido normalmente del vector de parmetros 0 siempre ser al
menos tan grande como
[ 2 En L ( 0) ]) - 1 = ( [( En L ( 0) ) ( En L ( 0) ) ']) - 1
[ YO( 0)] - 1 = ( - mi 0 mi 0 .
0 '0 0 0
La varianza asinttica de theMLE es, de hecho, igual a la Cram' er-Rao

de la varianza de un estimador consistente, por lo que este completa el argumento. 3
INVARIANZA 17.4.5.d
Por ltimo, la propiedad de invariancia, M4, es resultado de amathematical themethod de MLEs de computacin; que no es un
resultado estadstico como tal. Ms formalmente, es invariante a theMLE doce y cincuenta y nueve de la noche transformaciones
de . Cualquier transformacin que no es uno a uno o bien hace que el modelo de incalculable si se trata de uno a muchos o
impone restricciones si se trata de muchos a uno. Algunos aspectos tericos de esta caracterstica se discuten en Davidson y
MacKinnon (1993, pp. 253-255). Para el practicante, el resultado puede ser extremadamente til. Por ejemplo, cuando un
parmetro aparece en una funcin de probabilidad de la forma 1 / j, es por lo general vale la pena reparametrizar el modelo en
trminos de j = 1 / j. En una aplicacin importante, Olsen (1978) utiliz este resultado con gran ventaja. (Vase la Seccin
22.2.3.) Supongamos que el diario de probabilidad normal en el Ejemplo 17.2 se parametriza en trminos de la parmetro de
precisin,
2 = 1 / 2. El diario de probabilidad se convierte
norte
En L ( , 2) = - ( norte/ 2) ln (2 ) + ( norte/ 2) ln 2 - 2 ( y yo - ) 2.
2
i=1
El MLE para es evidente que an x. Pero la ecuacin de probabilidad 2 es ahora

[ ] = 0,

En L ( , 2) / 2 = 1 norte/ 2 - norte ( y yo - ) 2
2
i=1
que tiene solucin 2 = norte/ norte i = 1 ( y yo - ) 2 = 1 / 2, como se esperaba. Hay un segundo implica-
catin. Si se desea analizar una funcin de anMLE, entonces la funcin de ser, en s,
ser el MLE.
CONCLUSIN 17.4.5.e
Estas cuatro propiedades explican la prevalencia de la tcnica de mxima verosimilitud en la econometra. El

segundo facilita en gran medida la prueba de hiptesis y la construccin de las estimaciones de intervalo. El tercero
es resultado aparticularlypowerful. TheMLEhas mnima varianza alcanzable por un estimador consistente y
asintticamente distribuido normalmente.
17.4.6 ESTIMACIN la varianza ASINTTICA

Del estimador de mxima verosimilitud
La matriz de covarianza asinttica del estimador de probabilidad mxima es una matriz de parmetros que deben
ser estimadas (es decir, que es una funcin de la 0 que est siendo estimado). Si la forma de los valores esperados
de las segundas derivadas de la loglikelihood se conoce, a continuacin,
[ 2 En L ( 0) ]} - 1
[ YO( 0)] - 1 = { - mi 0 (17-16)
0 '0
3 Un resultado reportado por LeCam (1953) y se relata en Amemiya (1985, p. 124) sugiere que, en principio, s existen funciones lata de los datos con
las variaciones ms pequeas que la MLE. Pero el hallazgo es el resultado estrecho sin consecuencias prcticas. A efectos prcticos, la declaracin
puede ser tomado como dado.
puede ser evaluado en para estimar la matriz de covarianza para el MLE. este estimador
poco frecuente que existan. Las segundas derivadas del logaritmo de la verosimilitud casi siempre ser complicadas
funciones no lineales de los datos cuyos valores exacta esperada ser desconocido. Hay, sin embargo, dos
alternativas. Un segundo estimador es
) -1
)
[ YO()]
- 1 = ( - 2 En L ( . (17-17)
'
Este estimador se computedsimplybyevaluating theactual (no esperado) secondderivatives matriz de la funcin de

probabilidad logartmica en las estimaciones de mxima verosimilitud. Es fcil demostrar que esto equivale a la
estimacin de las segundas derivadas esperados de la densidad con la media de la muestra de esta cantidad.
TheoremD.4 y Resultados (D-5) se pueden utilizar para justificar el clculo. El nico defecto de este estimador es que
las segundas derivadas pueden ser complicados para derivar y un programa para un ordenador. Un tercer estimador
basado en el resultado D3 en el teorema 17.2, que la matriz de segundas derivadas esperado es la matriz de
covarianza de la fi derivados primeros vector es
]-1=[

[ YO()]
- 1 = [ norte gramo
gramo
gramo
yo
yo ' GRAMO
GRAMO]
' - 1, (17-18)
i=1
dnde
)
gramo i = En f ( x yo ,
gramo

G = [
G gramogramo
1, 2, . . . , gramo
gramo norte] '.
GRAMO es un norte K matriz con yo fila igual a la transpuesta de la yo simo vector de derivados en los trminos de
GRAMO
la funcin de probabilidad logartmica. Para un solo parmetro, este estimador es el recproco de la suma de los
cuadrados de los derivados primeros. Este estimador es muy conveniente, en la mayora de los casos, ya que no
requiere ningn clculo all de las requeridas para resolver la ecuacin de verosimilitud. Tiene adems la virtud de que
siempre es no negativo de fi nita. Para algunas funciones de probabilidad logartmica extremadamente complicadas, a
veces por error de redondeo, la observado Arpillera puede ser inde finito, incluso en el mximo de la funcin. El
estimador de (17-18) se conoce como el BHHH estimador 4 y el producto externo de los gradientes, o OPG, estimador.
Ninguno de los tres estimadores que se dan aqu es preferible a los dems por motivos estadsticos; todos son
asintticamente equivalente. En la mayora de los casos, el estimador BHHH ser el ms fcil de calcular. Una precaucin
est en orden. Como muestra el ejemplo de abajo ilustra, estos estimadores pueden dar resultados diferentes en una
muestra finita. Se trata de un problema de muestra finita inevitables que pueden, en algunos casos, dar lugar a diferentes
conclusiones estadsticas. El ejemplo es un caso en punto. Usando los procedimientos habituales, se rechazar la hiptesis
de que = 0 si se utilizaron cualquiera de los dos primeros estimadores de la varianza, pero no si el thirdwere utilizado. El
estimador de (17-16) es por lo general no est disponible, ya que la expectativa exacta del de Hesse rara vez se conoce. La
evidencia disponible sugiere que en muestras pequeas o moderadas, (17-17) (la de Hesse) es preferible.
4 Parece haber sido defendido primera en la literatura econometra en Berndt et al. (1974).
Ejemplo 17.4 estimadores de la varianza para un MLE

Los datos de la muestra en el Ejemplo C.1 son generados por un modelo de la forma
f (y yo , x yo , ) = 1 mi - yi / ( + xi) ,
+ x yo
dnde y = ingresos y x = educacin. Para hallar la estimacin de mxima verosimilitud de , maximizamos
y yo
En L ( ) = - norte ln ( + x yo ) - norte .
+ x yo
i=1 i=1
La ecuacin de probabilidad es
En L ( )
1 norte y yo
+ (17-19)
= - norte + x yo ( + x yo ) 2 = 0,
i=1 i=1
que tiene la solucin = 15,602727. Para calcular la varianza asinttica del MLE, nos
exigir
2 En L ( )
1 ( + x yo ) 2 - 2
norte
y yo
= norte (17-20)
2 ( + x yo ) 3.
i=1 i=1
Dado que la funcin E (y i) = + x yo se conoce, se conoce la forma exacta del valor esperado de (17-20). Insercin + x yo para y yo en
(17-20) y tomando los rendimientos recprocos la estimacin de la varianza primera, 44,2546. simplemente insertando
= 15.602727 en (17-20) y tomando el negativo de la
recproco da la segunda estimacin, 46.16337. Por ltimo, mediante el clculo de la inversa de la suma de cuadrados de los
derivados primeras de las densidades evaluadas en ,
1
[ YO()]
-1= norte
i=1[ - 1 / ( + x yo ) + y yo /( + x yo ) 2] 2,
obtenemos la estimacin BHHH, 100.5116.
17.4.7 probabilidades condicionales y los modelos economtricos
Todos los resultados anteriores forman los fundamentos estadsticos de la tcnica de estimacin de mxima verosimilitud. Sin
embargo, para nuestros propsitos, un elemento crucial es que falta. Hemos hecho el anlisis en trminos de la densidad de
una variable aleatoria observada y un vector de parmetros, f (y i | ). Sin embargo, los modelos economtricos implicarn
variables exgenas o predeterminadas, x yo , por lo que los resultados deben ser extendidos. Un enfoque viable es tratar a este
marco de modelado el mismo que el que est en el captulo 5, donde se consideraron las grandes propiedades de la muestra
del modelo de regresin lineal. Por lo tanto, vamos a permitir x yo para denotar una mezcla de variables aleatorias y constantes
que entran en la densidad condicional de y yo . Mediante la particin de la densidad conjunta de y yo y x yo en el producto de la
condicional y el marginal, la funcin de probabilidad logartmica puede ser escrita

En L ( | datos) = norte En f (y yo , x i | ) = norte En f (y i | x yo , ) + norte En gramo( x i | ),
i=1 i=1 i=1
donde cualquier elemento estocsticas en x yo tal como una tendencia en el tiempo o variable ficticia, se estn llevando a como
constantes. Con el fin de continuar, vamos a suponer que lo hacamos antes de que el
generadora de proceso x yo se lleva a cabo fuera del modelo de inters. Para los fines actuales, lo que significa que los
parmetros que aparecen en las gramo( x i | ) no se superponen con los que aparecen en f (y i | x yo , ). Por lo tanto, dividimos dentro
[ , ] por lo que la funcin de probabilidad logartmica se puede escribir

En L ( , | datos) = norte En f (y yo , x i | ) = norte En f (y i | x yo , ) + norte En gramo( x i | ).
i=1 i=1 i=1
Mientras y no tienen elementos en comn y no hay restricciones a conectar (por ejemplo, + = 1), entonces las dos
partes de la probabilidad de registro pueden ser analizados por separado. En la mayora de casos, la distribucin marginal
de x yo ser de inters secundario (o no).
resultados asintticos para el estimador de mxima verosimilitud condicional ahora deben dar cuenta de la presencia de x
yo en las funciones y derivados de ln f (y i | x yo , ). Vamos a proceder bajo el supuesto de los datos de buen comportamiento para
que los promedios de la muestra, tales como
norte
( 1 / norte) En L ( | Y, X) = 1 En f (y i | x yo , )
norte
i=1
y su gradiente con respecto a convergern en probabilidad a sus expectativas de la poblacin. Tambin tendremos
que invocar teoremas del lmite central para establecer la normalidad asinttica de la pendiente del logaritmo de
verosimilitud, a fin de poder caracterizar la propia MLE. Vamos a dejar a ms tratados por adelantado como
Amemiya (1985) y Newey y McFadden (1994) para establecer las condiciones espec fi cas y los puntos de fi ne que
deben asumir para reclamar las propiedades habituales para estimadores de mxima verosimilitud. Para los fines
actuales (y la gran mayora de aplicaciones empricas), las siguientes suposiciones mnimas deberan bastar:
espacio de parmetros. espacios de parmetros que tienen lagunas y no convexidades en ellos generalmente
desactivar estos procedimientos. Un problema de estimacin que produce este fallo es el de estimar un parmetro
que puede tomar slo uno entre un conjunto discreto de valores. Por ejemplo, este conjunto de procedimientos no
incluye estimar el momento de un cambio estructural en un modelo. (Vase la Seccin 7.4.) La funcin de
probabilidad debe ser una funcin continua de un espacio de parmetros convexa. Nos permitimos espacios de
parmetros acotados, como > 0 en el modelo de regresin, por ejemplo.
capacidad fi cacin. La estimacin debe ser factible. Este es el tema de la definicin 17.1 relativa
identificacin y la discusin que rodea.
As se comportaron los datos. Leyes de los grandes nmeros se aplican a la muestra medios que implican los datos y alguna
forma de teorema del lmite central (generalmente Lyapounov) se pueden aplicar al gradiente. estacionariedad ergdico es lo
suficientemente amplia como para abarcar cualquier situacin que pueda surgir en la prctica, aunque es probablymore
necesidad thanwe general para la mayora de las aplicaciones, ya que no vamos a encontrar observaciones dependientes
especficamente hasta ms tarde en el libro. Las de fi niciones en el captulo 5 se supone que mantenga general.
Con estos en su lugar, el anlisis es esencialmente la misma en carcter como que hemos utilizado en la inChapter
regressionmodel lineal 5 y sigue con precisin a lo largo de las lneas de Section16.5.
17.5 TRES asintticamente PROCEDIMIENTOS prueba equivalente
Las siguientes secciones discutirn los procedimientos de prueba ms comnmente utilizados: el cociente de probabilidad,
las pruebas de Wald multiplicadores, y Lagrange. [Extensa discusin de estos procedimientos se da en Godfrey (1988).]
Consideramos estimacin de mxima verosimilitud de un parmetro y una prueba de la hiptesis MARIDO 0: do( ) = 0. La
lgica de las pruebas se puede ver en la Figura 17.2. 5 En la figura se representa grficamente la funcin de probabilidad
logartmica ln L ( ), su derivada con respecto a , re En L ( ) / re , y la restriccin do( ). Hay tres enfoques para probar la
hiptesis sugiere en la figura:
prueba de razn de verosimilitud. Si la restriccin do( ) = 0 es vlido, entonces la imposicin no debe dar lugar a
una gran reduccin de la funcin de probabilidad logartmica. Por lo tanto, basamos la prueba de la diferencia, ln L T - En
L R, dnde L T es el valor de la funcin de probabilidad en el valor sin restricciones de y L R es el valor de la funcin de
probabilidad en la estimacin restringida.
prueba de Wald. Si la restriccin es vlida, entonces do( MLE) debe estar cerca de cero desde
el MLE es consistente. Por lo tanto, la prueba se basa en do( MLE). Rechazamos la
hiptesis de si este valor es significativamente diferente de cero.
prueba multiplicador de Lagrange. Si la restriccin es vlida, entonces el estimador restringidas estarn cerca
del punto que maximiza la probabilidad log-. Por lo tanto, la pendiente de la funcin de probabilidad logartmica
debe estar cerca de cero en el estimador restringido. La prueba se basa en la pendiente de la probabilidad
log-en el punto donde la funcin se maximiza sujeto a la restriccin.
Estas tres pruebas son asintticamente equivalente bajo la hiptesis nula, pero pueden comportarse de forma diferente en
una pequea muestra. Por desgracia, sus propiedades con muestras pequeas se desconocen, excepto en unos pocos
casos especiales. Como consecuencia, la eleccin entre ellos se hace tpicamente sobre la base de la facilidad de clculo.
La prueba de razn de verosimilitud requiere el clculo de ambos estimadores restringidos y sin restricciones. Si ambos son
fciles de calcular, a continuacin, esta forma de proceder es conveniente. La prueba de Wald requiere slo el estimador
sin restricciones, y la prueba del multiplicador de Lagrange requiere slo el estimador restringido. En algunos problemas,
uno de estos estimadores puede ser mucho ms fcil de calcular que el otro. Por ejemplo, un modelo lineal es simple de
estimar, pero se convierte en no lineal y engorroso si se impone una restriccin no lineal. En este caso, el estadstico de
Wald podra ser preferible. Alternativamente, las restricciones a veces queden reducidas a la eliminacin de la no
linealidad, lo que hara que el multiplicador de Lagrange pruebe el procedimiento ms simple.
17.5.1 LA PRUEBA PROBABILIDAD RATIO
Dejar beavector de parmetros tobeestimated, y dejar MARIDO 0 especifique algn tipo de restriccin en estos parmetros.
Dejar T ser themaximum estimador de probabilidad de obtainedwithout
Respecto a las limitaciones, y dejar R ser el estimador de mxima verosimilitud restringida.
Si L T y L R son las funciones de verosimilitud evaluados en estas dos estimaciones, entonces el
5 Ver Buse (1982). Tenga en cuenta que la escala del eje vertical sera diferente para cada curva. Como tal, los puntos de interseccin no tienen ninguna
significacin.
En L ( )
d ln L ( ) re
do( )
d ln L ( ) re
En L
ndice de
probabilidad
ln L R
En L ( )
do( )
multiplicador de
Lagrange
Wald
0
^R ^ MLE
FIGURA 17.2 Tres Bases para Pruebas de hiptesis.
ndice de probabilidad es
LR
= . (17-21)
L T
L
Esta funcin debe estar entre cero y uno. Ambas probabilidades son positivos, y LR
no puede ser mayor que L U. ( Una ptima restringida nunca es superior a una sin restricciones
uno). Si es demasiado pequeo, entonces se pone en duda en las restricciones.
Un ejemplo de una distribucin discreta ayuda a fi x estas ideas. En la estimacin de una muestra de 10 froma
distribucin de Poisson en el comienzo de la Seccin 17.3, encontramos el
MLE del parmetro a ser 2. En este valor, la probabilidad, que es la probabilidad de observar la muestra que
hicimos, es 0,104 10 - 8. Son consistentes con estos datos MARIDO 0: = 1.8?
L R = 0,936 10 - 9, que es, como se esperaba, ms pequeo. Esta muestra particular es algo menos probable bajo la
hiptesis.
El procedimiento de prueba formal se basa en el siguiente resultado.
TEOREMA 17.5 que limita la distribucin de la relacin de probabilidad

Estadstica de prueba
Bajo la regularidad y bajo H 0, la gran distribucin de la muestra de - 2 ln se ji cuadrada, con grados de

libertad igual al nmero de restricciones impuestas.
La hiptesis nula se rechaza si este valor es superior al valor crtico apropiado de las tablas de chi-cuadrado.
Por lo tanto, para el ejemplo de Poisson,
( 0,0936 )
- 2 ln = - 2 ln = 0,21072.
0,104
Esta estadstica de chi-cuadrado con un grado de libertad no es significativo en cualquier nivel convencional, por lo
que no rechazara la hiptesis de que = 1.8 sobre la base de esta prueba. 6
Es tentador usar la prueba de razn de verosimilitud para probar una hiptesis nula simple contra una alternativa
simple. Por ejemplo, podemos estar interesados en el establecimiento de Poisson en la prueba MARIDO 0: = 1.8 contra MARIDO
1: = 2.2. Pero la prueba no puede ser utilizado de esta manera. Los grados de libertad de la estadstica de ji cuadrado para la
prueba de razn de verosimilitud es igual a la reduccin de thenumber de las dimensiones en el espacio theparameter que
los resultados fromimposing las restricciones. Al comprobar si una hiptesis nula simple contra una alternativa sencilla, este
valor es cero. 7 En segundo lugar, a veces se encuentra un intento de probar una hiptesis de distribucin contra otro con una
prueba de razn de verosimilitud; por ejemplo, se estima un cierto modelo suponiendo una distribucin normal y luego
asumiendo una t distribucin. se compara entonces la relacin de las dos probabilidades para determinar qu distribucin se
prefiere. Esta comparacin tambin es inapropiada. Los espacios de parmetros, y por lo tanto las funciones de verosimilitud
de los dos casos, no estn relacionados.
TEST 17.5.2 Wald
Un inconveniente prctico de la prueba de razn de verosimilitud es que por lo general requiere la estimacin de ambos los
vectores de parmetros con y sin restricciones. En los modelos complejos, una u otra de estas estimaciones pueden ser
muy difciles de calcular. Afortunadamente, existen dos procedimientos de ensayo alternativos, la prueba de Wald y la
prueba del multiplicador de Lagrange, que eluden este problema. Ambas pruebas se basan en un estimador que se
asintticamente distribuye normalmente.
6 Por supuesto, el uso del resultado de muestra grande en una muestra de 10 podra ser cuestionable.
7 Tenga en cuenta que debido a que ambas probabilidades estn restringidos en este caso, no hay nada que impida - 2 ln de ser negativo.
Estas dos pruebas se basan en la distribucin de la forma cuadrtica de rango completo considerado en la Seccin
B.11.6. Especficamente,
Si x ~ norte J [ ,?], entonces ( x - ) ' - 1 ( x - ) ~ Chi-cuadrado [ J]. (17-22)
En el contexto de una prueba de hiptesis, bajo la hiptesis de que MI( x) = , la forma cuadrtica tiene la distribucin
chi-cuadrado. Si la hiptesis de que MI( x) = es falso, sin embargo, a continuacin, la forma cuadrtica que acabamos de
dar, en promedio, ser ms grande de lo que sera si la hiptesis fuera cierta. 8 Esta condicin es la base de las estadsticas
de prueba analizados en este y el siguiente apartado.
Dejar ser el vector de estimaciones de los parmetros obtenidos sin restricciones. Nuestra hiptesis es un conjunto de
restricciones
MARIDO 0: do( ) = q.
Si las restricciones son vlidas, entonces por lo menos aproximadamente debe satisfacerlas. Si el
hiptesis es errnea, sin embargo, a continuacin, do( ) - q debera estar ms lejos de 0 lo que lo hara
explicarse por la variabilidad del muestreo solo. El dispositivo se utiliza para formalizar esta idea es la prueba de Wald.
Teorema 17.6 que limita la distribucin de la hiptesis Estadstico de Wald

El estadstico de Wald es
W = [ do( ) - q] '( Asy.Var [ do( ) - q]) - 1 [ do( ) - q].
bajo H 0, en muestras grandes, W tiene una distribucin chi-cuadrado con grados de libertad igual al
nmero de restricciones [es decir, el nmero de ecuaciones en
do()
)
- q = 0]. Aderivation de la distribucin lmite de theWald estadstica aparece en el teorema 6.15.
Esta prueba es anloga a la estadstica de chi-cuadrado en (17-22) si do( ) - q es normalmente

distributedwith la hypothesizedmean de 0. Un valor grande de W conduce al rechazo de la hiptesis. Tenga en cuenta,
finalmente, que W slo requiere clculo del modelo no restringido. Onemust todava calcular
thecovariancematrixappearing en forma theprecedingquadratic. Este resultado es la varianza de una funcin
posiblemente no lineal, que hemos tratado anteriormente.
Est. Asy. var [ do( ) - q] = do Est. Asy. var [ ] do

do ',
]
) (17-23)
C = [ do(
C .
'
Es decir, do es el J K matriz cuyas j fila es los derivados de la j restriccin con respecto a la K elementos de . Una
aplicacin comn se produce en la prueba de un conjunto de restricciones lineales.
8 Si la media no es , a continuacin, la estadstica de (17-22) tendr una no central de distribucin de chi-cuadrado. Este distributionhas la forma
samebasic como el chi-squareddistribution central, con los samedegrees de libertad, pero se encuentra a la derecha de la misma. Por lo tanto, un
sorteo de la distribucin no central tender, en promedio, para ser ms grande que una observacin aleatoria de la distribucin central.
Para la prueba de un conjunto de restricciones lineales R = q, la prueba de Wald se basara en
MARIDO 0: do( ) - q = R - q = 0,
] = R ',
)
C = [ do(
C (17-24)
'
Est. Asy. var [ do( ) - q] = R Est. Asy. var [ ] R,
W = [ R - q] '[ R Est. Asy. var ( ) R '] - 1 [ R - q].
Los grados de libertad es el nmero de filas en R.

Si do( ) - q es una sola restriccin, entonces prueba theWald ser la misma que la prueba basada en el intervalo de confianza
con fi desarrollado previamente. Si la prueba es
MARIDO 0: = 0 versus MARIDO 1: = 0,
entonces la prueba anterior se basa en
- 0|
z=| (17-25)
s ( ),

dnde s ( ) es el error estndar estimado asinttica. La estadstica de prueba se compara con el valor apropiado
de la tabla normal estndar. La prueba de Wald se basar en
- 0) 2
W = [( - 0) - 0] (Asy. Var [( - 0) - 0]) - 1 [( - 0) - 0] = (
Asy. var [ ] = z 2. ( 17-26)
aqu W tiene una distribucin chi-cuadrado con un grado de libertad, que es la distribucin del cuadrado de la
estadstica de prueba normal estndar en (17-25).
En resumen, la prueba de Wald se basa en medir el grado en que las estimaciones de libre disposicin no
satisfacen las restricciones hiptesis. Hay dos deficiencias de la prueba de Wald. En primer lugar, se trata de una prueba
de signi fi cado pura en contra de la hiptesis nula, no necesariamente para una hiptesis alternativa especfica. Como
tal, su poder puede ser limitado en algunos escenarios. De hecho, la estadstica de prueba tiende a ser bastante grande
en las aplicaciones. El segundo defecto no es compartida por cualquiera de las otras pruebas estadsticas discutidos
aqu. El estadstico de Wald no es invariante a la formulacin de las restricciones. Por ejemplo, para una prueba de la
hiptesis de que una funcin = / ( 1 - ) es igual a un valor c especificidad q hay dos enfoques que se podra elegir.
Awald prueba basada directamente en - q = 0 usara un estadstico basado en la varianza de esta funcin no lineal. Un
enfoque alternativo sera analizar la restriccin lineal - q ( 1 - ) = 0, que es un equivalente, pero lineal, restriccin. Las
estadsticas de Wald para estas dos pruebas podran ser diferentes y podran dar lugar a diferentes inferencias. Estas
dos deficiencias han sido ampliamente visto como argumentos de peso contra el uso del test de Wald. Pero, a su favor,
la prueba de Wald no se basa en una fuerte suposicin de distribucin, al igual que el cociente de probabilidad y pruebas
de multiplicadores de Lagrange. La literatura economtrica reciente est repleta de aplicaciones que se basan en
procedimientos de estimacin libre distribucin, como el mtodo GMM. Por lo tanto, en los ltimos aos, la prueba de
Wald ha disfrutado de una redencin de las clases.
17.5.3 LA PRUEBA multiplicador de Lagrange
El tercer procedimiento de ensayo es el Multiplicadores de Lagrange (LM) o puntuacin e fi ciente ( o solo Puntuacin)
prueba. Se basa en el modelo restringido en lugar del modelo no restringido. Supongamos que se maximiza la
probabilidad log-sujetos al conjunto de restricciones do( ) - q = 0. Dejar ser un vector de multiplicadores de Lagrange y
definen la funcin de Lagrange
En L * ( ) = En L ( ) + '( do( ) - q).
La solucin al problema de maximizacin restringida es la raz de
En L *
= En L ( ) + do ' = 0,
(17-27)
En L *
= do( ) - q = 0,
dnde do ' es la transpuesta de la matriz de derivados en la segunda lnea de (17-23). Si las restricciones son vlidas,
entonces imponerlos no darn lugar a una diferencia significativa en el valor maximizado de la funcin de verosimilitud. En las
condiciones de primer orden, el significado es que el segundo trmino en el vector derivado ser pequeo. En particular, ser
pequeo. Podramos probar esto directamente, es decir, la prueba MARIDO 0: = 0, lo que conduce a la prueba del multiplicador
de Lagrange. Existe una formulacin ms simple equivalente, sin embargo. En la mxima restringida, las derivadas de la
funcin de probabilidad logartmica son
En L ( R)
=- do '
= gramo R. (17-28)
R
Si las restricciones son vlidas, por lo menos dentro del intervalo de variabilidad de la muestra, a continuacin, gramo R = 0.
Es decir, los derivados de la probabilidad log-evaluada en el vector de parmetros restringido sern de aproximadamente
cero. El vector de derivados primeros del diario de probabilidad es el vector de puntajes e fi cientes. Dado que la prueba se
basa en este vector, se llama la Resultado de prueba
as como la prueba del multiplicador de Lagrange. La varianza del vector de primera derivada es la matriz de informacin,
que hemos utilizado para calcular la matriz de covarianza asinttica de la MLE. La estadstica de prueba se basa en un
razonamiento anlogo al que subyace a la estadstica de prueba Wald.
TEOREMA 17.7 que limita la distribucin de la Lagrange

multiplicador de Estadstica
La estadstica de prueba es multiplicador de Lagrange
) ' ( En L ( )
R) R)
LM = ( En L ( [ YO( R)] - 1 .
R R
Bajo la hiptesis nula, LMHAs una limitacin de chi-squareddistributionwithdegrees de libertad igual al

nmero de restricciones. Todos los trminos se computarn por el estimador restringido.
El estadstico LM tiene una forma til. Dejar gramo i R denotar la yo simo trmino en el gradiente de
la funcin de probabilidad logartmica. Entonces,

gramo R = n
gramo gramo i R = GRAMO
gramo GRAMO ' R yo,
i=1
dnde GRAMO R es el norte K matriz con yo fila igual a gramo ' iRy yo es una columna de 1s. Si utilizamos
el estimador BHHH (producto exterior de gradientes) en (17-18) para estimar la Hessian, entonces
[ YO()]
-1=[ GRAMO 'R
GRAMO R] - 1
LM = yo ' GRAMO
GRAMO
R [ GRAMO
'R R] -GRAMO
1 ' R yo.
Ahora, ya yo ' yo es igual norte, LM = norte( yo ' GRAMO R [ GRAMO

GRAMO 'R R] -GRAMO
1 ' R yo/ n) = nR 2 yo , cual es norte veces el
uncentered squaredmultiple coeficiente de correlacin en una regresin lineal de una columna de 1s en las derivadas de la
funcin de probabilidad logartmica calculada en el estimador restringido. Nos encontraremos con este resultado en varias
formas en varios puntos en el libro.
17.5.4 UNA SOLICITUD DE LA PROBABILIDAD

PROCEDIMIENTOS prueba basada
Consideremos, de nuevo, los datos en el Ejemplo C.1. En el Ejemplo 17.4, el parmetro en el modelo
f (y i | x yo , ) = 1 mi - y yo /( + x yo ) (17-29)
+ x yo
fue estimado por mxima verosimilitud. Para mayor comodidad, y mucho i = 1 / ( + x yo ). Esta densidad exponencial es una
forma restringida de una distribucin ms general gamma,
yo
f (y i | x yo , , ) = yo
mi - y yo yo . (17-30)
() y - 1
La restriccin es = 1. 9 Consideramos que probar la hiptesis
MARIDO 0: = 1 frente MARIDO 1: = 1
utilizando los diversos procedimientos describedpreviously. El diario de probabilidad y sus derivados son
norte norte
En L ( , ) = En yo - norte ln ( ) + ( - 1) En y yo - norte y yo yo ,
i=1 i=1 i=1
En L norte En L
i+n y yo 2yo , En yo - n ( ) + norte En y yo , (17-31)
= - = norte
i=1 i=1 i=1 i=1
2 En L norte norte 2 En L 2 En L
2yo - 2 y yo 3yo , yo .
2 = 2 = - norte '( ), = - norte
i=1 i=1 i=1
9 La funcin gamma ( ) y la distribucin gamma se describen en secciones B.4.5 y E.5.3.

TABLA 17.1 Las estimaciones de mxima verosimilitud
Cantidad Estimacin sin restricciones un Estimacin restringida
- 4,7198 (2,344) 15,6052 (6.794)

3,1517 (0,7943) 1,0000 (0,000)
En L - 82.91444 - 88.43771
En L / 0.0000 0.0000
En L / 0.0000 7.9162
2 En L / 2 - 0.85628 - 0.021659
2 En L / 2 - 7.4569 - 32.8987
2 En L / - 2.2423 - 0.66885
un Estimacin de los errores estndar asintticos basado en V se dan entre parntesis.
[Recordar que () = re ln ( ) / re y '( ) = re 2 ln ( ) / re 2.] mximo sin restricciones

estimaciones de probabilidad de y se obtiene igualando los derivados primeros dos fi a cero. La estimacin de mxima
verosimilitud restringida de se obtiene igualando En L / a cero, mientras que se fijan de acuerdo. Los resultados se
muestran en la Tabla 17.1. Tres estimadores estn disponibles para la matriz de covarianza asinttica de los estimadores
de = ( , ) '. Utilizando el grupo de accin real como en (17-17), calculamos V = [ - yo 2 En L / '] - 1 en las estimaciones de
mxima verosimilitud. Para este modelo, es fcil demostrar que E [y i | x i] = ( + x yo )
(Ya sea por integracin directa o, ms simplemente, usando el resultado de que MI[ En L / ] = 0 deducirlo). Por lo tanto,
tambin podemos utilizar el grupo de accin esperada como en (17-16) para calcular V E = { - yo MI[ 2 En L / ']} - 1. Por ltimo,
mediante el uso de las sumas de cuadrados y productos cruzados de los derivados de primeros, obtenemos el estimador
BHHH en (17-18), V B =
[ yo ( En L / ) ( En L / ')] - 1. Resultados en la Tabla 17.1 se basan en V.
Los tres estimadores de la covariancematrix asinttica producen notablemente diferentes resultados:
] ] ]
V = [ 5.495 - 1.652 , V E = [ 4,897 - 1.473 , V B = [ 13.35 - 4.314 .
- 1.652 0.6309 - 1.473 0.5770 - 4.314 1.535
Dado el pequeo tamao de la muestra, las diferencias son Tobe espera. No obstante, la notable diferencia del
estimador BHHH es tpico de su funcionamiento errtico en muestras pequeas.
La confianza Intervalo de prueba: Un 95 por ciento c en fi d intervalo de ENCE para sobre la base de las estimaciones
de libre disposicin es 3,1517 1.96 0,6309 = [1,5942, 4,7085]. Este intervalo no contiene = 1, por lo que se rechaza la
hiptesis.
Relacin de probabilidad de prueba: La estadstica es LR = - 2 [ - 88.43771 - (- 82.91444)] =
11.0465. El valor de la tabla de la prueba, con un grado de libertad, es 3.842. Dado que el valor calculado
es mayor que este valor crtico, se rechaza la hiptesis de nuevo.
Prueba de Wald: La prueba de Wald se basa en las estimaciones de libre disposicin. Para esta restriccin, do( ) - q = - 1, corriente
continua( ) / re = 1, Est.Asy. var [ do( ) - q] = Est.Asy. var [ ] =

0.6309, por lo W = ( 3.1517 - 1) 2 / [ 0,6309] = 7,3384.
El valor crtico es el mismo que el anterior. Por lo tanto, MARIDO 0 se rechaza una vez ms. Tenga en cuenta que la estadstica de
Wald es el cuadrado de las Corres Pondi estadstica de prueba ng que se utilizara en el intervalo de confianza de prueba en contra, |
3,1517 - 1 | / 0,6309 = 2,70895.
Lagrange prueba multiplicador: La prueba del multiplicador de Lagrange se basa en los estimadores restringidos.
La matriz de covarianza asinttica estimado de los derivados utilizados para calcular la estadstica puede ser
cualquiera de los tres estimadores discutidos anteriormente. El estimador BHHH, V SEGUNDO, es el estimador emprico
de la varianza de la pendiente y es la que generalmente se usa en la prctica. Este clculo produce
[ 0.0099438 ] - 1 [ 0.0000 ] = 15.687.

0.26762
LM = [0,0000 7,9162]
0.26762 11.197 7.9162
La conclusin es la misma que antes. Tenga en cuenta que el mismo clculo realizado utilizando V ms bien que V
segundo produce un valor de 5,1182. Como antes, se observa la variacin de muestra pequeo sustancial producida por
los diferentes estimadores. Las tres ltimas estadsticas de prueba tienen valores sustancialmente diferentes. Es
posible llegar a conclusiones diferentes, dependiendo de la que se utiliza una. Por ejemplo, si la prueba se ha llevado
a cabo en el nivel de 1 por ciento de significacin en lugar de 5 por ciento y LM haba sido calculada utilizando V, entonces
el valor crtico del estadstico chi-cuadrado habra sido 6.635 y la hiptesis no habra sido rechazada por el lmtest.
Asintticamente, las tres pruebas son equivalentes. Pero, en una muestra finita como este, las diferencias son de
esperar. 10 Desafortunadamente, no existe una regla clara para la forma de proceder en tal caso, lo que pone de
relieve el problema de depender de un nivel de signi fi cado particular y dibujando una fi rma rechazar o aceptar
conclusin basada en la evidencia muestra.
17.6 APLICACIONES DE ESTIMACIN mxima verosimilitud
A continuacin examinaremos tres aplicaciones del estimador de mxima verosimilitud. El primero se extiende los
resultados de los captulos 2 a 5 para la regressionmodel lineal con perturbaciones distribuidas normalmente. En la
segunda aplicacin, que fi t un modelo de regresin no lineal por mxima verosimilitud. Esta aplicacin ilustra el
efecto de la transformacin de la variable dependiente. La tercera aplicacin es un uso relativamente sencillo de la
tcnica de mxima probabilidad en un modelo no lineal que no implica la distribucin normal. Esta aplicacin ilustra
los tipos de extensiones de theMLE en la configuracin que se apartan de la modelo lineal de los captulos
anteriores y que son tpicos en el anlisis economtrico.
17.6.1 LA NORMAL modelo de regresin lineal
El modelo de regresin lineal es
yi= x' yo + yo .
La funcin de probabilidad para una muestra de norte perturbaciones independientes, distribuidas idnticamente y normalmente
se
L = ( 2 2) - norte/ 2 mi - ' / ( 2 2). (17-32)
10 Para una mayor discusin de este problema, consulte Berndt y Savin (1977).
La transformacin de yo a y yo es i = y yo - x ' yo , entonces el jacobiano para cada observacin,
| yo / y i |, es uno. 11 Logrando que la transformacin, se encuentra que la funcin de verosimilitud para el norte las observaciones
de la variable aleatoria observada es
L = ( 2 2) - norte/ 2 mi( - 1 / (2 2)) ( y - x ) '( y - x ). (17-33)
Para maximizar esta funcin con respecto a , ser necesario para maximizar el exponente o minimizar la suma de los
cuadrados familiarizado. Tomando los registros, se obtiene la funcin de probabilidad logartmica para el modelo de regresin
clsica:
En L = - norte . (17-34)
2 ln 2 - norte 2 ln 2 - ( y - x ) '( y - x2)
2
Las condiciones necesarias para maximizar el diario de probabilidad son

En L x '( y - x )
]
2
= =[0 . (17-35)
0
En L - norte
2 2 2 + ( y - x ) '( y - 2x
)4
Los valores que satisfacen estas ecuaciones son
ML = ( x ' X) - 1 x ' y = b y 2 ML = mi ' mi (17-36)

n.
El estimador de la pendiente es el familiar, mientras que el estimador de la varianza difiere del valor de mnimos cuadrados por el
divisor de norte en lugar de norte - K. 12
el Cram' er-Rao de la varianza de un estimador insesgado es el negativo

inversa de la expectativa de

2 En L 2 En L
- x' x - x'
' 2 2 4
= .

(17-37)
2 En L 2 En L norte
- ' x
2 ' ( 2) 2 4 2 4 - ' 6
Al tomar los valores esperados, el trmino fuera de la diagonal se desvanece dejando

]
2 ( x ' X) - 1 0
[ YO( , 2)] - 1 = [ . (17-38)
0'
2 4 / norte
El estimador de mnimos cuadrados pendiente es el estimador de mxima verosimilitud para este modelo. Por lo tanto, hereda
todos los deseable asinttico propiedades de los estimadores de mxima verosimilitud.
Hemos demostrado anteriormente que s 2 = mi ' mi/( norte - K) es un estimador insesgado de 2. Por lo tanto, el estimador de
mxima verosimilitud est sesgado hacia cero:
)
] = norte - K
MI[ 2 ML 1-K 2 < 2. (17-39)
norte 2 = ( norte
11 Ver (B-41) en la seccin B.5. El anlisis de seguir est condicionada a X. Para evitar llenar la notacin, vamos a dejar este aspecto del modelo
implcito en los resultados. Como se seal anteriormente, se supone que los datos de proceso para generar x no implica o 2 y que los datos se
comportan bien como se discuti en el Captulo 5.
12 Como regla general, estimadores de mxima verosimilitud no hacen correcciones para grados de libertad.
A pesar de su sesgo pequea muestra, el estimador de mxima verosimilitud de 2 tiene las mismas propiedades
asintticas deseables. Vemos en (17-39) que s 2 y 2 slo difieren por un factor
- K / n, que se desvanece en muestras grandes. Es instructivo para formalizar la equivalencia asinttica de los dos. A
partir de (17-38), sabemos que
norte(
2 ML - 2) re - NORTE[ 0, 2 4].
Sigue
) )
norte(
zn=( 1-K 2 ML - 2) + K norte 2 re- ( 1-K NORTE[ 0, 2 4] + K norte 2.
norte norte
Pero K / norte y K / n desvanecer como norte , por lo que la distribucin lmite de z norte es tambin NORTE[ 0, 2 4].
Ya que z n = n (s 2 - 2), hemos demostrado que la distribucin asinttica de s 2 es la misma que la del estimador de
mxima verosimilitud.
La estadstica de prueba estndar para evaluar la validez de un conjunto de restricciones lineales en el modelo lineal, R - q
= 0, es el F proporcin,
F [J, n - K] = ( mi ' * mi * - mi ' mi)/ J .

mi ' mi/( norte - K) = ( rb - q) '[ R s 2 ( x ' X) - 1 R ']J - 1 ( rb - q)
Con perturbaciones distribuidas normalmente, la F prueba es vlida en cualquier tamao de la muestra. Sigue habiendo un
problema con restricciones no lineales de la forma do( ) = 0, ya que la contrapartida de F, que examinaremos aqu, tiene validez
solamente asintticamente incluso con perturbaciones distribuidas normalmente. En esta seccin, vamos a reconsiderar el
estadstico de Wald y examinar dos estadsticas relacionadas, el cociente de probabilidad estadstica y la estadstica
multiplicador de Lagrange. Estas estadsticas se basan tanto en la funcin de verosimilitud y, como el estadstico de Wald, en
general son vlidos slo asintticamente.
Sin simplicidad es adquirida por ceirnos a restricciones lineales en este punto, por lo que tendr en cuenta las
hiptesis generales de la forma
MARIDO 0: do( ) = 0,
MARIDO 1: do( ) = 0.
los estadstico de Wald para probar esta hiptesis y su distribucin lmite bajo MARIDO 0 sera
W = c (b) '{ C (b) [ 2 ( x ' X) - 1] C (b) '} - 1 c (b) re - 2 [ J], (17-40)
dnde
C (b) = [ c (b) / segundo ']. (17-41)
los relacin de probabilidad de prueba (LR) se lleva a cabo mediante la comparacin de los valores de la funcin
loglikelihood con y sin las restricciones impuestas. Dejamos a un lado por el momento cmo el estimador restringido segundo * se
calcula (excepto para el modelo lineal, lo que hemos visto anteriormente). La estadstica de prueba y est limitando su distribucin
bajo MARIDO 0 son
LR = - 2 [ln L * - En L] re - 2 [ J]. (17-42)
El diario de probabilidad para el regressionmodel se da en (17-34). Las condiciones de primer orden implican que,
independientemente de cmo las pendientes se calculan, el estimador de 2 sin
restricciones a la estarn 2 = ( y - xb) '( y - Xb) / norte y del mismo modo para un estimador restringido
*2= ( y - xb *) '( y - xb *) / n = mi ' * mi * / norte. los concentrado de probabilidad logartmica 13 estarn

En L c = - norte
2 [1 + ln 2 + ln ( mi ' mi/ norte)]
y del mismo modo para el caso restringido. Si insertamos estos en la definicin de LR, entonces obtenemos
LR = norte ln [ mi ' * mi * / mi ' e] = n ( En *2- En 2) = norte ln ( *2/ 2). (17-43)
los multiplicador de Lagrange (LM) prueba se basa en el gradiente de la funcin de probabilidad logartmica. El principio
de la prueba es que si la hiptesis es vlida, entonces en el estimador restringido, las derivadas de la funcin de probabilidad
logartmica debe estar cerca de cero. Hay dos maneras de llevar a cabo la prueba LM. La funcin de probabilidad logartmica
puede maximizarse sujeta a un conjunto de restricciones mediante el uso de
[ ] + ' do( ).
En L LM = - norte ln 2 + En 2 + [( y - x ) '( y - x )] / norte
2 2
Las condiciones de primer orden para una solucin son

En L LM
x '( y - x )
+ DO( ) '

2 0
En L LM
= - norte = 0 . (17-44)

2 2 2 + ( y - x ) '( y - 2x
)4 0
En L LM
do( )

Las soluciones a estas ecuaciones dan la estimador de mnimos cuadrados restringido, segundo *; el estimador de la varianza de
costumbre, ahora mi ' * mi * / norte; y los multiplicadores de Lagrange. Ahora hay dos maneras de calcular la estadstica de prueba. En el
contexto de la regressionmodel lineal clsica, cuando en realidad calculamos los multiplicadores de Lagrange, una manera
conveniente de proceder es poner a prueba la hiptesis de que los multiplicadores son iguales a cero. Para este modelo, la solucin
para * es * =
[ R (X ' X) - 1 R '] - 1 ( rb - q). Esta ecuacin es una lineal funcinde el estimador de mnimos cuadrados. Si llevamos a cabo una Wald prueba
de la hiptesis de que * es igual 0, entonces la estadstica ser
LM = ' * { Est. var [ *]} - 1 * = ( rb - q) '[ R s 2 *( x ' X) - 1 R '] - 1 ( rb - q). (17-45)
El estimador de la varianza perturbacin, s 2 *, basado en las pistas restringida es mi ' * mi * / norte.
Una forma alternativa de calcular el estadstico LM menudo produce resultados interesantes. situaciones ms ntimas,
wemaximize la funcin de probabilidad logartmica sin tener que calcular el vector de multiplicadores de Lagrange. (Las
restricciones son generalmente impuestas alguna otra manera.) Una manera alternativa de calcular la estadstica est
basada en el (general) resultado de que bajo la hiptesis que se prueba,
MI[ En L / ] = MI[( 1 / 2) x ' ] = 0
Asy. var [ En L / ] = - MI[ 2 En L / '] - 1 = 2 ( x ' X) - 1.14 (17-46)
13 Vase la Seccin E.6.3.
14 Esto hace uso del hecho de que el grupo de accin es diagonal por bloques.
Podemos probar la hiptesis de que en el estimador restringido, los derivados son iguales a cero. La estadstica
sera
LM = mi ' * X (X ' X) - 1 x ' mi * = nR 2 *.

(17-47)
mi ' * mi * / norte
En esta forma, el estadstico LM es norte veces el coeficiente de determinacin en una regresin de los residuos mi yo * = ( y yo
- x'
yo segundo *) en el conjunto de regresores.
Con un poco de manipulacin se puede demostrar que W = [n / (n - K)] JF y LR y LM son aproximadamente iguales a
esta funcin de F. 15 Los tres estadsticas convergen para JF como norte
aumenta. El modelo lineal es un caso especial en el que la estadstica de la LR se basa nicamente en el estimador sin
restricciones y en realidad no requiere clculo del estimador de mnimos cuadrados restringido, aunque el clculo de F En
qu consiste la mayor parte del clculo de segundo *. Dado que la funcin log es cncava, y W / n ln (1 + W / n), Godfrey
(1988) muestra tambin que W LR LM, por lo que para el modelo lineal, tenemos un ranking firme de las tres
estadsticas.
Existe amplia evidencia de que los resultados asintticos para estas estadsticas son problemticos en muestras
pequeas o de tamao moderado. [Vase, por ejemplo, Davidson y MacKinnon (1993, pp. 456-457).] Los verdaderos
distribuciones de los tres estadsticas implican los datos y los parmetros desconocidos y, como sugiere el lgebra,
convergen a la F distribucin
desde arriba. La implicacin es que los valores crticos de la distribucin chi-cuadrado es probable que sean demasiado pequeo; Es
decir, utilizando la limitacin de distribucin chi cuadrado en muestras pequeas o de tamao moderado es probable que exagerar
la significacin de los resultados empricos. Por lo tanto, en las aplicaciones, la ms conservadora F estadstica (o t para una
restriccin) es probable que sea preferible menos que los datos de uno son abundantes.
17.6.2 MXIMA VEROSIMILITUD ESTIMACIN DE NO LINEAL

Los modelos de regresin
En el captulo 9, se consider que los modelos de regresin no lineal en el que la no linealidad en los parmetros
apareci totalmente en el lado derecho de la ecuacin. Hay modelos en los que aparecen los parmetros de forma
no lineal en funcin de la variable dependiente tambin.
Supongamos que, en general, el modelo es
g (y yo , ) = marido( x yo , ) + yo .
Un enfoque para la estimacin sera de mnimos cuadrados, minimizando

S ( , ) = norte [ g (y yo , ) - marido( x yo , )] 2.
i=1
No hay ninguna razn para esperar que este mnimos cuadrados no lineales estimador sea consistente, sin embargo, a pesar
de que se di fi culto a mostrar este analticamente. El problema es que los mnimos cuadrados no lineales ignora el Jacobiano
de la transformacin. Davidson y MacKinnon (1993,
pag. 244) sugieren un argumento cualitativo, whichwe puede illustratewith un ejemplo. Suponer
y es positivo, g (y, ) = exp ( y) y marido( x, ) = x. En este caso, una solucin es obvio
15 Ver Godfrey (1988, pp. 49-51).

= 0 y -, que produce una suma de cuadrados de cero. Estimacin se convierte en un no-tema. Para este tipo de
modelo de regresin, sin embargo, la estimacin de mxima verosimilitud es consistente, e fi ciente, y generalmente no
apreciablemente ms difcil que los mnimos cuadrados.
Para perturbaciones distribuidas normalmente, la densidad de y yo es
|||| ( 2 2) - 1/2 mi - [ g (y yo , ) - marido( x yo , )] 2 / ( 2 2).
f (y i) = |||| yo
y yo
La jacobiana de la transformacin [ver (3-41)] es

|||| = |||| g (y yo , ) |||| = J yo .
J (y yo , ) = |||| yo
y yo y yo
Despus de recoger trminos, la funcin de probabilidad logartmica ser

i=1[ g (y yo , ) - marido( x yo , )] 2
En L = norte -1 En J (y yo , ) - norte . (17-48)
2 [ln 2 + En 2] + norte 2 2
i=1 i=1
En muchos casos, incluyendo las aplicaciones consideradas aqu, hay una inconsistencia en el modelo en el que
la transformacin de la variable dependiente puede descartar algunos valores. Por lo tanto, la normalidad asumido de
las perturbaciones no puede ser estrictamente correcto. En la funcin de produccin generalizada, hay una
singularidad en y i = 0 donde el jacobiano se vuelve infinita. Algunas investigaciones se ha hecho en especfico cmodi fi
cationes de themodel para dar cabida a la restriccin [por ejemplo, Poirier (1978) y Poirier andMelino (1978)], pero en
la prctica, la aplicacin tpica implica datos forwhich la restriccin es intrascendente.
Sin embargo, para los jacobianos, mnimos cuadrados no lineales seran de mxima verosimilitud. Si los trminos implican
Jacobianas , sin embargo, entonces mnimos cuadrados no es de mxima verosimilitud.
En cuanto a 2, esta funcin de probabilidad es esencialmente la misma que para el modelo de regresin no lineal
simple. El estimador de mxima verosimilitud de 2 estarn
norte norte
2 = 1
[ g (y yo , ) - marido( x yo , )] 2 = 1 miyo2 . (17-49)
norte norte
i=1 i=1
Las ecuaciones de probabilidad para los parmetros desconocidos son

1
norte
yo marido( x yo , )
En L
2
i=1

( J yo ) )

norte
norte 0
En L 1 g (y yo , )

= -(1 yo = 0 . (17-50)
J yo
i=1 2

i=1 0

En L norte
- norte
2 yo
2
2 2+ 1 2 4
i=1
Estas ecuaciones sern generalmente no lineal, por lo que una solucin debe ser obtenido de forma iterativa. Un caso especial
que es comn es un modelo en el que es un nico parmetro. Dado un valor particular de , queremos maximizar ln L con
respecto a mediante el uso de mnimos cuadrados no lineales. [Sera ms sencillo an si, adems, marido( x yo , ) fueron
lineales para que pudiramos utilizar lineales de mnimos cuadrados. Ver la siguiente aplicacin.] Por lo tanto, una manera de
maximizar L para todos los parmetros es para escanear a travs de los valores por el que, con las plazas asociadas
estimaciones de mnimos de y 2, da el valor ms alto de ln L. ( Por supuesto, esto requiere que sabemos ms o menos lo
valores de examinar.)
Si es un vector de parmetros, la maximizacin continuacin directa de L con respecto al conjunto completo de

parmetros puede ser preferible. (Mtodos de maximizacin se discuten en el Apndice E.) Existe una simplificacin
adicional que puede ser til. Sean cuales sean los valores se obtienen finalmente para las estimaciones de y , la
estimacin de 2 ser dada por (17-49). Si insertamos esta solucin en (17-48), entonces se obtiene la concentrado de
probabilidad logartmica,
[1 ]
norte
En L c = n En J (y yo , ) - norte yo
2 . (17-51)
2 [1 + ln (2 )] - norte 2 ln norte
i=1 i=1
Esta ecuacin es una funcin slo de y . Podemos maximizar con respecto a y

y obtener la estimacin de 2 como un subproducto. (Vase la Seccin E.6.3 para ms detalles.)
Una estimacin de la matriz de covarianza asinttica de los estimadores de mxima verosimilitud se puede obtener
mediante la inversin de la matriz de informacin estimada. Es muy probable, sin embargo, que la Berndt et al. (1974)
estimador ser mucho ms fcil de calcular. El registro de la densidad para la yo sima observacin es la yo simo trmino
de (17-50). Los derivados de ln L yo con respecto a los parmetros desconocidos son

En L yo / ( yo / 2) [ marido( x yo , ) / ]

gramo i = En L yo / = ( 1 / J yo )[ J yo / ] - ( yo / 2) [ g (y yo , ) / ] . (17-52)
En L yo / 2 ( 1 / (2 2)) [ 2 yo / 2 - 1]
La matriz de covarianza asinttica para los estimadores de mxima verosimilitud se estima utilizando
]-1=(

Est.Asy. Var [MLE] = [ norte gramo
gramo
gramo
yo ' GRAMO)
GRAMO ' - 1. (17-53)
i=1
Tenga en cuenta que el anterior incluye de una fila y una columna para 2 en la matriz de covarianza. En un modelo
que transforma y tanto como x, la Hessian del diario de probabilidad general no se bloquean diagonal con respecto a y 2.
Cuando y se transforma, los estimadores de mxima verosimilitud de y 2 Existe una correlacin positiva, ya que ambos
parmetros reflejan la escala de la variable dependiente en el modelo. Este resultado puede parecer contradictorio.
Tenga en cuenta la diferencia en los estimadores de la varianza que se produce cuando se estima un modelo lineal y
loglineales. La varianza de ln y alrededor de su media es obviamente diferente de la de y alrededor de su media. Por el
contrario, tenga en cuenta lo que sucede cuando se transforman slo las variables independientes, por ejemplo, por la
transformacin de Box-Cox. Los estimadores de pendiente varan en consecuencia, pero de tal manera que la varianza
de y en torno a su media condicional se mantendr constante. diecisis
Ejemplo 17.5 Una funcin de produccin generalizada

La funcin Cobb-Douglas menudo se ha utilizado para estudiar la produccin y el costo. Entre los supuestos de este modelo es
que el coste medio de la produccin aumenta o disminuye monotnicamente con aumentos en la produccin. Este supuesto es
en contraste directo con el tratamiento libro de texto estndar de la curva de coste medio en forma de aU aswell como a una
gran cantidad de evidencia emprica. (Vase el Ejemplo 7.3 para una aplicacin bien conocida.) Para relajar este supuesto,
Zellner
diecisis Ver Seaks y Layson (1983).

TABLA 17.2 Generalizadas estimaciones de la funcin de produccin
Mxima verosimilitud
Estimar SE (1) SE (2) No lineal de mnimos cuadrados
1 2.914822 0.44912 0.12534 2.108925

2 0.350068 0.10019 0.094354 0.257900
3 1.092275 0.16070 0.11498 0.878388
0.106666 0.078702 - 0.031634
2 0.0427427 0.0151167
' 1.068567 0.7655490
En L - 8.939044 - 13.621256
y Revankar (1970) propuso una generalizacin de la funcin de produccin Cobb-Douglas. 17

Su modelo permite economas de escala a variar con la produccin y para aumentar y luego disminuyen a medida que aumenta la produccin:
En y + y = En + ( 1 - ) En K + En L + .
Tenga en cuenta que el lado derecho de su modelo es intrnsecamente lineal de acuerdo con los resultados de la Seccin 7.3.3. El
modelo como un todo, sin embargo, es intrnsecamente no lineal debido a la transformacin paramtrica de y aparece a la izquierda.
Para Zellner y de Revankar funcin de produccin, el Jacobiano de la transformacin de

yo a y yo es yo / y i = ( + 1 / y yo ) . Algunos simplificacin se consigue escribiendo esto como (1+ y yo ) / y yo .
El diario de probabilidad es entonces
norte
En L = norte ln (1 + y yo ) - norte En y yo - norte 2yo ,
2 ln (2 ) - norte 2 ln 2 - 1 2 2
i=1 i=1 i=1
dnde i = ( En y i + y yo - 1 - 2 En la capital yo - 3 En el trabajo yo ). La estimacin de este modelo es directo. Para un valor dado de , y 2
se estima por mnimos cuadrados lineales. Por lo tanto, para estimar el conjunto completo de parmetros, podramos escanear a
travs de la gama de cero a uno para .
El valor de que, con sus asociados estimaciones de mnimos cuadrados de y 2, maximiza la funcin de probabilidad logartmica
proporciona la estimacin de mxima verosimilitud. Este procedimiento fue utilizado por Zellner y Revankar. Los resultados dados en la
Tabla 17.2 se obtuvieron mediante la maximizacin de la funcin de probabilidad logartmica directamente, en lugar. Los datos a nivel
estatal sobre la produccin, el capital, el trabajo y el nmero de establecimientos de la industria del transporte utilizada en el estudio
Zellner y de Revankar se dan en el Apndice Tabla F9.2 y en el ejemplo 16.6. Para esta aplicacin, y = valor aadido por fi rm, K = capital
por firme, y L = mano de obra por firme.
Mxima verosimilitud y no lineales de mnimos cuadrados estimaciones se muestran en la Tabla 17.2. Los errores estndar
asintticos para las estimaciones de mxima verosimilitud se etiquetan SE (1). Estos se calculan utilizando la forma BHHH de la matriz
de covarianza asinttica. El segundo conjunto, SE (2), se calculan el tratamiento de la estimacin de como fija; ellos son los habituales
lineales de mnimos cuadrados resultados utilizando (ln y + y) como la variable dependiente en una regresin lineal. Es evidente que
estos resultados seran muy engaoso. La columna final de la Tabla 10.2 se enumeran las simples estimaciones no lineales de mnimos
cuadrados. No hay errores estndar se dan, porque no existe una frmula apropiada para el clculo de la matriz de covarianza
asinttica. La suma de cuadrados no proporciona un mtodo apropiado para el clculo de los pseudoregressors para los parmetros en
la formacin trans-. Las dos ltimas filas de la tabla muestran la suma de los cuadrados y la funcin de log-verosimilitud evaluada en las
estimaciones de los parmetros. Como era de esperar, el diario de probabilidad es mucho ms grande en las estimaciones de mxima
verosimilitud. Por el contrario, las estimaciones no lineales de mnimos cuadrados conducen a una suma mucho menor de cuadrados;
mnimos cuadrados es todava menos cuadrcula.
17 Un enfoque alternativo es tomodel costes directamente con una forma funcional flexible como el translogmodel. Este enfoque se examina en detalle
en el captulo 14.
Ejemplo 17.6 Una prueba de LM para la linealidad (log)

Una generalizacin natural de la modelo de regresin Box-Cox ( Seccin 9.3.2) es
y ( ) = ' x( ) + . (17-54)
dnde z ( ) = ( z - 1) / . Este formulario incluye el lineal ( = 1) y loglineales ( = 0) modelos como casos especiales. El Jacobiano de
la transformacin es | re / dy | = y - 1. La funcin de probabilidad logartmica para el modelo con alteraciones distribuidas
normalmente es
norte norte ( y ( ) ) 2.
En L = - norte En y yo - 1 yo - ' x( ) yo
(17-55)
2 ln (2 ) - norte 2 ln 2 + ( - 1) 2 2
i=1 i=1
El MLEs de y se calculan mediante la maximizacin de esta funcin. El estimador de 2 es el cuadrado medio residual como
de costumbre. Podemos utilizar una bsqueda rejilla unidimensional sobre -Para un valor dado de , la EMV de es mnimos
cuadrados utilizando los datos transformados. Debe recordarse, sin embargo, que la funcin de criterio incluye el trmino
Jacobiana.
Vamos a utilizar el estimador BHHH de la matriz de covarianza asinttica de la mxima verosimilitud. Los derivados de la
probabilidad de registro se

En L yo x (yo)
2
[ ]
y yo( ) x (ik)
En L En y yo - yo k
= norte 2 - K
= norte gramo yo (17-56)

i=1 [ 2
k=1
] i=1
En L 1

yo
2 2 2 2- 1
dnde
[ z - 1] / ( z En z - z ( ) ).
= z En z - ( z - 1) =1 (17-57)
2
(Vase el ejercicio 6 en el captulo 9.) El estimador de la matriz de covarianza asinttica para el estimador de mxima
verosimilitud se da en (17-53).
El modelo Box-Cox proporciona un marco para una prueba de fi especificacin de linealidad frente a la linealidad logartmica. Para montar
este resultado, consideremos primero el modelo bsico
y = f ( x, 1, 2, ) + = 1 + 2 x( ) + .
Los pseudoregressors son x * 1 = 1, x * 2 = x( ) , x * 3 = 2 ( x( ) / ) como se da arriba. Nosotros ahora

considerar una prueba multiplicador de Lagrange de la hiptesis de que es igual a cero. La prueba se lleva a cabo por primera en
regresin y en una constante y ln x ( es decir, el regresor evaluado en = 0) y luego calcular nR 2
* en la regresin de los residuos de esta primera regresin en x * 1, x * 2, y

x 3,* tambin evaluado en = 0. La primera y segunda de stas son 1 y ln x. Para obtener el tercer lugar, se requiere x *
3 | = 0 = 2 lim 0 ( x( ) / ) . La aplicacin de L'H
La regla de opital al lado derecho de
(12-57), diferenciar numerador y el denominador con respecto a . esto produce
[ ]=1
x ( )
lim x ( En x) 2 - x ( )
0 = lim 0 0 x ( En x) 2 = 1
2 lim 2 (ln x) 2.
Por lo tanto, lim 0 x * 3 = 2 [ 1 2 ( En x) 2]. La prueba del multiplicador de Lagrange se lleva a cabo en dos etapas.
En primer lugar, hacemos una regresin y en una constante y ln x y calcular los residuales. En segundo lugar, hacemos una regresin estos
residuos en una constante, ln x, y segundo 2 ( 1 2 En 2 x) , dnde segundo 2 es el coeficiente de ln x en la primera de regresin. La estadstica es
multiplicador de Lagrange nR 2 de la segunda regresin. Para generalizar este procedimiento para varios regresores, usaramos los registros
de todas las variables independientes en el primer paso. Entonces, el regresor adicional para la segunda regresin sera

x * = K segundo k ( 1 2 En 2 x k) ,
k=1
donde la suma se toma sobre todas las variables que se transforman en el modelo original y el segundo k 'S son los mnimos cuadrados
cientes coeficientes en la primera regresin fi.
Al extender este proceso para el modelo de (17-54), podemos idear un bona fi de test de log-linealidad (contra el modelo
ms general, no linealidad). [Ver Davidson y MacKinnon (1985). Una prueba de la linealidad puede realizarse usando = 1, en su
lugar.) Clculo de los diversos trminos en = 0 de nuevo, tenemos
i = En y yo - 1- 2 En x yo ,
donde como antes, 1y 2 se calculan por la regresin de mnimos cuadrados de ln y en una constante
y ln x. Dejar *i = 1 2 En 2 y yo - 2 ( 1 2 En 2 x yo ) . Entonces

yo /

2

(ln x yo ) yo /

2
gramo
.

i=
En y yo - yo
*yo / 2

(
2yo / 2 - 1) / (2 2)
Si hay K regresores en el modelo, entonces el segundo componente en gramo yo ser un vector

que contiene los registros de las variables, mientras *yo se convierte en el tercer
(1 )

*i = 1 k .
2 ln 2 y yo - K 2 ln 2 x ik
k=1
Uso de la Berndt et al. estimador dada en (10-54), ahora podemos construir el Lagrange multi- tiplier estadstica como
( norte ) '[ norte

] - 1 ( norte )

LM = 2 [ 1] = gramo
yo gramo
gramo
yo '
yo
gramo
yo= yo ' G (G ' GRAMO) - 1 GRAMO ' yo,
i=1 i=1 i=1
dnde GRAMO es el norte x ( K + 2) matriz cuyas columnas son gramo 1 mediante gramo K + 2 y yo es una columna de 1s. La utilidad
de este enfoque para cualquiera de los modelos que hemos examinado es que en la prueba de la hiptesis, no es necesario
calcular la no lineal, sin restricciones, la regresin de Box-Cox.
17.6.3 no normales perturbaciones el estocstico

modelo de frontera
Esta aplicacin fi nal examinar un modelo regressionlike en el que las perturbaciones no tienen una distribucin
normal. El modelo desarrollado aqu tambin presenta una platformonwhich conveniente para ilustrar theuseof los
estimadores invariancepropertyofmaximumlikelihood para simplificar la estimacin del modelo.
Un largo literatura comenzando con el trabajo terico por Knight (1933), Debreu (1951), y Farrell (1957) y el
estudio emprico pionero por Aigner, Lovell y Schmidt (1977) se ha dirigido a los modelos de produccin que espec
cuenta fi camente para la propuesta de libro de texto que una funcin de produccin es un ideal terico. 18 Si y = f ( x)
de fi ne una relacin de produccin entre las entradas, x, y una salida, Y, entonces para cualquier dado
x, el valor observado de y debe ser menor que o igual a f ( x). La implicacin para un modelo de regresin emprica es
que en una formulacin tal como Y = H ( x, ) + u, u debe ser negativo. Dado que la funcin de produccin terica es
un ideal-la frontera de e fi ciente
18 Una encuesta realizada por Greene (1997b) aparece en Pesaran y Schmidt (1997). Kumbhakar y Lovell (2000) es una referencia completa sobre el
tema.
produccin-cualquier perturbacin distinto de cero debe interpretarse como el resultado de ineficiencia. Una interpretacin
estrictamente ortodoxa incrustado en un modelo de produccin Cobb-Douglas podra producir un modelo de produccin
frontera emprica como
En y = 1 + k k En x k - u, u 0.
El gammamodel descrito en el Ejemplo 5.1was una application.One-sideddisturbances como sta presentan un

problema estimacin fi culto particularmente dif. El problema terico primario es que el error anymeasurement en ln y debe
estar integrada en la perturbacin. El problema prctico es que toda la funcin estimada se convierte en un esclavo a
cualquier punto de datos nico equivocadamente medido.
Aigner, Lovell y Schmidt propone en su lugar un formulationwithinwhich observado desviaciones de la funcin

de produccin, podra surgir de dos fuentes: (1) ine fi ciencia productiva como hemos de fi nido por encima y que
sera necesariamente negativo; y (2) efectos idiosincrsicos que son especfica a la rm fi y que podra entrar en el
modelo, ya sea con signo. El resultado final fue lo que etiquetan la frontera estocstica:
].
En y = 1 + k k En x k - u + v, u 0, v ~ NORTE[ 0, 2 v
= 1 + k k En x k + .
La frontera para cualquier particular, rm fi marido( x, ) + v, de ah el nombre de frontera estocstica. El trmino ine fi ciencia
es u, una variable aleatoria de especial inters en este contexto. Dado que los datos estn en trminos de registro, u es una
medida del porcentaje por el que la observacin particular no logra alcanzar la frontera, la tasa de produccin ideal.
Para completar la especificacin, sugirieron dos distribuciones posibles para el trmino deficiencia inef, el valor
absoluto de una variable normalmente distribuida y una variable exponencialmente distribuido. Las funciones de
densidad para estas dos distribuciones de compuestos estn dadas por Aigner, Lovell y Schmidt; dejar = v - u, = u
/ v, = ( 2
u + 2 v) 1/2,
y ( z) = la probabilidad a la izquierda de z en la distribucin normal estndar [ver Secciones B.4.1 y E.5.6]. Para el
modelo medio-normal,
) ( yo ) 2+ En ( - yo )]
En marido( i | , , ) = [ - En - ( 1 Iniciar sesin 2 ,
2 -1 2
mientras que para el modelo exponencial

( - yo )]
En marido( i | , , v) = [ En + 1 v+ i + En - v .
2 2 2 v
Tanto estas distribuciones son asimtricas. Tenemos as un modelo de regresin con una distribucin no
normal especfico ed para la perturbacin. La perturbacin, , tiene una media distinta de cero, as; MI[ ] = - u ( 2 / ) 1/2 para
el modelo medio-normal y - 1 / para el modelo exponencial. La figura 17.3 ilustra la densidad para el modelo
medio-normal con = 1 y = 2. Por escrito 0 = 1+ MI[ ] y * = - MI[ ], obtenemos Amore formulacin convencional
En y = 0 + k k En x k + *
que tiene un disturbancewith un zeromean pero una, la distribucin no normal asimtrica. La asimetra de la
distribucin de * no invalida los resultados bsicos de mnimos cuadrados en este modelo de regresin clsico. Este
modelo de fi ca satisface las hiptesis del
La densidad de probabilidad para la Frontera Estocstica
. 70
. 56
. 42
Densidad
. 28
. 14
. 00
4.0 2.8 1.6 .4 .8 2.0
FIGURA 17.3 Densidad de la perturbacin en la Frontera Estocstica

Modelo.
Gauss-Markov teorema, por lo que los mnimos cuadrados es imparcial y consistente (salvo por el trmino constante), y e fi
ciente entre estimadores lineales insesgados. En este modelo, sin embargo, el estimador de mxima verosimilitud no es
lineal, y es ms e fi ciente de los mnimos cuadrados.
Vamos a trabajar a travs de la estimacin de mxima verosimilitud del modelo semi-normal en detalle para ilustrar la
tcnica. El logaritmo de verosimilitud es
( yo ) ( - yo )
norte 2 + norte

En L = - norte En - norte En .
2 ln 2 - 1 2
i=1 i=1
Esto no es una particularmente di fi culto diario de probabilidad tomaximize numricamente. Sin embargo, es instructivo para hacer
uso de una comodidad que hemos sealado anteriormente. Recordemos que los estimadores de mxima verosimilitud son invariantes
a la transformacin de uno a uno. Si dejamos = 1 / y
= ( 1 / ) , la funcin de log-verosimilitud se convierte
norte
En L = n En - norte ( y yo - ' x yo ) 2 + norte ln [ - ( y yo - ' x yo )].
2 ln 2 - 1 2
i=1 i=1
Como se poda comprobar por tratar las derivaciones, esta transformacin trae una simplificacin drstica en la
manipulacin del diario de probabilidad y sus derivados. Haremos uso repetido de las funciones
i = yo / = y yo - ' x yo ,
( y yo , x yo , , , ) = [ - yo ]
[ - i] = yo .
i= - yo ( - i + yo )
(El segundo de stos es la derivada de la funcin en el trmino nal fi en el registro L. La tercera es la derivada de yo con
respecto a su argumento; i< 0 para todos los valores de yo .) Eso
Tambin ser conveniente para definir la ( K + 1) 1 columnas vectores z i = ( x ' yo , - y yo ) ' y
t i = ( 0 ', 1 / ) '. Las ecuaciones de probabilidad son
En L norte
ti+n yo z i + yo z i = 0,
( ', ) '= norte
i=1 i=1 i=1
En L
yo i = 0
= - norte
i=1
y las segundas derivadas son

{[( 2 ] - [ t yo t ' ]}
( yo - yo 0
yo - 1) z yo z ' yo ) z yo yo
MARIDO( , , ) = norte
yo
0'
.
( yo - yo yo ) zyo' 2yo yo 0
i=1
El estimador de la covariancematrix asinttica para los parmetros estimados es directamente
Est.Asy. var [ ', , ] '= { - MARIDO[ ', , ]} - 1.
Hay dos tipos de transformaciones de los parmetros en nuestra formulacin. Con el fin de recuperar las
estimaciones de los parmetros estructurales originales = 1 / y = /
slo tenemos que transformar la MLE. Dado que estas transformaciones son uno a uno, el de los MLE y son 1 /
y / . Para calcular una matriz de covarianza asinttica para
estos estimadores vamos a utilizar el mtodo delta, que utilizar la matriz derivado

/ ' / / ( 1 / ) yo - ( 1 / 2) 0

G = / ' / / = 0' - ( 1 / 2) 0 .
/ ' / / 0' 0 1
Entonces, para los parmetros recuperados, nos
Est.Asy. var [ ', , ] '= GRAMO {- MARIDO[ ', , ]} - 1 GRAMO '.
Para el modelo de la mitad de lo normal, wewould tambin se basan en la invariancia de estimadores de mxima verosimilitud para recuperar
las estimaciones de los parmetros de varianza ms profundas, 2
v= 2 / ( 1 + 2)
y 2 u= 2 2 / ( 1 + 2).
El modelo de frontera estocstica es un poco diferentes de las que se han analizado anteriormente en que la
perturbacin es el foco central del anlisis en lugar de la catchall para los factores desconocidos e incognoscibles
omitidas de la ecuacin. Idealmente, nos gustara estimar u yo para cada fi rma en la muestra para comparar themon la
base de su productiva e fi ciencia. (Los parmetros de la funcin de produccin suelen ser de inters secundario en
estos estudios.) Por desgracia, los datos no permiten una estimacin directa, ya que con las estimaciones de en la
mano, slo somos capaces de calcular una estimacin directa de = y - x ' .
Jondrow et al. (1982), sin embargo, han derivado una aproximacin til que ahora es la medida estndar en estas
configuraciones,
[ ( z) ]
E [u | ] = , z =
1 + 2 1 - ( z) - z ,
TABLA 17.3 Estimacin de Funciones de frontera estocstica
mnimos Cuadrados Media normal Modelo Modelo exponencial
Estndar Estndar Estndar

Coeficiente de estimacin de error t error de relacin de Estimacin t error de relacin de Estimacin t Ratio
Constante 1.844 0,234 7,896 2,081 0,422 4,933 2,069 0,290 7.135
k 0,245 0,107 2,297 0,259 0,144 1,800 0,262 0,120 2,184
l 0,805 0,126 6,373 0,780 0,170 4.595 0,770 0,138 5.581
0,236 0,282 0,087 3,237
u - 0,222 0,136
v - 0,190 0,171 0,054 3.170
- 1.265 1.620 0,781
- 7.398 3,931 1,882
Iniciar sesin L 2.2537 2.4695 2.8605
para el medio-modelo normal, y
( z / v)
E [u | ] = z + v z = - 2 v
( z / v) ,
para la exponentialmodel. Estos valores canbe computedusing estimaciones themaximumlikelihood de los

parmetros estructurales del modelo. Adems, un parmetro estructural de inters es la proporcin de la varianza
total de esto es debido a la deficiencia trmino ine. Para el modelo de medio-normal, Var [ ] = var [ u] + var [ v] = ( 1 - 2
/ ) 2
u + 2 v, mientras que para
el modelo exponencial, la contraparte es 1 / 2 + 2 v.
Ejemplo 17.7 estocstico Frontier Modelo

Apndice Tabla F9.2 listas de 25 observaciones de todo el estado usados por Zellner y Revankar (1970) para estudiar la
produccin en la industria de fabricacin de equipo de transporte. Hemos utilizado estos datos para estimar los modelos de
frontera estocstica. Los resultados se muestran en la Tabla 17.3. 19
El Jondrow, et al. (1982) las estimaciones de los trminos fi ciencia de INEF se enumeran en la Tabla 17.4. Las estimaciones de los
parmetros de la funcin de produccin, 1, 2, y 3 son bastante similares, pero los parmetros de la varianza, u y v, parecen ser bastante
diferentes. Algunas de las diferencias de parmetros es ilusorio, sin embargo. Los componentes de la varianza para el modelo de
medio-normal, son (1 - 2 / ) 2
u=
0,0179 y 2 v= 0,0361, mientras que aquellos para el modelo exponencial son 1 / 2 = 0,0183 y
v2= 0,0293. En cada caso, alrededor de un tercio de la varianza total de se explica por la varianza de u.
17.6.4 PRUEBAS MOMENTO condicional de ESPECIFICACIN
Una serie de estudios ha demostrado cmo utilizar restricciones de momentos condicionales para las pruebas de especi
fi cacin, as como una estimacin. 20 La lgica del momento condicional (CM) espec prueba fi cacin basado es como sigue.
El modelo espec fi cacin implica que cierto momento restrictionswill mantenga en la poblacin fromwhich la datawere
dibujado. Si la especificacin
19 norte es el nmero de establecimientos en el estado. Zellner y Revankar utilizados por datos del establecimiento en su estudio. El modelo de frontera
estocstica tiene la propiedad interesante que si las plazas residuos mnimos estn sesgados en la direccin positiva, entonces con mnimos cuadrados = 0 maximiza
el logaritmo de la verosimilitud. Esta propiedad, de hecho, caracteriza a los datos anteriores cuando se escala por NORTE. Dado que deja un ejemplo no es
particularmente interesante y que no se produce cuando no se normalizan los datos, a los efectos de esta ilustracin se han utilizado los datos sin escala para
producir la Tabla 17.3. Nosotros observamos que este resultado es una ocurrencia comn en la prctica irritante.
20 Vase, por ejemplo, Pagan y Vella (1989).

TABLA 17.4 Estimacin de fi ciencias INEF
Estado Media normal exponencial Estado Media normal exponencial
Alabama 0.2011 0.1459 Maryland 0.1353 0,0925

California 0.1448 0,0972 Massachusetts 0.1564 0.1093
Connecticut 0,1903 0,1348 Michigan 0.1581 0,1076
Florida 0.5175 0.5903 Misuri 0,1029 0,0704
Georgia 0.1040 0,0714 New Jersey 0,0958 0,0659
Illinois 0.1213 0.0830 Nueva York 0.2779 0.2225
Indiana 0.2113 0.1545 Ohio 0.2291 0.1698
Iowa 0.2493 0.2007 Pensilvania 0.1501 0.1030
Kansas 0,1010 0,0686 Texas 0.2030 0.1455
Kentucky 0,0563 0,0415 Virginia 0,1400 0,0968
Luisiana 0.2033 0.1507 Washington 0,1105 0.0753
Maine 0.2226 0.1725 Virginia del Oeste 0,1556 0.1124
Wisconsin 0.1407 0.0971
es correcta, entonces los datos de la muestra deben imitar las relaciones implcitas. Por ejemplo, en el modelo de
regresin clsica, el supuesto de homocedasticidad implica que la varianza perturbacin es independiente de los
regresores. Como tal,
( 2
MI{ x yo [( y yo - ' x yo ) 2 - 2]} = MI[ x yo yo - 2)] = 0.
Si, por el contrario, la regresin es heterocedstico de una manera que depende de x yo , entonces este covarianza no
ser cero. Si la hiptesis de homocedasticidad es correcta, entonces esperaramos que la contraparte de la muestra a
la condicin de momento,
norte ( mi 2
rr = 1 x yo yo - s 2),
norte
i=1
dnde mi yo es el residual OLS, para estar cerca de cero. (Este clculo aparece en Breusch- y de Pagan LM para
homocedasticidad Ver la Seccin 11.4.3.). Los problemas prcticos que resolver son (1) la formulacin de
condiciones de momentos adecuados que corresponden a la prueba de hiptesis, que suele ser sencillo; (2) para
elaborar el homlogo apropiado de la muestra; y (3) para idear una medida adecuada de cercana a cero de la
muestra momento estimador. El ltimo de ellos ser en el marco de las estadsticas theWald que hemos examinado
en varios puntos de este libro. As que el problema es llegar a la matriz de covarianza apropiado para los momentos
de la muestra.
Consideremos un caso general en el que la condicin momento en que se escribe en trminos de las variables en el
modelo [ y yo , x yo , z yo ] y parmetros (como en el modelo de regresin lineal) . los
momento de la muestra se puede escribir
norte norte
rr = 1 r yo ( y yo , x yo , z yo , ) =1 rr yo . (17 a 58)
norte norte
i=1 i=1
La hiptesis se basa en que el verdadero , MI[ r i] = 0. Bajo la hiptesis nula de que

MI[ r i] = 0 y suponiendo t marido en Plim = y que un teorema del lmite central (teorema
D.18 o D.19) se aplica a norte r ( ) as que eso
norte
r ( ) re- NORTE[ 0,]
por alguna matriz de covarianza que an tenemos que estimar, se deduce que el Wald
estadstica,
r ' - 1 r re-
norte 2 ( J), (17-59)
donde los grados de libertad J est siendo probado el nmero de restricciones momento y es una estimacin de
. Por lo tanto, la estadstica se puede hacer referencia a la tabla de chi-cuadrado.
Queda por determinar el estimador de . La derivacin completa de es bastante com-
plegado. [Ver Pagan y Vella (1989, pp. S32-S33).] Pero cuando el vector de estimadores de parmetros es un estimador de
mxima verosimilitud, como lo sera para el cuadrados estimador menos con perturbaciones distribuidas normalmente y para la
mayora de los otros estimadores nos consideran, un estimador sorprendentemente simple se puede utilizar. Supongamos que el
vector de los parmetros utilizados para calcular los momentos se obtenidos anteriormente mediante la resolucin de las
ecuaciones
1 norte
norte
), =
gramo( y yo , x yo , z yo 1 gramo i = 0,
gramo (17-60)
norte norte
i=1 i=1
dnde es el vector de parmetro estimado [por ejemplo, ( , ) en el modelo lineal]. para el

modelo de regresin lineal, que sera las ecuaciones normales
1 norte
x yo ( y yo - x ' yo b) = 0.
norte x ' e = 1 norte
i=1
Dejar que la matriz GRAMO ser el norte K matriz con yo fila igual a gramo '
yo . En una de mxima verosimilitud
problema, GRAMO es la matriz de los derivados de los trminos individuales de la funcin de probabilidad logartmica con
respecto a los parmetros. Este es el GRAMO utilizado para calcular el estimador BHHH de la matriz de informacin. [Ver
(17-18).] Let R ser el norte J matriz cuyas
yo fila es r yo
'
. Pagan y Vella muestran que para los estimadores de mxima verosimilitud,
puede ser
estimado usando
S=1 (17-61)
norte[ R ' R - R ' G (G ' GRAMO) - 1 GRAMO ' R]. 21
Esta ecuacin se parece a una matriz de clculo implicados, pero es sencillo con cualquier programa de regresin. Cada
elemento de S es el cuadrado o producto cruzado media de los residuales de mnimos cuadrados en una regresin lineal de
una columna de R en las variables de GRAMO. 22
Por lo tanto, la versin operativa de la estadstica es
C = n r ' S - 1 rr = 1 (17-62)
norte yo ' R [R ' R - R ' G (G ' GRAMO) - 1 GRAMO ' R] - 1 R ' yo,
dnde yo es un norte 1 columna de unos, que, una vez ms, se denomina el valor crtico apropiado en la tabla de
chi-cuadrado. Este resultado proporciona una prueba conjunta que todas las condiciones themoment son satis fi ed
simultneamente. Una prueba individual de uno solo de estos momentos
21 Podra ser tentador slo para usar (1 / norte) R ' R. Esta idea sera incorrecto, porque S cuentas para R ser una funcin del vector de parmetro estimado
que est convergiendo a su lmite de probabilidad en la misma tasa que los momentos de la muestra estn convergiendo a la de ellos.
22 Si el estimador no es una MLE, entonces la estimacin de

es ms complicado, pero tambin mediante una funcin directa
lgebra matricial. La ventaja de (17-62) es que implica sumas simples de variables que ya han sido calculadas para obtener
y r. Tenga en cuenta, adems, que si se ha estimado por mxima verosimilitud, a continuacin, el trmino
( GRAMO ' GRAMO) - 1 es el estimador BHHH de la matriz de covarianza asinttica de . Si fuera ms conveniente, a continuacin,
este estimador podra ser sustituido por cualquier otro estimador apropiado de Asy. var [ ].
restricciones en el aislamiento pueden calcularse incluso ms fcilmente que una prueba conjunta. Para el ensayo de una de las L condiciones,
dicen que la uno, la prueba puede llevarse a cabo mediante un simple t prueba de si el trmino constante es cero en una regresin
lineal de la sima columna de R en un trmino constante y todas las columnas de GRAMO. De hecho, la estadstica de prueba en
(17-62) tambin se podra obtener por el apilamiento de la J columnas de R y el tratamiento de la L ecuaciones como un modelo de
regresiones aparentemente no relacionadas con ( yo, GRAMO) como los regresores (idnticos) en cada ecuacin y luego probar la
hiptesis conjunta de que todos los trminos constantes son cero. (Vase la Seccin 14.2.3.)
Ejemplo 17.8 Pruebas de Heteroscedasticidad en el Linear

Modelo de regresin
Supongamos que el modelo lineal se especfica ED AS
y i = 1 + 2 x i + 3 z i + yo .
Para probar si
( 2
E [z 2yo yo - 2)] = 0,
tenemos una regresin lineal z 2

2 - s 2) en una constante, mi yo , x yo mi yo , y z yo mi yo . Un estandar t prueba de si
yo ( miyo
el trmino constante en esta regresin es cero lleva a cabo la prueba. Para probar la hiptesis conjunta de que no hay
heteroscedasticidad con respecto a ambos x y z, tendramos una regresin tanto
x yo2 ( miyo
2 - s 2) y z 2 2 - s 2) yo en 1, mi yo , x yo mi yo , z yo mi yo ] y recoger las dos columnas de residuos en V.
yo ( miyo
Entonces S = ( 1 / norte) V ' V. El vector momento sera

[ x yo ] ( mi 2
norte
rr = 1 yo - s 2).
norte z yo
i=1
La estadstica de prueba sera ahora

]-1
C = n r ' S - 1 r = norte r '[ 1 r.
norte V ' V
Vamos a examinar otras pruebas momento condicional utilizando este mtodo en la Seccin 22.3.4, donde se estudia
la especificacin del modelo de regresin censurada.
17,7 TWO-STEP MXIMA VEROSIMILITUD ESTIMACIN
La literatura aplicado contiene un nmero grande y creciente de modelos en los que un modelo est incrustado en
otro, lo que produce lo que se conoce ampliamente como de dos pasos problemas de estimacin. Consideremos un
ejemplo (la verdad artificial) en whichwe tienen las siguientes.
Modelo 1. nmero esperado de los nios = E [y 1 | x 1, 1].

Modelo 2. Decisin para inscribirse en capacitacin para el trabajo = y 2, una funcin de ( x 2, 2, E [y 1 | x 1, 1]).
Hay dos vectores de parmetros, 1 y 2. El primero aparece en el segundo modelo, aunque no a la inversa. En tal
situacin, hay dos maneras de proceder. La informacin completa de mxima verosimilitud (FIML) estimacin
implicara la formacin de la distribucin conjunta f (y 1, y 2 | x 1, x 2, 1, 2) de las dos variables aleatorias y luego maximizar
la funcin de probabilidad logartmica completa,

En L = norte f (y yo 1, y yo 2 | x yo 1, x yo 2, 1, 2).
i=1
Un segundo, o de dos etapas, informacin limitada de mxima verosimilitud (LIML) procedimiento para este tipo de modelo
podra hacerse mediante la estimacin de los parmetros del modelo 1, ya que no implica 2, y luego maximizar una funcin de
probabilidad logartmica condicional utilizando las estimaciones de la Etapa 1:

En L = norte f [y yo 2 | x yo 2, 2, ( x yo 1, 1)].
i=1
Hay al menos dos razones onemight proceder de esta manera. En primer lugar, itmay ser sencillo para formular las dos
log-probabilidades separadas, pero muy complicado para derivar la distribucin conjunta. Esta situacin surge con
frecuencia cuando las dos variables beingmodeled son de diferentes tipos de poblaciones, como una discreta y uno
continuo (que es un caso muy comn en este marco). La segunda razn es que la maximizacin de las verosimilitudes
log separado puede ser bastante sencillo, pero maximizando el diario de probabilidad conjunta puede ser
numricamente complicado o difcil. 23 Vamos a considerar algunos ejemplos. A pesar de que vamos a encontrar
problemas FIML en varios puntos adelante en el libro, por ahora vamos a presentar algunos resultados bsicos para la
estimacin de dos pasos. Las pruebas de los resultados dados aqu se pueden encontrar en una referencia importante
sobre el tema, Murphy y Topel (1985).
Supongamos, pues, que nuestro modelo se compone de las dos distribuciones marginales, F 1 ( y 1 | x 1,
1) y F 2 ( y 2 | x 1, x 2, 1, 2). Estimacin procede en dos etapas.
1. Estimar 1 por mxima verosimilitud en el Modelo 1. Sea (1 / norte) V 1 ser norte cualquier momento de la
estimadores de la matriz de covarianza asinttica de este estimador que se discute en la Seccin

17.4.6.
2. Estimar 2 por mxima verosimilitud en el modelo 2, con 1 insertado en lugar de 1 como si
se supiera. Sea (1 / norte) V 2 ser norte veces cualquier estimador apropiada de la
matriz de covarianza asinttica de 2.
Theargument para consistencyof 2 es esencialmente que si 1 fueron conocido, thenall nuestros resultados
para MLEs se aplicara para la estimacin de 2, y desde Plim 1 = 1, asintticamente, este

lnea de razonamiento es correcto. Pero la misma lnea de razonamiento no es su fi ciente para justificar el uso
( 1 / norte)V 2 como el estimador de la matriz de covarianza asinttica de 2. Algunos de correccin es
necesario tener en cuenta una estimacin de 1 siendo utilizado en la estimacin de 2. El resultado esencial es la siguiente.
23 Hay una tercera possiblemotivation. Si cualquiera de los modelos es misspeci fi ed, a continuacin, las estimaciones FIML de bothmodels sern inconsistentes.
Pero si slo la segunda es misspeci fi cada, al menos se puede estimar consistentemente la primera. Por supuesto, este resultado slo es mitad de un pan, pero
puede ser mejor que nada.

TEOREMA 17.8 distribucin asinttica de la Two-Step MLE

[Murphy y Topel (1985)]
Si las condiciones de regularidad estndar aremet para ambas funciones de probabilidad logartmica, a continuacin, el
segundo paso de mxima verosimilitud estimador de 2 es consistente y asintticamente distribucin normal con matriz
de covarianza asinttica
[ V 2 + V 2 [ CV 1 do ' - RV 1 do ' - CV 1 R '] V 2 ],

V*2= 1
norte
dnde
V 1 = Asy.Var [ norte( 1 - 1)] basado en ln L 1,
V 2 = Asy.Var [ norte( 2 - 2)] basado en ln L 2 | 1,
[ 1 ( En L 2 ) ( En L 2 )] [ 1 ( En L 2 ) ( En L 1 )]
C = mi , R = mi .
norte 2 '1 norte 2 '1
La correccin de la covariancematrix asinttica en el segundo paso requiere algn clculo adicional.

matrices V 1 y V 2 se estima por las respectivas matrices de covarianza no corregidos. Tpicamente, los
estimadores BHHH,
( En F yo 1 ) ( En F yo 1 )] - 1
norte
V 1 = [ 1
V
norte 1 '1
i=1
y
( En F yo 2 ) ( En F yo 2 )] - 1
norte
V 2 = [ 1
V
norte 2 ' 2
i=1
son usados. las matrices R y do se obtienen mediante la suma de las observaciones individuales sobre los
productos cruzados de los derivados. Estos se estiman con
( En F yo 2 ) ( En F yo 2 )
norte
C = 1
C
norte 2 ' 1
i=1
y
( En F yo 2 ) ( En F yo 1 )
norte
R = 1
R
norte 2 ' 1
i=1
Ejemplo 17.9 Two-Step ML Estimacin

Continuando con el ejemplo descrito al principio de esta seccin, suponemos que y yo 2 es un indicador binario de la eleccin si
debe inscribirse en el programa ( y yo 2 = 1) o no ( y yo 2 = 0) y que las probabilidades de los dos resultados son
yo 2 + E [yi 1 | x ' yo 1]
Prob [ y yo 2 = 1 | x yo 1, x yo 2] = mi x '
1 + mi x ' yo 2 + E [yi 1 | x ' yo 1]
y Prob [ y yo 2 = 0 | x yo 1, x yo 2] = 1 - Prob [ y yo 2 = 1 | x yo 1, x yo 2], dnde x yo 2 es algunas covariables que podra influir en la decisin, como el estado civil
o la edad y x yo 1 son factores determinantes del tamao de la familia. Esta configuracin es una logit modelo. Vamos a desarrollar este
modelo con ms detalle en el captulo 21. La
valor esperado de y yo 1 aparece en la probabilidad. (Observacin:. La era de esperar, en lugar del valor real se eligi
deliberadamente De lo contrario, los modelos podran diferir sustancialmente en nuestro caso, podemos ver la diferencia que
hay entre una decisin ex ante y ex post uno..) Supongamos que el nmero de los nios pueden ser descritos por una
distribucin de Poisson (vase la Seccin
B.4.8) depende de algunas variables x yo 1 tales como la educacin, la edad, y as sucesivamente. Entonces
yo
Prob [ y yo 1 = j | x yo 1] = mi - yo j , j = 0, 1,. . . ,
j!
y suponer, como es habitual, que
E [y yo 1] = i = exp ( x ' yo 1 ) .
Los modelos implican = [, , ], dnde 1 = . De hecho, no est claro cul es la distribucin conjunta de y 1 y y 2 podra ser,
pero la estimacin de dos pasos es sencillo. Para el modelo 1, el diario de probabilidad y sus derivados primeros son

En L 1 = norte En F 1 ( y yo 1 | x yo 1, )
i=1

= norte [ - i + y yo 1 En yo - En y yo 1!] = norte [ - exp ( x ' yo 1 ) + y yo 1 ( x ' yo 1 ) - En y yo 1!],
i=1 i=1
En L 1

( y yo 1 - yo ) x yo 1 = norte u yo x yo 1.
= norte
i=1 i=1
Clculo de las estimaciones se desarrolla en el Captulo 21. Cualquiera de los tres estimadores de V 1
Tambin es fcil de calcular, pero el estimador BHHH es ms conveniente, de manera que usamos
[ ]-1
1
norte
V 1 =
V u 2yo x yo 1 x ' yo 1
u .
norte
i=1
[En esta y las siguientes sumas, en realidad estamos estimando expectativas de las diversas matrices.]
Podemos escribir la funcin de densidad para el segundo modelo como
F 2 ( y yo 2 | x yo 1, x yo 2, , , ) = PAG yi 2 yo x ( 1 - PAG yo ) 1 - yi 2,
dnde PAG i = Prob [ y yo 2 = 1 | x yo 1, x yo 2] como se indica anteriormente. Entonces

En L 2 = norte y yo 2 En PAG i + ( 1 - y yo 2) ln (1 - PAG yo ) .
i=1
Para mayor comodidad, y mucho x *yo 2 = [ x ' yo 2, exp ( x ' yo 1

)] ', y recordar que 2 = [ , ] '. Entonces
)]

En L 2 = norte y yo 2 [ x *yo' 2 2 - ln (1 + exp ( x *yo' 2 2) )] + ( 1 - y yo 2) [ - ln (1 + exp ( x *yo' 2 2) )].
i=1
As, en el segundo paso, creamos la variable adicional, lo dejar x yo 2, y la estimacin del modelo logit como si ( y esta variable
adicional) se observ en realidad en lugar de estima. Las estimaciones de mxima verosimilitud de [ , ] se obtienen mediante la
maximizacin de esta funcin. (Ver
Captulo 21.) Despus de un poco de manipulacin, encontramos que el resultado conveniente
En L 2
= norte ( y yo 2 - PAG yo ) x *yo 2 = norte v yo x
x
*
yo 2.
2
i=1 i=1
Una vez ms, cualquiera de los tres estimadores podran utilizarse para estimar la matriz de covarianza asinttica Ance, pero el
estimador BHHH es conveniente, por lo que utilizar
[ ]-1
1
norte
V 2 =
V vv yo2 x
x * xx * '
yo 2 yo 2
.
norte
i=1
Para la etapa final, hay que corregir la matriz de covarianza asinttica utilizando do y R. Qu
permanece para derivar las pocas lneas, se dejan para el lector-es
En L 2

v yo [ exp ( x ' yo 1 )] x yo 1.
= norte
i=1
Por lo tanto, el uso de nuestras estimaciones,
norte norte
C = 1
C vv yo
2 )] x *yo 2 x 'yo
)]
[ exp ( x ' yo 1 yo 1, y
R = 1
R u yo vv yo x
x
*
yo 2 x 'yo
yo 1.
norte norte
i=1 i=1
Ahora podemos calcular la correccin.
Inmany aplicaciones, la covarianceof los twogradients R converge a zero.When la primera y estimaciones

segundo paso se basan en diferentes muestras, R es exactamente cero. Por ejemplo, en nuestra solicitud anterior, R
= norte
' 1. Los dos residuos u y v,
i = 1 u yo v yo x * yo 2 xyo
maywell que no estn correlacionadas. Este assumptionmust puede comprobar en base AMODEL por modelo, pero en tal
caso, el tercer y cuarto trminos en V * 2 desaparece asintticamente y lo que queda es la alternativa ms simple,
V **2 = ( 1 / norte)[ V 2 + V 2 CV 1 do ' V 2].
Vamos a examinar algunas aplicaciones adicionales de esta tcnica (incluyendo una aplicacin emprica del ejemplo
anterior) ms adelante en el libro. Tal vez la aplicacin ms comn de estimacin de mxima verosimilitud de dos
pasos en la literatura actual, especialmente en el anlisis de regresin, implica la insercin de una prediccin de una
variable en una funcin que describe el comportamiento de otro.
17.8 MXIMA PROBABILIDAD SIMULADA ESTIMACIN
La tcnica de la probabilidad simulada mxima (MSL) es esencialmente una clsica homlogo teora de muestreo para
el estimador Bayesiano jerrquica hemos considerado en la Seccin 16.2.4. Ya que el papel celebrado de Berry,
Levinsohn, y Pakes (1995), y una literatura relacionada defendida por McFadden y tren (2000), la estimacin de
mxima verosimilitud simulada se ha utilizado en un gran y creciente nmero de estudios basado en las
verosimilitudes log que implican integrales que son las expectativas. 24 En esta seccin, vamos a exponer algunos
resultados generales para la estimacin MSL mediante el desarrollo de una aplicacin en particular,
24 Importante motivo de referencia para este conjunto de tcnicas es Gourieroux y Monfort (1996).
el modelo de parmetros aleatorios. Este marco general de modelizacin se ha utilizado en la mayora de las solicitudes
recibidas. a continuacin, vamos a seguir la aplicacin del modelo de eleccin discreta para datos de panel que
comenzamos en la Seccin 16.2.4.
La densidad de y eso cuando el vector de parmetro es yo es f (y l | x eso , yo ). El vector de parmetros yo est distribuido al
azar sobre los individuos de acuerdo con
i = +? z i + v yo
dnde +? z yo se themeanof thedistribution, whichdepends en el tiempo las caractersticas individuales invariantes

aswell asparameters todava tobeestimated, y los randomvariationcomes de la heterogeneidad individual, v yo . Este
randomvector se supone que havemean matriz cero y covarianza,
. La densidad condicional de los parmetros se denota
gramo( i | z yo , ,?, ?) = gramo( v i + +? z yo , ),
dnde gramo(.) es la densidad marginal subyacente de la heterogeneidad. para el T observaciones en grupo yo , la

densidad condicional conjunta es

f ( y i | x yo , i) = T f (y l | x eso , yo ).
t=1
La densidad incondicional para y yo se obtiene mediante la integracin de ms de yo ,
f ( y i | x yo , z yo , ,? , ) = mi yo [ f ( y i | x yo , i)] = f ( y i | x yo , yo ) gramo( i | z yo , ,?, ?) re yo .

yo
Agrupando trminos, y haciendo que la transformacin de v yo a yo , el verdadero diario de probabilidad sera
{ [T ] }

En L = norte En f (y l | x eso , +? z i + v yo ) gramo( v i | ) re v yo
v yo
i=1 t=1
{ }

= norte En f ( y i | x yo , +? z i + v yo ) gramo( v i | ) re v yo .
v yo
i=1
Cada una de las norte trminos implica una expectativa sobre v yo . El resultado final de la integracin es una funcin de ( ,?,
?) que luego se maximiza.
Al igual que en las aplicaciones anteriores, no ser posible tomaximize el diario de probabilidad en esta forma
porque no hay forma cerrada para la integral. Hemos considerado dos enfoques para maximizar la probabilidad
log-tales. En la formulacin de clase latente, se supone que el vector de parmetro toma uno de un conjunto
discreto de valores, y la loglikelihood se maximiza a travs de esta distribucin discreta, as como los parmetros
estructurales. (Vase la Seccin 16.2.3.) El procedimiento de Bayes jerrquica mtodos usedMarkovChain-Monte
Carlo para muestra de la distribucin posterior conjunta de los parmetros subyacentes y se utiliza la media
emprica de la muestra de sorteos como el estimador. Ahora consideramos un tercer enfoque para estimar los
parmetros de un modelo de esta forma, la estimacin de mxima verosimilitud simulada.
Los trminos en el diario de probabilidad son cada uno de forma
En L i = mi v yo [ f ( y i | x yo , +? z i + v yo )].
Como se ha sealado, Wedonot Have cerrado formfor esta funcin, sowe no se puede calcular directamente. Supongamos
que pudimos probar al azar de la distribucin de v yo . Si una ley apropiada
de grandes nmeros se pueden aplicar, a continuacin,
R
1
lim f ( y i | x yo , +? z i + v IR) = mi v yo [ f ( y i | x yo , +? z i + v yo )]
R R
r=1
dnde v IR es el r sorteo de la distribucin. Esto sugiere una estrategia para calcular el logaritmo de la verosimilitud.
Podemos sustituir esta aproximacin a la expectativa en los log-verosimilitud function.With suf randomdraws fi
cientes, theapproximationcanbe hizo lo ms cercano a la funcin verdadera si lo deseas. [La teora de este enfoque
se discute inGourieroux andMonfort (1996), Bhat (1999), andTrain (1999, 2002). Los detalles prcticos sobre
aplicaciones del mtodo se dan en Greene (2001).] Un detalle para agregar preocupaciones cmo muestrear a partir
de la distribucin de v yo . Hay muchas posibilidades, pero por ahora, consideramos el caso ms simple, la distribucin
normal multivariante. Escribir
en el
forma Cholesky = LL ' dnde L es una matriz triangular inferior. Ahora deja u IR ser un vector de K independiente sorteos
de la distribucin normal estndar. A continuacin, un sorteo de la distribucin multivariada con matriz de covarianza
es simple v IR = Lu IR. la simulado
diario de probabilidad es
{1 [T ]}
R
En L S = n En f (y l | x eso , +? z i + Lu IR) .
R
i=1 r=1 t=1
La funcin resultante se maximiza con respecto a ,? y L. Esto obviamente no es

un clculo simple, pero es factible, y mucho ms fcil que tratar de manipular las integrales directamente. De hecho, para la
mayora de los problemas a los que se ha aplicado este mtodo, los clculos son sorprendentemente simple. La parte
intrincada es la obtencin de la funcin y sus derivados. Sin embargo, las funciones son generalmente modelos de funcin
de ndice que implican x ' eso yo
lo que en gran medida simplificada fi ca las derivaciones.
Inferencia en este contexto no implica nuevos resultados. La matriz de covarianza asinttica estimada para los
parmetros estimados se calcula mediante la manipulacin de los derivados de la simulada de probabilidad logartmica. Las
estadsticas de relacin de Wald y la probabilidad tambin se calculan de la manera que normalmente sera. Al igual que antes,
estamos interesados en la estimacin de parmetros espec fi cos persona. Una estimacin previa podra simplemente utilizar
+? z yo , pero esto no sera utilizar toda la informacin de la muestra. Una estimacin posterior calculara
r=1
IR f ( y i | x yo , IR)
mi v yo [ i | ,?, z i,] = R
mi R IR = + z i + Lu IR.
r=1f ( y i | x yo , IR) ,
se omiten detalles mecnicos en el clculo de la MSLE. El lector interesado puede consultar Gourieroux y Monfort
(1996), Tren (2000, 2002), y Greene (2001,
2002) para ms detalles.
Ejemplo 17.10 mxima verosimilitud simulada Estimacin de un Binario

la eleccin del modelo
Seguimos el ejemplo 16.5, donde se obtienen las estimaciones de un modelo de eleccin binaria para la innovacin de productos. El
modelo es para Prob [ y it = 1 | x eso , yo ] dnde
y it = 1 si fi rm yo se dio cuenta de una innovacin de producto en el ao t y 0 si no.

Las variables independientes en el modelo son
x eso 1 = constante,
x eso 2 = log de las ventas,
x eso 3 = tamao relativo = proporcin de empleo en la unidad de negocio para el empleo en la industria,
x eso 4 = relacin entre las importaciones de la industria a (industria de venta + importaciones),
x eso 5 = relacin de la industria de la inversin extranjera directa a (la industria de venta + importaciones),
x eso 6 = productividad = relacin entre el valor aadido de la industria de empleo en la industria,
x eso 7 = variable ficticia que indica el rm fi est en el sector de los materiales en bruto,
x eso 8 = variable ficticia que indica la fi rma se encuentra en el sector de bienes de inversin. La muestra se compone de 1.270
firmas de fabricacin alemana observados durante cinco aos, 1984-1988. La densidad que entra en el diario de probabilidad es
f (y l | x eso , i) = Prob [ y l | x ' eso i] = [( 2 y eso - 1) x ' eso yo ], y it = 0, 1.
dnde
i = + v yo , v yo ~ NORTE[ 0, ].
Para ser coherente con Bertschek y Lechner (1998) que no fi t cualquier fi rm-especfico, componentes invariables tiempo- en la
ecuacin principal para yo .
Tabla 17.5 se presentan los coeficientes estimados para la probitmodel bsica en la primera columna. Las estimaciones de los
medios, se muestran en la segunda columna. Parece que hay grandes diferencias en las estimaciones de los parmetros, aunque
esto puede bemisleading ya que hay gran variabilidad acin a travs de las firmas en las estimaciones posteriores. La tercera columna
presenta las races cuadradas de los elementos diagonales implcitas de
calculado como los elementos diagonales de LL '. estos estimacin
apareadas desviaciones estndar son para la distribucin subyacente de parmetro en el modelo- no son estimaciones de la
desviacin estndar de la distribucin de muestreo del estimador. Para el parmetro media, que se muestra entre parntesis en
la segunda columna. El cuarto UMN COL- presenta las medias de la muestra y las desviaciones estndar del 1270 posterior
estimado
TABLA 17.5 Estimacin del Modelo de parmetros aleatorios
probit RP Medios RP Std. Desarrolladores. DISTN emprica. Posterior
Constante - 1.96 - 3.91 2.70 - 3.27 - 3.38

(0,23) (0,20) (0,57) (2,14)
lnSales 0.18 0.36 0.28 0.32 0.34

(0.022) (0.019) (0,15) (0,09)
Rel.Size 1.07 6.01 5.99 3.33 2.58

(0,14) (0,22) (2,25) (1,30)
Importar 1.13 1.51 0.84 2.01 1.81

(0,15) (0,13) (0,58) (0,74)
IED 2.85 3.81 6.51 3.76 3.63

(0,40) (0,33) (1,69) (1,98)
Pinchar. - 2.34 - 5.10 13,03 - 8.15 - 5.48

(0,72) (0,73) (8,29) (1,78)
RawMtls - 0.28 - 0.31 1.65 - 0.18 - 0.08

(0.081) (0.075) (0,57) (0,37)
Invertir. 0,19 0.27 1.42 0.27 0.29

(0.039) (0.032) (0,38) (0,13)
En L - 4114.05 - 3498.654
las estimaciones de los coeficientes. La ltima columna repite las estimaciones para el classmodel latente. El acuerdo de los dos
conjuntos de estimaciones es sorprendente en vista de la cruda aproximacin dada por el modelo de clases latentes.
Figuras 17.4a y B presentes estimadores de densidad kernel de las probabilidades fi rm-espec fi calculadas en el 5-aos
significa para el modelo parmetros aleatorios y con las estimaciones probit originales. Las probabilidades estimadas son
sorprendentemente similares al modelo de clases latentes, y tambin es bastante similar, aunque ms suave que las estimaciones
probit.
FIGURA 17.4a Las probabilidades probit.
Kernel estimacin de la densidad de peste de pequeos rumiantes
3.30
2.64
1.98
Densidad
1.32
0.66
0.00
.0 .2 .4 .6 .8 1.0 1.2
PPR
FIGURA 17.4b Parmetros aleatorios probabilidades.
Kernel para estimar la densidad del PRI
1.60
1.28
0.96
Densidad
0.64
0.32
0.00
.2 .0 .2 .4 .6 .8 1.0 1.2
PRI
La figura 17.5 muestra la estimacin de densidad kernel para las estimaciones fi rm-espec fi del coef ventas de trozas fi
ciente. La comparacin a la figura 16.5 muestra algunos notable diferencia. El modelo de parmetros aleatorios produce
estimaciones que son similares en magnitud, pero las distribuciones son en realidad muy diferente. Que debe ser preferido?
Slo sobre la base de que el modelo de clases latentes discreta tres puntos es una aproximacin al modelo de variacin
continua, que prefiere este ltimo.
FIGURA 17.5 Los parmetros aleatorios, ventas.
Kernel estimacin de la densidad de BS
6.40
5.12
3.84
Densidad
2.56
1.28
0.00
.2 .1 .0 .1 .2 .3 .4 .5 .6 .7
BS
FIGURA 17.5b Modelo Clase latente, ventas.
Kernel para la estimacin de la densidad BSALES
7.20
5.76
4.32
Densidad
2.88
1.44
0.00
.2 .3 .4 .5 .6
BSALES
17.9 PSEUDO de mxima verosimilitud estimacin y matrices de covarianza asinttica

ROBUSTAS
estimacin de mxima verosimilitud requiere completa catin especfico de la distribucin de la variable aleatoria
observada. Si la distribucin correcta es algo distinto de lo que suponemos, a continuacin, la funcin de verosimilitud es
misspeci fi cado y las propiedades deseables de la MLE podra no contener. En esta seccin se considera un conjunto de
resultados en un enfoque de estimacin que es robusto a algunos tipos de modelo misspeci fi cacin. Por ejemplo, hemos
encontrado que en un modelo, si la funcin de media condicional es E [y | x] = x ' , a continuacin, ciertos estimadores, como
mnimos cuadrados, son robusto a la especificacin de la distribucin equivocado de las perturbaciones. Es decir, LS es
MLE si las perturbaciones se distribuyen normalmente, pero todava puede reclamar algunas propiedades deseables para
LS, incluyendo la consistencia, incluso si las perturbaciones no se distribuyen normalmente. Esta seccin discutir algunos
resultados que se relacionan towhat sucede ifwemaximize la funcin de log-verosimilitud malo, y para aquellos casos en
los que el estimador es consistente a pesar de esto, la forma de calcular una matriz de covarianza asinttica adecuado para
ello. 25
Dejar f (y i | x yo , ) ser la verdadera densidad de probabilidad de una variable aleatoria y yo dado un conjunto de covariables x yo y el parmetro
vector . La funcin de probabilidad logartmica es (1 / norte) Iniciar sesin L ( | Y,
X) = ( 1 / norte) norte
i = 1 Iniciar sesin f (y i | x yo , ). El MLE,
ML, es la estadstica muestra que maximiza
esta funcin. (La divisin del registro L por norte no afecta a la solucin.) Maximizamos la funcin de probabilidad
logartmica igualando sus derivados a cero, por lo que el MLE se obtiene resolviendo el sistema de ecuaciones empricas
momento
1 norte
norte
Iniciar sesin f (y i | x yo ,
ML)
=1 re yo (
ML) = re(

ML) = 0.
norte ML norte
i=1 i=1
La contraparte de la poblacin a la ecuacin muestra de momento es
[1 ] = mi [1 ] = MI[
Iniciar sesin L norte
mi re yo ( ) re( )] = 0.
norte norte
i=1
Usando lo que sabemos acerca de los estimadores GMM, si MI[ re( )] = 0, entonces ML es consistente
y asintticamente normalmente distribuido, con matriz de covarianza asinttica igual a
V ML = [ GRAMO( ) ' GRAMO( )] - 1 GRAMO( ) '{ Var [ re( )]} GRAMO( ) [ GRAMO( ) ' GRAMO( )] - 1,
dnde GRAMO( ) = Plim re( ) / '. Ya que re( ) es el vector derivado, GRAMO( ) es 1 / norte veces
el grupo de accin esperada de registro L; es decir, (1 / nordeste[ MARIDO( )] = MARIDO( ). Como hemos visto antes,
var [ Iniciar sesin L / ] = - MI[ MARIDO( )]. La recogida de los siete apariciones de (1 / nordeste[ MARIDO( )], obtenemos el resultado
familiarizado V ML = { - MI[ MARIDO( )]} - 1. [ Todos norte s cancelar y Var [ d] =
( 1 / norte)MARIDO(
)]. Tenga en cuenta que este resultado depende de manera crucial en el resultado Var [ Iniciar sesin L / ] =
- MI[ MARIDO( )].
25 El followingwill esbozar un conjunto de resultados relacionados con este problema de estimacin. Las referencias importantes sobre este tema son
de color blanco (1982a); Gourieroux, Monfort, y Trognon (1984); Huber (1967); y Amemiya (1985). Un trabajo reciente con una gran cantidad de
discusin sobre el tema es Mittelhammer et al. (2000). Las derivaciones en estas obras son complejas, y que slo se tratar de proporcionar una
introduccin intuitiva con el tema.
El estimador de probabilidad mxima se obtiene mediante la maximizacin de la funcin de marido norte( Y,
X, ) = ( 1 / norte) norte sesin f (y yo , x yo , ). Esta funcin converge a sus expectationas norte .

i = 1 Iniciar
Dado que esta funcin es el logaritmo de la verosimilitud de la muestra, sino que tambin es el caso (no demostrado aqu) que, como norte
, alcanza su mximo nico en el verdadero vector de parmetros, .
(Utilizamos este resultado para demostrar la consistencia del estimador de mxima verosimilitud.) Desde Plim
marido norte( Y, X, ) = MI[ marido norte( Y, X, )], se deduce (intercambiando diferenciacin y
la operacin expectativa) que plim marido norte( Y, X, ) / = MI[ marido norte( Y, X, ) / ]. Pero, si esto
funcin alcanza su mximo a , entonces tiene que ser el caso de que plim marido norte( Y, X, ) /
= 0.
Un estimador que se obtiene mediante la maximizacin de una funcin de criterio se llama una METRO
estimador [Huber (1967)] o un estimador extremum [Amemiya (1985)]. Supongamos que obtenemos un estimador mediante la
maximizacin de alguna otra funcin, METRO norte( Y, X, ) que, aunque no es la funcin de probabilidad logartmica, tambin alcanza
su uniquemaximumat la verdadera como norte .
Entonces theprecedingargumentmight produceaconsistent distribucin estimatorwithaknownasymptotic. Por ejemplo,
el diario de probabilidad para un modelo de regresin lineal con perturbaciones normalmente distribuidas con diferente
varianzas, 2 yo , es
{-1 [ ]}
norte
yo ) 2
marido norte( Y, X, ) = 1
marido log (2 2 yo ) + ( y yo - x ' .
norte 2 2 yo
i=1
Al maximizar esta funcin, se obtiene el estimador de mxima verosimilitud. Pero tambin examinamos otro estimador
de mnimos cuadrados simples, lo que maximiza METRO norte( Y, X, ) =
- ( 1 / norte) norte
i=1( y yo - x ' yo ) 2. Como hemos demostrado anteriormente, los mnimos cuadrados es consistente y asymp-
totically distribuido normalmente incluso con esta extensin, por lo que cali fi ca como una METRO estimador del tipo que estamos
considerando aqu.
Nowconsider thegeneral caso. Supongamos thatweestimate funcin bymaximizingacriterion
norte
METRO norte( Y | X, ) = 1 Iniciar sesin g (y i | x yo , ).
norte
i=1
Supongamos tambin que Plim METRO norte( Y, X, ) = E [M norte( Y, X, )] y que, como norte , E [M norte( Y,
X, )] alcanza su mximo en el nico . Entonces, el argumento se utiliz anteriormente para el MLE, plim METRO norte( Y, X, ) / = MI[
METRO norte( Y, X, ) / ] = 0. Una vez ms, tenemos un conjunto de ecuaciones de momentos para la estimacin. Dejar
mi el estimador que maximiza METRO norte( Y, X, ).
A continuacin, el estimador se define por
METRO norte( Y, X, MI) norte Iniciar sesin g (y i | x

yo ,MI)
=1 E)
= metro( = 0.
mi norte mi
i=1
mi es un estimador GMM. Utilizando la notacin de nuestra discusin anterior, GRAMO(

Por lo tanto, MI) es
el grupo de accin simtrica de E [M norte( Y, X, )], que denotaremos (1 / nordeste[ MARIDO METRO( E)] =
METRO(
MARIDO MI). Procediendo
como lo hicimos anteriormente para obtener V ML, se encuentra que la matriz de covarianza asinttica
apropiado para el estimador de valor extremo sera
(1 )
VE=[ MARIDO METRO( )] - 1 [ MARIDO METRO( )] - 1
norte
dnde = Var [ Iniciar sesin g (y i | x yo , ) / ], y, como antes, la distribucin asinttica es normal.

El grupo de accin en V mi puede ser fcilmente estimada mediante el uso de su contraparte emprica,
norte 2 Iniciar sesin g (y i | x yo, MI)

Est MARIDOMETRO(
E)] = 1
.
norte mi ' mi
i=1
Pero, sigue siendo Tobe especi fi, y es poco probable thatwewouldknowwhat funcin touse. La diferencia importante es que
en este caso, la variacin del vector primeros derivados fi no tiene por qu ser igual el grupo de accin, por lo V mi no simplifica.
Podemos, sin embargo, estimar consistentemente mediante el uso de la varianza de la muestra de los derivados de primeros,
[ ][ ]
norte Iniciar sesin g (y i | x )
yo , Iniciar sesin g (y i | x )
yo ,
=1 .
norte '
i=1
Si este fuera el estimador de mxima verosimilitud, a continuacin, sera el estimador BHHH que hemos utilizado en
varios puntos. Por ejemplo, para el estimador de mnimos cuadrados en el modelo de regresin lineal heteroscedastic, el
criterio es METRO norte( Y, X, ) = - ( 1 / norte) norte
i=1
( y yo - x ' yo ) 2, la solucion es b, G (b) = ( - 2 / norte) x ' X, y
norte norte
=1 [2 x yo ( y yo - x ' miyo2 x yo x yo
yo )] [ 2 x yo ( y yo - x ' yo )] '= 4 ' .
norte norte
i=1 i=1
Agrupando trminos, el 4s cancelan y se dejan precisamente con el estimador de Blanca (11-13)!
En este punto, tenemos en cuenta la motivacin de toda esta teora de peso. Una desventaja de estimacin de
mxima verosimilitud es su requisito de que la densidad de la variable aleatoria observada (s) sea completamente
especi fi. La discusin anterior sugiere que en algunas situaciones, podemos hacer un poco menor nmero de
hiptesis acerca de la distribucin de una especificacin completa requerira. El estimador de valor extremo es
robusto a algunos tipos de errores fi caciones. Un resultado til para emerger de esta derivacin es un estimador
para el covariancematrix asinttico de la extremumestimator que es robusto al menos en cierta catin fi misspeci. En
particular, si obtenemos
mi maximizando una funcin de criterio
que satisface la otros supuestos, entonces el estimador apropiado de la matriz de covarianza asinttica es
Est. V E = 1 MI)] - 1 (
MARIDO( MI)[ MARIDO(
MI)] - 1.
norte[
Si mi es el verdadero MLE, entonces V mi simpli fi ca a { - [ MARIDO( MI)]} - 1. En la literatura actual,

este estimador se ha llamado el estimador de sndwich. Hay una tendencia en la literatura actual para calcular este estimador
de forma rutinaria, independientemente de la funcin de verosimilitud. Vale la pena sealar que si el diario de probabilidad no es
especfico ed correctamente, entonces los estimadores de los parmetros son probable que sea inconsistente, a excepcin de
los casos como los que se seala ms adelante, la estimacin tan robusto de la matriz de covarianza asinttica puede ser
esfuerzo mal dirigido. Pero si la funcin de verosimilitud es correcta, entonces el estimador sandwich es innecesaria. Este
mtodo no es un parche general para modelos fi ed misspeci. No cada funcin de verosimilitud cali fi ca como un estimador
consistente extremum para los parmetros de inters en el modelo.
Uno podra preguntarse en este punto qu tan probable es que se cumplan las condiciones necesarias para que
todo esto funcione. Hay aplicaciones en la literatura en la que este mecanismo se ha utilizado que probablemente no
cumpla con estas condiciones, tales como el modelo Tobit del captulo 22. Hemos visto un caso importante. Mnimos
cuadrados en la generalizada
modelo de regresin pasa la prueba. Otra aplicacin importante es modelos de heterogeneidad individual en los datos de
seccin transversal. La evidencia sugiere que los modelos simples suelen pasar por alto las fuentes no observados de
variacin entre individuos en las secciones transversales, como no medibles efectos de la familia en los estudios de ingresos
o empleo. Supongamos que el modelo correcto para una variable es h (y i | x yo , v yo , , ), dnde v yo es un trmino aleatorio que no
se observa y es un parmetro de la distribucin de v. La funcin correcta de probabilidad logartmica es
yo Iniciar sesin f (y i | x yo , , ) = yo Iniciar sesin v h (y i | x yo , v yo , , ) f ( v yo ) re v yo . Supongamos que maximizamos alguna otra funcin
seudo-log-verosimilitud, yo Iniciar sesin g (y i | x yo , ) y luego utilizar el sndwich
estimador para estimar la matriz de covarianza asinttica de . Es que esto produce una con-
sistente estimador del verdadero vector de parmetros? Sorprendentemente, a veces lo hace, a pesar de que ha
ignorado el parmetro de ruido, . Vimos un caso, en el modelo usingOLS gr con alteraciones heterocedsticos.
Inapropiadamente fi tting un modelo de Poisson cuando el modelo binomial negativo es correcta, vase la Seccin
21.9.3, es otro caso. Para algunas especificaciones, utilizando la funcin de probabilidad mal en el modelo probit con
datos de proporciones (Seccin 21.4.6) es un tercio. [Se sugieren estos dos ejemplos, con varios otros, por
Gourieroux, Monfort, y Trognon (1984).] Nosotros enfatizamos nuevamente que el estimador de sandwich, en y de s
mismo, no es necesariamente de cualquier virtud si la funcin de verosimilitud es misspeci fi ed y las dems
condiciones de la METRO estimador no se cumplen.
17.10 Resumen y conclusiones
En este captulo se presenta la teora y varias aplicaciones de estimacin de mxima verosimilitud, que es la tcnica
ms utilizada en la estimacin de la econometra despus de los mnimos cuadrados. Los estimadores de mxima
verosimilitud son consistentes, asintticamente distribuido normalmente, y e fi ciente entre estimadores que tienen
estas propiedades. El inconveniente de la tcnica es que requiere un completamente paramtrico, detallada
especificacin del proceso de generacin de datos. Como tal, es vulnerable a problemas misspeci fi cacin. El
siguiente captulo considera tcnicas de estimacin GMM que son menos paramtrico, pero ms robusto a la variacin
en el proceso de generacin de datos subyacente.
Trminos y conceptos clave
Asinttica e fi ciencia Identi fi cacin mnimos cuadrados no lineales

normalidad asinttica matriz de informacin producto externo de los gradientes
varianza asinttica Informacin de la igualdad de matriz estimador
estimador BHHH invariancia condiciones de regularidad
modelo Box-Cox jacobiano Resultado de prueba
restricciones de momentos prueba multiplicador de Lagrange frontera estocstica
condicionales ecuacin de probabilidad De dos pasos de mxima

Concentrado de probabilidad logartmica funcin de verosimilitud verosimilitud
Consistencia la desigualdad de probabilidades estadstico de Wald
Atestar er-Rao lmite inferior prueba de razn de verosimilitud prueba de Wald
E fi ciente puntuacin La informacin limitada de
parmetros estimables mxima verosimilitud
La informacin completa de mxima estimador de mxima
verosimilitud verosimilitud
Ceremonias
1. Supongamos que la distribucin de x es f (x) = 1 / , 0 x . En el muestreo aleatorio

de esta distribucin, prueban que el mximo de la muestra es un estimador consistente de
. Nota: Se puede probar que el mximo es el estimador de mxima verosimilitud de
. Pero las propiedades habituales no se aplican aqu. Por qu no? [Indicacin: intentar verificar que la primera
derivada esperado del diario de probabilidad con respecto a es cero.]
2. En el muestreo aleatorio a partir de la distribucin exponencial f (x) = ( 1 / ) mi - x/ , x 0,
> 0, encontramos el estimador de mxima verosimilitud de y obtener la distribucin asinttica de este
estimador.
3. distribucin de la mezcla. Supongamos que la articulacin de la distribucinde los dos randomvariables
x y y es
f (x, y) = mi - ( + ) y ( y) x , , > 0, y 0, x = 0, 1, 2, . . . .
x!
a. Encuentra los estimadores de mxima verosimilitud de y y su articulacin asinttica

distribucin.
segundo. Encuentre el estimador de mxima verosimilitud de / (+ ) y su asinttica
distribucin.
do. Pruebalo f (x) es de la forma
f (x) = ( 1 - ) x, x = 0, 1, 2, . . . ,
y encontrar el estimador de mxima verosimilitud de y su distribucin asinttica.

re. Pruebalo f (y | x) es de la forma
f (y | x) = mi - y ( y) x , y 0, > 0.
x!
Pruebalo f (y | x) integra a 1. Encuentre el estimador de mxima verosimilitud de

y su distribucin asinttica. [Nota: En la distribucin condicional, simplemente llevar a la x s a lo largo de como
constantes.]
mi. Pruebalo
f (y) = mi - Y, y 0, > 0.
Encuentre el estimador de mxima verosimilitud de y su varianza asinttica.

F. Pruebalo
f (x | y) = e - y ( y) x , x = 0, 1, 2, . . . , > 0.
x!
Basado en esta distribucin, lo que es el estimador de mxima verosimilitud de ?

4. Supongamos que x tiene la distribucin de Weibull
f (x) = x - 1 mi - x , x 0, , > 0.
a. Obtener la funcin de log-verosimilitud para una muestra aleatoria de norte observaciones.

segundo. Obtener las ecuaciones de verosimilitud para la estimacin de mxima verosimilitud de y .
Tenga en cuenta que el primero ofrece una solucin explcita para en cuanto a los datos y
. Pero, despus de la insercin de este en la segunda, se obtiene solamente una solucin implcita de . Cmo
se obtienen los estimadores de mxima verosimilitud?
do. Obtener la segunda matriz derivados de la probabilidad log-con respecto a y

. Las expectativas exactas de los elementos que entraan involucrar a las derivadas de la funcin gamma
y son bastante desordenado analticamente. Por supuesto, el resultado exacto proporciona un estimador
emprico. Cmo le estimar la matriz de covarianza asinttica para sus estimadores en la Parte B?
re. Pruebalo Cov [ln x, x ] = 1. [Nota: Los derivados primeros esperados de la

funcin de log-probabilidad son cero.]
5. Los siguientes datos fueron generados por la distribucin de Weibull de Ejercicio 4:
1.3043 0.49254 1.2742 1.4019 0.32556 0.29965 0.26423

1.0878 1.9461 0.47615 3.6454 0.15344 1.2357 0.96381
0.33453 1.1227 2.0296 1,2797 0.96080 2.0070
a. Obtener las estimaciones de mxima verosimilitud de y , y estimar el asymp-

matriz de covarianza Totic para las estimaciones.
segundo. Llevar a cabo una prueba de Wald de la hiptesis de que = 1.
do. Obtener la estimacin de mxima verosimilitud de bajo la hiptesis de que = 1.

re. Usando los resultados de las partes A y C, llevar acabo una prueba de relacin de probabilidad de que thehypothesis = 1.
mi. Llevar a cabo una prueba multiplicador de Lagrange de la hiptesis de que = 1.

6. ( Informacin limitada de estimacin de mxima verosimilitud). Considere un bivariante
la distribucin de x y y que es una funcin de dos parmetros, y . La densidad conjunta es f (x, y | , ). Consideramos
que la estimacin de mxima verosimilitud de los dos parmetros. La informacin completa estimador de mxima
verosimilitud es el ya conocido estimador de mxima verosimilitud de los dos parmetros. Ahora, supongamos que
podemos factorizar la distribucin conjunta como se hizo en el ejercicio 3, pero en este caso, tenemos
f (x, y | , ) = f (y | x, , ) f (x | ). Es decir, la densidad condicional para y es una funcin de dos parmetros,

pero la distribucin marginal de x implica solamente .
a. Anote la forma general de la funcin de probabilidad de registro utilizando la densidad conjunta.
segundo. Puesto que la densidad conjunta es igual al producto de los tiempos condicionales la marginales, la funcin de
probabilidad logartmica se puede escribir de forma equivalente en trminos de la densidad factorizada. Escribe, en trminos
generales.
do. el parmetro se puede estimar por s mismo utilizando slo los datos sobre x y el registro
probabilidad formado usando la densidad marginal para x. Tambin se puede estimar con
mediante el uso de la funcin de probabilidad logartmica completa y datos sobre ambos y y x. Mostrar esto.
re. Demostrar que el estimador de primera fi en la Parte C tiene una varianza asinttica mayor que la segunda.
Esta es la diferencia entre una informacin limitada estimador de mxima verosimilitud y una informacin
completa estimador de mxima verosimilitud.
mi. Demostrar que si 2 En f (y | x, , ) / = 0, entonces el resultado en la parte D ya no es
cierto.
7. Demostrar que la desigualdad de probabilidades en el teorema 17.3 se mantiene para la distribucin de Poisson se utiliza en la Seccin
17.3, mostrando que MI[( 1 / norte) En L ( | y)] est en uniquelymaximized = 0. Sugerencia: En primer lugar muestran que la
expectativa es - + 0 En - mi 0 [ En y yo !].
8. Demostrar que la desigualdad de probabilidades en el teorema 17.3 se mantiene para la distribucin normal.
9. Para el muestreo aleatorio a partir del modelo de regresin clsica en (17-3), reparametrizar la funcin de
probabilidad en trminos de = 1 / y = ( 1 / ) . Encontrar el mximo
estimadores de probabilidad de y y obtener la matriz de covarianza asinttica de los estimadores de estos

parmetros.
10. Seccin 14.3.1 se presentan las estimaciones de una funcin de costos Cobb-Douglas a partir de datos de 1955 en Nerlove
theU.S. industria de la energa elctrica. actualizacin de este estudio de 1976 de Christensen andGreene utiliza datos de
1970 para esta industria. Los datos Christensen y Greene se dan en la Tabla F5.2. Estos datos han proporcionado una datos
de prueba estndar establecidas para la estimacin de las diferentes formas de las funciones de produccin y coste,
incluyendo el modelo de frontera estocstica examinado en el Ejemplo 17.5. Se ha sugerido que una explicacin para la
aparente hallazgo de las economas de escala en estos datos es que el ms pequeo fi rmswere ineficientes por otras
razones. La frontera estocstica podra permitir que uno de desenredar estos efectos. Utilizar estos datos para encajar un
costo frontera functionwhich incluye un trmino cuadrtico en la salida del registro, adems de la de los precios de los
factores lineales termand. A continuacin, examinar el estimado Jondrow et al. residuales para ver si en realidad hacen que
varan negativamente con la produccin, como se sugiere. (Esto requerir ya sea un poco de programacin de su parte o
software especializado. El modelo de frontera estocstica se ofrece como una opcin en TSP y LIMDEP. O bien, la funcin de
verosimilitud se puede programar con bastante facilidad para las ratas o Gauss. Tenga en cuenta, para una frontera de costos
como en contraposicin a una frontera de produccin, es necesario invertir el signo en el argumento de la
funcin.)
11. Considrese, el muestreo de una distribucin normal multivariante con vector medio
= ( 1, 2, . . . , METRO) y matriz de covarianza 2 YO. La funcin de probabilidad logartmica es
norte
En L = - Nuevo Mjico ln (2 ) - Nuevo Mjico ( y yo - ) '( y yo - ).
2 2 ln 2- 1 2 2
i=1
Muestran que las estimaciones de mxima verosimilitud de los parmetros son

METRO
y metro) 2 METRO 1 norte METRO
i=1 m=1( y estoy -
2 ML = norte
=1 ( y estoy - y metro) 2 = 1 metro.
2
Nuevo Mjico METRO norte METRO
m=1 i=1 m=1
Deducir la segunda matriz de derivados y muestran que la matriz de covarianza asinttica para los
estimadores de mxima verosimilitud es
{ - mi [ 2 En L ]} - 1 = [ 2 YO/ norte ]
0
.
' 0 2 4 / ( Nuevo Mjico)
Supongamos que deseamos probar la hiptesis de que themeans de la METRO distribuciones eran todos iguales a un
valor particular 0. Demostrar que el estadstico de Wald sera
) -1 )
2
W = ( y - 0 yo) '( y - 0 i), = ( norte
( y ( y
y - 0 yo) '( y - 0 yo),
norte yo s2
dnde y es el vector de medias de la muestra.

1capitulo 17 Greene Traducido

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

1capitulo 17 Greene Traducido

Cargado por

Copyright:

Formatos disponibles

Greene-50240 libro 26 de de junio de, de 2002 15: 8

El mtodo generalizado de momentos analizados en el captulo 18 y los estimadores semiparamtricos, no paramtricos, y

17.2 la funcin de probabilidad E IDENTIFICACIN DE LOS PARMETROS

notacin sin aadir nada sustancial a la discusin.

CAPTULO 17 Estimacin de mxima verosimilitud 469

Por lo general es ms fcil trabajar con el logaritmo de la funcin de verosimilitud:

yo y la varianza 2. Eso significa que el observado ran-

dnde x es el norte K matriz de datos con yo fila igual a x ' yo .

El resto de este chapterwill ser concernedwithobtainingestimates de theparameters,

DEFINICIN 17.1 identi fi cacin

Ejemplo 17.1 La identificacin de los parmetros

470 CAPTULO 17 Estimacin de mxima verosimilitud

yo , y la etiqueta de precio en el coche,

Prob (compra | 1, 2, , x i) = Prob ( y i> 0 | 1, 2, , x yo )

17.3 ESTIMACIN EFICAZ: el principio de mxima verosimilitud

CAPTULO 17 Estimacin de mxima verosimilitud 471

FIGURA 17.1 Probabilidad y de probabilidad logartmica Funciones para un Poisson

Para la muestra asumido de observaciones,

472 CAPTULO 17 Estimacin de mxima verosimilitud

Ejemplo 17.2 Iniciar funcin de probabilidad y la probabilidad Ecuaciones

17.4 propiedades de los estimadores de mxima verosimilitud

CAPTULO 17 Estimacin de mxima verosimilitud 473

DEFINICIN 17.2 asinttica e fi ciencia

Usamos la siguiente notacin es el estimador de mxima verosimilitud; 0 Delaware-

TEOREMA 17.1 propiedades de un MLE

M1. Consistencia: Plim = 0.

YO( 0) = - mi 0 [ 2 En L / 0 ' 0].

M3. Asinttica e fi ciencia: es asintticamente e fi ciente y logra el

M4. invariancia: El estimador de mxima verosimilitud de 0 = do( 0) es do( ) Si

17.4.1 condiciones de regularidad

de una matriz infinita de fi no negativo.

474 CAPTULO 17 Estimacin de mxima verosimilitud

DEFINICIN 17.3 Condiciones de Regularidad

R1. La primera tres derivados de En f (y i | ) con respecto a son continuas

Con estas condiciones de regularidad, obtendremos las siguientes caractersticas fundamentales de f (y i | ): D1

Esta relacin muestra cmo obtener la matriz de covarianza asinttica de la MLE.

17.4.2 PROPIEDADES de las densidades REGULAR

TEOREMA 17.2 Momentos de los Derivados del diario de probabilidad

D1. En f (y i | ), gramo i = En f (y i | ) / , y MARIDO i = 2 En f (y i | ) / ',

D3. var [ gramo yo ( 0)] = - MI[ MARIDO yo ( 0)].

Condicin D1 es simplemente una consecuencia de la definicin de la densidad.

Para themoment, permitimos que la gama de y yo todependon los parmetros; UN( 0) y yo

CAPTULO 17 Estimacin de mxima verosimilitud 475

Ahora, diferenciar esta expresin con respecto a 0. El teorema de Leibnitz da

Esto demuestra D2.

y la integral de una suma es la suma de las integrales. Por lo tanto,

476 CAPTULO 17 Estimacin de mxima verosimilitud

17.4.3 LA ECUACIN PROBABILIDAD

La funcin de probabilidad logartmica es

El primer vector derivado de, o vector de puntuacin, es

Dado que slo estamos agregando trminos, se deduce de D1 y D2 que por lo 0,

Cul es el ecuacin probabilidad antes mencionado.

17.4.4 LA IGUALDAD INFORMACIN MATRIX

El Hessian del diario de probabilidad es

Evaluar una vez ms en 0, tomando

Y, debido a D1, dejando caer un acuerdo con subndices desiguales obtenemos

17.4.5 propiedades asintticas del mximo

CAPTULO 17 Estimacin de mxima verosimilitud 477

La expectativa en el lado derecho es exactamente igual a uno, como

continuacin dividir por norte para producir

mi 0 [ 1 / norte En L ( )] - mi 0 [ 1 / norte En L ( 0)] < 0. (17-15)

Esto produce un resultado centro:

Teorema 17.3 Probabilidad Desigualdad

mi 0 [( 1 / norte) En L ( 0)] > mi 0 [( 1 / norte) En L ( )] para cualquier = 0 ( incluyendo ).