Está en la página 1de 57

Greene-50240 libro 26 de de junio de, de 2002 15: 8

17

MXIMA VEROSIMILITUD
ESTIMACION

Q
17.1 INTRODUCCIN

El mtodo generalizado de momentos analizados en el captulo 18 y los estimadores semiparamtricos, no paramtricos, y


bayesianos discutidos en el Captulo 16 estn siendo ampliamente utilizado por los constructores de modelos. No obstante,
el estimador de mxima verosimilitud discutido en este captulo sigue siendo el estimador preferido en muchos ms ajustes
que los otros mencionados. Como tal, nos centramos nuestra discusin de los mtodos de estimacin de aplicacin general
en esta tcnica. Secciones 17.2 a 17.5 a travs de los resultados estadsticos actuales para la estimacin y prueba de
hiptesis basadas en el principio de mxima verosimilitud. Despus de establecer algunos resultados generales de este
mtodo de estimacin, a continuacin, vamos a extenderlas a la configuracin ms familiar de econometricmodels. Algunas
aplicaciones se presentan en la Seccin 17.6. Finalmente, tres variaciones de la tcnica, de mxima verosimilitud simulada,
la estimacin de dos pasos y la estimacin de probabilidad pseudomaximum se describen en las Secciones 17.7 a travs de
17,9.

17.2 la funcin de probabilidad E IDENTIFICACIN DE LOS PARMETROS

La funcin de densidad de probabilidad, o pdf para una variable aleatoria Y, condicionado a un conjunto de parmetros,
, se denota f (y | ). 1 Esta funcin identi fi ca el proceso de generacin de datos que subyace en una muestra
observada de datos y, al mismo tiempo, proporciona una descripcin matemtica de los datos que va a producir el
proceso. La densidad conjunta de n independiente y idnticamente distribuidas ( iid) observaciones de este proceso es
el producto de las densidades individuales;


f (y 1, . . . , y n | ) = norte f (y i | ) = L ( | y). (17-1)
i=1

Esta densidad conjunta es la funcin de verosimilitud, definida como una funcin del vector de parmetro desconocido, , dnde
y se utiliza para indicar la recogida de datos de la muestra. Tenga en cuenta que escribimos la densidad conjunta como una
funcin de los datos de acondicionado de los parmetros mientras que cuando se forma la funcin de probabilidad,
escribimos esta funcin a la inversa, como una funcin de los parmetros, condicionado a los datos. Aunque las dos
funciones son las mismas, es de destacar que la funcin de probabilidad se escribe de esta manera a

1 Ms adelante vamos a extender esto al caso de un vector aleatorio, Y, con una densidad multivariante, pero en este punto, que complicara la

notacin sin aadir nada sustancial a la discusin.

468
Greene-50240 libro 26 de de junio de, de 2002 15: 8

CAPTULO 17 Estimacin de mxima verosimilitud 469

destacar nuestro inters en theparameters y la themthat informationabout est contenida en los datos observados. Sin
embargo, se entiende que la funcin de probabilidad no est destinado a representar una densidad de probabilidad para
los parmetros como lo es en la Seccin 16.2.2. En este marco de estimacin clsica, los parmetros se supone que son
constantes fi jo que esperamos para aprender acerca de los datos.

Por lo general es ms fcil trabajar con el logaritmo de la funcin de verosimilitud:


En L ( | y) = norte En f (y i | ). (17-2)
i=1

Una vez ms, para enfatizar nuestro inters en los parmetros, dados los datos observados, denotamos esta funcin L
( | datos) = L ( | y). La funcin de probabilidad y su logaritmo, evaluada en , a veces se designan simplemente L ( ) y ln
L ( ), respectivelyor, wherenoambiguity puede surgir, justo L o ln L.

Por lo general ser necesario generalizar el concepto de la funcin de verosimilitud para permitir que la densidad de
depender de otras variables condicionantes. Para saltar inmediatamente a una de nuestras aplicaciones centrales,
supongamos que la perturbacin en el modelo clsico de regresin lineal se distribuye normalmente. Entonces, bajo la
condicin de que es especfico x yo , y yo se distribuye normalmente con media i = x '

yo y la varianza 2. Eso significa que el observado ran-


variables de DOM no son iid; tienen diferentes medios. Sin embargo, las observaciones son independientes, y como
vamos a examinar con ms detalle,

norte
En L ( | Y, X) = norte En f (y i | x yo , ) = - 1 [ln 2 + ln (2 ) + ( y yo - x ' yo ) 2 / 2], ( 17-3)
2
i=1 i=1

dnde x es el norte K matriz de datos con yo fila igual a x ' yo .

El resto de este chapterwill ser concernedwithobtainingestimates de theparameters,


y en las pruebas de hiptesis sobre ellos y sobre el proceso de generacin de datos. Antes de comenzar este estudio,
consideramos que la cuestin de si la estimacin de los parmetros es posible en absoluto la cuestin de identificacin. Identi fi
cacin es un problema relacionado con la formulacin de themodel. El tema de la identi fi cationmust resolverse antes de la
estimacin puede incluso ser considerada. La pregunta planteada es esencialmente la siguiente: Supongamos que tenemos un
infinitamente amplia muestra, es decir, para los propsitos actuales, toda la informacin no se tendrn en cuenta acerca de los
parmetros. Podramos determinar de forma nica los valores de a partir de una muestra de este tipo? Como ser evidente en
breve, a veces la respuesta es no.

DEFINICIN 17.1 identi fi cacin


El vector de parmetros es identi fi ed ( estimable) si por cualquier otro vector de parmetros,
* = , para algunos datos Y, L ( * | y) = L ( | y).

Este resultado ser crucial en varios puntos en lo que sigue. Consideramos dos ejemplos, el primero de los cuales ser
muy familiar para usted por ahora.

Ejemplo 17.1 La identificacin de los parmetros


Para el modelo de regresin se especifica en (17-3), supngase que existe un vector distinto de cero un de tal manera que x '

yo a = 0 para cada x yo . Luego hay otro vector parmetro, = + a = de tal manera que
Greene-50240 libro 26 de de junio de, de 2002 15: 8

470 CAPTULO 17 Estimacin de mxima verosimilitud

x 'yo = x '
yo para cada x yo . Se puede ver en (17-3), que si este es el caso, entonces el diario de probabilidad es la misma si se

evala en o en . Como tal, no es posible considerar la estimacin de en este modelo, ya no se puede distinguir de . Este
es el caso de la perfecta colinealidad en el modelo de regresin que descartado cuando nos propusimos la primera modelo de
regresin lineal con Supuesto 2. capacidad identificaciones de los parmetros del modelo.

Lo anterior tratado con una caracterstica necesaria de los datos de la muestra. Ahora consideramos un modelo en el que la
identi fi cacin est asegurada por la especi fi cacin de los parmetros en el modelo. (Vamos a estudiar este modelo en detalle en
el captulo 21.) Considere una forma sencilla del modelo de regresin considerado anteriormente, y i = 1 + 2 x i + yo , dnde i | x yo tiene
una distribucin normal con media cero y varianza 2. Para poner el modelo en un contexto, considere la compra de un consumidor
de un gran mercanca, como un automvil, donde x yo es el ingreso del consumidor y y yo es la diferencia entre lo que el consumidor
est dispuesto a pagar por el coche, pag *

yo , y la etiqueta de precio en el coche,


pag yo . Supongamos que en lugar de observar pag * pag yo , observamos solamente si el consumidor realidad
yo o
compra el coche, que, suponemos, se produce cuando y i = pag * yo - pag yo es positivo. la recopilacin de esta

informacin, nuestro modelo indica que van a comprar el coche si y i> 0 y no comprarlo si
y yo 0. Formemos la funcin de verosimilitud de los datos observados, que son de compra (o no) y los ingresos. La variable
aleatoria en este modelo es comprar o no comprar -hay slo dos resultados. La probabilidad de una compra es

Prob (compra | 1, 2, , x i) = Prob ( y i> 0 | 1, 2, , x yo )

= Prob ( 1 + 2 x i + i> 0 | 1, 2, , x yo )

= Prob [ i> - ( 1 + 2 x i) | 1, 2, , x yo ]

= Prob [ yo / > - ( 1 + 2 x yo ) / | 1, 2, , x yo ]

= Prob [ z i> - ( 1 + 2 x yo ) / | 1, 2, , x yo ]

dnde z yo tiene una distribucin normal estndar. La probabilidad de no compra es slo uno menos esta probabilidad. La funcin
de verosimilitud es


[Problema resuelto (compra | 1, 2, , x yo ) ] [1 - Prob (compra | 1, 2, , x yo ) ].
i = comprado No = comprado

Tenemos que ir ms lejos para ver que los parmetros de thismodel no se identifican. Si 1, 2 y
son todos multiplicado por la misma constante diferente de cero, independientemente de lo que es, a continuacin, Prob (compra) es sin
cambios, 1 - Prob (compra) es tambin, y la funcin de probabilidad no cambia. Este modelo requiere una normalizacin. El uno
generalmente utilizado es = 1, pero algunos autores [por ejemplo, Horowitz (1993)] han utilizado 1 = 1 en su lugar.

17.3 ESTIMACIN EFICAZ: el principio de mxima verosimilitud

El principio de mxima verosimilitud proporciona un medio de elegir un estimador fi ciente asintticamente ef para
un parmetro o un conjunto de parmetros. La lgica de la tcnica se ilustra fcilmente en el contexto de una
distribucin discreta. Considere una muestra aleatoria de los siguientes 10 observaciones de una distribucin de
Poisson: 5, 0, 1, 1, 0, 3, 2, 3, 4 y 1. La densidad para cada observacin es

f (y i | ) = mi - y yo
y yo ! .
Greene-50240 libro 26 de de junio de, de 2002 15: 8

CAPTULO 17 Estimacin de mxima verosimilitud 471

0.13 26

0.12 24

0.11 22

0.10 20

0.09 18
L ( x)
0.08 16

0.07 14

En L ( x) 25
L ( x) 10 7

0.06 12

0.05 10 8
En L ( x)
0.04 64

0.03 20

0.02

0.01

0 0.5 0.8 1.1 1.4 1.7 2.0 2.3 2.6 2.9 3.2 3.5

FIGURA 17.1 Probabilidad y de probabilidad logartmica Funciones para un Poisson


Distribucin.

Dado que las observaciones son independientes, su densidad conjunta, que es la probabilidad para esta muestra, es

i = 1 y yo

f (y 1, y 2, . . . , y 10 | ) = 10 f (y i | ) = mi - 10
1010
207, 360.
i=1 i=1 y yo ! = mi - 10 20

El ltimo resultado da la probabilidad de observar esta muestra particular, suponiendo que una distribucin de
Poisson con parmetro an desconocido generado los datos. Qu valor de hara que esta muestra ms
probable? Figura 17.1 parcelas esta funcin para varios valores de . Tiene un nico modo en = 2, lo que sera el estimado
mximo de verosimilitud, o MLE, de .

Considere la maximizacin L ( | y) con respecto a . Dado que la funcin de registro es montona creciente y
ms fcil de trabajar, por lo general maximizar ln L ( | y) en lugar; en el muestreo de una poblacin de Poisson,

norte
En L ( | y) = - norte + En y yo - norte ln ( y yo !),
i=1 i=1

En L ( | y) norte
=-n+1 yi= 0 ML = y norte.

i=1

Para la muestra asumido de observaciones,

En L ( | y) = - 10 + 20 En - 12.242,

re En L ( | y)
= - 10 + 20 = 2,
re =0
Greene-50240 libro 26 de de junio de, de 2002 15: 8

472 CAPTULO 17 Estimacin de mxima verosimilitud

re 2 En L ( | y)
= - 20
re 2 2 < 0 este es un mximo.

La solucin es la misma que antes. Figura 17.1 tambin traza el registro de L ( | y) para ilustrar el resultado.

La referencia a la probabilidad de observar la muestra dada no es exacta en una distribucin continua, ya que
una muestra particular tiene una probabilidad de cero. Sin embargo, el principio es el mismo. Los valores de los
parmetros que maximizan L ( | datos) o su registro son las estimaciones de mxima verosimilitud, denotados
. Dado que el logaritmo es una montona
funcin, los valores que maximizan L ( | datos) son los mismos que los que maximizar ln L ( | datos). La condicin
necesaria para maximizar ln L ( | datos) es

En L ( | datos)
= 0. (17-4)

Esto se llama el ecuacin de probabilidad. El resultado general es, entonces, que el MLE es una raz de la ecuacin de
probabilidad. La aplicacin a los parmetros de la DGP para una variable aleatoria discreta son sugestivos de que la mxima
probabilidad es un buen uso de los datos. Queda por establecer esto como un principio general. Nos dirigimos a esa
cuestin en la siguiente seccin.

Ejemplo 17.2 Iniciar funcin de probabilidad y la probabilidad Ecuaciones


para la distribucin normal
En el muestreo de una distribucin normal con media y la varianza 2, la fun- ecuaciones de probabilidad logartmica cin y la
probabilidad de y 2 son

[( y yo - ) 2 ]
norte
En L ( , 2) = - norte , (17-5)
2 ln (2 ) - norte 2 ln 2 - 1 2 2
i=1

En L
norte
( y yo - ) = 0, (17-6)
= 1 2
i=1

En L
norte
( y yo - ) 2 = 0. (17-7)
2 = - norte 2 2 + 1 2 4
i=1

Para resolver las ecuaciones de probabilidad, multiplicar (17-6) por 2 y resolver para , a continuacin, insertar esta solucin
de (17-7) y resolver para 2. Las soluciones son

norte norte
ML = 1 y i = y norte y 2 ML = 1 ( y yo - y norte) 2. (17-8)
norte norte
i=1 i=1

17.4 propiedades de los estimadores de mxima verosimilitud

estimadores de mxima verosimilitud (MLE) son los ms atractivos debido a su largesample o propiedades
asintticas.
Greene-50240 libro 26 de de junio de, de 2002 15: 8

CAPTULO 17 Estimacin de mxima verosimilitud 473

DEFINICIN 17.2 asinttica e fi ciencia


Un estimador es asintticamente e fi ciente si es consistente, asintticamente distribuido normalmente
(CAN), andhas un covariancematrix asinttica que no es mayor que la covariancematrix asinttica de
cualquier otro estimador consistente, asintticamente distribuido normalmente. 2

Si se cumplen ciertas condiciones de regularidad, el MLE tendr estas propiedades. Las propiedades de la muestra finitos son
a veces menos que ptima. Por ejemplo, el MLE puede estar sesgada; theMLEof 2 el Ejemplo 17.2 est sesgada hacia abajo.
La declaracin de vez en cuando que las propiedades de theMLE son solamente ptima en muestras grandes no es cierto, sin
embargo. Se puede demostrar que cuando el muestreo es de la familia exponencial froman de las distribuciones (simiente fi
nition18.1), therewill existo SUF estadsticas fi cientes. Si es as, MLEswill ser funciones de ellos, lo que significa que cuando
existen mnima varianza estimadores no sesgados, lo harn beMLEs. [Ver Stuart y Ord (1989).] La mayora de las
aplicaciones en econometra no implican familias exponenciales, por lo que el recurso de la MLE sigue siendo principalmente
sus propiedades asintticas.

Usamos la siguiente notacin es el estimador de mxima verosimilitud; 0 Delaware-


observa el verdadero valor del vector de parmetro; denota otro valor posible del vector de parmetros, no el MLE y no
necesariamente los valores verdaderos. Expectativa basada en los verdaderos valores de los parmetros se denota mi 0 [.]. Si
asumimos que las condiciones de regularidad se analizan a continuacin se encuentran con f ( x, 0), entonces tenemos el
siguiente teorema.

TEOREMA 17.1 propiedades de un MLE


Bajo la regularidad, el estimador de probabilidad mxima (MLE) tiene las siguientes propiedades
asintticas:

M1. Consistencia: Plim = 0.


M2. normalidad asinttica: un~ NORTE[ 0, { YO( 0)} - 1], dnde

YO( 0) = - mi 0 [ 2 En L / 0 ' 0].

M3. Asinttica e fi ciencia: es asintticamente e fi ciente y logra el


Atestar er-Rao lmite inferior para estimadores consistentes, dada en M2 y el Teorema C.2.

M4. invariancia: El estimador de mxima verosimilitud de 0 = do( 0) es do( ) Si


do( 0) es una funcin continua y continuamente derivable.

17.4.1 condiciones de regularidad

Para boceto pruebas de estos resultados, se primera obtenemos algunas propiedades tiles de funciones de densidad de
probabilidad. Asumimos que ( y 1, . . . , y norte) es una muestra aleatoria de la poblacin

2 no mayor se define en el sentido de (A-118): La matriz de covarianza de los menos ef estimador fi ciente es igual a la de la estimador e fi ciente adems

de una matriz infinita de fi no negativo.


Greene-50240 libro 26 de de junio de, de 2002 15: 8

474 CAPTULO 17 Estimacin de mxima verosimilitud

con funcin de densidad f (y i | 0) y que la siguiente condiciones de regularidad sostener. [Nuestra declaracin de
stos es informal. Un tratamiento ms rigurosa puede ser encontrado en Stuart y Ord (1989) o Davidson y MacKinnon
(1993)].

DEFINICIN 17.3 Condiciones de Regularidad

R1. La primera tres derivados de En f (y i | ) con respecto a son continuas


y finito para casi todos y yo y para todos . Esta condicin asegura la existencia de una cierta
aproximacin en serie de Taylor y la varianza finita de los derivados de En L.

R2. Las condiciones necesarias para obtener las expectativas de la primera y segunda
derivados de En f (y i | ) se cumplan.
R3. Para todos los valores de , | 3 En f (y i | ) / j k l | es menor que una funcin que
tiene una expectativa infinita. Esta condicin nos permitir truncar la serie de Taylor.

Con estas condiciones de regularidad, obtendremos las siguientes caractersticas fundamentales de f (y i | ): D1


es simplemente una consecuencia de la definicin de la funcin de verosimilitud. D2 conduce a la condicin de
momentos que define el estimador de mxima verosimilitud. Por un lado, el MLE se encuentra como el maximizador
de una funcin, que obliga a fi Nding el vector que equivale el gradiente a cero. Por otro lado, D2 es un
relationshipwhichplaces theMLE ms fundamental en la clase de generalizedmethod de momentos estimadores. D3
produce lo que se conoce como el Informacin sobre igualdad de matriz.

Esta relacin muestra cmo obtener la matriz de covarianza asinttica de la MLE.

17.4.2 PROPIEDADES de las densidades REGULAR

Densidades que son regular por definicin 17.3 tienen tres propiedades que se utilizan en el establecimiento de las
propiedades de los estimadores de mxima verosimilitud:

TEOREMA 17.2 Momentos de los Derivados del diario de probabilidad

D1. En f (y i | ), gramo i = En f (y i | ) / , y MARIDO i = 2 En f (y i | ) / ',


i = 1, . . . , norte, son todas las muestras al azar de variables aleatorias. Esta afirmacin se desprende de
nuestro supuesto de muestreo aleatorio. la notacin gramo yo ( 0)
y MARIDO yo ( 0) indica la derivada evaluada en 0.
D2. mi 0 [ gramo yo ( 0)] = 0.

D3. var [ gramo yo ( 0)] = - MI[ MARIDO yo ( 0)].

Condicin D1 es simplemente una consecuencia de la definicin de la densidad.

Para themoment, permitimos que la gama de y yo todependon los parmetros; UN( 0) y yo


SEGUNDO( 0). ( Consideremos, por ejemplo, hallazgo el estimador de mxima verosimilitud de / descanso
Greene-50240 libro 26 de de junio de, de 2002 15: 8

CAPTULO 17 Estimacin de mxima verosimilitud 475

para una distribucin uniforme continua con rango [0, 0].) ( En lo siguiente, la nica integral . . . dy yo , wouldbeused para
indicar themultiple integrationover todos los elementos de un multivariante de y yo si fuera necesario). Por definicin,

SEGUNDO( 0)

f (y - i | 0) dy i = 1.
UN( 0)

Ahora, diferenciar esta expresin con respecto a 0. El teorema de Leibnitz da

SEGUNDO( 0)
UN( 0) f (y i | 0) dy yo f (y i | 0)
= SEGUNDO( 0) dy i + f (B ( 0) | 0) SEGUNDO( 0)
0 UN( 0) 0 0

- f (A ( 0) | 0) UN( 0)
0
= 0.

Si los trminos segundo y tercero van a cero, entonces podemos intercambiar las operaciones de diferenciacin e
integracin. La condicin necesaria es que lim y yo UN( 0) f (y i | 0) =
lim y yo SEGUNDO( 0) f (y i | 0) = 0. (Tenga en cuenta que la distribucin uniforme sugiri anteriormente viole esta condicin.)
Condiciones su fi ciente son que el intervalo de la observada randomvariable,
y yo , no depende de los parmetros, que whichmeans UN( 0) / 0 = SEGUNDO( 0) / 0 = 0
o que la densidad es cero en los puntos terminales. Esta condicin, entonces, es condicin de regularidad R2. Este
ltimo se suele suponer, y vamos a suponer que en lo que sigue. Asi que,
[ En f (y i | 0) ] = 0.
f (y i | 0) dy yo
= f (y i | 0) dy i = En f (y i | 0) f (y i | 0) dy i = mi 0
0 0 0 0

Esto demuestra D2.


Ya que pueden intercambiar las operaciones de integracin y diferenciacin, diferenciamos bajo la integral una
vez ms para obtener
[ 2 En f (y i | 0) ]
f (y i | 0)
f (y i | 0) + En f (y i | 0) dy i = 0.
0 '0 0 '0

Pero

f (y i | 0)
= f (y i | 0) En f (y i | 0) ,
'0 '0

y la integral de una suma es la suma de las integrales. Por lo tanto,


] ]
En f (y i | 0)
- [ 2 En f (y i | 0) f (y i | 0) dy i = [ En f (y i | 0) f (y i | 0) dy i = [ 0].
0 '0 0 '0

El lado izquierdo de la ecuacin es el negativo de la matriz de segundas derivadas se esperaba. El lado derecho es el
cuadrado esperado (producto externo) del vector de primera derivada. Sin embargo, el valor ya que este vector se
esperaba 0 ( hemos mostrado este), el lado derecho es la varianza de la primera derivada del vector, lo que demuestra
D3:
[ En f (y i | 0) ] = mi 0 [( En f (y i | 0) ) ( En f (y i | 0) )] = - mi [ 2 En f (y i | 0) ]
var 0 .
0 0 '0 0 '0
Greene-50240 libro 26 de de junio de, de 2002 15: 8

476 CAPTULO 17 Estimacin de mxima verosimilitud

17.4.3 LA ECUACIN PROBABILIDAD

La funcin de probabilidad logartmica es


En L ( | y) = norte En f (y i | ).
i=1

El primer vector derivado de, o vector de puntuacin, es

En f (y i | )
g = En L ( | y) = norte = norte gramo yo . (17-9)

i=1 i=1

Dado que slo estamos agregando trminos, se deduce de D1 y D2 que por lo 0,


[ En L ( 0 | y) ] = mi 0 [ gramo 0] = 0.

mi 0 (17-10)
0

Cul es el ecuacin probabilidad antes mencionado.

17.4.4 LA IGUALDAD INFORMACIN MATRIX

El Hessian del diario de probabilidad es

2 En f (y i | )
H = 2 En L ( | y) = norte = norte MARIDO yo .
' '
i=1 i=1

Evaluar una vez ms en 0, tomando



norte norte
0
mi 0 [ gramo 0 gramo ' 0] = mi gramo 0 yogramo ' 0 j

i=1 j=1

Y, debido a D1, dejando caer un acuerdo con subndices desiguales obtenemos


[ norte ] = mi 0 [ norte ] = - mi 0 [ MARIDO 0],

mi 0 [ gramo 0 gramo ' 0] = mi 0 gramo 0 yo gramo ' 0 yo ( - MARIDO 0 yo )

i=1 i=1

as que eso
[ En L ( 0 | y) ] = mi 0 [( En L ( 0 | y) ) ( En L ( 0 | y) )]
var 0
0 0 '0
[ 2 En L ( 0 | y) ] (17-11)

= - mi 0 .
0 '0

Este resultado muy til se conoce como el informacin sobre igualdad de matriz.

17.4.5 propiedades asintticas del mximo


ESTIMADOR PROBABILIDAD

Ahora podemos esbozar una derivacin de las propiedades asintticas de theMLE. pruebas formales de estos resultados
requieren algo de matemticas bastante complejas. Dos derivaciones ampliamente citadas son las de Cram'
er (1948) y Amemiya (1985). Para sugerir la Avor fl del ejercicio,
Greene-50240 libro 26 de de junio de, de 2002 15: 8

CAPTULO 17 Estimacin de mxima verosimilitud 477

vamos a esbozar un anlisis proporcionado por Stuart y Ord (1989) para un caso simple, e indicar en las que ser
necesario ampliar la derivacin si fuera a ser totalmente general.

CONSISTENCIA 17.4.5.a

Asumimos que f ( y i | 0) es una densidad posiblemente multivariante que en este punto no depende de covariables, x yo . Por
lo tanto, este es el caso de muestreo iid, al azar. Ya que es theMLE,
en cualquier muestra finita, para cualquier = ( incluido el verdadero 0) que debe ser cierto que ln L (

) En L ( ). (17-12)

Consideremos, a continuacin, la variable aleatoria L ( ) / L ( 0). Dado que la funcin de registro es estrictamente cncava, de la
desigualdad de Jensen (Teorema D.8.), Tenemos
[ ] [ L ( ) ]
mi 0 Iniciar sesin L ( ) < Iniciar sesin mi 0 . (17-13)
L ( 0) L ( 0)

La expectativa en el lado derecho es exactamente igual a uno, como


[ L ( ) ] = ( L ( ) )
mi 0 L ( 0) re y = 1 (17-14)
L ( 0) L ( 0)

es simplemente la integral de una densidad conjunta. Ahora, tomar registros en ambos lados de (17-13), inserte el resultado de (17-14), a

continuacin dividir por norte para producir

mi 0 [ 1 / norte En L ( )] - mi 0 [ 1 / norte En L ( 0)] < 0. (17-15)

Esto produce un resultado centro:

Teorema 17.3 Probabilidad Desigualdad

mi 0 [( 1 / norte) En L ( 0)] > mi 0 [( 1 / norte) En L ( )] para cualquier = 0 ( incluyendo ).

Este resultado es (17-15).

En palabras, el valor esperado del diario de probabilidad se maximiza en el verdadero valor de los parmetros.

Para cualquier , incluyendo ,

norte
[(1 / norte) En L ( )] = ( 1 / norte) En f (y i | )
i=1

es la media de la muestra de norte IID variables aleatorias, con la expectativa mi 0 [( 1 / norte) En L ( )]. Puesto que el
muestreo es iid por las condiciones de regularidad, podemos invocar la Khinchine teorema, D.5; la media de la muestra
converge en probabilidad a la media poblacional. Utilizando =
, se deduce del teorema 17.3 que a medida norte , limProb {[(1 / norte) En L ( )] <
[(1 / norte) En L ( 0)]} = 1 si = 0. Pero es el MLE, por lo que para cada n, ( 1 / norte) En L ( )
( 1 / norte) En L ( 0). La nica forma en que estos pueden ser verdad si es (1 / norte) veces el loglikelihood muestra
evaluada en el MLE converge a la expectativa de la poblacin de (1 / norte)
veces el de probabilidad logartmica evaluada en los parmetros verdaderos. Queda un ltimo paso.
Greene-50240 libro 26 de de junio de, de 2002 15: 8

478 CAPTULO 17 Estimacin de mxima verosimilitud

Hace (1 / norte) En L ( ) ( 1 / norte) En L ( 0) implica que 0? Si hay un solo parmetro


y la funcin de probabilidad es de uno a uno, entonces claramente de modo. Para los casos ms generales, esto requiere
una caracterizacin adicional de la funcin de probabilidad. Si la probabilidad es estrictamente continua y dos veces
diferenciable, que se supone en las condiciones de regularidad, y si los parmetros del modelo se identifican los cuales se
asumi a principios de esta discusin, entonces s, lo hace, por lo que tenemos el resultado.

Esta es una prueba heurstica. Como se ha sealado, las presentaciones formales aparecen en ms avanzada
tratados que ste. Debemos sealar tambin, que hemos asumido en varios puntos que medias de la muestra
convergieron a las expectativas de la poblacin. Es probable que esto sea cierto para el tipo de aplicaciones que
habitualmente se encuentran en la econometra, sino un conjunto totalmente general de los resultados se vera ms de
cerca a esta condicin. muestreo iid En segundo lugar, hemos asumido en el anterior, es decir, la densidad de y yo no
depende de ninguna otra variable, x yo . Esto casi nunca ser cierto en la prctica. Las suposiciones sobre el
comportamiento de estas variables entrarn en las pruebas tambin. Por ejemplo, en la evaluacin del comportamiento
gran muestra del estimador de mnimos cuadrados, hemos invocado el supuesto de que los datos se comportan bien. El
mismo tipo de examen se aplican aqu tambin. Volveremos a este tema en breve. Con todo esto en su lugar, tenemos la
propiedad M1, plim

= 0.

17.4.5.b normalidad asinttica

En el estimador de mxima verosimilitud, el gradiente de la probabilidad log-es igual a cero (por definicin), por lo

) = 0.
gramo(

(Este es el estadstico de contraste, no la expectativa.) Abrir este conjunto de ecuaciones en una serie de Taylor de segundo
orden alrededor de los verdaderos parmetros 0. Vamos a utilizar el teorema del valor medio para truncar la serie de Taylor en el
segundo perodo.

) = gramo(
gramo( 0) + MARIDO( ) ( - 0) = 0.

El Hessian se evala en un punto es decir, entre y 0( = w + ( 1 - w) 0 para


algunos 0 < w < 1). A continuacin, cambiando esta funcin y multiplicar el resultado por norte para obtener

norte(
- 0) = [ - MARIDO( )] - 1 [ norte gramo( 0)].

Debido a Plim ( - 0) = 0, Plim ( - ) = 0 tambin. Los secondderivatives son continuas


funciones. Por lo tanto, si existe la distribucin lmite, entonces

norte(
- 0) re - [- MARIDO( 0)] - 1 [ norte gramo( 0)].

Dividiendo MARIDO( 0) y gramo( 0) por norte, obtenemos

norte(
- 0) re - [- 1 norte
gramo( 0)].
MARIDO( 0)] - 1 [ norte

Podemos aplicar el teorema de Lindberg-Levy lmite central (D.18) a [ norte gramo( 0)], Desde que

es norte veces mi media de una muestra aleatoria; hemos invocado D1 nuevo. La varianza limitante de [ norte
gramo( 0)] es - mi 0 [( 1 / norte) MARIDO( 0)], asi que

norte [1
NORTE{ 0, - mi 0
gramo( 0)- re
norte MARIDO( 0)]}.
Greene-50240 libro 26 de de junio de, de 2002 15: 8

CAPTULO 17 Estimacin de mxima verosimilitud 479

En virtud del teorema D.2, plim [ - ( 1 / norte) MARIDO( 0)] = - mi 0 [( 1 / norte) MARIDO( 0)]. Dado que este resultado es una matriz constante,

podemos combinar resultados para obtener

[ -1 [1 [1
NORTE[ 0, { - mi 0
gramo( 0)- re
norte MARIDO( 0)] - 1 norte norte MARIDO( 0)]} - 1 { - mi 0 norte MARIDO( 0)]} { - mi 0 [ 1 norte MARIDO( 0)]} - 1],

o
norte( [1
- 0) re - NORTE[ 0, { - mi 0
norte MARIDO( 0)]} - 1],

que da la distribucin asinttica de la MLE:

un~ NORTE[ 0, { YO( 0)} - 1].

Este ltimo paso se completa M2.

Ejemplo 17.3 Matriz de informacin para la distribucin normal


Para la funcin de probabilidad en el Ejemplo 17.2, las segundas derivadas son

2 En L

2 = - norte 2,

2 En L
norte
( x yo - ) 2,
( 2) 2 = norte 2 4- 1 6
i=1

2 En L
norte
( x yo - ) .
2 = - 1 4
i=1

para el varianza asinttica themaximum del estimador de probabilidad, tenemos que las expectativas de estos derivados. El
primero es no estocstico, y el tercero tiene la expectativa 0, como se E [x i] = .
Eso deja a la segunda, que se puede comprobar tiene la expectativa - norte/( 2 4) porque cada una de las
norte trminos ( x yo - ) 2 tiene valor esperado 2. La recoleccin de estos en la matriz de informacin, la inversin de la seal, y la

inversin de la matriz da la matriz de covarianza asinttica para los estimadores de mxima verosimilitud: { - mi 0
[ 2 En L ]} - 1 = [ 2 / norte ]
0
.
0 '0 0 2 4 / norte

17.4.5.c eficiencia asinttica

TheoremC.2 proporciona el lmite inferior de la varianza de un estimador imparcial. Dado que la varianza asinttica
de theMLE alcanza este lmite, parece natural para extender el resultado directamente. Hay, sin embargo, un cabo
suelto en la que theMLE casi nunca es imparcial. Como tal, necesitamos una versin asinttica de la cota, la cual fue
proporcionada por Cram' er
(1948) y Rao (1945) (de ah el nombre):

Teorema 17.4 Cram' er-Rao


Suponiendo que la densidad de y yo satisface la condiciones de regularidad R1-R3, la varianza asinttica de un
estimador consistente y asintticamente distribuido normalmente del vector de parmetros 0 siempre ser al
menos tan grande como
[ 2 En L ( 0) ]) - 1 = ( [( En L ( 0) ) ( En L ( 0) ) ']) - 1

[ YO( 0)] - 1 = ( - mi 0 mi 0 .
0 '0 0 0
Greene-50240 libro 26 de de junio de, de 2002 15: 8

480 CAPTULO 17 Estimacin de mxima verosimilitud

La varianza asinttica de theMLE es, de hecho, igual a la Cram' er-Rao


de la varianza de un estimador consistente, por lo que este completa el argumento. 3

INVARIANZA 17.4.5.d

Por ltimo, la propiedad de invariancia, M4, es resultado de amathematical themethod de MLEs de computacin; que no es un
resultado estadstico como tal. Ms formalmente, es invariante a theMLE doce y cincuenta y nueve de la noche transformaciones
de . Cualquier transformacin que no es uno a uno o bien hace que el modelo de incalculable si se trata de uno a muchos o
impone restricciones si se trata de muchos a uno. Algunos aspectos tericos de esta caracterstica se discuten en Davidson y
MacKinnon (1993, pp. 253-255). Para el practicante, el resultado puede ser extremadamente til. Por ejemplo, cuando un
parmetro aparece en una funcin de probabilidad de la forma 1 / j, es por lo general vale la pena reparametrizar el modelo en
trminos de j = 1 / j. En una aplicacin importante, Olsen (1978) utiliz este resultado con gran ventaja. (Vase la Seccin
22.2.3.) Supongamos que el diario de probabilidad normal en el Ejemplo 17.2 se parametriza en trminos de la parmetro de
precisin,

2 = 1 / 2. El diario de probabilidad se convierte

norte
En L ( , 2) = - ( norte/ 2) ln (2 ) + ( norte/ 2) ln 2 - 2 ( y yo - ) 2.
2
i=1

El MLE para es evidente que an x. Pero la ecuacin de probabilidad 2 es ahora


[ ] = 0,

En L ( , 2) / 2 = 1 norte/ 2 - norte ( y yo - ) 2
2
i=1

que tiene solucin 2 = norte/ norte i = 1 ( y yo - ) 2 = 1 / 2, como se esperaba. Hay un segundo implica-
catin. Si se desea analizar una funcin de anMLE, entonces la funcin de ser, en s,
ser el MLE.

CONCLUSIN 17.4.5.e

Estas cuatro propiedades explican la prevalencia de la tcnica de mxima verosimilitud en la econometra. El


segundo facilita en gran medida la prueba de hiptesis y la construccin de las estimaciones de intervalo. El tercero
es resultado aparticularlypowerful. TheMLEhas mnima varianza alcanzable por un estimador consistente y
asintticamente distribuido normalmente.

17.4.6 ESTIMACIN la varianza ASINTTICA


Del estimador de mxima verosimilitud

La matriz de covarianza asinttica del estimador de probabilidad mxima es una matriz de parmetros que deben
ser estimadas (es decir, que es una funcin de la 0 que est siendo estimado). Si la forma de los valores esperados
de las segundas derivadas de la loglikelihood se conoce, a continuacin,

[ 2 En L ( 0) ]} - 1
[ YO( 0)] - 1 = { - mi 0 (17-16)
0 '0

3 Un resultado reportado por LeCam (1953) y se relata en Amemiya (1985, p. 124) sugiere que, en principio, s existen funciones lata de los datos con
las variaciones ms pequeas que la MLE. Pero el hallazgo es el resultado estrecho sin consecuencias prcticas. A efectos prcticos, la declaracin
puede ser tomado como dado.
Greene-50240 libro 26 de de junio de, de 2002 15: 8

CAPTULO 17 Estimacin de mxima verosimilitud 481

puede ser evaluado en para estimar la matriz de covarianza para el MLE. este estimador
poco frecuente que existan. Las segundas derivadas del logaritmo de la verosimilitud casi siempre ser complicadas
funciones no lineales de los datos cuyos valores exacta esperada ser desconocido. Hay, sin embargo, dos
alternativas. Un segundo estimador es
) -1
)
[ YO()]
- 1 = ( - 2 En L ( . (17-17)
'

Este estimador se computedsimplybyevaluating theactual (no esperado) secondderivatives matriz de la funcin de


probabilidad logartmica en las estimaciones de mxima verosimilitud. Es fcil demostrar que esto equivale a la
estimacin de las segundas derivadas esperados de la densidad con la media de la muestra de esta cantidad.
TheoremD.4 y Resultados (D-5) se pueden utilizar para justificar el clculo. El nico defecto de este estimador es que
las segundas derivadas pueden ser complicados para derivar y un programa para un ordenador. Un tercer estimador
basado en el resultado D3 en el teorema 17.2, que la matriz de segundas derivadas esperado es la matriz de
covarianza de la fi derivados primeros vector es

]-1=[

[ YO()]
- 1 = [ norte gramo
gramo
gramo
yo
yo ' GRAMO
GRAMO]
' - 1, (17-18)
i=1

dnde

)
gramo i = En f ( x yo ,
gramo

G = [
G gramogramo
1, 2, . . . , gramo
gramo norte] '.

GRAMO es un norte K matriz con yo fila igual a la transpuesta de la yo simo vector de derivados en los trminos de
GRAMO
la funcin de probabilidad logartmica. Para un solo parmetro, este estimador es el recproco de la suma de los
cuadrados de los derivados primeros. Este estimador es muy conveniente, en la mayora de los casos, ya que no
requiere ningn clculo all de las requeridas para resolver la ecuacin de verosimilitud. Tiene adems la virtud de que
siempre es no negativo de fi nita. Para algunas funciones de probabilidad logartmica extremadamente complicadas, a
veces por error de redondeo, la observado Arpillera puede ser inde finito, incluso en el mximo de la funcin. El
estimador de (17-18) se conoce como el BHHH estimador 4 y el producto externo de los gradientes, o OPG, estimador.

Ninguno de los tres estimadores que se dan aqu es preferible a los dems por motivos estadsticos; todos son
asintticamente equivalente. En la mayora de los casos, el estimador BHHH ser el ms fcil de calcular. Una precaucin
est en orden. Como muestra el ejemplo de abajo ilustra, estos estimadores pueden dar resultados diferentes en una
muestra finita. Se trata de un problema de muestra finita inevitables que pueden, en algunos casos, dar lugar a diferentes
conclusiones estadsticas. El ejemplo es un caso en punto. Usando los procedimientos habituales, se rechazar la hiptesis
de que = 0 si se utilizaron cualquiera de los dos primeros estimadores de la varianza, pero no si el thirdwere utilizado. El
estimador de (17-16) es por lo general no est disponible, ya que la expectativa exacta del de Hesse rara vez se conoce. La
evidencia disponible sugiere que en muestras pequeas o moderadas, (17-17) (la de Hesse) es preferible.

4 Parece haber sido defendido primera en la literatura econometra en Berndt et al. (1974).
Greene-50240 libro 26 de de junio de, de 2002 15: 8

482 CAPTULO 17 Estimacin de mxima verosimilitud

Ejemplo 17.4 estimadores de la varianza para un MLE


Los datos de la muestra en el Ejemplo C.1 son generados por un modelo de la forma

f (y yo , x yo , ) = 1 mi - yi / ( + xi) ,
+ x yo

dnde y = ingresos y x = educacin. Para hallar la estimacin de mxima verosimilitud de , maximizamos

y yo
En L ( ) = - norte ln ( + x yo ) - norte .
+ x yo
i=1 i=1

La ecuacin de probabilidad es

En L ( )
1 norte y yo
+ (17-19)
= - norte + x yo ( + x yo ) 2 = 0,
i=1 i=1

que tiene la solucin = 15,602727. Para calcular la varianza asinttica del MLE, nos
exigir

2 En L ( )
1 ( + x yo ) 2 - 2
norte
y yo
= norte (17-20)
2 ( + x yo ) 3.
i=1 i=1

Dado que la funcin E (y i) = + x yo se conoce, se conoce la forma exacta del valor esperado de (17-20). Insercin + x yo para y yo en
(17-20) y tomando los rendimientos recprocos la estimacin de la varianza primera, 44,2546. simplemente insertando
= 15.602727 en (17-20) y tomando el negativo de la
recproco da la segunda estimacin, 46.16337. Por ltimo, mediante el clculo de la inversa de la suma de cuadrados de los
derivados primeras de las densidades evaluadas en ,

1
[ YO()]
-1= norte
i=1[ - 1 / ( + x yo ) + y yo /( + x yo ) 2] 2,

obtenemos la estimacin BHHH, 100.5116.

17.4.7 probabilidades condicionales y los modelos economtricos

Todos los resultados anteriores forman los fundamentos estadsticos de la tcnica de estimacin de mxima verosimilitud. Sin
embargo, para nuestros propsitos, un elemento crucial es que falta. Hemos hecho el anlisis en trminos de la densidad de
una variable aleatoria observada y un vector de parmetros, f (y i | ). Sin embargo, los modelos economtricos implicarn
variables exgenas o predeterminadas, x yo , por lo que los resultados deben ser extendidos. Un enfoque viable es tratar a este
marco de modelado el mismo que el que est en el captulo 5, donde se consideraron las grandes propiedades de la muestra
del modelo de regresin lineal. Por lo tanto, vamos a permitir x yo para denotar una mezcla de variables aleatorias y constantes
que entran en la densidad condicional de y yo . Mediante la particin de la densidad conjunta de y yo y x yo en el producto de la
condicional y el marginal, la funcin de probabilidad logartmica puede ser escrita


En L ( | datos) = norte En f (y yo , x i | ) = norte En f (y i | x yo , ) + norte En gramo( x i | ),

i=1 i=1 i=1

donde cualquier elemento estocsticas en x yo tal como una tendencia en el tiempo o variable ficticia, se estn llevando a como
constantes. Con el fin de continuar, vamos a suponer que lo hacamos antes de que el
Greene-50240 libro 26 de de junio de, de 2002 15: 8

CAPTULO 17 Estimacin de mxima verosimilitud 483

generadora de proceso x yo se lleva a cabo fuera del modelo de inters. Para los fines actuales, lo que significa que los
parmetros que aparecen en las gramo( x i | ) no se superponen con los que aparecen en f (y i | x yo , ). Por lo tanto, dividimos dentro
[ , ] por lo que la funcin de probabilidad logartmica se puede escribir


En L ( , | datos) = norte En f (y yo , x i | ) = norte En f (y i | x yo , ) + norte En gramo( x i | ).

i=1 i=1 i=1

Mientras y no tienen elementos en comn y no hay restricciones a conectar (por ejemplo, + = 1), entonces las dos
partes de la probabilidad de registro pueden ser analizados por separado. En la mayora de casos, la distribucin marginal
de x yo ser de inters secundario (o no).
resultados asintticos para el estimador de mxima verosimilitud condicional ahora deben dar cuenta de la presencia de x
yo en las funciones y derivados de ln f (y i | x yo , ). Vamos a proceder bajo el supuesto de los datos de buen comportamiento para
que los promedios de la muestra, tales como

norte
( 1 / norte) En L ( | Y, X) = 1 En f (y i | x yo , )
norte
i=1

y su gradiente con respecto a convergern en probabilidad a sus expectativas de la poblacin. Tambin tendremos
que invocar teoremas del lmite central para establecer la normalidad asinttica de la pendiente del logaritmo de
verosimilitud, a fin de poder caracterizar la propia MLE. Vamos a dejar a ms tratados por adelantado como
Amemiya (1985) y Newey y McFadden (1994) para establecer las condiciones espec fi cas y los puntos de fi ne que
deben asumir para reclamar las propiedades habituales para estimadores de mxima verosimilitud. Para los fines
actuales (y la gran mayora de aplicaciones empricas), las siguientes suposiciones mnimas deberan bastar:

espacio de parmetros. espacios de parmetros que tienen lagunas y no convexidades en ellos generalmente
desactivar estos procedimientos. Un problema de estimacin que produce este fallo es el de estimar un parmetro
que puede tomar slo uno entre un conjunto discreto de valores. Por ejemplo, este conjunto de procedimientos no
incluye estimar el momento de un cambio estructural en un modelo. (Vase la Seccin 7.4.) La funcin de
probabilidad debe ser una funcin continua de un espacio de parmetros convexa. Nos permitimos espacios de
parmetros acotados, como > 0 en el modelo de regresin, por ejemplo.

capacidad fi cacin. La estimacin debe ser factible. Este es el tema de la definicin 17.1 relativa
identificacin y la discusin que rodea.
As se comportaron los datos. Leyes de los grandes nmeros se aplican a la muestra medios que implican los datos y alguna
forma de teorema del lmite central (generalmente Lyapounov) se pueden aplicar al gradiente. estacionariedad ergdico es lo
suficientemente amplia como para abarcar cualquier situacin que pueda surgir en la prctica, aunque es probablymore
necesidad thanwe general para la mayora de las aplicaciones, ya que no vamos a encontrar observaciones dependientes
especficamente hasta ms tarde en el libro. Las de fi niciones en el captulo 5 se supone que mantenga general.

Con estos en su lugar, el anlisis es esencialmente la misma en carcter como que hemos utilizado en la inChapter
regressionmodel lineal 5 y sigue con precisin a lo largo de las lneas de Section16.5.
Greene-50240 libro 26 de de junio de, de 2002 15: 8

484 CAPTULO 17 Estimacin de mxima verosimilitud

17.5 TRES asintticamente PROCEDIMIENTOS prueba equivalente

Las siguientes secciones discutirn los procedimientos de prueba ms comnmente utilizados: el cociente de probabilidad,
las pruebas de Wald multiplicadores, y Lagrange. [Extensa discusin de estos procedimientos se da en Godfrey (1988).]
Consideramos estimacin de mxima verosimilitud de un parmetro y una prueba de la hiptesis MARIDO 0: do( ) = 0. La
lgica de las pruebas se puede ver en la Figura 17.2. 5 En la figura se representa grficamente la funcin de probabilidad
logartmica ln L ( ), su derivada con respecto a , re En L ( ) / re , y la restriccin do( ). Hay tres enfoques para probar la
hiptesis sugiere en la figura:

prueba de razn de verosimilitud. Si la restriccin do( ) = 0 es vlido, entonces la imposicin no debe dar lugar a
una gran reduccin de la funcin de probabilidad logartmica. Por lo tanto, basamos la prueba de la diferencia, ln L T - En
L R, dnde L T es el valor de la funcin de probabilidad en el valor sin restricciones de y L R es el valor de la funcin de
probabilidad en la estimacin restringida.

prueba de Wald. Si la restriccin es vlida, entonces do( MLE) debe estar cerca de cero desde
el MLE es consistente. Por lo tanto, la prueba se basa en do( MLE). Rechazamos la
hiptesis de si este valor es significativamente diferente de cero.
prueba multiplicador de Lagrange. Si la restriccin es vlida, entonces el estimador restringidas estarn cerca
del punto que maximiza la probabilidad log-. Por lo tanto, la pendiente de la funcin de probabilidad logartmica
debe estar cerca de cero en el estimador restringido. La prueba se basa en la pendiente de la probabilidad
log-en el punto donde la funcin se maximiza sujeto a la restriccin.

Estas tres pruebas son asintticamente equivalente bajo la hiptesis nula, pero pueden comportarse de forma diferente en
una pequea muestra. Por desgracia, sus propiedades con muestras pequeas se desconocen, excepto en unos pocos
casos especiales. Como consecuencia, la eleccin entre ellos se hace tpicamente sobre la base de la facilidad de clculo.
La prueba de razn de verosimilitud requiere el clculo de ambos estimadores restringidos y sin restricciones. Si ambos son
fciles de calcular, a continuacin, esta forma de proceder es conveniente. La prueba de Wald requiere slo el estimador
sin restricciones, y la prueba del multiplicador de Lagrange requiere slo el estimador restringido. En algunos problemas,
uno de estos estimadores puede ser mucho ms fcil de calcular que el otro. Por ejemplo, un modelo lineal es simple de
estimar, pero se convierte en no lineal y engorroso si se impone una restriccin no lineal. En este caso, el estadstico de
Wald podra ser preferible. Alternativamente, las restricciones a veces queden reducidas a la eliminacin de la no
linealidad, lo que hara que el multiplicador de Lagrange pruebe el procedimiento ms simple.

17.5.1 LA PRUEBA PROBABILIDAD RATIO

Dejar beavector de parmetros tobeestimated, y dejar MARIDO 0 especifique algn tipo de restriccin en estos parmetros.
Dejar T ser themaximum estimador de probabilidad de obtainedwithout
Respecto a las limitaciones, y dejar R ser el estimador de mxima verosimilitud restringida.
Si L T y L R son las funciones de verosimilitud evaluados en estas dos estimaciones, entonces el

5 Ver Buse (1982). Tenga en cuenta que la escala del eje vertical sera diferente para cada curva. Como tal, los puntos de interseccin no tienen ninguna

significacin.
Greene-50240 libro 26 de de junio de, de 2002 15: 8

CAPTULO 17 Estimacin de mxima verosimilitud 485

En L ( )
d ln L ( ) re
do( )

d ln L ( ) re

En L

ndice de

probabilidad

ln L R
En L ( )

do( )

multiplicador de

Lagrange

Wald

0
^R ^ MLE

FIGURA 17.2 Tres Bases para Pruebas de hiptesis.

ndice de probabilidad es

LR
= . (17-21)
L T
L

Esta funcin debe estar entre cero y uno. Ambas probabilidades son positivos, y LR
no puede ser mayor que L U. ( Una ptima restringida nunca es superior a una sin restricciones
uno). Si es demasiado pequeo, entonces se pone en duda en las restricciones.

Un ejemplo de una distribucin discreta ayuda a fi x estas ideas. En la estimacin de una muestra de 10 froma
distribucin de Poisson en el comienzo de la Seccin 17.3, encontramos el
Greene-50240 libro 26 de de junio de, de 2002 15: 8

486 CAPTULO 17 Estimacin de mxima verosimilitud

MLE del parmetro a ser 2. En este valor, la probabilidad, que es la probabilidad de observar la muestra que
hicimos, es 0,104 10 - 8. Son consistentes con estos datos MARIDO 0: = 1.8?
L R = 0,936 10 - 9, que es, como se esperaba, ms pequeo. Esta muestra particular es algo menos probable bajo la
hiptesis.
El procedimiento de prueba formal se basa en el siguiente resultado.

TEOREMA 17.5 que limita la distribucin de la relacin de probabilidad


Estadstica de prueba

Bajo la regularidad y bajo H 0, la gran distribucin de la muestra de - 2 ln se ji cuadrada, con grados de


libertad igual al nmero de restricciones impuestas.

La hiptesis nula se rechaza si este valor es superior al valor crtico apropiado de las tablas de chi-cuadrado.
Por lo tanto, para el ejemplo de Poisson,
( 0,0936 )
- 2 ln = - 2 ln = 0,21072.
0,104

Esta estadstica de chi-cuadrado con un grado de libertad no es significativo en cualquier nivel convencional, por lo
que no rechazara la hiptesis de que = 1.8 sobre la base de esta prueba. 6

Es tentador usar la prueba de razn de verosimilitud para probar una hiptesis nula simple contra una alternativa
simple. Por ejemplo, podemos estar interesados en el establecimiento de Poisson en la prueba MARIDO 0: = 1.8 contra MARIDO
1: = 2.2. Pero la prueba no puede ser utilizado de esta manera. Los grados de libertad de la estadstica de ji cuadrado para la
prueba de razn de verosimilitud es igual a la reduccin de thenumber de las dimensiones en el espacio theparameter que
los resultados fromimposing las restricciones. Al comprobar si una hiptesis nula simple contra una alternativa sencilla, este
valor es cero. 7 En segundo lugar, a veces se encuentra un intento de probar una hiptesis de distribucin contra otro con una
prueba de razn de verosimilitud; por ejemplo, se estima un cierto modelo suponiendo una distribucin normal y luego
asumiendo una t distribucin. se compara entonces la relacin de las dos probabilidades para determinar qu distribucin se
prefiere. Esta comparacin tambin es inapropiada. Los espacios de parmetros, y por lo tanto las funciones de verosimilitud
de los dos casos, no estn relacionados.

TEST 17.5.2 Wald

Un inconveniente prctico de la prueba de razn de verosimilitud es que por lo general requiere la estimacin de ambos los
vectores de parmetros con y sin restricciones. En los modelos complejos, una u otra de estas estimaciones pueden ser
muy difciles de calcular. Afortunadamente, existen dos procedimientos de ensayo alternativos, la prueba de Wald y la
prueba del multiplicador de Lagrange, que eluden este problema. Ambas pruebas se basan en un estimador que se
asintticamente distribuye normalmente.

6 Por supuesto, el uso del resultado de muestra grande en una muestra de 10 podra ser cuestionable.

7 Tenga en cuenta que debido a que ambas probabilidades estn restringidos en este caso, no hay nada que impida - 2 ln de ser negativo.
Greene-50240 libro 26 de de junio de, de 2002 15: 8

CAPTULO 17 Estimacin de mxima verosimilitud 487

Estas dos pruebas se basan en la distribucin de la forma cuadrtica de rango completo considerado en la Seccin
B.11.6. Especficamente,

Si x ~ norte J [ ,?], entonces ( x - ) ' - 1 ( x - ) ~ Chi-cuadrado [ J]. (17-22)

En el contexto de una prueba de hiptesis, bajo la hiptesis de que MI( x) = , la forma cuadrtica tiene la distribucin
chi-cuadrado. Si la hiptesis de que MI( x) = es falso, sin embargo, a continuacin, la forma cuadrtica que acabamos de
dar, en promedio, ser ms grande de lo que sera si la hiptesis fuera cierta. 8 Esta condicin es la base de las estadsticas
de prueba analizados en este y el siguiente apartado.

Dejar ser el vector de estimaciones de los parmetros obtenidos sin restricciones. Nuestra hiptesis es un conjunto de
restricciones

MARIDO 0: do( ) = q.

Si las restricciones son vlidas, entonces por lo menos aproximadamente debe satisfacerlas. Si el
hiptesis es errnea, sin embargo, a continuacin, do( ) - q debera estar ms lejos de 0 lo que lo hara
explicarse por la variabilidad del muestreo solo. El dispositivo se utiliza para formalizar esta idea es la prueba de Wald.

Teorema 17.6 que limita la distribucin de la hiptesis Estadstico de Wald


El estadstico de Wald es

W = [ do( ) - q] '( Asy.Var [ do( ) - q]) - 1 [ do( ) - q].

bajo H 0, en muestras grandes, W tiene una distribucin chi-cuadrado con grados de libertad igual al
nmero de restricciones [es decir, el nmero de ecuaciones en
do()
)
- q = 0]. Aderivation de la distribucin lmite de theWald estadstica aparece en el teorema 6.15.

Esta prueba es anloga a la estadstica de chi-cuadrado en (17-22) si do( ) - q es normalmente


distributedwith la hypothesizedmean de 0. Un valor grande de W conduce al rechazo de la hiptesis. Tenga en cuenta,
finalmente, que W slo requiere clculo del modelo no restringido. Onemust todava calcular
thecovariancematrixappearing en forma theprecedingquadratic. Este resultado es la varianza de una funcin
posiblemente no lineal, que hemos tratado anteriormente.

Est. Asy. var [ do( ) - q] = do Est. Asy. var [ ] do


do ',
]
) (17-23)
C = [ do(
C .
'

Es decir, do es el J K matriz cuyas j fila es los derivados de la j restriccin con respecto a la K elementos de . Una
aplicacin comn se produce en la prueba de un conjunto de restricciones lineales.

8 Si la media no es , a continuacin, la estadstica de (17-22) tendr una no central de distribucin de chi-cuadrado. Este distributionhas la forma
samebasic como el chi-squareddistribution central, con los samedegrees de libertad, pero se encuentra a la derecha de la misma. Por lo tanto, un
sorteo de la distribucin no central tender, en promedio, para ser ms grande que una observacin aleatoria de la distribucin central.
Greene-50240 libro 26 de de junio de, de 2002 15: 8

488 CAPTULO 17 Estimacin de mxima verosimilitud

Para la prueba de un conjunto de restricciones lineales R = q, la prueba de Wald se basara en

MARIDO 0: do( ) - q = R - q = 0,
] = R ',
)
C = [ do(
C (17-24)
'

Est. Asy. var [ do( ) - q] = R Est. Asy. var [ ] R,

W = [ R - q] '[ R Est. Asy. var ( ) R '] - 1 [ R - q].

Los grados de libertad es el nmero de filas en R.


Si do( ) - q es una sola restriccin, entonces prueba theWald ser la misma que la prueba basada en el intervalo de confianza
con fi desarrollado previamente. Si la prueba es

MARIDO 0: = 0 versus MARIDO 1: = 0,

entonces la prueba anterior se basa en

- 0|
z=| (17-25)
s ( ),

dnde s ( ) es el error estndar estimado asinttica. La estadstica de prueba se compara con el valor apropiado
de la tabla normal estndar. La prueba de Wald se basar en

- 0) 2
W = [( - 0) - 0] (Asy. Var [( - 0) - 0]) - 1 [( - 0) - 0] = (
Asy. var [ ] = z 2. ( 17-26)

aqu W tiene una distribucin chi-cuadrado con un grado de libertad, que es la distribucin del cuadrado de la
estadstica de prueba normal estndar en (17-25).
En resumen, la prueba de Wald se basa en medir el grado en que las estimaciones de libre disposicin no
satisfacen las restricciones hiptesis. Hay dos deficiencias de la prueba de Wald. En primer lugar, se trata de una prueba
de signi fi cado pura en contra de la hiptesis nula, no necesariamente para una hiptesis alternativa especfica. Como
tal, su poder puede ser limitado en algunos escenarios. De hecho, la estadstica de prueba tiende a ser bastante grande
en las aplicaciones. El segundo defecto no es compartida por cualquiera de las otras pruebas estadsticas discutidos
aqu. El estadstico de Wald no es invariante a la formulacin de las restricciones. Por ejemplo, para una prueba de la
hiptesis de que una funcin = / ( 1 - ) es igual a un valor c especificidad q hay dos enfoques que se podra elegir.
Awald prueba basada directamente en - q = 0 usara un estadstico basado en la varianza de esta funcin no lineal. Un
enfoque alternativo sera analizar la restriccin lineal - q ( 1 - ) = 0, que es un equivalente, pero lineal, restriccin. Las
estadsticas de Wald para estas dos pruebas podran ser diferentes y podran dar lugar a diferentes inferencias. Estas
dos deficiencias han sido ampliamente visto como argumentos de peso contra el uso del test de Wald. Pero, a su favor,
la prueba de Wald no se basa en una fuerte suposicin de distribucin, al igual que el cociente de probabilidad y pruebas
de multiplicadores de Lagrange. La literatura economtrica reciente est repleta de aplicaciones que se basan en
procedimientos de estimacin libre distribucin, como el mtodo GMM. Por lo tanto, en los ltimos aos, la prueba de
Wald ha disfrutado de una redencin de las clases.
Greene-50240 libro 26 de de junio de, de 2002 15: 8

CAPTULO 17 Estimacin de mxima verosimilitud 489

17.5.3 LA PRUEBA multiplicador de Lagrange

El tercer procedimiento de ensayo es el Multiplicadores de Lagrange (LM) o puntuacin e fi ciente ( o solo Puntuacin)

prueba. Se basa en el modelo restringido en lugar del modelo no restringido. Supongamos que se maximiza la
probabilidad log-sujetos al conjunto de restricciones do( ) - q = 0. Dejar ser un vector de multiplicadores de Lagrange y
definen la funcin de Lagrange

En L * ( ) = En L ( ) + '( do( ) - q).

La solucin al problema de maximizacin restringida es la raz de

En L *

= En L ( ) + do ' = 0,
(17-27)
En L *

= do( ) - q = 0,

dnde do ' es la transpuesta de la matriz de derivados en la segunda lnea de (17-23). Si las restricciones son vlidas,
entonces imponerlos no darn lugar a una diferencia significativa en el valor maximizado de la funcin de verosimilitud. En las
condiciones de primer orden, el significado es que el segundo trmino en el vector derivado ser pequeo. En particular, ser
pequeo. Podramos probar esto directamente, es decir, la prueba MARIDO 0: = 0, lo que conduce a la prueba del multiplicador
de Lagrange. Existe una formulacin ms simple equivalente, sin embargo. En la mxima restringida, las derivadas de la
funcin de probabilidad logartmica son

En L ( R)
=- do '
= gramo R. (17-28)
R

Si las restricciones son vlidas, por lo menos dentro del intervalo de variabilidad de la muestra, a continuacin, gramo R = 0.

Es decir, los derivados de la probabilidad log-evaluada en el vector de parmetros restringido sern de aproximadamente
cero. El vector de derivados primeros del diario de probabilidad es el vector de puntajes e fi cientes. Dado que la prueba se
basa en este vector, se llama la Resultado de prueba
as como la prueba del multiplicador de Lagrange. La varianza del vector de primera derivada es la matriz de informacin,
que hemos utilizado para calcular la matriz de covarianza asinttica de la MLE. La estadstica de prueba se basa en un
razonamiento anlogo al que subyace a la estadstica de prueba Wald.

TEOREMA 17.7 que limita la distribucin de la Lagrange


multiplicador de Estadstica

La estadstica de prueba es multiplicador de Lagrange

) ' ( En L ( )
R) R)
LM = ( En L ( [ YO( R)] - 1 .
R R

Bajo la hiptesis nula, LMHAs una limitacin de chi-squareddistributionwithdegrees de libertad igual al


nmero de restricciones. Todos los trminos se computarn por el estimador restringido.
Greene-50240 libro 26 de de junio de, de 2002 15: 8

490 CAPTULO 17 Estimacin de mxima verosimilitud

El estadstico LM tiene una forma til. Dejar gramo i R denotar la yo simo trmino en el gradiente de

la funcin de probabilidad logartmica. Entonces,


gramo R = n
gramo gramo i R = GRAMO
gramo GRAMO ' R yo,

i=1

dnde GRAMO R es el norte K matriz con yo fila igual a gramo ' iRy yo es una columna de 1s. Si utilizamos
el estimador BHHH (producto exterior de gradientes) en (17-18) para estimar la Hessian, entonces

[ YO()]
-1=[ GRAMO 'R
GRAMO R] - 1

LM = yo ' GRAMO
GRAMO
R [ GRAMO
'R R] -GRAMO
1 ' R yo.

Ahora, ya yo ' yo es igual norte, LM = norte( yo ' GRAMO R [ GRAMO


GRAMO 'R R] -GRAMO
1 ' R yo/ n) = nR 2 yo , cual es norte veces el

uncentered squaredmultiple coeficiente de correlacin en una regresin lineal de una columna de 1s en las derivadas de la
funcin de probabilidad logartmica calculada en el estimador restringido. Nos encontraremos con este resultado en varias
formas en varios puntos en el libro.

17.5.4 UNA SOLICITUD DE LA PROBABILIDAD


PROCEDIMIENTOS prueba basada

Consideremos, de nuevo, los datos en el Ejemplo C.1. En el Ejemplo 17.4, el parmetro en el modelo

f (y i | x yo , ) = 1 mi - y yo /( + x yo ) (17-29)
+ x yo

fue estimado por mxima verosimilitud. Para mayor comodidad, y mucho i = 1 / ( + x yo ). Esta densidad exponencial es una
forma restringida de una distribucin ms general gamma,

yo
f (y i | x yo , , ) = yo
mi - y yo yo . (17-30)
() y - 1

La restriccin es = 1. 9 Consideramos que probar la hiptesis

MARIDO 0: = 1 frente MARIDO 1: = 1

utilizando los diversos procedimientos describedpreviously. El diario de probabilidad y sus derivados son

norte norte
En L ( , ) = En yo - norte ln ( ) + ( - 1) En y yo - norte y yo yo ,

i=1 i=1 i=1

En L norte En L
i+n y yo 2yo , En yo - n ( ) + norte En y yo , (17-31)
= - = norte
i=1 i=1 i=1 i=1

2 En L norte norte 2 En L 2 En L
2yo - 2 y yo 3yo , yo .
2 = 2 = - norte '( ), = - norte
i=1 i=1 i=1

9 La funcin gamma ( ) y la distribucin gamma se describen en secciones B.4.5 y E.5.3.


Greene-50240 libro 26 de de junio de, de 2002 15: 8

CAPTULO 17 Estimacin de mxima verosimilitud 491

TABLA 17.1 Las estimaciones de mxima verosimilitud

Cantidad Estimacin sin restricciones un Estimacin restringida

- 4,7198 (2,344) 15,6052 (6.794)


3,1517 (0,7943) 1,0000 (0,000)
En L - 82.91444 - 88.43771
En L / 0.0000 0.0000
En L / 0.0000 7.9162
2 En L / 2 - 0.85628 - 0.021659
2 En L / 2 - 7.4569 - 32.8987
2 En L / - 2.2423 - 0.66885

un Estimacin de los errores estndar asintticos basado en V se dan entre parntesis.

[Recordar que () = re ln ( ) / re y '( ) = re 2 ln ( ) / re 2.] mximo sin restricciones


estimaciones de probabilidad de y se obtiene igualando los derivados primeros dos fi a cero. La estimacin de mxima
verosimilitud restringida de se obtiene igualando En L / a cero, mientras que se fijan de acuerdo. Los resultados se
muestran en la Tabla 17.1. Tres estimadores estn disponibles para la matriz de covarianza asinttica de los estimadores
de = ( , ) '. Utilizando el grupo de accin real como en (17-17), calculamos V = [ - yo 2 En L / '] - 1 en las estimaciones de
mxima verosimilitud. Para este modelo, es fcil demostrar que E [y i | x i] = ( + x yo )

(Ya sea por integracin directa o, ms simplemente, usando el resultado de que MI[ En L / ] = 0 deducirlo). Por lo tanto,
tambin podemos utilizar el grupo de accin esperada como en (17-16) para calcular V E = { - yo MI[ 2 En L / ']} - 1. Por ltimo,
mediante el uso de las sumas de cuadrados y productos cruzados de los derivados de primeros, obtenemos el estimador
BHHH en (17-18), V B =
[ yo ( En L / ) ( En L / ')] - 1. Resultados en la Tabla 17.1 se basan en V.
Los tres estimadores de la covariancematrix asinttica producen notablemente diferentes resultados:

] ] ]
V = [ 5.495 - 1.652 , V E = [ 4,897 - 1.473 , V B = [ 13.35 - 4.314 .
- 1.652 0.6309 - 1.473 0.5770 - 4.314 1.535

Dado el pequeo tamao de la muestra, las diferencias son Tobe espera. No obstante, la notable diferencia del
estimador BHHH es tpico de su funcionamiento errtico en muestras pequeas.

La confianza Intervalo de prueba: Un 95 por ciento c en fi d intervalo de ENCE para sobre la base de las estimaciones
de libre disposicin es 3,1517 1.96 0,6309 = [1,5942, 4,7085]. Este intervalo no contiene = 1, por lo que se rechaza la
hiptesis.
Relacin de probabilidad de prueba: La estadstica es LR = - 2 [ - 88.43771 - (- 82.91444)] =
11.0465. El valor de la tabla de la prueba, con un grado de libertad, es 3.842. Dado que el valor calculado
es mayor que este valor crtico, se rechaza la hiptesis de nuevo.

Prueba de Wald: La prueba de Wald se basa en las estimaciones de libre disposicin. Para esta restriccin, do( ) - q = - 1, corriente

continua( ) / re = 1, Est.Asy. var [ do( ) - q] = Est.Asy. var [ ] =


0.6309, por lo W = ( 3.1517 - 1) 2 / [ 0,6309] = 7,3384.

El valor crtico es el mismo que el anterior. Por lo tanto, MARIDO 0 se rechaza una vez ms. Tenga en cuenta que la estadstica de
Wald es el cuadrado de las Corres Pondi estadstica de prueba ng que se utilizara en el intervalo de confianza de prueba en contra, |
3,1517 - 1 | / 0,6309 = 2,70895.
Greene-50240 libro 26 de de junio de, de 2002 15: 8

492 CAPTULO 17 Estimacin de mxima verosimilitud

Lagrange prueba multiplicador: La prueba del multiplicador de Lagrange se basa en los estimadores restringidos.
La matriz de covarianza asinttica estimado de los derivados utilizados para calcular la estadstica puede ser
cualquiera de los tres estimadores discutidos anteriormente. El estimador BHHH, V SEGUNDO, es el estimador emprico
de la varianza de la pendiente y es la que generalmente se usa en la prctica. Este clculo produce

[ 0.0099438 ] - 1 [ 0.0000 ] = 15.687.


0.26762
LM = [0,0000 7,9162]
0.26762 11.197 7.9162

La conclusin es la misma que antes. Tenga en cuenta que el mismo clculo realizado utilizando V ms bien que V
segundo produce un valor de 5,1182. Como antes, se observa la variacin de muestra pequeo sustancial producida por
los diferentes estimadores. Las tres ltimas estadsticas de prueba tienen valores sustancialmente diferentes. Es
posible llegar a conclusiones diferentes, dependiendo de la que se utiliza una. Por ejemplo, si la prueba se ha llevado
a cabo en el nivel de 1 por ciento de significacin en lugar de 5 por ciento y LM haba sido calculada utilizando V, entonces
el valor crtico del estadstico chi-cuadrado habra sido 6.635 y la hiptesis no habra sido rechazada por el lmtest.
Asintticamente, las tres pruebas son equivalentes. Pero, en una muestra finita como este, las diferencias son de
esperar. 10 Desafortunadamente, no existe una regla clara para la forma de proceder en tal caso, lo que pone de
relieve el problema de depender de un nivel de signi fi cado particular y dibujando una fi rma rechazar o aceptar
conclusin basada en la evidencia muestra.

17.6 APLICACIONES DE ESTIMACIN mxima verosimilitud

A continuacin examinaremos tres aplicaciones del estimador de mxima verosimilitud. El primero se extiende los
resultados de los captulos 2 a 5 para la regressionmodel lineal con perturbaciones distribuidas normalmente. En la
segunda aplicacin, que fi t un modelo de regresin no lineal por mxima verosimilitud. Esta aplicacin ilustra el
efecto de la transformacin de la variable dependiente. La tercera aplicacin es un uso relativamente sencillo de la
tcnica de mxima probabilidad en un modelo no lineal que no implica la distribucin normal. Esta aplicacin ilustra
los tipos de extensiones de theMLE en la configuracin que se apartan de la modelo lineal de los captulos
anteriores y que son tpicos en el anlisis economtrico.

17.6.1 LA NORMAL modelo de regresin lineal

El modelo de regresin lineal es

yi= x' yo + yo .

La funcin de probabilidad para una muestra de norte perturbaciones independientes, distribuidas idnticamente y normalmente
se

L = ( 2 2) - norte/ 2 mi - ' / ( 2 2). (17-32)

10 Para una mayor discusin de este problema, consulte Berndt y Savin (1977).
Greene-50240 libro 26 de de junio de, de 2002 15: 8

CAPTULO 17 Estimacin de mxima verosimilitud 493

La transformacin de yo a y yo es i = y yo - x ' yo , entonces el jacobiano para cada observacin,

| yo / y i |, es uno. 11 Logrando que la transformacin, se encuentra que la funcin de verosimilitud para el norte las observaciones
de la variable aleatoria observada es

L = ( 2 2) - norte/ 2 mi( - 1 / (2 2)) ( y - x ) '( y - x ). (17-33)

Para maximizar esta funcin con respecto a , ser necesario para maximizar el exponente o minimizar la suma de los
cuadrados familiarizado. Tomando los registros, se obtiene la funcin de probabilidad logartmica para el modelo de regresin
clsica:

En L = - norte . (17-34)
2 ln 2 - norte 2 ln 2 - ( y - x ) '( y - x2)
2

Las condiciones necesarias para maximizar el diario de probabilidad son



En L x '( y - x )
]
2
= =[0 . (17-35)
0
En L - norte

2 2 2 + ( y - x ) '( y - 2x
)4
Los valores que satisfacen estas ecuaciones son

ML = ( x ' X) - 1 x ' y = b y 2 ML = mi ' mi (17-36)


n.
El estimador de la pendiente es el familiar, mientras que el estimador de la varianza difiere del valor de mnimos cuadrados por el
divisor de norte en lugar de norte - K. 12

el Cram' er-Rao de la varianza de un estimador insesgado es el negativo


inversa de la expectativa de

2 En L 2 En L
- x' x - x'
' 2 2 4
= .

(17-37)
2 En L 2 En L norte
- ' x
2 ' ( 2) 2 4 2 4 - ' 6

Al tomar los valores esperados, el trmino fuera de la diagonal se desvanece dejando


]
2 ( x ' X) - 1 0
[ YO( , 2)] - 1 = [ . (17-38)
0'
2 4 / norte

El estimador de mnimos cuadrados pendiente es el estimador de mxima verosimilitud para este modelo. Por lo tanto, hereda
todos los deseable asinttico propiedades de los estimadores de mxima verosimilitud.

Hemos demostrado anteriormente que s 2 = mi ' mi/( norte - K) es un estimador insesgado de 2. Por lo tanto, el estimador de
mxima verosimilitud est sesgado hacia cero:
)
] = norte - K
MI[ 2 ML 1-K 2 < 2. (17-39)
norte 2 = ( norte

11 Ver (B-41) en la seccin B.5. El anlisis de seguir est condicionada a X. Para evitar llenar la notacin, vamos a dejar este aspecto del modelo
implcito en los resultados. Como se seal anteriormente, se supone que los datos de proceso para generar x no implica o 2 y que los datos se
comportan bien como se discuti en el Captulo 5.
12 Como regla general, estimadores de mxima verosimilitud no hacen correcciones para grados de libertad.
Greene-50240 libro 26 de de junio de, de 2002 15: 8

494 CAPTULO 17 Estimacin de mxima verosimilitud

A pesar de su sesgo pequea muestra, el estimador de mxima verosimilitud de 2 tiene las mismas propiedades
asintticas deseables. Vemos en (17-39) que s 2 y 2 slo difieren por un factor
- K / n, que se desvanece en muestras grandes. Es instructivo para formalizar la equivalencia asinttica de los dos. A
partir de (17-38), sabemos que
norte(
2 ML - 2) re - NORTE[ 0, 2 4].

Sigue
) )
norte(
zn=( 1-K 2 ML - 2) + K norte 2 re- ( 1-K NORTE[ 0, 2 4] + K norte 2.
norte norte

Pero K / norte y K / n desvanecer como norte , por lo que la distribucin lmite de z norte es tambin NORTE[ 0, 2 4].

Ya que z n = n (s 2 - 2), hemos demostrado que la distribucin asinttica de s 2 es la misma que la del estimador de
mxima verosimilitud.
La estadstica de prueba estndar para evaluar la validez de un conjunto de restricciones lineales en el modelo lineal, R - q
= 0, es el F proporcin,

F [J, n - K] = ( mi ' * mi * - mi ' mi)/ J .


mi ' mi/( norte - K) = ( rb - q) '[ R s 2 ( x ' X) - 1 R ']J - 1 ( rb - q)

Con perturbaciones distribuidas normalmente, la F prueba es vlida en cualquier tamao de la muestra. Sigue habiendo un
problema con restricciones no lineales de la forma do( ) = 0, ya que la contrapartida de F, que examinaremos aqu, tiene validez
solamente asintticamente incluso con perturbaciones distribuidas normalmente. En esta seccin, vamos a reconsiderar el
estadstico de Wald y examinar dos estadsticas relacionadas, el cociente de probabilidad estadstica y la estadstica
multiplicador de Lagrange. Estas estadsticas se basan tanto en la funcin de verosimilitud y, como el estadstico de Wald, en
general son vlidos slo asintticamente.

Sin simplicidad es adquirida por ceirnos a restricciones lineales en este punto, por lo que tendr en cuenta las
hiptesis generales de la forma

MARIDO 0: do( ) = 0,

MARIDO 1: do( ) = 0.

los estadstico de Wald para probar esta hiptesis y su distribucin lmite bajo MARIDO 0 sera

W = c (b) '{ C (b) [ 2 ( x ' X) - 1] C (b) '} - 1 c (b) re - 2 [ J], (17-40)

dnde

C (b) = [ c (b) / segundo ']. (17-41)

los relacin de probabilidad de prueba (LR) se lleva a cabo mediante la comparacin de los valores de la funcin
loglikelihood con y sin las restricciones impuestas. Dejamos a un lado por el momento cmo el estimador restringido segundo * se
calcula (excepto para el modelo lineal, lo que hemos visto anteriormente). La estadstica de prueba y est limitando su distribucin
bajo MARIDO 0 son

LR = - 2 [ln L * - En L] re - 2 [ J]. (17-42)

El diario de probabilidad para el regressionmodel se da en (17-34). Las condiciones de primer orden implican que,
independientemente de cmo las pendientes se calculan, el estimador de 2 sin
Greene-50240 libro 26 de de junio de, de 2002 15: 8

CAPTULO 17 Estimacin de mxima verosimilitud 495

restricciones a la estarn 2 = ( y - xb) '( y - Xb) / norte y del mismo modo para un estimador restringido
*2= ( y - xb *) '( y - xb *) / n = mi ' * mi * / norte. los concentrado de probabilidad logartmica 13 estarn

En L c = - norte
2 [1 + ln 2 + ln ( mi ' mi/ norte)]

y del mismo modo para el caso restringido. Si insertamos estos en la definicin de LR, entonces obtenemos

LR = norte ln [ mi ' * mi * / mi ' e] = n ( En *2- En 2) = norte ln ( *2/ 2). (17-43)

los multiplicador de Lagrange (LM) prueba se basa en el gradiente de la funcin de probabilidad logartmica. El principio
de la prueba es que si la hiptesis es vlida, entonces en el estimador restringido, las derivadas de la funcin de probabilidad
logartmica debe estar cerca de cero. Hay dos maneras de llevar a cabo la prueba LM. La funcin de probabilidad logartmica
puede maximizarse sujeta a un conjunto de restricciones mediante el uso de

[ ] + ' do( ).
En L LM = - norte ln 2 + En 2 + [( y - x ) '( y - x )] / norte
2 2

Las condiciones de primer orden para una solucin son



En L LM
x '( y - x )
+ DO( ) '

2 0
En L LM
= - norte = 0 . (17-44)

2 2 2 + ( y - x ) '( y - 2x
)4 0
En L LM
do( )

Las soluciones a estas ecuaciones dan la estimador de mnimos cuadrados restringido, segundo *; el estimador de la varianza de
costumbre, ahora mi ' * mi * / norte; y los multiplicadores de Lagrange. Ahora hay dos maneras de calcular la estadstica de prueba. En el
contexto de la regressionmodel lineal clsica, cuando en realidad calculamos los multiplicadores de Lagrange, una manera
conveniente de proceder es poner a prueba la hiptesis de que los multiplicadores son iguales a cero. Para este modelo, la solucin
para * es * =
[ R (X ' X) - 1 R '] - 1 ( rb - q). Esta ecuacin es una lineal funcinde el estimador de mnimos cuadrados. Si llevamos a cabo una Wald prueba
de la hiptesis de que * es igual 0, entonces la estadstica ser

LM = ' * { Est. var [ *]} - 1 * = ( rb - q) '[ R s 2 *( x ' X) - 1 R '] - 1 ( rb - q). (17-45)

El estimador de la varianza perturbacin, s 2 *, basado en las pistas restringida es mi ' * mi * / norte.

Una forma alternativa de calcular el estadstico LM menudo produce resultados interesantes. situaciones ms ntimas,
wemaximize la funcin de probabilidad logartmica sin tener que calcular el vector de multiplicadores de Lagrange. (Las
restricciones son generalmente impuestas alguna otra manera.) Una manera alternativa de calcular la estadstica est
basada en el (general) resultado de que bajo la hiptesis que se prueba,

MI[ En L / ] = MI[( 1 / 2) x ' ] = 0

Asy. var [ En L / ] = - MI[ 2 En L / '] - 1 = 2 ( x ' X) - 1.14 (17-46)

13 Vase la Seccin E.6.3.

14 Esto hace uso del hecho de que el grupo de accin es diagonal por bloques.
Greene-50240 libro 26 de de junio de, de 2002 15: 8

496 CAPTULO 17 Estimacin de mxima verosimilitud

Podemos probar la hiptesis de que en el estimador restringido, los derivados son iguales a cero. La estadstica
sera

LM = mi ' * X (X ' X) - 1 x ' mi * = nR 2 *.


(17-47)
mi ' * mi * / norte

En esta forma, el estadstico LM es norte veces el coeficiente de determinacin en una regresin de los residuos mi yo * = ( y yo
- x'
yo segundo *) en el conjunto de regresores.
Con un poco de manipulacin se puede demostrar que W = [n / (n - K)] JF y LR y LM son aproximadamente iguales a
esta funcin de F. 15 Los tres estadsticas convergen para JF como norte
aumenta. El modelo lineal es un caso especial en el que la estadstica de la LR se basa nicamente en el estimador sin
restricciones y en realidad no requiere clculo del estimador de mnimos cuadrados restringido, aunque el clculo de F En
qu consiste la mayor parte del clculo de segundo *. Dado que la funcin log es cncava, y W / n ln (1 + W / n), Godfrey
(1988) muestra tambin que W LR LM, por lo que para el modelo lineal, tenemos un ranking firme de las tres
estadsticas.

Existe amplia evidencia de que los resultados asintticos para estas estadsticas son problemticos en muestras
pequeas o de tamao moderado. [Vase, por ejemplo, Davidson y MacKinnon (1993, pp. 456-457).] Los verdaderos
distribuciones de los tres estadsticas implican los datos y los parmetros desconocidos y, como sugiere el lgebra,
convergen a la F distribucin
desde arriba. La implicacin es que los valores crticos de la distribucin chi-cuadrado es probable que sean demasiado pequeo; Es
decir, utilizando la limitacin de distribucin chi cuadrado en muestras pequeas o de tamao moderado es probable que exagerar
la significacin de los resultados empricos. Por lo tanto, en las aplicaciones, la ms conservadora F estadstica (o t para una
restriccin) es probable que sea preferible menos que los datos de uno son abundantes.

17.6.2 MXIMA VEROSIMILITUD ESTIMACIN DE NO LINEAL


Los modelos de regresin

En el captulo 9, se consider que los modelos de regresin no lineal en el que la no linealidad en los parmetros
apareci totalmente en el lado derecho de la ecuacin. Hay modelos en los que aparecen los parmetros de forma
no lineal en funcin de la variable dependiente tambin.

Supongamos que, en general, el modelo es

g (y yo , ) = marido( x yo , ) + yo .

Un enfoque para la estimacin sera de mnimos cuadrados, minimizando


S ( , ) = norte [ g (y yo , ) - marido( x yo , )] 2.

i=1

No hay ninguna razn para esperar que este mnimos cuadrados no lineales estimador sea consistente, sin embargo, a pesar
de que se di fi culto a mostrar este analticamente. El problema es que los mnimos cuadrados no lineales ignora el Jacobiano
de la transformacin. Davidson y MacKinnon (1993,
pag. 244) sugieren un argumento cualitativo, whichwe puede illustratewith un ejemplo. Suponer
y es positivo, g (y, ) = exp ( y) y marido( x, ) = x. En este caso, una solucin es obvio

15 Ver Godfrey (1988, pp. 49-51).


Greene-50240 libro 26 de de junio de, de 2002 15: 8

CAPTULO 17 Estimacin de mxima verosimilitud 497

= 0 y -, que produce una suma de cuadrados de cero. Estimacin se convierte en un no-tema. Para este tipo de
modelo de regresin, sin embargo, la estimacin de mxima verosimilitud es consistente, e fi ciente, y generalmente no
apreciablemente ms difcil que los mnimos cuadrados.
Para perturbaciones distribuidas normalmente, la densidad de y yo es
|||| ( 2 2) - 1/2 mi - [ g (y yo , ) - marido( x yo , )] 2 / ( 2 2).

f (y i) = |||| yo
y yo

La jacobiana de la transformacin [ver (3-41)] es


|||| = |||| g (y yo , ) |||| = J yo .

J (y yo , ) = |||| yo
y yo y yo

Despus de recoger trminos, la funcin de probabilidad logartmica ser


i=1[ g (y yo , ) - marido( x yo , )] 2
En L = norte -1 En J (y yo , ) - norte . (17-48)
2 [ln 2 + En 2] + norte 2 2
i=1 i=1

En muchos casos, incluyendo las aplicaciones consideradas aqu, hay una inconsistencia en el modelo en el que
la transformacin de la variable dependiente puede descartar algunos valores. Por lo tanto, la normalidad asumido de
las perturbaciones no puede ser estrictamente correcto. En la funcin de produccin generalizada, hay una
singularidad en y i = 0 donde el jacobiano se vuelve infinita. Algunas investigaciones se ha hecho en especfico cmodi fi
cationes de themodel para dar cabida a la restriccin [por ejemplo, Poirier (1978) y Poirier andMelino (1978)], pero en
la prctica, la aplicacin tpica implica datos forwhich la restriccin es intrascendente.

Sin embargo, para los jacobianos, mnimos cuadrados no lineales seran de mxima verosimilitud. Si los trminos implican
Jacobianas , sin embargo, entonces mnimos cuadrados no es de mxima verosimilitud.
En cuanto a 2, esta funcin de probabilidad es esencialmente la misma que para el modelo de regresin no lineal
simple. El estimador de mxima verosimilitud de 2 estarn
norte norte
2 = 1
[ g (y yo , ) - marido( x yo , )] 2 = 1 miyo2 . (17-49)
norte norte
i=1 i=1

Las ecuaciones de probabilidad para los parmetros desconocidos son



1
norte
yo marido( x yo , )
En L
2
i=1

( J yo ) )

norte
norte 0
En L 1 g (y yo , )

= -(1 yo = 0 . (17-50)
J yo
i=1 2

i=1 0

En L norte
- norte
2 yo
2
2 2+ 1 2 4
i=1

Estas ecuaciones sern generalmente no lineal, por lo que una solucin debe ser obtenido de forma iterativa. Un caso especial
que es comn es un modelo en el que es un nico parmetro. Dado un valor particular de , queremos maximizar ln L con
respecto a mediante el uso de mnimos cuadrados no lineales. [Sera ms sencillo an si, adems, marido( x yo , ) fueron
lineales para que pudiramos utilizar lineales de mnimos cuadrados. Ver la siguiente aplicacin.] Por lo tanto, una manera de
maximizar L para todos los parmetros es para escanear a travs de los valores por el que, con las plazas asociadas
estimaciones de mnimos de y 2, da el valor ms alto de ln L. ( Por supuesto, esto requiere que sabemos ms o menos lo
valores de examinar.)
Greene-50240 libro 26 de de junio de, de 2002 15: 8

498 CAPTULO 17 Estimacin de mxima verosimilitud

Si es un vector de parmetros, la maximizacin continuacin directa de L con respecto al conjunto completo de


parmetros puede ser preferible. (Mtodos de maximizacin se discuten en el Apndice E.) Existe una simplificacin
adicional que puede ser til. Sean cuales sean los valores se obtienen finalmente para las estimaciones de y , la
estimacin de 2 ser dada por (17-49). Si insertamos esta solucin en (17-48), entonces se obtiene la concentrado de
probabilidad logartmica,

[1 ]
norte
En L c = n En J (y yo , ) - norte yo
2 . (17-51)
2 [1 + ln (2 )] - norte 2 ln norte
i=1 i=1

Esta ecuacin es una funcin slo de y . Podemos maximizar con respecto a y


y obtener la estimacin de 2 como un subproducto. (Vase la Seccin E.6.3 para ms detalles.)
Una estimacin de la matriz de covarianza asinttica de los estimadores de mxima verosimilitud se puede obtener
mediante la inversin de la matriz de informacin estimada. Es muy probable, sin embargo, que la Berndt et al. (1974)
estimador ser mucho ms fcil de calcular. El registro de la densidad para la yo sima observacin es la yo simo trmino
de (17-50). Los derivados de ln L yo con respecto a los parmetros desconocidos son


En L yo / ( yo / 2) [ marido( x yo , ) / ]

gramo i = En L yo / = ( 1 / J yo )[ J yo / ] - ( yo / 2) [ g (y yo , ) / ] . (17-52)

En L yo / 2 ( 1 / (2 2)) [ 2 yo / 2 - 1]

La matriz de covarianza asinttica para los estimadores de mxima verosimilitud se estima utilizando

]-1=(

Est.Asy. Var [MLE] = [ norte gramo
gramo
gramo
yo ' GRAMO)
GRAMO ' - 1. (17-53)
i=1

Tenga en cuenta que el anterior incluye de una fila y una columna para 2 en la matriz de covarianza. En un modelo
que transforma y tanto como x, la Hessian del diario de probabilidad general no se bloquean diagonal con respecto a y 2.
Cuando y se transforma, los estimadores de mxima verosimilitud de y 2 Existe una correlacin positiva, ya que ambos
parmetros reflejan la escala de la variable dependiente en el modelo. Este resultado puede parecer contradictorio.
Tenga en cuenta la diferencia en los estimadores de la varianza que se produce cuando se estima un modelo lineal y
loglineales. La varianza de ln y alrededor de su media es obviamente diferente de la de y alrededor de su media. Por el
contrario, tenga en cuenta lo que sucede cuando se transforman slo las variables independientes, por ejemplo, por la
transformacin de Box-Cox. Los estimadores de pendiente varan en consecuencia, pero de tal manera que la varianza
de y en torno a su media condicional se mantendr constante. diecisis

Ejemplo 17.5 Una funcin de produccin generalizada


La funcin Cobb-Douglas menudo se ha utilizado para estudiar la produccin y el costo. Entre los supuestos de este modelo es
que el coste medio de la produccin aumenta o disminuye monotnicamente con aumentos en la produccin. Este supuesto es
en contraste directo con el tratamiento libro de texto estndar de la curva de coste medio en forma de aU aswell como a una
gran cantidad de evidencia emprica. (Vase el Ejemplo 7.3 para una aplicacin bien conocida.) Para relajar este supuesto,
Zellner

diecisis Ver Seaks y Layson (1983).


Greene-50240 libro 26 de de junio de, de 2002 15: 8

CAPTULO 17 Estimacin de mxima verosimilitud 499

TABLA 17.2 Generalizadas estimaciones de la funcin de produccin

Mxima verosimilitud

Estimar SE (1) SE (2) No lineal de mnimos cuadrados

1 2.914822 0.44912 0.12534 2.108925


2 0.350068 0.10019 0.094354 0.257900
3 1.092275 0.16070 0.11498 0.878388
0.106666 0.078702 - 0.031634
2 0.0427427 0.0151167
' 1.068567 0.7655490
En L - 8.939044 - 13.621256

y Revankar (1970) propuso una generalizacin de la funcin de produccin Cobb-Douglas. 17


Su modelo permite economas de escala a variar con la produccin y para aumentar y luego disminuyen a medida que aumenta la produccin:

En y + y = En + ( 1 - ) En K + En L + .

Tenga en cuenta que el lado derecho de su modelo es intrnsecamente lineal de acuerdo con los resultados de la Seccin 7.3.3. El
modelo como un todo, sin embargo, es intrnsecamente no lineal debido a la transformacin paramtrica de y aparece a la izquierda.

Para Zellner y de Revankar funcin de produccin, el Jacobiano de la transformacin de


yo a y yo es yo / y i = ( + 1 / y yo ) . Algunos simplificacin se consigue escribiendo esto como (1+ y yo ) / y yo .
El diario de probabilidad es entonces

norte
En L = norte ln (1 + y yo ) - norte En y yo - norte 2yo ,
2 ln (2 ) - norte 2 ln 2 - 1 2 2
i=1 i=1 i=1

dnde i = ( En y i + y yo - 1 - 2 En la capital yo - 3 En el trabajo yo ). La estimacin de este modelo es directo. Para un valor dado de , y 2
se estima por mnimos cuadrados lineales. Por lo tanto, para estimar el conjunto completo de parmetros, podramos escanear a
travs de la gama de cero a uno para .
El valor de que, con sus asociados estimaciones de mnimos cuadrados de y 2, maximiza la funcin de probabilidad logartmica
proporciona la estimacin de mxima verosimilitud. Este procedimiento fue utilizado por Zellner y Revankar. Los resultados dados en la
Tabla 17.2 se obtuvieron mediante la maximizacin de la funcin de probabilidad logartmica directamente, en lugar. Los datos a nivel
estatal sobre la produccin, el capital, el trabajo y el nmero de establecimientos de la industria del transporte utilizada en el estudio
Zellner y de Revankar se dan en el Apndice Tabla F9.2 y en el ejemplo 16.6. Para esta aplicacin, y = valor aadido por fi rm, K = capital
por firme, y L = mano de obra por firme.

Mxima verosimilitud y no lineales de mnimos cuadrados estimaciones se muestran en la Tabla 17.2. Los errores estndar
asintticos para las estimaciones de mxima verosimilitud se etiquetan SE (1). Estos se calculan utilizando la forma BHHH de la matriz
de covarianza asinttica. El segundo conjunto, SE (2), se calculan el tratamiento de la estimacin de como fija; ellos son los habituales
lineales de mnimos cuadrados resultados utilizando (ln y + y) como la variable dependiente en una regresin lineal. Es evidente que
estos resultados seran muy engaoso. La columna final de la Tabla 10.2 se enumeran las simples estimaciones no lineales de mnimos
cuadrados. No hay errores estndar se dan, porque no existe una frmula apropiada para el clculo de la matriz de covarianza
asinttica. La suma de cuadrados no proporciona un mtodo apropiado para el clculo de los pseudoregressors para los parmetros en
la formacin trans-. Las dos ltimas filas de la tabla muestran la suma de los cuadrados y la funcin de log-verosimilitud evaluada en las
estimaciones de los parmetros. Como era de esperar, el diario de probabilidad es mucho ms grande en las estimaciones de mxima
verosimilitud. Por el contrario, las estimaciones no lineales de mnimos cuadrados conducen a una suma mucho menor de cuadrados;
mnimos cuadrados es todava menos cuadrcula.

17 Un enfoque alternativo es tomodel costes directamente con una forma funcional flexible como el translogmodel. Este enfoque se examina en detalle

en el captulo 14.
Greene-50240 libro 26 de de junio de, de 2002 15: 8

500 CAPTULO 17 Estimacin de mxima verosimilitud

Ejemplo 17.6 Una prueba de LM para la linealidad (log)


Una generalizacin natural de la modelo de regresin Box-Cox ( Seccin 9.3.2) es

y ( ) = ' x( ) + . (17-54)

dnde z ( ) = ( z - 1) / . Este formulario incluye el lineal ( = 1) y loglineales ( = 0) modelos como casos especiales. El Jacobiano de
la transformacin es | re / dy | = y - 1. La funcin de probabilidad logartmica para el modelo con alteraciones distribuidas
normalmente es

norte norte ( y ( ) ) 2.
En L = - norte En y yo - 1 yo - ' x( ) yo
(17-55)
2 ln (2 ) - norte 2 ln 2 + ( - 1) 2 2
i=1 i=1

El MLEs de y se calculan mediante la maximizacin de esta funcin. El estimador de 2 es el cuadrado medio residual como
de costumbre. Podemos utilizar una bsqueda rejilla unidimensional sobre -Para un valor dado de , la EMV de es mnimos
cuadrados utilizando los datos transformados. Debe recordarse, sin embargo, que la funcin de criterio incluye el trmino
Jacobiana.
Vamos a utilizar el estimador BHHH de la matriz de covarianza asinttica de la mxima verosimilitud. Los derivados de la
probabilidad de registro se

En L yo x (yo)

2
[ ]
y yo( ) x (ik)
En L En y yo - yo k
= norte 2 - K
= norte gramo yo (17-56)

i=1 [ 2
k=1
] i=1
En L 1

yo

2 2 2 2- 1

dnde

[ z - 1] / ( z En z - z ( ) ).
= z En z - ( z - 1) =1 (17-57)
2
(Vase el ejercicio 6 en el captulo 9.) El estimador de la matriz de covarianza asinttica para el estimador de mxima
verosimilitud se da en (17-53).
El modelo Box-Cox proporciona un marco para una prueba de fi especificacin de linealidad frente a la linealidad logartmica. Para montar
este resultado, consideremos primero el modelo bsico

y = f ( x, 1, 2, ) + = 1 + 2 x( ) + .

Los pseudoregressors son x * 1 = 1, x * 2 = x( ) , x * 3 = 2 ( x( ) / ) como se da arriba. Nosotros ahora


considerar una prueba multiplicador de Lagrange de la hiptesis de que es igual a cero. La prueba se lleva a cabo por primera en
regresin y en una constante y ln x ( es decir, el regresor evaluado en = 0) y luego calcular nR 2

* en la regresin de los residuos de esta primera regresin en x * 1, x * 2, y


x 3,* tambin evaluado en = 0. La primera y segunda de stas son 1 y ln x. Para obtener el tercer lugar, se requiere x *
3 | = 0 = 2 lim 0 ( x( ) / ) . La aplicacin de L'H
La regla de opital al lado derecho de
(12-57), diferenciar numerador y el denominador con respecto a . esto produce
[ ]=1
x ( )
lim x ( En x) 2 - x ( )
0 = lim 0 0 x ( En x) 2 = 1
2 lim 2 (ln x) 2.

Por lo tanto, lim 0 x * 3 = 2 [ 1 2 ( En x) 2]. La prueba del multiplicador de Lagrange se lleva a cabo en dos etapas.
En primer lugar, hacemos una regresin y en una constante y ln x y calcular los residuales. En segundo lugar, hacemos una regresin estos
residuos en una constante, ln x, y segundo 2 ( 1 2 En 2 x) , dnde segundo 2 es el coeficiente de ln x en la primera de regresin. La estadstica es
multiplicador de Lagrange nR 2 de la segunda regresin. Para generalizar este procedimiento para varios regresores, usaramos los registros
de todas las variables independientes en el primer paso. Entonces, el regresor adicional para la segunda regresin sera


x * = K segundo k ( 1 2 En 2 x k) ,

k=1
Greene-50240 libro 26 de de junio de, de 2002 15: 8

CAPTULO 17 Estimacin de mxima verosimilitud 501

donde la suma se toma sobre todas las variables que se transforman en el modelo original y el segundo k 'S son los mnimos cuadrados
cientes coeficientes en la primera regresin fi.
Al extender este proceso para el modelo de (17-54), podemos idear un bona fi de test de log-linealidad (contra el modelo
ms general, no linealidad). [Ver Davidson y MacKinnon (1985). Una prueba de la linealidad puede realizarse usando = 1, en su
lugar.) Clculo de los diversos trminos en = 0 de nuevo, tenemos

i = En y yo - 1- 2 En x yo ,

donde como antes, 1y 2 se calculan por la regresin de mnimos cuadrados de ln y en una constante
y ln x. Dejar *i = 1 2 En 2 y yo - 2 ( 1 2 En 2 x yo ) . Entonces


yo /

2

(ln x yo ) yo /

2
gramo
.

i=

En y yo - yo
*yo / 2

(
2yo / 2 - 1) / (2 2)

Si hay K regresores en el modelo, entonces el segundo componente en gramo yo ser un vector


que contiene los registros de las variables, mientras *yo se convierte en el tercer

(1 )

*i = 1 k .
2 ln 2 y yo - K 2 ln 2 x ik
k=1

Uso de la Berndt et al. estimador dada en (10-54), ahora podemos construir el Lagrange multi- tiplier estadstica como

( norte ) '[ norte


] - 1 ( norte )

LM = 2 [ 1] = gramo
yo gramo
gramo
yo '
yo
gramo
yo= yo ' G (G ' GRAMO) - 1 GRAMO ' yo,

i=1 i=1 i=1

dnde GRAMO es el norte x ( K + 2) matriz cuyas columnas son gramo 1 mediante gramo K + 2 y yo es una columna de 1s. La utilidad
de este enfoque para cualquiera de los modelos que hemos examinado es que en la prueba de la hiptesis, no es necesario
calcular la no lineal, sin restricciones, la regresin de Box-Cox.

17.6.3 no normales perturbaciones el estocstico


modelo de frontera

Esta aplicacin fi nal examinar un modelo regressionlike en el que las perturbaciones no tienen una distribucin
normal. El modelo desarrollado aqu tambin presenta una platformonwhich conveniente para ilustrar theuseof los
estimadores invariancepropertyofmaximumlikelihood para simplificar la estimacin del modelo.

Un largo literatura comenzando con el trabajo terico por Knight (1933), Debreu (1951), y Farrell (1957) y el
estudio emprico pionero por Aigner, Lovell y Schmidt (1977) se ha dirigido a los modelos de produccin que espec
cuenta fi camente para la propuesta de libro de texto que una funcin de produccin es un ideal terico. 18 Si y = f ( x)

de fi ne una relacin de produccin entre las entradas, x, y una salida, Y, entonces para cualquier dado
x, el valor observado de y debe ser menor que o igual a f ( x). La implicacin para un modelo de regresin emprica es
que en una formulacin tal como Y = H ( x, ) + u, u debe ser negativo. Dado que la funcin de produccin terica es
un ideal-la frontera de e fi ciente

18 Una encuesta realizada por Greene (1997b) aparece en Pesaran y Schmidt (1997). Kumbhakar y Lovell (2000) es una referencia completa sobre el

tema.
Greene-50240 libro 26 de de junio de, de 2002 15: 8

502 CAPTULO 17 Estimacin de mxima verosimilitud

produccin-cualquier perturbacin distinto de cero debe interpretarse como el resultado de ineficiencia. Una interpretacin
estrictamente ortodoxa incrustado en un modelo de produccin Cobb-Douglas podra producir un modelo de produccin
frontera emprica como

En y = 1 + k k En x k - u, u 0.

El gammamodel descrito en el Ejemplo 5.1was una application.One-sideddisturbances como sta presentan un


problema estimacin fi culto particularmente dif. El problema terico primario es que el error anymeasurement en ln y debe
estar integrada en la perturbacin. El problema prctico es que toda la funcin estimada se convierte en un esclavo a
cualquier punto de datos nico equivocadamente medido.

Aigner, Lovell y Schmidt propone en su lugar un formulationwithinwhich observado desviaciones de la funcin


de produccin, podra surgir de dos fuentes: (1) ine fi ciencia productiva como hemos de fi nido por encima y que
sera necesariamente negativo; y (2) efectos idiosincrsicos que son especfica a la rm fi y que podra entrar en el
modelo, ya sea con signo. El resultado final fue lo que etiquetan la frontera estocstica:

].
En y = 1 + k k En x k - u + v, u 0, v ~ NORTE[ 0, 2 v

= 1 + k k En x k + .

La frontera para cualquier particular, rm fi marido( x, ) + v, de ah el nombre de frontera estocstica. El trmino ine fi ciencia
es u, una variable aleatoria de especial inters en este contexto. Dado que los datos estn en trminos de registro, u es una
medida del porcentaje por el que la observacin particular no logra alcanzar la frontera, la tasa de produccin ideal.

Para completar la especificacin, sugirieron dos distribuciones posibles para el trmino deficiencia inef, el valor
absoluto de una variable normalmente distribuida y una variable exponencialmente distribuido. Las funciones de
densidad para estas dos distribuciones de compuestos estn dadas por Aigner, Lovell y Schmidt; dejar = v - u, = u
/ v, = ( 2
u + 2 v) 1/2,
y ( z) = la probabilidad a la izquierda de z en la distribucin normal estndar [ver Secciones B.4.1 y E.5.6]. Para el
modelo medio-normal,
) ( yo ) 2+ En ( - yo )]
En marido( i | , , ) = [ - En - ( 1 Iniciar sesin 2 ,
2 -1 2

mientras que para el modelo exponencial


( - yo )]
En marido( i | , , v) = [ En + 1 v+ i + En - v .
2 2 2 v

Tanto estas distribuciones son asimtricas. Tenemos as un modelo de regresin con una distribucin no
normal especfico ed para la perturbacin. La perturbacin, , tiene una media distinta de cero, as; MI[ ] = - u ( 2 / ) 1/2 para
el modelo medio-normal y - 1 / para el modelo exponencial. La figura 17.3 ilustra la densidad para el modelo
medio-normal con = 1 y = 2. Por escrito 0 = 1+ MI[ ] y * = - MI[ ], obtenemos Amore formulacin convencional

En y = 0 + k k En x k + *

que tiene un disturbancewith un zeromean pero una, la distribucin no normal asimtrica. La asimetra de la
distribucin de * no invalida los resultados bsicos de mnimos cuadrados en este modelo de regresin clsico. Este
modelo de fi ca satisface las hiptesis del
Greene-50240 libro 26 de de junio de, de 2002 15: 8

CAPTULO 17 Estimacin de mxima verosimilitud 503

La densidad de probabilidad para la Frontera Estocstica

. 70

. 56

. 42
Densidad

. 28

. 14

. 00
4.0 2.8 1.6 .4 .8 2.0

FIGURA 17.3 Densidad de la perturbacin en la Frontera Estocstica


Modelo.

Gauss-Markov teorema, por lo que los mnimos cuadrados es imparcial y consistente (salvo por el trmino constante), y e fi
ciente entre estimadores lineales insesgados. En este modelo, sin embargo, el estimador de mxima verosimilitud no es
lineal, y es ms e fi ciente de los mnimos cuadrados.
Vamos a trabajar a travs de la estimacin de mxima verosimilitud del modelo semi-normal en detalle para ilustrar la
tcnica. El logaritmo de verosimilitud es
( yo ) ( - yo )
norte 2 + norte

En L = - norte En - norte En .
2 ln 2 - 1 2
i=1 i=1

Esto no es una particularmente di fi culto diario de probabilidad tomaximize numricamente. Sin embargo, es instructivo para hacer
uso de una comodidad que hemos sealado anteriormente. Recordemos que los estimadores de mxima verosimilitud son invariantes
a la transformacin de uno a uno. Si dejamos = 1 / y
= ( 1 / ) , la funcin de log-verosimilitud se convierte

norte
En L = n En - norte ( y yo - ' x yo ) 2 + norte ln [ - ( y yo - ' x yo )].
2 ln 2 - 1 2
i=1 i=1

Como se poda comprobar por tratar las derivaciones, esta transformacin trae una simplificacin drstica en la
manipulacin del diario de probabilidad y sus derivados. Haremos uso repetido de las funciones

i = yo / = y yo - ' x yo ,

( y yo , x yo , , , ) = [ - yo ]
[ - i] = yo .

i= - yo ( - i + yo )
Greene-50240 libro 26 de de junio de, de 2002 15: 8

504 CAPTULO 17 Estimacin de mxima verosimilitud

(El segundo de stos es la derivada de la funcin en el trmino nal fi en el registro L. La tercera es la derivada de yo con
respecto a su argumento; i< 0 para todos los valores de yo .) Eso
Tambin ser conveniente para definir la ( K + 1) 1 columnas vectores z i = ( x ' yo , - y yo ) ' y
t i = ( 0 ', 1 / ) '. Las ecuaciones de probabilidad son

En L norte
ti+n yo z i + yo z i = 0,
( ', ) '= norte
i=1 i=1 i=1

En L
yo i = 0
= - norte
i=1

y las segundas derivadas son


{[( 2 ] - [ t yo t ' ]}
( yo - yo 0
yo - 1) z yo z ' yo ) z yo yo
MARIDO( , , ) = norte
yo
0'
.
( yo - yo yo ) zyo' 2yo yo 0
i=1

El estimador de la covariancematrix asinttica para los parmetros estimados es directamente

Est.Asy. var [ ', , ] '= { - MARIDO[ ', , ]} - 1.

Hay dos tipos de transformaciones de los parmetros en nuestra formulacin. Con el fin de recuperar las
estimaciones de los parmetros estructurales originales = 1 / y = /
slo tenemos que transformar la MLE. Dado que estas transformaciones son uno a uno, el de los MLE y son 1 /
y / . Para calcular una matriz de covarianza asinttica para
estos estimadores vamos a utilizar el mtodo delta, que utilizar la matriz derivado

/ ' / / ( 1 / ) yo - ( 1 / 2) 0

G = / ' / / = 0' - ( 1 / 2) 0 .

/ ' / / 0' 0 1

Entonces, para los parmetros recuperados, nos

Est.Asy. var [ ', , ] '= GRAMO {- MARIDO[ ', , ]} - 1 GRAMO '.

Para el modelo de la mitad de lo normal, wewould tambin se basan en la invariancia de estimadores de mxima verosimilitud para recuperar
las estimaciones de los parmetros de varianza ms profundas, 2
v= 2 / ( 1 + 2)
y 2 u= 2 2 / ( 1 + 2).
El modelo de frontera estocstica es un poco diferentes de las que se han analizado anteriormente en que la
perturbacin es el foco central del anlisis en lugar de la catchall para los factores desconocidos e incognoscibles
omitidas de la ecuacin. Idealmente, nos gustara estimar u yo para cada fi rma en la muestra para comparar themon la
base de su productiva e fi ciencia. (Los parmetros de la funcin de produccin suelen ser de inters secundario en
estos estudios.) Por desgracia, los datos no permiten una estimacin directa, ya que con las estimaciones de en la
mano, slo somos capaces de calcular una estimacin directa de = y - x ' .

Jondrow et al. (1982), sin embargo, han derivado una aproximacin til que ahora es la medida estndar en estas
configuraciones,
[ ( z) ]
E [u | ] = , z =
1 + 2 1 - ( z) - z ,
Greene-50240 libro 26 de de junio de, de 2002 15: 8

CAPTULO 17 Estimacin de mxima verosimilitud 505

TABLA 17.3 Estimacin de Funciones de frontera estocstica

mnimos Cuadrados Media normal Modelo Modelo exponencial

Estndar Estndar Estndar


Coeficiente de estimacin de error t error de relacin de Estimacin t error de relacin de Estimacin t Ratio

Constante 1.844 0,234 7,896 2,081 0,422 4,933 2,069 0,290 7.135
k 0,245 0,107 2,297 0,259 0,144 1,800 0,262 0,120 2,184
l 0,805 0,126 6,373 0,780 0,170 4.595 0,770 0,138 5.581
0,236 0,282 0,087 3,237
u - 0,222 0,136
v - 0,190 0,171 0,054 3.170
- 1.265 1.620 0,781
- 7.398 3,931 1,882
Iniciar sesin L 2.2537 2.4695 2.8605

para el medio-modelo normal, y

( z / v)
E [u | ] = z + v z = - 2 v
( z / v) ,

para la exponentialmodel. Estos valores canbe computedusing estimaciones themaximumlikelihood de los


parmetros estructurales del modelo. Adems, un parmetro estructural de inters es la proporcin de la varianza
total de esto es debido a la deficiencia trmino ine. Para el modelo de medio-normal, Var [ ] = var [ u] + var [ v] = ( 1 - 2
/ ) 2
u + 2 v, mientras que para
el modelo exponencial, la contraparte es 1 / 2 + 2 v.

Ejemplo 17.7 estocstico Frontier Modelo


Apndice Tabla F9.2 listas de 25 observaciones de todo el estado usados por Zellner y Revankar (1970) para estudiar la
produccin en la industria de fabricacin de equipo de transporte. Hemos utilizado estos datos para estimar los modelos de
frontera estocstica. Los resultados se muestran en la Tabla 17.3. 19

El Jondrow, et al. (1982) las estimaciones de los trminos fi ciencia de INEF se enumeran en la Tabla 17.4. Las estimaciones de los
parmetros de la funcin de produccin, 1, 2, y 3 son bastante similares, pero los parmetros de la varianza, u y v, parecen ser bastante
diferentes. Algunas de las diferencias de parmetros es ilusorio, sin embargo. Los componentes de la varianza para el modelo de
medio-normal, son (1 - 2 / ) 2
u=
0,0179 y 2 v= 0,0361, mientras que aquellos para el modelo exponencial son 1 / 2 = 0,0183 y
v2= 0,0293. En cada caso, alrededor de un tercio de la varianza total de se explica por la varianza de u.

17.6.4 PRUEBAS MOMENTO condicional de ESPECIFICACIN

Una serie de estudios ha demostrado cmo utilizar restricciones de momentos condicionales para las pruebas de especi
fi cacin, as como una estimacin. 20 La lgica del momento condicional (CM) espec prueba fi cacin basado es como sigue.
El modelo espec fi cacin implica que cierto momento restrictionswill mantenga en la poblacin fromwhich la datawere
dibujado. Si la especificacin

19 norte es el nmero de establecimientos en el estado. Zellner y Revankar utilizados por datos del establecimiento en su estudio. El modelo de frontera
estocstica tiene la propiedad interesante que si las plazas residuos mnimos estn sesgados en la direccin positiva, entonces con mnimos cuadrados = 0 maximiza
el logaritmo de la verosimilitud. Esta propiedad, de hecho, caracteriza a los datos anteriores cuando se escala por NORTE. Dado que deja un ejemplo no es
particularmente interesante y que no se produce cuando no se normalizan los datos, a los efectos de esta ilustracin se han utilizado los datos sin escala para
producir la Tabla 17.3. Nosotros observamos que este resultado es una ocurrencia comn en la prctica irritante.

20 Vase, por ejemplo, Pagan y Vella (1989).


Greene-50240 libro 26 de de junio de, de 2002 15: 8

506 CAPTULO 17 Estimacin de mxima verosimilitud

TABLA 17.4 Estimacin de fi ciencias INEF

Estado Media normal exponencial Estado Media normal exponencial

Alabama 0.2011 0.1459 Maryland 0.1353 0,0925


California 0.1448 0,0972 Massachusetts 0.1564 0.1093
Connecticut 0,1903 0,1348 Michigan 0.1581 0,1076
Florida 0.5175 0.5903 Misuri 0,1029 0,0704
Georgia 0.1040 0,0714 New Jersey 0,0958 0,0659
Illinois 0.1213 0.0830 Nueva York 0.2779 0.2225
Indiana 0.2113 0.1545 Ohio 0.2291 0.1698
Iowa 0.2493 0.2007 Pensilvania 0.1501 0.1030
Kansas 0,1010 0,0686 Texas 0.2030 0.1455
Kentucky 0,0563 0,0415 Virginia 0,1400 0,0968
Luisiana 0.2033 0.1507 Washington 0,1105 0.0753
Maine 0.2226 0.1725 Virginia del Oeste 0,1556 0.1124
Wisconsin 0.1407 0.0971

es correcta, entonces los datos de la muestra deben imitar las relaciones implcitas. Por ejemplo, en el modelo de
regresin clsica, el supuesto de homocedasticidad implica que la varianza perturbacin es independiente de los
regresores. Como tal,
( 2
MI{ x yo [( y yo - ' x yo ) 2 - 2]} = MI[ x yo yo - 2)] = 0.

Si, por el contrario, la regresin es heterocedstico de una manera que depende de x yo , entonces este covarianza no
ser cero. Si la hiptesis de homocedasticidad es correcta, entonces esperaramos que la contraparte de la muestra a
la condicin de momento,

norte ( mi 2
rr = 1 x yo yo - s 2),
norte
i=1

dnde mi yo es el residual OLS, para estar cerca de cero. (Este clculo aparece en Breusch- y de Pagan LM para
homocedasticidad Ver la Seccin 11.4.3.). Los problemas prcticos que resolver son (1) la formulacin de
condiciones de momentos adecuados que corresponden a la prueba de hiptesis, que suele ser sencillo; (2) para
elaborar el homlogo apropiado de la muestra; y (3) para idear una medida adecuada de cercana a cero de la
muestra momento estimador. El ltimo de ellos ser en el marco de las estadsticas theWald que hemos examinado
en varios puntos de este libro. As que el problema es llegar a la matriz de covarianza apropiado para los momentos
de la muestra.

Consideremos un caso general en el que la condicin momento en que se escribe en trminos de las variables en el
modelo [ y yo , x yo , z yo ] y parmetros (como en el modelo de regresin lineal) . los
momento de la muestra se puede escribir

norte norte
rr = 1 r yo ( y yo , x yo , z yo , ) =1 rr yo . (17 a 58)
norte norte
i=1 i=1

La hiptesis se basa en que el verdadero , MI[ r i] = 0. Bajo la hiptesis nula de que


MI[ r i] = 0 y suponiendo t marido en Plim = y que un teorema del lmite central (teorema
D.18 o D.19) se aplica a norte r ( ) as que eso

norte
r ( ) re- NORTE[ 0,]
Greene-50240 libro 26 de de junio de, de 2002 15: 8

CAPTULO 17 Estimacin de mxima verosimilitud 507

por alguna matriz de covarianza que an tenemos que estimar, se deduce que el Wald
estadstica,

r ' - 1 r re-
norte 2 ( J), (17-59)

donde los grados de libertad J est siendo probado el nmero de restricciones momento y es una estimacin de
. Por lo tanto, la estadstica se puede hacer referencia a la tabla de chi-cuadrado.

Queda por determinar el estimador de . La derivacin completa de es bastante com-

plegado. [Ver Pagan y Vella (1989, pp. S32-S33).] Pero cuando el vector de estimadores de parmetros es un estimador de
mxima verosimilitud, como lo sera para el cuadrados estimador menos con perturbaciones distribuidas normalmente y para la
mayora de los otros estimadores nos consideran, un estimador sorprendentemente simple se puede utilizar. Supongamos que el
vector de los parmetros utilizados para calcular los momentos se obtenidos anteriormente mediante la resolucin de las
ecuaciones

1 norte
norte

), =
gramo( y yo , x yo , z yo 1 gramo i = 0,
gramo (17-60)
norte norte
i=1 i=1

dnde es el vector de parmetro estimado [por ejemplo, ( , ) en el modelo lineal]. para el


modelo de regresin lineal, que sera las ecuaciones normales

1 norte
x yo ( y yo - x ' yo b) = 0.
norte x ' e = 1 norte
i=1

Dejar que la matriz GRAMO ser el norte K matriz con yo fila igual a gramo '
yo . En una de mxima verosimilitud

problema, GRAMO es la matriz de los derivados de los trminos individuales de la funcin de probabilidad logartmica con
respecto a los parmetros. Este es el GRAMO utilizado para calcular el estimador BHHH de la matriz de informacin. [Ver
(17-18).] Let R ser el norte J matriz cuyas
yo fila es r yo
'
. Pagan y Vella muestran que para los estimadores de mxima verosimilitud,
puede ser

estimado usando

S=1 (17-61)
norte[ R ' R - R ' G (G ' GRAMO) - 1 GRAMO ' R]. 21

Esta ecuacin se parece a una matriz de clculo implicados, pero es sencillo con cualquier programa de regresin. Cada
elemento de S es el cuadrado o producto cruzado media de los residuales de mnimos cuadrados en una regresin lineal de
una columna de R en las variables de GRAMO. 22

Por lo tanto, la versin operativa de la estadstica es

C = n r ' S - 1 rr = 1 (17-62)
norte yo ' R [R ' R - R ' G (G ' GRAMO) - 1 GRAMO ' R] - 1 R ' yo,

dnde yo es un norte 1 columna de unos, que, una vez ms, se denomina el valor crtico apropiado en la tabla de
chi-cuadrado. Este resultado proporciona una prueba conjunta que todas las condiciones themoment son satis fi ed
simultneamente. Una prueba individual de uno solo de estos momentos

21 Podra ser tentador slo para usar (1 / norte) R ' R. Esta idea sera incorrecto, porque S cuentas para R ser una funcin del vector de parmetro estimado
que est convergiendo a su lmite de probabilidad en la misma tasa que los momentos de la muestra estn convergiendo a la de ellos.

22 Si el estimador no es una MLE, entonces la estimacin de


es ms complicado, pero tambin mediante una funcin directa
lgebra matricial. La ventaja de (17-62) es que implica sumas simples de variables que ya han sido calculadas para obtener
y r. Tenga en cuenta, adems, que si se ha estimado por mxima verosimilitud, a continuacin, el trmino
( GRAMO ' GRAMO) - 1 es el estimador BHHH de la matriz de covarianza asinttica de . Si fuera ms conveniente, a continuacin,
este estimador podra ser sustituido por cualquier otro estimador apropiado de Asy. var [ ].
Greene-50240 libro 26 de de junio de, de 2002 15: 8

508 CAPTULO 17 Estimacin de mxima verosimilitud

restricciones en el aislamiento pueden calcularse incluso ms fcilmente que una prueba conjunta. Para el ensayo de una de las L condiciones,
dicen que la uno, la prueba puede llevarse a cabo mediante un simple t prueba de si el trmino constante es cero en una regresin
lineal de la sima columna de R en un trmino constante y todas las columnas de GRAMO. De hecho, la estadstica de prueba en
(17-62) tambin se podra obtener por el apilamiento de la J columnas de R y el tratamiento de la L ecuaciones como un modelo de
regresiones aparentemente no relacionadas con ( yo, GRAMO) como los regresores (idnticos) en cada ecuacin y luego probar la
hiptesis conjunta de que todos los trminos constantes son cero. (Vase la Seccin 14.2.3.)

Ejemplo 17.8 Pruebas de Heteroscedasticidad en el Linear


Modelo de regresin
Supongamos que el modelo lineal se especfica ED AS

y i = 1 + 2 x i + 3 z i + yo .

Para probar si
( 2
E [z 2yo yo - 2)] = 0,

tenemos una regresin lineal z 2


2 - s 2) en una constante, mi yo , x yo mi yo , y z yo mi yo . Un estandar t prueba de si
yo ( miyo

el trmino constante en esta regresin es cero lleva a cabo la prueba. Para probar la hiptesis conjunta de que no hay
heteroscedasticidad con respecto a ambos x y z, tendramos una regresin tanto
x yo2 ( miyo
2 - s 2) y z 2 2 - s 2) yo en 1, mi yo , x yo mi yo , z yo mi yo ] y recoger las dos columnas de residuos en V.
yo ( miyo

Entonces S = ( 1 / norte) V ' V. El vector momento sera


[ x yo ] ( mi 2
norte
rr = 1 yo - s 2).
norte z yo
i=1

La estadstica de prueba sera ahora


]-1
C = n r ' S - 1 r = norte r '[ 1 r.
norte V ' V

Vamos a examinar otras pruebas momento condicional utilizando este mtodo en la Seccin 22.3.4, donde se estudia
la especificacin del modelo de regresin censurada.

17,7 TWO-STEP MXIMA VEROSIMILITUD ESTIMACIN

La literatura aplicado contiene un nmero grande y creciente de modelos en los que un modelo est incrustado en
otro, lo que produce lo que se conoce ampliamente como de dos pasos problemas de estimacin. Consideremos un
ejemplo (la verdad artificial) en whichwe tienen las siguientes.

Modelo 1. nmero esperado de los nios = E [y 1 | x 1, 1].


Modelo 2. Decisin para inscribirse en capacitacin para el trabajo = y 2, una funcin de ( x 2, 2, E [y 1 | x 1, 1]).

Hay dos vectores de parmetros, 1 y 2. El primero aparece en el segundo modelo, aunque no a la inversa. En tal
situacin, hay dos maneras de proceder. La informacin completa de mxima verosimilitud (FIML) estimacin
implicara la formacin de la distribucin conjunta f (y 1, y 2 | x 1, x 2, 1, 2) de las dos variables aleatorias y luego maximizar
Greene-50240 libro 26 de de junio de, de 2002 15: 8

CAPTULO 17 Estimacin de mxima verosimilitud 509

la funcin de probabilidad logartmica completa,


En L = norte f (y yo 1, y yo 2 | x yo 1, x yo 2, 1, 2).
i=1

Un segundo, o de dos etapas, informacin limitada de mxima verosimilitud (LIML) procedimiento para este tipo de modelo
podra hacerse mediante la estimacin de los parmetros del modelo 1, ya que no implica 2, y luego maximizar una funcin de
probabilidad logartmica condicional utilizando las estimaciones de la Etapa 1:


En L = norte f [y yo 2 | x yo 2, 2, ( x yo 1, 1)].
i=1

Hay al menos dos razones onemight proceder de esta manera. En primer lugar, itmay ser sencillo para formular las dos
log-probabilidades separadas, pero muy complicado para derivar la distribucin conjunta. Esta situacin surge con
frecuencia cuando las dos variables beingmodeled son de diferentes tipos de poblaciones, como una discreta y uno
continuo (que es un caso muy comn en este marco). La segunda razn es que la maximizacin de las verosimilitudes
log separado puede ser bastante sencillo, pero maximizando el diario de probabilidad conjunta puede ser
numricamente complicado o difcil. 23 Vamos a considerar algunos ejemplos. A pesar de que vamos a encontrar
problemas FIML en varios puntos adelante en el libro, por ahora vamos a presentar algunos resultados bsicos para la
estimacin de dos pasos. Las pruebas de los resultados dados aqu se pueden encontrar en una referencia importante
sobre el tema, Murphy y Topel (1985).

Supongamos, pues, que nuestro modelo se compone de las dos distribuciones marginales, F 1 ( y 1 | x 1,
1) y F 2 ( y 2 | x 1, x 2, 1, 2). Estimacin procede en dos etapas.

1. Estimar 1 por mxima verosimilitud en el Modelo 1. Sea (1 / norte) V 1 ser norte cualquier momento de la

estimadores de la matriz de covarianza asinttica de este estimador que se discute en la Seccin


17.4.6.
2. Estimar 2 por mxima verosimilitud en el modelo 2, con 1 insertado en lugar de 1 como si
se supiera. Sea (1 / norte) V 2 ser norte veces cualquier estimador apropiada de la
matriz de covarianza asinttica de 2.

Theargument para consistencyof 2 es esencialmente que si 1 fueron conocido, thenall nuestros resultados

para MLEs se aplicara para la estimacin de 2, y desde Plim 1 = 1, asintticamente, este


lnea de razonamiento es correcto. Pero la misma lnea de razonamiento no es su fi ciente para justificar el uso
( 1 / norte)V 2 como el estimador de la matriz de covarianza asinttica de 2. Algunos de correccin es
necesario tener en cuenta una estimacin de 1 siendo utilizado en la estimacin de 2. El resultado esencial es la siguiente.

23 Hay una tercera possiblemotivation. Si cualquiera de los modelos es misspeci fi ed, a continuacin, las estimaciones FIML de bothmodels sern inconsistentes.

Pero si slo la segunda es misspeci fi cada, al menos se puede estimar consistentemente la primera. Por supuesto, este resultado slo es mitad de un pan, pero

puede ser mejor que nada.


Greene-50240 libro 26 de de junio de, de 2002 15: 8

510 CAPTULO 17 Estimacin de mxima verosimilitud

TEOREMA 17.8 distribucin asinttica de la Two-Step MLE


[Murphy y Topel (1985)]
Si las condiciones de regularidad estndar aremet para ambas funciones de probabilidad logartmica, a continuacin, el
segundo paso de mxima verosimilitud estimador de 2 es consistente y asintticamente distribucin normal con matriz
de covarianza asinttica

[ V 2 + V 2 [ CV 1 do ' - RV 1 do ' - CV 1 R '] V 2 ],


V*2= 1
norte

dnde

V 1 = Asy.Var [ norte( 1 - 1)] basado en ln L 1,

V 2 = Asy.Var [ norte( 2 - 2)] basado en ln L 2 | 1,

[ 1 ( En L 2 ) ( En L 2 )] [ 1 ( En L 2 ) ( En L 1 )]
C = mi , R = mi .
norte 2 '1 norte 2 '1

La correccin de la covariancematrix asinttica en el segundo paso requiere algn clculo adicional.


matrices V 1 y V 2 se estima por las respectivas matrices de covarianza no corregidos. Tpicamente, los
estimadores BHHH,
( En F yo 1 ) ( En F yo 1 )] - 1
norte
V 1 = [ 1
V
norte 1 '1
i=1

y
( En F yo 2 ) ( En F yo 2 )] - 1
norte
V 2 = [ 1
V
norte 2 ' 2
i=1

son usados. las matrices R y do se obtienen mediante la suma de las observaciones individuales sobre los
productos cruzados de los derivados. Estos se estiman con
( En F yo 2 ) ( En F yo 2 )
norte
C = 1
C
norte 2 ' 1
i=1

y
( En F yo 2 ) ( En F yo 1 )
norte
R = 1
R
norte 2 ' 1
i=1

Ejemplo 17.9 Two-Step ML Estimacin


Continuando con el ejemplo descrito al principio de esta seccin, suponemos que y yo 2 es un indicador binario de la eleccin si
debe inscribirse en el programa ( y yo 2 = 1) o no ( y yo 2 = 0) y que las probabilidades de los dos resultados son

yo 2 + E [yi 1 | x ' yo 1]

Prob [ y yo 2 = 1 | x yo 1, x yo 2] = mi x '
1 + mi x ' yo 2 + E [yi 1 | x ' yo 1]
Greene-50240 libro 26 de de junio de, de 2002 15: 8

CAPTULO 17 Estimacin de mxima verosimilitud 511

y Prob [ y yo 2 = 0 | x yo 1, x yo 2] = 1 - Prob [ y yo 2 = 1 | x yo 1, x yo 2], dnde x yo 2 es algunas covariables que podra influir en la decisin, como el estado civil
o la edad y x yo 1 son factores determinantes del tamao de la familia. Esta configuracin es una logit modelo. Vamos a desarrollar este
modelo con ms detalle en el captulo 21. La
valor esperado de y yo 1 aparece en la probabilidad. (Observacin:. La era de esperar, en lugar del valor real se eligi
deliberadamente De lo contrario, los modelos podran diferir sustancialmente en nuestro caso, podemos ver la diferencia que
hay entre una decisin ex ante y ex post uno..) Supongamos que el nmero de los nios pueden ser descritos por una
distribucin de Poisson (vase la Seccin
B.4.8) depende de algunas variables x yo 1 tales como la educacin, la edad, y as sucesivamente. Entonces

yo
Prob [ y yo 1 = j | x yo 1] = mi - yo j , j = 0, 1,. . . ,
j!

y suponer, como es habitual, que

E [y yo 1] = i = exp ( x ' yo 1 ) .

Los modelos implican = [, , ], dnde 1 = . De hecho, no est claro cul es la distribu- cin conjunta de y 1 y y 2 podra ser,
pero la estimacin de dos pasos es sencillo. Para el modelo 1, el diario de probabilidad y sus derivados primeros son


En L 1 = norte En F 1 ( y yo 1 | x yo 1, )

i=1


= norte [ - i + y yo 1 En yo - En y yo 1!] = norte [ - exp ( x ' yo 1 ) + y yo 1 ( x ' yo 1 ) - En y yo 1!],
i=1 i=1

En L 1

( y yo 1 - yo ) x yo 1 = norte u yo x yo 1.
= norte
i=1 i=1

Clculo de las estimaciones se desarrolla en el Captulo 21. Cualquiera de los tres estimadores de V 1
Tambin es fcil de calcular, pero el estimador BHHH es ms conveniente, de manera que usamos

[ ]-1
1
norte

V 1 =
V u 2yo x yo 1 x ' yo 1
u .
norte
i=1

[En esta y las siguientes sumas, en realidad estamos estimando expectativas de las diversas matrices.]

Podemos escribir la funcin de densidad para el segundo modelo como

F 2 ( y yo 2 | x yo 1, x yo 2, , , ) = PAG yi 2 yo x ( 1 - PAG yo ) 1 - yi 2,

dnde PAG i = Prob [ y yo 2 = 1 | x yo 1, x yo 2] como se indica anteriormente. Entonces


En L 2 = norte y yo 2 En PAG i + ( 1 - y yo 2) ln (1 - PAG yo ) .

i=1

Para mayor comodidad, y mucho x *yo 2 = [ x ' yo 2, exp ( x ' yo 1


)] ', y recordar que 2 = [ , ] '. Entonces
)]


En L 2 = norte y yo 2 [ x *yo' 2 2 - ln (1 + exp ( x *yo' 2 2) )] + ( 1 - y yo 2) [ - ln (1 + exp ( x *yo' 2 2) )].
i=1

As, en el segundo paso, creamos la variable adicional, lo dejar x yo 2, y la estimacin del modelo logit como si ( y esta variable
adicional) se observ en realidad en lugar de estima. Las estimaciones de mxima verosimilitud de [ , ] se obtienen mediante la
maximizacin de esta funcin. (Ver
Greene-50240 libro 26 de de junio de, de 2002 15: 8

512 CAPTULO 17 Estimacin de mxima verosimilitud

Captulo 21.) Despus de un poco de manipulacin, encontramos que el resultado conveniente

En L 2
= norte ( y yo 2 - PAG yo ) x *yo 2 = norte v yo x
x
*
yo 2.
2
i=1 i=1

Una vez ms, cualquiera de los tres estimadores podran utilizarse para estimar la matriz de covarianza asinttica Ance, pero el
estimador BHHH es conveniente, por lo que utilizar
[ ]-1
1
norte

V 2 =
V vv yo2 x
x * xx * '
yo 2 yo 2
.
norte
i=1

Para la etapa final, hay que corregir la matriz de covarianza asinttica utilizando do y R. Qu
permanece para derivar las pocas lneas, se dejan para el lector-es

En L 2

v yo [ exp ( x ' yo 1 )] x yo 1.
= norte
i=1

Por lo tanto, el uso de nuestras estimaciones,

norte norte
C = 1
C vv yo
2 )] x *yo 2 x 'yo
)]
[ exp ( x ' yo 1 yo 1, y
R = 1
R u yo vv yo x
x
*
yo 2 x 'yo
yo 1.
norte norte
i=1 i=1

Ahora podemos calcular la correccin.

Inmany aplicaciones, la covarianceof los twogradients R converge a zero.When la primera y estimaciones


segundo paso se basan en diferentes muestras, R es exactamente cero. Por ejemplo, en nuestra solicitud anterior, R
= norte
' 1. Los dos residuos u y v,
i = 1 u yo v yo x * yo 2 xyo

maywell que no estn correlacionadas. Este assumptionmust puede comprobar en base AMODEL por modelo, pero en tal
caso, el tercer y cuarto trminos en V * 2 desaparece asintticamente y lo que queda es la alternativa ms simple,

V **2 = ( 1 / norte)[ V 2 + V 2 CV 1 do ' V 2].

Vamos a examinar algunas aplicaciones adicionales de esta tcnica (incluyendo una aplicacin emprica del ejemplo
anterior) ms adelante en el libro. Tal vez la aplicacin ms comn de estimacin de mxima verosimilitud de dos
pasos en la literatura actual, especialmente en el anlisis de regresin, implica la insercin de una prediccin de una
variable en una funcin que describe el comportamiento de otro.

17.8 MXIMA PROBABILIDAD SIMULADA ESTIMACIN

La tcnica de la probabilidad simulada mxima (MSL) es esencialmente una clsica homlogo teora de muestreo para
el estimador Bayesiano jerrquica hemos considerado en la Seccin 16.2.4. Ya que el papel celebrado de Berry,
Levinsohn, y Pakes (1995), y una literatura relacionada defendida por McFadden y tren (2000), la estimacin de
mxima verosimilitud simulada se ha utilizado en un gran y creciente nmero de estudios basado en las
verosimilitudes log que implican integrales que son las expectativas. 24 En esta seccin, vamos a exponer algunos
resultados generales para la estimacin MSL mediante el desarrollo de una aplicacin en particular,

24 Importante motivo de referencia para este conjunto de tcnicas es Gourieroux y Monfort (1996).
Greene-50240 libro 26 de de junio de, de 2002 15: 8

CAPTULO 17 Estimacin de mxima verosimilitud 513

el modelo de parmetros aleatorios. Este marco general de modelizacin se ha utilizado en la mayora de las solicitudes
recibidas. a continuacin, vamos a seguir la aplicacin del modelo de eleccin discreta para datos de panel que
comenzamos en la Seccin 16.2.4.
La densidad de y eso cuando el vector de parmetro es yo es f (y l | x eso , yo ). El vector de parmetros yo est distribuido al
azar sobre los individuos de acuerdo con

i = +? z i + v yo

dnde +? z yo se themeanof thedistribution, whichdepends en el tiempo las caractersticas individuales invariantes


aswell asparameters todava tobeestimated, y los randomvariationcomes de la heterogeneidad individual, v yo . Este
randomvector se supone que havemean matriz cero y covarianza,
. La densidad condicional de los parmetros se denota

gramo( i | z yo , ,?, ?) = gramo( v i + +? z yo , ),

dnde gramo(.) es la densidad marginal subyacente de la heterogeneidad. para el T observaciones en grupo yo , la


densidad condicional conjunta es


f ( y i | x yo , i) = T f (y l | x eso , yo ).
t=1

La densidad incondicional para y yo se obtiene mediante la integracin de ms de yo ,

f ( y i | x yo , z yo , ,? , ) = mi yo [ f ( y i | x yo , i)] = f ( y i | x yo , yo ) gramo( i | z yo , ,?, ?) re yo .


yo

Agrupando trminos, y haciendo que la transformacin de v yo a yo , el verdadero diario de probabilidad sera

{ [T ] }

En L = norte En f (y l | x eso , +? z i + v yo ) gramo( v i | ) re v yo
v yo
i=1 t=1
{ }

= norte En f ( y i | x yo , +? z i + v yo ) gramo( v i | ) re v yo .
v yo
i=1

Cada una de las norte trminos implica una expectativa sobre v yo . El resultado final de la integracin es una funcin de ( ,?,
?) que luego se maximiza.
Al igual que en las aplicaciones anteriores, no ser posible tomaximize el diario de probabilidad en esta forma
porque no hay forma cerrada para la integral. Hemos considerado dos enfoques para maximizar la probabilidad
log-tales. En la formulacin de clase latente, se supone que el vector de parmetro toma uno de un conjunto
discreto de valores, y la loglikelihood se maximiza a travs de esta distribucin discreta, as como los parmetros
estructurales. (Vase la Seccin 16.2.3.) El procedimiento de Bayes jerrquica mtodos usedMarkovChain-Monte
Carlo para muestra de la distribucin posterior conjunta de los parmetros subyacentes y se utiliza la media
emprica de la muestra de sorteos como el estimador. Ahora consideramos un tercer enfoque para estimar los
parmetros de un modelo de esta forma, la estimacin de mxima verosimilitud simulada.

Los trminos en el diario de probabilidad son cada uno de forma

En L i = mi v yo [ f ( y i | x yo , +? z i + v yo )].

Como se ha sealado, Wedonot Have cerrado formfor esta funcin, sowe no se puede calcular directamente. Supongamos
que pudimos probar al azar de la distribucin de v yo . Si una ley apropiada
Greene-50240 libro 26 de de junio de, de 2002 15: 8

514 CAPTULO 17 Estimacin de mxima verosimilitud

de grandes nmeros se pueden aplicar, a continuacin,

R
1
lim f ( y i | x yo , +? z i + v IR) = mi v yo [ f ( y i | x yo , +? z i + v yo )]
R R
r=1

dnde v IR es el r sorteo de la distribucin. Esto sugiere una estrategia para calcular el logaritmo de la verosimilitud.
Podemos sustituir esta aproximacin a la expectativa en los log-verosimilitud function.With suf randomdraws fi
cientes, theapproximationcanbe hizo lo ms cercano a la funcin verdadera si lo deseas. [La teora de este enfoque
se discute inGourieroux andMonfort (1996), Bhat (1999), andTrain (1999, 2002). Los detalles prcticos sobre
aplicaciones del mtodo se dan en Greene (2001).] Un detalle para agregar preocupaciones cmo muestrear a partir
de la distribucin de v yo . Hay muchas posibilidades, pero por ahora, consideramos el caso ms simple, la distribucin
normal multivariante. Escribir
en el
forma Cholesky = LL ' dnde L es una matriz triangular inferior. Ahora deja u IR ser un vector de K independiente sorteos
de la distribucin normal estndar. A continuacin, un sorteo de la distribucin multivariada con matriz de covarianza
es simple v IR = Lu IR. la simulado
diario de probabilidad es

{1 [T ]}
R
En L S = n En f (y l | x eso , +? z i + Lu IR) .
R
i=1 r=1 t=1

La funcin resultante se maximiza con respecto a ,? y L. Esto obviamente no es


un clculo simple, pero es factible, y mucho ms fcil que tratar de manipular las integrales directamente. De hecho, para la
mayora de los problemas a los que se ha aplicado este mtodo, los clculos son sorprendentemente simple. La parte
intrincada es la obtencin de la funcin y sus derivados. Sin embargo, las funciones son generalmente modelos de funcin
de ndice que implican x ' eso yo
lo que en gran medida simplificada fi ca las derivaciones.

Inferencia en este contexto no implica nuevos resultados. La matriz de covarianza asinttica estimada para los
parmetros estimados se calcula mediante la manipulacin de los derivados de la simulada de probabilidad logartmica. Las
estadsticas de relacin de Wald y la probabilidad tambin se calculan de la manera que normalmente sera. Al igual que antes,
estamos interesados en la estimacin de parmetros espec fi cos persona. Una estimacin previa podra simplemente utilizar
+? z yo , pero esto no sera utilizar toda la informacin de la muestra. Una estimacin posterior calculara

r=1
IR f ( y i | x yo , IR)
mi v yo [ i | ,?, z i,] = R
mi R IR = + z i + Lu IR.
r=1f ( y i | x yo , IR) ,

se omiten detalles mecnicos en el clculo de la MSLE. El lector interesado puede consultar Gourieroux y Monfort
(1996), Tren (2000, 2002), y Greene (2001,
2002) para ms detalles.

Ejemplo 17.10 mxima verosimilitud simulada Estimacin de un Binario


la eleccin del modelo
Seguimos el ejemplo 16.5, donde se obtienen las estimaciones de un modelo de eleccin binaria para la innovacin de productos. El
modelo es para Prob [ y it = 1 | x eso , yo ] dnde

y it = 1 si fi rm yo se dio cuenta de una innovacin de producto en el ao t y 0 si no.


Greene-50240 libro 26 de de junio de, de 2002 15: 8

CAPTULO 17 Estimacin de mxima verosimilitud 515

Las variables independientes en el modelo son

x eso 1 = constante,

x eso 2 = log de las ventas,

x eso 3 = tamao relativo = proporcin de empleo en la unidad de negocio para el empleo en la industria,

x eso 4 = relacin entre las importaciones de la industria a (industria de venta + importaciones),

x eso 5 = relacin de la industria de la inversin extranjera directa a (la industria de venta + importaciones),

x eso 6 = productividad = relacin entre el valor aadido de la industria de empleo en la industria,

x eso 7 = variable ficticia que indica el rm fi est en el sector de los materiales en bruto,

x eso 8 = variable ficticia que indica la fi rma se encuentra en el sector de bienes de inversin. La muestra se compone de 1.270
firmas de fabricacin alemana observados durante cinco aos, 1984-1988. La densidad que entra en el diario de probabilidad es

f (y l | x eso , i) = Prob [ y l | x ' eso i] = [( 2 y eso - 1) x ' eso yo ], y it = 0, 1.

dnde
i = + v yo , v yo ~ NORTE[ 0, ].

Para ser coherente con Bertschek y Lechner (1998) que no fi t cualquier fi rm-especfico, componentes invariables tiempo- en la
ecuacin principal para yo .
Tabla 17.5 se presentan los coeficientes estimados para la probitmodel bsica en la primera columna. Las estimaciones de los
medios, se muestran en la segunda columna. Parece que hay grandes diferencias en las estimaciones de los parmetros, aunque
esto puede bemisleading ya que hay gran variabilidad acin a travs de las firmas en las estimaciones posteriores. La tercera columna
presenta las races cuadradas de los elementos diagonales implcitas de
calculado como los elementos diagonales de LL '. estos estimacin
apareadas desviaciones estndar son para la distribucin subyacente de parmetro en el modelo- no son estimaciones de la
desviacin estndar de la distribucin de muestreo del estimador. Para el parmetro media, que se muestra entre parntesis en
la segunda columna. El cuarto UMN COL- presenta las medias de la muestra y las desviaciones estndar del 1270 posterior
estimado

TABLA 17.5 Estimacin del Modelo de parmetros aleatorios

probit RP Medios RP Std. Desarrolladores. DISTN emprica. Posterior

Constante - 1.96 - 3.91 2.70 - 3.27 - 3.38


(0,23) (0,20) (0,57) (2,14)

lnSales 0.18 0.36 0.28 0.32 0.34


(0.022) (0.019) (0,15) (0,09)

Rel.Size 1.07 6.01 5.99 3.33 2.58


(0,14) (0,22) (2,25) (1,30)

Importar 1.13 1.51 0.84 2.01 1.81


(0,15) (0,13) (0,58) (0,74)

IED 2.85 3.81 6.51 3.76 3.63


(0,40) (0,33) (1,69) (1,98)

Pinchar. - 2.34 - 5.10 13,03 - 8.15 - 5.48


(0,72) (0,73) (8,29) (1,78)

RawMtls - 0.28 - 0.31 1.65 - 0.18 - 0.08


(0.081) (0.075) (0,57) (0,37)

Invertir. 0,19 0.27 1.42 0.27 0.29


(0.039) (0.032) (0,38) (0,13)

En L - 4114.05 - 3498.654
Greene-50240 libro 26 de de junio de, de 2002 15: 8

516 CAPTULO 17 Estimacin de mxima verosimilitud

las estimaciones de los coeficientes. La ltima columna repite las estimaciones para el classmodel latente. El acuerdo de los dos
conjuntos de estimaciones es sorprendente en vista de la cruda aproximacin dada por el modelo de clases latentes.

Figuras 17.4a y B presentes estimadores de densidad kernel de las probabilidades fi rm-espec fi calculadas en el 5-aos
significa para el modelo parmetros aleatorios y con las estimaciones probit originales. Las probabilidades estimadas son
sorprendentemente similares al modelo de clases latentes, y tambin es bastante similar, aunque ms suave que las estimaciones
probit.

FIGURA 17.4a Las probabilidades probit.

Kernel estimacin de la densidad de peste de pequeos rumiantes

3.30

2.64

1.98
Densidad

1.32

0.66

0.00
.0 .2 .4 .6 .8 1.0 1.2
PPR

FIGURA 17.4b Parmetros aleatorios probabilidades.

Kernel para estimar la densidad del PRI

1.60

1.28

0.96
Densidad

0.64

0.32

0.00
.2 .0 .2 .4 .6 .8 1.0 1.2
PRI
Greene-50240 libro 26 de de junio de, de 2002 15: 8

CAPTULO 17 Estimacin de mxima verosimilitud 517

La figura 17.5 muestra la estimacin de densidad kernel para las estimaciones fi rm-espec fi del coef ventas de trozas fi
ciente. La comparacin a la figura 16.5 muestra algunos notable diferencia. El modelo de parmetros aleatorios produce
estimaciones que son similares en magnitud, pero las distribuciones son en realidad muy diferente. Que debe ser preferido?
Slo sobre la base de que el modelo de clases latentes discreta tres puntos es una aproximacin al modelo de variacin
continua, que prefiere este ltimo.

FIGURA 17.5 Los parmetros aleatorios, ventas.

Kernel estimacin de la densidad de BS

6.40

5.12

3.84
Densidad

2.56

1.28

0.00
.2 .1 .0 .1 .2 .3 .4 .5 .6 .7
BS

FIGURA 17.5b Modelo Clase latente, ventas.

Kernel para la estimacin de la densidad BSALES

7.20

5.76

4.32
Densidad

2.88

1.44

0.00
.2 .3 .4 .5 .6

BSALES
Greene-50240 libro 26 de de junio de, de 2002 15: 8

518 CAPTULO 17 Estimacin de mxima verosimilitud

17.9 PSEUDO de mxima verosimilitud estimacin y matrices de covarianza asinttica


ROBUSTAS

estimacin de mxima verosimilitud requiere completa catin especfico de la distribucin de la variable aleatoria
observada. Si la distribucin correcta es algo distinto de lo que suponemos, a continuacin, la funcin de verosimilitud es
misspeci fi cado y las propiedades deseables de la MLE podra no contener. En esta seccin se considera un conjunto de
resultados en un enfoque de estimacin que es robusto a algunos tipos de modelo misspeci fi cacin. Por ejemplo, hemos
encontrado que en un modelo, si la funcin de media condicional es E [y | x] = x ' , a continuacin, ciertos estimadores, como
mnimos cuadrados, son robusto a la especificacin de la distribucin equivocado de las perturbaciones. Es decir, LS es
MLE si las perturbaciones se distribuyen normalmente, pero todava puede reclamar algunas propiedades deseables para
LS, incluyendo la consistencia, incluso si las perturbaciones no se distribuyen normalmente. Esta seccin discutir algunos
resultados que se relacionan towhat sucede ifwemaximize la funcin de log-verosimilitud malo, y para aquellos casos en
los que el estimador es consistente a pesar de esto, la forma de calcular una matriz de covarianza asinttica adecuado para
ello. 25

Dejar f (y i | x yo , ) ser la verdadera densidad de probabilidad de una variable aleatoria y yo dado un conjunto de covariables x yo y el parmetro

vector . La funcin de probabilidad logartmica es (1 / norte) Iniciar sesin L ( | Y,

X) = ( 1 / norte) norte
i = 1 Iniciar sesin f (y i | x yo , ). El MLE,
ML, es la estadstica muestra que maximiza
esta funcin. (La divisin del registro L por norte no afecta a la solucin.) Maximizamos la funcin de probabilidad
logartmica igualando sus derivados a cero, por lo que el MLE se obtiene resolviendo el sistema de ecuaciones empricas
momento

1 norte
norte
Iniciar sesin f (y i | x yo ,
ML)
=1 re yo (
ML) = re(

ML) = 0.
norte ML norte
i=1 i=1

La contraparte de la poblacin a la ecuacin muestra de momento es

[1 ] = mi [1 ] = MI[
Iniciar sesin L norte
mi re yo ( ) re( )] = 0.
norte norte
i=1

Usando lo que sabemos acerca de los estimadores GMM, si MI[ re( )] = 0, entonces ML es consistente
y asintticamente normalmente distribuido, con matriz de covarianza asinttica igual a

V ML = [ GRAMO( ) ' GRAMO( )] - 1 GRAMO( ) '{ Var [ re( )]} GRAMO( ) [ GRAMO( ) ' GRAMO( )] - 1,

dnde GRAMO( ) = Plim re( ) / '. Ya que re( ) es el vector derivado, GRAMO( ) es 1 / norte veces
el grupo de accin esperada de registro L; es decir, (1 / nordeste[ MARIDO( )] = MARIDO( ). Como hemos visto antes,

var [ Iniciar sesin L / ] = - MI[ MARIDO( )]. La recogida de los siete apariciones de (1 / nordeste[ MARIDO( )], obtenemos el resultado
familiarizado V ML = { - MI[ MARIDO( )]} - 1. [ Todos norte s cancelar y Var [ d] =
( 1 / norte)MARIDO(
)]. Tenga en cuenta que este resultado depende de manera crucial en el resultado Var [ Iniciar sesin L / ] =

- MI[ MARIDO( )].

25 El followingwill esbozar un conjunto de resultados relacionados con este problema de estimacin. Las referencias importantes sobre este tema son
de color blanco (1982a); Gourieroux, Monfort, y Trognon (1984); Huber (1967); y Amemiya (1985). Un trabajo reciente con una gran cantidad de
discusin sobre el tema es Mittelhammer et al. (2000). Las derivaciones en estas obras son complejas, y que slo se tratar de proporcionar una
introduccin intuitiva con el tema.
Greene-50240 libro 26 de de junio de, de 2002 15: 8

CAPTULO 17 Estimacin de mxima verosimilitud 519

El estimador de probabilidad mxima se obtiene mediante la maximizacin de la funcin de marido norte( Y,

X, ) = ( 1 / norte) norte sesin f (y yo , x yo , ). Esta funcin converge a sus expectationas norte .


i = 1 Iniciar

Dado que esta funcin es el logaritmo de la verosimilitud de la muestra, sino que tambin es el caso (no demostrado aqu) que, como norte
, alcanza su mximo nico en el verdadero vector de parmetros, .
(Utilizamos este resultado para demostrar la consistencia del estimador de mxima verosimilitud.) Desde Plim
marido norte( Y, X, ) = MI[ marido norte( Y, X, )], se deduce (intercambiando diferenciacin y
la operacin expectativa) que plim marido norte( Y, X, ) / = MI[ marido norte( Y, X, ) / ]. Pero, si esto

funcin alcanza su mximo a , entonces tiene que ser el caso de que plim marido norte( Y, X, ) /

= 0.
Un estimador que se obtiene mediante la maximizacin de una funcin de criterio se llama una METRO
estimador [Huber (1967)] o un estimador extremum [Amemiya (1985)]. Supongamos que obtenemos un estimador mediante la
maximizacin de alguna otra funcin, METRO norte( Y, X, ) que, aunque no es la funcin de probabilidad logartmica, tambin alcanza
su uniquemaximumat la verdadera como norte .
Entonces theprecedingargumentmight produceaconsistent distribucin estimatorwithaknownasymptotic. Por ejemplo,
el diario de probabilidad para un modelo de regresin lineal con perturbaciones normalmente distribuidas con diferente
varianzas, 2 yo , es
{-1 [ ]}
norte
yo ) 2
marido norte( Y, X, ) = 1
marido log (2 2 yo ) + ( y yo - x ' .
norte 2 2 yo
i=1

Al maximizar esta funcin, se obtiene el estimador de mxima verosimilitud. Pero tambin examinamos otro estimador
de mnimos cuadrados simples, lo que maximiza METRO norte( Y, X, ) =
- ( 1 / norte) norte
i=1( y yo - x ' yo ) 2. Como hemos demostrado anteriormente, los mnimos cuadrados es consistente y asymp-
totically distribuido normalmente incluso con esta extensin, por lo que cali fi ca como una METRO estimador del tipo que estamos
considerando aqu.
Nowconsider thegeneral caso. Supongamos thatweestimate funcin bymaximizingacriterion

norte
METRO norte( Y | X, ) = 1 Iniciar sesin g (y i | x yo , ).
norte
i=1

Supongamos tambin que Plim METRO norte( Y, X, ) = E [M norte( Y, X, )] y que, como norte , E [M norte( Y,
X, )] alcanza su mximo en el nico . Entonces, el argumento se utiliz anteriormente para el MLE, plim METRO norte( Y, X, ) / = MI[
METRO norte( Y, X, ) / ] = 0. Una vez ms, tenemos un conjunto de ecuaciones de momentos para la estimacin. Dejar
mi el estimador que maximiza METRO norte( Y, X, ).
A continuacin, el estimador se define por

METRO norte( Y, X, MI) norte Iniciar sesin g (y i | x


yo ,MI)
=1 E)
= metro( = 0.
mi norte mi
i=1

mi es un estimador GMM. Utilizando la notacin de nuestra discusin anterior, GRAMO(


Por lo tanto, MI) es
el grupo de accin simtrica de E [M norte( Y, X, )], que denotaremos (1 / nordeste[ MARIDO METRO( E)] =
METRO(
MARIDO MI). Procediendo
como lo hicimos anteriormente para obtener V ML, se encuentra que la matriz de covarianza asinttica
apropiado para el estimador de valor extremo sera
(1 )
VE=[ MARIDO METRO( )] - 1 [ MARIDO METRO( )] - 1
norte

dnde = Var [ Iniciar sesin g (y i | x yo , ) / ], y, como antes, la distribucin asinttica es normal.


Greene-50240 libro 26 de de junio de, de 2002 15: 8

520 CAPTULO 17 Estimacin de mxima verosimilitud

El grupo de accin en V mi puede ser fcilmente estimada mediante el uso de su contraparte emprica,

norte 2 Iniciar sesin g (y i | x yo, MI)



Est MARIDOMETRO(
E)] = 1
.
norte mi ' mi
i=1

Pero, sigue siendo Tobe especi fi, y es poco probable thatwewouldknowwhat funcin touse. La diferencia importante es que
en este caso, la variacin del vector primeros derivados fi no tiene por qu ser igual el grupo de accin, por lo V mi no simplifica.
Podemos, sin embargo, estimar consistentemente mediante el uso de la varianza de la muestra de los derivados de primeros,

[ ][ ]
norte Iniciar sesin g (y i | x )
yo , Iniciar sesin g (y i | x )
yo ,
=1 .
norte '
i=1

Si este fuera el estimador de mxima verosimilitud, a continuacin, sera el estimador BHHH que hemos utilizado en
varios puntos. Por ejemplo, para el estimador de mnimos cuadrados en el modelo de regresin lineal heteroscedastic, el
criterio es METRO norte( Y, X, ) = - ( 1 / norte) norte
i=1
( y yo - x ' yo ) 2, la solucion es b, G (b) = ( - 2 / norte) x ' X, y
norte norte
=1 [2 x yo ( y yo - x ' miyo2 x yo x yo
yo )] [ 2 x yo ( y yo - x ' yo )] '= 4 ' .
norte norte
i=1 i=1

Agrupando trminos, el 4s cancelan y se dejan precisamente con el estimador de Blanca (11-13)!

En este punto, tenemos en cuenta la motivacin de toda esta teora de peso. Una desventaja de estimacin de
mxima verosimilitud es su requisito de que la densidad de la variable aleatoria observada (s) sea completamente
especi fi. La discusin anterior sugiere que en algunas situaciones, podemos hacer un poco menor nmero de
hiptesis acerca de la distribucin de una especificacin completa requerira. El estimador de valor extremo es
robusto a algunos tipos de errores fi caciones. Un resultado til para emerger de esta derivacin es un estimador
para el covariancematrix asinttico de la extremumestimator que es robusto al menos en cierta catin fi misspeci. En
particular, si obtenemos
mi maximizando una funcin de criterio
que satisface la otros supuestos, entonces el estimador apropiado de la matriz de covarianza asinttica es

Est. V E = 1 MI)] - 1 (
MARIDO( MI)[ MARIDO(
MI)] - 1.
norte[

Si mi es el verdadero MLE, entonces V mi simpli fi ca a { - [ MARIDO( MI)]} - 1. En la literatura actual,


este estimador se ha llamado el estimador de sndwich. Hay una tendencia en la literatura actual para calcular este estimador
de forma rutinaria, independientemente de la funcin de verosimilitud. Vale la pena sealar que si el diario de probabilidad no es
especfico ed correctamente, entonces los estimadores de los parmetros son probable que sea inconsistente, a excepcin de
los casos como los que se seala ms adelante, la estimacin tan robusto de la matriz de covarianza asinttica puede ser
esfuerzo mal dirigido. Pero si la funcin de verosimilitud es correcta, entonces el estimador sandwich es innecesaria. Este
mtodo no es un parche general para modelos fi ed misspeci. No cada funcin de verosimilitud cali fi ca como un estimador
consistente extremum para los parmetros de inters en el modelo.

Uno podra preguntarse en este punto qu tan probable es que se cumplan las condiciones necesarias para que
todo esto funcione. Hay aplicaciones en la literatura en la que este mecanismo se ha utilizado que probablemente no
cumpla con estas condiciones, tales como el modelo Tobit del captulo 22. Hemos visto un caso importante. Mnimos
cuadrados en la generalizada
Greene-50240 libro 26 de de junio de, de 2002 15: 8

CAPTULO 17 Estimacin de mxima verosimilitud 521

modelo de regresin pasa la prueba. Otra aplicacin importante es modelos de heterogeneidad individual en los datos de
seccin transversal. La evidencia sugiere que los modelos simples suelen pasar por alto las fuentes no observados de
variacin entre individuos en las secciones transversales, como no medibles efectos de la familia en los estudios de ingresos
o empleo. Supongamos que el modelo correcto para una variable es h (y i | x yo , v yo , , ), dnde v yo es un trmino aleatorio que no
se observa y es un parmetro de la distribucin de v. La funcin correcta de probabilidad logartmica es

yo Iniciar sesin f (y i | x yo , , ) = yo Iniciar sesin v h (y i | x yo , v yo , , ) f ( v yo ) re v yo . Supongamos que maximizamos alguna otra funcin
seudo-log-verosimilitud, yo Iniciar sesin g (y i | x yo , ) y luego utilizar el sndwich
estimador para estimar la matriz de covarianza asinttica de . Es que esto produce una con-
sistente estimador del verdadero vector de parmetros? Sorprendentemente, a veces lo hace, a pesar de que ha
ignorado el parmetro de ruido, . Vimos un caso, en el modelo usingOLS gr con alteraciones heterocedsticos.
Inapropiadamente fi tting un modelo de Poisson cuando el modelo binomial negativo es correcta, vase la Seccin
21.9.3, es otro caso. Para algunas especificaciones, utilizando la funcin de probabilidad mal en el modelo probit con
datos de proporciones (Seccin 21.4.6) es un tercio. [Se sugieren estos dos ejemplos, con varios otros, por
Gourieroux, Monfort, y Trognon (1984).] Nosotros enfatizamos nuevamente que el estimador de sandwich, en y de s
mismo, no es necesariamente de cualquier virtud si la funcin de verosimilitud es misspeci fi ed y las dems
condiciones de la METRO estimador no se cumplen.

17.10 Resumen y conclusiones

En este captulo se presenta la teora y varias aplicaciones de estimacin de mxima verosimilitud, que es la tcnica
ms utilizada en la estimacin de la econometra despus de los mnimos cuadrados. Los estimadores de mxima
verosimilitud son consistentes, asintticamente distribuido normalmente, y e fi ciente entre estimadores que tienen
estas propiedades. El inconveniente de la tcnica es que requiere un completamente paramtrico, detallada
especificacin del proceso de generacin de datos. Como tal, es vulnerable a problemas misspeci fi cacin. El
siguiente captulo considera tcnicas de estimacin GMM que son menos paramtrico, pero ms robusto a la variacin
en el proceso de generacin de datos subyacente.

Trminos y conceptos clave

Asinttica e fi ciencia Identi fi cacin mnimos cuadrados no lineales


normalidad asinttica matriz de informacin producto externo de los gradientes
varianza asinttica Informacin de la igualdad de matriz estimador
estimador BHHH invariancia condiciones de regularidad
modelo Box-Cox jacobiano Resultado de prueba
restricciones de momentos prueba multiplicador de Lagrange frontera estocstica

condicionales ecuacin de probabilidad De dos pasos de mxima


Concentrado de probabilidad logartmica funcin de verosimilitud verosimilitud
Consistencia la desigualdad de probabilidades estadstico de Wald
Atestar er-Rao lmite inferior prueba de razn de verosimilitud prueba de Wald
E fi ciente puntuacin La informacin limitada de
parmetros estimables mxima verosimilitud
La informacin completa de mxima estimador de mxima

verosimilitud verosimilitud
Greene-50240 libro 26 de de junio de, de 2002 15: 8

522 CAPTULO 17 Estimacin de mxima verosimilitud

Ceremonias

1. Supongamos que la distribucin de x es f (x) = 1 / , 0 x . En el muestreo aleatorio


de esta distribucin, prueban que el mximo de la muestra es un estimador consistente de
. Nota: Se puede probar que el mximo es el estimador de mxima verosimilitud de
. Pero las propiedades habituales no se aplican aqu. Por qu no? [Indicacin: intentar verificar que la primera
derivada esperado del diario de probabilidad con respecto a es cero.]
2. En el muestreo aleatorio a partir de la distribucin exponencial f (x) = ( 1 / ) mi - x/ , x 0,
> 0, encontramos el estimador de mxima verosimilitud de y obtener la distribucin asinttica de este
estimador.
3. distribucin de la mezcla. Supongamos que la articulacin de la distribucinde los dos randomvariables
x y y es

f (x, y) = mi - ( + ) y ( y) x , , > 0, y 0, x = 0, 1, 2, . . . .
x!

a. Encuentra los estimadores de mxima verosimilitud de y y su articulacin asinttica


distribucin.
segundo. Encuentre el estimador de mxima verosimilitud de / (+ ) y su asinttica
distribucin.
do. Pruebalo f (x) es de la forma

f (x) = ( 1 - ) x, x = 0, 1, 2, . . . ,

y encontrar el estimador de mxima verosimilitud de y su distribucin asinttica.


re. Pruebalo f (y | x) es de la forma

f (y | x) = mi - y ( y) x , y 0, > 0.
x!

Pruebalo f (y | x) integra a 1. Encuentre el estimador de mxima verosimilitud de


y su distribucin asinttica. [Nota: En la distribucin condicional, simplemente llevar a la x s a lo largo de como
constantes.]
mi. Pruebalo

f (y) = mi - Y, y 0, > 0.

Encuentre el estimador de mxima verosimilitud de y su varianza asinttica.


F. Pruebalo

f (x | y) = e - y ( y) x , x = 0, 1, 2, . . . , > 0.
x!

Basado en esta distribucin, lo que es el estimador de mxima verosimilitud de ?


4. Supongamos que x tiene la distribucin de Weibull

f (x) = x - 1 mi - x , x 0, , > 0.

a. Obtener la funcin de log-verosimilitud para una muestra aleatoria de norte observaciones.


segundo. Obtener las ecuaciones de verosimilitud para la estimacin de mxima verosimilitud de y .
Tenga en cuenta que el primero ofrece una solucin explcita para en cuanto a los datos y
. Pero, despus de la insercin de este en la segunda, se obtiene solamente una solucin implcita de . Cmo
se obtienen los estimadores de mxima verosimilitud?
Greene-50240 libro 26 de de junio de, de 2002 15: 8

CAPTULO 17 Estimacin de mxima verosimilitud 523

do. Obtener la segunda matriz derivados de la probabilidad log-con respecto a y


. Las expectativas exactas de los elementos que entraan involucrar a las derivadas de la funcin gamma
y son bastante desordenado analticamente. Por supuesto, el resultado exacto proporciona un estimador
emprico. Cmo le estimar la matriz de covarianza asinttica para sus estimadores en la Parte B?

re. Pruebalo Cov [ln x, x ] = 1. [Nota: Los derivados primeros esperados de la


funcin de log-probabilidad son cero.]
5. Los siguientes datos fueron generados por la distribucin de Weibull de Ejercicio 4:

1.3043 0.49254 1.2742 1.4019 0.32556 0.29965 0.26423


1.0878 1.9461 0.47615 3.6454 0.15344 1.2357 0.96381
0.33453 1.1227 2.0296 1,2797 0.96080 2.0070

a. Obtener las estimaciones de mxima verosimilitud de y , y estimar el asymp-


matriz de covarianza Totic para las estimaciones.
segundo. Llevar a cabo una prueba de Wald de la hiptesis de que = 1.

do. Obtener la estimacin de mxima verosimilitud de bajo la hiptesis de que = 1.


re. Usando los resultados de las partes A y C, llevar acabo una prueba de relacin de probabilidad de que thehypothesis = 1.

mi. Llevar a cabo una prueba multiplicador de Lagrange de la hiptesis de que = 1.


6. ( Informacin limitada de estimacin de mxima verosimilitud). Considere un bivariante
la distribucin de x y y que es una funcin de dos parmetros, y . La densidad conjunta es f (x, y | , ). Consideramos
que la estimacin de mxima verosimilitud de los dos parmetros. La informacin completa estimador de mxima
verosimilitud es el ya conocido estimador de mxima verosimilitud de los dos parmetros. Ahora, supongamos que
podemos factorizar la distribucin conjunta como se hizo en el ejercicio 3, pero en este caso, tenemos

f (x, y | , ) = f (y | x, , ) f (x | ). Es decir, la densidad condicional para y es una funcin de dos parmetros,


pero la distribucin marginal de x implica solamente .
a. Anote la forma general de la funcin de probabilidad de registro utilizando la densidad conjunta.

segundo. Puesto que la densidad conjunta es igual al producto de los tiempos condicionales la marginales, la funcin de
probabilidad logartmica se puede escribir de forma equivalente en trminos de la densidad factorizada. Escribe, en trminos
generales.
do. el parmetro se puede estimar por s mismo utilizando slo los datos sobre x y el registro
probabilidad formado usando la densidad marginal para x. Tambin se puede estimar con
mediante el uso de la funcin de probabilidad logartmica completa y datos sobre ambos y y x. Mostrar esto.

re. Demostrar que el estimador de primera fi en la Parte C tiene una varianza asinttica mayor que la segunda.
Esta es la diferencia entre una informacin limitada estimador de mxima verosimilitud y una informacin
completa estimador de mxima verosimilitud.
mi. Demostrar que si 2 En f (y | x, , ) / = 0, entonces el resultado en la parte D ya no es
cierto.

7. Demostrar que la desigualdad de probabilidades en el teorema 17.3 se mantiene para la distribucin de Poisson se utiliza en la Seccin

17.3, mostrando que MI[( 1 / norte) En L ( | y)] est en uniquelymaximized = 0. Sugerencia: En primer lugar muestran que la

expectativa es - + 0 En - mi 0 [ En y yo !].

8. Demostrar que la desigualdad de probabilidades en el teorema 17.3 se mantiene para la distribucin normal.

9. Para el muestreo aleatorio a partir del modelo de regresin clsica en (17-3), reparametrizar la funcin de
probabilidad en trminos de = 1 / y = ( 1 / ) . Encontrar el mximo
Greene-50240 libro 26 de de junio de, de 2002 15: 8

524 CAPTULO 17 Estimacin de mxima verosimilitud

estimadores de probabilidad de y y obtener la matriz de covarianza asinttica de los estimadores de estos


parmetros.
10. Seccin 14.3.1 se presentan las estimaciones de una funcin de costos Cobb-Douglas a partir de datos de 1955 en Nerlove
theU.S. industria de la energa elctrica. actualizacin de este estudio de 1976 de Christensen andGreene utiliza datos de
1970 para esta industria. Los datos Christensen y Greene se dan en la Tabla F5.2. Estos datos han proporcionado una datos
de prueba estndar establecidas para la estimacin de las diferentes formas de las funciones de produccin y coste,
incluyendo el modelo de frontera estocstica examinado en el Ejemplo 17.5. Se ha sugerido que una explicacin para la
aparente hallazgo de las economas de escala en estos datos es que el ms pequeo fi rmswere ineficientes por otras
razones. La frontera estocstica podra permitir que uno de desenredar estos efectos. Utilizar estos datos para encajar un
costo frontera functionwhich incluye un trmino cuadrtico en la salida del registro, adems de la de los precios de los
factores lineales termand. A continuacin, examinar el estimado Jondrow et al. residuales para ver si en realidad hacen que
varan negativamente con la produccin, como se sugiere. (Esto requerir ya sea un poco de programacin de su parte o
software especializado. El modelo de frontera estocstica se ofrece como una opcin en TSP y LIMDEP. O bien, la funcin de
verosimilitud se puede programar con bastante facilidad para las ratas o Gauss. Tenga en cuenta, para una frontera de costos
como en contraposicin a una frontera de produccin, es necesario invertir el signo en el argumento de la

funcin.)
11. Considrese, el muestreo de una distribucin normal multivariante con vector medio
= ( 1, 2, . . . , METRO) y matriz de covarianza 2 YO. La funcin de probabilidad logartmica es

norte
En L = - Nuevo Mjico ln (2 ) - Nuevo Mjico ( y yo - ) '( y yo - ).
2 2 ln 2- 1 2 2
i=1

Muestran que las estimaciones de mxima verosimilitud de los parmetros son


METRO
y metro) 2 METRO 1 norte METRO
i=1 m=1( y estoy -
2 ML = norte
=1 ( y estoy - y metro) 2 = 1 metro.
2
Nuevo Mjico METRO norte METRO
m=1 i=1 m=1

Deducir la segunda matriz de derivados y muestran que la matriz de covarianza asinttica para los
estimadores de mxima verosimilitud es
{ - mi [ 2 En L ]} - 1 = [ 2 YO/ norte ]
0
.
' 0 2 4 / ( Nuevo Mjico)

Supongamos que deseamos probar la hiptesis de que themeans de la METRO distribuciones eran todos iguales a un
valor particular 0. Demostrar que el estadstico de Wald sera
) -1 )
2
W = ( y - 0 yo) '( y - 0 i), = ( norte
( y ( y
y - 0 yo) '( y - 0 yo),
norte yo s2

dnde y es el vector de medias de la muestra.

También podría gustarte