Documentos de Académico
Documentos de Profesional
Documentos de Cultura
TRD 78 PDF
TRD 78 PDF
NOTAS DE CLASES
TEORA ECONOMTRICA
Raimundo Soto*
Trabajo Docente N 78
* rsoto@faceapuc.cl
Indice
1. Introduccin.....................................................................................................................................1.1
2. Teora de Probabilidades................................................................................................................2.1
2.01 Nocin de Probabilidad.................................................................................................2.2
2.02 Axiomatizacin de las Probabilidades.........................................................................2.3
2.03 Variables Aleatorias........................................................................................................2.8
2.04 Momentos de una Distribucin.................................................................................2.14
2.05 Distribuciones Discretas de Uso Comn.................................................................2.17
2.06 Distribuciones Continuas de Uso Comn...............................................................2.19
2.07 Distribuciones Conjuntas............................................................................................2.22
2.08 Distribuciones Marginales...........................................................................................2.22
2.09 Distribuciones Condicionales.....................................................................................2.24
Apndice A: Ejercicios..........................................................................................................2.26
3. Elementos de Inferencia Estadstica...........................................................................................3.1
3.01 Modelo probabilstico, modelo muestral y modelo estadstico ...............................3.1
3.02 Estadsticos muestrales...................................................................................................3.5
3.03 Distribucin de la media muestral................................................................................3.5
3.04 Caractersticas deseables de los estimadores en muestra finita................................3.6
3.05 Lmite de Cramer-Rao.....................................................................................................3.8
3.06 Elementos de teora asinttica: convergencia.............................................................3.9
3.07 Elementos de teora asinttica: leyes dbiles de grandes nmeros.......................3.14
3.08 Elementos de teora asinttica: leyes fuertes de grandes nmeros........................3.18
3.09 Propiedades de los distintos tipos de convergencia.................................................3.20
3.10 Teoremas del lmite central..........................................................................................3.21
3.11 Distribucin asinttica..................................................................................................3.26
3.12 Estimacin asintticamente eficiente (mximo verosmil).....................................3.27
3.13 Tests de hiptesis...........................................................................................................3.32
3.14 Tres tests de hiptesis asintticamente equivalentes...............................................3.34
3.15 Test de hiptesis no anidadas......................................................................................3.35
3.16 Criterios informacionales..............................................................................................3.37
Apndice A: Ejercicios..........................................................................................................3.41
4. Modelo Clsico de Regresin Lineal...........................................................................................4.1
4.01 Lgica del modelo de regresin.....................................................................................4.2
4.02 Anlisis de los supuestos del modelo de regresin lineal..........................................4.2
4.03 Representacin grfica de la regresin lineal...............................................................4.7
4.04 Derivacin del estimador de mnimos cuadrados......................................................4.8
4.05 Propiedades del estimador de mnimos cuadrados en muestra finita...................4.12
4.06 Tests de hiptesis en el modelo multivariado...........................................................4.16
4.07 Tests de hiptesis y modelo restringido.....................................................................4.21
4.08 Propiedades del estimador de mnimos cuadrados en muestra grande................4.23
4.09 Transformaciones de estimadores: el mtodo Delta...............................................4.30
4.10 Prediccin........................................................................................................................4.30
4.11 Mtodo generalizado de momentos...........................................................................4.32
Apndice A: Ejercicios.........................................................................................................4.40
Captulo 1
Introduccin
Without data all you are is just another person with an opinion (Annimo)
Facts are stupid things (Ronald Reagan, 1978).
C. Sims, Macroeconomics and Methodology, Journal of Economic Perspectives, 10 (Winter): 105-120, 1996.
Desilusionado con la incapacidad del modelo de Ptolomeo (85-165) para describir la trayectoria de los
planetas, Copernico enunci su teora heliocntrica en 1543 pero sin proveer soporte emprico alguno. La
contribucin de Brahe fue hacer mediciones precisas del movimiento de los planetas que hicieron posible
a Kepler la modelacin del fenmeno. La superioridad del modelo de Kepler produjo fuerte agitacin
social pues la Iglesia la consider contraria a las Sagradas Escrituras. El 26 de febrero de 1615, el
cardenal jesuita Bellarmino inici el juicio contra Galileo e incluy los libros de Copernico De
revolutionibus, Kepler Mysterium cosmographicum, y Galileo Discorsi en el Indice de Libros Prohibidos
donde permanecieron hasta 1835.
1.2
non sunt multiplicanda praeter necessitatem, es decir, que los elementos de un modelo
no deben ser aumentados ms all de lo necesario. La simplicidad es un objetivo de la
modelacin.
Objetivamente, los economistas an no somos capaces de desarrollar teoras que
sean capaces de describir la enorme heterogeneidad de los fenmenos econmicos.
Recientemente, se ha desarrollado una lnea de investigacin sobre la pregunta de cules
son las formas, causas, y consecuencias de las complejidad de los sistemas econmicos.
Rosser (2004)3 clasifica la complejidad que enfrenta un agente econmico en tres reas
fundamentales. Primero, complejidad en la estructura dinmica y posiblemente no
lineal de los fenmenos econmicos, es decir, el hecho frecuente que una pequea
perturbacin en un sistema econmico tenga repercusiones y ramificaciones dinmicas
en la economa de gran impacto (p.e., un cambio en un precio clave de la economa como
la tasa de inters). Segundo, la complejidad lgica y computacional que enfrenta un
agente econmico al tomar una decisin cuando existe un gran nmero de mercados,
oferentes y demandantes. En particular la nocin de equilibrio de los modelos
econmicos es muy compleja: por ejemplo, un equilibrio Walrasiano le exige al agente
econmico la computacin de un nmero enorme de precios relativos, el equilibrio de
Nash exige una gran capacidad de anlisis lgico para anticipar las reacciones de los
otros jugadores frente a diferentes alternativas de decisin. Tercero, la complejidad en la
aprehensin del fenmeno econmico, es decir, el problema adicional al que el proceso
de aprehender la realidad econmica es, en s, tambin muy complejo y no puede ser
llevado a cabo sin costos excesivamente altos.
Al problema de la complejidad se le suman las restricciones que enfrenta el
anlisis econmico en trminos de informacin sobre los fenmenos de inters y sus
causas. Tradicionalmente las ciencias naturales le han otorgado poco valor al anlisis
probabilstico de los fenmenos. Ello se debe a que muchos de dichos fenmenos pueden
ser replicados en laboratorios bajo condiciones experimentales controladas. En la
mayora de los problemas econmicos no resulta factible realizar un anlisis
experimental en circunstancias absolutamente controladas. Por ejemplo, no es posible
pedirle a un grupo de individuos que vuelva a estudiar una carrera profesional para
estimar cmo habra sido su perfil de ingreso en estas nuevas circunstancias. En este
sentido, los economistas usamos los datos disponibles para inferir probabilsticamente la
capacidad de una teora para comprimir informacin pertinente sobre un determinado
ms fenmeno o la congruencia con la que lo hace. Algunas de las ramas de la fsica o la
qumica han adoptado recientemente el esquema metodolgico de la economa: por
ejemplo, la astronoma no cuenta salvo honrosas excepciones con muestras de
fenmenos de gravitacin universal, sino con un fenmeno nico. 4 La fsica subatmica
3
1.3
no puede observar directamente un fenmeno sino sus efectos, de los cuales debe inferir
la validez de una hiptesis terica. En ambos casos el anlisis es frecuentemente
probabilstico.
Es por estas razones complejidad del fenmeno y restricciones de informacin
que la economa se basa en el desarrollo y anlisis de modelos de comportamiento
validados empricamente mediante mtodos cuantitativos, en especial, los mtodos
economtricos que se discuten en lo siguientes captulos. 5 La modelacin economtrica
propiamente tal comienza de manera significativa a principios del siglo XX con los
trabajos de los fundadores de la disciplina (Galton, Pearson, Neyman, Fischer, Frisch,
etc.) que desarrollaron la base estadstica de gran parte de los tests bsicos que se usan
en la actualidad. Pero no fue si no hasta los aos 1950 que se masific el uso de modelos
economtricos como base del anlisis de polticas econmicas y para la verificacin de
diversos postulados tericos. El gran empuje de mediados del siglo XX proviene
principalmente del desarrollo de un fundamento terico slido para la econometra en
general y para los modelos economtricos de gran escala en particular. Estos ltimos se
beneficiaron de la aparicin de bases de datos adecuadas (p.e., cuentas nacionales) y de
una creciente capacidad de computacin. El xito de la econometra como base del
anlisis emprico es indudable. Ciertamente los modelos empricos cometern errores en
la descripcin de los fenmenos que nos interesa modelar; sin embargo, en este contexto
se aplica la clebre frase del padre de la computacin Charles Babbage (1791-1871)
Errors using inadequate data are much less than those using no data at all.
El diseo de modelos analticos y sus contrapartidas empricas son, en realidad,
dos caras de una ms moneda: el modo como avanza nuestro conocimiento es mediante
la continua contrastacin de teora y evidencia. En trminos pedaggicos, sin embargo,
en este libro nos ocuparemos principalmente de los modelos economtricos, los cuales
sern desarrollados sobre la base de una serie de supuestos que nos permitirn derivar
estimadores que cumplen con requisitos de calidad y los tests estadsticos asociados a
dichos estimadores. Luego invalidaremos de manera paulatina dichos supuestos para
estudiar qu efectos tiene una violacin de uno o ms supuestos sobre las caractersticas
de dichos estimadores.
El captulo 2 realiza una revisin de distintos elementos de probabilidades y
desarrolla con algn detalle el enfoque axiomtico de Kolmogorov (1933) 6 que es la base
de la estadstica moderna. Este enfoque ofrece una formalizacin axiomtica de la nocin
de probabilidad, cuyas ventajas radican en proveer una teora completa (todas las
Methodology, en Computer Architectures for Machine Perception, eds. V. Di Gesu & D. Tegolo, IEEE press
(2005).
5
The sciences do not try to explain, they hardly even try to interpret, they mainly make models. By a model is meant
a mathematical construct which, with the addition of certain verbal interpretations, describes observed phenomena.
The justification of such a mathematical construct is solely and precisely that it is expected to work . John von
Neumann.
Grundbegriffe der Wahrscheinlichkeitsrechnung, Ergebnisse der Mathematik und ihrer Grenzgebiete, J. Springer
eds. 1933.
1.4
proposiciones de la teora se derivan de los axiomas), no-redundante (ningn axioma
puede ser derivado de otros), y congruente. El objetivo es que el alumno tenga una
slida base de anlisis probabilstico y, ms importante an, que pueda conectar los
distintos componentes de la teora de probabilidades con los componentes bsicos del
anlisis economtrico: entre ellos, el experimento aleatorio, las funciones de distribucin
conjunta, condicional y marginal, y la nocin de la independencia entre variables
aleatorias. En particular, esta seccin busca que el estudiante entienda cmo los
econometristas enfrentan el problema de la complejidad del fenmeno que se desea
modelar.
El captulo 3 usa la estructura anterior para enfrentar el segundo problema del
anlisis economtrico: la limitacin de informacin. La principal adicin al modelo de
probabilidades desarrollado en el captulo 2 es la restriccin derivada del uso de
muestras estadsticas y la inevitable necesidad de usar mtodos de inferencia estadstica
para emitir juicios informados respecto de alguna hiptesis. El captulo busca que el
alumno entienda cmo se transforma la incertidumbre respecto de ms los resultados de
un experimento aleatorio en incertidumbre sobre los parmetros que caracterizan dicho
experimento, y cules son las ventajas y limitaciones de dicha transformacin.
Adicionalmente, se presenta la maquinaria de teora asinttica que ser fundamental en
el anlisis del modelo de regresin lineal del siguiente captulo.
El captulo 4 desarrolla el modelo de regresin lineal, que ha sido una de las
principales herramientas de anlisis emprico de los economistas en los ltimos 100 aos.
Este modelo, al que usualmente se le acopla el mtodo de mnimos cuadrados como
tcnica de parametrizacin, permite enfrentar un nmero muy grande de preguntas en
economa. A la vez, es suficientemente flexible como para permitir que, en caso que no se
cumplan alguno de los supuestos que le sustentan, se desarrollen estimadores
alternativos simples y poderosos. Las propiedades de los estimadores de la familia de
mnimos cuadrados deben ser estudiadas tanto en muestra pequea (finita) como grande
(infinita) para entender a cabalidad el papel de los supuestos del modelo. Igualmente, se
debe estudiar las propiedades de los tests que se construyen a partir de dichos
estimadores de mnimos cuadrados, para determinar ms su aplicabilidad en
circunstancias prcticas. Finalmente, la tcnica de mnimos cuadrados no es la nica
forma de parametrizar un modelo. En el captulo se estudian dos alternativas adicionales
de gran aplicacin prctica: el estimador de mxima verosimilitud y el mtodo
generalizado de momentos.
En el captulo 5 se estudian los problemas derivados de la violacin de los seis
supuestos sobre los cuales se desarroll el modelo de regresin lineal en el captulo
anterior. La lgica de operar es directa: en primer lugar se estudia el efecto de la
violacin sobre los estimadores de mnimos cuadrados y los diferentes tipos de tests. En
segundo lugar, propondremos, si es posible, alguna solucin, examinando el contexto en
el que dicha solucin es vlida. En tercer lugar, se discuten los sntomas que delatan la
violacin de un supuesto y se desarrollan test formales de deteccin. Por razones
1.5
pedaggicas, en este captulo se estudian los problemas de manera aislada, es decir,
afectando un supuesto a la vez.
El captulo 6 extiende la tecnologa anterior al rea de los modelos no lineales.
Esta es una literatura muy extensa y, posiblemente, aquella que se ha desarrollado con
mayor inters en los ltimos aos como resultado del veloz desarrollo de la
computacin. La gran mayora de los modelos no lineales se resuelven por medio de
mtodos de clculo numrico debido a que no existen formas cerradas que permitan
derivar expresiones matriciales simples para obtener los estimadores. En la primera
parte de este captulo se desarrolla el instrumental necesario para entender los mtodos
de optimizacin no lineal que se usan para la estimacin de modelos no lineales. En la
segunda parte se aplica dicho instrumental para derivar el estimador de mnimos
cuadrados no lineales y los tests asociados.
El captulo 7 presenta una introduccin a los modelos de datos de panel. Estos
mtodos combinan observaciones de corte transversal con observaciones de series de
tiempo. As, nos permiten responder preguntas que no pueden ser respondidas por
modelos de corte transversal o series de tiempo por separado, porque usan informacin
sobre una cohorte donde hay N individuos heterogneos a los que se les observa
repetidamente durante un periodo de tiempo T.
La literatura de la econometra se expande de manera vertiginosa. Por ello, no
tiene sentido intentar incluir un gran nmero de modelos, tests, estimadores y
algoritmos de solucin. Inevitablemente aparecern mejores modelos, tests ms precisos
y estimadores ms atractivos. El objetivo del libro es proveer al estudiante de una base
slida para entender las nuevas contribuciones que la econometra nos ofrece.
Captulo 2
Teora de Probabilidades1
Por qu necesitamos estudiar teora de probabilidades para analizar
observaciones o datos de la realidad? Por qu no nos contentamos con hacer
histogramas y usar medidas descriptivas? Supongamos que contamos con una muestra
de datos de un fenmeno de inters. Podemos hacer un grfico de frecuencias empricas
de los datos y derivar informacin til.
Figura 2.1
Inflacin mensual en Chile, 1960-2005
Probabilidad documentado por primera vez en francs en 1387 viene del latn probabilis y significa
que puede ser probado.
2.2
Def. 2.1:
P A =
NA
N
(2.1)
Esta definicin tiene dos problemas bastante obvios. Primero, se requiere que el
nmero de posibles resultados sea finito. Segundo, y ms importante, al usarse el
concepto de equiprobable la definicin de Laplace adolece de circularidad.
Por ello se necesita una definicin formal del concepto de probabilidad. Richard
von Mises (1919) sintetiza una primera solucin a los problemas anteriores, sealando
que la nocin de equiprobabilidad puede ser eliminada y, en su reemplazo, se puede
hablar de frecuencia emprica de los datos.4 Para que sta sea de aplicacin general, se
requerira:
lim N
NA
=P A
N
(2.2)
As, por ejemplo, la probabilidad que al lanzar una moneda salga cara no es
porque de dos posibles eventos, cara es uno de ellos sino porque al repetir el
experimento un nmero grande de veces se observa que cara sucede un 50% de los
casos.
Las limitaciones del enfoque frecuentista son tambin obvias. Entre ellas, qu
significa lmite cuando N tiende a infinito? Cmo generamos secuencias infinitas de
eventos? Qu hacemos cuando no es posible generar secuencias arbitrarias de datos de
un experimento?
2
3
4
"The probability of an Event is greater or less, according to the number of chances by which it may
happen, compared with the whole number of chances by which it may either happen or fail." The
Doctrine of Chances.
Thorie Analytique de Probabilits. Laplace expresa de forma sencilla el significado del clculo de
probabilidades: "En el fondo, la teora de probabilidades es slo sentido comn expresado con nmeros".
Grundlagen der Wahrscheinlichkeitsrechnung, Zeitschrift fr Angewandte Mathematik und Mechanik,
5:52-99.
2.3
Lo que se necesita es una teora de probabilidades con una slida base
matemtica. Ella no estuvo disponible sino hasta los aos 1930.
Def. 2.2:
I.
5
6
7
8
Con frecuencia se traduce errneamente la palabra consistency por consistencia. El trmino correcto
es congruencia (del Latn, coincidir), aunque el uso popular es inexacto como pasa con otras palabras
(p.e., sofisticado).
Grundbegriffe der Wahrscheinlichkeitsrechnung, Ergebnisse der Mathematik und ihrer Grenzgebiete, J. Springer
eds. 1933.
R. T. Cox, The Algebra of Probable Inference, Johns Hopkins University Press, Baltimore, MD, (1961).
El trmino aleatorio se populariz a raz del trabajo de Christiaan Huygens (De Ratiociniis in Ludo
Aleae, 1657) sobre el clculo de probabilidades en juegos de dados (aleae en latn). Aunque se considera
que este es el primer libro de probabilidades de la historia, hay un libro anterior de Girolamo Cardano
(Liber de Ludo Aleae, 1564) que est a mitad de camino entre manual de cmo apostar y libro de
probabilidades. Huygens fue adems un famoso astrnomo: descubri la luna ms grande de Saturno
Titn y sus anillos (en 1655) y la nebulosa de Orin (en 1656).
2.4
Def. 2.3:
Por ejemplo, el experimento que consiste en lanzar una moneda al aire dos veces
tiene como espacio muestral: { CC ,CS , SC , SS } . Los elementos CC, CS, SC, SS son los
eventos elementales.
Por otro lado, al examinar la condicin II notamos que el evento de inters no
tiene por qu ser nicamente referido a eventos elementales y podra ser una funcin de
ellos. Por ejemplo, el evento al menos una cara define el conjunto A1 ={ CC ,CS ,SC } ,
que no es un evento elemental.
En esta lgica de definir conjuntos ( A1 , los eventos elementales, etc.), resulta
natural incorporar los dos elementos clsicos de los conjuntos: el elemento vaco es en
este contexto el evento imposible (denotado por ), en tanto que el mismo conjunto S es
llamado el evento seguro.
Un tercer problema es la nocin de incertidumbre implcita en la definicin de .
Es directo asociar probabilidad con evento elemental y, si slo existieran stos, no sera
problema usar dicha asociacin. La existencia de eventos no elementales complica el
problema porque si A1 es un evento que ocurre con P A 1 , entonces A1 =S A 1
tambin ocurre con alguna probabilidad cuando ocurre A1 . De hecho si existen dos
eventos, A1 y A 2 , se deduce que A1 A 2 y A1 A 2 tambin ocurren. Entonces,
habr que imponer alguna estructura sobre dichas probabilidades con el fin que el
modelo matemtico sea congruente.
Una alternativa sera usar el conjunto de todos los posibles A i y todas sus
combinaciones y relaciones (es decir, el conjunto potencia de S). En el experimento de
lanzar la moneda dos veces ste incluira, aparte de los eventos elementales, eventos
tales como que salga al menos una cara, que no salgan dos sellos, etc. As, el
conjunto potencia de este experimento es:
(2.3)
2.5
No obstante, cuando S es infinito es posible observar incongruencias (p.e., suma
de probabilidades mayor que 1).9 As, debemos definir independientemente de S o, lo
que es lo mismo, debemos dotarlo de estructura matemtica.
Def. 2.4:
S (porque A A=S )
(porque S = )
A i entonces U i A i
Ejemplo,
S={A 1 , A 2 ,}
tal
que
A 1 A 2= i j
P A i =a 0 ,
entonces
P S = P Ai = a 1 .
i =1
i =1
10 Algebra viene del ttulo de un libro rabe Hisab al jabr wal muqbalah escrito en 825 por Abu Ja'far
Muhammad ibn Musa Al-Khwarizmi (de donde se deriva algoritmo). De acuerdo a In Kholsat alHish (Esencia de la Aritmtica) escrito por Beh Eddin en 1600. Al-Jabr significa posiblemente reunin
de partes quebradas (es decir, completacin), en tanto que al-Muqbalah significa reduccin o
balanceo. El ttulo se refiere a las operaciones de suma y resta necesarias para mantener balanceada una
ecuacin y resolverla.
11 Ver Probability Theory, S.R.S. Varadhan, Courant Lecture Notes #7, American Mathematical Society, 2001.
2.6
Def. 2.5:
axiomas:
Axioma 2: P S =1 .
P : [0, 1]
(2.4)
Def 2.6:
=1P A
PA
P =0
Si A1 A 2 P A 1 P A 2
P A 1 A 2=P A 1P A 2 P A1 A 2
A
A1, A2
2.7
2.8
(CC)
(CS)
(SC)
(SS)
(CC)
(CS)
(SC)
(SS)
(CS,SC,CC)
(CS,SC,SS)
(SS,CC)
S
0 1
P( )
X : S +
(2.5)
2.9
y asigna a cada elemento de S un valor en los reales positivos, x i . Grficamente, el
conjunto de eventos obtener sellos al lanzar dos monedas corresponde a:
Figura 2.3
(CC)
(CS)
(SC)
(SS)
0
X( )
La pregunta que nos preocupa es, obviamente, si esta variable aleatoria es capaz
de mantener la congruencia del anlisis de probabilidades al haber eliminado . La
respuesta, no muy sorprendentemente, es no. Las probabilidades fueron asignadas a
eventos en , en tanto que X asigna valores a elementos de S.
As el problema radica en cmo escoger X tal que al asignar valores de S en se
preserve el orden impuesto en , es decir, que preserve uniones, intersecciones y
complementos. Ello es equivalente a pensar en que la (imagen) inversa de X debe ser un
evento en . De esta manera, una variable aleatoria ser cualquier funcin que preserve
el ordenamiento de los eventos para un -lgebra determinado, usualmente el lgebra
de Borel, B
Def. 2.7:
Una variable aleatoria X es una funcin que toma valores reales y que
mapea de S a y que satisface la condicin que para cada conjunto de
Borel B B en , el conjunto X 1 B={ s : X s B ,s S } es un evento
en .
2.10
Algunas implicaciones importantes de la definicin anterior son:
X 1 Z
En trminos prcticos, este ltimo argumento sugiere que al estudiar una
variable aleatoria nos estamos concentrando en una parte (el -lgebra asociado) del
experimento completo .
Note que la variable aleatoria no es aleatoria en el sentido que la nocin de
probabilidad no entra en su definicin sino que se le asigna para completar el modelo
del experimento aleatorio. Y tampoco es una variable, sino que es una funcin de valor
real.
Como vemos, la definicin popular de variable aleatoria (p.e., Greene 15 usa
Funcin cuyo rango de valores es conocido ex-ante pero el valor que toma es slo conocido expost) esconde la verdadera naturaleza de la variable aleatoria, porque menoscaba el
concepto de funcin incluido en la definicin y enfatiza el de variable.
Recapitulando, una variable aleatoria X relativa a mapea S en un subconjunto
de la lnea de los reales. El espacio de Borel B en juega el papel que antes ocupaba .
14 Esto no es tan extrao: en un experimento en el que hay hombres y mujeres, el gnero es una variable
aleatoria. Pero si slo seleccionamos hombres o mujeres, el gnero ya no es una variable aleatoria.
15 Econometric Analysis, Prentice Hall, Tercera Edicin, 1997, p. 62.
2.11
Falta, por lo tanto, asignarle probabilidades a los elementos B de B , es decir, definir
una funcin:
P x :B [0,1]
tal que P x B =P X
B P s : X s B , s S para todo B en B.
Note que no es necesario definir todos los elementos de B, porque cada uno de
sus elementos puede ser escrito como un intervalo semi-cerrado del tipo (-,x]. As,
eligiendo los intervalos de manera adecuada, podemos construir fcilmente la funcin
de probabilidad de X. Por ejemplo, en el caso del lanzamiento de dos monedas descrito
en el Cuadro 2.1.
Cuadro 2.1
S
X1
X2
{C,C}
{C,S}
{S,C}
{S,S}
Px({1})=
Px({2})=
Px({0}{1})=
Px({0}{2})=
Px({1}{2})=
Px({0}{1}{2})=1
Px({0}{1})=0
Px({0}{2})=0
Px({1}{2})=0
Px({0}{1}{2})=0
[ ]
0
x 0
x 1
P x ( , x ] =
1 x 2
1
2 x
(2.6)
2.12
Recapitulando, empezamos con un experimento16 definido en el espacio de
probabilidades S , ,P y luego hemos definido la variable aleatoria X definida en
un espacio de probabilidades equivalente (, B , P x ). La ventaja de este ltimo es
que es ms fcil manejar elementos en la recta real que elementos en conjuntos
arbitrarios. Grficamente:
Figura 2.4
(CC)
(CS)
(SC)
(SS)
(CS,SC,CC)
(CS,SC,SS)
(SS,CC)
S
(CC)
(CS)
(SC)
(SS)
0 1
0 1
P( )
Px( )
P x ( ,x ]=F x F =F x
(2.7)
16 Tal vez el nfasis en la nocin de experimento pueda parecer exagerada. R.A. Fisher nos ofrece una
contundente visin de la importancia del diseo del experimento To call in the statistician after the
experiment is done may be no more than asking him to perform a postmortem examination: he may be able to say
what the experiment died of (Indian Statistical Congress, Sankhya, 1938).
2.13
y como los intervalos son ordenados, debemos exigir que F sea no decreciente,
continua y con mximo igual a 1. Es decir, limx F x =1 . Esta funcin es la que
llamamos funcin de distribucin:
Def. 2.8:
F x =P x ( , x ]=Pr X x x X
se llama Funcin de Distribucin de x y cumple:
F es no-decreciente
F =lim x F x =0
F =lim x F x =1
Variables aleatorias discretas (ej: robos): aquella cuyo rango + es, por
convencin, algn subconjunto del conjunto de los enteros.
Variables aleatorias continuas (ej: ingresos familiares): aquella para la cual su
funcin de distribucin F x es continua para todo x y existe una funcin
no-negativa f en la recta real tal que:
x
F x = f x dx
2.14
E[ x ]= x f x =x
(2.8)
E[ x ]= x f x dx=x
Note que la esperanza (media) no tiene que ser un valor que la variable aleatoria
puede tomar cuando sta es discreta. Por ejemplo considere el siguiente problema: usted
recibe $1 por cada punto que salga al tirar un dado numerado de 1 a 6 ($1 si sale 1, $2 si
sale 2, etc). cunto es lo ms que est dispuesto a pagar por jugar una vez? El valor
esperado del juego es, naturalmente, $3.5.
Otros descriptores comunes del valor central de una distribucin son la
mediana que es el valor del medio del rango de valores de la distribucin y se usa
principalmente cuando hay valores extremos, pues a diferencia de la esperanza no se ve
tan influida por stos. Cuando se trata de variables discretas ocasionalmente se usa la
moda, que es el valor que ocurre con mayor probabilidad. No tiene una aplicacin
interesante en variables continuas pues su definicin es arbitraria.
Ms all del valor esperado, se utiliza frecuentemente:
es decir, es el valor
17 En estricto rigor debisemos usar f(x) para variables aleatorias continuas y p(x) para discretas. Para evitar
un exceso de notacin, usaremos slo f(x) entendiendo la naturaleza de cada una dependiendo del
contexto que se trate.
18 Kurtosis, del griego kurtos, encorvado, curvo. Kurtosis fue usado por primera vez por Karl Pearson en
1905 en su trabajo "Das Fehlergesetz und seine Verallgemeinerungen durch Fechner und Pearson. A
Rejoinder," Biometrika, 4, 169-212. En ese trabajo se acu adems los trminos leptokurtica (lepto
significa flaco) para distribuciones concentradas alrededor de la media y con colas largas), platykurtica
(platy significa gordo), para distribuciones con colas flacas, y mesokurtica (colas normales).
2.15
Para describir la distribucin de una variable aleatoria resulta ms efectivo usar
los llamados momentos19 de la distribucin (esperanza, mediana, moda, varianza,
skewness, Kurtosis, etc.), los cuales pueden ser brutos o centrados. Un momento no
centrado de la distribucin de x tendr la forma genrica E[ x m ] en tanto que un
m
momento centrado es de la forma E[x x ] . Resulta natural preguntarse si existe
alguna forma de generar estos momentos de la distribucin. La funcin generatriz de
momentos provee una manera elegante de obtener los momentos de una distribucin:
Def. 2.9:
m t =E [e t ' x ]= e t ' x dF x
(2.9)
tx 2 tx 3
...]
2! 3!
t2
t3
=1tE [x ] E [x 2 ] E [x 3 ]...
2!
3!
(2.10)
ti
es un momento no-centrado de la distribucin
i!
19 Momento que fue utilizado inicialmente por Newton para designar el cambio infinitesimal de una
variable (De Quadraturaa Curvarum, 1704) fue introducido en estadstica por Pearson en 1893, en su
tratamiento de la media de la curva de frecuencia como el centro de gravedad entre la curva y el eje
horizontal (Asymmetrical Frequency Curves, Nature, October 26th, 1893).
2.16
m t =0
= E [x ]
t
2 m t =0
=E [x 2 ]
2
t
(2.11)
etc.
f x =
1
2
1x
(2.12)
m t = e tx f x dx = si t 0
1 si t =0
(2.13)
t =E [e it ' x ]
(2.14)
Se puede demostrar que dos variables aleatorias son idnticas si tienen igual
t . Para ilustrar el uso que se le da a este tipo de funcin, consideremos la
distribucin Normal:
2.17
f x =
1
e
2 2
x
2
2
(2.15)
x
2
2
dx
=e
2 2
it 1/ 2 t
1
e
2 2
x i t
2
2
dx
(2.16)
x i t
2
2
dx = 2 2 , por lo
t =e it 1 /2 t
(2.17)
x=1
P(x=1) = p
Fracaso
x=0
P(x=0) = (1-p)
2.18
las cuales se encuentra la distribucin (o descripcin) de los datos del experimento
anterior:
x
1x
f x = p 1 p
x =0,1
=0
en cualquier otro caso
(2.18)
f y = n p y 1 p n y
y
donde
(2.19)
n!
n =
.
y n y ! y !
Hay muchas otras distribuciones discretas tiles. Entre ellas est la descubierta
por Poisson en 1837 como el lmite de la binomial cuando n y p 0 , tal que np es
constante.22
e i
f x i ; =
xi !
(2.20)
21 Bernoulli gratuitamente asigna el descubrimiento de la binomial con exponente entero a Pascal. Newton
provee la descripcin para exponente racional pero no la prueba, que fue provista tiempo despus por
Euler. El nombre distribucin binomial fue acuado por G.U. Yule en An Introduction to the Theory of
Statistics (1911, p. 305).
22 S.D. Poisson (1781-1840) dijo: La vida es buena para slo dos cosas: descubrir matemticas y ensear
matemticas.
2.19
1 1
f z =
e
2
z E z
2
2
(2.21)
si z N ,2 x =
z
N 0,1
(2.22)
si x N 0,1 y=x 2 1
(2.23)
si x 1 1 y x 2 1 entonces y =x 1 x 2 2
(2.24)
23 De Moivre descubri en 1733 esta distribucin y la incluy en su libro The Doctrine of Chance de 1755.
Laplace extendi y generaliz este resultado en 1812 (Theorie Analytique de Probabilits), por lo que el
resultado se conoce como Teorema de De Moivre y Laplace.
24 El nombre de la distribucin normal parece haber sido acuado en los aos 1870 independientemente
por Charles S. Peirce (Report to the US Coast Guard, 1873), Wilhelm Lexis (Theorie der Massenerscheinungen
in der menschlichen Gesellschaft, 1877) y Francis Galton (Typical Laws of Heredity, 1877). De los tres, Galton
fue el ms influyente y populariz el nombre de curva normal a partir de su libro Natural Inheritence
(1889).
2.20
La distribucin F25
si y m y w n x =
y /m
F m , n
w /n
(2.25)
z
t n
w /n
(2.26)
La distribucion t de Student26
si z N 0,1 y w n x =
si X 1 y X 2 N 0,1 independientes , z =
X1
1
1
f z =
X2
1z 2
(2.27)
La distribucin logstica28
F z = 1e
z a 1
b
(2.28)
La Figura 2.5 seala la relacin que hay entre las distintas funciones de
distribucin.
2.21
Figura 2.5
2.22
P ax b ; c yd =
f x , y
a x b c yd
b d
= f x , y dxdy
a
(2.29)
f x x = f x , y
y
(2.30)
= f x , ydy
y
2.23
De la existencia de las distribuciones marginales se deriva el concepto de
independencia estadstica: Si la densidad conjunta es el producto de las marginales, las
variables son independientes. El siguiente ejemplo utiliza el concepto de independencia
estadstica de un modo interesante.
m x t =e
x t
m x y t =e
x t
2 2
x t
2
x t
2
m y t =e
yt
yt
2
yt
yt
2
=e
x y t
x y t
2
2.24
f x , y
. Para ello, definiremos primero la
f x x , y
PA({SA})=1
PA({CC})=
PA({CS})=
El conocimiento a-priori que ya sali una cara nos lleva del espacio de
probabilidad S , , P al espacio de probabilidad condicional S A , A ,P A .
Definiremos la probabilidad condicional como:
P A A 1=P A1 | A=
P A 1 A
P A
(2.31)
V [ y | x ]=E [ y 2 | x ] E [ y | x ]
Esta es la funcin cedstica.
(2.32)
2.25
De
E x [V y | x ]=V [ y ]V x [E y | x ]
(2.33)
R 2=
V x [E y | x ]
V [ y]
(2.34)
29 Nuevamente, Errors using inadequate data are much less than those using no data at all (C. Babbage).
2.26
Apndice A: Ejercicios
1. D un ejemplo de un experimento en economa que pueda ser descrito por una
distribucin normal, para las cuales usted estim su media y varianza. Justifique
cuidadosamente cada uno de sus pasos.
2. Usando la definicin de -lgebra asociado a S, demuestre que el evento seguro y
el evento imposible pertenecen al -lgebra asociado.
3. A la luz de la axiomatizacin de Kolmogorov de las probabilidades, critique la
siguiente definicin de variable aleatoria: Funcin cuyo rango de valores es conocido
ex-ante pero el valor que toma es slo conocido ex-post.
4. Identifique las principales limitaciones de las definiciones de probabilidad clsica
(de Moivre, 1718) y frecuentista (von Mises, 1919). Explique cmo el enfoque
axiomtico de probabilidades de Kolmogorov (1933) da cuenta de dichas
limitaciones.
5. En el ejemplo 2.3 del texto, es A ={SC ,CS } un -lgebra?
6. Use la siguiente distribucin conjunta f(x,y) para demostrar que aunque la
correlacin entre x e y es cero, no son independientes: f(-1,1)=f(0,0) = f(1,1) = .
7. Considere la distribucin conjunta Z(M1, IPC), donde M1 es el dinero y IPC un
ndice de precios. La distribucin marginal del dinero es normal con media x y
varianza unitaria, en tanto que la distribucin marginal del ndice de precios es
tambin normal con media y y varianza igual a . Use la funcin caracterstica
para encontrar la distribucin de Z, suponiendo que ambas variables son
independientes.
1
2.27
11. Suponga que tiene una muestra con 1.000 datos que provienen de una normal
con media y varianzas desconocidas ( y ). Suponga que un cuarto de los datos
es menos de 2 y que tres cuartos de ellos son menores a 4. Obtenga una expresin
para estimar y .
12. Si la funcin de densidad de y es y 2 1 y 3 para y definido entre 0 y 1: qu
nmero es y cul es la probabilidad de que y est entre 0 y ?
13. Considere el sorteo Kino30 (que excluye el super nmero) como un experimento
aleatorio sujeto a la siguiente regla: En la cartilla de juego, usted debe escoger 7
nmeros, que se eligen ambos de entre 30 alternativas. Si acierta a los 7 nmeros,
ya gan el pozo Kino. (Note que en cada sorteo se sacan 7 nmeros de 1 a 30 sin
reemplazo.)
14. Suponga que usted debe reorganizar el poder judicial creando un sistema de
incentivos que promueva eficiencia y ecuanimidad. Hay seis tipos de jueces
(honestos, deshonestos, ineptos, eficientes, flojos, trabajadores) y cada juez slo
tiene dos de estos atributos. Se desea estimar cuntos jueces deben ser
removidos. Considere que hay n jueces, pero usted slo puede estudiar dos
jueces cada da, los que permanecen incgnitos (muestra con reemplazo).
15. El psiclogo Tversky y sus colegas observan que cerca de 80% de las personas
preferirn la respuesta (a) a la siguiente pregunta: En un pueblo hay dos hospitales.
En el grande nacen unos 45 nios cada da; en el chico, 15. Aunque a nivel nacional la
proporcin de hombres es 50%, en cada hospital y en cualquier da dicha proporcin
puede ser ms o menos que 50%. Al final del ao, cul de los dos hospitales tendr el
mayor nmero de das en los que dicha proporcin es ms que 60%? (a) el hospital
grande, (b) el hospital chico,y (c) ninguno (el nmero de das ser igual). Puede usted
decir por qu la gente se equivoca tanto al responder?
30 I've heard that the government wants to put a tax on the mathematically ignorant. Funny, I thought
that's what the lottery was! Gallagher
Captulo 3
Elementos de Inferencia Estadstica
Es muy cierto que cuando no est en nuestro poder determinar lo que es verdadero,
debemos actuar de acuerdo a lo que es ms probable.
R. Descartes, Discurso del Mtodo, 1637
P s : X s( , x ] , s S = P x ( , x ]=F x
(3.1)
ella puede ser descrita de manera algebraica. Esto nos permite sustituir la incertidumbre
asociada al experimento por incertidumbre respecto de los parmetros que, dentro
de una familia de formas funcionales, identifican una funcin de densidad especfica a la
que denominamos f x , .
Inferir viende del latn inferre que significa causar o llevar en s. El sentido popular de extraer una
conclusin es probablemente del siglo 16.
3.2
Finalmente, definimos el modelo probabilstico ={ f x ; , } a la familia de
funciones paramtricas de probabilidad (p.e., normal, Poisson, etc.) que se usa para
describir las observaciones, x. Se presume que el vector de parmetros pertenece al
espacio de los parmetros (tpicamente un mltiplo de la recta real).
La intuicin es directa: dado un conjunto de observaciones, x, cuando se postula
un modelo probabilstico que las describa basado en una distribucin f x , , se ha
eliminado la incertidumbre respecto del verdadero mecanismo que genera los datos
(PGD), reemplazndola por incertidumbre respecto de la parametrizacin adecuada de
la funcin f x , .
El objetivo de la inferencia estadstica es precisamente identificar y hacer tests de
hiptesis sobre aquel * que, con algn criterio, sea elegido para que f x ,* describa
adecuadamente los datos. Para la inferencia se usarn datos de corte transversal, de
series de tiempo, o una combinacin de ambos tipos de datos que llamamos datos de
panel.
Note la importante diferencia entre la descripcin de datos y la inferencia
estadstica. La descripcin de las observaciones puede ser hecha por medio de funciones
de distribucin escogidas a su vez mediante el anlisis de la frecuencia de los datos. Por
su lado, la inferencia estadstica pretende identificar (aproximarse) el mecanismo que
genera los datos (y no los datos mismos). Es decir, el objetivo de la inferencia es hacer un
modelo general.
La inferencia estadstica parte de la base que existe un modelo probabilstico
Def. 3.1
Note que este significado est lejos del uso cotidiano de la palabra muestra, en
particular porque no se refiere a datos observados. De la definicin se deduce que una
muestra en el sentido coloquial una coleccin de nmeros en realidad corresponde a
una de las muchas posibles realizaciones del conjunto de variables aleatorias que
componen la muestra. La muestra es, entonces, un segundo experimento, diseado para
complementar el experimento descrito por el modelo probabilstico.
As, dado que la muestra es un conjunto de variables aleatorias, ella deber tener
una distribucin:
3.3
Def. 3.2
f {x 1 , x 2 , , x n }; f x ;
(3.2)
f x 1 , x 2 , , x n ; = f xi ; =[ f x i ; ]
(3.3)
i=1
3.4
Def. 3.4
un modelo probabilstico,
={ f x ; , }
un modelo muestral,
x= x 1 , x 2 , , x n
El hombre mejor dotado plantea mal el problema que no comprende, Fulcanelli, Las Moradas
Filosofales, 1929.
3.5
Def. 3.5
1
1
2
x i y la varianza muestral, Var [ x ]=
x i x ] . En trminos
n i
n1 i
generales, una parte sustancial del anlisis economtrico se realiza sobre la base de
estadsticos. Debido a que stos son funciones de variables aleatorias, deberemos derivar
sus distribuciones, cosa que usualmente no es fcil.
q m : X m
Def. 3.5'
m1
x =
1
x
n i i
(3.4)
entonces
E [ x ]=
1
n
i =
2
1
1
Var [ x ]= 2 Var [ x i ]= 2 2=
n
n
n i
i
(3.5)
3.6
Note que la varianza de la suma converge a cero cuando n . Este resultado
es intuitivo pues la media muestral tiene que converger a la media de la poblacin
cuando la informacin muestral se aproxima a la poblacin. Nte, adems, que estos
resultados no dependen de ningn supuesto de distribucin de las variables aleatorias x.
f
d =
E [ ]=
Estimador insesgado
posible
Menor V [ ]
Estimador eficiente
2]=Var []sesgo[ ]2
ECM =E [
(3.6)
= f x 1 , x 2 , , x n ;= f xi ;=[ f x ; ]
(3.7)
i=1
3.7
El estimador de mxima verosimilitud ser aquel * que hace mxima la
probabilidad que los datos provengan de f x , . Este estimador es formidable, en el
sentido que posee cuatro caractersticas importantes: es insesgado, es de varianza
mnima, es asintticamente normal y es invariante para transformaciones afines. Ms
adelante desarrollamos in extenso este estimador, estudiando sus propiedades y las
condiciones necesarias para su existencia.
Ejemplo:
Supongamos que los datos son tomados independientemente y
corresponden a robos de billeteras por mes en el campus San Joaqun. La
muestra X es: {2,0,3,4,1,3,0,2,3,4,3,5}. Si creemos que la distribucin de
probabilidades que mejor representa los datos es alguna de la familia de la
Poisson. Entonces:
f x i ; =
e ix
xi !
12
f x 1 , x 2 , , x 12 ; =
i =1
x
i
12
e e
=
xi !
xi
i=1
12
xi !
e 12 30
358,318,080
i=1
obtener =2,5
. Se debe comprobar que la segunda derivada sea negativa,
es un mximo.
para asegurar que
3.8
[ I n ] = E
2 ln L
2
] [
1
= E
ln L
]
2
(3.8)
2 log L
=
2
x i
i
n
2
(3.9)
Esta desigualdad fue obtenida independientemente por H. Cramr (1946 Mathematical Methods of
Statistics) y C. R. Rao (1945 Bull. Calcutta Math. Soc. 37, 81-91). L. J. Savage (Foundations of Statistics, 1954)
seala, no obstante, que M. Frchet (1943) y G. Darmois (1945) haban propuesto tentativamente el
nombre "desigualdad informacional para la misma ecuacin. Predeciblemente, slo los franceses usan
desigualdad de Frchet-Darmois-Cramr-Rao.
Note las diferencias entre ambas expresiones. Ms adelante mostramos por qu ambos parntesis son
iguales.
3.9
aleatorias en una sola variable aleatoria. Si no hay prdida de informacin en esa
reduccin, el estadstico efectivamente describe los datos de la muestra. Un estadstico
. es suficiente si al hacer inferencias sobre estamos indiferentes entre usar la
coleccin de variables aleatorias X o x . Obviamente preferimos x por ser de
menor dimensin que X. Ms formalmente, el teorema de factorizacin de NeymanFisher es:
Def. 3.6
Def. 3.7:
lim T a T =a a T a
(3.10)
El nombre de esta familia de teoremas fue acuado por George Polya (1887-1985) en "ber den zentralen
Grenzwertsatz der Wahrscheinlichkeitsrechnung und das Momentenproblem", (Mathematische Zeitschrift,
8 (1920), 171-181). Posiblemente, Polya us el trmino "Zentral" para indicar que su importancia es
central en el anlisis. No obstante, el trabajo de Polya es de tercera generacin. La primera generacin la
encabeza De Moivre en los aos 1730 cuando deriva la distribucin normal. La segunda generacin
corresponde a los trabajos sobre la distribucin normal del siglo 19 de Laplace, Poisson, Cauchy y otros.
La tercera generacin es aquella que encabeza Chebyshev y sus estudiantes Markov y Lyapounov.
3.10
Este tipo de convergencia no es el que nos interesa en estadstica; no es la
secuencia de valores o realizaciones de un experimento aleatorio sino la convergencia de
las probabilidades asociadas a la variable aleatoria. As, hay varios modos de
convergencia de inters para la modelacin economtrica. Ya nos hemos referido a dos
de ellos al revisar las distribuciones Bernoulli y Normal, que en s son dos lmites que
reflejan distintos modos de convergencia.
Bernouilli demostr que si S n es el nmero de ocurrencias de un evento A en n
intentos de un experimento aleatorio y p=P A es la probabilidad de ocurrencia de
A en cada intento, entonces para 0 :
lim n Pr
Sn
p =1
n
(3.11)
S n /n p
se acerca a 1 cuando
Prueba: Si las variables aleatorias siguen una Bernoulli, su suma sigue una Binomial:
P S n=r = n pr 1 pnr
r
entonces se cumple:
P S nnp n =
r np n
2
r
nr
n pr 1 pnr 1
r np n p 1 p
2 2
r
r
n r np n
1
1
= 2 2 E S n np2= 2 2 V S n
n
n
p
1
p
1
= 2 2 np1 p=
n
n 2
lim n Pr
Sn p
n
p1 p
n
z =
1 u
e
du
2
2
(3.12)
3.11
Estos dos teoremas proponen como veremos ms adelante distintos modos de
convergencia. Adems, tienen algunos supuestos que deben cumplirse y vale la pena
revisar antes de seguir avanzando:
1.
2.
La diferencia ms importante entre ambos teoremas, sin embargo, tiene que ver
con el tipo de convergencia implcita en cada una: mientras Bernoulli se concentra en
convergencia en probabilidad, De Moivre y Laplace usan el concepto de convergencia en
distribucin. En lo que sigue revisamos varias formas de convergencia.
Def. 3.8
lim n Pr x nx=1
{x n } ,
(3.13)
p
Def. 3.9
lim n F n x= F x
d
(3.14)
3.12
Figura 3.2
Convergencia en distribucin
N=500
N=250
N=100
N=50
Def. 3.10
lim n E x n x2=0
{x n } ,
(3.15)
lo que escribimos x n x .
Def. 3.11
Pr lim n x n= x=1
{x n } ,
(3.16)
a.s.
lo que escribimos x n x .6
Suponga que el espacio muestral S est definido en el intervalo [0,1] con distribucin uniforme. Suponga
n
la siguiente variable aleatoria X n s =s s y X s = s . Entonces, para todo S [ 0,1 ) , s n 0 cuando
n y Xn(s)X(s). Sin embargo, X n 1=2 para todo n y no converge a X(1). Como la convergencia
ocurre en [0,1) y P([0,1))=1, entonces XnX almost surely.
3.13
La relacin entre las distintas formas de convegencia puede sintetizarse en el
siguiente diagrama.
Teorema 1:
E x n 0 x n 0
Demostracin
E x 2n = x 2 dF n x
x 2 dF n x
x| x
x 2 dF n x 2 x 2 dF n x donde S= x | x 2 2
2
x| x
x
S
dF n x = dF n x dF n x =F n [ 1F n ]
=P x n P x n P x 2n
Entonces:
2
n
P x
E x 2n
2
Teorema 2:
xn x xn x
3.14
lim n Pr
Prueba:
Sn 1 n
p =1
n n i =1 i
(3.17)
it 2
it 3
2
,
2!
3! 3
xi
caracterstica
de
es
n
por
lo
x / n t =1
i
que
la
funcin
it
t 2
1
o1/n 2 . Entonces, la funcin caracterstica de
2 2
n
2! n
n
it
t 2
la suma 1/n xi es x / n t = 1
1
o 1/n 2 . Aplicando
2 2
n
2! n
i=1
i
it
t 2
1
o 1/n 2 . Pero
2 2
n
2! n
log 1z z
por lo tanto
n ,
se
puede
2
aproximar
t
o 1/n . Finalmente, tomando lmite tenemos
2! n 2
lim n log x /n t =it 1 . Esta es la funcin caracterstica de una
log x / n t = it 1
i
3.15
P. Chebyshev (1887)8 se di cuenta que, en realidad, no slo el supuesto 4 era
innecesario sino que el supuesto 2 tampoco ayudaba a obtener el resultado. Lo
importante es que se est comparando una suma de variables aleatorias con su media
(valor esperado).
Teo. de Chebyshev: Sea {x n } una secuencia de variables aleatorias con media y varianza
c y sean c y constantes, entonces para todo >0
lim n Pr
1
x 1 =1
n i=1 i n i=1 i
(3.18)
Para probar este teorema usamos la propiedad que las variables aleatorias x son
independientes. Por ello:
Var
1
1
c
x i = 2 i2
n i=1
n
n i=1
(3.19)
Prob[ x n ]
E [ xn ]
(3.20)
E [ x n ]=Prob[ x n ] E [ x n | x n ]Prob [ x n ] E [ x n | x n ]
(3.21)
debido a que x n no es negativo, entonces ambos trminos son no negativos. Por ello:
E [ x n ] Prob[ x n ] E [ x n | x n ]
8
(3.22)
Existen numerosas formas de escribir este nombre, derivadas del uso de Tc en vez de C, i en vez de y, y ff
en vez de v.
3.16
pero la esperanza condicional debe ser mayor o igual que por definicin, luego se
obtiene que E [ x n ] Pr [ x n ] . Ello prueba la desigualdad de Markov. Para probar la
desigualdad de Chebyshev simplemente usamos en x n c n en vez de x n y en vez de
.
Volviendo al teorema de Chebyshev,
n
Pr
2i
1
x 1 2
n i=1 i n i=1 i
i=1
(3.23)
c
n 2
lim n
n
n
c
1
1
=0
,
entonces
lim
Pr
x
=0
n
n 2
n i =1 i n i=1 i
(3.24)
1
2 . La prueba anterior slo
n i =1 i
Var
i=1
xi =
i =1
Var x i Cov x i , x j
(3.25)
i j
note que la doble suma de covarianzas es a lo ms del mismo orden que la varianza. Por
ello la condicin que se necesita cumplir es que Var x converja ms lento que 1/n 2
para que el teorema se sostenga. Por ello, el supuesto 3 no es crucial.
Teo. de Markov: Sea {x n } una secuencia de variables aleatorias tales que 1/n Var S n 0
,cuando n, entonces
lim n Pr
1
1
x i E x i =1
n i =1
n i=1
ber die freie quivalentz der geschlossenen Zpfe. Recueil Math. Moscu, 1935.
(3.26)
3.17
No obstante, un estudiante de Markov llamado A. Kinchine 10 not que en el caso
de variables aleatorias independientes e identicamente distribuidas, la condicin de
Markov tampoco era necesaria. Si las variables aleatorias son i.i.d., no es necesario poner
restriccin alguna sobre las varianzas.
Teo. de Kinchine: Sea {x n } una secuencia de variables aleatorias i.i.d., entonces la existencia
de E x i = es suficiente para garantizar que
Pr
1
x =1
n i=1 i
(3.27)
[ ]
[
S n E xi
i
0 , cuando n
(3.28)
n S n E x i
i
3.18
Pr lim n
Sn
= p =1
n
(3.29)
lim n Pr maxm n
[ ]
Sm
p =0
m
(3.30)
lim n Pr
Sn
p =1 , pero:
n
Sn
S
p max m n m p
n
m
(3.31)
por lo tanto si alguna funcin cumple (3.34) cumplira con LDGN, es decir,
a.s.
p
xn x xn x .
A. Kolmogorov reemplaza la condicin de Markov sobre las varianzas
n
V S n =
k =1
1
2 0 cuando n con una condicin ms fuerte:
2 i
n i=1
1
V x k
k2
(3.32)
3.19
lo que le permite probar la LFGN para el caso en que las variables son simplemente
aleatorias.
Pr lim n
1
n
i=1
x i E x i ] =0 =1
(3.33)
Este teorema se prueba igual que la LDGN, con la salvedad que en vez de usar la
desigualdad de Chebyshev se usa la desigualdad de Kolmogorov: Sean x 1 , x 2 , , x n
2
variables aleatorias independientes tales que V x i = i i , entonces para
cualquier 0 :
n
Pr max l k nS kE S k =
1
2i
2
i=1
(3.34)
k =1
Var X k
k
k =1
1
x 2 f x dx
2
k
(3.35)
lo que seala que, para tal caso, la existencia de la esperanza es una condicin necesaria
y suficiente para que se obtenga la LFGN.
Hemos visto algunas de las condiciones necesarias para la LDGN y LFGN. Qu
es lo que realmente se necesita? Para la LDGN se necesita la condicin de Markov y para
la LFGN se necesita la condicin de Kolmogorov y ambas se refieren a que se debe
restringir la V S n para que no crezca ms rpido que n2.13
La nomenclatura tpica es V S n =O n , donde O(.) significa orden de
probabilidad. Orden de probabilidad es un concepto til que viene en dos sabores: O(n)
y o(n). Suponga que existen dos secuencias de nmeros reales, a y b. La notacin
a n =O b n corresponde a a es al menos del orden de bn, en tanto que a n =o b n
corresponde a a es de un orden menor a bn. Formalmente,
13 Las series de tiempo integradas, que son la mayora en macroeconoma, no cumplen esta restriccin.
3.20
a n =O b n cuando n si lima
a n =o b n cuando n si lim a
por ejemplo,
1
1
=O
2n4
n
a n
K y K 0
bn
a n
=0
bn
(3.36)
y 2n 2 4=On 2 =on 3 .
plim x n y n =ab
plim x n y n =ab
plim x n / y n =a/ b
d
si b0
d
3.21
(3.37)
donde f y es una distribucin con media y varianza finitas. Ello nos permitira hacer
inferencias estadsticas sobre el estimador de . Esa es la lgica de los teoremas de
lmite central.
Antes de llegar ah, consideremos que, al igual que en el caso de las leyes de
grandes nmeros, no resulta difcil demostrar que el supuesto 2 (distribucin binomial)
no es necesario para el teorema de de Moivre y Laplace. Note que la contribucin de
estos matemticos fue descubrir la distribucin lmite para la distancia entre S n y
E S n ajustando por la desviacin estndar. Para ello usaron la distribucin binomial,
pero vamos a ver que es innecesario limitarse a la binomial, bastando imponer
adecuadamente restricciones en algunos de los momentos de la distribucin de
probabilidades.
Sea {x n : n 1} una secuencia de variables aleatorias con S n = x i. Los teoremas
de lmite central estudian la expresin en el lmite de:
Y n=
S n E S n
V S n
(3.38)
3.22
Teorema de Lmite Central de Lindeberg-Levy14
Sea {x n : n 1 } una secuencia de variables aleatorias extrada de cualquier f.d.p.
2
1
x , entonces
n i
n xn N [0, 2 ]
(3.39)
limn F n x =lim n P x n x =
1
e
2
1 2
u
2
(3.41)
du
Prueba:
itx
it
t 2 2
o1/n y
2! n
n
n
2 t 2
t
1
=1
o . Aplicando
recuerde que =0 , para obtener
2n
n
n
t2 2
logaritmo se obtiene log X / n t =n log 1
o1/n . Pero si
2! n
n , se puede aproximar log 1z z por lo tanto se deduce que
t 2 2
log X / n t =
o 1/n . Finalmente, tomando lmite cuando
2!
t 2 2
n
obtenemos
.
Por
ello,
lim n log X / n t =
2
t =
. Use la expansin x / n t =1
i
2 2
limn n t =e
t
2
3.23
Note que cuando normalizamos Sn por n obtuvimos convergencia en
probabilidad, en cambio cuando normalizamos por n obtuvimos convergencia en
distribucin. La razn es que la varianza de Sn crece a n , por lo que si normalizamos
por n sta se va a cero cuando n .
lim n max1 i n
i
=0 donde
=
n
B.
lim n F n y=lim n P Y n y=
2i
i =1
1
e
2
1 2
u
2
du
si y solo si:
lim n
1
xi2 dF i x =0
n i=1 x
i
(3.42)
1
xi 2 dF i x 2 Pr xi ci
n i=1 x
i=1
2
max 1 i n Pr xi
i
i
(3.43)
15 A. Lyapounov (1901) sugiri el siguiente teorema que, por ser ms restrictivo, fue superado por el
teorema de Lindeberg-Feller. Sea {X n : n 1} una secuencia de variables aleatorias independientes con
E X i = y V X i = i i y E X i2 ,
lim n
1
c
EX i 2 = 0 ,
2
i=1
n
0 .
Se define c n =
se cumple que
lim n F n y =
1
e
2
1 2
u
2
2
i
, entonces si
du . Note que se
3.24
es decir, que ninguna de las variables aleatorias domine la secuencia de sumas, o sea,
x ii
es suficientemente pequeo en relacin con la suma [S nE S n]/
n
i
cuando n . As, el TCL se refiere a los efectos sobre la distribucin de una suma de
que cada
no
tienen
efecto
alguno
sobre
el
n xnn N [0, 2 ]
(3.44)
(3.45)
n xn N [0,Q ]
Teorema de Lmite Central de Lindeberg-Feller multivariado
(3.46)
n x n n N [0, Q]
a.s.
3.25
Resulta difcil intuir lo que sealan estos teoremas de convergencia a una
distribucin normal. En particular, por cuanto en el anlisis se mezclan dos conceptos.
Por un lado, el tamao de muestra. Por otro lado, el nmero de veces que se repite el
experimento. Una manera fcil de ver el rol de cada elemento se presenta en la Figura
3.3. El experimento consiste en generar una muestra de T datos de una distribucin
uniforme definida en el intervalo [0,1] y luego computar la media muestral, z. El
experimento se repite en condiciones idnticas llamadas rplicas.
En los paneles superiores se presentan los resultados del experimento para 50
rplicas en tanto que en los paneles inferiores, se presentan los resultados para 1.000
rplicas. En los paneles de la izquierda se hace el experimento con un tamao de
muestra 100, en tanto que en los de la derecha el tamao de muestra es 1,000. Como
resulta evidente, la distribucin de la media muestral se aproxima a una normal cuando
el experimento se replica un nmero grande de veces, independiente del tamao de muestra.
Figura 3.3
Tamao de Muestra 100, Rplicas = 50
3.26
3.11
Distribucin asinttica
N [0, V ]
n
(3.47)
implica
d N [ , V /n ]
(3.51)
Figura 3.4
Distribucin exacta
Distribucin asinttica
3.27
| x i = f x i ,
(3.48)
i=1
log | x= log f x i ,
(3.49)
i =1
L | x
=0
(3.50)
3.28
No obstante, cuatro condiciones de regularidad resultan necesarias para que el
estimador sea vlido:
i f x i ,
i
existen (i=1,2,3).
logL x i ;
0 E
.
i log L x i ;
hi x
i
hi x dx K
hi x dx
donde
i =1,2
i2 y K no es funcin de .
L x 1 , , x n ; dx1 dx 2=1
(3.51)
por
, obtenemos:
L x i ; dx i=0
(3.52)
L x i ;
dx i =0
(3.53)
17 Este resultado se deriva del siguiente teorema de Leibniz, para el caso en que los lmites de integracin
no dependen de y, por lo tanto, los segundos dos trminos son cero:
U
F x ; dx
F x ;
F U
U
L
F L
3.29
multiplicando y dividiendo por L x i ; tenemos:
pero
L x i ; L x i ;
dx =0
L x i ; i
(3.54)
f x 1
log f x
=
. Entonces:
x f x
x
log L x i ;
L x i ; dx i=0
lo que implica E
(3.55)
log L x 1 , , x n ;
=0 .
log L x i ;
L xi ; dxi =0
(3.56)
2 log L x i ;
log L x i ; L x i ;
L x i ;dx i
dx i=0
'
(3.57)
es decir
2 log L x i ;
log L x i ; log L x i ;
L x i ; dx i
L x i ; dx i =0 (3.58)
'
] [
(3.59)
] [
(3.60)
2 log L x t ;
log L x i ;
E
Var
=0
'
de donde se desprende
log L x i ;
2 log L x t ;
V
=E
'
3.30
Un tercer resultado importante se deriva de suponer la existencia de un
estadstico x y ocupar la ecuacin (3.51) tal que
x L x t ; dx=E x
(3.61)
L xt ;
E x
dx=
(3.62)
Cov
log L x ;
log L x , E x
L x ; dx =E x
=
L x i ;
=0 . Entonces:
log L x ;
E x
, x =
(3.64)
Aplicamos
ahora
la
Cov x 1 , x 2 [ V x 1 V x 2 ] y obtenemos:
E x
log L x ,
V x V
pero V
(3.63)
log L x ,
desigualdad
Cauchy-Schwartz:
(3.65)
E x
V x I
(3.66)
3.31
finalmente:
V x
[ E x / ]
(3.67)
I n
Var x
1
.
I n
1. Consistencia:18
plim MV =
2. Normalidad asinttica:
2 log L
d
1
MV
.
N [ ,[ I ] ] donde I =E
'
3. Eficiencia Asinttica:
Rao.
4. Invarianza:
si = g entonces g MV es el estimador
mximo verosmil de .
Este estimador se puede extender al caso que las variables aleatorias no son
idnticamente distribuidas de manera directa, excepto que n I I n .
18 El concepto de consistencia fue desarrollado por R. A. Fisher en "On the Mathematical Foundations of
Theoretical Statistics", (Phil. Trans. R. Soc. 1922).
3.32
={ f x ; , }
x={x 1 , x 2 , , x n }
19 El testeo de hiptesis es tan viejo como el estudio de probabilidades. Sin embargo el trmino test de
hiptesis es relativamente moderno y no es consensual. El libro de R. A. Fisher Statistical Methods for
Research Workers de 1925 parece ser el primero en usar un test de hiptesis, aunque bajo el nombre de
test de significancia. El trmino test de hiptesis fue acuado por J. Neyman y E. S. Pearson en su
artculo "On the use and Interpretation of Certain Test Criteria for Purposes of Statistical Inference. Part
I" (Biometrika, 20 A, 175-240, 1928).
20 Hiptesis nula aparece en el libro de 1935 de Fisher The Design of Experiments, donde seala: "[W]e may
speak of this hypothesis as the 'null hypothesis,' and it should be noted that the null hypothesis is never proved or
established, but is possibly disproved, in the course of experimentation." (p. 19). En el lenguaje de Neyman y
Pearson, la hiptesis nula corresponde a la hiptesis probada, que ellos denotaban por H 0 . Neyman
reclam, con justicia, que el trmino hiptesis nula es vago y que "the original term 'hypothesis tested'
seems more descriptive" (First Course in Probability and Statistics, 1950, p. 259).
21 El trmino hiptesis alternativa se populariz a raz del trabajo de Neyman y Pearsons "On the Problem
of the Most Efficient Tests of Statistical Hypotheses" (Philosophical Transactions of the Royal Society of
London. Series A, 231 (1933), pp. 289-337). En ese artculo tambin se definen trminos tales como
hiptesis simple y compuesta, regin crtica, error tipo I y tamao del test.
3.33
Note que, puesto de esta forma, el test rechaza o no rechaza H 0 , pero no permite
aceptar la validez de una conjetura. 22 Adems, se rechaza o no se rechaza dado un
cierto nivel de probabilidad o confianza. Vale decir, cualquier conjetura puede ser
rechazada, basta con hacer el intervalo de confianza arbitrariamente grande o,
equivalentemente, haciendo C 0 arbitrariamente pequeo.
Como la base del testeo es la realizacin particular de la muestra de variables
aleatorias, es posible cometer errores:
Tipo I: Pr xC 0 ; =
Tipo II:
Pr xC 0 ; =
Un test ser ms potente que otro si tiene ms poder que otro para todo tamao.
Un test ser insesgado si su poder es mayor o igual que su tamao para todo .
22 Neyman y Pearson (1928) hablan de aceptar y rechazar hiptesis. Fisher nunca us el trmino rechazo
pero no tena objecin a su uso, sin embargo se opona vehementemente a aceptar una hiptesis.
3.34
MV y L max . Si el R
Al maximizar la funcin de verosimilitud obtenemos
MV , entonces recalcular la funcin de
hipottico es estadsticamente igual a
MV . Por
verosimilitud con R debiera producir un valor similar al computado usando
MV | x , para la cual se
ello el test estudia la distancia entre log R | x y log
conoce su distribucin asinttica:
d
2[log R | xlog MV | x ] m
2
(3.68)
Test de Wald23
A diferencia del caso anterior, el test de Wald se enfoca directamente en la
y el prejuicio R , bajo la premisa que dicha
distancia entre el parmetro estimado
distancia no debiese ser estadsticamente significativa si el prejuicio es correcto. Note
que este es el test t al cuadrado. Entonces:
1
R '
R m
(3.69)
Multiplicador de Lagrange
Este test llamado a veces efficient scores parte de la base que cuando se obtiene
el estimador mximo verosmil de , la primera derivada es cero. Si la primera
23 Tests of Statistical Hypotheses Concerning Several Parameters When the Number of Observations Is
Large Transactions of the American Mathematical Society, 54 (1943), 426-482.
3.35
derivada evaluada en R no difiere estadsticamente de cero, entonces la hiptesis nula
no es falsa.
LM =
LnL
' [ I ] LnL
m
1
= R
(3.70)
=R
Figura 3.5
Ln L
Ln LR
Razones
Verosimilitud
Ln L()
C()
Ln L()/
Lagrange
R
MV
Wald
Modelo 1:
Modelo 2:
y =x
y =z
(3.71)
3.36
En este caso se requiere hacer un test de la forma:
(3.72)
Resulta evidente que las hiptesis nula y alternativa no estn bien especificadas
(o anidadas) en el sentido que ellas no son mutuamente excluyentes. Se dice que el
modelo 1 y el modelo 2 son familias separadas dado que, para cualquier valor de , el
primero no puede ser arbitrariamente aproximado por el segundo mediante un proceso
lmite. Anlogamente, para cualquier , el modelo 2 no puede ser aproximado
arbitrariamente por el modelo 1. La verificacin de las hiptesis anteriores, por lo tanto,
no puede ser llevada a cabo mediante la teora de Neyman-Pearson, debido a que sta
requiere que los espacios paramtricos asociados de ambos modelos sean iguales
Davidson y McKinnon (1981) proponen el siguiente test.24 Sea el modelo:
y =x 1z
=x 1z
donde =1
(3.73)
La idea del test es que si el Modelo 2 est bien especificado, =1 . En caso contrario, el
Modelo 1 est bien especificado y =0 . Davidson y McKinnon probaron que el
estadstico que permite verificar la restriccin anterior se distribuye asintticamente
normal si H 0 es cierta. El test puede ser extendido de manera anloga para modelos no
lineales.
Note, sin embargo, que si los modelos 1 y 2 comparten algunos regresores, el
modelo propuesto en la ecuaciones (3.73) no est identificado, es decir, el parmetro
no puede ser obtenido de manera independiente de los otros parmetros y, por lo tanto,
no se puede hacer el test.
Una manera de solucionar el problema anterior es realizar una regresin auxiliar
para obtener un estimador
-por ejemplo, el de mxima verosimilitud o el de mnimos
cuadrados- y rehacer el test propuesto como:
y =x 1z
=x y
(3.74)
24 El origen de la idea de hiptesis no anidadas se remonta al ao 1962, con el trabajo desarrollado por D.
R. Cox Further Results on the Test of Separate of Families of Hypotheses, Journal of the Royal Statistical
Society B, 24:406-424 (1962), pero fue extendido por Davidson, R. y J. G. Mackinnon, Several Test of
Model Specification in the Presence of Alternative Hypotheses, Econometrica, 49:781-793 (1981).
3.37
Como se ve, el modelo de la ecuacin (3.74) anida ambas hiptesis de una manera
un tanto artificial. El test es llamado J-test. En muestras pequeas la estimacin por
mnimos cuadrados ordinarios no es adecuada ya que E
0 , de forma que
obtendramos estimaciones inconsistentes del estimador de . No obstante, en muestra
grandes, plim
=0 .
Note que si el primer modelo es el correcto,
tiende a cero y el test de la
hiptesis nula H 0 : =0 se distribuye asintticamente normal estndar. Por el
contrario, si el segundo modelo es el correcto, el estimador
converge en probabilidad
a 1 y su desviacin estndar tiende a cero, por lo que el test t tiende a infinito. As, el test
siempre rechaza la hiptesis nula cuando sta es falsa, porque el estadstico
eventualmente exceder cualquier crtico con probabilidad uno.
Evidentemente, se puede revertir el procedimiento y plantear el test inverso
haciendo:
y =x z 1
= x z
(3.75)
Tpicamente se realizan los tests (3.74) y (3.75). Por ello existen cuatro resultados
posible.
Se rechaza H 0 en (3.74)
Se rechaza H 0 en (3.75)
Se rechaza H 0 en (3.74) y en (3.75)
No se rechaza H 0 en (3.74) y en (3.75)
El J-test se aplica cuando los modelos son lineales. Si los modelos son no lineales,
entonces se usa un test similar llamado P-test. Adems, se ha supuesto que la variable
dependiente ha sido transformada de la misma manera en ambos modelos: McKinnon,
White y Davidson (1983) extienden el test para el caso en que las transformaciones
difieren entre modelos. La evidencia de Monte-Carlo seala que estos tests tienden a
sobre-rechazar un modelo correctamente especificado.
3.38
seleccin correcta, siempre que (1) alguno de los modelos contendientes sea el
verdadero modelo y (2) las variables explicativas sean no estocsticas (i.e. fijas en
muestras repetidas). Ambas condiciones son difciles de cumplir. 25
Usualmente utilizamos criterios de informacin para seleccionar modelos,
escogiendo aquel modelo M 1 , M 2 ,, M k que tenga un menor valor numrico. Los
criterios de informacin tienen la forma
c n k =2 ln Ln k /n k n/ n
(3.76)
Una pregunta pertinente es cules son las propiedades de estos criterios cuando
los modelos estn mal especificados. Obviamente, si se est comparando modelos, habr
algunos de ellos que esten mal especificados. En tal caso, k k 0 donde k 0 es el nmero
correcto de parmetros. Hay, entonces, dos casos: modelos subparametrizados (es decir,
mal especificados) y sobreparametrizados (es decir, bien especificados pero con exceso
de regresores).
Caso en que el modelo est subparametrizado k k 0
Para estudiar la consistencia de los criterios, estudiamos su comportamiento
cuando la muestra se vuelve infinita, es decir plim n c n k /nc n k 0 /n . Resulta
evidente que si el modelo est subparametrizado:
1
1
plim n log L n k plim n log L n k 0
n
n
(3.77)
25 Theil, H. "Specification Errors and the Estimation of Economic Relations." Review of International
Statistical Institute, 25:41-51, (1957)
26 El criterio de Akaike se deriva como un estimador de la distancia en informacin Kullback-Leibler
K M =E log f y | xlog f y| x , M entre la verdadera densidad y el modelo. Akaike, H. (1973):
Information theory and an extension of the maximum likelihood principle. In B. Petroc and F. Csake,
eds., Second International Symposium on Information Theory.
3.39
Adems, es directo demostrar que lim n n/n=0 en cualquiera de los
criterios.27 Entonces:
lim n P
[
[
2 log Ln k 0 k 0 n 2 log L n k k n
cn k 0 cn k
=lim n P
n
n
n
n
log L n k 0 log L n k 0.5 k 0k n
=limn P
n
n
=0
(3.78)
2 [ log L n k log Ln k 0 ] X k k 2k k
0
(3.79)
n [ c n k 0 c n k ] =2 [ log L n k log L n k 0 ] 2 k k 0 k k 2k k 0
0
(3.80)
por lo tanto,
lim n P [c n k 0 c n k ]=P [ X kk 2 k k 0 ]0
0
(3.81)
plim n
2[log L n k 0 log Ln k ]
=0
n
(3.82)
3.40
por lo que
plim n
n c n k 0 c n k
2 [log Ln k 0log cn k ]
= plim n
k 0k 1
n
n
(3.83)
as,
lim n P [c n k 0 c n k ]=0
(3.84)
esto, a su vez, implica que lim n P [ k k 0 ]=0 o lim n P [ k =k 0 ]=1 , por lo que
ambos criterios son consistentes.
3.41
Apndice A:
Ejercicios
1.
Suponga que n converge en distribucin a una normal estndar. A qu
distribucin converge ? plim = ? Si la muestra crece hasta tener el tamao de la
poblacin cual es la distribucin de ?
2.
7.
Para el Teorema Central del Lmite, una condicin indispensable es que ninguna
variable aleatoria de la secuencia que se est considerando domine a toda la secuencia
de variables aleatorias. Comente.
8.
Qu es el poder de un test? Qu es el tamao de un test? Cundo un test es
ms poderoso que otro? y cundo es consistente?
9.
Explique porqu se habla que la funcin de verosimilitud es una densidad y
describa a qu corresponde el estimador de mxima verosimilitud. Es el estimador de
mxima verosimilitud es mucho ms preciso que cualquier otro estimador lineal?
10.
Sea una muestra de n observaciones de y n Para cuales de las siguientes
distribuciones es posible derivar analticamente el estimador de mxima verosimilitud?
Encuentre el estimador de mxima verosimilitud, demuestre que ste es un mximo y
obtenga la varianza asinttica.
f y =
e y
!
f y = y 1 e y y 0 , 0
3.42
12.
Usted tiene dos secuencias: {x n } e { y n} definidas en el soporte [ , ] .
Considere las siguientes afirmaciones:
A
x n converge en distribucin a F z . .
y n converge en distribucin a F z . .
(A) (B)
2.
(C) (A)
3.
4.
13.
Cuando se hace un muestreo usando una distribucin normal N 0, 2
frecuentemente se usa el siguiente estimador insesgado de la varianza
n
xiE x 2 .
2
= i= 1
n1
24
.
n1
2 = 1 x i 2 .
(b) Considere el siguiente estimador alternativo:
n
i=1
3.43
obtenga un estimador mximo verosmil en este caso. Cules de las cuatro
caractersticas se mantienen?
(c) Suponga ahora que la muestra no se distribuye independientemente ni
idnticamente. Cules de las cuatro caractersticas se mantienen?
Captulo 4
Modelo Clsico de Regresin Lineal
En las secciones anteriores hemos definido el modelo estadstico como aquel que
incluye:
un modelo probabilstico,
un modelo muestral,
={ f x ; , }
x= X 1, X 2, ... X n
y i =i i
(4.1)
4.2
y i= f x i1 , xi2 , ... , x ik ; i
(4.2)
Lo que estudiaremos es una tcnica que nos permite seleccionar los parmetros
que relacionan los condicionantes o regresores x con la variable de inters
y . Existen otras herramientas para parametrizar la ecuacin (4.2), algunas de amplia
utilizacin en economa, que nosostros no vamos a estudiar en este curso por razones de
tiempo. Por ejemplo, los mtodos Bayesianos, no paramtricos, o semi no-paramtricos.
Estudiaremos varias dimensiones del modelo de regresin lineal, incluyendo
problemas de especificacin, problemas de estimacin de parmetros, testeo de hiptesis
sobre los parmetros, y uso del modelo estimado para hacer predicciones condicionales.
El modelo clsico de regresin lineal se basa en seis supuestos que vamos a
revisar a fondo antes de derivar estimadores y distribuciones.
1.
2.
3.
4.
Residuos esfricos
5.
Regresores no estocsticos
6.
Residuos normales.
Como veremos a lo largo de este captulo, los primeros tres supuestos nos
permiten obtener los estimadores de los parmetros, en tanto que los segundos tres
supuestos nos permiten hacer inferencias, tests y proyecciones.
El primo de Charles Darwin, Francis Galton fue el primero en desarrollar y utilizar regresiones en el
sentido moderno para describir de manera suscinta los resultados de sus estudios sobre herencia, en el
que descubri que las distintas generaciones tienden a parecerse ms a sus ancestros lejanos que a sus
padres (Typical Laws of Heredity, Nature, 15 (1877)). Galton llam a la regresin reversin, lo que
sugiere de mejor forma sus resultados. Su modelo fue extendido y mejorado por Karl Pearson y G. Udny
Yule, sobre la base de la distribucin normal multivariada. R.A. Fischer reformul el modelo de
regresin sobre la base del trabajo de Gauss que se refiere al mtodo de mtodo de mnimos cuadrados.
Websters Ninth New Collegiate Dictionary, Merriam-Webster Publishers, Spriengfield, MA. Pag 922.
4.3
Modelo lineal
Un modelo es lineal si podemos escribir la relacin entre x e y como:
y i= x ii
(4.3)
Y i= AK i Li
log Y i =logA log K i log Li
(4.4)
Note, sin embargo, que el modelo debe ser lineal en los parmetros, no en las
variables. Por ejemplo, los siguientes modelos no lineales en las variables son lineales en
los parmetros y pueden ser estimados mediante transformaciones simples de las
variables.
1
i
xi
y i= log xi i
y i=
(4.5)
y i=x i i
(4.6)
donde y es un vector con la variable de inters, x es una matriz con las variables que
describen el fenmeno y es un vector de perturbaciones aleatorias que denota la
distancia entre MGD y MGE. Escribimos la ecuacin (4.6) de manera explcita:
[ ][
x11 x 21
y1
1
2
y2 = x2 x2
yn
x 1n x 2n
][ ] [ ]
x 1j 1
1
j
x 2 2 2
n
x nj j
(4.7)
Para considerar la posibilidad que las variables aleatorias tengan media distinta
de cero, incluimos un vector de 1 en la primera columna.
4.4
[ ][
1 x1
y1
y 2 = 1 x 12
yn
1 x 1n
x1
x 22
x 2n
][ ] [ ]
x1 0
1
j
x 2 1 2
n
x nj j
(4.8)
y i=1 x 1i 2 x 2i 3 x 3i i
x 3i = x 2i i
1
2
y i=1 x i 2 x i 3 [ x 2i i ]i
y i=3 1 x 1i [23 ] x 2i 3 i i
(4.9)
El supuesto no es E [i | x i ]=0 .
4.5
E [ y | x ]=E [ x | x ]
= E [ x | x ]E [ | x ]
= x
(4.10)
Errores esfricos3
Para estudiar este supuesto es conveniente descomponerlo en dos partes.
(a)
Var [i | x ]= 2 es constante y, en particular, no depende de x . A esto se le llama
homocedasticidad.4 La funcin cedstica es la que describe la incertidumbre asociada a los
shocks o perturbaciones, . Homocedasticidad seala que dicha incertidumbre no
depende de haber observado una realizacin particular de x .
E [1 1 | x ] E [1 2 | x ]
E [' | x ]= E [2 1 | x] E [2 2 | x ]
E [n 1 | x ] E [n 2 | x ]
3
4
][
2
E [1 n | x ]
E [2 n | x ] = 0
... E [n n | x ]
0
0
2
0
0
(4.11)
"Like other occult techniques of divination, the statistical method has a private jargon deliberately
contrived to obscure its methods from non-practitioners." - G. O. Ashley
Los trminos hetero y homocedstico fueron acuados por Karl Pearson en 1905 ("On the general theory
of skew correlation and non-linear regression," Drapers' Company Res. Mem. Biometric Series). El trmino
se deriva del griego skedastos , que significa capaz de ser repartido de manera irregular.
4.6
De manera sinttica podemos escribir E [' | x ]= 2 I .
descomposicin de varianza se puede derivar la siguiente identidad:
V []=E x [ V [| x ] ]V x [ E [| x ]]
Aplicando
la
(4.12)
Regresores no estocsticos
Este supuesto seala que la nica fuente de incertidumbre en el modelo
estadstico est en la variable que se modela, y . Ms precisamente, en los parmetros
que describen la distribucin f y , condicional en x .
Otra manera intuitiva de entender este supuesto es observar que no se est
haciendo un modelo de los regresores. En ese sentido, los regresores son variables
controlables por el cientfico. Por ello, usualmente se dice que los regresores son fijos
en muestras repetidas, queriendo decir que si el cientfico quisiera repetir el
experimento sacar otra muestra, en nuestro caso la nica fuente de incertidumbre
sera el resultado del experimento, pero no la variacin de los condicionantes. Si los
regresores son controlables, entonces los supuestos anteriores son incondicionales.
Este supuesto no es demasiado costoso, como se deducir al estudiar las
distribuciones asintticas de los estimadores ms adelante.
Errores normales
Esto quiere decir que los errores, condicionales en x, se distribuyen con
distribucin normal. En particular,
i | x N [ 0, 2 I ]
(4.13)
4.7
x1
x2
y2
y1
Figura 4.2
La estocasticidad
P(u)
x1
y2
y1
x2
4.8
Nte varios elementos importantes. Primero, la forma de la distribucin en
trminos de dispersin es idntica para cualquier observacin de la variable aleatoria x
(supuesto 4). Segundo, las observaciones de y no tienen por qu coincidir con el valor
esperado de y condicional en x, basta con que estn en el rango de la distribucin.
Tercero, no hay incertidumbre respecto de cada observacin de x.
Finalmente, la regresin lineal describe la media condicional de y dado x , lo
que grficamente se ve como una recta (supuesto 1) que pasa por cada E [ y i | x ] , como
se ver en la Figura 4.3.
Figura 4.3
La regresin
P(u)
E y2 |x2 y2
E y1 |x1
X1
X2
y1
yi=xi
y i= x ii
Modelo muestral
y i= x i i
El trmino Mtodo de Cuadrados Mnimos fue acuado por Adrien Marie Legendre (1752-1833),
presentado en el apndice de su libro Nouvelles mthods pour la determination des orbite des comtes (1803).
Un tratamiento ms completo del mtodo apareci posteriormente en el libro de Gauss Theoria Motus
Corporum Coelestium in Sectionibus Conicis Solem Ambientium de 1809. La disputa por la paternidad del
mtodo surgi porque Gauss afirm que vena usndolo desde 1795.
4.9
un error particular, por lo que es conveniente usar la suma de errores. Como hay puntos
por arriba y abajo de la recta poblacional, entonces es necesario minimizar la suma de
errores al cuadrado.
i=1
2
i | 0
(4.14)
note que hemos usado el supuesto 1. En adelante omitimos el subndice i salvo que sea
confuso. El objetivo es minimizar la ecuacin (4.14) escogiendo adecuadamente , es
decir:
(4.15)
S 0
=2 x ' y2 x ' x 0=0
0
(4.16)
S 0
=2 x ' x
0 0 '
(4.17)
x ' x1 x ' y
=
(4.18)
4.10
Note que slo hemos usado los primeros tres supuestos, pero no los segundos
tres. Es decir, es posible obtener un estimador del parmetro an si no se cumplen estos
ltimos, porque ellos se refieren a la distribucin del estimador.
1.
2.
3.
4.
M = I x x ' x 1 x '
(4.19)
My= I x x ' x1 x ' y= y x x ' x 1 x ' y= yx =
(4.20)
Regresin particionada
Supongamos que la regresin tiene dos grupos de variables, x 1 y x 2 . Entonces,
las ecuaciones normales son:
x1 ' x1 x1' x2
x2 ' x1 x2' x2
][ ] [ ]
de lo cual obtenemos:
1
x 'y
= 1
2
x2' y
(4.21)
4.11
(4.22)
(4.23)
Bondad de ajuste7
El objetivo del anlisis de regresin es dar cuenta (explicar) de las variaciones de
y i y 2 .
i
1
n
(4.24)
Frisch, R. and Waugh, F., 1933, Partial time regressions as compared with individual trends,
Econometrica, 45, 939-53.
El trmino bondad de ajuste proviene de un artculo de Karl Pearson donde ya se expresan dudas respecto
de su utilidad: "The 'percentage error' in ordinate is, of course, only a rough test of the goodness of fit,
but I have used it in default of a better." Contributions to the Mathematical Theory of Evolution. II.
Skew Variation in Homogeneous Material, Philosophical Transactions of the Royal Society of London (1895)
Series A, 186, 343-414
4.12
por la regresin (SCE). El ltimo trmino corresponde a la suma de residuos al cuadrado
(SCR). Por ello, se define la bondad de ajuste como:
R 2=
SCE
SCR
'
=1
=1
SCT
SCT
y' M 0 y
(4.25)
R2 =1 ' /nk
y ' M 0 y/n1
(4.26)
(4.27)
4.13
']
V [ ]=E
[ E
[ ]
[ ]
1
=E [ x ' x x ' ' x x ' x 1]
= x ' x 1 x ' E [ ' ] x x ' x1
= 2 x ' x 1
(4.28)
(4.29)
V [ ]= 2 cc '
(4.30)
.
Definimos la distancia entre ambos estimadores como Dy=
Naturalmente se cumple que D=c x x1 x . Despejamos c y lo introducimos en la
ecuacin (4.30) para obtener:
V [ ]= 2 cc '
= 2 [ D x ' x 1 x ' ][ D x ' x1 x ' ]'
= 2 x ' x 1 2 DD '
(4.31)
4.14
(4.32)
(4.33)
V [ ]=E
x [ V [ | x ] ] V x [ E [ | x ]]
x ]]
=E x [ V [ |
2
=E x [ x ' x1 ]
(4.34)
| x N [ , 2 x ' x1 ]
(4.35)
4.15
Este resultado proviene del supuesto 6. Sin ste, no podramos hacer inferencia
alguna en este contexto. Cuando los regresores no son estocsticos, sa es exactamente la
distribucin del estimador. Cuando los regresores son estocsticos, esa es la distribucin
condicional del estimador.
Como se ha supuesto que la distribucin de los residuos es normal, la densidad
conjunta queda descrita por la siguiente funcin de verosimilitud:
f x i ; = [2 ]
2 1 /2
log L , 2 ; xi =
i / 2
= 2
n
2 2
e [' / 2 ]
2
(4.36)
n
1
log2 2
y i x i ' y ix i
2
22
1
= 2i
n i=1
2
(4.37)
=My=M x =M
(4.38)
(4.39)
4.16
(4.40)
1
2 =
2
nk i=1 i
(4.41)
R =q
(4.42)
4.17
r j ,1 1r j ,2 2 r j , k k =q j
(4.43)
donde los r son los elementos de R. Note que hay k parmetros y j ecuaciones (j<k).
Usaremos la estructura de la ecuacin (4.43) para derivar los distintos tipos de tests y,
posteriormente, sus distribuciones.
(4.44)
(4.45)
[
[ ]
R = 0,0,,1,0, 0
0,0,,0,1, 0
q=1
4
(4.46)
4.18
Supongamos que queremos testear si las siguientes hiptesis se cumplen
j =1 i y k = . Escogemos:
[
[]
R = 0,0,,1,1,0, 0
0,0,, 0,0,1,0
q=1
(4.47)
R q
Var R q
(4.48)
R q y se rechaza Ho. En la ecuacin (4.48) hay dos cosas que no conocemos: (1)
Var R q=Var
R
'
=R Var R
=R 2 x ' x 1 R '
= 2 R x ' x 1 R '
(4.49)
4.19
Estudiemos ahora la distribucin del test en la ecuacin (4.48). Note que R y q
son constantes. Por ello, el numerador es una funcin de los errores normales ( es una
combinacin lineal de errores) y por lo tanto es N 0, 2 R x ' x 1 R ' . Pero, estamos
2
1
dividiendo por R x ' x R ' , es decir, la distribucin es N(0,1).
Como usualmente la varianza de los errores es desconocida, usamos el estimador
de sta y, por lo tanto, estamos dividiendo por algo que es estocstico. Pareciera que
obtener la distribucin es algo directo. El problema es que queremos la distribucin de la
razn y no la distribucin del numerador y del denominador por separado. Excepto que
stos sean independientes.
1
=x ' x x ' .
Note que
i ' i = i ' M i .
z k=
kk
S kk
N 0,1
(4.50)
(4.51)
kk
4.20
k k / 2 S kk pero queremos k k /
2 S kk . Luego tenemos que multiplicar y
dividir por 2 . Reacomodando los trminos queda:
k k / 2 S kk
2
2
/
(4.52)
'
2
nk = ' =' M
nk
(4.53)
2 ' M
nk 2 =
[] []
'M
(4.54)
Note que se distribuye normal con media cero, por lo que / es N(0,1) y la
ecuacin (4.54) es el cuadrado de una normal estndar, por lo que se distribuye . Los
grados de libertad son el rango de M que es (n-k). As es que tenemos una N(0,1)
dividido por una . Si queremos el test t debemos ajustar el denominador por los
grados de libertad.
Cuando se trata de una hiptesis compleja, usamos directamente el test de Wald
de la siguiente forma:
1
[R q
]' 2 R x ' x 1 R ' [R q
] 2J
(4.55)
la distribucin es ms bien obvia. Obtener los grados de libertad del test (J) se deja de
ejercicio.
2
[R q
]' R x ' x 1 R ' [R q
]/ J
F J ,nk
' /nk
(4.56)
4.21
q y se
La intuicin es de nuevo directa. Si R q
es grande entonces R
rechaza Ho.
Si llamamos '
entonces:
' =* ' *
' * ' *
= yx
*
*
= yx
(4.57)
Por lo tanto:
*=x x * =x *
(4.58)
de lo que se desprende
(4.59)
4.22
*
. Para
Si queremos entender la ecuacin anterior tenemos que estudiar
*
ello, vamos a pensar de nuevo en el problema de optimizacin. Vamos a buscar tal
que sea ptimo bajo H 0 . Es decir,
y x
sujeto a H 0 :R =q
min y x '
(4.60)
formamos el Lagrangeano,
yx 2
= y x '
R q
(4.61)
derivando, obtenemos
=2R q
=0
(4.62)
*
de la primera ecuacin normal obtenemos . Premultiplicamos por R x ' x 1 y
obtenemos:
(4.63)
=[ R x ' x 1 R ' ]
R *q
(4.64)
* =
(4.65)
= ' R q
' x ' x R q
(4.66)
4.23
(4.67)
Por ello, el test F que usamos para evaluar hiptesis complejas puede ser escrito
como:
[ * ' * ' ] / J F
' /nk
[ ]
J
nk
(4.68)
y i y 2
obtenemos:
i=1
[ R 2R2* ] / J
2
1R /nk
[ nkJ ]
(4.69)
lo que no es de extraar por cuanto existe una relacin directa entre estimadores de
parmetros y bondad de ajuste. Recuerde que el estimador minimiza la SRC y la bondad
2
SRC
.
SCT
4.24
Vamos a suponer que lim n
1
x ' x=Q pos. def.
n
=
x' x
n
][ ]
1
x'
n
(4.70)
plim =
Q1 plim
[ ]
1
x'
n
(4.71)
Para encontrar plim del segundo trmino, definimos una variable auxiliar w:
1
1
1
x ' = x i i = w i = w
n
n i
n i
(4.72)
1
1
E [w i ]= x i E[ i ]=0 .
n i
n i
Tomemos
E[ w ]=
Tomemos
1
1 2 x ' x
.
V [w ]=E [w w ' ]= x ' E [' ] x =
n
n n n
As, limn V [ w
]=0Q=0
Por lo tanto,
plim1/n x ' =0 , y
.
Es
decir,
el
estimador
de
mnimos
cuadrados
es
plim =
consistente.
El supuesto plim 1/n x x = Q es, en realidad, demasiado restrictivo. Las
siguientes condiciones llamadas condiciones de Grenander son menos restrictivas
pero suficientes.
4.25
lim n
x 2ik
=0 (ninguna observacin domina la varianza promedio y, por lo
xk' xk
n =
1
x' x
n
][
1
x'
n
(4.73)
[ ]
x' x
n
=Q
1
x ' = n w
E w
n
(4.74)
n w .
V [ x i i ]= xi ' x i= Qi
(4.75)
4.26
por lo que
1
V [ n w ]= 2 Q = 2 [ Q 1 Q n ]
n
1
x'x
= 2 x i ' x i = 2
n i
n
(4.76)
(4.77)
naturalmente,
Q 1
d
1
x ' N [ 0, Q 1 2 Q Q1]
n
(4.78)
Entonces,
d
N [ 0, Q 1 2 Q Q 1 ]
n
(4.79)
Finalmente,
d
1
N ,
Q
n
(4.80)
4.27
El estimador de la varianza de los errores
2
1
' M
nk
1
=
' ' x x ' x 1 x ' ]
[
nk
2=
'
' x
n
nk n
n
x ' x 1
n
(4.81)
]
x'
n
Obviamente,
2.
x' x
n
= Q
Test t.
Test F.
F=
* ' * ' / J R q
' [R 2 x ' x 1 R ' ]1 R q
=
' /nk
J
(4.82)
4.28
Pero, =x
' x 1 x ' . Por lo tanto,
' x x ' x 1 R ' [R x ' x 1 R ' ]1 R x ' x 1 x ' / J
F=
' M /nk
(4.83)
Sea L =x x ' x 1 R ' [R x ' x 1 R ' ]1 R x ' x 1 x ' , entonces la ecuacin (4.83)
es:
F=
' L / J
/ ' L / / J
=
' M /nk [ ' M /nk ]/ 2
(4.84)
JF =
/ ' L /
[' M /nk ]/
2 tr L = J
(4.85)
2
1
N [0, Q ]
n
y H 0 : R q=0
es cierta, entonces:
d
2
1
1
2
W =R q
' [ R x ' x R ' ] R q
= JF J
(4.86)
4.29
Figura 4.5
Regresin con regresores estocsticos
P(u)
E y 2|x2 y2
E y 1|x 1
X1
X2
y1
yi=xi
plim
1
x ' x= Q
n
(4.87)
tk|x=
kk
x ' x
1
kk
(4.88)
4.30
C=
f
'
(4.89)
plim C =
.
f
f
=
(4.90)
2 1
f N f ,
Q '
n
(4.91)
=C 2 x ' x 1 C ' .
con EVA f
4.10 Prediccin8
e f = y 0 y =x 0 0
(4.92)
"Those who have knowledge, don't predict. Those who predict, don't have knowledge." Lao Tzu.
4.31
Var [ f ]=Var [x 0
]
2
0
= Var [ x ]
k
1
= [1 x 0j x j x 0b x b x ' M 0 x jb ]
n j =2 b =2
(4.93)
ECM =
1
y i yi 2
n0
(4.94)
EAM =
1
y y i
n0 i
(4.95)
U=
1
1
y i y i 2 / y 2i
n0
n0
(4.96)
4.32
y i
1
2
2
y i y i = y s y s y 21r s y s y
n0
n0
(4.97)
y i
y
n0
1
y i y i 2
n0
s y s y 2
Esta es una medida de sesgo, porque nos dice que tan lejos est la
media de la prediccin de la verdadera media de la variable
1
yi y i 2
n0
21r s y s y
1
y y i 2
n0 i
4.11
4.33
estadgrafos dependen de los parmetros que caracterizan la distribucin de
probabilidades del fenmeno. Por ejemplo, si tenemos una muestra de una distribucin
, sabemos que la esperanza y varianza estn relacionadas a los parmetros de la
distribucin p , q de la siguiente manera:
E [ x t ]=
p
q
E [ x t E [x t ]2 ]=
p
q2
(4.98)
entonces las condiciones sobre los momentos seran una funcin de tipo E [ f x ,] =0 ,
es decir,
p
E [ x t ] =0
q
p
2
E [ x t E[ x t ] ] 2 =0
q
(4.99)
(4.100)
E [ x i i ] =Ex [ E [x i i | x i ]] =E x [ x i E [i | x i ] ]=0
(4.101)
E [ x i y i x i * ]=0
(4.102)
4.34
parmetros que se quiere estimar el problema tiene solucin (el ltimo caso se llama
sobreidentificado).
Una manera alternativa de entender este tema de la sobreidentificacin es
considerar el modelo de regresin:
y i =x 1i 1x 2i 2 i
E[ x i , i ]=0
(4.103)
E [ g y ,z , x ,0 ]=0
(4.104)
4.35
n
1
f n = f x i ,
n i=1
(4.105)
1
N
[ x i y i x i * ]=0
(4.106)
i =1
de donde se desprende:
1 N
i =1
xi' xi
i=1
(4.107)
xi ' yi
i=1
i =1
1
1
gn = z i y i x i = z ' yz ' x
n
n
(4.108)
J n =n g n ' W n g n
(4.109)
esta es una medida de distancia del vector gn . Lo que hace el estimador MGM es
minimizar la ecuacin (4.109). Definimos:
GMM =argmin J n
(4.110)
4.36
J n
gn ' W n gn
=2
1
1
=2 z ' x W n x ' y z
n
n
0=
(4.111)
de donde se desprende:
(4.112)
y por lo tanto:
(4.113)
Note que el estimador MGM depende de W n pero slo como factor de escala, es
decir, si usamos cW n para c 0 , el estimador no cambia.
f x i ,
obedece
p
f n x i , g n 0
la
ley
dbil
de
los
grandes
nmeros.
Es
decir,
4.37
p
(4.114)
Q n Q n 0
1.
p
F 0
2. Para toda secuencia donde se cumple que , se cumple que F n
n
3.
f x i ,
satisface
el
teorema
del
lmite
d
donde V n =n Var f n 0 .
V
n n f n 0 N 0, I
central,
es
decir,
Con estos seis supuestos es posible demostrar que el estimador MGM tiene
distribucin asinttica normal:
[ F n n ' W n V n W n F n n ] [ F n n ' W n F n n ] n n * N 0, I
(4.115)
1 g y gn *= g i gn
gn = gn =
n i=1 i
(4.116)
Entonces se define:
1
W n = g *i g *i
n i =1
1
= g i g i ' gn gn '
n i=1
(4.117)
4.38
1
J n =n gn ' g *i g *i ' W n gn
n i =1
(4.118)
E[ g i ]=0 .
(4.119)
este es llamado el test de Sargan-Hansen. Los grados de libertad del test corresponden al
nmero de restricciones impuestas en la sobreidentificacin.
Tests de hiptesis
1
g g ' . El problema es que este estimador de
n i =1 i i
momentos no centrados no garantiza que E [x ]=0 , lo que produce un estimador sesgado y reduce el
poder de los tests. Verifique que tipo de estimador usa su programa economtrico.
14 Ver Hansen, L.P., Heaton, J. and Yaron, A. (1996), Finite Sample Properties of Some Alternative GMM
Estimators, Journal of Business and Economic Statistics, 14:262-280.
4.39
Como se puede ver el test anterior testea la estructura completa del modelo. Para
hacer tests de hiptesis ocupamos directamente la lgica de testear un modelo
restringido versus uno que no lo est. El procedimiento es directo:
H 0 : h =0
es J n =n
g n W n gn . Por otro lado, el criterio del estimador MGM
g n W n gn .
restringido es es J n | h =0=n
Un punto importante de hacer notar que h no tiene por qu ser lineal, lo que
es una ventaja desde el punto de vista de la flexibilidad del anlisis. Por otro lado, si las
hiptesis fuesen lineales, el test de restricciones de identificacin corresponde al test de
Wald.
4.40
Apndice A:
Ejercicios
1. En una regresin lineal las variables del lado derecho son independientes, las columnas
de la matriz x son independientes y los errores se distribuyen independientementes." En
la frase anterior se us la palabra "independiente" en tres distintos sentidos.
Explique cada uno de los usos de ella y discuta que papel juegan dichos
conceptos en la teoria clsica de estimacin de modelos lineales.
2. En el modelo lineal y =x , un elemento central del anlisis economtrico
.
clsico es que el estimador de es independiente de los residuos,
Demuestre.
3. Cmo se entiende el supuesto de rango completo si x contiene slo una
variable?
4. Qu restriccin debe cumplir la matriz de momentos de los regresores para que
sea posible obtener estimadores mnimos cuadrados con propiedades estndares
si x es determinstico? Qu pasa cuando se levanta el supuesto que los
regresores son no-estocsticos?
5. Suponga que tiene una muestra de n datos de { y n , x n }. Derive el estimador de
mnimos cuadrados de la regresin de y n en x n. Suponga ahora que a la
muestra se le aade un dato. Demuestre que el nuevo estimador del parmetro
es:
n1 =n
1
x n ' x n 1 x s ' [ y s x n ' s ]
1
1x s ' x n ' x n x s
4.41
9. En qu caso los coeficientes de una regresin de Y en x 1 y x 2 son idnticos a
los de dos regresiones independientes, una de Y en x 1 y otra de Y en x 2 ? Por
qu? es necesario poner una constante en cada una de estas ltimas dos
regresiones o basta ponerla en una sola?
10. Su jefe junt datos de precios y ventas de vino de los ltimos 25 aos en Chile y
concluy: cada vez que subo el precio 10% las ventas caen 5%, por lo que la
elasticidad es -0.5". Explquele con delicadeza pero con absoluto detalle por
qu su estimacin es inconsistente.
11. Considere la funcin de produccin con elasticidad de sustitucion constante
(CES):
Y i ,t = [ K 1 L
i ,t
i,t
i ,t
[ ]
K
LnY i , t =i 1 LnK i , t 2 LnL i , t 3 ln i , t i , t
L i ,t
y encuentre las expresiones de equivalencia entre los estimadores y los
parmetros de la ecuacin.
12. Demuestre que en una muestra finita, el estimador de la varianza de los residuos
2=nk 1 2i se distribuye .
13. Demuestre que en una muestra infinita se requiere que los cuartos momentos de
la distribucin de los residuos sean finitos para que el estimador asinttico exista.
14. Demuestre que testear un conjunto de restricciones lineales es equivalente a
hacer un test tipo F entre una ecuacin restringida y una que no lo est.
15. Suponga que el verdadero modelo es y = x u (no tiene constante) pero que
Ud. us uno de esos softwares de econometra de segunda clase y tuvo que
estimar su modelo con la constante. La omisin de esta variable causa sesgo?
Compare la varianza del estimador de del modelo verdadero con la del
estimado.
16. Considere el siguiente modelo y i = x i i f i =1/e /
Note que los errores tienen la caracterstica que siempre son positivos.
i
i 0 .
4.42
(a) calcule la E[] .
(b) demuestre que el estimador de mnimos cuadrados de la pendiente es
consistente pero el del intercepto es inconsistente.
17. Demuestre que R 2 puede ser negativo.
18. Demuestre que el R 2 ajustado ( R 2 ) se puede escribir en funcin de R 2 como:
n1
R 2 =1
1R 2
nk
19. Pruebe que R 2 no puede reducirse si se aade una variable en la regresin. D
la intuicin.
20. Suponga que una regresin lineal es adecuada y el modelo est bien especificado.
Tiene el R 2 computado alguna distribucin?
21. Considere la regresin de y en K variables (incluida la constante) representadas
por X . Considere un conjunto de regresores alternativos Z=XP , donde P es
una matriz no singular. As, cada columna es una mezcla de algunas columnas
de X . Pruebe que los vectores de residuos de la regresin de y en X y de y en Z
son idnticos. Qu importancia tiene esto respecto de la posibilidad de cambiar
el ajuste de una regresin mediante la transformacin de los datos?
22. El problema de un productor es cmo predecir la demanda de su producto de
*
exportacin (yuca). Ud hace un modelo economtrico tipo x t = 0 1 Y t 2 Px t
(log demanda yuca, log ingreso externo y log precio yuca, respectivamente). Ud
estima los parmetros por mnimos cuadrados. Su jefe no cree en la econometra
y tiene sus propias elasticidades, , calculadas al ojo. Pruebe que la diferencia
entre su R 2 y el R 2 de su jefe, es proporcional a: Z
Z donde Z =
{Y,Px} y { , } los vectores de parmetros.
23. Considere el siguiente modelo y t=' x t t , con x =[c ,z ] y donde c es una
constante y z un conjunto de variables. Suponga que la varianza de es
2
constante, . Encuentre la varianza de la prediccin fuera de muestra de y.
Demuestre que sta se reduce cuando aumenta el tamao de muestra y mientras
ms cerca estamos de E[ x ] .
24. Cules son las fuentes de incertidumbre en una prediccin ( y ) hecha con un
modelo lineal del tipo y =x u ? Calcule analticamente la V y .
25. Demuestre que testear un conjunto de restricciones lineales del tipo R =q es
equivalente a hacer un test tipo F entre una ecuacin restringida y una que no lo
est.
4.43
26. Suponga que Ud es un monopolista con costo marginal = 10. Encuentre un
intervalo de confianza al 95% para el producto que hace que su beneficio
esperado mximo. Ud tiene la siguiente informacin. (use una demanda lineal).
Q
10
15
16
13
15
15
12
18
21
18
16
17
12
15
15
13
11
10
27. Suponga que tiene una muestra de n datos de { y n , x n }. Suponga ahora que a la
muestra se le aade un dato. Demuestre que el estimador de mnimos cuadrados
de la regresin usando n+1 datos es proporcional al residuo de la prediccin de y
basada en los coeficientes obtenidos con la muestra de n datos.
28. Para una muestra de datos del periodo [1, t ] , considere el siguiente modelo
y t= x tt donde t=t 1t y t es ruido blanco Gaussiano.
1. Compute el error de prediccin de y tn y su intervalo de confianza del 90%.
2. Demuestre que el intervalo de confianza converge en distribucin.
K
1
]='
2
29. Demuestre que si es el estimador MICO, E[ '
, donde
k =1 k
es uno de los valores propios de x ' x .
30. Considere el modelo y i =1 x i i , que no incluye la constante, y donde el error
cumple las condiciones Gauss-Markov.
1 .
I. Derive el estimador de mnimos cuadrados ordinarios de 1 y llmelo
Es este estimador insesgado? Demuestre que es de varianza mnima.
II. Considere el modelo y i =0 1 x i i , donde el error cumple las
condiciones Gauss-Markov. Demuestre que, para este modelo, el estimador
1 es sesgado. es posible determinar la direccin del sesgo?. Naturalmente,
1 mayor o menor
si 0=0 no hay sesgo, pero es la varianza del estimador
que la varianza del estimador mnimos cuadrados de 1 ? Demuestre que si
E[ x i ]=0 , el estimador 1 es insesgado.
4.44
Apndice A:
1. Suma de matrices. Sean A=[aij] y B=[bij] dos matrices de orden mn. La suma de
matrices corresponde a la matriz C=[cij] cuyos elementos genericos son cij=aij +bij.
Ejemplo:
[ ] [ ]
[ ]
1 3 4
1 2 3
0 1 1
A= 4 5 6 y B= 1 0 1 entonces A B=C = 5 5 7 .
7 9 9
7 8 9
0 1 0
2 4 6
A= 8 10 12
14 16 18
c ij = a ijb jk
j
][
4.45
BA=
9
9 12
3
0 3
4 11 9
[ ]
1 4 7
A '= 2 5 8
3 6 9
B1=
1 1 1
0 0 1
1 0 1
4.46
1. Multiplicacin de una fila por un escalar, .
[ ][ ] [
0 0 1 2 3
1 2 3
=
0 1 0 4 5 6
4 5 6
0 0 1 7 8 9
7 8 9
][ ] [ ]
1 0 0 1 2 3
1 2 3
1 1 0 4 5 6 = 3 3 3
0 0 1 7 8 9
7 8 9
3. Intercambio de filas
[ ][ ] [ ]
0 1 0 1 2 3
4 5 6
=
1 0 0 4 5 6
1 2 3
0 0 1 7 8 9
7 8 9
Para obtener una inversa se usa una secuencia de estas operaciones elementales.
Consideremos el caso de una matriz de 2x2:
[ ]
U= 2 5
4 3
computamos
computamos
computamos
computamos
Captulo 5
Violacin de los Supuestos del Modelo de Regresin Lineal
Los errores que no tienen la caracterstica de ser ruido blanco que se les exige
para representar la parte asistemtica del fenmeno en cuestin. Este es el
indicador ms importante de la violacin de algn supuesto aunque, debe
reconocerse, es difcil de evaluar an con los mejores tests estadsticos. 2
Los parmetros estimados tienen caractersticas que no son congruentes con los
pre/juicios que se tenan antes de hacer el experimento, en trminos que
presentan signos opuestos a los esperados, baja significancia estadstica, o son
poco robustos ante pequeos cambios en las condiciones de estimacin.
Existen problemas con los estadsticos asociados a la regresin, como son R, tests
de correlacin residual, o la comparacin entre el error estndar de la variable de
inters y el de la regresin, y .
5.2
y =x 1 1x 2 2
(5.1)
1 =x 1 ' x 11 x 1 ' y
= x 1 ' x 1 1 x 1 ' [x 1 1x 2 2]
=1 x 1 ' x 1 1 x 1 ' x 2 2 x 1 ' x 11 x 1 '
(5.2)
esta expresin ya la hemos visto con anterioridad, de donde derivamos este importante
resultado:
(5.3)
Entonces,
3 "Obvious" is the most dangerous word in mathematics (Eric Temple Bell, Mathematical Circles
Squared, Boston, 1972).
5.3
E[ 1 ]=1 si x 1 ' x 2 =0
1 si x 1 ' x 2 0
(5.4)
(5.5)
V [ 1 ]= 2 x 1 ' x 11
(5.6)
=M 1 y
=M 1 x 1 1 x 2 2
=M 1 x 2 2 M 1
(5.7)
(5.8)
5.4
Entonces,
(5.9)
El primer trmino del lado derecho de (5.9) es no-negativo, ya que es una forma
cuadrtica. El segundo es el estimador de la varianza de los residuos para el modelo que
excluye x 2 . Por ello, la varianza estimada de los residuos obtenida como la suma de
los residuos al cuadrado ajustada por grados de libertad estar sesgada. Es interesante
notar que an si x 1 x 2 =0 y los estimadores de los parmetros no estn sesgados, el
estimador de la varianza de los residuos y por consiguiente los tests t si lo est.
5.5
a y i =0 1 x i
b y i =0 1 x i 2 w i
(5.10)
5.6
2.
Por qu no usar las k variables disponibles y hacemos una competencia todos-contratodos seleccionando aquellas que maximizan R con tests t significativos al, digamos, 95%?
Esta tcnica, llamada stepwise regression, busca aquella combinacin lineal de los
componentes de x que maximiza la bondad de ajuste, R. Esto tiene bastantes problemas.
En primer lugar, la seleccin es mecnica con independencia de las restricciones que
impone la teora. En segundo lugar, es difcil comparar entre modelos (cmo se
distribuye el test de distancia entre dos o ms R?). En tercer lugar, esto es data mining.
El problema de data mining5, en realidad, excede el de la bsqueda interesada de
las variables que se debe incluir en el modelo. Tambin debe incluirse la reespecificacin
de los modelos (porque tambin equivale a cambiar los supuestos sobre los cuales se
deriv el modelo originalmente), la bsqueda de muestras convenientes (por ejemplo, el
periodo de tiempo preciso) e, incluso, el uso de tests estadsticos favorables (que
usualmente son aquellos que no tienen poder para probar la hiptesis nula de inters). 6
Recientemente el tema de data mining ha recibido un soporte analtico ms
slido y su uso se ha popularizado en reas distintas a la economa donde el inters por
relacionar evidencia emprica con modelos de comportamiento no es importante. Por
ejemplo, en el uso de datos grficos para el reconocimiento de patrones sistemticos
(caras a partir de fotos). Hirsh (2008) hace un recuento de los avances y desafos en este
tipo de modelacin.7
5 The art of fishing over alternative models has been partially automated with stepwise
regression programs. While such advances have made it easier to find high Rs and
significant t coefficients, it is by no means obvious that reductions in the costs of data
mining have been matched by a proportional increase in our knowledge of how the economy
actually works. Lovell, M. C. (1983), Data Mining, The Review of Economics and Statistics, 65,
1-12.
6 Ver A. Spanos (1999) Revisiting data mining: hunting with or without a license, mimeo,
Department of Economics, Virginia Polytechnic Institute and State University.
7 H. Hirsh Data mining research: current status and future opportunities, Statistical Analysis
and Data Mining, 1:104-108.
8 A este tipo de modelo se le denomina incorrectamente cambio estructural. El nombre ms
adecuado es cambio de rgimen, por cuanto nada garantiza que sea produzca un cambio en el
mecanismo generador de los datos, sino que el modelo debe ser estimado reconociendo su
naturaleza dual.
5.7
Un ejemplo comn queda descrito en la siguiente figura. En una serie que crece
con tendencia positiva de 2.5% se han incorporado distintos tipos de quiebres para ver el
efecto. En el panel A se presenta una muestra de 75 datos de la serie original. En el panel
B se muestra la misma serie pero con un quiebre en la constante ubicado en el segundo y
cuarto cuartos de los datos. El quiebre es de tamao 40% del nivel. En el panel C se
presenta la serie con un quiebre que lleva la tendencia a -2.5% en los mismos intervalos.
En tanto que en el panel D se presenta la serie sujeta a ambos quiebres.
Figura 5.1
Cambio de rgimen
Mtodo de Chow
En el caso de cambio de rgimen, un modelo del tipo y =x es inadecuado.
Supongamos que el cambio de rgimen slo afecta el intercepto de la regresin, Chow 9
sugiere usar es una especificacin del tipo:
y i =x i i i [ 1, N ] [N ,N ]
y i =x i i i [N ,N ] [N , N ]
(5.11)
9 G. C. Chow (1960) "Tests of Equality Between Sets of Coefficients in Two Linear Regressions".
Econometrica 28(3):591605.
5.8
Sin embargo, es preferible anidar ambos modelos en una sola especificacin
usando variables ficticias (mudas o dummies10), que toman valores 0 y 1 dependiendo del
rgimen. El modelo anidado es:
y i =x i D i i
donde
(5.12)
D i =1 i [ 1, N ] [N ,N ]
.
D i =0 en el resto
y i =x i i i [ 1, N ] [N ,N ]
y i =x i i i [N ,N ] [N , N ]
(5.13)
y i =x i [ D i ] D i i
(5.14)
5.9
El test RESET (Regression specification error test) fue propuesto por Ramsey (1969)12
y consiste en realizar una regresin auxiliar al modelo de inters. Sea el modelo
y t = x t t , supongamos que se distribuye N 0, I , y consideremos la siguiente
regresin auxiliar:
y t =0 1 x t 2 z t t
2
(5.15)
y t =t 1 x t t
(5.16)
donde t es el estimador del parmetro obtenido mediante una regresin hecha con una
i=t 1
muestra de datos { y i , x i }i=k 1 . La tcnica consiste en hacer un conjunto de regresiones
auxiliares incrementando el tamao de muestra desde i =k1 hasta T , donde k es el
rango de x. Note que k1 es la primera regresin que es posible hacer.
12 J. Ramsey, J. B. (1969). "Tests for Specification Errors in Classical Linear Least Squares
Regression Analysis," Journal of the Royal Statistical Society, Series B, 31:350-371. Un trabajo
posterior demuestra que el test RESET es lo suficientemente poderoso para descubrir
problemas de especificacin an cuando los criterios tradicionales (R, correlacin residual, y
tests de significancia) sean cumplidos satisfactoriamente (Ramsey, J. B. and A. Alexander
(1984). "The Econometric Approach to Business-Cycle Analysis Reconsidered," Journal of
Macroeconomics, 6:347-356.)
13 La lgica de incluir potencias es directa. Suponga que el modelo es logartmico (p.e., y =x z
). Una expansin de Taylor para linealizarlo exigira trminos de segundo orden al menos. Su
omisin como sucede en el modelo original implica que el residuo tiene precisamente esa
estructura.
5.10
Existen dos posibles variables aleatorias de inters que se obtienen del conjunto
de regresiones auxiliares: los estimadores recursivos y los residuos recursivos. Para
ambos hay distintos tests.
Tests de residuos recursivos. Hay dos tests clsicos de residuos recursivos: CUSUM y
CUSUM-Q. Consideremos primero la varianza predicha del error de prediccin de
(5.16):
2 = 2 1x t ' x t1 ' x t 1 x t
t
(5.17)
wr =
1x ' x
r
(5.18)
r 1
' x r 1 x r
r =t
1
w donde es la varianza estimada de
r =k1 r
82
84
86
C U S UM
88
90
92
94
96
98
5% S ignif icanc e
El test CUSUM-Q, por otro lado, utiliza una variacin del test anterior pues
estudia el estadgrafo:
5.11
r =t
w 2r
2
r
S r = r =k1
r =T
(5.19)
r =k1
82
84
86
88
90
CU SUM of Squares
92
94
96
98
5% Significance
14 Ver P. Perron (2007) Dealing with Structural Breaks, Palgrave Handbook of Econometrics, Vol.
1: Econometric Theory, T.C. Mills and K. Patterson (eds)
5.12
Figura 5.4
Estimacin recursiva de los estimadores de los parmetros
.00
-.4
.05
.10
.15
80
82
84
86
88
90
92
94
96
98
Residuos Recursivos
5.13
Tests para quiebres mltiple
Hemos visto qu hacer cuando se desconoce la ubicacin del quiebre y cmo
puede ayudarnos los tests recursivos. Otra preocupacin legtima es determinar si existe
uno o ms quiebres y su ubicacin. La literatura sobre quiebres sucesivos es
relativamente reciente y tiene relacin con modelos de parmetros cambiantes (en el
sentido que los parmetros van cambiando en el tiempo y t =t x t t ) y/o con
problemas de no estacionariedad (es decir, cuando la media u otros momentos de la
distribucin conjunta de los datos cambian con cada nueva observacin).
Recientemente, Andrews, Lee and Ploberger (1996) estudian una clase de test
ptimos para el caso en que haya un quiebre pero que en el caso de mltiples quiebres
son poco prcticos pues exigen computar todas las posibles particiones de una muestra
de tamao T en l segmentos o quiebres.15 Bai Perron (2003)16 sugieren usar un proceso
secuencial. En primer lugar, se computa el valor del mximo test de Wald para un
cambio estructural, suponiendo que slo existe un quiebre. Luego se toma la subparticin ms grande de los datos y se vuelve a realizar el test de Wald para un nico
cambio estructural. El procedimiento se repite mientras sea necesario, sujeto al tamao
mnimo que puede tener un segmento (usualmente k+1). Naturalmente, la distribucin
de este test secuencial no es estndar pues las hiptesis est anidadas (es decir, el
segundo test de Wald depende de haber hecho bien la inferencia del primer test de
cambio estructural, el tercero de los dos primeros, etc.), por lo que Bai y Perron proveen
tablas de valores crticos ad-hoc.
Datos Perdidos
Supongamos que el modelo es del tipo y i = x i i . Obviamente, pueden
haber datos perdidos en la variable de inters, y, o en los regresores, x. Ello puede
suceder por varias razones. En primer lugar, porque no existen los datos para algn
determinado perodo de tiempo o segmento de la muestra. Lo ms comn es que esto
suceda porque los encargados de estadsticas no levantan los datos de base o porque las
muestras se han perdido. Segundo, porque los datos existen pero estn en distinta
15 Ver Andrews, D.W.K., Lee, I., Ploberger, W. Optimal change point tests for normal linear
regression. Journal of Econometrics 70: 9-38, 1996.
16 Bai, J. and P. Perron Critical values for multiple structural change tests. Econometrics Journal,
6:72-78, 2003.
5.14
frecuencia a la necesaria para hacer el anlisis emprico (p.e., datos mensuales versus
trimestrales).
La literatura sobre datos perdidos es extensa pero puede sintetizarse en las
siguientes conclusiones. Primero, si los datos se han perdido de manera aleatoria, los
estimadores de mnimos cuadrados sern consistentes pero ms ineficientes que en el
caso que la muestra estuviese completa. La razn es, obviamente, que la muestra con
datos perdidos contiene menos informacin. Segundo, si los datos no se han perdido de
forma aleatoria pero slo afectan a las variables de lado izquierdo, entonces no hay
sesgo y slo hay problemas de eficiencia. Este caso es llamado sesgo de seleccin exgeno.
Tercero, si los datos no se han perdido de forma aleatoria pero slo afectan a las
variables de lado derecho, entonces hay sesgo de seleccin endgeno. En este caso, hay
correlacin entre regresor y residuo por cuanto las observaciones disponibles estn
limitadas de forma no aleatoria e, inevitablemente, hay sesgo en el estimador de
mnimos cuadrados.17
La existencia de datos perdidos suele llevar a los econometristas despistados a
intentar soluciones que, como se discute a continuacin, no son efectivas. Para discutir
estos mtodos podemos particionar la matriz de datos de acuerdo al Cuadro 5.1:
Cuadro 5.1
Problemas de disponibilidad de datos
Datos existen
yA
xA
Datos
perdidos
xB
Datos
perdidos
yC
5.15
Datos perdidos en la variable condicionada. Una sugerencia frecuente es utilizar algn
mtodo para hacer una prediccin de y B y usar posteriormente el modelo economtrico
completo para estimar , es decir usando [ y A yB , x A x B ] . El quid del asunto radica
en cmo predecir y B . Hay dos alternativas populares:
Alternativa popular 1.
Rellene los datos faltantes con la media de y A . Es
fcil demostrar que como resultado se produce sesgo en los parmetros.
Alternativa popular 2.
Estime en el subgrupo A, prediga y B usando
dicho estimador, y luego estime el modelo completo. Es directo demostrar que el
procedimiento es intil.
Datos perdidos entre los condicionantes. Nuevamente la sugerencia popular es hacer una
prediccin de y C y usar el modelo completo para estimar , es decir usando
[ y A y C ,x A x C ] . Cmo predecir x C ?
Alternativa popular 1.
Rellene los datos faltantes con la media de x A .
Demuestre que este procedimiento es equivalente a eliminar los datos del
segmento C.
Alternativa popular 2.
Haga una regresin de x en y en el subgrupo A,
estime un parmetro y prediga x C usando dicho estimador. Luego estime el
modelo completo. Demuestre que este procedimiento viola el espritu del anlisis
economtrico.18
18 Si usted encuentra deprimente las conclusiones de esta seccin considere la clebre opinin de
Charles Babbage (1869) Errors using inadequate data are much less than those using no data at all.
19 Fernando Medina y Marco Galvn, Imputacin de datos: teora y prctica, Serie Estudios
Estadsticos y Prospectivos No 54, CEPAL.
5.16
Variables cercanas (proxies)
Una variable proxy es un sustituto cercano (es decir, imperfecto) de la verdadera
variable que no es observable o no est disponible. Usualmente el uso de variables
cercanas puede ser entendido como la presencia de variables medidas con error.
Puede haber proxies de la variable de inters o de los regresores, pero el efecto sobre el
estimador de mnimos cuadrados ordinarios de los parmetros no es igual. Recordemos
que el estimador mnimos cuadrados se derivan de:
=x
' x 1 x '
(5.20)
[ ][ ]
x'x
=
n
x'
n
(5.21)
Proxy para la variable de inters: Sea el modelo que nos gustara estimar y *=x . Pero
slo disponemos de y *= y , donde es un shock aleatorio, con media cero y
2
varianza . Entonces el modelo estimable es y =x =x , donde = .
Nte que es una variable aleatoria con media cero y cuya covarianza con x
tambin es cero. Luego se satisfacen todos los supuestos del modelo clsico y no hay
problemas de sesgo en los estimadores de mnimos cuadrados. Obviamente, la varianza
del estimador de los residuos est sesgada --siendo ms grande porque incluye tanto
la varianza de como la de . Sin embargo, ese sesgo no es posible corregirlo sin
2
conocer .
Proxy de los regresores: Sea el modelo que nos gustara estimar y =x . Pero slo
disponemos de x =x , donde es un shock aleatorio con media cero y varianza
2
. Ahora el modelo es y =x =x donde = . El problema
radica
en
que
hay
correlacin
entre
regresor
y
residuo
porque
2
cov [x ,]=cov [x ,]= . El estimador de mnimos cuadrados es:
5.17
n
1/n x i y i
i=1
n
(5.22)
1/n x
2
i
i =1
veamos el plim:
n
plim =
plim 1/n x *i x *i
i=1
(5.23)
plim 1/n x
*
i
i=1
plim =
Q*
Q * 2
(5.24)
plim =
2
1 *
Q
(5.25)
5.18
Datos influyentes y extremos (outliers)
En el anlisis emprico es usual encontrar valores tanto para la variable de inters
como sus determinantes que no parecen formar parte del experimento en cuestin
(tambin llamados outliers).20
Se entiende por datos influyentes aquellos que de ser incluidos o excluidos de
la muestra producen grandes variaciones en la estimacin, sea en los estimadores de los
parmetros o en los estadsticos asociados (p.e., bondad de ajuste). La influencia de
estas observaciones se debe tanto a la naturaleza del estimador de mnimos cuadrados
como al tamao de la muestra usada para obtener el estimador. En primer lugar, el
estimador de mnimos cuadrados se obtiene al minimizar la suma de residuos al
cuadrado, por lo que las observaciones ms alejadas del promedio de los datos reciben
ms valoracin. Eso puede hacer que el estimador sea sensible a valores extremos. En
segundo lugar, el tamao de muestra determina el impacto de valores extremos, pues
este problema ser ms agudo mientras ms pequea sea la muestra. Obviamente, en
una muestra grande el efecto de un valor extremo es contrapesado por ms
observaciones y, por lo tanto, tiene menos efectos sobre el estimador.
En la literatura se distingue entre valores extremos (outliers) y valores
influyentes. Valores extremos se refieren usualmente a valores de y que se desvan
mucho de la media condicional en x. Valores influyentes se refieren a valores de x que se
desvan de la media muestral y que, por lo tanto influyen mucho en la estimacin. En la
figura 5.6 se presentan ambos tipos de valores para el caso del modelo ms simple,
y i = x i i .
Figura 5.6
Valores influyentes y extremos
x
20 Esta es la definicin clsica de outlier de Hawkins, D. (1980). Identification of Outliers. Chapman
and Hall, London.
5.19
Frecuentemente los valores extremos e influyentes se producen por errores al
ingresar los datos de la muestra: por ejemplo, es comn que sucedan porque se
invirtieron dgitos (601 en vez de 106) o porque una coma est mal puesta (12,5 en vez
de 1,25). Es por ello que lo primero que se debe hacer es revisar los datos
cuidadosamente.
Existe un centenar de algoritmos de deteccin de valores influyentes que se
basan en seleccionar distribuciones conocidas para los datos (normal, exponencial, etc.)
y en definir un intervalo de confianza para determinar si un dato es un valor extremo o
no lo es (p.e., 90% o 95%).21
Una manera de detectar valores extremos es estudiar los residuos: si el valor
predicho se desva del efectivo de manera notoria se puede tratar de un valor extremo.
No obstante, esta no es una manera que garantice la deteccin. La razn es que el
residuo se mide con respecto a la recta de regresin la que podra variar si se incluye o
excluye el valor extremo. Usualmente se estudian los residuos estandarizados es decir,
los residuos divididos por su desviacin estndar de modo de normalizar su tamao.
Otra forma es estudiar la incidencia de cada dato en el estimador. Recordemos
que en el estimador de mnimos cuadrados cada observacin de y es ponderada por
H =x x ' x 1 x ' . Si se estudia la diagonal de H, es decir los valores de hii, es
relativamente directo ver la influencia de cada observacin en la estimacin. Valores con
mucha incidencia suelen sealar la presencia de valores influyentes o extremos. Adems
esto pone de manifiesto el hecho que valores ms alejados de la media de los regresores
tiende a darles ms influencia.
Cuando la muestra es pequea, tanto la media como la desviacin estndar
muestrales pueden ser distorsionadas por la misma presencia de valores influyentes. Es
por ello que en ese caso se usan tests de deteccin de datos influyentes basados en la
mediana y su desviacin estadstica, porque stas no son sensibles a los valores
extremos. El ms conocido de estos tests para muestra pequea es el de Dixon (1950) 22
que se basa en suponer que los datos se distribuyen normales. El test consiste en ordenar
los datos de menor a mayor y computar el siguiente estadgrafo para cada observacin
x n :
TN7 =
x n x n1
x n x 1
(5.26)
El valor de TN7 computado se compara con los valores crticos particulares para
tamaos de muestras que van desde 3 observaciones en adelante. 23 Si el valor obtenido
21 Un tratamiento comprensivo del tema se encuentra en Outliers in Statistical Data, V. Barnett
and T. Lewis, 1994, 3rd edition, John Wiley & Sons, Chichester.
22 Dixon, W.J. (1950): Analysis of extreme values, Annals of Mathematical Statistics, 21(4):488
506.
23 S. Verma y A. Quiroz-Ruiz, Critical values for six Dixon tests for outliers in normal samples
5.20
es mayor que el valor de tablas se rechaza la hiptesis nula que la observacin n-sima
no es un valor extremo. El estadgrafo TN7 reconoce que en una muestra pequea
resulta mucho ms difcil determinar si una observacin es un valor extremo porque no
hay suficiente informacin.
y i =1 x 1i 2 x i2 3 x 3i i
(5.27)
x 3i = 1 x 1i 2 x 2i i
(5.28)
y i = 11 3 x 1i 22 3 x 2i t 3 i
(5.29)
up to sizes 100, and applications in science and engineering Revista Mexicana de Ciencias
Geolgicas, 23(2):133-161, 2006.
24 Otra razn para que x x 1 no exista es que el rango de x sea mayor que el rango de x.
5.21
1
E [ ]=E [ x ' x x ' y ]
=E [ x ' x x i ' x ]
1
(5.30)
=E [ x ' x x ' ]
1
a 11 a 12
1
a 22 a 12
1
entonces =
a 11 a 22 a 12 a 21 a 21 a11
a 21 a 22
(5.31)
Supongamos
[ ]
[ ]
1
= 1 0 1 = 1 0
1 0 1
0 1
(5.32)
(5.33)
(5.34)
1
1
0.6
= 1 0.6 1 =
0.6 1
0.64 0.6
1
1
1
0.9
= 1 0.9 1 =
0.9 1
0.19 0.9
1
5.22
Esto es congruente con lo que obtuvimos en (5.29). Cuando la colinealidad es
perfecta no es posible distinguir entre el efecto directo e indirecto. Es decir, no podemos
precisar el valor de los parmetros (varianza infinita).
En la realidad, la colinealidad perfecta no existe (salvo por error). Pero tampoco
existe, usualmente, la ausencia de colinealidad (piense en el papel de las expectativas y
cmo stas correlacionan muchas variables econmicas). Por ello, siempre habr algn
grado de colinealidad.
Otro sntoma de la colinealidad es que los estimadores de los parmetros se
vuelven inestables (poco robustos). La inestabilidad se produce porque la estimacin
punto de los parmetros bajo alta colinealidad depende de la conformacin de la
muestra. Si sacamos un(os) dato(s) de la muestra, la estimacin de los parmetros suele
cambiar fuertemente.
5.23
En ocasiones, la teora econmica permite imponer restricciones que evitan el
problema de colinealidad. Por ejemplo, considere el siguiente modelo translog para el
PIB, que denominamos Y:
log KF 1/ 2
log KH 1/2
4
5 log KF log KH
2
2
Elimine alguna variable para la que haya evidencia de colinealidad con otras. En
1
2
3
el modelo y i =1 x i 2 x i 3 x i i entonces se podra eliminar, digamos,
x 3 . El resultado es:
y i =1 x 1i 2 x 2i 3 x 3i i
1
2
=1 x i 2 x i i
(5.35)
(5.36)
5.24
1
2
Var RD = [ x i ' x i rD ]
(5.37)
(5.38)
Hemos vuelto a obtener dos resultados importantes: (a) modelos con variables
pertinentes omitidas producen parmetros sesgados, y (b) es posible tener
estimadores sesgados ms eficientes que un estimador insesgado.
3.
(5.39)
(5.40)
es decir:
x ' x a1 1 a 1=0
(5.41)
5.25
por lo tanto, a 1 es un vector caracterstico. Recuerde, a 1 es el vector caracterstico
asociado a 1 la raz caracterstica. Cul vector caracterstico? Aquel asociado a la raz
caracterstica ms grande de x ' x .
As, hemos escogido el primer componente principal. Ahora, escogemos el
segundo, a 2 . Para ello optimizamos sujeto a a 1 ya encontrado y a que a 1 sea ortogonal
a a 2 ( a 1 ' a 2 =0 )
(5.42)
(5.43)
1 0
0 2
Z ' Z= A ' x ' xA==
0
0
0
(5.45)
5.26
Finalmente, el estimador de componentes principales ser:
(5.46)
pero Z ' y = A ' x ' y= A ' x ' [ x ]= A ' x ' x = A ' x ' x . Entonces, se desprende
1
que cp = A de donde se deduce que:
27 Maddala (1977) propone otras soluciones para colinealidad. Entre ellas (a) usar informacin
a-priori, (b) transformar las variables (logs o razones) y (c) usar ms datos. Estudiar y evaluar
si stas son tiles o no. G.S. Maddala (1977) Econometrics McGraw-Hill editors.
5.27
y i =x i i
E[i ]=0
E[i i ' ]= 2
(5.47)
5.28
21 0 0 0
2
2 = 0 2 0 0
0 0 0 2n
(5.48)
1
1
1
2 = 1
n1 n 2
2
1
n1
n 2
1
1
(5.49)
donde los i son correlaciones (es decir, covarianzas divididas por varianzas). Note que
en (5.48) las covarianzas son cero, en tanto que en (5.49) las varianzas son constantes.
Nuevamente, estas separacin es slo para efectos pedaggicos, pues en la prctica no es
infrecuente encontrar ambos problemas.
5.06 Heterocedasticidad
Cual es el efecto de la heterocedasticidad sobre un estimador mnimos
cuadrados? Recordemos que el estimador mnimos cuadrados se puede escribir como
(5.50)
5.29
heterocedasticidad se refiere al segundo momento (varianzas) y no a la media de los
errores.
Tomemos la varianza del estimador para el caso que x es no estocstico:
x ]=E [
Var [ |
'
|x ]
1
=E [x ' x x ' ' x x ' x 1 | x ]
=x ' x 1 x ' E [ ' ] x x ' x 1
=x ' x 1 x ' [ 2 ] x x ' x 1
(5.51)
x ]=
Var [ |
n
1
x'x
n
1
x 'x
n
1
x'x
n
(5.52)
2
1
1
Si se distribuye Normal, entonces N [ , x ' x x ' x x ' x ] .
2 x ' x 1 , por lo que las inferencias basadas en esta ltima estn sesgadas. Por otro
el trmino /n converge a 0.
5.30
Finalmente, el estimador es asintticamente normal porque las mismas
condiciones de Grenander que impusimos para que
= 1n x ' x
n
][
1
x'
n
(5.53)
2 1
1
1
V.A. = Q plim x ' x Q
n
n
(5.54)
(5.55)
2
Estimacin eficiente
Si tuvisemos E[i i ' ] podramos resolver el problema. Pensemos que, en ese
caso, podramos usar directamente el estimador de la varianza:
(5.56)
5.31
Basados en la idea que una matriz positiva y definida puede ser factorizada,
vamos a hacer una factorizacin conveniente. Tomemos una matriz T(nn) y
premultipliquemos el modelo, tal que
(5.57)
Ty i =Tx i T i
Se sigue cumpliendo que E[T ]=0 , por lo que podemos obtener:
(5.58)
pero T ' T =1
(5.59)
, es decir, el estimador de
ejemplo, i = f z i ; entonces, podramos usar =
basado en el estimador de .
as.
. En realidad, no es siempre
5.32
generalizados posible. Cundo son asintticamente equivalentes FGLS y GLS ? Las
condiciones son:
[
[
1
1
x ' 1 x x ' 1 x =0
n
n
1
1
1
1
plim
x ' x ' =0
n
n
plim
(5.60)
5.33
El test es directo sobre la hiptesis nula que la varianza de los grupos no difiere
de aquella de la muestra completa, ajustando por tamaos relativos
m
Homocedasticidad H 0 :nm ln n j 1 ln 2i =0
2
*
j =1
m
(5.61)
Heterocedasticidad H 1 : nm ln
n j 1 ln 0
2
*
j=1
2
i
2 nm ln n j 1 ln 2i 2 m 1
2
*
j =1
(5.62)
Debido a que los estimadores de las varianzas por muestra y totales son formas
cuadrticas de errores normalizados, el test se distribuye (m-1). Los grados de libertad
se derivan del nmero de varianzas libres (m) menos la restriccin de una nica varianza
comn.
Test de Breusch y Pagan29
2.
Este test se aplica cuando no hay muestras repetidas y, por lo tanto, no es posible
disponer de varias realizaciones de la variable aleatoria
2 . Una vez estimado el
modelo y i =x i i , lo que se hace es:
2
Computar g i =i /
Hacer una regresin entre gi y las variables que quiera, incluyendo x, y computar
la suma de cuadrados explicados, SCE.
H 0 : Homocedasticidad SCE=0
H 1 : Heterocedasticidad SCE 0
(5.64)
29 Breusch, T and A. Pagan (1979), A simple test of heteroskedasticity and random coefficient
variation, Econometrica 47:12871294.
5.34
Debido a que los estimadores de las varianzas por muestra y totales son formas
cuadrticas de errores normalizados, SCE se distribuye (p-1) bajo la hiptesis nula.
Los grados de libertad se derivan del rango de regresores, p, en la segunda regresin.
Test de Goldfeld y Quandt30
3.
El test consiste en estudiar la diferencia entre las SRC. Si stas son iguales,
significa que no hay heterocedasticidad. Por ello,
(5.65)
SCR 1
nc /2k
F
.
SCR 2
nc /2k
Test de White31
4.
El test de White utiliza una lgica similar a la del test de Breusch y Pagan en el
sentido de hacer una regresin entre la proxy de la varianza de los errores y el grupo de
regresores de la regresin original, x, pero lo extiende para incluir sus cuadrados y
productos cruzados. Es decir,
Computar i = y i
x i
2
2
Hacer una regresin entre i y las variables x i , x i y los productos cruzados
xi x j .
Es decir,
30 S. M. Goldfeld and R. E. Quandt (1965), Some tests for homoskedasticity, Journal of the
American Statistical Association, 60:539547.
31 White, H. (1980), A Heteroscedasticity-Consistent Covariance Matrix Estimator and a Direct
Test for Heteroscedasticity. Econometrica, 48:817-838.
5.35
2i = x i x 2i x i x j ' i
(5.66)
, un estimador de .
En realidad, no. Lo que queremos es 2
2 x ' x
n
S 0=
2 x ' x
n
es
1
2 x ' x . Por ello, la matriz de correccin de la varianza de los parmetros
n i i i
(5.67)
5.36
Extensin de Newey y West
Newey y West (1987) han extendido el estimador de White para el caso en que la
matriz no es diagonal. El estimador es:
J
1
j
Q=S
x ' x x t j ' x t
0
n j =1 i = j 1 J 1 t t j t t j
(5.68)
y t = x t t
t =t 01 2t 11/ 2
(5.69)
con normal estndar. Como resulta obvio, E[t | t 1 ]=0 y E[ t ]=0 . As es que el
modelo sigue describiendo la media condicional de y t .
Ahora, la varianza condicional, V [t | t 1 ] , es
V [t | t 1 ]=E [2t | t 1]
=E [2t ][0 1 2t 1 ]
=[01 2t1 ]
(5.70)
5.37
V [t ]=E [V t | t1]
=01 E [t21 ]
=0 1 V [t21 ]
(5.71)
V [t ]=
0
1 1
(5.72)
5.38
del precio, en cambio cuando se rompe el cartel hay grandes fluctuaciones de precios en
la medida que todos los productores compiten por una mayor participacin del
mercado.
El modelo ARCH puede ser extendido para incorporar trminos tipo media
mvil en la varianza predicha. En ese caso se llama GARCH (por generalizado) 33 y se
modela:
y t = x t t
2t =01 2t1 2 2t 1
(5.73)
y t = x t t
2t =01 2t12 2t 1 3 z t
(5.74)
y t = x t t2t
2
2
2
t =01 t1 2 t 1
(5.75)
Cmo sabemos que el modelo es del tipo GARCH? Una manera simple es
estimar el modelo de la media condicional, luego obtener los residuos, computar los
residuos al cuadrado (estimador de la varianza) y computar la funcin de
autocorrelacin. Si sta no muere sbito en t=1, hay heterocedasticidad condicional.
Es posible, adems, hacer tests de especificacin para saber si el modelo correcto
es GARCH(p,q) o GARCH(0,q). El problema est en que ese tipo de test no permite
discernir entre esa hiptesis y esta hiptesis: GARCH(0,q) vs GARCH (0,p+q).
Cmo estimamos un modelo GARCH? El proceso de estimacin es bastante no
lineal. Lo que se hace es iterar en la funcin de verosimilitud hasta que sta alcance un
mximo. Ello supone que los errores son normales.
5.39
2
1
1
1 y t x t
2
log L =
log 2 log t
2
2
2
2t
(5.76)
Donde
2t =c y t 1 x t 1 2 t21
(5.77)
11 12
21 22
n1 n2
1n
2n
nn
(5.78)
2 12 ... 1n
21 2 2n
2
n1 n2
(5.79)
y simtrica, es decir, ij = ji resulta imposible de estimar (5.79) con una muestra finita.
Hay ms incgnitas que grados de libertad. Usualmente:
5.40
contienen un rezago de la variable endgena. La demostracin del primer caso
es:
(5.80)
y por lo tanto, E[ ]=
.
Supongamos que
Entonces,
y t = x t t y t = t1 t donde
es ruido blanco.
2
2 2
x t x t 1 2 x t x t 2 ...N 1 x 1 x N
V [ ]=
2
2
xt xt
x 2t
x 2t
x 2t
(5.81)
t t 1 2
d = i=2
(5.82)
2
t
i=1
35 Durbin, J. and Watson, G.S., "Testing for Serial Correlation in Least Squares Regression I",
Biometrika, Vol. 37, 1950, pp. 409-428.
5.41
La lgica es que:
t t 1 = [2t 2t 12 t t 1]
2
i=2
(5.83)
i=2
t t 1 =
2
i=2
i =1
2
t
2
1
i =1
2 t t 1
2
t 1
2
T
(5.84)
i =2
de vuelta en (5.82)
T
2t 12 2t12T 2t t 1
d = i=1
i=1
i=2
(5.85)
2
t
i=1
es decir,
T
d =1
21
2
t
i=1
2t 1
i=1
T
2
t
i=1
2 t t 1
2T
i=2
i=1
2
t
(5.86)
2
t
i=1
Notemos que:
5.42
cov t , t1
var t 1
(5.87)
Si no hay correlacin d = 2.
H 0 : No hay autocorrelacin
H 1 : Hay autocorrelacin positiva
H 0 : No hay autocorrelacin
H 1 : Hay autocorrelacin negativa
Como se ve, la hiptesis nula es siempre la misma pero la hiptesis alternativa es
compleja. Otro problema es que usamos los residuos del mnimos cuadrados como
estimadores de los residuos verdaderos, es decir, stos dependen de x. Por ello, la
distribucin del test no es estndar y tiene distintos lmites superiores e inferiores.
Si hacemos un test de correlacin positiva al 95%, entonces (1) si d est por
encima del limite superior no puedo rechazar la H 0 que no hay autocorrelacin y (2) si
d est por debajo del lmite inferior tengo correlacin positiva.
5.43
Figura 5.9
Inconcluso
No hay o negativa
Positiva
LI LS
Figura 5.10
Inconcluso
Positiva o no hay
Negativa
4-LS 4-LI
Inconcluso
Inconcluso
Negativa
Positiva
No hay correlacin
LI LS
4-LS 4-LI
5.44
El test de Durbin y Watson no se puede aplicar cuando hay variables del lado
izquierdo rezagada al lado derecho. En ese caso se usa el test h de Durbin (1970).36 Este
estimador consiste en computar
h=r
n
1n 2
(5.88)
y t = x t t
t = t 1t
(5.89)
y t y t 1= x t x t 1t t 1
(5.90)
es decir:
y t = y t 1[x t x t 1 ] t
(5.91)
d /2 .
36 Durbin, J. Testing for serial correlation in least squares when some of the regressors are
lagged dependent variables Econometrica, 38: 410-421.
5.45
Hay una estrategia estadsticamente mejor (Cochrane-Orcutt). 37
1.
2.
3.
4.
5.46
Qu sucede con el estimador de mnimos cuadrados si E[ x ,]0 ? Ninguno
de los resultados que obtuvimos sobre las propiedades del estimador de mnimos
cuadrados se mantienen. En particular, sabemos que va a haber sesgo, usualmente de
tamao y direccin desconocidas. Adems, las varianzas de los estimadores estn
distorsionadas (tpicamente, subestimadas).
Una solucin sera usar una o ms variables que, estando correlacionadas con los
regresores, no est relacionadas con el error. En ese caso, vamos a usar dicho conjunto de
variables auxiliares como un instrumento de x. En trminos sencillos, buscamos un
conjunto z tal que la correlacin entre z y x sea alta pero que la correlacin entre z y
sea baja. Usualmente esto resulta ms fcil de decir que de hacer. 39
En primer lugar vamos a demostrar que el estimador mnimos cuadrados bajo la
hiptesis que los residuos estn correlacionados con x en el modelo de inters es
inconsistente. Como existe correlacin entre regresor y residuo:
E[| x ]=i
(5.92)
(5.93)
1
x ' = . Si esto es cierto,
n
entonces
1
E[ ]=
x ' x x '
(5.94)
plim =
plim x ' x
plim x ' = Q 1
(5.94)
39 Aunque la mayor parte de los textos sealan que el estimador de variables instrumentales fue
desarrollado en el contexto de modelos de ecuaciones simultneas, el primer trabajo que
desarrolla este mtodo es el de Sewall Wright (1928) en un apndice del libro de su padre P.G.
Wright The Tariff on Animal and Vegetable Oil. El trmino variable instrumental fue acuado
por Olav Reiersol (1941, Confidence Analysis by Means of Lag Moments and Other Methods
of Confluence Analysis, Econometrica, 9:1-24). Reiersol colabor tambin con el desarrollo del
esperanto (O. Reiersol and R. C. Marble: A comparison between word formation in Esperanto
and English, Esperantologio, Volumo I, Numero 1, pp. 1-80, Agusto 1949)
5.47
Derivemos ahora el estimador de variables instrumentales, IV . En particular
notemos que la varianza no condicional de es
(5.95)
E [ x ij ]= Q xx y constante
E [ z 2ij ]= Q zz y constante
E [ x ij ,z ij ] = Q xz y constante
E [ ij | z ij ] =0
1
plim Z ' Z= Q zz
n
1
plim Z ' X = Qzx
n
1
plim Z ' =0
n
(5.96)
plim
1
1
1
z i ' y i = plim z i ' x i plim z i ' i
n
n
n
(5.98)
5.48
1
plim z i ' x i
n
plim
1
z ' y =
n i i
(5.99)
Note que para que (5.99) tenga sentido, z x tiene que ser una matriz
conformable. Por ello, debe haber k variables en la matriz z. En este caso, estimador de
variables instrumentales es
IV =z i ' x i 1 z i ' y i
(5.100)
Note que este estimador es consistente. Es decir, sus propiedades son asintticas.
Por ello, el tamao de muestra es una consideracin importante al momento de usar
variables instrumentales. Note que en el caso especial que i =0 , entonces =0 y
obtenemos el estimador de cuadrados mnimos. Es decir, el estimador de variables
instrumentales es ms general que el de cuadrados mnimos. Otra manera de pensarlo es
que en el caso que no haya correlacin entre regresor y residuo, el mejor instrumento de
x ser el mismo x y el estimador de variables instrumentales es el estimador clsico
mnimos cuadrados.
La distribucin del estimador de variables instrumentales se obtiene de manera
anloga al caso de mnimos cuadrados ordinarios. Es decir,
n IV =
1
z'x
n
][
1
z '
n
(5.101)
1
d
z ' N [ 0, 2 Q zz ]
(5.102)
por lo que:
1
z'x
n
1
d
2
1
x '
N [ 0, Q 1
xz Q zz Q zx ]
(5.103)
5.49
n
2
1
= y i x i ' iv
n i =1
2
(5.104)
b)
c)
IV = x ' x 1 x ' y
(5.105)
(5.106)
Quedan los detalles que se los dejo a ustedes de obtener la varianza del
estimador de variables instrumentales y, lo que es ms difcil, el estimador de la
varianza de los residuos. Un punto que no es menor es el de la dimensionalidad de las
matrices en (5.106). Para que la estimacin sea posible es necesario que el nmero de
instrumentos sea al menos igual al nmero de variables que se est instrumentando.
Hay algunos econometristas que sealan que el estimador natural de la
econometra clsica es el de variables instrumentales. Mnimos cuadrados sera una caso
particular en el que el mejor instrumento de x es la misma variable. Como mnimos
cuadrados es tambin un caso particular de mnimos cuadrados generalizados, entonces
el estimador mnimos cuadrados generalizados con variables instrumentales (GLS-IV)
debiera ser el ms general de todos los estimadores lineales.41
40 El mtodo de mnimos cuadrados en dos etapas fue desarrollado en 1957 por R.L. Basmann
(A generalized classical method of linear estimation of coefficients in a structural system of
stochastic equations. Annals of Mathematical Statistics 20:46-63) y popularizado por H. Theil en
su clsico libro Economic Forecasts and Policy, North Holland, Amsterdam, 1958.
41 Un tratamiento completo de este estimador se encuentra en el libro de R. Bowden y D.
Turkington, Instrumental Variables, Cambridge University Press, 1984.
5.50
Condiciones de validez de los instrumentos
Una pregunta muy importante en la aplicacin de mtodos de variables
instrumentales es cmo saber si los instrumentos son adecuados? En principio, le
hemos exigido dos caractersticas a las variables para que sean instrumentos adecuados:
(1) que estn correlacionados con la(s) variable(s) que tiene el problema de correlacin
con el error, y (2) que no estn correlacionados con el residuo. La primera condicin es
que el instrumento sea pertinente, en tanto que la segunda exige que sea exgeno.
Cuando el nmero de instrumentos es igual al nmero de variables que se quiere
instrumentar, las condiciones antes expuestas son directas y el estimador de variables
instrumentales est exento de complicaciones. Cuando hay un mayor nmero de
instrumentos, la primera condicin se vuelve menos clara. Si uno considera el estimador
de variables instrumentales como un estimador de dos etapas, entonces contar con un
nmero muy grande de posibles instrumentos en una muestra finita puede ser costoso
en trminos de grados de libertad. Si el modelo es, adems, multivariado el problema
del nmero y tipo de instrumentos es parte fundamental del anlisis de modelos de
ecuaciones simultneas.
Qu sucede si algunos de los instrumentos, en realidad, estn correlacionados
con el error? Entonces, el estimador es inconsistente. Pero si hay al menos tantos
instrumentos vlidos como variables que necesitan ser instrumentadas, el estimador
sigue siendo consistente. Entonces cmo podemos hacer un test de validez del supuesto
que hay suficientes instrumentos vlidos? En principio, se podran obtener los residuos
de la estimacin de variables instrumentales y luego hacer una regresin de stos en los
instrumentos. Si el R de esta segunda regresin es cero, entonces los instrumentos no
estn correlacionados con el residuo. El problema es que si el R es significativo,
entonces algunos o todos los instrumentos son invlidos, pero no sabemos cules.
El siguiente procedimiento, llamado test de Wu-Hausman 42, es frecuentemente
usado para estudiar la ortogonalidad entre instrumento y residuo. El modelo es de la
forma y =x z 2 , donde z 2 es una matriz de regresores fijos entre muestras (por
esta razn z 2 es ortogonal al residuo ). Suponga que existe un conjunto de variables
z 1 y que podemos definir z =z 1 z 2 como la matriz de instrumentos de x. Entonces el
estimador de variables instrumentales en dos etapas se puede escribir como:
(5.107)
42 Este test fue propuesto por M. D. Wu (Alternative Tests of Independence Between Stochastic
Regressors and Disturbances, Econometrica, 40:733-750, 1973) y corresponde al caso particular
del test de J. Hausman (Specification Tests in Econometrics, Econometrica, 46:1251-1271,
1978). A. Nakamura y M. Nakamura prueban la equivalencia de ambos tests (On the
relationships among several specification tests presented by Durbin, Wu and Hausman,
Econometrica, 49:1583-1588, 1981).
5.51
De esta manera, los estimadores de mnimos cuadrados y variables
instrumentales son:
1
OLS =[ x ' I P z x ] [ x ' I P z y ]
1
IV =[ x ' P z P z x ] [ x ' P z P z y ]
2
(5.108)
OLS IV N 0, 2 D
donde
(5.109)
adecuado es:
donde
2=
(5.110)
yx IV ' I P z y x IV
, G=rango(x) y K2=rango de z 2 .
nGK 2
5.52
del tipo Y =z , donde z es la matriz de instrumentos, entonces el estimador de
variables instrumentales en dos etapas se puede escribir como:
(5.111)
Rothenberg (1984)46 demuestra que este estimador puede ser escrito como:
2SLS =
u S /
(5.112)
12 / S /2
y S =V ' P z / .
2
46 T.J. Rothemberg (1984): Approximating the Distributions of Econometric Estimators and Test
Statistics Ch. 15 in Handbook of Econometrics, Vol. II, ed. by Z. Griliches and M.D. Intriligator.
Amsterdam: North Holland, 881935.
5.53
Dada estas definiciones de debilidad, el test propuesto es una variacin del test
1
de Cragg y Donald (1993).47 Retomemos la matriz M X =I X X ' X X ' para escribir
1
el estimador de mnimos cuadrados como OLS = M 0 Y ' M 0 Y M 0 Y ' M 0 y ,
en tanto que el estimador de clase k es:
(5.113)
W k =
donde uu =
(5.114)
M X u k
M X u k'
.
y u k=
y Y k
T K 1n
g min =mineval G T ), que es una matriz anloga al test F de la primera etapa de 2SLS:
G T = VV ' M X Y ' P Z ' M X Y VV / K 2 donde VV = M X Y ' M Z Y /T K 1K 2 .
La distribucin del test no es estndar, pero los autores proveen las tablas con los
valores crticos.
47 Cragg, J.G. and S.G. Donald (1993): Testing Identifiability and Specification in Instrumental
Variable Models, Econometric Theory, 9: 222240.
5.54
Apndice A:
Ejercicios
1.
Considere la funcin de produccin con elasticidad de sustitucin constante
(CES):
Y i ,t = [ 1 K H
i,t
i ,t
i ,t
LnK i , t
ln Y i ,t =i 1 LnK i ,t 2 LnH i , t 3
i ,t
H i ,t
y encuentre las expresiones de equivalencia entre los estimadores y los parmetros de
la segunda ecuacin.
2.
Usted trabaja en la Via Don Timoteo. Su jefe (el conocido don Timoteo) le pidi
computar la elasticidad acidez-temperatura del vino syrah. Usted tom datos por hora
de ambas variables durante varias semanas y estim usando un modelo de mnimos
cuadrados ordinarios que sta era -0.82 y el R era 0.84. Al presentar los resultados, don
Timoteo not que la medicin de temperatura estaba en escala Farenheit y la acidez en
la escala de Gousset, pero el quera la temperatura en grados celsius y la acidez en la
escala PH. Cul es la nueva elasticidad? Cul es el nuevo ajuste de la regresin? La
regla de conversin de Farenheit a Celsius es C =5/9F 32 y la regla de conversin
de Gousset a PH es G =1.8 PH .
3.
Despus de crecer sostenidamente entre 1985 y 1999, la economa entr en un
ciclo recesivo entre 2000 y 2003. El ministro de Hacienda desea saber si ha habido un
quiebre estructural en la siguiente ecuacin que describe el crecimiento de la economa:
PIB t = 01
Inv t 1
2 PCu t 1 3 CH t 1t
PIB t 1
5.55
4.
Suponga que Ud. sospecha que hay cambio estructural en su muestra de n
observaciones a partir del instante T. Qu hara Ud. si desea testear esta hiptesis
usando un test de Chow y su modelo tiene knT variables?
5.
Suponga que Ud. cree que hay cambio estructural en su modelo, pero no sabe
dnde se produce. Describa con precisin el test de CUSUM. Plantee el modelo como si
el quiebre fuese en la tendencia y capturable con una dummy. Obtenga el estimador de
los parmetros del modelo con quiebre y comprelo con el del modelo que excluye un
quiebre.
6.
En un trabajo reciente se analizan los determinantes de la migracin en funcin
de costos de transporte y atractivo relativo entre las regiones de origen y destino. El
trabajo postula que en el periodo 1987-92, la fuerza con que migraron las personas no
habra decrecido de manera significativa con respecto al periodo 1977-82. Para ello, se
comparan los resultados de dos regresiones de mnimos cuadrados del siguiente tipo
usando tests de Chow. Haga dos crticas fundamentales al procedimiento.
ln
M ij
=01 P i 2 P j 3 D4 D 2 5 W i W j 6 W i W j 6 U i 7 U j
Mi
y t = y t ty
x t =x t xt
donde las innovaciones se distribuyen i.i.d. Suponga que el modelo de regresin lineal
es el adecuado para las variables no observables:
y t =0 1 x t t
5.56
Bajo qu condiciones el estimador de de la regresin basada en {x,y} es
inconsistente?
d
11.
Al revisar los datos de un estudio de demanda q i = f p i , y i ; Ud.
descubre el siguiente fraude: el autor rellen las observaciones faltantes. Pruebe que el
estimador de la elasticidad precio est sesgado. Pruebe que el estimador de la elasticidad
ingreso (donde no faltan datos) tambin lo est.
12.
13.
Comente: Resulta innecesario preocuparse por los problemas de
heterocedasticidad si existe la matriz de White (1990). Describa en lneas generales la
extensin de Newey y West (1987).
14.
An si se violan los supuestos de homocedasticidad en el modelo clsico de
regresin lineal, los estimadores convergen en probabilidad a normal estndares porque
los residuos se distribuyen asintticamente normal debido a la ley de los grandes
nmeros no-estocsticos de Markov-Rao.
15.
Al estimar los determinantes de la distribucin del ingreso en Guyana (Si) se
encontr que sta depende de la educacin de los padres (Ei), el stock de riqueza de la
familia (Wi), el consumo de drogas de los padres(Xi), el tamao de la familia (Li) y una
dummy para los padres o madres solteras. Pero adems se descubri que los errores
estaban ordenados, de modo tal que para las familias ms numerosas los residuos
2
2
2
parecan ser ms grandes ( i = h [ L i ,Z i ] ), donde Z es una variable desconocida
ortogonal a L. Plantee formalmente una estrategia de estimacin del modelo usando el
estimador de mnimos cuadrados generalizados (ojo, Z no es observable as es que
plantee primero el estimador GLS suponiendo que Z es conocido y luego intente
resolver el problema de que no conoce Z. No use la matriz de White.
16.
Suponga que en un modelo tipo y =x se sabe que hay heterocedasticidad
provocada por el uso de variables nominales. Demuestre que en el modelo de mnimos
cuadrados ponderados que utiliza datos reales, el R est mal definido y la constante
es variable Cmo se recuperan los parmetros de inters ( ) del modelo estimado?
17.
Es preferible, en ocasiones, usar mnimos cuadrados en vez de variables
instrumentales aunque el estimador de mnimos cuadrados no sea consistente y el de
variables instrumentales s lo sea.
18.
Considere el siguiente modelo y t =' x t t , donde algn componente de x es
no observable. Plantee un estimador de variables instrumentales vlido. Bajo qu
condiciones este estimador es asintticamente consistente? Pruebe las condiciones.
19.
El siguiente problema demuestra la necesidad de usar variables instrumentales.
Considere el siguiente modelo:
5.57
c t = y t t
t N 0, 2
y t =c t i t
donde i es exgena,
1
T
lim t
i t i =2i .
t
1/
2
i /1
20.
El test de Durbin-Watson de autocorrelacin no se puede aplicar si los errores
son heterocedsticos.
21.
Suponga que su modelo es el siguiente, donde los residuos estn
correlacionados:
Y t = Y t 1u t
u t =t t 1
N 0, 2 I
Demuestre que el estimador mnimos cuadrados de , es inconsistente.
22.
Demuestre que el siguiente estadgrafo es aproximadamente equivalente a la
correlacin de primer orden de los residuos del siguiente modelo: y t = x t t
T
1
=1
2
yt 1 x t 1 yt x t 2
i=2
yt 1 x t 1 2
i=1
23.
Y t = Y t 1t | |0
u t =t t1
N 0, 2 I
Demuestre
plim =
que
si
se
1
con =
12
12
estima
Y t Y t 1 / Y 2t 1 ,
=
entonces
5.58
24.
En un trabajo reciente (Spatial Inequality, Growth, and Migration in Chile, R.
Soto y A. Torche, 2004) se analizan los determinantes de la migracin de poblacin entre
regiones en funcin de costos de transporte y atractivo relativo entre el origen y el
destino. Los datos de migracin provienen de los censos de 1982 y 1992 donde se
pregunta dnde viva usted hace 5 aos? El modelo planteado es:
ln
M ij
=01 P i 2 P j 3 D4 D 25W i W j 6 U i 7 U j
Mi
C t =0.92 C t 1u t
0.19
donde C es el consumo y el valor entre parntesis es la desviacin estndar del
estimador. Karol observ, sin embargo, que los residuos seguan el siguiente modelo:
u t =t 0.16 t1
0.02
Compute el sesgo del estimador.
26.
Demuestre que cuando se computa el estimador de mnimos cuadrados
generalizados posibles de los parmetros del siguiente modelo, no se necesita que el
estimador de sea eficiente y basta con que sea consistente.
c i =10.580.88 y i i
3.48 0.27
(a)
2 =z i
i
27.
Suponga que su modelo es y = x , donde y es el salario por hora y x son
caractersticas del individuo. Suponga ahora que por ley no se puede pagar menos que
el salario mnimo, y . Cmo afecta esta restriccin al estimador de ? Analice
consistencia y eficiencia.
5.59
28.
Suponga un modelo economtrico lineal dado por y = x para el cual la
estructura del error tiene las siguientes propiedades: t = ht t donde ht es una variable
no correlacionada e independiente de xt. Considere adems que t = t 1 t , con
1 y ruido blanco.
(a) Calcule la varianza y funcin de autocovarianza de t .
(b) Suponga que usted dispone de datos sobre ht. Cul es el estimador ms eficiente
de ? Describa detalladamente los pasos necesarios para calcularlo.
(c) Suponga ahora que no dispone de datos sobre ht. Cmo podra estimar
eficientemente el parmetro? Explique detalladamente los pasos necesarios para
calcularlo.
29.
Considere el siguiente modelo lineal y=x . Sea el estimador de mnimos
cuadrados ordinarios y sea = y x el residuo del modelo. Sea el estimador de
variables instrumentales para algn instrumento Z y sea el residuo de variables
. Si el instrumento es verdaderamente exgeno, tendr el
instrumentales = yz
modelo estimado con variables instrumentales un mejor ajuste que el de mnimos
cuadrados ordinarios (menor SRC), al menos en muestra grande?
30.
Considere el modelo y=x . Suponga que hay heterocedasticidad derivada
del uso de variables nominales (tanto x como y). Suponga que el modelo estimado
usando datos reales o deflactados no tiene heterocedasticidad. Demuestre que el valor
esperado del estimador de mnimos cuadrados de es el mismo en ambos modelos.
Demuestre que, a pesar de lo anterior, el R2 no es el mismo en ambas ecuaciones.
Sea el modelo lineal de la forma y i= z i i con E [ | z ]=0 . Suponga que
=E [2 | z ] es conocido. Demuestre que el estimador de mnimos cuadrados
generalizados de es un estimador de variables instrumentales para algn x i (es decir,
encuentre la expresin para que dicho x i cumpla lo deseado).
31.
Captulo 6
Modelos no lineales
El rea de los modelos no lineales es muy extensa y, posiblemente, es aquella que
se ha desarrollado con mayor inters en los ltimos aos, como resultado del veloz
desarrollo de la computacin. La gran mayora de los modelos no lineales se resuelven
por medio de mtodos de clculo numrico es decir, usando algoritmos de
aproximacin a la solucin debido a que no existen formas cerradas que permitan
derivar expresiones matriciales simples para obtener los estimadores. En la primera
parte de este captulo desarrollamos el instrumental necesario para entender los
mtodos de optimizacin no lineal que se usan para la estimacin de modelos no
lineales. En la segunda parte se discute los mtodos y estimadores no lineales.
6.01
S j =S j1A ,
A = cte.
3. Transforme semilla:
x j =S jB ,
B = cte.
1
2
Un tratamiento exhaustivo se encuentra en Numerical Methods in Economics, K. Judd (2000) MIT Press.
Anyone who considers arithmetic methods of producing random digits is, of course, in a state of sin . John von
Neuman
6.2
El tpico algoritmo de los programas de computacin se basa en:
Dados P, Q, R y la semilla S j .
Compute
S j1=Mod RS j , P
x j1=S j1 /Q
Muestreo estadstico
A pesar de que la rutina anterior produce numeros no exactamente aleatorios, es
una alternativa til para hacer muestras de variables aleatorias derivadas de una
distribucin uniforme [0,1]. Pero se expande para cualquier uniforme, multiplicando los
lmites de manera adecuada.
La ventaja de tener una secuencia {Z } de nmeros de una uniforme [0,1] es que
sta se puede reinterpretar como una secuencia de valores de la acumulada de otra
distribucin. Conociendo la funcin de la acumulada F . , tenemos una secuencia de
valores aleatorios derivados de la distribucin:
x =F 1 Z
(6.1)
c 0 c1T c2T 2
1 d 1T d 2 T 2 d 3T 3
(6.2)
Una vez que se tiene una normal estndar, es trivial construir una , una F u
otras distribuciones de uso comn.
John von Neumann sugiri el siguiente algoritmo. Suponga que desea una secuencia de nmeros
aleatorios de 4 dgitos. (1) Elija cualquier nmero de 4 dgitos por ejemplo, 6235. (2) Tome su cuadrado
(38,875,225). (3) Extraiga los cuatro dgitos interiores de ese cuadrado (i.e., 8752). (4) Use ahora este
segundo nmero para iterar (ir a 1).
6.3
Muestreo de Gibbs
Supongamos que existe una densidad conjunta que queremos modelar
f x , y 1 , y 2 ,... , y k . Si estamos interesados por algn momento del problema,
debiesemos calcular expresiones como:
yk
(6.3)
Estudios de Montecarlo4
Una tcnica frecuentemente usada en econometra para obtener la distribucin
emprica de los parmetros o de un test es la simulacin de Montecarlo. Usualmente lo
que se hace es estudiar cmo cambia un resultado si se alteran las condiciones del
problema, tpicamente cuando se puede controlar bien dichas condiciones. Por ejemplo,
si tenemos dudas de la calidad de un estimador debido a que la muestra no es muy
grande y conocemos cmo se genera ste, podemos hacer el experimento artificial de ver
cmo cambian los resultados al variar el tamao de muestra.
Bootstrapping5
Frecuentemente no es posible tener una buena idea de las propiedades de un
estimador y, en particular, sobre su comportamiento en la muestra. Una solucin es
4
Este mtodo fue sugerido por John von Neuman y Stanislaw M. Ulam en un trabajo no publicado (The
Origin of the Montecarlo Method). Ulam seal que el mtodo se le ocurri jugando solitario mientras
estaba enfermo en 1946. El nombre Monte Carlo se le puso porque ste era el mtodo usado para hacer
simulaciones de fisin nuclear en el proyecto de la bomba atmica cuyo nombre clave era Proyecto
Montecarlo.
El trmino bootstrap fue acuado por Bradley Efron (Bootstrap methods: another look at the jackknife,
Annals of Statistics, 7:1-26, 1979). El trmino se deriva de una historia del libro del siglo 18 Las
Aventuras del Baron Munchausen, de Rudolph Erich Raspe, en las que el protagonista haba cado al
fondo de un profundo pozo, del cual no haba escapatoria, de no ser por la proverbial idea del Barn de
salir tirando fuertemente de los cordones de sus botas (bootstraps).
6.4
hacer bootstrapping. Supongamos que de un experimiento (modelo) obtuvimos el
n con una muestra de tamao n.
estimador
Es posible hacer una muestra con m observaciones y luego estimar de nuevo
La media de n sera
1
m .
B
T B=1
Clculo de derivadas
En muchos casos es necesario calcular derivadas de alguna funcin. Tpicamente,
como ya hemos visto, cuando se computan estimadores utulizando la funcin de
verosimilitud. En pocos casos se conoce la derivada analtica de la funcin de
verosimilitud (ej, Poisson) y se puede computar directamente. Cuando no se conoce
analticamente, hay que buscar una aproximacin. La ms natural es:
F x F x F x
x
2
(6.4)
o, ms generalmente,
xi
2
(6.5)
Obviamente, el clculo de las derivadas (por ejemplo, para obtener x tal que la
derivada sea cero) puede ser tedioso y largo. Adems, la eleccin de no es trivial. Si se
escoge un valor muy grande, el algoritmo puede hacer muchas iteraciones antes de
converger al resultado. Si, por el contrario, el valor elegido es muy chico, la estimacin
estar sujeta a mayor imprecisin. Finalmente, si se usa esta aproximacin, habr error
por definicin. Si se hacen muchos clculos sobre ella, el error acumulado puede ser
sustancial.
6.5
6.02
Optimizacin no lineal
j = j 1 j 1 j 1
(6.6)
F j j j
= g j j j ' j =0
j
(6.7)
pero esto raramente se hace porque es ineficiente y costoso en tiempo. Optimizar el paso
implica que en cada iteracin hay que hacer dos movimientos. Por lo general se usa fijo
en los mtodos que estudiamos a continuacin.
6.6
Figura 6.1
1
F1
F2
j+1
j
2
Mtodos de gradiente
Los mtodos de gradiente descomponen el vector de direccin en dos
componentes:
j =W j g j
(6.8)
F j j j =F j j g j j
(6.9)
es decir:
F j j j F j = jg j j
(6.10)
por lo tanto
F j j j F j j g j ' W j g j
(6.11)
6.7
Mtodo Steepest Ascent
Este mtodo es poco sutil pero efectivo. Bsicamente consiste en escoger W =I y
= g . Es decir, pondere por 1 la informacin de las gradientes y ajuste los coeficientes
equivalentemente.
Es un mtodo muy rpido y tiene vector de direccin ptimo conocido:
2 F
g ' g
j=
donde H=
g ' Hg
'
(6.12)
Mtodo de Newton
Como todo ptimo de Newton, ste se basa en la idea es que en dicho ptimo, las
derivadas de F son cero. Se puede hacer una expansin de Taylor alrededor de cero:
F
= g 0H 0 0=0
(6.13)
j1= j H 1
j g j
(6.14)
entonces la recomendacin es
W =H 1
1
=H g
=1
(6.15)
6.8
Quadratic Hill Climbing6
Este mtodo enfrenta el segundo problema del mtodo de Newton. Si H no es
negativa definida, entonces se recomienda usar H =H I , con grande e I la
matriz identidad. Esta transformacin asegura que H sea negativa en la siguiente
iteracin.
j 1
=W j
j' j
j'W j j
(6.16)
j 1
(6.17)
d j=
6
7
8
1
' j j
1
W jj
' jW jj
(6.18)
Goldfeld, S.M.; Quandt, R.E.; and Trotter, H.F. (1966), "Maximisation by Quadratic Hill-Climbing",
Econometrica, 34, 541-551.
W. C. Davidon, AEC Research and Development Rept. ANL 5900 (Rev.) 1959. Fletcher, R. and Powell,
M.J.D. (1963), "A Rapidly Convergent Descent Method for Minimization", Comput.J., 6, 163-168.
C. G. Broyden, J. Inst. Mat. Appl. 6:222-231, 1970. R. Fletcher, Comp. J., 13:317-322, 1970. D. Goldfarb Mat.
Comp. 24: 23-26, 1970. D. F. Shanno, Mat. Comp. 24:647-656, 1970.
6.9
6.03
y i =h x i ; i
S = 2i = y i h x i ;
i
(6.20)
h x i ;
S
=2 [ y i h x i ; ]
(6.21)
h x i ; 0
h x i ; h x i ; 0 k =1
(6.22)
kk
h x i ; h x i ; 0
h x i ; 0
k =1
k
h x i ; 0
k =1
k
(6.23)
6.10
Llamando x 0 a la derivada de la funcin h, tenemos
h x i ; h x i ; 0 x 0 k x 0 k
(6.24)
h x i ; h 0 x 0 k x 0 k
(6.25)
Note que una vez escogido 0 los dos trminos al interior del parntesis son
constantes, por lo que pueden pasar al lado izquierdo pues son expresiones conocidas.
y 0=h x i ; h 0 x 0 k x 0 k
(6.26)
y 0=x 0 k
(6.27)
1
x ' x Q. Ahora
n
n
h x i ; 0
1
1
plim x 0 ' x 0 = plim
n
n i=1
k
0
][
'
h x i ; 0
= Q0
k
0
(6.28)
6.11
Para que el estimador
NLS
1
plim x 0 =0 . Finalmente, el estimador ser asintticamente normal cuando:
n
n
1
x i i N 0, 2 Q 0
n i=1
(6.29)
2 =
1
[ y h x i ; ]2
n i =1 i
(6.30)
6.12
6.04
1
plim z ' x 0 = Q 0zx
n
1
plim z ' =0
n
(6.31)
y 0 x 0
(6.32)
plim
1
1
0
0
z ' y plim z ' x
n
n
(6.33)
(6.34)
(6.35)
(6.35)
6.13
Este es un problema de optimizacin no-lineal que ya hemos estudiado. Si los
pseudo-regresores se comportan razonablemente, el algoritmo debiese producir una
estimacin del parmetro eficientemente (Davidson y McKinnon, 1993). 10
6.05
g y i ; =h x i ; i
i
f y i =
[2 2 ]1 /2e
yi
donde
[ g y i , h x i ; ]
2 2
(6.37)
i
es el Jacobiano de la transformacin, es decir:
yi
i g y i ;
=
=Ji
yi
yi
(6.38)
n
n
1
log L =
log 2 log 2 J i y i ; [ g y i ; h x i ; ]2
2
2
2 i=1
i =1
(6.39)
10 Davidson, Russell and James G. MacKinnon (1993). Estimation and Inference in Econometrics, Oxford:
Oxford University Press.
6.14
2. Actualizar 1=0 i , computar g y i ; 1 y re-estimar los parmetros usando
el estimador de mnimos cuadrados no lineales y computar el valor de la funcin
de verosimilitud.
3. Usar las funciones de verosimilitud computadas en (1) y (2) para determinar la
direccin de ajuste de los parmetros e iterar hasta que converja.
6.06
E [ yi | xi ]
=i
xi
(6.40)
por lo que, si las variables estn medidas en logartmos, se obtienen directamente las
elasticidades. En el modelo no lineal, sin embargo, los parmetros son:
E [ y i | xi ] h x i ; 1
xi
xi
g ' yi
(6.41)
por lo que los parmetros no son las elasticidades. Estas ltimas se computan,
usualmente, en la media muestral. Es decir,
6.07
h x i ; 1 x i
xi
g ' y i yi
(6.42)
Tests de hiptesis
6.15
J
[S * S ]/
F [ J ,nk]
[S /nk
]
Test F asinttico
q ]VAE R q
Test de Wald [R
[R q ]' [ J , nk ]
-1
Captulo 7
Modelos con Datos de Panel
7.2
efectos individuales estn correlacionados con los regresores hay sesgo en el
estimador del parmetro.
Por ejemplo, suponga que se desea estudiar el rendimiento de alumnos de
educacin primaria (Rend) de una cohorte como una funcin de calidad establecimiento
(Cal), las horas de estudio (Horas) y la educacin de los padres (EP). El modelo estimado
es Rend i = 0 1 Cal i 2 Horas i 3 EP i i . El verdadero modelo debe incluir la
inteligencia o habilidad natural del individuo (Hab), pero sta no es observable. Por ello,
el residuo no es ruido blanco ya que incluye el efecto de la habilidad y tiene la forma
i = 4 Hab i i .
Recuerde que si el modelo es y i = x i i , el estimador de mnimos cuadrados
x ' x 1 x ' y , reemplazando y i obtenemos:
es =
x ' x 1 x ' [ x ]
=
= x ' x 1 x ' x x ' x 1 x '
1
= x ' x x '
(7.1)
i =i 4 x i ' Hab i
(7.2)
As, si la habilidad est relacionada, por ejemplo, con las horas de estudio,
entonces habr sesgo en el estimador del parmetro. Lo mismo sucede si los colegios
seleccionan a los alumnos por habilidad.
7.3
desaparecen (las personas mueren o las firmas salen del mercado) o porque cambian las
condiciones que les haca participar de la cohorte (solteros). Si el desgaste es aleatorio el
nico problema es que se pierde eficiencia en la estimacin. Si el desgaste no es aleatorio
(p.e. cuando el desgaste es por muerte de los mayores de la muestra), hay problemas de
sesgo de seleccin.
7.1
y it =it x it it
(7.3)
donde i=1, ... , N y t=1,... , T . La variable x it contiene todos los regresores del modelo,
es decir, incluye x 1ti , x 2ti , , x k it . La existencia de efectos individuales est recogida en
la constante que ahora est subindizada t para recoger efectos temporales y
supraindizada i para recoger efectos individuales.
y it = x it it
(7.4)
p
Var =
2
=
x i ' x i NT
x i x ' x i x
i =1
(7.5)
7.4
Modelo de efectos fijos individuales
Una alternativa para modelar los efectos individuales es suponer que stos son
fijos en el tiempo y slo se refieren a caractersticas del individuo. Es decir, el modelo
queda como:
y it =i x it ti
(7.6)
Como los efectos son fijos podemos modelarlos con variables mudas y usar
mnimos cuadrados ordinarios, es decir, pondremos una variable muda (dummy) por
cada intercepto.
[ ][ ] [ ] []
y1
i 0
y2
0 i
=
0 0
yn
1
x1
0
0
x
2 2
i
xn
n
(7.7)
y it =D x it ti
(7.8)
y it =1 x it it si el individuo es tipo 1
y it =2 x it it si el individuo es tipo 2
el estimador es insesgado.
(7.9)
7.5
Figura 7.1
Modelo
Pooled
Modelo
Efecto Fijo
7.6
Figura 7.2
Rendimiento
Modelo
Efecto Fijo
1
Modelo
Pooled
2
Puntaje
El estimador intragrupos
Existe un problema evidente cuando la muestra es grande en la dimensin de
corte transversal (N), porque es poco prctico poner un nmero elevado de variables
mudas. Si usted usa la CASEN podra enfrentarse con el problema de tener que poner
5.000 dummies. Una alternativa interesante consiste en tomar el promedio en el tiempo
para un individuo de la ecuacin (7.6):
i
i
i
i
y = x
(7.10)
y it y i =i x it it i x i i
= x it x i ti i
(7.11)
x *t ' x *t 1 x *t ' y *t
=
(7.12)
Debido a que este estimador usa desviaciones con respecto a la media de cada
grupo, las variables han sido normalizadas para estudiar slo las desviaciones con
respecto a la media grupal, es decir, permite ver lo que sucede al interior del grupo. Por
ello le llamamos estimador intragrupal (within groups estimator).
7.7
Figura 7.3
y
Estimacin Intragrupal
p
S xx
= x it x ' x it x
i=1 j =1
N
T
(7.13)
S = x x ' y y
p
xy
i=1 j =1
i
t
i
t
S
p = xyp
S xx
(7.14)
7.8
N
S = x it x i ' x it x i
w
xx
i=1 j =1
N
T
(7.15)
S = x x ' y y
w
xy
i
t
i=1 j =1
i
t
S xy
y computamos el estimador como: w = w
S xx
p
S = x it x ' x it x
p
xx
i=1 j =1
T
= x it x i x i x ' x it x i x i x
i=1 j =1
N T
= x ti x i x i x ' x it x i x i x
i=1 j =1
N T
(7.16)
= x x ' x x x i x ' x i x
i
t
i=1 j =1
N T
w
xx
i=1 j =1
i
t
i =1 j=1
=S x x ' x x
i
p
xx
i=1 j =1
suma. Por el momento apliquemos la ecuacin (7.5) al modelo en (7.11) para obtener la
varianza del estimador intragrupos:
Var w =
2
N
x i x i ' x i x i
i =1 i =1
p
S xx
x i x ' x i x
(7.17)
i=1 i=1
entonces la varianza del estimador intragrupos es mayor que la del modelo pooled. Por
eso, el estimador intragrupos es insesgado pero ms ineficiente que el pooled.
Un problema de remover efectos fijos del modelo usando diferencias con
respecto a la media grupal es que tambin se remueven todas aquellas variables que son
fijas pero observables y que podran ser de inters. En el ejemplo de la educacin
primaria, la educacin de los padres est fija en el tiempo (suponga que no se capacitan
en el periodo de estimacin). El modelo podra ser escrito de manera genrica como:
y it =i x it z i ti
(7.18)
7.9
y, al usar el estimador intragrupos, se perderan todos las variables z. Tpicamente con
este mtodo se pierden variables tales como gnero, religin, raza, ubicacin geogrfica,
atributos fijos, etc.
y it =i t x it ti
(7.19)
Para modelar este tipo de fenmeno se puede usar una dummy temporal, es deir,
que tome valor uno para el t=1 y 0 en todo otro instante, otra dummy con valor uno en
t=2 y 0 en todo otro instante, etc.
El modelo de la ecuacin (7.19) con efectos fijos individuales y temporales es
conocido como two-way fixed effects model. Se debe tener cuidado con poner T
dummies temporales y N dummies individuales porque produce colinealidad perfecta.
El estimador intergrupos
Retomemos el modelo original
y it =i x it ti
(7.20)
7.10
Figura 7.4
y
E[y1]
E[y2]
E[x 2]
E[x 1]
Ei [ y it ]=E i [i x it it ]
y i =i xi i
(7.21)
S = x i x x i x '
b
xx
i=1 j =1
N
T
(7.22)
S = x x y y '
b
xy
i=1 j =1
S xy
Consecuentemente el estimador es b = b .
S xx
Este estimador es llamado intergrupos (between groups) precisamente porque al
usar la media grupal elimina toda la variacin intragrupal. Note que la suma de
cuadrados Sxx en (7.22) es exactamente el trmino que habamos dejado sin identificar en
(7.16). Es decir, se cumple:
p
S xx
=S wxxS bxx
(7.23)
7.11
Relacin entre los estimadores totales, intra e intergrupos
Es importante entender qu tipo de estimacin es la que realiza cada uno de los
estimadores que hemos derivado. Hemos escrito el modelo de efectos fijos en tres
distintas formas:
a y it =i x it it
i
i
i
i
i
i
b y t y =[x t x ]t
c y i =i x i i
(7.24)
Cuadro 7.1
Comparacin de estimadores de datos de panel
Estimador
Sxx
N
Pooled
Sxy
x x x x '
i =1 j =1
N
Between
x ti x yit y '
i =1 j=1
Within
x ti x x it x '
i
t
i
t
x it x x it x '
i =1 j=1
i =1 j=1
T
x ti x i yti yi '
i =1 j =1
N
x ti x yit y '
i =1 j=1
(7.25)
7.12
p =F w w [I F w ] b
S wxx
w
F = w
S xx S bxx
(7.26)
2
y it i x it
2= i =1
j=1
(7.27)
NT N K
7.13
y it =i x it ti
(7.28)
(7.29)
2 2
...
2 2 ...
2
2
2
... 2
(7.30)
Como los errores entre las unidades no estn correlacionados entre s, la matriz
de covarianza de residuos de la muestra completa es:
0 ... 0
0 ... 0
V=
0 0 ...
(7.31)
Ty i =Tx i T i
(7.32)
1/2
caso, se puede demostrar analticamente que basta con usar =I ii ' donde es:
T
donde
7.14
=1
T
2
(7.33)
y it y i
x it x i
(7.34)
p =F * w w [I F * w ] b
w
S xx
*w
F =
2
w
S xx 2
S bxx
2
T
(7.35)
usando el residuo del estimador intragrupos. De aqu se
T
obtiene el estimador despejando convenientemente. Ntese que esto slo se
2. Compute
=
3. Calcule
4. Obtenga
T
2
y it y i y x it x i y haga la regresin
7.15
w , b
5. Compute los estimadores de efectos aleatorios p ,
Hay, sin embargo, un segundo supuesto implcito que es necesario tomar en
cuenta. Cuando modelamos el efecto aleatorio como:
y it =i x it ti
(7.36)
Paneles desbalanceados
Es comn que en la prctica falten observaciones de alguna variable para
unidades u observaciones. Estos se llaman paneles desbalanceados o incompletos. Este
no es un problema serio. Ntese que en tanto hayan suficientes observaciones para
computar la media grupal o la media temporal, la prdida de observaciones no afecta a
los estimadores de panel por la simple razn que stos usan siempre la informacin
disponible.
La incompletitud de una base de datos de panel s afecta los estimadores de las
varianzas de los errores y, en particular, los tests de hiptesis porque, al contar los
grados de libertad, no se puede suponer que haya NT observaciones sino que un
nmero menor. En este sentido, el estimador de la varianza de los residuos de la
ecuacin (26) debe ser corregido.
7.2
7.16
se han diseado tests estadsticos que ayudan en la especificacin. En esta seccin
estudiamos los principales tests que nos permiten evaluar la aplicabilidad de los
distintos estimadores en modelos de panel.
Ho (si no hay correlacin): OLS y GLS son consistentes, pero OLS es ineficiente.
(7.38)
(7.39)
(7.40)
7.17
. Entonces el test de Hausman
y por lo tanto Var [ RE FE ]=Var [ RE ]Var [ FE ]=
es directamente:
1 [ FE ] 2 K
[ FE ]'
(7.41)
i
Tests de Poolability
Despus de haber estudiado si un modelo de efectos fijos es preferible a un
modelo de efectos aleatorios, resulta natural preguntarse si un modelo pooled es
preferible a un modelo de efectos aleatorios. El siguiente test llamado de Breusch y
Pagan se emplea comnmente (es un simple test de heterocedasticidad aplicado a datos
de panel).
i
H 0 : 2=0
H 1 : 2 0
i
t :
El test se aplica sobre los residuos del modelo pooled que denotamos por
[ ]
N
NT
2 N 1
i =1
N
i
t
i =1
1 21
(7.42)
{ }
i 2
t
i=1 i=1
H 0 : 1=2 =...=n
H 1 : 1 2 ...n
Este es un simple test de Chow, en el sentido que la H 0 seala un modelo
restringido y la alternativa un modelo sin restringir. Computamos la suma de residuos
7.18
al cuadrado de cada uno y formamos el test F:
SRCR SRCU / N 1
N 1
F
SRCU /T N1K
T N 1K
(7.43)
7.3
forma
y it =i x it y it 1 it
(7.44)
i
donde i =1, ... , N y t =1, ... ,T . La variable x t contiene todos los regresores estticos del
i
y it = x it y ti 1ti
(7.45)
y t y = [ x t x ] [ y t 1 y t 1] t
= [ x t x ] [ y t 1 y t 1 ]t
(7.46)
pero
i
t1
t =2
y it1
T 1
i
correlacionado con
porque en este ltimo se incluye t 1 .
7.19
contexto T moderadamente alto an producir un estimador sesgado. Estudios con
datos artificiales seala que con muestras de tamao T=30, el estimador puede estar
sesgado en un 20% o ms.
El estimador de efectos aleatorios tambin ser sesgado. Recordemos que para
i
i
construir el estimador hay que cuasi-diferenciar de la forma y t y . As, nuevamente
T
1
i
i
i
i
y t1 = T 1 y t 1 estar relacionado con t por construccin.
t =2
sera:
i.
y it y it 1 =i x it y it1it i x it 1 y it 2it 1
= [ x it x it 1] [ y it 1 y it2 ]it it 1
(7.47)
7.20
y ti = y it 1 it
(7.48)
Para t=3, que es el primer perodo que podemos estimar, los instrumentos
disponibles y adecuados son: y 1 .
y1 e y2 .
y 1 , y 2 e y 3.
etc.
(7.50)
[ y
i
t 1
(7.51)
1
i
1
[ y it 1 ' Z V 1
=
n Z ' y t 1 ] [ y t 1 ' Z V n Z ' y t ]
7.4
(7.52)
7.21
El primer test de races unitarias propiemente es el de Levin y Lin (1992).
Consideremos el modelo cannico:
y it =z it i y it 1 it
(7.53)
i
El test asume que t es i.i.d. y que i=, es decir que el coeficiente de la variable
endgena rezagada es igual en todos los grupos. Esto es equivalente a suponer que la
dinmica es la misma en todos los grupos. La hiptesis nula es que existe una raz
unitaria:
H0 : =1
H1: 1
h t ,s =z t
Definimos
ztzt zs ,
i =1
ti = it h t ,s is ,
i =1
i
y = y h t , s y s entonces Levin y Lin (1992) encuentran la distribucin de:
i
t
i
t
i =1
1
1
i
i
y t 1 t
N i=1 T i=1
N T 1=
N
T
1
1
y i y i
N i=1 T 2 i =1 t 1 t 1
(7.54)
y del estadstico
1
t =
1
NT
y it 1 y it1
i =1 i =1
(7.55)
it 1 it 1
i=1 i=1
Al igual que en el caso de las series de tiempo univariadas (p.e., test de DickeyFuller), las distribuciones de (72) y (73) dependen de lo que contenga z (nada, constante,
un shock individual, o un shock individual y una tendencia lineal). As:
7.22
Cuadro 7.2
z ti
0
1
N 0,2
N T 1
t N 0,1
N 0,2
N T 1
t N 0,1
0,51
t 1.875N N 0,1
N T 13
N N 5 1.25
(i, t)
0,2895
t 3.75N N 0,1
488
N [ T 17.5
] N 112 277
z ti
0,2
N
N T 1
T T 1
i
(i, t)
N 0,
N T 1
T 1
N T 1
317T 220T17
5T 1T 13
15
15193T 2 728T 1147
N 0,
2T 2
112T 23 T 2
7.23
Im, Pesaran y Shin (1997) proponen un test que (1) evita suponer que i=, y (2)
es menos complejo de estudiar. El test se basa en usar un promedio de los tests ADF
hechos para cada cross-section de modo independiente:
pi
= ij t j t
i
t
(7.56)
j=1
i
t
i
t
y =z i y
i
t 1
ij y ti j it
(7.57)
j =1
El estadstico de Im, Pesaran, y Shin, llamado t bar, es el promedio de los N ttests de la ecuacin (75):
N
t =
1
t
N i=1
(7.58)
N t
N
1
E [t i | i =1]
N i=1
N
1
V [t i | i =1]
N i=1
N 0,1
(7.59)
7.24
N
P =2 ln p i 2N
(7.60)
i =1
Las ventajas de este estimador son (1) no requiere un panel balanceado, (2) los
largos de rezagos pueden diferir entre cross-section, (3) no requiere i=. Las
desventajas es que los valores p tienen que ser obtenidos por simulacin de Montecarlo
en cada caso.