Está en la página 1de 222

Versin impresa ISSN: 0716-7334

Versin electrnica ISSN: 0717-7593

PONTIFICIA UNIVERSIDAD CATLICA DE CHILE


INSTITUTO DE ECONOMA
Oficina de Publicaciones
Casilla 76, Correo 17, Santiago
www.economia.puc.cl

NOTAS DE CLASES
TEORA ECONOMTRICA
Raimundo Soto*
Trabajo Docente N 78

Santiago, Mayo 2010

* rsoto@faceapuc.cl

Indice
1. Introduccin.....................................................................................................................................1.1
2. Teora de Probabilidades................................................................................................................2.1
2.01 Nocin de Probabilidad.................................................................................................2.2
2.02 Axiomatizacin de las Probabilidades.........................................................................2.3
2.03 Variables Aleatorias........................................................................................................2.8
2.04 Momentos de una Distribucin.................................................................................2.14
2.05 Distribuciones Discretas de Uso Comn.................................................................2.17
2.06 Distribuciones Continuas de Uso Comn...............................................................2.19
2.07 Distribuciones Conjuntas............................................................................................2.22
2.08 Distribuciones Marginales...........................................................................................2.22
2.09 Distribuciones Condicionales.....................................................................................2.24
Apndice A: Ejercicios..........................................................................................................2.26
3. Elementos de Inferencia Estadstica...........................................................................................3.1
3.01 Modelo probabilstico, modelo muestral y modelo estadstico ...............................3.1
3.02 Estadsticos muestrales...................................................................................................3.5
3.03 Distribucin de la media muestral................................................................................3.5
3.04 Caractersticas deseables de los estimadores en muestra finita................................3.6
3.05 Lmite de Cramer-Rao.....................................................................................................3.8
3.06 Elementos de teora asinttica: convergencia.............................................................3.9
3.07 Elementos de teora asinttica: leyes dbiles de grandes nmeros.......................3.14
3.08 Elementos de teora asinttica: leyes fuertes de grandes nmeros........................3.18
3.09 Propiedades de los distintos tipos de convergencia.................................................3.20
3.10 Teoremas del lmite central..........................................................................................3.21
3.11 Distribucin asinttica..................................................................................................3.26
3.12 Estimacin asintticamente eficiente (mximo verosmil).....................................3.27
3.13 Tests de hiptesis...........................................................................................................3.32
3.14 Tres tests de hiptesis asintticamente equivalentes...............................................3.34
3.15 Test de hiptesis no anidadas......................................................................................3.35
3.16 Criterios informacionales..............................................................................................3.37
Apndice A: Ejercicios..........................................................................................................3.41
4. Modelo Clsico de Regresin Lineal...........................................................................................4.1
4.01 Lgica del modelo de regresin.....................................................................................4.2
4.02 Anlisis de los supuestos del modelo de regresin lineal..........................................4.2
4.03 Representacin grfica de la regresin lineal...............................................................4.7
4.04 Derivacin del estimador de mnimos cuadrados......................................................4.8
4.05 Propiedades del estimador de mnimos cuadrados en muestra finita...................4.12
4.06 Tests de hiptesis en el modelo multivariado...........................................................4.16
4.07 Tests de hiptesis y modelo restringido.....................................................................4.21
4.08 Propiedades del estimador de mnimos cuadrados en muestra grande................4.23
4.09 Transformaciones de estimadores: el mtodo Delta...............................................4.30
4.10 Prediccin........................................................................................................................4.30
4.11 Mtodo generalizado de momentos...........................................................................4.32
Apndice A: Ejercicios.........................................................................................................4.40

Captulo 5 Violacin de los Supuestos del Modelo de Regresin Lineal


5.01 Problemas de Especificacin I: Regresores Inadecuados.........................................5.2
5.02 Problemas de Especificacin II: Cambio de Rgimen..............................................5.6
5.03 Problemas de Especificacin III: Datos errneos..................................................5.13
5.04 Problemas de Especificacin IV: Colinealidad........................................................5.20
5.05 Modelos de Varianza No Constante..........................................................................5.27
5.06 Heterocedasticidad........................................................................................................5.28
5.07 Correlacin de residuos................................................................................................5.39
5.08 Variables instrumentales..............................................................................................5.45
Apndice A: Ejercicios.........................................................................................................5.54
Captulo 6: Modelos no lineales
6.01 Elementos de clculo numrico....................................................................................6.1
6.02 Optimizacin no lineal....................................................................................................6.5
6.03 Estimacin de mnimos cuadrados no lineales...........................................................6.9
6.04 Estimacin de variables instrumentales no lineales.................................................6.12
6.05 No linealidad de la variable dependiente...................................................................6.13
6.06 Interpretacin de los parmetros de un modelo no lineal......................................6.14
6.07 Tests de hiptesis...........................................................................................................6.14
Captulo 7: Modelos con Datos de Panel.......................................................................................7.1
7.1 Modelo cannico de datos de panel...............................................................................7.3
7.2 Modelacin con datos de panel....................................................................................7.16
7.3 Modelos de panel dinmicos.........................................................................................7.18
7.4 Tests de races unitarias en panel..................................................................................7.22

Captulo 1
Introduccin
Without data all you are is just another person with an opinion (Annimo)
Facts are stupid things (Ronald Reagan, 1978).

Con frecuencia en el estudio de la economa -y de la econometra en particular


se comete el error de empezar con el anlisis de modelos econmicos sin definir
previamente lo que se entiende por modelo y sin explicar por qu es importante
construir dichos modelos. Sims (1996)1 seala que los avances en ciencias naturales y en
gran medida en economa se refieren usualmente a descubrimientos sobre nuevos
modos de comprimir datos con respecto a algn fenmeno con una mnima prdida de
informacin. Considere el siguiente ejemplo de la astronoma: Tycho Brahe (1546-1601)
acumul durante muchos aos datos confiables sobre los movimientos de los planetas.
Su asistente, Johannes Kepler (1571-1630), sin embargo, observ que podan ser
modelados como elipses con el sol en uno de sus focos, logrando una notable
compresin de informacin.2
Los modelos en economa, y en econometra en particular, buscan el mismo
objetivo: transmitir informacin sobre las regularidades que caracterizan a la economa
de modo eficiente (mxima compresin) y seguro (menor prdida). Dichas
regularidades al igual que en las ciencias naturales tienen nombres ms bien
pintorescos (p.e., ley de oferta y demanda, propensin marginal a consumir) pero
poseen el atributo de generalidad que les hace particularmente tiles: cuando se
menciona que un fenmeno queda razonablemente descrito por una ecuacin de recta
(es decir un modelo), el auditor instruido inmediatamente deduce las propiedades de
dicho modelo y, a la vez, sabe que para cada situacin especfica en la que dicho
fenmeno se verifique habr una recta particular que le describe. Uno de los primeros y
ms famosos econometristas Francis Galton seal que The object of statistical science
is to discover methods of condensing information concerning large groups of allied facts
into brief and compendious expressions suitable for discussion (Inquiries into Human
Faculty and its Development, Macmillan: London,1883, pp.55). Otra manera de ver el rol
de un modelo o teora es provisto por S. Hawking A theory is a good theory if it
satisfies two requirements: it must accurately describe a large class of observations on
the basis of a model that contains only a few arbitrary elements, and it must make
definite predictions about the results of future observations (A Brief History of Time,
New York, 1988). Debiera aadirse que los modelos deben cumplir una restriccin
adicional, derivada de la clebre sentencia de William de Occam (1285-1349) Essentia
1

C. Sims, Macroeconomics and Methodology, Journal of Economic Perspectives, 10 (Winter): 105-120, 1996.

Desilusionado con la incapacidad del modelo de Ptolomeo (85-165) para describir la trayectoria de los
planetas, Copernico enunci su teora heliocntrica en 1543 pero sin proveer soporte emprico alguno. La
contribucin de Brahe fue hacer mediciones precisas del movimiento de los planetas que hicieron posible
a Kepler la modelacin del fenmeno. La superioridad del modelo de Kepler produjo fuerte agitacin
social pues la Iglesia la consider contraria a las Sagradas Escrituras. El 26 de febrero de 1615, el
cardenal jesuita Bellarmino inici el juicio contra Galileo e incluy los libros de Copernico De
revolutionibus, Kepler Mysterium cosmographicum, y Galileo Discorsi en el Indice de Libros Prohibidos
donde permanecieron hasta 1835.

1.2
non sunt multiplicanda praeter necessitatem, es decir, que los elementos de un modelo
no deben ser aumentados ms all de lo necesario. La simplicidad es un objetivo de la
modelacin.
Objetivamente, los economistas an no somos capaces de desarrollar teoras que
sean capaces de describir la enorme heterogeneidad de los fenmenos econmicos.
Recientemente, se ha desarrollado una lnea de investigacin sobre la pregunta de cules
son las formas, causas, y consecuencias de las complejidad de los sistemas econmicos.
Rosser (2004)3 clasifica la complejidad que enfrenta un agente econmico en tres reas
fundamentales. Primero, complejidad en la estructura dinmica y posiblemente no
lineal de los fenmenos econmicos, es decir, el hecho frecuente que una pequea
perturbacin en un sistema econmico tenga repercusiones y ramificaciones dinmicas
en la economa de gran impacto (p.e., un cambio en un precio clave de la economa como
la tasa de inters). Segundo, la complejidad lgica y computacional que enfrenta un
agente econmico al tomar una decisin cuando existe un gran nmero de mercados,
oferentes y demandantes. En particular la nocin de equilibrio de los modelos
econmicos es muy compleja: por ejemplo, un equilibrio Walrasiano le exige al agente
econmico la computacin de un nmero enorme de precios relativos, el equilibrio de
Nash exige una gran capacidad de anlisis lgico para anticipar las reacciones de los
otros jugadores frente a diferentes alternativas de decisin. Tercero, la complejidad en la
aprehensin del fenmeno econmico, es decir, el problema adicional al que el proceso
de aprehender la realidad econmica es, en s, tambin muy complejo y no puede ser
llevado a cabo sin costos excesivamente altos.
Al problema de la complejidad se le suman las restricciones que enfrenta el
anlisis econmico en trminos de informacin sobre los fenmenos de inters y sus
causas. Tradicionalmente las ciencias naturales le han otorgado poco valor al anlisis
probabilstico de los fenmenos. Ello se debe a que muchos de dichos fenmenos pueden
ser replicados en laboratorios bajo condiciones experimentales controladas. En la
mayora de los problemas econmicos no resulta factible realizar un anlisis
experimental en circunstancias absolutamente controladas. Por ejemplo, no es posible
pedirle a un grupo de individuos que vuelva a estudiar una carrera profesional para
estimar cmo habra sido su perfil de ingreso en estas nuevas circunstancias. En este
sentido, los economistas usamos los datos disponibles para inferir probabilsticamente la
capacidad de una teora para comprimir informacin pertinente sobre un determinado
ms fenmeno o la congruencia con la que lo hace. Algunas de las ramas de la fsica o la
qumica han adoptado recientemente el esquema metodolgico de la economa: por
ejemplo, la astronoma no cuenta salvo honrosas excepciones con muestras de
fenmenos de gravitacin universal, sino con un fenmeno nico. 4 La fsica subatmica
3

J. Barkley Rosser, Jr. (2004) Epistemological Implications Of Economic Complexity, mimeo,


Department of Economics, James Madison University.

S. G. Djorgovski reporta que el volumen de observaciones disponibles en astronoma se dobla en


aproximadamente cada ao y medio. En cada noche, se produce aproximadamente 1 Terabyte de datos
adicionales (equivalente a la coleccin completa de la biblioteca PUC). Ello exige una modelacin
probabilstica de los datos. Virtual Astronomy, Information Technology, and the New Scientific

1.3
no puede observar directamente un fenmeno sino sus efectos, de los cuales debe inferir
la validez de una hiptesis terica. En ambos casos el anlisis es frecuentemente
probabilstico.
Es por estas razones complejidad del fenmeno y restricciones de informacin
que la economa se basa en el desarrollo y anlisis de modelos de comportamiento
validados empricamente mediante mtodos cuantitativos, en especial, los mtodos
economtricos que se discuten en lo siguientes captulos. 5 La modelacin economtrica
propiamente tal comienza de manera significativa a principios del siglo XX con los
trabajos de los fundadores de la disciplina (Galton, Pearson, Neyman, Fischer, Frisch,
etc.) que desarrollaron la base estadstica de gran parte de los tests bsicos que se usan
en la actualidad. Pero no fue si no hasta los aos 1950 que se masific el uso de modelos
economtricos como base del anlisis de polticas econmicas y para la verificacin de
diversos postulados tericos. El gran empuje de mediados del siglo XX proviene
principalmente del desarrollo de un fundamento terico slido para la econometra en
general y para los modelos economtricos de gran escala en particular. Estos ltimos se
beneficiaron de la aparicin de bases de datos adecuadas (p.e., cuentas nacionales) y de
una creciente capacidad de computacin. El xito de la econometra como base del
anlisis emprico es indudable. Ciertamente los modelos empricos cometern errores en
la descripcin de los fenmenos que nos interesa modelar; sin embargo, en este contexto
se aplica la clebre frase del padre de la computacin Charles Babbage (1791-1871)
Errors using inadequate data are much less than those using no data at all.
El diseo de modelos analticos y sus contrapartidas empricas son, en realidad,
dos caras de una ms moneda: el modo como avanza nuestro conocimiento es mediante
la continua contrastacin de teora y evidencia. En trminos pedaggicos, sin embargo,
en este libro nos ocuparemos principalmente de los modelos economtricos, los cuales
sern desarrollados sobre la base de una serie de supuestos que nos permitirn derivar
estimadores que cumplen con requisitos de calidad y los tests estadsticos asociados a
dichos estimadores. Luego invalidaremos de manera paulatina dichos supuestos para
estudiar qu efectos tiene una violacin de uno o ms supuestos sobre las caractersticas
de dichos estimadores.
El captulo 2 realiza una revisin de distintos elementos de probabilidades y
desarrolla con algn detalle el enfoque axiomtico de Kolmogorov (1933) 6 que es la base
de la estadstica moderna. Este enfoque ofrece una formalizacin axiomtica de la nocin
de probabilidad, cuyas ventajas radican en proveer una teora completa (todas las
Methodology, en Computer Architectures for Machine Perception, eds. V. Di Gesu & D. Tegolo, IEEE press
(2005).
5

The sciences do not try to explain, they hardly even try to interpret, they mainly make models. By a model is meant
a mathematical construct which, with the addition of certain verbal interpretations, describes observed phenomena.
The justification of such a mathematical construct is solely and precisely that it is expected to work . John von
Neumann.

Grundbegriffe der Wahrscheinlichkeitsrechnung, Ergebnisse der Mathematik und ihrer Grenzgebiete, J. Springer
eds. 1933.

1.4
proposiciones de la teora se derivan de los axiomas), no-redundante (ningn axioma
puede ser derivado de otros), y congruente. El objetivo es que el alumno tenga una
slida base de anlisis probabilstico y, ms importante an, que pueda conectar los
distintos componentes de la teora de probabilidades con los componentes bsicos del
anlisis economtrico: entre ellos, el experimento aleatorio, las funciones de distribucin
conjunta, condicional y marginal, y la nocin de la independencia entre variables
aleatorias. En particular, esta seccin busca que el estudiante entienda cmo los
econometristas enfrentan el problema de la complejidad del fenmeno que se desea
modelar.
El captulo 3 usa la estructura anterior para enfrentar el segundo problema del
anlisis economtrico: la limitacin de informacin. La principal adicin al modelo de
probabilidades desarrollado en el captulo 2 es la restriccin derivada del uso de
muestras estadsticas y la inevitable necesidad de usar mtodos de inferencia estadstica
para emitir juicios informados respecto de alguna hiptesis. El captulo busca que el
alumno entienda cmo se transforma la incertidumbre respecto de ms los resultados de
un experimento aleatorio en incertidumbre sobre los parmetros que caracterizan dicho
experimento, y cules son las ventajas y limitaciones de dicha transformacin.
Adicionalmente, se presenta la maquinaria de teora asinttica que ser fundamental en
el anlisis del modelo de regresin lineal del siguiente captulo.
El captulo 4 desarrolla el modelo de regresin lineal, que ha sido una de las
principales herramientas de anlisis emprico de los economistas en los ltimos 100 aos.
Este modelo, al que usualmente se le acopla el mtodo de mnimos cuadrados como
tcnica de parametrizacin, permite enfrentar un nmero muy grande de preguntas en
economa. A la vez, es suficientemente flexible como para permitir que, en caso que no se
cumplan alguno de los supuestos que le sustentan, se desarrollen estimadores
alternativos simples y poderosos. Las propiedades de los estimadores de la familia de
mnimos cuadrados deben ser estudiadas tanto en muestra pequea (finita) como grande
(infinita) para entender a cabalidad el papel de los supuestos del modelo. Igualmente, se
debe estudiar las propiedades de los tests que se construyen a partir de dichos
estimadores de mnimos cuadrados, para determinar ms su aplicabilidad en
circunstancias prcticas. Finalmente, la tcnica de mnimos cuadrados no es la nica
forma de parametrizar un modelo. En el captulo se estudian dos alternativas adicionales
de gran aplicacin prctica: el estimador de mxima verosimilitud y el mtodo
generalizado de momentos.
En el captulo 5 se estudian los problemas derivados de la violacin de los seis
supuestos sobre los cuales se desarroll el modelo de regresin lineal en el captulo
anterior. La lgica de operar es directa: en primer lugar se estudia el efecto de la
violacin sobre los estimadores de mnimos cuadrados y los diferentes tipos de tests. En
segundo lugar, propondremos, si es posible, alguna solucin, examinando el contexto en
el que dicha solucin es vlida. En tercer lugar, se discuten los sntomas que delatan la
violacin de un supuesto y se desarrollan test formales de deteccin. Por razones

1.5
pedaggicas, en este captulo se estudian los problemas de manera aislada, es decir,
afectando un supuesto a la vez.
El captulo 6 extiende la tecnologa anterior al rea de los modelos no lineales.
Esta es una literatura muy extensa y, posiblemente, aquella que se ha desarrollado con
mayor inters en los ltimos aos como resultado del veloz desarrollo de la
computacin. La gran mayora de los modelos no lineales se resuelven por medio de
mtodos de clculo numrico debido a que no existen formas cerradas que permitan
derivar expresiones matriciales simples para obtener los estimadores. En la primera
parte de este captulo se desarrolla el instrumental necesario para entender los mtodos
de optimizacin no lineal que se usan para la estimacin de modelos no lineales. En la
segunda parte se aplica dicho instrumental para derivar el estimador de mnimos
cuadrados no lineales y los tests asociados.
El captulo 7 presenta una introduccin a los modelos de datos de panel. Estos
mtodos combinan observaciones de corte transversal con observaciones de series de
tiempo. As, nos permiten responder preguntas que no pueden ser respondidas por
modelos de corte transversal o series de tiempo por separado, porque usan informacin
sobre una cohorte donde hay N individuos heterogneos a los que se les observa
repetidamente durante un periodo de tiempo T.
La literatura de la econometra se expande de manera vertiginosa. Por ello, no
tiene sentido intentar incluir un gran nmero de modelos, tests, estimadores y
algoritmos de solucin. Inevitablemente aparecern mejores modelos, tests ms precisos
y estimadores ms atractivos. El objetivo del libro es proveer al estudiante de una base
slida para entender las nuevas contribuciones que la econometra nos ofrece.

Captulo 2
Teora de Probabilidades1
Por qu necesitamos estudiar teora de probabilidades para analizar
observaciones o datos de la realidad? Por qu no nos contentamos con hacer
histogramas y usar medidas descriptivas? Supongamos que contamos con una muestra
de datos de un fenmeno de inters. Podemos hacer un grfico de frecuencias empricas
de los datos y derivar informacin til.

Figura 2.1
Inflacin mensual en Chile, 1960-2005

Aunque el grfico anterior describe adecuadamente la distribucin de una


muestra para la inflacin mensual en Chile en el periodo 1960-2005, los estadsticos
descriptivos estn confinados a dicha muestra. Cualquier pregunta respecto de la
poblacin de la cual se deriv la muestra no puede ser discutida. La esencia del trabajo
economtrico es, en este sentido, proveer resultados generales a partir de muestras cuya
informacin es limitada.
La teora de probabilidades provee un modelo matemtico para la inferencia
estadstica que, al realizarse sobre una muestra de observaciones, permite estudiar
fenmenos generales. Por eso, este captulo repasa la principal teora de probabilidades,
en tanto que el siguiente revisa los fundamentos de la inferencia estadstica clsica.

Probabilidad documentado por primera vez en francs en 1387 viene del latn probabilis y significa
que puede ser probado.

2.2

2.01 Nocin de Probabilidad


El desarrollo de la nocin de probabilidad procedi de manera intuitiva y
asistemtica hasta mediados del siglo 16. La siguiente definicin de probabilidad que
como veremos ms adelante es insuficiente fue utilizada primero por Abraham De
Moivre en 17182 y formalizada por Pierre-Simn de Laplace en 18123:

Def. 2.1:

P A =

Si un experimento puede resultar en N resultados mutuamente


excluyentes y equiprobables y si NA es uno de dichos resultados, entonces
la probabilidad de A es:

NA
N

(2.1)

Esta definicin tiene dos problemas bastante obvios. Primero, se requiere que el
nmero de posibles resultados sea finito. Segundo, y ms importante, al usarse el
concepto de equiprobable la definicin de Laplace adolece de circularidad.
Por ello se necesita una definicin formal del concepto de probabilidad. Richard
von Mises (1919) sintetiza una primera solucin a los problemas anteriores, sealando
que la nocin de equiprobabilidad puede ser eliminada y, en su reemplazo, se puede
hablar de frecuencia emprica de los datos.4 Para que sta sea de aplicacin general, se
requerira:

lim N

NA
=P A
N

(2.2)

As, por ejemplo, la probabilidad que al lanzar una moneda salga cara no es
porque de dos posibles eventos, cara es uno de ellos sino porque al repetir el
experimento un nmero grande de veces se observa que cara sucede un 50% de los
casos.
Las limitaciones del enfoque frecuentista son tambin obvias. Entre ellas, qu
significa lmite cuando N tiende a infinito? Cmo generamos secuencias infinitas de
eventos? Qu hacemos cuando no es posible generar secuencias arbitrarias de datos de
un experimento?
2
3
4

"The probability of an Event is greater or less, according to the number of chances by which it may
happen, compared with the whole number of chances by which it may either happen or fail." The
Doctrine of Chances.
Thorie Analytique de Probabilits. Laplace expresa de forma sencilla el significado del clculo de
probabilidades: "En el fondo, la teora de probabilidades es slo sentido comn expresado con nmeros".
Grundlagen der Wahrscheinlichkeitsrechnung, Zeitschrift fr Angewandte Mathematik und Mechanik,
5:52-99.

2.3
Lo que se necesita es una teora de probabilidades con una slida base
matemtica. Ella no estuvo disponible sino hasta los aos 1930.

2.02 Axiomatizacin de las Probabilidades


El enfoque axiomtico de probabilidades procede, naturalmente, de un conjunto
de axiomas (verdades a priori) y ofrece una formalizacin matemtica de la nocin de
probabilidad, cuyas ventajas radican en ser completo (todas las proposiciones de la
teora se derivan de los axiomas), no-redundante (ningn axioma puede ser derivado de
otros), y congruente.5 El trabajo fundacional para la econometra clsica en esta rea es el
de Andrei Kolmogorov (1933).6 Existen otros trabajos fundacionales para la econometra
Bayesiana.7
El punto de partida es definir el experimento aleatorio,8 que describe de manera
idealizada y simplista el mecanismo que genera los datos (usualmente llamado proceso
generador de los datos, PGD). En particular:

Un experimento aleatorio, llamado , es un experimento que satisface:

Def. 2.2:
I.

Todos los posibles eventos resultantes son conocidos a-priori.

II. En cada realizacin particular, el resultado no es conocido a-priori.


III. Se puede repetir en idnticas condiciones.

Un problema con la condicin I es que es difcil de formalizar. Kolmogorov


sugiere utilizar el conjunto S que contiene todos los posibles resultados de un
experimento definidos antes de empezar el experimento. As,

5
6
7
8

Con frecuencia se traduce errneamente la palabra consistency por consistencia. El trmino correcto
es congruencia (del Latn, coincidir), aunque el uso popular es inexacto como pasa con otras palabras
(p.e., sofisticado).
Grundbegriffe der Wahrscheinlichkeitsrechnung, Ergebnisse der Mathematik und ihrer Grenzgebiete, J. Springer
eds. 1933.
R. T. Cox, The Algebra of Probable Inference, Johns Hopkins University Press, Baltimore, MD, (1961).
El trmino aleatorio se populariz a raz del trabajo de Christiaan Huygens (De Ratiociniis in Ludo
Aleae, 1657) sobre el clculo de probabilidades en juegos de dados (aleae en latn). Aunque se considera
que este es el primer libro de probabilidades de la historia, hay un libro anterior de Girolamo Cardano
(Liber de Ludo Aleae, 1564) que est a mitad de camino entre manual de cmo apostar y libro de
probabilidades. Huygens fue adems un famoso astrnomo: descubri la luna ms grande de Saturno
Titn y sus anillos (en 1655) y la nebulosa de Orin (en 1656).

2.4
Def. 2.3:

El espacio muestral, llamado S, es el conjunto de todos los posibles


resultados del experimento . Los elementos de S se llaman eventos
elementales.

Por ejemplo, el experimento que consiste en lanzar una moneda al aire dos veces
tiene como espacio muestral: { CC ,CS , SC , SS } . Los elementos CC, CS, SC, SS son los
eventos elementales.
Por otro lado, al examinar la condicin II notamos que el evento de inters no
tiene por qu ser nicamente referido a eventos elementales y podra ser una funcin de
ellos. Por ejemplo, el evento al menos una cara define el conjunto A1 ={ CC ,CS ,SC } ,
que no es un evento elemental.
En esta lgica de definir conjuntos ( A1 , los eventos elementales, etc.), resulta
natural incorporar los dos elementos clsicos de los conjuntos: el elemento vaco es en
este contexto el evento imposible (denotado por ), en tanto que el mismo conjunto S es
llamado el evento seguro.
Un tercer problema es la nocin de incertidumbre implcita en la definicin de .
Es directo asociar probabilidad con evento elemental y, si slo existieran stos, no sera
problema usar dicha asociacin. La existencia de eventos no elementales complica el
problema porque si A1 es un evento que ocurre con P A 1 , entonces A1 =S A 1
tambin ocurre con alguna probabilidad cuando ocurre A1 . De hecho si existen dos
eventos, A1 y A 2 , se deduce que A1 A 2 y A1 A 2 tambin ocurren. Entonces,
habr que imponer alguna estructura sobre dichas probabilidades con el fin que el
modelo matemtico sea congruente.
Una alternativa sera usar el conjunto de todos los posibles A i y todas sus
combinaciones y relaciones (es decir, el conjunto potencia de S). En el experimento de
lanzar la moneda dos veces ste incluira, aparte de los eventos elementales, eventos
tales como que salga al menos una cara, que no salgan dos sellos, etc. As, el
conjunto potencia de este experimento es:

={S , ,CS ,CC ,SC ,SS ,


SC ,CS ,SC , CC , SC , SS ,
CS ,CC ,CS ,SS ,CC ,SS ,
CS , SC , CC ,CS ,SC , SS ,CC ,SS , SC ,CC ,SS ,CS }

(2.3)

De esta manera incluiramos en el espacio de los eventos, , todas las posibles


alternativas. De hecho, no importa cmo combinemos los elementos de siempre
obtenemos un elemento de .

2.5
No obstante, cuando S es infinito es posible observar incongruencias (p.e., suma
de probabilidades mayor que 1).9 As, debemos definir independientemente de S o, lo
que es lo mismo, debemos dotarlo de estructura matemtica.

Sea un conjunto de sub-conjuntos de S. es un -lgebra10 si

Def. 2.4:

dado A entonces A (cerrado para el complemento)


dado A i i =1, 2, entonces U i A i (cerrado para uniones contables o
enumerables)
Ambas propiedades juntas implican que:

S (porque A A=S )

(porque S = )

A i entonces U i A i

Dicho de manera ms simple, cualquier operacin (unin o interseccin) de


elementos de produce un elemento de . Obviamente el conjunto potencia de S es un
-lgebra. Un resultado fundamental para nuestro anlisis posterior de convergencia es
que un -lgebra contiene todos los lmites de secuencias de eventos, en tanto que un
lgebra no necesariamente los contiene. Esta propiedad se deriva del hecho que el lgebra es cerrado para uniones contables, en tanto que un lgebra es cerrado para
uniones finitas solamente.
Hasta aqu hemos resuelto el problema de incongruencias al postular la
existencia de un -lgebra asociado con un espacio muestral S (este par constituye un
espacio medible). El ltimo paso en la estrategia de Kolmogorov consiste en definir el
concepto de probabilidad formalmente, para lo cual se usa el Teorema de Extensin de
Constantin Caratheodory y la nocin de medida de Henri Lebesgue 11. Empezamos
primero con el caso ms simple, en el cual S es finito.

Ejemplo,

S={A 1 , A 2 ,}

tal

que

A 1 A 2= i j

P A i =a 0 ,

entonces

P S = P Ai = a 1 .
i =1

i =1

10 Algebra viene del ttulo de un libro rabe Hisab al jabr wal muqbalah escrito en 825 por Abu Ja'far
Muhammad ibn Musa Al-Khwarizmi (de donde se deriva algoritmo). De acuerdo a In Kholsat alHish (Esencia de la Aritmtica) escrito por Beh Eddin en 1600. Al-Jabr significa posiblemente reunin
de partes quebradas (es decir, completacin), en tanto que al-Muqbalah significa reduccin o
balanceo. El ttulo se refiere a las operaciones de suma y resta necesarias para mantener balanceada una
ecuacin y resolverla.
11 Ver Probability Theory, S.R.S. Varadhan, Courant Lecture Notes #7, American Mathematical Society, 2001.

2.6
Def. 2.5:
axiomas:

Probabilidad es una funcin conjunto en que satisface los siguientes

Axioma 1: P A 0 para todo A .

Axioma 2: P S =1 .

Axioma 3: P U A i = P A i si {A i } es una secuencia de eventos


mutuamente excluyentes en (excluyentes significa que A i A j = i j ).

Es decir, probabilidad es una funcin conjunto con dominio en y rango en el


intervalo [0, 1]:

P : [0, 1]

(2.4)

La probabilidad es una medida en el sentido de Lebesgue. Medida es una funcin


definida para un -lgebra del conjunto X y que toma valores en el intervalo [0, ] tal
que se cumplen dos propiedades: (1) la medida del vaco es cero y (2) se cumple la
aditividad contable (-aditividad), es decir, si tenemos una secuencia de conjuntos
disjuntos, la medida total es la suma de las medidas individuales.
Es conveniente notar que el axioma 2 opera simplemente como una
normalizacin.
Los dos primeros axiomas calzan tanto con la definicin clsica de Laplace como
con la frecuentista. El tercero es menos intuitivo, pero se resume en que la probabilidad
de la unin de eventos no relacionados es la suma de las probabilidades individuales.
Debido a su importancia, el tro S , , P tiene un nombre particular:

Def 2.6:

Un espacio muestral S dotado de un espacio de eventos o -lgebra y


una funcin de probabilidades que satisface los axiomas 1 a 3 se llama
espacio de probabilidades.

Algunas propiedades interesantes de esta teora de probabilidades son:

=1P A
PA

P =0

Si A1 A 2 P A 1 P A 2

P A 1 A 2=P A 1P A 2 P A1 A 2

A
A1, A2

2.7

Si {A n }n =1 es una secuencia de eventos montona (ordenada) en , entonces


P lim n A n =lim n P A n .12

Un problema evidente de la construccin de probabilidades hecha de esta


manera es que no puede usarse para enfrentar fenmenos con infinitos eventos. Por
ejemplo, cmo le asignamos probabilidades al caso en que se tiran dos dados un
nmero infinito de veces? Naturalmente, no podemos escribir el conjunto potencia como
en la ecuacin (2.3). De hecho, una pregunta crucial es si es posible construir una funcin
que cumpla con las caractersticas que se le exige a la funcin de probabilidades cuando
hay infinitos eventos. Usaremos dos elementos para extender el anlisis al caso en
cuestin: el teorema de extensin de Carathodory y los lgebras de Borel.
Un lgebra de Borel corresponde al siguiente conjunto. Supongamos que S es la
recta de los reales ={ x : x } y que el conjunto de eventos de inters es
J =B x : x donde B x ={z : z x }=( ,x ] . Es decir, el conjunto J incluye todos los
intervalos de reales menores o iguales a x. Podemos construir un -lgebra en ?
Usando la definicin de -lgebra debisemos partir de B x , luego aadir su
complemento B x , e incluir todas las uniones enumerables de B x y B x . Con ello
tendramos el mnimo -lgebra generado por los eventos en B x , llamado J . Este
es un conjunto verdaderamente grande, pues incluye todos los x, todos los ( , x ] ,
todos los ( , x ) , todos los x , , y todos los (x,z) tal que estn ordenados, x<z. Esta
lgebra es llamada lgebra de Borel, B , y permite incluir cualquier tipo de eventos, sean
o no elementales, en .13
El teorema de extensin de Constantin Carathodory prueba que para cualquier
medida de probabilidad P(.) en el lgebra puede extenderse de manera nica al lgebra generado por los reales. Note que esta medida extendida es nica. La prueba de
este teorema excede los objetivos del curso.
Si aplicamos el teorema de extensin de Carathodory al lgebra de Borel,
entonces podemos dotar de una medida a cualquier conjunto de eventos. Si esta medida
es la medida de probabilidad definida ms arriba, podemos dotar de estructura de
probabilidades a cualquier conjunto de eventos, pero al costo de generar lgebras
verdaderamente complejas.

12 Usaremos esta propiedad frecuentemente ms adelante.


13 Los conjuntos de Borel tambin se denominan conjuntos de Baire (1874-1932).

2.8

2.03 Variables Aleatorias


En la seccin anterior hemos construido el enfoque axiomtico de probabilidades
sobre la base del tro S , , P . Ahora usaremos este enfoque para estudiar
variables, probabilidades de eventos y, al final, modelacin de incertidumbre. El espacio
de probabilidades fue sugerido como una formalizacin un tanto rgida de un
experimento . Intuitivamente la conexin entre los tres elementos queda descrita en la
Figura 2.2.
Evidentemente, es difcil pensar en funciones de probabilidades a partir de la
Figura 2.2. Habra que tabular todos los elementos de y luego construir un sistema
congruente de P .
Figura 2.2

(CC)
(CS)
(SC)
(SS)

(CC)
(CS)
(SC)
(SS)
(CS,SC,CC)
(CS,SC,SS)
(SS,CC)
S

0 1

P( )

Si los resultados del experimento fuesen descritos directamente por medio de


atributos cuantificables, entonces tendramos un enfoque mucho ms flexible que
S , , P . Eso es, por lo dems, lo que sucede usualmente en economa. Ese es el
papel que juegan las variables aleatorias.
La variable aleatoria es una funcin X que mapea el conjunto S directamente en
los reales, , es decir:

X : S +

(2.5)

2.9
y asigna a cada elemento de S un valor en los reales positivos, x i . Grficamente, el
conjunto de eventos obtener sellos al lanzar dos monedas corresponde a:

Figura 2.3

(CC)
(CS)
(SC)
(SS)
0

X( )

La pregunta que nos preocupa es, obviamente, si esta variable aleatoria es capaz
de mantener la congruencia del anlisis de probabilidades al haber eliminado . La
respuesta, no muy sorprendentemente, es no. Las probabilidades fueron asignadas a
eventos en , en tanto que X asigna valores a elementos de S.
As el problema radica en cmo escoger X tal que al asignar valores de S en se
preserve el orden impuesto en , es decir, que preserve uniones, intersecciones y
complementos. Ello es equivalente a pensar en que la (imagen) inversa de X debe ser un
evento en . De esta manera, una variable aleatoria ser cualquier funcin que preserve
el ordenamiento de los eventos para un -lgebra determinado, usualmente el lgebra
de Borel, B

Def. 2.7:

Una variable aleatoria X es una funcin que toma valores reales y que
mapea de S a y que satisface la condicin que para cada conjunto de
Borel B B en , el conjunto X 1 B={ s : X s B ,s S } es un evento
en .

2.10
Algunas implicaciones importantes de la definicin anterior son:

Una variable aleatoria est siempre definida relativa a un espacio de eventos, .


Al decidir si alguna funcin Y : S es una variable aleatoria procedemos
siempre de los elementos del espacio de Borel B al espacio de eventos, y no
viceversa.
Una variable aleatoria no es variable ni aleatoria.

Note que la pregunta es Z :S una variable aleatoria? no tiene ningn


sentido si no se especifica el espacio de eventos asociado. En algunos casos habr Z
que es una variable aleatoria para algunos y no para otros. 14 Para estos ltimos
siempre se puede general el mnimo -lgebra, tomando uniones, intersecciones y
complementos. Es directo demostrar que estos mnimos -lgebras no tienen por qu
calzar con , pero que frecuentemente son subconjuntos de ste.
Adicionalmente, si X 1 y X 2 estn definidos para un mismo espacio de
probabilidades y definimos operaciones con ellos, por ejemplo, Z=X 1X 2, entonces
los mnimos -lgebras generados por estas variables aleatorias son subconjuntos
ordenados de :

X 1 Z
En trminos prcticos, este ltimo argumento sugiere que al estudiar una
variable aleatoria nos estamos concentrando en una parte (el -lgebra asociado) del
experimento completo .
Note que la variable aleatoria no es aleatoria en el sentido que la nocin de
probabilidad no entra en su definicin sino que se le asigna para completar el modelo
del experimento aleatorio. Y tampoco es una variable, sino que es una funcin de valor
real.
Como vemos, la definicin popular de variable aleatoria (p.e., Greene 15 usa
Funcin cuyo rango de valores es conocido ex-ante pero el valor que toma es slo conocido expost) esconde la verdadera naturaleza de la variable aleatoria, porque menoscaba el
concepto de funcin incluido en la definicin y enfatiza el de variable.
Recapitulando, una variable aleatoria X relativa a mapea S en un subconjunto
de la lnea de los reales. El espacio de Borel B en juega el papel que antes ocupaba .
14 Esto no es tan extrao: en un experimento en el que hay hombres y mujeres, el gnero es una variable
aleatoria. Pero si slo seleccionamos hombres o mujeres, el gnero ya no es una variable aleatoria.
15 Econometric Analysis, Prentice Hall, Tercera Edicin, 1997, p. 62.

2.11
Falta, por lo tanto, asignarle probabilidades a los elementos B de B , es decir, definir
una funcin:

P x :B [0,1]
tal que P x B =P X

B P s : X s B , s S para todo B en B.

Note que no es necesario definir todos los elementos de B, porque cada uno de
sus elementos puede ser escrito como un intervalo semi-cerrado del tipo (-,x]. As,
eligiendo los intervalos de manera adecuada, podemos construir fcilmente la funcin
de probabilidad de X. Por ejemplo, en el caso del lanzamiento de dos monedas descrito
en el Cuadro 2.1.

Cuadro 2.1
S

X1

X2

{C,C}

{C,S}

{S,C}

{S,S}

las probabilidades son simplemente:


Px({0})=

Px({1})=

Px({2})=

Px({0}{1})=

Px({0}{2})=

Px({1}{2})=

Px({0}{1}{2})=1

Px({0}{1})=0

Px({0}{2})=0

Px({1}{2})=0

Px({0}{1}{2})=0

Note que no es necesario asignarle a cada elemento de la recta real una


probabilidad sino que definimos el problema por intervalos:

[ ]

0
x 0

x 1
P x ( , x ] =
1 x 2
1
2 x

(2.6)

2.12
Recapitulando, empezamos con un experimento16 definido en el espacio de
probabilidades S , ,P y luego hemos definido la variable aleatoria X definida en
un espacio de probabilidades equivalente (, B , P x ). La ventaja de este ltimo es
que es ms fcil manejar elementos en la recta real que elementos en conjuntos
arbitrarios. Grficamente:
Figura 2.4

(CC)
(CS)
(SC)
(SS)
(CS,SC,CC)
(CS,SC,SS)
(SS,CC)
S

(CC)
(CS)
(SC)
(SS)

0 1

0 1

P( )

Px( )

Lo ltimo que falta es definir apropiadamente P x . Hasta el momento esta


funcin sigue siendo arbitraria en un subconjunto de los +, pero lo que se requiere es
una funcin punto (es decir, que mapee punto a punto). Recordemos que todos los
elementos del espacio de Borel pueden ser descritos como intervalos (, x] lo que
permite definir la funcin F : [0,1] de la siguiente manera:

P x ( ,x ]=F x F =F x

(2.7)

16 Tal vez el nfasis en la nocin de experimento pueda parecer exagerada. R.A. Fisher nos ofrece una
contundente visin de la importancia del diseo del experimento To call in the statistician after the
experiment is done may be no more than asking him to perform a postmortem examination: he may be able to say
what the experiment died of (Indian Statistical Congress, Sankhya, 1938).

2.13
y como los intervalos son ordenados, debemos exigir que F sea no decreciente,
continua y con mximo igual a 1. Es decir, limx F x =1 . Esta funcin es la que
llamamos funcin de distribucin:

Def. 2.8:

Sea X una variable aleatoria definida en S , , P . La funcin punto


F: [0,1] definida por:

F x =P x ( , x ]=Pr X x x X
se llama Funcin de Distribucin de x y cumple:

F es no-decreciente

F =lim x F x =0

F es continua por la derecha

F =lim x F x =1

Por qu preferimos F a P o a P x ? La principal ventaja de F


es que sta es una funcin punto que se puede representar de manera algebraica, que es
el manejo habitual que le damos a las funciones de distribucin.
Habr dos tipos de variables aleatorias:

Variables aleatorias discretas (ej: robos): aquella cuyo rango + es, por
convencin, algn subconjunto del conjunto de los enteros.
Variables aleatorias continuas (ej: ingresos familiares): aquella para la cual su
funcin de distribucin F x es continua para todo x y existe una funcin
no-negativa f en la recta real tal que:
x

F x = f x dx

donde f es llamada la Funcin de Densidad de x.

2.14

2.04 Momentos de una Distribucin


El valor esperado de una variable aleatoria se define como el promedio de las
realizaciones de X ponderado por su probabilidad de ocurrencia.17

E[ x ]= x f x =x

para toda funcin X discreta

(2.8)

E[ x ]= x f x dx=x

para toda funcin X continua

Note que la esperanza (media) no tiene que ser un valor que la variable aleatoria
puede tomar cuando sta es discreta. Por ejemplo considere el siguiente problema: usted
recibe $1 por cada punto que salga al tirar un dado numerado de 1 a 6 ($1 si sale 1, $2 si
sale 2, etc). cunto es lo ms que est dispuesto a pagar por jugar una vez? El valor
esperado del juego es, naturalmente, $3.5.
Otros descriptores comunes del valor central de una distribucin son la
mediana que es el valor del medio del rango de valores de la distribucin y se usa
principalmente cuando hay valores extremos, pues a diferencia de la esperanza no se ve
tan influida por stos. Cuando se trata de variables discretas ocasionalmente se usa la
moda, que es el valor que ocurre con mayor probabilidad. No tiene una aplicacin
interesante en variables continuas pues su definicin es arbitraria.
Ms all del valor esperado, se utiliza frecuentemente:

Varianza de una distribucin V x =E [x E x ]2


esperado de la dispersin de la variable aleatoria.

Skewness de una distribucin S x =E [x E x ]3 es decir, es el valor esperado


de la asimetra de la variable aleatoria.

Kurtosis18 de una distribucin K x =E [x E x ]4 es decir, es el valor


esperado de las colas de la distribucin de la variable aleatoria.

es decir, es el valor

17 En estricto rigor debisemos usar f(x) para variables aleatorias continuas y p(x) para discretas. Para evitar
un exceso de notacin, usaremos slo f(x) entendiendo la naturaleza de cada una dependiendo del
contexto que se trate.
18 Kurtosis, del griego kurtos, encorvado, curvo. Kurtosis fue usado por primera vez por Karl Pearson en
1905 en su trabajo "Das Fehlergesetz und seine Verallgemeinerungen durch Fechner und Pearson. A
Rejoinder," Biometrika, 4, 169-212. En ese trabajo se acu adems los trminos leptokurtica (lepto
significa flaco) para distribuciones concentradas alrededor de la media y con colas largas), platykurtica
(platy significa gordo), para distribuciones con colas flacas, y mesokurtica (colas normales).

2.15
Para describir la distribucin de una variable aleatoria resulta ms efectivo usar
los llamados momentos19 de la distribucin (esperanza, mediana, moda, varianza,
skewness, Kurtosis, etc.), los cuales pueden ser brutos o centrados. Un momento no
centrado de la distribucin de x tendr la forma genrica E[ x m ] en tanto que un
m
momento centrado es de la forma E[x x ] . Resulta natural preguntarse si existe
alguna forma de generar estos momentos de la distribucin. La funcin generatriz de
momentos provee una manera elegante de obtener los momentos de una distribucin:

Def. 2.9:

La funcin generatriz de momentos de una variable aleatoria


posiblemente vectorial X se define como:

m t =E [e t ' x ]= e t ' x dF x

(2.9)

donde t es el conjunto de vectores no aleatorios para los cuales la funcin generatriz de


momentos existe y es finita en la vecindad de t =0 (es decir, existe h0 tal que para
ht h existe E[ e t x ] .
La funcin generatriz de momentos provee, como su nombre indica, una manera
simple de generar todos los momentos de una distribucin. En el caso univariado, se
puede expandir la ecuacin (2.9) usando una expansin de McLaurin para obtener (el
resultado es general):

tx 2 tx 3
...]
2! 3!
t2
t3
=1tE [x ] E [x 2 ] E [x 3 ]...
2!
3!

m t =E [e t ' x ]=E [1tx

es decir, el trmino que acompaa a

(2.10)

ti
es un momento no-centrado de la distribucin
i!

de x. Ahora, tomando derivadas con respecto a t de la expresin (2.10) evaluadas en


t =0 tenemos:

19 Momento que fue utilizado inicialmente por Newton para designar el cambio infinitesimal de una
variable (De Quadraturaa Curvarum, 1704) fue introducido en estadstica por Pearson en 1893, en su
tratamiento de la media de la curva de frecuencia como el centro de gravedad entre la curva y el eje
horizontal (Asymmetrical Frequency Curves, Nature, October 26th, 1893).

2.16

m t =0
= E [x ]
t
2 m t =0
=E [x 2 ]
2
t

(2.11)

etc.

De esta manera podemos generar los momentos de la distribucin de una


variable aleatoria si sta existe. Algunas propiedades interesantes de esta funcin son

m x =E[e x ]=e t m x t si es constante.

m x y =E [e x y ]=m x t m y t si x y y son variables aleatorias independientes.

Si las variables son acotadas la funcin generatriz de momentos siempre existe y


es finita. Sin embargo, para una distribucin como la Cauchy esto no se cumple. Si x se
distribuye:

f x =

1
2
1x

(2.12)

la funcin generatriz de momentos es:

m t = e tx f x dx = si t 0
1 si t =0

(2.13)

Una solucin a este problema consiste en modificar la funcin generatriz de


momentos para obtener la funcin caracterstica, reemplazando t en la ecuacin (2.9) por
it donde i = 1 . Naturalmente, esta es la transformacin de Fourier de la funcin
generatriz de momentos. As,

t =E [e it ' x ]

(2.14)

Se puede demostrar que dos variables aleatorias son idnticas si tienen igual
t . Para ilustrar el uso que se le da a este tipo de funcin, consideremos la
distribucin Normal:

2.17

f x =

1
e
2 2

x
2
2

(2.15)

Aplicando la transformacin de la ecuacin (2.14), tenemos


it ' x
1
t =
e
2 2

x
2
2

dx

=e

2 2

it 1/ 2 t

1
e
2 2

Es posible, aunque tedioso20, demostrar que

x i t
2
2

dx

(2.16)

x i t
2
2

dx = 2 2 , por lo

que se deduce que la funcin caracterstica de la normal es simplemente:


2 2

t =e it 1 /2 t

(2.17)

La funcin caracterstica describe completamente la distribucin que, en este


2
caso, depende de la media y la varianza . La funcin es simtrica alrededor de
y si =0 su valor es real (de otro modo tiene componentes imaginarios). En particular,
si =0 , la funcin caracterstica de la normal es t =e1 /2 t .
2 2

2.05 Distribuciones Discretas de Uso Comn


Supongamos que el experimento tiene dos posibles resultados S={xito,
fracaso} y que tienen probabilidades p y 1-p, respectivamente:
Exito

x=1

P(x=1) = p

Fracaso

x=0

P(x=0) = (1-p)

En 1713 se public el libro Ars Conjenctandi que sintetiza los descubrimientos de


Jacques Bernoulli (1654-1705) sobre matemticas en particular, probabilidades entre

20 Para demostrar este resultado recuerde que e itx =costx i sin tx .

2.18
las cuales se encuentra la distribucin (o descripcin) de los datos del experimento
anterior:
x

1x

f x = p 1 p
x =0,1
=0
en cualquier otro caso

(2.18)

Como el mismo Bernoulli se encarg de demostrar, si el experimento se repite n


veces se obtiene la distribucin binomial21

f y = n p y 1 p n y
y

donde

(2.19)

n!
n =
.
y n y ! y !

Hay muchas otras distribuciones discretas tiles. Entre ellas est la descubierta
por Poisson en 1837 como el lmite de la binomial cuando n y p 0 , tal que np es
constante.22

e i
f x i ; =
xi !

(2.20)

21 Bernoulli gratuitamente asigna el descubrimiento de la binomial con exponente entero a Pascal. Newton
provee la descripcin para exponente racional pero no la prueba, que fue provista tiempo despus por
Euler. El nombre distribucin binomial fue acuado por G.U. Yule en An Introduction to the Theory of
Statistics (1911, p. 305).
22 S.D. Poisson (1781-1840) dijo: La vida es buena para slo dos cosas: descubrir matemticas y ensear
matemticas.

2.19

2.06 Distribuciones Continuas de Uso Comn


En muchos experimentos en economa no puede suponerse que las variables
aleatorias de inters sean discretas, por lo que se utilizan funciones continuas.
La distribucin normal.
Si n , la expresin de la binomial es poco prctica. De
Moivre23 encuentra la funcin de densidad que resulta en este caso:

1 1
f z =
e
2

z E z
2
2

(2.21)

es decir, la distribucin normal24. Esta distribucin es la base de muchos tests y


procedimientos de estimacin que usaremos en este curso.

La distribucin normal estndar.

si z N ,2 x =

La distribucin normal se estandariza fcilmente:

z
N 0,1

La distribucin Chi cuadrado.

(2.22)

Esta distribucin deriva de la distribucin normal.

si x N 0,1 y=x 2 1

(2.23)

Una propiedad de esta funcin es que sumas de variables que se distribuyen


tambin se distribuyen :

si x 1 1 y x 2 1 entonces y =x 1 x 2 2

(2.24)

23 De Moivre descubri en 1733 esta distribucin y la incluy en su libro The Doctrine of Chance de 1755.
Laplace extendi y generaliz este resultado en 1812 (Theorie Analytique de Probabilits), por lo que el
resultado se conoce como Teorema de De Moivre y Laplace.
24 El nombre de la distribucin normal parece haber sido acuado en los aos 1870 independientemente
por Charles S. Peirce (Report to the US Coast Guard, 1873), Wilhelm Lexis (Theorie der Massenerscheinungen
in der menschlichen Gesellschaft, 1877) y Francis Galton (Typical Laws of Heredity, 1877). De los tres, Galton
fue el ms influyente y populariz el nombre de curva normal a partir de su libro Natural Inheritence
(1889).

2.20
La distribucin F25

si y m y w n x =

y /m
F m , n
w /n

(2.25)

z
t n
w /n

(2.26)

La distribucion t de Student26

si z N 0,1 y w n x =

La distribucin de Cauchy estndar27

si X 1 y X 2 N 0,1 independientes , z =

X1
1
1
f z =
X2
1z 2

(2.27)

La distribucin logstica28

F z = 1e

z a 1
b

(2.28)

La Figura 2.5 seala la relacin que hay entre las distintas funciones de
distribucin.

25 La distribucin F fue tabulada en 1934 por G. W. Snedecor en Calculation and Interpretation of


Analysis of Variance and Covariance. Aunque a veces se le llama distribucin F de Snedecor, la letra F
que la designa fue escogida en homenaje a Fischer que us una distribucin muy similar llamada z.
26 "Student" fue el seudnimo que us William Sealy Gosset (1876-1937) en su trabajo de 1908 "The
Probable Error of a Mean", Biometrika, 6:1-25. Gosset le escribi a R. A. Fisher, "I am sending you a copy
of Student's Tables as you are the only man that's ever likely to use them!".
27 La paternidad de la distribucin de Cauchy es discutible. Algunos se la atribuyen sobre la base de una
notas presentadas a la Acadmie de Sciences en 1853, pero no publicadas. S. M. Stigler seala que
Poisson ya haba estudiado la distribucin en 1824.
28 Al parecer, el primero en usar el trmino logstica fue Edward Wright (ca. 1558-1615), aunque es
posible que se refiriese a una funcin logartmica y no a la distribucin logstica propiamente tal. La
derivacin formal se debe a P.F. Verhulst (1845): La Loi d' Accroissement de la Population, Nouveaux
Memoirs de lcadmie Royale de Sciences et Belles-Lettres de Bruxelles, 18, 1-59.

2.21
Figura 2.5

2.22

2.07 Distribuciones Conjuntas


Es posible que dos (o ms) variables puedan ser descritas por una funcin de
probabilidades conjunta

P ax b ; c yd =

f x , y

a x b c yd
b d

= f x , y dxdy
a

(2.29)

El objetivo principal de las ciencias sociales y la economa en particular es


describir (i.e., modelar) distribuciones conjuntas. La distribucin conjunta permite
asignar probabilidades de ocurrencia a fenmenos econmicos multidimensionales, es
decir, nos permite modelar la relacin entre variables que es lo que caracteriza el anlisis
econmico. Es importante notar que de la existencia de una distribucin conjunta no se
deriva que exista una relacin causal o de dependencia entre las variables. Simplemente
verifica la existencia de eventos que suceden simultneamente, lo que no implica que no
pueda existir alguna relacin entre ellos.

2.08 Distribuciones Marginales


Suponiendo que existe la densidad conjunta de dos o ms variables, resulta
natural preguntarse: qu probabilidad tiene x (o y) de ocurrir, independientemente de
los valores que tome la o las otras variables y (o x)?
Es decir, tomamos la distribucin conjunta y sumamos sobre todos los posibles
valores de la o las otras variables. En un caso de dos variables:

f x x = f x , y
y

(2.30)

= f x , ydy
y

Asociadas a la distribucin marginal habr, naturalmente, una esperanza


marginal, varianza marginal, etc.

2.23
De la existencia de las distribuciones marginales se deriva el concepto de
independencia estadstica: Si la densidad conjunta es el producto de las marginales, las
variables son independientes. El siguiente ejemplo utiliza el concepto de independencia
estadstica de un modo interesante.

Paradoja del Chevalier de Mere


En una carta de Pascal a Fermat (29/07/1654) se presenta el siguiente problema
propuesto por el Sr. de Mr, un noble francs que se apasion por los juegos de azar.
Empricamente, de Mr observ que la probabilidad de sacar al menos un 6 en 4
lanzamientos de un dado es ms que , en tanto que la probabilidad de sacar dos 6 en
24 lanzamientos es menor que . En su razonamiento, de Mr concluy que ambas
debian ser iguales: 6 es a 4 como 36 es a 24.
Naturalmente, la probabilidad de obtener un 6 en 1 lanzamiento de un dado es
1/6. Debido a que los eventos son independientes, la probabilidad de obtener un 6 en n
lanzamientos es (1/6)n. As, la probabilidad de no obtener 1 seis en 4 lanzamientos es
(5/6)n, por lo que la probabilidad de obtener al menos 1 seis en 4 lanzamientos es 1(5/6)4=0.5177. Por otro lado, y usando un razonamiento similar, la probabilidad de
obtener un doble 6 en 1 lanzamiento de dos dados es 1/36. Nuevamente, por
independencia estadstica, la probabilidad de obtener un doble 6 en n lanzamientos de
dos dados es (1/36)n, por lo que la probabilidad de no obtener 1 doble seis en n
lanzamientos es (35/36)n. Finalmente, la probabilidad de obtener al menos 1 doble seis
en 24 lanzamientos es 1-(35/36)24=0.4914. De Mr estaba en lo correcto desde el punto
de vista emprico pero su razonamiento era errneo.

Usando variables independientes resulta directo demostrar la utilidad de la


funcin generatriz de momentos. Suponga que x e y son variables aleatorias
independientes normales, entonces el proceso z = x+y cumple la siguiente propiedad:
2 2

m x t =e

x t

m x y t =e

x t

2 2

x t
2

x t
2

m y t =e

yt

yt
2

yt

yt
2

=e

x y t

x y t
2

es decir, z se distribuye como una normal con media x y y varianza x y .

2.24

2.09 Distribuciones Condicionales


Para ciencias sociales, la distribucin ms interesante es la condicional, es decir
aquella que describe cul es la probabilidad que ocurra y condicional en que x tome
algn cierto valor y que denotamos por f y | x .
Se puede demostrar que f y | x =

f x , y
. Para ello, definiremos primero la
f x x , y

nocin de probabilidad condicional. Supongamos que en el experimento de tirar dos


monedas, sabemos que el primer tiro fue cara. Cambia esta informacin la estructura de
probabilidades? Primero, note que ahora el espacio de eventos se reduce a SA={{CC},
{CS}}. Por lo tanto, el -lgebra asociado a SA es ahora A ={ ,{S },{CC },{SS }} .
Entonces, tienen que cambiar las probabilidades P , siendo ahora:
PA({ })=0

PA({SA})=1

PA({CC})=

PA({CS})=

El conocimiento a-priori que ya sali una cara nos lleva del espacio de
probabilidad S , , P al espacio de probabilidad condicional S A , A ,P A .
Definiremos la probabilidad condicional como:

P A A 1=P A1 | A=

P A 1 A
P A

(2.31)

si y slo si P A 0 . Si ahora escogemos A1 =X 1 S x 1 de forma anloga a como


definimos la funcin de densidad obtenemos la Funcin de Densidad Condicional que
describimos ms arriba.
Resulta clave entender que la media condicional de y en x, E[ y | x ] , es
exactamente el concepto de una regresin lineal en econometra. Suponga que el
experimento puede ser descrito por la siguiente relacin: y i = x i i con i una
variable aleatoria llamada ruido blanco, cuyas caractersticas son E[]=0 y
cov [i , j ]= 2 para i=j y 0 en todo otro caso. Entonces E[ y | x ]= x .
Un segunda propiedad interesante se deriva al aplicar el operador varianza
condicional al modelo anterior. Un poco de lgebra permite obtener:

V [ y | x ]=E [ y 2 | x ] E [ y | x ]
Esta es la funcin cedstica.

(2.32)

2.25
De

la ecuacin (2.32) y usando la ley de las esperanzas iteradas


E[ y ]=E x [ E [ y | x ]] , se puede obtener la siguiente expresin (denominada
descomposicin de varianza) V [ y ]=V x [ E y | x ]E x [ V y | x ] . Esta expresin
indica que la variacin total de los datos puede ser entendida o descompuesta como
la variacin de la media condicional ms la variacin de las realizaciones alrededor de la
media condicional. De esta descomposicin se desprende que:

E x [V y | x ]=V [ y ]V x [E y | x ]

(2.33)

es decir, la incertidumbre asociada a la prediccin hecha sobre la base de una regresin


es menor que aquella de los datos.29
Tambin se define la bondad de ajuste de una regresin como la relacin entre la
varianza de la media condicional (es decir, modelada) respecto de la varianza total del
fenmeno:

R 2=

V x [E y | x ]
V [ y]

(2.34)

Note que la bondad de ajuste depende de la media condicional, es decir,


depende como se modele la media condicional. Ello pone lmites al uso de la bondad de
ajuste como instrumento de seleccin de modelos economtricos.
Ms adelante volveremos a revisar conceptos tales como funcin cedstica,
bondad de ajuste, media condicional, etc. en el contexto del modelo de regresin lineal.
Es importante, a estas alturas, comprender que dichos conceptos no se restringen al
mtodo de mnimos cuadrados, sino que son de aplicacin general.

29 Nuevamente, Errors using inadequate data are much less than those using no data at all (C. Babbage).

2.26

Apndice A: Ejercicios
1. D un ejemplo de un experimento en economa que pueda ser descrito por una
distribucin normal, para las cuales usted estim su media y varianza. Justifique
cuidadosamente cada uno de sus pasos.
2. Usando la definicin de -lgebra asociado a S, demuestre que el evento seguro y
el evento imposible pertenecen al -lgebra asociado.
3. A la luz de la axiomatizacin de Kolmogorov de las probabilidades, critique la
siguiente definicin de variable aleatoria: Funcin cuyo rango de valores es conocido
ex-ante pero el valor que toma es slo conocido ex-post.
4. Identifique las principales limitaciones de las definiciones de probabilidad clsica
(de Moivre, 1718) y frecuentista (von Mises, 1919). Explique cmo el enfoque
axiomtico de probabilidades de Kolmogorov (1933) da cuenta de dichas
limitaciones.
5. En el ejemplo 2.3 del texto, es A ={SC ,CS } un -lgebra?
6. Use la siguiente distribucin conjunta f(x,y) para demostrar que aunque la
correlacin entre x e y es cero, no son independientes: f(-1,1)=f(0,0) = f(1,1) = .
7. Considere la distribucin conjunta Z(M1, IPC), donde M1 es el dinero y IPC un
ndice de precios. La distribucin marginal del dinero es normal con media x y
varianza unitaria, en tanto que la distribucin marginal del ndice de precios es
tambin normal con media y y varianza igual a . Use la funcin caracterstica
para encontrar la distribucin de Z, suponiendo que ambas variables son
independientes.
1

8. Sea una muestra de n observaciones con distribucin f y =[ 1 y 2 ]


Demuestre que el valor esperado no existe. Existe su varianza?

9. Demuestre que el coeficiente de correlacin es invariante ante transformaciones


lineales (afines) de los datos. Es decir, si r 1 y r 2 son los coeficientes de
correlacin de los datos { y n , x n } para las transformaciones abx i ; c dy i ,
i=1 ... n, con a, b, c, y d constantes no-negativas conocidas, entonces es cierto que
r 1 =r 2 .
10. Considere una variable aleatoria {x} con distribucin normal de media y
desviacin estndar . Encuentre c en funcin de la esperanza y la varianza tal
que P x c =2 P x c

2.27

11. Suponga que tiene una muestra con 1.000 datos que provienen de una normal
con media y varianzas desconocidas ( y ). Suponga que un cuarto de los datos
es menos de 2 y que tres cuartos de ellos son menores a 4. Obtenga una expresin
para estimar y .
12. Si la funcin de densidad de y es y 2 1 y 3 para y definido entre 0 y 1: qu
nmero es y cul es la probabilidad de que y est entre 0 y ?
13. Considere el sorteo Kino30 (que excluye el super nmero) como un experimento
aleatorio sujeto a la siguiente regla: En la cartilla de juego, usted debe escoger 7
nmeros, que se eligen ambos de entre 30 alternativas. Si acierta a los 7 nmeros,
ya gan el pozo Kino. (Note que en cada sorteo se sacan 7 nmeros de 1 a 30 sin
reemplazo.)

Describa el espacio muestral, S.

Describa el -lgebra asociado a S.

Compute la probabilidad de ganar si el experimento es sin reemplazo.

Es la probabilidad que Usted comput congruente con la informacin que


entrega la Lotera en la misma pgina web? Informacin adicional: Sorteos
realizados a la fecha: 922, Ganadores con 7 aciertos: 40.

14. Suponga que usted debe reorganizar el poder judicial creando un sistema de
incentivos que promueva eficiencia y ecuanimidad. Hay seis tipos de jueces
(honestos, deshonestos, ineptos, eficientes, flojos, trabajadores) y cada juez slo
tiene dos de estos atributos. Se desea estimar cuntos jueces deben ser
removidos. Considere que hay n jueces, pero usted slo puede estudiar dos
jueces cada da, los que permanecen incgnitos (muestra con reemplazo).

Construya el modelo probabilstico que describe el fenmeno. Defina


claramente el experimento aleatorio y el espacio de probabilidades.

Construya el modelo muestral asociado.

Determine un criterio de remocin razonable. cmo podra estimar cuntos


jueces hay que remover?

15. El psiclogo Tversky y sus colegas observan que cerca de 80% de las personas
preferirn la respuesta (a) a la siguiente pregunta: En un pueblo hay dos hospitales.
En el grande nacen unos 45 nios cada da; en el chico, 15. Aunque a nivel nacional la
proporcin de hombres es 50%, en cada hospital y en cualquier da dicha proporcin
puede ser ms o menos que 50%. Al final del ao, cul de los dos hospitales tendr el
mayor nmero de das en los que dicha proporcin es ms que 60%? (a) el hospital
grande, (b) el hospital chico,y (c) ninguno (el nmero de das ser igual). Puede usted
decir por qu la gente se equivoca tanto al responder?
30 I've heard that the government wants to put a tax on the mathematically ignorant. Funny, I thought
that's what the lottery was! Gallagher

Captulo 3
Elementos de Inferencia Estadstica
Es muy cierto que cuando no est en nuestro poder determinar lo que es verdadero,
debemos actuar de acuerdo a lo que es ms probable.
R. Descartes, Discurso del Mtodo, 1637

En el captulo anterior hemos discutido la estructura axiomtica de las


probabilidades que ser la base del anlisis de inferencia estadstica. Resulta natural
preguntarse por qu es necesario inferir. 1 Despus de todo, si tenemos un conjunto de
observaciones podemos describirlas usando alguna funcin de probabilidad o, en el
peor de los casos, usando un histograma.

3.01 Modelo probabilstico, modelo muestral y modelo estadstico


La lgica de razonar hasta ahora ha sido la siguiente. Utilizamos el enfoque
axiomtico de probabilidades para formalizar el concepto de experimento aleatorio ()
definido en el espacio de probabilidades S , , P . La incertidumbre respecto del
resultado particular del experimento se resume en P . Para evitar la rigidez de esta
formalizacin utilizamos un espacio equivalente (, B , P x ), en el que definimos
variables aleatorias, x. Escogiendo apropiadamente los eventos asociados a x de la forma
( , x ] podemos construir una funcin punto que describa congruentemente la
probabilidad de ocurrencia de los eventos en x y que llamamos la funcin de
distribucin, F :

P s : X s( , x ] , s S = P x ( , x ]=F x

(3.1)

Esta funcin puede ser simplificada y hecha an ms flexible con la ayuda de la


x

funcin de densidad, la que cumple F x = f u du . La ventaja de usar f u es que

ella puede ser descrita de manera algebraica. Esto nos permite sustituir la incertidumbre
asociada al experimento por incertidumbre respecto de los parmetros que, dentro
de una familia de formas funcionales, identifican una funcin de densidad especfica a la
que denominamos f x , .

Inferir viende del latn inferre que significa causar o llevar en s. El sentido popular de extraer una
conclusin es probablemente del siglo 16.

3.2
Finalmente, definimos el modelo probabilstico ={ f x ; , } a la familia de
funciones paramtricas de probabilidad (p.e., normal, Poisson, etc.) que se usa para
describir las observaciones, x. Se presume que el vector de parmetros pertenece al
espacio de los parmetros (tpicamente un mltiplo de la recta real).
La intuicin es directa: dado un conjunto de observaciones, x, cuando se postula
un modelo probabilstico que las describa basado en una distribucin f x , , se ha
eliminado la incertidumbre respecto del verdadero mecanismo que genera los datos
(PGD), reemplazndola por incertidumbre respecto de la parametrizacin adecuada de
la funcin f x , .
El objetivo de la inferencia estadstica es precisamente identificar y hacer tests de
hiptesis sobre aquel * que, con algn criterio, sea elegido para que f x ,* describa
adecuadamente los datos. Para la inferencia se usarn datos de corte transversal, de
series de tiempo, o una combinacin de ambos tipos de datos que llamamos datos de
panel.
Note la importante diferencia entre la descripcin de datos y la inferencia
estadstica. La descripcin de las observaciones puede ser hecha por medio de funciones
de distribucin escogidas a su vez mediante el anlisis de la frecuencia de los datos. Por
su lado, la inferencia estadstica pretende identificar (aproximarse) el mecanismo que
genera los datos (y no los datos mismos). Es decir, el objetivo de la inferencia es hacer un
modelo general.
La inferencia estadstica parte de la base que existe un modelo probabilstico

={ f x ; , } al que se le aade un segundo modelo, llamado modelo muestral,


que es el que provee la conexin entre el modelo probabilstico y las observaciones. Para
ello definiremos primero algunos conceptos necesarios:

Def. 3.1

Una muestra es un conjunto de variables aleatorias x 1 , x 2 , cuyas


funciones de densidad coinciden con la funcin de densidad f x ,
postulada por el modelo probabilstico.

Note que este significado est lejos del uso cotidiano de la palabra muestra, en
particular porque no se refiere a datos observados. De la definicin se deduce que una
muestra en el sentido coloquial una coleccin de nmeros en realidad corresponde a
una de las muchas posibles realizaciones del conjunto de variables aleatorias que
componen la muestra. La muestra es, entonces, un segundo experimento, diseado para
complementar el experimento descrito por el modelo probabilstico.
As, dado que la muestra es un conjunto de variables aleatorias, ella deber tener
una distribucin:

3.3
Def. 3.2

La distribucin de la muestra x= x 1 , x 2 , , x n se define como la


distribucin conjunta de la variables aleatorias {x 1 , x 2 , , x n }
denominada por:

f {x 1 , x 2 , , x n }; f x ;

(3.2)

Note que la distribucin muestral incluye dos elementos: la informacin respecto


de la probabilidad y aquella sobre la muestra. Habr, por tanto, dos fuentes de
incertidumbre. As, la forma que tome f x ; depende crucialmente del muestreo. La
manera ms intuititiva de pensar en el muestreo se deriva del mismo experimento
aleatorio, .
Resulta conveniente discutir la naturaleza de las muestras para identificar
algunas de sus caractersticas y, ms importante an, para saber el tipo de informacin
contenida en ellas.
Def. 3.3

Un conjunto de variables aleatorias {x 1 , x 2 , , x n } es llamado una


muestra aleatoria de tamao n de f x ; si dichas variables aleatorias
provienen de una misma distribucin (poblacin) y son independientes,
i.i.d. En este caso, la muestra queda descrita por:
n

f x 1 , x 2 , , x n ; = f xi ; =[ f x i ; ]

(3.3)

i=1

La primera igualdad proviene de la nocin de independencia estadstica


que ya vimos y la segunda de la condicin que las variables estn
distribuidas idnticamente.

Cuando las variables aleatorias no se distribuyen idnticamente, la muestra es


n

llamada muestra independiente y su distribucin es f x 1 , x 2 ,... , x n ; = f x i ; . Si las


i =1

variables aleatorias tampoco son independientes, la muestra es llamada muestra no


aleatoria y la nica descripcin posible de la funcin de probabilidad que di origen a las
n

observaciones es la distribucin condicional f x i | x 1 ,x 2 ,... , x n ; = f x i | x 1 , x 2 ,... ; .


i =1

La combinacin de los modelos probabilstico y muestral permite definir el


modelo estadstico, que ser la base de todo el anlisis economtrico que se desarrolla
posteriormente:

3.4
Def. 3.4

Un modelo estadstico se define como aquel que incluye:

un modelo probabilstico,

={ f x ; , }

un modelo muestral,

x= x 1 , x 2 , , x n

Obviamente, los dos modelos estn interrelacionados, pues no resulta razonable


suponer un modelo del tipo ={ f x ; , } si la muestra no es aleatoria. En tal
caso, habra que proponer un modelo para la distribucin conjunta
={ f x1 , x 2 , , x n ; , } .
El modelo estadstico y los datos observados nos permiten responder varios tipos
de preguntas:
1. Es el modelo estadstico postulado congruente con los datos? Este tipo de
pregunta es tambin conocido como anlisis de especificacin del modelo 2.
2. Suponiendo que el modelo estadstico es congruente con los datos, qu
podemos inferir de los parmetros?
a) Podemos reducir la incertidumbre sobre reduciendo el espacio de
parmetros a 0 donde 0 es un subconjunto de ? Llamada regin de
confianza de la estimacin.
b) Podemos reducir la incertidumbre sobre escogiendo un valor particular
que sea el ms representativo de ? Estimacin punto.
en llamado
c) Podemos responder la pregunta si pertenece a algn subconjunto de ?
Esta es una amplia rea de anlisis colectivamente denominada prueba de
hiptesis.

, qu podemos inferir de las siguientes


3. Suponiendo que hemos escogido
observaciones del mecanismo generador de datos? Esta rea prediccin es una
de los principales objetivos del anlisis economtrico.

El hombre mejor dotado plantea mal el problema que no comprende, Fulcanelli, Las Moradas
Filosofales, 1929.

3.5

3.02 Estadsticos muestrales


Sobre la base del modelo estadstico y de los datos observados podemos
construir estadsticos, definidos como:

Un estadstico es una funcin de Borel tal que q : X , donde X es


el espacio de las observaciones. Note que q no depende de
parmetros desconocidos.

Def. 3.5

Existen bastantes estadsticos de uso comn, entre ellos la media muestral


definida por x =

1
1
2
x i y la varianza muestral, Var [ x ]=
x i x ] . En trminos

n i
n1 i

generales, una parte sustancial del anlisis economtrico se realiza sobre la base de
estadsticos. Debido a que stos son funciones de variables aleatorias, deberemos derivar
sus distribuciones, cosa que usualmente no es fcil.

Podemos generalizar la definicin de estadstico para el caso multivariado


haciendo:

q m : X m

Def. 3.5'

donde q m es una funcin vector.

m1

3.03 Distribucin de la media muestral


Si {x 1 , x 2 , , x n } es una muestra aleatoria extrada de una poblacin con media
y varianza 2 , entonces x es una variable aleatoria con media y varianza 2 /n .
La demostracin es directa, la intuicin tambin:

x =

1
x
n i i

(3.4)

entonces

E [ x ]=

1
n

i =
2

1
1
Var [ x ]= 2 Var [ x i ]= 2 2=
n
n
n i
i

(3.5)

3.6
Note que la varianza de la suma converge a cero cuando n . Este resultado
es intuitivo pues la media muestral tiene que converger a la media de la poblacin
cuando la informacin muestral se aproxima a la poblacin. Nte, adems, que estos
resultados no dependen de ningn supuesto de distribucin de las variables aleatorias x.

3.04 Caractersticas deseables de los estimadores en muestra finita


Debido tanto a nuestro inters por aproximarnos al proceso generador de datos
con precisin y eficiencia, como al objetivo de responder al tipo de pregunta planteado
ms arriba, tendremos que estudiar para cada estadstico algunas caractersticas
deseables. Aunque no son las nicas caractersticas, las dos ms importantes son:

f
d =

E [ ]=

Estimador insesgado

posible
Menor V [ ]

Estimador eficiente

Naturalmente, no puede esperarse que todos los estimadores sean insesgados y


de varianza mnima. Por ello es usual preguntarse si para un determinado problema es
preferible tener un estimador con sesgo pero eficiente o insesgado pero ineficiente. Un
criterio posible para evaluar este trade-off es estudiar la estructura del error cuadrtico
medio ECM, que se define como:

2]=Var []sesgo[ ]2
ECM =E [

(3.6)

La existencia de un trade-off nos hace usualmente preguntarnos si existe algn


estimador que sea ptimo (es decir, insesgado y de varianza mnima). Bajo ciertas
condiciones, el estimador de mxima verosimilitud resulta ser ptimo.
Consideremos que tenemos una muestra de n observaciones de la variable
aleatoria x tal que sus componentes son independientes e idnticamente distribuidos.
Como sealamos, si cada dato viene de f x i , , la distribucin conjunta de la muestra
es:
n

= f x 1 , x 2 , , x n ;= f xi ;=[ f x ; ]

(3.7)

i=1

donde es llamada la funcin de verosimilitud. Esta funcin mide la probabilidad que


los datos que disponemos vengan de un mismo modelo probabilstico.

3.7
El estimador de mxima verosimilitud ser aquel * que hace mxima la
probabilidad que los datos provengan de f x , . Este estimador es formidable, en el
sentido que posee cuatro caractersticas importantes: es insesgado, es de varianza
mnima, es asintticamente normal y es invariante para transformaciones afines. Ms
adelante desarrollamos in extenso este estimador, estudiando sus propiedades y las
condiciones necesarias para su existencia.

Ejemplo:
Supongamos que los datos son tomados independientemente y
corresponden a robos de billeteras por mes en el campus San Joaqun. La
muestra X es: {2,0,3,4,1,3,0,2,3,4,3,5}. Si creemos que la distribucin de
probabilidades que mejor representa los datos es alguna de la familia de la
Poisson. Entonces:

f x i ; =

e ix
xi !

En este caso particular, la funcin de verosimilitud es:


10

12

f x 1 , x 2 , , x 12 ; =
i =1

x
i

12

e e
=
xi !

xi

i=1

12

xi !

e 12 30
358,318,080

i=1

Podemos optimizar la ecuacin anterior pero resulta ms fcil


optimizar el logaritmo de la funcin de verosimilitud, ya que ste es una
transformacin montona. Entonces,

log f x 1 , x 2 , , x 12 ; =1230 loglog 358,318,080


Buscamos aquel que hace ms probable que los datos vengan de
una Poisson. Lo que se resuelve de manera elemental mediante clculo para

obtener =2,5
. Se debe comprobar que la segunda derivada sea negativa,
es un mximo.
para asegurar que

3.8

3.05 Lmite de Cramer-Rao3


Suponiendo que la funcin de densidad satisface ciertas restricciones que
estudiamos ms adelante, la varianza de un estimador lineal insesgado de un
parmetro es mayor o igual a:4

[ I n ] = E

2 ln L
2

] [
1

= E

ln L

]
2

(3.8)

Un estimador que alcanza este lmite inferior es llamado completamente


eficiente. El inverso de la cota de Cramer-Rao es llamado nmero informacional de
Fisher y se le designa por I n . La ecuacin anterior requiere que se cumpla el
teorema de Lindberg y Feller que ya vamos a estudiar y demostrar. En palabras
sencillas, las condiciones requeridas para que sea vlido son:

El conjunto de eventos que cubre la funcin de probabilidad no depende de .

Para cualquier parmetro , las derivadas de la funcin de verosimilitud existen


y, en particular, las segundas derivadas son finitas.
Por ejemplo, el lmite Crmer-Rao en el ejemplo de la Poisson sera:

2 log L
=
2

x i
i

n
2

(3.9)

La utilidad del lmite de Crmer-Rao es que si algn estimador insesgado alcanza


dicho lmite, entonces ste ser ptimo y no ser necesario buscar otro. Note que en el
caso multivariado, I es una matriz, con valores fuera de la diagonal, posiblemente
distintos de cero.
Un segundo concepto relacionado de gran utilidad es el de estadstico suficiente.
Intuitivamente, un estadstico suficiente condensa la informacin de n variables
3

Esta desigualdad fue obtenida independientemente por H. Cramr (1946 Mathematical Methods of
Statistics) y C. R. Rao (1945 Bull. Calcutta Math. Soc. 37, 81-91). L. J. Savage (Foundations of Statistics, 1954)
seala, no obstante, que M. Frchet (1943) y G. Darmois (1945) haban propuesto tentativamente el
nombre "desigualdad informacional para la misma ecuacin. Predeciblemente, slo los franceses usan
desigualdad de Frchet-Darmois-Cramr-Rao.
Note las diferencias entre ambas expresiones. Ms adelante mostramos por qu ambos parntesis son
iguales.

3.9
aleatorias en una sola variable aleatoria. Si no hay prdida de informacin en esa
reduccin, el estadstico efectivamente describe los datos de la muestra. Un estadstico
. es suficiente si al hacer inferencias sobre estamos indiferentes entre usar la
coleccin de variables aleatorias X o x . Obviamente preferimos x por ser de
menor dimensin que X. Ms formalmente, el teorema de factorizacin de NeymanFisher es:
Def. 3.6

Un estadstico : X es llamado suficiente para si la


distribucin condicional de f x | x = es independiente de , es
decir no aparece en f x | x = y el dominio de f(.) no envuelve a
.

3.06 Elementos de teora asinttica: convergencia


es desconocida. Para poder hacer
Usualmente la distribucin de un estimador
inferencias utilizamos elementos de la teora asinttica, que nos permiten estudiar las
propiedades de los estimadores cuando la muestra es de tamao infinito.
A lo largo de este captulo vamos a usar dos herramientas: Leyes de los Grandes
de ) y Teoremas del
Nmeros (en trminos generales describen qu tan lejos est
).5 Un primer paso
Lmite Central (que permiten hacer inferencias sobre usando
ser estudiar el concepto de convergencia, que en nuestro caso es anlogo pero no
equivalente al concepto de convergencia usado en series y progresiones.

Def. 3.7:

Una secuencia es una coleccin infinita de objetos ordenados y contables.


Podemos tener secuencias de nmeros, vectores, matrices, etc.

La secuencia {a t } converge a a si >0 existe N tal que T>N, aT - a < donde


. es la distancia Euclideana. Escribimos

lim T a T =a a T a

(3.10)

El nombre de esta familia de teoremas fue acuado por George Polya (1887-1985) en "ber den zentralen
Grenzwertsatz der Wahrscheinlichkeitsrechnung und das Momentenproblem", (Mathematische Zeitschrift,
8 (1920), 171-181). Posiblemente, Polya us el trmino "Zentral" para indicar que su importancia es
central en el anlisis. No obstante, el trabajo de Polya es de tercera generacin. La primera generacin la
encabeza De Moivre en los aos 1730 cuando deriva la distribucin normal. La segunda generacin
corresponde a los trabajos sobre la distribucin normal del siglo 19 de Laplace, Poisson, Cauchy y otros.
La tercera generacin es aquella que encabeza Chebyshev y sus estudiantes Markov y Lyapounov.

3.10
Este tipo de convergencia no es el que nos interesa en estadstica; no es la
secuencia de valores o realizaciones de un experimento aleatorio sino la convergencia de
las probabilidades asociadas a la variable aleatoria. As, hay varios modos de
convergencia de inters para la modelacin economtrica. Ya nos hemos referido a dos
de ellos al revisar las distribuciones Bernoulli y Normal, que en s son dos lmites que
reflejan distintos modos de convergencia.
Bernouilli demostr que si S n es el nmero de ocurrencias de un evento A en n
intentos de un experimento aleatorio y p=P A es la probabilidad de ocurrencia de
A en cada intento, entonces para 0 :

lim n Pr

Sn
p =1
n

(3.11)

es decir, el lmite de la probabilidad del evento


n .

S n /n p

se acerca a 1 cuando

Prueba: Si las variables aleatorias siguen una Bernoulli, su suma sigue una Binomial:

P S n=r = n pr 1 pnr
r
entonces se cumple:

P S nnp n =

r np n

2
r
nr
n pr 1 pnr 1
r np n p 1 p

2 2
r
r
n r np n
1
1
= 2 2 E S n np2= 2 2 V S n
n
n
p
1
p
1
= 2 2 np1 p=
n
n 2

Por otro lado, De Moivre y Laplace encontraron que cuando S n /n p es


multiplicado por el inverso de la desviacin estndar y n , el resultado se aproxima
a una distribucin normal.

lim n Pr

Sn p
n

p1 p
n

z =

1 u
e
du
2
2

(3.12)

3.11
Estos dos teoremas proponen como veremos ms adelante distintos modos de
convergencia. Adems, tienen algunos supuestos que deben cumplirse y vale la pena
revisar antes de seguir avanzando:

S n = x i , es decir, S n corresponde a una suma de variables aleatorias.

1.
2.

x i=1 si el evento A ocurre y x i=0 si no ocurre, es decir, x i es una variable


aleatoria que se distribuyen Bernoulli y, por lo tanto, S n es una variable
aleatoria que se distribuye Binomial.

3. Las variables aleatorias x i son independientes.


4.

f x 1 = f x 2 == f x n , es decir, las variables aleatorias x i estn


idnticamente distribuidas con Pr xi =1= p y Pr xi =0=1 p para todo x i .

5. Debido a que E S n /n= p , entonces el anlisis se hace considerando las


diferencias entre una variable aleatoria S n y su valor esperado. Es decir, se
refiere a la dispersin de x.

La diferencia ms importante entre ambos teoremas, sin embargo, tiene que ver
con el tipo de convergencia implcita en cada una: mientras Bernoulli se concentra en
convergencia en probabilidad, De Moivre y Laplace usan el concepto de convergencia en
distribucin. En lo que sigue revisamos varias formas de convergencia.
Def. 3.8

Una secuencia de variables aleatorias (reales o vectoriales),


converge en probabilidad si:

lim n Pr x nx=1

{x n } ,

(3.13)
p

lo que escribimos plim x n= x . A veces se escribe x n x .

Def. 3.9

Una secuencia de variables aleatorias (reales o vectoriales), {x n } ,


converge en distribucin a x si la funcin de distribucin F n x
converge a la distribucin de F x para todo punto de F (ver Figura
3.2).

lim n F n x= F x
d

(3.14)

Escribimos x n x y llamamos a F la distribucin lmite de x n .

3.12
Figura 3.2
Convergencia en distribucin

N=500
N=250
N=100
N=50

Def. 3.10

Una secuencia de variables aleatorias (reales o vectoriales),


converge en media cuadrtica a x si:

lim n E x n x2=0

{x n } ,

(3.15)

lo que escribimos x n x .

Def. 3.11

Una secuencia de variables aleatorias (reales o vectoriales),


converge casi seguramente a x si:

Pr lim n x n= x=1

{x n } ,

(3.16)

a.s.

lo que escribimos x n x .6

Suponga que el espacio muestral S est definido en el intervalo [0,1] con distribucin uniforme. Suponga
n
la siguiente variable aleatoria X n s =s s y X s = s . Entonces, para todo S [ 0,1 ) , s n 0 cuando
n y Xn(s)X(s). Sin embargo, X n 1=2 para todo n y no converge a X(1). Como la convergencia
ocurre en [0,1) y P([0,1))=1, entonces XnX almost surely.

3.13
La relacin entre las distintas formas de convegencia puede sintetizarse en el
siguiente diagrama.

La demostracin de estas relaciones es directa aunque algo tediosa.

Teorema 1:

E x n 0 x n 0

Demostracin

E x 2n = x 2 dF n x

x 2 dF n x

x| x

x 2 dF n x 2 x 2 dF n x donde S= x | x 2 2
2

x| x

Tomando la ultima integral

x
S

dF n x = dF n x dF n x =F n [ 1F n ]

=P x n P x n P x 2n
Entonces:
2
n

P x

E x 2n
2

As, si E x 2n 0 , entonces x n converge en probabilidad a cero.

Teorema 2:

xn x xn x

Demostracin: reemplace x n por x n x en el Teorema 1.

3.14

3.07 Elementos de teora asinttica: leyes dbiles de grandes nmeros


A principios de 1800, S. Poisson7 se di cuenta que el supuesto 4 de Bernoulli
distribucin idntica no resultaba fundamental para obtener los resultados de
convergencia.
Teorema de Poisson: Sea {x n } una secuencia de variables aleatorias independientes tipo
Bernoulli con Pr x i =1= p y Pr x i =0=1 p , para todo x i ,
entonces para cualquier >0

lim n Pr

Prueba:

Sn 1 n
p =1
n n i =1 i

(3.17)

La manera ms corta de probar este teorema es usar la funcin caracterstica.


itx
Sea X t =E [ e ] la funcin caracterstica de xi, una variable aleatoria que
se distribuye con media y varianza finita. La expansin de la funcin
i

it 2
it 3
2
,
2!
3! 3
xi
caracterstica
de
es
n

caracterstica alrededor de t=0 es x t =1 it 1


i

por

lo

x / n t =1
i

que

la

funcin

it
t 2
1
o1/n 2 . Entonces, la funcin caracterstica de
2 2
n
2! n
n

it
t 2
la suma 1/n xi es x / n t = 1
1
o 1/n 2 . Aplicando
2 2
n
2! n
i=1
i

it
t 2
1
o 1/n 2 . Pero
2 2
n
2! n
log 1z z
por lo tanto

logaritmo se obtiene log x i /n t =n log 1


si

n ,

se

puede
2

aproximar

t
o 1/n . Finalmente, tomando lmite tenemos
2! n 2
lim n log x /n t =it 1 . Esta es la funcin caracterstica de una
log x / n t = it 1
i

distribucin cuya densidad est concentrada en 1= . Es decir x i .

Recherches sur la Probabilit de Jugements, Principalment en Matiere Criminelle, Comptes Rendus


Hebdomadaires des Sances de lcadmie de Sciences, 1, 473-494, 1835.

3.15
P. Chebyshev (1887)8 se di cuenta que, en realidad, no slo el supuesto 4 era
innecesario sino que el supuesto 2 tampoco ayudaba a obtener el resultado. Lo
importante es que se est comparando una suma de variables aleatorias con su media
(valor esperado).
Teo. de Chebyshev: Sea {x n } una secuencia de variables aleatorias con media y varianza
c y sean c y constantes, entonces para todo >0

lim n Pr

1
x 1 =1
n i=1 i n i=1 i

(3.18)

Para probar este teorema usamos la propiedad que las variables aleatorias x son
independientes. Por ello:

Var

1
1
c
x i = 2 i2

n i=1
n
n i=1

(3.19)

Para probar el teorema (3.19), vamos a usar la desigualdad de Chebyshev:


Prob[x nc n] E [ x nc n 2 ]/2 , pero se le aplicar a 1/n x i .
Antes vamos a probar la desigualdad de Chebyshev, para lo cual usamos la
desigualdad de su discpulo A. Markov. Sea x n una variable aleatoria que toma valores
no negativos y una constante, entonces:

Prob[ x n ]

E [ xn ]

(3.20)

La prueba es directa. Recordemos que podemos separar la esperanza de x como:

E [ x n ]=Prob[ x n ] E [ x n | x n ]Prob [ x n ] E [ x n | x n ]

(3.21)

debido a que x n no es negativo, entonces ambos trminos son no negativos. Por ello:

E [ x n ] Prob[ x n ] E [ x n | x n ]
8

(3.22)

Existen numerosas formas de escribir este nombre, derivadas del uso de Tc en vez de C, i en vez de y, y ff
en vez de v.

3.16
pero la esperanza condicional debe ser mayor o igual que por definicin, luego se
obtiene que E [ x n ] Pr [ x n ] . Ello prueba la desigualdad de Markov. Para probar la
desigualdad de Chebyshev simplemente usamos en x n c n en vez de x n y en vez de
.
Volviendo al teorema de Chebyshev,
n

Pr

2i

1
x 1 2
n i=1 i n i=1 i

i=1

(3.23)

c
n 2

pero tomando el lmite cuando n de esta ecuacin notamos que es cero.

lim n

n
n
c
1
1
=0
,
entonces
lim
Pr
x

=0

n
n 2
n i =1 i n i=1 i

(3.24)

debido a que la probabilidad no puede ser negativa. Ello prueba el teorema de


Chebyshev.
Markov9 se di cuenta que en la prueba anterior, el supuesto que las variables
x 1 , x 2 , , x n fueran independientes cumple un rol menor. De hecho, slo se usa para
n

computar la varianza de la suma S n : Var S n =

1
2 . La prueba anterior slo
n i =1 i

requiere que Var S n 0 cuando n . Pero la varianza de una suma es la suma de


las varianzas ms las covarianzas:

Var

i=1

xi =

i =1

Var x i Cov x i , x j

(3.25)

i j

note que la doble suma de covarianzas es a lo ms del mismo orden que la varianza. Por
ello la condicin que se necesita cumplir es que Var x converja ms lento que 1/n 2
para que el teorema se sostenga. Por ello, el supuesto 3 no es crucial.

Teo. de Markov: Sea {x n } una secuencia de variables aleatorias tales que 1/n Var S n 0
,cuando n, entonces

lim n Pr

1
1
x i E x i =1

n i =1
n i=1

ber die freie quivalentz der geschlossenen Zpfe. Recueil Math. Moscu, 1935.

(3.26)

3.17
No obstante, un estudiante de Markov llamado A. Kinchine 10 not que en el caso
de variables aleatorias independientes e identicamente distribuidas, la condicin de
Markov tampoco era necesaria. Si las variables aleatorias son i.i.d., no es necesario poner
restriccin alguna sobre las varianzas.

Teo. de Kinchine: Sea {x n } una secuencia de variables aleatorias i.i.d., entonces la existencia
de E x i = es suficiente para garantizar que

Pr

1
x =1
n i=1 i

(3.27)

Pero ambos teoremas tienen distintas condiciones y no son generales.


Finalmente, el teorema de Kolmogorov 11 provey las condiciones necesarias y suficientes
para que se cumpla la Ley Dbil de Grandes Nmeros (LDGN).

Teo. de Kolmogorov 1: La secuencia de variables aleatorias {x n } obedece LDGN si y slo si:

[ ]
[

S n E xi
i

0 , cuando n

(3.28)

n S n E x i
i

El teorema anterior requiere que [S n E x i] crezca ms lento que n 2 , de


otro modo el limite (3.28) no se desvanece cuando n crece.

10 Recherches sur la structure des fonctions mesurables en Fundamanta mathematica, 1927.


11 Grundbegriffe der Wahrscheinlichkeitsrechnung, Ergebnisse der Mathematik und ihrer Grenzgebiete, J. Springer
eds. 1933.

3.18

3.08 Elementos de teora asinttica: leyes fuertes de grandes nmeros


A diferencia del caso anterior, ahora estamos interesados en convergencia casi
segura. El primero en probar una ley fuerte de grandes nmeros (LFGN) fue E. Borel en
190912.

Teo. de Borel: Si {x n } es una secuencia de variables aleatorias i.i.d. distribuidas a la Bernoulli,


entonces:

Pr lim n

Sn
= p =1
n

(3.29)

es decir, el evento {s : lim n S n s/n= p


Esta expresin puede ser re-escrita como:

lim n Pr maxm n

sS } tiene probabilidad 1 cuando n .

[ ]

Sm
p =0
m

(3.30)

de donde se puede ver la relacin entre la LDGN y la LFGN. La primera se refera a

lim n Pr

Sn
p =1 , pero:
n

Sn
S
p max m n m p
n
m

(3.31)

por lo tanto si alguna funcin cumple (3.34) cumplira con LDGN, es decir,
a.s.
p
xn x xn x .
A. Kolmogorov reemplaza la condicin de Markov sobre las varianzas
n

V S n =

k =1

1
2 0 cuando n con una condicin ms fuerte:
2 i
n i=1
1
V x k
k2

(3.32)

12 Les probabilits dnombrables et leurs applications arithmtiques, reprinted as Note V in E. Borel,


Leons sur la Theorie de Fonctions, Gauthiers-Villars (1914), 182-216. En 1928, A.Y. Kintchine populariz el
trmino Ley Fuerte de los Grandes Nmeros para distinguirlos de los teoremas a la Bernouilli basados
en convergencia en probabilidad (Sur la loi forte de grand nombres, Comptes Rendus de lcadmie de
Sciences, 186, p286, 1929).

3.19
lo que le permite probar la LFGN para el caso en que las variables son simplemente
aleatorias.

Teo. de Kolmogorov 2. Sea {x n } una secuencia de variables aleatorias independientes tales


que existe E x i y V xi y se satisface la condicin anterior,
entonces:

Pr lim n

1
n

i=1

x i E x i ] =0 =1

(3.33)

Este teorema se prueba igual que la LDGN, con la salvedad que en vez de usar la
desigualdad de Chebyshev se usa la desigualdad de Kolmogorov: Sean x 1 , x 2 , , x n
2
variables aleatorias independientes tales que V x i = i i , entonces para
cualquier 0 :
n

Pr max l k nS kE S k =

1
2i
2
i=1

(3.34)

Ms an, si la secuencia x es i.i.d. tales que E x i , entonces:

k =1

Var X k
k

k =1

1
x 2 f x dx
2
k

(3.35)

lo que seala que, para tal caso, la existencia de la esperanza es una condicin necesaria
y suficiente para que se obtenga la LFGN.
Hemos visto algunas de las condiciones necesarias para la LDGN y LFGN. Qu
es lo que realmente se necesita? Para la LDGN se necesita la condicin de Markov y para
la LFGN se necesita la condicin de Kolmogorov y ambas se refieren a que se debe
restringir la V S n para que no crezca ms rpido que n2.13
La nomenclatura tpica es V S n =O n , donde O(.) significa orden de
probabilidad. Orden de probabilidad es un concepto til que viene en dos sabores: O(n)
y o(n). Suponga que existen dos secuencias de nmeros reales, a y b. La notacin
a n =O b n corresponde a a es al menos del orden de bn, en tanto que a n =o b n
corresponde a a es de un orden menor a bn. Formalmente,
13 Las series de tiempo integradas, que son la mayora en macroeconoma, no cumplen esta restriccin.

3.20

a n =O b n cuando n si lima
a n =o b n cuando n si lim a
por ejemplo,

1
1
=O
2n4
n

a n

K y K 0
bn
a n
=0
bn

(3.36)

y 2n 2 4=On 2 =on 3 .

3.09 Propiedades de los distintos tipos de convergencia


Algunas propiedades interesantes y tiles de los distintos tipos de convergencias
son:
1. Teorema de Slutsky: plim g x n =g plim x n .
2. Teorema de mapeo continuo: Sea x i un vector de variables aleatorias y sea
g una funcin real continua en el vector fijo . Entonces,
p
p
x i g x i g .
3. Si g x n es cncava, se cumple la desigualdad de Jensen: g E [ x n ] E [ g x n ] .
Esta desigualdad es crucial cuando se desea hacer predicciones.
4. Si x n e y n son variables aleatorias con plim x n=a y plim y n=b entonces:

plim x n y n =ab
plim x n y n =ab
plim x n / y n =a/ b
d

si b0
d

5. Si x n x y plim y n=c , entonces x n y n cx


d
d
6. Si x n x y g x n es continua, entonces g x n g x

7. Si la distribucin lmite de x n existe y plim x n y n =0 , entonces y n tiene la


misma distribucin lmite de x n .

3.21

3.10 Teoremas de lmite central


Queremos describir las propiedades de un estimador de cuando la
es desconocida. Saber que es insesgado, consistente, o que
distribucin de

converge en probabilidad a es poco til. Si plim =


, entonces toda la densidad
colapsa a un punto y no es posible hacer inferencias. Tampoco sabemos qu pasa antes
que n .

Sin embargo, si plim =


, entonces podra existir una funcin tal que:
d
Y n = n f y

(3.37)

donde f y es una distribucin con media y varianza finitas. Ello nos permitira hacer
inferencias estadsticas sobre el estimador de . Esa es la lgica de los teoremas de
lmite central.
Antes de llegar ah, consideremos que, al igual que en el caso de las leyes de
grandes nmeros, no resulta difcil demostrar que el supuesto 2 (distribucin binomial)
no es necesario para el teorema de de Moivre y Laplace. Note que la contribucin de
estos matemticos fue descubrir la distribucin lmite para la distancia entre S n y
E S n ajustando por la desviacin estndar. Para ello usaron la distribucin binomial,
pero vamos a ver que es innecesario limitarse a la binomial, bastando imponer
adecuadamente restricciones en algunos de los momentos de la distribucin de
probabilidades.
Sea {x n : n 1} una secuencia de variables aleatorias con S n = x i. Los teoremas
de lmite central estudian la expresin en el lmite de:

Y n=

S n E S n
V S n

(3.38)

es decir, una versin normalizada de S n E S n que fue lo que estudiamos en LDGN y


LFGN.

3.22
Teorema de Lmite Central de Lindeberg-Levy14
Sea {x n : n 1 } una secuencia de variables aleatorias extrada de cualquier f.d.p.
2

con media finita y varianza finita , y si xn =

1
x , entonces
n i

n xn N [0, 2 ]

(3.39)

alternativamente podemos escribir:


x

limn F n x =lim n P x n x =

1
e
2

1 2
u
2

(3.41)

du

Es importante notar que el teorema se aplica a variables aleatorias de cualquier


funcin de distribucin y que slo se aplica a S n cuando la media existe y si la varianza
es finita.

Prueba:

itx

Usamos la funcin caracterstica. Sea x t =E [ e ] la funcin caracterstica


de xi, una variable aleatoria que se distribuye con media cero y varianza finita.
Entonces queremos encontrar la funcin caracterstica de S n / n que es
i

it
t 2 2

o1/n y
2! n
n
n
2 t 2
t
1
=1
o . Aplicando
recuerde que =0 , para obtener
2n
n
n
t2 2
logaritmo se obtiene log X / n t =n log 1
o1/n . Pero si
2! n
n , se puede aproximar log 1z z por lo tanto se deduce que
t 2 2
log X / n t =
o 1/n . Finalmente, tomando lmite cuando
2!
t 2 2
n
obtenemos
.
Por
ello,
lim n log X / n t =
2

t =

. Use la expansin x / n t =1
i

2 2

limn n t =e

t
2

es decir, la distribucin de la suma normalizada es


d

asintticamente normal. Es decir x i N 0, 2 .


14 Lindeberg, J. W. "Eine neue Herleitung des Exponentialgesetzes in der Wahrschienlichkeitsrechnung."
Mathematische Zametki, 15:211-225 (1922) y W. Feller "ber den zentralen Genzwertsatz der
Wahrscheinlichkeitsrechnung." Mathematische Zametki, 40:521-559 (1935)

3.23
Note que cuando normalizamos Sn por n obtuvimos convergencia en
probabilidad, en cambio cuando normalizamos por n obtuvimos convergencia en
distribucin. La razn es que la varianza de Sn crece a n , por lo que si normalizamos
por n sta se va a cero cuando n .

Teorema de Lmite Central de Lindeberg-Feller con distintas varianzas15


Este teorema, menos restrictivo que el anterior y seala: Sea {x n : n 1} una
secuencia de variables aleatorias extrada de un conjunto de funciones de distribucin
{F n ,n 1} cada una de ellas con media finita i y varianza finita 2i . Las siguientes
relaciones son ciertas:
A.

lim n max1 i n

i
=0 donde
=
n

B.

lim n F n y=lim n P Y n y=

2i
i =1

1
e
2

1 2
u
2

du

si y solo si:

lim n

1
xi2 dF i x =0

n i=1 x
i

(3.42)

Aunque parece difcil, la interpretacin del teorema es intuitiva. La relacin (B)


seala que la distribucin lmite es una normal. La relacin (A) seala simplemente que
ningn 2i domina a 2n y se deriva de la ecuacin (3.41).
Podemos escribir el parntesis del lmite en (3.42) como:
n

1
xi 2 dF i x 2 Pr xi ci

n i=1 x
i=1
2
max 1 i n Pr xi
i
i

(3.43)

15 A. Lyapounov (1901) sugiri el siguiente teorema que, por ser ms restrictivo, fue superado por el
teorema de Lindeberg-Feller. Sea {X n : n 1} una secuencia de variables aleatorias independientes con

E X i = y V X i = i i y E X i2 ,
lim n

1
c

EX i 2 = 0 ,

2
i=1
n

0 .

Se define c n =

se cumple que

lim n F n y =

requiere que los momentos de orden superior sean finitos.

1
e
2

1 2
u
2

2
i

, entonces si

du . Note que se

3.24
es decir, que ninguna de las variables aleatorias domine la secuencia de sumas, o sea,

x ii
es suficientemente pequeo en relacin con la suma [S nE S n]/
n
i
cuando n . As, el TCL se refiere a los efectos sobre la distribucin de una suma de
que cada

variables aleatorias que individualmente


comportamiento de la suma.

no

tienen

efecto

alguno

sobre

el

Una manera ms simple de escribir el resultado anterior es:


d

n xnn N [0, 2 ]

(3.44)

Es decir, sumas de variables aleatorias tienden a distribuirse como normales,


independientemente de las funciones de probabilidades que las generaron. Casi todos
los estimadores estn basados de una u otra forma en sumas de variables aleatorias.

Teorema de Lmite Central de Lindeberg-Levy Multivariado


Si x 1 , x 2 , , x n es una muestra de vectores aleatorios extrada de una funcin de
distribucin multivariada con medias finitas y matriz de varianzas y covarianzas
finita y positiva definida Q , entonces
d

(3.45)

n xn N [0,Q ]
Teorema de Lmite Central de Lindeberg-Feller multivariado

Sea x 1 , x 2 , , x n una muestra aleatoria extrada de un conjunto de vectores


aleatorios, tales que E [ x i ]=i , V [ x i ]=Q y los terceros momentos son finitos. Sea
1

n=1/ n i y Qn =1/n Q i . Si lim n Qn=Q y lim n n Q n Qi=0 , entonces:


d

(3.46)

n x n n N [0, Q]

Los teoremas anteriores que se pueden extender para conjuntos de funciones


usando Jacobianos pueden ser sintetizados como:
p

La ley dbil de grandes nmeros LDGN se refiere a S n /n p .

La ley fuerte de grandes nmeros LFGN se refiere a S n /n p .

El teorema del lmite central se refiere a S n /n N p , Var S n /n .

a.s.

3.25
Resulta difcil intuir lo que sealan estos teoremas de convergencia a una
distribucin normal. En particular, por cuanto en el anlisis se mezclan dos conceptos.
Por un lado, el tamao de muestra. Por otro lado, el nmero de veces que se repite el
experimento. Una manera fcil de ver el rol de cada elemento se presenta en la Figura
3.3. El experimento consiste en generar una muestra de T datos de una distribucin
uniforme definida en el intervalo [0,1] y luego computar la media muestral, z. El
experimento se repite en condiciones idnticas llamadas rplicas.
En los paneles superiores se presentan los resultados del experimento para 50
rplicas en tanto que en los paneles inferiores, se presentan los resultados para 1.000
rplicas. En los paneles de la izquierda se hace el experimento con un tamao de
muestra 100, en tanto que en los de la derecha el tamao de muestra es 1,000. Como
resulta evidente, la distribucin de la media muestral se aproxima a una normal cuando
el experimento se replica un nmero grande de veces, independiente del tamao de muestra.
Figura 3.3
Tamao de Muestra 100, Rplicas = 50

Tamao de Muestra 1000, Rplica = 50

Tamao de Muestra 100, Rplicas = 1000

Tamao de Muestra 1000, Rplicas = 1000

3.26

3.11

Distribucin asinttica

Frecuentemente vamos a usar el concepto de distribucin asinttica, es decir,


aquella distribucin que se usa para aproximar la verdadera distribucin muestral de
de , la distribucin asinttica de
alguna variable aleatoria. Tomemos un estimador
se obtiene de:
d

N [0, V ]
n

(3.47)

implica

d N [ , V /n ]

(3.51)

se distribuye asintticamente normal, con media y matriz de covarianza


es decir,
asinttica 1/nV (ver Figura 3.4).

Figura 3.4

Distribucin exacta
Distribucin asinttica

3.27

3.12 Estimacin asintticamente eficiente (mximo verosmil) 16


Ya hemos visto el concepto de la funcin de verosimilitud. Ahora, la usaremos
para derivar un estimador crucial en econometra y, adems, para entender lo que hace
cada tipo de test. En trminos genricos, la funcin de verosimilitud de una muestra x de
variables aleatorias i.i.d. se puede escribir como:
n

| x i = f x i ,

(3.48)

i=1

Note que escribimos x para designar que la funcin se construye a partir


de las realizaciones de una muestra x y que es condicional a sta.
Lo que hace el estimador es buscar aquel que hace mxima la funcin de
verosimilitud, es decir, la probabilidad que los datos vengan de la distribucin f(.).
Existen varias formas de maximizar x , pero casi siempre se utiliza una
transformacin que maximiza log x ,
n

log | x= log f x i ,

(3.49)

i =1

ya que es ms simple. El procedimiento es legtimo porque la funcin logaritmo es una


transformacin montona.
Analticamente el estimador de mxima verosimilitud ser aquel que cumpla:

L | x
=0

(3.50)

Cuando la funcin de verosimilitud es analticamente diferenciable, se puede


obtener una expresin cerrada para (3.50), pero ello no es siempre posible. Por ejemplo,
considere f x=1 / con 0 x . Cuando la ecuacin (3.50) no tiene forma
cerrada, es necesario resolver el problema usando clculo numrico, como se describe en
el captulo 6.

16 Aunque la nocin de funcin de verosimilitud es muy antigua, el mtodo de estimar parmetros


maximizando la funcin de verosimilitud fue desarrollada y popularizada en el artculo de J. Neyman y
E. S. Pearson, "On the use and Interpretation of Certain Test Criteria for Purposes of Statistical Inference.
Part I" (Biometrika, 20 A, 175-240, 1928).

3.28
No obstante, cuatro condiciones de regularidad resultan necesarias para que el
estimador sea vlido:

El conjunto A={x : f x , 0} no depende de .

Para todo , las derivadas

i f x i ,
i

existen (i=1,2,3).

logL x i ;
0 E
.

i log L x i ;
hi x
i

hi x dx K

hi x dx

donde

i =1,2

i2 y K no es funcin de .

De estos supuestos se derivan algunos resultados de gran utilidad. Primero, note


que la funcin de verosimilitud es una densidad, por lo que se cumple:

L x 1 , , x n ; dx1 dx 2=1

(3.51)

simplificando la notacin pero sin prdida de generalidad, denotamos la ecuacin (3.47)

por

L xi ; dxi =1 . Derivando esta ecuacin con respecto a

, obtenemos:

L x i ; dx i=0

(3.52)

Las condiciones de regularidad aseguran que se cumple la condicin de


diferenciacin bajo el signo de la integral,17 es decir,

L x i ;
dx i =0

(3.53)

17 Este resultado se deriva del siguiente teorema de Leibniz, para el caso en que los lmites de integracin
no dependen de y, por lo tanto, los segundos dos trminos son cero:
U

F x ; dx

F x ;

F U

U
L
F L

3.29
multiplicando y dividiendo por L x i ; tenemos:

pero

L x i ; L x i ;
dx =0

L x i ; i

(3.54)

f x 1
log f x
=
. Entonces:
x f x
x

log L x i ;
L x i ; dx i=0

lo que implica E

(3.55)

log L x 1 , , x n ;
=0 .

Un segundo resultado til se obtiene al derivar (3.55) con respecto a :

log L x i ;

L xi ; dxi =0

(3.56)

usando el teorema de Leibniz

2 log L x i ;
log L x i ; L x i ;
L x i ;dx i
dx i=0
'

(3.57)

es decir

2 log L x i ;
log L x i ; log L x i ;
L x i ; dx i
L x i ; dx i =0 (3.58)
'

por lo que obtenemos:

] [

(3.59)

] [

(3.60)

2 log L x t ;
log L x i ;
E
Var
=0
'

de donde se desprende

log L x i ;
2 log L x t ;
V
=E

'

El trmino de la derecha de la ecuacin (3.60) es llamado nmero informacional


de Fisher.

3.30
Un tercer resultado importante se deriva de suponer la existencia de un
estadstico x y ocupar la ecuacin (3.51) tal que

x L x t ; dx=E x

(3.61)

Diferenciando la ecuacin (3.61) con respecto a tenemos:

L xt ;
E x
dx=

(3.62)

multiplicando y dividiendo por L x , y recordando la derivada del logaritmo se


tiene

Note que por definicin


adems, que

Cov

log L x ;
log L x , E x
L x ; dx =E x
=

Cov x 1, x 2=E x 1 x 2 E x1 E x 2 . Considere,

L x i ;
=0 . Entonces:

log L x ;
E x
, x =

(3.64)

Aplicamos

ahora
la

Cov x 1 , x 2 [ V x 1 V x 2 ] y obtenemos:

E x
log L x ,
V x V

pero V

(3.63)

log L x ,

desigualdad

Cauchy-Schwartz:

(3.65)

es el nmero informacional. Luego:

E x
V x I

(3.66)

3.31
finalmente:

V x

[ E x / ]

(3.67)

I n

Es decir, cualquier estadstico de la muestra tendr una varianza mayor o igual a


la expresin del lado derecho que es conocida como el lmite de Cramer-Rao.
Corolario:

Var x

1
.
I n

En conclusin, asintticamente este estimador tiene cuatro propiedades que lo


hacen formidable:

1. Consistencia:18

plim MV =

2. Normalidad asinttica:

2 log L
d
1
MV
.
N [ ,[ I ] ] donde I =E
'

3. Eficiencia Asinttica:

MV es asintticamente eficiente y alcanza Cramer-

Rao.

4. Invarianza:

si = g entonces g MV es el estimador
mximo verosmil de .

Este estimador se puede extender al caso que las variables aleatorias no son
idnticamente distribuidas de manera directa, excepto que n I I n .

18 El concepto de consistencia fue desarrollado por R. A. Fisher en "On the Mathematical Foundations of
Theoretical Statistics", (Phil. Trans. R. Soc. 1922).

3.32

3.13 Test de hiptesis19


Supongamos que existe una variable aleatoria definida en el espacio de
probabilidades (S, , P(.) ) y consideremos el modelo estadstico asociado:

={ f x ; , }

x={x 1 , x 2 , , x n }

El test de hiptesis consiste en decidir si una conjetura sobre del tipo


0 es congruente con la(s) realizacin(es) de la muestra x. Dicha conjetura que
envuelve un pre/juicio es llamada hiptesis nula20 y se denota usualmente por
H 0 :0 .
Para refutar o no refutar la conjetura a partir de una realizacin de la muestra,
necesitamos un criterio C, tal que si x C , entonces no se rechaza la hiptesis nula y si
x C se rechaza. El test de hiptesis es de manera ms precisa un estadstico (x): X
. Con algn grado de incertidumbre podremos rechazar o no la presuncin que
nuestro prejuicio sea correcto.
El procedimiento nos pide tener una hiptesis nula H 0 y una hiptesis
alternativa21 H 1 , las que en general deben ser mutuamente excluyentes. Como se
discute ms adelante, es posible construir tests en que H 0 y H 1 no estn anidadas,
es decir, no agotan el conjunto 0 . La hiptesis nula puede ser simple, si es
unidimensional, o compuesta, si no lo es.

19 El testeo de hiptesis es tan viejo como el estudio de probabilidades. Sin embargo el trmino test de
hiptesis es relativamente moderno y no es consensual. El libro de R. A. Fisher Statistical Methods for
Research Workers de 1925 parece ser el primero en usar un test de hiptesis, aunque bajo el nombre de
test de significancia. El trmino test de hiptesis fue acuado por J. Neyman y E. S. Pearson en su
artculo "On the use and Interpretation of Certain Test Criteria for Purposes of Statistical Inference. Part
I" (Biometrika, 20 A, 175-240, 1928).
20 Hiptesis nula aparece en el libro de 1935 de Fisher The Design of Experiments, donde seala: "[W]e may
speak of this hypothesis as the 'null hypothesis,' and it should be noted that the null hypothesis is never proved or
established, but is possibly disproved, in the course of experimentation." (p. 19). En el lenguaje de Neyman y
Pearson, la hiptesis nula corresponde a la hiptesis probada, que ellos denotaban por H 0 . Neyman
reclam, con justicia, que el trmino hiptesis nula es vago y que "the original term 'hypothesis tested'
seems more descriptive" (First Course in Probability and Statistics, 1950, p. 259).
21 El trmino hiptesis alternativa se populariz a raz del trabajo de Neyman y Pearsons "On the Problem
of the Most Efficient Tests of Statistical Hypotheses" (Philosophical Transactions of the Royal Society of
London. Series A, 231 (1933), pp. 289-337). En ese artculo tambin se definen trminos tales como
hiptesis simple y compuesta, regin crtica, error tipo I y tamao del test.

3.33
Note que, puesto de esta forma, el test rechaza o no rechaza H 0 , pero no permite
aceptar la validez de una conjetura. 22 Adems, se rechaza o no se rechaza dado un
cierto nivel de probabilidad o confianza. Vale decir, cualquier conjetura puede ser
rechazada, basta con hacer el intervalo de confianza arbitrariamente grande o,
equivalentemente, haciendo C 0 arbitrariamente pequeo.
Como la base del testeo es la realizacin particular de la muestra de variables
aleatorias, es posible cometer errores:
Tipo I: Pr xC 0 ; =
Tipo II:

Pr xC 0 ; =

Rechazar H 0 cuando es verdadera


No rechazar H 0 cuando es falsa

En principio, nos gustara hacer que = 0 , lo que no es posible con n finito.


Note que la distinta naturaleza de los errores lleva asociado dos distintos conceptos
tiles:

Tamao del Test:

es la probabilidad de cometer error tipo I, que usualmente


llamamos . Tamao es equivalente a nivel de significancia.

Poder del Test:

es la probabilidad de que el test correctamente rechace H 0


cuando es falsa, es decir 1-.

Algunas definiciones tiles asociadas a los tests son:

Un test ser ms potente que otro si tiene ms poder que otro para todo tamao.

Un test ser insesgado si su poder es mayor o igual que su tamao para todo .

Un test ser consistente si su poder tiende a 1 cuando n .

22 Neyman y Pearson (1928) hablan de aceptar y rechazar hiptesis. Fisher nunca us el trmino rechazo
pero no tena objecin a su uso, sin embargo se opona vehementemente a aceptar una hiptesis.

3.34

3.14 Tres tests de hiptesis asintticamente equivalentes


Hasta el momento hemos estudiado la funcin de verosimilitud y el estimador de
mxima verosimilitud. Tambin hemos discutido la estructura de los tests de hiptesis.
A continuacin describimos tres tests que son asintticamente equivalentes aunque
numricamente pueden diferir que son ampliamente usados en aplicaciones prcticas.

Test de Razones de Verosimilitud

MV y L max . Si el R
Al maximizar la funcin de verosimilitud obtenemos
MV , entonces recalcular la funcin de
hipottico es estadsticamente igual a
MV . Por
verosimilitud con R debiera producir un valor similar al computado usando
MV | x , para la cual se
ello el test estudia la distancia entre log R | x y log
conoce su distribucin asinttica:
d

2[log R | xlog MV | x ] m
2

(3.68)

donde m es el nmero de parmetros restringidos al imponer la hiptesis nula. Un


inconveniente de este test es que exige computar dos veces la funcin de verosimilitud,
cosa que es paulatinamente menos grave dada la creciente capacidad computacional.

Test de Wald23
A diferencia del caso anterior, el test de Wald se enfoca directamente en la
y el prejuicio R , bajo la premisa que dicha
distancia entre el parmetro estimado
distancia no debiese ser estadsticamente significativa si el prejuicio es correcto. Note
que este es el test t al cuadrado. Entonces:
1

R '
R m

(3.69)

Multiplicador de Lagrange
Este test llamado a veces efficient scores parte de la base que cuando se obtiene
el estimador mximo verosmil de , la primera derivada es cero. Si la primera
23 Tests of Statistical Hypotheses Concerning Several Parameters When the Number of Observations Is
Large Transactions of the American Mathematical Society, 54 (1943), 426-482.

3.35
derivada evaluada en R no difiere estadsticamente de cero, entonces la hiptesis nula
no es falsa.

LM =

LnL

' [ I ] LnL
m

1

= R

(3.70)

=R

Un descripcin grfica de estos tres tipos de tests se presenta en la Figura 3.5

Figura 3.5

Ln L
Ln LR

Razones
Verosimilitud

Ln L()
C()

Ln L()/

Lagrange
R

MV

Wald

3.15 Tests de hiptesis no anidadas


En ocasiones sucede que el problema de inters no produce hiptesis anidadas.
Considere que existen dos modelos compitiendo por explicar el mismo conjunto de
observaciones del fenmeno (y):

Modelo 1:
Modelo 2:

y =x
y =z

(3.71)

3.36
En este caso se requiere hacer un test de la forma:

H 0 : Modelo 1 bien especificado


H 1 : Modelo 2 bien especificado

(3.72)

Resulta evidente que las hiptesis nula y alternativa no estn bien especificadas
(o anidadas) en el sentido que ellas no son mutuamente excluyentes. Se dice que el
modelo 1 y el modelo 2 son familias separadas dado que, para cualquier valor de , el
primero no puede ser arbitrariamente aproximado por el segundo mediante un proceso
lmite. Anlogamente, para cualquier , el modelo 2 no puede ser aproximado
arbitrariamente por el modelo 1. La verificacin de las hiptesis anteriores, por lo tanto,
no puede ser llevada a cabo mediante la teora de Neyman-Pearson, debido a que sta
requiere que los espacios paramtricos asociados de ambos modelos sean iguales
Davidson y McKinnon (1981) proponen el siguiente test.24 Sea el modelo:

y =x 1z
=x 1z
donde =1

(3.73)

La idea del test es que si el Modelo 2 est bien especificado, =1 . En caso contrario, el
Modelo 1 est bien especificado y =0 . Davidson y McKinnon probaron que el
estadstico que permite verificar la restriccin anterior se distribuye asintticamente
normal si H 0 es cierta. El test puede ser extendido de manera anloga para modelos no
lineales.
Note, sin embargo, que si los modelos 1 y 2 comparten algunos regresores, el
modelo propuesto en la ecuaciones (3.73) no est identificado, es decir, el parmetro
no puede ser obtenido de manera independiente de los otros parmetros y, por lo tanto,
no se puede hacer el test.
Una manera de solucionar el problema anterior es realizar una regresin auxiliar
para obtener un estimador
-por ejemplo, el de mxima verosimilitud o el de mnimos
cuadrados- y rehacer el test propuesto como:

y =x 1z
=x y

(3.74)

donde y=z z ' z 1 z ' y .

24 El origen de la idea de hiptesis no anidadas se remonta al ao 1962, con el trabajo desarrollado por D.
R. Cox Further Results on the Test of Separate of Families of Hypotheses, Journal of the Royal Statistical
Society B, 24:406-424 (1962), pero fue extendido por Davidson, R. y J. G. Mackinnon, Several Test of
Model Specification in the Presence of Alternative Hypotheses, Econometrica, 49:781-793 (1981).

3.37
Como se ve, el modelo de la ecuacin (3.74) anida ambas hiptesis de una manera
un tanto artificial. El test es llamado J-test. En muestras pequeas la estimacin por
mnimos cuadrados ordinarios no es adecuada ya que E
0 , de forma que
obtendramos estimaciones inconsistentes del estimador de . No obstante, en muestra
grandes, plim
=0 .
Note que si el primer modelo es el correcto,
tiende a cero y el test de la
hiptesis nula H 0 : =0 se distribuye asintticamente normal estndar. Por el
contrario, si el segundo modelo es el correcto, el estimador
converge en probabilidad
a 1 y su desviacin estndar tiende a cero, por lo que el test t tiende a infinito. As, el test
siempre rechaza la hiptesis nula cuando sta es falsa, porque el estadstico
eventualmente exceder cualquier crtico con probabilidad uno.
Evidentemente, se puede revertir el procedimiento y plantear el test inverso
haciendo:

y =x z 1

= x z

(3.75)

Tpicamente se realizan los tests (3.74) y (3.75). Por ello existen cuatro resultados
posible.
Se rechaza H 0 en (3.74)
Se rechaza H 0 en (3.75)
Se rechaza H 0 en (3.74) y en (3.75)
No se rechaza H 0 en (3.74) y en (3.75)

El J-test se aplica cuando los modelos son lineales. Si los modelos son no lineales,
entonces se usa un test similar llamado P-test. Adems, se ha supuesto que la variable
dependiente ha sido transformada de la misma manera en ambos modelos: McKinnon,
White y Davidson (1983) extienden el test para el caso en que las transformaciones
difieren entre modelos. La evidencia de Monte-Carlo seala que estos tests tienden a
sobre-rechazar un modelo correctamente especificado.

3.16 Criterios informacionales


Note que podemos re-interpretar el test de Davidson y McKinnon como un
problema de seleccin de modelos. Es decir, como un criterio que gue la seleccin de
modelos. Existen, sin embargo, varios tipos de criterios. El criterio de mayor
popularidad es el R2 ajustado, es decir, una funcin del coeficiente de correlacin
mltiple. El criterio es elegir aquel model con mayor R 2 ajustado o, equivalentemente,
con la menor varianza residual. H. Theil (1957) prueba que en promedio se realiza la

3.38
seleccin correcta, siempre que (1) alguno de los modelos contendientes sea el
verdadero modelo y (2) las variables explicativas sean no estocsticas (i.e. fijas en
muestras repetidas). Ambas condiciones son difciles de cumplir. 25
Usualmente utilizamos criterios de informacin para seleccionar modelos,
escogiendo aquel modelo M 1 , M 2 ,, M k que tenga un menor valor numrico. Los
criterios de informacin tienen la forma

c n k =2 ln Ln k /n k n/ n

(3.76)

donde L n k es la funcin de verosimilitud estimada usando k parmetros para una


muestra de tamao n . Los diferentes criterios ocupan una distinta funcin de
penalizacin por el hecho que se use un mayor nmero de parmetros:

El criterio de Akaike es n=2 26


El criterio de Schwartz n=2 logn
El criterio de Hannan-Quinn es n=2 loglogn
Note que la penalizacin se vuelve progresivamente ms estricta.

Una pregunta pertinente es cules son las propiedades de estos criterios cuando
los modelos estn mal especificados. Obviamente, si se est comparando modelos, habr
algunos de ellos que esten mal especificados. En tal caso, k k 0 donde k 0 es el nmero
correcto de parmetros. Hay, entonces, dos casos: modelos subparametrizados (es decir,
mal especificados) y sobreparametrizados (es decir, bien especificados pero con exceso
de regresores).
Caso en que el modelo est subparametrizado k k 0
Para estudiar la consistencia de los criterios, estudiamos su comportamiento
cuando la muestra se vuelve infinita, es decir plim n c n k /nc n k 0 /n . Resulta
evidente que si el modelo est subparametrizado:

1
1
plim n log L n k plim n log L n k 0
n
n

(3.77)

25 Theil, H. "Specification Errors and the Estimation of Economic Relations." Review of International
Statistical Institute, 25:41-51, (1957)
26 El criterio de Akaike se deriva como un estimador de la distancia en informacin Kullback-Leibler
K M =E log f y | xlog f y| x , M entre la verdadera densidad y el modelo. Akaike, H. (1973):
Information theory and an extension of the maximum likelihood principle. In B. Petroc and F. Csake,
eds., Second International Symposium on Information Theory.

3.39
Adems, es directo demostrar que lim n n/n=0 en cualquiera de los
criterios.27 Entonces:
lim n P

[
[

2 log Ln k 0 k 0 n 2 log L n k k n
cn k 0 cn k

=lim n P

n
n
n
n
log L n k 0 log L n k 0.5 k 0k n
=limn P

n
n
=0
(3.78)

lo que indica que los tres criterios son consistentes.


Caso en que que el modelo est sobreparametrizado k k 0
En este caso, la prueba anterior de consistencia no es vlida porque ambos
modelos estn bien especificados (las funciones de verosimilitud tienen el mismo
mximo). Considere, sin embargo, el siguiente test de razones de verosimilitud:
d

2 [ log L n k log Ln k 0 ] X k k 2k k
0

(3.79)

reemplazamos la definicin del criterio de Akaike para obtener:


d

n [ c n k 0 c n k ] =2 [ log L n k log L n k 0 ] 2 k k 0 k k 2k k 0
0

(3.80)
por lo tanto,

lim n P [c n k 0 c n k ]=P [ X kk 2 k k 0 ]0
0

(3.81)

As, el criterio de Akaike va a sobre-estimar asintticamente el nmero correcto


de parmetros.
En los casos de Hannan-Quinn y Schwarz, lim n n= , lo que indica que
para ambos

plim n

2[log L n k 0 log Ln k ]
=0
n

27 De hecho cualquier funcion n que crezca mas lento que n sirve.

(3.82)

3.40
por lo que

plim n

n c n k 0 c n k
2 [log Ln k 0log cn k ]
= plim n
k 0k 1
n
n
(3.83)

as,

lim n P [c n k 0 c n k ]=0

(3.84)

esto, a su vez, implica que lim n P [ k k 0 ]=0 o lim n P [ k =k 0 ]=1 , por lo que
ambos criterios son consistentes.

3.41

Apndice A:

Ejercicios

1.
Suponga que n converge en distribucin a una normal estndar. A qu
distribucin converge ? plim = ? Si la muestra crece hasta tener el tamao de la
poblacin cual es la distribucin de ?
2.

Suponga que es multivariado y que n converge en distribucin a


N 0, Z . Suponga que Ud. est en realidad interesado en una transformacin continua
del estimador f =log . A qu distribucin converge f ?
3.
Suponga que tiene dos parmetros estimados independientemente que son
insesgados 1 y 2 con sus respectivas varianzas 1 y 2 . Qu combinacin lineal
de ambos parmetros =F 1 , 2 es el estimador insesgado de varianza mnima de
?
4.
Explique en qu consisten y cules son las diferencias entre el teorema de
Linberg-Levy y el de Lindberg-Feller para estimadores multivariados. Refirase a los
supuestos y las restricciones impuestas sobre los momentos de la distribucin.
5.
Cuando un estimador convergencia en probabilidad necesariamente debe
converger en distribucin. Comente.
6.

Demuestre que si x n x x n x y que si x n x x n x .

7.
Para el Teorema Central del Lmite, una condicin indispensable es que ninguna
variable aleatoria de la secuencia que se est considerando domine a toda la secuencia
de variables aleatorias. Comente.
8.
Qu es el poder de un test? Qu es el tamao de un test? Cundo un test es
ms poderoso que otro? y cundo es consistente?
9.
Explique porqu se habla que la funcin de verosimilitud es una densidad y
describa a qu corresponde el estimador de mxima verosimilitud. Es el estimador de
mxima verosimilitud es mucho ms preciso que cualquier otro estimador lineal?
10.
Sea una muestra de n observaciones de y n Para cuales de las siguientes
distribuciones es posible derivar analticamente el estimador de mxima verosimilitud?
Encuentre el estimador de mxima verosimilitud, demuestre que ste es un mximo y
obtenga la varianza asinttica.

f y =

e y
!

f y = y 1 e y y 0 , 0

3.42
12.
Usted tiene dos secuencias: {x n } e { y n} definidas en el soporte [ , ] .
Considere las siguientes afirmaciones:
A

Cuando n , x n converge en probabilidad a la variable aleatoria Z


que se distribuye F z . .

Cuando n , x n y n converge en probabilidad a cero.

x n converge en distribucin a F z . .

y n converge en distribucin a F z . .

Comente si las siguientes afirmaciones son verdaderas o falsas. Si son


verdaderas, demuestre. Si son falsas, de un contraejemplo.
1.

(A) (B)

2.

(C) (A)

3.

(C) + (D) (B)

4.

(A) + (B) (D)

13.
Cuando se hace un muestreo usando una distribucin normal N 0, 2
frecuentemente se usa el siguiente estimador insesgado de la varianza
n

xiE x 2 .

2
= i= 1

n1

(a) Demuestre que la varianza de este estimador es Var [


2 ]=

24
.
n1

2 = 1 x i 2 .
(b) Considere el siguiente estimador alternativo:
n

i=1

2 es sesgado pero tiene menor varianza que 2 .


(c) Demuestre que el estimador
2
en funcin de 2 .
(Ayuda: exprese
15.
El estimador de mxima verosimilitud es usualmente derivado a partir de una
muestra de variables (vectores) aleatorias i.i.d. Bajo estas condiciones el estimador posee
cuatro caractersticas:
(a) Identifique esas cuatro caractersticas y explique su importancia.
(b) Suponga que las variables aleatorias de la muestra no se distribuyen
idnticamente pero s independientemente. Plantee la funcin de verosimilitud y

3.43
obtenga un estimador mximo verosmil en este caso. Cules de las cuatro
caractersticas se mantienen?
(c) Suponga ahora que la muestra no se distribuye independientemente ni
idnticamente. Cules de las cuatro caractersticas se mantienen?

para el siguiente caso. Suponga


Var
que el proceso generador de los datos es y i=i donde i N 0, i .
16.

Se desea estudiar el poder del test t

(a) Obtenga un estimador insesgado de .


(b) Identifique el problema analtico del test t en este caso.
(c) Construya un programa de Gauss que le permita determinar el poder del test. El
programa debe ser flexible en (i) nmero de replicaciones, (ii) tamao de
muestra, (iii) tamao del test (nivel de significancia)

Captulo 4
Modelo Clsico de Regresin Lineal

En las secciones anteriores hemos definido el modelo estadstico como aquel que
incluye:

un modelo probabilstico,

un modelo muestral,

={ f x ; , }
x= X 1, X 2, ... X n

de modo tal que al caracterizar el mecanismo generador de los datos (MGD), el


problema consiste en sustituir la ignorancia sobre la funcin de probabilidad por la
ignorancia respecto de los parmetros de la funcin de densidad f que se escoge
para describir el fenmeno de inters.
En general, los datos recolectables no corresponden de manera precisa con la
nocin de la muestra observada de variables aleatorias independientes que est implcita
en el uso del modelo muestral por varias razones. Primero, porque no necesariamente
las muestras tienen las caractersticas que se requieren para hacer la inferencia. Por
ejemplo, datos agrupados que son muy comunes corresponden tpicamente al
resultados de un muestreo estratificado. En series de tiempo no puede pensarse en que
los datos correspondan a una muestra aleatoria simple porque hay dependencia
temporal. Segundo, porque en muchos casos existen parmetros incidentales que
complican la inferencia. Por ejemplo, cuando hay heterogeneidad en el tiempo o espacio
y se debe incluir parmetros adicionales para capturar esa dimensin (p.e., datos
nominales en presencia de inflacin)
Formalmente, se postula la existencia de un modelo adicional que da origen a los
datos estadsticos (MGE) que aproxima, a veces de manera gruesa, el MGD que di
origen a los datos. La existencia de este modelo suplementario permite incluir no slo la
informacin de la muestra, sino otra que sea a-priori sobre el fenmeno.
Exigiremos que para una variable aleatoria de inters y definida en
S , , P . el modelo MGE quede definido por

y i =i i

(4.1)

donde i=E y i | y es cualquier -lgebra que cumpla . Definido de esta


manera, llamaremos parte sistemtica a i y parte asistemtica a i , donde se cumple que
ambas partes son ortogonales entre s, i i . Analticamente es importante que ambas
partes sean ortogonales, porque de otro modo invalidara la eleccin de . Note que al
definir el problema de este modo, el concepto de error es mucho ms amplio que el
que se le da en la interpretacin clsica como el resultado de error de medicin o en
variables.

4.2

4.01 Lgica del modelo de regresin1


El modelo de regresin lineal ser nuestra principal herramienta en este curso,
aunque no la nica. Una definicin apropiada de regresin economtrica es: Regresin es
una relacin funcional entre dos o ms variables correlacionadas que se obtiene de los datos y se
usa para predecir una dada la(s) otra(s). 2

y i= f x i1 , xi2 , ... , x ik ; i

(4.2)

Lo que estudiaremos es una tcnica que nos permite seleccionar los parmetros
que relacionan los condicionantes o regresores x con la variable de inters
y . Existen otras herramientas para parametrizar la ecuacin (4.2), algunas de amplia
utilizacin en economa, que nosostros no vamos a estudiar en este curso por razones de
tiempo. Por ejemplo, los mtodos Bayesianos, no paramtricos, o semi no-paramtricos.
Estudiaremos varias dimensiones del modelo de regresin lineal, incluyendo
problemas de especificacin, problemas de estimacin de parmetros, testeo de hiptesis
sobre los parmetros, y uso del modelo estimado para hacer predicciones condicionales.
El modelo clsico de regresin lineal se basa en seis supuestos que vamos a
revisar a fondo antes de derivar estimadores y distribuciones.
1.

Forma funcional lineal

2.

Rango completo de los regresores

3.

Media condicional de los residuos cero

4.

Residuos esfricos

5.

Regresores no estocsticos

6.

Residuos normales.

Como veremos a lo largo de este captulo, los primeros tres supuestos nos
permiten obtener los estimadores de los parmetros, en tanto que los segundos tres
supuestos nos permiten hacer inferencias, tests y proyecciones.

4.02 Anlisis de los supuestos del modelo de regresin lineal

El primo de Charles Darwin, Francis Galton fue el primero en desarrollar y utilizar regresiones en el
sentido moderno para describir de manera suscinta los resultados de sus estudios sobre herencia, en el
que descubri que las distintas generaciones tienden a parecerse ms a sus ancestros lejanos que a sus
padres (Typical Laws of Heredity, Nature, 15 (1877)). Galton llam a la regresin reversin, lo que
sugiere de mejor forma sus resultados. Su modelo fue extendido y mejorado por Karl Pearson y G. Udny
Yule, sobre la base de la distribucin normal multivariada. R.A. Fischer reformul el modelo de
regresin sobre la base del trabajo de Gauss que se refiere al mtodo de mtodo de mnimos cuadrados.
Websters Ninth New Collegiate Dictionary, Merriam-Webster Publishers, Spriengfield, MA. Pag 922.

4.3
Modelo lineal
Un modelo es lineal si podemos escribir la relacin entre x e y como:

y i= x ii

(4.3)

donde y son parmetros constantes. Si el modelo analtico no es lineal, hay que


linealizarlo (si es posible). Por ejemplo:

Y i= AK i Li
log Y i =logA log K i log Li

(4.4)

Note, sin embargo, que el modelo debe ser lineal en los parmetros, no en las
variables. Por ejemplo, los siguientes modelos no lineales en las variables son lineales en
los parmetros y pueden ser estimados mediante transformaciones simples de las
variables.

1
i
xi
y i= log xi i
y i=

(4.5)

De esta manera, podemos escribir el modelo general como:

y i=x i i

(4.6)

donde y es un vector con la variable de inters, x es una matriz con las variables que
describen el fenmeno y es un vector de perturbaciones aleatorias que denota la
distancia entre MGD y MGE. Escribimos la ecuacin (4.6) de manera explcita:

[ ][

x11 x 21
y1
1
2
y2 = x2 x2


yn
x 1n x 2n

][ ] [ ]

x 1j 1
1
j
x 2 2 2

n
x nj j

(4.7)

Para considerar la posibilidad que las variables aleatorias tengan media distinta
de cero, incluimos un vector de 1 en la primera columna.

4.4

[ ][

1 x1
y1
y 2 = 1 x 12


yn
1 x 1n

x1
x 22

x 2n

][ ] [ ]

x1 0
1
j
x 2 1 2

n
x nj j

(4.8)

Regresores de rango completo


El supuesto necesario es que el rango de x sea completo, x =k . Este
supuesto es tambin llamado condicin de identificacin, ya que:

y i=1 x 1i 2 x 2i 3 x 3i i
x 3i = x 2i i

1
2
y i=1 x i 2 x i 3 [ x 2i i ]i
y i=3 1 x 1i [23 ] x 2i 3 i i

(4.9)

es decir, aunque es posible obtener un estimador de 2 3 no es posible identificar


por separado los parmetros 2 y 3 . Evidentemente las variables econmicas suelen
tener bastante correlacin entre s, por lo que este problema se presenta con frecuencia
en el trabajo emprico. Ms adelante, cuando se discutan problemas de
multicolinealidad, se abordar formalmente este tipo de fenmeno, su deteccin y su
eventual correccin.
Resulta evidente que rango completo requiere que x =n x =k . No
obstante, puede haber correlacin imperfecta entre los regresores, lo que dificulta pero
no impide la estimacin de un modelo de regresin lineal y su uso para hacer
proyecciones (este problema lo volveremos a estudiar en el Captulo 5).

Media condicional de los errores cero


El supuesto de media cero de los errores es condicional en x . Es decir,
E [i | x ]=0 . La intuicin se relaciona directamente con la descripcin del MGE
discutido ms arriba. Del supuesto anterior se derivan varios elementos que son
importantes para entender qu hace y no hace el modelo de regresin lineal.

El supuesto no es E [i | x i ]=0 .

4.5

Si E [i | x ]=0 entonces E []=0 . Para probarlo, use la definicin de densidad


marginal.

La presencia de la constante entre los regresores asegura que E [| x ]=0 .

Si E [| x ]=0 , entonces el modelo de regresin es una media condicional. Si, por


el contrario, E [i | x ] 0 , la regresin no es una media condicional, como se ve
en la siguiente derivacin.

E [ y | x ]=E [ x | x ]
= E [ x | x ]E [ | x ]
= x

(4.10)

Se cumple que cov [ x i ,i ]=0 .

Errores esfricos3
Para estudiar este supuesto es conveniente descomponerlo en dos partes.
(a)
Var [i | x ]= 2 es constante y, en particular, no depende de x . A esto se le llama
homocedasticidad.4 La funcin cedstica es la que describe la incertidumbre asociada a los
shocks o perturbaciones, . Homocedasticidad seala que dicha incertidumbre no
depende de haber observado una realizacin particular de x .

Cov i , j | x =0 . A esto se le llama ausencia de correlacin entre errores. Seala


(b)
que observar una determinada perturbacin o error no contiene informacin respecto
del posible tamao de otra perturbacin.
La matriz de covarianzas condicional de los errores es:

E [1 1 | x ] E [1 2 | x ]
E [' | x ]= E [2 1 | x] E [2 2 | x ]

E [n 1 | x ] E [n 2 | x ]

3
4

][

2
E [1 n | x ]
E [2 n | x ] = 0

... E [n n | x ]
0

0
2

0
0

(4.11)

"Like other occult techniques of divination, the statistical method has a private jargon deliberately
contrived to obscure its methods from non-practitioners." - G. O. Ashley
Los trminos hetero y homocedstico fueron acuados por Karl Pearson en 1905 ("On the general theory
of skew correlation and non-linear regression," Drapers' Company Res. Mem. Biometric Series). El trmino
se deriva del griego skedastos , que significa capaz de ser repartido de manera irregular.

4.6
De manera sinttica podemos escribir E [' | x ]= 2 I .
descomposicin de varianza se puede derivar la siguiente identidad:

V []=E x [ V [| x ] ]V x [ E [| x ]]

Aplicando

la

(4.12)

es decir, la incertidumbre de la prediccin hecha sobre la base de un modelo


economtrico V x [ E [| x ] ] es menor que la incertidumbre de los datos V [ ] .

Regresores no estocsticos
Este supuesto seala que la nica fuente de incertidumbre en el modelo
estadstico est en la variable que se modela, y . Ms precisamente, en los parmetros
que describen la distribucin f y , condicional en x .
Otra manera intuitiva de entender este supuesto es observar que no se est
haciendo un modelo de los regresores. En ese sentido, los regresores son variables
controlables por el cientfico. Por ello, usualmente se dice que los regresores son fijos
en muestras repetidas, queriendo decir que si el cientfico quisiera repetir el
experimento sacar otra muestra, en nuestro caso la nica fuente de incertidumbre
sera el resultado del experimento, pero no la variacin de los condicionantes. Si los
regresores son controlables, entonces los supuestos anteriores son incondicionales.
Este supuesto no es demasiado costoso, como se deducir al estudiar las
distribuciones asintticas de los estimadores ms adelante.

Errores normales
Esto quiere decir que los errores, condicionales en x, se distribuyen con
distribucin normal. En particular,

i | x N [ 0, 2 I ]

(4.13)

Por qu normales? La manera de entender esto es que el modelo no pretende


ser una descripcin 100% fiel del fenmeno, sino slo una aproximacin conveniente.
Por ello, hay un error. Si las causas de este error no son sistemticas, una normal es
una buena descripcin. Si son sistemticas, el modelo est mal especificado, pues
debera incluir dichas sistematicidades.

4.7

4.03 Representacin grfica de la regresin lineal

Una manera simple de entender la relacin entre la muestra, los supuestos y la


regresin lineal se encuentra en las siguientes tres figuras. Para que resulte fcil de
entender se ha reducido el problema a un modelo univariado y una muestra de dos
observaciones, pero el principio es general y el mismo para cualquier tipo de modelo. En
la Figura 4.1 se presenta una muestra de dos observaciones (los pares {y1, x1} y {y2, x2}).
Figura 4.1
Las observaciones
P(u)

x1

x2

y2
y1

Pero recordemos que, respecto de y , el problema de observar determinados


valores es esencialmente estocstico y, ms especficamente, que hemos supuesto que las
perturbaciones aleatorias siguen una distribucin normal (supuesto 6). Por otro lado,
estamos suponiendo que los condicionantes x son determinsticos (supuesto 5). La
Figura 4.2 describe el rol que juegan ambos supuestos.

Figura 4.2
La estocasticidad
P(u)

x1
y2
y1

x2

4.8
Nte varios elementos importantes. Primero, la forma de la distribucin en
trminos de dispersin es idntica para cualquier observacin de la variable aleatoria x
(supuesto 4). Segundo, las observaciones de y no tienen por qu coincidir con el valor
esperado de y condicional en x, basta con que estn en el rango de la distribucin.
Tercero, no hay incertidumbre respecto de cada observacin de x.
Finalmente, la regresin lineal describe la media condicional de y dado x , lo
que grficamente se ve como una recta (supuesto 1) que pasa por cada E [ y i | x ] , como
se ver en la Figura 4.3.

Figura 4.3
La regresin
P(u)

E y2 |x2 y2

E y1 |x1

X1

X2

y1

yi=xi

4.04 Derivacin del estimador de mnimos cuadrados5

En trminos generales la idea subyacente en el mtodo de mnimos cuadrados es


extremadamente simple y consiste en tratar de aproximar la curva de regresin
E [ y i x ] usando las observaciones contenidas en la muestra cometiendo el menor error
posible. Es usual referirse a:

Modelo verdadero (poblacional)

y i= x ii

Modelo muestral

y i= x i i

La idea del mtodo de mnimos cuadrados es buscar el que minimiza el error


cometido. Si el procedimiento est bien, converger a . No tiene sentido minimizar
5

El trmino Mtodo de Cuadrados Mnimos fue acuado por Adrien Marie Legendre (1752-1833),
presentado en el apndice de su libro Nouvelles mthods pour la determination des orbite des comtes (1803).
Un tratamiento ms completo del mtodo apareci posteriormente en el libro de Gauss Theoria Motus
Corporum Coelestium in Sectionibus Conicis Solem Ambientium de 1809. La disputa por la paternidad del
mtodo surgi porque Gauss afirm que vena usndolo desde 1795.

4.9
un error particular, por lo que es conveniente usar la suma de errores. Como hay puntos
por arriba y abajo de la recta poblacional, entonces es necesario minimizar la suma de
errores al cuadrado.

Estimador de mnimos cuadrados


Definimos la suma de residuos al cuadrado de un modelo lineal para algn 0
como:
n

i=1

2
i | 0

= y i0 ' x i 2=| ' |


i=1

(4.14)

note que hemos usado el supuesto 1. En adelante omitimos el subndice i salvo que sea
confuso. El objetivo es minimizar la ecuacin (4.14) escogiendo adecuadamente , es
decir:

min S 0 =0 ' 0= y0 ' x ' y0 ' x


= y ' y0 ' x ' y y ' x 00 ' x ' x 0
0

(4.15)

Note que se ha usado el supuesto (3). Como sabemos de clculo, minimizar la


ecuacin (4.15) requiere hacer que su derivada sea igual a cero:

S 0
=2 x ' y2 x ' x 0=0
0

(4.16)

La ecuacin (4.16) que en realidad es un sistema de ecuaciones es llamada


ecuacin normal. Tomando la segunda derivada:
2

S 0
=2 x ' x
0 0 '

(4.17)

por lo tanto cualquiera sea el valor de , si x ' x es positiva definida el problema es


una minimizacin.
Si x es de rango completo (supuesto 2), su inversa existe y se puede obtener el
estimador de mnimos cuadrados (ordinarios).

x ' x1 x ' y
=

(4.18)

4.10

Note que slo hemos usado los primeros tres supuestos, pero no los segundos
tres. Es decir, es posible obtener un estimador del parmetro an si no se cumplen estos
ltimos, porque ellos se refieren a la distribucin del estimador.

Propiedades interesantes de la solucin

x ' y=x ' x


y =x ' . Si la
De la ecuacin (4.16) obtenemos 0=x ' x
matriz de regresores contiene una columna de unos se deduce

1.

cada columna de x es ortogonal a los residuos.

2.

la suma de los residuos es cero.

3.

la regresin pasa por la media.

4.

la prediccin de y hecha sobre la base de fijar xP es insesgada, y =x p


Vamos a usar repetidamente la siguiente matriz idempotente y simtrica:

M = I x x ' x 1 x '

(4.19)

la que aplicada a y produce los residuos de una regresin de y en x, es decir:


My= I x x ' x1 x ' y= y x x ' x 1 x ' y= yx =

(4.20)

Regresin particionada
Supongamos que la regresin tiene dos grupos de variables, x 1 y x 2 . Entonces,
las ecuaciones normales son:

x1 ' x1 x1' x2
x2 ' x1 x2' x2

][ ] [ ]

de lo cual obtenemos:

1
x 'y
= 1
2
x2' y

(4.21)

4.11

1= x 1 ' x 1 1 x 1 ' y x1 ' x 11 x1 ' x 2 2

(4.22)

De la ecuacin (4.22) se desprenden varios resultados importantes:


(1) Si x 1 ' x 2 =0 , es decir si x 1 y x 2 son ortogonales, los estimadores pueden ser
obtenidos de regresiones independientes.
(2) Si x 1 y x 2 no son ortogonales, la omisin de x 1 y x 2 llevar a obtener
estimadores sesgados.

Usando las ecuaciones (4.21) y (4.22) y definiendo M1 como los residuos de la


regresin hecha slo con x1 obtenemos:

x 2 ' x1 x1 ' x 11 x 1 ' y x 2 ' x 1 x 1 ' x 1 1 x 1 ' x 2 2 x 2 ' x 2 2= x 2 ' y


x 2 ' [ I x 1 x 1 ' x 1 1 x 1 ' ] x 2 2 =x 2 ' [I x 1 x 1 ' x 1 1 x 1 ' ] y
x 2 ' M 1 x 2 2 = x 2 ' M 1 y

(4.23)

Este es otro resultado importante, llamado el Teorema de Frisch-Waugh 6: el


estimador 2 describe la contribucin marginal de x 2 para explicar las variaciones de
y , es decir neta de la contribucin de x 1 .

Bondad de ajuste7
El objetivo del anlisis de regresin es dar cuenta (explicar) de las variaciones de

y . Es decir, la variacin total de y :

y i y 2 .
i

1
n

Sea M 0=[ I ii ' ] . Aplicada a y computa desviaciones con respecto a y .


Entonces, la suma de cuadrados totales se puede escribir como y M 0 y . As:

' M 0 ' M 0 = '


x ' M 0 x
'
y ' M 0 y= ' x ' M 0 x

(4.24)

el lado izquierdo de la ecuacin (4.24) corresponde a la suma total de cuadrados (SCT)


en tanto que el primer trmino de lado derecho es la suma de cuadrados explicados
6
7

Frisch, R. and Waugh, F., 1933, Partial time regressions as compared with individual trends,
Econometrica, 45, 939-53.
El trmino bondad de ajuste proviene de un artculo de Karl Pearson donde ya se expresan dudas respecto
de su utilidad: "The 'percentage error' in ordinate is, of course, only a rough test of the goodness of fit,
but I have used it in default of a better." Contributions to the Mathematical Theory of Evolution. II.
Skew Variation in Homogeneous Material, Philosophical Transactions of the Royal Society of London (1895)
Series A, 186, 343-414

4.12
por la regresin (SCE). El ltimo trmino corresponde a la suma de residuos al cuadrado
(SCR). Por ello, se define la bondad de ajuste como:

R 2=

SCE
SCR
'
=1
=1
SCT
SCT
y' M 0 y

(4.25)

El problema de R 2 es que si se aaden variables a la regresin, ste no puede


reducirse. Por ello, se necesita una medida de ajuste que penalice el exceso de
regresores. El R 2 ajustado es dicha medida:

R2 =1 ' /nk
y ' M 0 y/n1

(4.26)

4.05 Propiedades del estimador de mnimos cuadrados en muestra


finita

Las propiedades del estimador de mnimos cuadrados deben ser estudiadas


tanto en muestra pequea (finita) como grande (infinita) para entender a cabalidad el
papel de los supuestos del modelo y su aplicabilidad en circunstancias prcticas.
Adicionalmente, estudiaremos tanto el caso en que los regresores son estocsticos como
determinsticos. Esto nos da cuatro casos de inters.
En esta parte estudiaremos las propiedades del estimador de mnimos cuadrados
en muestra finita, dejando el caso de muestra grande para la seccin 4.08. El estimador
de mnimos cuadrados de puede ser escrito como:
1
= x ' x x ' y
1
= x ' x x ' [ x ]
1
1
= x' x x ' x x' x x '
1
= x ' x x '

(4.27)

Si los regresores son no estocsticos, entonces x x 1 x es una constante. As,

. El estimador es insesgado, independientemente de la distribucin de los


E [ ]=
residuos.
La matriz de varianzas y covarianzas de se puede obtener usando la ecuacin
(4.27) directamente:

4.13

']
V [ ]=E
[ E
[ ]
[ ]
1
=E [ x ' x x ' ' x x ' x 1]
= x ' x 1 x ' E [ ' ] x x ' x1
= 2 x ' x 1

(4.28)

La ecuacin (4.28) seala que la varianza (incertidumbre con respecto) del


estimador proviene tanto de la estocasticidad del problema medido por la varianza de
los errores como de la variabilidad de los regresores. A mayor varianza de los residuos
es decir la parte no explicada mayor es la imprecisin del estimador. A menor
varianza de los regresores, mayor es la imprecisin del estimador.
Una vez obtenida la varianza del estimador resulta directo demostrar que sta es,
adems, mnima. La demostracin es llamada teorema de Gauss-Markov. El
procedimiento consiste en comparar la varianza del estimador de mnimos cuadrados
con la de un estimador rival.
Supongamos que existe otro estimador insesgado que es cualquier combinacin

lineal de las observaciones de la variable de inters: =cy


. Como este estimador rival

es insesgado, se debe cumplir E [ ]=E


[ cy ]= . Entonces:
E [cy ]= E [cx c ]= cx=I

(4.29)

es decir, cualquier combinacin lineal es vlida (lo que le da generalidad al teorema).


Obtenemos ahora la varianza del rival:

V [ ]= 2 cc '

(4.30)

.
Definimos la distancia entre ambos estimadores como Dy=
Naturalmente se cumple que D=c x x1 x . Despejamos c y lo introducimos en la
ecuacin (4.30) para obtener:

V [ ]= 2 cc '
= 2 [ D x ' x 1 x ' ][ D x ' x1 x ' ]'
= 2 x ' x 1 2 DD '

(4.31)

4.14

ya que Dx=0 y cx= I . Entonces, V [ ]=V


[ ]DD
' . Si D 0 , la varianza del rival
es mayor y, por lo tanto, el estimador de mnimos cuadrados es de mnima varianza.
As, cada estimador k es insesgado y de varianza mnima.
Veamos ahora el caso en que los regresores son estocsticos, es decir, x no es fijo
entre muestras. El truco para obtener las propiedades del estimador es primero obtener
las propiedades condicionales en x y luego las propiedades no condicionales.
Obtengamos el estimador de mnimos cuadrados condicional en x usando la
ecuacin (4.27):

E [ | x]= x ' x1 x ' E [ | x ]=

(4.32)

esta es la esperanza condicional. Usamos la ley de expectativas iteradas para obtener la


esperanza incondicional del estimador:

E x [ E [ | x]]=E x [ x ' x 1 x ' E [| x ]]=


E [ ]=

(4.33)

este resultado no depende de supuestos sobre la distribucin de x sino slo del


supuesto 3 (no correlacin entre regresores y errores).
Computamos, tambin, la varianza incondicional. Sabemos que la varianza
condicional es V [ | x ]= 2 x x 1 . Por lo tanto,

V [ ]=E
x [ V [ | x ] ] V x [ E [ | x ]]
x ]]
=E x [ V [ |
2
=E x [ x ' x1 ]

(4.34)

Como resulta evidente, la varianza del estimador depende de la realizacin de la


muestra. Pero, para una realizacin particular de la muestra, el estimador de mnimos
cuadrados es el mejor estimador lineal insesgado (MELI). Luego la conclusin principal
de Gauss-Markov no se altera.
Caractericemos ahora la distribucin del estimador de mnimos cuadrados.
Debido a que hemos supuesto que los errores se distribuyen normales, entonces:

| x N [ , 2 x ' x1 ]

(4.35)

esta es una distribucin normal multivariada. Es decir, cada k se distribuye normal.

4.15
Este resultado proviene del supuesto 6. Sin ste, no podramos hacer inferencia
alguna en este contexto. Cuando los regresores no son estocsticos, sa es exactamente la
distribucin del estimador. Cuando los regresores son estocsticos, esa es la distribucin
condicional del estimador.
Como se ha supuesto que la distribucin de los residuos es normal, la densidad
conjunta queda descrita por la siguiente funcin de verosimilitud:

f x i ; = [2 ]

2 1 /2

log L , 2 ; xi =

i / 2

= 2

n
2 2

e [' / 2 ]
2

(4.36)

n
1
log2 2
y i x i ' y ix i
2
22

Es evidente que maximizar la funcin de verosimilitud en este caso es


equivalente a minimizar el segundo trmino que, a su vez, es una funcin de la suma de
residuos al cuadrado. Entonces, el estimador de mnimos cuadrados es el de mxima
verosimilitud y, por consiguiente, es MELI.

Estimador de la varianza de los errores,

Para calcular la varianza del estimador de mnimos cuadrados de los parmetros


2
de la ecuacin (4.28) requiere conocer . Ello no es usual. Un estimador natural usara
los residuos muestrales:
n

1
= 2i
n i=1
2

(4.37)

Este no es el estimador adecuado, sin embargo. Consideremos:

=My=M x =M

(4.38)

As, la suma de residuos al cuadrado es ' =' M , cuyo valor esperado es


E [ ' | x ]= E [ ' M | x ] . Debido a que ' y ' M son matrices cuadradas, obtener
el valor esperado anterior es equivalente a la esperanza de su traza. Pero,

E [tr ' | x]=E [tr ' M | x ]= E [tr M ' | x ]

(4.39)

4.16

como M es una funcin de x para un x dado, entonces

E [tr M ' | x ]=tr ME [ ' | x]


=tr M 2 I
= 2 tr M
= 2 tr I n x x ' x 1 x '
= 2 [tr I n tr x x ' x 1 x ' ]
= 2 [nk ]

(4.40)

Por ello, el estimador insesgado de la varianza de los errores es:


n

1
2 =
2
nk i=1 i

(4.41)

En el Apndice B se presenta un procedimiento en Gauss que hace estimaciones


por mnimos cuadrados ordinarios, computando los estimadores y los estadgrafos
asociados que hemos descrito en estas secciones.

4.06 Tests de hiptesis en el modelo multivariado

i el modelo estimado. Buscamos un mtodo de hacer cualquier


Sea y i=x i
tipo de hiptesis e inferencia sobre el conjunto de parmetros estimados. Una manera
general de hacer tests para hiptesis lineales es expresar dichas hiptesis de la siguiente
manera:

R =q

(4.42)

donde R es una matriz de orden jxk y q es un vector de orden jx1 (prejuicios). El


truco consiste en escoger de manera inteligente las matrices R y q.
En trminos generales, escribiremos:

4.17

r 1,1 1 r 1,2 2 r 1,k k =q1


r 2,1 1r 2,2 2r 2,k k =q 2

r j ,1 1r j ,2 2 r j , k k =q j

(4.43)

donde los r son los elementos de R. Note que hay k parmetros y j ecuaciones (j<k).
Usaremos la estructura de la ecuacin (4.43) para derivar los distintos tipos de tests y,
posteriormente, sus distribuciones.

Test de una hiptesis simple


Supongamos que queremos testear j =2 . Usamos:

R =[0,0, ,1, 0, ,0]


q=2

(4.44)

de esa forma, R escoge el parmetro j-simo.

Test de una hiptesis de igualdad de parmetros


Supongamos que queremos testear j =k . Es decir, j k =0 . Escogemos:

R =[0,0 ,,1 ,1,,0]


q=0

(4.45)

Test de varias hiptesis sobre parmetros


Supongamos que queremos testear si las siguientes hiptesis se cumplen j =1
y k =4 . Escogemos:

[
[ ]

R = 0,0,,1,0, 0
0,0,,0,1, 0
q=1
4

Note que ahora hay dos filas en q (j=2).

Test de varias hiptesis sobre varios parmetros

(4.46)

4.18
Supongamos que queremos testear si las siguientes hiptesis se cumplen

j =1 i y k = . Escogemos:

[
[]

R = 0,0,,1,1,0, 0
0,0,, 0,0,1,0
q=1

(4.47)

Note que tambin hay dos filas en q (j=2).

Ya sabemos cmo escribir cualquier grupo de hiptesis lineales en trminos de

. Cmo hacemos un test estadstico?


R =q

La intuicin es que si n , entonces sera fcil comparar directamente R =q

q en trminos numricos, estadsticamente


Pero, n es finito. Por ello, an si R
podran ser iguales.

Hagamos el clsico test para la hiptesis nula H 0 : R q


=0 :

R q

Var R q

(4.48)

La intuicin del test es directa. Si la distancia R q


es grande entonces

R q y se rechaza Ho. En la ecuacin (4.48) hay dos cosas que no conocemos: (1)

y (2) la distribucin del test.


Var R q
Estudiamos primero la varianza. Aplicando las propiedades de este operador al
test:

Var R q=Var
R
'
=R Var R
=R 2 x ' x 1 R '
= 2 R x ' x 1 R '

(4.49)

4.19
Estudiemos ahora la distribucin del test en la ecuacin (4.48). Note que R y q
son constantes. Por ello, el numerador es una funcin de los errores normales ( es una
combinacin lineal de errores) y por lo tanto es N 0, 2 R x ' x 1 R ' . Pero, estamos
2
1
dividiendo por R x ' x R ' , es decir, la distribucin es N(0,1).
Como usualmente la varianza de los errores es desconocida, usamos el estimador
de sta y, por lo tanto, estamos dividiendo por algo que es estocstico. Pareciera que
obtener la distribucin es algo directo. El problema es que queremos la distribucin de la
razn y no la distribucin del numerador y del denominador por separado. Excepto que
stos sean independientes.

Note que es una combinacin lineal de del tipo L . Ello, porque

1
=x ' x x ' .

Note que

es una combinacin lineal de del tipo xAx . Ello, porque

i ' i = i ' M i .

Para que ambos trminos sean independientes, la combinacin lineal de ellos


debe ser ortogonal. Es decir, LA=0 . Es decir, x ' x 1 x ' M =0 , que obviamente se
cumple.
As, debido a que k se distribuye normal, el test de la hiptesis nula de un
nico parmetro es directamente:

z k=

kk

S kk

N 0,1

(4.50)

Cuando la varianza de los residuos es desconocida demostraremos que tenemos


una normal estndar dividida por una ajustada por grados de libertad. Usamos el
estimador de la varianza de la ecuacin (4.41). Entonces, dividimos la ecuacin (4.50) por
la raz del estimador para obtener:
2
k k / S kk
kk
t k=
=
t nk
2
2
2
nk / /nk
S

(4.51)

kk

As, el reemplazo de la verdadera varianza por su estimador produce una


distribucin t. La demostracin es la siguiente. Conocemos la distribucin de

4.20

k k / 2 S kk pero queremos k k /
2 S kk . Luego tenemos que multiplicar y
dividir por 2 . Reacomodando los trminos queda:
k k / 2 S kk
2
2
/

(4.52)

De acuerdo a la ecuacin (4.50), el numerador es normal estndar. El


denominador es algo.
2
=

'
2
nk = ' =' M
nk

(4.53)

Ahora, dividimos por convenientemente

2 ' M
nk 2 =

[] []

'M

(4.54)

Note que se distribuye normal con media cero, por lo que / es N(0,1) y la
ecuacin (4.54) es el cuadrado de una normal estndar, por lo que se distribuye . Los
grados de libertad son el rango de M que es (n-k). As es que tenemos una N(0,1)
dividido por una . Si queremos el test t debemos ajustar el denominador por los
grados de libertad.
Cuando se trata de una hiptesis compleja, usamos directamente el test de Wald
de la siguiente forma:
1

[R q
]' 2 R x ' x 1 R ' [R q
] 2J

(4.55)

la distribucin es ms bien obvia. Obtener los grados de libertad del test (J) se deja de
ejercicio.
2

Nuevamente, tenemos el problema que es desconocida. Se usa el estimador


de la ecuacin (4.41) por lo que se obtiene el siguiente test que tiene la distribucin de
Fischer.
1

[R q
]' R x ' x 1 R ' [R q
]/ J
F J ,nk
' /nk

(4.56)

4.21

q y se
La intuicin es de nuevo directa. Si R q
es grande entonces R
rechaza Ho.

4.07 Tests de hiptesis y modelo restringido

Otra manera de pensar un test de hiptesis es en trminos de restricciones


impuestas. Supongamos que en vez de hacer el test, imponemos directamente la
hiptesis nula y hacemos la regresin. Habrn dos resultados posibles: (1) la restriccin
que hemos impuesto si afecta la estimacin, cambiando los parmetros estimados y (2)
la restriccin que hemos impuesto no afecta la estimacin.
Dnde se reflejara ms fcilmente el efecto? Obviamente en los parmetros que
no hemos restringido, pero sera dificil de evaluar. Ms fcil de evaluar es el efecto sobre
la suma de residuos al cuadrado, ' . Si ponemos una restriccin y afectamos la
estimacin, tendremos que estar cometiendo ms errores que sin dicha restriccin,
porque la estimacin sin restriccin es la ptima min ' . Por otro lado, si ponemos
una restriccin y no afectamos la estimacin, entonces la restriccin ya se cumpla y no
estaremos cometiendo ms errores que sin dicha restriccin.
*

Si llamamos '
entonces:

a los errores de la regresin con la restriccin impuesta,

' =* ' *

seala que la estimacin con y sin restricciones son iguales.

' * ' *

seala que la estimacin con y sin restricciones son distintas.

Qu son ' y * ' * ?

= yx
*
*
= yx

(4.57)

Por lo tanto:

*=x x * =x *

(4.58)

de lo que se desprende

* ' * = ' ' x *


* ' x ' * ' x ' x *
= ' * ' x ' x *

(4.59)

4.22
*

. Para
Si queremos entender la ecuacin anterior tenemos que estudiar
*
ello, vamos a pensar de nuevo en el problema de optimizacin. Vamos a buscar tal
que sea ptimo bajo H 0 . Es decir,
y x
sujeto a H 0 :R =q

min y x '

(4.60)

formamos el Lagrangeano,

yx 2

= y x '
R q

(4.61)

derivando, obtenemos

=2x ' y 2x ' x 2R


' =0

=2R q
=0

(4.62)

*
de la primera ecuacin normal obtenemos . Premultiplicamos por R x ' x 1 y
obtenemos:

2R x ' x 1 x ' y 2R x ' x 1 x ' x *2R x ' x 1 R ' =0

(4.63)

Note que el primer trmino es 2R y el segundo es 2R . Entonces,


*

=[ R x ' x 1 R ' ]

R *q

(4.64)

De vuelta en la ecuacin (4.62) despejamos:

x ' x 1 R ' [ R x ' x 1 R ' ]1 R q

* =

(4.65)

pero =R q . Usando la ecuacin (4.62) en la ecuacin (4.58), obtenemos

* ' * = ' * ' x ' x *

= ' R q
' x ' x R q

(4.66)

4.23

pero esto ya lo conocemos. As,


*
*
' ' =R q ' x ' x R q

(4.67)

Por ello, el test F que usamos para evaluar hiptesis complejas puede ser escrito
como:

[ * ' * ' ] / J F
' /nk

[ ]
J
nk

(4.68)

La ecuacin (4.68) tiene una interpretacin de gran importancia para la manera


como entendemos el anlisis cuantitativo en economa. Hemos demostrado que hacer un
test respecto de uno o ms parmetros es exactamente equivalente a hacer una
comparacin de dos modelos, uno restringido y uno sin restringir. Si las restricciones
son vlidas, el modelo restringido es una mejor descripcin del fenmeno, en el sentido
que es ms eficiente en la descripcin de ste.
n

Note que dividiendo el denominador y numerador por

y i y 2

obtenemos:

i=1

[ R 2R2* ] / J
2

1R /nk

[ nkJ ]

(4.69)

lo que no es de extraar por cuanto existe una relacin directa entre estimadores de
parmetros y bondad de ajuste. Recuerde que el estimador minimiza la SRC y la bondad
2

de ajuste se define como R =1

SRC
.
SCT

4.08 Propiedades del estimador de mnimos cuadrados en muestra


grande

Ahora vamos a obtener las propiedades asintticas de los estimadores mnimos


cuadrados. Hay dos razones para ello: primero, saber cundo las propiedades de
muestra finita no se aplican y, segundo, poder obtener las propiedades de estimadores
no convencionales.

4.24
Vamos a suponer que lim n

1
x ' x=Q pos. def.
n

Cuando x es no estocstico el supuesto es obvio.

Cuando x es estocstico, el supuesto se va a referir al tipo de muestra


(volveremos a esto ms adelante).

El estimador de mnimos cuadrados puede ser escrito como:

=
x' x
n

][ ]
1
x'
n

(4.70)

Tomando plim y suponiendo que Q 1 existe:

plim =
Q1 plim

[ ]
1
x'
n

(4.71)

Para encontrar plim del segundo trmino, definimos una variable auxiliar w:

1
1
1
x ' = x i i = w i = w

n
n i
n i

(4.72)

1
1
E [w i ]= x i E[ i ]=0 .

n i
n i

Tomemos

E[ w ]=

Tomemos

1
1 2 x ' x
.
V [w ]=E [w w ' ]= x ' E [' ] x =
n
n n n

As, limn V [ w
]=0Q=0

Por lo tanto,

plim1/n x ' =0 , y

w converge medio cuadrticamente a cero, plim


w =0 ,

.
Es
decir,
el
estimador
de
mnimos
cuadrados
es
plim =

consistente.
El supuesto plim 1/n x x = Q es, en realidad, demasiado restrictivo. Las
siguientes condiciones llamadas condiciones de Grenander son menos restrictivas
pero suficientes.

4.25

1. Para cada columna de x , lim n x k ' x k = (no degenera a una secuencia de


ceros o cada observacin aade informacin til para la estimacin de los
parmetros)
2.

lim n

x 2ik
=0 (ninguna observacin domina la varianza promedio y, por lo
xk' xk

tanto, no hay dominancia de un valor extremo).


3. La matriz x es de rango completo.

Distribucin del estimador cuando los regresores son no estocsticos


Hemos visto que existe si se cumplen las condiciones de Grenander pero
cmo se distribuye el estimador? Tomemos de nuevo la ecuacin (4.70), la que
podemos re-escribir como:

n =

1
x' x
n

][

1
x'
n

(4.73)

Recordemos nuestros rudimentos de teora asinttica de las clases anteriores: el


lado izquierdo es conocido (Teorema de Lmite Central). Estudiamos el lado derecho.
1

[ ]
x' x
n

Como la inversa es una funcin continua de Q, lim n

Estudiar la distribucin lmite de la ecuacin (4.73) es equivalente a estudiar la


distribucin lmite de ( 1/ n x ), es decir:

=Q

1
x ' = n w
E w

n

pero ya sabemos que E [ w


]=0 , slo interesa la distribucin lmite de

(4.74)

n w .

Pero de la ecuacin (4.72) sabemos que w


es el promedio de n vectores
aleatorios del tipo x i i con media cero y varianza:
2

V [ x i i ]= xi ' x i= Qi

(4.75)

4.26

por lo que

1
V [ n w ]= 2 Q = 2 [ Q 1 Q n ]
n
1
x'x
= 2 x i ' x i = 2
n i
n

(4.76)

n = Q (de nuevo, no hay


en el lmite de muestra grande se obtiene lim n Q
dominancia).
Finalmente, podemos usar el Teorema de Lindeberg-Feller para obtener:
d
1
x ' N [ 0, 2 Q ]
n

(4.77)

naturalmente,

Q 1

d
1
x ' N [ 0, Q 1 2 Q Q1]
n

(4.78)

Entonces,
d

N [ 0, Q 1 2 Q Q 1 ]
n

(4.79)

Finalmente,

d
1
N ,
Q
n

(4.80)

El resultado es ms importante de lo que se ve a simple vista. Note que no se ha


supuesto ninguna distribucin para los residuos y an as el estimador es asintticamente
normal. Esto es consecuencia del teorema central del lmite y del supuesto que se
cumplen las condiciones de Grenander.

4.27
El estimador de la varianza de los errores
2

La ecuacin (4.79) depende de que es tpicamente desconocido. Necesitamos


el estimador asinttico de la varianza de los residuos (EVA). La contrapartida asinttica
2
del estimador de se obtiene de:

1
' M
nk
1
=
' ' x x ' x 1 x ' ]
[
nk

2=

'
' x
n

nk n
n

x ' x 1
n

(4.81)

]
x'
n

Obviamente,

cuando n el primer trmino tiende a 1.

El segundo trmino del parntesis converge a cero.

El primer trmino es el promedio de Si la varianza de este promedio es finita


(es decir, el cuarto momento de es finito), entonces la ecuacin (4.81) converge
2
a .

2.

Por ello, plim


x' x
n

= Q

Distribucin de los tests de hiptesis.


Cuando los errores no se distribuyen normal, los tests t, F y no se pueden
aplicar directamente.

Test t.

Asintticamente se tiene que distribuir normal (obvio).

Test F.

El test para la hiptesis R q=0


es

F=

* ' * ' / J R q
' [R 2 x ' x 1 R ' ]1 R q
=
' /nk
J

(4.82)

4.28

Pero, =x
' x 1 x ' . Por lo tanto,
' x x ' x 1 R ' [R x ' x 1 R ' ]1 R x ' x 1 x ' / J
F=
' M /nk

(4.83)

Sea L =x x ' x 1 R ' [R x ' x 1 R ' ]1 R x ' x 1 x ' , entonces la ecuacin (4.83)
es:

F=

' L / J
/ ' L / / J
=
' M /nk [ ' M /nk ]/ 2

(4.84)

La ecuacin (4.84) no tiene distribucin conocida. Pero JF si la tiene:

JF =

/ ' L /
[' M /nk ]/

2 tr L = J

(4.85)

La razn es que el denominador converge a 1, en tanto que el numerador es otra


vez una forma cuadrtica. La traza de L que se obtiene fcilmente depende de Rx
que es de rango J.

Distribucin lmite del test de Wald


Si

2
1

N [0, Q ]
n

y H 0 : R q=0
es cierta, entonces:

d
2
1
1
2

W =R q
' [ R x ' x R ' ] R q
= JF J

(4.86)

Distribucin del estimador de mnimos cuadrados cuando los regresores son


estocsticos
Reemplazamos el supuesto que x es no-estocstico por [x i , i ] secuencias de
variables aleatorias i.i.d., con cov x i ,i =0 y donde x tiene matriz de covarianzas
positiva definida y cuartos momentos finitos de . Grficamente, el modelo de
regresin corresponde a la Figura 4.5.

4.29
Figura 4.5
Regresin con regresores estocsticos
P(u)

E y 2|x2 y2

E y 1|x 1

X1

X2

y1

yi=xi

El supuesto clave para obtener la distribucin asinttica de los estimadores es

plim

1
x ' x= Q
n

(4.87)

y la no covarianza entre x y . Nuevamente, la distribucin asinttica ser Normal


(ecuacin 4.80) y si los cuartos momentos de son finitos,
2 es un estimador
2
consistente de y la varianza asinttica estimada de los parmetros queda dada por la
ecuacin (4.81).
Cuando hay correlacin entre x y los resultados anteriores no son vlidos y
se debe usar variables instrumentales (lo veremos en la seccin 5).
Distribucin del test t con regresores estocsticos
Qu sucede cuando los regresores son estocsticos? Acabamos de obtener la
distribucin condicional del test t en x t | x . Deberamos integrar por x para obtener
la distribucin marginal del test t (es decir, la distribucin no condicional en x ).

tk|x=

kk

x ' x

1
kk

(4.88)

El estimador es normal condicional en x . Su distribucin marginal no tiene


por qu ser normal porque depende de x . Cuando x es estocstico, el denominador no
tiene por qu ser la raz de una ajustada por (n-k) grados de libertad. No obstante, el
test sigue siendo t a pesar de que x contenga variables estocsticas y determinsticas.
Ello, porque f t | x la integracin para obtener la marginal no es funcin de x .

4.30

4.09 Transformaciones de estimadores: el mtodo Delta

Frecuentemente, tenemos inters en usar funciones de los estimadores,


Calcular las distribuciones asintticas podra ser una pesadilla, excepto que:

C=

f
'

(4.89)

es decir, C es una matriz de tamao


f obtenemos:
plim f =

plim C =

.
f

jxk . Usando el teorema de Slutzky

f
=

(4.90)

y podemos obtener la transformacin del estimador:

2 1

f N f ,
Q '
n

(4.91)

=C 2 x ' x 1 C ' .
con EVA f

4.10 Prediccin8

Una vez parametrizado un modelo resulta natural preguntarse por las


propiedades de las proyecciones hechas con ste. Hay dos alternativas de proyecciones:
dentro y fuera de la muestra. A las segundas se les llama usualmente, predicciones. El
0
0
0
valor efectivo para la observacin o del modelo es y = x , en tanto que el valor
p
proyectado es y= x . Note que la proyeccin es lineal, insesgada, y de mnima
varianza. Por ello el error de prediccin es simplemente:

e f = y 0 y =x 0 0

(4.92)

lo que pone de manifiesto las tres fuentes de error de una proyeccin.


8

"Those who have knowledge, don't predict. Those who predict, don't have knowledge." Lao Tzu.

4.31

La estocasticidad de los regresores.

La distancia que hay entre el parmetro y su estimador, an si E[ ]=


.
La presencia del error aleatorio.

Resulta conveniente computar la varianza del error de pronstico y deducir la


expresin:
0

Var [ f ]=Var [x 0
]
2
0

= Var [ x ]
k

1
= [1 x 0j x j x 0b x b x ' M 0 x jb ]
n j =2 b =2

(4.93)

de donde se desprende que la incertidumbre de la proyeccin depende de (1) la


2
presencia de shocks aleatorios, , (2) el tamao muestral, n, y (3) la distancia entre la
proyeccin de los regresores y su media, x x .

Medidas de calidad de la prediccin


La principal medida de calidad de una regresin debiese ser con respecto del
experimento que se est haciendo. No obstante, se usan frecuentemente medidas
resumidas basadas en los errores de prediccin dentro de la muestra. El ms popular es
el error cuadrtico medio (ECM) que se define como:

ECM =

1
y i yi 2
n0

(4.94)

el que es una variacin es el error absoluto medio (EAM)

EAM =

1
y y i
n0 i

(4.95)

El problema del ECM y EAM es que dependen de la unidad de medida de las


variables. Por ello, Theil propone el siguiente estadstico normalizado:

U=

1
1
y i y i 2 / y 2i

n0
n0

(4.96)

4.32

El error cuadrtico medio puede ser descompuesto en tres componentes que


resultan interesantes:
2

y i
1
2
2
y i y i = y s y s y 21r s y s y

n0
n0

(4.97)

donde s y , s y y r son las desviaciones estndares de cada variable aleatoria y la


correlacin entre prediccin y valor verdadero. De esta descomposicin se pueden
obtener tres proporciones:


y i
y
n0

1
y i y i 2

n0
s y s y 2

Esta es una medida de sesgo, porque nos dice que tan lejos est la
media de la prediccin de la verdadera media de la variable

1
yi y i 2
n0

Esta es una medida de variacin, porque indica qu tan lejos est


la variacin de la prediccin respecto de la verdadera variabilidad
de la variable.

21r s y s y
1
y y i 2
n0 i

Esta es una medida de covariacin residual que refleja los


componentes no sistemticos que separan la prediccin del
verdadero valor de la variable.

Una mejor prediccin es aquella donde el sesgo sistemtico y la impresicin de


las prediccines son menores.9

4.11

Mtodo generalizado de momentos

La estimacin por mnimos cuadrados no es la nica forma de parametrizar un


modelo. Una alternativa interesante es el llamado mtodo general de momentos (MGM),
el que explota dos elementos: las propiedades de convergencia de los estadgrafos que se
pueden construir a partir de una muestra y el hecho que los valores lmites de dichos
9

Prediction is very difficult, especially about the future. Mark Twain.

4.33
estadgrafos dependen de los parmetros que caracterizan la distribucin de
probabilidades del fenmeno. Por ejemplo, si tenemos una muestra de una distribucin
, sabemos que la esperanza y varianza estn relacionadas a los parmetros de la
distribucin p , q de la siguiente manera:

E [ x t ]=

p
q

E [ x t E [x t ]2 ]=

p
q2

(4.98)

entonces las condiciones sobre los momentos seran una funcin de tipo E [ f x ,] =0 ,
es decir,

p
E [ x t ] =0
q
p
2
E [ x t E[ x t ] ] 2 =0
q

(4.99)

as, buscaramos p * y q * tal que se cumplan las condiciones de la ecuacin (4.99)


usando la informacin de la muestra.
Para el modelo clsico de regresin lineal podemos derivar condiciones similares.
Dado el modelo bsico (ecuacin 4.6) e imponiendo la condicin de ortogonalidad entre
regresor y residuo E[ x ,]=0 tenemos:

E[ y i | x ]=E [x i i | x ]=x i E [ i | x ]=x i

(4.100)

Usando la ley de expectativas iteradas10 tenemos:

E [ x i i ] =Ex [ E [x i i | x i ]] =E x [ x i E [i | x i ] ]=0

(4.101)

entonces, las condiciones son:

E [ x i y i x i * ]=0

(4.102)

Naturalmente, cuando el modelo es multivariado, habr l ecuaciones en la


ecuacin (4.102) que deben ser optimizadas para recuperar los parmetros. Si el nmero
de ecuaciones linealmente independientes en la ecuacin (4.102) es igual o mayor a los
10 Esta ley no parece ser de fcil comprensin para algunos polticos. Dan Quayle, vicepresidente de
Estados Unidos, seal: The future will be better tomorrow.

4.34
parmetros que se quiere estimar el problema tiene solucin (el ltimo caso se llama
sobreidentificado).
Una manera alternativa de entender este tema de la sobreidentificacin es
considerar el modelo de regresin:

y i =x 1i 1x 2i 2 i
E[ x i , i ]=0

(4.103)

donde x 1 =k , x 2 =r y l =kr . Suponga ahora que se le informa que 2 =0 .


Cmo estimara 1 ? Una alternativa es usar el estimador mnimos cuadrados en el
1
modelo restringido y i =x i 1 i . Pero ello sera ineficiente, pues no hace uso de toda la
informacin. Note que hay l restricciones en la ecuacin (4.103) y solo habra k
restricciones en el modelo restringido. Si se usa toda la informacin habra l k=r
restricciones sobre los momentos adicionales que son de utilidad; estas se llaman
restricciones de sobreidentificacin (overidentifying restrictions).
Generalicemos la estructura y notacin del ejemplo anterior. Sea g y ,z ,x ,
una funcin de dimensin l 1 de un vector de parmetros de dimensin k 1 con
l k tal que:

E [ g y ,z , x ,0 ]=0

(4.104)

La restriccin l k seala que z corresponde a un conjunto de variables ms


amplio que el conjunto x , pudiendo incluir componentes o funciones de este ltimo. En
econometra a la ecuacin (4.104) se le llama modelo de condiciones de momentos, en
tanto que en estadstica se le llama ecuacin de estimacin.
Note que se ha impuesto muy poca estructura sobre las innovaciones i , al
menos en comparacin con el mtodo de mnimos cuadrados o el de mxima
verosimilitud. No obstante, no hemos discutido dos elementos: (1) cmo se obtienen los
parmetros y (2) cules son las propiedades asintticas de este estimador.

Estimacin de parmetros por mtodo de momentos


Suponga que el modelo est exactamente identificado, es decir hay tantos
parmetros desconocidos (l) en la ecuacin (4.104) como ecuaciones disponibles, k. El
problema radica en que desconocemos E[.]. Pero contamos con una muestra de la cual
podemos derivar el estimador muestral de la condicin de ortogonalidad,
E [ f x ,] =0 :

4.35
n

1
f n = f x i ,
n i=1

(4.105)

En el caso de la regresin lineal obtenemos:

1
N

[ x i y i x i * ]=0

(4.106)

i =1

de donde se desprende:
1 N

i =1

xi' xi

i=1

(4.107)

xi ' yi

es decir, el estimador de mnimos cuadrados es un estimador de momentos.


El estimador del mtodo de momentos se aplica cuando hay ms condiciones
para los momentos que parmetros por estimar, es decir, cuando el sistema est
*
sobreidentificado. En tal caso, en general no habr un que haga f n =0 , pero se
puede buscar aquel que haga que f n est arbitrariamente cerca de 0, es decir
aquel que minimiza la ecuacin (4.104). Consideremos la contraparte muestral de la
ecuacin (4.107):
n

i=1

i =1

1
1
gn = z i y i x i = z ' yz ' x
n
n

(4.108)

Para una matriz arbitraria W n 0 definimos:

J n =n g n ' W n g n

(4.109)

esta es una medida de distancia del vector gn . Lo que hace el estimador MGM es
minimizar la ecuacin (4.109). Definimos:

GMM =argmin J n

Considere la derivada de la ecuacin (4.110) tal que:

(4.110)

4.36

J n

gn ' W n gn
=2

1
1
=2 z ' x W n x ' y z
n
n

0=

(4.111)

de donde se desprende:
(4.112)

2z' x W n x ' y =2 z ' x W n x ' z

y por lo tanto:

GMM =z ' x W n x ' z 1 z ' x W n x ' y

(4.113)

Note que el estimador MGM depende de W n pero slo como factor de escala, es
decir, si usamos cW n para c 0 , el estimador no cambia.

Teora asinttica para el estimador de mtodo de momentos 11


Para desarrollar la teora asinttica aplicable en este contexto, tenemos que hacer
los siguientes supuestos:
1. Los momentos poblacionales g n =E [ f x i ,] existen12 y son finitos para
*

todo y para todo i. Adems, existe un nico * que hace g n =0 .


2.

f x i ,

obedece
p

f n x i , g n 0

la

ley

dbil

de

los

grandes

nmeros.

Es

decir,

3. Existe una secuencia de matrices no-estocsticas W n tales que W n W


n 0.
Estos supuestos permiten demostrar que el estimador MGM es (dbilmente)
consistente. En trminos esquemticos, la prueba de consistencia del estimador consiste
en usar los supuestos 2 y 3 para deducir que existe una secuencia no aleatoria
n = g n ' W
n g n tal que
Q
11 Una demostracin formal de estos supuestos est desarrollada en L. Mtys, Generalized Methods of
Moments, Cambridge University Press, 1999.
12 La existencia de los momentos poblacionales requiere de supuestos ms primitivos sobre la naturaleza
del proceso estocstico de x . Este tema se discute in extenso en el curso de Teora Economtrica III.

4.37
p

(4.114)

Q n Q n 0

converge uniformemente para todo . Adems, se usa el supuesto 1 para demostrar

n =0 si y slo si =* . Entonces, se deduce que si =argminQ


que Q
n , si
p
p
* =argmin Q n , y Q n Q n 0 entonces necesariamente .

La derivacin de la normalidad asinttica del estimador MGM requiere algunos


supuestos adicionales:

1.

f x i , debe ser continuamente diferenciable con respecto a .


p

p
F 0
2. Para toda secuencia donde se cumple que , se cumple que F n
n

3.

f x i ,
satisface
el
teorema
del
lmite
d
donde V n =n Var f n 0 .

V
n n f n 0 N 0, I

central,

es

decir,

Con estos seis supuestos es posible demostrar que el estimador MGM tiene
distribucin asinttica normal:

[ F n n ' W n V n W n F n n ] [ F n n ' W n F n n ] n n * N 0, I

(4.115)

La matriz de ponderacin W n ptima es aquella que minimiza la varianza del


estimador MGM. Lamentablemente, sta no es usualmente conocida. Por ello, dada
cualquier matriz de ponderacin, el estimador MGM es consistente, pero no
necesariamente eficiente. Una alternativa en el modelo lineal sera fijar W n =I . Una
1
alternativa mejor recuerde MCG es usar W n = x x . Dada dicha matriz como
estimador de primer paso es posible computar los residuos del modelo como:
. Computemos
i = y i z i y las ecuaciones de momentos: g i =x i i = g w i ,z i
n

1 g y gn *= g i gn
gn = gn =
n i=1 i

(4.116)

Entonces se define:

1
W n = g *i g *i
n i =1

1
= g i g i ' gn gn '
n i=1

(4.117)

4.38

en probabilidad esta matriz W n converge a W n = E [ g i g i ]


que es la matriz
13
eficiente. Por ello, el estimador MGM ser asintticamente eficiente.
Hay una alternativa al estimador MGM de dos etapas que hemos desarrollado
que posiblemente tiene mejores propiedades estadsticas. Considere que la matriz de
ponderadores sea una funcin de tal que el estimador MGM sea aquel que minimiza
el criterio:

1
J n =n gn ' g *i g *i ' W n gn
n i =1

(4.118)

donde g i = g i gn . El que minimiza la ecuacin (4.118) es llamado


estimador MGM de actualizacin contnua14.

Test de restricciones de sobreidentificacin


Los modelos que estn sobreidentificados tiene la facilidad de proveer espacio
para testear las restricciones impuestas sobre la estructura del modelo. Note que
p
gn E[ g i ] y que, por lo tanto, gn puede ser usado para hacer un test sobre si

E[ g i ]=0 .

g n ' W n g n es una forma cuadrtica en gn por lo que es


Note que J n =n
un test natural de H 0 : E [ g i ]=0 . Si el modelo est correctamente especificado y si la
matriz W n es asintticamente eficiente:
2
J d l k

(4.119)

este es llamado el test de Sargan-Hansen. Los grados de libertad del test corresponden al
nmero de restricciones impuestas en la sobreidentificacin.

Tests de hiptesis

1
g g ' . El problema es que este estimador de
n i =1 i i
momentos no centrados no garantiza que E [x ]=0 , lo que produce un estimador sesgado y reduce el

13 En ocasiones se usa el estimador alternativo W n =

poder de los tests. Verifique que tipo de estimador usa su programa economtrico.
14 Ver Hansen, L.P., Heaton, J. and Yaron, A. (1996), Finite Sample Properties of Some Alternative GMM
Estimators, Journal of Business and Economic Statistics, 14:262-280.

4.39
Como se puede ver el test anterior testea la estructura completa del modelo. Para
hacer tests de hiptesis ocupamos directamente la lgica de testear un modelo
restringido versus uno que no lo est. El procedimiento es directo:

Supongamos que hay un conjunto de hiptesis sobre los parmetros

H 0 : h =0

Supongamos que W n est dada, el criterio del estimador MGM no restringido es

es J n =n
g n W n gn . Por otro lado, el criterio del estimador MGM
g n W n gn .
restringido es es J n | h =0=n

. Si se usa la misma matriz W n


J
Entonces el test de distancia es D= J
para ambos J entonces el test se distribuye asintticamente r .

Un punto importante de hacer notar que h no tiene por qu ser lineal, lo que
es una ventaja desde el punto de vista de la flexibilidad del anlisis. Por otro lado, si las
hiptesis fuesen lineales, el test de restricciones de identificacin corresponde al test de
Wald.

4.40

Apndice A:

Ejercicios

1. En una regresin lineal las variables del lado derecho son independientes, las columnas
de la matriz x son independientes y los errores se distribuyen independientementes." En
la frase anterior se us la palabra "independiente" en tres distintos sentidos.
Explique cada uno de los usos de ella y discuta que papel juegan dichos
conceptos en la teoria clsica de estimacin de modelos lineales.
2. En el modelo lineal y =x , un elemento central del anlisis economtrico
.
clsico es que el estimador de es independiente de los residuos,
Demuestre.
3. Cmo se entiende el supuesto de rango completo si x contiene slo una
variable?
4. Qu restriccin debe cumplir la matriz de momentos de los regresores para que
sea posible obtener estimadores mnimos cuadrados con propiedades estndares
si x es determinstico? Qu pasa cuando se levanta el supuesto que los
regresores son no-estocsticos?
5. Suponga que tiene una muestra de n datos de { y n , x n }. Derive el estimador de
mnimos cuadrados de la regresin de y n en x n. Suponga ahora que a la
muestra se le aade un dato. Demuestre que el nuevo estimador del parmetro
es:

n1 =n

1
x n ' x n 1 x s ' [ y s x n ' s ]
1
1x s ' x n ' x n x s

Note que el ltimo trmino es es , es decir el residuo de la prediccin de ys


usando los coeficientes obtenidos con la muestra x n .
6. Si nos fijamos en la frmula de la varianza estimada del estimador de mnimos
cuadrados, resulta obvio que mientras ms observaciones tengamos sta se
reduce y ms preciso es el estimador (demuestre). Por ello, es conveniente tener
ms datos. Si eso es as, para qu buscar ms datos? No bastara con poner los
mismos datos dos veces? Con ello tendramos 2n datos, en vez de n. (considere
x no estocstico).
7. Considere el caso de la regresin y =x y el de la regresin inversa,
x = y * bajo qu condiciones es posible recuperar el estimador de a
partir del estimador de ? No olvide referirse a la desviacin estndar del
estimador.
8. Demuestre que el estimador de mnimos cuadrados ordinarios es de varianza
mnima.

4.41
9. En qu caso los coeficientes de una regresin de Y en x 1 y x 2 son idnticos a
los de dos regresiones independientes, una de Y en x 1 y otra de Y en x 2 ? Por
qu? es necesario poner una constante en cada una de estas ltimas dos
regresiones o basta ponerla en una sola?
10. Su jefe junt datos de precios y ventas de vino de los ltimos 25 aos en Chile y
concluy: cada vez que subo el precio 10% las ventas caen 5%, por lo que la
elasticidad es -0.5". Explquele con delicadeza pero con absoluto detalle por
qu su estimacin es inconsistente.
11. Considere la funcin de produccin con elasticidad de sustitucion constante
(CES):

Y i ,t = [ K 1 L

i ,t

i,t


i ,t

Donde los subindices i y t, son firmas y tiempo respectivamente, Y es el


producto, K es el capital, y L es el trabajo, y donde los parmetros , , , y se
denominan parmetros de eficiencia, distribucin, rendimientos de escala, y
sustitucin, respectivamente. Como la funcin CES no es lineal en los parmetros
no pueden estimarse por mnimos cuadrados ordinarios. Demuestre que la
funcin puede linealizarse utilizando la tcnica de Taylor de la siguiente manera:
2

[ ]

K
LnY i , t =i 1 LnK i , t 2 LnL i , t 3 ln i , t i , t
L i ,t
y encuentre las expresiones de equivalencia entre los estimadores y los
parmetros de la ecuacin.
12. Demuestre que en una muestra finita, el estimador de la varianza de los residuos
2=nk 1 2i se distribuye .
13. Demuestre que en una muestra infinita se requiere que los cuartos momentos de
la distribucin de los residuos sean finitos para que el estimador asinttico exista.
14. Demuestre que testear un conjunto de restricciones lineales es equivalente a
hacer un test tipo F entre una ecuacin restringida y una que no lo est.
15. Suponga que el verdadero modelo es y = x u (no tiene constante) pero que
Ud. us uno de esos softwares de econometra de segunda clase y tuvo que
estimar su modelo con la constante. La omisin de esta variable causa sesgo?
Compare la varianza del estimador de del modelo verdadero con la del
estimado.
16. Considere el siguiente modelo y i = x i i f i =1/e /
Note que los errores tienen la caracterstica que siempre son positivos.
i

i 0 .

4.42
(a) calcule la E[] .
(b) demuestre que el estimador de mnimos cuadrados de la pendiente es
consistente pero el del intercepto es inconsistente.
17. Demuestre que R 2 puede ser negativo.
18. Demuestre que el R 2 ajustado ( R 2 ) se puede escribir en funcin de R 2 como:

n1
R 2 =1
1R 2
nk
19. Pruebe que R 2 no puede reducirse si se aade una variable en la regresin. D
la intuicin.
20. Suponga que una regresin lineal es adecuada y el modelo est bien especificado.
Tiene el R 2 computado alguna distribucin?
21. Considere la regresin de y en K variables (incluida la constante) representadas
por X . Considere un conjunto de regresores alternativos Z=XP , donde P es
una matriz no singular. As, cada columna es una mezcla de algunas columnas
de X . Pruebe que los vectores de residuos de la regresin de y en X y de y en Z
son idnticos. Qu importancia tiene esto respecto de la posibilidad de cambiar
el ajuste de una regresin mediante la transformacin de los datos?
22. El problema de un productor es cmo predecir la demanda de su producto de
*
exportacin (yuca). Ud hace un modelo economtrico tipo x t = 0 1 Y t 2 Px t
(log demanda yuca, log ingreso externo y log precio yuca, respectivamente). Ud
estima los parmetros por mnimos cuadrados. Su jefe no cree en la econometra
y tiene sus propias elasticidades, , calculadas al ojo. Pruebe que la diferencia
entre su R 2 y el R 2 de su jefe, es proporcional a: Z
Z donde Z =
{Y,Px} y { , } los vectores de parmetros.
23. Considere el siguiente modelo y t=' x t t , con x =[c ,z ] y donde c es una
constante y z un conjunto de variables. Suponga que la varianza de es
2
constante, . Encuentre la varianza de la prediccin fuera de muestra de y.
Demuestre que sta se reduce cuando aumenta el tamao de muestra y mientras
ms cerca estamos de E[ x ] .
24. Cules son las fuentes de incertidumbre en una prediccin ( y ) hecha con un
modelo lineal del tipo y =x u ? Calcule analticamente la V y .
25. Demuestre que testear un conjunto de restricciones lineales del tipo R =q es
equivalente a hacer un test tipo F entre una ecuacin restringida y una que no lo
est.

4.43
26. Suponga que Ud es un monopolista con costo marginal = 10. Encuentre un
intervalo de confianza al 95% para el producto que hace que su beneficio
esperado mximo. Ud tiene la siguiente informacin. (use una demanda lineal).
Q

10

15

16

13

15

15

12

18

21

18

16

17

12

15

15

13

11

10

27. Suponga que tiene una muestra de n datos de { y n , x n }. Suponga ahora que a la
muestra se le aade un dato. Demuestre que el estimador de mnimos cuadrados
de la regresin usando n+1 datos es proporcional al residuo de la prediccin de y
basada en los coeficientes obtenidos con la muestra de n datos.
28. Para una muestra de datos del periodo [1, t ] , considere el siguiente modelo
y t= x tt donde t=t 1t y t es ruido blanco Gaussiano.
1. Compute el error de prediccin de y tn y su intervalo de confianza del 90%.
2. Demuestre que el intervalo de confianza converge en distribucin.
K

1
]='

2
29. Demuestre que si es el estimador MICO, E[ '
, donde
k =1 k
es uno de los valores propios de x ' x .
30. Considere el modelo y i =1 x i i , que no incluye la constante, y donde el error
cumple las condiciones Gauss-Markov.

1 .
I. Derive el estimador de mnimos cuadrados ordinarios de 1 y llmelo
Es este estimador insesgado? Demuestre que es de varianza mnima.
II. Considere el modelo y i =0 1 x i i , donde el error cumple las
condiciones Gauss-Markov. Demuestre que, para este modelo, el estimador
1 es sesgado. es posible determinar la direccin del sesgo?. Naturalmente,
1 mayor o menor
si 0=0 no hay sesgo, pero es la varianza del estimador
que la varianza del estimador mnimos cuadrados de 1 ? Demuestre que si
E[ x i ]=0 , el estimador 1 es insesgado.

4.44

Apndice A:

Algebra de Matrices y Gauss

Operaciones elementales (ver programa de Gauss asociado)

1. Suma de matrices. Sean A=[aij] y B=[bij] dos matrices de orden mn. La suma de
matrices corresponde a la matriz C=[cij] cuyos elementos genericos son cij=aij +bij.
Ejemplo:

[ ] [ ]

[ ]

1 3 4
1 2 3
0 1 1
A= 4 5 6 y B= 1 0 1 entonces A B=C = 5 5 7 .
7 9 9
7 8 9
0 1 0

Note que A y B son conformables para la suma.


Note que la suma es conmutativa (A+B=B+A) y asociativa (A+(B+C)=(A+B)+C).

2. Multiplicacin por escalar. Sea un escalar, entonces A =[aij]. Ejemplo, si es 2.

2 4 6
A= 8 10 12
14 16 18

3. Multiplicacin de matrices. El producto de las matrices A y B debe ser conformable


respecto de la multiplicacin, es decir, el numero de filas de B debe ser igual al
nmero de columnas de A. Los elementos de C=A*B corresponden a:

c ij = a ijb jk
j

][

102130 11203 1 112 13 0


2 4 3
C= 4 05160 41506 1 4 15 16 0 = 5 10 9
708 19 0 71809 1 7 18190
8 16 15

La multiplicacin de matrices en general no es conmutativa.

4.45

BA=

9
9 12
3
0 3
4 11 9

4. Transposicin. La transpuesta de la matriz A=[aij] de orden mn es una matriz


A'=[aji] que tiene por filas las columnas de A y por columnas las filas de A.

[ ]

1 4 7
A '= 2 5 8
3 6 9

Las reglas bsicas de la transposicin son:


1. La transpuesta de A' es A.
2. Si C=A+B entonces C' = A' + B'
3. Si C = AB then C'=B'A'.

5. Inversin. Si A=[aij] de orden nn, entonces su inversa, si existe, es una matriz


definida de manera nica A-1 de orden nn que satisface la condicion AA-1=I,
donde I es la matriz identidad (tiene 1 en la diagonal y 0 fuera de la diagional).

B1=

1 1 1
0 0 1
1 0 1

La inversa existe slo si el determinante de la matrix no es cero.


Las reglas bsicas de la inversion son:
1. La inversa de A-1 es A.
2. La inversa de la transpuesta es la transpuesta de la inversa, (A')-1=(A-1)'.
3. If C=AB, then C-1=B-1A-1.
6. Operaciones elementales. Las siguientes operaciones elementales se usan para,
entre otros fines, para obtener inversas:

4.46
1. Multiplicacin de una fila por un escalar, .

[ ][ ] [

0 0 1 2 3
1 2 3
=
0 1 0 4 5 6
4 5 6
0 0 1 7 8 9
7 8 9

2. Resta de una fila por otra.

][ ] [ ]

1 0 0 1 2 3
1 2 3
1 1 0 4 5 6 = 3 3 3
0 0 1 7 8 9
7 8 9

3. Intercambio de filas

[ ][ ] [ ]
0 1 0 1 2 3
4 5 6
=
1 0 0 4 5 6
1 2 3
0 0 1 7 8 9
7 8 9

Para obtener una inversa se usa una secuencia de estas operaciones elementales.
Consideremos el caso de una matriz de 2x2:

[ ]

U= 2 5
4 3

computamos
computamos
computamos
computamos

[1/20 01][ 24 53]=[14 2.53 ]


[41 01][ 14 2.53 ]=[10 2.53 ]
[10 1/30 ][10 2.53 ]=[10 2.51 ]
1 2.5 = 1 0
[10 2.5
1 ][ 0 1 ] [ 0 1 ]

Captulo 5
Violacin de los Supuestos del Modelo de Regresin Lineal

En esta seccin estudiamos problemas derivados de la violacin de los seis


supuestos sobre los cuales se desarroll el modelo de regresin lineal en el captulo
anterior. La lgica1 de operar es la siguiente: en primer lugar estudiamos el efecto de la
violacin sobre los estimadores mnimos cuadrados y los diferentes tipos de tests. En
segundo lugar, propondremos, si es posible, alguna una solucin, examinando el
contexto en el que dicha solucin es vlida.
La pregunta ms natural que aparece es cmo sabemos que se ha violado un
supuesto? La respuesta no es simple porque hay muchas consecuencias de violar un
supuesto y, adems, porque muchas veces se pueden violar varios supuestos
simultneamente. Aunque no hay reglas al respecto, algunos fenmenos que delatan la
violacin de algn supuesto son:

Los errores que no tienen la caracterstica de ser ruido blanco que se les exige
para representar la parte asistemtica del fenmeno en cuestin. Este es el
indicador ms importante de la violacin de algn supuesto aunque, debe
reconocerse, es difcil de evaluar an con los mejores tests estadsticos. 2

Los parmetros estimados tienen caractersticas que no son congruentes con los
pre/juicios que se tenan antes de hacer el experimento, en trminos que
presentan signos opuestos a los esperados, baja significancia estadstica, o son
poco robustos ante pequeos cambios en las condiciones de estimacin.

Existen problemas con los estadsticos asociados a la regresin, como son R, tests
de correlacin residual, o la comparacin entre el error estndar de la variable de
inters y el de la regresin, y .

Baja capacidad predictiva del modelo estimado o sesgo sistemtico en la


prediccin.

1 Lgica es el arte de pensar y razonar en estricta concordancia con las limitaciones e


incapacidades de la incomprensin humana Ambrose Bierce, Diccionario del Diablo.
2 Usualmente en estadstica es ms fcil demostrar que algo no es lo que se supona que afirmar
que s lo es.

5.2

5.01 Problemas de Especificacin I: Regresores Inadecuados

Es frecuente que al modelar el econometrista tenga varias alternativas de


variables que puede incluir o excluir del modelo. En principio, la teora debiera sugerir
una especificacin completa y las hiptesis que se va a estudiar. Pero a veces las teoras
no son muy finas y hay espacio para probar distintas especificaciones.
En ese contexto, hay dos tipos de variables (pertinentes e irrelevantes) y dos
situaciones (incluidas y excluidas). Dos combinaciones son obvias; 3 pertinente incluida e
irrelevante excluida. Las otras dos son ms interesantes de estudiar.

Omisin de variable pertinente


Un problema economtrico comn en los modelos econmicos es la omisin de
variables que pueden ser potencialmente importantes (tpicamente por mala
especificacin analtica o por limitaciones de los datos). Supongamos que el modelo
y =x es particionado en dos grupos de variables:

y =x 1 1x 2 2

(5.1)

Supongamos ahora que la estimacin excluye x 2 . Entonces:

1 =x 1 ' x 11 x 1 ' y
= x 1 ' x 1 1 x 1 ' [x 1 1x 2 2]
=1 x 1 ' x 1 1 x 1 ' x 2 2 x 1 ' x 11 x 1 '

(5.2)

esta expresin ya la hemos visto con anterioridad, de donde derivamos este importante
resultado:

E[ 1 ]=E [1 x 1 ' x 11 x 1 ' x 2 2x 1 ' x 1 1 x 1 ' ]


=1E[x 1 ' x 11 x 1 ' x 2 2 ]

(5.3)

Entonces,

3 "Obvious" is the most dangerous word in mathematics (Eric Temple Bell, Mathematical Circles
Squared, Boston, 1972).

5.3

E[ 1 ]=1 si x 1 ' x 2 =0
1 si x 1 ' x 2 0

(5.4)

Por lo tanto, la omisin de variables pertinentes no correlacionadas con aquellas


que quedan en el modelo no sesga el estimador de los coeficientes. Pero la omisin de
variables pertinentes correlacionadas con aquellas que quedan en el modelo sesga los
estimadores. El sesgo es de direccin y tamao desconocidos, porque no conocemos 2 .
Pero hay un segundo efecto. Estudiemos la varianza del estimador usando la
inversa de matrices particionadas. La varianza del verdadero estimador, es decir
incluyendo x 2 , es

V [ 1 ]= 2 [x 1 ' x 1 x 1 ' x 2 x 2 ' x 21 x 2 ' x 1 ]1

(5.5)

en tanto que la varianza del estimador en el modelo que excluye x 2 es

V [ 1 ]= 2 x 1 ' x 11

(5.6)

Por lo tanto, en el segundo caso el estimador de 1 es sesgado pero de menor


varianza. Sin embargo, consideremos el caso ms comn en el que resulta necesario usar
2
2 =' /nk1 , donde son los residuos del modelo
el estimador de ,
estimado excluyendo x 2 (no los del modelo completo, ). Pero podemos expresar
en funcin de usando la matriz M 1 :

=M 1 y
=M 1 x 1 1 x 2 2
=M 1 x 2 2 M 1

(5.7)

donde nuevamente M 1 =I x 1 x 1 x 1 , es decir, produce los residuos de una


regresin de lo-que-haya-a-la derecha de x 1 . Por lo tanto, en los residuos muestrales
estn los verdaderos residuos ms el efecto de la correlacin de x 1 y x 2 ponderado
por 2 .
1

Cmo afecta esto al estimador de la varianza de los residuos? Tomando la


ecuacin (5.7), multiplicando por su traspuesta y tomando el valor esperado se obtiene
la siguiente expresin:

E[' ]= 2 ' x 2 ' M 1 x 2 2E [' M 1 ]

(5.8)

5.4
Entonces,

E[' ]=2 ' x 2 ' M 1 x 2 2 2 tr M 1


2
=2 ' x 2 ' M 1 x 2 2 nk 1

(5.9)

El primer trmino del lado derecho de (5.9) es no-negativo, ya que es una forma
cuadrtica. El segundo es el estimador de la varianza de los residuos para el modelo que
excluye x 2 . Por ello, la varianza estimada de los residuos obtenida como la suma de
los residuos al cuadrado ajustada por grados de libertad estar sesgada. Es interesante
notar que an si x 1 x 2 =0 y los estimadores de los parmetros no estn sesgados, el
estimador de la varianza de los residuos y por consiguiente los tests t si lo est.

Adicin de variable irrelevante


Nuevamente, debemos contestar las clsicas preguntas: Es el estimador de
insesgado? Se ha afectado la varianza del estimador de ? Se ha afectado
2 ? Cul
es el impacto sobre los tests? Se deja de tarea encontrar las respuestas, que son bastante
obvias.

Una conclusin errnea, popular y peligrosa


Como hemos visto, en trminos de la calidad de los estimadores resulta
preferible incluir variables irrelevantes a excluir variables pertinentes. Ello sugerira que
la mejor estrategia de modelacin economtrica es poner de todo al lado derecho de la
regresin, mientras alcancen los grados de libertad. As, si bien los estimadores tendran
problemas de eficiencia, no habra problemas de sesgo. Estos ltimos son, naturalmente,
ms graves.
Existen problemas graves con esta estrategia. El modelo de regresin ha sido
derivado bajo la premisa que ste describe un experimento aleatorio en un espacio de
probabilidad asociado a un conjunto de posibles eventos de inters. En tal caso, el diseo
del experimento debe ser hecho ex-ante y debe producir tanto el conjunto de hiptesis
que se desea estudiar como la especificacin funcional particular que se debe usar.
Cuando se incluyen variables aleatorias con el fin de maximizar algn criterio
(usualmente bondad de ajuste) el primer problema que se presenta es que, en rigor, no
puede compararse el parmetro de inters entre modelos. Considere los dos modelos
planteados en la ecuacin (5.10):

5.5

a y i =0 1 x i
b y i =0 1 x i 2 w i

(5.10)

evidentemente, el parmetro 1 de la ecuacin (a) se refiere a un experimento cuyo


espacio de eventos es distinto del que se considera implcitamente en la ecuacin (b), lo
que impide la comparacin entre modelos. Otra manera de ver este mismo problema es
considerar que la modelacin economtrica equivale a estudiar la distribucin
condicional F y | x , la que puede ser muy distinta de F y | x ,w .
En segundo lugar, cuando se usa la muestra de variables aleatorias para sugerir
una especificacin no puede usarse esa misma muestra para (in)validar dicha
especificacin.4 En el primer caso, se est usando la informacin para descubrir
regularidades de inters (usualmente mal llamadas, hechos estilizados) y motivar la
modelacin y el anlisis econmico de algn fenmeno. En el segundo caso, se est
usando un conjunto de variables aleatorias para discutir la validez de una proposicin
econmica hecha con independencia de la realizacin (muestra) de dichas variables
aleatorias. Si bien ambos casos son vlidos por separado, en conjunto ellos no
constituyen una base adecuada de modelacin economtrica.
Frecuentemente los investigadores olvidan este hecho elemental y se engarzan en
una verdadera carrera de caballos con distintos modelos economtricos, ponderando sus
virtudes y defectos por medio de una batera de tests.
Cmo sabemos, entonces, si un modelo est bien especificado? Slo la teora
econmica nos puede sugerir una especificacin. Una vez obtenida una muestra acorde
al testeo que se desea hacer, hay dos alternativas: si la teora es congruente con los datos,
nos quedamos con sta como una representacin adecuada de datos caracterizados por
algunas regularidades empricas. Si la teora no es congruente con los datos, cambie de
teora.
Existe la tentacin a poner cosas del lado derecho, slo para encontrarse despus
que no hay como justificar en serio la inclusin de dichas variables. Hay, sin embargo,
dos objeciones comunes a la idea que un investigador debe limitarse a la disciplina que
le impone su teora econmica:
1.

Si el test t de estas variables adicionales es mayor que 2 por qu no incluirlas?

El resultado es el peor. La (o las) variable(s) parece(n) ser importante(s) desde un


punto de vista estadstico para describir la media condicional de y, pero no tenemos idea
por qu o qu papel desempean desde el punto de vista analtico. Lo mismo se aplica a
justificar por bondad de ajuste: no olvide que el R es una funcin del test t. Si se aade
una variable cuyo test t es mayor que 2, el R de la regresin sube.
4 Esta es una discusin bastante profunda e, inevitablemente, impopular. Ver D.G. Mayo, Error
and the Growth of Experimental Knowledge, The University of Chicago Press, Chicago, Il. 1996.

5.6
2.
Por qu no usar las k variables disponibles y hacemos una competencia todos-contratodos seleccionando aquellas que maximizan R con tests t significativos al, digamos, 95%?
Esta tcnica, llamada stepwise regression, busca aquella combinacin lineal de los
componentes de x que maximiza la bondad de ajuste, R. Esto tiene bastantes problemas.
En primer lugar, la seleccin es mecnica con independencia de las restricciones que
impone la teora. En segundo lugar, es difcil comparar entre modelos (cmo se
distribuye el test de distancia entre dos o ms R?). En tercer lugar, esto es data mining.
El problema de data mining5, en realidad, excede el de la bsqueda interesada de
las variables que se debe incluir en el modelo. Tambin debe incluirse la reespecificacin
de los modelos (porque tambin equivale a cambiar los supuestos sobre los cuales se
deriv el modelo originalmente), la bsqueda de muestras convenientes (por ejemplo, el
periodo de tiempo preciso) e, incluso, el uso de tests estadsticos favorables (que
usualmente son aquellos que no tienen poder para probar la hiptesis nula de inters). 6
Recientemente el tema de data mining ha recibido un soporte analtico ms
slido y su uso se ha popularizado en reas distintas a la economa donde el inters por
relacionar evidencia emprica con modelos de comportamiento no es importante. Por
ejemplo, en el uso de datos grficos para el reconocimiento de patrones sistemticos
(caras a partir de fotos). Hirsh (2008) hace un recuento de los avances y desafos en este
tipo de modelacin.7

5.02 Problemas de Especificacin II: Cambio de Rgimen


Una forma interesante de violar el supuesto que el modelo sea lineal es el caso en
el que hay cambio de rgimen (un caso frecuente en series de tiempo). 8 Cambio de
rgimen es una expresin un tanto vaga que se utiliza para denotar que el fenmeno de
inters tiene un comportamiento caractersticamente diferente en diversos periodos de
tiempo. En dichos segmentos, la media condicional y sus determinantes pueden diferir
de manera apreciable.

5 The art of fishing over alternative models has been partially automated with stepwise
regression programs. While such advances have made it easier to find high Rs and
significant t coefficients, it is by no means obvious that reductions in the costs of data
mining have been matched by a proportional increase in our knowledge of how the economy
actually works. Lovell, M. C. (1983), Data Mining, The Review of Economics and Statistics, 65,
1-12.
6 Ver A. Spanos (1999) Revisiting data mining: hunting with or without a license, mimeo,
Department of Economics, Virginia Polytechnic Institute and State University.
7 H. Hirsh Data mining research: current status and future opportunities, Statistical Analysis
and Data Mining, 1:104-108.
8 A este tipo de modelo se le denomina incorrectamente cambio estructural. El nombre ms
adecuado es cambio de rgimen, por cuanto nada garantiza que sea produzca un cambio en el
mecanismo generador de los datos, sino que el modelo debe ser estimado reconociendo su
naturaleza dual.

5.7
Un ejemplo comn queda descrito en la siguiente figura. En una serie que crece
con tendencia positiva de 2.5% se han incorporado distintos tipos de quiebres para ver el
efecto. En el panel A se presenta una muestra de 75 datos de la serie original. En el panel
B se muestra la misma serie pero con un quiebre en la constante ubicado en el segundo y
cuarto cuartos de los datos. El quiebre es de tamao 40% del nivel. En el panel C se
presenta la serie con un quiebre que lleva la tendencia a -2.5% en los mismos intervalos.
En tanto que en el panel D se presenta la serie sujeta a ambos quiebres.

Figura 5.1
Cambio de rgimen

Mtodo de Chow
En el caso de cambio de rgimen, un modelo del tipo y =x es inadecuado.
Supongamos que el cambio de rgimen slo afecta el intercepto de la regresin, Chow 9
sugiere usar es una especificacin del tipo:

y i =x i i i [ 1, N ] [N ,N ]
y i =x i i i [N ,N ] [N , N ]

(5.11)

9 G. C. Chow (1960) "Tests of Equality Between Sets of Coefficients in Two Linear Regressions".
Econometrica 28(3):591605.

5.8
Sin embargo, es preferible anidar ambos modelos en una sola especificacin
usando variables ficticias (mudas o dummies10), que toman valores 0 y 1 dependiendo del
rgimen. El modelo anidado es:

y i =x i D i i

donde

(5.12)

D i =1 i [ 1, N ] [N ,N ]
.
D i =0 en el resto

As, cuando la variable muda D es 1, el intercepto es = , en tanto que si es


0 ste es .11 Es decir, interpretamos como la diferencia de interceptos.
Supongamos ahora que el cambio de rgimen es tanto en el intercepto como en
los otros coeficientes de la regresin. Se debera usar es una especificacin del tipo:

y i =x i i i [ 1, N ] [N ,N ]
y i =x i i i [N ,N ] [N , N ]

(5.13)

Conviene, nuevamente, anidar ambos modelos en una sola especificacin usando


variables ficticias. El modelo anidado es:

y i =x i [ D i ] D i i

(5.14)

As, cuando D toma valor 1, el intercepto es = y la pendiente es


= . Cuando D=0, obtenemos los parmetros y .

Cmo descubrimos si hay cambio de rgimen?


Existen dos tcnicas de amplia difusin para descubrir la existencia de regmenes
distintos en una muestra: las tcnicas recursivas y el test RESET. Como vamos a
descubrir, estas tcnicas no sealan slo la presencia de cambio de rgimen sino adems
de otros problemas de especificacin.
10 El trmino variable muda (del ingls dummy) fue introducido aparentemente en 1952 por H. S.
Houthakker en "The Econometrics of Family Budgets" Journal of the Royal Statistical Society A,
115:1-28.
11 Otro uso frecuente de variables mudas es para controlar problemas de estacionalidad, es
decir, la tendencia a observar cambios en la variable de inters debido a fenmenos que no
interesa modelar (clima, efemrides, etc.). En tal caso, el modelo es del tipo
y i =x i 1D 1 2D2 3D 3i , donde las variables D 1 , D 2 y D 3 toman valor 1 para
primer, segundo y tercer trimestre, respectivamente, y 0 en cualquier otro caso.

5.9
El test RESET (Regression specification error test) fue propuesto por Ramsey (1969)12
y consiste en realizar una regresin auxiliar al modelo de inters. Sea el modelo
y t = x t t , supongamos que se distribuye N 0, I , y consideremos la siguiente
regresin auxiliar:

y t =0 1 x t 2 z t t
2

(5.15)

donde z t ={ y t , y t ,} y y t son los valores predichos del modelo original.13 Si el


modelo original estaba bien especificado, entonces los coeficientes de las variables
auxiliares no debiesen ser estadsticamente significativos. En caso contrario, el estimador
de es inconsistente. Por ello la hiptesis nula del test es H 0 : 2 =0 y H 1 : 2 0 .
Para hacer el test en la prctica, se puede hacer un test F o de razones de
verosimilitud. Note que se puede extender el test de Ramsey en dos direcciones.
Primero, para incluir otras variables en la matriz de variables auxiliares. En este caso, el
test no slo sealara la presencia de error de especificacin sino, adems, de variables
omitidas. Segundo, en modelos de series de tiempo es posible incluir rezagos de la
variable del lado izquierdo, y tk , de modo que el test ahora sealara la presencia de
error de especificacin sino, adems, de correlacin residual.
La tcnicas recursivas se aplican de modo natural a problemas de series de
tiempo y consisten en estimar el modelo incrementando de modo paulatino (recursivo)
el tamao de muestra. Consideremos el modelo y t = x t t y la siguiente regresin
auxiliar:

y t =t 1 x t t

(5.16)

donde t es el estimador del parmetro obtenido mediante una regresin hecha con una
i=t 1
muestra de datos { y i , x i }i=k 1 . La tcnica consiste en hacer un conjunto de regresiones
auxiliares incrementando el tamao de muestra desde i =k1 hasta T , donde k es el
rango de x. Note que k1 es la primera regresin que es posible hacer.

12 J. Ramsey, J. B. (1969). "Tests for Specification Errors in Classical Linear Least Squares
Regression Analysis," Journal of the Royal Statistical Society, Series B, 31:350-371. Un trabajo
posterior demuestra que el test RESET es lo suficientemente poderoso para descubrir
problemas de especificacin an cuando los criterios tradicionales (R, correlacin residual, y
tests de significancia) sean cumplidos satisfactoriamente (Ramsey, J. B. and A. Alexander
(1984). "The Econometric Approach to Business-Cycle Analysis Reconsidered," Journal of
Macroeconomics, 6:347-356.)
13 La lgica de incluir potencias es directa. Suponga que el modelo es logartmico (p.e., y =x z
). Una expansin de Taylor para linealizarlo exigira trminos de segundo orden al menos. Su
omisin como sucede en el modelo original implica que el residuo tiene precisamente esa
estructura.

5.10
Existen dos posibles variables aleatorias de inters que se obtienen del conjunto
de regresiones auxiliares: los estimadores recursivos y los residuos recursivos. Para
ambos hay distintos tests.
Tests de residuos recursivos. Hay dos tests clsicos de residuos recursivos: CUSUM y
CUSUM-Q. Consideremos primero la varianza predicha del error de prediccin de
(5.16):

2 = 2 1x t ' x t1 ' x t 1 x t
t

(5.17)

y ahora computamos recursivamente la variable aleatoria wt tal que

wr =

1x ' x
r

(5.18)

r 1

' x r 1 x r
r =t

El test CUSUM computa W r =

1
w donde es la varianza estimada de
r =k1 r

w r . Bajo la hiptesis nula W r tiene media cero y su varianza es aproximadamente igual


a la suma de los residuos normalizados (es decir, una variable aleatoria i.i.d.
estandarizada). Por ello el intervalo de confianza se obtiene de las rectas
[ k ,a T k ] y [ k ,3 a T k ] y se fija a para niveles de significancia de 95% o
99%. Un ejemplo se ve en la Figura 5.2.
Figura 5.2
Test CUSUM
30
20
10
0
-10
-20
-30
80

82

84

86

C U S UM

88

90

92

94

96

98

5% S ignif icanc e

El test CUSUM-Q, por otro lado, utiliza una variacin del test anterior pues
estudia el estadgrafo:

5.11
r =t

w 2r

2
r

S r = r =k1
r =T

(5.19)

r =k1

donde la diferencia entre el numerador y denominador est en la extensin de las sumas


(t vs.T). Bajo la hiptesis nula, la esperanza del estimador es (aproximadamente)
E[S r ]=t k/T k y su varianza es una funcin compleja de (t-k) para la cual
existen tablas (ver Figura 5.3).
Un problema de los tests CUSUM es que su poder es decir, la habilidad para
rechazar la alternativa cuando sta es falsa no es montono. En particular, ste puede
depender del tamao del quiebre, haciendo que su poder se vaya a cero si el quiebre es
suficientemente grande. La razn es que la varianza de los errores se computa sin
considerar que hay un quiebre. Adems, es posible que el poder tampoco sea montono
cuando hay ms de un quiebre en los datos.14
Figura 5.3
Test CUSUM-Q
1.2
1.0
0.8
0.6
0.4
0.2
0.0
-0.2
80

82

84

86

88

90

CU SUM of Squares

92

94

96

98

5% Significance

Finalmente, la estimacin recursiva del modelo produce para cada iteracin un


valor del estimador de los parmetros con su respectiva desviacin estndar que se
puede utilizar como medida visual de la inestabilidad de una regresin y de la presencia
de cambios de rgimen. Como se ve en la Figura 5.4.

14 Ver P. Perron (2007) Dealing with Structural Breaks, Palgrave Handbook of Econometrics, Vol.
1: Econometric Theory, T.C. Mills and K. Patterson (eds)

5.12
Figura 5.4
Estimacin recursiva de los estimadores de los parmetros

Test de Prediccin (One Step Ahead Forecast Error Test)


Si uno considera la ecuacin (5.16) notar que los residuos recursivos
corresponden al error de prediccin un periodo fuera de muestra. Es posible, entonces,
testear si la distancia entre la prediccin y el valor verdadero est dentro de un intervalo
de confianza definido (p.e., 95%). Una descripcin grfica de este test es presentada en la
siguiente figura. Se observan en azul los residuos recursivos, con su desviacin estndar
(escala derecha). En la escala izquierda se identifican aquellos errores que estn entre
5%, 10% y 15% fuera de rango
Figura 5.5
Prediccin un paso adelante
.4
.2
.0
-.2

.00

-.4
.05
.10
.15
80

82

84

86

88

90

Probabilidad Un-Paso Adelante

92

94

96

98

Residuos Recursivos

5.13
Tests para quiebres mltiple
Hemos visto qu hacer cuando se desconoce la ubicacin del quiebre y cmo
puede ayudarnos los tests recursivos. Otra preocupacin legtima es determinar si existe
uno o ms quiebres y su ubicacin. La literatura sobre quiebres sucesivos es
relativamente reciente y tiene relacin con modelos de parmetros cambiantes (en el
sentido que los parmetros van cambiando en el tiempo y t =t x t t ) y/o con
problemas de no estacionariedad (es decir, cuando la media u otros momentos de la
distribucin conjunta de los datos cambian con cada nueva observacin).
Recientemente, Andrews, Lee and Ploberger (1996) estudian una clase de test
ptimos para el caso en que haya un quiebre pero que en el caso de mltiples quiebres
son poco prcticos pues exigen computar todas las posibles particiones de una muestra
de tamao T en l segmentos o quiebres.15 Bai Perron (2003)16 sugieren usar un proceso
secuencial. En primer lugar, se computa el valor del mximo test de Wald para un
cambio estructural, suponiendo que slo existe un quiebre. Luego se toma la subparticin ms grande de los datos y se vuelve a realizar el test de Wald para un nico
cambio estructural. El procedimiento se repite mientras sea necesario, sujeto al tamao
mnimo que puede tener un segmento (usualmente k+1). Naturalmente, la distribucin
de este test secuencial no es estndar pues las hiptesis est anidadas (es decir, el
segundo test de Wald depende de haber hecho bien la inferencia del primer test de
cambio estructural, el tercero de los dos primeros, etc.), por lo que Bai y Perron proveen
tablas de valores crticos ad-hoc.

5.03 Problemas de Especificacin III: Datos errneos


El anlisis emprico frecuentemente se enfrenta a problemas con los datos en dos
dimensiones: datos perdidos y variables cercanas. Naturalmente, es posible que estos
problemas sucedan simultneamente, pero para efectos pedaggicos los vamos a
estudiar por separado.

Datos Perdidos
Supongamos que el modelo es del tipo y i = x i i . Obviamente, pueden
haber datos perdidos en la variable de inters, y, o en los regresores, x. Ello puede
suceder por varias razones. En primer lugar, porque no existen los datos para algn
determinado perodo de tiempo o segmento de la muestra. Lo ms comn es que esto
suceda porque los encargados de estadsticas no levantan los datos de base o porque las
muestras se han perdido. Segundo, porque los datos existen pero estn en distinta
15 Ver Andrews, D.W.K., Lee, I., Ploberger, W. Optimal change point tests for normal linear
regression. Journal of Econometrics 70: 9-38, 1996.
16 Bai, J. and P. Perron Critical values for multiple structural change tests. Econometrics Journal,
6:72-78, 2003.

5.14
frecuencia a la necesaria para hacer el anlisis emprico (p.e., datos mensuales versus
trimestrales).
La literatura sobre datos perdidos es extensa pero puede sintetizarse en las
siguientes conclusiones. Primero, si los datos se han perdido de manera aleatoria, los
estimadores de mnimos cuadrados sern consistentes pero ms ineficientes que en el
caso que la muestra estuviese completa. La razn es, obviamente, que la muestra con
datos perdidos contiene menos informacin. Segundo, si los datos no se han perdido de
forma aleatoria pero slo afectan a las variables de lado izquierdo, entonces no hay
sesgo y slo hay problemas de eficiencia. Este caso es llamado sesgo de seleccin exgeno.
Tercero, si los datos no se han perdido de forma aleatoria pero slo afectan a las
variables de lado derecho, entonces hay sesgo de seleccin endgeno. En este caso, hay
correlacin entre regresor y residuo por cuanto las observaciones disponibles estn
limitadas de forma no aleatoria e, inevitablemente, hay sesgo en el estimador de
mnimos cuadrados.17
La existencia de datos perdidos suele llevar a los econometristas despistados a
intentar soluciones que, como se discute a continuacin, no son efectivas. Para discutir
estos mtodos podemos particionar la matriz de datos de acuerdo al Cuadro 5.1:

Cuadro 5.1
Problemas de disponibilidad de datos
Datos existen
yA
xA
Datos
perdidos

xB

Datos
perdidos

yC

Note que siempre podemos estimar el estimador en el subconjunto A. El


punto es ver cmo usar los datos restantes. Estudiaremos primero el caso A+B, es decir
cuando faltan algunas observaciones de la variable condicionada (o de lado izquierdo).
Posteriormente, veremos el caso A+C, es decir cuando faltan algunas observaciones de
los regresores.

17 La solucin a este tipo de sesgo de seleccin ms popular es el estimador en dos etapas de


Heckman. ste consiste en hacer una regresin inicial tipo probit para dar cuenta de los
determinantes de la seleccin de la muestra y, en una segunda etapa, se estima el modelo
original tomando en cuenta los resultados del modelo probit. Ver J. Heckman, "Sample
Selection Bias as a Specification Error," Econometrica, 47(1): 153-6, 1979.

5.15
Datos perdidos en la variable condicionada. Una sugerencia frecuente es utilizar algn
mtodo para hacer una prediccin de y B y usar posteriormente el modelo economtrico
completo para estimar , es decir usando [ y A yB , x A x B ] . El quid del asunto radica
en cmo predecir y B . Hay dos alternativas populares:

Alternativa popular 1.
Rellene los datos faltantes con la media de y A . Es
fcil demostrar que como resultado se produce sesgo en los parmetros.

Alternativa popular 2.
Estime en el subgrupo A, prediga y B usando
dicho estimador, y luego estime el modelo completo. Es directo demostrar que el
procedimiento es intil.

Datos perdidos entre los condicionantes. Nuevamente la sugerencia popular es hacer una
prediccin de y C y usar el modelo completo para estimar , es decir usando
[ y A y C ,x A x C ] . Cmo predecir x C ?

Alternativa popular 1.
Rellene los datos faltantes con la media de x A .
Demuestre que este procedimiento es equivalente a eliminar los datos del
segmento C.

Alternativa popular 2.
Haga una regresin de x en y en el subgrupo A,
estime un parmetro y prediga x C usando dicho estimador. Luego estime el
modelo completo. Demuestre que este procedimiento viola el espritu del anlisis
economtrico.18

Medina y Galvn (2007)19 revisan nuevos procedimientos desarrollados durante


las ltimas dcadas que tienen mejores propiedades estadsticas que las opciones
tradicionales, tales como la eliminacin de datos, el pareo de observaciones, el mtodo
de medias y el hot-deck. Ellos concluyen que los algoritmos de imputacin de datos se
pueden aplicar, pero que imputar informacin no debe entenderse como un fin en s
mismo. Sus implicaciones en el anlisis secundario de datos deben evaluarse con
cautela, y este trabajo concluye que no existe el mtodo de imputacin ideal.

18 Si usted encuentra deprimente las conclusiones de esta seccin considere la clebre opinin de
Charles Babbage (1869) Errors using inadequate data are much less than those using no data at all.
19 Fernando Medina y Marco Galvn, Imputacin de datos: teora y prctica, Serie Estudios
Estadsticos y Prospectivos No 54, CEPAL.

5.16
Variables cercanas (proxies)
Una variable proxy es un sustituto cercano (es decir, imperfecto) de la verdadera
variable que no es observable o no est disponible. Usualmente el uso de variables
cercanas puede ser entendido como la presencia de variables medidas con error.
Puede haber proxies de la variable de inters o de los regresores, pero el efecto sobre el
estimador de mnimos cuadrados ordinarios de los parmetros no es igual. Recordemos
que el estimador mnimos cuadrados se derivan de:

=x
' x 1 x '

(5.20)

y del supuesto cov [x ,]=0 . Podemos reescribir la ecuacin anterior como:


1

[ ][ ]

x'x

=
n

x'
n

(5.21)

Hasta el momento se ha cumplido que plim [


]= Q xx x , pero la matriz de
covarianzas se desvanece cuando n. Veamos ahora qu sucede cuando se usan
variables cercanas.

Proxy para la variable de inters: Sea el modelo que nos gustara estimar y *=x . Pero
slo disponemos de y *= y , donde es un shock aleatorio, con media cero y
2
varianza . Entonces el modelo estimable es y =x =x , donde = .
Nte que es una variable aleatoria con media cero y cuya covarianza con x
tambin es cero. Luego se satisfacen todos los supuestos del modelo clsico y no hay
problemas de sesgo en los estimadores de mnimos cuadrados. Obviamente, la varianza
del estimador de los residuos est sesgada --siendo ms grande porque incluye tanto
la varianza de como la de . Sin embargo, ese sesgo no es posible corregirlo sin
2
conocer .

Proxy de los regresores: Sea el modelo que nos gustara estimar y =x . Pero slo
disponemos de x =x , donde es un shock aleatorio con media cero y varianza
2
. Ahora el modelo es y =x =x donde = . El problema
radica
en
que
hay
correlacin
entre
regresor
y
residuo
porque
2
cov [x ,]=cov [x ,]= . El estimador de mnimos cuadrados es:

5.17
n

1/n x i y i
i=1
n

(5.22)

1/n x

2
i

i =1

veamos el plim:
n

plim =

plim 1/n x *i x *i
i=1

(5.23)

plim 1/n x
*
i

i=1

y como x*, , y son independientes entre s, se obtiene:

plim =

Q*
Q * 2

(5.24)

con Q *= plim 1/n x *' x * .


Podemos reescribir (5.24) como:

plim =

2
1 *
Q

(5.25)

por lo tanto, si hay incertidumbre ( 0 ), el estimador de mnimos cuadrados


ordinarios del parmetro es inconsistente y sesgado hacia cero. A mayor error de
medida, ms fuerte este efecto de atenuacin.

5.18
Datos influyentes y extremos (outliers)
En el anlisis emprico es usual encontrar valores tanto para la variable de inters
como sus determinantes que no parecen formar parte del experimento en cuestin
(tambin llamados outliers).20
Se entiende por datos influyentes aquellos que de ser incluidos o excluidos de
la muestra producen grandes variaciones en la estimacin, sea en los estimadores de los
parmetros o en los estadsticos asociados (p.e., bondad de ajuste). La influencia de
estas observaciones se debe tanto a la naturaleza del estimador de mnimos cuadrados
como al tamao de la muestra usada para obtener el estimador. En primer lugar, el
estimador de mnimos cuadrados se obtiene al minimizar la suma de residuos al
cuadrado, por lo que las observaciones ms alejadas del promedio de los datos reciben
ms valoracin. Eso puede hacer que el estimador sea sensible a valores extremos. En
segundo lugar, el tamao de muestra determina el impacto de valores extremos, pues
este problema ser ms agudo mientras ms pequea sea la muestra. Obviamente, en
una muestra grande el efecto de un valor extremo es contrapesado por ms
observaciones y, por lo tanto, tiene menos efectos sobre el estimador.
En la literatura se distingue entre valores extremos (outliers) y valores
influyentes. Valores extremos se refieren usualmente a valores de y que se desvan
mucho de la media condicional en x. Valores influyentes se refieren a valores de x que se
desvan de la media muestral y que, por lo tanto influyen mucho en la estimacin. En la
figura 5.6 se presentan ambos tipos de valores para el caso del modelo ms simple,
y i = x i i .
Figura 5.6
Valores influyentes y extremos

x
20 Esta es la definicin clsica de outlier de Hawkins, D. (1980). Identification of Outliers. Chapman
and Hall, London.

5.19
Frecuentemente los valores extremos e influyentes se producen por errores al
ingresar los datos de la muestra: por ejemplo, es comn que sucedan porque se
invirtieron dgitos (601 en vez de 106) o porque una coma est mal puesta (12,5 en vez
de 1,25). Es por ello que lo primero que se debe hacer es revisar los datos
cuidadosamente.
Existe un centenar de algoritmos de deteccin de valores influyentes que se
basan en seleccionar distribuciones conocidas para los datos (normal, exponencial, etc.)
y en definir un intervalo de confianza para determinar si un dato es un valor extremo o
no lo es (p.e., 90% o 95%).21
Una manera de detectar valores extremos es estudiar los residuos: si el valor
predicho se desva del efectivo de manera notoria se puede tratar de un valor extremo.
No obstante, esta no es una manera que garantice la deteccin. La razn es que el
residuo se mide con respecto a la recta de regresin la que podra variar si se incluye o
excluye el valor extremo. Usualmente se estudian los residuos estandarizados es decir,
los residuos divididos por su desviacin estndar de modo de normalizar su tamao.
Otra forma es estudiar la incidencia de cada dato en el estimador. Recordemos
que en el estimador de mnimos cuadrados cada observacin de y es ponderada por
H =x x ' x 1 x ' . Si se estudia la diagonal de H, es decir los valores de hii, es
relativamente directo ver la influencia de cada observacin en la estimacin. Valores con
mucha incidencia suelen sealar la presencia de valores influyentes o extremos. Adems
esto pone de manifiesto el hecho que valores ms alejados de la media de los regresores
tiende a darles ms influencia.
Cuando la muestra es pequea, tanto la media como la desviacin estndar
muestrales pueden ser distorsionadas por la misma presencia de valores influyentes. Es
por ello que en ese caso se usan tests de deteccin de datos influyentes basados en la
mediana y su desviacin estadstica, porque stas no son sensibles a los valores
extremos. El ms conocido de estos tests para muestra pequea es el de Dixon (1950) 22
que se basa en suponer que los datos se distribuyen normales. El test consiste en ordenar
los datos de menor a mayor y computar el siguiente estadgrafo para cada observacin
x n :

TN7 =

x n x n1
x n x 1

(5.26)

El valor de TN7 computado se compara con los valores crticos particulares para
tamaos de muestras que van desde 3 observaciones en adelante. 23 Si el valor obtenido
21 Un tratamiento comprensivo del tema se encuentra en Outliers in Statistical Data, V. Barnett
and T. Lewis, 1994, 3rd edition, John Wiley & Sons, Chichester.
22 Dixon, W.J. (1950): Analysis of extreme values, Annals of Mathematical Statistics, 21(4):488
506.
23 S. Verma y A. Quiroz-Ruiz, Critical values for six Dixon tests for outliers in normal samples

5.20
es mayor que el valor de tablas se rechaza la hiptesis nula que la observacin n-sima
no es un valor extremo. El estadgrafo TN7 reconoce que en una muestra pequea
resulta mucho ms difcil determinar si una observacin es un valor extremo porque no
hay suficiente informacin.

5.04 Problemas de Especificacin IV: Colinealidad


El problema de colinealidad (tambin llamado multicolinealidad) consiste en que
los regresores no son independientes entre s. Cuando se impuso el supuesto de
identificacin, es decir que x x 1 fuese positiva definida, no se elimin el problema
que los regresores estn correlacionados imperfectamente. 24 Consideremos el siguiente
modelo:

y i =1 x 1i 2 x i2 3 x 3i i

(5.27)

pero supongamos que los regresores estn correlacionados de acuerdo a la siguiente


relacin:

x 3i = 1 x 1i 2 x 2i i

(5.28)

Introduciendo (5.28) en (5.27) resulta obvio que:

y i = 11 3 x 1i 22 3 x 2i t 3 i

(5.29)

Hay dos interpretaciones interesantes de la ecuacin anterior. Primero, se puede


estimar j j pero no podemos identificar j . Segundo, el efecto marginal de
xk sobre y tiene dos componentes: uno directo ( j ) y otro que se filtra indirectamente a
travs de xj ( k j ). Note, adems, que la varianza del error ( 3 ) tiene una
estructura particular.
El efecto que tiene la colinealidad sobre el estimador mnimos cuadrados es algo
sorprendente. Tomando el estimador

up to sizes 100, and applications in science and engineering Revista Mexicana de Ciencias
Geolgicas, 23(2):133-161, 2006.
24 Otra razn para que x x 1 no exista es que el rango de x sea mayor que el rango de x.

5.21
1
E [ ]=E [ x ' x x ' y ]

=E [ x ' x x i ' x ]
1

(5.30)

=E [ x ' x x ' ]
1

Por lo tanto, en tanto la matriz de momentos de los regresores exista, el


estimador sigue siendo insesgado. Ello porque independientemente de si los regresores
son estocsticos o no, la correlacin entre regresor y error en valor esperado es cero lo

que implica que E[ ]=


.
Si los parmetros no son sesgados, dnde est el efecto de la colinealidad?
Debido a que el problema es que cov x 1, x 2 0 , entonces tiene que afectar la matriz de
momentos de los regresores, x ' x . Veamos cmo la afecta con algunos ejemplos
prcticos. Recordemos que la inversa de x ' x es su adjunta dividida por el
determinante, es decir:

a 11 a 12
1
a 22 a 12
1
entonces =
a 11 a 22 a 12 a 21 a 21 a11
a 21 a 22

(5.31)

Supongamos

[ ]

[ ]

1
= 1 0 1 = 1 0
1 0 1
0 1

(5.32)

y ahora consideremos casos donde la covarianza entre las variables no es cero:

(5.33)

(5.34)

1
1
0.6
= 1 0.6 1 =
0.6 1
0.64 0.6
1

1
1
0.9
= 1 0.9 1 =
0.9 1
0.19 0.9
1

Resulta evidente cmo se va reduciendo el determinante de la inversa. Entonces,


= 2 x i ' x i 1 , la presencia de colinealidad se traduce en varianzas de
dado que V
los estimadores de los parmetros cada vez ms grandes. En el lmite la varianza tiende
a infinito.

5.22
Esto es congruente con lo que obtuvimos en (5.29). Cuando la colinealidad es
perfecta no es posible distinguir entre el efecto directo e indirecto. Es decir, no podemos
precisar el valor de los parmetros (varianza infinita).
En la realidad, la colinealidad perfecta no existe (salvo por error). Pero tampoco
existe, usualmente, la ausencia de colinealidad (piense en el papel de las expectativas y
cmo stas correlacionan muchas variables econmicas). Por ello, siempre habr algn
grado de colinealidad.
Otro sntoma de la colinealidad es que los estimadores de los parmetros se
vuelven inestables (poco robustos). La inestabilidad se produce porque la estimacin
punto de los parmetros bajo alta colinealidad depende de la conformacin de la
muestra. Si sacamos un(os) dato(s) de la muestra, la estimacin de los parmetros suele
cambiar fuertemente.

Como detectamos la presencia de colinealidad?


Podramos estudiar la correlacin de los regresores antes de estimar el modelo.
Esta prctica es esencial en cualquier modelacin economtrica, pues aparte de detectar
posibles problemas de colinealidad nos ayuda a descubrir errores en los datos. Un
problema prctico, no obstante, es que no es muy claro cundo hay alta colinealidad
entre dos o ms variables. Naturalmente una correlacin de 99% es alta y una de 5% es
baja, pero para una correlacin de 57% no es clara la conclusin.
Otra alternativa es investigar si los estimadores de los parmetros son inestables.
Si bien esto es correcto, existen otros problemas que veremos ms adelante que
tambin producen inestabilidad. Por ello, este test no es conclusivo.
Una tercera alternativa frecuente es que, si bien los parmetros no son
significativos por la alta varianza, como un todo la regresin es satisfactoria. Ello se
traducira en el caso R 2 alto pero no significativos. Hay que reconocer, sin
embargo, que no es una regla muy firme, porque una variable irrelevante en un modelo
satisfactorio tendra el mismo sntoma.

Qu solucin tiene la colinealidad?


En estricto rigor, no existe ninguna solucin. La colinealidad no es un problema.
Es una caracterstica de las variables aleatorias utilizadas en el modelo. Es decir, una
caracterstica del problema econmico.

5.23
En ocasiones, la teora econmica permite imponer restricciones que evitan el
problema de colinealidad. Por ejemplo, considere el siguiente modelo translog para el
PIB, que denominamos Y:

log Y = 1 log KF 2 log KH 3

log KF 1/ 2
log KH 1/2
4
5 log KF log KH
2
2

donde KF es el capital fsico y KH es el capital humano. Usted sospecha que hay


colinealidad entre ambos tipos de capital. Si es vlido imponer la restriccin de retornos
constantes de escala ( 1 =1 2 y 3 = 4 =5 =1 ) entonces es posible reducir el
problema de colinealidad. Esto, sin embargo, no es lo usual.
No obstante, algunos textos tradicionales suelen presentar pseudo soluciones
empricas al problema de colinealidad que vale la pena estudiar para (a) descubrir su
inaplicabilidad y (b) porque existen otros usos para estas tcnicas que se utilizan a
menudo.
1.

Elimine alguna variable para la que haya evidencia de colinealidad con otras. En
1
2
3
el modelo y i =1 x i 2 x i 3 x i i entonces se podra eliminar, digamos,
x 3 . El resultado es:

y i =1 x 1i 2 x 2i 3 x 3i i
1
2
=1 x i 2 x i i

(5.35)

Obviamente, el problema de colinealidad se reduce. 25 Sin embargo, tenemos un


problema grave. Ahora cov x 1 , y cov x 2 , no son cero. Por ello, los
estimadores estn sesgados, no se conoce el tamao o la direccin del sesgo, y las
varianzas de los estimadores pueden estar sobre-estimadas.
2.

El mtodo de ridge. Esta tcnica se basa en la observacin que los parmetros


son difciles de identificar porque las varianzas de los parmetros son
relativamente pequeas en comparacin con las covarianzas. Las varianzas estn
2
1
en la diagonal de x x . Por ello, este estimador sugiere sumarle algo a
dicha diagonal, de modo que los parmetros sean identificables. El estimador de
ridge es:
1
RD =[ x i ' x i rD ] x i ' y i

(5.36)

donde r es un escalar pequeo (p.e., 0.01) y D una matriz diagonal.


Obviamente, ahora las varianzas de los parmetros estimados van a ser menores.
25 por qu slo se reduce y no se elimina?

5.24
1
2
Var RD = [ x i ' x i rD ]

(5.37)

Pero este beneficio se obtiene a costa de:

E[ RD ]=E [ x i ' x i rD ] x i ' y i

=E [ x i ' x i rD] x i ' x i

(5.38)

Hemos vuelto a obtener dos resultados importantes: (a) modelos con variables
pertinentes omitidas producen parmetros sesgados, y (b) es posible tener
estimadores sesgados ms eficientes que un estimador insesgado.
3.

Mtodo de componentes principales. Otra propuesta de solucin de


colinealidad consiste en extraer de la matriz x ' x los componentes principales
de sta. Si el problema de las x es que no hay independencia lineal, por qu no
seleccionamos aquellos x que son ms independientes? As, mejorara la
estimacin del modelo, pues el subconjunto de x seleccionado representara bien
a todas las variables del modelo. La pregunta es equivalente a cul combinacin
lineal de las x es la que tiene el mejor ajuste a todas las x? Esa ser la mejor
representante.

Sea la combinacin lineal z 1 =x a 1 . Entonces, z 1 ' z 1=a 1 ' x ' x a 1 . Buscamos a 1


tal que maximicemos z 1 ' z 1 (pinselo como matriz de informacin). Obviamente, si no
restringimos a 1 es posible que [z 1 z 1 ] . Por ello, optimizamos restringiendo a que
a 1 a 1 =1 (a esto se le llama normalizar). Usando la tcnica de Lagrange:

max a =a1 ' x ' x a 1 1 a 1 ' a 11


1

(5.39)

derivando obtenemos la siguiente condicin de primer orden:

=2x ' xa 1 2 1 a 1=0


a 1

(5.40)

es decir:

x ' x a1 1 a 1=0

(5.41)

5.25
por lo tanto, a 1 es un vector caracterstico. Recuerde, a 1 es el vector caracterstico
asociado a 1 la raz caracterstica. Cul vector caracterstico? Aquel asociado a la raz
caracterstica ms grande de x ' x .
As, hemos escogido el primer componente principal. Ahora, escogemos el
segundo, a 2 . Para ello optimizamos sujeto a a 1 ya encontrado y a que a 1 sea ortogonal
a a 2 ( a 1 ' a 2 =0 )

max a =a 2 ' x ' x a 2 2 a 2 ' a 2 1a 1 ' a 2


2

(5.42)

As, obtenemos la siguiente condicin de primer orden del problema restringido

=2x ' xa 222 a 2a 1 =0


a 2

(5.43)

entonces, premultiplicamos por a 1 '


(5.44)

2 a 1 ' x ' x a 2 2 2 a1 ' a 2 a 1 ' a 1=0

pero a 1 ' a 2 =0 y a 1 ' a 1 =1 . Por ello, =0 . Se deduce entonces que x ' x a2 = 2 a 2 , es


decir a 2 es el segundo vector caracterstico (correspondiente a la segunda raz
caracterstica, 2 ).
Podemos hacer esto k veces, obteniendo a k soluciones. Si lo hiciramos k veces,
obtendramos una representacin exactamente equivalente a la matriz original x ' x .
Juntamos los resultados en la matriz A=[a 1 ,a 2 ,... ,a k ] que describe los ponderadores
de los componentes principales de x ' x , tal que Z=xA son los Z componentes
principales. Note que:

1 0
0 2
Z ' Z= A ' x ' xA==

0

0
0

(5.45)

Adems, si el rango de x es r k habr kr valores propios iguales a cero.26


26 Se puede usar los valores propios como test del grado de colinealidad. Si el estadgrafo toma
un valor grande, ello indica la presencia de un nivel grave de colinealidad. (D.A. Belsley,
Demeaning conditioning diagnostics through centering (with discussion), The American
Statistician, 38:73-93.

5.26
Finalmente, el estimador de componentes principales ser:

cp=[Z ' Z ]1 Z ' y

(5.46)

pero Z ' y = A ' x ' y= A ' x ' [ x ]= A ' x ' x = A ' x ' x . Entonces, se desprende
1
que cp = A de donde se deduce que:

el estimador de componentes principales es una combinacin lineal de los


verdaderos parmetros.

que el estimador de componentes principales es sesgado.

la varianza del estimador cp es menor que la de mco .

Habitualmente, se calculan los componentes sobre variables originales


estandarizadas, es decir, variables con media 0 y varianza 1. Esto equivale a tomar los
componentes principales, no de la matriz de covarianzas sino de la matriz de
correlaciones (en las variables estandarizadas coinciden las covarianzas y las
correlaciones). As, los componentes son autovectores de la matriz de correlaciones y son
distintos de los de la matriz de covarianzas. Si se acta as, se da igual importancia a
todas las variables originales. En la matriz de correlaciones todos los elementos de la
diagonal son iguales a 1. Si las variables originales estn tipificadas, esto implica que su
matriz de covarianzas es igual a la de correlaciones, con lo que la variabilidad total (la
traza) es igual al nmero total de variables que hay en la muestra. La suma total de
todos los autovalores es p y la proporcin de varianza recogida por el autovector j
-simo (componente) es j/p.
El uso del estimador tiene serios problemas. Primero, los estimadores son
sensibles a la escala de los datos. Por ello se recomienda estandarizar las variables (1/),
pero esto afecta los resultados (cambia A). En realidad, todos los tests para detectar la
colinealidad sufren la debilidad de ser sensibles a transformaciones lineales de los datos
(origen y escala).27 Segundo, la seleccin de los componentes principales se hace en
funcin de x y no de y, lo que sera preferible. Tercero, la interpretacin de los
parmetros es muy difcil, pues no sern los coeficientes asociados a las variables sino
aqullos asociados a una combinacin lineal de las variables.
Note que nuevamente encontramos que (1) modelos con variables pertinentes
omitidas producen parmetros sesgados, y (2) es posible tener estimadores sesgados
ms eficientes que un estimador insesgado.

27 Maddala (1977) propone otras soluciones para colinealidad. Entre ellas (a) usar informacin
a-priori, (b) transformar las variables (logs o razones) y (c) usar ms datos. Estudiar y evaluar
si stas son tiles o no. G.S. Maddala (1977) Econometrics McGraw-Hill editors.

5.27

5.05 Modelos de Varianza No Constante


Esta es una familia con dos ramas principales de modelos: heterocedasticidad y
correlacin de residuos. Estudiaremos en primer lugar el tema de heterocedasticidad y
luego el de correlacin de residuos (el contexto ms usual es series de tiempo, pero
existe una incipiente literatura en correlacin espacial).
Es comn, sobre todo en muestras de corte transversal, que los datos tengan
heterocedasticidad, es decir, que los residuos (innovaciones) provengan de
distribuciones con distintas varianzas. Por otro lado, en modelos de series de tiempo es
comn observar correlacin residual, es decir que la observacin de un residuo en un
determinado instante de tiempo contenga informacin til para predecir el error en otro
instante de tiempo. Naturalmente, en algn caso particular se puede enfrentar
simultneamente la presencia de heterocedasticidad y correlacin residual. Desde un
punto de vista pedaggico conviene tratar ambos problemas por separado.
En el caso en que la varianza de los errores no sea residual, el modelo general se
escribe de la siguiente manera:

y i =x i i
E[i ]=0
E[i i ' ]= 2

(5.47)

donde es una matriz definida positiva.


Obviamente, cuando =I, volvemos al caso de mnimos cuadrados ordinarios.
Por ello, el modelo descrito en (5.47) es llamado modelo de regresin generalizado.
Grficamente, el problema de heterocedasticidad se ve de la siguiente manera:
Figura 5.7

Cuando estudiamos heterocedasticidad suponemos que la matriz de covarianzas


de los errores es del tipo:

5.28

21 0 0 0
2
2 = 0 2 0 0

0 0 0 2n

(5.48)

en cambio cuando hablamos slo de correlacin residual nos referimos a:

1
1

1
2 = 1

n1 n 2

2
1

n1
n 2

1
1

(5.49)

donde los i son correlaciones (es decir, covarianzas divididas por varianzas). Note que
en (5.48) las covarianzas son cero, en tanto que en (5.49) las varianzas son constantes.
Nuevamente, estas separacin es slo para efectos pedaggicos, pues en la prctica no es
infrecuente encontrar ambos problemas.

5.06 Heterocedasticidad
Cual es el efecto de la heterocedasticidad sobre un estimador mnimos
cuadrados? Recordemos que el estimador mnimos cuadrados se puede escribir como

x ' x 1 x ' y =x ' x 1 x '


=

(5.50)

y es el mejor estimador lineal insesgado, distribuyndose asintticamente normal. Ms


an, si el residuo es normal, el estimador es eficiente.

Propiedades de muestra pequea

Tomando esperanza en (5.50) obtenemos E[ ]=E


x [E [ | x ]]= , es decir el
estimador sigue siendo insesgado. Esto es razonable porque el problema de

5.29
heterocedasticidad se refiere al segundo momento (varianzas) y no a la media de los
errores.
Tomemos la varianza del estimador para el caso que x es no estocstico:

x ]=E [

Var [ |
'
|x ]
1
=E [x ' x x ' ' x x ' x 1 | x ]
=x ' x 1 x ' E [ ' ] x x ' x 1
=x ' x 1 x ' [ 2 ] x x ' x 1

(5.51)

lo que podemos escribir como:

x ]=
Var [ |
n

1
x'x
n

1
x 'x
n

1
x'x
n

(5.52)

Si x es estocstico, la varianza no condicional es E x [Var | x ] .

2
1
1
Si se distribuye Normal, entonces N [ , x ' x x ' x x ' x ] .

Entonces, lo nico que cambia es la varianza del estimador que ahora no es

2 x ' x 1 , por lo que las inferencias basadas en esta ltima estn sesgadas. Por otro

lado, el estimador de no tiene por qu haber retenido sus propiedades. Usualmente,


2
1
no podemos saber si x ' x es mayor o menor que (5.52), por lo que los test t o F
resultan inadecuados.

Propiedades de muestra grande


Retomemos la ecuacin (5.52). Resulta evidente que:

si los regresores se comportan bien, los trminos 1/n x ' x convergern a Q.

el trmino /n converge a 0.

el trmino 1/n x ' x no tiene por qu converger.

Se puede demostrar que si los regresores cumplen las condiciones de Grenander,


1/n x ' x converge. Ello sucede en casos de heterocedasticidad pero no
necesariamente cuando hay correlacin de residuos. En este ltimo caso, el estimador es
inconsistente.

5.30
Finalmente, el estimador es asintticamente normal porque las mismas
condiciones de Grenander que impusimos para que

= 1n x ' x
n

][

1
x'
n

(5.53)

se distribuya asintticamente normal, se cumplen an si hay heterocedasticidad.


Tambin, se aplica el teorema de lmite central.
La varianza asinttica del estimador ser:

2 1
1
1
V.A. = Q plim x ' x Q
n
n

(5.54)

En resumen, la heterocedasticidad no afecta la estimacin punto de los


parmetros porque stos no dependen de la varianza de la distribucin. Pero,
obviamente afecta la varianza del estimador.
Recordemos que:

Var [ | x ]= x ' x 1 x ' [ 2 ]x x ' x 1

(5.55)
2

Cuando hay homocedasticidad, E[i i ' ]= I , por lo que el problema se


2
reduce a tener un estimador de . Por el contrario, el problema que presenta la
existencia de heterocedasticidad en un experimento es exactamente nuestra ignorancia
respecto de la estructura de sta, es decir, respecto de E[i i ' ] . Vamos a realizar un
truco que es estndar en la literatura economtrica: derivamos el estimador ptimo y sus
propiedades bajo el supuesto que conocemos E[i i ' ] y luego estudiamos qu sucede
si esta ltima suposicin no es correcta. El primer estimador es llamado el estimador
eficiente, en tanto que el segundo es llamado estimador posible.

Estimacin eficiente
Si tuvisemos E[i i ' ] podramos resolver el problema. Pensemos que, en ese
caso, podramos usar directamente el estimador de la varianza:

Var OLS = x ' x 1 x ' E [ ' ]x x ' x 1

(5.56)

5.31
Basados en la idea que una matriz positiva y definida puede ser factorizada,
vamos a hacer una factorizacin conveniente. Tomemos una matriz T(nn) y
premultipliquemos el modelo, tal que
(5.57)

Ty i =Tx i T i
Se sigue cumpliendo que E[T ]=0 , por lo que podemos obtener:

E[T ' T ' ]= 2 T ' T

(5.58)

Ahora, si T ' T =I habramos solucionado el problema de heterocedasticidad,


pues podemos estimar el modelo (5.57) por mnimos cuadrados ordinarios ya que los
errores seran homocedsticos y recuperar los estimadores de los parmetros del modelo
1
original. Queremos, entonces, encontrar T tal que =T ' T para ponderar el modelo.
El estimador de mnimos cuadrados ponderados tambin llamado estimador de
Aitken28 sera:

GLS = x i ' T ' T x i 1 x i ' T ' T y i


1
1
1
=x i ' x i x i ' y i

pero T ' T =1

(5.59)

Nte que este estimador es ms general de lo que parece. Ciertamente, cualquier


forma de heterocedasticidad puede ser acomodada en el estimador, provisto que la
2
matriz de covarianza de los errores sea diagonal del tipo . Nuevamente, note que
el estimador de mnimos cuadrados ordinarios es un caso particular de mnimos
cuadrados generalizados, aquel donde T=I.
Estimacin Posible
Qu sucede cuando es desconocida? En algunas ocasiones, un reducido
nmero de parmetros, , es capaz de describir el patrn de heterocedasticidad. Por
2
2

, es decir, el estimador de
ejemplo, i = f z i ; entonces, podramos usar =

basado en el estimador de .

as.

. En realidad, no es siempre

Esto parece lgico: si plim =


entonces
1 x i 1 x i '
1 y i el estimador de mnimos cuadrados
Sea FGLS = x i '

28 A. Aitken (1935), On least squares and linear combinations of observations, Proceedings of


the Royal Statistical Society, 55:42-48.

5.32
generalizados posible. Cundo son asintticamente equivalentes FGLS y GLS ? Las
condiciones son:

[
[

1
1
x ' 1 x x ' 1 x =0
n
n
1
1
1
1
plim
x ' x ' =0
n
n
plim

(5.60)

La primera condicin dice que si la matriz de momentos ponderados converge a


una matriz positiva definida, la matriz de momentos ponderados posibles debe
converger a la misma matriz. Esto, en realidad, es un supuesto.
La segunda condicin dice que si los regresores transformados estn bien
comportados, la suma (y por consiguiente el estimador) se distribuir asintticamente
igual a la verdadera suma y estimador (no necesariamente, pero tpicamente, normal).
Lo interesante es que no se necesita que el estimador de sea eficiente, basta con
que sea consistente para que el estimador de mnimos cuadrados generalizados posible
sea eficiente. Para demostrar esto basta con plantear el estimador mximo-verosmil de
los parmetros del modelo generalizado y demostrar que es equivalente al de mnimos
o
cuadrados generalizados posible, por lo que no hay ganancia de eficiencia al usar
.
Tests de Heterocedasticidad
Una buena razn para estudiar tests de heterocedasticidad es, naturalmente, la
deteccin del problema y su eventual correccin. Una razn ms sutil, sin embargo, es
que cada tipo de test nos ensea de manera simple y valiosa una forma particular que
puede tomar la heterocedasticidad y, por lo tanto, nos prepara para anticipar en cules
contextos una u otra forma de heterocedasticidad puede estar presente.
1.

Tests en muestras repetidas

Este es el test ms simple de heterocedasticidad y se aplica cuando se tienen


varias muestras repetidas de un mismo experimento. Un ejemplo en el cual este test es
aplicable es cuando se tienen datos agrupados (p.e., ciudades): en cada cada ubicacin
habr ni observaciones de distribuciones con varianzas potencialmente diferentes.
La lgica de operacin es la siguiente:
2

Estime el modelo y i =x i i y compute


i para cada muestra i=1, ..., m.

* con todos los datos.


Estime el modelo y i =x i i y compute

5.33
El test es directo sobre la hiptesis nula que la varianza de los grupos no difiere
de aquella de la muestra completa, ajustando por tamaos relativos
m

Homocedasticidad H 0 :nm ln n j 1 ln 2i =0
2
*

j =1
m

(5.61)

Heterocedasticidad H 1 : nm ln
n j 1 ln 0
2
*

j=1

2
i

El test es, directamente, un test de razones de verosimilitud

2 nm ln n j 1 ln 2i 2 m 1
2
*

j =1

(5.62)

Debido a que los estimadores de las varianzas por muestra y totales son formas
cuadrticas de errores normalizados, el test se distribuye (m-1). Los grados de libertad
se derivan del nmero de varianzas libres (m) menos la restriccin de una nica varianza
comn.
Test de Breusch y Pagan29

2.

Este test se aplica cuando no hay muestras repetidas y, por lo tanto, no es posible
disponer de varias realizaciones de la variable aleatoria
2 . Una vez estimado el
modelo y i =x i i , lo que se hace es:
2

Computar g i =i /

Hacer una regresin entre gi y las variables que quiera, incluyendo x, y computar
la suma de cuadrados explicados, SCE.

El test consiste en estudiar la suma de cuadrados explicados, SCE. Si una


regresin puede explicar la proxy de heterocedasticidad, entonces hay
heterocedasticidad. Alternativamente, si hay homocedasticidad, solo la constante
debiese ser estadsticamente significativa. Por ello,

H 0 : Homocedasticidad SCE=0
H 1 : Heterocedasticidad SCE 0

(5.64)

29 Breusch, T and A. Pagan (1979), A simple test of heteroskedasticity and random coefficient
variation, Econometrica 47:12871294.

5.34
Debido a que los estimadores de las varianzas por muestra y totales son formas
cuadrticas de errores normalizados, SCE se distribuye (p-1) bajo la hiptesis nula.
Los grados de libertad se derivan del rango de regresores, p, en la segunda regresin.
Test de Goldfeld y Quandt30

3.

Este test aprovecha informacin extra-muestral para estudiar problemas de


heterocedasticidad. Si creemos que la variable xk es la causante de heterocedasticidad, el
procedimiento es:

Ordene la muestra de mayor a menor segun xk.

Remueva c datos del centro de la muestra.

Haga la regresin del modelo y i =x i i en cada grupo y compute la suma


de cuadrados residuales, SRC.

El test consiste en estudiar la diferencia entre las SRC. Si stas son iguales,
significa que no hay heterocedasticidad. Por ello,

H 0 : Homocedasticidad SRC 1 =SRC 2


H 1 : Heterocedasticidad SRC 1 SRC 2

(5.65)

Como estamos comparando dos sumas de residuos normales al cuadrado y hay


el mismo nmero de regresores y datos en cada sub-grupo, entonces el test es

SCR 1
nc /2k
F
.
SCR 2
nc /2k

Test de White31

4.

El test de White utiliza una lgica similar a la del test de Breusch y Pagan en el
sentido de hacer una regresin entre la proxy de la varianza de los errores y el grupo de
regresores de la regresin original, x, pero lo extiende para incluir sus cuadrados y
productos cruzados. Es decir,

Computar i = y i
x i
2
2
Hacer una regresin entre i y las variables x i , x i y los productos cruzados
xi x j .

Es decir,
30 S. M. Goldfeld and R. E. Quandt (1965), Some tests for homoskedasticity, Journal of the
American Statistical Association, 60:539547.
31 White, H. (1980), A Heteroscedasticity-Consistent Covariance Matrix Estimator and a Direct
Test for Heteroscedasticity. Econometrica, 48:817-838.

5.35

2i = x i x 2i x i x j ' i

(5.66)

La hiptesis nula es que en un caso de homocedasticidad ninguno de los


coeficientes, mas all de la constante, debe ser significativo. El test preferido de White es
un multiplicador de Lagrange hecho sobre la hiptesis nula que ninguna variable
debiese ser significativa si el modelo es homocedstico. Aunque la distribucin de
muestra finita es desconocida, es posible demostrar que nR2 se distribuye
asintticamente 2(p), donde p es el nmero de estimadores excepto la constante. Otra
alternativa es hacer un test F estndar de variables omitidas.
Note que este test es bastante general pues no se necesita hacer supuesto alguno
sobre la forma de la heterocedasticidad que afecta potencialmente a los datos. Sin
embargo, el test es potente solo asintticamente lo que significa que tiene poca potencia
en muestras pequeas. Adicionalmente, el uso de muchos trminos cruzados hace difcil
el rechazo de la hiptesis nula y exacerba el problema de pocos grados de libertad.
Matrices de Covarianzas Robustas
Hay muchsimos tests de heterocedasticidad. Pero realmente necesitamos estos
tests? necesitamos entender qu es lo que causa la heterocedasticidad?

Verdaderamente, no. Lo que queremos es para poder hacer mnimos


cuadrados generalizados.

, un estimador de .
En realidad, no. Lo que queremos es 2

Tampoco, lo que queremos es un estimador de =

sino slo su diagonal.


En realidad, lo que queremos no es todo

2 x ' x
n

White (1980) demuestra que un buen estimador de

S 0=

2 x ' x
n

es

1
2 x ' x . Por ello, la matriz de correccin de la varianza de los parmetros
n i i i

para el caso de heterocedasticidad tambin llamada matriz de errores robustos es:

Var =n x i ' x i 1 S 0 x i ' x i 1

(5.67)

Note que no es necesario conocer la forma de la heterocedasticidad, pues el estimador es


general.

5.36
Extensin de Newey y West
Newey y West (1987) han extendido el estimador de White para el caso en que la
matriz no es diagonal. El estimador es:
J

1
j

Q=S
x ' x x t j ' x t
0
n j =1 i = j 1 J 1 t t j t t j

(5.68)

donde j/(J+1) es una correccin no paramtrica por tamao de muestra.

Modelos de heterocedasticidad condicional


Generalmente estamos interesados en modelar la media condicional de una
variable serie. No obstante, recientemente se ha hecho comn modelar la varianza de la
serie, pues ella puede reflejar comportamientos que son caractersticos de algunos
problemas econmicos tales como los precios de activos, variables financieras, riesgo,
etc.
Los modelos de heterocedasticidad condicional son modelos donde la varianza
de la serie no es constante, aunque sigue un proceso estacionario. Un modelo tpico de
esta familia es el modelo ARCH32:

y t = x t t
t =t 01 2t 11/ 2

(5.69)

con normal estndar. Como resulta obvio, E[t | t 1 ]=0 y E[ t ]=0 . As es que el
modelo sigue describiendo la media condicional de y t .
Ahora, la varianza condicional, V [t | t 1 ] , es

V [t | t 1 ]=E [2t | t 1]
=E [2t ][0 1 2t 1 ]
=[01 2t1 ]

(5.70)

Pero la varianza no condicional, V [t ] , es


32 Engle, R. F. (1982). "Autoregressive Conditional Heteroskedasticity with Estimates of the
Variance of U.K. Inflation," Econometrica, 50:987-1008.

5.37

V [t ]=E [V t | t1]
=01 E [t21 ]
=0 1 V [t21 ]

(5.71)

Pero si la varianza es estacionaria, en el sentido que no cambia en el tiempo,


entonces V [t ]=V [t 1 ] , por lo que la ecuacin (5.71) implica

V [t ]=

0
1 1

(5.72)

Cmo se ve un proceso de este tipo? Grficamente:


Figura 5.8
Proceso ARCH y su varianza

Es decir, la serie presenta segmentos de comportamiento dismil. El proceso


alterna entre periodos de gran inestabilidad, donde shocks grandes son seguidos de
shocks grandes, y otros de relativa estabilidad, donde shocks pequeos siguen a shocks
pequeos.
Resulta natural preguntarse qu modelo econmico puede producir este tipo de
comportamiento. Un ejemplo tpico son las guerras de precios en mercados donde hay
colusin. Mientras la disciplina del cartel se mantiene hay slo pequeas desviaciones

5.38
del precio, en cambio cuando se rompe el cartel hay grandes fluctuaciones de precios en
la medida que todos los productores compiten por una mayor participacin del
mercado.
El modelo ARCH puede ser extendido para incorporar trminos tipo media
mvil en la varianza predicha. En ese caso se llama GARCH (por generalizado) 33 y se
modela:

y t = x t t
2t =01 2t1 2 2t 1

(5.73)

Tambin se puede extender para incluir regresores, z t en la varianza, de modo


que el modelo queda:

y t = x t t
2t =01 2t12 2t 1 3 z t

(5.74)

Finalmente, algunos modelos incluyen la varianza condicional en el modelo de la


media condicional. Esto da origen a un modelo ARCH-M que es ampliamente usado en
finanzas.34

y t = x t t2t
2
2
2
t =01 t1 2 t 1

(5.75)

Cmo sabemos que el modelo es del tipo GARCH? Una manera simple es
estimar el modelo de la media condicional, luego obtener los residuos, computar los
residuos al cuadrado (estimador de la varianza) y computar la funcin de
autocorrelacin. Si sta no muere sbito en t=1, hay heterocedasticidad condicional.
Es posible, adems, hacer tests de especificacin para saber si el modelo correcto
es GARCH(p,q) o GARCH(0,q). El problema est en que ese tipo de test no permite
discernir entre esa hiptesis y esta hiptesis: GARCH(0,q) vs GARCH (0,p+q).
Cmo estimamos un modelo GARCH? El proceso de estimacin es bastante no
lineal. Lo que se hace es iterar en la funcin de verosimilitud hasta que sta alcance un
mximo. Ello supone que los errores son normales.

33 Bollerslev, Tim (1986). "Generalized Autoregressive Conditional Heteroskedasticity," Journal


of Econometrics, 31:307-327.
34 Engle, Robert F., David M. Lilien, and Russell P. Robins (1987). "Estimating Time Varying Risk
Premia in the Term Structure: The ARCH-M Model," Econometrica, 55:391-407.

5.39
2
1
1
1 y t x t
2
log L =
log 2 log t
2
2
2
2t

(5.76)

Donde

2t =c y t 1 x t 1 2 t21

(5.77)

5.07 Correlacin de residuos


Supongamos ahora que que E[i , j ] 0 . En tal caso, la matriz de covarianza de
residuos es:

11 12
21 22

n1 n2

1n
2n

nn

(5.78)

An si consideramos el problema de residuos son homocedsticos

2 12 ... 1n
21 2 2n


2
n1 n2

(5.79)

y simtrica, es decir, ij = ji resulta imposible de estimar (5.79) con una muestra finita.
Hay ms incgnitas que grados de libertad. Usualmente:

Si la forma de ij no es parametrizable, es decir no tiene una estructura, no es


estimable.

Si la forma de ij es parametrizable, es decir tiene una estructura (simple), es


estimable.

Si es estimable, los parmetros estimados por mnimos cuadrados del modelo


y t = x t t siguen siendo insesgados, excepto si las variables de lado derecho

5.40
contienen un rezago de la variable endgena. La demostracin del primer caso
es:

x t ' x t 1 x t ' y t pero y t = x t t


=
x t ' x t 1 x t ' [ x t t ]=x t ' x t 1 x t ' t
=

(5.80)

y por lo tanto, E[ ]=
.
Supongamos que
Entonces,

y t = x t t y t = t1 t donde

es ruido blanco.

2
2 2
x t x t 1 2 x t x t 2 ...N 1 x 1 x N

V [ ]=

2
2
xt xt
x 2t
x 2t
x 2t

(5.81)

] slo si =0 , es decir cuando no hay correlacin.


por lo tanto, V [ ]=V
[ OLS
La varianza del estimador bajo autocorrelacin podr ser mayor o menor que la
de mnimos cuadrados dependiendo del valor de . Si es positivo, se sobreestima la
varianza. Si es negativo, no es claro el sesgo.
La solucin al problema es, naturalmente, usar mnimos cuadrados
generalizados, pero esto slo es posible si conocemos . Lo que se hace, usualmente, es
hacer tests estadsticos para determinar el tipo de correlacin de los residuos, dentro de
modelos relativamente simples en trminos del nmero de parmetros.

Cmo sabemos si hay correlacin residual?


Un test bastante comn es el de Durbin y Watson 35, para el caso de errores con
correlacin de orden 1. Es decir, t = t 1 t (correlacin de orden 2 es
t =1 t 12 t 2 t ). El test es:
T

t t 1 2

d = i=2

(5.82)

2
t

i=1

35 Durbin, J. and Watson, G.S., "Testing for Serial Correlation in Least Squares Regression I",
Biometrika, Vol. 37, 1950, pp. 409-428.

5.41
La lgica es que:

si hay correlacin positiva, t ser cercano a t1 y, por lo tanto, d ser


cercano a cero.

si hay correlacin negativa t ser lejano a t1 y, por lo tanto, d ser distinto


de cero.

Desarrollemos el cuadrado del numerador de la ecuacin (5.82).


T

t t 1 = [2t 2t 12 t t 1]
2

i=2

(5.83)

i=2

Sumando y restando convenientemente:


T

t t 1 =
2

i=2

i =1

2
t

2
1

i =1

2 t t 1

2
t 1

2
T

(5.84)

i =2

de vuelta en (5.82)
T

2t 12 2t12T 2t t 1

d = i=1

i=1

i=2

(5.85)

2
t

i=1

es decir,
T

d =1

21

2
t

i=1

2t 1
i=1
T

2
t

i=1

2 t t 1

2T

i=2

i=1

2
t

(5.86)

2
t

i=1

Notemos que:

Si T es razonablemente grande, el segundo y cuarto trminos sern cercanos a


cero.

Igualmente, el tercer trmino ser cercano a 1.

El ltimo trmino es interesante, porque es

5.42

cov t , t1
var t 1

(5.87)

es decir, es el estimador natural de mnimos cuadrados de . En resumen, podemos


escribir d 21 .
Volvamos al test de Durbin y Watson. Si d 21 , entonces tenemos los
siguientes casos:

Si no hay correlacin d = 2.

Si hay correlacin positiva, 0 , d es menor que 2. En el lmite, d es 0 cuando


es 1.

Si hay correlacin negativa, 0 , d es mayor que 2. En el lmite, d es 4 cuando


es -1.

por lo tanto, d estar entre 0 y 4.


La aplicacin del test no es tan simple, porque hay tres casos que estudiar. En
este caso habr dos tests son:

H 0 : No hay autocorrelacin
H 1 : Hay autocorrelacin positiva
H 0 : No hay autocorrelacin
H 1 : Hay autocorrelacin negativa
Como se ve, la hiptesis nula es siempre la misma pero la hiptesis alternativa es
compleja. Otro problema es que usamos los residuos del mnimos cuadrados como
estimadores de los residuos verdaderos, es decir, stos dependen de x. Por ello, la
distribucin del test no es estndar y tiene distintos lmites superiores e inferiores.
Si hacemos un test de correlacin positiva al 95%, entonces (1) si d est por
encima del limite superior no puedo rechazar la H 0 que no hay autocorrelacin y (2) si
d est por debajo del lmite inferior tengo correlacin positiva.

5.43
Figura 5.9

Inconcluso

No hay o negativa

Positiva

LI LS

Si hacemos un test de correlacin negativa al 95%, entonces (1) si d est por


debajo de 4-limite superior no puedo rechazar la H 0 que no hay autocorrelacin y (2) si
d est por debajo del lmite inferior tengo correlacin positiva.

Figura 5.10

Inconcluso

Positiva o no hay

Negativa

4-LS 4-LI

El test completo de Durbin y Watson para autocorrelacin es:


Figura 5.11

Inconcluso

Inconcluso
Negativa

Positiva

No hay correlacin

LI LS

4-LS 4-LI

5.44
El test de Durbin y Watson no se puede aplicar cuando hay variables del lado
izquierdo rezagada al lado derecho. En ese caso se usa el test h de Durbin (1970).36 Este
estimador consiste en computar

h=r

n
1n 2

(5.88)

donde r es el coeficiente de correlacin del primer rezago, n es el tamao de muestra y


2 es la varianza del estimador del rezago de la variable endgena. El estadgrafo h se
distribuye normal estndar.

Soluciones al problema de correlacin de primer orden.


Volvamos al modelo original.

y t = x t t
t = t 1t

(5.89)

Podemos multiplicar el modelo original por , rezagarlo un periodo y restarlo


del original para obtener:

y t y t 1= x t x t 1t t 1

(5.90)

es decir:

y t = y t 1[x t x t 1 ] t

(5.91)

Note que ahora no hay problema con los errores.

Si conociramos , podramos transformar los datos y estimar con mnimos


cuadrados. En realidad esto equivale a hacer mnimos cuadrados generalizados.

Lo conocemos? No. Pero tenemos una aproximacin, d. Obtenemos d haciendo


una regresin en los residuos originales de mnimos cuadrados y luego usamos
=1

d /2 .

36 Durbin, J. Testing for serial correlation in least squares when some of the regressors are
lagged dependent variables Econometrica, 38: 410-421.

5.45
Hay una estrategia estadsticamente mejor (Cochrane-Orcutt). 37
1.

Estimar el modelo original por mnimos cuadrados y obtener los residuos.

2.

Hacer una regresin entre residuos y su rezago, obteniendo 1

3.

Transformar el modelo usando 1 (es decir, y t 1 y t 1 , etc).

4.

Ir a 1 y volver a hacer el ejercicio hasta que el converja.

Un problema del mtodo de Cochrane-Orcutt es que nada garantiza que la


distribucin del estimador converja a un ptimo global y, de hecho, podra ser el caso
en que haya ms de una moda en dicha distribucin. Es por ello que se sugiere usar una
estrategia de bsqueda sobre la base de una grilla que verifique todos los valores de
y satisfaga algn criterio de ptimo (p.e., mejor ajuste). En tal caso, un mtodo
sencillo es el de Hildreth y Lu 38 que consiste en estimar el modelo transformado con
=1, 0.99, 0.98, ... 0 ,... -0.99, -1 y se escoge el estimador minimizando la suma de residuos
al cuadrado.

5.08 Variables instrumentales


El ltimo supuesto que no hemos levantado es la ausencia de correlacin entre
los regresores y el error, es decir, E[ x ,]=0 . En numerosas ocasiones no es posible
estar seguros que ello se cumple, en particular cuando se usan datos macroeconmicos.
El problema ocurre, en primer lugar, cuando hay variables omitidas que estn
correlacionadas con aquellas que se usan para modelar. Por ejemplo, cuando se estudia
el rendimiento escolar y se omite la educacin de los padres como determinante,
entonces la estimacin entrega resultados sesgados porque algunas variables
independientes (p.e., ingresos familiares) estn tpicamente relacionadas con la variable
omitida. Un segundo caso se produce cuando hay problemas de endogeneidad en
alguna variable del lado derecho: este sesgo de simultaneidad lo estudiaremos ms
adelante. Una tercera causa de violacin de este supuesto es cuando las variables
independientes estn medidas con error. En tal caso, como vimos en la seccin 2, cada
vez que se observa x no se observa la verdadera variable sino una medicin con ruido el
cual estando correlacionado con x queda incluido en el error. Una cuarta causa de
correlacin entre regresor y residuo se da cuando hay sesgo de seleccin, es decir
cuando la conformacin de la muestra no es independiente del diseo del experimento.
Es decir, cuando aquellos que ms se benefician del tratamiento son aquellos que ms
participan del mismo.
37 Cochrane, D. and G.H. Orcutt, 1949, Application of least squares regression to relationships
containing autocorrelated error terms, Journal of the American Statistical Association, 44: 32-61.
38 Hildreth, C. and J.Y. Lu, 1960, Demand relations with autocorrelated disturbances, Technical
bulletin 276, Dept. of agricultural economics (Michigan State University, East Lansing, MI).

5.46
Qu sucede con el estimador de mnimos cuadrados si E[ x ,]0 ? Ninguno
de los resultados que obtuvimos sobre las propiedades del estimador de mnimos
cuadrados se mantienen. En particular, sabemos que va a haber sesgo, usualmente de
tamao y direccin desconocidas. Adems, las varianzas de los estimadores estn
distorsionadas (tpicamente, subestimadas).
Una solucin sera usar una o ms variables que, estando correlacionadas con los
regresores, no est relacionadas con el error. En ese caso, vamos a usar dicho conjunto de
variables auxiliares como un instrumento de x. En trminos sencillos, buscamos un
conjunto z tal que la correlacin entre z y x sea alta pero que la correlacin entre z y
sea baja. Usualmente esto resulta ms fcil de decir que de hacer. 39
En primer lugar vamos a demostrar que el estimador mnimos cuadrados bajo la
hiptesis que los residuos estn correlacionados con x en el modelo de inters es
inconsistente. Como existe correlacin entre regresor y residuo:

E[| x ]=i

(5.92)

Supongamos que E[]=0 . Este supuesto es irrelevante si la ecuacin incluye


una constante. La correlacin entre regresor y residuo puede ser escrita como:

Cov [x i , i ]=Cov [ x i , i | x ]=Cov [x i ,i ]=


Aplicamos el Teorema de Kinchine y obtenemos plim

(5.93)

1
x ' = . Si esto es cierto,
n

entonces
1

E[ ]=
x ' x x '

(5.94)

y por ello el Teorema de Gauss-Markov no se sostiene. De hecho, el estimador es,


adems, inconsistente porque

plim =
plim x ' x

plim x ' = Q 1

(5.94)

39 Aunque la mayor parte de los textos sealan que el estimador de variables instrumentales fue
desarrollado en el contexto de modelos de ecuaciones simultneas, el primer trabajo que
desarrolla este mtodo es el de Sewall Wright (1928) en un apndice del libro de su padre P.G.
Wright The Tariff on Animal and Vegetable Oil. El trmino variable instrumental fue acuado
por Olav Reiersol (1941, Confidence Analysis by Means of Lag Moments and Other Methods
of Confluence Analysis, Econometrica, 9:1-24). Reiersol colabor tambin con el desarrollo del
esperanto (O. Reiersol and R. C. Marble: A comparison between word formation in Esperanto
and English, Esperantologio, Volumo I, Numero 1, pp. 1-80, Agusto 1949)

5.47
Derivemos ahora el estimador de variables instrumentales, IV . En particular
notemos que la varianza no condicional de es

Var [i ]=Var [ | x i E[i | x i ] ]= 2

(5.95)

Los supuestos necesarios para derivar el estimador IV son:

[x i ,z i ,i ] son secuencias i.i.d. de variables aleatorias

E [ x ij ]= Q xx y constante

E [ z 2ij ]= Q zz y constante

E [ x ij ,z ij ] = Q xz y constante

E [ ij | z ij ] =0

As lo que se obtiene es:

1
plim Z ' Z= Q zz
n

1
plim Z ' X = Qzx
n

1
plim Z ' =0
n

(5.96)

Las condiciones (5.96) definen el conjunto de instrumentos admisibles. Sea


entonces el modelo y i =x i i y supongamos que tenemos un conjunto de variables z.
Entonces pre-multipliquemos el modelo por z :
(5.97)

z i ' y i =z i ' x i z i ' i


Aplicando el plim tenemos

plim

1
1
1
z i ' y i = plim z i ' x i plim z i ' i
n
n
n

pero el ltimo trmino es cero. Entonces

(5.98)

5.48

1
plim z i ' x i
n

plim

1
z ' y =
n i i

(5.99)

Note que para que (5.99) tenga sentido, z x tiene que ser una matriz
conformable. Por ello, debe haber k variables en la matriz z. En este caso, estimador de
variables instrumentales es

IV =z i ' x i 1 z i ' y i

(5.100)

Note que este estimador es consistente. Es decir, sus propiedades son asintticas.
Por ello, el tamao de muestra es una consideracin importante al momento de usar
variables instrumentales. Note que en el caso especial que i =0 , entonces =0 y
obtenemos el estimador de cuadrados mnimos. Es decir, el estimador de variables
instrumentales es ms general que el de cuadrados mnimos. Otra manera de pensarlo es
que en el caso que no haya correlacin entre regresor y residuo, el mejor instrumento de
x ser el mismo x y el estimador de variables instrumentales es el estimador clsico
mnimos cuadrados.
La distribucin del estimador de variables instrumentales se obtiene de manera
anloga al caso de mnimos cuadrados ordinarios. Es decir,

n IV =

1
z'x
n

][

1
z '
n

(5.101)

Basado en el anlisis que hicimos para el caso de ausencia de correlacin entre


regresores y residuos, el ltimo trmino cumple

1
d
z ' N [ 0, 2 Q zz ]

(5.102)

por lo que:

1
z'x
n

1
d
2
1
x '
N [ 0, Q 1
xz Q zz Q zx ]

El estimador de la varianza de los residuos es, naturalmente,

(5.103)

5.49
n

2
1
= y i x i ' iv
n i =1
2

(5.104)

Qu sucede si la matriz tiene un rango mayor a k? Naturalmente, z ' x no es


cuadrada y no tiene inversa. Sin embargo, consideremos el siguiente algoritmo:
a)

Hacer una regresin de x en z (para todo x).

b)

Hacer una prediccin de x basada en z llamada x .

c)

Hacer una regresin de y en x .

Note que el estimador derivado en la etapa a) no tiene problemas de consistencia


y que la proyeccin derivada en b) es una representacin ptima de x y que, adems, por
el hecho de ser una prediccin es ortogonal a .
Entonces, el estimador del modelo estimado usando la prediccin sera:

IV = x ' x 1 x ' y

(5.105)

Este es un procedimiento de mnimos cuadrados en dos etapas (2SLS). 40 Es muy


comn en la literatura emprica. Pero es posible estimar todo el modelo en un slo paso.
Debido a que x =z z ' z 1 z ' x , entonces

IV =x ' z z ' z 1 z ' x 1 x ' z z ' z 1 z ' y

(5.106)

Quedan los detalles que se los dejo a ustedes de obtener la varianza del
estimador de variables instrumentales y, lo que es ms difcil, el estimador de la
varianza de los residuos. Un punto que no es menor es el de la dimensionalidad de las
matrices en (5.106). Para que la estimacin sea posible es necesario que el nmero de
instrumentos sea al menos igual al nmero de variables que se est instrumentando.
Hay algunos econometristas que sealan que el estimador natural de la
econometra clsica es el de variables instrumentales. Mnimos cuadrados sera una caso
particular en el que el mejor instrumento de x es la misma variable. Como mnimos
cuadrados es tambin un caso particular de mnimos cuadrados generalizados, entonces
el estimador mnimos cuadrados generalizados con variables instrumentales (GLS-IV)
debiera ser el ms general de todos los estimadores lineales.41
40 El mtodo de mnimos cuadrados en dos etapas fue desarrollado en 1957 por R.L. Basmann
(A generalized classical method of linear estimation of coefficients in a structural system of
stochastic equations. Annals of Mathematical Statistics 20:46-63) y popularizado por H. Theil en
su clsico libro Economic Forecasts and Policy, North Holland, Amsterdam, 1958.
41 Un tratamiento completo de este estimador se encuentra en el libro de R. Bowden y D.
Turkington, Instrumental Variables, Cambridge University Press, 1984.

5.50
Condiciones de validez de los instrumentos
Una pregunta muy importante en la aplicacin de mtodos de variables
instrumentales es cmo saber si los instrumentos son adecuados? En principio, le
hemos exigido dos caractersticas a las variables para que sean instrumentos adecuados:
(1) que estn correlacionados con la(s) variable(s) que tiene el problema de correlacin
con el error, y (2) que no estn correlacionados con el residuo. La primera condicin es
que el instrumento sea pertinente, en tanto que la segunda exige que sea exgeno.
Cuando el nmero de instrumentos es igual al nmero de variables que se quiere
instrumentar, las condiciones antes expuestas son directas y el estimador de variables
instrumentales est exento de complicaciones. Cuando hay un mayor nmero de
instrumentos, la primera condicin se vuelve menos clara. Si uno considera el estimador
de variables instrumentales como un estimador de dos etapas, entonces contar con un
nmero muy grande de posibles instrumentos en una muestra finita puede ser costoso
en trminos de grados de libertad. Si el modelo es, adems, multivariado el problema
del nmero y tipo de instrumentos es parte fundamental del anlisis de modelos de
ecuaciones simultneas.
Qu sucede si algunos de los instrumentos, en realidad, estn correlacionados
con el error? Entonces, el estimador es inconsistente. Pero si hay al menos tantos
instrumentos vlidos como variables que necesitan ser instrumentadas, el estimador
sigue siendo consistente. Entonces cmo podemos hacer un test de validez del supuesto
que hay suficientes instrumentos vlidos? En principio, se podran obtener los residuos
de la estimacin de variables instrumentales y luego hacer una regresin de stos en los
instrumentos. Si el R de esta segunda regresin es cero, entonces los instrumentos no
estn correlacionados con el residuo. El problema es que si el R es significativo,
entonces algunos o todos los instrumentos son invlidos, pero no sabemos cules.
El siguiente procedimiento, llamado test de Wu-Hausman 42, es frecuentemente
usado para estudiar la ortogonalidad entre instrumento y residuo. El modelo es de la
forma y =x z 2 , donde z 2 es una matriz de regresores fijos entre muestras (por
esta razn z 2 es ortogonal al residuo ). Suponga que existe un conjunto de variables
z 1 y que podemos definir z =z 1 z 2 como la matriz de instrumentos de x. Entonces el
estimador de variables instrumentales en dos etapas se puede escribir como:

2SLS =Y ' P z Y 1 Y ' P z

y donde P z =z z ' z z '

(5.107)

42 Este test fue propuesto por M. D. Wu (Alternative Tests of Independence Between Stochastic
Regressors and Disturbances, Econometrica, 40:733-750, 1973) y corresponde al caso particular
del test de J. Hausman (Specification Tests in Econometrics, Econometrica, 46:1251-1271,
1978). A. Nakamura y M. Nakamura prueban la equivalencia de ambos tests (On the
relationships among several specification tests presented by Durbin, Wu and Hausman,
Econometrica, 49:1583-1588, 1981).

5.51
De esta manera, los estimadores de mnimos cuadrados y variables
instrumentales son:
1
OLS =[ x ' I P z x ] [ x ' I P z y ]
1
IV =[ x ' P z P z x ] [ x ' P z P z y ]
2

(5.108)

donde P z =z z ' z z ' y P z =z 2 z 2 ' z 2 z 2 ' .


2

Wu (1973) demuestra que la diferencia de los dos estimadores se distribuye:

OLS IV N 0, 2 D

donde

(5.109)

D=[ x ' P z P z ] [ x ' I P z ]


2

pos.def. , por lo que el siguiente test

adecuado es:

OLS IV ' D1 OLS IV


T 3=
2G
2

donde
2=

(5.110)

yx IV ' I P z y x IV
, G=rango(x) y K2=rango de z 2 .
nGK 2

Si no se rechaza la hiptesis nula significa que ambos estimadores son iguales:


sabiendo que el estimador de mnimos cuadrados ordinarios es sesgado, se concluye que
los instrumentos no pueden ser ortogonales al error.
Qu sucede si los instrumentos no estn fuertemente relacionados con las
variables que se quiere instrumentar? Este problema es llamado instrumentos dbiles.
Existe una creciente literatura al respecto con diferentes enfoques. Hall, Rudebusch y
Wilcox (1996)43 estudian la mnima correlacin cannica entre instrumentos y regresores.
Shea (1997) desarrolla un test de R basado en el uso de regresores adicionales. 44 El
trabajo de Stock y Yogo (2002) 45 es superior a stos en el sentido que proponen una
definicin formal y un test de la debilidad de los instrumentos que , adems, nos ayuda
a entender el problema. Si el modelo es de la forma y =Y y su forma reducida es
43 Hall, A., G.D. Rudebusch and D. Wilcox (1996): Judging Instrument Relevance in
Instrumental Variables Estimation, International Economic Review 37:283-298.
44 Shea, J. (1997): Instrument Relevance in Multivariate Linear Models: A Simple Measure,
Review of Economics and Statistics 79:348352.
45 J. Stock y M. Yogo Testing for weak instruments in linear IV regressions, NBER Technical
Papers 284, 2002.

5.52
del tipo Y =z , donde z es la matriz de instrumentos, entonces el estimador de
variables instrumentales en dos etapas se puede escribir como:

2SLS =Y ' P z Y 1 Y ' P z

(5.111)

Rothenberg (1984)46 demuestra que este estimador puede ser escrito como:


2SLS =

u S /

(5.112)

12 / S /2

donde u = ' z / ' z ' z , =' z / ' z ' z , S =' P z / ,

y S =V ' P z / .
2

El parmetro = ' z ' z / es el coeficiente de atenuacin y es otra


versin del que estudiamos en la ecuacin (5.25). Note que si los instrumentos son fijos y
los residuos normales, entonces y se distribuyen como normales estndares y
S y S son elementos de una matriz con distribucin de Wishart. As, las
distribuciones de estos cuatro elementos no dependen del tamao de muestra. De hecho,
en la ecuacin (5.112) el tamao de muestra solo entra a travs de . Ms an, cumple
exactamente el rol que T cumple en la derivacin del estimador de mnimos
cuadrados.
La importancia de esta descomposicin radica en que si los instrumentos son
2
dbiles, ser muy pequeo y la inferencia basada en (5.112) estar sesgada (el
estimador puede estar sesgado y los errores estndares estarn potencialmente mal
computados). Habr, entonces, dos preguntas prcticas que se derivan de esta
2
observacin: cun pequeo tiene que ser para que los instrumentos sean dbiles? y,
2
si (y por tanto ) son desconocidos, como se hace en la prctica para saber si es
suficientemente pequeo como para sealar que los instrumentos son dbiles?
Respecto de la definicin de instrumento dbil, Stock y Yogo presentan dos
alternativas: (1) un grupo de instrumentos es dbil si el sesgo del estimador de variables
instrumentales, relativo a aquel del estimador de mnimos cuadrados, es mayor que un
cierto punto de referencia, b (b=10%, 15%, etc.) y (2) un grupo de instrumentos es dbil si
el test de Wald convencional tiene un tamao que excede algn punto de referencia r (r
=10%, 15%, etc.)

46 T.J. Rothemberg (1984): Approximating the Distributions of Econometric Estimators and Test
Statistics Ch. 15 in Handbook of Econometrics, Vol. II, ed. by Z. Griliches and M.D. Intriligator.
Amsterdam: North Holland, 881935.

5.53
Dada estas definiciones de debilidad, el test propuesto es una variacin del test
1
de Cragg y Donald (1993).47 Retomemos la matriz M X =I X X ' X X ' para escribir
1
el estimador de mnimos cuadrados como OLS = M 0 Y ' M 0 Y M 0 Y ' M 0 y ,
en tanto que el estimador de clase k es:

=[ M X Y ' I kM Z ' M X Y ]1[ M X Y ' I kM Z ' M X y ]1


k

(5.113)

El test de Wald asociado a la hiptesis nula H 0 : =0 es:

W k =

donde uu =

[ k 0 ] ' [ M X Y ' I kM Z ' M X Y ] [ k 0 ]


n k

(5.114)

M X u k

M X u k'
.

y u k=
y Y k
T K 1n

El test de Stock y Yogo se hace sobre el mnimo valor propio de la matriz GT (

g min =mineval G T ), que es una matriz anloga al test F de la primera etapa de 2SLS:
G T = VV ' M X Y ' P Z ' M X Y VV / K 2 donde VV = M X Y ' M Z Y /T K 1K 2 .

La distribucin del test no es estndar, pero los autores proveen las tablas con los
valores crticos.

47 Cragg, J.G. and S.G. Donald (1993): Testing Identifiability and Specification in Instrumental
Variable Models, Econometric Theory, 9: 222240.

5.54

Apndice A:

Ejercicios

1.
Considere la funcin de produccin con elasticidad de sustitucin constante
(CES):

Y i ,t = [ 1 K H

i,t

i ,t


i ,t

Donde los subndices i y t, son firmas y tiempo respectivamente, Y es el


producto, K es el capital, y H es el empleo calificado y donde los parmetros
, , y se denominan parmetros de eficiencia, distribucin, rendimientos de
escala, y sustitucin, respectivamente. Como la funcin CES no es lineal en los
parmetros no pueden estimarse por MCO. Demuestre que la funcin puede linealizarse
utilizando la tcnica de Taylor de la siguiente manera:

LnK i , t
ln Y i ,t =i 1 LnK i ,t 2 LnH i , t 3
i ,t
H i ,t
y encuentre las expresiones de equivalencia entre los estimadores y los parmetros de
la segunda ecuacin.
2.
Usted trabaja en la Via Don Timoteo. Su jefe (el conocido don Timoteo) le pidi
computar la elasticidad acidez-temperatura del vino syrah. Usted tom datos por hora
de ambas variables durante varias semanas y estim usando un modelo de mnimos
cuadrados ordinarios que sta era -0.82 y el R era 0.84. Al presentar los resultados, don
Timoteo not que la medicin de temperatura estaba en escala Farenheit y la acidez en
la escala de Gousset, pero el quera la temperatura en grados celsius y la acidez en la
escala PH. Cul es la nueva elasticidad? Cul es el nuevo ajuste de la regresin? La
regla de conversin de Farenheit a Celsius es C =5/9F 32 y la regla de conversin
de Gousset a PH es G =1.8 PH .
3.
Despus de crecer sostenidamente entre 1985 y 1999, la economa entr en un
ciclo recesivo entre 2000 y 2003. El ministro de Hacienda desea saber si ha habido un
quiebre estructural en la siguiente ecuacin que describe el crecimiento de la economa:

PIB t = 01

Inv t 1
2 PCu t 1 3 CH t 1t
PIB t 1

donde es la primera diferencia, Inv es la formacin bruta de capital fijo, PC es el precio


del principal bien de exportacin, y CH es el stock de capital humano. Cmo hace usted
un test de Chow de cambio de rgimen?

5.55
4.
Suponga que Ud. sospecha que hay cambio estructural en su muestra de n
observaciones a partir del instante T. Qu hara Ud. si desea testear esta hiptesis
usando un test de Chow y su modelo tiene knT variables?
5.
Suponga que Ud. cree que hay cambio estructural en su modelo, pero no sabe
dnde se produce. Describa con precisin el test de CUSUM. Plantee el modelo como si
el quiebre fuese en la tendencia y capturable con una dummy. Obtenga el estimador de
los parmetros del modelo con quiebre y comprelo con el del modelo que excluye un
quiebre.
6.
En un trabajo reciente se analizan los determinantes de la migracin en funcin
de costos de transporte y atractivo relativo entre las regiones de origen y destino. El
trabajo postula que en el periodo 1987-92, la fuerza con que migraron las personas no
habra decrecido de manera significativa con respecto al periodo 1977-82. Para ello, se
comparan los resultados de dos regresiones de mnimos cuadrados del siguiente tipo
usando tests de Chow. Haga dos crticas fundamentales al procedimiento.

ln

M ij
=01 P i 2 P j 3 D4 D 2 5 W i W j 6 W i W j 6 U i 7 U j
Mi

Donde M es migracin, P es poblacin, D es distancia, W son los salarios, es la


primera diferencia y U desempleo. Los subndices i y j se refieren a cada regin y si
estan juntos se refiere de i a j.
7.
Suponga que el parmetro arbitrario en el estimador tipo ridge es r. Demuestre
que el sesgo del estimador bajo colinealidad crece mientras menor es r.
8.
Demuestre que el R de una estimacin usando el estimador de ridge podra ser
mayor a 1.
9.
La presencia de multicolinealidad hace que el estimador de mnimos cuadrados
no sea MELI (BLUE).
10.
Suponga que dos variables, y , x , son observadas con error de medicin, es
decir, para t =1, T

y t = y t ty
x t =x t xt
donde las innovaciones se distribuyen i.i.d. Suponga que el modelo de regresin lineal
es el adecuado para las variables no observables:

y t =0 1 x t t

5.56
Bajo qu condiciones el estimador de de la regresin basada en {x,y} es
inconsistente?
d

11.
Al revisar los datos de un estudio de demanda q i = f p i , y i ; Ud.
descubre el siguiente fraude: el autor rellen las observaciones faltantes. Pruebe que el
estimador de la elasticidad precio est sesgado. Pruebe que el estimador de la elasticidad
ingreso (donde no faltan datos) tambin lo est.
12.

Demuestre que el estimador de mnimos cuadrados generalizados es consistente.

13.
Comente: Resulta innecesario preocuparse por los problemas de
heterocedasticidad si existe la matriz de White (1990). Describa en lneas generales la
extensin de Newey y West (1987).
14.
An si se violan los supuestos de homocedasticidad en el modelo clsico de
regresin lineal, los estimadores convergen en probabilidad a normal estndares porque
los residuos se distribuyen asintticamente normal debido a la ley de los grandes
nmeros no-estocsticos de Markov-Rao.
15.
Al estimar los determinantes de la distribucin del ingreso en Guyana (Si) se
encontr que sta depende de la educacin de los padres (Ei), el stock de riqueza de la
familia (Wi), el consumo de drogas de los padres(Xi), el tamao de la familia (Li) y una
dummy para los padres o madres solteras. Pero adems se descubri que los errores
estaban ordenados, de modo tal que para las familias ms numerosas los residuos
2
2
2
parecan ser ms grandes ( i = h [ L i ,Z i ] ), donde Z es una variable desconocida
ortogonal a L. Plantee formalmente una estrategia de estimacin del modelo usando el
estimador de mnimos cuadrados generalizados (ojo, Z no es observable as es que
plantee primero el estimador GLS suponiendo que Z es conocido y luego intente
resolver el problema de que no conoce Z. No use la matriz de White.
16.
Suponga que en un modelo tipo y =x se sabe que hay heterocedasticidad
provocada por el uso de variables nominales. Demuestre que en el modelo de mnimos
cuadrados ponderados que utiliza datos reales, el R est mal definido y la constante
es variable Cmo se recuperan los parmetros de inters ( ) del modelo estimado?
17.
Es preferible, en ocasiones, usar mnimos cuadrados en vez de variables
instrumentales aunque el estimador de mnimos cuadrados no sea consistente y el de
variables instrumentales s lo sea.
18.
Considere el siguiente modelo y t =' x t t , donde algn componente de x es
no observable. Plantee un estimador de variables instrumentales vlido. Bajo qu
condiciones este estimador es asintticamente consistente? Pruebe las condiciones.
19.
El siguiente problema demuestra la necesidad de usar variables instrumentales.
Considere el siguiente modelo:

5.57

c t = y t t
t N 0, 2
y t =c t i t
donde i es exgena,

1
T

lim t

i t i =2i .
t

Pruebe que el estimador de mnimos cuadrados de es

1/
2

es ruido blanco (con media cero y varianza ) y

y que, por lo tanto, hay que usar un instrumento para yt.

i /1

20.
El test de Durbin-Watson de autocorrelacin no se puede aplicar si los errores
son heterocedsticos.
21.
Suponga que su modelo es el siguiente, donde los residuos estn
correlacionados:

Y t = Y t 1u t
u t =t t 1
N 0, 2 I
Demuestre que el estimador mnimos cuadrados de , es inconsistente.
22.
Demuestre que el siguiente estadgrafo es aproximadamente equivalente a la
correlacin de primer orden de los residuos del siguiente modelo: y t = x t t
T

1
=1
2

yt 1 x t 1 yt x t 2
i=2

yt 1 x t 1 2
i=1

23.

Suponga que su modelo es:

Y t = Y t 1t | |0
u t =t t1
N 0, 2 I
Demuestre

plim =

que

si

se

1
con =
12
12

estima

Y t Y t 1 / Y 2t 1 ,
=

entonces

5.58
24.
En un trabajo reciente (Spatial Inequality, Growth, and Migration in Chile, R.
Soto y A. Torche, 2004) se analizan los determinantes de la migracin de poblacin entre
regiones en funcin de costos de transporte y atractivo relativo entre el origen y el
destino. Los datos de migracin provienen de los censos de 1982 y 1992 donde se
pregunta dnde viva usted hace 5 aos? El modelo planteado es:

ln

M ij
=01 P i 2 P j 3 D4 D 25W i W j 6 U i 7 U j
Mi

donde M es migracin, P es poblacin, D es distancia, W son los salarios reales, y U el


desempleo. Los subndices i y j se refieren a cada regin y si estn juntos se refiere de i
a j. Este modelo no es panel.
Compute el sesgo de los estimadores de 1 y 2 si las poblaciones estn medidas
con un error que se distribuye con media cero y varianza .
Son inconsistentes los coeficientes 3 a 7? Prubelo usando matrices
particionadas.
25.
Cuando Alvaro estudi el consumo de marihuana en una poblacin de
Concepcin, obtuvo el siguiente modelo estimado usando mnimos cuadrados:

C t =0.92 C t 1u t
0.19
donde C es el consumo y el valor entre parntesis es la desviacin estndar del
estimador. Karol observ, sin embargo, que los residuos seguan el siguiente modelo:

u t =t 0.16 t1
0.02
Compute el sesgo del estimador.
26.
Demuestre que cuando se computa el estimador de mnimos cuadrados
generalizados posibles de los parmetros del siguiente modelo, no se necesita que el
estimador de sea eficiente y basta con que sea consistente.

c i =10.580.88 y i i
3.48 0.27
(a)
2 =z i
i

27.
Suponga que su modelo es y = x , donde y es el salario por hora y x son
caractersticas del individuo. Suponga ahora que por ley no se puede pagar menos que
el salario mnimo, y . Cmo afecta esta restriccin al estimador de ? Analice
consistencia y eficiencia.

5.59
28.
Suponga un modelo economtrico lineal dado por y = x para el cual la
estructura del error tiene las siguientes propiedades: t = ht t donde ht es una variable
no correlacionada e independiente de xt. Considere adems que t = t 1 t , con
1 y ruido blanco.
(a) Calcule la varianza y funcin de autocovarianza de t .
(b) Suponga que usted dispone de datos sobre ht. Cul es el estimador ms eficiente
de ? Describa detalladamente los pasos necesarios para calcularlo.
(c) Suponga ahora que no dispone de datos sobre ht. Cmo podra estimar
eficientemente el parmetro? Explique detalladamente los pasos necesarios para
calcularlo.
29.
Considere el siguiente modelo lineal y=x . Sea el estimador de mnimos
cuadrados ordinarios y sea = y x el residuo del modelo. Sea el estimador de
variables instrumentales para algn instrumento Z y sea el residuo de variables
. Si el instrumento es verdaderamente exgeno, tendr el
instrumentales = yz
modelo estimado con variables instrumentales un mejor ajuste que el de mnimos
cuadrados ordinarios (menor SRC), al menos en muestra grande?
30.
Considere el modelo y=x . Suponga que hay heterocedasticidad derivada
del uso de variables nominales (tanto x como y). Suponga que el modelo estimado
usando datos reales o deflactados no tiene heterocedasticidad. Demuestre que el valor
esperado del estimador de mnimos cuadrados de es el mismo en ambos modelos.
Demuestre que, a pesar de lo anterior, el R2 no es el mismo en ambas ecuaciones.
Sea el modelo lineal de la forma y i= z i i con E [ | z ]=0 . Suponga que
=E [2 | z ] es conocido. Demuestre que el estimador de mnimos cuadrados
generalizados de es un estimador de variables instrumentales para algn x i (es decir,
encuentre la expresin para que dicho x i cumpla lo deseado).
31.

Captulo 6
Modelos no lineales
El rea de los modelos no lineales es muy extensa y, posiblemente, es aquella que
se ha desarrollado con mayor inters en los ltimos aos, como resultado del veloz
desarrollo de la computacin. La gran mayora de los modelos no lineales se resuelven
por medio de mtodos de clculo numrico es decir, usando algoritmos de
aproximacin a la solucin debido a que no existen formas cerradas que permitan
derivar expresiones matriciales simples para obtener los estimadores. En la primera
parte de este captulo desarrollamos el instrumental necesario para entender los
mtodos de optimizacin no lineal que se usan para la estimacin de modelos no
lineales. En la segunda parte se discute los mtodos y estimadores no lineales.

6.01

Elementos de clculo numrico

Existe un gran nmero de tcnicas de optimizacin no lineal que resultan de gran


utilidad para solucionar modelos no lineales, agrupadas bajo el nombre de clculo
numrico. Naturalmente, las tcnicas no lineales no son de inters per-se en este curso 1,
sino en la medida que nos sirven para entender cmo operan y cmo se hace la
estimacin no lineal.

Generacin de nmeros aleatorios


Una parte importante de los mtodos de optimizacin se basan en el uso de
nmeros aleatorios. Naturalmente, es imposible generar nmeros verdaderamente
aleatorios; cualquier algoritmo que se use para producir numeros puramente aleatorios
es replicable y, por tanto, sus resultados no son estrictamente aleatorios. 2
No obstante, hay algoritmos tiles para nuestros propsitos. En general stos son
del tipo:
1. D un nmero de partida (del reloj), llamado semilla, S .
2. Actualize la semilla:

S j =S j1A ,

A = cte.

3. Transforme semilla:

x j =S jB ,

B = cte.

4. Guarde xj y vaya a (2)

1
2

Un tratamiento exhaustivo se encuentra en Numerical Methods in Economics, K. Judd (2000) MIT Press.
Anyone who considers arithmetic methods of producing random digits is, of course, in a state of sin . John von
Neuman

6.2
El tpico algoritmo de los programas de computacin se basa en:

Dados P, Q, R y la semilla S j .

Compute

S j1=Mod RS j , P
x j1=S j1 /Q

donde la funcin Mod produce el entero de R*S/P.


La rutina anterior produce valores entre 0 y 1 para nmeros R,Q,P relativamente
grandes (ej, 2,147,483,647). Obviamente, esta no es exactamente una muestra aleatoria.
Dada las constantes y la semilla inicial, es replicable. Pero el algoritmo puede ser
suficientemente complejo como para que el problema de replicabilidad sea mnimo y,
por lo tanto, que se justifique su uso. Sin embargo, es inevitable que el generador en
algn punto producir un ciclo y comenzar a repetir los nmeros aleatorios. 3

Muestreo estadstico
A pesar de que la rutina anterior produce numeros no exactamente aleatorios, es
una alternativa til para hacer muestras de variables aleatorias derivadas de una
distribucin uniforme [0,1]. Pero se expande para cualquier uniforme, multiplicando los
lmites de manera adecuada.
La ventaja de tener una secuencia {Z } de nmeros de una uniforme [0,1] es que
sta se puede reinterpretar como una secuencia de valores de la acumulada de otra
distribucin. Conociendo la funcin de la acumulada F . , tenemos una secuencia de
valores aleatorios derivados de la distribucin:

x =F 1 Z

(6.1)

Por ejemplo, hay aproximaciones conocidas para el caso de la normal estndar


(Abramovitz y Stegun, 1971):

c 0 c1T c2T 2
1 d 1T d 2 T 2 d 3T 3

(6.2)

Una vez que se tiene una normal estndar, es trivial construir una , una F u
otras distribuciones de uso comn.

John von Neumann sugiri el siguiente algoritmo. Suponga que desea una secuencia de nmeros
aleatorios de 4 dgitos. (1) Elija cualquier nmero de 4 dgitos por ejemplo, 6235. (2) Tome su cuadrado
(38,875,225). (3) Extraiga los cuatro dgitos interiores de ese cuadrado (i.e., 8752). (4) Use ahora este
segundo nmero para iterar (ir a 1).

6.3
Muestreo de Gibbs
Supongamos que existe una densidad conjunta que queremos modelar
f x , y 1 , y 2 ,... , y k . Si estamos interesados por algn momento del problema,
debiesemos calcular expresiones como:

f x = ... f x , y 1 , y 2 ,... , y k dy1 dy 2 ...dy k


y1 y2

yk

(6.3)

El problema puede ser demasiado complejo de resolver directamente. La


alternativa es construir una aproximacin indirecta de la densidad marginal f x .
La idea es aprovechar las densidades condicionales para construir la marginal.
Supongamos que la densidad es bivariada, f x , y y que se conoce f x | y y
f y | x (a partir de la muestra). El algoritmo de Gibbs consiste en:

Dado un y 0 , genere un x 1 a partir de f x | y .

Dado x 1 , genere y 1 a partir de f y | x .

Dado un y 1 , genere un x 2 a partir de f x | y , etc.

Estudios de Montecarlo4
Una tcnica frecuentemente usada en econometra para obtener la distribucin
emprica de los parmetros o de un test es la simulacin de Montecarlo. Usualmente lo
que se hace es estudiar cmo cambia un resultado si se alteran las condiciones del
problema, tpicamente cuando se puede controlar bien dichas condiciones. Por ejemplo,
si tenemos dudas de la calidad de un estimador debido a que la muestra no es muy
grande y conocemos cmo se genera ste, podemos hacer el experimento artificial de ver
cmo cambian los resultados al variar el tamao de muestra.
Bootstrapping5
Frecuentemente no es posible tener una buena idea de las propiedades de un
estimador y, en particular, sobre su comportamiento en la muestra. Una solucin es
4

Este mtodo fue sugerido por John von Neuman y Stanislaw M. Ulam en un trabajo no publicado (The
Origin of the Montecarlo Method). Ulam seal que el mtodo se le ocurri jugando solitario mientras
estaba enfermo en 1946. El nombre Monte Carlo se le puso porque ste era el mtodo usado para hacer
simulaciones de fisin nuclear en el proyecto de la bomba atmica cuyo nombre clave era Proyecto
Montecarlo.
El trmino bootstrap fue acuado por Bradley Efron (Bootstrap methods: another look at the jackknife,
Annals of Statistics, 7:1-26, 1979). El trmino se deriva de una historia del libro del siglo 18 Las
Aventuras del Baron Munchausen, de Rudolph Erich Raspe, en las que el protagonista haba cado al
fondo de un profundo pozo, del cual no haba escapatoria, de no ser por la proverbial idea del Barn de
salir tirando fuertemente de los cordones de sus botas (bootstraps).

6.4
hacer bootstrapping. Supongamos que de un experimiento (modelo) obtuvimos el
n con una muestra de tamao n.
estimador
Es posible hacer una muestra con m observaciones y luego estimar de nuevo

m . De hecho, es posible generar una secuencia de largo T de estos estimadores


1
{ Bm }1T sobre la cual obtener la media, varianza, etc.
T

La media de n sera

1
m .
B
T B=1

Clculo de derivadas
En muchos casos es necesario calcular derivadas de alguna funcin. Tpicamente,
como ya hemos visto, cuando se computan estimadores utulizando la funcin de
verosimilitud. En pocos casos se conoce la derivada analtica de la funcin de
verosimilitud (ej, Poisson) y se puede computar directamente. Cuando no se conoce
analticamente, hay que buscar una aproximacin. La ms natural es:

F x F x F x

x
2

(6.4)

o, ms generalmente,

F x F x 1, x 2 ,... ,x i ,...F x 1, x 2 ,... , x i ,...

xi
2

(6.5)

Obviamente, el clculo de las derivadas (por ejemplo, para obtener x tal que la
derivada sea cero) puede ser tedioso y largo. Adems, la eleccin de no es trivial. Si se
escoge un valor muy grande, el algoritmo puede hacer muchas iteraciones antes de
converger al resultado. Si, por el contrario, el valor elegido es muy chico, la estimacin
estar sujeta a mayor imprecisin. Finalmente, si se usa esta aproximacin, habr error
por definicin. Si se hacen muchos clculos sobre ella, el error acumulado puede ser
sustancial.

6.5
6.02

Optimizacin no lineal

Cuando la funcin es lineal o las derivadas tienen forma cerrada, la optimizacin


se hace analticamente (Lagrange). Si la funcin no es lineal y sus derivadas no tienen
solucin analtica, tendremos que aproximar la condicin de ptimo (es decir, que las
primeras derivadas sean iguales a cero) con algn mtodo numrico.
Grid search (bsqueda tipo cuadrcula)
La alternativa ms simple es hacer un barrido por los posibles valores de los
parmetros de modo de obtener el ptimo. Esto se puede hacer cuando el nmero de
parmetros es pequeo (1 o 2), pues de otro modo es demasiado costoso. Adems, se
necesita saber el rango de valores que puede tomar el parmetro y qu tan fina es la
estimacin (cunto hay que incrementar el parmetro?).
Algoritmos iterativos
Los algoritmos iterativos se basan en la siguiente lgica:

Dar un parmetro inicial arbitrario, 0 .

Si 0 no es el ptimo, actualizar el parmetro segn:

j = j 1 j 1 j 1

(6.6)

donde es un paso (cunto?) y un vector de direccin (para dnde?).


El problema es que y cambian en cada iteracin, por lo que se necesita una
manera de determinarlos. Determinar la direccin es fcil. La matriz de derivadas
parciales (g) de la funcin (F) que se quiere optimizar da una respuesta inmediata.
Determinar el paso es ms complejo. En principio se debiera buscar tal que:

F j j j
= g j j j ' j =0
j

(6.7)

pero esto raramente se hace porque es ineficiente y costoso en tiempo. Optimizar el paso
implica que en cada iteracin hay que hacer dos movimientos. Por lo general se usa fijo
en los mtodos que estudiamos a continuacin.

6.6
Figura 6.1

1
F1
F2
j+1
j

2
Mtodos de gradiente
Los mtodos de gradiente descomponen el vector de direccin en dos
componentes:

j =W j g j

(6.8)

donde W es una matriz definida positiva, g es el gradiente (matriz de primeras


derivadas) de la funcin que se optimiza, y j se refiere a la iteracin j-sima.
Naturalmente, W opera como una matriz de ponderadores de las gradientes.
De dnde viene la descomposicin de la ecuacin (6.8)? Considere la expansin
de Taylor de la funcin F:

F j j j =F j j g j j

(6.9)

es decir:

F j j j F j = jg j j

(6.10)

por lo tanto

F j j j F j j g j ' W j g j

(6.11)

el lado derecho es positivo si es pequeo y g no es cero. Entonces, una iteracin


adicional siempre aumenta la funcin F.

6.7
Mtodo Steepest Ascent
Este mtodo es poco sutil pero efectivo. Bsicamente consiste en escoger W =I y
= g . Es decir, pondere por 1 la informacin de las gradientes y ajuste los coeficientes
equivalentemente.
Es un mtodo muy rpido y tiene vector de direccin ptimo conocido:

2 F
g ' g
j=
donde H=
g ' Hg
'

(6.12)

El mtodo no est exento de problemas. Primero, hay que computar segundas


derivadas, lo que sabemos puede ser complejo y tedioso. Segundo, si H no es negativa
definida, el mtodo diverge. Tercero, el mtodo converge muy lento, pues tiende a
pasarse de largo, como en la Figura 6.1.

Mtodo de Newton
Como todo ptimo de Newton, ste se basa en la idea es que en dicho ptimo, las
derivadas de F son cero. Se puede hacer una expansin de Taylor alrededor de cero:

F
= g 0H 0 0=0

(6.13)

resolviendo para y generalizando:

j1= j H 1
j g j

(6.14)

entonces la recomendacin es

W =H 1
1
=H g
=1

(6.15)

El mtodo converge rpido cerca del ptimo. Si la funcin es cuadrtica converge


en 1 paso, porque la derivada es lineal. Es probablemente el mejor algoritmo si el
problema es cncavo. Pero tiene dos problemas: (1) lejos del mximo con funciones no
muy bien comportadas puede diverger, y (2) tambin puede diverger si la matriz H no
es negativa definida.

6.8
Quadratic Hill Climbing6
Este mtodo enfrenta el segundo problema del mtodo de Newton. Si H no es
negativa definida, entonces se recomienda usar H =H I , con grande e I la
matriz identidad. Esta transformacin asegura que H sea negativa en la siguiente
iteracin.

Metodos tipo Cuasi Newton


La idea de este tipo de mtodos es evitar el clculo de la segunda derivada. La
base de anlisis consiste en reconocer que al actualizar la matriz de ponderaciones en
cada iteracin W j 1 =W j E es siempre positiva si E es positiva. Ms an si partimos
de W 0 =I .
Davidon, Fletcher y Powell (1958)7 sugieren utilizar el siguiente algoritmo de
mtrica variable:

j 1

=W j

j j ' W j j j ' W j '

j' j
j'W j j

(6.16)

donde j = j j y j = g j g j1 . Entonces lo que se propone es aproximar la


inversa de la segunda derivada H 1 por el cambio ponderado en la primera derivada,
j = g j g j 1 . Por ello, el mtodo va acumulando los errores cometidos en la
aproximacin de la inversa de las segundas derivadas:

=W j aa ' bb ' =W j [a b ][a b ]'

j 1

(6.17)

debido a que la matriz [a b] es de rango 2 se le llama actualizacin de segundo rango.


Broyden et al. (1970)8 sugieren usar una actualizacin de tercer rango, que es ms
eficiente, pues le aade un trmino del tipo dd ' , donde:

d j=

6
7
8

1
' j j

1
W jj
' jW jj

(6.18)

Goldfeld, S.M.; Quandt, R.E.; and Trotter, H.F. (1966), "Maximisation by Quadratic Hill-Climbing",
Econometrica, 34, 541-551.
W. C. Davidon, AEC Research and Development Rept. ANL 5900 (Rev.) 1959. Fletcher, R. and Powell,
M.J.D. (1963), "A Rapidly Convergent Descent Method for Minimization", Comput.J., 6, 163-168.
C. G. Broyden, J. Inst. Mat. Appl. 6:222-231, 1970. R. Fletcher, Comp. J., 13:317-322, 1970. D. Goldfarb Mat.
Comp. 24: 23-26, 1970. D. F. Shanno, Mat. Comp. 24:647-656, 1970.

6.9
6.03

Estimacin de mnimos cuadrados no lineales

La definicin de un modelo no lineal se har por la tcnica de estimacin y no


por la naturaleza del modelo. Supongamos la existencia de un modelo genrico del
siguiente tipo:
(6.19)

y i =h x i ; i

Si se mantiene la nocin de minimizacin de la suma de residuos al cuadrado y


se aplica al modelo anterior, la estrategia sera buscar un estimador tal que minimice
la suma, S:

S = 2i = y i h x i ;
i

(6.20)

Note que si el error se distribuye normal, entonces corresponde al estimador


de mxima verosimilitud. As, el estimador de mxima verosimilitud es un estimador
adecuado para parametrizar modelos no lineales, reteniendo las propiedades y
limitaciones que ya estudiamos en los captulos anteriores. No obstante, es posible
derivar un estimador de mnimos cuadrados en este caso mnimos cuadrados no
lineales que opera de manera anloga al estimador de mnimos cuadrados ordinarios.
De la ecuacin (6.20) es posible obtener:

h x i ;
S
=2 [ y i h x i ; ]

(6.21)

Como es evidente, si la funcin h(.) es lineal, entonces la ecuacin (6.21) no


difiere de las ecuaciones normales derivadas en el captulo 4. Cuando el modelo es no
lineal, la ecuacin (6.21) no es de forma cerrada y debiese ser resuelta por los mtodos
numricos que ya estudiamos. No obstante, considere una expansin de Taylor
alrededor de 0 de tal modo que el modelo quede aproximado por:
K

h x i ; 0

h x i ; h x i ; 0 k =1

(6.22)

kk

Este conjunto de ecuaciones es llamado modelo de regresin generalizado y


puede ser convenientemente reescrito como:

h x i ; h x i ; 0

h x i ; 0

k =1
k

h x i ; 0

k =1
k

(6.23)

6.10
Llamando x 0 a la derivada de la funcin h, tenemos

h x i ; h x i ; 0 x 0 k x 0 k

(6.24)

lo que en trminos matriciales se puede sintetizar como:

h x i ; h 0 x 0 k x 0 k

(6.25)

Note que una vez escogido 0 los dos trminos al interior del parntesis son
constantes, por lo que pueden pasar al lado izquierdo pues son expresiones conocidas.

y 0=h x i ; h 0 x 0 k x 0 k

(6.26)

Aadindole el trmino de error, se obtiene finalmente

y 0=x 0 k

(6.27)

As, dado un valor de 0 es posible estimar k directamente por mnimos


cuadrados. A diferencia de su contraparte lineal, el estimador de mnimos cuadrados no
lineales no ocupa directamente las variables sino una transformacin de ellas y de la
funcin original, estimndose el modelo sobre las derivadas de la misma. Por ello, en
este caso se trabaja con pseudo-estimadores.

Propiedades del Estimador Mnimos Cuadrados no Lineales


El estimador de mnimos cuadrados lineales aplicado a las primeras derivadas de
la funcin no lineal puede proveer una estimacin de los parmetros del modelo. Por
razones de eficiencia, la estimacin se hace, en realidad, de manera iterativa, de modo de
minimizar el error que se comete en la aproximacin. Lo que nos preocupa es si este
estimador es consistente y/o eficiente. Al igual que en el caso del estimador de mnimos
cuadrados del modelo lineal, slo si los residuos son normales podemos estar seguros
que es eficiente. En otros casos, tenemos que hacer algunos supuestos.
En el caso lineal, supusimos que los regresores cumplan

1
x ' x Q. Ahora
n

haremos el mismo supuesto para los pseudo-regresores construidos segn (6.26):

n
h x i ; 0
1
1
plim x 0 ' x 0 = plim
n
n i=1
k
0

][

'

h x i ; 0
= Q0
k
0

(6.28)

6.11
Para que el estimador

NLS

sea consistente tiene que cumplirse que

1
plim x 0 =0 . Finalmente, el estimador ser asintticamente normal cuando:
n
n

1
x i i N 0, 2 Q 0

n i=1

(6.29)

El estimador de la varianza de los residuos puede ser encontrado usando:9


n

2 =

1
[ y h x i ; ]2
n i =1 i

(6.30)

Cmputo del estimador de mnimos cuadrados no lineales


La estimacin de NLS se hace de manera iterativa, lo que exige determinar el
algoritmo de actualizacin y el criterio de fin de bsqueda.
Note que para estimar (6.27) se requiere haber fijado la derivada de la funcin x 0 - para lo cual se tuvo que haber usado algn 0 . Una vez computado NLS por
primera vez, se puede usar ste para construir [ y 0 x 0] y volver a estimar NLS
repitindose el ciclo hasta que se cumpla el criterio de fin de bsqueda.
No existe una regla para escoger los parmetros iniciales, pero su eleccin puede
afectar bastante el resultado. El problema de escoger mal los parmetros iniciales es que
los algoritmos suelen diverger o pueden tomar un nmero muy grande de iteraciones
antes de converger. Algunos autores prefieren usar parmetros derivados
aleatoriamente de alguna distribucin. Otros autores usan los parmetros obtenidos de
una regresin lineal del mismo problema que se est estudiando. Finalmente, es posible
usar los parmetros de otros estudios.
Respecto del criterio de fin de bsqueda hay varias alternativas. Es posible usar
el cambio en la funcin de verosimilitud de la estimacin: si sta no cambia en algn
monto fijo en la iteracin (p.e., 10-5), no siga buscando. Muchas veces, los cambios en la
funcin de verosimilitud continan, cuando los parmetros slo cambian en el quinto o
sexto decimal. Desde un punto de vista econmico, la precisin en el quinto decimal de
una elasticidad es irrelevante, por lo que un criterio de fin de bsqueda usado es detener
las iteraciones cuando los parmetros cambian en el tercer o cuarto decimal.

Note que el estadgrafo R no est acotado entre 0 y 1.

6.12
6.04

Estimacin de variables instrumentales no lineales

El estimador de variables instrumentales descrito en los captulos anteriores


tambin puede ser aplicado al caso no lineal si existen sospechas que pudiese existir
correlacin entre regresores y residuos. El problema en el caso no lineal es que la
correlacin regresor-residuo se traspasa a los pseudo-regresores x 0 . Entonces,
supongamos que tenemos un conjunto de variables z tal que:

1
plim z ' x 0 = Q 0zx
n

1
plim z ' =0
n

(6.31)

Aplicando la misma lgica del estimador de mnimos cuadrados no-lineales


tenemos que el modelo linealizado es:

y 0 x 0

(6.32)

premultiplicamos por z y tomamos plim:

plim

1
1
0
0
z ' y plim z ' x
n
n

(6.33)

Supongamos, aunque esto no es crucial, que el rango de z es el mismo de x,


entonces el estimador de variables instrumentales en este caso parecera ser
directamente

NIV =z ' x 0 1 z ' y 0

(6.34)

El problema con el estimador (6.34) es que el vector de parmetros aparece a


ambos lados de la ecuacin. Una alternativa es buscar un punto fijo, es decir, un vector
que satisfaga dicha ecuacin. Un algoritmo posible pero no eficiente sera darle 0 ,
computar los pseudo-regresores, estimar 1 , computar los pseudo-regresores, etc.
Una solucin general al problema que adems elimina la restriccin de rango de
z es:

min S = [ y h x i ; ]' z z ' z 1 [ y h x i ; ]' z


= ' z z ' z 1 ' z

(6.35)

cuyas derivadas son:

=x 0 ' z z ' z 1 z ' =0

(6.35)

6.13
Este es un problema de optimizacin no-lineal que ya hemos estudiado. Si los
pseudo-regresores se comportan razonablemente, el algoritmo debiese producir una
estimacin del parmetro eficientemente (Davidson y McKinnon, 1993). 10
6.05

No linealidad de la variable dependiente

Supongamos ahora que la no linealidad tambin envuelve a la variable


dependiente, es decir:
(6.36)

g y i ; =h x i ; i

La estimacin de los parmetros puede hacerse por dos mtodos: mnimos


cuadrados y mxima verosimilitud. Este ltimo es ms eficiente. Si los residuos se
distribuyen normales, entonces la densidad de cada observacin es:

i
f y i =
[2 2 ]1 /2e
yi
donde

[ g y i , h x i ; ]
2 2

(6.37)

i
es el Jacobiano de la transformacin, es decir:
yi

i g y i ;
=
=Ji
yi
yi

(6.38)

Por ello, la funcin de verosimilitud de la muestra es (en logs):


n

n
n
1
log L =
log 2 log 2 J i y i ; [ g y i ; h x i ; ]2
2
2
2 i=1
i =1

(6.39)

Debe notarse que la presencia del trmino J i y i ; hace que el estimador de


mnimos cuadrados no lineales no sea equivalente al estimador de mxima
verosimilitud. Por lo tanto, es necesario usar este ltimo estimador. No obstante, es
posible usar una aproximacin por iteracin cuando la dimensin de es pequea (1 o
2). El algoritmo sera el siguiente:
1. Fijar 0 , computar g y i ; 0 y estimar los parmetros usando el estimador de
mnimos cuadrados no lineales y computar el valor de la funcin de
verosimilitud.

10 Davidson, Russell and James G. MacKinnon (1993). Estimation and Inference in Econometrics, Oxford:
Oxford University Press.

6.14
2. Actualizar 1=0 i , computar g y i ; 1 y re-estimar los parmetros usando
el estimador de mnimos cuadrados no lineales y computar el valor de la funcin
de verosimilitud.
3. Usar las funciones de verosimilitud computadas en (1) y (2) para determinar la
direccin de ajuste de los parmetros e iterar hasta que converja.

6.06

Interpretacin de los parmetros de un modelo no lineal

La intepretacin de los parmetros no es fcil en el caso de los modelos no


lineales. Consideremos que en el modelo lineal los parmetros miden:

E [ yi | xi ]
=i
xi

(6.40)

por lo que, si las variables estn medidas en logartmos, se obtienen directamente las
elasticidades. En el modelo no lineal, sin embargo, los parmetros son:

E [ y i | xi ] h x i ; 1

xi
xi
g ' yi

(6.41)

por lo que los parmetros no son las elasticidades. Estas ltimas se computan,
usualmente, en la media muestral. Es decir,

6.07

h x i ; 1 x i
xi
g ' y i yi

(6.42)

Tests de hiptesis

A diferencia de los modelos lineales, el testeo de hiptesis en el caso de los


modelos no-lineales requiere que las restricciones impuestas sean de sobreidentificacin.

= i la suma de residuos al cuadrado del modelo sin restringir y sea


Sea S
2

S * = *2i su contraparte en el modelo restringido.

Los siguientes tests son vlidos asintticamente:

6.15
J
[S * S ]/
F [ J ,nk]

[S /nk
]

Test F asinttico

Test Razones de Verosimilitud 2 log L * log L


[ J ,nk ]

q ]VAE R q

Test de Wald [R
[R q ]' [ J , nk ]

-1

Captulo 7
Modelos con Datos de Panel

Los mtodos de panel data combinan observaciones de corte transversal con


observaciones de series de tiempo. Por el momento no vamos a imponer restricciones
para que la mezcla sea vlida, pero ms adelante vamos a discutir exactamente qu tipo
de observaciones de corte transversal se pueden mezclar con cul tipo de observaciones
de series de tiempo.
Cuando hablamos de observaciones de corte transversal nos referimos a
observaciones para una determinada cohorte y por lo tanto el tipo de pregunta que se
puede responder se refiere a hiptesis respecto de la heterogeneidad de los individuos
que componen dichas cohorte. Por ejemplo, por qu, en algn instante del tiempo,
algunas personas con determinadas caractersticas trabajan y otras no lo hacen?
Cuando nos referimos a observaciones de series de tiempo nos referimos a que es
posible observar el comportamiento de un individuo repetidamente en el tiempo. Por
ello, el tipo de hiptesis que se puede enfrentar se refiere a la evolucin del
comportamiento de un individuo y sus determinantes. En particular, y manteniendo la
simetra con el ejemplo anterior, qu hace que un individuo trabaje en algunos periodos
y no lo haga en otros?
Como vemos, mientras las observaciones de corte trasversal son tiles para
responder preguntas relacionadas con heterogeneidad, los de series de tiempo sirven
para estudiar la evolucin temporal. Las tcnicas de panel nos permiten responder
ambos tipos de preguntas y otras que no pueden ser respondidas por corte transversal
o series de tiempo porque usan informacin sobre una cohorte donde hay individuos
heterogneos a los que se les observa repetidamente en el tiempo. Es decir observaremos
N individuos durante T periodos de tiempo.
Esto presenta varias ventajas con respecto a los modelos de corte transversal o
series de tiempo por separado. Entre ellas:

Aumento en grados de libertad: Esta es una razn bastante obvia: si observamos


una cohorte dos veces en el tiempo, las observaciones disponibles aumentan a 2N
para el mismo nmero de potenciales parmetros a estimar, k. Esto permite
mejorar la precisin con la cul se estiman dichos parmetros y mejorar la
calidad de las predicciones hechas con el modelo.

Control de efectos fijos individuales: Un problema complejo de los mtodos de


corte transversal es que no pueden identificar la presencia de efectos fijos
individuales. Estos efectos cambian entre individuos pero no para cada
individuo y, como no se observan, son absorbidos por el residuo. Cuando dichos

7.2
efectos individuales estn correlacionados con los regresores hay sesgo en el
estimador del parmetro.
Por ejemplo, suponga que se desea estudiar el rendimiento de alumnos de
educacin primaria (Rend) de una cohorte como una funcin de calidad establecimiento
(Cal), las horas de estudio (Horas) y la educacin de los padres (EP). El modelo estimado
es Rend i = 0 1 Cal i 2 Horas i 3 EP i i . El verdadero modelo debe incluir la
inteligencia o habilidad natural del individuo (Hab), pero sta no es observable. Por ello,
el residuo no es ruido blanco ya que incluye el efecto de la habilidad y tiene la forma
i = 4 Hab i i .
Recuerde que si el modelo es y i = x i i , el estimador de mnimos cuadrados
x ' x 1 x ' y , reemplazando y i obtenemos:
es =

x ' x 1 x ' [ x ]
=
= x ' x 1 x ' x x ' x 1 x '
1
= x ' x x '

(7.1)

Entonces, el estimador de los parmetros del ejemplo es:

i =i 4 x i ' Hab i

(7.2)

As, si la habilidad est relacionada, por ejemplo, con las horas de estudio,
entonces habr sesgo en el estimador del parmetro. Lo mismo sucede si los colegios
seleccionan a los alumnos por habilidad.

Modelacin de efectos temporales sin sesgo de agregacin: Los modelos de series


de tiempo tienen frecuentemente el problema que se agrupan individuos
heterogneos como si ellos fuesen idnticos entre s. Sin embargo, no siempre el
comportamiento del individuo promedio es representativo de un individuo
particular. Por ejemplo, cuando se estudia el consumo en un pas en las ltimas
dos dcadas se agrupa a individuos que, por diferentes razones, tienen
comportamientos potencialmente muy diferentes. Los consumidores reaccionan
diferentes a cambios en ingresos corrientes en distintos periodos del ciclo de
vida; los consumidores que estn restringidos de liquidez reaccionan distinto
de aquellos que pueden usar el mercado de capitales para suavizar variaciones
de ingreso y mantener el consumo estable.

Hay pocas desventajas en el caso de los modelos de panel. En primer lugar, an


hay pocas bases de datos sobre todo en Amrica Latina y stas frecuentemente deben
ser limpiadas de numerosos errores. En segundo lugar, los programas
computacionales para econometra de panel son an limitados y frecuentemente del tipo
caja negra (es decir, se desconoce exactamente qu procedimientos usa). Un tercer
problema, que es propio de los modelos de panel, es llamado desgaste de la muestra
(sample attrition) que proviene del hecho que algunos miembros de la cohorte van
desapareciendo a medida que pasa el tiempo. Por ejemplo, porque migran o

7.3
desaparecen (las personas mueren o las firmas salen del mercado) o porque cambian las
condiciones que les haca participar de la cohorte (solteros). Si el desgaste es aleatorio el
nico problema es que se pierde eficiencia en la estimacin. Si el desgaste no es aleatorio
(p.e. cuando el desgaste es por muerte de los mayores de la muestra), hay problemas de
sesgo de seleccin.

7.1

Modelo cannico de datos de panel


El modelo cannico o genrico de datos de panel tiene la siguiente forma:

y it =it x it it

(7.3)

donde i=1, ... , N y t=1,... , T . La variable x it contiene todos los regresores del modelo,
es decir, incluye x 1ti , x 2ti , , x k it . La existencia de efectos individuales est recogida en
la constante que ahora est subindizada t para recoger efectos temporales y
supraindizada i para recoger efectos individuales.

Modelo con todos las observaciones juntas (pooled)


Una alternativa posible pero no ptima es simplemente asumir que todos las
observaciones corresponden a un mismo individuo. En ese caso, suponemos que no hay
efectos individuales, por lo que

y it = x it it

(7.4)
p

y el estimador de mnimos cuadrados es aplicable, es decir, = x i ' x i x i ' y i . La


principal ventaja de este modelo respecto de usar datos de corte transversal es que ahora
se dispone de NT observaciones en vez de N y eso mejora la precisin del estimador
porque:

Var =

2
=
x i ' x i NT

x i x ' x i x

i =1

(7.5)

7.4
Modelo de efectos fijos individuales
Una alternativa para modelar los efectos individuales es suponer que stos son
fijos en el tiempo y slo se refieren a caractersticas del individuo. Es decir, el modelo
queda como:

y it =i x it ti

(7.6)

Como los efectos son fijos podemos modelarlos con variables mudas y usar
mnimos cuadrados ordinarios, es decir, pondremos una variable muda (dummy) por
cada intercepto.

[ ][ ] [ ] []
y1
i 0
y2
0 i
=

0 0
yn

1
x1
0
0
x

2 2

i
xn
n

(7.7)

donde y son vectores, es decir, contienen n y k parmetros respectivamente. Si


llamamos D a la matriz de dummies, entonces el modelo se reduce a:

y it =D x it ti

(7.8)

Todos los resultados clsicos sobre tcnicas de estimacin de mnimos


cuadrados, optimalidad del estimador, bondad de ajuste, y distribuciones de los
estimadores y los tests se mantienen. Este estimador es llamado LSDV por least squares
dummy variables.
Note, adems, que es posible hacer un test formal de igualdad de efectos fijos
usando simplemente el test de Wald para H 0 : i = j .
Cul es la importancia de estimar usando efectos fijos? Como se muestra en la
Figura 1, el estimador pooled es sesgado cuando hay efectos individuales. Las
observaciones en este ejemplo estn ordenadas en dos grupos. 1 El estimador pooled
intenta minimizar el error cuadrtico de ambos grupos simultneamente. No obstante si
se modela cada grupo de la siguiente forma:

y it =1 x it it si el individuo es tipo 1
y it =2 x it it si el individuo es tipo 2
el estimador es insesgado.

Naturalmente, en la realidad es posible tener un gran nmero de grupos.

(7.9)

7.5
Figura 7.1

Modelo
Pooled

Modelo
Efecto Fijo

La situacin podra ser mucho ms dramtica. Considere el siguiente fenmeno


estudiado por Vial y Soto (2002).2 Algunos estudios sealan que el puntaje en las
pruebas de seleccin universitaria (PAA o PSU) no es una buena prueba de seleccin
porque no hay una correlacin positiva entre puntaje de entrada y rendimiento posterior
en la universidad. La evidencia es que la correlacin en datos pooled es estadsticamente
cero (si no es negativa). Pero, la seleccin de alumnos por puntaje de entrada segmenta
las carreras (las carreras cierran las vacantes en puntos de corte que estn ordenados):
cuando se hace un modelo de panel permitiendo que cada carrera tenga su propio
intercepto se obtiene una correlacin positiva invalidando la conclusin anterior.

Bernardita Vial y Raimundo Soto. Predice la PAA el rendimiento o xito en la universidad?,


Administracin y Economa, 24-27, 2002.

7.6
Figura 7.2

Rendimiento
Modelo
Efecto Fijo

1
Modelo
Pooled

2
Puntaje
El estimador intragrupos
Existe un problema evidente cuando la muestra es grande en la dimensin de
corte transversal (N), porque es poco prctico poner un nmero elevado de variables
mudas. Si usted usa la CASEN podra enfrentarse con el problema de tener que poner
5.000 dummies. Una alternativa interesante consiste en tomar el promedio en el tiempo
para un individuo de la ecuacin (7.6):
i
i
i
i
y = x

(7.10)

y restarlo de la ecuacin (7.6) para obtener:

y it y i =i x it it i x i i
= x it x i ti i

(7.11)

Si definimos las desviaciones con respecto a la media del individuo en el tiempo


como y* y x*, entonces:

x *t ' x *t 1 x *t ' y *t
=

(7.12)

Debido a que este estimador usa desviaciones con respecto a la media de cada
grupo, las variables han sido normalizadas para estudiar slo las desviaciones con
respecto a la media grupal, es decir, permite ver lo que sucede al interior del grupo. Por
ello le llamamos estimador intragrupal (within groups estimator).

7.7
Figura 7.3

y
Estimacin Intragrupal

Es decir, al tomar diferencias con respecto a la media en el tiempo de las


observaciones se elimina la constante y los efectos fijos. Ntese que la transformacin
retira la media de cada variable por grupo i-simo, no con respecto a la media global de
las variables.
Para recuperar el efecto fijo, se usa la ecuacin (7.10) porque el promedio de los
i
i
i
grupos cumple = y x

Vamos a definir unas sumas de cuadrados que sern de gran utilidad. En el caso
del estimador pooled o total (p) usamos todas las observaciones:
N

p
S xx
= x it x ' x it x
i=1 j =1
N
T

(7.13)

S = x x ' y y
p
xy

i=1 j =1

i
t

i
t

donde x es la media de x en todos los grupos y todos las observaciones. Computamos


el estimador como:
p

S
p = xyp
S xx

(7.14)

En el caso del estimador intragrupos w usamos los datos en desviaciones con


respecto a la media en el tiempo de cada individuo,
xi :

7.8
N

S = x it x i ' x it x i
w
xx

i=1 j =1
N
T

(7.15)

S = x x ' y y
w
xy

i
t

i=1 j =1

i
t

S xy
y computamos el estimador como: w = w
S xx
p

Pero notemos que S xx puede ser escrito como:


N

S = x it x ' x it x
p
xx

i=1 j =1
T

= x it x i x i x ' x it x i x i x
i=1 j =1
N T

= x ti x i x i x ' x it x i x i x
i=1 j =1
N T

(7.16)

= x x ' x x x i x ' x i x
i
t

i=1 j =1
N T
w
xx
i=1 j =1

i
t

i =1 j=1

=S x x ' x x
i

por lo tanto S =S x x '


x x . Ms adelante estudiaremos la doble
w
xx

p
xx

i=1 j =1

suma. Por el momento apliquemos la ecuacin (7.5) al modelo en (7.11) para obtener la
varianza del estimador intragrupos:

Var w =

2
N

x i x i ' x i x i
i =1 i =1

p
S xx
x i x ' x i x

(7.17)

i=1 i=1

entonces la varianza del estimador intragrupos es mayor que la del modelo pooled. Por
eso, el estimador intragrupos es insesgado pero ms ineficiente que el pooled.
Un problema de remover efectos fijos del modelo usando diferencias con
respecto a la media grupal es que tambin se remueven todas aquellas variables que son
fijas pero observables y que podran ser de inters. En el ejemplo de la educacin
primaria, la educacin de los padres est fija en el tiempo (suponga que no se capacitan
en el periodo de estimacin). El modelo podra ser escrito de manera genrica como:

y it =i x it z i ti

(7.18)

7.9
y, al usar el estimador intragrupos, se perderan todos las variables z. Tpicamente con
este mtodo se pierden variables tales como gnero, religin, raza, ubicacin geogrfica,
atributos fijos, etc.

El modelo con efectos temporales fijos


Podemos extender el modelo anterior para incluir efectos fijos que no se
relacionan con unidades sino con el tiempo. Es frecuente que estemos interesados en
algn fenmeno determinstico que afecta todas las unidades en un determinado
instante de tiempo. Por ejemplo, cambios en el salario mnimo una variable
determinstica afectan la participacin en el mercado laboral a travs de cambios en la
tasa de desempleo y, por lo tanto, los incentivos para entrar o salir del mercado laboral.

y it =i t x it ti

(7.19)

Para modelar este tipo de fenmeno se puede usar una dummy temporal, es deir,
que tome valor uno para el t=1 y 0 en todo otro instante, otra dummy con valor uno en
t=2 y 0 en todo otro instante, etc.
El modelo de la ecuacin (7.19) con efectos fijos individuales y temporales es
conocido como two-way fixed effects model. Se debe tener cuidado con poner T
dummies temporales y N dummies individuales porque produce colinealidad perfecta.

El estimador intergrupos
Retomemos el modelo original

y it =i x it ti

(7.20)

como sabemos de econometra bsica, el modelo economtrico es una descripcin de la


medias condicionales y por lo tanto la ecuacin (7.19) se cumple en las medias de cada
grupo, i . La figura 4 muestra, esquemticamente, el hecho que la regresin pasa por las
medias de cada grupo:

7.10
Figura 7.4

y
E[y1]

E[y2]
E[x 2]

E[x 1]

Entonces si en el modelo tomamos media con respecto al grupo tenemos:

Ei [ y it ]=E i [i x it it ]
y i =i xi i

(7.21)

y podemos computar el estimador de usando las siguientes sumas:


N

S = x i x x i x '
b
xx

i=1 j =1
N
T

(7.22)

S = x x y y '
b
xy

i=1 j =1

S xy
Consecuentemente el estimador es b = b .
S xx
Este estimador es llamado intergrupos (between groups) precisamente porque al
usar la media grupal elimina toda la variacin intragrupal. Note que la suma de
cuadrados Sxx en (7.22) es exactamente el trmino que habamos dejado sin identificar en
(7.16). Es decir, se cumple:
p
S xx
=S wxxS bxx

(7.23)

7.11
Relacin entre los estimadores totales, intra e intergrupos
Es importante entender qu tipo de estimacin es la que realiza cada uno de los
estimadores que hemos derivado. Hemos escrito el modelo de efectos fijos en tres
distintas formas:

a y it =i x it it
i
i
i
i
i
i
b y t y =[x t x ]t
c y i =i x i i

(7.24)

Obviamente (a) es el modelo pooled ; (b) es el modelo en desviaciones con


respecto a la media grupal (within), y (c) es el modelo en las medias grupales (between).
Recordemos que las sumas de cuadrados de cada especificacin son las que se muestran
en el Cuadro 7.1:

Cuadro 7.1
Comparacin de estimadores de datos de panel
Estimador

Sxx
N

Pooled

Sxy

x x x x '
i =1 j =1
N

Between

x ti x yit y '

i =1 j=1

Within

x ti x x it x '
i
t

i
t

x it x x it x '
i =1 j=1

i =1 j=1
T

x ti x i yti yi '
i =1 j =1
N

x ti x yit y '
i =1 j=1

Los tres estimadores son:


p 1 p
p =[S xx
] S xy
w
w 1 w
=[S xx ] S xy
b =[S bxx ]1 S bxy

(7.25)

Nte que como S xx =S xxS xx y S xy =S xy S xy , podemos escribir el estimador


pooled como una combinacin de los otros dos estimadores:

7.12
p =F w w [I F w ] b
S wxx
w
F = w
S xx S bxx

(7.26)

Este es un resultado muy importante: el estimador pooled es un promedio de


ponderado de los estimadores intra e intergrupos, cuya ponderacin depende de la
variacin de cada grupo. Ello implica:

Si no hay variacin intragrupal F w =0 , slo hay variacin intergrupos

Si no hay variacin intergrupal F b=0 , slo hay variacin intragrupos

Estimador de la varianza de los errores


Un elemento prctico que no hemos resuelto es de dnde se obtiene el estimador
de la varianza de los errores. En general, el estimador tradicional de econometra clsica
basado en los residuos es vlido, pero debe considerarse correctamente los grados de
libertad en este caso:
N

2
y it i x it

2= i =1

j=1

(7.27)

NT N K

Modelo de efectos aleatorios


En muchos casos existe una buena razn a priori para suponer que los efectos
son fijos, es decir, sin hacer un test que nos permita diludicar si es que el supuesto es
aceptado por los datos. Cuando se observan a todos los componentes de un grupo o una
muestra exahustiva de los mismos, entonces el efecto individual estar exactamente
identificado o se le aproximar bastante bien. Por ejemplo, en un experimento con un
grupo de control es fcil saber si un individuo recibi o no recibi el tratamiento. En tal
caso, es razonable suponer que las diferencias entre individuos son cambios
paramtricos.
Sin embargo, cuando slo se cuenta con una muestra de individuos de un grupo,
la identificacin del efecto individual de ese grupo ser dependiente de la conformacin
de dicha muestra. En tal caso es ms razonable considerar que el efecto individual es
slo una realizacin de una variable aleatoria, i.e., la conformacin de la muestra. Esto es
natural porque estamos tratando tanto con series de tiempo como porque la constante
refleja el promedio de shocks aleatorios que dan vida al error. Vamos a permitir que la
i
i
constante tenga un componente aleatorio: = . De ahi el nombre random effects.

7.13
y it =i x it ti

(7.28)

donde es una variable aleatoria. Supondremos que la estructura de la parte estocstica


es:

E[it ]=E [i ]=0


E[it ]2 = 2
E[i ]2 = 2
i

(7.29)

E[t ]=E[t t ]=E [ ]=0


La estructura en la ecuacin (7.29) es inocua excepto por el supuesto que

E[ , ]=0 , como veremos ms adelante.


Obviamente, ambos errores ( y ) se tratan como una entidad. Entonces, para
un grupo la i-sima unidad su matriz de covarianzas de los errores es:

2 2

...

2 2 ...
2

2
2

... 2

(7.30)

Como los errores entre las unidades no estn correlacionados entre s, la matriz
de covarianza de residuos de la muestra completa es:

0 ... 0
0 ... 0
V=

0 0 ...

(7.31)

Entonces, resulta natural tratar el problema como si fuese uno de


heterocedasticidad. Necesitamos construir el estimador de mnimos cuadrados
generalizados con esta estructura de estocasticidad. Recordemos que la tcnica de
mnimos cuadrados generalizados consiste en encontrar una transformacin del modelo
original tal que el modelo transformado sea homocedstico. Es decir, buscamos una
matriz de transformacin T tal que al aplicrsela al modelo haga que sea homocedstico:

Ty i =Tx i T i

(7.32)

E[T ]=0 y E[ T ' T ' ]= 2 T ' T . Imponiendo la restriccin que


T ' T =I , encontramos T y soluciomos el problema de heteocedasticidad. En nuestro

1/2
caso, se puede demostrar analticamente que basta con usar =I ii ' donde es:
T
donde

7.14
=1

T
2

(7.33)

y hacer la transformacin de las variables de acuerdo a

y it y i
x it x i

(7.34)

El resto del procedimiento es sencillo, encontrndose una expresin anloga a


(25) para el estimador pooled:

p =F * w w [I F * w ] b
w
S xx
*w
F =
2
w
S xx 2
S bxx
2
T

(7.35)

Notemos propiedades importantes del estimador de efectos aleatorios:


2

Si =0 es decir si no hay efectos aleatorios se obtiene el modelo pooled como


esperabamos por congruencia

Si T se obtiene el modelo de efectos fijos. Esto es muy razonable: si la muestra


es enorme, entonces ser representativa de la poblacin.

Algoritmo de estimacin del modelo de efectos aleatorios


El problema de la solucin anterior es que no es conocida. El siguiente
algoritmo permite obtener un estimador de sobre la base del estimador de las
varianzas de los shocks y del estimador de los parmetros de efectos fijos.
2

usando los residuos del estimador intragrupos usando LSDV.


1. Compute
2
2


usando el residuo del estimador intragrupos. De aqu se
T
obtiene el estimador despejando convenientemente. Ntese que esto slo se

2. Compute

puede hacer porque se ha supuesto que ambos shocks estn no correlacionados.

=
3. Calcule
4. Obtenga

T
2

y it y i y x it x i y haga la regresin

7.15
w , b
5. Compute los estimadores de efectos aleatorios p ,
Hay, sin embargo, un segundo supuesto implcito que es necesario tomar en
cuenta. Cuando modelamos el efecto aleatorio como:

y it =i x it ti

(7.36)

es indispensable que no exista correlacin entre el efecto aleatorio, i, y los regresores,


x it , pues de otro modo el estimador de efectos aleatorios es inconsistente.
Si este supuesto se cumple, el estimador es consistente y, como usa el estimador
de , es eficiente asintticamente (es decir, en muestra grande).

Paneles desbalanceados
Es comn que en la prctica falten observaciones de alguna variable para
unidades u observaciones. Estos se llaman paneles desbalanceados o incompletos. Este
no es un problema serio. Ntese que en tanto hayan suficientes observaciones para
computar la media grupal o la media temporal, la prdida de observaciones no afecta a
los estimadores de panel por la simple razn que stos usan siempre la informacin
disponible.
La incompletitud de una base de datos de panel s afecta los estimadores de las
varianzas de los errores y, en particular, los tests de hiptesis porque, al contar los
grados de libertad, no se puede suponer que haya NT observaciones sino que un
nmero menor. En este sentido, el estimador de la varianza de los residuos de la
ecuacin (26) debe ser corregido.

7.2

Modelacin con datos de panel

Resulta natural preguntarse qu tipo de modelo se debe usar. Primero, si es


imprescindible usar un modelo con efectos (ya sea fijos o aleatorios) o si es posible usar
un modelo pooled. Una vez descartada la segunda alternativa, uno puede preguntarse si
es necesario usar un modelo de efectos fijos o ste debe ser de efectos aleatorios. Una
manera de enfocar el problema es notar que cada tipo de modelo exige una distinta
relacin entre los regresores y el efecto fijo y derivar del modelo analtico la disciplina
necesaria para el modelo emprico. Es decir, si el modelo econmico es capaz de
identificar ex-ante el tipo de efecto individual, entonces ya tenemos la especificacin
necesaria y se puede testear si sta describe adecuadamente los datos o no.
La mayor parte de las veces, sin embargo, los modelos tericos no son capaces de
identificar el tipo de efecto individual que se debe usar en el trabajo emprico. Para ello,

7.16
se han diseado tests estadsticos que ayudan en la especificacin. En esta seccin
estudiamos los principales tests que nos permiten evaluar la aplicabilidad de los
distintos estimadores en modelos de panel.

Efectos fijos o aleatorios?


Resulta natural preguntarse cundo es preferible usar un modelo de efectos fijos
o de efectos aleatorios. Es posible usar el test de Hausman para inferir cul modelo usar.
La base del test es precisamente la restriccin del modelo de efectos aleatorios de que no
haya correlacin entre dichos efectos y los regresores.
Recordemos que si no hay correlacinentre efectos individuales y regresores el
estimador GLS es consistente y eficiente. Por otro lado, el estimador LSDV es consistente
pero ineficiente tanto si hay correlacin como si no la hay. As, las hiptesis del test
son:

Ho (si no hay correlacin): OLS y GLS son consistentes, pero OLS es ineficiente.

H1 (si hay correlacin): OLS es consistente, pero GLS es inconsistente.

El test entonces estudia la diferencia entre los estimadores de efectos fijos y


] un sencillo test de Wald. Recuerde que el test de Wald en
aleatorios usando [
RE
FE
forma genrica es:
2

(7.38)

aplicado a la diferencia entre estimadores, el problema es encontrar la varianza de


[ RE FE ] .

Var [ RE FE ]=Var [ RE ]Var [ FE ]2Cov [ FE , RE ]

(7.39)

La contribucin de Hausman es notar que un estimador eficiente es ortogonal a


su diferencia con respecto a un estimador ineficiente. Recuerde que dos variables
correlacionadas comparten informacin y, por lo tanto, se puede usar una para predecir
con menor incertidumbre la otra. As, si el estimador LSDV es eficiente no puede estar
RE FE ] pues, de otro modo,
correlacionado con su diferencia con otro estimador [
podramos usar esa informacin para construir un estimador an ms eficiente. Por ello,

0=Cov [ RE FE , FE ]=Cov [ FE , RE ]Var [ FE ]


FE , RE ]=Var [ FE ]
As, Cov [

(7.40)

7.17
. Entonces el test de Hausman
y por lo tanto Var [ RE FE ]=Var [ RE ]Var [ FE ]=
es directamente:
1 [ FE ] 2 K
[ FE ]'

(7.41)
i

donde k es el nmero de regresores en x t .

Tests de Poolability
Despus de haber estudiado si un modelo de efectos fijos es preferible a un
modelo de efectos aleatorios, resulta natural preguntarse si un modelo pooled es
preferible a un modelo de efectos aleatorios. El siguiente test llamado de Breusch y
Pagan se emplea comnmente (es un simple test de heterocedasticidad aplicado a datos
de panel).
i

Recordemos que el efecto aleatorio lo modelamos como = con E[ ]=0


. Entonces, si no hay efectos aleatorios, es obvio que ser constante. As, las hiptesis
del tests son:

H 0 : 2=0
H 1 : 2 0
i

t :
El test se aplica sobre los residuos del modelo pooled que denotamos por

[ ]
N

NT
2 N 1


i =1
N

i
t

i =1

1 21

(7.42)

{ }

i 2
t

i=1 i=1

Tests de igualdad de efectos fijos


Despus de haber estudiado si un modelo de efectos fijos es preferible a un
modelo de efectos aleatorios y si un modelo pooled es preferible a un modelo de efectos
aleatorios, resulta natural preguntarse si el modelo de efectos fijos es preferible a un
modelo pooled. El test es bastante sencillo:

H 0 : 1=2 =...=n
H 1 : 1 2 ...n
Este es un simple test de Chow, en el sentido que la H 0 seala un modelo
restringido y la alternativa un modelo sin restringir. Computamos la suma de residuos

7.18
al cuadrado de cada uno y formamos el test F:

SRCR SRCU / N 1
N 1
F
SRCU /T N1K
T N 1K

(7.43)

donde SRCR es la suma de residuos al cuadrado del modelo restringido y SRCU es la


suma de residuos al cuadrado del modelo no restringido.

7.3

Modelos de panel dinmicos


El modelo cannico o genrico de datos de panel dinmico tiene la siguiente

forma

y it =i x it y it 1 it

(7.44)
i

donde i =1, ... , N y t =1, ... ,T . La variable x t contiene todos los regresores estticos del
i

modelo, es decir, incluye x 1t , x 2t ,... , x kt e incorporamos y t1 para capturar la dinmica


del fenmeno. Seguimos suponiendo que el error it es homocedstico y no
correlacionado.
i

Consideremos que el error de (7.44) puede ser escrito como t = t :

y it = x it y ti 1ti

(7.45)

La existencia de efectos dinmicos complica el anlisis porque produce


i
i
correlacin entre regresor y residuo: si y t depende de i entonces y t1 tambin est
correlacionado con i . En este caso, el estimador pooled es inconsistente.
Consideremos el estimador de efectos fijos. La tcnica de tomar primeras
diferencias va a eliminar i pero no va a ser una solucin viable en este caso porque:

y t y = [ x t x ] [ y t 1 y t 1] t

= [ x t x ] [ y t 1 y t 1 ]t

(7.46)

pero

i
t1

t =2

y it1

T 1

est relacionado con t


porque, por construccin, y t1 est
i

i
correlacionado con
porque en este ltimo se incluye t 1 .

El estimador de efectos fijos ser inconsistente. El sesgo del estimador depender


del tamao de muestra. Cuando T tiende a , el sesgo desaparecer. Sin embargo en este

7.19
contexto T moderadamente alto an producir un estimador sesgado. Estudios con
datos artificiales seala que con muestras de tamao T=30, el estimador puede estar
sesgado en un 20% o ms.
El estimador de efectos aleatorios tambin ser sesgado. Recordemos que para
i
i
construir el estimador hay que cuasi-diferenciar de la forma y t y . As, nuevamente
T

1
i
i
i
i
y t1 = T 1 y t 1 estar relacionado con t por construccin.
t =2

sera:

i.

Una alternativa de solucin sera usar primeras diferencias y t y t 1 El modelo

y it y it 1 =i x it y it1it i x it 1 y it 2it 1
= [ x it x it 1] [ y it 1 y it2 ]it it 1

(7.47)

lo que elimina el efecto fijo. Pero va a haber correlacin entre regresor y t 1 y el


residuo. Para controlar esta problema la solucin sera usar variables instrumentales.

Estimador de Anderson y Hsiao (1981)


Usar y t 2 como un instrumento de y t 1 . Ntese que como y t2 e y t3
suceden antes que t y t1 entonces no hay correlacin entre instrumento y residuo.
Adems, hay covariacin obvia entre y t 2 y y t 1 . En este caso, el estimador de
variables instrumentales (Anderson y Hsiao, 1981) es consistente pero no
necesariamente eficiente. Este ltimo fenmeno se debe a que el estimador no hace uso
i
i
de la estructura caracterstica de los residuos, t t 1 .

Estimador de Arellano (1989)


El problema de eficiencia se reduce notablemente si se usa y t2 como un
instrumento de y t 1 , en vez de y t 2 . Ntese que como y t2 sucede antes que t
y t1 entonces no hay correlacin entre instrumento y residuo y, por otro lado, hay
covariacin entre y t2 y y t 1 .

Estimador de Arellano y Bond (1991)


Arellano y Bond (1991) desarrollan el estimador de momentos en el contexto de
i
i
i
panel data. Consideremos el modelo dinmico ms simple y t = y t 1t . Tomamos
primera diferencia:

7.20
y ti = y it 1 it

(7.48)

y nos concentramos en definir la matriz de instrumentos Z adecuados para estimar el


modelo:

Para t=3, que es el primer perodo que podemos estimar, los instrumentos
disponibles y adecuados son: y 1 .

Para t=4, los instrumentos disponibles y adecuados son:

y1 e y2 .

Para t=5, los instrumentos disponibles y adecuados son:

y 1 , y 2 e y 3.

etc.

Por lo tanto la matriz de instrumentos Z va creciendo con la muestra.


Premultipliquemos el modelo por Z :

Z ' y it =Z ' y it 1 Z ' it

(7.50)

Todo est OK, excepto que el residuo es ahora heterocedstico. De hecho, la


2
i
matriz de covarianza de t es de la forma G . Por lo tanto, usamos mnimos
cuadrados generalizados y obtenemos el estimador de Arellano y Bond consistente de
una etapa:
1

[ y it 1 ' Z W ' GW 1 Z ' y t1 ]


=

[ y

i
t 1

' Z W ' GW Z ' y t ]


1

(7.51)

El estimador eficiente, sin embargo, que corresponde al caso en que N con T


N

fijo en cuyo caso el estimador de W'GW es V n = Z ' i i ' Z . Entonces:


i=1

1
i
1
[ y it 1 ' Z V 1
=
n Z ' y t 1 ] [ y t 1 ' Z V n Z ' y t ]

7.4

(7.52)

Tests de races unitarias en panel

Esta es un rea reciente de tests y an son algo primitivos. Un primer test es el


de Bhargava, Franzini y Narendrathan (1982) que desarrollan una variacin del test de
Durbin-Watson para panel y que puede ser usada para testear si el AR(1) tiene una raz
unitaria.

7.21
El primer test de races unitarias propiemente es el de Levin y Lin (1992).
Consideremos el modelo cannico:

y it =z it i y it 1 it

(7.53)
i

El test asume que t es i.i.d. y que i=, es decir que el coeficiente de la variable
endgena rezagada es igual en todos los grupos. Esto es equivalente a suponer que la
dinmica es la misma en todos los grupos. La hiptesis nula es que existe una raz
unitaria:

H0 : =1
H1: 1

h t ,s =z t

Definimos

ztzt zs ,
i =1

ti = it h t ,s is ,

i =1

i
y = y h t , s y s entonces Levin y Lin (1992) encuentran la distribucin de:
i
t

i
t

i =1

1
1
i
i

y t 1 t
N i=1 T i=1

N T 1=
N
T
1
1
y i y i
N i=1 T 2 i =1 t 1 t 1

(7.54)

y del estadstico

1
t =

1
NT

y it 1 y it1
i =1 i =1

(7.55)

it 1 it 1
i=1 i=1

Al igual que en el caso de las series de tiempo univariadas (p.e., test de DickeyFuller), las distribuciones de (72) y (73) dependen de lo que contenga z (nada, constante,
un shock individual, o un shock individual y una tendencia lineal). As:

7.22
Cuadro 7.2

z ti
0
1

N 0,2
N T 1

t N 0,1

N 0,2
N T 1

t N 0,1

0,51

t 1.875N N 0,1

N T 13
N N 5 1.25

(i, t)

0,2895

t 3.75N N 0,1

488

N [ T 17.5
] N 112 277

Nota: significa convergencia dbil a.

Las distribuciones son obtenidas siguiendo un proceso de convergencia


secuencial, es decir, primero se hace T y luego N . Esto es una debilidad si la
muestra no es grande en alguna dimensin.
Harris y Tzavalis (1999) derivan la distribucin cuando T es fijo y N para los
siguientes casos:
Cuadro 7.3

z ti

0,2

N
N T 1
T T 1
i
(i, t)

N 0,
N T 1
T 1

N T 1

317T 220T17
5T 1T 13

15
15193T 2 728T 1147
N 0,
2T 2
112T 23 T 2

Nota: significa convergencia dbil a.


O' Connell (1998) demuestra que estos tests sufren prdida de poder y distorsin
de tamao cuando hay correlacin contempornea entre los i. El problema aqu es
complejo porque envuelve entender qu es y cmo opera la correlacin espacial.

7.23
Im, Pesaran y Shin (1997) proponen un test que (1) evita suponer que i=, y (2)
es menos complejo de estudiar. El test se basa en usar un promedio de los tests ADF
hechos para cada cross-section de modo independiente:
pi

= ij t j t
i
t

(7.56)

j=1

sustituyendo en la ecuacin (71)


pi

i
t

i
t

y =z i y

i
t 1

ij y ti j it

(7.57)

j =1

La hiptesis nula es que cada i es una raz unitaria:

H0 : i = 1 para todos los i


H1 : i < 1 para al menos un i

El estadstico de Im, Pesaran, y Shin, llamado t bar, es el promedio de los N ttests de la ecuacin (75):
N

t =

1
t
N i=1

(7.58)

La distribucin del estadstico t bar no es fcil de computar porque depende del


valor promedio y la varianza det bar que son desconocidas. Im, Pesaran, y Shin
encuentran los valores por simulacin con datos artificiales. En tal caso:

N t

N
1
E [t i | i =1]
N i=1
N

1
V [t i | i =1]
N i=1

N 0,1

(7.59)

La distribucin de este test se obtiene, nuevamente, siguiendo el proceso de


convergencia secuencial, es decir, primero se hace T y luego N, pero tiene la
restriccin adicional que N/T0 . Esto es una debilidad si la muestra no es grande en
alguna dimensin o si N no es relativamente pequeo.
Maddala y Wu (1999) y Choi (2001) proponen hacer tests de races unitarias en
cada cross-section y computar el valor p en cada caso. El siguiente estadstico:

7.24
N

P =2 ln p i 2N

(7.60)

i =1

Las ventajas de este estimador son (1) no requiere un panel balanceado, (2) los
largos de rezagos pueden diferir entre cross-section, (3) no requiere i=. Las
desventajas es que los valores p tienen que ser obtenidos por simulacin de Montecarlo
en cada caso.

También podría gustarte