Está en la página 1de 30

Econometra Fcil

Una gua simple a las complejidades del anlisis de regresin

Matas Cabello

2
Edicin preliminar.1
Fecha: 7 de marzo de 2016

Atencin: Si no imprime en formato duplex (por ambas caras), procure nunca ser

descubierto por el autor de este libro. Cuidemos al planeta ;)

1 Agradezco

a Mathias Legrand por su maravilloso Legrand Orange Book template, el cual he utilizado
para redactar el libro. Tambin agradezco a la comunidad de stackexchange.com por resolver tantas
dudas de programacin de manera desinteresada. Agradezco a los desarrolladores de LATEX y a los
desarrolladores de GRETL por entregarnos herramientas tan valiosas para la docencia e investigacin sin
ningn inters econmico. Como no, tambin agradezco a mis alumnos y ayudantes por comentarios y
correcciones a ediciones anteriores.

Introduccin
La econometra (textualmente medicin econmica) corresponde a un conjunto de mtodos estadsticos empleados para analizar los fenmenos que estudian los
economistas. Cules son estos fenmenos? Podramos pensar que son problemas microeconmicos relacionados con la empresa, los consumidores y los mercados, o con
problemas de la macroeconoma como los ciclos econmicos, el desempleo, la inflacin,
la inequidad y la eliminacin de la pobreza. Si bien esta nocin es correcta, la verdad es
que los economistas claramente ya se aburrieron de estudiar estos temas y han expandido
el abanico para incluir una serie de curiosidades relacionados con medio ambiente,
psicologa, cultura, salud, felicidad, racismo, conflictos diplomticos y relaciones de
pareja, por dar un par de ejemplos. Es decir, hoy la economa como disciplina es, en las
palabras irnicas del economista surcoreano Ha-Joon Chang, la explicacin definitiva
de la vida, el universo y de todo lo que existe.2 Aunque esta ltima descripcin es un
tanto exagerada, el punto es que son pocos los temas que no se estudien dentro de la
economa.
Cmo se explica que una disciplina originalmente acotada se transformara en un
campo de estudio tan extensivo? Parte de la respuesta se encuentra en la enorme versatilidad de las herramientas que utilizan los economistas, dentro de las cuales se encuentran,
sin duda, la tcnicas economtricas que se presentan en este libro.
De qu se trata, exactamente, la econometra? Al menos en un libro introductorio
como este, la econometra es sinnimo del anlisis de regresin mltiple. La idea
bsica sobre la cul se construye dicho anlisis es que en el mundo existen procesos
(denotemos a uno de ellos por y), los cuales son consecuencia de un nmero de causales
(llamemos a dos de ellas x y z). Matemticamente:
y = f (x, z, . . .)

(1)

Es decir, y es una funcin de x, z y otras variables explicativas. Cmo cambia y si


aumentamos x, o si disminuimos z, o si tanto x como z toman conjuntamente los valores
3 y 5.5 respectivamente? Este es el tipo de preguntas que intenta responder la econometra mediante el anlisis de regresin. La idea bsica es tan general que se aplica a un
sinnmero de problemas prcticos. He a continuacin un par de ejemplos.
Ganar dinero: En los negocios es importante saber cul es la curva de demanda
que tienen los productos ofertados. Si aumento el precio (x) del yoghurt en 10 %,
2 Esta

es una frase que Chang a repetido en varias conferencias. Claramente se encuentra parafraseando
a The Hitchhikers Guide to the Galaxy de Douglas Adam.

4
pero aumento tambin la visibilidad del producto (z) de 3 a 6, aumenta o disminuye
la cantidad vendida (y)? En cunto? Qu tan seguro estoy de mis resultados? Las
tcnicas economtricas sirven para abordar este tipo de interrogantes. Por este motivo el
mercado laboral ve con muy buenos ojos a profesionales con manejo avanzado de estas
tcnicas. Los bancos, por ejemplo, deben decidir a quin ofrecer sus crditos y bajo
qu condiciones. Para ello deben calcular el perfil de riesgo (y) del cliente, en funcin
de diversas variables explicativas (x, z, . . .) como el nivel de ingreso, la edad, el grado
acadmico, el nmero de hijos, etc. Los ejecutivos del banco muchas veces se rigen
por un clculo mgico que les entrega un computador. Bien, quien dise ese clculo
mgico es un econometrista (y si sabe hacer bien su trabajo puede ganar mucho, mucho
dinero).
Para hacer anlisis de regresin es fundamental tener acceso a datos. Mientras
ms datos hayan a disposicin, ms valioso es el conocimiento de las herramientas
estadsticas para trabajar con ellos. Como nos encontramos en la era de la informacin
y los datos guardados por compaas e instituciones crecen de manera exponencial, es
fcil imaginar que el dominio de la econometra ir ganando importancia para poder
hacer negocios exitosos.
Para ilustrar la prevalencia de la econometra en nuestras vidas, piense que cada
vez que a usted le piden su nmero de identificacin en un supermercado, o le ofrecen
pagar con una tarjeta de la tienda para obtener un descuento, sus transacciones quedan
registradas en la empresa. Con qu objetivo? Si se tienen los conocimientos economtricos indicados, la informacin registrada sirve para explorar muchas interrogantes.
Por dar un ejemplo, si y es el consumo de caf de una cliente de supermercado (de la
cual tenemos registrado cul ha sido su patrn de comportamiento en el pasado, al igual
que el de clientes similares) podramos estudiar el valor esperado que debiera tomar su
consumo (y) si, digamos, le gusta el chocolate (x) y se publicita el caf con la imagen un
hombre semi desnudo tomando caf con un chocolate en la cama (z). No hay que ser un
economista para saber que la publicidad aumenta las ventas. La pregunta de oro, que
slo se puede responder con herramientas estadsticas adecuadas y con un sabio uso de
ellas, es en cunto.
Comprender el mundo: As como el estudio de las funciones del tipo (1) sirven
para aumentar las ventas y los ingresos de una empresa, tambin sirven para entender
una serie de fenmenos que nos rodean. Una pregunta abordada recientemente en una
prestigiosa revista econmica es: Por qu algunos pases son ms machistas que otros?
Hoy se sabe que las sociedades primitivas (al contrario de lo que muestran las pelculas)
no eran machistas, sino igualitarias o incluso matriarcales. El estudio economtrico
revel que culturas que experimentaron antes la adopcin del caballo y del arado desarrollaron una diferenciacin de sexo mayor y hoy son sociedades con menor participacin
de la mujer en el mundo laboral, poltico y administrativo.3
Por qu son algunas personas ms felices que otras? Por qu existe el racismo en
la mente de unos y no de otros? Qu hay detrs de los gustos de las personas? Qu
3 Para

quien se interese en el estudio: Alberto Alesina, Paola Giuliano, Nathan Nunn, 2013. On the
Origins of Gender Roles: Women and the Plough, The Quarterly Journal of Economics, vol. 128(2),
pages 469-530.

5
hace que algunos pases sean ricos y otros pobres? Todas estas preguntas y muchas otras
pueden ser abordadas con las tcnicas utilizadas en la econometra.
Pronosticar: Si conocemos la forma funcional f () que da origen a y, entonces
basta con conocer qu valores tomarn las variables explicativas x, z, . . . para saber
qu valor tomar y. Por ejemplo, si y corresponde a los milmetros cbicos de lluvia
cados hoy, mientras x, z, . . . corresponden al conjunto de variables explicativas medidas
ayer (presin atmosfrica, temperatura del ocano, humedad, etc.), entonces conocer la
relacin f () nos permite pronosticar la lluvia de maana en funcin de las variables
explicativas de hoy.
Modelos similares pueden ser aplicados para predecir las fluctuaciones cclicas de la
economa, el numero de clientes que tendr una empresa el prximo ao, el candidato
presidencial que ser elegido en un pas o si un deudor ser capaz de pagar sus deudas.
En el peor de los casos y al estilo de las novelas de George Orwell, grupos de poder
podran hacer uso de cmo los celulares y computadores graban todo lo que hacemos,
con quien nos relacionamos y cmo pensamos. A la luz del alcance de estas herramientas, cabe preguntarse: cunta informacin sobre nuestra vida privada debemos
permitir recopilar a los servicios de inteligencia o conglomerados econmicos, si esta
informacin puede ser utilizada para pronosticar nuestro comportamiento, para aplacar
movimientos polticos que pudieran afectar a los intereses establecidos, o simplemente
ser vendida a empresas que hacen uso comercial de nuestra vida privada? Naturalmente,
las predicciones son imprecisas, pero mejoran su calidad a medida que tenemos ms
datos para realizarlas, y vaya que crecen las bases de datos en estos das.
Ayudar al mundo: Por fortuna las tcnicas empleadas en la econometra no slo
se utilizan para aumentar utilidades, hipnotizar a los clientes o mantener control total
de la poblacin al estilo orweliano. Muchos avances en ciencia y tecnologa tienen su
base en el anlisis de regresin mltiple. Dentro de las aplicaciones ms destacables
cabe mencionar a la medicina. Cul es la efectividad, por ejemplo, de un medicamento
para la prevencin de infartos cardiacos? La probabilidad de tener un infarto podra ser
y, la dosis del medicamento x y otras caractersticas del paciente z. Se podra estudiar la
relacin lineal
y = f (x, z, . . .) = 1 + 2 x + 3 z

(2)

Si 2 es negativo, entonces el medicamento surge efecto. La magnitud de 2 nos interesa


para saber cun efectivo es el medicamento. Tambin ser de gran inters la seguridad
que se tiene respecto del valor estimado de 2 , tema que ser tratado con profundidad a
lo largo del texto.
De forma similar podemos disear muchas otras preguntas de utilidad para la humanidad Cul es el efecto de un programa de capacitacin para la reduccin de la extrema
pobreza? Cul es el efecto de suplementar la dieta de un lactante sobre su desarrollo
cerebral? Cules son las claves para evitar las guerras, el egosmo y fanatismo de las
masas? La idea de este libro es presentar las herramientas estadsticas necesarias para
abordar todas estas preguntas.

Captulo 1
Mnimos cuadrados ordinarios (MCO)
Cundo ser econmicamente viable la energa solar?
Hoy el mundo se abastece principalmente de fuentes de energa fsil, no renovable
y altamente contaminante. Alternativas renovables de energa con una baja huella de
carbono, como la energa solar fotovoltaica, tienen un uso limitado debido a un alto
precio de produccin y ciertamente existen nicamente debido al aporte cuantioso de
recursos por parte de un nmero limitado de estados (principalmente en Europa). Para
poder competir de forma independiente con fuentes tradicionales, el costo de la energa
fotovoltaica no debiera estar por sobre, digamos, 1 US$/watt-peak. Ser algn da esta
tecnologa competitiva en el mercado de energa?
En el desarrollo de toda tecnologa
observamos lo que se denomina tcni- Figura 1.1: Precio vs. experiencia en enercamente una curva de aprendizaje: a
ga solar
medida que ms uso se hace de ella,
13
ms eficiente se vuelve. Los paneles fo1998
1999
12
tovoltaicos no son la excepcin. La fi2000
2001
2002
11
gura 1.1 muestra la evolucin del pre2003
10
cio medio por watt en EE.UU. desde
2004
2007
2006
2005
2008
9
1998, con el costo de un watt en el
2009
8
eje vertical y la cantidad acumulada de
2010
7
watts producidos desde los inicios de la
2011
6
implementacin de la tecnologa en el
2012
5
pas. Resulta evidente que a mayor can4
tidad de Watts producidos baja el costo
0
2,000
4,000
8,000
6,000
de produccin. Es decir, existe una coProduccin acumulada [MW]
rrelacin negativa entre amabas variables.
Costo [$/Wp]

1.1

La figura 1.2 permite ver esta relacin de forma ms clara. En l se presenta el


logaritmo del costo en el eje vertical y el logaritmo de la produccin acumulada en el
eje horizontal, los cuales se relacionan de una forma aproximadamente lineal.

Captulo 1. Mnimos cuadrados ordinarios (MCO)

Podramos aproximar esta ltima relacin negativa con una funcin del tipo
y

= 1 + 2

Costo (log)

x
Produccin (log)

(1.1)

Otros factores

Costo [ln($/Wp)]

donde el logaritmo de la produccin acumulada es la variable explicativa o independiente (la llamaremos simplemente x), y el logaritmo del costo por watt es la
variable explicada o dependiente (la cual denotaremos con y).
Aquello que se escapa a la relacin
Figura 1.2: Relacin lineal en logaritmos lineal entre x e y se captura en u, denominado error. Como vemos en la figura,
2,6
en torno al ao 2006 el precio de la ener1998
1999
2000
ga vio un aumento transitorio, el cual se
20012002
2,4
debi a un alza en el precio del polisili2003
2004 2007
2006
2005
cio, una materia prima fundamental para
2,2
2008
2009
la elaboracin de paneles solares. En la
2
2010
simplificacin de la realidad que supone
2011
(1.1) este fenmeno se considera una de
1,8
las muchas variables que podran entrar en
2012
el error u. Si el precio del policilicio fuera
1,6
tan importante explicando el precio como
2
4
8
10
6
lo es el aprendizaje a lo largo de la curva,
Produccin acumulada [ln(MW)]
entonces tendra poco sentido tratarlo como error y en lugar de eso debiera figurar
como otra variable explicativa. Pero si el efecto se neutraliza en el tiempo, entonces s
puede tener sentido asumir que se trata de un error e incluso podramos asumir que
este tiene valor esperado de cero sobre todas las unidades i analizadas,
E[ui ] = 0.

(1.2)

Es decir, cada ao, que denotaremos con i, se espera ex ante que todos los factores
que se incluyen en el error sean cero (aunque ex post ui siempre ser negativo o positivo).
Suponer que el error tiene media cero nos sirve para hacer pronsticos, pues considerando (1.2) y suponiendo que est en nuestras manos (o de los estados financistas)
decidir cunto se invertir en energa solar, tenemos
E[yi ] = 1 + 2 xi .

(1.3)

En palabras, el valor esperado del precio de energa solar, por ejemplo en el ao


2018, depende slo de cunta energa se decidi producir con paneles fotovoltaicos
hasta esa fecha. As, dependiendo de cules sean los valores de 1 y 2 se puede indicar
cunto esfuerzo hay que destinar a la produccin de energa solar para que esta sea
finalmente competitiva.
La importancia de 1 y 2 queda clara en la figura 1.3. Ah se muestra que para
alcanzar una precio competitivo de 1 US$ por watt-peak se necesitan ya sea aproximadamente 1 milln de megawatt (109 ) o 100 millones de megawatt (1011 ), una suma
bastante distinta!

1.2 Buscando el mejor ajuste: clculo del estimador MCO

Costo [$/Wp, escala log]

En definitiva, nuestra funcin de pro- Figura 1.3: Cundo se


nstico (o funcin de ajuste y)
va
US$/Wp?
a depender de qu valores estimemos
para los coeficientes de (1.1). Denotaremos con 1 y 2 a los coeficien100,9
tes estimados, para as distinguirlos de
los parmetros reales 1 y 2 , cu100,6
yo valor nos gustara saber. Si logramos una buena estimacin de los coe100,3
ficientes y si el supuesto de media cero de los errores se cumple, entonces
100
podremos hacer un pronstico acertado.
1
3
5

9
alcanzar

y = 2,8 0,11x
y = 2,8 0,13x

10
10
107
109
1011
10
Produccin acumulada [MW, escala log]

1.2

Buscando el mejor ajuste:


clculo del estimador MCO
En anlisis de regresin contempla un gama de estimadores (mtodos de estimacin) para los coeficientes 1 y 2 . El ms popular de ellos es el mtodo de mnimos
cuadrados ordinarios (MCO), tambin llamado mtodo mnimo cuadrtico ordinario. Cmo se estiman 1 y 2 con MCO?
El punto de partida es una base de datos con las variables que queremos relacionar.
Podemos ordenarla como en la tabla 1.1a. Cada fila i de la tabla se denomina una
observacin y el conjunto de las n = 13 observaciones se denomina muestra. La
produccin acumulada en MW y el costo por Wp son las variables que vamos a relacionar.
El estimador MCO fue diseado para estimar relaciones lineales, es decir, rectas (bidimensionales o multidimensionales). Como vemos en la figura 1.1, la relacin original
entre las variables es no lineal. Si este es el caso usualmente podemos efectuar alguna
alteracin a los datos o al modelo para lograr la linealidad (ms adelante se discute en
detalle qu transformaciones a los datos pueden ser tiles para lograr linealidad en casos
particulares). En nuestro ejemplo bast con tomar logaritmos de ambas variables para
obtener una relacin aproximadamente lineal.
Una vez que ya contamos con las variables que se relacionan linealmente entra en
juego el mtodo MCO. Asumimos que entre ellas existe una relacin de la forma
yi = 1 + 2 xi + ui

E[ui ] = 0 i

(1.4)

y queremos encontrar con los datos de la muestra una funcin de ajuste,


yi = 1 + 2 xi ,

(1.5)

La distincin entre (1.4) y (1.5) es importante. (1.4) representa a la realidad que da


origen a los datos observados, pero que no es observable en su totalidad, pues slo

Captulo 1. Mnimos cuadrados ordinarios (MCO)

10

Tabla 1.1: Precio de energa solar fotovoltaica: Ajuste lineal para la curva de aprendizaje
(a) Base cruda
Ao

1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012

(b) Transformacin
y
x

Prod. acum.

Costo

(# Obs.)

[MW]

[$/Wp]

(Log. prod. acum.)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

11.3
14.2
18.1
29.4
52.1
97.5
155.2
234.4
339
508.1
817.1
1251.8
2164.5
3978.2
6742

11.99
11.92
11.21
10.82
10.78
9.79
9.16
8.79
8.85
8.95
8.6
8.21
6.97
6.19
5.31

2.42
2.65
2.9
3.38
3.95
4.58
5.04
5.46
5.83
6.23
6.71
7.13
7.68
8.29
8.82

(c) Ajuste
y = 2,8 0,11x

u = y y

(Log. costo)

(Ajuste lineal)

(Residuo)

2.48
2.48
2.42
2.38
2.38
2.28
2.21
2.17
2.18
2.19
2.15
2.11
1.94
1.82
1.67

2.52
2.49
2.46
2.41
2.35
2.28
2.23
2.19
2.15
2.1
2.05
2
1.94
1.88
1.82

-0.04
-0.01
-0.04
-0.03
0.03
0
-0.02
-0.02
0.03
0.09
0.1
0.11
0
-0.06
-0.15

Nota: Precio en dlares del 2012. Fuente: Barbose, Galen, Nam Darghouth, Samantha Weaver, and Ryan Wiser. 2013. Tracking
the Sun VI: An Historical Summary of the Installed Price of Photovoltaics in the United States from 1998 to 2012.

disponemos de x e y en nuestra base de datos, siendo 1 y 2 y u desconocidos. En


econometra se utilizan dos denominaciones para referirse a esta realidad: poblacin o proceso generador de datos (PGD). En (1.5) lo que se representa es el
modelo estimado, cuyos coeficientes estimados 1 , 2 pueden diferir de sus contrapartes
poblacionales 1 y 2 (en la figura 1.3 se presentan dos ajustes distintos, basados en
mtodos de estimacin diferentes, pero el PGD que dio origen a los datos sigue siendo
el mismo en ambos casos).
Definimos como residuo a la diferencia entre cada valor observado de la variable
dependiente y su valor pronosticado por la funcin de ajuste:
ui = yi yi
As, una representacin del modelo que queremos estimar es
yi = 1 + 2 xi +ui .
| {z }
yi

La pregunta ahora es: dadas las cantidades que s podemos observar (x e y), cmo
elegimos valores de 1 y 2 con el mejor ajuste a los datos observados? Una respuesta
natural es buscar valores para los coeficientes que minimicen la distancia entre la recta
estimada y la ubicacin de los datos en el plano (x,y). Pero existen mltiples formas de
minimizar esta distancia, siendo el mtodo MCO una forma particular.
El mtodo de mnimos cuadrados ordinarios lleva su nombre debido a que la funcin
objetivo del problema de optimizacin a resolver es la suma de los residuos cuadrados
u2i . Matemticamente buscamos:
n
o
n
n
n

1 , 2 = arg min u2i


con
(1.6)
u2i = (yi 1 2xi)2
1 ,2

i=1

i=1

i=1

1.2 Buscando el mejor ajuste: clculo del estimador MCO

11

Note que existe una gran diferencia entre residuo, que es de la estimacin, y error que
es de la poblacin. No podemos minimizar los errores ui , puesto que son inobservables.
Sin embargo, siempre podremos observar el residuo (ui ): la diferencia entre nuestra recta
estimada (yi = 1 + 2 xi ) y el valor observado de yi .
Si probramos con distintos valores aleatorios para los coeficientes 1 y 2 , encontraramos que algunas combinaciones arrojaran una suma de residuos cuadrados mayores
a las de otras combinaciones, tal cual se presenta en la figura 1.4.
Cules son los valores exactos de 1 y 2 que minimizan la suma de residuos
cuadrados? Una forma de obtener la solucin sera evaluar
ni=1 u2i
=0
2

ni=1 u2i
=0
1

y resolver el sistema de ecuaciones resultante de ambas condiciones de primer orden.

u2i

Ac se optar por una solucin ms


general, la que servir tambin si se de- Figura 1.4: u2i para distintas combinacioben estimar ms de dos parmetros. Esto
nes de 1 y 2
puede resultar til si, retomando el ejemplo anterior, usted cuenta con otros indicadores numricos que debieran influir
en el precio de la energa solar como, por
15
ejemplo, el precio del polisilicio.
En trminos generales, cuando contamos
14
con k variables explicativas (denomina13
dos regresores) y n observaciones, po2
0
1
demos expresar el modelo de la siguiente
2
0
3
2
manera:
1
yi = 1 + 2 x2,i + . . . + k xk,i + ui
(1.7)

i = 1, ..., n

Como dicha relacin se cumple para toda observacin i (es decir, para cada ao de
nuestro ejemplo), tambin podemos representar (1.7) con vectores:
y = 1 1 + 2 x2 + 3 x3 + ... + k xk + u ,
(n1)

(n1)

(n1)

cuyos elementos son

y1
1
x2,1
y2 1
x2,2

.. = .. 1 + ..
. .
.
yn
1
x2,n

(n1)

(n1)

2 + . . . +

xk,1
xk,2
..
.
xk,n

(n1)


k +

u1
u2
..
.

un

Las variables explicativas pueden ser agrupadas en una sola matriz de dimensin n k,

Captulo 1. Mnimos cuadrados ordinarios (MCO)

12

la que denotaremos con X.1 De igual forma, los coeficientes de regresin pueden ser
agrupados en un solo vector de dimensin k 1:

y1
y2
..
.

yn
| {z }

1 x2,1 x3,1
1 x2,2 x3,2
..
..
..
.
.
.
1 x2,n x3,n
{z
X


xk,1

xk,2

.
..
. ..
xk,n
} |

1
2
..
.

k
{z

u1
u2
..
.

un
} | {z }
u

As, la forma matricial de representar (1.7) es simplemente


y = X + u
(n1)

(nk)(k1)

(E)

(n1)

Pese a ser un escalar, la sumatoria de residuos cuadrados tambin tiene una representacin matricial. Esta es:
n

u2i = u0u = (y X )0(y X )

i=1




0
0

= y (X )
y X



= y0 0 X 0 y X

aplicando (A + B)0 = A0 + B0
aplicando (AB)0 = B0 A0

= y0 y y0 X 0 X 0 y + 0 X 0 X
= y0 y 2y0 X + 0 X 0 X
En la ltima equidad hace uso de 0 X 0 y = ( 0 X 0 y)0 = y0 X , lo que se cumple debido a
que un escalar es igual a su transpuesta.
La idea ahora es encontrar un vector que contenga los coeficientes que minimicen
esta expresin. Es decir, buscamos
h
i
0
0
0
0 0

= arg min[u u]
= arg min y y 2y X + X X

La minimizacin se puede obtener derivando u0 u respecto a cada uno de los k


coeficientes contenidos en , igualando a cero y resolviendo el sistema de k ecuaciones
con k incgnitas. Por fortuna esta condicin de primer orden tambin se obtiene con
ayuda de un par de reglas de diferenciacin matricial. Primero notemos que la derivada
de y0 y respecto a debe ser cero, de modo que
u0 u
y0 X 0 X 0 X
= 2
+
.



1 Para

X utilizaremos notacin habitual en econometra: xc, f con c = columna y f = fila. Esta forma
discrepa de la notacin habitual del lgebra donde los elementos matriciales se suelen representar en el
formato a f ,c .

1.2 Buscando el mejor ajuste: clculo del estimador MCO

13

Luego, si consideramos al vector de 1 k, a = y0 X, podemos aplicar la regla general


a(1k) z(k1)
= a0(1k) (la demostracin se remite al apndice), lo que equivale a 2X 0 y
z(k1)
para el primer sumando.
El segundo trmino consta de una derivada un poco ms compleja. Primero notaremos
que el trmino X 0 X es una matriz simtrica:

x1,1 x1,2 x1,n x1,1 x2,1 xk,1


x2,1 x2,2 x2,n x1,2 x2,2 xk,2

X 0 X = ..
.. . .
.. ..
.. . .
..
.
. . .
. .
.
.
xk,1 xk,2 xk,n x1,n x2,n xk,n
n 2

i=1 x1,i
ni=1 x1,i x2,i ni=1 x1,i xk,i
2
n x2,i x1,i
ni=1 x2,i xk,i
ni=1 x2,i
i=1

..
..
..
..

.
.
.
.
ni=1 xk,i x1,i ni=1 xk,i x2,i

2
ni=1 xk,i

Siendo X 0 X simtrica (note que ni=1 x1,i x2,i = ni=1 x2,i x1,i , etc.) podemos hacer uso de
0
la regla z zAz = 2Az, vlida siempre y cuando Akk sea simtrica (ver demostracin en
el apndice).
Con la derivada resuelta, slo queda despejar el vector de
u0 u
= 2X 0 y + 2X 0 X = 0

k1

(1.8)

para obtener el vector de coeficientes estimados resultante del sistema de k ecuaciones


que representa (1.8). La solucin es:
Frmula: Estimador mnimo cuadrtico ordinario (MCO)

1

= ... = (X 0 X)1 X 0 y
k

(1.9)

Un pregunta importante en la prctica es: Bajo qu condiciones existe una solucin


(1.9) para ?
X 0 y siempre existe, pero la existencia de (X 0 X)1 est garantizada slo si es que se
cumple el siguiente supuesto.
Supuesto 1 (S1): La matriz X tiene rango completo.

rango[X] = k

(S1)

Para que (S1) se cumpla, se debe tener (i) n k y (ii) ausencia de multicolinealidad
perfecta (ninguna columna de X es linealmente dependiente de otra(s) columna(s)
de la matriz).

14

Captulo 1. Mnimos cuadrados ordinarios (MCO)

Dicho de otro modo, un nico conjunto de parmetros es el que minimiza la suma


de cuadrados ordinarios siempre y cuando se cumpla S1.

GRETL: Cmo hacer todo esto?


Abrir una base de datos. Para abrir los datos en gretl puede copiar la tabla 1.1a y pegarlos en excel con el siguiente formato (nombres en primera fila, sin espacios ni caracteres
conflictivos):

Grabe la base de datos, por ejemplo, como C:\SOLAR.xlsx. Abra gretl y pinche el segundo
cono de abajo a la izquierda para abrir un guin nuevo. En l escriba el siguiente comando:
open "C:\SOLAR.xlsx"
Para ejecutarlo presione Ctrl+r.
Graficar variables. Pueden utilizarse los comandos gnuplot o scatters:
gnuplot Costo ProdAcum --output=display --suppress-fitted
scatters Costo; ProdAcum --output=display
Crear una variable. El comando series sirve para crear una nueva variable. Por ejemplo,
los logaritmos se crean con:
series l_Costo = ln(Costo)
series l_ProdAcum = ln(ProdAcum)
Regresin MCO. Por su siglas en ingls (ordinary least squares), el comando en gretl es ols.
Por ejemplo:
ols l_Costo const l_ProdAcum
Note que const representa a la constante (un vector con unos).
Ajuste y residuos. Tras efectuar el comando ols es posible acceder al ajuste y a los residuos
mediante:
series Ajuste = $yhat
series Residuos = $uhat
Incluya todos estos comandos a su guin y ejectelo.

1.3 Cmo afecta la inequidad el desarrollo econmico de los pases?


15

1.3

Cmo afecta la inequidad el desarrollo econmico de los


pases?
En estos das ha surgido un debate en torno a los efectos que tiene la inequidad
sobre el desarrollo econmico de las naciones. La visin tradicional, basada en modelos
tericos de cmo afectan los impuestos al crecimiento econmico, es que la inequidad
no debe ser combatida con redistribucin. Algunos economistas, sin embargo, arguyen
que la relacin es ms compleja, especialmente en el largo plazo, y que no hay que sacar
conclusiones antes de verificar qu dicen los datos al respecto.
Cmo podramos verificar la relacin largoplacista que existe entre inequidad y desarrollo econmico?
Una alternativa simple
sera revisar cmo se relaciona el nivel de inequidad en,
por ejemplo, 1950 con el ingreso per cpita actual. En la
tabla 1.2 se presentan datos
de los pocos pases para los
cuales se tiene dicha informacin y en la figura 1.5 se
presenta grficamente la relacin entre ambas variables.
Al parecer, podramos
postular que cada pas i =
1, ..., 13 obedece a una relacin lineal entre ambas variables de la forma

Tabla 1.2: Base de datos con dos regresores

Argentina
Australia
Canad
Dinamarca
Francia
Alemania
India
Japn
Malasia
Noruega
Singapur
Suecia
Suiza

x2

x3

(# Obs.)

(Inequidad en 1950)

(Ingreso en 1950)

(Ingreso actual)

1
2
3
4
5
6
7
8
9
10
11
12
13

2.50
1.80
1.80
1.99
1.80
2.23
2.79
1.71
2.19
1.83
2.17
1.72
2.09

4934.4
7276.4
7438.6
6581.6
4901.4
3988.3
638.2
2006.0
1405.1
5361.5
2290.5
6563.0
9354.4

9527.6
24805.4
24886.0
24233.8
21712.1
20209.6
2887.2
21832.7
9527.3
28030.0
26189.6
24661.9
24605.5

Nota: Las variables son promedios de 10 aos en torno a la fecha indicada. El ndice
de inequidad es el coeficiente inverso de Pareto-Lorenz de la Top Income Database.
El PIB real per cpita es del Maddison Proyect.

Nivel actual de ingreso = 1 + 2 Inequidad en 1950 + Otros factores,


y

(1.10)

donde el ndice de inequidad es la variable explicativa o regresor (x), y el nivel de


ingreso per cpita, es la variable dependiente (y). Aquello que se escapa a la relacin
lineal entre x e y se captura en el error (u). Dentro del error podran estar, por ejemplo,
polticas de estado, acceso a recursos naturales, as como cualquier variable que afecte
al nivel de ingreso per cpita.
Note que en (1.10) se surgiere implcitamente una causalidad: y es funcin de x.
Este es un supuesto importante que discutiremos ms adelante.
Si asumimos que los otros factores son cero en la media y que se cumple la premisa
de causalidad de x hacia y, entonces podemos plantear
E[yi ] = 1 + 2 xi .

(1.11)

Captulo 1. Mnimos cuadrados ordinarios (MCO)

16

Es decir, con conocimiento de 1 y


2 , podramos predecir el nivel de ingre104
so ms probable que tendra un pas del
Observaciones
cual sabemos cul fue su nivel de inequiNoruega
3
Singapur

x
i
1
2 i
Canad
dad en 1950. Si 2 es en realidad un parSuiza
Suecia
Australia
Dinamarca
metro negativo, entonces aquellos pases
Japn
Alemania
Francia
2
que combatieron la inequidad en el pasado tienen hoy un nivel de ingreso per cpita superior. Esto podra servir de ejemArgentina
Malasia
1
plo para adoptar polticas que reduzcan
India
la inequidad en el presente para aumentar
el nivel de ingreso de un pas en el futuro.
0
En cambio, si 2 es positivo, entonces la
1,6 1,8 2 2,2 2,4 2,6 2,8 3
redistribucin generara un deterioro del
Inequidad en 1950 (x)
ingreso per cpita del pas, tal como indica la teora econmica ms convencional. Por ello, ms all de discusiones ticas,
conocer el valor de 2 es de gran importancia para poder elegir la poltica ptima de
crecimiento econmico de un pas.
PIB per cpita en 2010 (y)

Figura 1.5: Regresin lineal

Sigamos con la pregunta cul es el efecto de la inequidad sobre el nivel de ingreso


en el largo plazo? e intentemos resolverla con los datos de la tabla 1.2. El primer
planteamiento para llegar a una respuesta fue correr la regresin
PIB2010 = 1 + 2 Inequidad1950 + u,

Figura 1.6: Ingreso en 2010 vs. 1950


5,99e
+
04
= (X X) X y =
-1,94e + 04

Noruega

PIB per cpita en 2010

Singapur
Canad
Australia
Suecia
Dinamarca
Japn
Francia
Alemania

Malasia

Suiza

Argentina

India

0
0

es
0

104

(M1)


cuyo resultado, siendo X = 1 x2 ,

0,2

0,4

0,6

0,8

PIB per cpita en 1950

1
104

1 0

El resultado 2 < 0 no nos sorprende


dado que ya vimos esta relacin grficamente en la figura 1.5.
Pero, no ser que la correlacin entre el ingreso actual y la inequidad en
1950 se debe simplemente a que pases con mayor nivel de ingreso tienen
menor inequidad, y los pases con poca
inequidad ya tenan un ingreso alto en
1950? (Si no entendi esto, vuelva a leerlo)

En la figura 1.6 se presenta la relacin entre en ingreso actual y el ingreso pasado de


los pases de la muestra junto con la estimacin de
PIB2010 = 1 + 2 PIB1950 + u.

(M2)

1.3 Cmo afecta la inequidad el desarrollo econmico de los pases?


17
En efecto vemos que la correlacin es positiva (2 > 0), es decir, pases de alto ingreso de hoy ya tenan un alto ingreso en 1950. Por ende, resulta razonable pensar que
la correlacin entre el PIB de 2010 y la inequidad de 1950 es espuria: se debe a que
ambas variables se correlacionan con una tercera variable explicativa, el nivel de ingreso
en 1950.
Cmo saber, entonces, si la correlacin entre la inequidad pasada y el ingreso
actual es independiente de el nivel de ingreso pasado. La forma de dar respuesta a
la interrogante es correr una regresin con las dos variables explicativas. El modelo a
estimar sera
PIB2010 = 1 + 2 Inequidad1950 + 3 PIB1950 + u.

(M3)

Esto es lo que se denomina controlar por la variable PIB1950 (en este contexto PIB1950
es un control). Ms adelante veremos cmo incluir controles de primer orden es fundamental para un buen anlisis economtrico.


Como en M3 X = 1 x2 x3 , el estimador para dar un resultado distinto. En
trminos generales, si el resultado para un coeficiente de inters se mantuviera relativamente constante pese a la inclusin de controles, cambios en el nmero de observaciones,
cambios en el periodo analizado, etc., se habla de un resultado robusto (pues no depende de la mtodo particular de estimacin).
Tabla 1.3: Regresiones MCO en base a la tabla 1.2
Variable dependiente: Ingreso en 2010
Modelo

(M1)

const
5.99e+04
Inequidad en 1950 1.94e+04
Ingreso en 1950
n
R2

13
0.636

(M2)

(M3)

1.16e+04
1.79

4.92e+04
1.62e+04
0.848

13
0.314

13
0.731

Los resultados de las tres regresiones M1, M2 y M3 se presentan en la tabla 1.3.


Una primera conclusin es que el coeficiente de Inequidad1950 mantuvo su signo y el
orden de magnitud, es decir, result ser relativamente robusto al control. El coeficiente
de PIB1950 , en cambio, se redujo en ms de 50 %. Sin embargo, se mantuvo positivo.
Cmo interpretamos los resultados de M3? En la figura 1.6 vemos pases que estn
sobre la recta y bajo la recta estimada. Argentina, por ejemplo, parece haber crecido
poco dado su nivel de ingreso, al igual que la India y Malasia. Singapur y Japn, en tanto,
se encuentran por sobre la recta, indicando que crecieron ms de lo esperado segn el
modelo estimado M2. Volviendo a la figura 1.5 vemos que Argentina y la India tenan
altos niveles de Inequidad1950 mientras Japn tena niveles bajos. Es decir, para algunos

Captulo 1. Mnimos cuadrados ordinarios (MCO)

18

pases, lo que no se pudo explicar con PIB1950 s se puede explicar con Inequidad1950 .
De la misma manera, como se aprecia en la figura 1.5, Alemania est por sobre la recta
del modelo M1 y Malasia est por debajo. Pero esa diferencia se puede explicar con
PIB1950 : Alemania tena mayor ingreso que Malasia.
As, el ajuste de M3,
d 2010 = 4,92e + 04 1,62e + 04Inequidad1950 + 0,848PIB1950 ,
PIB
nos entrega una relacin multidimensional entre la variable dependiente y los regresores,
tal cual se presenta en la figura 1.7. Malasia, por ejemplo, pese a tener un nivel de
ingreso similar al de la India, logr un mayor ingreso en 2010, el que se explica por una
menor inequidad. Argentina, pese a tener un nivel de ingreso comparable al de Francia o
Alemania, no se sigui desarrollando debido a los niveles de inequidad. Singapur, pese a
ser ms equitativo que Suiza, no ha logrado el nivel de ingreso de los Suizos debido a
que su ingreso medio en 1950 era muy bajo.

Figura 1.7: Representacin de M3

Ingreso 2010

104

Suiza
Canad
Australia
Noruega
Suecia
Dinamarca
Francia
Singapur
Japn
Alemania

Con esta lgica, los coeficientes

j son denominados coeficientes


de correlacin parcial. Su interpretacin es: cunto estimamos que
cambia y si aumentamos x j en una
unidad y el resto de los regresores se
mantienen constantes. Es decir, proveen un estimador de

Argentina

j =

Malasia
10,000
0

y
.
xj

India

1,5

Note que en M3 tanto el coefi3


ciente de Inequidad1950 como el de
Ingreso 1950
Inequidad 1950
Ingreso1950 vieron reducido su impacto respecto a los modelo M1 y M2 (es
decir, el impacto se acerca a cero en ambos casos). Por qu? El resultado es comn en la
econometra y se da cuando existe cierto nivel de correlacin entre las variables explicativas (esto se denomina multicolinalidad imperfecta). La idea se puede representar
grficamente con ayuda del diagrama de Venn. Los crculos de la figura (1.8) representan
la variacin total de cada una de las variables. Las intersecciones corresponden a la
varianza comn que pueda existir entre ellas. Como parte de la variacin comn entre
Ingreso2010 e Inequidad1950 es al mismo tiempo una variacin comn con Ingreso1950 ,
el impacto que se atribuye a cada uno de los coeficientes en M3 es menor.
5,000

2,5

As, si incluyeramos una tercera variable que se encontrara correlacionada con


la variable dependiente y con las variables explicativas, los coeficientes cambiaran
nuevamente. Perdern impacto Inequidad1950 e Ingreso1950 ? Aunque es un escenario
probable, la respuesta no es clara, pues depende de condiciones que estudiaremos ms
adelante. Lo que s sabemos es que la estimacin cambiar.

1.4 Bondad de ajuste y causalidad

19

Las conclusiones expuestas ac natuFigura 1.8: Diagrama de Venn


ralmente son fuente de controversia y no
deben ser tomadas como una verdad irrefutable, sino como un ejemplo de la apliInequidad 1950
cacin del mtodo MCO, su alcance y sus
limitantes. Como veremos ms adelante,
0.636
todo resultado economtrico es altamente
0.219
0.314
PIB 1950
dependiente de cun correcta sea la esPIB 2010
pecificacin del modelo estimado y, naturalmente, de la representatividad de la
muestra que se utiliza. Cmo cambian
los resultados si se incluyeran observaciones para pases como Polonia o Yugoslavia? Cambian los resultados al tomar otros aos
de referencia para los regresores o la variable dependiente? Se mantiene el resultado
con medidas alternativas de inequidad? Un trabajo serio de investigacin debe intentar
dar respuesta a este tipo de interrogantes en un anlisis de robustez.
GRETL: Presentacin de mltiples modelos
Para presentar mltiples regresiones existe el comando modeltab:
modeltab free # para limpiar la tabla
ols ingr2010 const ineq1950
modeltab add
ols ingr2010 const ingr1950
modeltab add
ols ingr2010 const ineq1950 ingr1950
modeltab add
modeltab show # para mostrarla

1.4

Bondad de ajuste y causalidad


Para cada modelo de la tabla 1.3 se reporta en la ltima fila el R2 o coeficiente
de determinacin. El R2 corresponde a una medida de bondad de ajuste que responde a la pregunta: qu fraccin de la dispersin total de y es explicada por la recta
(multidimensional) estimada X ?
De todas las representaciones del R2 , la ms intuitiva es:
ni=1 u2i
2
ni=1 (yi y)
2 /n
var[u]

n (ui u)
= 1 i=1
= 1
n
2
/n
var[y]
i=1 (yi y)

R2 = 1

(note que u = 0)

Si el modelo explica poco, ni=1 u2i es alto y el R2 es bajo. En el peor de los casos la
suma de residuos cuadrados son equivalente a la dispersin de la variable dependiente,
que est dada por ni=1 (yi y)
2 , y el R2 es cero. En el mejor de los casos todos los
residuos son cero y el R2 es uno. La figura 1.9 muestra el valor que toma el coeficiente
de una recta ajustada y = 1 + 2 x en distintas situaciones. Mientras en 1.9d un 99 %

Captulo 1. Mnimos cuadrados ordinarios (MCO)

20

de la varianza de y se captura con el modelo, en 1.9a slo un 4 % de dicha varianza se


explica por el modelo y un 96 % queda inexplicada en forma de residuos.
Figura 1.9: Coeficiente de determinacin en distintos casos
(b) R2 = 0.15

x
(e)

= 0.99

R2

x
(f)

= 0.43

(d)

R2

(c) R2 = 0.61

R2

= 0.08

(a) R2 = 0.04

En el ejemplo de la tabla 1.3, como M3 explica parte de los residuos (es decir lo no
explicado) de M1 y M3, el R2 ms alto de la tabla es naturalmente el de M3. Como regla
general, tras introducir un regresor adicional a una regresin, el R2 siempre ser igual o
mayor. Sin embargo, note que el R2 del modelo M3 no corresponde a la suma de los R2
de los modelos M1 y M3. Por qu? La respuesta se encuentra en el diagrama de Venn
(figura 1.8): 0.219 de lo que se explica con M1 tambin se explica con M2, llegando el
nuevo R2 a 0,636 + 0,314 0,219 = 0,731.
Podemos decir que en M3 se explica el 73 % de la dispersin del ingreso medio de
los pases tan slo con dos regresores: el ingreso medio del pas en 1950 y su desigualdad
de ingresos en ese mismo ao. En otras palabras, al incluir otras variables explicativas
como, por ejemplo, la abundancia de recursos productivos, slo podramos mejorar en
un mximo de 27 % nuetra explicacin de y.
Pero hay que ser cuidadosos, porque la capacidad de explicar algo que sucedi
no es equivalente a la capacidad de predecir qu va a ocurrir en el futuro. Por motivos
que quedarn claros ms adelante, incluso un modelo con un R2 de 1 puede tener nula
capacidad predictiva (es decir, el modelo sera inservible). Mientras que otro modelo
con un R2 de tan slo 30 % puede tener una exelente capacidad predictiva.
Para ilustrar cmo la bondad de ajuste o variacin explicada puede ser un engao,
considere la posibilidad de que los pases que han logrado un elevado nivel de ingreso
per cpita lo han logrado gracias a un espritu colectivista que mejora la productividad
de las empresas por medio de un buen trabajo en equipo. Suponga adems que quienes
comparten ese espritu tambin votan a favor de polticas redistributivas. Cul va a ser

1.4 Bondad de ajuste y causalidad

21

el resultado? La baja inequidad aparecera como buena variable explicativa debido a


que est operando como proxy de la variable fundamental, que sera colectivismo. Si
un pas aumenta la equidad pero el colectivismo se mantiene inalterado, entonces la
poltica redistributiva no tiene ningn efecto sobre el nivel de ingreso. En conclusin,
la bondad de ajuste no sera ningn indicador de la bondad del modelo, debido a la
presencia de una correlacin espuria. Un alto R2 es sinnimo de una alta correlacin,
pero correlacin no siempre implica causalidad.
Origen de una correlacin

1. Casualidad directa x causa y.


2. Causalidad inversa y causa
x.
3. Causalidad simultnea x causa y e y causa x.
4. Correlacin espuria Tanto x
como y son causa de un factor
comn z.
5. Correlacin casual No hay
causalidad.

Figura 1.10: Pensamiento crtico

Sacado de xkcd.com

Para ilustrar la relacin entre causalidad,


correlacin y proxy, la figura 1.11 muestra el Figura 1.11: Precio del watt fotovoltaiajuste
co
(1.12)

Segn esta estimacin el precio de 1 dlar por


watt se alcanzara en torno al ao 2028. El
R2 de la regresin es superior al de la regre\ = 2,8 0,13 ln(prod. acum)
sin ln(precio)
de la de la figura 1.3, cuyo valor es R2 =
0,92.
Qu modelo otorga una prediccin ms
confiable?

Costo [$/Wp]

(R2 = 0,95)

12
10
8
6
1998

2000

2002

2004

2006

2008

2010

2012

Ao

Figura 1.12: Produccin fotovoltaica


Prod. acumulada [MW]

\ = 877,83 0,433ao
precio

6,000

4,000
En la figura 1.12 se muestra cmo ha crecido la produccin acumulada de watts produci2,000
dos con energa solar fotovoltaica a lo largo de
los aos. Como vemos, la correlacin es posi0
tiva. Qu pasara con el costo de la tecnologa
1998 2000 2002 2004 2006 2008 2010 2012
si se dejara de producir energa solar durante
Ao
los prximos 10 aos? Es de esperar que se
frene la curva de aprendizaje, no se acumule conocimiento, y el precio se mantenga
pese al transcurso del tiempo. Como ao es una variable proxy de la produccin, no

Captulo 1. Mnimos cuadrados ordinarios (MCO)

22

existe certeza de que en el ao 2028 tengamos precios competitivos si es que no se sigue


invirtiendo esfuerzos en mejorar la tecnologa. En (1.4) se estim una correlacin espuria.
De forma irnica, en la figura 1.13 se
presenta la proyeccin del nmero de matrimonios que tendr la novia si siguiera
con uno al da. El ejemplo es obviamente una exageracin, y la novia no tendr
que comprar tantas tortas de matrimonio, pero la idea se aplica a problemas prcticos
que a veces no son tan obvios. Incluso especialistas en ocasiones caen en la trampa de interpretar correlaciones como causalidad.

Figura 1.13: Proyeccin causal

Sacado de xkcd.com

En conclusin, el R2 sirve para evaluar la bondad de ajuste (corresponde a un indicador de cun importantes son las variables omitidas para la determinacin de y, pues dicha
importancia repercute en la varianza del error y en la de los residuos, como tambin
podra a ayudar a detectar problemas como, por ejemplo, el del grfico 1.9f, donde se
estima una relacin lineal cuando no corresponde) pero no es un criterio robusto para
elegir el mejor modelo, especialmente cuando el objetivo es hacer una prediccin fuera
del rango de los valores X observados.
En fin, siempre recuerde: una correlacin alta (un alto R2 ) no implica de causalidad.
GRETL: Coeficiente de determinacin
El comando asociado es $rsq. Puede utilizarlo de dos maneras. La primera es tras estimar una regresin
MCO, por ejemplo:
ols y const x1 x2 x3
scalar Rcuadrado = $rsq
La segunda es dando nombre a la regresin:
MiReg <- ols y const x1 x2 x3
scalar Rcuadrado = MiReg.$rsq

1.5

Transformaciones para la linealidad


Muchas veces deseamos estudiar la relacin entre dos o ms variables cuya relacin
no es lineal. Un ejemplo es el de la figura 1.14a. Uno podra estar interesado en predecir
la fertilidad de un pas en vas de desarrollo considerando que en algunas dcadas ms
su nivel de ingreso per cpita ser superior y la tenencia de hijos probablemente se
asimilara ms a la de un pas desarrollado. Si ya se tiene una prediccin del ingreso
medio que tendr el pas, la pregunta es qu parmetros gobiernan la relacin
Fertilidad = f (Ingreso).
Claramente, fertilidad e ingreso no tienen una relacin lineal. Qu se puede hacer para
aplicar el modelo MCO en este caso?

1.5 Transformaciones para la linealidad

23

Figura 1.14: Transformaciones logartmicas en x e y


(b) Transformacin ln(x)

Fertilidad

Fertilidad

(a) Transformacin ln(x)

0
0

Ingreso

10

11

ln(Ingreso)

104

(d) Transformacin ln(x), ln(y)

(c) Transformacin ln(y)

ln(fertilidad)

ln(Fertilidad)

1,5
1
0,5

1,5
1
0,5
0

0
0

Ingreso

6
104

10

11

ln(Ingreso)

Fuente: Banco Mundial

Una posible solucin consiste en transformar las variables Fertilidad e Ingreso de


manera tal que se obtenga una relacin lineal. Es decir, buscamos funciones g() para
ambas variables tales que
gy (Fertilidad) = 0 + 1 gx (Ingreso) + u.
Qu forma funcional elegir para gy () y gx ()? Para linealizar la relacin de la
figura 1.14a aplicaremos en ambos ejes un funcin que cumpla con g0 () > 0 y g00 () < 0.

Funciones que cumple con esta caracterstica son, por ejemplo, g(z) = ln(z), g(z) = z
3
y g(z) = z 4 . Todas ellas tienen en comn que acercan en mayor proporcin a los puntos
alejados del eje y en menor proporcin a los puntos cercanos al eje, tal cual se representa
en la figura 1.15.
Lo habitual es elegir a g() = ln() en lugar de otra funcin similar. Esto se debe
a que una regresin de la formas log-log, nivel-log y log-nivel tendr una de las
prcticas interpretaciones presentadas en la tabla 1.4.
La figura 1.14 muestra cmo con cambia el ordenamiento de los datos al aplicar
g = ln(), primero en el eje vertical , luego en el eje horizontal y, por ltimo, en ambos

Captulo 1. Mnimos cuadrados ordinarios (MCO)

24

Tabla 1.4: Transformaciones comunes


Denominacin
nivel-nivel

Especificacin

Diferencial total

y = 1 + 2 x

y = 2 x

ln y = 1 + 2 ln x

log-log

y
y

= 2 x
x

nivel-log

y = 1 + 2 ln x

y = 2 x
x

log-nivel

ln y = 1 + 2 x

y
y

= 2 x

Interpretacin
Si x aumenta en una unidad,
entonces y aumenta en 2
unidades.
Si x aumenta en 1 %, entonces y aumenta en 2 %
Si x aumenta en 1 %, entonces y aumenta en 2 /100 unidades.
Si x aumenta en una unidad, entonces y aumenta en
1002 %

ejes a la vez.
La lnea de regresin de la figura 1.14d es
Figura 1.15: Transformacin g() con
g0 () > 0 y g00 () < 0
8

Los resultados se interpretan as: un aumento en, por ejemplo, 10 % del ingreso de
un pas genera una disminucin de la tasa de fertilidad en 2,9 %; duplicar el ingreso, por ejemplo, hace caer la tasa de fertilidad a, aproximadamente, 2/3 de su nivel inicial.

y=x
g00 (x) < 0
g00 (x) > 0

\ = 3,55 0,29 ln(Ingreso).


ln(Fertilidad)

4
2
0

Por supuesto, la transformacin logartmica no siempre es adecuada. Un ejemplo es el


que se presenta en la figura 1.16a. Si bien aplicar la transformacin logartmica en el
eje x ayuda a linealizar la relacin, el eje y necesita la transformacin inversa, es decir
un operador que cumpla con g00 () > 0. En la figura 1.16b se muestra el ajuste lineal
aplicando g(y) = y2 .
0

GRETL: Transformaciones
Va el comando series es posible utilizar las funciones ln(x), exp(x), x^2, x^0.5, etc. Adems
existen transformaciones rpidas para mltiples series a la vez. Por ejemplo
logs Costo ProdAcum
squares Costo ProdAcum
crea los logaritmos de ambas variables y sus cuadrados (con prefijos l_ y sq_ respectivamente).

Otra alternativa cuando las relaciones no son lineales es estimar una regresin
polinomial de orden m:

yi = 1 + 2 xi + 3 xi2 + ... + k xik1 + u,

1.5 Transformaciones para la linealidad

25

Figura 1.16: Expectativas de vida vs. ingreso per cpita


(b) Transformaciones y2 , ln(x)

(Expectativas de vida)2

Expectativas de vida

(a) Datos sin transformar


100
80
60

6,000
4,000
2,000

Ingreso medio 104

80

60

10 11

(d) Ajuste cbico

Expectativas de vida

Expectativas de vida

(c) Ajuste cuadrtico

ln(Ingreso)

Ingreso medio

8
104

80

60

Ingreso medio

8
104

donde m = k 1 en este caso. Las figuras 1.16c y 1.16d presentan ajustes polinomiales
de orden 2 y 3 respectivamente. A medida que aumentamos el orden m de la regresin
polinomial siempre mejora la calidad del ajuste intra muestra.
Otro tipo de ajuste comn es el ajuste inverso:
1
y = 1 + 2
x

(1.13)

Note que en (1.13) el valor asinttico de la variable dependiente es y 1 .


x
En la figura 1.17 se presenta el ajuste para dos de nuestros ejemplos. Claramente el
ajuste no es de la mejor calidad para los pases con alto nivel de ingreso. Este es un
problema habitual del ajuste inverso.

Captulo 1. Mnimos cuadrados ordinarios (MCO)

26

Figura 1.17: Ajuste inverso: y = 1 + 2 1x


(b) y = 2,21 + 2,21e + 003 1x

Expectativas de vida

Expectativas de vida

(a) y = 76,2 1,59e + 004 1x


80

60

Ingreso medio 104

1.6

6
4
2
0

Ingreso medio 104

Esos outliers!
Vimos que un alto R2 no necesariamente implica un buen modelo. En particular, si la
correlacin es espuria, no hay causalidad directa y la prediccin pierde validez. En muchos casos es difcil establecer si la causalidad va efectivamente de X a y, pero en otros
casos es fcil. Sabemos que la nubosidad es un predictor de la lluvia, como sabemos
que el metraje de una propiedad determina su precio y no viceversa. Restringindonos
a casos en que la causalidad est clara, es el R2 un buen indicador de la bondad del
modelo?
La respuesta se encuentra en la figura 1.18, donde presenta 4 regresiones MCO con
el mismo R2 . Este cuarteto, bautizado en honor a Francis Anscombe, (i) muestra cmo
el R2 puede ser engaoso para juzgar la calidad del ajuste de un modelo y (ii) ilustra
algunas debilidades de la regresin MCO .
Por qu es el R2 en 1.18a igual que en los otros casos si la relacin parece bien
capturada por la recta? La razn se encuentra en que los errores tienen una alta varianza.
Esto suele se el caso cuando se dejan muchas variables dentro del trmino de error.
Aunque el modelo estimado ac sea correcto, el R2 es bajo.
El problema de 1.18b es la no linealidad de la relacin. Por ahora queda claro que
graficar los datos es importante para no cometer este tipo de error en la prctica. Ms
adelante veremos una metodologa para detectar el problema cuando existen muchos
regresores y la deteccin grfica se dificulta.
En las figuras 1.18c y 1.18d se presentan outliers. Ese es el nombre que se le da a
observaciones que distan de la relacin tpica observada entre los datos. Note que se
hace una diferenciacin entre outliers verticales y horizontales, pues el efecto que tienen
sobre una estimacin es desigual.
La peor regresin de la figura 1.18 es sin duda la ltima. Esta regresin padece de un
problema denominado valor influyente. Llamaremos valor influyente a un punto que
cuenta con dos caractersticas:

1.6 Esos outliers!

27
Figura 1.18: El cuarteto de Anscombe

(a) Errores dispersos

(b) No linealidad
10

10

8
8

6
6
4

R2 = 0,66

4
4

10

12

14

R2 = 0,66
4

10

12

14

x
(d) Outlier horizontal

(c) Outlier vertical


12

10

10

12

R2 = 0,66
4

10

12

14

R2 = 0,66
8

10 12 14 16 18 20

1. Es un outlier: se encuentra considerablemente alejado de la recta poblacional.


2. Tiene alto apalancamiento: se encuentra considerablemente alejado de la
media en el dominio del eje x.
Para ilustrar como son slo los valores influyentes los que inciden fuertemente en
una estimacin, la figura 1.19 presenta una serie de estimaciones MCO, donde cada
recta se obtuvo mediante una regresin con la variable del eje vertical como variable
dependiente y la variable del eje horizontal como regresor.
Vemos que no en todos los casos se distorsiona la estimacin, pues se tienen que cumplir
1 y 2 para ello. Por ejemplo, la regresin de Z3 respecto a Z2 se ve fuertemente distorsionada por el outlier mientras la regresin de Z3 respecto a Z3 no presenta alteracin
en la pendiente, pese a que los datos son exactamente los mismos, slo que cambiados
de la mano izquierda de la regresin a la mano derecha y viceversa. El mismo fenmeno
se observa tambin entre Z4 y Z3, donde se ve que cuando Z4 es variable dependiente el
nico efecto del outlier es un pequeo cambio en la constante (la recta est levemente
ms arriba).
Cuando se realizan regresiones entre dos variables es fcil verificar la presencia de
puntos de apalancamiento grficamente. Cmo se hace cuando k > 2, es decir, cuando
hay ms de un regresor?
El apalancamiento se puede cuantificar con ayuda de la hat matrix,
H = X(X 0 X)1 X 0 ,
nn

(1.14)

Captulo 1. Mnimos cuadrados ordinarios (MCO)

28

Figura 1.19: Outliers verticales vs. outliers horizontales

Z1

0
25
20

Z2

15
10
5
0
50
40

Z3

30
20
10
0
200

Z4

150

100

50

0
0

4
Z1

10

15
Z2

20

25

10

20

30
Z3

40

50

50

100

150

200

Z4

cuyos n elementos diagonales hi = Hii se caracterizan por:


Su valor est entre cero y uno
Su valor aumenta con la distancia de X respecto de la media de X.
Las figuras 1.21 y 1.20 ilustran la relacin que existe entre el apalancamiento y la
distancia de la media de X. Japn tiene un alto nivel de hi debido que tiene el menor
nivel de inequidad en 1950, Suiza tiene un alto nivel por tener el mayor nivel de ingreso
en 1950 y la India tiene el mayor nivel de hi debido a que tiene tanto el mayor nivel de
inequidad en 1950 como el menor ingreso en 1950.
Una pregunta natural es: qu niveles de hi se consideran preocupantes? Algunos
autores sugieren revisar qu ocurre con datos que tienen hi > 2 k/n. En el caso de
la regresin M3, 2 k/n = 2 3/12 = 0,5. El nico pas con hi > 0,5 es la India. Esto
significa que sera recomendable intentar incorporar un nuevo pas a la base de datos
con caractersticas similares a la India para ver si los resultados de M3 son robustos.
Pero, tal como se ilustra en la regresin de Z2 respecto a Z2 (o Z4 respecto a Z4), que

1.6 Esos outliers!

29
Figura 1.21: Apalancamiento (hi )

c = 1 + 2 Z3
(a) Z1

c = 1 + 2 Z4
(b) Z1

0,12

c = 1 + 2 Z4
(c) Z4

0,6

0,6

0,4

0,4

0,2

0,2

0,1
8 102
6 102
4 102

2 102

1 2 3 4 5 6 7 8

0
0

10

Z3

15

10

Z4

15

Z4

Figura 1.22: Influencia (hi ui /(1 hi ))


c = 1 + 2 Z3
(a) Z1

c = 1 + 2 Z4
(c) Z4

c = 1 + 2 Z4
(b) Z1

0,6
0,4
0,2
0
0,2
0,4
0,6

0,5

20
0

40

0,5

60
1 2 3 4 5 6 7 8

10

Z3

15

Z4

10

15

Z4

una observacin tenga un alto nivel de apalancamiento no implica que tenga influencia
(impacto sobre la recta estimada), la cual se mide con
o

ui
.
(1 hi )

En la figuras 1.21b y 1.21c se


muestra cmo las regresiones respectivas tienen el mismo apalancamiento
en sus n obseraciones (la lnea punteada representa 2 k/n y muestra la presencia de una observacin peligrosa)
pero slo en la regresin de Z1 respecto a Z4 el outlier est generando
presin sobre la pendiente estimada.
Cuando se detecta un valor influyente, qu se hace? Si queda claro
que la observacin es un outlier por
motivos de, por ejemplo, un error de
tipeo, entonces el dato debiera ser corregido o, en ltima instancia, eliminado.

(1.15)

Figura 1.20: Apalancamiento en M3

Suiza

Japn

Apalancamiento

hi ui
(1 hi )

India
Canad
Australia
Suecia

0,4

Argentina

Francia
Noruega Dinamarca
Malasia
Singapur
Alemania

0,2

5,000
2
2,5

Inequidad 1950

Ingreso 1950

Hay quienes sucumben ante la tentacin de eliminar las observaciones molestosas,


incluso cuando no se ha comprobado que presentan errores de medicin. Esta no es

30

Captulo 1. Mnimos cuadrados ordinarios (MCO)

una prctica aceptable en la econometra, salvo que existan argumentos muy fuertes
que respalden dicha decisin. Muchas veces existen mejoras al modelo que permiten
mantener la totalidad de las observaciones. Una observacin no debe ser eliminada slo
porque no calza con el ideal del investigador!
GRETL: Influencia

Figura 1.23: Fuera mentiroso!

El comando leverage tras una regresin ols


presenta niveles de apalancamiento e influencia.

TO DO: Incorporar prrafo sobre


control con dummies