Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Cedeac 3 - 1 1 PDF
Cedeac 3 - 1 1 PDF
3
CEDE
OCTUBRE DE
2006
3
Actualmente, las reas de inters para el CEDE son: Macroeconoma y Sector Finan-
ciero, Evaluacin Socioeconmica de Proyectos, Economa Ambiental, Economa
Agrcola, Demografa, Educacin, Salud, Economa Laboral, Economa Regional y
Urbana, Economa Internacional, Economa Experimental, Finanzas Pblicas, Econo-
ma, Conflicto y Violencia, y Economa Institucional.
El CEDE tiene dentro de sus objetivos difundir los trabajos realizados por sus
investigadores en las reas mencionadas, as como otros trabajos de inters Ramn Antonio Rosales lvarez
acadmico y cientfico. Para el logro de tal propsito, se publica semestralmente la
revista Desarrollo y Sociedad, as como libros y la serie Documentos CEDE. Esta ltima Jorge Alexander Bonilla Londoo
difunde entre la comunidad acadmica y la profesin los resultados de las principales
investigaciones desarrolladas en el CEDE. Por supuesto, las opiniones expresadas en
ellos son responsabilidad exclusiva de los autores.
Introduccin a la econometra
CEDE
Centro de Estudios
sobre Desarrollo Econmico
Facultad de Economa
2006
CEDE
Centro de Estudios
sobre Desarrollo Econmico
Facultad de Economa
UNIVERSIDAD DE LOS ANDES Universidad de los Andes
APUNTES DE CLASE CEDE ISSN 1909-4442
INTRODUCCIN A LA ECONOMETRA
3
OCTUBRE DE
2006
CEDE
Serie Apuntes de clase Cede
ISSN: 1909-4442
Octubre de 2006
Ediciones Uniandes
Carrera 1 No. 19 27, edificio Aulas 6, A. A. 4976
Bogot, D. C., Colombia
Telfonos: 3394949- 3394999, ext. 2133, Fax: ext. 2158.
infeduni@uniandes.edu.co
http//ediciones.uniandes.edu.co
El contenido de la presente publicacin se encuentra protegido por las normas internacionales y nacionales
vigentes sobre propiedad intelectual, por tanto su utilizacin, reproduccin, comunicacin pblica, trans-
formacin, distribucin, alquiler, prstamo pblico e importacin, total o parcial, en todo o en parte, en formato
impreso, digital o en cualquier formato conocido o por conocer, se encuentran prohibidos, y slo sern lcitos en
la medida en que se cuente con la autorizacin previa y expresa por escrito del autor o titular. Las limitaciones y
excepciones al Derecho de Autor, slo sern aplicables en la medida en que se den dentro de los denominados
Usos Honrados (Fair use), estn previa y expresamente establecidas; no causen un grave e injustificado perjuicio a
los intereses legtimos del autor o titular, y no atenten contra la normal explotacin de la obra.
*
INTRODUCCIN A LA ECONOMETRA
Resumen
*
Este documento hace parte de las notas de clase del curso Mtodos Cuantitativos para las
especializaciones de Economa, Economa Social, Economa del Riesgo y la Informacin, y de
Evaluacin Social de Proyectos de la Facultad de Economa Universidad de Los Andes.
**
Ph. D. en Economa Agrcola, Profesor Asociado de la Facultad de Economa de la
Universidad de Los Andes. Bogot, Colombia. Correo electrnico: rrosales@uniandes.edu.co.
***
Magster en Economa y Magster en Economa del Medio Ambiente y de los Recursos
Naturales, Profesor Instructor de la Facultad de Economa. Universidad de Los Andes. Bogot,
Colombia. Correo electrnico: jobonill@uniandes.edu.co.
INTRODUCTION TO ECONOMETRICS
Abstract
2
TABLA DE CONTENIDO
3
6.2. Heteroscedasticidad......................................................................................................................... 61
6.3. Autocorrelacin ............................................................................................................................... 66
6.4. Error de especificacin.................................................................................................................... 70
6.5. No Normalidad de los errores ......................................................................................................... 73
6.6. Ejercicios de computador. ............................................................................................................... 75
7. INTRODUCCIN A VARIABLES CUALITATIVAS .......................................................................... 83
7.1. Regresin con variables independientes cualitativas ...................................................................... 83
7.2. Regresin con variable dependiente cualitativa .............................................................................. 89
4
INTRODUCCIN
1. LA MODELACIN Y LA ECONOMETRA
5
La investigacin economtrica se inici con el anlisis estadstico de la Demanda
por Cournout (1838) y Marshall (1890). Posteriormente Tinbergen en 1939 hizo su
aporte a la econometra mediante el estudio del anlisis de los ciclos econmicos.
Sin embargo, en el periodo de 1943-1950 la econometra comienza su desarrollo
con los trabajos de la Comisin Cowles. La hiptesis bsica es: "los datos
econmicos se generan por sistemas de relaciones que son, en general
estocsticos, dinmicos y simultneos".
6
Estas tres definiciones nos indican que la econometra es cuantitativa y que est
en estrecho contacto con la realidad.
7
verificacin tiene un papel muy importante dado que examina si la expresin
cuantificada puede utilizarse adecuadamente con base en la teora
econmica.
4. Prediccin: el modelo obtenido puede ser utilizado para la prediccin y el
desarrollo de muchas aplicaciones. Pueden surgir nuevos resultados
tericos, y generarse implicaciones de poltica econmica a partir de las
conclusiones del modelo.
1.5. El Modelo
Las caractersticas mnimas que debe satisfacer un modelo econmico son las
siguientes:
8
2. Que la representacin sea simplificada, y
3. Que se haga en forma matemtica.
Y = f ( X 1 , X 2 ,K, X k ) (1)
Y = 0 + 1 X 1 + 2 X 2 + L + k X k (2)
Est relacin puede ser correcta. Sin embargo, cuando no se conoce si el insumo X2
es determinante en forma lineal sobre Y, puede ocurrir error de especificacin.
Tambin se debe resaltar que este modelo hace nfasis en un nmero relativamente
pequeo de variables importantes cuya interrelacin se puede expresar
adecuadamente en un modelo matemtico.
9
1.7. El Modelo Economtrico
Y = 0 + 1 X 1 + 2 X 2 + L + k X k + (3)
10
Existen diferentes razones por las cuales los modelos economtricos deben
considerar el trmino de error, destacndose como las ms importantes las
siguientes:
a) Datos: en muchos casos el grado de control que se puede tener sobre las
variables de inters es bajo. Adicionalmente, aunque se desea obtener los
verdaderos valores de las variables, se debe aceptar que puede existir cierto
error en la medicin.
11
d) Forma funcional: un investigador puede postular que la relacin entre las
variables de un modelo es de tipo lineal; no obstante, otro investigador podra
formular una especificacin funcional distinta, por ejemplo cuadrtica. Esta es
otra fuente de error en la elaboracin del modelo, pues no se puede tener total
certeza sobre su forma funcional an cuando la teora seale algunas directrices
para corregirlo.
Los elementos que componen el modelo son: las variables, las ecuaciones y los
parmetros.
Una variable es una caracterstica de una poblacin que puede tomar diferentes
valores. Solo son de inters aquellos valores de la variable que tienen un significado
econmico. Por ejemplo las variables: precio, produccin, ingreso, y cantidad de
insumo utilizado tienen regin econmicamente factible en los nmeros reales
positivos.
Una ecuacin es una igualdad conformada por una expresin matemtica que
establece relaciones entre variables. La ecuacin contiene no solo las variables de
inters sino tambin los coeficientes que afectan estas mismas. A estas ltimas
magnitudes se les denomina parmetros desde el enfoque estadstico, los cuales en
un modelo lineal actan como factores de ponderacin de cada variable explicativa y
12
miden el efecto de las fluctuaciones de estas variables sobre la variable dependiente.
Los parmetros cumplen un papel muy importante en el modelo, ya que sobre estos
el investigador formula pruebas de hiptesis. Al observar la ecuacin (3), el
coeficiente que no acompaa ninguna variable independiente se le conoce como
constante paramtrica o intercepto; en algunos casos su magnitud no tiene
interpretacin econmica.
Desde el punto de vista econmico las variables se pueden clasificar como variables
endgenas y exgenas. Las variables endgenas son aquellas cuyos valores se
determinan o calculan dentro del modelo. En contraste, las variables exgenas se
caracterizan por que sus valores estn determinados fuera del modelo.
13
hacen a los modelos. Ejemplos de ecuaciones de comportamiento son: la
demanda, la oferta, la inversin, el consumo, el ahorro, etc.
14
2. ORGANIZACIN DE DATOS Y ESTADSTICA DESCRIPTIVA
15
2.2. Divisiones de la Estadstica
Existen dos tipos de variables aleatorias: discretas y continuas. Las primeras son
aquellas cuyo nmero de valores que pueden tomar es contable (ya sea finito o
16
infinito) y pueden arreglarse en una secuencia que corresponde uno a uno con los
enteros positivos; mientras las segundas toman valores dentro de un intervalo de
recta de los nmeros reales. Si se tienen dos variables aleatorias, por ejemplo: el
nmero de hijos por familia y el consumo de energa elctrica; la primera, se
encuentra dentro del grupo de variables aleatorias discretas, y la segunda, dentro del
conjunto de variables aleatorias continuas.
17
Bogot. Para este caso, la poblacin corresponde a todos los hogares de la ciudad,
mientras que la muestra estar constituida por aquellos hogares que pueden ser
seleccionados de manera aleatoria, como un grupo representativo de todos los que
habitan en Bogot.
Los datos en los experimentos son recopilados inicialmente sin agrupar, para
18
luego, segn el inters del investigador presentarlos agrupados, en forma de clases
o intervalos. Es importante tener en cuenta que las fuentes de informacin primaria y
secundaria pueden almacenar sus datos sin agrupar o como datos agrupados.
Con base en lo anterior, es relevante conocer el procedimiento de clculo de las
medidas numricas para ambos casos. Las expresiones algebraicas que describen
la forma de obtener las medidas de tendencia central y de dispersin se muestran en
la Tabla No. 1.
Con los datos agrupados de una variable aleatoria es posible construir histogramas
de frecuencias, los cuales pueden ser comparados con las representaciones grficas
de distribuciones de probabilidad ya conocidas de variables aleatorias. En la mayora
de los casos, estos histogramas se comparan con la distribucin normal, donde por
inspeccin es posible identificar sesgos o apuntamientos en la distribucin.
19
TABLA No. 1. MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSIN.
k
f i xi k
n
xi x= , donde n = fi
Media
x= n i =1
n
i =1
i =1
Mediana = L + c( j f m )
Valor central de la
Mediana distribucin (el 50% de los Donde L es el lmite inferior de la clase
datos se encuentran por donde se encuentra la mediana, fm es la
encima de este valor). frecuencia de esa clase, c es la longitud
de ese intervalo y j es el nmero de
observaciones en esta clase necesarias
para completar un total de n/2.
Casos:
Punto medio de la clase con
frecuencia ms alta.
Moda El promedio de los puntos
Valor ms frecuente medios de las clases
consecutivas con frecuencias
iguales ms altas.
Puntos medios de las clases no
consecutivas con frecuencias
iguales ms altas.
n
2
n 1
n
xi
xi2 i =1
2 n
s = i =1
n 1
2
k
n
f i xi
s= s2 = (x x) 2
(n 1) k
Desviacin Estndar
f i xi2 i =1
i
i =1
n
s = s2 = i =1
n 2 n 1
xi n
2
x i =1
n
i
2
s= s = i =1
n 1
Recorrido o Rango Max-min.
20
2.8 Ejercicios de computador
No. de DX PX PZ PW I
Obs.
1 37 7 5 7 6
2 38 6 7 5 8
3 18 10 3 13 3
4 50 4 9 4 18
5 22 9 3 11 3
6 55 2 12 3 21
7 42 8 5 8 2
8 29 8 5 9 19
9 63 2 18 3 20
10 13 12 2 15 6
11 60 3 9 5 12
12 62 3 10 5 5
13 36 6 5 6 26
Donde:
DX: es la demanda del bien X
PX: es el precio del bien X
PZ: es el precio del bien Z
PW: es el precio del bien W
I: es el ingreso
ESTADSTICAS DESCRIPTIVAS
DX PX PZ PW I
Mean 40.38462 6.153846 7.153846 7.230769 11.46154
Median 38.00000 6.000000 5.000000 6.000000 8.000000
Maximum 63.00000 12.00000 18.00000 15.00000 26.00000
Minimum 13.00000 2.000000 2.000000 3.000000 2.000000
Std. Dev. 16.89940 3.210560 4.431820 3.811252 8.272599
Sum 525.0000 80.00000 93.00000 94.00000 149.0000
Observations 13 13 13 13 13
21
3. ANALISIS DE CORRELACION
Una primera aproximacin con el fin de detectar algn tipo de relacin entre dos
variables (X y Y), consiste en ubicar los pares de valores de en un plano cartesiano
hasta conformar la nube de puntos. Un diagrama de dispersin es la representacin
grfica de todos los pares de valores en sistema de ejes de coordenadas.
La figura a) muestra una posible relacin lineal directa entre las variables; mientras,
22
la figura b) seala una relacin lineal de tipo inversa. Las figura c) y d) revelaran
posibles relaciones cuadrticas entre las variables, exhibiendo un mximo y un
mnimo para la primera y segunda de estas figuras, respectivamente. La figura e)
mostrara una tendencia de tipo cbico entre las variables. La figura f) es un ejemplo
en el cul no puede identificarse por inspeccin algn tipo de relacin entre las
variables, pues aparentemente ella no existe.
rXY =
(x x )( y y )
i i
(x x ) ( y y )
2 2
i i
( x )( y )
x y
i i
rXY =
i i
n =
x yi i n( x y )
( x ) 2
( yi )
2
[ x 2
n(x )
2
][ y 2
n( y )
2
]
x i 2 y i
i i
i 2
n n
23
covarianza, la cual mide la asociacin lineal absoluta entre las variables; el
denominador es siempre positivo dado que en l se encuentran sumas de
cuadrados.
Si r tiende a 1 como seria el caso de la figura a) estara indicando una relacin lineal
positiva o directa entre las variables. Si r tiende a -1, existira una relacin lineal
negativa o inversa entre las variables. Cuando r es exactamente igual a 1 o -1 la
relacin lineal es perfecta, siendo posible ajustar todos los puntos a travs de una
lnea recta con pendiente positiva (ver figura g) o negativa (ver figura h),
respectivamente. Si r es cero no hay relacin lineal entre las variables y una lnea
horizontal une todos los pares de valores localizados en el diagrama de dispersin
(ver figura i).
24
1. r es de naturaleza simtrica. Esto indica que el coeficiente de correlacin
entre X y Y es igual al coeficiente de correlacin entre Y y X.
25
Paso 1: Planteamiento de la hiptesis:
Ho: =0
Ha: 0
tC =
(r )
n 2
~. t 2, n 2
1 r2
26
Paso 4: Regiones de decisin. Dado que la hiptesis alterna seala el
smbolo , se trabaja con los dos lados de la distribucin. La regin
de rechazo estar repartida en los extremos de la funcin de
probabilidad, con un valor de 2 a cada lado. Los valores de los
lmites derecho e izquierdo que limitan las regiones de rechazo se
determinan mediante el uso de la tabla t con sus respectivos grados
de libertad. Estos valores de t se denominan estadsticos de
contraste. La figura j muestra la regin de rechazo (RHo) y
aceptacin (AHo) de la hiptesis nula de esta prueba:
(
tabulado t 2, n 2 ). El criterio de decisin esta basado en: 1) si el t
calculado es mayor que el t de tablas positivo, cae en la regin de
rechazo del lado derecho de la distribucin y la decisin que se debe
tomar es rechazar la hiptesis nula ( 0 ); 2) si el t calculado es
menor que el t de tablas negativo, el t calculado cae en la regin de
rechazo del lado izquierdo y la decisin igualmente es rechazar la
hiptesis nula ( 0 ); y 3) si el t calculado se encuentra entre el -t y t
de las tablas, el t calculado cae en la regin de aceptacin y la
decisin es no rechazar la hiptesis nula ( = 0 ). Posteriormente, el
investigador basado en el criterio de decisin concluye e interpreta
27
los resultados de la prueba, y plantea las recomendaciones
pertinentes.
La significancia estadstica del coeficiente de correlacin en la prueba de hiptesis se
afecta por el tamao de la muestra (n) o mejor an por los grados de libertad,
lgicamente a mayor tamao de la muestra el valor de r tiene mayor confiabilidad. Si
se encuentra un valor de r relativamente bajo y n es grande, es posible que ste sea
significativo al comparar el estadstico de prueba con el de contraste o de tablas;
alternativamente se puede encontrar un r alto pero no significativo estadsticamente
debido a que n es muy pequeo y por consiguiente el nmero de grados de libertad
es bajo.
3.4. Ejercicios de computador
28
MATRIZ DE COVARIANZAS
VARIABLE DX PX PZ PW I
DX 263.6213 -47.98225 60.01775 -53.78107 47.89941
PX -47.98225 9.514793 -11.63905 10.73373 -12.99408
PZ 60.01775 -11.63905 18.13018 -12.65089 16.69822
PW -53.78107 10.73373 -12.65089 13.40828 -16.18343
I 47.89941 -12.99408 16.69822 -16.18343 63.17160
MATRIZ DE CORRELACION
VARIABLE DX PX PZ PW I
DX 1.000000 -0.958056 0.868137 -0.904592 0.371175
PX -0.958056 1.000000 -0.886170 0.950308 -0.530011
PZ 0.868137 -0.886170 1.000000 -0.811397 0.493410
PW -0.904592 0.950308 -0.811397 1.000000 -0.556062
I 0.371175 -0.530011 0.493410 -0.556062 1.000000
29
1. Especificacin: corresponde a la etapa en que el investigador define la forma
funcional del modelo que desea utilizar para explicar la variable dependiente
siguiendo los lineamientos de la teora econmica.
representan los valores esperados de variable dependiente Y dado los valores de las
variables independientes Xs. Esta lnea se puede construir a partir del diagrama de
dispersin conformado por los datos poblaciones; en este caso la lnea de regresin
se conoce como la funcin de regresin poblacional. A continuacin se presenta una
30
grfica de la lnea de regresin poblacional cuando el gasto en consumo de un hogar
se desea explicar por el ingreso.
Por otro lado, cuando la lnea de regresin es construida con los datos muestrales
recibe el nombre de funcin de regresin muestral. Como todo procedimiento de
inferencia estadstica, lo que se pretende es que la muestra sea una buena
representacin de la poblacin. En este sentido, la funcin de regresin muestral
constituye una representacin de la funcin de regresin poblacional. A s mismo,
en la prctica, las muestras de variables aleatorias son usadas para inferir sobre
las caractersticas de la poblacin.
31
4.3. Supuestos del modelo de regresin
Los supuestos del modelo junto con los mtodos de estimacin caracterizan los
resultados obtenidos de la regresin (coeficientes, pruebas de hiptesis, intervalos
de confianza, prediccin, etc.). En particular, los supuestos ms importantes del
modelo recaen sobre el trmino del error. Teniendo en cuenta que la funcin de
regresin poblacional puede expresarse tambin de la forma Yi = 1 + 2 X i+ ui , el
Yi = 1 + 2 X i + ui
E[ui / X i ] = 0
32
Por lo tanto los factores que no estn incluidos en el modelo y que por
consiguiente, estn incorporados en ui , no afectan sistemticamente el valor de la
media de Y.
nmero positivo constante igual a 2 . Ntese que el supuesto 4 implica que las
varianzas condicionales de Yi tambin son homoscedsticas. Esto es:
Var[Yi / X i ] = 2 .
todo i j es cero.
33
Cov (u i , u j / X i , X j ) = E[u i E[u i ] / X i ][u j E[u j ] / X j ]
Cov (u i , u j / X i , X j ) = E[u i / X i ][u j / X j ]
Cov (u i , u j / X i , X j ) = 0
cierta medida a u t .
34
Cuando el modelo de regresin cumple con los anteriores supuestos se le conoce
como modelo de regresin clsico y tiene las siguientes propiedades: los
estimadores son MELI (mejores estimadores lineales insesgados). Si se agrega el
supuesto de normalidad de los errores, los estimadores son MEI (mejores
estimadores insesgados) y por lo tanto seguirn distribucin normal. Con ello, los
intervalos de confianza, las predicciones y las pruebas de hiptesis tienen validez
estadstica.
Yi = Yi + e i
e i2 = (Y i Yi ) = (Y i 1 2 X i )
2 2
35
De acuerdo con el principio de mnimos cuadrados ordinarios:
e i2 = min (Y i 1 2 X i )
2
min
n X i Yi ( X i )( Yi )
Cov ( X , Y )
2 = =
n X i ( X i )
2 2
Var ( X )
1 = Y 2 X
As como existen medidas de dispersin para las variables tambin las hay para
los estimadores, por lo tanto, es necesario siempre presentar una medida de
precisin de los estimadores de los parmetros del modelo. Esta medida es el
error estndar e indica la confiabilidad de las estimaciones (si son pequeas dejan
ver que los parmetros muestrales van a ser muy parecidos a los poblacionales).
La principal utilidad de los errores estndar de los estimadores es la construccin
de intervalos de confianza y la prueba de hiptesis. A continuacin se presenta la
forma de calcular la varianza y error estndar de cada estimador del modelo de
regresin lineal simple:
( )
Var 1 =
X i2 2 ( )
se 1 =
X i2
n (X i X )
2
n ( X i X )
2
( ) ( )
2
Var 2 = se 2 =
(X i X ) (X i X )
2 2
36
4.6. Intervalos de confianza
[ ( ) ( )]
Pr 2 t 2 se 2 2 2 + t 2 se 2 = 1
( )
donde es el nivel de significancia estadstica y se 2 es el error estndar de 2 .
100(1 ) es el nivel porcentual de confianza del intervalo. Una versin abreviada
[
Pr 1 t 2 ( )
se 1 1 1 + t 2 ( )]
se 1 = 1
( )
1 t 2 se 1
37
Prueba de relevancia: la prueba de relevancia consiste en evaluar
estadsticamente qu tan significativo es un parmetro del modelo, de esta
manera puede identificarse si la variable independiente (X ) aporta informacin
importante al modelo de regresin. Siguiendo la estructura presentada en el
captulo 2, para cada estimador i , i= 1, 2:
i
tC = ~. t
se ( i )
2, n 2
38
Paso 5: Criterio de decisin y conclusin del investigador: Si t C > t 2, n 2 se
39
4.8. Prediccin
( )
2 1
Y0 = 1 + 2 X 0 y la varianza de Y0 : Var Y0 = +
( X0 X )
2
.
n (X i X )
2
1
Var (Y0 ) = 2 1 + +
(X 0 X )2
n (X i X )
2
40
respecto a que tan bien la lnea de regresin muestral se ajusta a los datos. Para
el caso de un modelo de regresin lineal simple se denota como r 2 y se calcula:
En algunos casos el investigador requiere estimar otro tipo de modelos en los que
las variables independientes no sean lineales, como por ejemplo variables
transformadas en trminos logartmicos, cuadrticos, raz cuadrada, cbicos, etc.
Las razones para estimar estos nuevos modelos pueden ser: mejorar los
resultados en trminos de bondad de ajuste, obtener elasticidades directamente
de la regresin, o en algunos casos porque la teora econmica lo sugiere. Un
ejemplo del modelo no lineal es el conocido como Cobb-Douglas, cuya forma
funcional es la siguiente:
2
Y i = AX i e ui
41
Sea YT = Log Yi , 1 = Log A y XTi = Log X i , luego el modelo a estimar toma la
42
MODELO DE REGRESION LINEAL SIMPLE
Dependent Variable: DX
Method: Least Squares
Date: 10/03/06 Time: 16:38
Sample: 1 13
Included observations: 13
Los resultados del modelo lineal muestran que la variable precio cuenta con el
signo esperado y es relevante al 1%, 5% y 10% de significancia. El valor del R2 es
0.918, es decir, el 92% de la variacin de la demanda del bien X esta explicada
por la variable precio. Adicionalmente se observa la existencia de dependencia
conjunta en el modelo al 1%, 5% y 10% de significancia (Fc=122.935). El
coeficiente de la variable PX es interpretado como un efecto marginal, por lo tanto,
un incremento en una unidad del precio de X disminuye en promedio su demanda
en 5.04 unidades, manteniendo todos los dems factores constantes.
COEFICIENTE C PX
C 9.802248 -1.273019
PX -1.273019 0.206866
43
MODELO DE REGRESION SIMPLE NO LINEAL EN LAS VARIABLES
(DOBLEMENTE LOGARITMICO)
COEFICIENTE C LOG(PX)
C 0.043639 -0.023345
LOG(PX) -0.023345 0.014023
44
5. REGRESION MULTIPLE LINEAL Y NO LINEAL
Y = 1 + 2 x2 + 3 x3 + L + k xk +
y i como:
yi = 1 + 2 xi 2 + 3 xi 3 + L + k xi k + i
Por lo tanto las n ecuaciones que representan y i como funcin de las x i j , los y
45
5.2. Supuestos del modelo
3. E ( X) = 0 E (Y / X) = X
4. E (' ) = 2 I Cov( i j ) = 0 , i j .
5. X es no estocstica.
6. ( X ) ~. N (0, 2 I)
Se desea obtener un estimador de un vector de parmetros desconocido que
minimiza la suma del cuadrado de los errores S, donde:
S = 2 = ' = (Y X ) ' (Y X )
Al minimizar S con respecto a se encuentra el estimador de mnimos cuadrados
ordinarios de regresin mltiple:
MCO = (X ' X ) (X ' Y )
1
46
1. Suma de cuadrados de los errores. Puede ser calculada as:
SCE = Y' Y ' X' Y .
47
obtener dicha probabilidad es necesario el valor del estadstico t calculado,
el nmero de grados de libertad (n k ) y el nmero de colas de la prueba
(en este caso dos colas dado que es una prueba de significancia individual).
(
R 2 = 1 1 R2 ) nn k1
48
5.7. Intervalos de confianza.
[ ( ) ( )]
Pr k t 2 se k k k + t 2 se k = 1
( )
k t 2 se k
( )
donde es el nivel de significancia estadstica y se k es el error estndar de k .
( )
El se k se obtiene mediante la frmula: se k = ( ) ( X ' X )kk1 . Puede notarse, que
este intervalo de confianza corresponde a una expresin matemtica similar a la
presentada en el caso de regresin simple.
Yi = AX i 2 2 X i 3 3 K X ik k e ui
Sea YT = Log Yi , 1 = Log A , XTi 2 = Log X i 2 ,..., XTik = Log X ik , entonces el modelo
a estimar es:
49
Bajo el esquema matricial los coeficientes del modelo transformado pueden ser
obtenidos a travs del mtodo de mnimos cuadrados ordinarios usando la frmula
de clculo presentada en el numeral 5.3. El coeficiente k , k = 2,3, K , K
representa la elasticidad de Y respecto a Xk y tiene la misma interpretacin que en
el caso del modelo de regresin simple doblemente logartmico del captulo
anterior. Por lo tanto, se tendrn k 1 elasticidades en regresin mltiple al
estimarse una funcin tipo Cobb-Douglas. Por otro lado, cabe destacar que
ejercicios de estimacin diferentes al modelo Cobb-Douglas no permiten obtener
directamente elasticidades constantes. Por ello es necesario tener en cuenta la
forma que toman las variables en el modelo transformado antes de efectuar
interpretaciones de los coeficientes.
Ejemplo 1.
50
REGRESIN LINEAL MLTIPLE
Dependent Variable: DX
Method: Least Squares
Date: 10/04/06 Time: 10:31
Sample: 1 13
Included observations: 13
Los resultados del modelo lineal muestran que la variable precio cuenta con el
signo esperado y es relevante al 5% y 10% de significancia. El valor del R2 es
0.947, es decir, el 95% de la variacin de la demanda del bien X esta explicada
por las variables independientes. Adicionalmente se observa la existencia de
dependencia conjunta en el modelo al 1%, 5% y 10% de significancia (Fc=35.810).
El coeficiente de la variable PX es interpretado como un efecto marginal, por lo
tanto, un incremento en una unidad del precio de X disminuye en promedio su
demanda en 4.59 unidades, manteniendo todos los dems factores constantes.
51
MATRIZ DE VARIANZAS Y COVARIANZAS DE LOS ESTIMADORES DEL MODELO DE
REGRESIN LINEAL MULTIPLE
COEFICIENTE C PX PW PZ I
C 117.3513 -11.56233 1.349073 -6.616478 -0.600013
PX -11.56233 3.163501 -1.826424 0.777287 -0.022642
PW 1.349073 -1.826424 1.474379 -0.192430 0.052888
PZ -6.616478 0.777287 -0.192430 0.474538 -0.014848
I -0.600013 -0.022642 0.052888 -0.014848 0.040409
52
MODELO DE REGRESION MULTIPLE NO LINEAL EN LAS VARIABLES
(DOBLEMENTE LOGARITMICO)
Los resultados del modelo doblemente logaritmo no son satisfactorios, dado que
ninguna de las variables incorporadas como regresores son significativas.
Asimismo, las variable LOG(PX) y LOG(I) no presentan los signos esperados,
limitando la validez terica del modelo.
53
VALORES OBSERVADOS Y ESTIMADOS DEL LOGARITMO DE LA DEMANDA
Y LOS RESIDUOS A PARTIR DEL MODELO DE REGRESIN
DOBLEMENTE LOGARTMICO
Ejemplo 2.
Ahora considere la siguiente informacin de una firma sobre los costos de
produccin y la cantidad producida de un bien para estimar una funcin de costos
cbica:
54
Donde:
ESTADISTICAS DESCRIPTIVAS
Q Q2 Q3 CT
Mean 10 136.6667 2100 66.19048
Median 10 100 1000 55
Maximum 20 400 8000 169
Minimum 0 0 0 5
Std. Dev. 6.204837 128.5365 2488.431 43.49899
Observations 21 21 21 21
Dependent Variable: CT
Method: Least Squares
Date: 27/09/06 Time: 21:48
Sample: 1 21
Included observations: 21
Variable Coefficient Std. Error t-Statistic Prob.
C 4.586862 0.962089 4.767605 0.000200
Q 10.450570 0.427013 24.473660 0.000000
Q2 -0.974658 0.050336 -19.363000 0.000000
Q3 0.043001 0.001653 26.020450 0.000000
R-squared 0.999236 Mean dependent var 66.19048
Adjusted R-squared 0.999101 S.D. dependent var 43.49899
S.E. of regression 1.304364 Akaike info criterion 3.538952
Sum squared resid 28.92322 Schwarz criterion 3.737908
Log likelihood -33.15899 F-statistic 7408,618
Durbin-Watson stat 0.882959 Prob(F-statistic) 0
COEFICIENTE C Q Q2 Q3
C 0.925616 -0.336905 0.032823 -0.000934
Q -0.336905 0.182340 -0.020705 0.000640
Q2 0.032823 -0.020705 0.002534 -0.000082
Q3 -0.000934 0.000640 -0.000082 0.000003
55
6. INCUMPLIMIENTO DE LOS SUPUESTOS DEL MODELO
6.1. Multicolinealidad
La multicolinealidad tiene que ver con la relacin lineal entre algn conjunto de
variables independientes en un modelo de regresin. Supngase el siguiente
modelo con cuatro variables independientes:
Cualquier relacin lineal entre las variables independientes de este modelo, por
ejemplo X2 con X3, o X2 con X5 y X4 puede generar problemas de
multicolinealidad. Por lo general, existen dos tipos de multicolinealidad:
56
Los valores de pueden ser positivos o negativos y formar muchas
combinaciones. Cuando la suma algebraica para todas las observaciones
de la muestra de esta combinacin lineal es cero se dice que existe
multicolinealidad perfecta. De este caso se excepta que simultneamente
los valores de sean cero, pues esta es una solucin trivial de la ecuacin.
En otras palabras, la multicolinealidad perfecta se presenta cuando una
combinacin lineal de uno o ms vectores de variables explicativas generan
de manera perfecta uno o ms vectores idnticos a cualquiera de las
variables explicativas en la base de datos.
57
Si existe multicolinealidad perfecta entre las variables independientes de un
modelo de regresin, ( X' X )-1 no existe. Cuando esto ocurre no es posible estimar
58
Ho: X 2 , X 3 0 (Si existe relacin lineal entre X2 y X3)
tC =
(r
X 2,X 3 n 2 ) ~. t 2, n2
1 (rX 2 , X 3 )
2
59
6.1.2. Correccin de Multicolinealidad
60
Luego la ecuacin en diferencias es:
6.2. Heteroscedasticidad
61
La presencia de heteroscedasticidad es muy comn en regresiones estimadas a
partir de datos de corte transversal. Por ejemplo, cuando se recolectan datos
provenientes de estratos, de regiones, por tamao de la familia o por tipo de
empresa. En general, puede presentarse en estudios que incluyen grupos con
comportamientos marcados a lo largo de toda la muestra; por ejemplo la variable
ingreso monetario del hogar segn el estrato, pues se puede pensar que la
varianza del ingreso monetario del grupo de alta riqueza es ms alta que la del
grupo de escasos recursos.
62
dispersin entre Yt estimado y et2. Si estas grficas muestran alguna
tendencia especfica, puede afirmarse que existe heteroscedasticidad en el
modelo de regresin. No obstante esta metodologa es indicativa y no esta
basada en una prueba estadstica.
(
t2 = Yt Y t ) , y luego estimar por MCO el siguiente modelo:
2
t2 = 0 + 1 X 1t + 2 X 2t + 3 X 1t 2 + 4 X 2t 2 + 5 X 1t X 2t + t
63
2
El estadstico de prueba es nR 2 ~. 5 . En este caso el nmero de grados de
64
Este mtodo supone la siguiente transformacin:
Yt = 1 + 2 X t + t
Ut
Donde vt = . Puede verificarse que:
Xt
E (v t ) = E (U t X t ) = (1 X t ) E (U t ) = 0
65
y que el modelo transformado ahora es tericamente homocedstico:
( ) = E[(U
E vt
2
t ] ( ) ( ) = (1 X )
X t ) = 1 X t2 E U t
2 2
t
2 2
X t2 = 2 .
6.3. Autocorrelacin
66
generada en casos donde se usa una forma funcional incorrecta del modelo, esto
hace que los datos se ajusten a una forma funcional que no es la ms adecuada.
67
El estadstico "d" oscila entre 0 y 4. Si este se aproxima a 0, se dice que
existe autocorrelacin positiva (relacin directa entre los errores), por el
contrario si d se aproxima a 4, existe autocorrelacin negativa (relacin
inversa entre los errores). El Durbin-Watson (d) se estima de la siguiente
manera:
Ho: ,
t t 1
= 0 (no existe autocorrelacin entre los errores)
68
auxiliar es el trmino de error t y los regresores sus respectivos rezagos
69
2. Cuando no se conoce el coeficiente de autocorrelacin: En la mayora de
los casos a nivel emprico el coeficiente de autocorrelacin no se conoce.
Debido a esto el coeficiente de autocorrelacin debe ser estimado
partiendo de la suposicin de un valor inicial del mismo.
Por otro lado existe el mtodo de correccin a travs del Durbin Watson.
Mediante esta tcnica, aunque no se conoce , este es posible estimarlo a
partir del estadstico d de la regresin del modelo original. Una vez
obtenido el valor de las variables son transformadas para
posteriormente estimar la siguiente ecuacin de primeras diferencias:
Uno de los supuestos del modelo clsico de regresin lineal es que el modelo se
encuentra bien especificado, es decir que su forma funcional y las variables que lo
componen representan la formulacin correcta. La teora econmica y algunas
70
medidas empricas son tiles para probar si un modelo cuenta con error de
especificacin.
71
medicin. Si el error se presenta en la variable dependiente como en la
independiente, los estimadores de mnimos cuadrados sern sesgados.
Yi = 1 + 2 X i + 3Yi + 4Yi + v i
2 3
F=
(R 2
R 2o ) j
aux
~. f j , n g
(1 R 2 aux ) (n g )
72
hiptesis alterna afirma lo contrario. Si F > f j , n g aun nivel de significancia se
73
2. Prueba de Normalidad Jarque Bera. Es una prueba para muestras
grandes, basada en los residuos de mnimos cuadrados ordinarios.
Requiere calcular la asimetra y curtosis de los residuos.
A 2 ( K 3) 2
JB = n + ~. 22 gl
6 24
E(X ) E ( X )4
3
A= y K=
[Var ( X )]
3
2
[Var ( X )]2
74
6.6. Ejercicios de computador.
Dependent Variable: DX
Method: Least Squares
Date: 10/04/06 Time: 10:31
Sample: 1 13
Included observations: 13
A. Prueba de Multicolinealidad
75
MATRIZ DE CORRELACION
VARIABLE PX PZ PW I
PX 1.000000 -0.886170 0.950308 -0.530011
PZ -0.886170 1.000000 -0.811397 0.493410
PW 0.950308 -0.811397 1.000000 -0.556062
I -0.530011 0.493410 -0.556062 1.000000
Dependent Variable: PX
Method: Least Squares
Date: 10/05/06 Time: 09:48
Sample: 1 13
Included observations: 13
76
REGRESIN DE I EN FUNCIN DE PW, PX Y PZ
Dependent Variable: I
Method: Least Squares
Date: 10/05/06 Time: 09:51
Sample: 1 13
Included observations: 13
Dependent Variable: PW
Method: Least Squares
Date: 10/05/06 Time: 10:00
Sample: 1 13
Included observations: 13
77
REGRESIN DE PZ EN FUNCIN DE PX, PW, I
Dependent Variable: PZ
Method: Least Squares
Date: 10/05/06 Time: 10:01
Sample: 1 13
Included observations: 13
78
B. Prueba de Heteroscedasticidad
Con el objeto de verificar si los errores del modelo tienen varianza constante se
desarrolla la prueba de Heteroscedasticidad de White (sin trminos cruzados):
PRUEBA DE WHITE
Test Equation:
Dependent Variable: RESID^2
Method: Least Squares
Date: 10/05/06 Time: 09:43
Sample: 1 13
Included observations: 13
79
puede rechazar la hiptesis nula de homoscedasticidad, es decir el modelo original
no presenta heteroscedasticidad.
C. Prueba de Autocorrelacin
PRUEBA BREUSCH-GODFREY
Test Equation:
Dependent Variable: RESID
Method: Least Squares
Date: 10/05/06 Time: 09:26
Presample missing value lagged residuals set to zero.
80
D. Prueba sobre forma funcional inadecuada
81
PRUEBA RESET DE RAMSEY
Test Equation:
Dependent Variable: DX
Method: Least Squares
Date: 10/05/06 Time: 09:42
Sample: 1 13
Included observations: 13
82
D. Prueba de Normalidad
Para probar si los residuos del modelo de demanda siguen distribucin normal a
se realiza el histograma de los errores y la prueba Jarque Bera. Los resultados de
estos procedimientos son los siguientes:
83
anlisis en los modelos economtricos tiene una connotacin diferente a las
variables cuantitativas.
Por otro lado, un ejemplo de una variable que puede ser representada en escala
ordinal es el estrato econmico. El nombre de ordinal se refiere a que en la
estructura de registro el orden tiene gran relevancia. El investigador puede
conformar la variable de la siguiente manera:
84
TRABAJOt = 1 + 2 SALARIOt + 3 GENERO3 + 4 ESTRATOt + t
Donde:
TRABAJO: Nmero de horas trabajadas al mes
SALARIO: Ingreso laboral
GENERO: Sexo del jefe de familia
ESTRATO: Nivel de estrato econmico del hogar.
85
Utilidad de las variables dummy:
De acuerdo con ello, las dummy pueden ser entonces utilizadas para mostrar la
existencia de cambio estructural. Por ejemplo para periodos de tiempo (D=1 para
datos tomados en o despus de 1970 y D=0 para datos antes de 1970).
LnW = + 1 X + 2 D + u
86
W blanco
= e 0, 26
W otra raza
W blanco = 1.297 W otra raza
Lo anterior que quiere decir que el salario de una persona de raza blanca es
29.7% ms alto que el de otra raza. Cuando la variable dependiente del modelo
esta transformada en logaritmo este procedimiento resulta til, el cual se resume
Y = 0 + 1 X + 1 D1 + 2 D2 + u
E (Y X , D1 = 0, D2 = 0) = 0 + 1 X
E (Y X , D1 = 1, D2 = 0) = 0 + 1 X + 1
E (Y X , D1 = 0, D2 = 1) = + 1 X + 2
87
En este caso solo se generan cambios en intercepto, dado que 1 y 2 se agregan
a la constante 0 en su respectivo modelo.
Y = 0 + 1 X + 1 D1 + 2 D2 + 3 D1 D2 + u
E (Y X , D1 = 0, D2 = 0) = 0 + 1 X
E (Y X , D1 = 1, D2 = 0) = 0 + 1 X + 1
E (Y X , D1 = 0, D2 = 1) = 0 + 1 X + 2
E (Y X , D1 = 1, D2 = 1) = 0 + 1 X + 1 + 2 + 3
Ejemplo de un modelo con variable dummy e interaccin de una dummy con una
variable continua:
Y = 0 + 1 X + 1 D + 2 DX + u
E (Y X , D = 0 ) = 0 + 1 X
E (Y X , D = 1) = 0 + 1 X + 1 + 2 X
88
La ltima expresin puede escribirse como:
E (Y X , D = 1) = ( 0 + 1 ) + ( 1 + 2 )X
Esta ecuacin es til para mostrar si existe cambio estructural en intercepto y/o
pendiente, dependiendo de la significancia de los coeficientes 1 y 2 . Por ejemplo
si 1 = 2 = 0 el resultado sugiere la no ocurrencia de cambio en pendiente e
intercepto en la regresin.
89
puede interesar el tipo de transporte que las personas utilizan para llegar a su
lugar de trabajo: bus, automvil, taxi, transmilenio, bicicleta, etc.; cada una de
estas alternativas es distinta.
90
BIBLIOGRAFA
91
ANEXOS
92
ANEXO 1.
REGRESIN LINEAL MLTIPLE EN EL PAQUETE
ESTADSTICO EVIEWS 4.1
Ejemplo
Dx = 0 + 1 I + 2 Pw + 3 Px + 4 Pz + U
Donde:
93
Desarrollo
94
Se selecciona el archivo a
importar; en este caso
corresponde a dem1.xls
del subdirectorio donde se
haya almacenado.
95
De esta manera la base de
datos ha sido importada
con todas sus variables.
Las observaciones pueden
ser vistas al seleccionar las
columnas deseadas y
pulsando el link show.
96
Aplicando O.K. de acuerdo con la primera modalidad de estimacin, el
resultado de es el siguiente:
97
APUNTES DE CLASE
3
CEDE
OCTUBRE DE
2006
3
Actualmente, las reas de inters para el CEDE son: Macroeconoma y Sector Finan-
ciero, Evaluacin Socioeconmica de Proyectos, Economa Ambiental, Economa
Agrcola, Demografa, Educacin, Salud, Economa Laboral, Economa Regional y
Urbana, Economa Internacional, Economa Experimental, Finanzas Pblicas, Econo-
ma, Conflicto y Violencia, y Economa Institucional.
El CEDE tiene dentro de sus objetivos difundir los trabajos realizados por sus
investigadores en las reas mencionadas, as como otros trabajos de inters Ramn Antonio Rosales lvarez
acadmico y cientfico. Para el logro de tal propsito, se publica semestralmente la
revista Desarrollo y Sociedad, as como libros y la serie Documentos CEDE. Esta ltima Jorge Alexander Bonilla Londoo
difunde entre la comunidad acadmica y la profesin los resultados de las principales
investigaciones desarrolladas en el CEDE. Por supuesto, las opiniones expresadas en
ellos son responsabilidad exclusiva de los autores.
Introduccin a la econometra
CEDE
Centro de Estudios
sobre Desarrollo Econmico
Facultad de Economa
2006
CEDE
Centro de Estudios
sobre Desarrollo Econmico
Facultad de Economa
UNIVERSIDAD DE LOS ANDES Universidad de los Andes