Está en la página 1de 63

NOTAS DE CLASE

“INTRODUCCIÓN
A LA ECONOMETRÍA”

Ramón Antonio Rosales Álvarez


Profesor

Jorge Alexander Bonilla Londoño


Profesor Asistente

Bogotá D. C. – Colombia
Marzo 27 de 2004.
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

UNIVERSIDAD DE LOS ANDES


FACULTAD DE ECONOMIA

ESPECIALIZACIÓN EN EVALUACIÓN DE PROYECTOS

PROGRAMA DE ECONOMETRIA

Profesor: Ramón Antonio Rosales Álvarez 1


Correo Electrónico: rrosales@uniandes.edu.co

Profesor Asistente: Jorge Alexander Bonilla Londoño 2


Correo Electrónico: jbonilla@dnp.gov.co

1. INTRODUCCIÓN

El curso de Econometría hace parte del área de métodos cuantitativos en


economía y se constituye en una herramienta importante en la investigación
económica, diseño y análisis de política. El contenido y el desarrollo del curso son
a nivel introductorio y su interés es la aplicación de los conceptos teóricos.

2. OBJETIVOS

- Proporcionar al estudiante las bases iniciales para el manejo de los métodos y


modelos econométricos.

- Familiarizar al estudiante sobre la aplicación de modelos que permitan


entender el comportamiento de los agentes económicos, y en la estimación de
parámetros para el análisis y evaluación de medidas de política.

- Suministrar los elementos necesarios para el manejo de la información, análisis


de resultados e interpretación de salidas del computador que hagan más
eficiente la labor de investigación.

1
Ph.D. en Economía Agrícola, Profesor Asociado Facultad de Economía de Econometría I, Econometría Avanzada y
Desarrollo, Economía Agrícola y Medio Ambiente. Universidad de Los Andes.
2
Magíster en Economía y Magíster en Economía del Medio Ambiente y de los Recursos Naturales, Profesor Taller de
Econometría I y Taller de Econometría Avanzada, Facultad de Economía. Universidad de Los Andes.

2
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

3. METODOLOGÍA

El curso se desarrollará mediante sesiones de clases en las que se expondrán los


conceptos teóricos, con ejemplos ilustrativos y la realización de ejercicios. Se
desarrollarán talleres con la aplicación del paquete econométrico EVIEWS, con el
propósito de ilustrar la utilidad de los conceptos teóricos y ganar destreza en el
manejo del instrumental analítico.

4. CONTENIDO

CAPITULO 1. INTRODUCCIÓN

1.1 Métodos cuantitativos de la economía.


1.2 Definiciones de la econometría.
1.3 Objetivos de la econometría.
1.4 Divisiones de la econometría.
1.5 Modelo.
1.6 Modelo económico.
1.7 Modelo econométrico.
1.8 Componentes del modelo.
1.9 Clasificación de las variables.
1.10 Clasificación de las ecuaciones.
1.11 Clasificación de los modelos.

CAPITULO 2. ORGANIZACIÓN DE DATOS Y ESTADISTICA DESCRIPTIVA

2.1 Objetivos de la estadística


2.2 Divisiones de la estadística
2.3 Tipos de variables
2.4 Población y muestra
2.5 Parámetros poblacionales y estadísticos muestrales
2.6 Medidas de tendencia central
2.7 Medidas de dispersión
2.8 Métodos y diagnósticos gráficos
2.9 Ejercicios e interpretación salidas de computador

CAPITULO 3. ANALISIS DE CORRELACION

3.1 Diagrama de Dispersión


3.2 Coeficiente de Correlación Lineal Simple (r)

3
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

3.3 Prueba de hipótesis


3.4 Interpretación salidas de computador EVIEWS

CAPITULO 4. REGRESION SIMPLE LINEAL Y NO LINEAL

4.1 Objetivo del análisis de regresión


4.2 Función de regresión muestral y poblacional
4.3 Supuestos del modelo de regresión
4.4 Método de estimación de mínimos cuadrados ordinarios
4.5 Varianzas y errores estándar de los estimadores
4.6 Intervalos de confianza
4.7 Pruebas de hipótesis
4.8 Predicción
4.9 Modelos de regresión simple no lineal
4.10 Interpretación salidas de computador

CAPITULO 5. REGRESION MULTIPLE LINEAL Y NO LINEAL

5.1 Expresión del modelo en forma matricial


5.2 Supuestos del modelo
5.3 Método de estimación de mínimos cuadrados ordinarios
5.4 Matriz de varianzas y covarianzas de los estimadores
5.5 Pruebas de hipótesis
5.6 Coeficiente de determinación ajustado
5.7 Intervalos de confianza.
5.8 Modelos de regresión múltiple no lineal
5.9 Interpretación salidas del computador.

CAPITULO 6. INCUMPLIMIENTO SUPUESTOS DEL MODELO

6.1 Multicolinealidad
6.2 Heteroscedasticidad
6.3 Autocorrelación
6.4 Interpretación salidas del computador.

CAPITULO 7. ANÁLISIS TRANSVERSAL

7.1. Regresión con variables independientes cualitativas


7.2. Regresión con variable dependiente cualitativa

4
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

5. BIBLIOGRAFÍA

TEXTO GUIA:

Gujarati, Damodar. 1997. Econometría. Mc Graw Hill.

TEXTOS ADICIONALES

Mason y Lind. 2001. Estadística para Administración y Economía. Editorial


Alfaomega.

Novales, Alfonso . 1997. Econometría, McGraw Hill, Bogotá.

Manual de EVIEWS.

5
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

CAPITULO 1. INTRODUCCION

1.1. Métodos Cuantitativos de la Economía.

Los métodos cuantitativos de la economía comprenden tres áreas: a) Análisis


Matemático y Algebra Lineal; b)Programación Lineal y Análisis de Insumo-Producto y
c) Econometría.

La investigación econométrica se inició con el análisis estadístico de la Demanda por


Cournout (1838) y Marshall (1890). Posteriormente Tinbergen en 1939 hizo su
aporte a la econometría mediante el estudio del análisis de los ciclos económicos.
Sin embargo, es en el periodo de 1943-1950 cuando la econometría comienza su
desarrollo con los trabajos de la Comisión Cowles. La hipótesis básica es la de que
"los datos económicos se generan por sistemas de relaciones que son, en general
estocásticos, dinámicos y simultáneos".

La econometría hoy en día es una herramienta muy importante para el economista


en el análisis y comportamiento de los fenómenos económicos. Su desarrollo ha
sido acelerado debido a la dinámica que han mostrado los adelantos en análisis
matemático, en métodos estadísticos y en métodos de computación.

1.2. Definiciones de Econometría

Dado que en la econometría se asocian la Teoría Económica, las Matemáticas y la


Estadística, se tiene entonces que diferentes autores dan definiciones en las cuales
se trata de relacionar estas tres áreas del conocimiento.

G. Tintner: la econometría consiste en la aplicación de la teoría económica


matemática y de los métodos estadísticos a los datos económicos para establecer
resultados numéricos en el campo de la economía y verificar los teoremas
económicos.

W.C. Hood y T.C. Koopmans: la econometría es una rama de la economía en que la


teoría económica y los métodos estadísticos se fusionan en el análisis de los datos
numéricos e institucionales.

6
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

T. Havellmo: el método de la investigación econométrica intenta, esencialmente, unir


la teoría económica y las mediciones reales, empleando la teoría y la técnica de la
inferencia estadística como un puente.

Estas tres definiciones nos indican que la econometría es cuantitativa y que está en
estrecho contacto con la realidad.

R. Frisch: la econometría a pesar de nutrirse de la Teoría Económica, de las


Matemáticas y de la Teoría Estadística, no es ni "Estadística Económica", ni "Teoría
Económica", ni "Economía Matemática".

Oskar Lange, en la práctica le da al término Econometría un significado distinto. En


su libro Introducción a la Econometría incluye los análisis de Insumo-Producto y
Programación Lineal, a un nivel en el que no se hace uso de términos estocásticos.
Por otra parte, Lange coincide con las definiciones dadas anteriormente.

O. Lange: la econometría es la ciencia que trata de la determinación, por métodos


estadísticos, de leyes cuantitativas concretas que rigen la vida económica. La
Econometría combina la Teoría Económica con la Estadística Económica y trata, por
métodos matemáticos y estadísticos, de dar una expresión cuantitativa y concreta a
las leyes esquemáticas generales establecidas por la teoría económica.

1.3. Objetivo de la Econometría

El objetivo de la econometría es el de expresar las teorías económicas en términos


matemáticos para verificarlas por métodos estadísticos y para medir el impacto de
una variable sobre otra, así como para poder predecir los sucesos futuros o
aconsejar la política económica que debe seguirse cuando se desea un resultado
determinado.

1.4. Divisiones de la Econometría

Las principales divisiones de la econometría son las siguientes:


1. Especificación (uso de la Teoría Económica)
2. Estimación (uso de Métodos Estadísticos)
3. Verificación (Interpretación Económica y Pruebas Estadísticas)
4. Predicción (Aplicación: Nuevos resultados teóricos, implicaciones de política,
predicciones).

A.G. Barbancho le da a la econometría un objetivo de política económica, al


establecer que en la econometría se distinguen cuatro fases:

7
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

1. Toma de la Teoría Económica aquellas "teorías" leyes o hipótesis particulares que


se desean investigar.
2. Utiliza, como instrumentos auxiliares, las matemáticas y la estadística para su
especificación en forma de modelos matemáticos, su estimación y su verificación.
3. Vuelve de nuevo a la Teoría Económica para utilizar adecuadamente la expresión
cuantificada de la teoría o modelo particular.
4. Se convierte en un instrumento de política económica.

En resumen, se puede decir que las teorías económicas se desarrollan para definir
las relaciones que se establecen entre variables económicas. El objetivo de estas
teorías es el de entender la organización que existe entre los diversos agentes
económicos. En base a este entendimiento es posible diseñar mejores políticas
económicas que afectan tanto a la actividad económica, como al bienestar
económico de la sociedad. Para ello es necesario verificar estas teorías para que
así ellas sean útiles en lograr sus objetivos.

1.5. Modelo

Se puede decir que modelo es una representación simplificada de la realidad. Los


investigadores y los profesionales de diferentes áreas trabajan con modelos
simplificados que representan un fenómeno de interés y que permite estudiar su
comportamiento.

A. Rosenblueth, con respecto a los modelos científicos, dice que "la construcción de
modelos de los fenómenos naturales es una de las tareas esenciales de la labor
científica. Mas aún, se puede decir que toda la ciencia no es sino la elaboración de
un modelo de la naturaleza. La intención de la ciencia y el resultado de la
investigación científica, son el obtener conocimientos y el control de alguna parte del
Universo".

1.6. Modelo Económico

Se puede designar como modelo económico a cualquier conjunto de supuestos que


describen una economía o parte de una economía. En este sentido la teoría
económica es la formulación y análisis de modelos. Dado que un modelo no es sino
una representación simplificada de la realidad, entonces se deben precisar las
interrelaciones que se establecen entre las diferentes variables que intervienen en el
fenómeno a analizar.

Las características mínimas que debe satisfacer un modelo económico son las
siguientes:
1. Que represente un fenómeno económico real.
2. Que la representación sea simplificada y

8
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

3. Que se haga en forma matemática.

Al definir un modelo económico como un conjunto de relaciones matemáticas


(usualmente ecuaciones) que expresan una teoría económica, no se exige
necesariamente la especificación concreta del tipo de función que relaciona las
variables involucradas.

Una especificación de un modelo económico podría ser:

Y = f (X1, X2, ......, Xk) (1)

donde Y = cantidad producida; Xi = cantidad del i-esimo insumo.

Como puede verse esta ecuación (función de producción) no es muy especifica, pero
la relación si expresa que existe una relación entre el producto y los insumos, y que
las cantidades utilizadas de insumos determinan la cantidad producida, y no a la
inversa.

Para ser más especifico se necesita determinar que tipo de relación es la que existe
entre las variables económicas, como por ejemplo una relación lineal:

Y = Bo + B1 X1 + B2 X2 + .....+ Bk Xk (2)

Nótese que está relación puede ser correcta, aunque puede también estar en error
en cuanto a especificación, ya que no sabemos si el insumo X2 es determinante en
esta forma del producto Y. También se debe resaltar que este modelo pone énfasis
en un número relativamente pequeño de variables importantes cuya interrelación se
puede expresar más adecuadamente en un modelo matemático que en una
explicación escrita.

2.1. Modelo Econométrico

Se puede decir que un modelo econométrico es un modelo económico que contiene


las especificaciones necesarias para su validación empírica.

Es usual pensar en el modelo econométrico como un modelo conformado por una


parte matemática y una parte aleatoria o término de error. El modelo econométrico
para el modelo expuesto en la ecuación (2) seria entonces:

Y = Bo + B1 X1 + B2 X2 + .....+ Bk Xk + E (3)

en donde Bo + B1 X1 + B2 X2 + ...+ Bk Xk es la parte matemática y E es el termino


de error o variable aleatoria.

9
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

Los modelos econométricos por considerar una parte de error o término aleatorio en
su conformación, hacen parte de los modelos probabilisticos.

Una diferencia fundamental entre los modelos económicos y los modelos


econométricos, es la de que los modelos económicos son modelos teóricos validos
siempre, dado que han sido establecidos por la teoría económica, es decir solo
persiguen la expresión de una determinada teoría. Por otro lado, los modelos
econométricos, reflejan el estado de las cosas o de una situación y aunque tiene sus
bases económicas puede cambiar con el estudio que se este haciendo.

Los modelos econométricos se prueban a través del uso sistemático de la


información estadística. Un modelo econométrico permite la inferencia estadística a
partir de los datos que se estudien, por lo cual el modelo econométrico debe
especificar los elementos aleatorios que se suponen intervienen en la determinación
de las observaciones, de modo que estas últimas pueden considerarse como una
muestra.

A diferencia de los modelos determinísticos, en los que el margen de error en


determinar el valor de la variable dependiente dado cambios en las independientes
es casi nulo, en los modelos econométricos es muy difícil de que se de.

Existen diferentes razones por las cuales los modelos econométricos deben de
considerar el termino de error, destacándose como las más importantes las
siguientes:

a) datos: la economía hace parte de las ciencias sociales, el grado de control que se
puede tener sobre las variables es difícil. A pesar de que se busca obtener los
verdaderos valores de las variables, se debe aceptar que hay cierto error en la
medición.

Un ejemplo típico es cuando se introduce la variable ingreso en un estudio y al


preguntar por su valor, las personas por diferentes motivos tienden a dar un dato
diferente al que realmente es. Otra situación es cuando se le pregunta al agricultor
la cantidad de fertilizante que aplicó por hectárea al cultivo en la cosecha pasada y el
trata de dar un dato aproximado porque no se acuerda o sencillamente por que la
cantidad que el aplica no es exacta, sino al tanteo.

b) número de variables: el investigador no puede colocar todas las variables que


están explicando un fenómeno; por lo tanto trata de incluir aquellas variables más
relevantes, dejando por fuera del modelo aquellas que explican muy poco. Sin
embargo el investigador es consciente de que al no poder incluir todas las variables
en el modelo esta incurriendo en cierto margen de error.

10
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

c) Disponibilidad de la información: muchas veces a pesar de que el investigador


quiere incluir una variable en el modelo por que la considera importante, se
encuentra con el problema de cómo cuantificarla. Un ejemplo de ésta situación es la
variable clima, la cual se sabe afecta el comportamiento de la oferta; sin embargo,
generalmente el investigador tiene que conformarse con incluir una variable o una
información que se asemeje, pero que no la refleja exactamente.

d) forma funcional: el investigador puede postular que la relación entre las variables
es de tipo lineal; sin embargo, para otro investigador la forma funcional puede ser
cuadratica. Esta es otra fuente de error en la formulación del modelo, por que no se
puede tener la certeza total sobre la forma funcional del modelo.

Finalmente, la formulación de un modelo econométrico requiere los siguientes pasos:


1. Delimitar el fenómeno que se va a estudiar; 2. Seleccionar las variables
relevantes; 3. Establecer las relaciones entre las variables y 4. Tener una idea
definida de la finalidad que ha de cubrir el modelo, lo que influye en la especificación,
selección de las variables y en el número y forma de relaciones

2.2. Elementos que Componen el Modelo

Los elementos que componen el modelos son las variables, las ecuaciones y los
parámetros.

Una variable es una entidad que puede tomar cualquier valor, sin embargo, interesan
solo aquellos valores que tienen un significado económico, es decir los valores
factibles que definen su correspondiente dominio o recorrido. Así por ejemplo para
las variables precio, producción, ingreso, cantidad de insumo utilizado solo tienen
sentido económico valores positivos.

Una ecuación es una expresión matemática que establece una relación entre
variables. Los parámetros son otra categoría matemática. Estos son los factores de
ponderación correspondiente a cada variable explicativa y miden el efecto de las
fluctuaciones de estas variables sobre la variable dependiente. Los parámetros son
importantes en los modelos, ya que sobre estos se formulan las pruebas de
hipótesis. El parámetro que no acompaña ninguna variable independiente se le
conoce como constante parametrica (intercepto); su interpretación puede tener
sentido económico dependiendo del modelo que se este considerando. Los valores
de los parámetros cambian de una situación a otra.

Los elementos que conforman un modelo se pueden clasificar desde diferentes


puntos de vista; sin embargo para el curso interesa principalmente la clasificación
desde el punto de vista económico.

11
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

2.3. Clasificación de las Variables

Desde el punto de vista económico las variables se pueden clasificar como variables
endógenas y variable exógenas. Las variables endógenas son aquellas cuyos
valores están determinados dentro del modelo. Las variables exógenas son aquellas
cuyos valores están determinados fuera del modelo. Un grupo adicional de
clasificación se conoce como variables predeterminadas que comprende las
exógenas con o sin retardo y las endógenas con retardo. Otro tipo, son las variables
esperadas o de expectativas de gran aplicación.

Existen otras clasificaciones de las variables. Estadísticamente se habla de


variables continuas y variables discretas al igual que de variables aleatorias. En
términos de función matemática se establecen variables dependientes e
independientes.

2.4. Clasificación de las Ecuaciones

Desde el punto de vista económico las ecuaciones se pueden clasificar de la


siguiente forma:

a) Ecuaciones de comportamiento: Son aquellas que reflejan el comportamiento de


los distintos agentes económicos (consumidores, productores, inversionistas, etc).
Las ecuaciones de comportamiento son las que mayor aporte teórico le hacen a los
modelos. Ejemplos de ecuaciones de comportamiento son las de demanda, oferta,
inversión, consumo, ahorro, etc.

b) Ecuaciones Tecnológicas: El ejemplo típico de una ecuación tecnológica es la


función de producción, la cual refleja el estado de la tecnología de un sector ó de un
país.

c) Ecuaciones Institucionales: Reflejan un mandato o voluntad del Gobierno o de los


estamentos que toman las decisiones en un país. Ejemplo de ecuaciones
institucionales son la de impuestos, subsidios, oferta monetaria, etc.

d) Ecuaciones de Definición: son ecuaciones o identidades válidas siempre por


definición. Generalmente son relaciones contables y la mayoría de los ejemplos de
este tipo de ecuaciones se encuentran en las cuentas macroeconómicas. Una
ecuación de definición es la de que activo = pasivo + capital. O la ecuación de
identidad del Producto Nacional Bruto para una economía de tres sectores en
macroeconomía.

12
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

e) Ecuaciones de equilibrio: estas garantizan que el modelo tenga solución. Ejemplo


de estas ecuaciones es la de que la oferta debe ser igual a la demanda para una
situación de equilibrio; o la de que ahorro es igual a la inversión.

2.5. Clasificación de los Modelos

Desde el punto de vista de la cobertura se puede hablar de modelos


microeconómicos o modelos macroeconómicos. Según el numero de variables
independientes se establecen modelos simples y modelos múltiples. Si se considera
el número de ecuaciones se tienen modelos uniecuacionales y modelos
multiecuacionales. Al tratar de capturar el efecto del tiempo en el modelo se puede
tener modelos estáticos y modelos dinámicos. Relacionando el número de variables
endógenas con el número de ecuaciones se tienen modelos completos y modelos
incompletos. Finalmente, según la expresión matemática se puede hablar de
modelos algebraicos y modelos no algebraicos.

13
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

CAPITULO 2. ORGANIZACIÓN DE DATOS Y ESTADÍSTICA


DESCRIPTIVA

2.1. Objetivos de la Estadística

La estadística es el lenguaje universal de la ciencia, tanto en sus ramas físicas como


sociales. La estadística es un instrumento formal que utilizado de manera rigurosa y
con precisión, permite describir resultados y adoptar decisiones respecto a lo que
estos evidencian empíricamente. La estadística en su aplicación sigue el método
científico y se define como la ciencia de recolectar, clasificar, describir e interpretar
datos numéricos, es el lenguaje universal de la ciencia y el estudio de los
fenómenos aleatorios. Dentro de sus objetivos fundamentales se encuentra la
estimación de una o más características desconocidas de una población, la
realización de inferencias y las pruebas de hipótesis.

Se considera fundador de la estadística a Godofredo Achenwall, economista


alemán (1719-1772), quien siendo profesor de la universidad de Leipzig, escribió
sobre el descubrimiento de una nueva ciencia que llamó estadística (palabra
derivada de Staat que significa gobierno) y que definió como “el conocimiento
profundo de la situación respectiva y comparativa de cada estado”. Desde su
aparición la estadística se ha enriquecido continuamente con los aportes de
matemáticos, filósofos y científicos.

La teoría general de la estadística es aplicable a cualquier campo científico en el


cual se toman observaciones. El estudio y aplicación de los métodos estadísticos
son necesarios en todos los campos del saber, sean estos de nivel técnico o
científico. Las primeras aplicaciones de la estadística fueron los temas de
gobierno, luego las utilizaron las compañías de seguros y los empresarios de
juegos de azar; a los anteriores siguieron los comerciantes, los industriales, los
educadores, etc. En la actualidad resulta difícil indicar profesiones que no utilicen
la estadística.

2.2. Divisiones de la Estadística

El campo de la estadística puede dividirse ampliamente en dos áreas: estadística


descriptiva o deductiva y estadística inferencial o inductiva. La estadística

14
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

descriptiva es aquella en la que piensa la mayoría de la gente cuando se escucha la


palabra "estadística", consiste en el área de estadística dedicada a la recolección,
presentación, descripción de datos numéricos, y cuyas conclusiones sobre los
mismos no sobrepasan el conjunto de conocimientos que estos proporcionan. Por
otro lado, la estadística inductiva, o simplemente inferencia estadística es el
método y conjunto de técnicas que se utilizan para obtener conclusiones más allá
de los límites del conocimiento aportado por los datos, en otras palabras, busca
obtener información de una población a partir de los datos de una muestra.

2.3. Tipos de Variables

En estadística cuando se recopila información, ésta es registrada por medio de la


observación o medición de una variable aleatoria que proviene de la realización de
un experimento. Se llama variable aleatoria, debido a que los valores que toma la
variable corresponden a los distintos resultados posibles de un experimento, en ese
sentido que ésta tome un valor particular es un evento aleatorio.

Aún, cuando las observaciones resultantes no siempre son numéricas en algunos


experimentos, estas pueden cuantificarse asignándoles números que indiquen o
representen una categorización. Por esta razón, el interés se centra generalmente
en variables que pueden representarse numéricamente.

Existen dos tipos de variables aleatorias: discretas y continuas. Las primeras pueden
tomar valores como los números enteros, mientras las segundas toman valores
dentro de un intervalo. Si se tienen dos variables aleatorias, por ejemplo: el número
de habitantes en una localidad y el consumo de energía eléctrica; la primera, se
encuentra dentro del grupo de variables aleatorias discretas, y la segunda, dentro del
conjunto de variables aleatorias continuas.

2.4. Población y Muestra

El concepto de población y muestra es muy importante en la ciencia estadística, por


lo que es conveniente presentar su definición:

Población: Es la colección completa de individuos, objetos o medidas que tienen


una característica en común. La población debe definirse cuidadosamente en cada
estudio científico de acuerdo con el interés y objetivo de la investigación.
Muestra: Es un subconjunto de la población; es decir, ella se compone de algunos
de los individuos, objetos o medidas de una población. La muestra es obtenida con
el propósito de investigar, a partir del conocimiento de sus características
particulares, las propiedades de toda la población, en este sentido, es importante la
selección de una muestra que sea representativa de la población. Es necesario
formalmente enfatizar en la aleatoriedad de la muestra, lo cuál se refiere a la manera

15
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

de seleccionar los elementos de la población que conformarán la muestra. La


palabra “aleatoriedad” para este caso consiste en garantizar que cada elemento de
la población tenga la misma probabilidad de ser elegido. Se considera que una
muestra es más eficiente, cuando proporciona la mayor información útil al menor
costo.

Los conceptos anteriores pueden tratarse en el siguiente ejemplo: Suponga que se


desea conocer el consumo promedio por hogar de energía eléctrica en la ciudad de
Bogotá. Para este caso, la población corresponde a todos los hogares de la ciudad,
mientras que la muestra estará constituida por aquellos hogares que pueden ser
seleccionados de manera aleatoria, como un grupo representativo de todos los que
habitan en Bogotá.

2.5. Parámetros Poblacionales y Estadísticos Muestrales

El término “parámetro” es utilizado en la estadística para referirse a la


característica desconocida de la población que desea estimarse o evaluarse a
través de una prueba de hipótesis. Por otro lado, el concepto “estadístico” se usa
para tratar una medida obtenida de una muestra para una característica
poblacional no conocida. Cabe anotar que los estadísticos son fundamentales en
la realización de inferencias. El valor promedio y la varianza son ejemplos de tales
medidas.

2.6. Medidas de Tendencia Central

Las medidas de tendencia central se encuentran dentro de las medidas numéricas


que se emplean comúnmente para describir conjuntos de datos. La tendencia
central de un conjunto de datos es la disposición de éstos para agruparse, ya sea
alrededor del centro o de ciertos valores numéricos. A este grupo de medidas
pertenecen la media, la mediana y la moda.

2.7. Medidas de dispersión

Existen otro tipo de medidas numéricas cuyo objetivo es explorar la variabilidad de


los datos. Esta variabilidad se entiende como la dispersión de las observaciones
en un conjunto de datos. Dentro de estas medidas se encuentran: la varianza, la
desviación media, la desviación mediana, el recorrido o rango, entre otras.

2.8. Métodos y Diagnósticos Gráficos.

Los datos en los experimentos son recopilados inicialmente “sin agrupar”, para
luego, según el interés del investigador presentarlos “agrupados”, en forma de
clases o intervalos. Es importante tener en cuenta que las fuentes de información

16
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

primaria y secundaria almacenan sus datos “sin agrupar” o como datos


“agrupados”. Con base en lo anterior, es relevante conocer el procedimiento de
cálculo de las medidas numéricas para ambos casos. Las expresiones
algebraicas que describen la forma de obtener las medidas de tendencia central y
de dispersión se muestran en la Tabla No. 1.

Por otro lado, con los datos agrupados de una variable aleatoria es posible
construir histogramas de frecuencias, los cuales pueden ser comparados con las
representaciones gráficas de distribuciones de probabilidad ya conocidas de
variables aleatorias. En la mayoría de los casos, estos histogramas se comparan
con la distribución normal, donde por inspección es posible identificar sesgos o
apuntamientos en la distribución.

Tabla No. 1. Medidas de Tendencia central y de Dispersión.

Medida Numérica Datos sin agrupar Datos agrupados


n k k
Media x= ∑ xi n x=∑
i =1
f i xi
n
, donde n= ∑ fi
i =1
i =1
Mediana Valor central de la distribución (el Mediana = L + c( j f m )
50% de los datos se encuentran
por encima de este valor).
• Punto medio de la clase
con frecuencia más alta.
• El promedio de los puntos
medios de las clases
Moda Valor más frecuente consecutivas con frecuencias
iguales más altas.
• Puntos medios de las
clases no consecutivas con
frecuencias iguales más altas.

2
 k 
n  ∑ f i x i 

s 2 = ∑ ( x i − x )2 ( n − 1 ) k
f i x i2 −  i =1 
Varianza i =1
∑ n
i =1
s2 =
n −1
n k

∑ xi − x ∑ f i xi − x
Desviación Media i =1
DM = i =1 DM = k
n ∑ fi
i =1
n k

∑ xi − Md ∑ f i x i − Md
i =1
Desviación Mediana i =1 DM =
DM = k

n ∑ fi
i =1
Recorrido Max - min.

17
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

2.9. Ejercicios e Interpretación Salidas de Computador

Considérese el siguiente conjunto de datos hipotéticos de un estudio de demanda

Tabla No. 2. Datos hipotéticos en el estudio de demanda del bien X.

obs DX PX PZ PW I
1 37 7 5 7 6
2 38 6 7 5 8
3 18 10 3 13 3
4 50 4 9 4 18
5 22 9 3 11 3
6 55 2 12 3 21
7 42 8 5 8 2
8 29 8 5 9 19
9 63 2 18 3 20
10 13 12 2 15 6
11 60 3 9 5 12
12 62 3 10 5 5
13 36 6 5 6 26

ESTADÍSTICAS DESCRIPTIVAS

MEDIDAS DE TENDENCIA CENTRAL, DE DISPERSION Y NORMALIDAD

DX PX PZ PW I E
Mean 40,3846 6,1538 7,1538 7,2308 11,4615 1,8462
Median 38 6 5 6 8 2
Maximum 63 12 18 15 26 3
Minimum 13 2 2 3 2 1
Std. Dev. 16,8994 3,2106 4,4318 3,8113 8,2726 0,8987
Skewness -0,1141 0,2015 1,1012 0,7836 0,3946 0,3012
Kurtosis 1,8010 1,9467 3,7131 2,4772 1,6434 1,4070
Jarque-Bera 0,8069 0,6888 2,9030 1,4786 1,3342 1,5711
Probability 0,6680 0,7086 0,2342 0,4775 0,5132 0,4559
Sum 525 80 93 94 149 24
Sum Sq. Dev. 3427,0769 123,6923 235,6923 174,3077 821,2308 9,6923
Observations 13 13 13 13 13 13

18
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

CAPITULO 3. ANALISIS DE CORRELACION

3.1. Diagrama de Dispersión

Una primera aproximación con el fin de detectar algún tipo de relación entre dos
variables ( X y Y), consiste en ubicar los pares de valores de en un plano cartesiano
hasta conformar la nube de puntos. Un diagrama de dispersión es la representación
gráfica de todos los pares de valores en sistema de ejes de coordenadas.

El diagrama de dispersión no es un método estadístico como tal, más bien estaría


dentro de los llamados métodos de "ojímetro", sin embargo, es una manera fácil de
visualizar si se puede presentar alguna posible relación entre las variables.

El diagrama de dispersión puede presentar diferentes formas, tales como los que se
presentan en las figuras siguientes:

19
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

La figura a) estaría mostrando una posible relación lineal entre las variables; en
tanto, que la figura b) también presentaría una relación lineal pero en este caso sería
inversa. Las figura c) y d) mostrarían una posible relación cuadrática entre las
variables, pero en para el caso de la c) se podría representar un máximo en tanto
que para la d) sería un mínimo. La figura e) mostraría una tendencia de tipo cúbico
entre las variables, en tanto que la d) en la que la pendiente de la línea para cada
punto es positiva pero va decreciendo sin llegar a cero, podría indicar una relación
de tipo exponencial entre las variables. La figura f) sería el caso en el cuál no se
puede establecer ningún tipo de relación entre las variables porque aparentemente
no existe.

3.2. Coeficiente de Correlación Lineal (r)

Si bien es cierto que el diagrama de dispersión nos permite visualizar si existe o no


una posible relación lineal entre las variables, el investigador debe siempre buscar
soportar sus conclusiones en términos de alguna medida estadística.

El coeficiente de correlación lineal, r, es una medida sobre el tipo de relación (signo)


y la fuerza (magnitud del coeficiente) en que estaría relacionadas linealmente dos
variables. Usualmente el coeficiente de correlación lineal se representa por la letra r,
indicando que es un estimador muestral (estadístico) y bajo las condiciones de una
muestra ideal este coeficiente debe ser una buena representación del coeficiente de
correlación poblacional (p). La formula para calcular r es la siguiente:

rXY =
∑ ( xi − x )( yi − y )
∑ ( xi − x )2 ∑ ( yi − y )
2

(∑ xi )(∑ yi )
∑ x i yi − n
rXY =

∑ xi −
2 (∑ xi )  
2
  ∑ yi −
2 (∑ yi ) 
2



n 
n  

rXY =
∑ x i y i − n( x y )
[∑ xi 2 − n( x )2 ][∑ yi 2 − n( y )2 ]
Al examinar la fórmula de r, se observa que el denominador es positivo debido a que
en el se encuentran sumas de cuadrados, en tanto, que en el numerador aparece la
covarianza de las variables. Lo anterior indica que el numerador es el que está
definiendo el signo del coeficiente de correlación.

20
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

El coeficiente de correlación no tiene unidades y puede tomar valores entre -1 y +1


(− 1 < rXY < 1) Su interpretación depende del signo y la magnitud que tome. Si r
tiende a +1 como seria el caso de la figura a) estaría indicando una relación lineal
positiva o positiva entre las variables. Si r tiende a -1, existiría una relación lineal
negativa o inversa entre las variables. En caso de que el r tienda a cero no existiría
relación lineal entre las variables.

Los casos extremos de interpretación de r serian: 1. cuando r=1, en esta situación se


presenta una relación lineal positiva perfecta entre las variables, siendo posible
ajustar todos los puntos a través de una línea recta con pendiente positiva (figura g).
2. r = -1, en este caso se presenta una relación lineal negativa perfecta entre las
variables, siendo posible ajustar todos los puntos a través de una línea recta con
pendiente negativa (figura h). 3. si r=0 no existiría relación lineal entre las variables y
una línea recta con pendiente cero estaría representando todos los pares de valores
(figura i).

Las ventajas principales del coeficiente de correlación lineal son las de que es fácil
de calcular y fácil de interpretar; además de que es un paso superior al del diagrama
de dispersión.

La principal desventaja del coeficiente de correlación es la de que solo puede medir


relación lineal entre las variables; sin embargo las variables pueden presentar algún
otro tipo de relación que no sea la lineal. En el caso de que existan más de dos
variables que estén muy relacionadas simultáneamente, el coeficiente de correlación
podría presentar problemas ya que solamente mide la relación entre dos variables.

A continuación se presentan una serie de propiedades del coeficiente de correlación:

1. Es de naturaleza simétrica, lo anterior indica que el coeficiente de correlación


entre X y Y es igual al coeficiente de correlación entre Y y X .

21
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

2. Es independiente del origen y de la escala; si definimos X*i = aXi + c y Y*i =


bYi + d, donde a>0, b>0, y c y d son constantes, entonces r entre X* y Y*
(variables transformadas) es igual a r entre X y Y (variables originales).

Una de las condiciones para que el coeficiente de correlación se pueda aplicar es el


de que las variables deben de ser continuas y con distribución normal. En caso de
que esto no se cumpla como es el caso de variables discretas se debe buscar otra
medida estadística para establecer algún tipo de relación entre las variables.

3.3. Pruebas de Hipótesis

Si el investigador cree que existe una relación lineal fuerte entre las variables, pero
no esta seguro del tipo de relación (negativa o positiva), el planteamiento de la
hipótesis y el procedimiento para probarla es de la forma siguiente:

Paso 1: Ho: ρ=0

Paso 2: Ha: ρ≠0

Paso 3: alpha (α ) : Nivel de significancia.

Este es establecido o definido por el investigador. Los valores de significancia con


los cuales se trabajan pueden cambiar de una disciplina o ciencia a otra. Bajo
situaciones donde los experimentos tienen una lato grado de control, usualmente se
trabaja con niveles del 1% y 5%, (altamente significativo y significativo
respectivamente). En las investigaciones de las ciencias sociales, los investigadores
son un poco más tolerantes dado el limitado grado de control que se tienen sobre las
variables, y en algunas ocasiones se encuentran estudios que reportan significancias
estadísticas hasta con un 20%.

Paso 4: Definir el estadístico de prueba

Para el caso de correlación lineal simple, el estadístico de prueba se define como:

tC =
(r )
n − 2 −θ
~. tα 2, n − 2
2
1− r

donde res el coeficiente de correlación lineal; n es el tamaño de la muestra; n-2 son


los grados de libertad y θ es el valor al cual se iguala el parámetro poblacional en
la hipótesis nula. En este caso θ toma el valor de cero, pero en otra prueba puede
ser un valor distinto de cero, entre los límites –1 y +1.

22
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

Paso 5: Regiones de decisión

Dado que la hipótesis alterna tiene el signo de diferente, se esta trabajando con
los dos lados de la distribución. Por lo tanto, la región de rechazo se encuentra
repartida alpha medios a cada lado. El valor de los límites derecho e izquierdo con
que comienzan las regiones de rechazo se determina mediante la tabla t, teniendo
en cuenta si la prueba es de un lado o dos lados y los grados de libertad. La figura
j muestra la región de rechazo y aceptación de la hipótesis nula de esta prueba:

Paso 6: Contraste y criterio de decisión

Se debe comparar el estadístico calculado (tC ) contra el estadístico tabulado


( )
t α 2 , n − 2 . El criterio de decisión esta basado en lo siguiente: 1) si el t calculado es
mayor que el t de tablas positivo, cae en la región de rechazo del lado derecho de
la distribución y la decisión que se debe tomar es rechazar la hipótesis nula. 2) si
el t calculado es menor que el t de tablas negativo, el t calculado cae en la región
de rechazo del lado izquierdo y por lo tanto la decisión también es rechazar la
hipótesis nula. 3) si el t calculado es mayor que el -t de las tablas y menor que +t
de las tablas, el t calculado cae en la región de aceptación y por lo tanto, la
decisión es no rechazar la hipótesis nula.

Paso 7: Conclusión del investigador

El investigador basado en el criterio de decisión concluye la prueba en términos de


la hipótesis alterna o hipótesis del investigador y procede posteriormente a dar las
recomendaciones del caso.

Es importante aclarar que las hipótesis se plantean en términos de los parámetros


poblacionales. Se usan los estadísticos para encontrar el estadístico de prueba, en
este caso r, que es el coeficiente de correlación lineal, el cual se encuentra a partir
de los datos de la muestra, se utiliza para encontrar el valor de t calculado, pero la

23
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

hipótesis sobre la asociación lineal entre las variables se plantean sobre el


coeficiente de correlación lineal para la población (ρ ) .

La decisión sobre la significancia estadística de el coeficiente de correlación en la


prueba de hipótesis se afecta por el tamaño de la muestra (n) o mejor aún por los
grados de libertad (gl), lógicamente a mayor tamaño de muestra (mayor gl) el valor
de r tiene mayor confiabilidad. Si n es grande se pueden encontrar valores de r
relativamente bajos pero que pueden dar significativos al comparar el estadístico de
prueba con el de las tablas; alternativamente se pueden encontrar r altos pero con
no significativos estadísticamente debido a que n es muy pequeño y por consiguiente
el número de grados de libertad (gl) es bajo.

3.4. Interpretación Salidas de Computador E-VIEWS

Continuando con el ejemplo de datos hipotéticos del estudio de demanda planteado


en el capítulo anterior:

MATRIZ DE COVARIANZAS

DX PX I PZ PW
DX 263,621302 -47,982249 47,899408 60,017751 -53,781065
PX -47,982249 9,514793 -12,994083 -11,639053 10,733728
I 47,899408 -12,994083 63,171598 16,698225 -16,183432
PZ 60,017751 -11,639053 16,698225 18,130178 -12,650888
PW -53,781065 10,733728 -16,183432 -12,650888 13,408284

MATRIZ DE CORRELACION

DX PX I PZ PW
DX 1 -0,95805552 0,37117521 0,86813735 -0,9045916
PX -0,95805552 1 -0,53001118 -0,88616982 0,95030783
I 0,37117521 -0,53001118 1 0,49341045 -0,55606184
PZ 0,86813735 -0,88616982 0,49341045 1 -0,81139694
PW -0,9045916 0,95030783 -0,55606184 -0,81139694 1

24
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

CAPITULO 4. REGRESION SIMPLE LINEAL Y NO LINEAL

4.1. Objetivo del análisis de regresión

El objetivo fundamental del análisis de regresión es el estudio de la dependencia


de una variable, la variable explicada, con una o más variables llamadas variables
explicativas. El análisis de regresión se apoya en el concepto matemático de
función, en la que se tiene una variable dependiente (variable explicada ) y un
conjunto de variables independientes (variables explicativas) para estimar los
coeficientes y parámetros de dicha función (ejemplo marginalidades y
elasticidades) y también para predecir (encontrar el valor esperado de la variable
dependiente cuando se construyen escenarios reflejados en los valores que toman
las independientes).

Todo procedimiento econométrico sigue los siguientes pasos: la especificación, la


estimación, la verificación y la predicción. A continuación se presenta una breve
descripción de cada etapa:

Especificación: corresponde a la etapa en que el investigador define la forma


funcional del modelo que desea utilizar para explicar la variable dependiente
siguiendo los lineamientos de la teoría económica.

Estimación: durante esta se calculan los valores numéricos de los coeficientes o


parámetros del modelo; para ello es necesario apoyarse en los métodos de
estimación y la aplicación de rutinas de computador con paquetes estadísticos (E-
views).

Verificación: consiste en corroborar la validez teórica y estadística del modelo, es


decir, evaluar si los signos obtenidos para los coeficientes estimados son los
esperados y si el modelo cuenta con propiedades estadísticas adecuadas (buen
ajuste, alta relevancia y dependencia).

Predicción: muchas veces los modelos elaborados por los economistas no tienen
solo como objeto mostrar la relación entre variables y la magnitud de dicha
relación entre estas a través de una forma funcional, sino que además los modelos
tienen implicaciones en términos de predicción. Así puede encontrarse el efecto

25
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

esperado sobre la variable dependiente para diversos valores de las variables


independientes fuera del rango muestral. En este procedimiento la inferencia
estadística juega un papel importante.

4.2. Función de regresión muestral y poblacional

La línea de regresión E (Y / X i ) = β1 + β 2 X i es la unión de los puntos que


representan los valores esperados de variable dependiente Y dado los valores de
las variables independientes X´s. Esta línea se puede construir a partir del
diagrama de dispersión conformado por los datos poblaciones; en este caso la
línea de regresión se conoce como la función de regresión poblacional.

A continuación se presenta una gráfica de la línea de regresión poblacional


cuando el gasto en consumo de un hogar se desea explicar por el ingreso.

Por otro lado, cuando la línea de regresión es construida con los datos muestrales
recibe el nombre de función de regresión muestral. Como todo procedimiento de
inferencia estadística, lo que se pretende es que la muestra sea una buena
representación de la población. En este sentido, la función de regresión muestral
constituye una representación de la función de regresión poblacional. A sí mismo,
en la práctica, las muestras de variables aleatorias son usadas para inferir sobre
las características de la población.

26
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

La siguiente gráfica presenta un ejemplo de dos líneas de regresión muestral para


el gasto en consumo de semanal de un hogar versus el ingreso de la familia.

4.3. Supuestos del modelo de regresión

Los supuestos del modelo junto con los métodos de estimación caracterizan los
resultados obtenidos de la regresión (coeficientes, pruebas de hipótesis, intervalos
de confianza, predicción, etc). En particular, los supuestos más importantes del
modelo recaen sobre el término del error. Teniendo en cuenta que la función de
regresión poblacional puede expresarse también de la forma Yi = β1 + β 2 X i+ ui , el
modelo de regresión lineal cuenta con los siguientes supuestos:

Supuesto 1. (El valor medio o promedio de ui es igual a cero)

E (ui / X i ) = 0

Supuesto 2. (No existe autocorrelación entre las u )

( ) [ ( )] ( )
Cov ui , u j = E [ui − E (ui )] u j − E u j = E ui , u j = 0 ∀ i ≠ j

Supuesto 3. (Homocedasticidad o igual varianza para u i )

Var (u i / X i ) = E [u i − E (u i )] = E u i
2
( )= σ
2 2

27
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

Supuesto 4. (Cero covarianza entre u i y X i )

Cov (u i , X i ) = E [u i − E (u i )][X i − E ( X i )] = E [u i ( X i − E ( X i ))]


= E (u i X i ) − E ( X i )E (u i ) = E (u i X i ) = 0
Supuesto 5. El modelo de regresión esta correctamente especificado (no existen
sesgos ni errores de especificación).

Cuando el modelo de regresión cumple con los anteriores supuestos se le conoce


como modelo de regresión clásico y tiene las siguientes propiedades: los
estimadores son MELI (mejores estimadores lineales insesgados), los intervalos
de confianza, las predicciones y las pruebas de hipótesis tienen validez
estadística.

4.4. Método de estimación de mínimos cuadrados ordinarios

El objetivo principal de la etapa de estimación es encontrar los valores de los


parámetros muestrales. El método de estimación más popular recibe el nombre de
mínimos cuadrados ordinarios (MCO). El objetivo de este método consiste en
proporcionar estimadores de los parámetros que minimicen la suma de los
cuadrados de los errores. Operativamente el proceso es construir una función
objetivo en términos de la suma de los cuadrados de los errores y mediante un
procedimiento matemático de optimización (condiciones de primer orden C.P.O., y
condiciones de segundo orden C.S.O.) obtener las fórmulas de los estimadores de
MCO.

Debido a que la función de regresión poblacional no se puede observar


directamente, los estimadores de mínimos cuadrados ordinarios se obtienen a
partir de la función de regresión muestral (FRM):

La función de regresión muestral es :


Y i = βˆ1 + βˆ 2 X i + e i
Y = Yˆ + e
i i i

La suma del cuadrado de los errores puede expresarse como sigue:

∑ e i2 = ∑ (Y i − Yˆi ) = ∑ (Yi − βˆ1 − βˆ 2 X i )


2 2

De acuerdo con el principio de mínimos cuadrados ordinarios:


∑( )
2
min ∑
e 2 = min
i Y − βˆ − βˆ Xi 1 2 i

28
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

Luego derivando la anterior expresión con respecto a β̂1 y β̂ 2 , e igualando a cero,


respectivamente, y resolviendo las ecuaciones normales pueden encontrarse los
estimadores de los parámetros de la regresión:

n∑ X iYi − (∑ X i )(∑ Yi )
β̂ 2 =
n ∑ X i − (∑ X i )
2 2

βˆ1 = Y − βˆ 2 X

4.5. Varianzas y errores estándar de los estimadores

Así como existen medidas de dispersión para las variables también las hay para
los estimadores, por lo tanto, es necesario siempre presentar una medida de
precisión de los estimadores de los parámetros del modelo. Esta medida es el
error estándar e indica la confiabilidad de las estimaciones (si son pequeñas dejan
ver que los parámetros muestrales van a ser muy parecidos a los poblacionales).
La principal utilidad de los errores estándar de los estimadores es la construcción
de intervalos de confianza y prueba de hipótesis. A continuación se presenta la
forma de calcular la varianza y error estándar de cada estimador del modelo de
regresión lineal simple:

 
( )
Var βˆ1 =
∑ X i2 σ 2 ˆ ( )
se β 1 =  ∑ X i2
σ
n ∑ (X i − X )  n ∑ ( X i − X )2 
2
 
y

( ) σ
( ) σ
2
Var β̂ 2 = se β̂ 2 =
∑ (X i − X ) ∑ (X i − X )
2 2

4.6. Intervalos de confianza

En estadística es común efectuar inferencias basadas en estimaciones puntuales


y en intervalos. Estas últimas son menos riesgosas debido a que se encuentran
dentro de un rango con cierto margen de error o confiabilidad. En particular,
pueden construirse intervalos de confianza para los parámetros del modelo de
regresión así como para las predicciones.

Un intervalo de confianza para el estimador β̂ 2 puede presentarse como sigue:

29
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

[
Pr βˆ 2 − t α 2 ( )
se βˆ 2 ≤ β 2 ≤ βˆ 2 + t α 2 ( )]
se βˆ 2 = 1 − α

donde α es el nivel de significancia estadística. Esta expresión muestra el


intervalo de confianza del 100(1 − α ) por ciento para β 2 . Dicha ecuación
2 ( )
expresándola brevemente: βˆ ± t se βˆ . De la misma forma para β :
α 2 2 1

[
Pr βˆ1 − t α 2 ( )
se βˆ1 ≤ β 1 ≤ βˆ1 + t α 2 ( )]
se βˆ1 = 1 − α
βˆ1 ± t α 2 se βˆ1 ( )
Por ejemplo si α es 0.05, la interpretación del intervalo de confianza para β 2 es:
dado un nivel de confianza del 95%, en el largo plazo, en 95 de cada 100 casos el
( ( ) ( ))
intervalo βˆ 2 − t α 2 se βˆ 2 , βˆ 2 + t α 2 se βˆ 2 contendrá el verdadero valor de β 2 .

4.7. Pruebas de hipótesis

En todo modelo de regresión se deben probar hipótesis para evaluar la validez


estadística de los resultados. Entre la variedad de pruebas de hipótesis que se
pueden efectuar, las pruebas de dependencia y relevancia son las más
importantes.

Prueba de relevancia: la prueba de relevancia consiste en evaluar


estadísticamente qué tan significativo es un parámetro del modelo, de esta
manera puede identificarse si la variable independiente ( X ) aporta información
importante al modelo de regresión. Siguiendo la estructura presentada en el
capítulo 2, pero para cada estimador β i :

Paso 1: Ho: βi = 0
Paso 2: Ha: βi ≠ 0
Paso 3: alpha (α ) : Nivel de significancia

Paso 4: El estadístico de prueba: para el caso de la prueba de relevancia en el


modelo de regresión, el estadístico de prueba se define como:

βi
tC = ~. t α
se (β i )
2, n − 2

Paso 5: Regiones de decisión: La siguiente gráfica muestra la regiones de


rechazo y aceptación de la hipótesis nula.

30
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

Paso 6: Contraste y criterio de decisión: Si t C >t α 2, n − 2 se rechaza la


hipótesis nula.

Paso 7: Conclusión del investigador: De acuerdo con lo anterior, si la


hipótesis nula es rechazada se concluye que X i es estadísticamente relevante al
nivel α de significancia. Por otro lado, mientras no sea posible rechazar la
hipótesis nula, se concluye que al nivel α de significancia no existe evidencia
estadística para afirmar que X i sea relevante.

Prueba de dependencia: esta prueba ser efectúa para evaluar si en un modelo de


regresión la variables independientes explican estadísticamente en su conjunto la
variable dependiente con un nivel α de significancia definido por el investigador.
Se desea que en un modelo de regresión exista una alta dependencia ocasionada
por las variables explicativas. Esta prueba de hipótesis como cualquier otra debe
seguir una estructura similar a la presentada en el capítulo 2. La hipótesis nula de
esta prueba hace referencia a la no existencia de dependencia en el modelo,
mientras la hipótesis alternativa argumenta lo contrario. El estadístico de prueba
para el caso de un modelo de regresión lineal simple es FC = (t n − 2 ) ~. F1, n − 2 , donde
2

FC es el estadístico calculado, que sigue una distribución F con 1 grado de libertad


en el numerador y n-2 grados de libertad en el denominador; y t es el estadístico t
calculado en la prueba de relevancia para β 2 . Finalmente, la hipótesis nula es
rechazada cuando FC > F1, n − 2 .

4.8. Predicción

Una aplicación del modelo de regresión es predecir o pronosticar el valor de la


variable dependiente, de acuerdo con unos valores dados de las variables
independientes. Hay dos tipos de predicciones: la predicción media y la predicción
individual. A continuación se presentan estos dos casos.

31
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

Predicción media: es la predicción del valor medio condicional de Y,


correspondiente a un determinado valor de X, que puede ser denotado como X0, el
cual es un punto sobre la línea de regresión poblacional.

Si se desea predecir E (Y / X 0 ) , la estimación puntual de la predicción media es

ˆ ˆ ˆ ( )
ˆ

2 1
Y0 = β 1 + β 2 X 0 y la varianza de Ŷ0 : Var Y0 = σ̂  +
( X0 − X ) 
2
.
 n (X i − X ) 
2

Predicción individual: es la predicción de un valor individual de Y, correspondiente


a un determinado valor de X. Si se desea predecir Y0 / X 0 , de igual forma que en
la predicción media la estimación puntual es Yˆ = βˆ + βˆ X , sin embargo la
0 1 2 0
manera de calcular la varianza de Y0 es:

 1 (X − X )2 
Var (Y0 ) = σ̂ 2 1 + + 0 .
 n (X i − X ) 
2

Es importante mencionar que cuando un modelo de regresión es construido con el


objeto de predecir, al investigador le interesa encontrar una medida de la bondad
de ajuste de los resultados del modelo. Una medida muy común de esta bondad
de ajuste es el coeficiente de determinación o R 2 , la cual proporciona información
respecto a que tan bien la línea de regresión muestral se ajusta a los datos. Para
el caso de un modelo de regresión lineal simple se denota como r 2 y se calcula:
r 2 = (r ) , donde r es el coeficiente de correlación lineal entre las variables Y y
2

X . Debido a que el r 2 bajo los supuestos de modelo de regresión clásico se


encuentra entre 0 y 1, la manera de interpretarlo es en porcentaje,
argumentándose que dicho valor refleja la magnitud porcentual en que la variable
Y es explicada por la variable X.

4.9. Modelos de regresión simple no lineal

En algunos casos el investigador requiere estimar otro tipo de modelos en los que
las variables independientes no sean lineales, como por ejemplo variables
transformadas en términos logarítmicos, cuadráticos, raíz cuadrada, cúbicos, etc.
Las razones para estimar estos nuevos modelos pueden ser: mejorar los
resultados en términos de bondad de ajuste, obtener elasticidades directamente
de la regresión, o en algunos casos porque la teoría económica lo sugiere. Un
ejemplo del modelo no lineal es el conocido como Cobb-Douglas, cuya forma
funcional es la siguiente:

32
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

β
Y i = AX i 2 e u i
Para estimar el modelo se efectúa una linealización del modelo transformando en
logaritmos. De esta manera:
LnYi = LnA + β 2 LnX i + ui
Puede notarse que las variables dependiente e independiente se encuentran
transformadas en logaritmos y el término LnA es el intercepto de la regresión. Así,
con el deseo de obtener los coeficientes de la regresión puede efectuarse la
siguiente sustitución:

Sea YT = LnYi , β1 = LnA y XTi = LnX i , luego el modelo a estimar toma la forma:
YTi = β1 + β 2 XTi + ui , y los coeficientes del modelo transformado pueden ser
obtenidos por el método de mínimos cuadrados ordinarios usando las ecuaciones
para los estimadores β1 y β 2 presentadas en el numeral 3.4.

Teóricamente un modelo Cobb-Douglas es una función con elasticidad constante


a lo largo de todo su dominio; siendo esto diferente a lo que sucede en el caso de
una función lineal, donde la elasticidad depende especialmente de la observación
X i . En este sentido, el modelo Cobb-Douglas permite obtener las elasticidades
directamente. Para el caso del modelo de regresión simple el coeficiente β̂ 2
representa la elasticidad de Y respecto a X, y se interpreta como el aumento
(cuando el valor de la elasticidad es mayor que cero) o disminución (cuando el
valor de la elasticidad es menor que cero ) porcentual en la variable Y, ocasionada
por el incremento en un 1% de la variable X.

4.10. Interpretación Salidas de Computador

Continuando con el ejemplo de datos hipotéticos del estudio de demanda:


MODELO DE REGRESION LINEAL SIMPLE

Dependent Variable: DX
Method: Least Squares
Date: 03/23/04 Time: 11:12
Sample: 1 13
Included observations: 13
Variable Coefficient Std. Error t-Statistic Prob.
C 71,417910 3,130854 22,810998 0,000000
PX -5,042910 0,454825 -11,087588 0,000000
R-squared 0,917870 Mean dependent var 40,384615
Adjusted R-squared 0,910404 S.D. dependent var 16,899401
S.E. of regression 5,058427 Akaike info criterion 6,220627
Sum squared resid 281,464552 Schwarz criterion 6,307542
Log likelihood -38,434072 F-statistic 122,934614
Durbin-Watson stat 2,267643 Prob(F-statistic) 0,000000

33
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

CAPITULO 5. REGRESION MULTIPLE LINEAL Y NO LINEAL

5.1. Expresión del modelo en forma matricial

Ahora para el caso de la regresión múltiple se supone que las variaciones de Yi


que se pretenden explicar son debidas a “K” variables independientes, es decir X1,
X2, ….., XK y como en la realidad no pueden presentarse relaciones
determinísticas por completo se considera la inclusión del término de perturbación
“ ε ”.

Resulta conveniente analizar el modelo clásico de regresión lineal usando el


enfoque matricial. Supóngase un modelo lineal de la forma:

Y = β1 + β 2 x2 + β 3 x3 + L + β k xk + ε

Si se tienen n observaciones independientes y1 , y2 ,K, yn de Y, podemos escribir


y i como:
yi = β1 + β 2 xi 2 + β 3 xi 3 + L + β k xi k + ε i

Donde x i j es el valor de la j-ésima variable independiente para la i-ésima


observación, i = 1,2,3, K , n . Ahora defínanse las matrices siguientes, con x1 = 1 :

 y1   x11 x12 L x1k   β1  ε1 


       
y x x22 L x2 k  β ε
Y =  2 , X =  21 , β =  2 , ε =  2
 M  M M   M  M
       
 yn   xn1 xn 2 L xnk  βk  ε n 

Por lo tanto las n ecuaciones que representan y i como función de las x , los β y
ε se pueden escribir simultáneamente como:

Y = Xβ + ε

34
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

5.2. Supuestos del modelo

A1. Y = Xβ + ε (Linealidad en los parámetros).


A2. X es de tamaño n x k con rango k.
A3. E (ε X) = 0 ⇒ E (Y / X) = Xβ
A4. E (εε' ) = σ 2 I ⇒ Cov(ε i ε j ) = 0 , ∀ i ≠ j .
A5. X es no estocástica.
A6. (ε X ) N (0, σ 2 I )

5.3. Método de estimación de mínimos cuadrados ordinarios


Se desea obtener un estimador β de un vector de parámetros desconocido β que
minimiza la suma del cuadrado de los errores S = ( ∑ε 2
)
= ε' ε .

∧ ∧ ∧
Entonces, S = ε' ε = (Y − X β) ' (Y − X β) y luego minimizando S con respecto a β se
tiene que el estimador de OLS es:

β OLS = (X ' X ) (X ' Y )
−1

5.4. Matriz de varianzas y covarianzas de los estimadores

Para obtener la matriz de varianza-covarianza de los estimadores es necesario


calcular previamente la suma de cuadrados de los errores y la varianza del
modelo:

1. Suma de cuadrados de los errores. Puede ser calculada así:


SCE = Y' Y − β' X' Y .

2. Varianza del modelo. Dado que en la mayoría de los casos la varianza es


desconocida, se utiliza la información de la muestra para obtener un

estimador de la misma: σ 2 = (Y' Y − β' X' Y) (n − k ) = SCE (n − k ) .

Cabe anotar que la matriz de varianza-covarianza de los estimadores es relevante


en la determinación de los errores estándar de los coeficientes y en la ejecución
de pruebas de hipótesis. La forma de calcular esta matriz es:


Matriz var − cov . = σ 2 ( X' X ) −1 .

35
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

5.5. Pruebas de hipótesis

Para efectuar pruebas de hipótesis debe obtenerse el error estándar de cada uno
de los estimadores. Esta medida de dispersión corresponde a la raíz cuadrada de
cada uno de los elementos de la diagonal principal de la matriz de varianza –
covarianza. A continuación se presentan los aspectos más importantes para
efectuar las pruebas de relevancia y dependencia en un modelo de regresión
múltiple:

Pruebas de relevancia: En estas pruebas se utilizan los t estadísticos calculados


de los estimadores con su respectivo p-valor. A continuación se presenta la forma
de obtenerlos:

1. t – estadísticos. Los valores de t son calculados efectuando el cociente


entre el coeficiente estimado y el error estándar respectivo.

2. p-valores. Arroja la probabilidad exacta de obtener un valor de t mayor que


el valor absoluto de t obtenido para cada coeficiente. También es conocido
como el nivel mínimo de significancia para rechazar la hipótesis nula. Para
obtener dicha probabilidad es necesario el valor de t, el número de grados
de libertad (n − k ) y el número de colas de la prueba (en este caso dos).

Prueba de dependencia: Como se mencionó en el capítulo anterior el estadístico


utilizado para esta prueba es el F.

1. F – estadístico. Mide la dependencia conjunta en el modelo respecto a las


variables explicativas. Puede ser obtenido en la forma matricial de la
[ ]
siguiente manera: F = (β' X' Y − nY 2 )(n − k ) [(Y' Y − β' X' Y)(k − 1)] .

2. p – valor. Arroja el nivel mínimo de significancia para rechazar la hipótesis


nula. En el procedimiento se requiere el valor obtenido de F, los grados de
libertad del numerador (k − 1) y grados de libertad del denominador (n − k ) .

5.6. Coeficiente de determinación ajustado R 2 ( )


El término “ajustado” se refiere a que es corregido por los correspondientes grados
de libertad. El R 2 mide la bondad de ajuste del modelo de regresión (porcentaje
de explicación de la variable dependiente por las variables independientes), así
como lo hace el R 2 convencional, sin embargo el pero R 2 tiene la particularidad
de que permite comparar modelos de regresión múltiple en los que se incluyen

36
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

variables adicionales. La forma de calcularlo se presenta a continuación:


(
R 2 = 1 − 1 − R2
n−k
)
n −1
.

5.7. Intervalos de confianza.

Un intervalo de confianza para el estimador βˆ k , ∀ k = 1,2, K , K , tiene la forma:


[ ( ) ( )]
Pr βˆ k − t α 2 se βˆ k ≤ β k ≤ βˆ k + tα 2 se βˆ k = 1 − α
βˆ ± t se βˆ
k α 2 ( )k

donde α es el nivel de significancia estadística y se βˆ k = σˆ ( ) ( X ' X )−kk1 . Puede


notarse, que este intervalo de confianza corresponde a una expresión matemática
similar a la presentada en el capítulo anterior.

5.8. Modelos de regresión múltiple no lineal

En este numeral, se extenderá el caso de la función tipo Cobb-Douglas


desarrollado en el numeral 3.9 del capítulo anterior al caso de regresión no lineal
múltiple. Considérense más variables independientes X’s que pueden explicar la
variable Y, por lo tanto, el modelo Cobb-Douglas toma la forma:

Yi = AX i 2 β 2 X i 3 β 3 K X ik β k e ui

Luego transformando el modelo en logaritmos:

LnYi = LnA + β 2 LnX i 2+ β 3 LnX i 3+ L + β k LnX ik + ui

De acuerdo con la sustitución: sea YT = LnYi , β1 = LnA , XTi 2 = LnX i 2 , ... ,


XTik = LnX ik , el modelo a estimar es:

YTi = β1 + β 2 XTi 2 + β 3 XTi 3 + L + β k XTik + ui

Posteriormente, usando el esquema matricial presentado en el numeral 4.3, los


coeficientes del modelo transformado por el método de mínimos cuadrados
ordinarios pueden ser obtenidos. El coeficiente βˆ k ,∀ k = 2 ,3,K , K representa las
elasticidad de Y respecto a Xk y tiene la misma interpretación que en el caso de
regresión no lineal simple. Lo anterior quiere decir que se tendrán
k − 1 elasticidades en regresión múltiple al estimarse una función tipo Cobb-
Douglas. Por otro lado, cabe destacar que ejercicios de estimación para modelos

37
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

diferentes al Cobb-Douglas no permiten obtener directamente las elasticidades. En


este sentido, es necesario tener en cuenta la forma que toman las variables en el
modelo transformado antes de efectuar interpretaciones relacionadas con los
coeficientes.

5.9 Interpretación Salidas del Computador.

Continuando con el ejemplo de datos hipotéticos del estudio de demanda:

A. REGRESIÓN LINEAL MÚLTIPLE

Dependent Variable: DX
Method: Least Squares
Date: 03/27/04 Time: 15:27
Sample: 1 13
Included observations: 13
Variable Coefficient Std. Error t-Statistic Prob.
C 72,733515 10,832882 6,714142 0,000150
PX -4,588739 1,778623 -2,579939 0,032619
PZ 0,471929 0,688867 0,685080 0,512650
PW -0,386460 1,214240 -0,318273 0,758428
I -0,409388 0,201019 -2,036558 0,076079
R-squared 0,947105 Mean dependent var 40,384615
Adjusted R-squared 0,920657 S.D. dependent var 16,899401
S.E. of regression 4,760208 Akaike info criterion 6,242183
Sum squared resid 181,276661 Schwarz criterion 6,459471
Log likelihood -35,574189 F-statistic 35,810459
Durbin-Watson stat 1,436480 Prob(F-statistic) 0,000037

MATRIZ DE VARIANZAS Y COVARIANZAS DE LOS ESTIMADORES

C PX PZ PW I
C 117,351340 -11,562329 -6,616478 1,349073 -0,600013
PX -11,562329 3,163501 0,777287 -1,826424 -0,022642
PZ -6,616478 0,777287 0,474538 -0,192430 -0,014848
PW 1,349073 -1,826424 -0,192430 1,474379 0,052888
I -0,600013 -0,022642 -0,014848 0,052888 0,040409

38
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

TABLA DE VALORES OBSERVADOS, ESTIMADOS Y RESIDUALES

Obs Actual Fitted Residual Residual Plot


1 37 37,810443 -0,810443 | . *| . |
2 38 43,297184 -5,297184 | * | . |
3 18 22,009771 -4,009771 | . * | . |
4 50 49,711104 0,288896 | . * . |
5 22 27,371430 -5,371430 | *. | . |
6 55 59,462667 -4,462667 | .* | . |
7 42 34,472794 7,527206 | . | . *|
8 29 27,126744 1,873256 | . | * . |
9 63 62,703630 0,296370 | . |* . |
10 13 10,359281 2,640719 | . | * . |
11 60 56,369710 3,630290 | . | *. |
12 62 59,707353 2,292647 | . | * . |
13 36 34,597888 1,402112 | . |* . |

Ahora considere la siguiente información para construir una función de costos


cúbica en el nivel de producto:

Tabla No. 3. Costos según el nivel de producción.


Obs. Q CT
1 0 5
2 1 14
3 2 23
4 3 28
5 4 33
6 5 36
7 6 41
8 7 45
9 8 48
10 9 50
11 10 55
12 11 61
13 12 66
14 13 72
15 14 77
16 15 86
17 16 97
18 17 110
19 18 127
20 19 147
21 20 169

Donde:

CT: Costo total de producción


Q: Nivel de producto

39
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

ESTADISTICAS DESCRIPTIVAS

Q Q2 Q3 CT
Mean 10 136,6667 2100 66,19048
Median 10 100 1000 55
Maximum 20 400 8000 169
Minimum 0 0 0 5
Std. Dev. 6,204837 128,5365 2488,431 43,49899
Skewness 0 0,660405 1,078772 0,842139
Kurtosis 1,794545 2,158009 2,933702 2,972036
Jarque-Bera 1,271481 2,146804 4,076968 2,482876
Probability 0,529543 0,341844 0,130226 0,288968
Observations 21 21 21 21

B. REGRESION NO LINEAL MULTIPLE

Dependent Variable: CT
Method: Least Squares
Date: 27/03/04 Time: 21:48
Sample: 1 21
Included observations: 21
Variable Coefficient Std. Error t-Statistic Prob.
C 4,586862 0,962089 4,767605 0,000200
Q 10,450570 0,427013 24,473660 0,000000
Q2 -0,974658 0,050336 -19,363000 0,000000
Q3 0,043001 0,001653 26,020450 0,000000
R-squared 0,999236 Mean dependent var 66,19048
Adjusted R-squared 0,999101 S.D. dependent var 43,49899
S.E. of regression 1,304364 Akaike info criterion 3,538952
Sum squared resid 28,92322 Schwarz criterion 3,737908
Log likelihood -33,15899 F-statistic 7408,618
Durbin-Watson stat 0,882959 Prob(F-statistic) 0

MATRIZ DE VARIANZAS Y COVARIANZAS DE LOS ESTIMADORES

C Q Q2 Q3
C 0,925616 -0,336905 0,032823 -0,000934
Q -0,336905 0,182340 -0,020705 0,000640
Q2 0,032823 -0,020705 0,002534 -0,000082
Q3 -0,000934 0,000640 -0,000082 0,000003

40
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

CAPITULO 6. INCUMPLIMIENTO DE LOS SUPUESTOS


DEL MODELO

El cumplimiento de los supuestos del modelo clásico de regresión garantiza que


los β̂ k obtenidos a través del método de mínimos cuadrados ordinarios sean los
mejores estimadores lineales insesgados. Por otro lado, cuando tales supuestos
son violados, se empiezan a generar problemas en los resultados de la regresión,
haciendo que los parámetros obtenidos no cumplan con algunas de las
propiedades deseables de un estimador (eficiencia y consistencia). A continuación
se describen de manera general los conceptos de multicolinealidad,
heteroscedaticidad y autocorrelación, la forma de detectar tales problemas en el
modelo estimado y las posibles soluciones a la violación de los supuestos de
mínimos cuadrados ordinarios.

6.1. Multicolinealidad

La multicolinealidad tiene que ver con la relación lineal entre algún conjunto de
variables independientes en un modelo de regresión. Supóngase el siguiente
modelo con cuatro variables independientes:

Cualquier relación lineal entre las variables independientes de este modelo, por
ejemplo X2 con X3, o X2 con X5 y X4 puede generar problemas de multicolinealidad
en el modelo. Por lo general, existen dos tipos de multicolinealidad:

1. Multicolinealidad Perfecta: Para entender el concepto de multicolinealidad


perfecta es necesario expresar las variables independientes del modelo en
términos de una combinación lineal cuya suma algebraica sea igual a cero.
Para el modelo presentado la combinación lineal sería:

41
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

Los valores de λ pueden ser positivos o negativos y formar muchas


combinaciones, sin embargo, nunca simultáneamente pueden ser cero.
Cuando la suma algebraica para todas las observaciones de la muestra es
cero se dice que existe multicolinealidad perfecta.

2. Multicolinealidad Alta: Cuando la colinealidad que existe entre variables


independientes es muy fuerte pero no perfecta.

La multicolinealidad se presenta debido a la tendencia definida de ciertas variables


a lo largo de la muestra o a través del tiempo. Tendencias o patrones de
comportamiento similares de las variables independientes en un modelo de
regresión sustentan la multicolinealidad. La multicolinealidad se puede presentar
en datos provenientes de series de tiempo y es común encontrarla al
regresar3 variables que tienen que ver con la representación de ciclos económicos
en general. Debido a esto es importante antes de efectuar la regresión elaborar
diagramas de dispersión entre las variables independientes con el objetivo de
analizar el comportamiento tendencial de estas.

El problema de multicolinealidad es un problema ocasionado por las


observaciones en los datos recopilados de la muestra. La presencia de
multicolinealidad afecta directamente la estimación de los parámetros del modelo.
De acuerdo con el estimador por mínimos cuadrados ordinarios:


β = (X' X )− (X' Y )
1

donde la matriz (X' X )− puede obtenerse de la siguiente manera:


1

1
(X' X )−1 = Adj (X' X )
X' X

Cuando existe multicolinealidad entre las variables independientes de un modelo


de regresión, el determinante de la matriz X' X tiende a cero. Cuando esto ocurre

se corre con el riesgo de no poder estimar β . En presencia de alta

multicolinealidad se genera una ampliación del error estándar de β , por lo que el
valor de los estadísticos "t" para cada uno de los parámetros del modelo serán
mucho menores que en ausencia de multicolinealidad, aumentándose la
probabilidad de cometer error de tipo II, es decir, que acepte Ho no siendo
verdadera. Por consiguiente, el modelo no tiene validez para realizar pruebas de
relevancia.

3
Término comúnmente utilizado para señalar que se esta efectuando una regresión lineal.

42
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

6.1.1. Detección de Multicolinealidad

La detección de multicolinealidad en un modelo puede hacerse por medio de la


visualización de contradicciones en los estadísticos que juzgan la bondad del
ajuste (R2), dependencia (Fc) y los estadísticos que permiten evaluar la relevancia
de las variables en el modelo (tc). Otro método de detección es la estimación de
X'X; si el valor obtenido de X'X es muy cercano a cero, puede concluirse que
es muy probable la existencia de multicolinealidad.

No obstante, se encuentran otras pruebas mucho más formales en términos


estadísticos. Una de ellas es estimar coeficientes de correlación entre pares de
variables independientes y formular pruebas de hipótesis sobre los coeficientes de
correlación estimados para comprobar la significancia de la relación lineal en
términos estadísticos. Por ejemplo, una vez calculado el coeficiente de correlación
lineal entre X2 y X3, puede proponerse la siguiente prueba de hipótesis4:

Ho: ρx2,x3 = 0 (No existe relación lineal entre X2 y X3)

Ho: ρx2,x3 ≠ 0 (Si existe relación lineal entre X2 y X3)

El estadístico de prueba es:

tC =
(rX 2,X 3 n − 2 −θ ) ~. t α 2, n− 2
1 − (rX 2 , X 3 )
2

Si tC > t α 2, n−2 a un nivel α de significancia determinado, se rechaza Ho,


confirmando la existencia de relación lineal entre X2 y X3, es decir el modelo de
regresión mostrará multicolinealidad.

El otro método formal consiste en la estimación de regresiones auxiliares que


ayudan a evaluar la relación lineal existente entre un conjunto de variables
independientes. Se ejecuta una regresión entre las variables independientes del
modelo, por ejemplo X2 versus (X3, X4, X4, X5) y luego se analizan los estadísticos
resultantes de esta. Para que halla relación lineal entre estas variables el R2 y el
Fc de la regresión auxiliar deben se altos y así como el tc que acompaña a cada
variable independiente de la regresión auxiliar. Las pruebas de hipótesis sobre
relevancia y dependencia estadística en la regresión auxiliar determinan si existe o
no multicolinealidad. Es importante tener en cuenta que deben estimarse todas las
posibles regresiones auxiliares resultantes de las combinaciones entre las
variables independientes o regresores del modelo original. El método de
regresiones auxiliares es el más utilizado y el más recomendado por su

4
Corresponde a la misma prueba presentada en el capítulo 2.

43
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

sustentación estadística y que permite evaluar la multicolinealidad ocasionada


simultáneamente por la relación lineal entre más de dos variables independientes.

6.1.2. Corrección de Multicolinealidad

La corrección de multicolinealidad en un modelo puede ejecutarse mediante varios


métodos:

1. Eliminación de Variables: Esta técnica propone la eliminación de una de las


variables independientes relacionadas linealmente. El problema de aplicar
esta técnica es que se pueden eliminar variables importantes que
teóricamente explican la variable dependiente, presentándose posiblemente
sesgo de especificación por omisión de variables.

2. Utilización de Información a priori: La información a priori comúnmente


proviene de estudios anteriores que pueden brindar alguna información
sobre el valor de algún parámetro correspondiente a una de las variables
independientes incluida en la ecuación de regresión. Operativamente, el
valor a priori del parámetro es reemplazado en el modelo original. Luego se
procederá a estimar el modelo resultante.

3. Transformación de Variables: Esta técnica plantea una transformación de


las variables del modelo original. El más conocido es la transformación en
primeras diferencias. Al trabajar con un modelo que incluye datos
organizados en series de tiempo se presenta la posibilidad de construir una
ecuación de primeras diferencias, asumiendo que con un rezago de cada
una de las variables del modelo se elimina la relación lineal que puede
existir entre las variables independientes. El modelo original en el periodo t:

Luego la ecuación en diferencias es:

Donde ε t* = εt - εt-1. Debe tenerse en cuenta que al estimar este nuevo


modelo, la interpretación de los coeficientes estimados no es la misma que
en el modelo original, debido a que estos ahora representan cambios o
diferencias de las variables entre los periodos t y t-1.

4. Método de Componentes Principales: Este método consiste en ampliar la


muestra o conjunto de datos utilizados para estimar el modelo. Esta es un
solución plausible dado que el problema de multicolinealidad es ocasionado
fundamentalmente por las observaciones en la muestra. Sin embargo, en

44
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

muchos casos no es posible adquirir más información u observaciones de


las variables debido a restricciones físicas, técnicas y económicas.

Finalmente, se recomienda que el investigador una vez utilice alguno de estos


métodos verifique si el problema de multicolinealidad fue corregido. Es claro que
los métodos anteriores constituyen un conjunto de alternativas de solución al
problema de multicolinealidad, no obstante, puede ocurrir que luego aplicar alguna
de estas medidas la multicolinealidad no desaparezca.

6.2. Heteroscedasticidad

El problema de heteroscedasticidad en un modelo de regresión tiene que ver con


la relación entre una de las variables independientes del modelo y el cuadrado de
los errores estimados a partir de la regresión. Este problema se manifiesta en un
crecimiento o decrecimiento de la varianza del modelo. El problema de
heteroscedasticidad se presenta cuando el supuesto de que las perturbaciones o
los errores de la función de regresión poblacional tienen varianza constante es
violado.

La presencia de heteroscedasticidad es muy común en regresiones estimadas a


partir de datos de corte transversal. Por ejemplo, cuando se recolectan datos
provenientes de estratos, de regiones, por tamaños de familias o por tipos de
empresas. En general, puede presentarse en análisis en los que se incluyen
grupos que tienden a presentar diferentes comportamientos a lo largo de toda la
muestra, como por ejemplo el ingreso monetario de un hogar según el estrato (se
puede pensar que la varianza del ingreso monetario del grupo de alta riqueza es
más alta que la del grupo de escasos recursos).

El problema de heteroscedasticidad repercute directamente sobre la estimación de


los parámetros de la regresión. El efecto del aumento de las varianzas de las
variables independientes en el tiempo causa la subestimación de la varianza del
modelo de regresión, por lo tanto el valor del error estándar de los parámetros
será mucho menor de lo que sería en ausencia de heteroscedasticidad. La
subestimación de los errores estándar genera la sobreestimación de cada tc ,
incrementándose la probabilidad de cometer error de tipo I. En este sentido, la
presencia de heteroscedasticidad en el modelo de regresión hace que las pruebas
de hipótesis no tengan validez estadística.

6.2.1. Detección de la heteroscedasticidad

A continuación se presentan los métodos para detectar la existencia de


heteroscedaticidad:

45
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

1. Análisis de residuales: Este método permite evaluar gráficamente si existe


heteroscedasticidad causada por una variable independiente en particular o
por todo el conjunto de variables independientes. Para el primer caso se
elabora un diagrama de dispersión entre Xt y et (término de error) donde Xt
es el regresor que el investigador supone genera la heteroscedaticidad. En
el segundo caso, se construye el diagrama de dispersión entre Yt estimado
y et . Si estas gráficas muestran alguna tendencia específica, puede
afirmarse que existe heteroscedasticidad en el modelo de regresión.

2. Análisis de regresión: Es la utilización de una o más regresiones auxiliares.


El procedimiento es similar al planteado para detectar multicolinealidad, con
la salvedad de que ahora la regresión no se estima entre las variables
independientes, sino entre el cuadrado del término de error y el conjunto de
regresores del modelo original. Dentro de este método se encuentra la
prueba de Park, la prueba de Glejser, la prueba de White y la prueba de
Golfeld – Quandt. A continuación se presenta el procedimiento general para
efectuar la prueba de White:

Si se tiene el siguiente modelo original:

Una vez estimado el modelo por el método de mínimos cuadrados


ordinarios (MCO), el investigador debe calcular el cuadrado de los errores:
(
ε2 = Y − Y
t t t )
ˆ 2 , luego estimar por MCO el siguiente modelo:

2 2
ε t2 = α 0 + α1X1t + α 2 X 2t + α3 X1t + α 4 X 2t + α5 X1t X 2t + ν t

La prueba de hipótesis relacionada con el modelo anterior es:

Ho: α1 = α 2 = α 3 = α 4 = α5 = 0 (No hay heteroscedasticidad)


Ha: α1 ≠ α 2 ≠ α 3 ≠ α 4 ≠ α 5 ≠ 0 (Si hay heteroscedasticidad)

2
El estadístico de prueba: nR 2 ~χ
. 5 . En este caso el número de grados de
libertad es cinco, pero en modelos con más variables explicativas, los
grados de libertad para la prueba será el número de regresores
2
presentados en la prueba. Si nR 2 > χ g.l la hipótesis nula es rechazada, por
lo tanto, existe heteroscedasticidad en el modelo original.

46
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

6.2.2. Corrección de heteroscedasticidad

Las medidas correctivas principalmente incluyen dos enfoques: El primero cuando


σ 2 es conocida y el segundo cuando el valor de este parámetro no se conoce.

1. Cuando se conoce σ 2 . En este caso se utiliza el método de mínimos


cuadrados ponderados (M.C.P) para realizar una transformación de las
variables del modelo. Este método supone la siguiente transformación:

Donde σ 2 es la desviación estándar del modelo. Se supone que esta


transformación permite que el modelo quede libre de heteroscedasticidad.
No obstante, para asegurarse de esto puede efectuarse cualquiera de las
pruebas de detección presentadas anteriormente.

2. Cuando no se conoce σ 2 : Por lo regular es muy difícil tener conocimiento


previo de σ 2 . De acuerdo con esto, si se desea utilizar el método de
mínimos cuadrados ponderados debe recurrirse a supuestos ad hoc, con
cierto grado de razonabilidad sobre σ 2 para luego proceder a la
transformación de la regresión original, de tal manera, que el nuevo modelo
cumpla con el supuesto de homocedasticidad. Considérese el siguiente
modelo:

El investigador piensa que la varianza de los errores tiene la siguiente


forma:
2
( )
E U t = σ 2 Xt2

Esta expresión es planteada cuando se cree que la varianza de los errores


es proporcional al cuadrado de la variable explicativa, bajo este supuesto el
modelo transformado puede presentarse como sigue:

Ut
Donde v t = . Puede verificarse que:
Xt
E (v t ) = E(U t Xt ) = (1 Xt )E(U t ) = 0

47
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

y además que el modelo transformado es ahora teóricamente


( ) [
2 2
] ( )( )
homocedástico: E v t = E (U t Xt ) = 1 Xt2 E U t = σ 2 . Es conveniente
2

verificar si empíricamente el problema de heteroscedasticidad fue corregido.

6.3. Autocorrelación

El problema de autocorrelación se presenta en una regresión cuando los errores


de las diferentes observaciones están relacionados en el tiempo. Esto indica que
el efecto de los errores en el tiempo no es instantáneo sino por el contrario es
persistente en el tiempo. La autocorrelación es más común en series ordenadas
en el tiempo que en información proveniente de encuestas en un tiempo fijo
(sección cruzada). La autocorrelación puede estar relacionada con los ciclos
económicos, generalmente se presenta en modelo con variables
macroeconómicas donde en el tiempo ocurre un evidente comportamiento
tendencial.

Otra causa de la autocorrelación es la presencia de sesgo de especificación en el


modelo; principalmente por omisión de variables importantes, las cuales pasan a
formar parte del error de la regresión. La autocorrelación puede ser también
generada en casos donde se usa una forma funcional incorrecta del modelo, esto
hace que los datos se ajusten a una forma funcional que no es la más adecuada.

Se argumenta, que la manipulación de información puede generar autocorrelación.


Un caso típico se presenta en la cuentas nacionales, donde muchos datos son
obtenidos a partir de otros, aplicando técnicas de interpolación o extrapolación.
Por ejemplo, cuando se convierten datos diarios a semanales. Finalmente,
modelos especiales como los de rezagos distribuidos y los autoregresivos pueden
originar autocorrelación.

Entre las consecuencias de la autocorrelación se tiene la sobreestimación de los


estadísticos “t” que juzgan la significancia de las variables independientes en el
modelo. Aunque los estimadores siguen siendo insesgados, las varianzas
obtenidas son subestimadas. En este sentido se incrementará la probabilidad de
cometer el error de tipo I (rechazar Ho cuando esta es verdadera).

6.3.1. Detección de la autocorrelación

Los métodos más comunes para detectar autocorrelación son:

1. Análisis de residuales: este método plantea la construcción de diagramas


de dispersión para los errores en función de tiempo o en función de un
período inmediatamente anterior. El primer paso es estimar el modelo

48
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

original por MCO, luego los errores estimados de la regresión son


graficados en un eje de coordenadas para identificar si existe alguna
tendencia en el tiempo de los mismos o si estos con su primer rezago se
encuentran relacionados.

2. El estadístico de Durbin – Watson (d): Esta prueba es válida para aplicar en


errores que se modelan como un proceso autoregresivo de orden 1 "AR(1)"
como el mostrado a continuación:

El estadístico "d" oscila entre 0 y 4. Si este se aproxima a 0, se dice que


existe autocorrelación positiva (relación directa entre los errores), por el
contrario si d se aproxima a 4, existe autocorrelación negativa (relación
inversa entre los errores). El Durbin-Watson (d) se estima de la siguiente
manera:

Donde ρ̂ es el coeficiente de autocorrelación de orden 1, el cual puede


despejarse directamente d:

La hipótesis planteada es:

Ho: ρut,ut -1 = 0 (no existe autocorrelación entre los errores)


Ha: ρut,ut-1 ≠ 0 (si existe autocorrelación entre los errores)

El estadístico Durbin- Watson puede ser comparado con su respectivo


tabulado, teniendo en cuenta el número de observaciones contenidas en la
muestra y el número de regresores.

3. Prueba de Breusch-Godfrey. Esta es una prueba similar a la prueba de


White. Se diferencia de esta en que la variable dependiente de la regresión
auxiliar es el término de error ε t y las variables independientes son sus
respectivos rezagos hasta el orden deseado por el investigador.
Adicionalmente son incluidos los regresores usados en el modelo original.

49
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

6.3.2. Corrección de la autocorrelación

La corrección del problema de autocorrelación incluye diferentes técnicas que


persiguen principalmente la transformación de las variables del modelo con el
objetivo de eliminar el patrón tendencial que siguen los errores.

1. Cuando se conoce el coeficiente de autocorrelación: la transformación


recomendada sugiere rezagar un período las variables del modelo y
estimar una ecuación de primeras diferencias. Para esto el modelo original
debe ser transformado hasta tomar la forma:

Esta ecuación es estimada y se propone cualquiera de las técnicas de


detección de autocorrelación para averiguar si el problema de
autocorrelación fue corregido.

2. Cuando no se conoce el coeficiente de autocorrelación: En la mayoría de


los casos a nivel empírico el coeficiente de autocorrelación no se conoce.
Debido a esto el coeficiente de correlación debe ser estimado u obtenido
mediante la suposición de un determinado valor para ρ .

Una de estos métodos es el procedimiento Cochrane – Occurt: este


consiste en la estimación de modelos con sucesivas transformaciones. Es
un método iterativo representado en un algoritmo que evalúa durante el
proceso la tendencia que sigue el ρ estimado de regresiones sucesivas.
Cuando la diferencia de ρ entre un modelo estimado actual y su antecesor
es 0.01 se afirma que el coeficiente ρ ha convergido y por consiguiente la
tendencia de crecimiento de este se ha eliminado.

Por otro lado existe el método de corrección a través del Durbin– Watson.
Mediante esta técnica, aunque no se conoce ρ, este es posible estimarlo a
partir del estadístico “d” de la regresión del modelo original. Una vez
obtenido el valor de ρ, las variables son transformadas para posteriormente
estimar la siguiente ecuación de primeras diferencias:

Después de aplicar alguno de estos métodos es necesario evaluar de


nuevo la presencia de autocorrelación.

50
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

6.4 Interpretación Salidas del Computador.

A. Multicolinealidad.

Considere que se desea estimar la demanda de pollo (DP) como una función de
su propio precio (PRPOLLO) , el ingreso per. cápita (INGPER), y el precio de la
carne de cerdo (PRCERDO). El modelo estimado es el siguiente:

Dependent Variable: DP
Method: Least Squares
Date: 27/03/04 Time: 13:35
Sample: 1960 1982
Included observations: 23
Variable Coefficient Std. Error t-Statistic Prob.
C 38,647195 3,649601 10,589431 0,000000
PRPOLLO -0,541084 0,157970 -3,425242 0,002838
INGPER 0,010876 0,002381 4,567423 0,000210
PRCERDO 0,174055 0,062531 2,783507 0,011841
R-squared 0,936653 Mean dependent var 39,669565
Adjusted R-squared 0,926651 S.D. dependent var 7,372950
S.E. of regression 1,996820 Akaike info criterion 4,377760
Sum squared resid 75,758546 Schwarz criterion 4,575237
Log likelihood -46,344242 F-statistic 93,645026
Durbin-Watson stat 0,882813 Prob(F-statistic) 0,000000

MATRIZ DE CORRELACION

DP PRPOLLO INGPER PRCERDO


DP 1,000000 0,839958 0,947171 0,912392
PRPOLLO 0,839958 1,000000 0,931681 0,970112
INGPER 0,947171 0,931681 1,000000 0,957131
PRCERDO 0,912392 0,970112 0,957131 1,000000

Se construye una regresión auxiliar con el fin de evaluar si existe Multicolinealidad.


A continuación se presenta la respectiva estimación:

REGRESION AUXILIAR

Dependent Variable: PRPOLLO


Method: Least Squares
Date: 27/03/04 Time: 13:38
Sample: 1960 1982
Included observations: 23

51
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

Variable Coefficient Std. Error t-Statistic Prob.


C 20,643361 2,319572 8,899644 0,000000
INGPER 0,000677 0,003367 0,201053 0,842688
PRCERDO 0,294818 0,059064 4,991495 0,000070
R-squared 0,941235 Mean dependent var 47,995652
Adjusted R-squared 0,935359 S.D. dependent var 11,117205
S.E. of regression 2,826508 Akaike info criterion 5,037069
Sum squared resid 159,782990 Schwarz criterion 5,185177
Log likelihood -54,926294 F-statistic 160,170151
Durbin-Watson stat 1,156275 Prob(F-statistic) 0,000000

B. Heteroscedasticidad

Para 30 hogares de una localidad se tiene el consumo (Y) y el ingreso (X) de un


bien en particular.

Tabla No. 4. Consumo e ingreso para treinta familias.


FAMILIA Y CONSUMO X INGRESO
1 55 80
2 70 85
3 75 90
4 65 100
5 74 105
6 80 110
7 84 115
8 79 120
9 90 125
10 98 130
11 95 140
12 108 145
13 113 150
14 110 160
15 125 165
16 115 180
17 130 185
18 135 190
19 120 200
20 140 205
21 144 210
22 152 220
23 140 225
24 137 230
25 145 240
26 175 245
27 189 250
28 180 260
29 178 265
30 191 270

Se desea estimar el consumo como una función del ingreso. La estimación de


modelo es la siguiente:

52
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

Dependent Variable: Y
Method: Least Squares
Date: 27/03/04 Time:
12:15
Sample: 1 30
Included observations: 30
Variable Coefficient Std. Error t-Statistic Prob.
C 9,290307 5,231386 1,775879 0,086623
X 0,637785 0,028617 22,287177 0,000000
R-squared 0,946638 Mean dependent var 119,733333
Adjusted R-squared 0,944732 S.D. dependent var 39,061343
S.E. of regression 9,182968 Akaike info criterion 7,336918
Sum squared resid 2361,153250 Schwarz criterion 7,430332
Log likelihood -108,053777 F-statistic 496,718278
Durbin-Watson stat 1,590347 Prob(F-statistic) 0,000000

Con el objeto de verificar si los errores del modelo tienen varianza constante se
desarrolla la prueba de Heteroscedasticidad de White:

WHITE HETEROKEDASTICITY TEST

F-statistic 2,917301 Probability 0,071274


Obs*R-squared 5,330902 Probability 0,069568
Test Equation:
Dependent Variable: RESID^2
Method: Least Squares
Date: 27/03/04 Time: 12:31
Sample: 1 30
Included observations: 30
Variable Coefficient Std. Error t-Statistic Prob.
C -12,296205 191,773111 -0,064119 0,949348
X 0,197385 2,368760 0,083329 0,934205
X^2 0,001700 0,006707 0,253503 0,801800
R-squared 0,177697 Mean dependent var 78,705108
S.E. of regression 105,804280 Akaike info criterion 12,255699
Log likelihood -180,835478 F-statistic 2,917301
Durbin-Watson stat 1,856573 Prob(F-statistic) 0,071274

C. Autocorrelación

Teniendo en cuenta el modelo de consumo de hogares descrito en el literal


anterior, ahora para treinta y dos hogares de otra localidad, se desea verificar si
existe autocorrelación. El modelo estimado se presenta a continuación y se
efectúa la prueba de correlación serial LM:

Dependent Variable: Y
Method: Least Squares
Date: 27/03/04 Time: 14:20
Sample: 1960 1991
Included observations: 32

53
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

Variable Coefficient Std. Error t-Statistic Prob.


C -16,162683 4,783937 -3,378532 0,002035
X 1,169317 0,050759 23,036847 0,000000
R-squared 0,946495 Mean dependent var 93,300000
Adjusted R-squared 0,944712 S.D. dependent var 13,352033
S.E. of regression 3,139528 Akaike info criterion 5,186484
Sum squared resid 295,699101 Schwarz criterion 5,278092
Log likelihood -80,983737 F-statistic 530,696328
Durbin-Watson stat 0,130648 Prob(F-statistic) 0,000000

BREUSCH-GODFREY SERIAL CORRELATION LM TEST

F-statistic 94,371224 Probability 0,000000


Obs*R-squared 27,866061 Probability 0,000001
Test Equation:
Dependent Variable: RESID
Method: Least Squares
Date: 27/03/04 Time: 14:34
Variable Coefficient Std. Error t-Statistic Prob.
C -0,740829 1,796997 -0,412259 0,683289
X 0,009174 0,019129 0,479570 0,635258
RESID(-1) 1,101681 0,187855 5,864521 0,000003
RESID(-2) -0,148736 0,199654 -0,744968 0,462499
R-squared 0,870814 Mean dependent var 0,000000
Adjusted R-squared 0,856973 S.D. dependent var 3,088475
S.E. of regression 1,168027 Akaike info criterion 3,264978
Sum squared resid 38,200061 Schwarz criterion 3,448195
Log likelihood -48,239653 F-statistic 62,914150
Durbin-Watson stat 1,929549 Prob(F-statistic) 0,000000

54
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

CAPITULO 7. ANÁLISIS TRANSVERSAL

7.1. Regresión con variables independientes cualitativas

En algunos casos ciertas características tomadas de una población y recopiladas


a través de una muestra pueden no corresponder a variables cuantitativas, por
ejemplo, si se esta encuestando a un conjunto de personas, se les puede
preguntar información respecto a su sexo, la raza, la región de origen, estado civil,
el estrato económico, etc. Estas variables son denominadas variables cualitativas
y su tratamiento o análisis en modelos econométricos tiene una connotación
diferente a las variables cuantitativas.

Por medio de asignaciones numéricas específicas, de escala ordinal o cardinal la


variables cualitativas pueden ser registradas en un modelo econométrico. Un
ejemplo de escala cardinal es la variable sexo, donde el investigador puede
asignar a esta variable en una serie de observaciones numéricas como se
describe a continuación:
1 Si es hom bre
SEXO = 
0 Si es mujer

En este sentido, a todas las observaciones correspondientes al sexo femenino le


será asignado el número cero y a las de sexo masculino el número 1. Esta nueva
variable recibe el nombre de variable dummy, debido particularmente a que solo
podrá tomar dos valores el uno o el cero.

Por otro lado, un ejemplo de una variable que puede ser representada en escala
ordinal es el estrato económico. El nombre de ordinal se refiere a que en la
estructura de registro el orden tiene gran relevancia. El investigador puede
conformar la variable de la siguiente manera:

1 Si el hogar pertenece al estrato 1


2 Si el hogar pertenece al estrato 2

ESTRATO = 3 Si el hogar pertenece al estrato 3
4 Si el hogar pertenece al estrato 4

5 Si el hogar pertenece al estrato 5

55
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

Cuando la variable puede construirse de esta manera recibe el nombre de variable


categórica ordenada. Considérese el siguiente modelo de regresión lineal para un
conjunto de hogares:

TRABAJOt = β1 + β2SALARIOt + β3SEXO3 + β4ESTRATO t + ε t

Donde:

TRABAJO: Número de horas trabajadas al mes


SALARIO: Ingreso laboral
SEXO: Sexo del jefe de familia
ESTRATO: Nivel de estrato del hogar.

Si el coeficiente β3 es positivo se interpreta como el número de horas de trabajo


mensual adicionales que ofrece el hogar cuando el jefe de familia es hombre. Por
otro lado, en cuanto al coeficiente de la variable estrato, cuando β4 es positivo,
este manifiesta que hogares con un nivel de estrato más alto ofrecen al mercado
laboral más horas de trabajo al mes.

7.2. Regresión con variable dependiente cualitativa

Existen otra clase de modelos en econometría llamados modelos de variable


dependiente cualitativa. Estos se dividen en dos clases los modelos de
probabilidad y los modelos de elección discreta para más de dos alternativas.

En los modelos de probabilidad, la variable dependiente solo puede tomar dos


valores cero o uno, por ejemplo, cuando se le pregunta a un conjunto de personas,
que representan una muestra aleatoria de la población, si se encuentran tienen
empleo o no, así la variable “¿ESTA EMPLEADO?” toma el valor de uno si tiene
trabajo o cero en caso contrario. Existe tres formas generales de estimar este tipo
de modelos: por mínimos cuadrados ordinarios, el cual es conocido como el
modelo de probabilidad lineal, siendo el menos utilizado por no cumplir en la
mayoría de los casos con la propiedades de la probabilidad; también se encuentra
el modelo logit, donde la función de distribución que siguen los errores es log-
normal; y finalmente el modelo probit, cuando las perturbaciones se asume tienen
distribución normal.

Dentro de los modelos de elección discreta con más de dos alternativas, se


encuentran: el modelo logit multinomial, el modelo probit multinomial y el modelo
nested logit. En cada uno de estos, la variable dependiente es categórica, pero a
diferencia de los anteriores modelos, esta puede tomar más de dos valores u
organizarse en especie de ramas o brazos. Por ejemplo, en un análisis de medios
de transporte a un investigador le puede interesar el tipo de transporte que las

56
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

personas utilizan para llegar a su lugar de trabajo: bus, automóvil, taxi,


transmilenio, bicicleta, etc.

La forma funcional de los modelos con variable dependiente cualitativa y su


interpretación, resulta ser más compleja que la de los modelos con variables
independientes cualitativas. Finalmente, cabe anotar, que todos los modelos de
este tipo, a excepción del modelo de probabilidad lineal son no lineales en los
parámetros y se estiman por el método de máxima verosimilitud.

57
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

ANEXOS

58
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

ANEXO 1.
REGRESIÓN LINEAL MÚLTIPLE EN EL PAQUETE
ESTADÍSTICO E-VIEWS

Ejemplo

De acuerdo con la siguiente base de datos, presente en el archivo “dem1.xls”:

Tabla No. 5. Variables para la estimación de la demanda lineal del bien X.


Obs. DX I PW PX PZ
1980 22 10 8 3 9
1981 20 11 9 5 9
1982 19 13 12 6 8
1983 18 14 13 8 7
1984 16 16 15 9 6
1985 14 17 17 10 5
1986 13 18 19 11 4
1987 11 19 21 13 3
1988 9 20 23 15 2
1989 7 21 24 17 2
1990 6 23 25 18 1
1991 5 25 27 20 1

Estime la función de demanda del bien X, teniendo en cuenta la siguiente


especificación del modelo:

Dx = β 0 + β1 I + β 2 Pw + β 3 Px + β 4 Pz + U
Donde:

Dx: Cantidad demandada del bien X.


I: Ingreso.
Pw: Precio del bien W.
Px: Precio del bien X.
Pz: Precio del bien Z.
U: Término de error

59
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

Desarrollo

Este ejercicio será desarrollado en el paquete estadístico Econometrics Views 4.1.


A continuación se muestra todo el procedimiento para estimar el modelo de
demanda lineal siguiendo los supuestos del modelo clásico de regresión lineal
normal.

A. Importar la base de datos.

Este paquete estadístico puede importar datos en hoja electrónica guardados


con extensión wks, wk1 y Excel. Una vez se inicia la sesión en E-views se
debe generar un nuevo archivo de trabajo.

El programa requiere que se seleccione el tipo de frecuencia que


caracterizan los datos.

Debido a que los datos


presentan una frecuencia
anual se elige la opción
“Annual:” indicando el periodo
inicial y final.

Posteriormente el procedimiento es importar los datos que se encuentran en


hoja electrónica (Excel).

60
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

Se selecciona el archivo a
importar; en este caso
corresponde a dem1.xls
del subdirectorio donde se
haya almacenado.

Las variables deben ser


incluidas en el orden que
se encuentran en la base
de datos separadas por
espacios y con sus
nombres correspondientes.
Por ejemplo: Dx, I, Pw, Px
y Pz.

Cuando los datos son importados el programa muestra la siguiente ventana


con el respectivo nombre de las variables:

61
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

De esta manera la base de


datos ha sido importada con
todas sus variables. Las
observaciones pueden ser
vistas al seleccionar las
columnas deseadas y
pulsando el link show.

B. Estimación del modelo

Usando el link quick y Estimate Equation es arrojada una ventana donde la


ecuación del modelo debe ser incorporada.

En dicha ventana las variables pueden introducirse separadas por espacios


empezando por la variable dependiente y luego las independientes incluyendo
la constante cuando no se efectúa regresión al origen.

En esta ventana también el modelo puede introducirse escribiendo la ecuación


con los símbolos (= , * , + ) nombrando los coeficientes como C(1), C(2), ...,
C(n).

62
Introducción a la Econometría
Ramón Antonio Rosales Álvarez y Jorge Alexander Bonilla Londoño
________________________________________________________________________________________

Aplicando O.K. de acuerdo con la primera modalidad de estimación, el


resultado de es el siguiente:

Marzo 27 de 2004.

63

También podría gustarte