Está en la página 1de 328

MODELOS ECONOMTRICOS

!7

A modo de presentacin
Los estudiosos del campo econmico tienden a establecer sus opiniones desde muchas
perspectivas, algunos se basan en los hechos regulares o persistentes que existieron en largos
perodos de tiempo y que tienden a repetirse, por ejemplo la existencia de dficit fiscal puede
generar problemas inflacionarios en las economas, debido a la monetizacin de dichos dficit y a
una situacin de gasto excesivo. Esta realidad tiene evidencias desde los eventos que derivaron
en la revolucin francesa, se aplican a las economas latinoamericanas en los aos 90 y an hoy
son aplicables a economas como la Griega o la Venezolana en pleno siglo XXI.
Las evidencias as denominadas histricas terminan siendo aspectos generalizados que
simplemente prueban la hiptesis de su existencia porque en la historia son recurrentes. A todos
les queda claro que la emisin monetaria es perjudicial cuando genera inflaciones por encima de
los equilibrios de largo plazo. Evidencias de ellos tenemos, desde las inflaciones en la Espaa
colonizadora, hasta los procesos inflacionarios en Alemania de entre guerras, Bolivia junto a Per
en las postrimeras de los aos 80 y as se pueden obtener otras evidencias de ello, de modo que
la vista histrica es algo bastante extendido en el anlisis econmico.
Otras miradas al anlisis econmico se basan en hechos concretos que derivan del
comportamiento humano, as los economistas en el siglo XVIII evidenciaron que las personas
intercambiaban bienes en funcin a algn valor dado en ellos, en principio el valor poda ser
mucho y por ende el cambio de la mercanca se haca sobre mayores bienes o sobre mayor valor
monetario (los albores de la moneda en oro), esta medicin sobre los hechos constitua la base
del descubrimiento de teoras (como la de oferta y demanda) que luego se probaban basados en
la recurrencia de los actos humanos.
Los xitos tericos iban de la mano de una regularidad emprica observable, por tanto las
hiptesis quedaban probadas, el xito de muchas teoras de este tipo pueden encontrarse hasta
nuestros das, donde los economistas no discuten las leyes de oferta y demanda, sino sus
excepciones o sus no cumplimientos (tambin observadas en la realidad), con fines de agregar
un mayor bagaje al entendimiento de los mercados.
No obstante lo importante de las vistas anteriores, los economistas han pretendido tener una
idea mas clara de los eventos o fenmenos de la realidad econmica, la idea de cuantificar los
procesos econmicos es una de las vertientes ms importantes de la ciencia econmica, en esta
rama cae la econometra, pretendiendo darle un valor a las relaciones entre diversas variables
econmicas, o buscando saber si estas relaciones son persistentes en algn perodo de tiempo o
son coyunturales, o simplemente son relaciones a largo plazo.

! !8

En los tiempos recientes, la idea de saber el impacto causado por las polticas econmicas o
sociales, ha devenido en nuevas herramientas economtricas que se conjugan en incluso
vertientes especficas como la macro y microeconometra, no obstante ambos aspectos tienen la
misma base terica instrumental, que simplemente las variables de anlisis deben tener
relaciones medibles en condiciones de estabilidad o de ausencia de un error intencional, es decir
bases muy vinculadas a la aleatoriedad que debe tener todo diseo de modelos economtricos.
La econometra no ha escapado al debate sobre sus aplicaciones en el campo del anlisis de
eventos o de simplemente pronsticos, sin embargo al margen de pretender hacer de
futurlogos, lo que ms pretende un buen anlisis economtrico es entender porque algunos
eventos econmicos son particularmente causados por alguna variable, o son influenciados de
algn modo por algn evento que puede ser administrado o no por los ejecutores de polticas,
con fines de tener ideas claras de lo que funciona o no en las economas del mundo.
Este libro se enmarca en esa idea central, buscar que los economistas pueden tener alguna
herramienta adicional para entender la dinmica de los sucesos econmicos y sus distintas
variables relacionadas, est orientado al diseo de modelos economtricos en cada unos de sus
captulos. Nos hemos permitido tomar ideas interesantes de diversos autores, con fines de que
los lectores puedan esbozar sus propios modelos o sus propios entendimientos de esa realidad
econmica especfica.
La primera parte del libro se aboca a los cursos bsicos de econometra (captulos I al VIII)
donde se analizan los modelos generales y sus distintas aplicaciones as como desventajas por
decirlo de algn modo, ya que tienen muchas utilidades antes que las denominadas fallas que se
sealan comnmente. Dichas fallas han originado una serie de modelos economtricos que
permiten complementarlas o por lo menos darles rigurosidad a los resultados obtenidos, la
segunda parte del libro se aboca a dichos modelos derivados de aquellos bsicos o con
desventajas, por ejemplo las series de tiempo estacionarias, los modelos Tobit, los paneles de
datos y algunas aplicaciones ms cercanas al mundo de la empresa, de modo que los captulos
IX al XIV, pueden ser muy aplicativos en cursos de econometra de mayor complejidad o
tratamiento.
Finalmente sealamos que el libro puede contener, como todo en la vida, muchos errores y
quizs aciertos, solo esperamos que la comunidad acadmica puede tener en este documento
una referencia adicional a la hora de disear sus modelos economtricos o plantear relaciones de
este tipo. Hay que agradecer tambin a los alumnos de estos cursos, que han permitido el
esfuerzo de poder corregirlo con sus siempre inteligentes aportes, as como a todos los colegas
involucrados en ello, para lo cual van nuestros agradecimientos infinitos.
C. Len / A. Escajadillo
!9

NDICE

pg.

Introduccin

17

I. Modelacin economtrica: De la teora econmica al modelo estimable


Introduccin al tema

21

1.1. Planteamiento de modelos desde la teora econmica

22

1.2. Proceso generador de datos y datos observados

27

1.3. Modelos estimables y modelos estadsticos

38

1.4. Errores de diseo

42

1.5. Modelos de prediccin y estimacin

45

1.6. Evaluacin de polticas con modelos economtricos

46

Conclusiones del captulo


Caso de aplicacin
Ejercicios
Referencias bibliogrficas

49
51
53
56

II. Relaciones estadsticas entre variables aleatorias


Introduccin al tema

59

2.1. Variables aleatorias

60

2.2. Valor esperado de una variable aleatoria

64

2.3. Varianza de una variable aleatoria

67

2.4. Media y varianza condicional

68
!10

2.5. Correlacin entre variables aleatorias

78

Conclusiones del captulo


Caso de aplicacin
Ejercicios
Referencias bibliogrficas

81
83
85
86

III. Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis


Introduccin al tema

88

3.1 Criterios bsicos a cumplir en un modelo de regresin

89

3.2 Estimacin de parmetros

98

3.3 Ajuste de modelos

103

3.4 Significancia de parmetros y del modelo

110

Conclusiones del captulo


Caso de aplicacin
Ejercicios
Referencias bibliogrficas

121
123
130
135

4 Modelo de regresin general y mtodo de mxima verosimilitud


Introduccin al tema

137

4.1 Planteamiento del modelo general con matrices

138

4.2 Significancia de parmetros y medidas globales de ajuste

146

4.3 Estimacin de parmetros con Mxima verosimilitud

154

Conclusiones del captulo


Caso de aplicacin
Ejercicios

160
162
168
!11

Referencias bibliogrficas

169

5 Multicolinealidad en modelos economtricos


Introduccin al tema

173

5.1 Problemas de la estimacin con multicolinealidad

174

5.2 Deteccin de la multicolinealidad

187

5.3 Correccin de la multicolinealidad

194

5.4 Uso de variables proxy e instrumentales

202

Conclusiones del captulo


Caso de aplicacin
Ejercicios
Referencias bibliogrficas

210
213
215
216

6 Heterocedasticidad en Modelos economtricos


Introduccin al tema

219

6.1 Modelos seriales y diseo de modelos transversales

220

6.2 Razones, fallas en la estimacin y deteccin de la heterocedasticidad

230

6.3 Correccin de la heterocedasticidad

244

Conclusiones del captulo


Caso de aplicacin
Ejercicios
Referencias bibliogrficas

252
254
258
259

7 Autocorrelacin de errores
Introduccin al tema

262
12
!

7.1 Fallas generadas en los modelos por autocorrelacin de errores

263

7.2 Deteccin de la autocorrelacin de errores

272

7.3 Correccin de la autocorrelacin de errores

279

Conclusiones del captulo


Caso de aplicacin
Ejercicios
Referencias bibliogrficas

283
285
288
290

8 Modelos de respuesta limitada: Probabilidad lineal y logit


Introduccin al tema

293

8.1 Modelos de regresin de probabilidad lineal

294

8.2 Modelos de regresin logit

303

8.3 Significancia y ajuste en modelos logit

318

Conclusiones del captulo


Caso de aplicacin
Ejercicios
Referencias bibliogrficas

326
329
331
334

9 Modelos probabilsticos con distribucin normal: Probit y tobit


Introduccin al tema

336

9.1 Requerimientos para el diseo de un modelo Probit

337

9.2 Estimacin, significancia y ajuste de un modelo probit

340

9.3 Modelos Tobit y estimaciones en dos etapas

349

Conclusiones del captulo


Caso de aplicacin

362
364
!13

Ejercicios
Referencias bibliogrficas

366
378

10 Estructura y estacionariedad de series de tiempo


Introduccin al tema

380

10.1 Estructura de series de tiempo

381

10.2 Analizando las series de tiempo autoregresivas y su estacionariedad

390

10.3 Series de tiempo en media mvil y su estacionariedad

396

10.4 Series de tiempo autoregresivas con media mvil (ARMA) y coeficientes de


correlacin parcial

400

10.5 Estacionariedad de series y pruebas de raz unitaria

406

10.6 Introduccin a los filtros de series de tiempo

426

Conclusiones del captulo


Caso de aplicacin
Ejercicios
Referencias bibliogrficas

432
434
436
437

11 Modelos de Vectores Autoregresivos (VAR) y cointegracin de series


Introduccin al tema

440

11.1 Requisitos e introduccin a los modelos de Vectores Autoregresivos

441

11.2 Estimacin de modelos de Vectores Autoregresivos (VAR) y


descomposicin de varianza

448

11.3 Funcin de impulso respuesta en el VAR y causalidad

455

11.4 Series no estacionarias y cointegracin

466

!
14!

Conclusiones del captulo


Caso de aplicacin
Ejercicios
Referencias bibliogrficas

477
479
481
490

12 Introduccin a los Modelos de panel de datos


Introduccin al tema

493

12.1 Diseo de un panel de datos

494

12.2 Modelo de panel con efectos fijos

497

12.3 Modelo de panel con efectos aleatorios

505

12.4 Estimacin de modelos de panel de datos

515

12.5 Test para efectos fijos o aleatorios

521

Conclusiones del captulo


Caso de aplicacin
Ejercicios
Referencias bibliogrficas

525
527
529
535

13 Modelos con heterocedasticidad condicional y evaluacin de impacto


Introduccin al tema

538

13.1 Modelos de varianza condicional ARCH y GARCH

539

13.2 Aplicacin de modelos de varianza autoregresiva condicional ARCH y GARCH 542


13.3 El impacto transversal de las polticas pblicas

555

13.4 Evaluacin del impacto y seleccin aleatoria

557
!15

13.5 Evaluacin del impacto por mtodo de diferencias en diferencias

567

13.6. Evaluacin del impacto por mtodo de emparejamiento

573

Conclusiones del captulo


Caso de aplicacin
Ejercicios
Referencias bibliogrficas

576
578
580
586

14 Modelos no paramtricos para anlisis de datos transversales


Introduccin al tema

591

14.1 Tcnicas de reduccin de datos: Anlisis factorial

592

14.2 Tcnicas de agrupamiento de elementos: Anlisis cluster o de conglomerados 616


14.3 Tcnicas de desarrollo de productos: Anlisis de conjuntos

632

14.4 Anlisis de correspondencias para el posicionamiento de marcas

647

Conclusiones del captulo


Caso de aplicacin
Ejercicios
Referencias bibliogrficas

655
657
659
665

!
16

Introduccin
Este libro consta de 14 captulos, se ha pensado en una secuencia de temas que ayuden a
los estudiantes de econometra a pasar de los modelos bsicos a aquellos cuyo tratamiento es
ms complejo. El captulo I nos introduce en el hecho de que todo modelo economtrico parte de
alguna teora bsica; en algunos diseos avanzados, los modelos parten de lo que el
investigador podra pensar como evento econmico a estudiar y donde la teora es inexistente
an o es parcial y puede ser ampliada o evidenciada de modo reciente. Las teoras diversas
deben tener formas de medirse y para ellos se requiere procesos generadores de datos los
mismos que llevan al tratamiento estadstico que arrojan los resultados que podran probar o no
alguna hiptesis.
El captulo II introduce al tratamiento estadstico de los datos, se analizan la aleatoriedad de
las variables y como estas relaciones permiten establecer comportamientos asociados y
medibles en indicadores diversos, tanto de desviacin como de correlacin. Estos aspectos son
ampliados ya desde una perspectiva economtrica en los captulos III y IV. Estos ltimos
captulos nos llevan a la estimacin de modelos de regresin bsicos (una sola variable
explicativa) o modelos de regresin general (muchas variables explicativas). El tratamiento de los
resultados es equivalente, la forma de llegar a las mediciones puede variar en su tratamiento
operativo, pero en concreto ambos captulos permiten entender cuando un modelo es vlido o
expresa correctamente las relaciones econmicas planteadas y permite estimar una prueba de
hiptesis de modo correcto.
Del capitulo V al captulo VII se tratan los ya clsicos rompimientos de los supuestos bsicos
de un modelo economtrico, como son la multicolinealidad que nos lleva a pensar en distintas
formas de solucin para variables redundantes o poco explicativas, e inclusive en plantear
modelos usando las complejas variables instrumentales. Luego tenemos los modelos con
varianza cambiante o heterocedsticos, donde tratamos de explicar que corregirlo, mas que un
tema de usar desviaciones o mnimos cuadrados generalizados, pasa por disear mejor las
muestras de estudio. Finalmente esta seccin concluye con los modelos con errores
autocorrelacionados, cuya solucin (primeras diferencias) ha generado toda la gama de modelos
de series de tiempo tan usada en la actualidad.
Luego tenemos los captulos VIII y IX, ambos relacionados con los modelos de respuesta
limitada, dicotmica o simplemente probabilsticos. El tratamiento empieza por los modelos de
probabilidad lineal, que al tener limitaciones de acotacin en sus extremos, generan los modelos
logit (para datos concentrados en algn lado de la distribucin) o probit (para datos de
distribucin normal). La idea de estos modelos es poder conocer la probabilidad de ocurrencia de
algn evento, en general su diseo puede llevar a plantear variables latentes no observadas,
17

pero que generan probabilidades de suceso en los hechos econmicos. Un tratamiento ms


complejo sucede cuando los datos pueden ser truncados (una parte de la distribucin no se
observa) en ese caso se hacen estimaciones tobit y en este texto planteamos un ejemplo de ese
tipo de modelos.
Los captulo X y XI presentan el tratamiento de las series de tiempo, plantean lo que ahora es
ya un tratamiento bsico como son los anlisis de estabilidad y series unitarias, tanto para
modelos autoregresivos como para modelos de media mvil. Una vez planteados esos aspectos
nos introducimos a los modelos de vectores autoregresivos (VAR) y los tratamientos de series
cointegradas, esta parte del libro pretende sentar las bases para tratamientos ms complejos en
series de tiempo.
A partir del captulo XII y hasta el final, el libro busca brindar tratamientos ms actuales en
econometra y por tanto con cierto grado de complejidad, as en este captulo nos introducimos al
fascinante y muy actualizado modelos de panel de datos, pretendemos el diseo de estos
modelos y su tratamiento tanto en efectos fijos como aleatorios, sus formas de estimacin
prctica y siempre recalcando que este tema tiene un gran desarrollo actualmente y los alumnos
podran sentar aqu las bases para estudios ms profundos sobre el tema.
El captulo XIII presenta dos tratamientos economtricos, el primero de ello muy presente en
los datos de alta volatilidad relacionado generalmente a los activos financieros, la modelacin de
estas series debe suponer que existen varianzas autocorrelacionadas y para ello surgen los
modelos ARCH o GARCH y sus derivados.
Otro aspecto muy reciente es el anlisis de impactos mediante mediciones en estudios
transversales, donde las tcnicas se han ido depurando, tanto para los modelos de primera o
doble diferencia, as como los tratamientos de modelos de emparejamiento, en estos casos el
objetivo es saber si la poltica empleada fue efectiva o no, consideramos que los estudios
subnacionales de impacto de polticas pblicas, sern algo comn en la siguiente dcada, de
modo que aqu contribuimos a aquellos estudiantes que quieran desarrollar estos temas en el
futuro.
El captulo final se libera de los supuestos economtricos y de algunas rigideces de
estimacin puntual, para tratar lo que muchos estudiantes quizs consideren ms aplicativo del
campo estadstico, como son distintos modelos que ayuden a entender los comportamientos de
compra o la dinmica de los mercados de consumo. As planteamos modelos de reduccin de
datos o factoriales para fines de ayuda publicitaria, modelos de segmentacin de mercados,
modelos para analizar atributos de los productos y su valoracin, as como el anlisis de marcas
y su respectivo posicionamiento. Estos alcances permitirn que los estudiantes puedan encontrar
18

ramas distintas de aplicacin y no slo mtodos de estimacin puntual, sino que se familiaricen
un tanto con los mtodos no paramtricos que ofrece este captulo final.
Hay que sealar que cada captulo tiene casos de aplicacin, donde el objetivo es disear
modelos economtricos de tratamiento especfico. As segn el captulo que se analice, se
plantean extractos tericos que sirvan de base para el diseo del modelo que se relacione con el
dicho captulo. Igualmente cada captulo contiene al menos un ejercicio donde se apliquen datos
diversos para realizar ejercicios de estimacin de modelos economtricos.
Como esta labor de investigacin o al menos anlisis de la teora existente nunca termina,
invitamos a los lectores y estudiantes diversos, a plantear sus propios ejercicios, a compartir ello
con nosotros y poder as incrementar el anlisis que este documento quiere invitar en todos sus
lectores. Igualmente cualquier error detectado puede escribirnos para poder corregirlo de cara a
un mejor desempeo en las clases donde este material pueda buenamente utilizarse.
Para correcciones, solicitudes de las bases de datos (en Microsoft Excel) que este libro usa y
plantea como ejercicios o compartir sus propios casos con nosotros, no dude en escribirnos a:
cleon@usat.edu.pe. Expresamos tambin nuestras disculpas para los errores cometidos, siempre
ello ser responsabilidad exclusiva de los autores.
Finalmente el lector debe saber, que la mayor parte de este libro usa como soporte
informtico el programa STATA (en su versin para MAC OS pero equivalente en Windows), no
obstante los anlisis aqu planteados pueden ser replicados o aplicados en otros programas para
estos fines; como por ejemplo Eviews, SPSS, Gretl, Matlab u otros que el lector domine.
Consideramos que en econometra es muy importante disear el modelo, el tratamiento operativo
en cualquier programa informtico nos mostrar buenos resultados si el diseo es bueno, por
general todas las licencias informticas para econometra son igualmente potentes.
Chiclayo, Per.
Julio de 2015.

19

CAPTULO I
Modelacin economtrica: De
la teora econmica al
modelo estimable

20

Modelacin economtrica: De la teora econmica al modelo estimable

I. MODELACIN ECONOMTRICA: DE LA TEORA ECONMICA AL MODELO ESTIMABLE

Introduccin al tema
Los modelos economtricos siempre parten de una concepcin previa, es decir hay todo un
diseo terico que permite establecer relaciones diversas entre variables econmicas y otras. Por
ejemplo la posibilidad de que la creciente masa monetaria de un pas genera alzas de precios, es
una regularidad que se da en las economas. Esta regularidad ha sido planteada a modo terico
como la relacin entre la inflacin y la cantidad de dinero, esto conlleva luego a probar si esta
regularidad es vlida en trminos estadsticos de modo que pueda generalizarse en el contexto
donde se produce.
En general los modelos economtricos tienen un soporte terico necesario, al menos tienen
diversas regularidades que se presentan en la realidad econmica, por ello surge la intencin de
establecer estas relaciones tericas (que pueden ser nuevas, originales o tradas de otras
realidades para probar su vigencia) y medirlas o validarlas con criterios estadsticos.
En este captulo analizamos esos fundamentos tericos para los modelos economtricos en
general, por ello los componentes del captulo son el anlisis terico necesario, la bsqueda de
datos para validar las teoras, el planteamiento de modelos que se puedan estimar, errores de
diseo y el uso de modelos para prediccin o evaluacin de las polticas, que disean los
ejecutores en el mbito pblico e inclusive en el privado.
21

Modelacin economtrica: De la teora econmica al modelo estimable

1.1. Planteamiento de Modelos desde la Teora Econmica


La ciencia econmica se basa normalmente en el anlisis de las distintas regularidades
empricas (fenmenos evidentes o con evidencia existente y a la vez continuos) existentes en la
realidad, por ejemplo si existen muchos productores de algn bien (o comienzan a surgir ms
empresas productoras de un mismo bien), lo normal es que se abarate o se reduzca el precio, si
estos productores se van reduciendo en el tiempo, entonces los precios deberan subir. Ello se
produce cuando estos productores interactan con la demanda existente.
Entonces existe en cualquier mercado el comportamiento de productores u ofertantes y el
comportamiento de los consumidores o demandantes, estos hechos se producen en la prctica
(son fenmenos reales), es tambin una regularidad observable que si estos precios en el
mercado son crecientes, entonces por un lado los productores vern beneficios (ganarn ms) y
por ende suben su oferta (al menos tratan de producir ms). Por otro lado los consumidores se
vern perjudicados al ser todo ms caro, lo cual por lo menos incentiva a que compren menores
cantidades de dicho productos.
Estas regularidades descritas antes, se conocen en la teora econmica como leyes de oferta
y demanda, simplemente la teora recoge un comportamiento existente en los hechos y prcticas
de los agentes econmicos.
Para ponerle un tratamiento conceptual o modelar econmicamente las leyes de oferta y
demanda, podemos plasmar para el caso de la oferta, una ecuacin del siguiente estilo:
Po = a + b (Qo)

(1)

Donde Po representa el precio de los bienes ofertados, Qo representa las cantidad ofertada
en el mercado, a representa el precio existente cuando no existe cantidad ofertada (en buena
cuenta el mnimo precio posible por un bien) y b representa la tasa de cambio entre el precio y la
cantidad. Observemos que un mayor precio necesariamente coincide con una mayor cantidad
ofertada, cumpliendo la observacin terica y el fenmeno real.
De igual modo puede plantearse una ecuacin de la demanda, de la forma siguiente:
Pd = c - d (Qd)

(2)

Donde Pd representa el precio de los bienes demandados, Qd representa las cantidades


demandadas en el mercado, c representa el precio existente cuando no existe cantidad
demandada (en buena cuenta el mximo precio posible por un bien) y d representa la tasa de
cambio entre el precio y la cantidad. Ahora podemos notar que un alza del precio corresponde a
22

Modelacin economtrica: De la teora econmica al modelo estimable

un comportamiento inverso en la cantidad demandada, con lo cual se cumple con el


planteamiento terico y a la vez con la regularidad del hecho econmico.
Si establecemos un mercado en equilibrio, tenemos que el precio es el mismo (P sera ahora
un precio de equilibrio) y las cantidades (Q) sern iguales tanto para el ofertante como el
demandante esto supone una solucin del siguiente modo:
a + b (Qo) = c - d (Qd)
Q (b + d) = c - a
Q = (c - a) / (b + d)
P = a + b * [(c - a) / (b + d)]

(3)
(4)

Si por ejemplo a (mnimo precio de los ofertantes) baja en razn de un mayor nmero de
productores, entonces la cantidad ofrecida y demandada (Q) en el mercado aumenta y el precio
de equilibrio (P) baja. Esta regularidad ya sealada como leyes de oferta y demanda puede
estimarse a partir de conocer el valor de a, b, c y d, con los cuales se resuelven las ecuaciones
(3) y (4).
Saber los valores sealados anteriormente, implica estimar las ecuaciones (1) y (2) desde un
punto de vista estadstico o matemtico, la estimacin se realiza usando informacin del mercado
donde estemos realizando el anlisis respectivo.
Podemos, por ejemplo, recurrir al mercado de venta de uvas de exportacin (un ejemplo en el
Per es la uva red globe) y conocer la produccin anual para cada precio del mercado
internacional. Con ello podemos encontrar el valor de b (tambin la pendiente matemtica de la
ecuacin 1), podemos a su vez preguntarles a los productores de uvas a qu precio ya no hay
ganancias y tendremos el valor de a. Con lo cual ya hemos resuelto gran parte del problema.
Un segundo paso es conocer en el mercado externo, cunto se consume de uvas a cada
precio internacional, eso nos da el valor de d, sin embargo conocer el precio al cual ya no se
comprara uva, supone hacer una encuesta entre los compradores o mayoristas, con lo cual
obtenemos el valor de c. Toda la informacin anterior nos ayudar a hallar tanto el precio como
la cantidad de equilibrio en el mercado de uvas.
Como puede verse el planteamiento terico acorde a las leyes de oferta y demanda, es la
base para establecer relaciones matemticas o estadsticas con las cuales se pueden estimar
tanto el precio como la cantidad de equilibrio en un mercado.
23

Modelacin economtrica: De la teora econmica al modelo estimable

Por qu sealamos antes que pueden establecerse relaciones estadsticas? Pues porque
para conocer los precios mximos o mnimos se recurre a encuestas donde previamente hay que
elegir a los entrevistados, lo cual ya supone un proceso al azar o aleatorio, de modo que las
respuestas sean lo ms autnticas posibles. Las respuestas de los entrevistados en torno a los
precios indicados en las ecuaciones (1) y (2) pueden ser tomadas como el promedio, la moda o
la mediana, de modo que tengamos un dato representativo del grupo de entrevistados, esto ya
supone un tratamiento estadstico de los datos, con los cuales tambin podemos conocer la
cantidad y precio de equilibrio que se evidencia en las ecuaciones (3) y (4).
De esa combinacin de modelos econmicos, basados en teoras econmicas que derivan de
una realidad o regularidad emprica, junto con bases matemticas para su estimacin o la
necesidad de datos estadsticos para probarlos, surgen los modelos economtricos. Como su
nombre seala, es medir de alguno modo la existencia o regularidad de los hechos econmicos,
reafirmando la teora construida, amplindola o simplemente mejorndola (cuando no
rechazando sus postulados). La econometra termina siendo la herramienta que permite verificar
la validez que tienen los modelos econmicos, para representar los hechos existentes en la
realidad o en las decisiones econmicas que continuamente tienen los agentes.
Una primera conclusin sobre lo tratado previamente, supone que para el diseo de modelos
economtricos debemos conjugar dos cosas, primero una regularidad existente o hecho
econmico que normalmente sucede, afecta o genera comportamientos de los agentes y la
segunda una base terica que explique dichos comportamientos a modo general.
Es posible que existan fenmenos econmicos cuyo comportamiento no tiene un sustento
terico pero que su regularidad permite establecer criterios para su anlisis. Por ejemplo en el
pasado se poda encontrar elevado nivel de informalidad entre los productores en un pas en
desarrollo, por ejemplo el Per. Las teoras existentes para explicar este comportamiento podan
ser muy exiguas, en virtud de que la informalidad o la economa al margen de las normas legales
(sin ser ilegales completamente) era un fenmeno de los pases en vas de desarrollo y casi
inexistentes en los pases desarrollados, con lo cual el bagaje terico al respecto era limitado.
De Soto (1986) en su tratamiento de la informalidad comienza a sealar que son los
gobiernos los que imponen elevadas cargas regulatorias que generan estos comportamientos
informales, tambin seala que el capital no tiene valor (al no tener un criterio formal de medicin
o traspaso), entonces este capital informal debe ser registrado y valorado, con fines de que la
economa tenga una mayor dinmica y se reduzca su amplio rol informal. Con estos criterios
analizados, se puede sealar que surgen tratamientos tericos al hecho econmico que se
presenta, sin embargo la informalidad en el Per es persistente, an con diversas medidas dadas
24

Modelacin economtrica: De la teora econmica al modelo estimable

para que el capital sea legalizado, o para que los productores puedan ser reconocidos
formalmente.
Esto supone que pueden darse ms tratamientos tericos al tema, por ejemplo se puede
mencionar que el clima de negocios es vital para que estos desarrollen y prosperen en ambientes
formales (Porter, 1991), en la medida que los pases desarrollen un buen clima de negocios,
atraern a stos y su desempeo ser notable. Otras corrientes indican que los pases en
desarrollo tienden a esos niveles de economa informal por cuanto carecen de institucionalidad o
de slidas bases para el desarrollo institucional (Acemoglu y Robinson, 2012) y terminan siendo
economas extractivas, es decir no fomentan un sistema donde son las instituciones antes que
las personas los responsables del xito, en buena cuenta los procesos polticos se orientan de
modo adecuado porque existen mecanismos de control institucionalizados, eso reduce
enormemente la informalidad en las decisiones del pas. Buenas instituciones adems supone
que provienen de procesos donde todos los agentes tienen los incentivos adecuados, por
ejemplo ser informal es ms costoso que ser formal, adems ser informal es inviable porque no
se tienen proteccin alguna en un estado formal y siempre controlado.
Como puede verse las teoras, corrientes o pensamiento econmico ligado al tema de la
informalidad ha ido cambiando, en algunos casos es explicado por teoras puntuales, en otros
casos proviene de diversos conjuntos tericos que explican no slo ese problema sino otros
hechos econmicos, cada tratamiento terico le puede dar una perspectiva distinta al fenmeno y
aporta variables de estudio. En el caso de la informalidad en la economa (Y), esta puede
deberse, por ejemplo, a: excesos regulatorios (X1), escasa institucionalidad (X2), costos bajos de
ser informal (X3), nivel de cumplimiento de la ley (X4), nivel de formalizacin del capital invertido
(X5), grado de movilidad del capital en un mercado legal (X6). El proceso no termina, por ejemplo
an no termina de explicarse por qu si hay una gran cantidad de informales, una economa
sigue creciendo, como el caso de Per o la India, no es acaso la informalidad una traba al
crecimiento econmico, o es el alto crecimiento un impulso adicional a la informalidad en un pas
donde el marco regulatorio es de por s excesivo.
Finalmente podemos sealar a modo de modelo terico, que la informalidad (Y) es explicada
total o parcialmente con las variables X1, X2, X3, X4, X5 y X6.
La utilidad de esta forma de ver los modelos econmicos desde una perspectiva terica,
puede ser un aliciente para aquellos dedicados a investigar los fenmenos econmicos. Puede
darse por ejemplo lo siguiente:

25

Modelacin economtrica: De la teora econmica al modelo estimable

Fig. 1.1. Variables que explican el crecimiento del volumen exportado

Crecimiento!del!
Volumen!
exportado!
?!

Variacin!del!
Tipo!de!cambio!
real!

En la figura anterior observamos que el volumen exportado de un pas hacia otro, puede
depender del tipo de cambio real (la relacin equivalente a tipo de cambio nominal * precio
internacional / precio nacional), hasta aqu hemos encontrado una variable que puede explicar a
la otra en alguna medida (sealada como la parte del grfico intersectado), sin embargo puede
existir otra variable (u otras) que tambin influyen en el crecimiento del volumen exportado, aqu
es donde el investigador puede recurrir a otras teoras o plantear su propia teora o teoras,
cuando observa hechos en la realidad econmica que requieren una explicacin conceptual,
siempre que nadie las haya realizado antes.
Por ejemplo algunos pueden sealar que el volumen exportado depende de las ventajas
relativas del pas sobre todo en los costos comparados de mano de obra (Ricardo, 1817). Porter
(1985) indica que las exportaciones pueden acelerarse mediante las ventajas competitivas de las
empresas, esto es el logro de ventajas a lo largo de la cadena de valor empresarial, por ejemplo
proveedores de mayor sofisticacin o calidad, clientes ms exigentes, un gobierno que ayuda en
la cadena logstica reduciendo barreras, sistemas de apoyo de la empresa en tecnologa y otros.
Krugman (1991) en torno al mismo tema anterior indica que las economas de escala pueden
influir en la mayor exportacin, as zonas con ventajas para subir su produccin a bajos costos
(economas en algn factor productivo o rendimientos crecientes, por ejemplo mano de obra
calificada y concentrada o costos logsticos bajos) pueden exportar ms o incrementar la oferta
exportable y con ello ganar ventajas en el comercio exterior. Eso indica que los investigadores
26

Modelacin economtrica: De la teora econmica al modelo estimable

pueden ir planteando nuevas explicaciones a un mismo problema o hecho econmico, con lo cual
el acervo cientfico se va incrementando.
Entonces podemos sealar tambin que mediante los modelos econmicos se puede ampliar
un conocimiento terico ya establecido, se puede avanzar hacia nuevos sustentos tericos, o se
puede aplicar teoras de otras realidades para ver si se cumplen en algn contexto particular.
Estos modelos econmicos trasladados a un modelo economtrico pueden dar con que falta
evidencia o la evidencia actual no sigue un patrn terico definido, o que se requiere nuevas
teoras o simplemente que las teoras de un contexto no funcionan en otros.

1.2. Proceso generador de datos y datos observados


Como vimos antes, se pueden plantear teoras basadas en los hechos econmicos, a partir
de estas teoras se pueden disear modelos econmicos y finalmente modelos economtricos.
Estos ltimos requieren de diversa informacin que permita su estimacin o por lo menos permita
afirmar o denegar (cuestionar normalmente) la teora o modelo construido.
La informacin necesaria para el diseo de modelos economtricos puede ir desde dos
procesos generadores de datos, en primer lugar uno relacionado con informacin que ya existe y
slo hay que planificarla para el modelo que queremos probar. La otra se vincula a la creacin de
esta informacin a partir de procesos primarios de recoger datos, aspecto normalmente usado en
diversos estudios sociales o comerciales.
Generacin de datos desde informacin previa
Un ejemplo sencillo puede ayudarnos a entender el uso de esta informacin ya realizada,
pensemos en un modelo econmico simple del siguiente modo:
t = t-1 -
En este modelo es la tasa de inflacin y bsicamente depende de la inflacin pasada y de
, que indica la tasa de desempleo. Este modelo sencillo indica que la inflacin actual (en el
perodo t) est influencia por la inflacin pasada (algo que en la teora econmica suele
denominarse expectativas adaptativas), en este contexto economas que han sufrido niveles de
inflacin normalmente estables, tienden a conservar este nivel y aquellas que han tenido niveles
altos de inflacin no tienen como reducir esto rpidamente. Naturalmente el modelo no contempla
programas de corte de precios agresivos, que bien pueden reducir este proceso adaptativo,
Sachs (2005) indica que la hiperinflacin puede cortarse rpidamente si uno descubre la fuente
27

Modelacin economtrica: De la teora econmica al modelo estimable

generadora del problema, por ejemplo en Bolivia el proceso de bajo precio del combustible,
obligaba al gobierno a subsidiarlo o cubrir parte del costo del mismo, al ser adems los
impuestos al combustible unos de los principales tributos, la solucin fue simplemente dejar que
el precio de combustible pase a su nivel real (mucho ms alto), esto elimin el subsidio, mejor la
recaudacin del estado y por ende cort el proceso generador de altos precios, simplemente
estos se pusieron en su nivel de equilibrio.
Existen otros casos donde hay un cambio en el proceso formador de precios bajo
expectativas adaptativas y se da cuando los bancos centrales juegan a mejorar la actividad
econmica y pueden con ello crear procesos de inflacin incluso mayores a los niveles previos.
Sachs (1990) indica que los grandes conflictos sociales en Amrica Latina, obligan a sus
ejecutores de poltica a cambiar sus acciones, por ejemplo pueden de pronto decidir incrementar
las emisiones monetarias, con lo cual la demanda de bienes sube y los salarios en los sectores
de demanda interna tambin (considere economas de dos sectores transables y no transables),
esto supone que el cambio real se aprecia (sobre todo considerando que los pases normalmente
intervienen en los mercados cambiarios). Hay que notar que la economa al interno tiene precios
ms altos, lo que conduce a un menor impulso del sector exportador (es ms costoso en los
insumos o pagos externos) y ello termina generando procesos que en lugar de reactivar una
economa la deprimen, muy al margen de que las autoridades hayan querido ello, considere
adems que la economa se hace importadora (dficit en cuenta corriente) y ello terminar
produciendo una crisis cambiaria que igualmente elevar los precios internos.
Lo nico que finalmente se concluye es que la economa rompe su esquema de precios y se
traslada a uno ms alto, el proceso puede degenerar en espiral si es que el banco central sigue
inyectando dinero en la economa, alimentando la nueva inflacin, proceso que termina en lo que
se conoce como hiperinflacin.
La otra variable mostrada en el modelo, indica que la inflacin tiene una relacin inversa con
el desempleo. En buena cuenta mayores niveles de desempleo, implican menos demanda de
bienes (al tenerse menos ingresos), esta menor demanda implica que los precios
progresivamente irn bajando.
Con fines de probar esta relacin o modelo econmico nos enfrentamos a los siguientes
problemas:
- La tasa de inflacin equivale a la variacin porcentual del ndice de Precios, sin embargo
se puede tomar el ndice de precios al por mayor (IPM) o al consumidor (IPC), o se puede
considerar slo el IPC de la ciudad capital (en el caso de Per el IPC de Lima), esto ltimo
se da cuando no se publican ndices de precios promedios nacionales.
28

Modelacin economtrica: De la teora econmica al modelo estimable

Como vemos, tomar los datos supone una decisin del investigador o tambin es aquella
variable que mejor representa lo que queremos medir. En el caso de Per normalmente
se hubiera tomado el ndice de precios al consumidor, debido a la ausencia de mayor
disponibilidad de informacin agregada nacional. En todo caso podra construirse un
ndice de precios al consumidor nacional, pero el problema sera saber cmo ponderar el
peso de cada regin en el consumo nacional.
- Otro problema que podra darse es la poca variabilidad que presentara la tasa de
desempleo, agregando adems el hecho de que se publican ndices de desempleo
anuales y de la ciudad capital en muchos casos. Esta escasa variabilidad podra terminar
no afectando de ninguna manera la tasa de inflacin.
Este fenmeno de datos cuya variacin es pequea (comparado con otros pases cuyo
desempleo es ms dinmico) se da porque la economa tiene un mercado laboral rgido
en materia del empleo o desempleo formal, pero muy dinmico en la parte del empleo
informal, normalmente conocido como subempleo o simplemente no conocido al darse
pocos estudios sobre el desempleo en la zona informal de la economa.
Es probable que pases con mercados laborales rgidos tengan tasas de desempleo de
poco movimiento anual o de lento ajuste, sin contar que es probable que no se tenga
disponibilidad de esta tasa a ritmo mensual, mientras que es normal que existan ndices
de precios mensuales.
- Para tener una idea del problema previo veamos algunos datos, de acuerdo con
estadsticas del INEI (Instituto Nacional de Estadstica e Informtica del Per) la cantidad
de personas que estuvieron desempleadas cay en 2% anual desde el ao 2004 al 2012,
mientras que la tasa de desempleo (obtenida como poblacin desempleada sobre
poblacin econmicamente activa) pas de 5.3% en el ao 2004 a 4.53% en el ao 2012,
reflejando una escasa cada de 0.8% en esos 9 aos, poca movilidad a la hora de querer
plantear relaciones estadsticas. En ese mismo lapso la tasa de inflacin nacional (usando
el ndice de precios al por mayor) fue de 4.89% en el 2004 y de -0.59% en el 2012. Como
puede verse en ese lapso la tasa de inflacin cay y el desempleo tambin, lo cual podra
terminar concluyendo que no se cumple la teora planteada, pero las conclusiones no
pueden ser abordadas de modo tan simple.
Siguiendo con el problema previo, algunas razones pueden ser suficientes para no usar
los datos previos, por ejemplo el uso de perodos base diferentes. Se pueden tener
estimaciones diferenciadas de ndices de precios tomando aos base diferentes.
29

Modelacin economtrica: De la teora econmica al modelo estimable

Otro problema subsiste como dijimos antes en el uso de ndices, por ejemplo el IPC
nacional a diciembre de 2012 arroja una tasa de inflacin de 2.65% notoriamente diferente
a la del IPM y adems no se encuentran datos disponibles para el ao 2003, limitando las
comparaciones.
- Otro problema vinculado a la disponibilidad de datos, normalmente en el caso peruano, es
que muchos datos anuales son posteriores a 1990 (lo cual da una historia de apenas 24
aos) cuando muchos analistas e investigadores plantean estudios que pueden ir de 100
a ms aos, un ejemplo es Piketty (2013) tomando series de ms 200 aos de antigedad
(recopiladas en diversas fuentes y pases diversos) concluye que el crecimiento del capital
normalmente ha superado el crecimiento econmico, lo que supone que los capitalistas o
inversionistas han tenido siempre rendimientos superiores al comn de la gente
(considere que el crecimiento econmico se redistribuye), si bien pueden haber subido los
salarios u otros rendimientos del trabajo, estos se diluyen con el crecimiento poblacional,
mientras que el capital ha seguido redituando a grupos minoritarios, lo que supone una
desigualdad creciente en el sistema econmico de los pases llamados desarrollados.
- Entonces se puede sealar que los modelos economtricos a partir de datos existentes o
secundarios puede enfrentar problemas como: ausencia de datos frecuentes, al menos
frecuencias equivalentes en todas las variables, uso de aos base diferentes, series que
no varan por motivos estructurales o ajenos a lo que se quiere medir.
Hay que considerar adems el nivel en que se miden o construyen los datos secundarios,
por un lado las variables deben estar en medidas equivalentes, por ejemplo ndices o
variaciones, inclusive logaritmos de ndices, si estn en unidades monetarias es preferible
que sean ambas en la misma unidad (por ejemplo millones o miles de unidades
monetarias o soles en el caso de Per), bsicamente por un tema de interpretacin de los
resultados a obtener.
Generacin de datos primaria
Normalmente en algunos casos, ciertos estudios pueden no tener informacin previa (algo
que felizmente va siendo historia debido a las tendencias de medir los impactos o por lo menos
las intervenciones del estado), veamos el siguiente ejemplo:

=
Donde Y representa el ingreso obtenido por individuo en su mayora de edad no cronolgica
sino llamemos profesional o formativa (por ejemplo 22 aos) y X representa los aos de
escolaridad del individuo, consideremos que este estudio se realiza en un distrito del pas o
30

Modelacin economtrica: De la teora econmica al modelo estimable

inclusive en el mbito nacional. Asimismo representa la proporcin en que los aos de


escolaridad influyen en el ingreso del individuo.
Esta informacin previa puede ser existente, por ejemplo algunas encuestas contienen
informacin de este tipo, en el caso peruano la Encuesta Nacional de Hogares (ENAHO) contiene
una muestra nacional para ello (aunque en cada distrito las muestras son pequeas) e inclusive
la encuesta Nios del Milenio (en Per administrada por el grupo de Anlisis para el Desarrollo GRADE) puede contener informacin en grandes cortes o estratos (tambin pueden llamarse
cohortes) por ejemplo muestra el nivel de escolaridad para los aos 2002, 2006 y 2009, el primer
grupo tiene ya individuos en su mayora de edad, de modo que la informacin en los pases como
Per comienza a ser por lo menos abundante o variada para ciertos tipos de estudio.
Volviendo con nuestro ejemplo, podemos evidenciar que para distritos de alguna regin en
particular estos datos no existen, en ese caso se debe construir la base de datos respectiva, con
fines de poder utilizarla en los anlisis que estamos realizando. Dicha base de datos sigue
algunos procedimientos que normalmente son:
Poblacin de referencia
Equivale al grupo objetivo donde hay que tomar los datos, en este caso pueden ser
hombres o mujeres que tienen 22 aos de edad. Hay que notar que el estudio se limita a
esta edad, lo cual inclusive puede contener la limitante de que el ingreso debe ir
subiendo con la edad, sobre todo si hay mayor nivel de escolaridad o aos de estudio,
pero para fines del ejemplo podemos sealar que la poblacin tendra esta caracterstica
principal.
Muestra
Dado que el grupo objetivo poblacional es bastante variado, la muestra debe tomar en
cuenta criterios como porcentaje (%) de hombres y mujeres, porcentaje (%) de la
poblacin residente urbana o rural, porcentaje (%) de la poblacin por centros poblados,
urbanizaciones o zonas residenciales dentro del distrito, y en general criterios que
ayuden a representar del mejor modo posible la poblacin de referencia.
El tamao de la muestra ya depende del nivel de error tomado, en este caso siendo un
grupo variado, niveles de error menores a 5% son bastante frecuentes, algunos pueden
indicar que niveles de error de 2 a 3% pueden ser recomendables.
!
31

Modelacin economtrica: De la teora econmica al modelo estimable

Levantamiento de datos
Es importante determinar el lugar o dnde se recogen los datos de los individuos que
queremos analizar. Para nuestro ejemplo, puede hacerse tomando los hogares o
domicilios como puntos de referencia. En este caso se pueden aplicar tcnicas de
seleccin de hogares al azar, para que el estudio sea lo ms aleatorio posible, por
ejemplo sortear los hogares o nmeros de residencias o simplemente tomar cada x
casas la siguiente. El levantamiento de datos supone los problemas tpicos de no tener
al elemento objetivo en el domicilio, no lograr respuesta del domicilio, preguntar al
individuo equivocado y otros, que deben ser previstos.
!
Preguntas
Una vez que se tiene definido la forma de tomar los datos, viene el proceso de
preguntarle al individuo, las preguntas bien pueden ser:
1. Sobre su formacin educativa, usted estudi hasta:
1.1. Primaria incompleta

( )

1.2 Primaria completa

( )

1.3 Secundaria incompleta

( )

1.4 Secundaria completa

( )

1.5 Tcnicos incompletos

( )

1.6 Tcnicos completos

( )

1.7 Universitaria incompleta

( )

1.8 Universitaria completa

( )

Hasta _________ Ao

Hasta _________ Ao

Hasta _________ Ciclo

Hasta _________ Ciclo / Ao

32

Modelacin economtrica: De la teora econmica al modelo estimable

2. Sobre sus ingresos, usted normalmente gana en promedio:


1.1. Menos de 750 soles

( )

1.2 De 751 1500 soles

( )

1.3 De 1501 2000 soles

( )

1.4 De 2001 2500 soles

( )

1.5 Ms de 2500 soles

( )

Hay que notar que un criterio que debilita la toma de datos, es si el individuo trabaja a tiempo
completo o a medio tiempo, si es un ingreso permanente o si es ingreso eventual, esto debe ser
considerado en algunas preguntas adicionales con fines de tener una clara idea de la relacin
aos de estudios e ingresos.
La pregunta dos, puede plantearse de modo directo, cuanto gana el individuo, pero ello
podra tener un error al alza que debemos evitar, primero porque el individuo podra querer
quedar bien al ser preguntado por un tema privado y evidentemente dara un ingreso mayor al
real. Otra es pedirle una boleta de pago, pero ello sera en un ambiente de empleo muy formal y
el problema es que el individuo no quiere ser molestado a la hora de ser entrevistado. Dado que
la informacin es muy personal, no es posible recurrir a otras fuentes, aun cuando en el estado
existen entidades que tienen esta informacin al menos la de los ingresos bastante detallados,
por ejemplo mediante las declaraciones tributarias de las empresas.
Note tambin que la pregunta una supone que los aos los colocaremos nosotros en la base
de datos, por ejemplo:
ID
1

Aos de estudio
6

Ingresos
2

33

Modelacin economtrica: De la teora econmica al modelo estimable

En el caso anterior, el ID significa identificador (ID) e indica el nmero o cdigo de


entrevistado, esto es clave para luego depurar la base de datos o ante errores. La segunda
columna aos de estudios 6, refleja que el individuo tiene estudios superiores completos (puede
colocarse tambin 7 para diferenciar tcnico de universitario). Mientras que la columna ingresos
indicada con 2, supone que el individuo gana entre 751 a 1500 soles.
De esa manera construimos la base de datos con informacin primaria o que hemos diseado
de modo ex profeso para nuestro estudio. Hay siempre que indicar (reiteradamente) que partimos
de un hecho econmico real o al menos presumible, la idea de que a mayor nivel de estudios
existe mayores ingresos, bueno el hecho es que existen evidencias de lo mismo.
Yamada (2007) encuentra que los retornos de la educacin superior son de 17% mayores a
los de estudios tcnicos situados en 10% y mucho ms altos que para aquellos que slo
terminaron secundaria, cuyos retornos llegaron a 6%. Este estudio respalda el ejemplo anterior,
en lo que estamos tratando de incidir, siempre tener una base terica a los modelos planteados,
en el caso de los rendimientos que genera la educacin, autores como Becker (1975) y Chiswick
(1997) ya han incidido que ms aos de estudios, deben corresponder a un mayor ingreso per
cpita, ya que el trabajo es una fuente de produccin y ese trabajo con innovaciones o mejoras
(la educacin) puede ser ms productivo.

Datos no observados
Existe la posibilidad de que algunas variables que quieren analizarse no tengan hechos o
informacin observable, para ello veamos el ejemplo siguiente:
Sea un modelo donde queremos maximizar la utilidad o bienestar (V) del individuo, a partir
del consumo (C) y del uso de dinero M, para diversos perodos t. (Len, 2003)
V = U (C1, M1) + (C2, M2)

(i)

Donde:
: Tasa de descuento del consumo futuro
C: Consumo en diversos perodos per cpita
M: Demanda de dinero en diversos perodos per cpita
El consumidor enfrenta una restriccin presupuestaria en trminos per cpita igual a:
34

Modelacin economtrica: De la teora econmica al modelo estimable

Pt Yt + Mt-1/(1+n) + Bt-1 (1+Rt-1)/(1+n) = Pt Ct + Mt + Bt


Donde:
B: Tenencia de bonos per cpita en diversos perodos
R: tasa de inters en diversos perodos
n: Crecimiento poblacional
Y: Ingreso per cpita en diversos perodos
P: Precios en diversos perodos
La restriccin presupuestaria puede ser establecida en trminos reales:
Yt + Mt-1 / Pt (1+n) + Bt-1 (1+ Rt-1) / Pt (1+n) = Ct + Mt / Pt + Bt / Pt
Rescribiendo la restriccin y multiplicando en el numerador y denominador por Pt - 1:
Yt + mt-1 Pt-1 / Pt (1+n) + bt-1 (1+ Rt-1) Pt-1 /Pt (1+n) = Ct + mt + bt
Considerando que Pt / Pt - 1, es equivalente a la tasa de crecimiento de la inflacin (1+ ),
entonces:
Yt - mt - bt + mt-1 /(1+)(1+n) + bt-1 (1+Rt-1) /(1+)(1+n) = Ct
Planteado en dos perodos (el clsico modelo intertemporal) las restricciones quedan del
siguiente modo:
Y1 m1 b1 + m0 /(1+)(1+n) + b0 (1+R0) /(1+)(1+n) = C1

(ii)

Y2 m2 b2 + m1 /(1+)(1+n) + b1 (1+R1) /(1+)(1+n) = C2

(iii)

Estas ecuaciones finales representan la restriccin presupuestaria de los agentes, con lo cual
se plantea el modelo de optimizacin del individuo o agente representativo. Para resolver el
modelo tomamos en cuenta la ecuacin de optimizacin (i) y se tiene que una de las condiciones
de primer orden se resuelve del siguiente modo, para ello use adems las ecuaciones (ii) y (iii):
V/b1 = 0
35

Modelacin economtrica: De la teora econmica al modelo estimable

( V / C1 ) ( C1 / b1 ) + ( V / C2 ) ( C2 / b1 ) = 0
( V / C1 ) ( -1 ) + ( V / C2 ) (1+R1) /(1+)(1+n) = 0
( V / C1 ) ( -1 ) + ( V / C2 ) (1+R1) /(1+)(1+n) = 0

(iv)

Otra condicin de primer orden es:


V/ m1 = 0
( V / m1 ) + ( V / C1 ) ( C1 / m1 ) + ( V / C2 ) ( C2 / m1 ) = 0
( V / m1 ) + ( V / C1 ) ( -1 )+ ( V / C2 ) [ 1/(1+)(1+n) ] = 0
( V / m1 ) + ( V / C1 ) ( -1 ) + ( V / C2 ) [ 1/(1+)(1+n) ] = 0

(v)

Si dividimos esta ltima expresin sobre ( V / C1 ), obtenemos:


( V / m1 ) / ( V / C1 ) - 1 + [ ( V / C2 ) / ( V / C1 ) ] [ 1/(1+)(1+n) ] = 0

(vi)

Usando la condicin mostrado en la ecuacin (iv) para resolver (vi) obtenemos:


( V / m1 ) / ( V / C1 ) - 1 + [ ( V / C2 ) / ( V / C2 ) (1+R1) /(1+)(1+n)]
[ 1/(1+)(1+n) ] = 0
(V / m1 ) / ( V / C1 ) - 1 + ( 1 / [ (1+R1) /(1+)(1+n)] ) [ 1/(1+)(1+n) ] = 0
(V / m1 ) / ( V / C1 ) - 1 + [ 1 / [ (1+R1) ] = 0
(V / m1) / (V / C1) = R1 / (1+R1)
(V / m1) = (V / C1) [ R1 / (1+R1) ]

(vii)

Donde:
(V / m1): Representa la demanda de dinero del individuo para maximizar su utilidad o bienestar
(V / C1): La preferencia del individuo por consumo presente que maximiza su bienestar
R1 / (1+R1): La tasa de inters adelantada o que el individuo percibe como costo del dinero al
tomar una decisin siempre en valor presente.
36

Modelacin economtrica: De la teora econmica al modelo estimable

La ecuacin (vii) representa la estimacin de la demanda de dinero, de este modelo


econmico se conoce slo la tasa de inters, por cuanto el promedio del mercado para cada
perodo (por ejemplo mensual) puede conocerse, sin embargo la expresin de demanda de
dinero o de consumo presente no son normalmente observables.
Al respecto del modelo hallado previamente, Mies y Soto (2000) indican que la expresin
puede aproximarse del siguiente modo:
Log Mdt = Log Ct + Log Rt / (1+Rt)
Mies y Soto (2000) textualmente sealan:
Es importante mencionar que lo que se ha obtenido es una demanda por dinero
individual. Existen dos puntos que se deben tomar en cuenta al pasar de una demanda
individual a una agregada de la economa.
Primero, existe un problema en agregar funciones de demanda derivadas de individuos
que puedan tener distintos gustos o niveles de riqueza. Es conocido el hecho que las
condiciones que permiten tal agregacin son bastante restrictivas en trminos de las
relaciones de comportamiento de las variables relevantes. Segundo, pueden existir
agentes econmicos distintos a las familias, como las empresas, lo que requiere extender
la modelacin para incluir agentes mltiples.

En buena cuenta el modelo hallado previamente tiene la limitacin de que su agregacin ser
de algn modo sesgada, en la economa no todos los agentes se comportan igual, se tiene
agentes cuya demanda de dinero es escasa primero porque es probable que usen dinero
electrnico o porque simplemente su riqueza es tal que su dinero se mantiene en formas de
activo financiero. Otros agentes pueden demandar en alta medida el dinero, dado que su
consumo es bsicamente todos sus saldos reales.
Otro problema que sealan Mies y Soto (2000) supone que la demanda de dinero no es slo
personal sino tambin empresarial, en ese caso es vlido considerar una restriccin adicional,
que indique el comportamiento de las empresas para mantener caja (fondos en la empresa), lo
cual depender principalmente del rendimiento de los activos financieros (en el modelo los
37

Modelacin economtrica: De la teora econmica al modelo estimable

bonos) y de la tasa de crecimiento del producto, porque ello da una seal de la dinmica el
mercado.
Sin embargo el aporte de Mies y Soto (2000), modelando las relaciones de la demanda de
dinero en la funcin de utilidad, ya planteada por Sidrauski (1967) resuelven el problema de tener
variables observables, al menos usando el consumo en cada perodo y la tasa de inters.
Un problema que an existe es la observacin de una variable denominada demanda de
dinero, la cual no es explcita o no se da normalmente como estadstica publicada. Al respecto
Arrau y De Gregorio (1993) usan como demanda de dinero, los datos conocidos como saldos
reales de dinero (dinero en la economa tipo M1 que se mide como circulante ms depsitos
dividido sobre el ndice de precios), versus el consumo en la economa y la tasa de inters por
depsitos a corto plazo.
Carrera (2012) emplea en sus estimaciones de demanda de dinero, primero el concepto
Keynesiano de que esta depende del ingreso y de la tasa de inters (en nuestro modelo el
consumo puede ser muy bien representado por el ingreso), siguiendo a Ball (2003) se puede
decir que la demanda de dinero a largo plazo se basa tambin en el uso de los saldos monetarios
conocidos como M1 (tambin llamado dinero primario).
Como puede verse, los investigadores pueden toparse con variables no observables pero que
deben ser estimadas, esto es un proceso necesario para probar las teoras vertidas o analizadas
y que corresponden a un fenmeno real. Por ejemplo es un hecho del individuo promedio, que a
medida que los retornos financieros son mayores, se tiende a manejar ms activos financieros
(ms rentabilidad indica que uno puede comprar diversos instrumentos financieros) obviamente
este anlisis corresponde a individuos que manejan saldos monetarios que superan su consumo
y que no se mantienen en efectivo. Sin embargo si consideramos que la tasa de inters refleja el
costo de oportunidad de usar dinero, es natural que ms costos el dinero de mantener o
administrar, supone que mejor se demanda menos (donde demandar se entiende como poseer
dinero) y ello es perfectamente atribuible al comportamiento promedio de cualquier agente.

1.3. Modelos estimables y modelos estadsticos


El modelo estimable es un resultado de la propuesta terica que queremos probar o analizar,
mientras que el modelo estadstico es una versin puntual que indica las variables que queremos
medir en especfico. Por ejemplo sea el modelo siguiente propuesto por Barro y Gordon (1983),
que indica la funcin de costos que asume el gobierno cada vez que la inflacin supera el nivel
esperado o cada vez que el producto se sale del producto objetivo:
38

Modelacin economtrica: De la teora econmica al modelo estimable

L = ( *)2 + (y y*)2

(i)

La ecuacin (i) est sujeta a la dinmica de la oferta agregada (restriccin), donde el producto
depende de la expectativa de precios de los agentes, si la expectativa de precios coincide con la
realidad, entonces el producto crece a su tasa potencial ms algn efecto externo medido por u.
Si la inflacin supera lo esperado, se produce un efecto de ganancias para los empresarios
(salario real cae bajo lo esperado) con lo cual el producto sube.
y = yn + ( e) + u

(ii)

Donde:
y: producto, y*: producto objetivo, yn: producto potencial
: inflacin, *: inflacin objetivo, e: inflacin esperada
u: Efectos externos, por ejemplo incrementos productivos sectoriales, mejoras de clima, o
empeoramientos de condiciones productivas, puede inclusive ser cambios no esperados en
polticas -sobre todo- monetarias.
El modelo planteado anteriormente puede resolverse minimizando el costo del gobierno (L) e
insertando la ecuacin (ii) en (i), con lo cual resulta:
L/ = 0
2 ( *) + 2 (yn + ( e) + u y*) = 0
( * ) = (1/ ) [(y*- yn)+ (e - ) u]
= * + (1/ ) [(y*- yn)+ (e - ) u]

(iii)

En la ecuacin previa, puede sealarse que si el pblico forma correctamente sus


expectativas de precios, esto sera expectativas racionales, entonces = e, con lo cual la
inflacin esperada sera:
e= * + (1/ ) (y*- yn )

(iv)

Si combinamos las ecuaciones (iii) y (iv) obtenemos la tasa de inflacin ptima que debe
seguir el gobierno (para ello inserte la ecuacin iii en la ecuacin iv y despeje):
= * + (1/ ) (y*- yn) u / (1+ )

(v)
39

Modelacin economtrica: De la teora econmica al modelo estimable

La ecuacin (v) indica que la inflacin puede elevarse en la medida que el producto objetivo
supere al potencial, esto indica que la demanda en la economa tiende a ser ms alta respecto
del crecimiento a largo plazo. En ese caso el gobierno usa alguna poltica de ajuste evidenciada
por: u / (1+ ).
Ahora si usamos las ecuaciones (ii), (iv) y (v) obtenemos el crecimiento del producto para el
nivel ptimo de inflacin y sera:
y = yn + u u / (1+ )

(vi)

Si consideramos que la oferta agregada neto del producto potencial (ii), es igual a la demanda
agregada (modelo IS), obtenemos:
y - y n = A ( i - e) + g

(vii)

En la ecuacin (vii) la A representa al gasto autnomo neto del multiplicador keynesiano


(usando esa definicin de IS) mientras que es la tasa de cambios entre el inters real (i - e:
inters nominal menos inflacin esperada) y el producto, considerando que es un valor neto del
multiplicador keynesiano. En este caso (g) representa los efectos externos que pueden cambiar
la demanda agregada, por ejemplo polticas monetarias y fiscales expansivas o simplemente
cambios no esperados en los consumidores.
Si el producto se comporta igual al potencial, en ausencia de efectos externos, entonces se
tiene que:
A / = (i - e)

(viii)

Usando la ecuacin (ii), la ecuacin (v), la ecuacin (vii) y la ecuacin (viii), obtenemos lo
siguiente:
A ( i - e) + g = * e + (1/ ) (y*- yn ) u / (1+ ) + u
( i - e) = (1/) [ e - * - (1/ ) (y* - yn) - u / (1+ ) + A+ g ]
i = e + (1/) ( e - * ) - (1/ ) (y* - yn) - u / (1+ ) + A / + g /
i = e + r + (1/) ( e - * ) - (1/ ) (y* - yn ) - u / (1+ ) + g /

(ix)

La ecuacin (ix) representa la regla de Taylor (2000) que es muy usada por diversos bancos
centrales en el mundo, con sus diversos matices o ajustes. La regla indica que si la inflacin
40

Modelacin economtrica: De la teora econmica al modelo estimable

esperada es mayor al objetivo de inflacin, entonces eso obliga al banco central a subir la tasa de
inters nominal.
Otra implicancia es que el producto objetivo puede superar el producto potencial, en este
caso hay un exceso de demanda que elevar los precios por encima del nivel objetivo, aqu hay
dos efectos por un lado el efecto negativo del alza del producto (correspondiente a escenarios de
menor inters) y el efecto de precios crecientes, que deben ser corregidos con un alza de la tasa
de inters.
La ecuacin (ix) vendra a ser el modelo que necesitamos estimar (modelo estimable) para
establecer la regla de poltica monetaria de un pas. Por ejemplo Taylor (2000) ha estimado que
la regla a seguir es la siguiente:
i = e + 2 + 0.5 ( e 2 ) + 0.5 (y* - yn )
Lo anterior supone que la tasa de inters real es 2% y que la inflacin objetivo es 2%,
adems el valor de 1/ , termina siendo positivo e igual a 0.5, en otros estimados el valor de
1/, puede llegar hasta 1.5, como vemos el modelo estimable se ha probado en la prctica,
mediante el uso de un modelo estadstico.
En el caso de la ecuacin (ix) el modelo estadstico es el siguiente:
i = a0 + a1 ( e - * ) - a2 (y* - yn ) + error

(x)

La estimacin del modelo estadstico sealado en la ecuacin (x) nos permitir saber el valor
de a1 y a2, que son claves para estimar la regla de Taylor, dichos valores se juntan con la tasa de
inters real y la tasa de inflacin esperada, que en teora deberan asemejarse con a0, an
cuando esto no tiene por que ser necesariamente cierto, puesto que con los parmetros hallados,
podemos agregar los datos existentes de la tasa real de inters y la inflacin esperada. El nivel
de error del modelo configura el comportamiento de los efectos externos de la regla de Taylor,
que bien pueden indicar la ausencia de mayor cantidad de variables, o sealar que el modelo
estadstico tiene un comportamiento aceptado.
En el modelo estadstico previo, se constata la presencia de un error, no hay que olvidar que
los modelos son una representacin parcial de la realidad y por ende pueden no considerar otras
variables que pueden influir del algn modo en la respuesta esperada. Tambin hay que indicar
que normalmente se toma una muestra de datos de toda la poblacin, esperando que ello sea
representativo, aun cuando esta muestra pueda ser limitada. Estos aspectos sealados hacen
que los modelos estadsticos no necesariamente expliquen el 100% del comportamiento de la
41

Modelacin economtrica: De la teora econmica al modelo estimable

variable respuesta o variable dependiente, existiendo este nivel de error, la idea siempre en todo
modelo estimable es que este error sea pequeo o sea minimizado.

1.4. Errores de diseo


Los modelos estadsticos como el planteado anteriormente, pueden tener errores al ser
diseados, los ms comunes pueden ser:
-

La ausencia de variables relevantes, esto puede afectar la correcta estimacin del


modelo, por ejemplo pensemos en un modelo estadstico donde Y es la variable
dependiente y X1 es la variable independiente o explicativa, consideremos que este
modelo no es del todo correcto:
Y = a + b X1 + u

(i)

Ahora pensemos que el modelo correcto incluye ms variables explicativas, por


ejemplo se plantea del siguiente modo:
Y = a + b X1 + c X2 + e

(ii)

En este caso el error que tuvimos al estimar el modelo (i) puede ser representado del
siguiente modo:
u = c X2 + e
Como podemos notar, en los modelos donde falta incluir variables relevantes, el error
es mayor al esperado y ello invalida las estimaciones o resultados estadsticos. A la
inversa pensemos que el modelo (ii) presenta un exceso de variables donde X2 no
aporta mayormente al modelo, en este caso es una variable redundante y debe ser
sacada del modelo. En este caso el error e equivale al error u, slo estamos sobre
estimando el modelo en nmero de datos, pero no cambia el nivel de respuestas, ya
que c ser igual a cero.
-

Otros problemas en el diseo pueden ser el orden en que se expresan los cdigos o
nmeros que representan los datos. Por ejemplo pensemos que se tiene una encuesta
donde la variable dependiente es el Tipo de vivienda o casa de la familia, medido
como: tenencia de casa propia pagada totalmente con cdigo 1, casa propia pagada a
plazos con cdigo 2, casa de familia con cdigo 3 y casa alquilada con cdigo 4.
42

Modelacin economtrica: De la teora econmica al modelo estimable

En esa misma encuesta hemos tomado adems los ingresos de la familia, cuya
variable es continua. Es decir puede ir de 1000 soles por ejemplo a 10000 soles por
mes, as cada familia tiene ingresos diferentes y se tiene una base de datos como la
siguiente, considerando por ejemplo la existencia de unos 5 entrevistados:
Id

Tipo_Vivienda Ingreso_mensual

5,000

1,000

7,000

2,000

Esto puede ser la base para plantear el modelo estadstico siguiente:


Y=a+bX
Donde Y es el tipo de vivienda y X es el ingreso, se entiende que un mayor ingreso
debe corresponder a una vivienda propia, mientras que un menor ingreso se relaciona
con la falta de vivienda propia y ms bien podra ser alquilada.
El problema de diseo del modelo anterior, es la codificacin de los datos, Y est
representado en un orden donde podramos tener malas interpretaciones. Por ejemplo
el valor 4 de Y que es el mximo, no corresponde a un individuo con casa propia
(relacionado a mayor ingreso) sino corresponde a un individuo con casa alquilada. En
este caso el parmetro b no tendra el signo que esperamos sea positivo, sino que
tendra un signo negativo, obligando a una interpretacin probablemente errnea del
modelo o de sus resultados. Por ello es importante como expresamos la base de datos
para luego plantear el modelo estadstico.
-

Otro error a considerar es el uso de las variables correctas, por ejemplo en el caso del
modelo siguiente explorado anteriormente como Regla de Taylor:
i = a0 + a1 ( e - * ) - a2 (y* - yn ) + error
Existen dos variables que no son observadas, esta es la inflacin esperada e y la otra
es el producto potencial yn. La inflacin objetivo * y el producto objetivo y* son
43

Modelacin economtrica: De la teora econmica al modelo estimable

variables que normalmente las define el ejecutor de poltica, en este caso el Banco
Central.
Entonces se requiere estimar la inflacin esperada y el producto potencial, pueden
darse algunas formas de estimacin bsicas, por ejemplo el uso de un promedio para
toda la serie o muestra de datos, con el problema de que la inflacin esperada es una
formacin de expectativas de los agentes por ensayo y error, es decir la expectativa se
crea en la medida que la serie de datos sea muy variable o poco variable.
La obtencin del promedio puede acarrear el problema de que es un solo dato a usar y
ello evitara la estimacin de los parmetros del modelo planteado, puesto que se
requieren series con una cantidad de datos suficiente que permita plantear relaciones
entre las variables.
Una salvedad es el clculo de un promedio mvil que pueda servir de tasa esperada o
potencial, pero esto supone que necesitamos los tramos a promediar, por ejemplo cada
3 perodos, cada dos o cada 4, la decisin puede depender de si los datos son anuales,
mensuales, trimestrales u otros, con el detalle de que si hay estacionalidades estas
deben ser eliminadas. Lo anterior supone problemas a la hora de obtener esas series
an en promedio mvil, cuya construccin puede generar errores amplios en la
estimacin.
-

Un error adicional puede ser un parmetro sobre o sub estimado, consideremos lo


siguiente:
Y = a + b X1 + e
Ahora pensemos que X1, en realidad es una variable que depende otras, como por
ejemplo:
X1 = c + d Z + u
En ese caso el modelo original debera escribirse del siguiente modo:
Y = a + b (c + d Z + u) + e
Y = (a+ bc) + bd Z + bu + e
Y = o +1 Z + error

44

Modelacin economtrica: De la teora econmica al modelo estimable

Como vemos en el modelo final, la constante a est sub estimada, puesto que
corresponde en realidad a o, que es mayor. El parmetro b no representa realmente
el efecto de X1 en el modelo, este efecto en realidad es bd.

1.5. Modelos de prediccin y estimacin


Los modelos estadsticos que hemos venido desarrollando pueden enfocarse en dos
perspectivas, una es predecir datos hacia el futuro (que podra ser el menor uso de estos
modelos) tambin llamado uso de pronsticos y la otra es la estimacin puntual de los efectos,
causalidades, relaciones o impactos, que vendra a ser el normal uso de los modelos
economtricos.
Pensemos en un modelo estadstico del siguiente orden:
Qt = a - b (Pt) + error
Donde, Q es la cantidad demandada por un bien y P es el precio de mercado de dicho bien,
ambas variables se han tomado para diversos perodos t, en este caso las estimaciones
realizadas pueden darnos como resultado, a modo de ejemplo:
Qt = 9.5 - 0.45 (Pt) + error
Entonces tomando el modelo para fines de prediccin podemos hacer el siguiente detalle:
Escenarios para Pt

Prediccin de Qt

7.25

10

20

0.5

Como puede verse, hemos pronosticado el valor de la cantidad demandada (Q) para diversos
escenarios de precios (P), esto es cuando los modelos se usan para estos fines. Sin embargo
normalmente los modelos estadsticos (economtricos) se usan para analizar las relaciones entre
variables diversas.
45

Modelacin economtrica: De la teora econmica al modelo estimable

Un ejemplo de la combinacin de ambas tcnicas, es decir prediccin y estimacin, se puede


encontrar en el trabajo de Alonso et al (2013), ellos estn intentando medir el efecto de los
fondos de pensiones en la inversin en infraestructura y crecimiento latinoamericano, para ello
usan como variable dependiente a la tasa de crecimiento de Productividad Total de los Factores
(PTF). Mientras que las variables explicativas o dependientes son las siguientes:
-

Tasa de crecimiento del stock de infraestructura.

Crecimiento en la tasa de matrcula en Secundaria, como Proxy (aproximacin o


medicin indirecta) del stock de capital humano.

Logaritmo del PIB per cpita como Proxy del nivel de desarrollo.

Tasa de crecimiento de la PTF rezagada un perodo.

Para estimar el modelo sealado y encontrar cuanto efecto tienen los fondos de pensiones
(que a su vez impactan en la infraestructura), tuvieron que tener un indicador de crecimiento del
stock de infraestructura, para lo cual recurrieron a Canning (1998) quien plantea pronosticar la
infraestructura usando el modelo siguiente:
Infraest = 0.213 (TranspAer) + 0.221 (GenEnerg) + 0.200 (VasFerr) + 0.215 (Carret) + 0.208
(Telef)
Como puede verse, el ndice de infraestructura est construido a partir de datos anuales del
sector de telecomunicaciones (nmero de lneas telefnicas principales), del sector de energa
(capacidad de generacin elctrica en MW), del sector de transporte terrestre (la longitud de la
red de carreteras en kms.), del sector de transporte areo (nmero de pasajeros transportados) y
del sector de transporte ferroviario (longitud de la red ferroviaria en kms).
En buena cuenta la hiptesis indica, en ausencia de fondos de pensiones, que el ndice de
infraestructura influye en la productividad total de factores, ese efecto fue estimado por Alonso et
al (2013) en 0.014%. Si se hace una relacin simple, se puede decir que si los fondos de
pensiones invierten en esta actividad elevando un 1% adicional la infraestructura, tendrn un
efecto adicional de 0.014% en la productividad total de los factores.

1.6. Evaluacin de polticas con modelos economtricos


Los modelos economtricos que resumen el tratamiento de modelos tericos, matemticos y
finalmente estadsticos, tienen un uso amplio en la evaluacin de las polticas empleadas por los
46

Modelacin economtrica: De la teora econmica al modelo estimable

Bancos Centrales, por el Ministerio de Economa u otras entidades encargadas de ejecutar las
polticas monetarias o fiscales.
Un ejemplo de la evaluacin de polticas puede encontrarse en Jaramillo y Saavedra (2011),
se analiza el efecto de la distribucin del ingreso, luego de las reformas estructurales que se
hicieron en el pas en las dcadas precedentes, al respecto se hace la siguiente cita textual:
El anlisis de las tendencias posteriores a la reforma de los noventa sugiere que la desigualdad
de los ingresos familiares ha disminuido. Este declive puede observarse en los aos de la
recesin (de 1997 a 2001) aunque no es estadsticamente significativo y se acenta ms y
adquiere significancia estadstica en el periodo de crecimiento (20012006).
Los ingresos no laborales (otros retornos por ejemplo actividades independientes - nota del autor)
han tenido el rol ms importante en la reduccin de la desigualdad del ingreso durante el periodo
de anlisis (19972006). Para el periodo 19972006, la desigualdad de los ingresos laborales a
nivel de los hogares permaneci estable, primero aument durante la recesin y luego disminuy
durante el periodo de crecimiento, de forma que en 2006 estaba en un nivel similar al de 1997.
Al desagregar el anlisis por dominio geogrfico, identificamos que los niveles de desigualdad
fueron mayores en las zonas urbanas que en las rurales y que la disminucin de la desigualad de
1997 a 2006 fue ms pronunciada en las zonas urbanas.
Con relacin a los factores explicativos asociados a la desigualdad, los resultados economtricos
confirman la importancia de la educacin como factor de reduccin de la desigualdad. As mismo,
nuestro anlisis identifica que el rea de residencia (urbana/rural) es un factor que juega un rol
mucho mayor para explicar el patrn de desigualdad que el que sugieren los estimados entre los
aos ochenta y mediados de los noventa. Esta nueva evidencia revela la importancia que parece
haber adquirido la dimensin espacial (el espacio territorial donde se desarrolla el individuo) para
explicar la desigualdad, por lo que debemos prestarle mayor atencin. En esta misma direccin,
las diferencias entre regiones (ex departamentos) estn jugando un rol importante en la
desigualdad a nivel nacional.

Los resultados mostrados por Jaramillo y Saavedra (2011) indican que la desigualdad es
bastante diferenciada, por ejemplo ser mujer supone un efecto de la desigualdad de 0.231
mientras que los hombres es de 0.214 para el ao 1999, mientras que para el ao 2006 el efecto
47

Modelacin economtrica: De la teora econmica al modelo estimable

se reduce a 0.19 para mujeres y de 0.172 para los hombres, esto indica que la desigualdad se ha
reducido a lo largo del tiempo y es muy pequea entre hombres y mujeres.
El ao 1999 por ejemplo el efecto en la desigualdad es de 0.186 para aquellos sin estudios y
de 0.235 para aquellos que tienen estudios universitarios, el ao 2006 esos datos fueron de
0.128 y 0.187 respectivamente. La evidencia es que la desigualdad en el tiempo se ha reducido,
pero las diferencias entre individuos relacionadas con el nivel educativo son bastante altas, como
concluyen los mismos autores.
Las polticas que derivan de estos anlisis pueden ser de diversos tipos, por ejemplo, pensar
que estar en el mundo rural genera ms desigualdad indica que debe potenciarse los servicios
bsicos en este mbito, igualmente si la educacin es clave a la hora de mejorar los ingresos,
entonces la calidad de este servicio pblico, sobre todo en el mundo rural debe tomarse muy en
cuenta como factor de desarrollo. De este modo los modelos economtricos pueden ayudar a
establecer polticas de mejoras de los grupos sociales con fines de mejorar su calidad de vida en
el futuro.

48

Modelacin economtrica: De la teora econmica al modelo estimable

Conclusiones del captulo


En este primer captulo se ha abordado principalmente las bases de un buen diseo de modelos
economtricos, el principio rector del tema, es que los investigadores o estudiosos de los fenmenos
econmicos, pueden plasmar la realidad econmica o los hechos econmicos regulares, en teoras y
modelos que repliquen el funcionamiento de los agentes.
En algunos casos dichos modelos son completamente nuevos y propuestas de nuevos enfoques
sobre el accionar de los agentes. En muchos casos ms comunes, dichos modelos son rplicas de
teoras existentes o ampliaciones de teoras ya probadas, de modo que slo hacemos un nuevo
aporte sobre algo existente o le damos nuevos enfoques o entendimientos alas teoras existentes.
El planteamiento de los modelos tericos debe expresarse en variables de estudio cuyas
relaciones evidencian modelos matemticos (si su tratamiento procede de ecuaciones diversas) o
modelos estadsticos, donde ya recopilamos datos para encontrar las evidencias tericas que
subyacen la construccin del modelo.
Los datos que recopilamos pueden partir de informacin ya existente (secundaria) que podemos
mejorar o re-expresar, o cuantificar en otras unidades (por ejemplo variaciones), tambin pueden
provenir de informacin que el mismo investigador o estudioso del fenmeno recopila, esta
informacin se denomina primaria y se hace especialmente para probar la teora o definir si el
modelo empleado es vlido total o parcialmente.
Tener los datos supone que las variables son observadas, algunos problemas en los modelos
economtricos (la expresin a estimar de un modelo estadstico o matemtico) son porque las
variables no expresan bien una idea del hecho econmico o una decisin de los agentes, tambin
porque sus datos no existen como tal en la informacin y deben ser medidos desde otros datos
observados o aproximarse cuando menos. Otros problemas en los modelos son el uso excesivo o
corto de variables, adems tambin est el hecho de usar adecuadamente las variables en
magnitud, orden u otro criterio que permite la interpretacin de los resultados del modelo respectivo.
El diseo de un modelo economtrico supone la finalidad de analizar el hecho econmico y
explicarlo, de modo que los ejecutores de poltica econmica puedan tener lecciones claves sobre el
desempeo de sus acciones o sobre la dinmica econmica, es menos comn pensar que los
modelos economtricos puedan pronosticar, dado lo cambiante de las relaciones que plantea una
ciencia econmica por dems humana.

49

Modelacin economtrica: De la teora econmica al modelo estimable

Preguntas de opinin:
1. Se necesita siempre teora para disear un modelo economtrico?
2. Necesariamente se debe contar siempre con informacin primaria?
3. Un modelo estadstico necesariamente debe tener abundancia de datos?
4. Pueden los parmetros de un modelo economtrico ser sobreestimados?
5. Brinde 2 ejemplos de variables no observadas y cmo podra medirlas?

50

Modelacin economtrica: De la teora econmica al modelo estimable

Caso de aplicacin
Lectura previa
En un mundo donde el capital es perfectamente mvil, el ahorro de un pas es libre de
moverse a su uso ms productivo. De aqu se sigue que un pas puede incrementar su inversin
sin tener que incrementar sus ahorros, ya que el incremento en la inversin pudo haberse
financiado mediante capital externo (ahorro externo). Esto es, con perfecta movilidad del capital,
un incremento en las tasas de ahorro de un pas causar un incremento en la inversin de todos
los pases. La distribucin de este incremento variar positivamente con el acervo inicial de
capital e inversamente con la elasticidad del producto marginal del capital en ese pas. De este
razonamiento se infiere que no debe haber una correlacin significativa entre la tasa de ahorro y
la tasa de inversin en ese pas.
En un mundo con movilidad perfecta de capital, el Ahorro domstico buscar estar donde su
tasa de ganancia sea la ms alta. Este movimiento se llevar a cabo an cuando la demanda
interna de capital en el pas del que se trate sea alta, ya que el flujo internacional de capital,
probablemente, cubrir en parte la demanda domstica. A la fraccin de ahorro total de un pas
que permanece como inversin se le llama "coeficiente de retencin de ahorro".
Una situacin problemtica surge cuando estadsticamente se obtienen elevados coeficientes
de retencin de ahorro que indican que el capital es inmvil y simultneamente, se observan en
la prctica mercados de capital altamente integrados con flujos de capital mviles. Esta es la
conocida paradoja de Feldstein-Horioka.
La paradoja de Feldstein-Horioka es uno de los seis mayores acertijos en Macroeconoma
Internacional (Obstfeld y Rogoff, 2000). El ahorro interno y las tasas de inversin estn altamente
correlacionados tanto dentro como entre pases de la OCDE (Organizacin para la cooperacin y
desarrollo econmico-pases ricos), en los aos y en los pases donde el ahorro es alto, por la
inversin realizada.
Este hecho parece incompatible con la teora intertemporal de la cuenta corriente. Si se
asume perfecta movilidad del capital, por ejemplo, una teora predice que los factores
determinantes del ahorro y la inversin no son lo mismo. Por lo tanto, los pases deben prestar y
pedir prestado en el extranjero cada vez que necesitan para invertir o desinvertir, sin verse
limitados por las decisiones de ahorro interno.
Feldstein y Horioka (1980) interpretaron su hallazgo como evidencia de la baja movilidad de
capitales entre los pases de la OCDE. Sin embargo, en las dcadas posteriores a la publicacin
de los resultados de Feldstein y Horioka, la movilidad del capital entre los pases de la OCDE ha
51

Modelacin economtrica: De la teora econmica al modelo estimable

seguido aumentando, mientras que la correlacin entre las tasas de ahorro e inversin slo ha
disminuido ligeramente.
Preguntas de la lectura
1. Qu variables intervienen en la paradoja de Feldstein-Horioka?
2. Cmo ser un modelo terico que represente bien la paradoja sealada?
3. Plantee un modelo estadstico para la paradoja de Feldstein-Horioka.

52

Modelacin economtrica: De la teora econmica al modelo estimable

Ejercicios
Considera la figura siguiente que ilustra el teorema de separacin de Fisher:

8!(1+i)!
R!
Donde C1* y C2* son el consumo presente y consumo futuro respectivamente, mientras que
D2* es el flujo obtenido en el futuro por una inversin (I) realizada en el presente. La inversin (I)
equivale a R D1, Donde R es la riqueza inicial del individuo o su dotacin inicial. Este es un
supuesto fuerte del modelo, que considera que los inversores si bien pueden no tener riqueza
alguna, pueden conseguir estos fondos iniciales de alguna forma en el mercado financiero directo
(emisiones de capital) o mediante redes de inversionistas ngeles o inversores de riesgo,
inclusive puede darse financiamiento bancario, pero esto no influir en la generacin del flujo D2.
D1* vendra a ser el ingreso disponible del individuo en el presente, dado que invirti parte de
su riqueza, el saldo es ingreso destinado a consumo o ahorro en el mercado financiero.
La curva que se origina en R, genera un flujo de caja (tambin denominada una funcin de
produccin o generacin de ingresos) cuya caracterstica es que tiene rendimientos marginales
decrecientes y adems se hace igual a la tasa de inters acumulada, equivalente a (1+i) o
pendiente del comportamiento presente y futuro del mercado financiero.
53

Modelacin economtrica: De la teora econmica al modelo estimable

D2* = FC (I)
D2* / FC (I) = (1+i)
Entonces el flujo de caja que genera una inversin, es como mnimo equivalente a (1+i), con
ello resultan el flujo futuro D2 y el ingreso disponible D1.
Si el total de los ingresos actuales y futuros (D1* y D2*) son iguales al consumo, entonces esto
tambin resulta equivalente a la tasa de inters:
C1* + C2* / (1+i) = D1* + D2* / (1+i)
Para C1* = 0
C2* = D1* (1+i) + D2*
Para C2* = 0
C1* = D1* + D2* / (1+i)
Hallando la pendiente del consumo presente y futuro C2* / C1*:
D1* (1+i) + D2* / D1* + D2* / (1+i)
[ D1* (1+i) + D2* ] (1+i) / D1* (1+i) + D2*
C2* / C1* = (1+i )
La relacin es inversa, por cuanto el mayor inters afectar el consumo.
Finalmente la ganancia (G) del inversor se puede estimar del siguiente modo:
G = FC (I) I
En esta ecuacin debemos tomar en cuenta que la inversin se encuentra en el presente y el
flujo de caja es presente y futuro, de modo que los resultados se estiman considerando lo
siguiente:

54

Modelacin economtrica: De la teora econmica al modelo estimable

FC (I) = Y2 / (1+i) + Y1
Ahora G se denomina en ese caso, Valor presente neto o tambin valor actual neto (VAN),
indicador que mide el xito de la inversin realizada.
Si ahora consideramos que el FC (I) se halla teniendo una tasa de inters y una dotacin R,
entonces es posible encontrar C1* y C2* del siguiente modo:
FC (I) = C1* + C2* / (1+i)
Tomando en cuenta que la pendiente equivale a (1+i) entonces (en este caso las preferencias
intertemporales son homogneas y equivalentes, el consumidor es indiferente a decidir en el
presente o futuro):
FC (I) = C1* + C1* (1+i) / (1+i)
FC (I) = 2 C1*
FC (I) / 2 = C1
Si quisiramos saber si el individuo tom prestado en el presente o asumi una deuda,
estimamos lo siguiente:
Y1 C1
De ser positivo el individuo ahorr y si es negativo, el individuo se endeud, pero ello no
altera en nada el patrn de comportamiento de FC (I), lo que se denomina teorema de
separacin de Fisher.
Preguntas

Plantee un modelo economtrico (o ms de uno) que permita probar la existencia del


teorema de separacin de Fisher.
Describa las variables que usar en dicho(s) modelo (s).
Donde obtendra los datos necesarios para estimar el modelo o modelos diseados.

55

Modelacin economtrica: De la teora econmica al modelo estimable

Referencias bibliogrficas
Acemoglu, D. And Robinson, J. (2012) Why Nations Fail: The Origins of Power, Prosperity, and
Poverty. Crown Publisher. NY. USA.
Alcal V. Gmez, M. y Ventosa, D. (2010) Paradoja Feldstein Horioka: El caso de Mxico (19502007). Estudios Econmicos. Vol 26. Nm. 2. Junio Diciembre 2011. Mxico.
Alonso, J. Bjeletic, J. Herrera, C. Hormazbal, S. Ordez, I. Romero, C. Tuesta, D. y Ugarte, A.
(2013) Proyecciones del impacto de los Fondos de Pensiones en la inversin en infraestructuras y el
crecimiento en Latinoamrica. Economic Research Department No 0921. BBVA Working papers.
Espaa.
Barro, R. y D. Gordon (1983), Rules, Discretion, and Reputation in a Model of Monetary Policy,
Journal of Monetary Economics, 12.
Becker, Gary (1975). Human Capital. Columbia University Press.
Carrera, C. (2012) Long-Run Money Demand in Latin-American countries: A Nonstationary Panel
Data Approach. DT. N 2012-016. Banco Central de Reserva del Per.
Chiswick, Barry (1997). Interpreting the Coefficient of Schooling in the Human Capital Earnings
Function. Policy Research Working Paper 1790. The World Bank.
De Soto, H. (1986) El otro sendero: La revolucin informal. Edit. Sudamericana. BA. Argentina.
Jaramillo, M. y Saavedra, J. (2011) Menos desiguales: La distribucin del ingreso luego de las
reformas estructurales. Grade. Per.
Krugman, P. (1991) Increasing returns and economics geography. Journal of Political Economy,
1991. Vol. 99, no. 3. Chicago U. USA.
Len, C. (2003) Anlisis macroeconmico para la empresa. Edit. USAT.
Mies, V. y Soto, R. (2000) Demanda por dinero: Teora, evidencia y resultados. Revista de
Economa Vol. 3. N. 3. Banco Central de Chile.

56

Modelacin economtrica: De la teora econmica al modelo estimable

Obstfeld, M. and Rogoff, K. (2000) The six major puzzles in international macroeconomics: Is there a
common cause?. Cap. VI in NBER Macroeconomics annual 2000. Volume 15. Editor Bernanke, B.
And Rogoff K. MIT Press.
Piketty, T. (2013) Capital in the Twenty-First Century. Belknap Press.
Porter, M. (1985) The Competitive
Performance. NY: Free Press.

Advantage:

Creating

and

Sustaining

Superior

Porter, M. (1991) La ventaja competitiva de las naciones. Edit. Vergara. Argentina.


Ricardo, D. (1817) On the Principles of Political Economy and Taxation. Edit. Jhon Murray. London.
Sachs, J. (1990) Conflicto social y polticas populistas en Amrica Latina. Revista F.F. Vol. 5. N. 2.
Colegio de Mxico.
Sachs, J. (2005) The end of Poverty: Economic Possibilities for Our Time. Penguin Press, USA.
Sidrauski, M. (1967). Rational Choice and Patterns of Growth in a Monetary Economy. American
Economic Association Papers and Proceedings, 57: 534-44.
Taylor, J. (2000) Inflation Targeting and Monetary Policy Rules: Experience and Research. Working
paper to 12th Meeting of the Latin American Network of Central Banks and Finance Ministries InterAmerican Development Bank.
Yamada, G. (2010) Retornos a la educacin superior en el mercado laboral: vale la pena el
esfuerzo? Centro de Investigacin de la Universidad del Pacfico. CIES. Lima

57

CAPTULO II
Relaciones estadsticas
entre variables aleatorias

58

Relaciones estadsticas entre variables aleatorias

II. RELACIONES ESTADSTICAS ENTRE VARIABLES ALEATORIAS


Introduccin al tema
Las variables aleatorias son aquellas que representan un evento o suceso de la realidad
(evento cuyos resultados no son conocidos previamente), pero cuya obtencin es totalmente al
azar o independiente de cualquier otro evento. Por ejemplo queremos saber cuntas veces el
clima subi por encima de 25 grados en un mes, entonces el resultado de este experimento no
es conocido de antemano y puede resultar en una variable aleatoria que tome nmeros 1, 2, 3
hasta los das del mes. Ahora, el resultado obtenido no ha sido sujeto de ninguna influencia, por
ejemplo no hemos podido modificar de modo externo el clima o no hemos influido en el
experimento diseado y menos en la eleccin o resultados de la variable aleatoria.
Una definicin clsica es decir que la variable aleatoria resulta de representar un experimento
aleatorio o al azar cualquiera. Por ejemplo, cul es la edad de una persona seleccionada al azar
de un conjunto de 100 personas, as la variable aleatoria para el primer seleccionado puede ser
10, para el segundo 11, para el tercero 20 y para el cuarto seleccionado es de 30 aos de edad.
La variable aleatoria es un indicador muy importante en la medida que los anlisis
estadsticos siempre suponen la existencia de informacin basada en variables aleatorias, las
cuales pueden distribuirse de distinta forma.
En el campo de la econometra la seleccin aleatoria de un dato, cuya representacin se
transforma en variable aleatoria, permite garantizar la fiabilidad de los resultados de un modelo,
pensemos por ejemplo que queremos analizar la edad del individuo (del experimento anterior)
con su decisin de compra de un producto cualquiera. Si la variable edad es aleatoria, entonces
el resultado de si compran o no el producto es totalmente aleatorio, si este resultado por ejemplo
va mejorando conforme se tiene ms edad, entonces vamos estableciendo la relacin entre estas
dos variables como positiva, lo cual es la base de la explicacin de cualquier modelo
economtrico.
59

Relaciones estadsticas entre variables aleatorias

2.1 Variables aleatorias


Para hablar de variables aleatorias primero hay que mencionar el concepto de experimento
aleatorio, el cual es un proceso cuyos resultados no estn determinados previamente, por
ejemplo pensemos que se hace un sorteo para elegir a las mujeres que terminarn siendo
miembros de una mesa electoral (las responsables de que los votos se hagan correctamente en
una eleccin oficial), si pensamos que el conjunto de mujeres elegibles son aquellas mayores de
18 aos con estudios superiores, entonces tenemos una poblacin definida y la muestra a elegir
sern por ejemplo, 100 mujeres.
De esta poblacin no sabremos quienes finalmente sern elegidas como representantes (la
muestra final de 100), por ello estamos en presencia de un experimento aleatorio. Existen
diversos ejemplos de experimentos aleatorios en las ciencias sociales, por ejemplo sean las
siguientes elecciones todas al azar:
-

Nios beneficiarios de un programa social que cumplen con tener de 0 a 5 aos, de un


conjunto nacional de nios.

Jvenes que estudian en la universidad y que estn en primer ciclo, de un conjunto de


alumnos de toda la universidad.

Ancianos de una comunidad que no recibieron ningn programa de ayuda, de un


conjunto de millones de ancianos posibles.

Hogares que demandan energa elctrica en el ltimo ao, de los cuales se elegirn
aquellos con consumo mayores al promedio.

Personas con quejas en el servicio de agua potable, de un total de reclamos


efectuados, siempre que estas personas hayan reclamado devolucin de pago.

Las variables aleatorias mencionadas son en su eleccin totalmente independientes, no se ha


sufrido ningn tipo de influencias en el proceso, por ejemplo no ha existido eleccin discrecional
o dirigida, todo ha sido producto del azar (mediante sorteos de su nmero de documento de
identidad DNI- por ejemplo), en caso alguno de los elegidos no participa del proceso, se elige a
otro del mismo modo.
Las variables aleatorias pueden ser discretas cuando toman nmeros enteros o representan
de forma numerable algn hecho econmico o permiten que una variable aleatoria sea
numerable. Su nmero normalmente es finito, siempre conservando el hecho de que son enteros
y representativos.
60

Relaciones estadsticas entre variables aleatorias

Por ejemplo se tienen las siguientes variables aleatorias discretas:


-

X es el nivel educativo de los individuos, donde 0 es no tener estudios, 1, es primaria


incompleta, 2 primaria completa, 3 secundaria incompleta, 4 secundaria completa. As
la variables X = (0, 1, 2, 3, 4) es discreta

Y representa a las familias segn la naturaleza de ingresos, 1 es la familia con ingreso


slo del padre, 2 ingresos de padre y madre, 3 ingresos de ms miembros. Y=(1, 2, 3)

Z representa la decisin de un grupo de individuos de comprar un bien, 1 si se compra


el bien y 0 si no lo compra, as Z= (0, 1)

Tener variables discretas ayuda mucho en la representacin de diversas variables que suelen
llamarse categricas, donde encajan niveles de empleo, tipos de empleo, educacin, salud y
otras variables sociales.
Se tiene tambin variables continuas, que pueden tomar cualquier valor numrico en un
conjunto infinito de posibilidades, por ejemplo tenemos:
-

Sea E: El valor del tipo de cambio en una semana cualquiera, por ejemplo lunes 2.75
soles por dlar, martes 2.77, mircoles 2.79, jueves 2.76, viernes 2.77. Donde la
variables aleatoria es E = (2.75, 2.77, 2.79. 2.76, 2.77)

Sea i: La tasa de inters trimestral, por ejemplo trimestre I 10%, Trimestre II 12%,
Trimestre III 9% y Trimestre IV 10.5%, as la variable continua i = (10%, 12%, 9%,
10.5%)

En las ciencias econmicas las variables continuas son normalmente las que tienen que ver
con valores numricos diversos: edad, aos de estudio, aos de trabajo, tasas de inters, tipos
de cambio, valores monetarios diversos como emisin, liquidez, reservas internacionales, valores
porcentuales en cambio diario, mensual o anual como tasa de inflacin, depreciacin cambiaria,
variacin de la pobreza, tasa de pobreza, tasa de empleo, ndices diversos como IPC, IPM,
ndice de empleo, ndice de valor de la produccin y otros.
Las variables aleatorias pueden relacionarse de diversos modos, veamos los ejemplos
siguientes:

61

Relaciones estadsticas entre variables aleatorias

Fig. 2.1 Relacin entre tasa de encaje (%) y Tasa interbancaria en Soles (%) 2010-2013 en
Meses

Fuente: BCRP

La figura anterior indica una relacin positiva entre la tasa de encaje que cobra el Banco
Central de Reserva a los bancos y la tasa de inters interbancaria en soles, evidenciando para el
perodo de anlisis que un mayor encaje progresivamente representa una mayor tasa de inters,
existe la evidencia que para mayores tasas de encaje el efecto del incremento es ms dbil. En
este caso hemos graficado dos variables continuas en % mensual. La muestra empleada para el
conjunto de enero del 2010 a diciembre del 2013, fue elegida al azar entre todo el horizonte de
tiempo disponible.
En la figura siguiente combinamos una variable continua calculada como ndice, nos
referimos al ndice selectivo de la Bolsa de Valores de Lima y la tasa de encaje ya mostrada.
Como podemos ver no hay una aparente relacin entre ambas variables, en buena cuenta si
esperamos que el mayor costo del inters en el mercado bancario puede actuar como incentivo
al mayor rendimiento en ndice burstil, pues la evidencia no lo respalda. Lo ms probable sea
que la menor actividad econmica (mayor encaje afecta el inters al alza y reduce el crdito)
pueda influir negativamente en las operaciones burstiles, pero esa evidencia tampoco se
62

Relaciones estadsticas entre variables aleatorias

respalda, estamos entonces en presencia de dos variables continuas que no generan relacin
alguna, al menos en la muestra aleatoria tomada.
Fig. 2.2 Relacin entre tasa de encaje (%) e ndice Selectivo de la BVL 2010-2013 en
Meses

Fuente: BCRP

Fig. 2.3 Relacin entre Edad y Nmero de mujeres hospitalizadas 2010-2012

Fuente: INEI

63

Relaciones estadsticas entre variables aleatorias

La figura previa muestra las relaciones entre dos variables aleatorias, una continua que
representa al nmero de mujeres hospitalizadas por enfermedades infecciosas y la otra es una
variable discreta que son los grupos etreos o edades agrupadas, donde 1 representa menores
de 15 aos, 2 indica el grupo de 15 a 24 aos, 3 es para las edades entre de 25 a 49 aos y 4
representa a los que tienen 50 a ms aos. Como indica la figura, es normal encontrar que las
enfermedades infecciosas en mujeres se concentran normalmente a partir de los 25 aos, que es
donde ms casos existe, aqu la muestra tomada fueron datos anuales del ao 2007 al 2012.

2.2 Valor esperado de una variable aleatoria


Dado que estamos en presencia de variables aleatorias que pueden tomar nmeros diversos,
es bueno conocer sus indicadores de tendencia central, sobre todo considerando que cada
variable aleatoria tiene una distribucin especfica. Consideremos por ejemplo que el
experimento aleatorio es lanzar un dado 30 veces, los resultados se muestran en la tabla
siguiente:
Tabla 2.1 Resultados de 30 Lanzamientos de un dado
Lanza
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

Sale
2
3
3
3
3
2
4
5
4
2
6
6
4
3
3

Lanza
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

Sale
6
3
6
5
2
2
1
4
4
2
6
4
5
3
1
64

Relaciones estadsticas entre variables aleatorias

Con estos resultados se tiene la siguiente tabla de frecuencias totales, relativas y acumuladas:
Tabla 2.2 Frecuencias relativas para 30 lanzamientos de un dado
Nmero del dado
1
2
3
4
5
6
Total

frecuencia
2
6
8
6
3
5
30

Frecuencia relativa
0.07
0.20
0.27
0.20
0.10
0.17
1

F acumulada
0.07
0.27
0.53
0.73
0.83
1.00

La tabla indica que el nmero uno del dado sali 2 veces, esto representa un 0.07 (7%) de un
total de 30 lanzadas, as el nmero 3 sali 8 veces, lo cual representa el 0.27 (27%) del total de
lanzadas que fue 30. As sucesivamente se ponen las veces que sali el nmero del dado,
conocido como frecuencia, luego se tiene la frecuencia relativa y finalmente la frecuencia
acumulada, equivalente a la suma de las frecuencias relativas para cada nmero del dado, por
ejemplo para el primer lanzamiento la frecuencia acumulada es 0.07, luego 0.27 (sumando 0.20)
y as sucesivamente hasta llegar a 1
La figura siguiente indica el tipo de distribucin que hemos conseguido, como podemos ver
los resultados de lanzamiento de los dados se concentran al medio, para ello vean la figura en
barras, esta concentracin al centro indica la clsica llamada distribucin normal, es probable que
si lanzramos el dado unos 100 veces o mil veces, obtendramos una figura con datos
concentrados al centro y eso representa que la distribucin lograda es Normal. Algunas veces los
datos pueden concentrarse hacia los costados, lo que indica otros tipos de distribucin, algo
relacionado a datos de tipo social cuando por ejemplo medimos la estructura de ingresos as los
datos tendern a concentrarse en los ms numerosos, que pueden ser los de menores ingresos.

65

Relaciones estadsticas entre variables aleatorias

Fig. 2.4 Distribucin de frecuencias relativas y acumuladas para 30 lanzamientos de un dado

El lanzamiento de 30 dados tiene un valor esperado que se estima del siguiente modo, para
ello usamos la informacin de la tabla 2.2 de frecuencias previa:
Valor esperado del nmero del dado= Frecuencia relativa * Nmero del dado
Valor esperado = 0.07 * 1 + 0.20 * 2 + 0.27 * 3 + 0.20 * 4 + 0.10 *5 + 0.17 * 6 = 3.57
Una generalizacin al clculo anterior es el hecho de que la frecuencia relativa, tambin
refleja la probabilidad de ocurrencia del nmero del dado, as por ejemplo la probabilidad de que
salga el nmero 5 en 30 lanzamientos del dado es de 0.10 o 10%, mientras que el nmero del
dado vendra a ser la variable aleatoria que estamos midiendo (nmero que sale en cada
lanzamiento), con ello la frmula general de valor esperado, considerando que X es la variable
aleatoria cualquiera, queda:
Valor esperado de X = Px * X
66

Relaciones estadsticas entre variables aleatorias

Donde Px, es la probabilidad de suceso de X. Hay que notar que el valor esperado equivale al
promedio de la variable aleatoria para todo el grupo de datos que resultan de cada lanzamiento,
as la suma de nmeros que sale del dado entre 30 lanzamientos en total, equivale al promedio
de la variable aleatoria:
Valor esperado de X = Promedio Xm = Xi / N
Donde Xm es el promedio de X y Xi representa a cada valor resultante en el dado para cada
lanzamiento, por ejemplo X para el primer lanzamiento (es decir X1) es 2, para el segundo
lanzamiento X2 es 3 y as sucesivamente.

2.3 Varianza de una variable aleatoria


Consideremos que una varianza poblacional para cualquier variable aleatoria es normalmente
del siguiente modo:
Var X = (X Xm)2 / N
Si consideramos que Xm equivale al valor esperado de X (en adelante EX), adems
considerando que la varianza de X es tambin el valor esperado de sus desviaciones respecto a
la media, entonces tenemos:
Var X = E (X EX)2
Var X = E (X2 - 2 X EX + EX2)
Var X = E (X2 )- 2 E X EX + EX2
Var X = E (X2) - 2 E X2 + EX2
Var X = E (X2) - E X2
Var X = E ( X2 ) - ( E X )2
Usando la informacin de la tabla anterior 2.2, obtenemos la siguiente varianza de X:
67

Relaciones estadsticas entre variables aleatorias

Var X = 1 2 * 0.07 + 2 2 * 0.20 + 3 2 * 0.27 + 4 2 * 0.20 + 5 2 * 0.10 + 6 2 * 0.17 (3.57) 2


Var X = 2.24

2.4 Media y varianza condicional


Ahora pensemos que una variable aleatoria puede ser influenciada por otra, es decir que el
suceso X por ejemplo, puede ser determinado de algn modo por Y, para establecer ese tipo de
relacin tenemos que estimar primero la media condicional y luego la varianza condicional de
ambas variables.
Consideremos que tenemos dos variables aleatorias: X que representa al ingreso del
individuo medido en miles de soles por ao, en este caso X puede tomar valores que pueden ser
20 mil, 30 mil o 40 mil soles al ao o cualquier unidad monetaria, medida como variable continua.
Por otro lado tenemos a Y, variable aleatoria que representa el gasto del individuo en alimentos
por ejemplo, medido como una variable discreta, donde 1 representa que gastan de 70% a ms
de sus ingresos en alimentos, 2 representa que gasta entre 60 a 69%, 3 de 50 a 59%, 4 de 40 a
49%, 5 de 30 a 39% y 6 gastan menos del 30% de sus ingresos en alimentos.
El experimento aleatorio consisti en elegir 100 individuos de una poblacin cualquiera, los
cuales eran entrevistados para obtener sus ingresos y su nivel de gasto en alimentos. La tabla
siguiente indica las frecuencias absolutas obtenidas en las 100 entrevistas:
Tabla 2.3 Frecuencias absolutas para ingreso (X) y gasto (Y)

Gasto (Y)
1
2
3
4
5
6
Total

20
28
8
4
0
0
0
40

Ingresos (X)
30
40
3
0
15
3
6
6
6
15
0
3
0
3
30
30

Total
31
26
16
21
3
3
100
68

Relaciones estadsticas entre variables aleatorias

De acuerdo con la tabla previa, 40 entrevistados tienen ingresos de 20 mil al ao, 30 tienen
ingresos de 30 mil y 30 ms tienen ingresos de 40 mil al ao. Por otro lado 31 entrevistados
tienen un nivel de gasto de 1 (70% a ms del ingreso usado como gasto en alimentos), 26
entrevistados tienen un nivel de gasto 2, 16 entrevistados un nivel de gasto 3, 21 tienen un gasto
equivalente a 4, 3 tienen un gasto en nivel 5 y 3 tienen un gasto en nivel 6, es decir slo 3
entrevistados tienen un gasto que equivale a menos del 30% de sus ingresos.
Dentro de la tabla aparecen las frecuencias absolutas, por ejemplo 28 entrevistados ganan 20
mil soles al ao y gastan en el nivel 1. En el mismo sentido 6 entrevistados por ejemplo, tienen
ingresos por 30 mil al ao y gastan en el nivel 4, asimismo 15 entrevistados ganan 40 mil y
gastan en el nivel 4.
Una vez conocidas las frecuencias absolutas podemos ahora estimar las frecuencias relativas
o tambin las probabilidades de suceso, para ello veamos la tabla siguiente:
Tabla 2.4 Probabilidades de suceso para ingreso (X) y gasto (Y)

gasto (Y)
1
2
3
4
5
6
PMg X

20
0.28
0.08
0.04
0
0
0
0.4

Ingresos (X)
30
40
PMg Y
0.03
0
0.31
0.15 0.03
0.26
0.06 0.06
0.16
0.06 0.15
0.21
0
0.03
0.03
0
0.03
0.03
0.3
0.3
1

En la tabla 2.4, se muestran las probabilidades de suceso para X e Y, se estim tambin las
probabilidades marginales (PMg) tanto de X como de Y. Las probabilidades de suceso se
estiman como Frecuencia absoluta / total de entrevistados, por ejemplo el 0.28 equivale a la
probabilidad de ganar 20 mil y gastar en el nivel 1 y se calcula como 28/100.
Las probabilidades marginales se calculan como la suma de las probabilidades de suceso
para cada posibilidad de X o de Y. En el caso de la probabilidad marginal de X, se obtiene
sumando:
69

Relaciones estadsticas entre variables aleatorias

PMg X 20 = 0.28 + 0.08 + 0.04 + 0 + 0 + 0 = 0.4


PMg X 30 = 0.03 + 0.15 +0.06 + 0.06 + 0 + 0 = 0.3
PMg X 40 = 0 + 0.03 + 0.06 + 0.15 + 0.03 + 0.03 = 0.3
La probabilidad marginal de Y (PMg Y) resulta de sumar las probabilidades de suceso para
cada nivel de gasto de alimentos, as se estima del siguiente modo:
PMg Y1 = 0.28 + 0.03 + 0 = 0.31
PMg Y2 = 0.08 + 0.15 + 0.03 = 0.26
PMg Y3 = 0.04 + 0.06 + 0.06 = 0.16
PMg Y4 = 0 + 0.06 + 0.15 = 0.21
PMg Y5 = 0 + 0 + 0.03 = 0.03
PMg Y6 = 0 + 0 + 0.03 = 0.03
Ahora estimaremos la probabilidad condicional de Y dado X (Y/X), que implica combinar la
probabilidad de cada evento sobre la probabilidad marginal (Pi / Pmg Xi):
Tabla 2.5 Probabilidades condicionales de Y / X
P (Y/X)
1
2
3
4
5
6
Total

20
0.7
0.2
0.1
0
0
0
1

30
0.1
0.5
0.2
0.2
0
0
1

40
0
0.1
0.2
0.5
0.1
0.1
1

Como muestra la tabla 2.5, la probabilidad de que se gaste en el nivel 1 dado un ingreso de
20 mil, es de 0.20 o 20%. La probabilidad de que se gaste en el nivel 2 dado un ingreso de 30
70

Relaciones estadsticas entre variables aleatorias

mil, es de 0.5 o 50%. La probabilidad de que se gaste en el nivel 6 dado un ingreso de 40 mil, es
de 0.1 o 10% y as sucesivamente con otro nivel de gasto dado un ingreso.
Ahora estimaremos el valor esperado condicional de Y/X, para ello consideramos lo siguiente:
E (Y / Xi) = P (Y / Xi) * Yi
La tabla siguiente muestra los estimados, as para cada nivel de ingreso (Xi) hay un valor
esperado condicional de Y / X:
Tabla 2.6 Esperanza condicional de Y / X
P ( Y/Xi ) * Y
1
2
3
4
5
6
E Y / Xi

20
0.7
0.4
0.3
0
0
0
1.4

30
0.1
1
0.6
0.8
0
0
2.5

40
0
0.2
0.6
2
0.5
0.6
3.9

Los clculos salen del siguiente modo, para un nivel de ingresos de 20 mil, las probabilidades
condicionales por Yi, son: 0.7 * 1, 0.2 * 2, 0.1 * 3, 0 * 4, 0 * 5, 0 * 6.
Para un ingreso de 30 mil, resulta: 0.1 * 1, 0.5 * 2, 0.2 * 3, 0.2 * 4, 0 * 5, 0 * 6.
Para un ingreso de 40 mil resulta: 0 * 1, 0.1 * 2, 0.2 * 3, 0.5 * 4, 0.1 * 5, 0.1 * 6
La sumatoria de las probabilidades condicionales (Y/X) * Y, resulta finalmente en el valor
esperado de Y/Xi, que en la tabla se muestra como E Y/ Xi, as el valor esperado resulta del
siguiente modo:
E Y / X1 = 1.4
E Y/ X2 = 2.5
E Y / X3 = 3.9
71

Relaciones estadsticas entre variables aleatorias

Fig. 2.5 Valor esperado de Y/Xi

Como se ve en la figura previa y tomando en cuenta los datos de la tabla 2.3, para un ingreso
de 20 mil, los valores de gasto van de 1 a 3, siendo el valor esperado de 1.4 (equivalente a la
media condicional). Para el nivel de ingreso de 30 mil, los valores de gasto van de 1 a 4, siendo
el valor esperado de 2.5 (promedio condicional). Finalmente para un nivel de gasto de 40 mil, el
gasto en alimentos va del nivel dos al 6, siendo el valor esperado de 3.9 o promedio condicional
de Y/X.
Para calcular el valor esperado del conjunto de datos analizado (los 100 entrevistados)
procedemos del siguiente modo:
E Y/ X = E Y / Xi * Pmg Xi
E Y / X = 1.4 * 0.4 + 2.5 * 0.3 + 3.9 * 0.3 = 2.48
72

Relaciones estadsticas entre variables aleatorias

Hay que notar que el valor esperado de Y es de 2.48 y debe coincidir con el promedio de
todos los entrevistados para la variable respectiva.
Para hallar la varianza total condicional de Y/X, recurriremos al concepto previo de varianza
ya analizado y le agregaremos el valor esperado de la varianza condicional. As la varianza
condicional de una variable aleatoria (V) equivale a la suma de la varianza del valor esperado de
Y/ X y al valor esperado de la varianza condicional. Para el caso de la variable Gasto (Y) la
varianza total condicional V (Y / X) es:
V (Y / X) = Var E Y/ X + E (V Y/X)
Donde:
Var E Y/ X

= E Y/ X 2 - (E Y/ X)2

E Y/ X 2

= [E Y / Xi 2 * PMg Xi]

E (V Y/X)

= [V Y/ Xi E Y / Xi 2] PMg Xi

V Y/ Xi

= Pi Y/ Xi * Yi 2

De acuerdo con las ecuaciones planteadas, los resultados de la varianza de la esperanza de


Y/ X son:
E Y/ X 2 = 1.4 2 * 0.4 + 2.5 2 * 0.3 + 3.9 2 * 0.3 = 7.222
(E Y/ X)2 = 2.48 2 = 6.1504
Var E Y/ X = 7.222 6.1504 = 1.0716
A partir de la tabla siguiente, mostramos los clculos de la esperanza de la varianza
condicional, empezando por V Y/Xi, as para un nivel de ingreso de 20 mil, la varianza para el
nivel 1 de gasto, es 0.7 * 1 2 = 0.7. As para el mismo nivel de ingreso de 20 mil, si el nivel de
gasto es 2, se tiene una varianza de 0.2 * 2 2 = 0.8, en el caso de tener un ingreso de 40 mil y
para un nivel 3 de gasto, se tiene una varianza de 0.2 * 32 = 1.8 y as sucesivamente.

73

Relaciones estadsticas entre variables aleatorias

Tabla 2.7 Estimacin de la Varianza condicional V Y / Xi


P Y/ Xi * Yi 2
1
2
3
4
5
6
Suma

20
0.7
0.8
0.9
0
0
0
2.4

30
0.1
2
1.8
3.2
0
0
7.1

40
0
0.4
1.8
8
2.5
3.6
16.3

La sumatoria de los valores obtenidos para cada nivel de ingreso resulta en la esperanza de
la varianza, por ejemplo para un nivel de ingreso de 20 mil, la esperanza de la varianza
condicional es de 2.4 y as sucesivamente para los valores que se muestran en la tabla. A estos
valores obtenidos le quitamos la esperanza de la varianza al cuadrado, como sigue:
E (V Y/ X) = [V Y/ Xi E Y / Xi 2 ] PMg Xi
V Y/ X1 E Y / X1 2 = 2.4 - 1.4 2 = 0.44
V Y/ X2 E Y / X2 2 = 7.1 - 2.5 2 = 0.85
V Y/ X3 E Y / X3 2 = 16.3 - 3.9 2 = 1.09
E (V Y/X) = 0.44 * 0.4 + 0.85 * 0.3 + 1.09 * 0.3 = 0.758
Finalmente con la varianza del valor esperado E Y/X y con la esperanza de la Varianza
condicional V Y/ X, tenemos la varianza total condicional:
V (Y / X) = Var E Y/ X + E (V Y/X)
V (Y / X) = 1.0716 + 0.758 = 1.8296
Con la varianza obtenida, se puede estimar tambin la desviacin estndar total de Y/X, que
resulta del siguiente modo:
S (Y / X) = 1.8296 0.5 = 1.35263
74

Relaciones estadsticas entre variables aleatorias

Del mismo modo puede estimarse la varianza total condicional de X/Y y la desviacin
estndar respectiva, los clculos se basan en las siguientes ecuaciones:
V (X / Y ) = Var E X/ Y + E ( V X/ Y)
Donde:
Var E X/ Y

= E X/ Y 2 - (E X/ Y)2

E X/ Y 2

= [E X / Yi 2 * PMg Yi]

E (V X/ Y)

= [V X/ Yi - E X / Yi 2 ] PMg Yi

V X/ Yi

= P X/ Yi * Xi 2

Tabla 2.8 Estimacin de la probabilidad condicional P (X/Yi)


P(X/Yi)
1
2
3
4
5
6

20
0.90
0.31
0.25
0
0
0

30
0.10
0.58
0.38
0.29
0
0

40
0
0.12
0.38
0.71
1.00
1.00

Total
1
1
1
1
1
1

La tabla anterior muestra el clculo de la probabilidad condicional de X/Yi, para ello se usaron
los datos de las probabilidades de suceso Pi y se dividieron entre la probabilidad marginal de Y
(PMg Y). Como puede verse la suma de las probabilidades condicionales para cada nivel de
gasto es igual a 1.

75

Relaciones estadsticas entre variables aleatorias

Tabla 2.9 Estimacin del valor esperado de X/Y


P(X/Yi)* X
1
2
3
4
5
6

20
18.06
6.15
5.00
0
0
0

30
2.90
17.31
11.25
8.57
0
0

40
0
4.62
15.00
28.57
40.00
40.00
E X/Y

E X/Yi
20.96774
28.0769
31.25
37.14286
40
40
29

E X/Yi 2
439.6462
788.3136
976.56
1379.591
1600
1600
883.2161468

La tabla previa muestra el clculo del valor esperado de Y/X, los valores de la tabla se
obtienen usando cada probabilidad condicional estimado en la tabla 2.8 multiplicado por el valor
de Xi.
La suma de los valores esperados para cada nivel de gasto del 1 al 6, se muestra en la
columna E X/Yi, donde por ejemplo 20.96 es el valor esperado del ingreso X para el nivel de
gasto 1, 28.07 sera el valor esperado del ingreso para el nivel de gasto 2 y as sucesivamente. El
valor esperado de X resulta de aplicar lo siguiente:
E X/ Y = 20.96 * 0.31 + 28.07 * 0.26 + 31.25 * 0.16 + 37.14 * 0.21 + 40 * 0.03 + 40 * 0.03 =
29
La columna E X/Yi 2, muestra el valor esperado elevado al cuadrado, para cada nivel de gasto
se hace esta estimacin, por ejemplo para el nivel 1 de gasto, el valor E X/Y1 2 es de 439 (resulta
de 20.96 2) y as sucesivamente. Mientras que el valor esperado total resulta as:
E X/ Y 2 = 439.6 * 0.31 + 788.3 * 0.26 + 976.5 * 0.16 + 1379.5 * 0.21 + 1600 * 0.03 + 1600 *
0.03 = 883.22
Con el clculo anterior, procedemos a estimar un componente de la varianza total condicional
de X/Y, denominado la varianza del valor esperado de X/Y:
Var E X/ Y = 832.22 292 = 42.22

76

Relaciones estadsticas entre variables aleatorias

La tabla siguiente indica la estimacin del otro componente de la varianza total condicional
de X/Y, en este caso se refiere al valor esperado de la varianza condicional. La columna P (X/Yi)
X2 indica la sumatoria de las probabilidad condicionales multiplicadas por el cuadrado de X, por
ejemplo para el primer valor de varianza condicional de Y1/X equivale a 0.90 * 20 2, para el
segundo valor es 0.1 * 30 2 y para el valor final es 0 (0 * 40 2), la suma de esos tres valores para
Y1 es de 448.4 (Tenga cuidado con el redondeo de los nmeros en esta tabla).
Finalmente la ltima columna es el componente de valor esperado de la varianza condicional
para cada Yi, en este caso consideramos que P (X/Yi) X2 equivale a V X/Yi y se resta del valor
esperado de (E X/Yi) 2 obtenido en la tabla 2.9. As por ejemplo para Y1, se tiene el clculo
siguiente (y sucesivamente):
V X/ Y1 E X / Y1 2 = 448.4 439.6 = 8.74
Tabla 2.10 Estimacin de la varianza condicional de X/Y
P X/ Yi * Xi 2
1
2
3
4
5
6

20
361.3
123.1
100.0
0.0
0.0
0.0

30
87.1
519.2
337.5
257.1
0.0
0.0

40
0.0
184.6
600.0
1142.9
1600.0
1600.0

P (X/Yi) X2
448.4
826.9
1037.5
1400.0
1600.0
1600.0

V X/ Yi E X / Yi 2
8.7409
38.6095
60.9375
20.4082
0.0000
0.0000

Finalmente el clculo del valor esperado de la varianza de X/Y equivale a:


E (V X/ Y)

= [V X/ Yi - E X / Yi 2 ] PMg Yi

E (V X/ Y) = 8.7 * 0.31 + 38.6 * 0.26 + 60.9 * 0.16 + 20.4 * 0.21 + 0 * 0.03 + 0 * 0.03 = 26.78
Finalmente la varianza de X/Y resulta:
V (X / Y) = Var E X/ Y + E (V X/ Y)
V (X / Y) = 42.22 + 26.78 = 69
77

Relaciones estadsticas entre variables aleatorias

Con la varianza obtenida, se puede estimar tambin la desviacin estndar total de X, que
resulta del siguiente modo:
S (X / Y) = 69 0.5 = 8.3066

2.5 Correlacin entre variables aleatorias


Estamos verificando que el comportamiento de la variable aleatoria Y puede ser influenciado
por la variable aleatoria X, esto a partir de las medias y varianzas condicionales. Si observamos
la figura 2.5 vemos que la media condicional o valor esperado de Y (gasto) dado el ingreso X, va
subiendo, as a medida que sube el ingreso el valor esperado del gasto sube, esto indica un
grado de relacin entre ambas variables. Para conocer el grado de relacin podemos usar un
indicador denominado coeficiente de correlacin entre dos variables, esto se estima del siguiente
modo:
Coeficiente de correlacin = Covarianza (X, Y) / [S (X/Y) * S (Y/X)]
Donde:
Covarianza (X, Y)

= E XY - E Y/X * E X/Y

E XY

= Pi * Xi * Yj

Xi * Yj

= Para cada valor Xi se tiene diferentes valores de Yj

En primer lugar estimaremos el valor esperado de XY conjunto:


Tabla 2.11 Estimacin del valor esperado de XY
E XY
1
2
3
4
5
6

20
5.6
3.2
2.4
0
0
0

30
0.9
9
5.4
7.2
0
0

40
0
2.4
7.2
24
6
7.2
78

Relaciones estadsticas entre variables aleatorias

Cada elemento de la tabla anterior se obtiene del siguiente modo, por ejemplo para el primer
elemento (gasto nivel 1 e ingreso de 20 mil) se multiplica 0.28 (revise las probabilidad de la tabla
2.4) por 20 y por 1, resultado 5.6. Para el segundo elemento 0.9, se obtiene multiplicando 0.03 *
30 * 1, resultando 0.9, as sucesivamente.
La suma del total de elementos de la tabla 2.11 representa el valor esperado de XY:
E XY = 80.5
Con esta informacin la covarianza es:
Covarianza (X, Y) = 80.5 - 2.48 * 29 = 8.58
Finalmente la correlacin entre X, Y es:
Coeficiente de correlacin (X, Y) = 8.58 / (1.35263 * 8.3066) = 0.7636
El coeficiente de correlacin indica que entre X, Y existe una asociacin positiva, es decir si
una variable sube o aumenta de valor, la otra se comporta de igual modo. El mximo valor que
puede obtener una correlacin positiva es 1, esto supone que la covarianza equivale al producto
de las varianzas. Esto ltimo significa que la variable tiene una varianza cuyo comportamiento
equivale a la otra, ambas varan de modo similar por ello su correlacin es 1.
El valor mnimo de una correlacin es -1, lo que indica un perfecto comportamiento inverso o
negativo, en buena cuenta la varianza de una variable equivale a la inversa de la otra varianza,
de modo que su comportamiento es perfectamente opuesto.
Si la correlacin es cero, supone que las varianzas independientes son bastante altas, pero
que la covarianza entre variables es baja, es decir su comportamiento no tienen ninguna relacin,
de modo que las variables no tienen ningn comportamiento asociado.

79

Relaciones estadsticas entre variables aleatorias

Fig. 2.6 Relacin entre tipo de cambio y riesgo pas. 2010-2013 Mensual

Fuente: BCRP

La figura previa muestra la relacin entre dos variables aleatorias, el tipo de cambio sol x
dlar y el riesgo pas en puntos bsicos, el coeficiente de correlacin entre ambas variables es de
0.51, positiva y relativamente alta. Esto puede indicar que alzas del riesgo pas, implican una
salida de capitales con lo cual sube el tipo de cambio. En la figura siguiente la correlacin es de
0.01, claramente no existe ninguna relacin entre las dos variables en estudio:
Fig. 2.7 Relacin entre tipo de cambio y tasa de inflacin (IPC). 2010-2013 Mensual

Fuente: BCRP

80

Relaciones estadsticas entre variables aleatorias

Conclusiones del captulo


En este captulo hemos explorado las relaciones entre dos variables aleatorias, estas relaciones
pueden medirse a travs de un coeficiente de correlacin que es el grado de asociacin entre dos
variables.
El coeficiente de correlacin resulta de dividir la covarianza de dos variables sobre sus
desviaciones condicionales (el valor que resulta de sacar la raz de las varianzas condicionales de
cada variable), la covarianza es la forma como varan en conjunto dos variables, as dos variaciones
similares en proporcin o desviacin terminarn dado una correlacin positiva alta, mientras que
varianzas que se comportan de modo independiente o no se relacionan, terminarn dando
correlaciones cercanas a cero.
Por otro lado si una variable tiene una varianza creciente y la otra variable se comporta a la
inversa, este comportamiento conjunto terminar dando una correlacin negativa o un
comportamiento opuesto entre ambas variables.
La determinacin de la covarianza implica saber el valor esperado conjunto de dos variables, que
es una combinacin de la esperanza conjunta menos las esperanzas individuales, en este caso la
determinacin de las esperanzas de cada variable aleatoria equivale a saber su promedio o tambin
equivale a conocer sus frecuencias relativas relacionadas con el valor de la variable, as se
establece una media condicional de una variable dependiente de la otra.
Asimismo hemos establecido que existen frecuencias relativas simples, pero tambin existen
frecuencias condicionales, es decir la probabilidad de que suceda un evento siempre que suceda
otro o que se tenga otra variable dada.
La idea de hallar las esperanzas condicionales, es que si existe algn grado de influencia entre
dos variables, es posible que su valor esperado se comporte relacionado a los cambios en la otra
variable aleatoria, esto es la base del anlisis de correlaciones y posteriormente del anlisis de
regresin entre dos o ms variables.
Esta seccin ha permitido adems establecer que las variables aleatorias deben ser
cuidadosamente extradas en experimentos aleatorios o de modo independiente, aun si son datos
secundarios, de modo que las relaciones planteadas sean estadsticamente vlidas.

81

Relaciones estadsticas entre variables aleatorias

Preguntas de opinin
1. Correlacin es lo mismo que causalidad?
2. Por qu la correlacin al cuadrado, se denomina coeficiente de determinacin?
3. Por qu la correlacin no puede ser mayor que 1?
4. D ejemplos de experimentos aleatorios para estudiar el efecto de los programas
sociales.
5. Brinde 2 ejemplos de variables aleatorias discretas que puedan usarse en
poltica fiscal.

82

Relaciones estadsticas entre variables aleatorias

Caso de aplicacin
Lectura previa
Una trampa de la liquidez es aquella situacin en la que el pblico est dispuesto, a un
tipo de inters dado, a mantener cualquier cantidad de dinero que se ofrezca. En buena
cuenta la tasa de inters no representa mayor incentivo para modificar los saldos monetarios
reales o la demanda de dinero. En el contexto de la trampa de la liquidez, la curva LM es
horizontal ya que las variaciones de la cantidad de dinero no la desplazan:
Inters!

IS!

LM!

Producto!
Como muestra la figura previa, la poltica monetaria llevada a cabo por medio de
operaciones de mercado abierto (es decir las colocaciones de soles en el mercado que
pueden darse por compra de moneda extranjera o por incrementos de activos diversos del
Banco Central de Reserva) no influye ni en el tipo de inters ni en el nivel de renta. Esto se
debe a que todo aumento monetario equivale a un comportamiento similar de la demanda de
dinero, toda vez que los agentes no responden a la tasa de inters, de modo que ms oferta
monetaria equivale a ms demanda monetaria. Ello hace que los saldos monetarios tampoco
alteren el consumo y dado que no se mueve la tasa de inters, tampoco se altera el crdito y
por ende no se mueve el producto.

83

Relaciones estadsticas entre variables aleatorias

En escenarios donde existe trampa de la liquidez y an cuando se tenga un tipo o tasa de


inters cero o muy cercano a cero, el banco central no puede hacer nada ms con la poltica
monetaria convencional para estimular la economa, ya que la poltica monetaria no puede
bajar ms los tipos de inters. Esto concuerda con un escenario donde se presenta una
cada continua de los precios, proceso conocido como deflacin, esto se da porque los
agentes econmicos no tienen mayor consumo y por el contrario su demanda de dinero se
mueve al ritmo de la oferta, al no estimularse el consumo an en condiciones de colocacin
continua de fondos, hace que los precios se vayan reduciendo.
Sin embargo acciones de la autoridad monetaria pueden estimular la demanda, por
ejemplo mediante la compra de bonos corporativos a la usanza de la poltica monetaria de
los EEUU (denominada flexibilidad cuantitativa) esto impulsa la demanda de bienes por las
empresas, la mejora del empleo y por all presionar en algo el consumo y por lo menos cortar
la deflacin. Sin embargo estas inyecciones de fondos pueden ser perjudiciales a largo
plazo.
Preguntas de la lectura
1. En la trampa de la liquidez, qu variables aleatorias intervienen?
2. Qu correlaciones crees que tendrn las variables sealadas anteriormente?
3. En el caso de la reciente crisis internacional, qu variables aleatorias existentes
permiten describir lo anterior?
4. La trampa de liquidez puede afectarse con tasas de inters negativas?

84

Relaciones estadsticas entre variables aleatorias

Ejercicios

Usando la tabla siguiente para dos variables aleatorias cualquiera:

X
Y

100

70

95

20

45

125

65

245

Determine el coeficiente de correlacin condicional entre X, Y.

85

Relaciones estadsticas entre variables aleatorias

Referencias bibliogrficas
Greene, W. (2003) Econometric Analysis. Fifth Edition. Pearson Ed.
Gujarati, D. (2004) Econometra. 4ta Edic. Mc Graw Hill.
Jimnez, F. ( ) Elementos de teora y poltica macroeconmica para una economa abierta. Fondo
Editorial PUCP.
Johnston, J. and Dinardo, J. (1997) Econometric Methods. Fourth Edition. Mc Graw Hill.
Novales, A. (1993) Econometra. Mc Graw Hill.
Wooldridge, J. (2009) Introductory Econometrics. A modern approach. Third Edition. Cengage
Learning.

86

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

CAPTULO III
Modelo de regresin lineal
bsico: Estimacin y prueba
de hiptesis

87

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

III. MODELO DE REGRESIN LINEAL BSICO:


ESTIMACIN Y PRUEBA DE HIPTESIS
Introduccin al tema
Los modelos economtricos implican medir el grado de efecto que una variable aleatoria tiene
sobre otra, esta medicin es posible porque ambas variables se relacionan a nivel de covarianza
y por ende correlacionan.
Sin embargo el grado o magnitud del efecto se estima a partir del valor que adquieren los
parmetros respectivos del modelo, por ejemplo una explicacin bsica del comportamiento del
consumo, variable inserta en el popular modelo Inversin ahorro (IS), indica que los cambios en
el ingreso afectan o modifican el valor del consumo, dichos cambios se pueden medir a travs de
un parmetro conocido como propensin marginal a consumir (PMC).
La PMC sera el parmetro a estimar en un modelo economtrico de consumo bsico, pero
saber que el parmetro est correctamente estimado, supone unos anlisis previos, por ejemplo
que los datos sean normalmente distribuidos (alrededor de la media), que el nivel de error sea
independiente y otros criterios que aseguran una estimacin buena de los parmetros o
tambin conocida como estimacin insesgada.
La estimacin insesgada (al ser la de mayor ajuste o correccin) indica que el modelo ha
reducido al mnimo su nivel de error, por ende los parmetros conducen a una estimacin
correcta del comportamiento de la variable dependiente, lo cual puede ayudar en el anlisis o
evaluacin de las distintas polticas econmicas.

88

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

3.1 Criterios bsicos a cumplir en modelos de regresin


En el tema anterior hemos estimado la relacin entre dos variables aleatorias, a partir del
valor esperado de Y/X, lo cual puede representarse a modo funcional como:
E Y/X: F (X)
La expresin previa indica que cuando X cambia, se produce un cambio en el valor esperado
de Y dado X (Y/X), esa relacin puede tomar diversas formas por ejemplo:
E Y/X = 0 + 1 X

(i)

E Y/X = 0 + 1 X2

(ii)

En la primera ecuacin el modelo es completamente lineal, cambios en X producen cambios


en el valor esperado de Y/X, hay un parmetro 1 que mide el efecto de X en Y, tambin existe
un parmetro o que mide la existencia de la variable Y cuando no existe ningn efecto de X.
Pensemos en el siguiente modelo para ejemplificar lo anteriormente dicho:
E C/Y = Co + c Yd
Yd = Y - T
Donde C es el consumo de los hogares, Y es el ingreso total de las familias, Yd es el ingreso
disponible de las familias, que tambin se mide como el ingreso bruto o total menos los
impuestos (T) que se cobran sobre el ingreso pagados por los hogares. En el modelo sealado
Co es el consumo autnomo del individuo, que sera el consumo no influenciado en ninguna
forma por el ingreso.
En sentido amplio el consumo autnomo puede referirse a los hogares en donde hay
miembros cuyo consumo se realiza an sin tener ingresos, piense en nios o ancianos que no
forman parte de la Poblacin Econmicamente Activa (PEA) y por lo tanto no generan ingresos o
no buscan empleo, en algunos casos el ingreso es una pensin pero aun as los gastos de
consumo no se basan en esa pensin sino en el rendimiento o venta de diversos activos
acumulados a lo largo de su vida o en el aporte econmico de sus hijos.
Entonces es posible que la ecuacin (i) exista normalmente, la ecuacin (ii) es lineal en los
parmetros estimados, pero no es lineal en la variable X, sin embargo es un modelo
economtrico que puede estimarse correctamente, dado que nos importa el valor del parmetro.
89

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

Un ejemplo de un modelo donde Xa (no lineal) puede darse, es la expresin comn del
modelo de produccin siguiente:
Y=KaLb
Y/L= KaLb/L
Donde:
Y:

Producto

Y / L:

Producto per cpita

K:

Stock de capital

L:

Tamao de la poblacin trabajadora (PEA)

a +b = 1

Rendimientos constantes a escala

a=1b
Y / L = (K / L) a
Esta ltima expresin indica que el producto per cpita se relaciona con el capital por
trabajador o per cpita, si deseamos estimar este modelo sin aplicar logaritmos, tendra esta
versin economtrica:
Ypc = 0 + 1 Kpc a

(iii)

Si bien el producto per cpita (Ypc) no tiene un relacin perfectamente lineal con el capital per
cpita (Kpc), la expresin (iii) es un modelo economtrico que presenta un error de diseo, por
cuanto no conocemos el valor del parmetro a haciendo ello imposible su estimacin.
El modelo correcto sera el siguiente:
Log Ypc = a Log Kpc
Donde vemos que el resultado del modelo economtrico es estimar a, por lo tanto la
presencia de variables cuadrticas o con un algn exponente, puede representar un problema de
diseo del modelo, en algunos casos el uso de variables cuadrticas se usa sin perder linealidad
considerando aspectos como:
90

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

La variable explicativa se comporta de modo no lineal, por ejemplo los costos de una
empresa pueden no ser lineales, en razn de darse costos fijos y variables o semi fijos.

Los costos de algunas empresas pueden ser en forma decreciente y creciente (la
clsica curva en forma de U) de modo que modelos que incorporen el costo como
independiente pueden ser no lineales en esa variable.

La inflacin mayor a la esperada, puede representar un impacto no necesariamente


lineal en la actividad productiva, por ejemplo pensemos que el producto tiende a subir
pero a ritmo decreciente en la medida que la inflacin sorpresa sube, hasta que el
producto no sube ms y podra hasta decaer, en este caso la variable independiente
(inflacin real mayor a la esperada) puede ser no lineal.

Las percepciones del pblico respecto a un producto pueden variar dependiendo del
ingreso del individuo, as a medida que hay ms distancia cuadrtica entre ingresos
(por ejemplo ingreso del individuo uno menos el del individuo dos, todo al cuadrado)
podra variar en mayor ritmo la demanda de un bien medido en gasto monetario.

Pensemos en el modelo siguiente:


E Y/X = 0 + 1 2 X

(iv)

La ecuacin (iv) es no lineal en los parmetros, por lo menos en 1, esto genera problemas
de estimacin al menos desde la perspectiva que aqu trabajamos, que es tener un parmetro
cuyo efecto es directo con la variable respuesta. Consideremos que estimamos el modelo (iv), sin
embargo no conocemos que el parmetro es al cuadrado, es decir el efecto real no es la
estimacin realizada sino la raz cuadrada de la misma, por ende el modelo puede tener
problemas de estimacin del parmetro, puede estar sobre estimado.
Ahora revisemos la figura siguiente, que muestra la relacin entre la tasa de encaje promedio
en el Per y la tasa de inters activa en moneda nacional. Se puede evidenciar una pequea
relacin positiva entre ambas variables, en buena cuenta un alza de la tasa de encaje se
relaciona con pequeas alzas en la tasa de inters, la idea de la econometra es estimar el
tamao de ese efecto medido por el parmetro respectivo.

91

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

Fig. 3.1 Relacin entre Tasa de Encaje y Tasa activa en moneda nacional (TAMN)
Mensual Junio 2012 - Mayo 2014

Ahora vamos a plantear a modo de ejemplo, el modelo economtrico siguiente:


TAMN = 0 + 1 Encaje
Los resultados de la estimacin (proceso que veremos ms adelante), para los datos entre
junio 2012 a mayo 2014, son:
TAMN = 12.45 + 0.2989 Encaje
El modelo anterior, bien puede denominarse una regresin poblacional, es decir hemos
empleado los datos de todo el corte de tiempo sealado, ahora estimemos tres modelos usando
en cada caso solo una muestra aleatoria de 12 datos, que es la mitad de los datos empleados en
la regresin poblacional, los resultados son:
TAMN 1 = -14.45 + 1.8680 Encaje 1
TAMN 2 = - 5.029 + 1.384 Encaje 2
92

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

TAMN 3 = 213.5 - 10.03 Encaje 3


Visto grficamente los modelos anteriores pueden representarse en la figura siguiente, en ella
se indica que la funcin de regresin poblacional es diferente a las dems regresiones
muestrales, esto indica que entre la poblacin y la muestra existe un grado de error, por ejemplo
pensemos que el encaje es 20, en ese caso las estimaciones resultantes son:
TAMN poblacional = 18.428
TAMN muestra 1 = 22.91

Error = 4.482

TAMN muestra 2 = 22.65

Error = 4.223

TAMN muestra 3 = 12.9

Error = -5-528

Fig. 3.2 Regresin Poblacional y Muestral


TAMN!
Muestra!3!

Muestra!1!
Muestra!2!

Poblacin!
Encaje!

El error mostrado en las estimaciones anteriores, se refiere a cuanta distancia hay entre la
TAMN estimada poblacionalmente y cada una de las muestras, como puede verse el error de las
estimaciones muestrales puede ir por encima de la variable TAMN o por debajo de la misma. En
buena cuenta los modelos economtricos dado que son muestrales, siempre tienen un nivel de
93

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

error, de modo que la especificacin final de un modelo economtrico general y su valor


esperado, es como sigue:
Y = 0 + 1 X + U
E (Y/X) = 0 + 1 E (X) + E(U)
Donde U, es el nivel de error de las distintas regresiones muestrales.
La regresin poblacional inclusive, en tanto usamos datos condicionales (ver el tema dos)
presenta valores esperados estimados para una distribucin de probabilidades, de modo que
tambin presenta un nivel de error (la distancia entre el valor esperado estimado o media y los
datos existentes), por ello veamos e siguiente grfico estimando la TAMN desde los parmetros
mostrados en la regresin poblacional y la TAMN real.
Fig. 3.3 TAMN, TAMN estimada y nivel de error (%)

Como muestra la figura anterior las estimaciones que realizamos de una variable aleatoria
contienen siempre un nivel de error, primero porque siempre estimamos un valor esperado, el
cual es un dato que se encuentra entre la media de los datos respectivos, la desviacin existente
en torno a la media estimada, garantiza la presencia de error aleatorio. En el caso de las
regresiones muestrales el error se amplifica, porque adems de que estimamos una media
94

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

muestral (o valor esperado muestral), a las desviaciones propias de la muestra se le suma las
desviaciones en torno a la media poblacional (o valor esperado poblacional), lo que implica un
mayor nivel de error.
Las siguientes son las sumas y valores esperados de las estimaciones de error de cada
regresin realizada:
Tabla 3.1 Valor esperado del Error del modelo Encaje -TAMN

Suma Error
E (Error)

Poblacin
0.03
0.00

Muestra 1
-0.03
0.00

Muestra 2
0.10
0.01

Muestra 3
0.49
0.04

La tabla anterior indica que el valor esperado del error poblacional tiende a ser cero (es
posible que haya estimaciones mayores y menores respecto al dato real), mientras que de las
tres muestras realizadas la primera tiene un error esperado de cero y las otras dos tienen estos
errores cercanos a cero.
Visto la tabla, el modelo poblacional tiene un E(U) = 0, mientras que la regresin de mayor
cercana de la muestra 1, tambin presenta un E(Ui) = 0, en ambos casos ambos modelos son
los que mejor representan el comportamiento de la variable dependiente o tasa de inters activa
en moneda nacional, es siempre muy probable que la funcin de regresin poblacional tenga un
error esperado de cero, dado que contiene todos los daos posibles, mientras que la muestra de
menor error (o cero) es aquella que mejor representa el comportamiento poblacional.
Hay que considerar adems, que normalmente siempre trabajaremos con regresiones
muestrales, de modo que un criterio bsico es hallar aquella regresin que presenta el menor
error posible en la estimacin de la variable dependiente. En nuestro ejemplo la regresin y los
parmetros a usar, seran los de la muestra 1.
Ahora analicemos el comportamiento del error cuadrtico, esto puede expresarse as:
U = Y - 0 + 1 X
Var U = E (U E U)2
Var U = E (U 2 2 U E U + (E U)2 )
Var U = E U 2 2 E U E U + N (E U)2
95

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

Considere que E (U) = 0


Var U = E U 2
Var U = U 2 / N K
Donde:
Var U: Varianza de U
N es el nmero de datos, y
K es el nmero de variables en la regresin.
En conclusin la varianza del error es una constante, como indica la expresin anterior. El
error tambin debe tener un comportamiento independiente de la variable independiente, veamos
el siguiente tratamiento (donde Covar indica la covarianza):
Covar (U, X) = E [(U E U) (X - E X)]
Covar (U, X) = E (U X E U X - U E X + E U E X)
Considere que E (U) = 0
Covar (U, X) = E (U X - U E X)
Covar (u, X) = E U X - EU E X
Covar (U, X) = 0
Podemos tambin sealar entonces que el error es independiente de la variable
independiente, aunque el mismo resultado obtenemos si usamos la variable dependiente, el error
no se relaciona con estas variables, bsicamente porque el error es aleatorio o debera serlo, es
decir no sigue ningn patrn especfico.
Si el error siguiera un comportamiento relacionado con la variable independiente por ejemplo,
tendramos en la prctica dos modelos, que pueden representarse del siguiente modo:
Y = 0 + 1 X + U
U = 0 + 1 X + e
96

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

El modelo anterior, para estimar Y, realmente ser este:


Y = 0 + 1 X + 0 + 1 X + e
Como puede verse el parmetro que define el efecto que X tiene en la variable Y sera (1 +
1), es decir estamos subestimando el valor del parmetro original, el error deja adems de ser
aleatorio, puesto que su valor esperado sera este diferente de cero:
E U = 0 + 1 E X
Lo anterior indica adems que la varianza del error deja de ser constante como demostramos
a continuacin:
Var U = E (U E U)2
Var U = E (U 2 2 U E U + (E U)2 )
Var U = E (U 2 2 U (0 + 1 E X) + (0 + 1 E X)2 )
Var U = E U 2 2 E U (0 + 1 E X) + E (0 2 + 2 0 1 E X + 1 2 E X 2 )
Var U = E U 2 + E (0 2 + 2 0 1 E X + 1 2 E X 2 )
Considere que el valor esperado de una constante es la misma constante y un valor esperado
de una variable aleatoria, es tambin una constante, con ello la varianza del error queda:
Var U = E U 2 + 0 2 + 2 0 1 E X + 1 2 E X 2
Como se ha podido comprobar, es necesario que se cumplan algunos criterios estadsticos
antes de pasar a estimar un modelo de regresin, estos son bsicamente (cuando los datos se
distribuyen de manera Normal):
-

El valor esperado del error debe ser cero

La varianza del error es constante

Los parmetros a estimar de modo insesgado producen el mnimo error o error cero

La relacin entre el error y las variables es de covarianza cero

Los parmetros de un modelo a estimar, deben ser lineales, ya que ello permite
identificar el efecto que se genera entre variable independiente hacia la dependiente.
97

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

3.2 Estimacin de parmetros


Hemos analizado antes que podemos tener distintas funciones de regresin muestral o
regresiones diversas con datos aleatorios de una poblacin, cada una de estas funciones
presenta niveles de error diferenciados, lo que implica que slo hay un set o conjunto de
parmetros que anula, minimiza o hace cero el error y por tanto son los parmetros ideales e
insesgados para realizar las estimaciones respectivas.
La figura siguiente muestra que para distintos valor del parmetro 1, el error cuadrtico total
(sumatoria de U2) vara. Por ejemplo para un valor del parmetro de la regresin poblacional
(0.30) el error cuadrtico es cero, mientras que para el parmetro 1.87 de la regresin muestral
realizada antes (modelo de encaje y tasa de inters), el error cuadrtico tambin es cero.
Mientras que para un parmetro de 1.38 (segunda regresin muestral) el error cuadrtico total es
0.01, ahora para la regresin muestral tres, el parmetro fue de -10.03 y el error cuadrtico total
ha sido de 0.24.
Fig. 3.4 Estimacin de parmetros y comportamiento del error cuadrtico

Como se puede ver, el parmetro muestral que minimiza el error al cuadrado total es 1.87.
Esto nos lleva a plantear el siguiente problema de optimizacin para minimizar el error al
98

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

cuadrado, que permitir conocer como hallar los parmetros insesgados de cualquier modelo
economtrico bsico o de dos variables:
Sea el error del modelo (donde Ye es Y estimado):
U i 2 = ( Y - Y e) 2
Ui 2 = ( Yi 0 - 1 Xi ) 2
Minimizando el error (derivando) con respecto a los parmetros tenemos:
Ui 2 / 0 = 0
Ui 2 / 1 = 0
Ui 2 / 0 = 2 ( Yi 0 - 1 Xi ) (-1) = 0
Yi N 0 - 1 Xi = 0
Yi / N 0 - 1 Xi / N = 0
0 = Ym - 1 Xm
Donde:
Ym es el valor promedio o esperado de Y
Xm es el valor promedio o esperado de X
Ui 2 / 1 = 2 ( Yi 0 - 1 Xi ) (-Xi) = 0
( Yi 0 - 1 Xi ) (Xi) = 0
( Yi Xi 0 Xi - 1 Xi Xi ) = 0
Yi Xi 0 Xi - 1 Xi 2 = 0
Considerando que:
Yi / N 1 Xi / N = 0
Yi Xi - ( Yi / N 1 Xi / N) Xi - 1 Xi 2 = 0
99

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

Yi Xi - Yi Xi / N + 1 Xi Xi / N - 1 Xi 2 = 0
N Yi Xi - Yi Xi + 1 Xi Xi - 1 N Xi 2 = 0
N Yi Xi - Yi Xi = 1 [N Xi 2 - Xi Xi ]
[N Yi Xi - Yi Xi ] / [N Xi 2 - Xi Xi ] = 1
Ahora demostraremos que la covarianza entre variables sobre la varianza de X, se relaciona
con la estimacin del parmetro 1, primero analicemos la covarianza:
Covar (X, Y) = (X Xm) (Y Ym)
= (X Y Xm Y + Xm Ym X Ym)
= X Y Xm Y + N Xm Ym X Ym
= X Y Xm Y + X Ym X Ym
= Xi Yi Xi Yi / N

(v)

Ahora hallaremos la varianza de X:


Var X = (X Xm)2
= ( X2 2X Xm + Xm 2 )
= ( X2 2 X Xm + N Xm 2 )
= ( X2 2 X Xm + X Xm )
= ( X2 X Xm )

(vi)

Dividimos (v) sobre (vi):


= [ X Y X Y / N] / [ X2 X Xm ]
= [N Xi Yi Xi Yi ] / [ N Xi 2 Xi Xi ]

(vii)

La ecuacin (vii) es idntica a la obtenida para estimar 1, de modo que podemos decir que el
parmetro se estima finalmente del siguiente modo:
100

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

1 = Covar (X, Y) / Var X


1 = (X Xm) (Y Ym) / (X Xm)2
1 = yi xi / xi2
Donde:
yi xi = (X Xm) ( Y Ym)
xi 2 = (X Xm)2
Consideremos ahora el modelo economtrico planteado anteriormente:
TAMN = 0 + 1 Encaje + U
Estimaremos el valor insesgado de los parmetros 0 y 1, para lo cual tenemos la tabla
siguiente:
Tabla 3.2 Estimacin de parmetros en modelo Encaje -TAMN
Ord
1
2
3
4
5
6
7
8
9
10
11
12
Promedio

TAMN (Yi)
21.39
22.79
20.70
21.29
19.59
24.12
21.93
19.93
22.89
20.33
16.81
21.07
21.07

ENCAJE (Xi)
19.30
19.33
19.28
19.09
19.41
19.27
19.08
19.09
18.95
18.81
18.47
18.12
19.02

yi
0.32
1.72
-0.37
0.22
-1.48
3.05
0.86
-1.14
1.82
-0.74
-4.26
-0.00

Xi
0.28
0.32
0.26
0.07
0.40
0.25
0.06
0.07
-0.07
-0.21
-0.54
-0.90
Sumatoria

yi xi
0.09
0.54
-0.10
0.02
-0.59
0.78
0.05
-0.08
-0.13
0.15
2.31
0.00
3.05

xi2
0.08
0.10
0.07
0.00
0.16
0.06
0.00
0.01
0.00
0.04
0.29
0.80
1.63

Con los datos de la tabla anterior, el parmetro 1 resulta:


1 = yi xi / xi2
101

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

1 = 3.05 / 1.63
1 = 1.868
0 = Ym - 1 Xm
0 = 21.07 1.868 * 19.02
0 = -14.45
Finalmente el modelo con sus parmetros insesgados, se expresa as:
TAMN = -14.45 + 1.868 * Encaje + Ui
Una forma de explicar los resultados de este modelo, indica que si el encaje sube en 1,
entonces la tasa de inters subira en 1.868 (no hemos corrido el modelo en logaritmos, de modo
que es un parmetro medido en valores absolutos antes que elasticidades), la pendiente de este
modelo equivale al valor 1.868.
En caso que el encaje fuera cero, la Tasa de inters activa en moneda nacional sera -14.45,
lo cual de por s no es explicable en trminos econmicos, toda vez que no existen tasas
negativas, he all una forma de expresar que el modelo pudo ser ms efectivo si se empleaban
logaritmos. El valor negativo del parmetro no es un buen referente o respuesta en este modelo,
es ms probable que indique que en ausencia de encaje la tasa de mercado podra bajar en
14.45, pero esa es ya una explicacin del analista, que termina siendo una opinin que procura
acomodarse al modelo.
La estimacin de los parmetros tambin debe ser independiente del nivel de error, con fines
de ser insesgado, probemos este criterio con los modelos siguientes:
Y = 0 + 1 X + U
Ym = 0 + 1 Xm
Y - Ym = 1 (X - Xm ) + U
yi = 1 xi + U
Sea la covarianza entre Y con el error u, considere que el valor esperado del error es cero
(E U = 0):
102

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

yi U = 1 xi U
yi U = 1 xi ( yi - 1 xi)
yi U = 1 [ xi yi - 1 xi 2 ]
yi U = 1 xi yi - 1 2 xi 2
yi U = 1 ( 1 xi 2 ) - 1 2 xi 2
yi U = 1 2 xi 2 - 1 2 xi 2
yi U = 0
Como puede demostrarse, la relacin entre el error y la variable dependiente estimada es
cero, a partir de los parmetros insesgados estimados, esto debe cumplirse al estimarse
cualquier modelo economtrico.

3.3 Ajuste de modelos


Ya hemos estimado el valor insesgado de los parmetros de un modelo economtrico simple
o con una sola variable independiente, ahora vamos a analizar si la variable dependiente est
bien explicada o determinada por la variable independiente.
Para ello debemos analizar primero, el grado de varianza o variabilidad que tienen los
estimadores que hemos calculado, un estimador de baja varianza o baja desviacin estndar
garantiza que el rango de la respuesta o intervalo de confianza para las estimaciones es bajo,
eso supone una estimacin bien ajustada de la variable dependiente lo cual implica un error
pequeo en el modelo, lo cual es el objetivo a lograr.
Para ello primero, expresemos o analicemos el parmetro de la variable independiente:
1 = yi xi / xi2
1 = xi (Yi Ym) / xi2
1 = [xi Yi xi Ym] / xi2
1 = xi Yi xi Ym / xi2
103

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

Donde xi = 0 (La sumatoria del valor de una variable aleatoria respecto de su media es
cero), entonces:
1 = xi Yi / xi2
1 = Zi Yi
Donde Zi = xi / xi2
Ahora consideremos que:
Zi = 0 (por el criterio anterior para las desviaciones),
Zi 2= xi 2 / xi4 = 1/ xi2
Zi Xi = xi Xi / xi2 = xi 2 / xi2 = 1
Note que antes se ha demostrado que xi yi = xi Yi, por tanto xi xi = xi Xi
1 / Zi = Yi, entonces la variable dependiente queda del siguiente modo:
Yi = 0 + 1 Xi + U
1 / Z i = 0 + 1 X i + U
1 = Zi [0 + 1 Xi + U]
1 = 0 Z i + 1 Z i X i + Z i U
Aplicando los criterios previos, donde 1 es el valor estimado de 1, tenemos:
E 1 = 0 + E ( 1 * 1 ) + Z i E U
E 1 = 1
Note que tambin es posible (antes que E Ui = 0) que:
E 1 - 1 = Z i E U i
Ahora para hallar la varianza de 1 tenemos que restar 1 del valor esperado de 1:
Var 1 = E (1 - E ( 1) ) 2
104

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

Var 1 = E (1 - 1) 2
Var 1 = (E 1 - 1) 2
Var 1 = E ( Zi Ui) 2
Var 1 = E [ Z1 2 U1 2 + Z2 2 U2 2 + Z2 2 U3 2 + + Zn 2 Un 2 + 2 Z1 Z2 U1 U2 + .+ 2 Zn-1 Zn Un-1 Un ]
Considere que el valor esperado E (Ui Uj) = E ( Ui - E Ui ) ( Uj E Uj) = E (Ui * Uj) = 0
Adems como vimos antes, E Ui 2 = Var U =
U 2 / N K)

o varianza del modelo (Donde E Ui

La ecuacin de la varianza (Var) del parmetro y su error estndar (SE) o desviacin, queda:
Var 1 =
Var 1 =
S E ( 1 ) =

( Zi 2 )

* (1/ xi 2)
/ ( xi 2) 0.5

En el caso de la varianza del parmetro denominado intercepto o la constante o (estimada),


su varianza resulta del siguiente modo:
0 = Y m - 1 X m
E 0 = Ym - 1 Xm
0 - E 0 = Y m - 1 X m - Y m + 1 X m
0 - E 0 = - 1 X m + 1 X m
0 - E 0 = - X m ( 1 - 1 )
( 0 - E 0 ) 2 = [ - X m ( 1 - 1 ) ] 2
( 0 - E 0 ) 2 = ( Xi 2 / N 2 ) ( 1 - 1 ) 2
E ( 0 - E 0 ) 2 = N ( Xi 2 / N 2 ) E ( 1 - 1 ) 2
E ( 0 - E 0 ) 2 = [ Xi 2 / N ]

* (1/ xi2)
105

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

Var 0 = [ Xi 2 / N xi 2 ]

SE (0) = [ Xi 2 / N xi 2 ] 0.5
Los clculos anteriores indican que los intervalos de confianza (en que rango se mueven
como mximo o mnimo los parmetros estimados en el modelo) para los parmetros seran los
siguientes:
- SE ( 1 ) + 1 + SE ( 1 )
- SE ( 0) + 0 + SE ( 0)
Una vez que establecemos la varianza de los parmetros, ahora conoceremos el ajuste del
modelo, en buena cuenta que tan bien la variable dependiente es explicada con la informacin
que contiene la variable independiente, para ello consideremos siempre el modelo inicial:
Yi = Yi + Ui
Visto en desviaciones (Note que Ui = ui, porque la media del error o su valor esperado es cero)
tenemos:
yi = yi + ui
Colocando yi al cuadrado, queda:
yi 2 = yi 2 + 2 yi ui + ui2
Aplicando sumatorias, resulta:
yi 2 = yi 2 + 2 yi ui + ui2
Como se demostr antes, yi u = 0, con lo cual la expresin queda del siguiente modo:
yi 2 = yi 2 + ui2

(viii)

Ahora consideremos la siguiente expresin ya demostrada previamente:


Zi = xi / xi2
Yi = 1 / Zi
Yi = 1 xi 2 / xi
106

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

Yi = 1 xi 2 / xi
Yi 2 = 1 2 xi 2
En desviaciones:
yi 2 = 1 2 xi 2
Ahora reemplazando esta ltima expresin en la ecuacin (viii) tenemos el resultado final,
note que hemos considerado igual que antes que la variable aleatoria, puede ser escrita en sus
desviaciones sin alterar lo que hemos estimado:
yi 2 = 1 2 xi 2 + ui2
Si dividimos todo entre yi 2, obtenemos:
1 = 1 2 xi 2 / yi 2 + ui2 / yi 2
Donde obtenemos r 2, indicador que ayuda a conocer el grado en que X explica a Y, el
coeficiente r 2 es tambin, el cuadrado del coeficiente de correlacin ya estudiado en el tema
anterior:
r 2 = 1 2 xi 2 / yi 2
Dado 1 es igual a la covarianza de X, Y sobre la varianza de X, entonces r 2 es igual a:
r 2 = ( xi yi ) 2 / [ xi 2 yi 2 ]
Otra forma de verlo es del siguiente modo:
1 = r 2 + ui2 / yi 2
r 2 = 1 - ui2 / yi 2
r 2 = 1 SRC / STC
SEC / STC = 1 - SRC / STC
Donde:
SEC: Suma explicada de cuadrados de la regresin
107

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

STC: Suma total de cuadrados de la regresin


SRC: Suma de residuos o errores al cuadrado de la regresin.
De modo que r2 denominado coeficiente de determinacin de la bondad de ajuste del modelo,
vendra a ser la parte explicada de la regresin sobre el total, en buena cuenta es la parte que X
explica a Y. Visto desde otra perspectiva, es 1 menos los residuos al cuadrado sobre el total,
quiere decir que si al 100% de explicacin le quitamos la parte que explican los residuos,
entonces nos queda la parte que X explica a la variable Y o dependiente.
Hay que notar que el coeficiente de determinacin finalmente implica que las desviaciones de
X explican en alguna medida las desviaciones de Y, por eso que la variable X es determinante en
el comportamiento de la variable Y.
Volvamos con el ejemplo del modelo:
TAMN = -14.45 + 1.868 * Encaje + u
La tabla siguiente muestra los resultados necesarios para las estimaciones de varianza de
parmetros y del coeficiente de determinacin (TAMN es Y, el encaje es X, TAMN estimado es
Y):
Tabla 3.3 Estimacin de varianzas de parmetros y coeficiente de determinacin
Ord
1
2
3
4
5
6
7
8
9
10
11
12
Promedio

Y'
21.60
21.66
21.56
21.20
21.81
21.54
21.19
21.21
20.94
20.68
20.06
19.39
21.07

Ui
-0.21
1.13
-0.85
0.09
-2.22
2.58
0.74
-1.27
1.95
-0.35
-3.25
1.67
Suma

Ui 2
0.05
1.28
0.73
0.01
4.92
6.63
0.55
1.62
3.82
0.12
10.57
2.80
33.10

xi 2
0.08
0.10
0.07
0.00
0.16
0.06
0.00
0.01
0.00
0.04
0.29
0.80
1.63

Xi 2
372.50
373.74
371.58
364.24
376.81
371.33
363.97
364.42
358.92
353.73
341.32
328.29
4,340.84

yi '
0.53
0.59
0.49
0.13
0.74
0.47
0.12
0.14
-0.13
-0.39
-1.01
-1.68
-

yi ' 2
0.28
0.35
0.24
0.02
0.55
0.23
0.01
0.02
0.02
0.15
1.02
2.81
5.69

yi 2
0.10
2.96
0.14
0.05
2.19
9.30
0.73
1.29
3.32
0.55
18.16
0.00
38.79
108

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

En primer lugar estimaremos la varianza del modelo y su respectiva raz conocida como error
estndar del modelo o de la regresin:
2=

U 2 / N K)

Donde K son las variables del modelo, en este caso 2:


2=

33.10 / 10 = 3.31

SE Regresin = 1.819
Ahora estimaremos la varianza y error estndar de cada parmetro
Var 1 =

* (1/ xi 2)

Var 1 = 3.31 / 1.63 = 2.03


SE (1) = 2.03 0.5 = 1.425
Var o = [Xi 2 / N xi 2]

Var o = [4340.84 / (12 * 1.63)] * 3.31 = 734.49


SE (0) = 734.49 0.5 = 27.10
A continuacin determinaremos la bondad de ajuste del modelo o coeficiente de
determinacin (r 2):
STC = yi 2 = 38.79
Donde:
yi 2 = ( Yi - Ym ) 2
SEC = yi 2 = 1 2 xi 2 = 1.8681 2 * 1.63 = 5.69
Donde:
yi 2 = ( Yi - Ym ) 2
SRC = ui 2 = 33.10
109

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

SCT = SCE + SRC


38.79 = 5.69 + 33.10
38.79 / 38.79 = 5.69 / 38.79 + 33.10 / 38.79
Esto equivale a:
1 = r 2 + ui2 / yi 2
1 = 0.15 + 0.85
r 2 = 0.15
Que puede comprobarse mediante:
r 2 = 1 2 xi 2 / yi 2
r 2 = 5.69 / 38.79 = 0.15
El valor de 0.15 estimado indica que slo un 15% de los cambios en la variable Y es producto
de cambios en la variable X, el coeficiente de correlacin o asociacin entre variables es de
38.2% (0.382), lo cual es un indicador bajo, es muy probable que modelos con buen ajuste
tengan coeficientes de correlacin que superen a 0.5 o 50% y por un tanto el r2 se situara por
encima de 25%. Aunque normalmente se sugiere que el coeficiente de determinacin sea mayor
a 0.6 o 60%.

3.4 Significancia de parmetros y del modelo


Hemos obtenido en la seccin previa, los parmetros y su grado de varianza o desviacin, de
modo que pequeas desviaciones indican que hemos hallado los parmetros que mejor explican
las relaciones o efectos entre la variable dependiente e independiente. De igual modo hemos
establecido el grado de explicacin de la variable X (independiente) sobre Y (dependiente), esta
explicacin se mide con el coeficiente de determinacin: r 2.
Ahora analizaremos la validez de los parmetros a partir de su grado de significancia, para
ello recurriremos a las siguientes hiptesis:
Ha: Si el parmetro es significativo, entonces es diferente de cero
110

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

Ho: Si el parmetro no es significativo, entonces es igual a cero


Donde Ho, normalmente se conoce como hiptesis nula y Ha como la hiptesis alternativa. Si
consideramos lo anterior podemos plantear una forma de verificar la significancia, para ello
usemos el intervalo de confianza positivo (funciona similar si fuera el intervalo negativo) del
parmetro 1 (parmetro estimado) por ejemplo:
1 = 1 + S E ( 1 )
1 - 1 = S E ( 1 )
( 1 - 1 ) / S E ( 1 ) = 1
Si sucede que el parmetro estimado es equivalente al parmetro del modelo poblacional, en
buena cuenta su estimacin no tiene error, tenemos:
1 = 1
En ese caso:
( 1 - 1 ) / S E ( 1 ) = 0
El valor 1 y 0 que hemos obtenido, equivale a los valores que puede adquirir la distribucin
estandarizada normal del error estndar del parmetro que llamaremos Z, de modo que la
ecuacin previa puede plantearse como:
( 1 - 1 ) / S E ( 1 ) = Z
Z = ( 1 - 1 ) ( xi 2 ) 0.5 ) /
Ahora consideremos lo siguiente para la estimacin de la varianza del modelo:
2=
2

2/

(N K)

(N K) /

=1

=0

Si la varianza estimada del modelo es cero, entonces:


2

(N K) /

111

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

Lo que configura la distribucin estandarizada de la varianza del modelo, que ser


denominada Z:
2

(N K) /

=Z

Existe una distribucin estandarizada que relaciona tanto la varianza del modelo ( 2) como
la distribucin estandariza de los parmetros y se conoce como distribucin t de Student, cuya
representacin es la siguiente:
t = Z (N - K) 0.5 / Z 0.5
t = [ ( 1 - 1 ) ( xi 2 ) 0.5 /

] ( N - K) 0.5 / [

t = [ ( 1 - 1 ) ( xi 2 ) 0.5 /

] ( N - K) 0.5 / [

t = [ ( 1 - 1 ) ( xi 2 ) 0.5 /

(N K) 0.5 /

]/ [

t = [ ( 1 - 1 ) ( xi 2 ) 0.5 ] /

(N K) /

] 0.5
]

Donde:
/ ( xi 2 ) 0.5 ] = SE (1) : Error estndar del parmetro 1
1 = 0. Si consideramos que la hiptesis nula es que sea igual a cero, entonces hay que
probar eso. Con la cual la distribucin t de Student del parmetro 1 y 0 queda as, considere
como vimos en las ecuaciones previas que hay (N K) grados de libertad o datos ajustados, en
el modelo bsico sera (N 2) grados de libertad en la distribucin t:
t = 1 / SE (1)
t = 0 / SE (0)
Con esto queda adems ajustado el nivel de variacin de los parmetros o intervalo de
confianza y quedan como sigue:
1 = 1 +/- t * S E ( 1 )
0 = 0 +/- t * S E ( 0 )
112

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

Donde la distribucin t de Student puede ser a una cola o dos colas, veamos los datos que
muestra la distribucin a una y dos colas, para diversos niveles de confianza o error:

Tabla 3.4 Valores de la distribucin t de Student

N - K: Grados de
Libertad
10
20
30
40
60
120

Probabilidad a una y dos colas y valor de la distribucin t


0.5
0.2
0.1
0.05
0.25
0.1
0.05
0.025
0.70
1.37
1.81
2.23
0.69
1.33
1.73
2.09
0.68
1.31
1.70
2.04
0.68
1.30
1.68
2.02
0.68
1.30
1.67
2.00
0.67
1.29
1.66
1.98

Como se muestra en la tabla previa, si se cuenta con 30 grados de libertad (existen 32 datos
con dos variables en el modelo, una explicativa y la otra dependiente), entonces para que t sea
mayor de 0.68, la probabilidad es de 50% en una cola y de 25% en dos colas.
Con el mismo razonamiento, para 120 datos, la probabilidad para que t sea mayor a 2, es de
5% a una cola y 2.5% a dos colas.
En la distribucin t de Student hay dos zonas, una de aceptacin y la otra de rechazo de la
hiptesis nula, en consiguiente si el valor hallado en el modelo de regresin, supera el valor
crtico mostrado en la tabla previa, se est rechazando la hiptesis nula.
La figura siguiente muestra este criterio, en ella se indica que para 14 grados de libertad (16
datos en un modelo simple), el valor de la tabla es de 2.145, este valor es idntico a ambos lados
de la distribucin (siempre que sea a dos colas) y equivale a una probabilidad de 2.5% en cada
cola, para el caso de que el valor t del parmetro estimado supere a 2.145:

113

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

Fig. 3.5 Distribucin t de Student y valores crticos de la tabla

Si el valor estimado de la distribucin t para el parmetro es por ejemplo 2.25, entonces se


cae en la regin de rechazo, la probabilidad de que esto sea as es de 2.5% a dos colas y 5% a
una cola, lo que indica que se rechaza la hiptesis nula de que el parmetro es igual a cero y se
acepta la hiptesis alternativa de que el parmetro es diferente de cero.
Un criterio similar supone pensar de que slo existe 2.5% de probabilidades de que el
parmetro sea igual a cero, cuando supera el valor de la tabla y existen 95% de probabilidades
de que sea diferente de cero.
Para el caso de nuestro ejemplo, el valor t estimado sera:
t 1 = 1 / SE (1)
t 1 = 1.8681 / 1.4249 = 1.31
t 0 = 0 / SE (0)
t 0 = -14.454 / 27.101 = -0.54
Los valores crticos de la distribucin t de Student para 10 grados de libertad a 2.5% de error
en dos colas es: 2.23
114

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

t 1 = 1.31 < 2.23


t 0 = -0.54 < 2.23
Lo anterior indica que los dos parmetros no superan el valor crtico o de la tabla, por ende no
se puede rechazar la hiptesis nula de que los parmetros son iguales a cero, esta hiptesis se
acepta y se considera que los parmetros estimados no son significativos, por tanto el modelo
desde esa perspectiva no permite conocer el efecto de la variable X (encaje) sobre la variable Y
(tasa de inters activa en moneda nacional TAMN).
Ahora midamos un indicador global de significancia del modelo, el mismo que implica
combinar nuevamente las distribuciones de los parmetros y la varianza del modelo:
2

(N K) /

=Z

Z = ( 1 - 1 ) ( xi 2 ) 0.5 /
Z 2 = ( 1 - 1 )2 ( xi 2 ) /

Ahora hallemos la distribucin denominada F de Fisher, que mide la significancia global del
modelo, esto es que tan bueno es el modelo a partir de los errores estimados y la significancia de
los parmetros:
F = [ Z 2 / 1 ] / [ Z / (N - K) ]
Donde Z tiene un grado de libertad y Z tiene (N K ) grados de libertad:
F = [ ( 1 - 1 )2 ( xi 2 ) /

2]

/[

F = [ ( 1 - 1 )2 ( xi 2 ) /

2
2]

(N K) /
/[

F = [ ( 1 - 1 )2 ( xi 2 ) ] /

F = [ ( 1 - 1 )2 ( xi 2 ) ] /

(N K) ]

2]

F = [ ( 1 - 1 )2 ( xi 2 ) ] / [ Ui 2 / ( N K ) ]
Si consideramos que la hiptesis nula es probar que 1 es igual a cero, entonces queda:
115

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

F = [ 1 2 ( xi 2 ) ] / [ Ui 2 / ( N K ) ]
La distribucin F de Fisher como ha podido verse, cuenta con 1 grado de libertad en el
numerador y N-K grados de libertad en el denominador (en este caso K equivale a dos variables,
es decir su valor es 2), a continuacin pondremos el valor crtico de la F de Fisher desde la tabla
respectiva siguiente:
Tabla 3.5 Valores de la distribucin F de Fisher
N - K: Grados de
Libertad
denominador
10
20
30
40
60
120

Probabilidad a una cola con un (1) grado de libertad en el


numerador
0.25
0.1
0.05
0.01
1.49
3.29
4.96
10.00
1.40
2.97
4.35
8.10
1.38
2.88
4.17
7.56
1.36
2.84
4.08
7.31
1.35
2.79
4.00
7.08
1.34
2.75
3.92
6.85

La tabla puede entenderse del siguiente modo, para 10 grados de libertad en el denominador
(en este caso 12 datos menos, K que equivale a 2), se tiene que existe un 5% de probabilidad de
que el valor obtenido supere a 4.96.
Para 120 grados de libertad en el denominador (122 datos en el caso de tener K = 2), se
tiene que existe un 1% de probabilidad de que le valor F supere a 6.85.
Tal como en el caso anterior, cuando el valor F obtenido en la regresin supera al de la tabla
se asume que se cae en la regin de rechazo de la hiptesis nula, que en este caso es
equivalente a que todos los parmetros del modelo son cero.
Entonces si el valor estimado de F supera el de la tabla, se rechaza la hiptesis nula y se
acepta la hiptesis alterna, que equivale a que todos los parmetros del modelo son diferentes de
cero, estimar F supone hallar:
F = [ 1 2 ( xi 2 ) ] / [ Ui 2 / ( N K ) ]
F = SEC / [ SRC / (N K) ]
116

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

Como vimos al final de la seccin 3.3, se tiene:


SEC = 5.69
SRC = 33.10
F = 5.69 / [ 33.10 / 10 ] = 1.72
Comparando este F estimado con 4.96 el valor crtico de la tabla F, al 5% de confianza se tiene:
F = 1.72 < 4.96
Dado que F estimado es menor al valor de la tabla ya mostrado antes, se indica que se
acepta la hiptesis nula de que los parmetros son cero, de modo que el modelo tiene bajo poder
explicativo y por tanto debe ser rechazado globalmente.
Los programas informticos de estadstica como Stata normalmente incluyen anlisis de
regresin, para ello solo usamos escribimos en el editor la sentencia (REG es la funcin y TAM1
es la tasa de inters activa en moneda nacional y ENC es la tasa de encaje):
reg TAM1 ENC1
Resultando:
Tabla 3.6 resultados de la regresin TAM ENC

Source

SS

df

MS

Number of obs =
F(

Model

5.68861332

5.68861332

Residual

33.0995857

10

3.30995857

Total

TAM1

38.788199

Coef.

11

3.52619991

Std. Err.

P>|t|

1,

12

10) =

1.72

Prob > F

0.2192

R-squared

0.1467

Adj R-squared =

0.0613

Root MSE

1.8193

[95% Conf. Interval]

ENC1

1.868061

1.424948

1.31

0.219

-1.306921

5.043043

_cons

-14.45373

27.10163

-0.53

0.605

-74.83992

45.93246

117

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

Como muestra la tabla previa, el valor F es 1.72 ya estimado, el error estndar del modelo se
denomina Root MSE y es 1.8193, el coeficiente de determinacin (r 2 ) es 0.1467 y tambin hay
un ajustado, que se estima del siguiente modo:
r 2 ajustado = 1 ( 1- r 2 ) * [ N-1 / ( N - K) ]
En nuestro ejemplo sera:
r 2 ajustado = 1 ( 1- 0.1467 ) * [11 / 10 ] = 0.0613
r 2 ajustado = 6.13 %
Note que el r2 ajustado para muestras grandes o abundantes en datos, tiende a ser
equivalente al r2 estimado en la regresin, mientras que para muestras pequeas tiende a
castigar el r2 estimado reduciendo su escala de medicin, ello se debe a que la presencia de
pocos datos y muchas variables a involucradas reducen la potencia del modelo.
El resultado del Stata tambin indica la suma de cuadrados explicada (SEC) que aparece
como Model y la suma de residuos al cuadrado (SRC) que aparece como Residual, la suma de
ambas da la suma total de cuadrados, al dividirla entre los grados de libertad se obtiene primero
las desviaciones cuadrticas de la variable dependiente estimada y luego la varianza del modelo.
Ms abajo aparecen el coeficiente de los parmetros, el error estndar (Std err) y la prueba t
de Student, luego viene la probabilidad de que est en la regin de rechazo o aceptacin de la
hiptesis nula (si supera el 0.05 se acepta la hiptesis nula de que el parmetro es cero) y luego
viene el intervalo de confianza del parmetro.
Obviamente para que funcione el comando en Stata debe estar cargada a base de datos
que puede importarse de Excel usando el men siguiente:

118

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

Fig. 3.6 Importar hoja de Excel con datos para Stata

Una vez que se importan los datos, estos deben cargarse del siguiente modo:

119

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

Fig. 3.7 Captura de Datos en Stata

Luego los datos aparecen en la seccin derecha arriba (caja vaca) donde dice: Variables,
Name, Label, una vez all se tiene todo listo para ejecutar los comandos.

120

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

Conclusiones del captulo


En este captulo del libro, hemos analizado la estimacin de los parmetros de un modelo de
regresin de dos variables o modelo bsico. La premisa para estimar los parmetros es que estos
minimicen el error del modelo, el error se entiende como la distancia entre la variable dependiente
observada o datos reales y su respectiva estimacin, una gran distancia supone un elevado nivel de
error, lo inverso indica un buen ajuste del modelo.
La estimacin de los parmetros conducen a tener una medicin del efecto que una variable
independiente genera en la variable dependiente, este efecto es la pendiente del modelo de
regresin (tambin puede ser un indicador del impacto del cambio si se trata de elasticidades o
variables medidas en logaritmos), tambin se tiene una constante del modelo que representa el
efecto que no proviene de la variable independiente.
Con el nivel de error del modelo podemos determinar la varianza del mismo, a partir de los
errores cuadrticos, dicha varianza es clave en la buena estimacin de los parmetros llamados
tambin insesgados, si se tuviera mucha varianza del modelo, entonces esta variabilidad se
incorpora a los parmetros generando que el intervalo de confianza de los mismos se eleve, esto es
que los parmetros dejen de ser correctos al tener mucho cambio posible.
Todo modelo economtrico tiene fuentes de variabilidad, ya hemos mencionado los errores que
podran ser la denominada Suma de residuos al cuadrado, a ello le aadimos la variabilidad de la
estimacin realizada conocida como suma cuadrada explicada, ambos componentes dan la suma
total de cuadrados. La suma cuadrada explicada sobre la suma total de cuadrados, nos indican el
coeficiente de determinacin, el mismo que mide el efecto general de la variable independiente en la
dependiente (indicador conocido como r2 o cuadrado de la correlacin), lo cual indica un buen ajuste
general del modelo, donde un indicador arriba de 50% podra ser muy recomendable.
Con los indicadores mencionados, se hace la denominada prueba de hiptesis, para ello se
tienen dos distribuciones de comparacin, la primera es la t de Student que permite saber si un
parmetro es igual a cero (hiptesis nula) o diferente de cero (hiptesis alternativa), si el valor t del
modelo supera el valor de la distribucin (o valor crtico) entonces se rechaza la hiptesis nula.
Un indicador global de que los parmetros son diferentes de cero, es usando la distribucin F de
Fisher, en ese caso se compara el F obtenido en el modelo, con el valor de la distribucin (valor
crtico) y si es mayor, la conclusin es que los parmetros son significativos, diferentes de cero y
aplicables en el anlisis.
121

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

Preguntas de opinin
1. La varianza de los parmetros puede afectar su significancia?
2. Qu pasa con el coeficiente de determinacin, si el error se relaciona con la
variable independiente?
3. Qu sucede con el modelo en general, si la prueba F indica que se acepta la
hiptesis nula?
4. En un modelo donde el consumo depende del ingreso, cmo explica que el
parmetro constante o intercepto sea muy alto?
5. Si el modelo es la curva de Phillips (relacin entre inflacin y desempleo, ambas
medidas respecto de sus tasas esperadas o potenciales) y el parmetro
estimado sale negativo cmo podra explicarlo?

122

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

Caso de aplicacin
Lectura previa
Foxley (2012, seala textualmente lo siguiente:
La historia contempornea de las economas latinoamericanas se caracteriza por una
discontinuidad en su desarrollo. Aos buenos, seguidos de recesin econmica, alto
desempleo, crisis sociales y debilitamiento de las instituciones. Parafraseando lo que los
brasileos solan decir de su pas y aplicndolo a la regin en su conjunto: Amrica Latina es
el continente del futuro y siempre lo ser.
Ese fantasma ha estado a menudo presente en quienes participan en los asuntos
pblicos, ya sea desde el Ejecutivo o del Parlamento, al procurar contribuir a los aos buenos
y sentirse a veces desbordados por shocks que sufren nuestras economas y que se hacen
extremadamente complejos de controlar o neutralizar.
En mi caso, las preocupaciones por estos temas fueron compartidas desde fines de los
aos 80 ininterrumpidamente. Durante los aos en el Senado Chileno quisimos inyectar de
optimismo la reflexin sobre el futuro, aprendiendo de lo que en ese momento llamamos los
casos de pases afines exitosos. Organizamos, en conjunto con el entonces senador
Fernando Flores, visitas de estudio a Finlandia, Estonia, Irlanda, Australia y Nueva Zelandia.
Gastamos muchos das y horas en terreno, aprendiendo de la experiencia de desarrollo de
esos pases. Visitamos agencias gubernamentales, universidades y centros de investigacin,
parlamentos, a dirigentes sociales y empresarios, y hablamos exhaustivamente con quienes
desde las regiones o empresas impulsaban iniciativas de innovacin. Cuando las
circunstancias nos llevaron a la Cancillera, retomamos el tema empujando iniciativas que
generaban redes de cooperacin con los centros de excelencia de esos pases y convenios
de intercambio masivos de profesionales y egresados de la educacin superior en Chile. Al
mismo tiempo, patrocinamos un proyecto de investigacin en profundidad acerca de los
pases afines exitosos.
Con la coordinacin de Cristbal Aninat, Edgardo Boeninger y Angel Flisflisch, se instal
una red internacional de colaboradores que examinaron las experiencias de desarrollo de
pases como Finlandia, Noruega, Irlanda, Corea, Australia, Nueva Zelandia, Espaa y
Portugal. Los resultados se publicaron en dos volmenes de un libro titulado Caminos al
desarrollo: lecciones de pases afines exitosos.

123

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

Ambos estudios sirvieron de motivacin para continuar la reflexin sobre los pases a
medio camino. Pero ahora el nfasis esta puesto en cmo recorrer la mitad del camino que
falta para alcanzar el pleno desarrollo; lo que hay que evitar desde luego es la trampa de los
pases de ingreso medio.
Las naciones que muestran ms dificultad para pasar el umbral hacia economas
avanzadas son los pases de ingreso medio y, entre ellos, los de Amrica Latina. El
pronstico, considerando la experiencia pasada, es que un buen nmero de estos podra caer
en lo que la literatura econmica ha llamado trampa de ingreso medio, precisamente debido
a la incapacidad de sostener un alto crecimiento por varias dcadas. A menudo se alude a
Argentina como el caso ms ilustrativo de esta trampa: a comienzos del siglo XX este pas
clasificaba entre los ms desarrollados del mundo, pero a la fecha an no logra salir de la
categora de ingreso medio. Dado que la historia econmica de esta regin se ha
caracterizado por permanentes ciclos de aos buenos, seguidos por fases de turbulencias
econmicas que contagian a la sociedad y al sistema poltico, son ms las probabilidades de
quedarse en un punto intermedio que completar la transicin al desarrollo.
La idea de que cada cierto tiempo hay que comenzar de nuevo, ha marcado a la poltica
latinoamericana, incubando puntos de ruptura institucional que abren paso a gobiernos
fundacionales, a menudo de carcter autoritario o seudo-revolucionario, que tampoco logran
dar con la salida de este laberinto. As, una de las fallas histricas de Amrica Latina es la
incapacidad de persistir en una trayectoria de alto crecimiento. Pero esto no ocurre solo por
malas polticas o por excesiva dependencia de fuerzas externas desestabilizadoras. Lo que
empuja a un pas de ingreso medio a caer en una trampa que frena su desarrollo es un
conjunto de factores, identificables a travs de dos tipos de estudio de experiencias
comparadas. El primero consiste en examinar los casos de pases afines, que fueron
exitosos en salir de la trampa de ingreso medio en los ltimos 20 aos. Otro enfoque
complementario es aprender de pases que todava pertenecen a la categora de ingreso
medio en regiones como el Este de Asia y el Este de Europa. Conocer sus aciertos y errores
puede ayudar a los pases latinoamericanos a caminar con pie ms firme hacia el umbral del
desarrollo (Banco Interamericano de Desarrollo [BID] y Ministerio de Relaciones Exteriores de
Chile, 2009; Foxley, 2009, 2010a, 2010b).
Los factores que llevan a la trampa de ingreso medio son clasificables en cuatro
categoras: desaceleracin del crecimiento por incapacidad de lograr mejoras continuas en
competitividad y productividad; baja calidad de la educacin y lenta transferencia de
conocimiento e ideas innovadoras; excesiva desigualdad y desproteccin de los grupos
vulnerables; e incapacidad de las instituciones para proveer estabilidad, buena calidad de
124

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

gestin y transparencia, as como una adecuada calidad en las decisiones del sistema
poltico.
Tomado textualmente de Foxley (2012)

Preguntas de la lectura
1. Qu variable emplearas como dependiente en la idea de analizar la trampa del
ingreso medio?
2. Cules seran tus variables independientes?
3. De dnde sacara algn ndice de institucionalidad?

Aplicacin economtrica
Continuando con el tema del ingreso medio solo desde una visin econmica, a
continuacin se muestra una tabla de variables para pases de Amrica Latina y El Caribe,
selecciona el ao que creas conveniente, realice regresiones individuales para cada
variable que usted considere independiente.
En el caso de la variable dependiente, sera el ingreso per cpita, usted puede establecer
como ingreso medio la media del ingreso per cpita de todos los pases y hallar como
variable dependiente la desviacin de cada pas sobre el ingreso medio.
Estime los indicadores de bondad de ajuste del modelo y de los parmetros en cada una de
las regresiones, compare sus resultados e indique que variable produce el mayor efecto en
el ingreso per cpita respecto del ingreso medio. Se aconseja tener regresiones con
variables en logaritmos.
Puede tambin eliminar los pases que considere cuentan con datos irrelevantes o podran
sesgar su anlisis.

125

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

Tabla 3.7 Datos para analizar el ingreso per cpita


Pas
Antigua y Barbuda
Antigua y Barbuda
Antigua y Barbuda

Variable
PBI per cpita (Medido PPC
US$)
Inflacin (%)
Exportaciones (cambio anual %)

2010

2011

17,429.29

17,398.14

2012

2013

18,196.75 18,558.11

3.37

3.457

3.377

1.056

-3.412

3.535

-0.291

-3.317

15,921.64

17,476.60

Argentina

PBI (Medido PPC)

Argentina

Inflacin (%)

10.461

9.775

10.043

10.619

Argentina

Exportaciones (cambio anual %)

13.932

3.445

-6.246

4.578

Bahamas
Bahamas

PBI (Medido PPC)

29,821.29

30,570.14

Inflacin (%)

1.342

3.204

1.971

0.277

Exportaciones (cambio anual %)

2.86

-0.991

9.414

2.373

Bahamas

17,917.44 18,749.34

31,324.44 32,036.09

Barbados

PBI (Medido PPC)

24,068.44

24,672.53

Barbados

Inflacin (%)

5.761

9.426

4.539

2.305

Barbados

Exportaciones (cambio anual %)

4.513

-0.581

-5.523

-3.184

Belice
Belice

PBI (Medido PPC)

8,066.41

8,258.67

8,598.02

8,715.60

Inflacin (%)

0.918

1.494

1.408

0.509

Exportaciones (cambio anual %)

7.944

5.727

8.281

-1.983

4,563.34

4,800.37

5,041.31

5,363.55

2.502

9.883

4.519

5.735

11.802

3.121

Belice
Bolivia

PBI (Medido PPC)

Bolivia

Inflacin (%)

Bolivia

Exportaciones (cambio anual %)

Brasil
Brasil

PBI (Medido PPC)

Brasil

25,043.44 25,180.87

3.361

3.651

11,215.68

11,646.36

Inflacin (%)

5.039

6.636

5.404

6.204

Exportaciones (cambio anual %)

9.501

2.925

-0.338

3.118

16,002.08

17,097.27

11,875.96 12,220.90

Chile

PBI (Medido PPC)

18,181.56 19,067.25

Chile

Inflacin (%)

1.408

3.34

3.007

1.792

Chile

Exportaciones (cambio anual %)

2.446

5.34

1.075

4.496

Colombia

PBI (Medido PPC)

9,498.86

10,207.90

Colombia

Inflacin (%)

2.272

3.415

3.169

2.017

Colombia

Exportaciones (cambio anual %)

1.192

13.752

4.521

1.783

Costa Rica

PBI (Medido PPC)

11,336.97

11,927.72

10,696.92 11,188.81

12,593.83 12,942.09

126

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

Costa Rica

Inflacin (%)

Costa Rica

Exportaciones (cambio anual %)

Dominica

PBI (Medido PPC)

Dominca

5.663

4.878

4.495

5.232

9.527

3.635

5.541

5.447

13,580.78

13,882.85

Inflacin (%)

2.81

1.262

1.46

-0.434

Dominca

Exportaciones (cambio anual %)

7.537

-0.2

-12.956

5.698

Repblica Dominicana
Repblica Dominicana

PBI (Medido PPC)

8,785.15

9,194.34

9,547.45

9,910.51

Inflacin (%)

6.33

8.459

3.695

4.831

Exportaciones (cambio anual %)

12.16

8.733

6.894

6.222

8,513.92

9,201.83

9,682.07

10,080.21

Repblica Dominicana

13,964.10 14,282.94

Ecuador

PBI (Medido PPC)

Ecuador

Inflacin (%)

3.553

4.476

5.101

2.725

Ecuador

Exportaciones (cambio anual %)

-0.237

4.589

2.666

7.582

El Salvador

PBI (Medido PPC)

6,855.36

7,099.29

7,315.99

7,515.09

El Salvador

Inflacin (%)

1.179

5.129

1.73

0.758

El Salvador

Exportaciones (cambio anual %)

13.942

7.812

5.073

1.526

Granada
Granada

PBI (Medido PPC)

13,107.54

13,416.30

Inflacin (%)

3.437

3.033

2.411

-0.044

Exportaciones (cambio anual %)

-8.705

4.778

-7.374

-4.025

Granada

13,360.92 13,723.95

Guatemala

PBI (Medido PPC)

4,862.51

5,042.16

5,153.48

5,282.37

Guatemala

Inflacin (%)

3.86

6.215

3.783

4.343

Guatemala

Exportaciones (cambio anual %)

3.662

2.123

2.298

2.375

Guyana

PBI (Medido PPC)

6,923.65

7,333.17

7,754.90

8,250.25

Guyana

Inflacin (%)

3.73

4.955

2.417

3.478

Guyana

Exportaciones (cambio anual %)

-4.649

6.126

9.745

2.414

Hait
Hait

PBI (Medido PPC)

1,149.81

1,220.32

1,259.78

1,315.18

4.136

7.385

6.78

6.776

Hait

Inflacin (%)
Exportaciones (cambio anual %)

-4.631

20.756

3.045

14.296

4,414.60

4,580.51

4,743.52

4,839.38

Inflacin (%)

4.699

6.762

5.218

5.186

Honduras

Exportaciones (cambio anual %)

19.005

10.091

10.642

-0.78

Jamaica

PBI (Medido PPC)

8,600.75

8,850.28

8,915.52

9,048.14

Jamaica

Inflacin (%)

12.613

7.525

6.897

9.391

Honduras

PBI (Medido PPC)

Honduras

127

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

Jamaica

Exportaciones (cambio anual %)

Mxico
Mxico

PBI (Medido PPC)

Mxico

-15.876

-9.419

6.513

11.608

14,021.21

14,684.41

Inflacin (%)

4.155

3.405

15,343.58 15,562.60
4.112

3.804

Exportaciones (cambio anual %)

21.642

7.547

3.457

2.016

3,869.49

4,109.47

4,351.67

4,554.03

Nicaragua

PBI (Medido PPC)

Nicaragua

Inflacin (%)

5.455

8.08

7.196

7.399

Nicaragua

Exportaciones (cambio anual %)

18.69

9.155

8.755

11.445

Panama

PBI (Medido PPC)

12,579.02

13,967.62

Panama

Inflacin (%)

3.49

5.876

Panama

Exportaciones (cambio anual %)

Paraguay

PBI (Medido PPC)

Paraguay

15,467.54 16,658.14
5.698

4.027

-8.035

12.092

24.959

5.254

5,860.45

6,129.46

6,052.96

6,823.19

Inflacin (%)

4.651

8.254

3.676

2.684

Paraguay

Exportaciones (cambio anual %)

17.782

2.268

-3.659

22.972

Per
Per

PBI (Medido PPC)

9,273.45

9,950.25

Inflacin (%)

1.53

3.37

3.655

2.806

Exportaciones (cambio anual %)

1.57

8.381

2.709

-1.821

15,895.66

15,590.89

Per
St. Kitts y Nevis
St. Kitts y Nevis
St. Kitts y Nevis
St. Luca
St. Luca
St. Luca
St. Vicente y las Granadinas
St. Vicente y las Granadinas
St. Vicente y las Granadinas
Surinam
Surinam
Surinam
Trinidad y Tobago
Trinidad y Tobago
Trinidad y Tobago

PBI (Medido PPC)

10,595.90 11,123.70

15,418.49 15,605.40

Inflacin (%)

0.603

7.071

1.414

0.666

Exportaciones (cambio anual %)

1.58

-6.456

5.86

16.671

12,493.82

12,840.81

Inflacin (%)

3.25

2.769

4.177

1.467

Exportaciones (cambio anual %)

6.451

-7.508

-5.642

2.768

11,180.51

11,420.46

Inflacin (%)

0.752

3.186

2.598

0.857

Exportaciones (cambio anual %)

1.772

-12.332

3.298

4.832

PBI (Medido PPC)

PBI (Medido PPC)

PBI (Medido PPC)

12,816.09 12,729.73

11,785.30 12,207.20

11,109.36

11,734.37

Inflacin (%)

6.888

17.721

5.007

1.923

Exportaciones (cambio anual %)

29.946

6.436

5.805

-6.269

19,595.21

19,391.53

Inflacin (%)

10.547

5.104

9.264

5.2

Exportaciones (cambio anual %)

5.786

13.35

-10.687

18.69

PBI (Medido PPC)

12,472.01 13,116.11

19,910.94 20,437.69

128

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

Uruguay

PBI (Medido PPC)

13,909.50

15,055.02

Uruguay
Uruguay
Venezuela

PBI (Medido PPC)

Venezuela
Venezuela

15,864.67 16,722.67

Inflacin (%)

6.699

8.093

8.098

8.575

Exportaciones (cambio anual %)

13.88

6.702

-0.222

-1.713

12,173.36

12,734.70

Inflacin (%)

28.187

26.09

21.069

40.71

Exportaciones (cambio anual %)

-12.877

4.665

1.594

-6.528

13,480.03 13,604.75

Fuente: International Monetary Fund, World Economic Outlook Database, April 2014

129

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

Ejercicios
El modelo Harrod-Balassa-Samuelson, sirve para explicar la dinmica del tipo de cambio real
a partir de distintas variables, Primero tenemos que los precios de los bienes transables (Pt) y de
los no transables (Pn) equivalen a:
Pt = W / at
Pn = W / an
Donde (1/an), (1/at), equivalen al uso del factor trabajo (nico) en la produccin de una unidad
de bienes transables y no transables, de modo que el costo esta asociado al salario y ello debe
ser igual al precio de los bienes. Considere que el modelo se expresa en ndices.
Consideremos que el precio relativo nacional entre ambos bienes es: p = Pt / Pn
Adems considerando que el precio transable, equivale al tipo de cambio (e) por el precio
internacional Pt*, es decir:
P t = e P t*
Si pensamos que el precio relativo del otro pas es p* = Pt* / Pn*, y que el ndice de precios
de bienes transables en cada pas representan una proporcin (1-), entonces el tipo de cambio
real entre ambos pases es q = (p / p*)
Adems considerando que por la ley de un solo precio se tiene que: 1 = e . Pt* / Pt
Finalmente este modelo considera que la produccin de transables (Yt) y no transables (Yn)
equivale a:
Yt = at . Lt
Yn = an . Ln
Donde Ln, Lt, es la cantidad de factor de trabajo para cada bien (empleo).
Una vez analizado dicho modelo terico se debe plantear y estimar dos modelos
economtricos para explicar lo siguiente:
130

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

Los efectos en el tipo de cambio real de un cambio en los precios relativos de dos
pases, en este caso Per y EEUU.
Los efectos en el tipo de cambio real del diferencial de productividades transables y no
transables entre dos pases en este caso Per y EEUU.

Datos requeridos:

Mes/Ao

ndice de
tipo de
TC Nominal
cambio
(S x U$) real
Interbancario
bilateral
compra (Per USA)
promedio
Base Dic
mensual
2001

IPC Lima
(2009 =
100)

IPC
transables
Lima (2009
= 100)

IPC no
transables
Lima (2009
= 100)

Manufactura
Produc
(ndice
1994=100)

Otros
servicios
produc
(ndice
1994=100)

nd. empleo
urb. 10 y
ms trab. manufactura

ene-08

89.1269

2.9481

93.8411

96.5427

92.0132

182.6922

171.5286

115.8363

feb-08

87.2366

2.9044

94.6923

96.9553

93.1536

177.7689

176.6965

116.6373

mar-08

84.2510

2.8099

95.6788

97.3308

94.5555

182.2799

177.6170

116.7545

abr-08

82.7329

2.7445

95.8264

97.7113

94.5399

191.8559

188.9940

115.9567

may-08

84.8384

2.8015

96.1804

98.6376

94.5145

195.5508

197.0539

116.6880

jun-08

87.6775

2.8888

96.9207

99.2631

95.3290

195.0641

188.4492

116.5034

jul-08

86.3424

2.8464

97.4590

99.5750

96.0233

188.9931

192.9462

115.5777

ago-08

86.8099

2.8899

98.0345

99.9558

96.7342

188.0309

186.5984

115.7050

sept-08

88.3923

2.9643

98.5906

100.1275

97.5473

192.0167

185.3715

116.2248

oct-08

90.1717

3.0681

99.1950

100.6497

98.2010

194.4709

194.8984

116.7423

nov-08

88.6519

3.0897

99.5016

100.6858

98.6893

192.5355

187.2792

118.2423

dic-08

88.0389

3.1125

99.8600

100.4455

99.4522

189.7516

215.5457

118.9421

ene-09

89.3879

3.1504

99.9656

99.7346

100.1174

181.7210

179.2647

113.0302

feb-09

92.3241

3.2352

99.8909

99.0240

100.4727

165.8639

179.6115

110.6744

mar-09

90.4688

3.1732

100.2507

98.8686

101.1743

172.3439

186.1667

109.5121

abr-09

88.1141

3.0828

100.2698

99.0908

101.0673

165.7936

191.2806

107.8296

may-09

85.7993

2.9923

100.2266

99.2990

100.8376

179.8310

201.1596

107.9942

jun-09

86.7275

2.9888

99.8863

99.3716

100.2196

169.4840

192.0235

108.4013

jul-09

87.0652

3.0111

100.0728

99.4359

100.4888

165.8520

195.4886

108.9750

ago-09

85.6435

2.9495

99.8652

99.4955

100.1018

168.4060

189.5675

107.5763

sept-09

84.5833

2.9083

99.7781

99.7339

99.7953

176.0142

189.8739

108.8001

131

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

oct-09

83.4600

2.8705

99.9005

99.8446

99.9255

182.9944

202.4702

110.5984

nov-09

83.9833

2.8833

99.7885

100.0082

99.6279

187.4796

197.7978

112.2610

dic-09

83.3668

2.8766

100.1050

99.9442

100.2004

192.8221

228.4426

113.6539

ene-10

82.7958

2.8554

100.4012

100.3670

100.4215

183.0111

185.2763

110.1024

feb-10

82.4782

2.8530

100.7250

100.7251

100.7239

177.1124

187.3760

109.0080

mar-10

82.1600

2.8388

101.0079

101.1258

100.9383

198.6272

199.1173

109.3772

abr-10

82.2986

2.8392

101.0335

101.5398

100.7323

191.4762

205.9249

109.6557

may-10

82.3301

2.8448

101.2738

101.9070

100.8973

204.4028

218.0413

111.1501

jun-10

81.8291

2.8375

101.5278

101.9426

101.2800

206.0044

212.2190

112.8811

jul-10

81.1122

2.8223

101.8973

101.8725

101.9105

194.3681

212.5115

113.0586

ago-10

80.4099

2.8014

102.1710

102.0417

102.2472

200.0615

207.7426

113.6319

sept-10

80.1553

2.7902

102.1383

102.0346

102.1993

204.4108

207.9600

115.4887

oct-10

80.3930

2.7910

101.9935

102.2776

101.8238

209.9324

219.1189

118.2121

nov-10

80.8272

2.8050

102.0016

102.5004

101.7044

215.0861

216.4690

118.9053

dic-10

81.1125

2.8145

102.1836

102.7978

101.8188

211.2349

249.0950

121.3183

Fuente: BCRP y US Consumer Survey

Mes/Ao

nd. empleo
urb. 10 y ms
trab. - servicios

US Employment
Cost Index:
Wages and
Salaries: Private
Industry Workers:
Manufacturing

US Employment
Cost Index:
Wages and
Salaries:
Private Industry
Workers:
Service
Occupations

US Consumer
Price Index for
All Urban
Consumers:
Services

US Consumer
Price Index for All
Urban
Consumers:
Manufacturing
Durable goods

US Consumer
Price Index for
All Urban
Consumers: All
Items

Ene08

115.3435672

92.2

93.4

251.283

112.3

212.18

Feb08

113.3478476

93

93.9

251.847

112.094

212.684

Mar08

117.4479909

93.8

94.5

252.784

112.059

213.464

Abr08

125.1530277

94.4

94.8

253.503

111.671

214.118

May08

129.3993583

94.8

95.6

254.661

111.362

215.304

132

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

Jun08

131.197719

95.3

96.1

255.832

111.232

217.235

Jul08

133.0964253

95.7

96.4

257.17

111.275

219.133

Ago08

131.5727943

96.4

96.9

257.585

110.779

218.78

Sep08

132.3120849

97.4

97.4

257.597

110.077

218.852

Oct08

135.8703917

97.6

97.9

257.778

109.677

216.93

Nov08

136.9022412

98.2

98.6

257.846

109.191

213.002

Dic08

137.2413449

98.8

99

258.037

108.811

211.327

Ene09

126.3824038

99.6

99.6

258.398

109.025

211.903

Feb09

122.5237914

100.2

100

258.692

109.221

212.879

Mar09

125.9304049

100.6

100.6

258.621

109.264

212.572

Abr09

134.2466453

101.6

101.3

258.587

109.404

212.799

May09

136.7325998

101.8

102

258.593

109.65

213.078

Jun09

138.5494756

102.5

102.9

258.698

109.983

214.527

Jul09

138.4861647

103.2

104.6

258.815

109.924

214.782

Ago09

136.319616

103.8

105.3

259.31

109.129

215.519

Sep09

136.7859045

104.4

106.5

259.615

109.387

215.956

Oct09

140.3851237

105.1

107.1

260.037

110.684

216.445

Nov09

141.1522719

105.9

107.9

260.198

111.159

216.956

Dic09

142.5492586

106.7

108.8

260.339

111.477

217.158

Ene10

130.6188754

107.3

109.7

259.774

111.731

217.458

Feb10

129.0911534

107.9

110.1

260.046

111.753

217.562

Mar10

132.6304834

108

111

260.396

111.694

217.611

Abr10

140.0607367

108.3

111.2

260.72

111.45

217.625

133

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

May10

142.2033004

108.6

112.1

261.012

111.454

217.32

Jun10

143.8120087

109.1

112.3

261.157

111.443

216.865

Jul10

144.2845301

109.4

112.6

261.498

111.555

217.621

Ago10

141.3287871

109.9

112.7

261.645

111.587

218.068

Sep10

141.8931942

110.5

113.3

261.844

111.174

218.427

Oct10

145.2845775

110.9

113.5

262.06

110.966

218.97

Nov10

146.7789724

111.4

114.2

262.363

110.573

219.24

Dic10

147.3164279

112

114.2

262.782

110.512

220.186

Fuente: BCRP y US Consumer Survey

134

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

Referencias bibliogrficas
Greene, W. (2003) Econometric Analysis. Fifth Edition. Pearson Ed.
Gujarati, D. (2004) Econometra. 4ta Edic. Mc Graw Hill.
Foxley, A. (2009) Recovery: The Global Financial Crisis and Middle-Income Countries. Washington,
D. C. Carnegie Endowment for International Peace.
Foxley, A. (2010a). Sustaining Social Safety Nets, Critical For Economic Recovery. Carnegie
Endowment for International Peace, Washington D. C.
Foxley, A. (2010b). Regional Trade Blocs: The Way To Future? Carnegie Report, September,
Washington D.C, Carnegie Endowment For International Peace.
Foxley, A. (2010c). More Market or More State for Latin America? En Mainwaring, S. y Scully, T.
(eds.), Democratic governance in Latin America. A reflection for the post-crisis. Stanford, California:
Stanford University Press.
Foxley, A. (2012) La trampa del ingreso medio. El desafo de esta dcada para Amrica Latina.
CIEPLAN Chile.
Jimnez, F. (2012) Elementos de teora y poltica macroeconmica para una economa abierta.
Fondo Editorial PUCP.
Johnston, J. and Dinardo, J. (1997) Econometric Methods. Fourth Edition. Mc Graw Hill
Novales, A. (1993) Econometra. Mc Graw Hill.
The Economist (2014) Democracy Index 2012, 2013. Intelligence Unit. UK.
The Heritage Foundation (2014) ndice 2014 de Libertad Econmica. Miller T, Kim, A and Holmes K.
Edit. The Wall Street Journal. EEUU.
Wooldridge, J. (2009) Introductory Econometrics. A modern approach. Third Edition. Cengage
Learning.
135

Modelo de regresin lineal bsico: Estimacin y prueba de hiptesis

CAPTULO IV
Modelo de regresin general
y mtodo de mxima
verosimilitud

136

Modelo de regresin general y mtodo de mxima verosimilitud

IV. MODELO DE REGRESIN GENERAL Y MTODO DE MXIMA VEROSMILITUD


Introduccin al tema
La mayor parte de modelos macroeconmicos incluyen diversas variables, no slo una. Por
ejemplo los modelos de demanda de dinero suponen que esta depende de la tasa de inters
(negativamente) y del ingreso (positivamente), lo cual ya indica que la variable dependiente
claramente se relaciona con ms de una independiente.
En los modelos de tipo microeconmico, por ejemplo el precio de un producto puede
depender de precios del competidor, de la publicidad, de la estrategia de ventas, de la zona, del
ingreso, de la edad o de ms caractersticas del consumidor; entonces bajo esa perspectiva usar
una sola variable como en casos anteriores puede limitar un modelo.
La mayor parte de variables dependientes necesitar explicaciones variadas, lo que no
supone usar un gran nmero de variables, hay que entender que ms variables no quiere decir
que el modelo mejore, hay un nmero ideal de variables, poner pocas es limitar el modelo, poner
muchas es simplemente no aadir ms valor agregado a la estimacin.
Ahora aprenderemos a resolver estos modelos generales y verificar que cumplan los mismos
criterios que hemos aprendido previamente, para ello es importante conocer el lenguaje de
matrices, aunque su uso en esta seccin es bsico y pretende ser una herramienta que ayude a
facilitar la estimacin.
137

Modelo de regresin general y mtodo de mxima verosimilitud

4.1 Planteamiento del modelo general con matrices


Sea que se tiene la siguiente estructura de datos, con las variables aleatorias Y, X, Z, W:
Yi
Y1
Y2
Y3
Y4

Yn

Xi
X1
X2
X3
X4

Xn

Zi
Z1
Z2
Z3
Z4

Zn

Wi
W1
W2
W3
W4

Wn

Considere ahora que Yi es la variable dependiente, adems que Xi, Zi y Wi son las variables
independientes o explicativas, de modo que el modelo puede escribirse del siguiente modo:
Yi = 0 + 1 Xi + 2 Zi + 3 Wi + Ui
Visto en lenguaje de matrices podemos escribirlo del siguiente modo:
Y1
Y2
Y3
Y4

Yn

1
1
1
1

X1
X2
X3
X4

Xn

Z1
Z2
Z3
Z4

Zn

W1
W2
W3
W4

Wn

0
1
2
3

Que puede expresarse as:


Y=A+U
Donde A representa la matriz de variables explicativas, Y es el vector de variable dependiente
y es el vector de parmetros, siguiente con e lenguaje matricial, U vendra a ser el vector de
error, de modo que la varianza del modelo (E
siguiente

= U 2/ N - K) en matrices vendra a ser lo

138

Modelo de regresin general y mtodo de mxima verosimilitud

U1
U2
U3
U4

Un

U1

U2

U3

U4

Un

El resultado anterior se divide sobre (N-K). Lo anterior puede expresarse as en matrices:


U U, donde U se denomina matriz transpuesta de U (invierte el orden de filas por columnas).
U=Y-A
U U = [Y - A ] [Y - A ]
Lo cual en matrices se resuelve del siguiente modo (note que los productos indican que las
variables deben ser expresadas en transpuestas):
U U = Y Y - 2 A Y + A A
Visto en forma algebraica, esto puede escribirse del siguiente modo:
Ui 2 = ( Yi - 0 - 1 Xi - 2 Zi - 3 W i ) 2
Derivando eso con respecto a cada parmetro e igualando a cero resulta:
2 ( Yi - 0 - 1 Xi - 2 Zi - 3 Wi ) (-1) = 0
2 ( Yi - 0 - 1 Xi - 2 Zi - 3 Wi ) (-Xi) = 0
2 ( Yi - 0 - 1 Xi - 2 Zi - 3 Wi ) (-Zi) = 0
2 ( Yi - 0 - 1 Xi - 2 Zi - 3 Wi ) (-Wi) = 0
Resolviendo la sumatoria obtenemos:
- Yi + N 0 + 1 Xi + 2 Zi + 3 Wi = 0
- Yi Xi + 0 Xi + 1 Xi 2 + 2 Zi Xi + 3 Wi Xi = 0
- Yi Zi + 0 Zi + 1 Xi Zi + 2 Zi 2 + 3 Wi Zi = 0
139

Modelo de regresin general y mtodo de mxima verosimilitud

- Yi Wi + 0 Wi + 1 Xi Wi + 2 Zi Wi + 3 Wi 2 = 0
Despejando el cero, queda:
N 0 + 1 Xi + 2 Zi + 3 Wi = Yi
0 Xi + 1 Xi 2 + 2 Zi Xi + 3 Wi Xi = Yi Xi
0 Zi + 1 Xi Zi + 2 Zi 2 + 3 Wi Zi = Yi Zi
0 Wi + 1 Xi Wi + 2 Zi Wi + 3 Wi 2 = Yi Wi
Visto en matrices esto queda:
N
Xi
Zi
Wi

Xi
Xi 2
Xi Zi
Xi W i

Zi
Zi Xi
Zi 2
Zi W i

Wi
W i Xi
Wi Zi
Wi 2

0
1
2
3

1
X1
Z1
W1

1
X2
Z2
W2

1
X3
Z3
W3

1
X4
Z4
W4

Y1
Y2
Y3
Y4

Que puede expresarse del siguiente modo:


(A A) = A Y
De modo que los parmetros pueden hallarse as:
= (A A ) -1 A Y

(1)

Ahora a modo de ejemplo usaremos el modelo siguiente:


Inflacin = 0 + 1 TC + 2 Interbancaria + 3 Multiplicador + Ui
El modelo postula que la tasa de inflacin mensual, es influenciada por el tipo de cambio
venta (soles por dlar), en el sentido que las alzas cambiarias pueden subir los precios por un
efecto transmisin que va desde el mayor costo de los insumos importados, hasta el precio del
combustible importado. Otra variable indicada es la tasa interbancaria de inters que puede
influenciar en la inflacin, esto es por que una menor tasa incentiva el crdito, por lo tanto hay
mayor demanda y mayores precios.
140

Modelo de regresin general y mtodo de mxima verosimilitud

Finalmente el multiplicador bancario indica que a medida que esta variable va subiendo, hay
ms liquidez en la economa lo que supone un mayor uso de dinero para gastar por parte del
pblico y ello eleva los precios por una presin de demanda.
El modelo anterior es ilustrativo, una mejor aproximacin puede ser en logaritmos de las
variables explicativas (modelo semilog) y adems debe tener en cuenta que hay teoras
econmicas que sealan que las tasas de inters y el tipo de cambio pueden ser relacionados,
de modo que el modelo puede tener ciertas restricciones para su uso, por lo cual aqu solo sirve
de ejemplo metodolgico.
Las variables mencionadas han tenido el siguiente comportamiento en el ltimo ao:
Fig. 4.1 Variables monetarias y su relacin con la inflacin Per (mensual)

Fuente: BCRP

Ahora presentaremos los datos en forma de matrices, para lo cual haremos uso del programa
Stata , mostraremos los comandos para crear primero la matriz de variables explicativas,
hemos denominado matriz A:
mkmat Multiplicador Interbancaria TC, matrix (A)
141

Modelo de regresin general y mtodo de mxima verosimilitud

matrix list A
La ventana del programa muestra los resultados, es una matriz de 18 filas por 3 columnas
A[18, 3], del mismo debe procederse con la matriz de la variable independiente Y:
Fig. 4.1 Matriz A de variables independientes

Ahora aplicaremos la ecuacin, hallando primero A, para ello usaremos el comando de Stata
para transpuestas de matrices, donde AT es la transpuesta de A igual a A:
matrix AT = A'
142

Modelo de regresin general y mtodo de mxima verosimilitud

matrix list AT
Ahora hallaremos AA, para lo cual definiremos en Stata una matriz C que es el producto de
A transpuesta por A, para ello escribimos en el Do-editor la sentencia respectiva y nos arroja los
resultados siguientes:
. mat C=AT*A
. matrix list C
symmetric C[4,4]
Id

Multiplic

Interb

Id

18

Multiplic

46.912583

122.60948

Interb

75.2606

195.92196

314.97982

TC

49.241857

128.45778

205.85621

TC

134.85673

Los espacios vacos son equivalentes al otro elemento de la matriz, no olvidemos que es
simtrica, as por ejemplo el elemento128.45778 (cruce entre TC y Multiplicador) se repite en el
espacio en blanco que corresponde a multiplicador con TC (esquina superior derecha de la
matriz).
Una vez que tenemos la matriz C, necesitamos invertirla, para ello aplicamos en Stata lo
siguiente:
. matrix INVC=inv(C)
. matrix list INVC
symmetric INVC[4,4]
Id

Multiplic

Interb

Id

244.10742

Multiplic

-32.846801

Interb

-38.124863

6.1955516

7.5361964

TC

.35122075

-6.2137161

-3.4844434

TC

9.1859449
11.116981

143

Modelo de regresin general y mtodo de mxima verosimilitud

Una vez que tenemos la inversa, ahora estimaremos la matriz AY, para ello usemos el Doeditor de Stata y obtenemos:
. matrix AY=AT*Y
. matrix list AY
AY[4,1]
inflacion
Id

5.0416697

Multiplic

13.235525

Interb

21.186479

TC

13.820259

Ahora ya tenemos todo lo necesario para hallar los parmetros, de modo que apliquemos la
ecuacin:
= (A A ) -1 A Y
Usando Stata tenemos (en todos los casos el comando list muestra los resultados de las
estimaciones o clculos realizados) la matriz de parmetros B:
. matrix B=INVC*AY
. matrix list B
B[4,1]
inflacion
Id

-6.9133294

Multiplic

1.3648439

Interb

1.2979727

TC

-.65458463

De este modo el modelo queda finalmente expresado as:


Inflacin = -6.9133 + -0.65458 TC + 1.29797 Interbancaria + 1.36483 Multiplicador + Ui
144

Modelo de regresin general y mtodo de mxima verosimilitud

Se puede decir que la inflacin mensual sube con la tasa interbancaria (lo cual resulta inverso
a la teora, al menos la mayor tasa de inters reduce la demanda y los precios), la inflacin crece
con el multiplicador bancario lo cual es correcto y la inflacin se reduce con el tipo de cambio,
resultado que esperbamos de comportamiento inverso.
A continuacin mostrados los resultados del modelo empleado la funcin regresin de Stata
, lo cual confirma que la forma de hallar los parmetros ha sido correcta:

Fig. 4.2 Resultados de la regresin de inflacin y variables monetarias


. reg inflacion Multiplic Interb TC
Source

SS

df

MS

Number of obs =
F(

Model

.250511093

.083503698

Residual

.99361033

14

.070972166

Total

1.24412142

inflacion

Coef.

Multiplic
Interb

17

.073183613

3,

18

14) =

1.18

Prob > F

0.3540

R-squared

0.2014

Adj R-squared =

0.0302

Root MSE

.26641

Std. Err.

P>|t|

[95% Conf. Interval]

1.364844

.807432

1.69

0.113

-.3669255

3.096613

1.297973

.7313414

1.77

0.098

-.2705985

2.866544

TC

-.6545846

.8882546

-0.74

0.473

-2.559701

1.250532

_cons

-6.913329

4.162311

-1.66

0.119

-15.8406

2.01394

Puede verse que los parmetros calculados mediante matrices son exactamente los mismos
que calculados mediante el programa estadstico, de modo que los clculos son correctos,
aunque el modelo brinde explicaciones que no se ajustan al anlisis terico.
Algunas ideas pueden sealar que la bajada de tipo de cambio en el ltimo ao, por factores
ajenos a la economa peruana ha terminado de generar esa relacin negativa, as la mayor
145

Modelo de regresin general y mtodo de mxima verosimilitud

inflacin en el pas se ve reducida de algn modo por el alza cambiaria. Un razonamiento puede
ser que a medida que el contexto externo reduce las expansiones monetarias, los flujos de
moneda salen de los pases elevando el cambio. Pero la tasa de inflacin al interno de cada pas
es por el aumento monetario por otras fuentes, ante un escenario internacional adverso.
La explicacin de la tasa interbancaria relacionada positivamente con la inflacin, est mas
compleja, los resultados del modelo indican que menores tasas interbancarias generan menos
inflacin, o al revs alzas interbancarias crean ms inflacin, es totalmente opuesto a lo que
cabra esperar, evidenciando fallas en el diseo del modelo, que se usa slo para fines de aplicar
el mtodo matricial.

4.2 Significancia de parmetros y medidas globales de ajuste


Observando la fig. 4.2 vemos que los resultados del modelo de regresin incorporan diversa
informacin sobre la bondad de ajuste del modelo (R2) y sobre la significancia de los parmetros,
es posible estimar estos indicadores usando matrices, bajo los mismos criterios previos.
Empezaremos estimando la matriz de varianzas y covarianzas de los parmetros, en este
caso al darse ms de una variable explicativa se tendrn parmetros relacionados creando
covarianzas, sin embargo lo importante de la matriz es la diagonal, la cual muestra las varianzas
requeridas:
Sea la matriz de varianza covarianza COV:
COV = E [ `- E B ] [ `- E B ]

(2)

Donde E es el valor esperado y la matriz [ `- E B ] se multiplica por su transpuesta [ `- E B ]


esta matriz puede expresarse del siguiente modo:

COV==

Var B1
Cov B1 B2
Cov B1 B3
Cov B1 B4

Cov B1 Bn

Cov B2 B1
Var B2
Cov B2 B3
Cov B2 B4

Cov B2 Bn

Cov B3 B1
Cov B3 B2
Var B3
Cov B3 B4

Cov B3 Bn

Cov B4 B1
Cov B4 B2
Cov B4 B3
Var B4

Cov B4 Bn

Cov Bn B1
Cov Bn B2
Cov Bn B3
Cov Bn B4

Var Bn

Para estimar la matriz requerimos algunos clculos previos, para ellos tomaremos la ecuacin
(1), considerando ahora que estamos hallando el Beta estimado ():
146

Modelo de regresin general y mtodo de mxima verosimilitud

= ( A A ) -1 A Y
= ( A A ) -1 A [ A + U ]
= ( A A ) -1 A A + ( A A ) -1 A U
Note que el trmino ( A A ) -1 A A , es en realidad el valor del parmetro poblacional (sin
error mostrado en la matriz U ) es decir , dado que el resultado de (A ) es la matriz Y, con lo
cual resulta:
= + ( A A ) -1 A U
- = ( A A ) -1 A U
Ahora aplicando la ecuacin (2) para hallar COV, tenemos:
COV = E [ `- E B ] [ `- E B ]
COV = E [ `- ] [ - ]
COV= E [ ( A A ) -1 A U ] [ ( A A ) -1 A U ]
COV= E [ ( A A ) -1 A ] [ U U ] [ ( A A ) -1 A ]
COV= E [ ( A A ) -1 A ] E [ U U ] [ A ( A A ) -1 ]
Por definicin U U es la matriz de varianzas del modelo o errores cuadrticos
con N-K, adems consideramos que E [ U U] equivale a
COV= [ ( A A ) -1 A ]
COV=

2I

2 ajustndolo

I, donde I es la matriz identidad:

[ A ( A A ) -1 ]

[ (A A ) -1 ]

Ahora aplicaremos estas matrices para hallar las varianzas de los parmetros en el modelo
que usamos de ejemplo, ya sabemos que la matriz: INVC es la inversa de la matriz AT*A (ver la
seccin anterior), nos faltara hallar la matriz de errores cuadrticos
realidad un valor numrico o escalar).

y dividirla sobre N-K (en

Para el clculo del error cuadrtico, primero hallar el error del modo siguiente:
147

Modelo de regresin general y mtodo de mxima verosimilitud

Inflacin estimada = -6.9133 + -0.65458 TC + 1.29797 Interbancaria + 1.36483 Multiplicador


La inflacin estimada puede ser calculada usando el siguiente comando de Stata , donde
inf_est es la variable que necesitamos:
generate inf_est = 1.364844*Multiplic+1.297973*Interb-0.6545846*TC-6.913329
Ahora hallamos el error (y luego lo convertimos en matriz con el comando mkmat):
U = Inflacin Inflacin estimada
Una vez hecho esto, ahora procedemos a hallar el valor de

usando los comandos de

Stata aplicados antes, donde sigma_cuad representa el valor de 2 (antes de dividir sobre
N-K), note que este valor es idntico al mostrado en la fig. 4.2 donde se indica la suma cuadrada
del residuo (SCR y aparece como residual en la columna SS que significa suma cuadrtica):
. mkmat U, matrix(error)
. matrix errorT=error'
. matrix sigma_cuad=errorT*error
. matrix list sigma_cuad
symmetric sigma_cuad[1,1]
U
U

.99361032

El valor obtenido se dividir entre los grados de libertad del modelo, en este caso se tienen 18
datos y 4 variables usadas, con lo cual N - K es igual a 14:
2=

0.99361032 / 14

2=

0.07097217
148

Modelo de regresin general y mtodo de mxima verosimilitud

Una vez obtenido este dato procedemos a hallar la matriz de varianzas y covarianzas COV,
para lo cual multiplicaremos el valor de

2 hallado

previamente por la matriz INVC.

En nuestros clculos sigma_cuad equivale a la suma de errores al cuadrado, por lo que para
estimar 2 usaremos la matriz SER en Stata (el nombre SER servir para relacionarlo con
la suma de errores y no es una matriz sino un valor numrico o escalar, en el lenguaje de Stata
aparece siempre el comando Matrix) que equivale a la suma de errores entre N - K, as la matriz
COV se muestra a continuacin:
. matrix SER=sigma_cuad/14
. matrix list SER
symmetric SER[1,1]
U
U

.07097217

. matrix COV=SER*INVC
. matrix list COV
symmetric COV[4,4]
Id

Multiplic

Interb

Id

17.324832

Multiplic

-2.3312086

.65194641

Interb

-2.7058041

.43971171

.53486018

TC

.0249269

-.44100089

-.2472985

TC

.78899624

La diagonal de esta matriz representa la varianza de cada parmetro, de modo que la


significancia del parmetro puede ser estimada del modo siguiente:

149

Modelo de regresin general y mtodo de mxima verosimilitud

Tabla 4.1 Significancia de los parmetros


Variable
Id (Constante)
Multiplic
Interbancaria
TC

Varianza
17.324832
0.65194641
0.53486018
0.78899624

Desviacin
4.162310897
0.807431985
0.731341357
0.888254603

Parmetro
-6.9133294
1.3648439
1.2979727
-0.65458463

t
-1.66
1.69
1.77
-0.74

Los valores crticos de t de Student coinciden con los mostrados en la fig. 4.2 donde se
indican los resultados de la regresin y en base a ellos, se puede decir que ninguna variable es
significativa, no olvidemos que las variables estadsticamente diferentes de cero, deben tener un
valor mayor a 2, lo que significa que caemos en la zona de rechazo de la hiptesis nula y
aceptacin de la alternativa.
Ahora evaluaremos la bondad de ajuste del modelo, para ello necesitamos conocer el valor
de R2 o de la prueba F de Fisher, lo cual supone los clculos siguientes:
SCT = SCE + SRC
Ya vimos antes que la suma cuadrtica total es SCT, SCE es la suma de cuadrados
explicada y SRC es la suma de residuos al cuadrado, ahora esto queda:
SRC = SCT SCE
Donde SCT se expresa en desviaciones de Y, mientras que Ym es la media de Y:
SCT = yi 2
SCT = ( Yi Ym ) 2
SCT = ( Yi 2 - 2 Yi Ym + Ym 2 )
SCT = Yi 2 - 2 Yi Ym + N Ym 2
SCT = Yi 2 - 2 Yi Ym + Yi Ym
SCT = Yi 2 - Yi Ym
SCT = Yi 2 - N Ym 2
150

Modelo de regresin general y mtodo de mxima verosimilitud

En matrices queda:
SCT = Y Y N Ym 2
SCE, se expresa del modo siguiente:
SCE = 1 2 xi 2
SCE = 1 xi yi xi 2 / xi 2
SCE = 1 xi yi
Desarrollando las desviaciones:
SCE = 1 [ xi yi - xi Ym ]
SCE = 1 Xi Yi - 1 Xi Ym
No olvidemos que en matrices:
Y = X
Ym = Xm
N Ym = Xi
N Ym / Xi =
Reemplazando en SCE:
SCE = 1 Xi Yi - [ N Ym / Xi ] Xi Ym
SCE = 1 Xi Yi - N Ym 2
En matrices se expresa generalmente como sigue, donde A es la matriz de las variables
independientes (X y otras):
SCE = A Y N Ym 2
Donde Ym es un valor numrico y N es el total de datos, con eso ya podemos estimar la suma
de cuadrados totales:
SCT = Y Y N Ym 2
151

Modelo de regresin general y mtodo de mxima verosimilitud

Primero obtendremos el componente YY (Y es la transpuesta de Y), usando los comandos


de Stata , Yp es el valor del producto de Y o tambin Y Y:

. matrix YT=Y'
. matrix Yp=YT*Y
. matrix list Yp
symmetric Yp[1,1]
inflacin
inflacin 2.6562566

Entonces Y Y = 2.6562566
La media de Y o Ym es 0.2800928, con lo cual tenemos:
SCT = 2.6562566 - 18 (0.2800928) 2
SCT = 1.2441
Ahora estimaremos la suma explicada cuadrtica, con los comandos de Stata respectivos
(note que A es la matriz de variables independientes):
SCE = X Y N Ym 2
SCE = A Y N Ym 2

152

Modelo de regresin general y mtodo de mxima verosimilitud

. matrix BT=B'
. matrix BXY=BT*AT*Y
. matrix list BXY
symmetric BXY[1,1]
inflacin
inflacin 1.6626463

Entonces A Y = 1.6626463
SCE = 1.66266463 18 (0.2800928) 2
SCE = 0.250511
Finalmente hallamos:
SCT = SCE + SCR
SCT = 0.250511 + 0.99361032
SCT = 1.2441
Lo cual coincide con nuestro clculo previo, esta informacin ser relevante para hallar el R2
del modelo, que resulta:
R2 = SCE / SCT
R2 = 0.250511 / 1.2441 = 0.2014
R2 = 20.14%
La bondad de ajuste del modelo es de 20%, esto indica que las variables: multiplicador
bancario, tasa interbancaria y tipo de cambio, slo explican el 20% de la tasa de inflacin
153

Modelo de regresin general y mtodo de mxima verosimilitud

mensual, el ajuste es bajo e indica que el modelo tiene poca fuerza explicativa. El coeficiente de
correlacin llega a 45% de asociacin global.
Finalmente la prueba F de Fisher se calcula de este modo:
F = [SCE / (K - 1)] / [SCR / (N K)]
Donde la SCR puede hallarse tambin del siguiente modo, en matrices:
Y=X+U
U=(Y-X)
U U = ( Y - X ) ( Y - X )
U U = Y Y - 2 X Y + X X
Considere que si la estimacin es correcta, entonces Y = X , la ecuacin previa resulta:
U U = Y Y - 2 X Y + X Y
U U = Y Y - X Y
U U = 2.6562566 - 1.6626463
U U = 0.9936103 = SCR
Entonces la prueba F resulta:
F = [ 0.250511 / (4 - 1) ] / [ 0.9936103 / (18 - 4) ]
F = 1.18
El valor de la prueba F es bastante bajo, lo que supone que el modelo en realidad tiene un
bajo ajuste y no sera explicativo para la tasa de inflacin.

4.3 Estimacin de parmetros con Mxima verosimilitud


Consideremos que existe una funcin de distribucin de probabilidades condicionales de Y/X,
que a su vez depende tambin de la distribucin de

2:

154

Modelo de regresin general y mtodo de mxima verosimilitud

F ( Y i / 0 + 1 X i,

2)

Debido a que la variable Y es aleatoria e independiente, es posible sealar que la funcin de


probabilidades condicionales, puede ser expresada como funcin conjunta para todos los valores
de Yi:
F ( Y i / 0 + 1 X i,

2)

= F ( Y 1 / 0 + 1 X i,

2)

* F ( Y 2 / 0 + 1 X i,

2)

* * F ( Yn / 0 + 1 Xi,

2)

Yi es adems una variable cuya distribucin es simtrica y distribuida normalmente, que se


expresa del modo siguiente (el smbolo ^ significa elevado a, o potencia):
F ( Yi ) = [ 1 /

2 ) 0.5 ] e [ -1 / 2

2 ] (Yi - 0 - 1 Xi ) ^ 2

Reemplazado en la distribucin conjunta tenemos:


F ( Y i / 0 + 1 X i,
e [ -1 / 2

2)

= [1/

2 ) 0.5 ] e [ -1 / 2

2 ] (Y2 - 0 - 1 Xi ) ^ 2

FV = F (Yi / 0 + 1 Xi,

**[1/
2)

= [1 /

2 ] (Y1 - 0 - 1 Xi ) ^ 2

2 ) 0.5 ] e [ -1 / 2
N

2 ) 0.5 N ] e [ -1 / 2

*[1/

2 ) 0.5 ]

2 ] (Yn - 0 - 1 Xi ) ^ 2

2 ] (Yi - 0 - 1 Xi ) ^ 2

Esto ltimo se conoce como funcin de verosimilitud, en buena cuenta es la expresin que
refleja a la distribucin de probabilidades condicionales de Yi, la funcin de verosimilitud puede
ser expresada en logaritmos del siguiente modo:
Ln FV = -1 ( N ln
Ln FV = - N ln
Ln FV = - 0.5 N ln

+ 0.5 N ln (2 ) 1 / 2 (Yi - 0 - 1 Xi ) 2 /
- 0.5 N ln (2 ) 1 / 2 (Yi - 0 - 1 Xi ) 2 /
2

- 0.5 N ln (2 ) 0.5 (Yi - 0 - 1 Xi ) 2 /

Para hallar los parmetros del modelo y adems la varianza del mismo, derivamos todo e
igualamos a cero:
155

Modelo de regresin general y mtodo de mxima verosimilitud

Considere que

Ln FV / 0 = -1 * (Yi - 0 - 1 Xi ) /

2=

Ln FV / 1 = - Xi * (Yi - 0 - 1 Xi ) /

2=

equivale a la expresin Var, entonces:

Ln FV = - 0.5 N ln Var - 0.5 N ln (2 ) 0.5 (Yi - 0 - 1 Xi ) 2 / Var


Ln FV / Var = (- 0.5 N / Var ) + 0.5 (Yi - 0 - 1 Xi ) 2 / Var 2 = 0
Ln FV / Var = (- 0.5 N /

2)

+ 0.5 (Yi - 0 - 1 Xi) 2 /

2* 2=

Con ello se puede demostrar que:


(Yi - 0 - 1 Xi ) = 0
Yi - N 0 - 1 Xi = 0
Yi - 1 Xi = N 0
Ym - 1 Xm = 0
El estimador de 0 es idntico al hallado por mnimos cuadrados, de modo que la funcin de
verosimilitud conduce al mismo resultado, veamos en el caso de 1:
- Xi * (Yi - 0 - 1 Xi ) /

2=

- (Xi Yi + 0 Xi + 1 Xi Xi ) = 0
- Xi Yi + 0 Xi + 1 Xi 2 = 0
0 Xi + 1 Xi 2 = Xi Yi
( Ym - 1 Xm ) Xi + 1 Xi 2 = Xi Yi
Ym Xi - 1 Xm Xi + 1 Xi 2 = Xi Yi
1 ( - Xm Xi + Xi 2 ) = Xi Yi - Ym Xi
1 = Xi Yi - Ym Xi / Xi 2 - Xm Xi
1 = [ N Yi Xi - Yi Xi ] / [N Xi 2 - Xi Xi ]
156

Modelo de regresin general y mtodo de mxima verosimilitud

Como fue demostrado en el tema anterior, la expresin previa equivale a hallar 1 por
mnimos cuadrados ordinarios:
1 = (X Xm) ( Y Ym) / (X Xm)2
1 = yi xi / xi2
En el caso de la varianza del modelo, los ajustes a la ecuacin que deriva la funcin FV
respecto a

2,

resulta:
( 0.5 N ) = 0.5 (Yi - 0 - 1 Xi ) 2 /
2=
2=

Si analizamos el estimador de
obtenemos:

(Yi - 0 - 1 Xi ) 2 / N

(Ui ) 2 / N
2

(i)

desde la estimacin de la variable dependiente,

Yi = 0 + 1 Xi + Ui
Ym = 0 + 1 Xm + Um
Donde m, significa la media de la variable, adems yi, xi son las variables en desviaciones
respecto de la media:
Yi Ym = 1 xi + ( Ui Um )

(ii)

Considere que la estimacin correcta del parmetro 0 nos lleva al valor de Ym poblacional,
entonces:
Y m - 1 X m = 0
Y m = 0 + 1 X m
Y i Y m = ( 0 + 1 X i + U i ) - ( 0 + 1 X m )
Yi Ym = 1 xi + Ui
yi - 1 xi = Ui (iii)
157

Modelo de regresin general y mtodo de mxima verosimilitud

La ecuacin (ii) puede ser llevada a la ecuacin (iii) y tenemos:


1 xi + ( Ui Um ) - 1 xi = Ui
- ( 1 - 1 ) xi + ( Ui Um ) = Ui
( 1 - 1 ) 2 xi 2 + ( Ui Um ) 2 2 ( 1 - 1 ) xi ( Ui Um ) = Ui 2
Aplicando sumatorias:
( 1 - 1 ) 2 xi 2 + ( Ui Um ) 2 2 ( 1 - 1 ) xi ( Ui Um ) = Ui 2
En el tema anterior, se haba demostrado que:
1 - 1 = Zi ui
Con lo cual tenemos:
E ( Zi ui ) 2 xi 2 + E ( Ui Um ) 2 2 ( Zi ui ) xi ( Ui Um ) = E Ui 2
(

/ xi ) 2 xi 2 + ( N - 1)

2 E ( Zi ui ) xi ( Ui Um ) = E Ui 2

(iv)

Donde:
E ( Ui Um ) 2 = E (Ui 2 2Ui Um + Um 2)
E ( U i U m ) 2 = E ( U i 2 2 U i U m + N U m 2)
E ( Ui Um ) 2 = E ( Ui 2 2 Ui Um + Ui Um )
E ( Ui Um ) 2 = E ( Ui 2 Ui Um )
E ( Ui Um ) 2 = E ( Ui2 Ui 2 / N )
E ( Ui Um ) 2 = N

E ( Ui Um ) 2 = ( N - 1 )

Con lo cual la ecuacin (iv) puede estimarse as:


2

+ ( N - 1)

2 E ( Zi ui ) xi ( Ui Um ) = E Ui 2
158

Modelo de regresin general y mtodo de mxima verosimilitud

Donde Um = 0, entonces (Recuerde que ui = Ui, dado que son variables sin desviaciones ya
que el valor esperado de Ui o su media es cero), adems Zi xi es igual a 1:
2

+ ( N - 1)
2

2 E ( Zi ui ) xi ( ui ) = E Ui 2

+ ( N - 1)
2

2 E Zi xi ui 2 = E Ui 2

+(N1)
2

+(N1)
(N2)

2 E ui 2 = E Ui 2
2

2
2

= E Ui 2

= E Ui 2

Con lo cual, obtenemos para dos variables:


2

= Ui 2 / ( N 2 )

(v)

Hay que notar que la ecuacin (v) de la varianza del modelo a partir de los mnimos
cuadrados ordinarios, difiere de la ecuacin (i) que es la varianza estimada con verosimilitud, lo
que indica que el mejor estimador de la varianza del modelo de regresin no es el de
verosimilitud (que normalmente tiende a ser poblacional), sino es el estimador de mnimos
cuadrados mostrados en la ecuacin (v) y que para fines de generalizar equivale a:
2

= Ui 2 / ( N K )

Donde K es el nmero de variables del modelo.


En resumen se puede sealar que el estimador de parmetros con mxima verosimilitud es
igual de insesgado que en mnimos cuadrados, sin embargo el estimador de la varianza por
mnimos cuadrados es insesgado y el de mximo verosimilitud es sesgado.

159

Modelo de regresin general y mtodo de mxima verosimilitud

Conclusiones del captulo


En este captulo, se ha aplicado el lenguaje matricial para resolver modelos economtricos con
ms de una variable dependiente, se ha demostrado adems que los estimadores de parmetros por
mnimos cuadrados (usando el trmino de minimizar el error al cuadrado) son insesgados y
equivalen a los parmetros obtenidos por una funcin de mxima verosimilitud, donde maximizamos
el valor de la distribucin normal conjunta o distribucin normal de probabilidades de la variable
aleatoria.
Sin embargo tambin se ha notado que la varianza del modelo por el mtodo de mnimos
cuadrados (MCO) es menor que la varianza obtenida en el mtodo de mxima verosimilitud (MV), lo
que hace pensar que por MCO se obtiene una varianza insesgada y por MV se obtiene un
estimador sesgado, en buena cuenta hay que seguir el criterio de MCO en caso la distribucin de
variables sea normal.
Los criterios de estimacin mediante matrices, permiten abordar modelos economtricos donde
las variables explicativas son dos o ms, esto se hace por que no se puede emplear el algebra
simple y para facilitar el clculo recurrimos a las matrices o algebra matricial.
En este captulo, hemos diseado una matriz de variables explicativas, un vector de variable
dependiente (al ser una sola columna) y la respuesta es un vector de parmetros.
En todos estos casos requiere aplicar algebra de matrices para hallar los parmetros, sin
embargo diversos programas informticos como Stata y otros, contienen este tratamiento de modo
simple.
Hay que notar que en modelos con muchas variables explicativas, el concepto de bondad de
ajuste se hace importante, puesto que se trata de explicar a modo global la variable dependiente. En
este caso mediante las matrices tambin llegamos a los coeficientes de determinacin (R2) y a la
prueba F de Fisher, ambos indicadores nos dirn si el modelo es de buen ajuste (por ejemplo un R2
de ms de 50%) o de buena explicacin global considerando el mayor valor posible de F sobre su
valor crtico.
Este tema es una extensin de lo explicado hasta el momento en el diseo y estimacin de
modelos economtricos, de modo que completa el conjunto de instrumentos necesarios para estimar
modelos diversos y hacer el anlisis de polticas respectivo.

160

Modelo de regresin general y mtodo de mxima verosimilitud

Preguntas de opinin
1. Puede un modelo con muchas variables explicativas no ser relevante?
2. Si al insertar ms variables explicativas el R2 no aumenta, entonces eso qu
significa?
3. Por qu se aade un vector de 1 (unos) en la matriz de variables explicativas?
4. Por qu las varianzas de los parmetros son solo la diagonal de la matriz de
varianza covarianza de Betas?
5. Si uso el valor de la varianza del modelo desde la funcin MV, Qu pasa con
los estimadores de Betas?

161

Modelo de regresin general y mtodo de mxima verosimilitud

Caso de aplicacin
Lectura previa
De acuerdo con Romer (2002), la curva LM debe ser ajustada a una curva conocida como MP
(Monetary Policy Curve) que esta basada en las variables tasas de inters real (r) y producto (y)
similar a la LM, sin embargo la diferencia estriba en que la MP es horizontal.
La tasa de inters real es estable a todo nivel de oferta monetaria y se ajusta ms bien con
los cambios en la brecha del producto, de este modo cuando el producto es alto respecto del
potencial (brecha creciente) la tasa de inflacin tiende a subir, en ese caso el banco central
ajusta la tasa de inters anunciando elevaciones de las tasas de referencia, con lo cual mantiene
la tasa real, pero eleva la tasa nominal y los agentes ajustan sus expectativas y por ende tienden
a consumir o prestar menos, lo que algunos economistas conocen como enfriar la economa,
pero en la prctica es ajustar la inflacin esperada. Siguiendo a Romer la tasa real de inters,
debe seguir la siguiente funcin:
r = r ( )

(1)

El modelo MP es adems de mejor performance que el tradicional IS-LM, en este caso un


crecimiento monetario, desplaza la LM, eleva el gasto de los agentes y reduce la tasa de inters;
si la economa es abierta y pequea, esta reduccin de tasas puede incentivar el alza cambiaria y
la ventas de reservas por parte del banco central, dichas ventas tienden a reducir la oferta
monetaria y llevarnos al equilibrio, si el banco central no interviene, entonces el impulso
cambiario genera incentivos en el producto exportado y la curva IS se desplaza hacia un nuevo
equilibrio con mayor producto, a una mayor tasa de inflacin y similar tasa de inters nominal (es
decir menor tasa real de inters). La demanda agregada en este caso se eleva e impulsa el
producto, efecto que se visualiza de modo separado, siendo una desventaja del modelo IS-LM.
En el modelo MP, un shock que eleve los precios y genere cadas a corto plazo de la tasa
real de inters (por mayor nivel de inflacin), obliga a que los agentes financieros ajusten sus
expectativas de ganancias elevando las tasas nominales (impulso que parte del banco central en
muchos casos) y a corto plazo el efecto se traslada a las tasas reales de inters (r), esto produce
que la demanda originalmente creciente, se reduzca y se vuelva al nivel original de precios,
siendo la prctica usual de bancos centrales en el mundo (Romer, 2002)
Los shocks nominales o reales pueden impulsar un crecimiento de precios, la respuesta del
banco central es elevar o sostener la tasa real de inters (va expansiones de la tasa nominal de
referencia), entonces cualquier efecto de crecimiento a corto plazo se diluye, los precios se
ajustan porque la mayor tasa de inters reduce el consumo y la inversin.
162

Modelo de regresin general y mtodo de mxima verosimilitud

Es previsible entonces, que el crecimiento productivo sea constante a todo nivel de precios,
esto se produce porque si el incentivo de mayor inflacin se da a corto plazo, entonces la oferta
puede incrementarse de modo inmediato, esa expansin de la brecha del producto se convierte
en el objetivo a reducir por la poltica monetaria, la elevacin del inters real reduce la brecha, el
producto vuelve a su nivel potencial y los precios siguen estables, siempre se producir a un
mismo nivel de precios, dicho nivel se conoce como inflacin ajustada.
Hay que sealar que a diferencia de Lucas (1973), que seala que los shocks nominales
pueden tener efectos de corto plazo, pero a largo plazo slo son inflacionarios, evidenciando una
oferta vertical (producto potencial a largo plazo), el movimiento de la inflacin ajustada se da en
torno a los precios estables de corto plazo y son base de estabilidad a largo plazo, Lucas se
sustenta en las expectativas, si estas se ajustan a la inflacin esperada, entonces la oferta no
vara a mayor nivel de precios, pero si hay ajuste lento, entonces a corto plazo hay efecto real
con mayor inflacin, un resultado nada deseable para el banco central.
En el caso de la inflacin ajustada, los shocks nominales, producen un efecto de corto plazo
inmediato con mayor inflacin, pero a corto plazo el banco central ajusta las tasas de inters y
mantiene estables el producto y la inflacin, con las evidentes ganancias de una mayor demanda
en el corto plazo.
Cuando la Oferta Agregada (OA) es menor al producto potencial, entonces la oferta se mueve
hacia ese nivel a tasas de inflacin decreciente (siguiendo a Lucas, un producto menor al
potencial implica una inflacin decreciente), que es lo mismo decir que el banco central reduce
las tasas nominales para incentivar el consumo.
A la inversa, si la OA se mueve por encima del producto potencial (Yp), esto se produce a
mayores tasas de inflacin, de modo que el Banco Central ajusta las tasas nominales a un mayor
nivel, para reducir el consumo y por ende llevar al producto a su nivel potencial.
Podemos decir entonces, que los movimientos en la inflacin estn alineados con la
estabilidad de la tasa de inters real, lo cual es un resultado del alza de tasas nominales, la que
se da cuando el producto efectivo supera al potencial, planteando un modelo como el siguiente:
P t = P e + (Y t - Yp)

(2)

Siguiendo la propuesta de Romer:


rt = Pt

(3)

Reemplazando en (2), obtenemos:


163

Modelo de regresin general y mtodo de mxima verosimilitud

r t = P e + (Y t - Yp)

(4)

Donde:
Pe: Tasa de inflacin esperada
Pt: Tasa de inflacin del perodo
: Indicador de ajuste, va de 0 (en este caso la inflacin es igual a la esperada) a < 1, en
donde la inflacin es mayor a la esperada si la brecha es positiva y menor a la esperada si la
brecha es negativa.
rt:

Tasa de inters real del perodo

: Factor de ajuste, si es cero, entonces no existe relacin entre inflacin del perodo y tasa
real de inters, si es 1 la relacin es perfecta y la tasa real pasa a depender de la inflacin
esperada y la brecha de producto.
Dado que la poltica monetaria se hace con la tasa nominal de referencia, entonces la
ecuacin 4 puede ser analizada, partiendo de la nocin de inters real:
rt = it-Pt

(5)

Reemplazando en 4:
i t = P t + P e + (Y t - Yp) (6)
Donde:
it :

Tasa nominal de inters del perodo

: Producto de
La tasa de referencia se ajusta en funcin a la inflacin del perodo, el nivel de ajuste de la
inflacin esperada y la brecha de producto, un crecimiento de la inflacin del perodo, el ajuste
del nivel esperado de inflacin y un crecimiento de la brecha, determinan un alza en la tasa de
inters nominal de referencia.
El uso de la tasa de inters focalizada en la tasa interbancaria, como elemento de poltica
monetaria de corto plazo (Hsing, 2005), se basa en la denominada regla de Taylor (1993), cuya
propuesta indica que la tasa de inters de mercado responde bsicamente a cuatro agregados, a
164

Modelo de regresin general y mtodo de mxima verosimilitud

saber la brecha de producto, la brecha de precios (la desviacin en torno a la meta de inflacin),
la meta de inters real y la tasa de inflacin, dicha tasa adems esta en relacin con la inflacin
rezagada, la inflacin esperada (asumiendo la inflacin de largo plazo) y la brecha de producto,
con esta informacin ajustaremos la ecuacin (2) y (6) a las propuestas de Taylor, primero en el
caso de la inflacin:
P t = b P t - 1 + (1 - b) P e + (Y t - Yp)

(7)

Donde:
b: Regla de poltica, si es igual a 0, entonces la inflacin depende del nivel esperado y la
brecha de producto, si es igual a 1, la inflacin se forma con expectativas pasadas y la brecha de
producto.
Ahora analicemos el caso de la tasa de inters:
i t = r e + P t + c1 ( P t - P e ) + c2 (Y t - Yp)

(8)

Donde:
re: Tasa de inters real tomada como meta
c1: Indicador de poltica, si es 1, entonces la tasa de inters crece a mayor impulso que la
brecha de precios, si es cero, la tasa de inters crece en funcin a las desviaciones en torno a la
tasa nominal de largo plazo.
No obstante la propuesta de Taylor, tiene a su vez sus opiniones divergentes, los bancos
centrales si bien han dejado de usar la oferta monetaria como nica o principal variable de ajuste
de precios, consideran que es necesario evaluar otros indicadores del manejo de precios, por
ejemplo el ajuste de los salarios reales, la expectativa de los agentes a travs de encuestas de
confianza, el manejo fiscal, el nivel cambiario y la dinmica de los activos financieros burstiles
(La Caixa, 2005).
Siguiendo a Herrau-Aragn (2003), la regla de Taylor tiene que ser considerada con cuidado
ante shock reales, es decir el uso de la tasa de inters como mecanismo de ajuste no debera
darse en contextos de shock temporal, sin embargo si la desviacin empieza a debilitar la meta
de inters y de precios, es importante hacer uso de la regla, es decir preservar la credibilidad del
instrumento y ajustar la oferta.
Siguiendo a Montoro (2007), se analiza la evidencia emprica de los recientes modelos de
poltica monetaria basadas en la regla de Taylor, el autor revisa resultados para la economa
165

Modelo de regresin general y mtodo de mxima verosimilitud

norteamericana, concluyendo en un bajo ajuste entre la tasa de inters de referencia, que a decir
de diversos exponentes se debe, entre otros aspectos: a la incertidumbre de los agentes
respecto a la marcha econmica, la cual genera poca sensibilidad a cambios econmicos en los
agentes cuando se mueve la tasa de inters, es decir los niveles de apuesta por inversin o
consumo se hacen lentos. Otra consideracin es sostener la estabilidad de los mercados
financieros, de modo que el uso de la tasa de inters es cuidadoso y de pequeos cambios,
tambin se hace mencin al uso gradual de las tasas a corto plazo, pensando en la estabilidad
de la tasa de inters a largo plazo y finalmente, el uso de las tasas de inters esta sujeto a las
decisiones de los gestores de poltica (o un monopolio de la decisin), de modo que el ajuste
lento de las tasas es para evitar impactos o shocks en el bienestar social, a partir de cambios
fuertes en la brecha de producto.
Castillo, Montoro y Tuesta (2006) analizan los hechos estilizados de la economa peruana y
encuentran evidencia que sustenta el uso de la tasa de inters en un contexto de metas de
inflacin, por un lado la correlacin producto inflacin ha ido creciendo; esto supone un
incremento del rol de la demanda en la formacin de la brecha del producto, rol que se ve
influenciado principalmente por la tasa de inters de referencia, otro hallazgo es la correlacin
positiva entre inters y producto, de modo que las reglas de inters estn teniendo un efecto
positivo en la brecha de producto.
En contrapartida, el estudio indica que en el caso peruano, se est reduciendo el nivel de
impacto de los agregados monetarios en la inflacin, asimismo la menor volatilidad de las tasas
inflacionarias y de inters se ven reflejadas en un ciclo econmico con un producto menos voltil,
ciclo estimado desde 1994 al 2003.
Otro trabajo de los mismos autores (Castillo, Montoro y Tuesta, 2006-1), indican que seguir el
esquema de metas de inflacin y por ende la regla de tasas de inters, requiere la estimacin de
una tasa natural de inters, la cual gua las acciones en torno al producto y precios, si la brecha
de inters es positiva (una tasa mayor a la natural) entonces se contrae el producto y los precios,
a la inversa una brecha negativa implica elevar el producto y los precios, esta tasa natural se
estima siguiendo la propuesta de Greenspan (1993) en torno a una tasa real de inters de largo
plazo alineada con el producto potencial.
Tomado textualmente de Len (2007)

166

Modelo de regresin general y mtodo de mxima verosimilitud

Preguntas
1. Cmo sera el modelo economtrico a plantear para analizar la regla de Taylor?
2. Cules seran las variables observadas a emplear?
3. Cmo hara para obtener informacin acerca de las variables medidas en valor
esperado o potencial?

167

Modelo de regresin general y mtodo de mxima verosimilitud

Ejercicios
Se tiene un modelo de demanda (Xd: Cantidad demandada) y oferta (Xo: Cantidad ofertada),
para los precios del bien P1 y de un bien relacionado P2, donde e son los errores respectivos.
Xd=0+1P1+2P2+ed
X o = 0 + 1 P 1 + 2 P 2 + eo
Se recopilaron adems diversos datos de precios y cantidades demandadas y ofertadas, los
cuales se muestran en la tabla siguiente, para cada perodo T1 a T10.
Tabla 4.2 Datos de precios, cantidad demandada y cantidad ofertada
T1

T2

T3

T4

T5

T6

T7

T8

T9

T10

P1

1.5

1.7

1.6

2.1

1.8

1.9

2.2

P2

0.5

0.4

0.3

0.3

0.2

0.25

0.28

0.3

0.27

0.24

Xd

20

18

17

18

15

14

15

15

13

10

Xo

10

12

13

13

14

15

15

13

16

18

Mediante modelos economtricos, estime (realice ambos modelos individualmente):

Los parmetros del modelo de demanda


Los parmetros del modelo de oferta
El precio de equilibrio para cada perodo T, en este caso use los precios de la tabla para
hallar el nivel de equilibrio de cada uno.
La cantidad de equilibrio para cada perodo T, use los precios de equilibrio de la
respuesta anterior.

(Basado en Greene, 2004. Anlisis Economtrico)

168

Modelo de regresin general y mtodo de mxima verosimilitud

Referencias bibliogrficas
Castillo, P. Montoro, C. Tuesta. V. (2006) Estimacin de la Tasa Natural de Inters para la
Economa Peruana. Documentos de Trabajo. Banco Central de Reserva del Per.
Castillo, P. Montoro, C. Tuesta. V. (2006-I). Hechos Estilizados de la Economa Peruana.
Documentos de Trabajo. Banco Central de Reserva del Per.
Clarida, R., J. Gal and M. Gertler (1998), Monetary policy rules in practice. Some international
evidence, European Economic Review, 42:1033-1067.
Clarida, R., J. Gal y M. Gertler (1999), The science of monetary policy: a new keynesian
perspective, Journal of Economic Literature, XXXVII, December: 1661-1707.
Clarida, R., J. Gal y M. Gertler (2001), Optimal monetary policy in open versus closed
economies: an integrated approach, American Economic Review, 91, No.2: 248-252
Corbo, V. Tesada, J. (2003) Modeling a small open economy: the case of Chile. Documentos de
Trabajo. Banco Central de Chile.
DeLong B. J. (2000) How to Teach Monetary Policy: Do Central Banks Set the Interest rate or Do
They Target the Money Stock? University of California. Berkeley.
Galindo, L. (2007) El rgimen de metas de inflacin y la estructura de tasas de inters: Evidencia
emprica para un debate. CEPAL. Chile.
Greene, W. (2003) Econometric Analysis. Fifth Edition. Pearson Ed.
Gujarati, D. (2004) Econometra. 4ta Edic. Mc Graw Hill.
Herrou-Aragn, Alberto. (2003) La regla de Taylor para la tasa de inters. Cuadernos de
Economa. N 121. Pontificia Universidad Catlica de Chile. Chile.
Hsing, Yu. (2005) Application of the ISMPIA model to the German economy and policy
implications. Economics Bulletin. Vol. 15. No. 5.
Hsing, Yu. (2005) Application of the ISMPIA model to the Singapore economy and policy
implications. Economics Bulletin. Vol. 15. No. 6
169

Modelo de regresin general y mtodo de mxima verosimilitud

Hsing, Yu. Clark, Don. (2005) Application of the IS-MP-IA Model and the Taylor Rule to Korea and
Policy Implications. The Journal of the Korean Economy. Vol. 6. N 2. Korea.
Jimnez, F. (2012) Elementos de teora y poltica macroeconmica para una economa abierta.
Fondo Editorial PUCP.
Johnston, J. and Dinardo, J. (1997) Econometric Methods. Fourth Edition. Mc Graw Hill.
La Caixa. (2005) Poltica monetaria: Un traje a medida?. Informe mensual de economa
europea. Espaa.
Len, C. (2007) El modelo IS-MP y la regla de Taylor: Una aproximacin emprica para el Per.
USAT Escuela de Economa DI 003. Per.
Lucas, R. (1973) Some International evidence on output-inflation tradeoffs. The American
Economic Review. Vol. 63. Nro 3. USA.
Montoro, Carlos. (2007) Why Central Banks Smooth Interest Rates? A Political Economy
Explanation. Documentos de Trabajo. Banco Central de Reserva del Per.
Novales, A. (1993) Econometra. Mc Graw Hill.
Romer, David. (2000) Keynesian Macroeconomics without the LM Curve. Journal of Economic
Perspectivas. Vol. 14. N 2.
Romer, David. Romer, Christina. (2000) Federal Reserve Information and the Behavior of Interest
Rates. University of California.
Romer, David. Romer, Christina. (2002) A Rehabilitation of Monetary Policy in the 1950s.
University of California.
Romer, David. Romer, Christina. (2004) A New Measure of Monetary Shocks: Derivation and
Implications. University of California.
Rotemberg, J.J. y M. Woodford (1999) Interest rate rules in an estimated sticky price model, en
Taylor, J.B. (ed.), Monetary Policy Rules, National Bureau of Economic Research, University of
Chicago Press: 319-348.
170

Modelo de regresin general y mtodo de mxima verosimilitud

Rotemberg, J.J. (1987) The new Keynesian microfoundations, S. Fischer (ed.), NBER
Macroeconomics Annual, MIT Press: 297-346.
Taylor, John B. (1993) Discretion versus Policy Rules in Practice. Carnegie-Rochester
Conference. Series on Public Policy.
Taylor, J.B. (ed.), (1999a) Monetary Policy Rules, National Bureau of Economic Research,
University of Chicago Press.
Taylor, J.B. (1999b) A historical analysis of monetary policy rules, Taylor, J.B. (ed.), Monetary
Policy Rules, National Bureau of Economic Research, University of Chicago Press, 319-348.
Taylor, J.B. (1999c) The robustness and efficiency of monetary policy rules as guidelines for
interest rates setting by the European Central Bank. Journal of Monetary Economics, Vol. 43(3),
June, 655-679.
Taylor, J.B. (2001) The role of the exchange rate in monetary-policy rules, American Economic
Review Papers and Proceedings, Vol. 91, 2: 263-267.
Woodward, B. (2001), Greenspan, Pennsula Atalaya.
Wooldridge, J. (2009) Introductory Econometrics. A modern approach. Third Edition. Cengage
Learning.

171

CAPTULO V
Multicolinealidad en modelos
economtricos

172

Multicolinealidad en modelos economtricos

V. MULTICOLINEALIDAD EN MODELOS ECONOMTRICOS


Introduccin al tema
La presencia de muchas variables aleatorias no necesariamente significa una mejor bondad
de ajuste o un mayor ajuste global, esto suele pasar cuando incluimos en el modelo variables
redundantes o cuando dos o ms variables tienen relaciones entre s y se pierde potencia
explicativa.
La relacin entre dos variables explicativas se denomina normalmente como colinealidad, que
indica que dos variables tienen una relacin lineal.
La presencia de colinealidad puede afectar las estimaciones realizadas, para empezar es
natural suponer que una de estas dos variables no debe estar en el modelo, aunque esta sea una
presuncin apresurada por cuanto es posible que toda variable aporte algn grado de
informacin a la variable dependiente. Entonces el solo hecho de eliminar variables no parece la
mejor solucin.
El problema sin embargo es persistente, la linealidad entre dos variables explicativas genera
diversas fallas en las estimaciones de los parmetros, por cuanto no sabemos su real dimensin
o magnitud, ya que las variables explicativas dejaron de ser independientes e incorporan errores
de la otra o variaciones de la otra.
La colinealidad entonces impulsa el hecho de conseguir variables que puedan ser explicativas
y puedan reemplazar las existentes, pero que a la vez sean independientes. Este proceso puede
ser complejo de obtener o de hallar variables con estas caractersticas, por cuanto la
independencia no siempre est presente en las variables econmicas.
Tambin esta el hecho de que debemos, del algn modo, probar que el modelo pierde ajuste
con ms variables explicativas y que la causalidad entre variables independientes existe, para
poder sealar la presencia de colinealidad y proceder a resolverlo.
173

Multicolinealidad en modelos economtricos

5.1 Problemas de la estimacin con multicolinealidad


La multicolinealidad puede establecerse como la relacin entre las variables explicativas,
consideremos por ejemplo las siguientes variables explicativas:
X1, X2, X3, X4 .Xn
Ahora consideremos que todas ellas pueden relacionarse del siguiente modo:
X1 + X2 + X3 + X4 + + Xn = 0
En el caso anterior, una variable puede ser expresada del siguiente modo:
X1 = - X2 - X3 - X4 - - Xn = 0
Donde podemos notar que X1 se relaciona linealmente con X2 y con las dems, ahora la
relacin puede ser menos proporcional si consideramos que:
1 X1 + 2 X2 + 3 X3 + 4 X4 + + n Xn = 0
Donde son valores que expresan la relacin entre variables pero todas ellas son diferentes
de cero para cualquier momento t. Si extraemos X1 de la ecuacin previa tenemos:
X1 = - 2 / 1 X2 - 3 / 1 X3 - 4 / 1 X4 - - n / 1 Xn
En este caso X1 se relaciona con las variables restantes en la proporcin i / 1 y la relacin
es negativa, esto supone que no es independiente.
En algunos casos la relacin puede no ser exacta, es decir las variables X en general no
suman cero, sino que existe un error cualquiera (considere que la correlacin entre dos variables
puede ser total, pero entre ms variables es slo parcial, pues todas aportan algo a la anterior)
derivado de las correlaciones parciales entre todas ellas:
1 X1 + 2 X2 +3 X3 + 4 X4 + + n Xn + error = 0
X1 = - 2 / 1 X2 - 3 / 1 X3 - 4 / 1 X4 - - n / 1 Xn + error / 1
De acuerdo con Gujarati (2004), la multicolinealidad o relacin entre variables explicativas,
tambin puede definirse en las figuras siguientes:

174

Multicolinealidad en modelos economtricos

Fig. 5.1 Relaciones entre Y, X1 y X2 sin multicolinealidad

X1
Y

X2

Fig. 5.2 Relaciones entre Y, X1 y X2 con multicolinealidad

X1

X2

La fig. 5.1 muestra que la variable dependiente recibe influencia de las variables X1 y X2 pero
las variables explicativas no se relacionan entre s. Mientras que en la Fig. 5.2 se muestra que las
variables X1 y X2 se relacionan entre s, evidenciando un proceso de multicolinealidad.
Las razones para la existencia de multicolinealidad pueden ser las siguientes:
175

Multicolinealidad en modelos economtricos

El modelo diseado tiene un exceso de variables explicativas, de modo que es natural


que algunas de ellas puedan estar relacionadas. Un ejemplo pueden ser estudios
donde tomamos una enorme cantidad de datos del individuo, un caso es el anlisis del
consumo de hogares donde podemos usar la variable ingresos, adicionalmente
empleo, aos de estudios, tipo de empleo, sector econmico, nivel de estudios u otras.
Es posible encontrar relaciones entre aos de estudios y nivel de estudios o aos de
estudios e ingresos o el tipo de empleo y los ingresos, de modo que aqu es evidente
que algunas variables puedan estar correlacionadas.
En modelos seriales por ejemplo podemos tomar las tasas de inters locales y externas
para explicar el movimiento cambiario, pero ambas tasas pueden ser relacionadas o
pueden ser colineales.

Otra razn para la presencia de multicolinealidad es el uso inadecuado de variables


dicotmicas o dummy, en este caso por ejemplo si tenemos que 0 es soltero y 1 es
casado, pero en las series aparece informacin de casados y solteros, con una
codificacin errnea de la dummy (asignando al cdigo 0 datos de casados por
ejemplo), implicar que las variables terminen siendo relacionadas.

Otra posibilidad de multicolinealidad se encuentra en las variables que se


descomponen en otras. Por ejemplo, queremos medir los efectos en el consumo
cuando se dan cambios en el ingreso e incluimos ingreso del hogar, ingreso del esposo
e ingreso de la esposa o incluimos rentas de ambos esposos, es normal que al menos
una de esas variables se correlacione con los ingresos del hogar.

Tambin es posible que las variables explicativas generen relaciones cuando las
opciones de respuesta son limitadas (sesgadas hacia lo dicotmico) o tienen muy poca
variacin. Consideremos que la variable es estar de acuerdo (1) o no (2) con las colas
de atencin en una entidad financiera, pues naturalmente pocos estaran de acuerdo.
Ahora si calificamos el servicio del banco (donde hay muchas colas) de 1 a 5, donde 5
es de acuerdo que tiene un buen servicio y 1 estamos en desacuerdo que tiene un
buen servicio. Entonces encontraremos que las respuestas de ambas variables estarn
en alrededor de 1.
Ahora si consideremos que las colas son un factor que influye en las colocaciones de la
entidad, puede que un mal servicio afecte los crditos o colocaciones y que estar de
acuerdo con que haya colas igual afecte el servicio por cuanto sern muy pocos los que
estn de acuerdo. En este ejemplo la variable dependiente colocaciones depende de
dos variables cuya relacin es lineal y muy alta, ambas son 1.
176

Multicolinealidad en modelos economtricos

Otro factor que puede ocasionar multicolinealidad es tener muestras pequeas de


anlisis, por ejemplo pensemos que las ventas de una empresa crecen en julio y
diciembre (siendo estacionales) y las compras naturalmente tienden a crecer en estas
fechas o los meses previos, es posible considerar adems que los inventarios de
materiales o insumos comprados crecen igual, si la muestra que tomo incluye pocos
meses (un ao o menos) encontrar que los inventarios se relacionen con las ventas.
Si queremos explicar la rentabilidad de un negocio con estas dos variables, es muy
probable que mayores ventas generan mayor rentabilidad, pero los mayores
inventarios pueden tener el efecto opuesto, considerando adems que las ventas e
inventarios son colineales.
Tabla 5.1 Datos para probar la multicolinealidad

Identidad

X1

X2

X3

10

12

10

13

12

15

14

18

16

20

18

20

10

20

21

11

22

23

12

24

28

13

26

29

177

Multicolinealidad en modelos economtricos

La multicolinealidad de variables crea problemas previos a las estimaciones que realicemos,


consideremos los datos de la tabla 5.1, en ella se cumple lo siguiente:
X2 = 2 X1
X3 = 2 X1 + R
Donde R es un nmero aleatorio entre 1 y 4 (obtenido al azar con la funcin =aleatorio.entre()
de Excel ), se puede sealar que la primera ecuacin es de una colinealidad exacta, 2X1
equivale exactamente a X2, mientras que la ecuacin siguiente es de una colinealidad inexacta,
donde la variable aleatoria completa la estimacin y puede verse como un grado de error, tal
como se mostr antes.
En la tabla previa tambin est la columna I (vector identidad) y la variable dependiente Y.
Consideremos ahora que la los parmetros de un modelo se estiman del siguiente modo ya visto
antes en matrices:
Y=XB+U
B = ( X X )-1 X Y
Donde X es la matriz de variables dependientes, incluyendo el vector identidad como primera
columna de la matriz, Y es la variable dependiente y U es el nivel de error. Ahora pensemos que
slo usamos las variables I, X1 y X2 para armar la matrix X, y procedemos a hallar su inversa,
usando los comandos de Stata :

. mkmat I X1 X2, matrix(X)


. matrix XT=X'
. matrix XTX=XT*X
. matrix list XTX

178

Multicolinealidad en modelos economtricos

symmetric XTX[3,3]
I X1 X2
I 12
X1 90 818
X2 180 1636 3272
. matrix INVX=inv(XTX)
matrix has missing values

La matrix XX (donde X es la transpuesta de X) mostrada en los estimados previos, no posee


inversa. Eso se debe a que el valor de su determinante es cero. No olvidemos como se seal al
principio que: 1 X1 + 2 X2 +3 X3 + 4 X4 + + n Xn = 0, lo que indica que el valor i, es en
todos los casos simultneamente es igual a cero, en buena cuenta el i es el determinante igual
a cero y eso hace que no se puedan calcular los valores de la matriz inversa.
Hay que tener en cuenta que toda inversa se estima del siguiente modo:
H-1 = Adj H * (-1) para todo j+m impar / Determinante de H
La matriz inversa de H o H-1, es la matriz adjunta de H sobre la determinante de H, donde la
matriz Adjunta de H es su matriz de cofactores, y cada elemento de esta matriz ubicado en un
orden impar, se multiplica por -1. Es decir el elemento 1,1 (primer elemento de la matriz tanto en
fila como columna) tiene una suma de orden 2 y su signo se conserva, sin embargo el elemento
de orden 1,2 tiene una suma de orden 3 y se multiplica por -1, as sucesivamente.
Ahora estimemos el determinante de XX calculado previamente, primero mostremos la matrix
XX:

179

Multicolinealidad en modelos economtricos

I
X1
X2

I
12
90
180

X1
90
818
1636

X2
180
1636
3272

Ahora apliquemos la regla de Sarrus para hallar el determinante, primero repliquemos las
columnas I, X1 armando la matriz siguiente:

I
X1
X2

I
12
90
180

X1
90
818
1636

X2
180
1636
3272

I
12
90
180

X1
90
818
1636

Ahora multipliquemos las diagonales de la matriz previa, las diagonales positivas sern:
I*X1*X2 + X1*X2*I + X2*I*X1
Mientras que las diagonales negativas son:
-X1*I*X2 - I*X2*X1 - X2*X1*I
La suma de ambas diagonales (positiva + y negativa - ) se muestra ahora:
Diagonal +
Diagonal -

32,117,952.00
-26,503,200.00

26,503,200.00
-32,117,952.00

26,503,200.00
-26,503,200.00
Determinante

Sumatoria
85,124,352.00
-85,124,352.00
0.00

Como indica el clculo, el determinante es cero, lo que significa que no podremos dividir
ningn nmero sobre este valor (no olvide que una matriz inversa es su matriz adjunta entre el
determinante) ya que sera indeterminado, esto pasa cuando la multicolinealidad es perfecta y no
se puede hallar la inversa de XX, siendo imposible hallar los parmetros del modelo de
regresin.

180

Multicolinealidad en modelos economtricos

Ahora analicemos el caso de la multicolinealidad inexacta, para ello usemos las variables I,
X1, X3 (no olvide que X3 se relaciona de modo inexacto con X1) con las cuales crearemos la
matriz A, usemos ahora los comandos de Stata :
. mkmat I X1 X3, matrix(A)
. matrix AT=A'
. matrix ATA=AT*A
. matrix list ATA
symmetric ATA[3,3]
I X1 X3
I 12
X1 90 818
X3 217 1891 4421

Ahora estimemos la inversa de la matriz AA, con los resultados hallados previamente con el
Stata de AA:

A'A =

I
X1
X3

I
12
90
217

X1
90
818
1,891

X3
217
1,891
4,421

Hallemos la matriz Adjunta de AA, para ello usemos los cofactores de cada elemento de la
matriz AA, por ejemplo para el elemento 1,2 o 90 (el elemento de X1,I) de la matriz AA, sus
cofactores son los siguientes:

181

Multicolinealidad en modelos economtricos

90
217

Cofactores X1,I =

1,891
4,421

El determinante de los cofactores de (X1,I) o del elemento (1,2) es: 90*4421 1891*217 =
-12,457, este valor sera el elemento 1,2 de la matriz adjunta que se muestra a continuacin
como Adj AA:
Adj A'A =

40,497
-12,457
-7,316

-12,457
5,963
3,162

-7,316
3,162
1,716

Una vez que se obtiene la matriz adjunta, debemos multiplicar cada elemento de orden impar
por -1, eso nos da la matriz adjunta siguiente:
Adj A'A *(-1)

40,497
12,457
-7,316

12,457
5,963
-3,162

-7,316
-3,162
1,716

Para hallar la matriz inversa de AA, necesitamos el determinante de AA, el cual se estima
del modo siguiente usando la regla de Sarrus:
I
X1
X3

I
12
90
217

X1
90
818
1891

X3
217
1891
4421

I
12
90
217

X1
90
818
1891

Con la cual obtenemos las diagonales tal como se estimaron antes para XX:
Diagonal +
Diagonal -

43,396,536.00
-38,518,802.00

36,931,230.00
-42,910,572.00

36,931,230.00
-35,810,100.00
Determinante

Sumatoria
117,258,996.00
-117,239,474.00
19,522.00

Como se muestra en los clculos el determinante de AA es 19,522 con ello obtendremos la


inversa de la matriz AA, del modo siguiente:
182

Multicolinealidad en modelos economtricos

Inversa AA = Adj AA * (-1) / Determinante AA


Esto nos da la matriz inversa siguiente:
A'A =
-1

2.074429
0.638101
-0.374757

0.638101
0.305450
-0.161971

-0.374757
-0.161971
0.087901

Los resultados se muestran tambin con el programa Stata , lo cual indica que en presencia
de multicolinealidad inexacta, si es posible estimar los parmetros del modelo de regresin que
se plantee, esto se debe a que si es posible hallar la inversa de AA.
. matrix INVA=inv(ATA)
. matrix list INVA
symmetric INVA[3,3]
I

X1

X3

I 2.0744288
X1 .6381006 .30545026
X3 -.37475668 -.16197111 .08790083

Ya comprobamos que si es posible estimar los parmetros con presencia de multicolinealidad


inexacta, sin embargo estos parmetros seran insesgados. Analicemos el modelo siguiente con
los datos de la tabla 5.1, para ello consideremos la multicolinealidad inexacta (ya que de lo
contrario no se podran estimar los parmetros):
Yi = 0 + 1 X1i + 3 X3i + Ui

(1)

Donde:
Xi3 = Xi1
183

Multicolinealidad en modelos economtricos

Lo que supone que el modelo inicial queda:


Yi = 0 + 1 X1i + 3 ( Xi1 ) + Ui
Yi = 0 + ( 1 + 3 )Xi1 + Ui
Donde:
= 1 + 3
El modelo previo de la ecuacin (1) queda:
Yi = 0 + Xi1 + Ui

(2)

Ahora estimemos los parmetros para las regresiones mostrados en las ecuaciones (1) y (2),
en el caso de la ecuacin (1) los resultados mostrados en la Fig. 5.2 se pueden expresar as:
Yi = 1.096763 + 0.1392788 X1i + 0.1672984 X3i + Ui

Tambin se puede notar que esta regresin tiene todos los parmetros no significativos,
debido a que el valor crtico de t de Student es menor que 2 y observe que el R2 del modelo es
relativamente alto, el valor llega a 0.9146 o 91.46% de ajuste.
En el caso de la regresin mostrada en la Fig. 5.3, ecuacin (2), los resultados se expresan as:
Yi = 1.810023 + 0.4475524 Xi1 + Ui

Note que en la regresin donde slo hay X1 como explicativa, la prueba t de Student es
satisfactoria y el valor del parmetro es significativo. Asimismo el ajuste del modelo medido con
R2 es de 0.9045 o 90.45%.

184

Multicolinealidad en modelos economtricos

Fig. 5.3 Resultados de la regresin Y, X1, X3


. reg Y X1 X3
Source

SS

df

MS

Number of obs =
F(

Model

28.9617696

14.4808848

Residual

2.70489704

.300544115

Total

31.6666667

Coef.

X1

11

2.87878788

2,

12

9) =

48.18

Prob > F

0.0000

R-squared

0.9146

Adj R-squared =

0.8956

Root MSE

.54822

Std. Err.

P>|t|

[95% Conf. Interval]

.1392788

.3029873

0.46

0.657

-.546126

.8246836

X3

.1672984

.1625364

1.03

0.330

-.2003844

.5349813

_cons

1.096763

.7895932

1.39

0.198

-.6894212

2.882946

Fig. 5.4 Resultados de la regresin Y, X1


. reg Y X1
Source

SS

df

MS

Number of obs =
F(

10) =

94.74

Model

28.6433566

28.6433566

Prob > F

0.0000

Residual

3.02331002

10

.302331002

R-squared

0.9045

Adj R-squared =

0.8950

Total

31.6666667

11

2.87878788

Root MSE

.54985

Coef.

X1
_cons

1,

12

Std. Err.

P>|t|

[95% Conf. Interval]

.4475524

.0459805

9.73

0.000

.3451016

.5500033

1.810023

.379629

4.77

0.001

.9641572

2.655889

185

Multicolinealidad en modelos economtricos

Con los resultados previos, se procede a plantear la ecuacin siguiente:


= 1 + 3
= 0.1392788 + 0.1672984
La otra ecuacin derivada del modelo (2) es:
= 0.4475524
Con lo cual es igual a: 1.842657192
Si planteramos la ecuacin slo conociendo y , entonces el resultado queda:
0.4475524 = 1 + 1.842657192 3
Podemos obtener diversos valores de 1, por ejemplo si 3 toma valores como:
3
0.1
0.2
0.3
0.4
0.5

1
0.263286681
0.079020962
-0.105244758
-0.289510477
-0.473776196

Podemos notar que para cualquier valor de 3, las posibilidades de estimacin de 1 son
variadas e ilimitadas y ello imposibilita saber de manera insesgada el parmetro 1.
Al observar ambas regresiones en los modelos (1) y (2) tenemos otros detalles, por ejemplo:
Tabla 5.2 Varianza de los parmetros 1 en los modelos Y, X1, X3 - Y, X1
Modelo 1 (Multicolineal)
Modelo 2

1
0.1392788
0.4475524

Desviacin Estndar
0.3029873
0.0459805

Varianza
0.091801304
0.002114206

En el modelo (1) donde se presenta la multicolinealidad inexacta, la varianza del parmetro 1


es 0.09 y es mayor a la varianza del mismo parmetro en el modelo sin la multicolinealidad (ya
que no se presenta X3), en este caso la varianza es slo 0.002.
186

Multicolinealidad en modelos economtricos

En buena cuenta los modelos con multicolinealidad, tienen parmetros con varianza mucho
mayor a los modelos sin esta falla, esto supone que el intervalo de confianza de los parmetros
es ms amplio, en el caso del parmetro constante o intercepto del modelo tambin presenta
varianzas diferenciadas:
Tabla 5.3 Varianza de los parmetros 0 en los modelos Y, X1, X3 - Y, X1
Modelo 1 (Multicolineal)
Modelo 2

0
1.096763
1.810023

Desviacin Estndar
0.7895932
0.379629

Varianza
0.623457421
0.144118178

Como se indica antes, la varianza del intercepto del modelo con multicolinealidad es mayor al
intercepto del modelo que no presenta este problema, implicando un rango alto de variacin de
los parmetros.

5.2 Deteccin de la multicolinealidad


Para verificar la presencia de multicolinealidad disponemos de algunas evidencias, una
primero forma de deteccin se relaciona con la prueba t de Student.
Para verificar lo anterior consideremos que la prueba t o valor crtico de Student se estima
primero hallando las varianzas de los parmetros, en este caso slo usamos los valores de la
diagonal de la matriz de covarianzas y se elevan a 0.5 o se obtiene la raz cuadrada:
Varianza de = 2 XX -1
Desviacin estndar de = (Varianza de ) 0.5
t = / Desviacin estndar de

Dado que los valores de la desviacin estndar de los parmetros ,son mayores en el modelo
con multicolinealidad inexacta respecto del modelo sin este problema, esto supone que los
valores t crticos de Student son bajos o menores en el caso multicolineal comparado con los del
modelo sin la presencia de la multicolinealidad, como pueden ver:

187

Multicolinealidad en modelos economtricos

Tabla 5.4 Prueba t de los parmetros en los modelos Y, X1, X3 - Y, X1


Modelo 1 (Multicolineal)
Modelo 2

t de 1
0.459685274
9.733526169

t de 0
1.389022854
4.767873371

Entonces se puede verificar que la prueba t de modelos con multicolinealidad tiene valores
bajos, respecto del mismo modelo sin multicolinealidad.
Otra forma de detectar la multicolinealidad tiene que ver con el ajuste global del modelo, para
ello estimemos el valor de R2:
Tabla 5.5 R2 en los modelos Y, X1, X3 - Y, X1
Modelo 1 (Multicolineal)
Modelo 2

SCE
28.9617696
28.6433566

SCT
31.6666667
31.6666667

R2
0.9146
0.9045

Puede notarse que el valor de R2 no vara mucho entre un modelo y el otro, en el caso del
modelo sin multicolinealidad el R2 es de 90.45% y en el caso del modelo con multicolinealidad la
medida global de ajuste es de 91.46%.
Tabla 5.6 Prueba F en los modelos Y, X1, X3 - Y, X1
Modelo 1 (Multicolineal)
Modelo 2

SCE
28.9617696
28.6433566

K1
2
1

SCR
N-K
2.70489704
9
3.02331002 10

F
48.182
94.742

El valor de la prueba F es en ambos modelos significativo (mayor al valor crtico de la tabla F


de Fisher que es 4.96), de modo que en conclusin un modelo con multicolinealidad puede
detectarse a partir de la presencia de un R2 alto y pruebas t bajas, es decir las variables del
modelo explican bien el ajuste global pero ellas mismas no son significativas.
Otro indicador de la presencia de multicolinealidad es el llamado Factor Inflador de Varianza
FIV, que se estima del siguiente modo directo:
FIV = 1 / (1- R2 (Xi) )
188

Multicolinealidad en modelos economtricos

Donde R2 (Xi), resulta de estimar una regresin entre las variables explicativas, dicha regresin
se muestra a continuacin:
Fig. 5.5 Regresin de X1, X3
. reg X1 X3
Source

SS

df

MS

Number of obs =
F(

1,

12

10) =

426.79

Model

139.726145

139.726145

Prob > F

0.0000

Residual

3.27385544

10

.327385544

R-squared

0.9771

Adj R-squared =

0.9748

Total

143

11

13

Root MSE

.57218

X1

Coef.

Std. Err.

X3

.53027

.0256678

_cons

-2.089049

.4926717

P>|t|

[95% Conf. Interval]

20.66

0.000

.4730787

.5874613

-4.24

0.002

-3.18679

-.9913082

Ahora estimemos el Factor inflador de varianza:


FIV = 1 / (1 0.9771) = 43.6681
El FIV es el factor de ajuste entre las varianzas de los parmetros sin multicolinealidad y
aquellas con multicolinealidad, comprobemos para el caso de X1 (variable origen de la
multicolinealidad) que la varianza del parmetro equivale a la estimacin realizada en la tabla 5.2:
Varianza 1 multicolineal = Varianza no colineal 1* FIV
Varianza 1 multicolineal = 0.002114206 * 43.6681
Varianza 1 multicolineal = 0.092

189

Multicolinealidad en modelos economtricos

En buena cuenta si existe multicolinealidad, entonces el FIV ser bastante alto, existe de ese
modo una gran distancia entre la varianza del parmetro multicolineal y aquel parmetro
equivalente sin esta falla.
Un indicador alterno es el nivel de tolerancia, que se estima del siguiente modo:
Tolerancia = 1 / FIV
Tolerancia = 1 / 43.6681 = 0.0229
La tolerancia 0 (o muy cercana a cero) indica alta multicolinealidad, mientras que la tolerancia
igual a1 indica que no existe multicolinealidad, de ese modo podemos hallar esta falla en los
modelos economtricos. En el caso de nuestro ejemplo existe una alta multicolinealidad.
Una forma de darnos cuenta a modo indirecto de la presencia de variables que no aportan al
modelo, que a pesar de ello tiene un R2 alto, es el criterio de informacin de Akaike (AIC),
estimado como:
AIC = - 2 Ln FV + 2K
Donde:
Ln FV: Es el logaritmo natural del valor de la funcin de verosimilitud estimada con los
parmetros que resultan del modelo, dichos parmetros son 0, 1, i y la ecuacin de
estimacin es:
Ln FV = - 0.5 N ln
Ln FV = N [ - ln

- 0.5 N ln (2 ) 0.5 (Yi - 0 - 1 Xi ) 2 /

- 0.5 ln (2 ) ] 0.5 (Yi - 0 - 1 Xi ) 2 /

K: Es el nmero de variables en el modelo.


Otro indicador alternativo es el Criterio de Informacin Bayesiano de Shwarz (BIC) que se estima
del modo siguiente:
BIC = - 2 Ln FV + Ln N * K
Donde:
Ln N: Es el logaritmo natural del tamao de muestra empleado N, esto indica que el BIC depende
linealmente del tamao muestral, esto le da mayor eficacia que el AIC, donde el nmero de
190

Multicolinealidad en modelos economtricos

parmetros se pondera por 2, ahora en el BIC los parmetros tienen mayor impacto en la medida
que el tamao muestral aumenta.
En Stata podemos calcular el AIC y BIC, para cada uno de los modelos siguiente, mediante
el comando de Stata que se escribe en el Do editor, estat ic (escriba el comando una vez que
realice la regresin respectiva):
Yi = 0 + 1 X1i + 2 X2i + 3 X3i + Ui

(modelo 1)

Fig. 5.6 Estimacin de AIC y BIC para el modelo 1 con Y, X1, X2 y X3


. estat ic

Model

Obs

ll(null)

ll(model)

df

AIC

BIC

12

-22.84941

-8.088206

22.17641

23.63113

Note:

N=Obs used in calculating BIC; see [R] BIC note

La fig. anterior muestra los resultados del AIC y BIC para todas las variables de anlisis en
nuestro ejemplo (recuerde que usamos los datos de la tabla 5.1) incluidas en el modelo 1.
Estos resultados coinciden con los de la fig. 5.7 donde se ha suprimido la variable X2 (para
ello usamos la estimacin del modelo 2), tomemos en cuenta que esta variable tiene colinealidad
perfecta con X1, de modo que puede ser eliminada sin que cambien los resultados de las
estimaciones de BIC y AIC.
Para estimar el AIC y BIC del modelo 2, primero logremos la estimacin del Ln FV
relacionado con la expresin ll (model), mostrado en los resultados de Stata . Para dicha
estimacin se usan todos los parmetros del modelo. En el caso de este modelo tenemos:
Parmetros (K) = 3 y Datos (N)= 12.
En los resultados mostrados por Stata , tambin aparece el ll (null) esta es la estimacin
del LN FV slo para el parmetro 0 tambin llamado intercepto.
Yi = 0 + 1 X1i + 3 X3i + Ui

(modelo 2)
191

Multicolinealidad en modelos economtricos

Fig. 5.7 Estimacin de AIC y BIC para el modelo 2 con Y, X1 y X3


. estat ic

Model

Obs

ll(null)

ll(model)

df

AIC

BIC

12

-22.84941

-8.088206

22.17641

23.63113

Note:

N=Obs used in calculating BIC; see [R] BIC note

El valor del LN FV (ll model) para el clculo de AIC del modelo 2, puede hallarse tambin del
siguiente modo:
Tabla 5.7 datos de Y estimado para el clculo del Ln FV del modelo
Y
2
3
4
4
5
6
5
6
6
6
7
8

Y'
2.7137078
3.1875834
3.661459
3.9680362
4.4419118
5.0830858
5.5569614
5.6962402
6.0028174
6.476693
7.4524638
7.759041
Total

( Y - Y' ) 2
0.509378824
0.035187532
0.114610009
0.001021685
0.311462439
0.84073165
0.310206001
0.092270016
7.93774E-06
0.227236216
0.20472349
0.05806124
2.704897039

Ln FV = 12 [ - Ln ( 0.47477162 ) - 0.5 * Ln ( 2 * 3.14159265) ] [ 1 / ( 2 * 0.47477162 2 ) *


2.704897039 ]
Donde:
2

mv =

2.70489704 / 12
192

Multicolinealidad en modelos economtricos

Esto es el estimador de
=[

2 para

la funcin de verosimilitud, es decir usando N datos.

2 ] 0.5

: Es el valor Pi equivalente a 3.14159265


Ln FV = 12 [ 0.7449214 0.9189385) ] [ 2.218199 * 2.704897039 ]
Ln FV = -2.08820559 - 6
Ln FV = -8.0882056
Nuestra estimacin del valor final del Ln FV, coincide con los resultados de Stata ,
mostrados para el modelo 2.
Ahora estimemos el AIC y BIC desde el modelo 3 mostrado a continuacin:
Yi = 0 + 1 X1i + Ui

(modelo 3)

Fig. 5.7 Estimacin de AIC y BIC para el modelo 3 con Y, X1


. estat ic

Model

Obs

ll(null)

ll(model)

df

AIC

BIC

12

-22.84941

-8.755936

21.51187

22.48169

Note:

N=Obs used in calculating BIC; see [R] BIC note

Para el modelo 3, se tiene: K = 2 y N = 12. En este caso hay que notar que el AIC y el BIC
han bajado de valor, lo que indica que el modelo donde X1 es explicativa tiene mejor poder de
prediccin que el modelo que usa X1 y X3 como explicativas.
Probemos ahora hallando el AIC y BIC del modelo 4, que se expresa a continuacin:
Yi = 0 + 3 X3i + Ui

(modelo 4)

193

Multicolinealidad en modelos economtricos

Fig. 5.8 Estimacin de AIC y BIC para el modelo 4 con Y, X3


. estat ic

Model

Obs

ll(null)

ll(model)

df

AIC

BIC

12

-22.84941

-8.227451

20.4549

21.42472

Note:

N=Obs used in calculating BIC; see [R] BIC note

Finalmente en el modelo 4 se tiene: K = 2 y N = 12. Hay que notar que el AIC y el BIC han
bajado nuevamente de valor, lo que indica que el modelo que emplea a X3 como variable
explicativa tiene mejor poder de prediccin o ajuste que todos los modelos anteriores.
La idea que existe detrs del uso del AIC y el BIC, es que los modelos iniciales usando X2 y
X1 son con variables colineales, que no le aportan informacin al modelo, por ello los criterios de
Akaike y Shwarz se van reduciendo, hasta llegar a X3 que si aporta informacin con mayor ajuste
que las variables previamente utilizadas, dando una idea de la posible existencia de
multicolinealidad.
No olvidemos que el AIC y el BIC sirven, adems, para testear si el diseo del modelo es
ptimo no slo en nmero de variables, sino tambin en el tipo de variables que colocamos. Al
existir variables redundantes es muy probable que haya multicolinealidad.

5.3 Correccin de la multicolinealidad


Se tienen diversas pautas para reducir la presencia de multicolinealidad en los modelos
economtricos, pensemos primero en el modelo siguiente:
TCVfi = 0 + 1 Tamn1i + 2 intbs2i + 3 interbf3i + 4 Libor3m4i Ui
Donde:
TCVf : Valor del tipo de cambio de venta diario (enero a junio de 2013) para el Per, medido en
dlares por sol.
194

Multicolinealidad en modelos economtricos

Tamn: Tasa activa en moneda nacional para el Per (para crditos anuales)
intbs: Tasa interbancaria en soles para el Per
intbf: tasa interbancaria en moneda extranjera para el Per
Libor3m: Tasa de inters Libor a 3 meses (datos diarios en valor anual)
La lgica del modelo es que el tipo de cambio responde a los diferenciales de tasas de inters
entre la moneda local y la moneda extranjera. As mayores tasas locales de inters generan una
salida de fondos los cuales hacen que el tipo de cambio en dlares se reduzca y el tipo de
cambio en soles aumente, esto se conoce como la paridad de intereses.
Estimemos la regresin del modelo planteado:
Fig. 5.9 Regresin semestral para la variable dependiente Tipo de cambio venta en dlares
TCVf

Source

SS

df

MS

Number of obs =
F(

Model

.006374232

.001593558

Residual

.004465926

115

.000038834

Total

.010840158

TCVf

Coef.

Tamn

119

.000091094

4,

120

115) =

41.03

Prob > F

0.0000

R-squared

0.5880

Adj R-squared =

0.5737

Root MSE

.00623

Std. Err.

P>|t|

[95% Conf. Interval]

.0091061

.0021967

4.15

0.000

.0047548

.0134574

intbs

-.0181542

.0086193

-2.11

0.037

-.0352275

-.001081

intbf

-.0006434

.0004862

-1.32

0.188

-.0016065

.0003197

Libor3m

-.2022685

.1806032

-1.12

0.265

-.5600087

.1554717

_cons

.3710111

.0489487

7.58

0.000

.2740532

.4679689

195

Multicolinealidad en modelos economtricos

El modelo evidencia la presencia de variables con t estadsticos bajos y que probablemente


presenten colinealidad inexacta, este puede ser el caso de la tasa interbancaria en moneda
extranjera y la tasa libor a 3 meses.
Una muestra de la relacin entre estas dos variables puede verse grficamente. En la Fig.
5.10, se evidencia que la relacin entre la variable intbf y Libor3m es alta, la correlacin entre
ambas es positiva y presentan los siguientes indicadores FIV y TOLERANCIA:
FIV = 1 / (1 0.5044) = 2.02
Tolerancia = 0.49
La evidencia de multicolinealidad es baja pero existe, el valor AIC de esta regresin inicial es
-873.3072.
Fig. 5.10 Relacin entre tasa interbancaria en dlares (intbf) y tasa Libor 3 meses (Libor3m)
0

10
.3

Libor3m

.28

.26

10

intbf

0
.26

.28

.3

196

Multicolinealidad en modelos economtricos

Los resultados del modelo indican, que alzas del costo de la moneda local reflejados en la
Tamn generan entrada de fondos y una alza del TCVf (medido en dlares). Al revs se reduce el
valor de la moneda local en soles.
Alzas del intbs producen bajas del TCVf en este caso la variable se comporta al inverso de lo
esperado, una explicacin es que esta tasa rige principalmente para la gran empresa, alzas de
esta tasa reflejan una mayor demanda local de moneda extranjera (ante el mayor costo de la
moneda local) que impulsa al alza al tipo de cambio en soles y a la baja al tipo de cambio en
dlares.
En el caso de la intbf y la Libor3m, reflejan un comportamiento esperado en teora, as las
tasas en moneda extranjera suben y ello implica que los fondos se mueven del mercado local al
mercado externo, en este caso el valor de la moneda local en dlares baja y al revs, en trminos
de soles, sube.
Una forma de corregir el modelo que presenta una correlacin entre intbf y Libor3m de 0.71
(71%), es eliminar la variable que consideramos sospechosa del problema, sin embargo esta
quizs sea una solucin relativamente mala, por cuanto perdemos algo de informacin y ajuste,
veamos los resultados eliminando Libor3m, que es la de menor valor crtico t de Student.
La Fig. 5.11 indica que el ajuste del modelo es ahora 0.5835 ligeramente menor al modelo
previo, lo que indica que la variable eliminada incorporaba algo de informacin al modelo, el AIC
es ahora -874, ha variado muy poco respecto del valor inicial, sealando nuevamente que
eliminar Libor3m no ha sido la mejor solucin.
Este problema tambin se presenta, si en lugar de eliminar intbf eliminamos Libor3m, de
modo que eliminar variables parece una solucin fcil pero es irrelevante para el modelo.
En el caso de los coeficientes del modelo estimado, la variable intbf sigue siendo no
significativa, al igual que el modelo original, mientras que las dems variables son
estadsticamente vlidas.

197

Multicolinealidad en modelos economtricos

Fig. 5.11 Regresin corregida semestral para la variable dependiente Tipo de cambio venta
en dlares TCVf
Source

SS

df

MS

Number of obs =
F(

Model

.006325522

.002108507

Residual

.004514636

116

.000038919

Total

TCVf

.010840158

Coef.

119

.000091094

Std. Err.

P>|t|

3,

120

116) =

54.18

Prob > F

0.0000

R-squared

0.5835

Adj R-squared =

0.5728

Root MSE

.00624

[95% Conf. Interval]

Tamn

.006901

.0009753

7.08

0.000

.0049694

.0088326

intbs

-.0174002

.0086024

-2.02

0.045

-.0344383

-.000362

intbf

-.0004467

.0004539

-0.98

0.327

-.0013457

.0004523

_cons

.3455068

.0433763

7.97

0.000

.2595946

.431419

Otra forma de solucionar los problemas de multicolinealidad es ampliar la muestra, en los


modelos previos hemos usado 120 datos que corresponden al perodo enero junio 2013 (diarios),
as que veremos que pasa si aumentamos la muestra a todo el ao.
Como se muestra en la Fig. 5.12 la regresin con datos para todo el ao, ya presenta
parmetros estadsticamente significativos en todos los casos, es decir todas las variables son
relevantes para explicar el comportamiento del Tipo de cambio venta a valor en dlares. Los
signos siguen siendo los mismos respecto del modelo original y el R2 es ahora de 0.83 (83%) que
indica un buen ajuste del modelo.
El criterio de Akaike (AIC) ha cado fuertemente ahora tiene un valor de -1600, indicando que
el modelo tiene un buen poder explicativo, mucho mejor al planteado previamente.

198

Multicolinealidad en modelos economtricos

Fig. 5.12 Regresin anual para la variable dependiente Tipo de cambio venta en dlares
TCVf

Source

SS

df

MS

Number of obs =
F(

Model

.032711126

.008177781

Residual

.006481266

208

.00003116

Total

.039192392

212

.00018487

TCVf

Coef.

Std. Err.

Tamn

.0129274

.0011908

intbs

-.0061514

intbf

-.0008158

Libor3m
_cons

4,

213

208) =

262.45

Prob > F

0.0000

R-squared

0.8346

Adj R-squared =

0.8314

Root MSE

.00558

P>|t|

[95% Conf. Interval]

10.86

0.000

.0105797

.015275

.0024608

-2.50

0.013

-.0110026

-.0013002

.0003467

-2.35

0.020

-.0014992

-.0001324

-.4741422

.0927275

-5.11

0.000

-.6569484

-.291336

.3357063

.0125277

26.80

0.000

.3110089

.3604038

Otra forma de mejorar la potencia del modelo y eliminar la posibilidad de multicolinealidad,


implica ampliar el nmero de variables y ver si mejora el grado de ajuste y el AIC. Pensemos que
el modelo previo era de paridad cubierta, ahora incluyamos el riesgo pas a modo de sealar una
paridad descubierta.
El riesgo pas puede crecer, lo cual eleva la tasa de inters externa relacionada a Per, con
ello los fondos salen del pas, esto hace que el tipo de cambio en moneda local suba y en
moneda local baje. Los resultados se muestran a continuacin:
Es evidente que el R2 ha mejorado pues pas a ser 0.93 o 93%, mientras que el AIC baj a
-1,789, evidenciando que el modelo en trminos generales explica mejor al tipo de cambio, pero
al interno las variables intbs e intbf (tasas interbancarias en soles y dlares) han perdido
significancia, nuevamente nos invade el problema de la potencial multicolinealidad.

199

Multicolinealidad en modelos economtricos

El signo del parmetro del riesgo pas indica que si este sube, los fondos se van del pas,
sube el cambio en sol por dlar, pero medido en moneda extranjera (TCVf) baja, lo cual es una
respuesta esperada.
Fig. 5.13 Regresin anual para la variable dependiente TCVf incluyendo Riesgo pas

Source

SS

df

MS

Number of obs =
F(

5,

213

207) =

572.43

Model

.036549067

.007309813

Prob > F

0.0000

Residual

.002643325

207

.00001277

R-squared

0.9326

Adj R-squared =

0.9309

Total

.039192392

212

.00018487

Root MSE

.00357

TCVf

Coef.

Std. Err.

P>|t|

[95% Conf. Interval]

Tamn

.0059603

.0008618

6.92

0.000

.0042614

.0076593

intbs

.0006838

.0016239

0.42

0.674

-.0025177

.0038852

intbf

-.0003779

.0002233

-1.69

0.092

-.0008182

.0000624

Libor3m

-.2034508

.0613801

-3.31

0.001

-.324461

-.0824405

Rp

-.0002681

.0000155

-17.34

0.000

-.0002985

-.0002376

_cons

.3779431

.0083817

45.09

0.000

.3614187

.3944674

Para no perder la potencia de ajuste ganada, podemos ensayar otra forma de corregir los
modelos multicolineales, ello es transformando ligeramente las variables, para ello tomaremos
ahora la serie intbs y la pondremos en un perodo rezagado, es decir que estamos pensando que
el efecto de intbs se evidencia recin al siguiente da de producida su alza o baja.
Los resultados de esta regresin muestran un R2 de 0.93 (ligeramente menor al hallado
previamente) los valores de intbf e intbs (rezagado un perodo) no han mejorado el diseo o
efectividad del modelo.
Otras formas de ajuste es poner las variables al cuadrado, en este caso dado que intbs es
una tasa pequea comparada con la Tamn, entonces procedemos a elevarla al cuadrado para
potenciar su efecto, sin embargo los resultados de este ensayo no producen mejoras en el
200

Multicolinealidad en modelos economtricos

modelo. El R2 sigue siendo de 0.93 y las variables intbs2 (al cuadrado) e intbf siguen siendo no
significativas.
Otra forma de modificar los resultados en presencia de multicolinealidad (o sospecha de esta)
es cambiar las variables que podran no aportar nada al modelo, en este caso son intbf e intbs,
con una nueva variable que en este caso es el riesgo pas, los resultados son los siguientes:
Fig. 5.13 Regresin anual para la variable dependiente TCVf con Riesgo pas sin intbf e intbs

Source

SS

df

MS

Number of obs =
F(

3,

213

209) =

948.45

Model

.036510565

.012170188

Prob > F

0.0000

Residual

.002681827

209

.000012832

R-squared

0.9316

Adj R-squared =

0.9306

Total

.039192392

212

.00018487

Root MSE

.00358

TCVf

Coef.

Tamn

Std. Err.

P>|t|

[95% Conf. Interval]

.0050525

.0006867

7.36

0.000

.0036987

.0064064

Libor3m

-.1529431

.0537147

-2.85

0.005

-.2588352

-.0470509

Rp

-.0002695

.0000149

-18.06

0.000

-.000299

-.0002401

_cons

.3803906

.0071104

53.50

0.000

.3663733

.394408

Como vemos el modelo tiene ahora un ajuste de 93.16% muy similar a los casos anterior y
mucho mejor al de la Fig. 5.12, el valor del AIC es ahora -1,790 mucho menor a todas las
estimaciones previas. Este modelo parece ser el de mejor poder explicativo de todos los
ejemplos previos.
Algunos otros criterios de solucin de la multicolinealidad pueden ser:
-

Estimar el modelo en diferencias de su pasado inmediato:

201

Multicolinealidad en modelos economtricos

TCVfi - TCVfi, t-1= 0 + 1 ( Tamn1i - Tamn1i, t-1 )+ 2 ( intbs2i - intbs2i, t-1 )+ 3 ( interbf3i interbf3i, t-1 ) + 4 ( Libor3m4i - Libor3m4i, t-1 )+ Ui
Los resultados de este modelo en nuestro ejemplo fueron bastante bajos, el R2 apenas
lleg a 0.14 o 14%, esto puede indicar que las variaciones inmediatas del tipo de
cambio no se explican por las variaciones diarias de las distintas variables explicativas.
-

Otros criterios de solucin implican conocer de algn modo el valor que afecta
previamente la variable, pensemos por ejemplo que sabemos que por cada punto de
PBI la pobreza se reduce en 0.25%, entonces en modelos donde intervengan el PBI
per cpita y la pobreza, es mejor partir de ese criterio a priori. Si consideramos que la
desigualdad tiene que ver con el PBI per cpita y la pobreza, entonces podemos
estimar solamente el parmetro del PBI per cpita y luego sabemos que el otro
parmetro de pobreza tendr un efecto de 0.25.

Otra idea es hallar variables que reemplacen tanto al PBI per cpita como a la pobreza,
pero que a la vez se relacionan con ella sin perder su independencia, podemos usar
por ejemplo la tenencia de activos fsicos o biolgicos en el hogar, de modo que a ms
activos se tiene ms ingresos y menos pobreza, ello reduce la desigualdad y la
tenencia de activos se relaciona con las variables previas pero es de por s
independiente, ello es usar variables proxy y en otros casos se pueden usar las
denominadas variables instrumentales.

5.4 Uso de variables proxy e instrumentales


Para entender el criterio de variables proxy e instrumentales, hay que considerar primero la
posibilidad de sesgo por variable omitida, para ello consideremos que el siguiente modelo
expresa correctamente la realidad:
Yi = 0 + 1 X1i + 2 X2i + Ui

(i)

Donde:
X1i = Son los aos de estudio medido de modo continuo
X2i = Habilidad innata del individuo
Yi = El ingreso del individuo en logaritmos
202

Multicolinealidad en modelos economtricos

Dado que la habilidad del individuo es no observable, se tiende a hacer lo siguiente:


Yi = 0 + 1 X1i + ei

(ii)

Donde:
ei = 2 X2i + Ui
A partir del modelo (ii) podemos estimar 1:
1 = x1i yi / x1i 2
Si el modelo (i) se expresa restndola de su media queda:
Yi Ym = yi = 1 ( X1i - X1m) + 2 ( X2i X2m) + ( Ui Um )

(iii)

Reemplazando (iii) en la ecuacin de 1 , la estimacin queda del siguiente modo:


1 = 1 + 2 x1i x2i / xi 2 + x1i ei / x1i 2
Tenga en cuenta que el valor esperado del error es cero en todos los casos, entonces:
E 1 = 1 + 2 x1i x2i / xi 2
Con esto determinamos que la estimacin 1 es sesgada, siempre que 2 sea diferente de
cero y que la covarianza de X1, X2 sea cero (o tambin su correlacin), esto se denomina el
sesgo por variable omitida. Hay que considerar que el sesgo por variable omitida se produce slo
con aquellas variables que correlacionan con X1.
En nuestro modelo el sesgo se presenta si la variable habilidad innata adems de explicar al
ingreso, tambin se correlaciona con los aos de educacin, es posible esperar que ello altere la
estimacin de los parmetros. Es muy posible que modelos con diversas variables explicativas
tengan este sesgo cuando una sola de ellas correlaciona con las dems y a la vez explica el
ingreso (la variable dependiente adems se correlaciona con la omitida o incluso se endogenizan
otras variables explicativas), en este caso es posible adems la presencia de la multicolinealidad.
Esta multicolinealidad se explica si al usar una variable de reemplazo o proxy, se generan
estas correlaciones con las otras variables explicativas adems de explicar a la variable
dependiente, lo cual indica la presencia del problema de colinealidad.

203

Multicolinealidad en modelos economtricos

Es importante establecer la causalidad entre variables, ya que la presencia de variables


omitidas nos plantea el desafo de evitar las correlaciones o las causalidades entre variables
(sean explicativas o dependientes) que podran luego generar sesgo de variable omitida.
Granger (1969) plantea que el pasado de una variable puede de algn modo influir en otra,
por ejemplo el pasado de X1 puede afectar los sucesos actuales de X2, sin embargo no es posible
que los sucesos actuales de X2 afecten a X1. No obstante hay que tener en cuenta que las
variables econmicas son relacionadas no solo de manera unidireccional sino bidireccional; por
lo que plantear pruebas de causalidad, siendo la de Granger muy popular, quizs sea una
herramienta til aunque puede generar conclusiones apresuradas respecto de la direccionalidad
de la variable.
La causalidad puede ser tratada tambin como efectos o impactos de una variable sobre un
grupo de tratamiento (o anlisis) y ningn impacto sobre otro, lo cual es la base de los
tratamientos o modelos experimentales que actualmente se disean. Aqu se responden
preguntas como: causa el crdito cambios en la productividad o cul es el efecto del crdito en la
productividad. Resolver la causalidad en estos casos puede relacionarse con algunos problemas
prcticos, por ejemplo que tan comparables con las personas que recibieron crdito y aquellas
que no, considerando que en ambos casos pudo alterarse la productividad.
Al igual que Granger (1969) la causalidad puede relacionarse con la variable omitida, por
ejemplo en el caso de los que piden crditos, pueden darse caractersticas en los individuos que
no hemos contemplado previamente. Por ejemplo elementos de anlisis que solicitan crdito slo
porque tienen problemas econmicos con lo cual podemos concluir que las empresas en apuros
no mejoran su productividad al recibir crditos, conclusin que puede ser errada slo por omitir
estas consideraciones. Esto tambin se conoce como sesgo de seleccin y esta estrechamente
vinculado al sesgo por variable omitida ya mencionado (Rubin, 1974).
Volviendo a Granger (1969) el test de causalidad que plantea supone analizar el modelo
desde la siguiente perspectiva en el tiempo, primero podemos analizar que afecta a la variable
dependiente:
Yi t = 1 Y1i, t-1+ 2 X1i, t-1+ U1i
Note que la variable dependiente de su pasado y de la otra variable, ahora la variable
explicativa tambin puede ser causada por lo que consideramos variable dependiente, la idea es
probar cul es efectivamente la variable causal y cul la que recibe el efecto:
X i t = 3 Y1i, t-1+ 4 X1i, t-1+ U2i
204

Multicolinealidad en modelos economtricos

Hay que considerar que los efectos no se producen en un solo perodo del pasado sino
tambin en diversos perodos previos por ejemplo:
Yi t = 11 Y1i, t-1+ 21 Y1i, t-2 + + n1 Y1i, t-n + 21 X1i, t-1+ 22 X1i, t-2 + + 2n X1i, t-n + U1i
Xi t = 13 Y1i, t-1+ 23 Y1i, t-2 + + n3 Y1i, t-n + 41 X1i, t-1+ 42 X1i, t-2 + + 4n X1i, t-n + U1i
Lo que finalmente se expresa del siguiente modo:
Yi t = i1 Y1i, t-1 + 2i X1i, t-1+ U1i
X i t = i3 Y1i, t-1 + 4i X1i, t-1+ U2i
Probar la causalidad de Granger (1969) requiere estimar el modelo anterior para cada
variable, en las siguientes condiciones:
Yi t = i1 Y1i, t-1 + U1i

(a)

X i t = i3 Y1i, t-1 + 4i X1i, t-1+ U2i

(b)

Donde el modelo (a) nos dar una suma de residuos al cuadrado restringido (SRCr) mientras
que el modelo (b) nos dar una SRC no restringido (es decir usa todas las variables), esto lo
denominaremos SRCnr, se cumplir entonces lo siguiente:
F = [ (SRCr SCRnr) / R ] / [ SRCnr / (N K)
Donde:
R = equivale al nmero de rezagos de la variable Xij
K= Es el nmero de parmetros estimado en el modelo (b)
N= Es el nmero de datos empleado
Las estimaciones estn disponibles en los programas estadsticos, se requiere
adicionalmente conocer sobre ecuaciones simultneas de series de tiempo, aqu haremos un
ejemplo a priori considerando unos 5 rezagos de la variables intbf e intbs, tomando el modelo que
hemos usado en la seccin anterior. Note que los modelos (a) y (b) se estiman sin constante.
La idea es conocer si intbf (Xi) causa a intbs (Yi), de modo que podamos eliminar a una de
ellas y usar la otra en el modelo evitando as la multicolinealidad o al menos mejorando las
205

Multicolinealidad en modelos economtricos

estimaciones realizadas; para esta previa causalidad consideramos que la tasas locales de
inters responden a las tasas internacionales de inters:
El modelo (a) nos arroja un SRCr = 3.43398847
El modelo (b) nos arroja un SRCnr = 3.43152284
R= 5
K = 10
N = 208 datos para el modelo empleado en la seccin anterior, 5 rezagos hacen perder datos.
F = [ 3.43398847 - 3.43152284 ] / 5 ] / [ 3.43152284 / 198 ]
F = 0.028
Este valor es bastante bajo para probar que es significativo, el valor de la tabla F es 2.26,
dado que no supera el valor crtico entonces se indica que la variable intbf no causa a intbs o
que la inclusin de la variable intbf en rezagos efectivamente afectan la regresin planteada.
Retomando el modelo (i) donde los aos de estudio y la habilidad afectan el ingreso del
individuo y considerando que la habilidad no observable supone estimar el modelo (ii), entonces
el uso de una variable instrumental, por ejemplo Zi, requiere cumplir necesariamente los
siguientes criterios:
Cov (Zi, ei ) = 0
Cov ( Zi, X1i) diferente de 0
En ese caso Zi es una variable instrumental a ser usada en lugar de X1i siendo la variable
instrumental de X1i, donde ei es el nivel de error.
Hay que notar que no debe darse covarianza positiva entre Zi y el error del modelo (ii), as
mismo debe darse una correlacin diferente de cero entre Zi y X1i (que se transforma en una
variable endgena, ya que es influida o causada por Zi.
El problema de usar variables instrumentales, es que necesariamente requiere pensar en una
variable independiente de X2i para estimar el modelo (i). En buena cuenta, si consideramos que
X1i son los aos de educacin, necesitamos una variable que se relacione con sta, pero que sea
independiente de la habilidad (X2i ).
206

Multicolinealidad en modelos economtricos

Consideremos las siguientes opciones:


-

La educacin de los padres del individuo, puede estar correlacionada con la habilidad
(X2i ) debido a que el individuo gana habilidades de acuerdo a lo que saben los padres.

El coeficiente intelectual del individuo, puede ser una variable interesante, pero no
necesariamente se relaciona con los aos de educacin formal del individuo, adems
est el hecho de la posibilidad de medicin y del sesgo de esta medicin (sin reparar lo
costoso que debe ser) que tiende a ser subjetiva o emplear diversos test psicolgicos.
Tambin hay que notar que el coeficiente intelectual puede predisponer a ganar ms
habilidades innatas, de modo que se da la correlacin con X2i, lo que invalidad el uso.

La zona donde naci el individuo, esto puede no estar correlacionado con la habilidad
pero tampoco se correlaciona con los aos de estudio, salvo que podamos sealar que
si la zona es ms alta entonces ms difcil ir a la escuela, con lo cual la variable podra
ser los metros sobre el nivel del mar donde vive el individuo y eso se correlaciona con
aos de estudio y puede ser independiente de la habilidad.

Otra variable puede ser la lejana al centro de estudios, as ms lejos supone menos
aos de educacin y esa lejana no tiene nada que ver con la habilidad, de modo que
puede ser una buena variable instrumental.

Otra variable puede ser la edad en que se es padre, si es una edad temprana entonces
menos aos de educacin, si es una edad mayor entonces hay ms aos de educacin
sin que ello se vincule con la habilidad.

Los ingresos de los padres, puede implicar una buena relacin con aos de estudios,
pero tambin se relaciona con la habilidad (ms ingresos es ms probable que se
adquieran ms habilidades)

La estimacin de la variable instrumental se puede realizar del siguiente modo, primero la


relacin entre la variable X1i con la variable Zi:
X1i = 0 + 1 Zi + ej
Con la regresin previa hallamos el valor estimado de X1i en buena cuenta es la estimacin
de los aos de educacin a partir de la variable instrumental. Para indicar que la variable
instrumental Zi es un buen predictor de la variable X1i, se debe tener una prueba F relativamente
alta, Staiger y Stock (1997) indican que debe ser mayor a 10 por lo menos.
Una vez realizada la estimacin X1i, se halla la regresin siguiente:
207

Multicolinealidad en modelos economtricos

Yi = 0 + 1 X1i + ei
Donde:
1 = Es el estimador de variable instrumental (VI)
Para demostrar las propiedades del estimador del parmetro de la VI, tomemos la estimacin
en promedios:
Yim = 0 + 1 X1i m
Si hallamos las desviaciones tenemos:
Yi - Yim = 1 ( X1i - X1i m ) + ei
yi = 1 x1i + ei
Donde:
1 = x1i yi / xi1 2
Note que x1i ha sido estimado con zi, de modo que el parmetro 1 de la VI es:
1 = zi yi / zi x1i
Si consideramos la estructura del modelo (i) que deseamos estimar, entonces reemplazamos
en la estimacin previa, todo en desviaciones respecto de la media:
yi = 1 x1i + 2 x2i + Ui
1 = zi [1 x1i + 2 x2i + Ui ] / zi x1i
1 = 1 zi x1i + zi [ 2 x2i + Ui ] / zi x1i
Ahora recuerde que:
ei = 2 X2i + Ui, que equivale a:
ei = 2 X2i + Ui
Donde los parmetros i equivalen a i, puesto que estamos haciendo estimaciones de los
modelos, ante la no observacin de la variable habilidad o tambin denominada X2i:
208

Multicolinealidad en modelos economtricos

1 = 1 + zi ei / zi x1i
Lo que finalmente se expresa como:
1 = 1 + Cov ( Zi ei ) / Cov ( Zi x1i ) (iv)
De modo que para hallar el estimador correcto de la variable instrumental 1, se debe cumplir
que la covarianza (Cov) entre la variable Zi y el error del modelo (ii) debe ser cero y la covarianza
entre Zi y la variable X1i, debe ser diferente de cero, de modo que esas condiciones hacen
robusta la estimacin mediante la variable instrumental.
Podemos transformar la ecuacin (iv) en lo siguiente:
1 = 1 +

Correlacin ( Zi, ei ) /

Correlacin ( Zi, x1i )

Naturalmente la correlacin entre la variable instrumental Zi y el error es cero (sea en valores


absolutos o en desviaciones de la media), pero de no ser as, la estimacin de 1 es bastante
grande comparado con los resultados que se obtengan, por el mtodo simple de mnimos
cuadrados expresados en el modelo (ii), ya que el estimador de VI se eleva conforme sube la
correlacin. Esto indica que es posible que los estimadores de VI sean dbiles, de modo que las
estimaciones resulten sobre dimensionadas o no robustas.
Finalmente hay que mencionar que hallar variables instrumentales es un proceso complejo,
en la medida que resolver las cuestiones de correlacin entre esta variable, el error y la variable a
reemplazar son aspectos difcil de hallar en simultneo, de modo que es probable que la VI sea
algo dbil. En ese caso, debemos pensar en usar otros criterios para resolver el hecho de
variables omitidas o sesgos de seleccin, este proceso inclusive se hace complicado a la hora de
reemplazar variables en los modelos con multicolinealidad.

209

Multicolinealidad en modelos economtricos

Conclusiones del captulo


En este captulo hemos explicado la presencia de multicolinealidad en los modelos
economtricos, esto se pude resumir como la relacin exacta o inexacta entre dos variables
explicativas, si la relacin es exacta no podran obtenerse los parmetros del modelo
economtrico lo cual invalida toda estimacin.
Sin embargo, es posible estimar los parmetros en modelos con variables multicolineales
inexactas, estos parmetros no obstante son sesgados, es decir no son estimaciones correctas.
Las fallas que genera la multicolinealidad tienen que ver principalmente con el incremento de
la varianza de los parmetros estimados, esta alza de la varianza genera que la prueba de
significancia sea menor de lo esperado, con lo cual los valores tenderan a ser no significativos.
La bondad de ajuste del modelo con multicolinealidad puede no verse mayormente afectada,
de modo que es posible hallar parmetros no significativos y bondad de ajuste alto (R2 altos y F
significativos). Otra forma de darnos cuenta de la multicolinealidad, tiene que ver con hallar el
valor del Factor inflador de varianza (FIV) o su inverso que es la Tolerancia, que si tiende a cero
indica la presencia de multicolinealidad.
Formas indirectas de ver si hay multicolinealidad tiene que ver con la especificacin del
modelo, as modelos con un criterio de informacin de Akaike (AIC) decreciente en la medida que
se aaden variables, indica que la nueva variable es relevante, mientras que mayores valores de
AIC indican que la variable aadida o las que estn en el modelo, alguna de ellas puede ser
colineal o cuando menos redundante.
Las correcciones a los modelos de multicolinealidad pueden ser variadas, desde la poco
recomendable opcin de eliminar variables, hasta posibilidades ms concretas como aumentar el
tamao de muestra, aumentar el nmero de variables, reemplazar alguna variable por otra,
transformar variables (o estimarlas previamente) e inclusive colocar variables en su pasado
inmediato o rezagadas.
Dado que es posible reemplazar variables por otras de igual impacto terico, esto se puede
lograr mediante variables aproximadas o proxy, as como el uso de variables instrumentales. Este
ltimo aspecto de reemplazar variables requiere necesariamente que la correlacin entre la
variable reemplazante y el nivel de error de la estimacin sea cero, adems que exista relacin
diferente de cero entre la variable instrumental y la reemplazada.

210

Multicolinealidad en modelos economtricos

Las variables instrumentales son complejas de hallar y deben cumplir las condiciones previas,
adems debe verificarse tambin que pueda existir causalidad entre esta y la variable a
reemplazar.

211

Multicolinealidad en modelos economtricos

Preguntas de opinin
1. Si la demanda de dinero influye en la tasa de inflacin, as como la demanda
interna, Es este modelo un ejemplo donde usar variable instrumental?, Por
qu?
2. Qu variable instrumental puede usar para la demanda de dinero que cumpla
los criterios sealados en el tema?
3. Qu variable proxy se usa normalmente en lugar de la demanda de dinero, ser
colineal con la demanda interna?
4. Qu diferencias existen entre el AIC y el BIC?
5. Por qu un menor AIC supone que el modelo gana potencia?

212

Multicolinealidad en modelos economtricos

Caso de aplicacin
Lectura previa
Tomando textualmente a Pasco Font et al (1999) se seala que:
La demanda de los servicios de telefona (en este caso las llamadas locales o servicio local y
de larga distancia hacia otras ciudades del pas y hacia ciudades localizadas en otros pases o
servicios de larga nacional e internacional) tiene algunas caractersticas no compartidas con la
demanda de la mayora de bienes o servicios, lo que usualmente dificulta su estimacin. En
particular, Taylor (1993) y Levy (1996), sugieren la existencia de cuatro aspectos: En primer
lugar, la demanda por el servicio de telefona est caracterizada por la existencia de una
externalidad al nivel de la red de usuarios. El acceso a la red no representa utilidad para un hogar
si los miembros de su grupo social o las empresas a las que compra no estn suscritos a la red.
Es decir, el acceso a los servicios de telefona es til en tanto otros individuos o empresas
tambin acceden a la red. En este sentido, cada vez que un hogar decide ser usuario de los
servicios genera una externalidad en los restantes hogares y empresas, por lo que el beneficio de
acceder a la red aumenta con el nmero de suscriptores.
En segundo lugar, existe una externalidad al nivel de las llamadas. Cada vez que un usuario
realiza una llamada, presumiblemente genera una externalidad en el receptor (los miembros de la
red estaran dispuestos a pagar una cantidad de dinero para tener la opcin de contestar las
llamadas). En esta perspectiva, la utilidad de los usuarios depende tambin del consumo de los
otros miembros de la red.
En tercer lugar, la demanda de servicios de telefona tiene un componente estocstico
importante. El patrn de llamadas de los individuos suele cambiar de manera importante ante la
ocurrencia de eventos no anticipados como son, por ejemplo, la enfermedad de un pariente o
amigo, el encuentro casual con otras personas, el acceso a nueva informacin, o la toma de una
decisin importante que modifique las necesidades de coordinacin con otras personas.
Finalmente, los tipos de llamada que efectan los miembros de un hogar son cualitativamente
distintos. Por ejemplo, existen diferencias entre una llamada a un familiar o amigo y una llamada
para averiguar la direccin de un establecimiento o para comprar una hamburguesa por telfono.
Es decir, existe heterogeneidad en los usos del servicio de telefona por lo que es necesario
hacer supuestos en la agregacin de las llamadas evitando, as, problemas con la definicin de la
demanda.
Las variables utilizadas en el estudio son el total de pasos del servicio local de telefona y el
total de minutos en el servicio de larga distancia consumidos mensualmente.
213

Multicolinealidad en modelos economtricos

Este tipo de informacin a nivel del hogar es adecuado para los objetivos del estudio, de
relacionar el acceso a la red de telefona y el consumo de los servicios con las tarifas, el ingreso
familiar y, especialmente, con las caractersticas socioeconmicas de los hogares, Para capturar
esta heterogeneidad de las familias, en el estudio se asume la existencia de varios grupos de
consumo distintos los que se representan por los niveles socio econmicos.
En el estudio se asume una secuencia en las decisiones de los hogares. En un primer
momento, los hogares deciden suscribirse al servicio. Esta etapa del modelo es importante
porque permite relacionar la suscripcin al servicio con el costo de instalacin (en buena cuenta
si el hogar tiene mas beneficios que costos al optar el servicio en trminos econmicos o si
acceder a telefona tiene excedentes del consumidor mayores a los costos) y las caractersticas
socioeconmicas de las familias. Si bien no se observa el neto de tener el servicio, si se observa
el acceso al servicio o el no acceso al mismo.
Posteriormente, en un segundo momento, una vez que se ha accedido al servicio, los
hogares deciden el consumo de los servicios de telefona local, de larga distancia nacional y de
larga distancia internacional.
Tomado textualmente de Pasco Font et al (1999)
Preguntas
1. Qu variables tomara en cuenta para estimar la demanda de acceso al servicio
de telefona?
2. Qu variables tomara en cuenta para estimar la demanda de uso del servicio de
telefona, difieren del caso anterior?
3. Es posible encontrar multicolinealidad en sus modelos previos?, cmo corrige
esta falla?

214

Multicolinealidad en modelos economtricos

Ejercicios
Si se maximiza una funcin de utilidad: U = X1 1 X2 2
Sujeto a la restriccin presupuestaria de I = P1 X1 + P2 X2, se obtiene una funcin de demanda
igual a:
Xi = i I / P i
Donde X es la cantidad demandada de bienes i. I es el ingreso del consumidor, P es el precio.
Entonces, con los siguientes datos:

T1

T2

T3

T4

T5

T6

T7

T8

T9

T10

P1

1.5

1.7

1.6

2.1

1.8

1.9

2.2

P2

0.5

0.4

0.3

0.3

0.2

0.25

0.28

0.3

0.27

0.24

X1

20

18

17

18

15

14

15

15

13

10

X2

10

11

12

14

16

10

10

14

16

Disee modelos economtricos, que permitan:

Para cada bien, probar que la elasticidad precio, ingreso y cruzada son unitarias,
considerando que la elasticidad precio tiene signo negativo.
Hallar 1 y 2
Pruebe que entre Pi y el Ingreso existe colinealidad, que recomienda en este caso

215

Multicolinealidad en modelos economtricos

Referencias bibliogrficas
Acemoglu, Daron y Johnson, Simon y James Robinson (2001) The colonial origins of comparative
development: an empirical investigation. American Economic Review, 91(5), p. 1369-1401.
Angrist, Joshua (1990) Lifetime Earnings and the Vietnam Era Draft Lottery: Evidence from Social
Security Administrative Records. American Economic Review, American Economic Association,
vol. 80(3), p. 313-36.
Angrist, Joshua y Alan Krueger (1991) Does Compulsory School Attendance Affect Schooling and
Earnings?. The Quarterly Journal of Economics, MIT Press, vol. 106(4), p. 979-1014.
Angrist, Joshua y Jorn-Steffen Pischke (2009) Mostly Harmless Econometrics. Princeton
University Press, Captulo 4.
Granger, C. (1969) Investigating causal relations by Econometrics models and cross spectral
Methods. Econometrica. Julio 1969. USA.
Greene, W. (2003) Econometric Analysis. Fifth Edition. Pearson Ed.
Gujarati, D. (2004) Econometra. 4ta Edic. Mc Graw Hill.
Jimnez, F. (2012) Elementos de teora y poltica macroeconmica para una economa abierta.
Fondo Editorial PUCP.
Johnston, J. and Dinardo, J. (1997) Econometric Methods. Fourth Edition. Mc Graw Hill
Levy, A. (1996). Semi-Parametric Estimation of Telecommunications Demand. Ph.D. Dissertation,
University of California at Berkeley.
Murray, Michael (2006) Avoiding invalid instruments and coping with weak instruments. Journal of
Economic Perspectives, 20(4), p. 111-132.
Novales, A. (1993) Econometra. Mc Graw Hill.
Pasco Font, A. Gallardo, J. Fry, V. (1999) La demanda residencial de servicios de telefona
bsica en el Per. OSIPTEL.
216

Multicolinealidad en modelos economtricos

Rodrguez, F. (2006) Anlisis de la demanda residencial de servicios de telefona fija en Ecuador.


Tesis. Escuela superior Politcnica del Litoral. Espol. Ecuador.
Rubin, Donald (1974) Estimating causal effects of treatments in randomized and non-randomized
studies. Journal of Educational Psychology, 66, p. 688-701.
Taylor, L.D y D. Kridel (1990). Residential Demand for Acces to the Telephone Network. En:
Telecommunication Demand Modelling: An Integrated View. A. De Fontenay, H. Shugar y D.
Sibley, Editores. North-Holland.
Wooldridge, J. (2009) Introductory Econometrics. A modern approach. Third Edition. Cengage
Learning.
Wooldridge, Jeffrey (2010) Econometric Analysis of cross section and panel data. The MIT Press,
Captulos 5 y 21.

217

CAPTULO VI
Heterocedasticidad en
Modelos economtricos

218

Heterocedasticidad en Modelos economtricos

VI. HETEROCEDASTICIDAD EN MODELOS ECONOMTRICOS


Introduccin al tema
En los estudios de mercado es posible que la muestra de individuos u objetos de anlisis,
sean diferenciadas o parecidas, por ejemplo tenemos en una muestra estratos diversos: por
edades, por gnero, por estudios, por zona de residencia y diversas otras variables que pueden
hacer que los individuos analizados sean o muy parecidos o bastante diferentes.
En los estudios de corte social normalmente anlisis de corte transversal donde medimos
variables sociales, tambin es muy probable que haya grupos parecidos y otros no, o que haya
individuos parecidos y otros no, por ejemplo el acceso a salud, la tenencia de seguro mdico, el
grado de alfabetizacin, los ingresos, el tamao familiar, los niveles educativos, los activos que
poseen y otras variables; que generan diferencias en el tratamiento de la informacin y los
resultados respectivos.
Cuando se tiene este tipo de situaciones en el anlisis y procesamiento de datos, es probable
que la varianza o desviacin cuadrtica entre los elementos de la muestra sea alta y no
constante, es decir si los individuos se parecen la varianza ser constante, pero a medida que lo
individuos se vayan diferenciando, la varianza deja de ser constante, se va asociando a las
diferencias entre los objetos de anlisis y va subiendo conforme ms heterognea sea la
muestra, en este caso estamos en presencia de heterocedasticidad.
La presencia de heterocedasticidad complica las estimaciones realizadas, crea sesgos en los
parmetros y sus intervalos de confianza, por ello requiere ser corregida, los mtodos de
correccin son diversos y todos ellos apuntan a tratar de ajustar los datos eliminando el efecto de
la varianza, de modo que los intervalos de estimacin se reduzcan y puede tenerse resultados
confiables en las estimaciones.
219

Heterocedasticidad en Modelos economtricos

6.1 Modelos seriales y diseo de modelos transversales


La presencia de varianza no constante o heterocedasticidad puede darse tanto en modelos
de series de tiempo como en modelos de corte transversal. En el caso de las series de tiempo,
normalmente estos modelos tienen la siguiente estructura:
Yit = 0 + 1 Xit + Uit
Donde t es el perodo de ocurrencia del evento y t puede ser meses, das, aos u otra
estructura temporal, en estos modelos normalmente se puede esperar varianzas estables,
pensemos en el ejemplo siguiente:
Fig. 6.1 Ingresos y ahorro hipotticos para pases A y B

Consideremos la informacin de la figura anterior, en donde postulamos que el ingreso influye


en el ahorro, ahora sealemos que el ingreso y el ahorro estn en miles de soles para los aos t
a t+19 (es decir 20 aos de informacin), es notorio que un pas tiene ingresos crecientes (pas
A) y el otro tiene ingresos bastante variables (pas B). En la figura consideramos que en ambos
pases el ahorro es el mismo, algo slo para fines de ejemplo, pero en la prctica muy poco
probable de ocurrir.
220

Heterocedasticidad en Modelos economtricos

Ahora analicemos los indicadores de varianza para cada pas, en el modelo hipottico siguiente:
Ahorro it = 0 + 1 Ingreso it + Uit
Realizando la estimacin usando los 20 datos, obtenemos lo siguiente para la varianza del
modelo general, igual a SCR / N-K, tambin obtenemos las varianzas para el uso de dos
muestras con slo 10 datos elegidos de modo aleatorio:
Tabla 6.1 Varianza del modelo Ahorro Ingreso hipottico
Pas

General

Muestra 1

Muestra 2

A!
B!

1.7774!
1.8707!

1.4082!
1.5702!

2.1479!
2.2087!

Como pueden notar en la tabla previa, las varianzas en todos los casos son cambiantes, esto
indica que las estimaciones realizadas al interno de cada muestra no logran aproximarse a la
poblacin, en buena cuenta hay mucha distancia entre el ahorro existente y sus estimaciones, la
figura siguiente muestra el error obtenido general para cada pas A o B:
Fig. 6.2 Error obtenido en el modelo Ingreso Ahorro por pas A y B

221

Heterocedasticidad en Modelos economtricos

Como se puede ver en la figura previa, el nivel de error no tiene un valor esperado de cero o
una suma igual a cero, ello porque es cambiante y bastante oscilante, al no cumplir el criterio de
media cero, entonces es natural que la varianza no sea constante. Ahora ajustemos la serie de
tiempo a la figura siguiente:
Fig. 6.3 Modelo Ahorro modificado e ingresos datos hipotticos pases A y B

Podemos notar que el ingreso A y el ahorro se comportan de manera similar, mientras que el
ingreso B sigue siendo bastante cambiante aunque con cierta relacin con A, los resultados del
modelo economtrico modificado presentan una varianza de 0.3816 para el pas A y de 2.80 para
el pas B, confirmando que la varianza existente es mayor en el caso de los cambiantes datos de
ingresos del pas B.
Los niveles de error al cuadrado del modelo con el ahorro modificado (mostrados en la fig.
siguiente) indican claramente que el modelo no es aplicable para el pas B debido a su naturaleza
de alta varianza y es de mayor confiabilidad en el caso del pas A.

222

Heterocedasticidad en Modelos economtricos

Fig. 6.4 Error cuadrtico del Modelo Ahorro modificado e ingresos pases A y B

Podemos tambin considerar si el error est asociado al ahorro o al ingreso, en ambos casos
tenemos:
Fig. 6.5 Error cuadrtico versus Ahorro (a) y versus Ingreso B (b)
(a)

(b)

223

Heterocedasticidad en Modelos economtricos

La fig. previa en el caso (a) indica que no hay mucha relacin entre la varianza (error
cuadrtico) y el ahorro modificado, si retrocedemos podemos observar cierta relacin entre la
variable ingreso y ahorro, de modo que la varianza no se asocia con la variable dependiente.
Observando la figura (b) notamos que existe cierto comportamiento correlacionado
(positivamente) entre la varianza y el nivel de ingreso del pas B, en este caso la variabilidad de
las estimaciones del modelo suceden, por cuanto la variable explicativa es muy voltil o
cambiante.
Es posible entonces, en los modelos de series de tiempo, la presencia de problemas de
varianza no constante o heterocedasticidad debido a que la variable explicativa o tambin la
dependiente, presentan un alto grado de variacin de manera individual y sus estimaciones son
bastante alejadas del valor real o histrico.
En el caso de los modelos de corte transversal su estructura es la siguiente:
Yij = 0 + 1 Xij + Uij
Aqu se pueden tener i observaciones para cada grupo j de anlisis, en buena cuenta j
representa los estratos, segmentos o sub grupos dentro de la muestra empleada, mientras que i
son todos los elementos que existen dentro de ese grupo.
Consideremos por ejemplo la tabla siguiente, donde slo se entrevistan mujeres y se quiere
relacionar la cantidad de kilos de fruta consumida por semana con el peso en kilos de la
entrevistada, la idea es que si la entrevistada tiene ms peso, entonces su tendencia es a
consumir ms frutas, con fines de ajustar su peso.
Las mujeres entrevistadas tienen entre 20 a 25 aos de edad. El modelo para los datos de la
tabla sera el siguiente (id es el nmero de entrevistado):
Fruta ij = 0 + 1 Peso ij + Uij

(i)

224

Heterocedasticidad en Modelos economtricos

Tabla 6.2 Datos para el modelo peso fruta Mujeres


id
1
2
3
4
5
6
7
8
9
10

Fruta
2
1
3
1
1
4
3
1
2
3

peso
45
65
76
55
52
75
85
48
49
61

Corriendo el modelo previo la varianza del modelo es: 0.7545.


Ahora si a la tabla anterior, le aadimos otro grupo de datos que seran los hombres entre 20
a 25 aos, tenemos la tabla siguiente:
Tabla 6.3 Datos para el modelo peso fruta Mujeres y Hombres
Hombres

Mujeres
id
1
2
3
4
5
6
7
8
9
10

Fruta
2
1
3
1
1
4
3
1
2
3

peso
45
65
76
55
52
75
85
48
49
61

id
11
12
13
14
15
16
17
18
19
20

fruta
2
1
1
1
3
1
2
1
1
2

peso
65
62
78
84
62
71
70
66
60
59

Usando los datos de la tabla anterior, la varianza del modelo previo resulta en 0.89899, lo
cual es mayor al obtenido slo con mujeres, evidenciando que conforme se van aadiendo
225

Heterocedasticidad en Modelos economtricos

grupos, se va elevando el nivel de varianza, esto sucede siempre que los grupos aadidos sean
diferentes al estrato previo.
Hay que notar que el modelo incluyendo hombres, debe tener alguna forma de discriminar la
presencia de hombres y mujeres, en este caso es posible aadir la siguiente variable dicotmica
(D):
D= o si es mujer
D = 1 si es hombre
Con ello el modelo planteado queda del siguiente modo, el error ahora es eij:
Fruta ij = 0 + 1 Peso ij + 2 Dj + eij

(ii)

As si el entrevistado es mujer, entonces el modelo slo estima el parmetro para ese grupo
de datos, ya que 2 Dj sera igual a cero.
Si el entrevistado es hombre (D=1), entonces la estimacin quedara del siguiente modo:
Fruta ij = 0 + 1 Peso ij+ 2 + Uij
En este caso, la estimacin tienen un valor adicional equivalente a 2, con lo cual se corrige la
estimacin inicial que no considera la variable dicotmica.
Hay que notar que la presencia de la variable Dj reduce el nivel de error presente en el
modelo, en el modelo inicial el error era equivalente a:
Uij = eij + Dj
En el nuevo modelo el error es slo eij, con lo cual la varianza se reduce. Estimando el
modelo (i) la varianza finalmente result en 0.77896, mucho menor al modelo general que incluye
a los hombres y ligeramente mayor al modelo (i) que slo inclua mujeres.
Si bien se redujo el nivel de varianza del modelo final (ii) respecto al (i), de todos modos se
presenta mayor varianza conforme hay ms grupos heterogneos en la muestra, grafiquemos el
nivel de error cuadrtico de la estimacin inicial y final para darnos cuenta de los efectos:

226

Heterocedasticidad en Modelos economtricos

Fig. 6.6 Error cuadrtico para el modelo Peso Fruta con mujeres y hombres

Como se ve en la fig. previa, el error cuadrtico del modelo slo con mujeres (error1cuad) es
mucho menor al que se tiene cuando se estima el modelo con los datos del grupo de hombres e
incluyendo la variable dicotmica, que se muestra como error2cuad.
Hay que notar adems que para los primeros 10 datos que son mujeres, la varianza del
modelo incluyendo hombres se parece mucho, ello porque la variable dicotmica es cero. En la
segunda parte de datos se incluyen los hombres, aqu la varianza del grupo de mujeres es
constante y la de los hombres eleva notoriamente el comportamiento previo con una mayor
oscilacin, evidenciando que el grupo es mucho ms heterogneo que las mujeres.
En la medida que se insertan nuevos grupos diferentes al anterior, la varianza ir subiendo en
las estimaciones economtricas que se realicen, sin embargo incrementar la cantidad de datos
en cada grupo puede reducir el nivel de varianza (esto supone que el tamao total de la muestra
se ampla). El efecto de una mayor cantidad de entrevistados por ejemplo, radica en que la media
ir convergiendo a la poblacional y con ello se ir reduciendo el nivel de error existente; adems
cada nuevo entrevistado adicional tender a parecerse al anterior, salvo que las unidades
muestrales o individuos sean muy diferentes an dentro del mismo sub grupo muestral, con lo
cual la muestra debera ser mucho ms grande an.
227

Heterocedasticidad en Modelos economtricos

Para fines de diseo de un modelo transversal que pueda ser de menor varianza y tenga
estimaciones fiables, es importante que la poblacin sea correctamente representada en la
muestra, veamos el siguiente ejemplo:
Tabla 6.4 Datos para diseo muestral
Datos poblacionales
Hombres
Mujeres
Rural
Urbano
Distrito A
Distrito B
Distrito C
20 a 30 aos
31 a 40 aos
41 a 50 aos
51 a ms
Total (N)

Valor
45%
55%
25%
75%
10%
65%
25%
22%
26%
32%
20%
1,300,000

Pensemos que la poblacin de inters son 1.3 millones de individuos, todos ellos son lectores
de diarios (peridicos, matutinos o noticieros impresos), y se ha credo conveniente asumir que
compran diarios desde los 20 aos, queremos saber de esta poblacin, primero su estructura. La
tabla anterior resume las caractersticas de inters en el estudio a realizar, como son el gnero,
la zona de residencia, la geografa de residencia o densidad urbana rural y la edad.
Si queremos por ejemplo, estimar la demanda de diarios de tipo econmico, podramos
realizar una encuesta preguntando las motivaciones e intenciones en torno a leer un diario de
noticias o comentarios econmicos, para dicha encuesta necesitamos una muestra, a
continuacin la frmula para este clculo:
n = N Z2 PQ / [ ( N 1) e 2 + Z2 PQ ]
Donde:
N: tamao poblacional (slo la poblacin de inters)

228

Heterocedasticidad en Modelos economtricos

Z: Nivel de confianza estandarizado en una distribucin normal, se asume 95% de confianza que
da un valor estndar de 1.96.
P: Poblacin que efectivamente comprar o estar interesada en el producto sujeto del estudio o
simplemente se asume 0.5 para maximizar la muestra, donde 0.5 indica que el 50% de la
poblacin estar interesada en lo que queremos vender o analizar.
Q: Es el complementario o inverso de P, es decir es 1-P
e: Nivel de error del estudio o diseo muestral, de cada 100 respuestas cuntas estarn fuera de
la media.
n: tamao de la muestra a estimar.
En el ejemplo anterior los resultados del tamao muestral se muestran a continuacin:
Tabla 6.5 Tamao muestral para diversos errores
Poblacin (N)
N homognea
N tpico
N Heterognea

Error
7%
5%
2%

Muestra
196
384
2397

Podemos observar que en el escenario tpico de aceptar un 5% de error, la muestra sale 384
entrevistados, sin embargo si consideramos que el pblico es muy parecido u homogneo,
podemos elevar el nivel de error a 7% con lo cual la muestra se reduce a 196 entrevistados.
Ahora si consideramos que e pblico es muy heterogneo (grupos muy diferentes entre s)
entonces es mejor reducir el nivel de error, en el ejemplo hemos pasado a un error de 2%, con lo
cual la muestra sale 2,397 entrevistados, como podemos concluir en esta parte, si se prev una
alta varianza, es mejor incrementar el tamao muestral.
Considere que trabajaremos con 384 entrevistas, reducir la varianza tambin implica conocer
la estructura de la muestra, la cual debe referirse exactamente a la poblacin:

229

Heterocedasticidad en Modelos economtricos

Tabla 6.6. Estructura de la muestra estimada


Gnero
Total
Urbano
Rural
Distrito A
Distrito B
Distrito C
20 a 30 aos
31 a 40 aos
41 a 50 aos
51 a ms

Hombre
173
43
130
17
112
43
38
45
55
35

Mujer
211
53
158
21
137
53
46
55
68
42

Total
384
96
288
38
250
96
84
100
123
77

Como se puede ver en la tabla previa, la muestra equivale a 384 personas, que se distribuyen
por gnero, por densidad urbana rural, por distrito, por edades; esta distribucin permite reducir
los errores de concentrarnos en grupos poblacionales con la cual podemos generar varianzas de
mayor distorsin.
Un paso final es la seleccin aleatoria de hombres o mujeres, segn las dems
caractersticas que se indican en la tabla previa, la aleatoriedad es importante por cuanto reduce
el error por sesgo de seleccin que ya vimos en el tema anterior.

6.2 Razones, fallas en la estimacin y deteccin de heterocedasticidad


Como hemos estado explorando en la seccin anterior, las razones para la presencia de
heterocedasticidad pueden ser diversas, entre ellas tenemos:
-

Un mal diseo para la determinacin de la poblacin objetivo, que termina incluyendo


grupos que no son de inters y con ello se eleva el grado de varianza. Por ejemplo
consideremos que estamos investigando la demanda de frmacos para la gastritis, en
ese caso incluimos los pacientes reportados en los diversos establecimientos de la
zona, que tengan ese mal. Si incluimos pacientes que no presentan ese cuadro clnico,
entonces es muy probable que la poblacin ya introduzca heterogeneidad en el diseo
elevando la varianza respectiva.
230

Heterocedasticidad en Modelos economtricos

Es probable que la toma de muestras en tiempos diferentes cambie la varianza en cada


perodo, por ejemplo realizamos un estudio para explicar las calificaciones sobre
habilidades en el idioma ingls al inicio de un curso cualquiera, an a pesar de que
todos tengan la habilidad base, es probable que las calificaciones mejoren al tomar una
muestra de anlisis al finalizar el curso, ello har que la varianza baje, ese cambio ya
genera heterocedasticidad. Yendo a ejemplos empresariales, es probable que los
paneles de consumidores vayan cambiando sus respuestas perodo a perodo, an si
es el mismo grupo o muestra de anlisis, ello porque los precios de los productos
pueden variar, o porque efectos externos pueden afectar el consumo de bienes o
servicios.

Efectos no manejables o externos como sealamos antes, pueden generar cambios en


la varianza. Pensemos que el ingreso de la poblacin en general mejora, con ello es
muy probable que la demanda se altere para algunos bienes, piensen en el concepto
de elasticidad ingreso o efectos renta, an a pesar de comportamientos estables de la
elasticidad, es posible que las proporciones de gasto o demanda de un bien cambie y
ello afecta la varianza de las estimaciones. Hay casos donde los estudios son sociales,
por ejemplo la pobreza antes de un programa de ayuda social puede ser muy
heterognea (es decir pobreza con variados indicadores de medicin por hogar), luego
del programa esta puede haberse reducido, con lo cual la varianza es menor. En
ambos casos hablamos de estudios donde hay muestras en diversos perodos de
tiempo.

La toma de datos influye tambin en la presencia de varianza no constante, por


ejemplo pensemos que el estudio requiere la eleccin de un producto por parte de un
nio de 8 a 12 aos (por ejemplo 0 si no elige el producto entre varios ofrecidos y 1 si
lo elige) , pero al no encontrar este pblico objetivo entonces se procede a tomar la
eleccin de personas entre 15 a 16 aos con ello hemos introducido un sesgo de
seleccin y es probable que la varianza aumente, ya que tenemos dos grupos de
anlisis con caractersticas bastante diferenciadas.

Series de tiempo con estacionalidades o con datos atpicos pueden ser causa de
varianza no constante o heterocedasticidad, por ejemplo piense un PBI que oscila entre
4 a 6% anual en los ltimos 40 aos y de pronto tiene una cada de -6%, con este dato
la varianza cambiar, la cada puede deberse a mltiples factores no manejables por el
investigador, en este caso es mejor retirar este dato, cuando se espera adems que las
condiciones econmicas en general hagan que el PBI vuelva a su nivel original. Ahora
si las cadas se mantienen, entonces hay que considerarlo, pues la varianza an
subiendo, refleja ya un comportamiento relevante en la economa, habr que corregir
231

Heterocedasticidad en Modelos economtricos

de algn modo la estimacin. Este ejemplo tambin darse por ejemplo si queremos
explicar la captura de anchoveta y resulta que por un clima no previsto en otras partes
del mundo, la presencia del cardumen es alta y eleva la captura fuertemente, este dato
es atpico y es mejor retirarlo del modelo, considerando que la captura, pasado el
efecto no manejable, volver a su nivel.
-

Ya antes sealamos que el sesgo de seleccin es una fuente de varianza no constante,


ahora pensemos que el sesgo de seleccin se presenta al poner en el modelo variables
no relevantes o no considerar algunas variables, en el caso de la omisin (sesgo de
variable omitida tratado en el tema anterior) que equivale al sesgo de seleccin, el
error del modelo crece rpidamente, con ello su valor cuadrtico o sea la varianza se
eleva y crea la heterocedasticidad.

Otras fuentes de heterocedasticidad se relacionan con la forma como se estructuran los


datos, hasta ahora suponemos que las variables tienden distribuciones de probabilidad
normal, pero pueden darse variables que se distribuyen de modo diferente. Por ejemplo
variables que se concentran en la parte baja de la distribucin (bajo la media) como la
pobreza o en la parte alta como la riqueza, si estas variables quieren explicar alguna
dependiente que si se distribuye normal, podran introducir tambin varianza no
constante en el modelo.

Finalmente est el hecho de estimar modelos en escalas diferentes o mediciones


diferentes, piense en un modelo cuyas variables tengan una medicin categrica:
1,2,3,4,5,6,7 (por ejemplo desde estar completamente de acuerdo hasta estar
completamente en desacuerdo) para la atencin al cliente, relacionado con la
facturacin de diversas empresas, en este caso an colocando en logaritmo de la
facturacin, es probable que haya heterocedasticidad por cuanto a menos posibilidad
de respuestas, ms probable la concentracin alta o baja y la varianza entre datos.

Cuando se presenta varianza no constante, las estimaciones que realizamos en los modelos
economtricos tienden a cambiar, veamos el modelo simple siguiente:
Y i = 0 + 1 X i+ U i
Donde, expresado en desviaciones:
1 = xiyi / xi2
Ahora ya hemos estimado antes, la varianza de 1, la cual es como sigue:
232

Heterocedasticidad en Modelos economtricos

Var 1 = E ( Zi ui) 2
Var 1 = E [ Z1 2 u1 2 + Z2 2 u2 2 + Z2 2 u3 2 + + Zn 2 un 2 + 2 Z1 Z2 u1 u2 + .+ 2 Zn-1 Zn un-1 un ]
Adems como vimos antes, el valor esperado E (ui uj) = E ( ui - E ui ) ( uj E uj) = E (ui * uj) = 0
La ecuacin de la varianza (Var) del parmetro, queda:
Var 1 =

( Zi 2 )

Donde Zi = xi / xi2
Var 1 =

xi 2 / (xi 2) 2

(1)

Si consideramos que la varianza siguiente es homocedstica o constante:


Var 1 =

/ xi 2

Entonces la expresin (1) anterior es la varianza heterocedstica, dado que la varianza


heterocedstica es mayor a la homocedstica, entonces los parmetros a estimar tendrn un
mayor intervalo de confianza, por lo cual su estimacin ser sesgada.
Para probar que la varianza del modelo (1) difiere de la varianza homocedstica
consideremos que lo siguiente es la estimacin de la varianza constante:
2

= Ui 2 / N 2 = E Ui 2

Donde Ui = Yi - 0 - 1 Xi
Entonces podemos expresar la varianza como:
2

= (0 + 1 Xi+ Ui - 0 - 1 Xi ) 2 / N - 2
= - ( 0 - 0 ) (1 - 1 ) Xi + Ui )2 / N - 2

No olvide que (Um se considera cero, pero lo expresamos aqu), en el modelo poblacional
(para 0 ) Um es cero, entonces ambos estimados quedan:
0 = Y m - 1 X m + U m
233

Heterocedasticidad en Modelos economtricos

0 = Ym - 1 Xm
Restando tenemos:
0 - 0 = - ( 1 - 1 ) X m + U m
Con lo que el modelo anterior queda:
2

= - [ - ( 1 - 1 ) Xm +Um ] (1 - 1 ) Xi + Ui )2 / N - 2
= ( 1 - 1 ) Xm - Um (1 - 1 ) Xi + Ui )2 / N - 2

= [ - ( 1 - 1 ) ( Xi - Xm ) + (Ui - Um) ] 2 / N 2

= [ - ( 1 - 1 )2 ( Xi - Xm )2 + 2( 1 - 1 ) ( Xi - Xm ) (Ui - Um)+ (Ui - Um) 2 ] / N 2

= [ - Var 1 ( Xi - Xm )2 + 2( 1 - 1 ) ( Xi - Xm ) (Ui - Um)+ (Ui - Um) 2 ] / N 2

Donde la media de Ui es cero, todos los productos con Ui tambin resultarn cero y sin
considerar a (N - 2), entonces:
E

= [ - Var 1 ( Xi - Xm )2 + E (Ui - Um) 2 ]

E
E

E
E

= [ - Var 1 xi 2 + E (Ui - Um) 2 ]

= [ - Var 1 xi 2 + E (Ui 2 - 2 Ui Um + Um 2 ]
= [ - Var 1 xi 2 + E Ui 2 + E Ui 2 / N ]

E
E

= [ - Var 1 xi 2 + ( N E Ui 2 + E Ui 2 ) / N ]
2

= [-

= [ - Var 1 xi 2 + ( N + 1) E Ui 2 / N ]
i

xi 2 / xi 2 + ( N + 1)

/N ]

(2)

234

Heterocedasticidad en Modelos economtricos

Si la estimacin es insesgada y sin heterocedasticidad entonces

y el valor de

E
=
i , si la estimacin contiene heterocedasticidad, entonces la varianza del modelo
resulta la expresin (2) calculada previamente y en ese caso la varianza del parmetro 1 es la
expresin mostrada en la ecuacin (1).
2

La estimacin sesgada de los parmetros, efecto de la heterocedasticidad, implica adems


que las pruebas t de Student resultarn bajas y con ello se podra descalificar la significancia de
los parmetros.
Dado que tenemos problemas de estimacin podra hacerse lo siguiente, a partir del modelo
ya planteado:
Y i = 0 + 1 X i+ U i
Yi = 0 A+ 1 Xi+ Ui
Donde: A es un vector de 1, o una variable que slo contiene el valor 1.
Ahora siempre que tengamos el valor de la varianza homocedstica, entonces podemos
hacer lo siguiente (los parmetros ajustados i* son distintos a los de los modelos originales):
Yi /

= 0* (A /

)+ 1* ( Xi /

) + Uij /

(3)

Donde la varianza del modelo se estima como:


Var Ui = E Ui 2 = E ( ui /

i)

Var Ui = E Ui 2 = E ( ui /

i)

Var Ui = E Ui 2 = ( 1 /
Var Ui = E Ui 2 = ( 1 /

i)

E ( ui ) 2

i)

Var Ui = 1
Con ello se tiene que la varianza del modelo (3) es constante, esta correccin empleada se
denomina normalmente mnimos cuadrados generalizados (MCG), donde la estimacin del
parmetro 1, sera la siguiente:
235

Heterocedasticidad en Modelos economtricos

Ui 2 = ( Yi - 0 + 1 Xi + Ui ) 2
Ponderando el modelo tal como se hizo en la ecuacin (3) para establecer los mnimos
cuadrados generalizados, tenemos:
i Ui 2 = i ( Yi - 0 * + 1 * Xi + Ui ) 2
Donde:
i = ( 1 /

2)

Diferenciando e igualando a cero como se hizo para obtener los estimados de mnimos
cuadrados (MCO) ya realizados en captulos anteriores, tenemos:
i Yi = 0 * i + 1 * i Xi
i Xi Yi = 0 * i Xi + 1 * i Xi 2
Finalmente los parmetros 0 * y 1 * quedan:
Ym * - 1 * Xm * = 0 *
Donde:
Ym * = Ym i / i
Xm * = Xm i / i
i Xi Yi = [ ( i Yi - 1 * i Xi ) / i ] * i Xi + 1 * i Xi 2
i Xi Yi = [ i Yi i Xi - 1 * i Xi i Xi ] / i + 1 * i Xi 2
i Xi Yi - i Yi i Xi / i = 1 * [ i Xi 2 - ( i Xi) 2 / i ]
i i Xi Yi - i Yi i Xi = 1 * i [ i Xi 2 - ( i Xi) 2 / i ]
i i Xi Yi - i Yi i Xi = 1 * [ i i Xi 2 - ( i Xi) 2 ]
[ i i Xi Yi - i Yi i Xi ] / [ i i Xi 2 - ( i Xi) 2 ] = 1 *

236

Heterocedasticidad en Modelos economtricos

Bajo el criterio del modelo de mnimos cuadrados generalizados (MCG), la varianza del
parmetro 1 *, queda del siguiente modo:
Var 1 * = i 2

Zi 2

Donde:
Zi 2 = [ i i Xi 2 - ( i Xi) 2 ] / [ i i Xi 2 - ( i Xi) 2 ] 2
Finalmente tenemos:
Var 1 * = i 2

/ [ i i Xi 2 - ( i Xi) 2 ]

Var 1 = i / [ i i Xi 2 - ( i Xi) 2 ]

Como podemos ver la estimacin de la varianza de 1 por MCG es una valor ponderado, note
en el denominador que se pondera las sumatorias de la variable independiente, mientras que en
MCO no existen esas ponderaciones, lo cual tiende a diferenciar ambas estimaciones. Si
tenemos que i (varianza homocedstica) es una constante entonces podemos determinar que la
varianza del modelo con MCG es equivalente a MCO:
Var 1 * = N / [ N Xi 2 - 2 ( Xi) 2 ]
Var 1 * = N / [ N 2 Xi 2 - 2 ( Xi) 2 ]
Var 1 * = N / 2 [ N Xi 2 - ( Xi) 2 ]
Var 1 * = N / [ N Xi 2 - ( Xi) 2 ]
Var 1 * = N
Var 1 * =
Var 1 * =

/ [ N X i 2 - ( X i) 2 ]

/ [ X i 2 - ( X i) 2 / N ]
2

/ [ Xi 2 - Xi Xm ]

Var 1 * = Var 1 =

/ xi 2

237

Heterocedasticidad en Modelos economtricos

Finalmente hay que sealar que la estimacin con MCG brinda estimadores con varianza
constante, lo cual hace que los parmetros sean de mayor potencia y tambin son insesgados.
Detectar la heterocedasticidad requiere analizar el comportamiento de los errores al
cuadrado, una primera seal es la mostrada en las figuras 6.5 (a) y (b), donde (b) muestra una
cierta relacin con la variable independiente. Entonces una primera seal de heterocedasticidad,
es que las variables independientes o dependientes no tienen relacin alguna con el error al
cuadrado.
Para el uso de la tcnica grfica, consideremos el modelo (ii) ya realizado antes:
Fruta ij = 0 + 1 Peso ij + 2 Dj + eij

(ii)

Los resultados de este modelo son:


Fig. 6.7 Resultados del modelo (ii) fruta peso
. reg fruta1 peso1 d
Source

SS

df

MS

Number of obs =
F(

2,

20

17) =

2.54

Model

3.95766652

1.97883326

Prob > F

0.1083

Residual

13.2423335

17

.778960793

R-squared

0.2301

Adj R-squared =

0.1395

Total

17.2

19

.905263158

Root MSE

.88259

fruta1

Coef.

peso1

Std. Err.

P>|t|

[95% Conf. Interval]

.0306487

.0184152

1.66

0.114

-.0082041

.0695014

-.8022812

.4129943

-1.94

0.069

-1.673623

.0690605

_cons

.2273661

1.159269

0.20

0.847

-2.218479

2.673211

Ahora graficaremos el error cuadrtico obtenido en el modelo anterior, contra las variables
dependiente e independiente lo cual se muestra a continuacin:
238

Heterocedasticidad en Modelos economtricos

Fig. 6.8 Error cuadrtico versus Fruta

Es probable que la Fig, 6.8 indique la presencia de heterocedasticidad dada la relacin entre
el error cuadrtico y la variable dependiente, mientras que los datos de la Fig. 6.9 no indican
presencia de heterocedasticidad.
Fig. 6.9 Error cuadrtico versus Peso

239

Heterocedasticidad en Modelos economtricos

Una segunda forma de detectar este problema, implica realizar algunas pruebas previas, las
ms conocidas plantean siempre relaciones estadsticas entre el error cuadrtico y las variables
existentes.
Park (1966) propone la siguiente prueba, conocida como test de Park (donde e* es el error del
modelo planteado por Park):
Ln

2=

Ln

2+

Ln eij 2 = Ln

2+

1 Ln Xi + e*i
1 Ln Xi + e*i

Ln eij 2 = 0 + 1 Ln Xi + e*i
En este test, la presencia de heterocedasticidad se relaciona con la significancia del
parmetro 1, para hallar esta estimacin, primero obtenemos los errores del modelo (ii) o
modelo original ya planteado y luego se procede a estimar la regresin respectiva, de acuerdo
con ello los resultados son los siguientes:
Fig. 6.10 Test de Park
. reg lnerror2 lnpeso
Source

SS

df

MS

Number of obs =
F(

Model

.051306844

.051306844

Residual

28.0326955

18

1.55737197

1,

20

18) =

0.03

Prob > F

0.8580

R-squared

0.0018

Adj R-squared = -0.0536


Total

lnerror2

28.0840023

Coef.

19

1.47810539

Std. Err.

Root MSE

P>|t|

1.2479

[95% Conf. Interval]

lnpeso

.2862508

1.577086

0.18

0.858

-3.027083

3.599585

_cons

-2.198639

6.550322

-0.34

0.741

-15.96036

11.56308

240

Heterocedasticidad en Modelos economtricos

Como evidencia el test de Park mostrado en la regresin previa, el ajuste del modelo es de
0.1% y el valor t de Student para la variable lnpeso (independiente) es de 0.18, lo cual no es
significativo, con ello descartamos la presencia de heterocedasticidad.
Otra prueba empleada en la deteccin de heterocedasticidad es la prueba de Breusch Pagan (1979) y Godfrey (1978), en este caso primero se plantea el modelo respectivo o modelo
original:
Fruta ij = 0 + 1 Peso ij + 2 Dj + eij
De este modelo se obtiene la varianza del mismo, bajo el criterio de mxima verosimilitud, es
decir empleado la frmula siguiente ya estimada antes (donde Ui es el error del modelo que se
estime inicialmente o el modelo original):
mv

= Ui 2 / N

Con ese valor se obtienen los errores cuadrticos corregidos, los cuales se expresan del
siguiente modo:
e i = e i 2 /

Con la estimacin previa se realiza la siguiente regresin:


ei = 0 + 1 Peso + vi
De los resultados del modelo previo, se obtiene un indicador derivado de la SCE, estimado
del siguiente modo:
SCE Breusch-Pagan-Godfrey = 0.5 SCE

Apliquemos el test de Breusch - Pagan (1979) y Godfrey (1978) para el modelo peso fruta (ii)
usado de ejemplo, primero la varianza (con verosimilitud) resulta:
mv

= 13.2423335 / 20 = 0.6621

Ahora corremos la regresin con el error cuadrado ajustado, (ei ) los resultados son:

241

Heterocedasticidad en Modelos economtricos

Fig. 6.11 Test de Breusch Pagan - Godfrey


. reg errorajus peso
Source

SS

df

MS

Number of obs =
F(

Model

.286924009

.286924009

Residual

23.1487013

18

1.28603896

1,

20

18) =

0.22

Prob > F

0.6424

R-squared

0.0122

Adj R-squared = -0.0426


Total

23.4356253

errorajus

Coef.

peso1
_cons

19

1.23345396

Root MSE

1.134

Std. Err.

P>|t|

[95% Conf. Interval]

.0106815

.0226139

0.47

0.642

-.0368285

.0581915

.3121122

1.478247

0.21

0.835

-2.793568

3.417793

Con los resultados anteriores, el indicador de cuadrados explicados es:


SCE Breusch-Pagan-Godfrey = 0.5 * 0.286924009 = 0.143462

El valor de SCE hallado para este test, debe evaluarse en una distribucin chi cuadrado con 1
variable explicativa o 1 grado de libertad (los grados de libertad equivalen al nmero de variables
independientes). Para el 5% de confianza, el valor de la distribucin chi cuadrado es 3.8414, de
modo que el valor hallado de 0.14 no supera el valor de la distribucin esto significa que su
varianza es menor del punto mximo, lo que indica la no existencia de heterocedasticidad.
Si el valor SCE del test, supera al valor de la distribucin chi cuadrado, entonces la varianza
supera el mnimo establecido y es heterocedstica.
Otro test muy usado es la prueba de White (1980), mediante esta prueba se relacionan los
errores cuadrticos del modelo original con las variables explicativas en la forma siguiente:
Yi = 0 + 1 X1 + 2 X2 + Ui
242

Heterocedasticidad en Modelos economtricos

U i 2 = a0 + a1 X1 + a2 X2 + a3 X1 2 + a4 X2 2 + a5 X1 X2 + vi
De la regresin previa se obtiene el valor de R2, con el cual se construye el siguiente
indicador:
NR2
El valor anterior NR2, sigue una distribucin chi cuadrado, de modo que si supera el valor de
la distribucin al 5% existe heterocedasticidad. En este caso el R2 es bastante alto, de modo que
la relacin entre el error cuadrtico y las variables explicativas es alto, presentndose
heterocedasticidad.
Si el valor R2 es bajo no se tienen mayores relaciones entre el error cuadrtico y las variables
explicativas, lo que indica que no existe heterocedasticidad, el indicador de varianza NR2 no
supera entonces el valor de la distribucin chi cuadrado. Considere siempre que existen grados
de libertad equivalentes al nmero de variables independientes.
Apliquemos el test de White para el ejemplo usado, los resultados son:
Fig. 6.12 Prueba de White
. reg error2cuad peso
Source

SS

df

MS

Number of obs =
F(

Model

.125787053

.125787053

Residual

10.1483557

18

.56379754

1,

20

18) =

0.22

Prob > F

0.6424

R-squared

0.0122

Adj R-squared = -0.0426


Total

10.2741428

error2cuad

Coef.

peso1
_cons

19

.540744357

Root MSE

.75086

Std. Err.

P>|t|

[95% Conf. Interval]

.0070724

.014973

0.47

0.642

-.0243848

.0385296

.2066547

.9787717

0.21

0.835

-1.849668

2.262978

243

Heterocedasticidad en Modelos economtricos

Con los resultados previos el indicador de varianza resulta:


N R2 = 20 * 0.0122 = 0.244
Este valor es menor al valor de la distribucin chi cuadrado al 5% de confianza, que es de
3.8414, de modo que podemos decir que no existe heterocedasticidad, siendo la varianza del
modelo homocedstica.

6.3 Correccin de heterocedasticidad


Como ya indicamos, la presencia de heterocedasticidad implica parmetros con una varianza
mayor a la esperada, comparada con una distribucin de datos homocedstica. Por ello es
importante corregir este problema, ya vimos que una salida es la estimacin por MCG, sin
embargo ello se enfrenta al problema de tener una varianza muestral observada o tener una
varianza aproximada mediante otras variables.
Cuando la varianza del modelo no es conocida (dado que con heterocedasticidad esta
varianza tiene ms componentes de variabilidad), es posible hacer las siguientes relaciones:
2

correlacionado con X 2

Dado que necesitamos la desviacin del modelo, esta puede aproximarse del siguiente modo:
correlacionado con X
En caso la varianza del modelo se correlacione con X, entonces la desviacin puede
plantearse del siguiente modo:
correlacionado con X 0.5
Si la relacin entre la varianza y la variable dependiente estimada existe, tal como vimos
antes, esto puede plantearse as:
correlacionado con Y
correlacionado con Y 0.5
244

Heterocedasticidad en Modelos economtricos

Entonces un paso previo para corregir la heterocedasticidad puede ser graficar el error
cuadrtico contra la variable dependiente o independiente y elegir la variable donde ms
correlacione, otra es usar los clculos de correlacin entre variables.
Para aplicar las correlaciones empleamos el ejemplo previo del peso y consumo de fruta,
primero veamos el modelo respectivo y luego las correlaciones, siempre usando el modelo (ii):
Fruta ij = 0 + 1 Peso ij + 2 Dj + eij
Error 2 vs Peso =
Error 2 vs Fruta =
error 2 vs Peso 2 =
Error 2 vs Fruta 2 =

(ii)

0.110648409
0.372621576
0.088780417
0.449366471

Como puede verse, la correlacin ms grande entre el error y la variable, se presenta con
Fruta 2 (que es la variable dependiente), dada la relacin cuadrtica, entonces la desviacin
implica lo siguiente:
correlacionado con Y
Con lo cual el modelo (ii) se puede estimar del siguiente modo:
Fruta ij / Y = 0 * (1 / Y ) + 1 * ( Peso ij / Y ) + 2 * ( Dj / Y ) + ( eij / Y )

(iii)

Hay que notar que el modelo (iii) se estima sin constante, para poder as obtener el valor del
parmetro 0*, ya que (1 / Y ) se transforma en una variable.
Los resultados del modelo estimado se muestran en la Fig. siguiente:
Donde:
Ye, es la estimacin Fruta / Y
Yinv, equivale a 1 / Y
Xe, equivale a Peso / Y
De, equivale a la variable D / Y.
245

Heterocedasticidad en Modelos economtricos

Fig. 6.13 Estimacin MCG del modelo peso fruta


. reg Ye Yinv Xe De, noconstant
Source

SS

df

MS

Number of obs =
F(

Model

20.6849782

6.89499272

Residual

4.36247099

17

.25661594

Total

25.0474491

Ye

Coef.

Yinv

20

1.25237246

3,

20

17) =

26.87

Prob > F

0.0000

R-squared

0.8258

Adj R-squared =

0.7951

Root MSE

.50657

Std. Err.

P>|t|

[95% Conf. Interval]

.911444

1.268191

0.72

0.482

-1.764206

3.587094

Xe

.0170468

.0216428

0.79

0.442

-.0286155

.0627091

De

-.4616473

.4402641

-1.05

0.309

-1.390523

.4672287

Hay que notar que el modelo no tiene constante de modo que para obtener este valor, basta
con establecer la siguiente ecuacin:
0* [ 1 / Y ] Y = 0.91444
En el caso del valor que tiene la constante, se debe a que la varianza resultante del modelo,
genera que la estimacin por MCG tenga diferencias respecto del modelo (ii) original, as el
estimador 0* difiere del 0 hallado originalmente con MCO.
En el caso de los parmetros de las variables explicativas, si multiplicamos 1 * Y y sacamos
la media de esta estimacin, obtenemos con muy escasas diferencias, el estimador 1 y 2 del
modelo original (ii):
1 = ( 0.0170468 * Y ) / 20 = 0.0306
2 = ( -0.4616473 * Y ) / 20 = - 0.8

246

Heterocedasticidad en Modelos economtricos

Una vez comprobada que el modelo MCG corrige los parmetros hay que notar que la
varianza del modelo ha cambiado, pas de 0.7789 en el original de MCO a 0.2566 en el modelo
por MCG. Dado que en nuestro ejemplo no existe heterocedasticidad, al corregirlo en la prctica
estamos variando el error estndar de cada parmetro.
En el caso de la variable explicativa denominada Peso en el modelo MCO y Xe en modelo
MCG, el error estndar pas de 0.0184 a 0.0216, la tasa de cambio ha sido pequea, las
varianzas son bastante parecidas, 0.00034 en el caso MCO y 0.00047 en el caso MCG, ello se
debe a la no presencia de heterocedasticidad, en el caso de que el modelo (iii) original hubiera
sido heterocedstico, la correccin por MCG hubiera generado menores errores estndar.
La correccin por MCG debera mejorar la prueba t de Student, siempre que el modelo inicial
presente la varianza no constante.
La estimacin por MCG nos dara parmetros con varianza constante, que seran en caso de
presencia heterocedstica, los resultados mostrados en la Fig. 6.13 anterior.
En el caso de que la varianza sea conocida, se puede aplicar directamente al modelo la
estimacin por MCG ya planteada antes en la ecuacin (3) donde A=1:
Yi /

= 0 (A /

)+ 1 ( Xi /

) + Uij /

(3)

La varianza conocida se refiere a que conocemos las desviaciones existentes dentro de cada
sub muestra o grupos que conforman la muestra de anlisis.
Por ejemplo, si analizamos la rentabilidad de los bancos, cajas municipales, cajas rurales y
otras entidades financieras en funcin al tamao o volumen crediticio, podemos hallar las
varianzas al interno de cada subgrupo, es decir la varianza en el grupo de bancos, luego la
varianza en cajas y etc, esta vendra a ser la varianza conocida del modelo.
Para ejemplificar el uso de la varianza conocida, tomemos este ejemplo de Gujarati (2004),
donde el modelo a plantear sera el siguiente:
Rotacin promedio = 0 + 1 Tamao + eij

247

Heterocedasticidad en Modelos economtricos

Tabla 6.7 Datos trimestrales para rotacin de activos segn rango de tamao de activos
Rotacin de activos promedio por empresa (1) segn Tamao de
activos
(mills de soles)
Ao /
100 a
250 a
1000 a
Rango *
Trim
!
1 a 10 10 a 25 25 a 50 50 a 100
250
1000
+
1
1
6.696 6.929
6.858
6.966
7.819
7.557
7.860
2
6.826 7.311
7.299
7.081
7.907
7.685
7.351
3
6.338 7.035
7.082
7.145
7.691
7.309
7.088
4
6.272 6.265
6.874
6.485
6.778
7.120
6.765
2
1
6.692 6.236
7.101
7.060
7.104
7.584
6.717
2
6.818 7.010
7.719
7.009
8.064
7.457
7.280
3
6.783 6.934
7.182
6.923
7.784
7.142
6.619
4
6.779 6.988
6.531
7.146
7.279
6.928
6.919
3
1
7.291 7.428
7.272
7.571
7.583
7.053
6.630
2
7.766 9.071
7.818
8.692
8.608
7.571
6.805
3
7.733 8.357
8.090
8.357
7.680
7.654
6.772
4
8.316 7.621
7.766
7.867
7.666
7.380
7.072
Fuente: Basado en Gujarati (2004)
* El rango no es abierto, la categora dos va de 10.01 a 25 millones y as en cada caso
En buena cuenta, el tamao de las empresas puede influenciar en la rotacin de activos, que
normalmente se mide como Ventas / Activos, la rotacin es un indicador importante para medir la
productividad de la empresa y es un componente de la rentabilidad sobre activos.
En este modelo tomamos el tamao promedio para cada grupo de activos, ello para realizar
una regresin del modo ms simple posible y ejemplificar el proceso de estimacin.
La variable Tamao ser categrica e ir de 1 a 7, donde 1 corresponde al tamao de 1 a 10
millones y 7 corresponde al tamao de 1000 millones a ms.
Con base a lo anterior, el modelo finalmente usa los datos siguientes:

248

Heterocedasticidad en Modelos economtricos

Tabla 6.8 Rotacin promedio y tamao por categoras


Rango !
Rotac. Prom
Tamao

1 a 10
7.026
1

10 a 25
7.265
2

25 a 50
7.299
3

50 a 100 100 a 250 250 a 1000 1000 a +


7.359
7.664
7.370
6.990
4
5
6
7

Con esos datos, la regresin brinda los siguientes resultados:


Fig. 6.14 Resultados MCO para el modelo tamao de activos rotacin

. reg Rotacion Tamao


Source

SS

df

MS

Number of obs =
F(

1,

5) =

0.13

Model

.007736167

.007736167

Prob > F

0.7355

Residual

.303023776

.060604755

R-squared

0.0249

Total

.310759942

.051793324

Adj R-squared = -0.1701

Rotacion

Coef.

Std. Err.

Root MSE

.24618

P>|t|

[95% Conf. Interval]

Tamao

.016622

.0465237

0.36

0.735

-.102971

.136215

_cons

7.215298

.2080604

34.68

0.000

6.680461

7.750134

El modelo anterior tiene un ajuste de 2.5%, con una varianza de 0.0606 y los parmetros no
son significativos.
Ahora consideremos que existe heterocedasticidad (puede probarse la misma con los test ya
sealados antes), entonces para estimar el modelo por MCG se requiere hallar la desviacin
estndar, los resultados son los siguientes:

249

Heterocedasticidad en Modelos economtricos

Tabla 6.9 Desviacin de la rotacin y variables ponderadas por (1/desviacin)


Rango !
Desviacin estndar
Rotac prom /desviacin
1/desviacin
X/desviacin

1 a 10
0.62
11.31
1.61
1.61

10 a 25
0.80
9.05
1.25
2.49

25 a 50 50 a 100 100 a 250


0.46
0.64
0.47
15.77
11.42
16.40
2.16
1.55
2.14
6.48
6.21
10.70

250 a
1000
0.26
28.75
3.90
23.41

1000 a
+
0.37
19.14
2.74
19.17

Donde la desviacin estndar calculada corresponde a cada grupo de datos de la tabla 6.7,
as la desviacin de 0.62, equivale a la desviacin estndar de la rotacin trimestral para el
tamao 1 de activos (1 a 10 millones), el calculo de la desviacin se puede hacer con el comando
= desvest ( ) de Excel .
Con los resultados previos, el modelo por MCG es el siguiente:
Rotacin promedio /

= 0 * ( 1 /

) + 1 * ( Tamao /

) + ( eij /

Las variables para correr este modelo estn en la tabla 6.9, la regresin por MCG se hace sin
constante y los resultados se muestran en la Fig. siguiente. Como puede notarse la varianza del
MCG ha pasado a ser 0.12187, ligeramente mayor lo que evidencia la no presencia de
heterocedasticidad por cuanto la varianza no se redujo.
El error estndar de la variable Tamao para el modelo inicial por MCO es 0.0465, mientras
que con MCG el error estndar de Tamao / i, es 0.037, la cual es menor debido a que al
ponderar la variable, hemos reducido el efecto de la varianza no constante.
La prueba t de Student para la variable tamao mejor notoriamente entre el modelo con
MCO y el modelo con ponderaciones o MCG.

250

Heterocedasticidad en Modelos economtricos

Fig. 6.15 Regresin MCG o MC Ponderados para la rotacin versus tamao de activos
. reg Rotacion1 desv_inv Tamano1, noconstant
Source

SS

df

MS

Number of obs =
F(

2,

4) = 6909.50

Model

1684.14024

842.070122

Prob > F

0.0000

Residual

.48748545

.121871362

R-squared

0.9997

Adj R-squared =

0.9996

Total

1684.62773

280.771288

Std. Err.

Root MSE

P>|t|

.3491

Rotacion1

Coef.

[95% Conf. Interval]

desv_inv

7.118227

.1838038

38.73

0.000

6.607905

7.628548

Tamano1

.0539352

.0373373

1.44

0.222

-.0497297

.1576002

Hay que indicar que el efecto del tamao sobre la rotacin de activos es de 0.0539, para el
caso de las variables ponderadas, el efecto es mayor a la estimacin inicial de 0.0166, ello
debido a que elimina el sesgo de varianza no constante.
Finalmente si la ponderacin fuera realizada con la variable X (para el caso que no se
conozca la varianza), el modelo original quedara:
Rotacin promedio / Tamao = 0 * (1 / tamao) + 1 (Tamao / Tamao) + eij
Rotacin promedio / Tamao = 0 * (1 / tamao) + 1 + eij
El modelo anterior debe estimarse mediante una regresin donde se incluya el intercepto, el
valor del intercepto ser el estimador de 1 sin el efecto de heterocedasticidad.

251

Heterocedasticidad en Modelos economtricos

Conclusiones del captulo


En este captulo hemos explicado la presencia de heterocedasticidad o varianza no
constante. Como sabemos en los modelos economtricos se supone normalmente que la
varianza es constante, eso garantiza que los parmetros estimados sean insesgados y eficientes,
pero en muchos estudios realizados, sobre todo aquellos de corte transversal es muy probable
que la varianza sea cambiante o creciente conforme se usan ms datos en la muestra.
Las razones de esta varianza no cambiante se basan en que la inclusin de grupos diferentes
de observaciones pueden elevar la variabilidad, piense en ejemplos donde vamos aadiendo
elementos o individuos de diferentes ingresos, diferentes niveles educativos y otras
caractersticas, ello har que la varianza entre observaciones sea creciente o no constante.
La presencia de heterocedasticidad complica la estimacin por mnimos cuadrados, los
estimadores se hacen ineficientes e insesgados (crece el intervalo de confianza) y con ello se
reduce la potencia de la prueba t de Student lo que hace que los modelos pierdan significancia
en sus variables explicativas.
Para evitar estos problemas se usan ponderaciones para las variables, un ponderador puede
ser la inversa de la desviacin estndar del modelo (generando una variable ajustada o sin la
varianza) con ello la varianza final es la unidad, otra ponderacin usada es la inversa de la
variable donde se presenta la relacin con el error cuadrtico (variable dependiente o
independiente), en este caso al dividir sobre la variable que crea la heterocedasticidad
procedemos a reducir el efecto.
Finalmente las estimaciones ponderadas tienden a llamarse mnimos cuadrados
generalizados o mnimos cuadrados ponderados (dependiendo que se use como ponderador), si
tengo la varianza del modelo o esta es conocida a partir de la muestra de datos, entonces uso la
estimacin MCG, pero si esa varianza no est disponible, entonces ponderamos con las
variables existentes.
Las estimaciones de los parmetros cuando usamos las correcciones respectivas, tienden a
ser insesgados y eficientes, pudiendo verificarse el efecto en la variable dependiente y sus
respectivos valores de t de Student.
Finalmente hay que sealar que detectar la heterocedasticidad, supone relacionar el error
cuadrtico con las variables (normalmente explicativas) que existen en el modelo, para ello se
pueden emplear test diversos como el de Park, White o el de Breusch-Pagan y Godfrey.
252

Heterocedasticidad en Modelos economtricos

Preguntas de opinin
1. Por qu en una serie de tiempo es menos probable que haya
heterocedasticidad?
2. La heterocedasticidad puede darse por sesgo de seleccin? Explique.
3. La varianza del modelo heterocedstico relacionada con X en la prctica qu
implicancia tiene?
4. Explique Por qu la varianza podra no ser conocida en caso de
heterocedasticidad?
5. Cmo se relacionan entre s, los test de deteccin de heterocedasticidad aqu
estudiados?

253

Heterocedasticidad en Modelos economtricos

Caso de aplicacin
Lectura previa
Tomando textualmente a Amors (2009):
En el Per, como en otros pases, la oferta de microcrdito con fines de lucha contra pobreza,
se ubica generalmente dentro de la estructura de organizaciones no gubernamentales (ONG);
otras modalidades de financiamiento son de aquellas entidades que sostienen el autoempleo de
sus miembros y se denomina generalmente Cooperativas de Ahorro y Crdito, un paso ms
adelante y ya en la esfera de las microfinanzas; se encuentran aquellas orientadas al crdito a
microempresas como las Entidades de Desarrollo de la Microempresa (EDPYME) y en una
escala de mayor desarrollo con crditos hacia la micro y pequea empresa, adems de cumplir
diversas funciones de la banca comercial se encuentra las Cajas Rurales y Cajas Municipales
(Jansson, 2001).
Dado que el mercado crediticio no es restringido al accionar de una entidad especfica, es
posible encontrar compitiendo en el mismo mercado a las cooperativas de crdito, edpymes,
cajas rurales, cajas municipales, bancos especializados en pequea empresa y banca comercial,
de modo que todas estas entidades encajan en la idea de microfinanzas. Esto supone una oferta
de crdito orientada a las necesidades empresariales antes que personales, cuyo fin es
bsicamente la expansin de las operaciones de la empresa mediante el financiamiento
especializado (Jansson, 2003).
Copa et al (1995) seala adems que la oferta de financiamiento hacia la pequea empresa
peruana, tambin ha pasado por alianzas entre bancos tradicionales y ONGs, estableciendo una
tecnologa crediticia externa al banco, es decir el seguimiento y seleccin lo hacen las ONG y el
banco comercial acta como financiador (similar a la banca de segundo piso) en este caso el
riesgo se comparte entre ambas entidades y el repago es mayor dado la vigilancia permanente
de las ONG; que adems despliegan en la zona mltiples actividades no slo de crdito, sino
ayuda social en general.
El sistema de microfinanzas tiene algunas diferencias con la banca comercial, una de ellas es
que las entidades de microfinanzas no cumplen todas las funciones que la banca realiza, esto
debido a criterios regulatorios. Otra diferencia notoria son las tasas de inters cobradas, las
mismas que superan en gran medida el inters cobrado por la banca. Copa et al (1995)
manifiestan que este podra ser un aspecto positivo, ya que la pequea empresa peruana al
financiarse a altas tasas de prestamistas informales, en realidad no tienen mucha sensibilidad al
precio y ello ayudara a la entrada de entidades de microfinanzas a tasas relativamente altas pero
254

Heterocedasticidad en Modelos economtricos

menores a los crditos informales; permitiendo de ese modo cubrir los altos costos de monitoreo
o vigilancia del repago, dado que el seguimiento efectuado por las entidades de microfinanzas al
crdito, es personal y continuo.
En otros casos la vigilancia del repago, se ayuda de crditos solidarios o grupales, aspecto
an presente en las realidades rurales; pero en los mbitos de la microempresa urbana, el crdito
es una actividad personal y por ende costosa de seguir, sobre todo cuando los montos son
pequeos, en ese caso la nica forma de rentabilizar a los ofertantes es sostener altas tasas de
inters (Banerjee, 2002).
En el mercado de microfinanzas hay caractersticas que permiten su separacin de los
mercados bancarios tradicionales, Chong y Schroht (1998) sealan que los clientes de
microfinanzas por lo general carecen de colateral, que la informacin respecto del historial
crediticio es limitada; que existen problemas de seleccin adversa por informacin asimtrica. Es
decir que la probabilidad de prestarle dinero a un cliente con problemas de repago, con riesgos
elevados o conducta dudosa; es alta ante ausencias de informacin pasada del cliente, riesgos
que actualmente se han reducido ante la expansin de las centrales de riesgo y la mayor
penetracin del mercado, cambios que se han dado continuamente desde finales de los aos 90.
Otros factores que diferencian el mercado microfinanciero se relacionan con el seguimiento ms
costoso, ventajas que dispone la banca comercial al contar con clientes ms grandes o mejor
conectados al mercado financiero. El mercado microfinanciero tambin tiene aspectos
culturalmente aceptados, como la permanencia de crdito subsidiado del estado o de ONGs
(aspecto muy reducido en los mercados urbanos) y la falta de ahorro de los hogares pobres. Sin
embargo este ltimo argumento de los autores es un tema debatible, toda vez que el ahorro en
las microfinanzas tiende a ser creciente en los ltimos aos.
Investigaciones relacionadas a las microfinanzas tienden a especificar el financiamiento a
partir del gnero, en este sentido Yunus (2006) seala el abierto nfasis de brindar crdito a
mujeres, considerando que ello permite una elevacin de ingresos en la familia y la generacin
de ahorros que puede hacer sostenible el proceso de intermediacin.
Stiglitz y Weiss (1981) sealan tambin, que subir la tasa de inters, eleva la probabilidad de
que los clientes asuman proyectos ms riesgosos y por ende generan problemas de pago, este
aspecto conocido como riesgo moral, es algo que los mercados en competencia generalmente no
tienen, por ello en estas condiciones, la oferta se raciona o restringe y se equilibra en contextos
de exceso de demanda, discriminando a los demandantes.
De acuerdo a lo anterior, Tenjo (2002) hace algunas relaciones con el mercado crediticio
colombiano, encontrando que el comportamiento de la banca comercial sigue el esquema de
racionamiento a tasas diferenciadas entre clientes, es decir la decisin bancaria no es por el
255

Heterocedasticidad en Modelos economtricos

proyecto en cuestin rentable, sino por evaluaciones hechas a la empresa, de este modo se
encuentran los clientes racionados y las tasas ms altas o las que corresponden a mayores
riesgos del cliente (no el proyecto) no acceden al crdito.
No obstante esta premisa debe ajustarse, dado que las entidades de microfinanzas entran
con xito en mercados tradicionalmente racionados. Para ello Chong y Schroth (1998) aaden el
aspecto de la reputacin, algo similar a la incidencia cultural del pago ya sealada antes. Un
cliente deudor que paga sus crditos a tiempo, genera una reputacin buena y en la siguiente
oportunidad incrementa su crdito.
La persistencia de los riesgos de repago en los clientes de microfinanzas, han sido
analizadas por De Morais (2005). El autor manifiesta la mltiple segmentacin que recibe el
pequeo empresario, ya que recibe financiamiento de acuerdo al tamao que posee, las
garantas que puede exhibir o las relaciones que logre entablar con la banca. En todos los casos
an cuando pueda ser segmentado en el tamao del crdito, el pequeo empresario siempre
asume altas tasas de inters, producto de la elevada percepcin de riesgo y las malas
condiciones de acceso a la informacin de la empresa en el contexto brasileo. Esta condicin
final se ve mejorada en los ltimos aos, por la generacin de credit scoring (calificacin y
ranking crediticio por entidad) en la central de riesgo manejada por el Banco Central Brasileo. El
autor seala tambin, que las principales limitantes para el acceso al crdito en el caso brasileo,
se relacionan con la ausencia de registros contables fiables, con la escasa informacin
relacionada a las prcticas gerenciales de los pequeos empresarios, la alta mortalidad de las
micro y pequeas empresas, lo cual limita el crdito hacia el muy corto plazo o se raciona el
crdito ante poca garanta de desempeo futuro. Otros factores son la informalidad de los
pequeos negocios, los altos costos en la recuperacin de activos brindados como garantas
(costos judiciales o administrativos) y finalmente, el acceso se ve limitado por la exigencia de
garantas reales o bienes que sustenten la posibilidad de repago.
En el caso de la segmentacin de pequeos negocios y sus relaciones con las entidades de
microcrdito, un aspecto muy relevante ser el tamao de la empresa, tal como seala Jaramillo
(2006). Este autor adems seala que la conexin entre estas entidades y sus clientes, es
bsicamente la asesora para mejorar sus inversiones, de modo que es muy relevante la relacin
que establece el cliente con su entidad de crdito. Los criterios financieros, como el uso de los
fondos, son problemas que se comparten con la gran empresa, de modo que el tamao es lo
relevante para una microempresa, ya que las prcticas del microempresario deben tender a la
eficiencia como en cualquier corporacin.
Se puede concluir que uno de los criterios de segmentacin ms importantes giran en torno al
tamao del negocio y en segundo aspecto a las relaciones que se establecen con la entidad
256

Heterocedasticidad en Modelos economtricos

financiera, las cuales pueden derivar en poca o mucha lealtad al actual ofertante de microcrdito,
desde all podemos explorar la insatisfaccin de los clientes en un mercado ya cubierto. En el
caso que esas relaciones con los ofertantes no existan, pero hay la intencin del crdito,
entonces podemos derivar la parte de mercado no satisfecha actualmente.
Es relevante, adems, conocer las cualidades personales del microempresario como la
educacin, aspecto relevante en los estudios de Amao y Ogbowa (2005); tambin aspectos
relacionados a la conduccin del negocio, como los ingresos generados e inclusive el gnero
(Hietalahti y Linden, 2006) como factores de crecimiento empresarial, asimismo sus preferencias
en cuanto al financiamiento, sea mediante una entidad de microcrditos o mediante prestamos
informales, en este aspecto Lelong y Schwartz (2003) manifiestan que slo el 2.6% de
microempresas en Latinoamrica accede al crdito formal. En algunos casos se puede dar una
conexin con entidades de la banca comercial, es decir ya el segmento es penetrado por actores
que tradicionalmente no intervienen en el mismo; de modo que considerar el acceso al crdito
formal e informal como criterio de segmentacin es tambin relevante.
Tomado textualmente de Amors (2009)
Preguntas
1. Qu modelo economtrico diseara para analizar la demanda de microcrditos?
2. Qu encuesta diseara para tomar la informacin que exige su modelo
economtrico?
3. Por qu motivos el modelo a estimar tendra heterocedasticidad, considere que su
estimacin es slo en mercados urbanos y para diversas actividades econmicas?

257

Heterocedasticidad en Modelos economtricos

Ejercicios
Sea el modelo y = X Donde X representa a una constante y una variable. Visto en
matrices, tenemos que los parmetros se estiman como: = (X X) -1 X y
Adems la matriz de errores cuadrticos puede estimarse de los siguientes modos
equivalentes:
e e = y y XX

e e = y y y X

Tambin podemos estimar el R2, como: 1 - e e / y y


Para el modelo anterior, se tienen los siguientes resultados extrados en dos muestras con
reemplazo, los datos fueron tomados para 50 observaciones elegidas al azar:
Muestra 1
X X =

Muestra 2

50

300

50

300

300

2100

300

2100

yX =

300

2000

300

2200

yy

2100

2800

Para cada muestra:

Estime el vector de parmetros .


Estime el error cuadrtico e e.
Estime la desviacin estndar del modelo:
Estime el R2
Consideremos la sospecha de que hay Heterocedasticidad, entonces corrija el modelo
dividiendo los datos entre , y estime nuevamente los indicadores anteriores.

258

Heterocedasticidad en Modelos economtricos

Referencias bibliogrficas
Amors, M. (2009) Determinantes del microcrdito y el perfil de microempresarios urbanos en las
ciudades de Chiclayo y Trujillo Per. CIES.
Angrist, Joshua y Jorn-Steffen Pischke (2009) Mostly Harmless Econometrics. Princeton
University Press, Captulo 4.
Amao, J. Ogbowa. O. y Oni, O. (2005). Determinants of credit demand among rural farming
household in OSE local government area: Ondo State of Nigeria. Journal of financial managerial
and analysis. Vol. 18. N 2. Nigeria.
Banerjee, A. (2002). The uses of economic theory: Against a purely positive interpretation of
theoretical results. Mimeo. MIT. USA.
Breusch, T. And Pagan A. (1979) A simple test for heteroscedasticity and random coefficient
variation. Econometrica Vol. 47.
Copa, T.; Gonzles de Otoya, G. y Linares, C. (1995). Atractivo del financiamiento a las
pequeas y microempresas para la banca comercial privada. ESAN. Lima. Per.
Chong, A. y Schroth. (1998). Cajas municipales, microcrdito y pobreza en el Per. CIES. Lima.
Per.
De Morais, J. (2005). Crdito bancrio no Brasil: Participacao das pequenas empresas e
condicoes de acesso. CEPAL. Chile.
Godfrey, L. (1978) Testing for multiplicative heteroscedasticity. Journal of Econometrics. Vol. 8.
Greene, W. (2003) Econometric Analysis. Fifth Edition. Pearson Ed.
Gujarati, D. (2004) Econometra. 4ta Edic. Mc Graw Hill.
Hietalahti, J. y Linden, M. (2006). Socio-economic impacts of microfinance and repayment
performance: A case study of the Small Enterprise Foundation, South Africa. Progress in
development studies. Vol. 6. N 3.

259

Heterocedasticidad en Modelos economtricos

Jansson, T. (2003). Financing microfinance. Exploring the funding side of microfinance


institutions. Sustainable Development Department. IADB. USA.
Jansson, T. (2001). Microfinance: From village to Wall Street. Sustainable Development
Department. IADB. USA.
Jaramillo, M. y Valdivia, N. (2005). Las polticas para el financiamiento de las Pymes en el Per.
GRADE. Lima. Per.
Jimnez, F. (2012) Elementos de teora y poltica macroeconmica para una economa abierta.
Fondo Editorial PUCP.
Johnston, J. and Dinardo, J. (1997) Econometric Methods. Fourth Edition. Mc Graw Hill.
Lelong, C. y Schwartz, M. (2003). La microbanca en la regin APEC y su relevancia para la micro
y pequea empresa. Aportes. Revista Mexicana de estudios sobre la cuenca del Pacfico. Vol. 3.
N 5. Mxico.
Novales, A. (1993) Econometra. Mc Graw Hill.
Park, R. (1966) Estimation with heteroscedasticity error terms. Econometrica Vol. 34.
Stiglitz, J. y Weiss, A. (1981) Credit rationing in markets with imperfect information. The American
economic review. Vol. 71 N 3.
Tenjo, F. (2002). Stiglitz, sus aportes y la economa colombiana. Carta Financiera. ANIF
Colombia.
White, H. (1980) A heteroscedasticity consistent covariance matrix estimator and a direct test of
heteroscedasticity. Econometrica. Vol. 48.
Wooldridge, J. (2009) Introductory Econometrics. A modern approach. Third Edition. Cengage
Learning.
Wooldridge, Jeffrey (2010) Econometric Analysis of cross section and panel data. The MIT Press,
Captulos 5 y 21.
Yunus, M. (2006). Lectures in the Nobel Peace Prize 2006. Nobel Lecture. Oslo. Noruega.
260

CAPTULO VII
Autocorrelacin de errores

261

Autocorrelacin de errores

VII. AUTOCORRELACIN DE ERRORES


Introduccin al tema
Uno de los supuestos de los modelos economtricos es que el valor esperado del error,
considerando una distribucin normal de probabilidades, es cero y que sus relaciones con las
variables del modelo son equivalentes a cero o no existe covarianza alguna, asimismo el error
relacionado con su pasado es tambin una covarianza de cero, con ello se garantiza que los
errores son aleatorios y surgen de modelos donde el supuesto es la aleatoriedad de los datos.
La suposicin previa puede estrellarse contra la multiplicidad de relaciones existentes en el
campo de la economa, por ejemplo es posible que la emisin monetaria afecte la tasa de
inflacin no slo ahora, sino que puede tener efectos de mayor plazo, es decir la inflacin
existente puede deberse a tasas de emisin altas o bajas en el pasado tambin, con lo cual los
errores actuales y pasados van impactando en la estimacin del modelo.
En algunos modelos economtricos, los errores configuran variables de inters, que tienen
efectos en las estimaciones, por ejemplo en un modelo donde la produccin es explicada por el
capital y trabajo, se asume que el error contienen la posibilidad de cambios tecnolgicos (aquello
que las otras variables no explican), esos cambios no crean efectos inmediatos sino efectos
rezagados en el tiempo, siendo importante conseguir estas estimaciones, an sabiendo que el
error no es independiente en el tiempo.
En buena cuenta la presencia de autocorrelacin puede ser asumida como algo abundante
en los modelos economtricos, que puede tomarse como una forma de explicar la realidad
tambin o se puede corregir para realizar anlisis ms independientes de los efectos entre
variables dependientes e independientes.
262

Autocorrelacin de errores

7.1 Fallas generadas en los modelos por autocorrelacin de errores


La autocorrelacin es la relacin que tienen los errores con su pasado o con otro error
vinculado a las estimaciones que realicemos de la variable dependiente. Por ejemplo si
analizamos la pobreza de las familias de una zona cualquiera, es natural que si una familia es
pobre y se encuentran localizados de manera cercana, esta pobreza afecta a las dems en el
tiempo, piense que algunas de las familias desea colocar un negocio, pues este negocio tendr
un pobre desempeo al ser los potenciales clientes tambin pobres, en general la estimacin de
la pobreza (bajo diversas variables explicativas) puede contener errores no slo generales sino
que el error de cada elemento (la condicin de ser pobre en cada hogar) puede contribuir a la
pobreza del otro y con ello los errores terminan siendo autocorrelacionados.
En el caso anterior la autocorrelacin puede ser un fenmeno espacial o transversal, sin
embargo ello no limita los estudios que se hagan, por cuanto es natural encontrar este proceso,
en todo caso si las entrevistas o seleccin de variables y elementos de informacin son
aleatorios, el proceso de autocorrelacin espacial no debera ser relevante a la hora de obtener
conclusiones del modelo respectivo.
Con respecto a las series de tiempo histricas, se presentan fenmenos de autocorrelacin
inherentes al proceso econmico, por ejemplo cuando el Banco Central de una pas decide bajar
la tasa de inters, lo que est esperando no son efectos inmediatos, est esperando que la
demanda interna suba en el tiempo, meses despus una vez que los efectos se presentan
podemos decir que la demanda interna est relacionada con la tasa de inters y su pasado, lo
que indica que el error actual de estimacin de la demanda interna, tiene mucho que ver con los
errores de estimacin pasados de dicha variable.
Lo anterior puede entenderse del siguiente modo, la demanda interna actual se relaciona en
alguna medida con la tasa de inters, sin embargo al no ser exacto hay un grado de error actual.
La demanda interna tambin depende del pasado de la tasa de inters, sin embargo eso
tampoco es 100% exacto, de modo que queda un error por explicar, todos los errores presentes
en estas estimaciones estn relacionados, pues todos provienen de la misma variable: la tasa de
inters en el tiempo y su uso como explicador de la demanda interna.
Entonces la presencia de autocorrelacin en modelos de series temporales es un hecho que
se dar de modo natural, sin embargo estos procesos pueden ocasionar algunas fallas en los
modelos o algunos efectos que quizs alteren las estimaciones a realizar.
La presencia de autocorrelacin tiene algunas causas, entre ellas tenemos:

263

Autocorrelacin de errores

Las series econmicas pueden ser adelantadas, rezagadas o cclicas, en el caso de


series adelantadas, su comportamiento predice de algn modo el crecimiento o cada
siguiente, de modo que la correlacin del error se presenta en las variables a ser
predichas. Por ejemplo la importacin de insumos es una variable hoy da, que puede
indicar si la produccin del mes siguiente (o meses) puede cambiar, entonces la
correlacin del error de la variable produccin va a relacionarse con el pasado
vinculado a la variable importacin, eso pasar de todos modos.
Variables rezagadas pueden ser respuestas de cadas de la produccin, es decir una
vez que se produce el ciclo recesivo o expansivo, la menor produccin del ltimo mes o
trimestre tendr efectos negativos en el empleo actual, en la demanda interna actual,
luego en los salarios y posteriormente en otras variables como la demanda de crditos
(inclusive oferta), aqu la variable empleo por ejemplo, tienen errores de estimacin
relacionadas con el presente pero tambin con el pasado ante cambios en el producto
anterior.
Las variables cclicas o las que se mueven en conjunto con el ciclo, quizs no
presenten patrones de autocorrelacin de errores, por ejemplo el menor consumo de
energa actual, implica que la produccin actual est bajando, en ese caso ambas
variables se mueven al ritmo del ciclo y los errores pueden ser independientes.

Una segunda causa de la autocorrelacin son las omisiones de variables, tambin los
modelos con formas funcionales inexactas o estimaciones cuyas variables estn
expresadas de modo incorrecto.
Pensemos que el modelo estimado, se expresa del siguiente modo:
Y i = 0 + 1X 1 + U i

(1)

Pero que debera haberse expresado correctamente del modo siguiente:


Yi = 0 + 1Xi + 2X2 + ei

(2)

En este caso el error del modelo (1) sera:


Ui = 2 X2 + ei
El valor esperado del error anterior es:
E Ui = 2 E X2
264

Autocorrelacin de errores

Y la covarianza entre los errores del modelo (1) y (2) sera:


Cov (ei, Ui) = ( ei E ei ) ( Ui - 2 E X2)
Cov (ei, Ui) = ( ei Ui ei 2 E X2 - E ei Ui + E ei 2 E X2 )
Cov (ei, Ui) = ei Ui
En la estimacin de la covarianza el valor esperado del error es cero y la sumatoria de
errores es tambin cero. Con ello el resultado final de covarianza es diferente de cero, lo
cual rompe el supuesto de que los errores no son relacionados.
-

En el caso de formas funcionales incorrectas, se puede repetir el mismo anlisis, por


ejemplo sea el modelo siguiente, la estimacin verdadera:
Yi = 0 + 1Xi + 2X1 2 + ei
Sin embargo para evitar la no linealidad, consideremos que se estima el modelo:
Y i = 0 + 1X i + v i
En ese caso el error tampoco es independiente, pues realmente se expresa as:
v i = 2X 1 2 + e i
Con lo cual la covarianza entre (ei, vi) deja de ser cero y tambin rompe el supuesto de
independencia de los errores.

En algunos casos, el uso de variables construidas por el investigador puede generar


algn grado de autocorrelacin de errores, piense que una serie es del tipo siguiente,
para la variable X en n perodos:
Xt, Xt-1, Xt-2, Xt-3, Xt-4 .., Xt-n
Ahora como la variable dependiente Y es trimestral por ejemplo, entonces necesitamos
una variable X trimestral y para ello hacemos lo siguiente:
X1 = ( Xt + Xt-1 + Xt-2 ) / 3
X2 = ( Xt -3 + Xt-4 + Xt-5 ) / 3

265

Autocorrelacin de errores

Xk = ( Xn + Xt-n-1 + Xt-n-2 ) / 3
Para k trimestres, la sera previa va a generar de todos modos una serie suavizada
respecto a la original, con lo cual los errores tendern a correlacionarse con la variable
dependiente, toda vez que cada media explica parcialmente su perodo y el siguiente.
-

Otra fuente de autocorrelacin vendra a ser expresar modelos en desviaciones, algo


comn en el anlisis econmico moderno, por ejemplo veamos un modelo en tiempo
actual y uno en tiempo rezagado:
Y t = 0 + 1X t + e t
Yt -1 = 0 + 1Xt -1 + e t -1
Restando ambos modelos tenemos:
Yt -1 - Yt = 1 (Xt - Xt -1) + (et - e t -1)
Y = 1 X + vi

(3)

Una aplicacin de este tipo de modelos, puede ser por ejemplo, que si el tipo de cambio
(en este caso X) va subiendo respecto al perodo anterior (depreciacin vista la moneda
como valor local o soles por dlar), entonces es probable que las reservas
internacionales (en este caso Y) puedan ir bajando respecto al nivel anterior, esto se
produce porque el Banco Central al intervenir vende moneda extranjera con fines de
atenuar la subida cambiaria.
En el caso del modelo (3) vi sera el error del modelo, en muestras pequeas el valor
esperado de vi no es cero, en muestras grandes podra acercarse a cero. Cuando vi es
cero hablamos de un concepto llamado estacionariedad del modelo y es la base de las
estimaciones de modelos seriales en la econometra actual:
E vi = E (et - e t -1) = 0
E vi = (et - e t -1) / N = 0
En el caso de los modelos en desviaciones (si es con un rezago tambin se llama
modelo en primeras diferencias) la varianza del mismo sera:
E vi 2 = [ ( et - e t -1) - E ( et - e t -1) ] 2
266

Autocorrelacin de errores

E vi 2 = [ ( et - e t -1) 2 - 2 ( et - e t -1) E ( et - e t -1) + ( E ( et - e t -1)) 2 ] / N -1 - K


E vi 2 = ( et - e t -1) 2 - 2 ( et - e t -1) E ( et - e t -1) + N ( E ( et - e t -1)) 2 ] / N -1- K
E vi 2 = ( et - e t -1) 2 - 2 ( et - e t -1) E ( et - e t -1) + N (E ( et - e t -1)) 2 ] / N -1- K
E vi 2 = ( et - e t -1) 2 - ( et - e t -1) E ( et - e t -1) / N -1- K
Si el modelo es estacionario, la varianza queda (para K variables del modelo):
E vi 2 = ( et 2 - 2 et e t -1 + e t -1 2 ) / N -1- K
E vi 2 = ( et 2 + e t -1 2 ) / N -1- K
E vi 2 = 2

La varianza del modelo estacionario es, en buena cuenta, una constante cumpliendo
con los criterios de los modelos economtricos correctamente estimados.
-

Si el error vi no es estacionario su varianza sera mucho ms grande que la anterior y


el error vi deja de ser cero. Para analizar ello consideremos que el error se relaciona
hacia el pasado, en ese caso su covarianza es:
Cov (vt, vt-1) = E (et et-1) ( et-1 et-2)
Cov (vt, vt-1) = E (et et-1 et et-2 et-1 et-1 + et-1 et-2)
Cov (vt, vt-1) = - E (et-1 et-1 )
Cov (vt, vt-1) = -

Hay que notar entonces que la presencia de autocorrelacin genera una covarianza diferente
de cero aunque constante.
Finalmente hay que sealar que la presencia de autocorrelacin puede generar modelos en
diferencias, cuyos estimadores son correctos o insesgados, siempre que los errores de dicho
modelo sean estacionarios o de valor esperado cero.
Para analizar las fallas de los modelos con presencia de autocorrelacin verifiquemos el
comportamiento del error, de su valor esperado y la covarianza que este error presenta con su
pasado. Comencemos con proponer el siguiente modelo genrico:
267

Autocorrelacin de errores

Y t = 0 + 1X t + e t
Que tiene la siguiente secuencia de errores autocorrelacionados:
et = et-1 + ui

(4)

El modelo (4) indica una autocorrelacin de errores, supone que el error del perodo t se
relaciona con el error del perodo t-1, en este caso el error esperado del modelo es:
E et = et = E et-1 + E ui = 0
Mientras que la varianza del modelo puede estimarse como:
Var et = 2 Var et-1 + Var ut
Var et = Var ut / (1 - 2 )
Var et =

2/

(1 - 2 ) = E et 2

Si bien se cumple que el error esperado es cero y tambin que la varianza previa es
constante, esta varianza se ajusta o es influenciada por el valor del parmetro del error
autocorrelacionado (), lo que indica la presencia de este proceso.
Para valores positivos de , note que la varianza con autocorrelacin es naturalmente mayor
que la varianza de un modelo sin este problema (estimada con MCO), lo que significa que a
pesar que la varianza es constante, su mayor valor puede afectar la estimacin del modelo.
Podemos probar la autocorrelacin persistente en el tiempo, analicemos la covarianza entre
et y et-1 (recuerde que los valores esperados individuales del error son cero), esto tiene los
siguientes resultados:
Cov (et, et-1) = E ( et-1 + ui ) et-1
Cov (et, et-1) = E et-12 + E ui et-1
Cov (et, et-1) = E et-12
Cov (et, et-1) =

2/

(1 - 2 )

Para el caso de dos perodos de rezago, la covarianza entre et y et-2 es como sigue:
268

Autocorrelacin de errores

et = et-1 + ui
et -1= et-2 + ui t-1
Cov (et, et-2) = E ( [ et-2 + ui t-1] et-2
Cov (et, et-2) = E (2 et-2 + ui t-1] et-2
Cov (et, et-2) = 2 E et-22
Cov (et, et-2) = 2

2/

(1 - 2 )

Donde:
s : Es la correlacin entre et y et+s (para s perodos adelante o hacia atrs)
Dado que el error es:
et = et-1 + ui, entonces:
= et et-1 / et-1 2 para 1 rezago
De la forma anterior, sucesivamente, se va obteniendo la covarianza de los errores rezagados
evidenciando la autocorrelacin existente, por cuanto los errores van teniendo correlaciones
distintas de cero (lo cual ya viola los criterios bsicos del diseo y estimacin de los modelos
economtricos). Note que si el parmetro que relaciona el error con su pasado () es cero,
entonces las covarianzas son cero y el modelo sera el clsico estimado por MCO, con las
condiciones de parmetros eficientes e insesgados.
Para analizar estos parmetros insesgados o no, veamos los efectos de la autocorrelacin en
la varianza de los mismos, esta varianza de los parmetros es importante en la significancia de
los mismos. El anlisis puede plantearse del siguiente modo, en este caso para el parmetro 1,
tomando estimaciones realizadas ya en captulos previos:
Var 1 = E [ Z1 2 e1 2 + Z2 2 e2 2 + Z2 2 e3 2 + + Zn 2 en 2 + 2 Z1 Z2 e1 e2 + .+ 2 Zn-1 Zn en-1 en ]
Ahora considere que:
Zt = xt / xt2

Para: Yt = 0 + 1 Xt + ut

Zt+1= xt +1/ xt+1 2

Para: Yt+1 = 0 + 1 Xt+1 + ut+1


269

Autocorrelacin de errores

Zt+n = xt +n/ xt+n2

Para: Yt+n = 0 + 1 Xt+n + ut+n

Donde:
xt 2 = xt 2+ xt+1 2+ xt+2 2 + + Xt+n 2
Tambin considere que:
Cov (et,et+1) = E (et et+1) =

2/

(1 - 2 )

Donde , tambin equivale a:


= E (et et-1) / Var et-1
Donde Var et-1 = Var et, entonces:
Var et-1 = E (et et-1) = E (et et+1)

2=

E (et et+1)

Y para diversos perodos, como se demostr antes:


2

2=

E (et, et+2)

n-1

2=

E (et, et+n-1)

De modo que la varianza de 1 es como sigue para modelos:


Var 1 = (1 / xt 2 )

2+

( 1 / xt +1 2 )

2+

2)

2 .+

/ xt xt+1
2

Var 1 = (1 / xt 2 )

2[

( 1 / xt+2 2 )

+ + ( 1 / xt+n 2)

2 n - 1

2 xt xt+n / xt xt+n
2

+ 2 ( xt xt+1

1 + 2 ( xt xt+1 / xt+1 2 ) .+ 2 xt xt+n / xt+n 2 n - 1 ]

(5)

Donde:
xt 2 = xt+1 2 = = xt+n 2
270

Autocorrelacin de errores

Entonces, la varianza de 1 es mayor a la presente en los estimadores de MCO, ampliando el


intervalo de confianza de la estimacin, eso incluso considerando que la varianza del modelo es
constante, esto significa que los parmetros del modelo en presencia de autocorrelacin son
sesgados e ineficientes:
Var 1 = (1 / xt 2 )

2[

1 + 2 ( xt xt+1 / xt 2 ) .+ 2 ( xt xt+n / xt 2 ) n - 1 ]

Otra perspectiva de las fallas ocasionadas en los parmetros, ha sido analizada por Kmenta
(1986) y Baltagi (2008), en este sentido la estimacin del parmetro en un modelo con
autocorrelacin, sigue el proceso siguiente: Sea un modelo donde se considera la estimacin por
mnimos cuadrados generalizados, usando la correlacin de errores como ponderador, se tiene:
Y t = 0 + 1X t + e t
Yt-1 = 0 + 1Xt-1 + et-1
et = et-1 + ut
et = (Yt-1 0 - 1Xt-1) + ut
Yt 0 - 1Xt = (Yt-1 0 - 1Xt-1) + ut
Yt 0 - 1Xt = Yt-1 - 0 - 1Xt-1+ ut
Yt - Yt-1 = 0 - 0 + 1Xt - 1Xt-1+ ut
Yt - Yt-1 = 0 - 0 + 1Xt - 1Xt-1+ ut
Yt - Yt-1 = 0 (1 - ) + 1 (Xt - Xt-1 )+ ut
En este modelo, el parmetro queda:
1 = (Xt - Xt-1) (Yt - Yt-1) / (Xt - Xt-1 )2
Como puede notarse, el parmetro estimado es diferente al de MCO, an con autocorrelacin
la varianza es constante, pero influenciada por (en la prctica denominado coeficiente de
autocorrelacin) por ello la estimacin del parmetro difiere de la hallada en MCO, sin embargo
en ausencia de autocorrelacin ( = 0) ambos estimadores son iguales.
Desde la perspectiva de Kmenta (1986) la varianza de 1, es como sigue:
271

Autocorrelacin de errores

Var 1 =

2/

(Xt - Xt-1 ) 2

(6)

Donde la ecuacin (6) con un solo rezago equivale a la ecuacin (5) en n rezagos.
Hay que notar que la autocorrelacin genera una varianza de parmetros mayor que en
MCO, eso reduce la significancia de los parmetros. Otro detalles es que la varianza del modelo
autocorrelacionado, si bien es constante, es mayor que en MCO, ello reduce la potencia del
ajuste del modelo por lo tanto en presencia de correlacin de errores, las estimaciones dejan de
ser insesgadas y el ajuste global del modelo esta sobre estimado.

7.2 Deteccin de la autocorrelacin de errores


Como ya se ha sealado, la autocorrelacin es la presencia de errores relacionados, de modo
que la deteccin de la misma se basa en hallar indicios de este comportamiento.
Un primer paso es graficar los residuos o errores del modelo, pensemos en el siguiente
modelo de ejemplo:
Preferencia por Circulante t = 0 + 1 Inters activo soles t + et
En este modelo partimos del siguiente anlisis: si la tasa activa en soles es creciente,
entonces los bancos tienden a pagar ms por la tasa pasiva en soles, ello debido a que la mayor
demanda en el mercado crediticio eleva las tasas o por que la tasa externa es ms cara. Para
lograr tener ms fondos en soles o depsitos, los bancos estn dispuestos a pagar una mayor
tasa pasiva ya que esos fondos son necesarios para dar crditos. Esto debe impulsar la
reduccin del indicador de preferencia por circulante debido a que los agentes prefieren llevar
sus fondos al mercado bancario de depsitos.
La preferencia por circulante se define como la tasa de Circulante sobre Depsitos bancarios,
y se entiende como un componente del multiplicador bancario, ello tambin puede plantear la
idea de que mayor multiplicador menor tasa de inters, lo que supone que el modelo planteado
podra tener una causalidad inversa, ya hemos visto antes el tema de causalidad y bien podra
hacerse un anlisis de ese tipo, sin embargo aqu partiremos de las condiciones y relaciones
entre inters activo y circulante planteada previamente.
La tasa de inters activa en este modelo, se mide en soles. Para fines de simplicidad y hallar
un parmetro de elasticidad, vamos a plantear el modelo con las variables en logaritmos. Un
anlisis previo del modelo se puede realizar observando la Fig. siguiente, hay evidencias de una
272

Autocorrelacin de errores

relacin inversa pero tenuemente, lo que implica realizar la regresin respectiva para probar el
ajuste del modelo y luego el proceso de autocorrelacin. Los resultados de la regresin son
(prueba t en parntesis):
Preferencia por Circulante t = 3.67025 - 0.1474987 Inters activo soles t + et
(12.79)

( -1.49)

R 2 = 5.4%

Fig. 7.1 Relacin entre log circulante y log tasa de inters activa en soles
(mensual feb 2011-junio 2014)

Fuente: BCRP

Como se puede encontrar en los resultados, la evidencia de ajuste global es pequea, ahora
analicemos el comportamiento de los errores del modelo:

273

Autocorrelacin de errores

Fig. 7.2 Relacin entre errores del modelo y su rezago (t-1)

Se nota una clara relacin positiva lo que podra evidenciar la presencia de autocorrelacin.
La Fig. siguiente muestra otro patrn de comportamiento, por un lado los residuos o errores del
modelo y por otro los residuos estandarizados (los residuos divididos entre el error estndar del
modelo o raz de la varianza), se supone que el error estandarizado debe comportarse de modo
aleatorio con media cero y varianza constante, sin embargo la Fig. evidencia que tiene el mismo
patrn que el error normal, de modo que es posible la autocorrelacin de errores.
Fig. 7.3 Errores del modelo y errores estandarizados

274

Autocorrelacin de errores

Para determinar el proceso de autocorrelacin de modo concreto, aplicaremos la prueba de


Durbin y Watson (1951), considerando que hay un indicador denominado d de Durbin Watson,
que se estima del modo siguiente:
d = (et - et-1) 2 / et 2
d = ( et 2 + et-1 2 2 et et-1 ) / et 2
Si consideramos que en muestras grandes ut 2 = ut-1 2, entonces:
d = ( et 2 + ut-1 2 2 et et-1 ) / et 2
d = ( 2 et 2 2 et et-1 ) / et 2
d = 2 [ 1 et et-1 / et 2 ]
Si tenemos en cuenta que:
= et et-1 / et-1 2 (coeficiente de correlacin de errores)
Entonces:
d= 2[1 ]
El anlisis de d presenta los siguientes escenarios, dependiendo de la correlacin entre los
errores y su rezago:
= -1

d=4

=0

d=2

=1

d=0

En buena cuenta en ausencia de autocorrelacin ( = 0) el coeficiente de Durbin Watson (d)


es igual a 2, si la correlacin es positiva que indica que los errores se comportan en la misma
direccin (igual a 1), entonces el d es 0 y si la correlacin es negativa o los errores se comportan
a la inversa, entonces el d es 4.
La presencia de la autocorrelacin bajo el criterio de Durbin Watson, supone que el modelo
se ha estimado considerando una constante (para extraer el mximo de error posible), adems
slo se incluyen las variables explicativas ms no la dependiente, el modelo incluye rezagos de la
variable explicativa pero no debe contener rezagos de la variable dependiente.
275

Autocorrelacin de errores

Finalmente hay que sealar que el Durbin Watson se analiza para modelos donde el error se
relaciona con un solo rezago, lo que se suele llamar tambin modelo autoregresivo de orden 1 o
AR (1).
La secuencia del valor de Durbin Watson (1951) ha sido tambin planteada en la Fig.
siguiente. Como puede verse hay zonas de indecisin y zonas donde se evidencia la
autocorrelacin positiva o negativa, para ello hay que estimar los valores de dU y dL.

Fig. 7.4 Secuencia de Durbin Watson

Tomado de Gujarati (2006)

Con fines de analizar el indicador de Durbin Watson, procedemos a calcularlo del modo ya
planteado antes:
d = (et - et-1) 2 / et 2
d = 0.02728484 / 0.084980371
d = 0.321
Si reemplazamos este valor podemos hallar la correlacin de errores:
276

Autocorrelacin de errores

d= 2[1 ]
0.321 = 2 [ 1 ]
= 0.84
Este valor de la correlacin es idntico si hiciramos la siguiente regresin, cuyos resultados son:
et = et-1 + ut
et = 0.84 et-1 + ut
(t = 9.67)
R2 = 70.6%
Donde vemos que el parmetro , es significativo mediante la prueba t (valor mayor a 9) y
con un ajuste de modelo de 70.6%, evidenciando la clara presencia de autocorrelacin.
Ahora usemos el valor de Durbin Watson calculado antes, para situarnos en la Fig. 7.4
necesitamos ubicar en la tabla estadstica de Durbin y Watson (1951) los valores de dU y dL, los
cuales son para 41 datos (N) aunque usaremos 40 para usar la tabla y 1 variable explicativa (K):
dU = 1.544
dL = 1.442
d = 0.321

Como indica la Fig. siguiente, en nuestro modelo de ejemplo existe una autocorrelacin
positiva, esto slo confirma la evidencia previa de una correlacin de 84% entre el error y su
pasado inmediato o un rezago. El indicador de Durbin Watson, como se ha visto, se estima
desde dos posibilidades, una de ellas hallando el parmetro del modelo de regresin entre el
error y su rezago o tambin a partir de las desviaciones entre el error y su rezago

277

Autocorrelacin de errores

Fig. 7.5 Estableciendo autocorrelacin

0.321!

1.442!

1.544!

El indicador de Durbin Watson funciona bien para un rezago del modelo del error, pero si
tenemos p rezagos, entonces se puede plantear el modelo siguiente:
et = 0 + 1 X1 + 1 et-1 + 2 et-2 + 3 et-3 + p et-p + ut
En este caso probamos dos cosas, una que el error es independiente de la variable
explicativa y dos que el error no tiene autocorrelaciones en p rezagos, esta prueba requiere
estimar el siguiente indicador:
(N p ) R2
Que sigue una distribucin chi cuadrado con p grados de libertad, apliquemos este test para
el modelo previo considerando 5 rezagos, los resultados son (prueba t en parntesis):
et = 0.169 - 0.06 X1 + 0.702 et-1 - 0.063 et-2 + 0.271 et-3 - 0.139 et-4 + 0.09 et-5 + ut
(0.918) (-0.937) (3.904)

(-0.283)

(1.281) (-0.673)

(0.499)

R2 = 0.735
278

Autocorrelacin de errores

De modo que el indicador para la autocorrelacin se estima as:


(N p ) R2 = (36 5) 0.735 = 22.79
El valor de la tabla chi cuadrado con 5 grados de libertad, al 5% de confianza es de 11.07, de
modo que:
(N p ) R2 > X2p (chi-cuadrado)
Eso evidencia la presencia de autocorrelacin en el modelo estimado y la inexistencia de
independencia entre el error y la variable independiente, este test tambin se denomina prueba
de Breusch (1978) y Godfrey (1978).

7.3 Correccin de la autocorrelacin de errores


Para considerar correcciones a los procesos de autocorrelacin, es necesario tener claro lo
siguiente:
-

Que el modelo ha sido bien especificado, de modo que la autocorrelacin se denomina


pura, si el modelo ha tenido un mal diseo, el proceso se corrige agregando variables o
cambiando las mismas, de modo que el modelo gana potencia y elimina esta falla.

Corregir la autocorrelacin implica plantear el siguiente modelo ya especificado antes:


Yt - Yt-1 = 0 (1 - ) + 1 (Xt - Xt-1)+ ut
Esto requiere que sepamos el valor de , sin embargo este valor en la prctica no es
conocido, recuerde que hemos llegado al valor de la correlacin () mediante
estimaciones del modelo de errores y su rezago. Dado esta limitacin prctica,
podemos indicar que el modelo previo si bien ayuda a corregir los parmetros, su
utilidad es limitada en la medida que no conocemos la correlacin.
Una aproximacin al modelo anterior puede ser usando la estimacin de la correlacin,
obtenida a partir del indicador de Durbin Watson, este valor fue de 0.84, con lo cual se
recalculan las variables del modo siguiente:
Y * = Yt - 0.84 Yt-1
X * = Xt 0.84 Xt-1
279

Autocorrelacin de errores

Por lo tanto el modelo queda:


Y * = 0 (1 - ) + 1 X* + ut
Hallemos los resultados respectivos en el caso de nuestro ejemplo (prueba t en
parntesis):
Y * = 0.67 + -0.329 X* + ut
(7.00)
d = 2.2

(-1.59)
R2 = 6.2%

El valor de Durbin Watson indica que la correlacin entre errores es de -0.1


(equivalente a -10%) indicador que es bajo y podemos sealar que ya no existe
autocorrelacin. Viendo la Fig. 7.5 tambin tenemos que el valor d calculado esta en
el centro y por tanto no hay autocorrelacin.
El modelo anterior, poda haber sido estimado considerando tambin el valor de ,
hallado a partir de la estimacin del modelo:
et = et-1 + ut
Como hemos comprobado antes, el valor de por este mtodo fue tambin de 0.84,
esto nos lleva a los mismos resultados de estimacin del modelo anterior.
Recuerde que el modelo original con autocorrelacin era:
Preferencia por Circulante t = 3.67025 - 0.1474987 Inters activo soles t + et
Como vemos ahora el valor de la constante ha cado y el parmetro de la tasa de
inters pas de ser negativo a positivo con un mayor valor, es de esperar que los
errores hayan influido en las estimaciones, ahora el problema es explicar la relacin
terica. Una mayor tasa activa puede ser respuesta de un mercado financiero de
menores fondos disponibles, es ms complejo suponer que por demanda suba la tasa
de inters, obtener estos fondos puede incentivar el menor circulante, salvo que las
tasas pasivas no estn vinculadas a las activas; en este caso los movimientos del
circulante pierden conexin con la variable tasa de inters, que es lo aparentemente
hemos probado.

280

Autocorrelacin de errores

Un parmetro positivo (en caso el modelo sea explicativo) indica que mayores tasas de
inters activa tiene efecto positivo o alcista en el circulante, en buena cuenta hay
menos preferencia por depsitos bancarios, esto puede ser porque en el mercado en
general las tasas de rentabilidad tambin estn subiendo y los fondos pasan del sector
bancario a sectores reales, hacia el mercado de capitales (por lo menos el private
equity o financiamiento privado) o hacia operaciones primarias fuera de bolsa.
As como han cambiado el valor de los parmetros, de igual modo comprobamos que el
R2 ha subido, igual sucede con los valores de la pruebas t de cada parmetro, el
modelo sin autocorrelacin tiene mejor ajuste y mejores indicadores de significancia del
parmetro de la variable explicativa.
-

Si no conoce la autocorrelacin de errores puede recurrirse al criterio de


estacionariedad de los errores, aspecto que ya vimos antes, mediante este criterio
debemos suponer lo siguiente:
et = et-1 + ut
et = (1) et-1 + ut
et - et-1 = ut
Hemos considerado que la correlacin entre errores es 1, de modo que sus
desviaciones nos dan el valor del error ut, el mismo que es de media cero y varianza
constante o sea estacionario, si esto se cumple, el modelo previo puede corregirse del
siguiente modo:
Yt - Yt-1 = 0 (1 - ) + 1 (Xt - Xt-1 )+ ut
Yt - Yt-1 = 1 (Xt - Xt-1 ) + ut
Este modelo previo se conoce como de primeras diferencias y sus resultados son
(prueba t en parntesis):
Yt - Yt-1 = - 0.514 (Xt - Xt-1 ) + ut
(-1.9)
d = 2.4

R2 = 8.3%

281

Autocorrelacin de errores

Finalmente en este modelo, el valor del parmetro ya es significativo (al menos al 5%) y
el indicador Durbin Watson seala que no hay autocorrelacin de errores, el valor
estimado de la correlacin es de -20% bastante bajo para rechazar la posibilidad de
que los errores estn autocorrelacionados.
En este caso el signo del parmetro es el esperado, cumpliendo con lo que estamos
indicando en nuestro diseo terico, que las mayores tasas en el mercado bancario
incentivan los depsitos (siempre que la tasa activa impulse la tasa pasiva) y reducen
la preferencia por circulante.

282

Autocorrelacin de errores

Conclusiones del captulo


En este captulo, hemos tratado el concepto de autocorrelacin de errores, el mismo que viola
los criterios o supuestos necesarios para la estimacin de modelos economtricos, sabemos que
todo modelo debe presentar errores con valor esperado cero y varianza constante, sin embargo
en presencia de autocorrelacin el error deja de ser independiente, pues tiene relaciones con su
pasado, con la variable explicativa y adems su varianza es mayor a la estimada sin esta
autocorrelacin.
La mayor varianza del modelo con sus errores correlacionados, implica que podemos reducir
la significancia de los parmetros y la bondad de ajuste es menor a la que esperamos, debido a
que los residuos al cuadrado mayores, reducen el peso de la suma cuadrada explicada.
La evidencia de autocorrelacin se presenta en muchos casos en los modelos econmicos,
no olvidemos por ejemplo que la inflacin pasada incluye en la presente, esto que se conoce
como expectativas adaptativas y se presenta en los modelos macroeconmicos, siendo un claro
ejemplo de que los errores se vinculan al pasado o a sus propios rezagos.
Para detectar la autocorrelacin hay que plantear un modelo economtrico donde
regresionamos el error con su pasado (normalmente un rezago), si este modelo tiene buen ajuste
y el parmetro (sin constante) es significativo, estamos en presencia de autocorrelacin. Este
parmetro es parte de la estimacin del indicador conocido como Durbin Watson, que puede ir de
2 a 4, es 2 en caso que la correlacin de errores sea cero y es 4 si la correlacin de errores es -1,
siendo 0 si la correlacin de errores es 1, entonces esperamos que el indicador de Durbin
Watson este siempre alrededor de dos.
La correccin de la autocorrelacin tiene dos enfoques, por un lado se halla un modelo de
mnimos cuadrados generalizados (ajustados por la correlacin) o tambin se puede plantear un
modelo de primeras diferencias, con ello los parmetros se estiman de modo insesgado y el
ajuste del modelo deja de ser sobreestimado.

283

Autocorrelacin de errores

Preguntas de opinin:
1. Brinde ejemplos de modelos econmicos donde es posible la autocorrelacin.
2. La autocorrelacin tiene varianza constante, pero Por qu es ineficiente?
3. Por qu la correlacin entre los errores no es conocida?
4. Por qu el modelo de error con su rezago no tiene constante?
5. Qu significa que los errores sean estacionarios?

284

Autocorrelacin de errores

Caso de aplicacin
Lectura previa
En base a Guerrero et al (2006):
La relacin entre inflacin y desempleo no es un anlisis reciente, Sultan (1957) propone que
a medida que la sociedad requiere un menor desempleo, entonces debe estar dispuesto a
sacrificar su consumo mediante el alza de la tasa de inflacin, este sacrificio no obstante es
atenuado y hasta reducido si el menor desempleo produce un crecimiento de la demanda interna.
La figura siguiente indica que conforme sube el nivel de precios, igualmente puede ir
subiendo el nivel de empleo (la llamada relacin hipottica), sin embargo Sultan (1957) indica
tambin que hay un rango de precios tolerable mximo y de cada mnimo, en la cada tambin
baja el nivel de empleo, ambos casos relacionados con la mayor demanda de trabajadores en
contextos donde la demanda de bienes finales tambin es creciente.
Fig. 7.6 Curva de inflacin y cambio en el empleo

Fuente: Sultan (1957)


285

Autocorrelacin de errores

Phillips (1958) indica que los salarios crecen cuando aumenta su demanda respecto de la
oferta, en buena cuenta el salario es el precio del trabajo y se mueve segn las fuerzas de
demanda u oferta laboral. Una demanda laboral mayor (con crecimiento positivo) genera un
crecimiento positivo de los salarios de modo que la relacin es positiva, asimismo estos salarios
estn vinculados al nivel de precios: Por ejemplo mayores niveles de precios incentivan al
empresario a producir ms con lo cual sube la demanda de empleo (a la inversa baja el nivel de
desempleo) y finalmente sube el salario monetario.
Phillips (1958) plantea una relacin no lineal sino ms bien cuadrtica, que puede plantearse as:
Y+a=BXx
En logaritmos:
Log (Y + a) = Log B + x Log X
Donde X es la tasa de desempleo (a la inversa la mayor demanda de empleo) y x es la
variacin de esta tasa, Y es la tasa de variacin del salario donde a representa una variable de
nivel que indica que el salario no puede crecer a tasa cero, crecer desde un nivel base,
atendiendo la idea de que los sindicatos siempre parte de un crecimiento base. Finalmente
Phillips (1958) propone una relacin negativa entre desempleo y salarios.
En base a Phillips (1958), Samuelson y Solow (1960) plantean que la relacin del desempleo
se verifica en sus efectos en la tasa de inflacin, variable de mayor dinmica que la tasa de
crecimiento de los salarios.
La fig. siguiente es la clsica representacin de la curva de Phillips, donde un mayor nivel de
desempleo puede verse afectado por la menor inflacin, efectos que Samuelson y Solow (1960)
plantearon a largo plazo.
Basado en Guerrero et al (2006)

286

Autocorrelacin de errores

Fig. 7.7 Curva de inflacin y cambio en el desempleo

Fuente: Samuelson y Solow (1960)


Preguntas
1. Es posible que pueda ponerse variables rezagadas en el modelo?
2. En los modelos descritos antes, Es probable que haya autocorrelacin?
3. En el caso de Per Qu problemas enfrenta estimar un modelo al estilo de
Samuelson y Solow?

287

Autocorrelacin de errores

Ejercicios
Como ya se indic en el texto, la Curva de Phillips, es la relacin negativa entre la tasa de
inflacin y la tasa de desempleo. Debido a que los mercados tienen informacin, los precios
pueden ser estimados y anticipados, cuando sucede esto, existe independencia entre el
desempleo y la inflacin, por cuanto los precios se ajustan antes de la ocurrencia del fenmeno,
sin embargo esta independencia debe ser probada. Por ello avances recientes consideran que la
Curva de Phillips debe ser con expectativas, en buena cuenta la independencia no se produce,
porque los agentes no estiman bien el precio y por ende hay efectos reales, esta mala estimacin
se conoce como efecto sorpresa. Eso ha llevado al modelo con expectativas siguiente:
(Pt Pt / t-1) = (Dt D*) + e

(1)

Donde:
Pt: Inflacin en el perodo t, calculado como la variacin porcentual (%) del ndice de precios Pt
Pt / t-1: Inflacin estimada para el perodo t, dado la influencia de toda la informacin
disponible en t-1, esta informacin se resume en el conjunto de variables t-1,expresado en
variacin %, esta variable es condicional.
Dt: Tasa de desempleo
D*: Desempleo natural, una variable constante no observable, pero que puede ser estimada a
partir de la ecuacin (1) aplicando regresin con constante en este modelo.
Pt Pt / t-1: Representa la inflacin mal estimada, si es positiva la inflacin es mayor a la
estimada o a la inversa.
Dt D*: Representa el efecto real que existe cuando se estima mal la inflacin, es decir el
desempleo real supera o es menor a la tasa natural, con lo cual hay efectos en la produccin.
La lgica del modelo es: En el mercado los agentes producen ms que el PBI natural
(variable estable a largo plazo o el promedio de largo plazo) cuando creen que el precio ser
mayor al esperado. Cuando se da esto, el desempleo se reduce por debajo del nivel natural o de
288

Autocorrelacin de errores

largo plazo. Este menor desempleo incentiva la demanda y con ello crece la inflacin realmente
observada. Por lo tanto debera ser negativo.
Para fines de estimacin, consideramos que el conjunto de variables t-1, esta representado
por la variacin porcentual de la emisin primaria (M t-1) y la variacin porcentual del ndice de
precios internacional de combustibles (PIC t-1), los datos son los siguientes:
Tabla 7.1 Datos para el ejercicio
Perodo t

Pt

M t (Miles Mlls)

PIC t-1

Dt (%)

10

1000

11

1200

12

1400

13

1300

14

1500

15

1700

16

1600

17

1500

18

1800

10

19

2000

11

20

2000

13

Determine:

La inflacin Pt / t-1
La tasa natural de desempleo
La existencia de autocorrelacin, mediante el estimador Durbin-Watson.
289

Autocorrelacin de errores

Referencias bibliogrficas
Angrist, Joshua y Jorn-Steffen Pischke (2009) Mostly Harmless Econometrics. Princeton
University Press, Captulo 4.
Baltagi, B. (2008) Econometrics. 4th Edition Springer. USA
Breusch, T. (1978) Testing for autocorrelation dynamic linear models. Australian Economic
Papers. Vol. 17.
Godfrey, L. (1978) Testing against general autoregressive and moving average error models
when the regressor include lagged dependent variable. Econometrica. Vol. 46.
Greene, W. (2003) Econometric Analysis. Fifth Edition. Pearson Ed.
Guerrero, C. Osorio, P. Y Tiol, A. (2006) Un siglo de la curva de Phillips en Mxico. Working
paper EGAP 2006-03. ITESM. Mxico.
Gujarati, D. (2004) Econometra. 4ta Edic. Mc Graw Hill.
Jimnez, F. (2012) Elementos de teora y poltica macroeconmica para una economa abierta.
Fondo Editorial PUCP.
Johnston, J. and Dinardo, J. (1997) Econometric Methods. Fourth Edition. Mc Graw Hill
Kmenta, J. (1986) Elements of Econometrics. McMillan NY. USA
Nigrinis, M. (2003) Es lineal la curva de Phillips en Colombia? Documentos de Trabajo Diciembre.
Banco de la Repblica. Colombia
Novales, A. (1993) Econometra. Mc Graw Hill.
Phillips, A. W. (1958). The relation between unemployment and the rate of change of money
wage rates in the United Kingdom, 1861-1957. Economica 25: 283-299.
Samuelson, P. A. y R. M. Solow (1960), Problem of achieving and maintaining a stable price
level: analytical aspects of anti-Inflation policy, The American Economic Review, vol. 50, nm. 2,
pp. 177-94.
290

Autocorrelacin de errores

Sultan, P. (1957), Labor Economics, Henry Holt and Company.


Wooldridge, J. (2009) Introductory Econometrics. A modern approach. Third Edition. Cengage
Learning.
Wooldridge, Jeffrey (2010) Econometric Analysis of cross section and panel data. The MIT Press,
Captulos 5 y 21.

291

CAPTULO VIII
Modelos de respuesta
limitada: Probabilidad lineal y
logit

292

Modelos de respuesta limitada: Probabilidad lineal y logit

VIII. MODELOS DE RESPUESTA LIMITADA: PROBABILIDAD LINEAL Y LOGIT

Introduccin al tema
Los estudios sociales normalmente buscan explicar el comportamiento de las personas, por
ejemplo saber si alguien comprar o no un producto es importante para las empresas, esta
decisin puede enmarcarse en dos posibilidades, cero (0) si no compra y uno (1) si compra, de
modo que estos modelos se conocen como discretos ante estas opciones o limitados, por cuanto
no superan 1 y dado la variabilidad de datos, puede ser la respuesta tambin una probabilidad
donde si no compra es cero y si decide comprar como mximo es una decisin con 100% de
probabilidad.
En otros casos los estudios sociales pueden querer conocer por ejemplo, cual es la
probabilidad de que un hogar deje de ser pobre, o cul es la probabilidad de ganar ms, o de
obtener un empleo en el caso de individuos que buscan empleo. Todos estos estudios son
naturalmente de corte transversal, es decir provienen de informacin que se extrae en un mismo
momento del tiempo y por tanto estn sujetos a un correcto diseo de encuestas para evitar
errores cuadrticos cambiantes o heterocedasticidad.
Los estudios con variables probabilsticas o de respuesta limitada son muy comunes en el
campo economtrico y ayudan mucho a medir los efectos de las diversas polticas de orden
social o de los diversos impulsos que se dan para que un individuo o agente econmico cambie
su comportamiento, siendo muy relevantes conocer en qu casos sus respuestas son
significativas.
293

Modelos de respuesta limitada: Probabilidad lineal y logit

8.1 Modelo de regresin de probabilidad lineal


Muchas respuestas en los modelos economtricos pueden ser de tipo dicotmico por
ejemplo:
-

Desea comprar un producto: Si (1) No (0)

Tiene empleo formal: Si (1) No (0)

Posee vivienda propia: Si (1) No (0)

Es madre soltera jefa de hogar: Si (1) No (0)

En cualquiera de estos casos, las variables explicativas pueden ser diversas, por ejemplo
para comprar un producto puede decidirse en funcin a los precios percibidos o cualidades del
producto, el empleo formal puede deberse a si el trabajador tiene calificaciones o estudios
superiores, la vivienda propia puede deberse al nivel de ingresos o tamao familiar y si es mujer
jefa de hogar, puede deberse al grado de educacin de la madre soltera.
Como se puede notar, la respuesta es simplemente una variable discreta, pero las
explicativas pueden ser variables discretas o continuas, el modelo planteado sera siempre con la
siguiente estructura:
Yi = 0 + 1 X1 + 2 X2 + + n Xn + ui
Donde:
Yi = 0 (si el evento no ocurre)
Yi = 1 (si el evento ocurre)
Dado que la estimacin de Yi es un valor esperado condicional, se puede escribir del siguiente
modo:
E (Yi = 0/ Xi ) = 0 + 1 X1 + 2 X2 + + n Xn + ui
E (Yi = 1/ Xi ) = 0 + 1 X1 + 2 X2 + + n Xn + ui
Ahora consideremos que el evento ocurre con las siguientes probabilidades, si es exitoso, la
probabilidad es 1 (Pi) y si es fracaso la probabilidad es cero (1 - Pi), lo cual se define as:
Yi = 0

Probabilidad = 1 - Pi
294

Modelos de respuesta limitada: Probabilidad lineal y logit

Yi = 1

Probabilidad = Pi

Entonces el valor esperado de Y es:


E (Yi ) = 0 * (1 - Pi ) + Pi * 1 = Pi
Pi = 0 + 1 X1 + 2 X2 + + n Xn + ui
Donde Pi sigue una distribucin binomial que puede representarse del siguiente modo:
P (Xi) = Combinatoria (N, X) * Pi x (1 Pi ) (n-x)

(1)

Donde:
Combinatoria (N, X) = N! / [ X! * ( N X )! ]
La expresin !, representa el factorial de dicho nmero.
Considere que el evento fue un fracaso es decir Pi = 0, entonces para todo valor positivo del
nmero aleatorio X, la distribucin de probabilidad binomial arroja el valor cero. Ahora considere
que el evento fue un xito, es decir Pi = 1, entonces el valor de la distribucin binomial ser
nuevamente cero.
Ahora tomemos en cuenta que las probabilidades de suceso pueden ser nmeros entre 0 y 1,
entonces el valor de la distribucin binomial, por ejemplo para 5 datos, considerando que la
variable aleatoria X es cambiante, puede representarse en la figura que sigue.
Como pueden ver, considerando que la variable aleatoria va de 0 a 5, piense por ejemplo que
el experimento consiste en sacar de una nfora (se sacan papeletas conteniendo el DNI)
aquellas personas que estn o no desempleadas, entonces el nmero 0 indica que no se saco
ninguna desempleada, el nmero 1 indica que se sac una desempleada y as sucesivamente
hasta sacar 5 desempleados.
La probabilidad de 0.1 para este primer caso indica que existen 10% de posibilidades de
obtener un desempleado en un conjunto cualquiera de personas, piense que en el nfora existen
100 papeletas y el experimento es sacar al menos 10 papeletas, a ver cuales son empleados o
desempleados, en el nfora existen al menos 10 desempleados.

295

Modelos de respuesta limitada: Probabilidad lineal y logit

Fig. 8.1 Distribucin binomial para X que va de 0 a 5 con N = 5 datos

En la primera lnea se muestra el comportamiento de la distribucin binomial, para una


probabilidad de ocurrencia de 10% de obtener X la variable aleatoria de inters y 90% de no
obtenerla.
En el caso de la ltima distribucin, se muestra la probabilidad de 50% de que se obtenga la
variable aleatoria de inters (en el ejemplo obtener 0, 1, 2, 3, 4 o 5 desempleados del nfora),
igual la probabilidad de no obtener esta variable es 50%. El valor de la distribucin se va
reduciendo en la medida que vamos introduciendo en el nfora ms elementos de inters, en
este caso introducimos ms papeletas de desempleados, as es ms probable que encontremos
un desempleado y menos probable que no lo encontremos.
Como se muestra en las distribuciones, el valor medio de la variable aleatoria X (esperanza o
valor esperado de X) va cambiando, esta se puede obtener del siguiente modo:

296

Modelos de respuesta limitada: Probabilidad lineal y logit

Tabla 8.1 Valor esperado de X en una distribucin binomial


X
0
1
2
3
4
5
E (X)

(P = 0.1)*Xi
0
0.32805
0.1458
0.0243
0.0018
0.00005
0.5

(P = 0.2)*Xi
0
0.4096
0.4096
0.1536
0.0256
0.0016
1

(P = 0.3)*Xi
0
0.36015
0.6174
0.3969
0.1134
0.01215
1.5

(P = 0.5)*Xi
0
0.15625
0.625
0.9375
0.625
0.15625
2.5

El valor de cada elemento de la tabla anterior, resulta del valor de la distribucin binomial por
Xi, a partir de la siguiente expresin:
E (Xi = 0) = Pi * (Xi = 0)
E (Xi = 0) = 0.59 * 0
E ( Xi = 1) = 0.328 * 1
E ( Xi = 1) = 0.07 * 2
As sucesivamente, donde el valor de la distribucin binomial siguiendo la ecuacin (1) para
una probabilidad de 10% (P = 0.1) es de (mostrado en la figura 8.1):
Pi (X = 0) = 0.59
Pi (X = 1) = 0.328
Pi (X = 2) = 0.07
Entonces el valor esperado X para la distribucin binominal con P=0.1, resulta en:
E X ( P = 0.1) = Pi Xi = 0.5
E X ( P = 0.2) = Pi Xi = 1
Y sucesivamente, esto puede expresarse a modo general como:
297

Modelos de respuesta limitada: Probabilidad lineal y logit

EX=N*P
Donde N es el nmero de datos y P es la probabilidad de xito, en este caso 0.1, 0.2, 0.3 y
0.5, como las usadas en la tabla anterior. Si estuviramos slo con una distribucin dicotmica
discreta, conocida como distribucin de Bernoulli, el valor esperado de X es:
EX=P
La varianza en una distribucin se puede expresar del siguiente modo:
Varianza = E (X 2) - ( E X) 2
Para lo cual hemos construido la tabla siguiente:
Tabla 8.2 varianza en una distribucin binomial, para N = 5 datos y X de 0 a 5
X2
0
1
4
9
16
25
Suma
(EX)2
Varianza
Desviacin

(P = 0.1)*Xi 2
0
0.33
0.29
0.07
0.01
0.00
0.70
0.25
0.45
0.67

(P = 0.2)*Xi 2
0
0.41
0.82
0.46
0.10
0.01
1.80
1.00
0.80
0.89

(P = 0.3)*Xi 2
0
0.36
1.23
1.19
0.45
0.06
3.30
2.25
1.05
1.02

(P = 0.5)*Xi 2
0
0.16
1.25
2.81
2.50
0.78
7.50
6.25
1.25
1.12

Los valores de la distribucin binomial estimados usando la ecuacin (1), se multiplican ahora
por Xi 2, estos resultados son sumados para cada nivel de probabilidad, por ejemplo para P = 0,1,
la suma resulta 0.70, lo que equivale al valor esperado: E (X2), esto se resta de la esperanza de
X cuadrtica (E X) 2 estimada antes, con lo cual la varianza estimada y la desviacin estndar se
muestran en el cuadro previo.
Los resultados estimados equivalen a decir que la varianza estimada de una distribucin
binomial es:
298

Modelos de respuesta limitada: Probabilidad lineal y logit

Varianza X = N * P * (1 P)
As para una probabilidad de 0.1, se tiene una varianza de:
Varianza X = 5 * 0.1 * 0.9 = 0.45
Desviacin estndar = 0.45 0.5 = 0.67
En el caso de que se tenga una variable discreta de probabilidad, la denominada Bernoulli, se
tiene que la varianza es:
Varianza X = P * (1 P)
Finalmente hay que sealar, que la distribucin binomial que sigue una variable cualquiera,
en estos modelos dicotmicos, tiene una distribucin de probabilidad acumulada, mostrada en la
figura siguiente.
En este caso, el valor de la variable (para fines economtricos la respuesta probabilstica es
una variable dependiente) equivalente a la probabilidad, es mximo 1, se muestra adems que
toma valores entre 0 y 1, si bien el planteamiento del modelo muestra solo dos posibilidades
(xito 1 y fracaso 0) las estimaciones de la variable dependiente son una distribucin de
probabilidades continua.
Fig. 8.2 Distribucin binomial acumulada para X que va de 0 a 5 con N = 5 datos

299

Modelos de respuesta limitada: Probabilidad lineal y logit

Veamos ahora una aplicacin con el modelo siguiente:


Pi = 0 + 1 Xi + ui
Donde:
Pi = 1 si el gobierno tiene supervit fiscal primario
Pi = 0 si el gobierno tiene dficit fiscal primario
X1 = El porcentaje de inversin privada sobre el PBI
El modelo indica que si la inversin mejora, entonces se tendr supervit del gobierno, si la
tasa de inversin privada cae, se tendr un dficit primario. La figura siguiente ilustra el
comportamiento de las variables en el caso de Per para los aos 2009 a 2014.
Fig. 8.3 Resultado primario (0 dficit, 1 supervit) del Gobierno central e inversin privada
(% del PBI) trimestral 2009-2014

300

Modelos de respuesta limitada: Probabilidad lineal y logit

La figura previa indica que los resultados superavitarios del gobierno central (la variable toma
valor 1), tienden a relacionarse con un crecimiento de la inversin privada trimestral, lo cual
probaremos estimando los parmetros respectivos (prueba t en parntesis):
Pi = -1.286 + 0.09 X1 + ui
(-1.87)

(2.708)

R2 = 0.314
El modelo indica que el ajuste es de 31% y el parmetro X1 (la inversin privada sobre PBI)
es significativo pues tiene un valor t de 2.7, ahora veamos si el modelo presenta evidencias de
heterocedasticidad, para ello tomemos la siguiente figura:
Fig. 8.4 Error cuadrtico (ui2) versus inversin privada sobre PBI (X)

La figura previa muestra una potencial heterocedasticidad, de modo que debemos corregir el
modelo, tomando en cuenta los clculos de la desviacin estndar de cada Pi estimado.

301

Modelos de respuesta limitada: Probabilidad lineal y logit

Para las correcciones consideramos, tal como muestra la tabla siguiente, que las
probabilidades estimadas (Yi) negativas no sern tomadas en cuenta, toda vez que no existen en
el espacio binominal o discreto.
Asimismo consideramos que Yi es discreto y dicotmico, lo que supone que la varianza de
cada estimacin equivale a Pi * (1 Pi ), este valor servir para ajustar las estimaciones
realizadas. Para corregir la heterocedasticidad usaremos el siguiente modelo:
Pi = Yi corr = 0 + 1 Xi corr + ui
Donde:
Yi corr = Yi / [ Pi * (1 - Pi) ] 0.5
Xi corr = Xi / [ Pi * (1 - Pi) ] 0.5
Tabla 8.3. Estimaciones de varianzas y correccin a Y (estimado) y X
Yi
0
1
1
0
0
1
1
1
0
1
1
0
0
1
1
0
0
1

Xi
12.355
18.742
20.664
18.714
18.028
22.676
21.871
19.705
18.249
20.645
23.776
23.149
17.146
24.495
24.037
22.803
18.320
24.413

Yi '
-0.178
0.394
0.566
0.392
0.330
0.747
0.675
0.480
0.350
0.565
0.845
0.789
0.251
0.910
0.869
0.758
0.356
0.902

Pi

Pi (1-Pi)

0.394
0.566
0.392
0.330
0.747
0.675
0.480
0.350
0.565
0.845
0.789
0.251
0.910
0.869
0.758
0.356
0.902

0.239
0.246
0.238
0.221
0.189
0.220
0.250
0.227
0.246
0.131
0.166
0.188
0.082
0.114
0.183
0.229
0.088

ui
0.178
0.606
0.434
-0.392
-0.330
0.253
0.325
0.520
-0.350
0.435
0.155
-0.789
-0.251
0.090
0.131
-0.758
-0.356
0.098

u i2
0.032
0.367
0.188
0.153
0.109
0.064
0.106
0.270
0.122
0.190
0.024
0.623
0.063
0.008
0.017
0.575
0.127
0.010

Xi
Yi corr
12.355
18.742 0.806
20.664 1.143
18.714 0.802
18.028 0.702
22.676 1.717
21.871 1.440
19.705 0.962
18.249 0.734
20.645 1.139
23.776 2.337
23.149 1.934
17.146 0.579
24.495 3.174
24.037 2.571
22.803 1.770
18.320 0.744
24.413 3.040

Xi corr
38.355
41.695
38.341
38.338
52.141
46.678
39.441
38.263
41.640
65.738
56.741
39.544
85.459
71.155
53.242
38.255
82.255

302

Modelos de respuesta limitada: Probabilidad lineal y logit

Los resultados del modelo corregido son los siguientes (usando constante pero puede
correrse sin constante, lo cual ajusta ms el modelo, la prueba t est en parntesis):
Pi = -1.163219 + 0.0523105 X1 corr + ui
(-9.81)

(23.53)

R2 = 0.97
Como indica la versin corregida del modelo (sin heterocedasticidad), el parmetro constante
y la pendiente se han ajustado a la baja (tienen menos varianza), as encontramos que la
inversin privada sobre PBI (%) tiene un efecto de 0.05 en la probabilidad de que el gobierno
tenga un resultado primario positivo (1% de crecimiento de la inversin privada eleva 5% la
probabilidad de supervit).
Ambas variables son significativas y el ajuste del modelo es 97%. Con lo cual los resultados
son de mejor explicacin y ajuste que el modelo anterior, producto de que ahora tenemos
variables corregidas sin el efecto de la varianza. Hay que notar que Yi es discreto o sigue la
distribucin de Bernoulli, mientras que Yi es continuo y sigue una distribucin binominal, siendo
una versin ajustada del primero, pero de mayor consistencia.
No obstante el R2 no es buen indicador de ajuste, como hemos visto en figuras previas, la
distribucin de datos no es normal sino Binomial (de forma discreto es de Bernoulli) esto limita el
uso del coeficiente de determinacin, por lo que en este caso el indicador es ms bien
referencial.

8.2 Modelo de regresin Logit


Las distribuciones de datos no siempre son normales (es decir simtricas) como hemos
venido considerando, muchas veces los datos se agrupan en algn lado de la distribucin, por
ejemplo:
-

En las colas de atencin normalmente los usuarios llegan concentrados por horas, por
ejemplo primeras horas de la maana o ltimas horas de la tarde. Las teoras de colas
recogen este comportamiento a travs de distribucin de datos tipo Poisson.

En los estudios sobre nivel educativo, es ms probable encontrar individuos con


estudios bsicos antes que superiores. Del total de poblacin existente, las mayoras
se concentran estudios primarios y secundarios, mientras que la minora se concentra
303

Modelos de respuesta limitada: Probabilidad lineal y logit

en estudios tcnicos superiores y un grupo ms reducido son los que siguen estudios
universitarios.
-

Por ejemplo, en la figura siguiente tenemos la distribucin de ingresos de los hogares


en el Per, como puede verse estos hogares en su mayora se concentran en los de
bajos ingresos y muy pocos llegan a los ingresos, altos por ejemplo 5,000 soles.

10

Percent
20

30

40

Fig. 8.5 Per: Distribucin de Ingresos por hogar 2013 (%) en soles netos por mes

5000
10000
15000
(ocupacin principal) ingreso lquido

20000

Fuente: ENAHO 2013 INEI

La figura anterior indica una concentracin de datos hacia la izquierda, es decir hacia la parte
baja de ingresos, esto no es evidentemente una distribucin normal, lo cual limita las
304

Modelos de respuesta limitada: Probabilidad lineal y logit

estimaciones de mnimos cuadrados, en estos casos inclusive los errores no siguen una
distribucin normal.
Un problema adicional de los modelos de regresin binomiales o de eleccin dicotmica es la
posibilidad de que la estimacin sea mayor que 1 o menor que cero, lo cual genera prdidas de
datos, sobre todo si se quiere probar la heterocedasticidad, en estos casos los modelos previos
son de uso limitado y si los datos son no normales, entonces hay que recurrir a otra forma de
estimacin.
Existe adems secuencias de datos que no son necesariamente dicotmicas, por ejemplo si
tomamos como variable dependiente el nivel educativo, este puede tomar valores desde 0 a 1, 2,
3 y sucesivamente, donde 3 puede ser primaria completa. En este caso tenemos modelos de
tipo multinomial, cuya estimacin supera los modelos de probabilidad lineal ya vistos
previamente.
Una forma de resolver los problemas previos, es plantear un modelo de distribucin de datos
logstica o Logit, en este tipo de distribucin la probabilidad de xito cambia lentamente conforme
la variable aleatoria se acerca a cero, lo mismo sucede si la variable es muy grande.
Fig. 8.6 Modelo Logit y Modelo de probabilidad lineal

305

Modelos de respuesta limitada: Probabilidad lineal y logit

Si se ve la figura anterior; en la distribucin logstica, la tasa de cambio de la frecuencia o


probabilidad entre cada nivel de ingresos, a medida que sube la variable, es pequea, adems
esto supone que la probabilidad no crece linealmente sino a tasas diferenciadas y continuas.
Esto implica que no estamos en presencia de un modelo de eleccin binario como el de Bernoulli
(dicotmico) sino en presencia de otra distribucin, previamente sealada como Logit, que
cumple adems la condicin de tener estimaciones acotadas entre 0 y 1.
Como indica la figura analizada, el modelo de probabilidad lineal puede dar estimados que
superan a 1 o son menores que cero, sin embargo el modelo logit esta diseado para ser
acotado entre 0 y 1, adems es no lineal en X o la variable explicativa.
A partir de la figura anterior tenemos que las probabilidades de xito Pi y de fracaso (1 - Pi)
son:
Pi = 1 / [ 1 + e (0 + 1 Xi ) ]
1- Pi = 1 - 1 / [ 1 + e (0 + 1 Xi ) ]
1- Pi = [ 1 + e (0 + 1 Xi ) 1 ] / [ 1 + e (0 + 1 Xi ) ]
1- Pi = e (0 + 1 Xi ) / [ 1 + e (0 + 1 Xi ) ]
1- Pi = e (0 + 1 Xi ) * e (0 + 1 Xi ) / [ e (0 + 1 Xi ) + 1 ]
1- Pi = 1 / [ e (0 + 1 Xi ) + 1 ]
Pi / (1 Pi ) = ( 1 / [ 1 + e (0 + 1 Xi ) ] ) / (1 / [ e (0 + 1 Xi ) + 1 ] )
Pi / (1 Pi ) = (e (0 + 1 Xi ) / [ 1 + e

(0 + 1 Xi ) ]

) / (1 / [ e (0 + 1 Xi ) + 1 ] )

Pi / (1 Pi ) = e (0 + 1 Xi )
Pi / (1 Pi ) = e Z est
Donde Z est (estimado) = 0 + 1 Xi
En logaritmos:
Ln [ Pi / (1 Pi ) ] = 0 + 1 Xi

306

Modelos de respuesta limitada: Probabilidad lineal y logit

De modo que la estimacin del modelo economtrico es una funcin de tipo logstica.
Consideremos que la funcin de distribucin probabilstica logit (la versin acumulada de la figura
anterior) es:
L (Y1, Y2, Y3 .Yn) = F ( Yi) = Pi Yi (1 Pi) (1 - Yi)
En este caso contamos con una variable aleatoria Y con n datos o elementos, que toma
valores entre 0 y 1, estos valores son para un conjunto de probabilidades Pi y (1 - Pi ), de modo
que la funcin previa es un producto de todas las distribuciones, note que la funcin logit tiene
mucho parecido con la binomial, donde:
= Funcin producto para todas las distribuciones de Yi
L = Funcin de verosimilitud Logit
Ahora expresemos la funcin L en logaritmos y obtenemos:
Ln L (Y1, Y2, Y3 .Yn) = [ Yi Ln Pi + ( 1- Yi ) Ln (1 Pi ) ]
= [ Yi Ln Pi + Ln (1 Pi ) - Yi Ln (1 Pi ) ]
= [ Yi (Ln Pi + Ln (1 Pi ) + Ln (1 Pi ) ]
= [ Yi Ln ( Pi / Ln (1 Pi ) ) + Ln (1 Pi ) ]
Ln L (Y1, Y2, Y3 .Yn) = Yi Ln ( Pi / Ln (1 Pi ) ) + Ln (1 Pi )
Ln L (Y1, Y2, Y3 .Yn) = Yi ( 0 + 1 Xi ) + Ln (1 / [ e (0 + 1 Xi ) + 1 ] )
Ln L (Y1, Y2, Y3 .Yn) = Yi ( 0 + 1 Xi ) (1) Ln [ e (0 + 1 Xi ) + 1 ]
Si derivamos la funcin logit con respecto a 0 (maximizando el valor de la funcin) e
igualamos a cero, obtenemos:
Ln L / 0 = 0
Ln L / 0 = Yi - [ ( 1 / [ e (0 + 1 Xi ) + 1] ) * (0 + 1 Xi ) * [ e (0 + 1 Xi ) + 1 ] (1) ] = 0
Ln L / 0 = Yi - ( 0 + 1 Xi ) = 0
Yi - N 0 + 1 Xi = 0
307

Modelos de respuesta limitada: Probabilidad lineal y logit

N 0 = Yi - 1 Xi
Entonces el valor esperado o tambin 0 estimado es:
E 0 = Ym - 1 X m
Donde:
Ym: es la media de Y
Xm: es la media de X
La estimacin del parmetro es similar a la obtenida en los estimadores de mnimos
cuadrados, de modo que podemos emplear esta forma de clculo para obtener los parmetros en
el modelo Logit. Del mismo modo puede expresarse el valor de 1.
Hay dos formas de ver el modelo logit, una es el logit agrupado y la otra es el logit binomial
(cuando la variable dependiente toma valores entre 0 y 1).

8.2.1 Logit agrupado


En el caso del logit agrupado, se tiene el ejemplo siguiente, que plantea analizar la relacin
entre la capitalizacin de una empresa que cotiza en bolsa y su respectiva rentabilidad,
para ello se requieren los datos siguientes:
Tabla 8.4 Empresas rentables segn capitalizacin burstil
Sector
AFP

Agrarias

Empresa
Integra
Habitat
Prima
Profuturo
Paramonga
Pucal
Laredo
San Jacinto

Capitalizacin Miles
Soles (Xi)
55,467
43,826
255,392
181,26
332,709
208,822
347,479
119,501

Total empresas (Ni)


4

18

Rentables (ni)
1
0
1
1
0
0
1
1
308

Modelos de respuesta limitada: Probabilidad lineal y logit

Sector

Empresa
Cartavio
Casa Grande
Chucarapi
Andahuasi
Chiquitoy
Salamanca
La Unin
San Juan
Sintuco
Cayalt
Pomalca
Tumn
Ingenio
Fanupe

Capitalizacin Miles
Soles (Xi)
232,772
774,957
56,220
227,462
888
40,027
2,559
60,000
34,599
18,857
64,957
28,749
43,699
2139

Total empresas (Ni)

Rentables (ni)
1
1
0
0
1
0
0
1
0
0
0
0
0
0

Fuente: BVL 2014

Como se indica en la tabla previa, en el sector de Administradoras de Fondos de


Pensiones (AFP) existen 4 empresas, las mismas que tienen su respectiva capitalizacin
burstil (el valor en la bolsa de todas sus acciones), de estas empresa 3 fueron rentables
(usando como indicador la tasa de rentabilidad patrimonial anual positiva) y una no lo fue. En
el sector agrarias se tienen 18 empresas de las cuales 6 fueron rentables. La tabla previa
puede resumirse de modo que se use en un modelo logit agrupado.
Considere ahora la tabla siguiente, donde se cuenta con datos reales y datos hipotticos
(debido a que algunas empresas no tienen informacin del ltimo ao al estar en
reorganizacin). La tabla 8.4 es la fuente para las dos primeras filas de AFP y empresas
agrarias, el resto de datos fueron aadidos, de ese modo se construye la tabla para tener un
logit de tipo agrupado.
Con fines de tener un dato que represente la variable Xi agrupada, se ha tomado el valor
de mercado o capitalizacin burstil ms alta por sector, este dato es tomado de la Bolsa de
Valores de Lima (BVL) y se hace considerando que la variabilidad en los tamaos de
empresas es muy alto, de modo que el promedio puede ser un mal referente del grupo, no
309

Modelos de respuesta limitada: Probabilidad lineal y logit

obstante la posibilidad de que el logit agrupado sea heterocedstico es alta para cualquier
tipo de estos modelos.
Tabla 8.5 Tabla de datos sobre rentabilidad de empresas para modelo logit
Sector
Capitalizacin ms alta (Xi) Total empresas (Ni) Rentables (ni) * Pi
AFP
255,392
4
3
0.75
Agrarias
774,957
18
6
0.33
Bancos
24,086,035
31
22
0.71
Diversas
6,435,524
68
41
0.60
Fondos de inversin
91,071
9
3
0.33
Industriales
5,285,275
47
19
0.40
Mineras
8,411,631
43
19
0.44
Seguros
348,384
18
5
0.28
Servicios
9,371,780
29
21
0.72
* Datos hipotticos
Note que al final aparece el estimado de Pi, tomando la siguiente expresin:
Pi = ni / Ni
En este caso se tiene la probabilidad de que haya empresas rentables en cada sector o
actividad econmica, en funcin a la capitalizacin burstil, el modelo finalmente ser:
Li = Ln [ Pi / (1 Pi ) ] = 0 + 1 Xi
Considerando que el modelo tiene heterocedasticidad, estimaremos lo siguiente:
Li * wi 0.5 = 0* wi 0.5 + 1* Xi * wi 0.5
Para esta estimacin tenga en cuenta que no hay constante, consideremos la tabla siguiente
con toda la informacin necesaria para ello:

310

Modelos de respuesta limitada: Probabilidad lineal y logit

Tabla 8.6. Estimacin del Logit para la rentabilidad de empresas segn capitalizacin
Xi
255,392
774,957
24,086,035
6,435,524
91,071
5,285,275
8,411,631
348,384
9,371,780

Pi 1 - Pi Ln (Pi / 1 - Pi ) = Li Ni Pi (1 - Pi ) = wi
0.75 0.25
1.10
0.75
0.33 0.67
-0.69
4.00
0.71 0.29
0.89
6.39
0.60 0.40
0.42
16.28
0.33 0.67
-0.69
2.00
0.40 0.60
-0.39
11.32
0.44 0.56
-0.23
10.60
0.28 0.72
-0.96
3.61
0.72 0.28
0.97
5.79

wi 0.5
0.87
2.00
2.53
4.03
1.41
3.36
3.26
1.90
2.41

Li * wi 0.5
0.95
-1.39
2.26
1.69
-0.98
-1.30
-0.76
-1.82
2.32

Xi*wi 0.5
221,176
1,549,914
60,871,929
25,965,893
128,794
17,781,749
27,392,294
662,031
22,556,812

En la tabla anterior, se ha tomado como varianza del modelo logit agrupado, la siguiente
expresin (note que es similar al modelo binomial) que sera la inversa de la varianza del
error (ui):
Varianza Li = 1 / Var (ui) = wi = Ni * Pi * (1 - Pi)
En base a la tabla anterior, se hizo una regresin de mnimos cuadrados ponderados (ya
que tanto Li como Xi han sido ponderados con wi 0.5) los resultados son los siguientes:
Li ponderado = -0.4194912 * wi 0.5 + 0.0000000641 * Xi ponderado + ui
(1.54)

(2.33)

R2 = 0.44

Los resultados de la regresin por Logit Agrupado indican que la variable capitalizacin
burstil (equivale tambin al valor y tamao de la empresa), tiene un efecto positivo (aunque
pequeo) en el logaritmo ponderado que mide la probabilidad de ser rentable, para cada
sector analizado con los datos de la tabla 8.5 (algunos datos hipotticos).
Visto desde el anlisis de significancia con la prueba t ( en parntesis), la variable Xi es
significativa, mientras que el parmetro relacionado con la desviacin estndar no lo es.
Ahora estimaremos la probabilidad de ocurrencia de Yi (la rentabilidad) para cada
elemento Xi (capitalizacin burstil o tamao de la empresa):
311

Modelos de respuesta limitada: Probabilidad lineal y logit

Tabla 8.7. Estimacin de la probabilidad de ser rentable dado un tamao empresarial


Li ponderado
-0.35
-0.74
2.84
-0.03
-0.58
-0.27
0.39
-0.75
0.44

Li '
-0.40
-0.37
1.12
-0.01
-0.41
-0.08
0.12
-0.40
0.18

ez
0.67
0.69
3.08
0.99
0.66
0.92
1.13
0.67
1.20

Pi
0.40
0.41
0.75
0.50
0.40
0.48
0.53
0.40
0.55

Cambio
0.000000015
0.000000015
0.000000012
0.000000016
0.000000015
0.000000016
0.000000016
0.000000015
0.000000016

El logit (Li) ponderado se obtiene usando los resultados de la regresin del logit agrupado,
mientras que el Logit estimado (Li ), se obtiene del siguiente modo:
Li = Li ponderado / wi 0.5
Siguiendo las frmulas mostradas previamente, obtenemos la probabilidad para cada
capitalizacin burstil o tamao empresarial medido por la variable X. As si el tamao es de
255 millones de soles, la probabilidad de ser rentable es de 40%; mientras que si el tamao
es de 774 millones, la probabilidad es 41%.
Para un tamao de 24 mil millones de soles, la probabilidad de ser rentable es de 75%,
mientras que en el ltimo caso, si el tamao de la empresa (capitalizacin burstil) es de 9 mil
millones de soles, la probabilidad de ser rentable es de 55%.
La estimacin del Logit Agrupado, puede realizarse mediante el programa Stata , para
ello hay que cargar los datos respectivos mediante la opcin de importacin, en el cuadro de
variables deben aparecer X, N y n, tal como se muestra en el Data Editor del programa (click
en el men Browse):

312

Modelos de respuesta limitada: Probabilidad lineal y logit

Fig. 8.7 Data Editor en Stata con variables necesarias para un Logit Agrupado

Una vez cargado los datos, se coloca en Do-file Editor la sentencia para el logit agrupado
del siguiente modo:
blogit N, n X
Est indicando que se agrupan los datos por N, con n sale la probabilidad (P i) y X es la
variable explicativa, los resultados en Stata se muestran en la figura siguiente, note que es
muy aproximado al clculo manual que hemos realizado, debido al mayor uso de dgitos por
parte del programa:

313

Modelos de respuesta limitada: Probabilidad lineal y logit

Fig. 1.8 Resultados de Logit Agrupado para X tamao empresarial y Pi Rentabilidad


. blogit n N X
Logistic regression for grouped data

Log likelihood =

-179.4723

_outcome

Coef.

X
_cons

Number of obs

267

LR chi2(1)

10.74

Prob > chi2

0.0010

Pseudo R2

0.0291

Std. Err.

P>|z|

[95% Conf. Interval]

6.53e-08

2.11e-08

3.10

0.002

2.40e-08

1.07e-07

-.4160216

.1988611

-2.09

0.036

-.8057822

-.026261

Los resultados sealan que la variable X es significativa (z con una probabilidad cercana a
cero) y tambin es significativa la constante, se tiene un Seudo R2 de 2.9%, indicador que
veremos en la seccin final de este captulo.

8.2.2 Logit individual


El logit individual puede ser binominal (para una respuesta dicotmica) o multinomial
(respuestas discretas), para cada elemento de la variable independiente se estima la
probabilidad respectiva usando la variable tal cual se obtiene en la muestra de informacin,
no se hacen agrupamiento de datos ni se obtiene probabilidades ex - ante, las estimaciones
se hacen directamente con las variables dependiente e independiente.
Usaremos un ejemplo con datos tomados de Gujarati (2003, pg 583), considerando el
siguiente modelo:
Nota_final = 0 + 1 Promed_inicial + 2 Nota_diagn + 3 Aplica_met
El modelo indica que la nota final o promedio final de un curso actual (Nota_final),
depende del promedio inicial (Promed_inicial) que obtiene el alumno (es decir el promedio
que obtuvo en el perodo anterior en cursos relacionados o requisitos), otra variable que
314

Modelos de respuesta limitada: Probabilidad lineal y logit

influye en la nota final es la Nota de diagnstico (Nota_diagn) o prueba de entrada del alumno
en el curso, donde se evala si conoce los temas o materias necesarias y llevadas
previamente para estudiar el curso actual y finalmente la ltima variable influyente es si el
profesor aplica metodologas activas en el aula (Aplica_met), por ejemplo uso de internet,
multimedia, debates, trabajos y otros que involucran al alumno fuertemente.
Los datos se muestran en el cuadro siguiente:
Tabla 8.8 Datos para el modelo logit explicativo de la nota final de un curso
id
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23

Promed_inicial
2.66
2.89
3.28
2.92
4.00
2.86
2.76
2.87
3.03
3.92
2.63
3.32
3.57
3.26
3.53
2.74
2.75
2.83
3.12
3.16
2.06
3.62
2.89

Nota_diagn
20.00
22.00
24.00
12.00
21.00
17.00
17.00
21.00
25.00
29.00
20.00
23.00
23.00
25.00
26.00
19.00
25.00
19.00
23.00
25.00
22.00
28.00
14.00

Aplica_met
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1

Nota_final
0
0
0
0
1
0
0
0
0
1
0
0
0
1
0
0
0
0
0
1
0
1
0
315

Modelos de respuesta limitada: Probabilidad lineal y logit

24
25
26
27
28
29
30
31
32

3.51
3.54
2.83
3.39
2.67
3.65
4.00
3.10
2.39

26.00
24.00
27.00
17.00
24.00
21.00
23.00
21.00
19.00

1
1
1
1
1
1
1
1
1

0
1
1
1
0
1
1
0
1

Con los datos se procedi a estimar el modelo Logit, usando Stata :


Fig. 8.9 Resultados Logit individual modelo para estimar la Nota Final
. logit Nota_final Promed_inicial Nota_diagn Aplica_met
Iteration 0:

log likelihood =

Iteration 1:

log likelihood = -13.259769

-20.59173

Iteration 2:

log likelihood = -12.894607

Iteration 3:

log likelihood = -12.889639

Iteration 4:

log likelihood = -12.889634

Iteration 5:

log likelihood = -12.889634

Logistic regression

Log likelihood = -12.889634

Std. Err.

Number of obs

32

LR chi2(3)

15.40

Prob > chi2

0.0015

Pseudo R2

0.3740

Nota_final

Coef.

P>|z|

[95% Conf. Interval]

Promed_inicial

2.826113

1.262941

2.24

0.025

.3507936

5.301432

Nota_diagn

.0951577

.1415542

0.67

0.501

-.1822835

.3725988

Aplica_met

2.378688

1.064564

2.23

0.025

.2921801

4.465195

_cons

-13.02135

4.931324

-2.64

0.008

-22.68656

-3.356129

316

Modelos de respuesta limitada: Probabilidad lineal y logit

Como puede verse la estimacin es bastante sencilla y permite sealar al menos usando la
probabilidad (P > z), que las variables significativas son el Promedio inicial (0.025 dentro del
5% de rechazo de la hiptesis nula), Aplica metodologa y la constante. La variable Nota
diagnstico no es significativa. En buena cuenta si el alumno tiene un buen promedio (seal
de que se preocupa por cumplir lo requerido en sus cursos) es probable que apruebe el curso
siguiente, esto se refuerza si el profesor aplica metodologas activas.
Las estimaciones de las probabilidades de suceso, se realizan considerando que
Zi est = 0 + 1 Promed_inicial + 2 Nota_diagn + 3 Aplica_met
Adicional a esto se considera que:
Pi = e Z est / (1+ e Z est )
Las estimaciones se muestran en la tabla siguiente:
Tabla 8.9 Probabilidades estimadas para la Nota final
Id
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

Z est
-3.60
-2.76
-1.47
-3.63
0.28
-3.32
-3.60
-2.91
-2.08
0.82
-3.69
-1.45
-0.74
-1.43
-0.57
-3.47

e z est
0.03
0.06
0.23
0.03
1.33
0.04
0.03
0.05
0.13
2.26
0.03
0.23
0.48
0.24
0.56
0.03

Pi
0.03
0.06
0.19
0.03
0.57
0.03
0.03
0.05
0.11
0.69
0.02
0.19
0.32
0.19
0.36
0.03
317

Modelos de respuesta limitada: Probabilidad lineal y logit

17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32

-2.87
-3.22
0.36
0.67
-2.73
2.25
-1.14
1.75
1.65
-0.08
0.56
-0.81
1.67
2.85
0.12
-2.08

0.06
0.04
1.44
1.95
0.07
9.51
0.32
5.76
5.18
0.93
1.74
0.44
5.32
17.29
1.12
0.12

0.05
0.04
0.59
0.66
0.06
0.90
0.24
0.85
0.84
0.48
0.64
0.31
0.84
0.95
0.53
0.11

De acuerdo con la tabla previa, el primer entrevistado tiene una probabilidad de aprobar el
curso de 3%, el segundo tiene una probabilidad de 6% y as sucesivamente, el ltimo
entrevistado tiene una probabilidad de aprobar el curso actual, de 11%.
Podemos observar que las probabilidades suben conforme va subiendo el promedio inicial,
por ejemplo la probabilidad de aprobar el curso para un promedio inicial de 2.06 es de 6%
(vase el entrevistado 21), mientras que la probabilidad de aprobar el curso para quien
obtuvo un promedio inicial de 4 es de 57%, reflejando las relaciones que se establecen del
modelo.

8.3 Significancia y ajuste en modelos Logit


Como los modelos Logit no se basan en distribuciones normales hay que definir algunos
indicadores de la confianza o bondad de ajuste, tanto de los parmetros como del modelo
diseado.
318

Modelos de respuesta limitada: Probabilidad lineal y logit

Para ello usemos el mismo ejemplo del caso anterior, para empezar los parmetros de un
modelo logit se analizan con el ratio z, que se estima del siguiente modo:
z = i / SE (i)
Si este valor tiende a cero, entonces cae en la regin de rechazo de la hiptesis nula, que
indica que el parmetro es igual a cero. De este modo los coeficientes del modelo y sus
respectivos valores z son:
Tabla 8.10 Significancia de parmetros
variable
Promed_inicial
Nota_diagn
Aplica_met
Constante

Parmetro
2.826113
0.095158
2.378688
-13.021350

Error
estndar
1.26
0.14
1.06
4.93

Valor Z
2.24
0.67
2.23
-2.64

Ratio Wald
5.01
0.45
4.99
6.97

El valor z debe superar a 2 para poder indicar que la variable es significativa, en el ejemplo
trabajado, la variable Nota_diagn no es significativa.
El ratio Wald es el valor z 2, indica que la distribucin de los parmetros sigue una secuencia
por lo que el valor crtico ser 4, de modo que si el valor calculado supera a 4, se puede decir
que tenemos un variable significativa.
t 2,

Otros indicadores que ayudan a entender la importancia y el impacto de los parmetros son el
ratio ODDS y los efectos marginales.
Tabla 8.11 Impacto de parmetros
Variable
Promed_inicial
Nota_diagn
Aplica_met

Ratio ODDS
16.87971
1.099832
10.79073

Efecto
marginal
0.3626
0.0122
0.3052

319

Modelos de respuesta limitada: Probabilidad lineal y logit

La tabla anterior indica que el parmetro de mayor importancia en el modelo es el promedio


inicial, medido con su ratio Odds de 16.8, le sigue la variable Aplica metodologa con un ratio de
10.7 y finalmente la variable nota diagnstico.
ODDS = e
Los efectos marginales indican como impacta cada parmetro en la estimacin final de la
probabilidad, as el parmetro Promedio inicial impacta en la probabilidad de aprobar el curso en
36%, mientras que el parmetro Nota diagnstico slo impacta en la probabilidad de aprobar en
un 1%. Finalmente el parmetro aplica metodologa, impacta en la probabilidad de aprobar en un
30.5%, de este anlisis la variable de mayor impacto en e modelo es el Promedio Inicial.
Veamos la tabla siguiente donde se muestra el clculo de los efectos marginales para cada
entrevistado y el promedio mostrado:
Tabla 8.12 Clculo de efectos marginales en Logit
Pi
0.03
0.06
0.19
0.03
0.57
0.03
0.03
0.05
0.11
0.69
0.02
0.19
0.32
0.19
0.36
0.03
0.05

Pi (1 - Pi)
0.03
0.06
0.15
0.03
0.25
0.03
0.03
0.05
0.10
0.21
0.02
0.15
0.22
0.16
0.23
0.03
0.05

Promed_inicial
0.07
0.16
0.43
0.07
0.69
0.10
0.07
0.14
0.28
0.60
0.07
0.43
0.62
0.44
0.65
0.08
0.14

Nota_diagn
0.00
0.01
0.01
0.00
0.02
0.00
0.00
0.00
0.01
0.02
0.00
0.01
0.02
0.01
0.02
0.00
0.00

Aplica_met
0.06
0.13
0.36
0.06
0.58
0.08
0.06
0.12
0.23
0.51
0.06
0.37
0.52
0.37
0.55
0.07
0.12
320

Modelos de respuesta limitada: Probabilidad lineal y logit

0.04
0.04
0.59
0.24
0.66
0.22
0.06
0.06
0.90
0.09
0.24
0.18
0.85
0.13
0.84
0.14
0.48
0.25
0.64
0.23
0.31
0.21
0.84
0.13
0.95
0.05
0.53
0.25
0.11
0.10
Efectos Marginales
Promedio

0.10
0.68
0.63
0.16
0.24
0.52
0.36
0.38
0.71
0.65
0.60
0.38
0.15
0.70
0.28

0.00
0.02
0.02
0.01
0.01
0.02
0.01
0.01
0.02
0.02
0.02
0.01
0.00
0.02
0.01

0.09
0.58
0.53
0.14
0.20
0.44
0.30
0.32
0.59
0.55
0.51
0.32
0.12
0.59
0.23

0.36258

0.01221

0.30518

Donde los efectos marginales (como cambia la probabilidad ante cambios en X) individuales
se calculan del siguiente modo:
Pi / Xi = [ Pi / Z ] [ Z / Xi ]
Donde:
Z = i Xi
Z / Xi = i
Pi = 1 / [ 1 + e Z ]
Pi / Z = e Z / ( 1+ e Z ) 2
Pi * ( 1 - Pi ) = ( 1 / [ 1 + e Z ] ) ( 1 (1 / [ 1 + e Z ] )) = e Z / ( 1+ e Z ) 2

321

Modelos de respuesta limitada: Probabilidad lineal y logit

Con las estimaciones anteriores, podemos sealar que los efectos marginales individuales
(para cada variable explicativa del modelo) resultan en:
i * Pi ( 1- Pi )
El efecto marginal promedio, sera la sumatoria de la expresin anterior entre el nmero de
datos. El programa Stata tambin computa los efectos marginales para ello, una vez estimado
el logit, se usa el comando margins, del modo que se ve en la figura 8.10, donde dy/dx es el
indicador de efecto marginal.
Otros valores que nos ayudarn a estimar indicadores de ajuste del modelo son los
estimados de las funciones logit de verosimilitud que ya hemos visto anteriormente. As se
cuentan con dos estimados, uno es L (M), donde M indica el mximo nmero de iteraciones
realizadas para el modelo y el otro es L(0) para la iteracin de inicio.
Fig. 8.10 Estimacin de efectos marginales con Stata
. . margins, dydx(Promed_inicial Nota_diagn Aplica_met)
Average marginal effects

Number of obs

Model VCE

: OIM

Expression

: Pr(Nota_final), predict()

32

dy/dx w.r.t. : Promed_inicial Nota_diagn Aplica_met

Delta-method
dy/dx

Std. Err.

P>|z|

[95% Conf. Interval]

Promed_inicial

.3625808

.1094412

3.31

0.001

.1480801

.5770815

Nota_diagn

.0122084

.0177942

0.69

0.493

-.0226675

.0470843

Aplica_met

.3051777

.0923796

3.30

0.001

.1241171

.4862383

Cada iteracin en la funcin de verosimilitud, supone el uso de los parmetros del modelo, as
podemos sealar que:
L(0), estima la funcin de verosimilitud considerando que es:
322

Modelos de respuesta limitada: Probabilidad lineal y logit

Yi * Ln Pi + (1 - Yi ) * Ln (1 - Pi )
Donde Yi es el estimado de la funcin logit usando slo el parmetro constante, que en
nuestro modelo de ejemplo es -13.021, as el valor de Yi es:
Yi = e Zi = 0.000002213
Como vemos el resultado es una constante. Con esos datos nos aproximamos al valor de L (0),
que en el modelo result - 20.59. Donde Pi proviene de la tabla 8.9.
L(5) la mxima iteracin lograda en el modelo de ejemplo, se estim considerando que es:
Pi * Ln Pi + (1 - Pi ) * Ln (1 - Pi )
Donde:
Pi = e Z / (1+ e Z )
El valor de Z incluye todos los parmetros del modelo, la tabla 8.9 ya muestra los clculos de
Pi, en este caso slo se ha procedido a hallar los logaritmos y ponderarlos. Con estos datos el
valor de L(5) para las iteraciones realizadas con todos los parmetros fue de -12.88.
La tabla siguiente muestra los clculos:
Tabla 8.13 Estimacin del logaritmo de verosimilitud LM (5)
Pi
0.03
0.06
0.19
0.03
0.57
0.03
0.03
0.05
0.11
0.69

Ln Pi
-3.628
-2.822
-1.675
-3.653
-0.562
-3.356
-3.630
-2.965
-2.197
-0.366

Ln (1 - Pi)
-0.027
-0.061
-0.207
-0.026
-0.844
-0.035
-0.027
-0.053
-0.118
-1.183

Pi Ln Pi
-0.096
-0.168
-0.314
-0.095
-0.320
-0.117
-0.096
-0.153
-0.244
-0.254

[ Pi Ln Pi ] +
(1- Pi )( Ln (1 - Pi)) [ (1- Pi )( Ln (1 - Pi)) ]
-0.026
-0.123
-0.058
-0.226
-0.169
-0.482
-0.026
-0.120
-0.363
-0.683
-0.034
-0.151
-0.026
-0.122
-0.050
-0.203
-0.105
-0.349
-0.362
-0.616
323

Modelos de respuesta limitada: Probabilidad lineal y logit

0.02
0.19
0.32
0.19
0.36
0.03
0.05
0.04
0.59
0.66
0.06
0.90
0.24
0.85
0.84
0.48
0.64
0.31
0.84
0.95
0.53
0.11

-3.710
-1.661
-1.132
-1.644
-1.019
-3.500
-2.926
-3.255
-0.528
-0.414
-2.791
-0.100
-1.420
-0.160
-0.176
-0.732
-0.453
-1.180
-0.172
-0.056
-0.637
-2.198

-0.025
-0.211
-0.389
-0.215
-0.448
-0.031
-0.055
-0.039
-0.891
-1.081
-0.063
-2.352
-0.277
-1.911
-1.822
-0.656
-1.009
-0.367
-1.843
-2.907
-0.753
-0.118

-0.091
-0.316
-0.365
-0.318
-0.368
-0.106
-0.157
-0.126
-0.311
-0.274
-0.171
-0.090
-0.343
-0.136
-0.148
-0.352
-0.288
-0.363
-0.145
-0.053
-0.337
-0.244

-0.024
-0.171
-0.264
-0.173
-0.286
-0.030
-0.052
-0.038
-0.366
-0.367
-0.059
-0.224
-0.210
-0.283
-0.295
-0.340
-0.368
-0.254
-0.292
-0.159
-0.355
-0.105
LM (5)

-0.115
-0.486
-0.629
-0.491
-0.654
-0.135
-0.209
-0.163
-0.677
-0.641
-0.231
-0.314
-0.553
-0.419
-0.442
-0.692
-0.656
-0.617
-0.437
-0.212
-0.691
-0.349
-12.8896

Hay que notar que L(4) y L(5) muestran el mismo valor, esto indica que la funcin de
verosimilitud en realidad hizo 4 combinaciones de las variables explicativas, quedndose con
aquella que dio el mximo valor (son nmeros negativos) y que corresponde al empleo de todas
las variables del modelo.
Con estas estimaciones de la funcin L, se procede a calcular indicadores globales de ajuste,
como el Seudo R2, conocido tambin como R2 de Mc Fadden (1974):
Seudo R2 = 1 - [ L (M) / L (0) ]
324

Modelos de respuesta limitada: Probabilidad lineal y logit

Seudo R2 = 1- 12.89 / 20.59 = 0.3740


Esto indica que las variables independientes explican la probabilidad de aprobar el curso en
37.4%, hay que indicar que en modelos de este tipo, es adecuado inclusive si logramos ajustes
de 30 a 40%.
Otros indicadores de ajuste son los siguientes:
R2 Cox Snell = 1 e [ 2 / N ] [ L (M) - L (0) ]
R2 Cox Snell = 1 2.71828 ( -2 / 32) * ( - 12.89 + 20.59 )
R2 Cox Snell = 0.382
En este caso el R2 de Cox Snell indica que el modelo es explicado en un 38% por las
variables independientes, este valor es algo mayor al Seudo R2, por tanto tiene ms holgura al
ponderarse por el nmero de datos.
Finalmente tenemos el R2 de Nagelkerke:
R2 Nagelkerke = R2 Cox Snell / [ 1- e (2 / N) * L (0) ]
R2 Nagelkerke = 0.382 / [1 - 2.71828 ( 2 / 32) * - 20.59 )]
R2 Nagelkerke = 0.382 / (1 - 0.2761)
R2 Nagelkerke = 0.5278
En este caso el R2 de Nagelkerke indica que las variables independientes explican a la
dependiente en un 52.78%. Este estimador es de mayor amplitud puesto que eleva el clculo de
Cox Snell, considerando que le quita el peso del estimador inicial de verosimilitud, ampliando la
potencia del R2, sin restringirlo a este lmite menor.

325

Modelos de respuesta limitada: Probabilidad lineal y logit

Conclusiones del captulo


En este captulo se ha abordado el diseo de los modelos de probabilidad lineal y logit, en ambos
casos se recurre a estos modelos debido a que las distribuciones de probabilidad de las variables
aleatorias de inters, puede no ser normal, de modo que los parmetros deben ser estimados
considerando las distribuciones de Bernoulli o Binomial y la distribucin logit.
En el primer caso las respuestas son dicotmicas o de naturaleza 1 y 0 (categoras si o no,
acuerdo o desacuerdo, compra o no compra etc), en estos modelos la estimacin directa de los
parmetros conduce a hallar la probabilidad de suceso de la variable dependiente, sin embargo es
probable que este modelo genere respuestas por encima de 1 o debajo de cero, lo cual no es dable
en modelos de probabilidad.
Ante este problema se plantean distribuciones acotadas entre 0 y 1, conocidas como funciones
Logit, estas funciones crecen lentamente en torno a cero y uno, pero se desplazan rpidamente o a
ritmo continuo en medio de esos datos, por lo cual tienen mejor poder explicativo que el modelo
binomial o de Bernoulli.
En un modelo logit se puede tener variables dependientes dicotmicas conocidas como logit
binomial o variables de respuesta discreta lo que se conoce como logit multinomial.
La estimacin de los modelos logit puede ser mediante dos mecanismos, uno de ello es el logit
agrupado en donde es necesario conocer la variable explicativa (o variables) y tambin conocer la
estructura de la variable dependiente, esto es cuntos elementos de inters hay para cada set o
conjunto de respuestas o caractersticas de la variable. Por ejemplo cuantos tienen casa propia de
un total de hogares para cierto nivel de ingresos, o cul es la rentabilidad de las empresas que
cotizan en bolsa para cada sector econmico segn el tamao de las empresas.
En esos casos de datos agrupados se puede estimar este tipo de logit, aunque las respuestas
dada la presencia de heterocedasticidad (note que en cada grupo hay desviaciones y en el total se
amplifican) tienen que ser corregidas y estimar un logit agrupado bajo el mtodo de mnimos
cuadrados ponderados (es decir usando la desviacin estndar como ponderador).
Otro modelo aplicable es el logit individual, en este caso la estimacin es directa para cada
elemento de la muestra de anlisis, hay que notar que la variable dependiente es un ratio de
probabilidad de xito sobre fracaso, con lo cual el valor estimado debe ser computado hasta hallar la
probabilidad requerida.
326

Modelos de respuesta limitada: Probabilidad lineal y logit

Los modelos Logit tienen indicadores de ajustes global como el R2 de Mc Fadden, o el de Cox
Snell, ambos indican el grado de explicacin de las variables independientes sobre la variable
respuesta. Los parmetros se validan mediante un ratio z de distribucin o el ratio Wald, asimismo
se procura estimar los impactos de cada parmetro mediante los efectos marginales, que miden cual
es la variable de mayor efecto en la probabilidad estimada.

327

Modelos de respuesta limitada: Probabilidad lineal y logit

Preguntas de opinin
1. Disee un logit agrupado para medir la productividad agrcola.
2. Disee una encuesta breve para un logit individual que mida las causas del
desempleo temporal.
3. El logit es mejor que el modelo de probabilidad lineal?
4. Cundo usar un logit multinomial?
5. Explique Por qu el test de Wald debe ser mayor a 4?

328

Modelos de respuesta limitada: Probabilidad lineal y logit

Caso de aplicacin
Lectura previa
Zegarra et al (2007) encontraron una asociacin positiva entre la actividad minera y los gatos
e ingresos de las familias urbanas, pero no se encontraron efectos en las familias rurales, no
obstante ellos afirman que si es posible encontrar menor pobreza en zonas donde hay actividad
minera comparada con zonas donde no existe dicha actividad.
Otros hallazgos vinculados a su estudio indican que la agricultura rural en general, no ha
sufrido desplazamientos producto de la actividad minera, excepto zonas en donde se produce
alta competencia entre ambas actividades, como el centro del pas.
Las evidencias por zonas indican que la sierra norte ha tenido mejoras de ingreso, mientras
que la sierra sur se ha visto afectada con mayor pobreza. Ahora en el caso de los hogares
estudiados por Zegarra et al (2007), se hallan evidencias de impacto positivo de la minera en
aquellos hogares donde el jefe tienen mayor nivel educativo, mientras que en grupos de mayor
pobreza y vulnerabilidad (menos calificacin) el impacto de la minera puede ser hasta negativo.
En el caso del norte, Aragon y Rud (2009) encuentran que el efecto de la minera es concreto,
ellos hallan incrementos del ingreso de 1.7% relacionado con al menos 10% de las compras que
las empresas mineras realizan en la regin o distrito de influencia, en esa lnea dicha mejora de
los ingresos sustenta un aumento del bienestar y reduccin de la pobreza.
Estudios de Macroconsult (2012) indican que la minera si impacta en la pobreza, as zonas
con actividad minera comparables con otras que no lo son, tienen menores ndices de pobreza,
los efectos son mayores si se trata de la gran minera, mientras que la pequea minera apenas
genera una reduccin de pobreza de 1.4% entre hogares no pobres y pobres.
En materia de indicadores sociales, la minera reduce los efectos de la desnutricin infantil
hasta en 6% y reduce el analfabetismo en 5%, mientras que la pequea minera aumenta el
efecto de la mortalidad infantil en 5% (explicada por la incidencia negativa de zonas pobladas sin
servicios, contaminadas e infecciosas). En ambos casos, esas medidas son los mayores
impactos en variables sociales entre hogares vinculados a la minera y aquellos que no.
Kunanayagam et al (2000) seala que la minera puede tener efectos positivos en la
macroeconoma del pas, pero tambin efectos directos en los hogares, puesto que es posible
encontrar efectos contaminantes en el aire, agua y suelo que afecten la productividad.

329

Modelos de respuesta limitada: Probabilidad lineal y logit

Es posible que el desarrollo humano, junto a la salud de los trabajadores formales informales
vinculados al rubro minero, se deterioren e inclusive pueden surgir actividades ilegales en torno a
la minera que generan empleos precarios y de alto contagio de enfermedades.
Hay efectos ms institucionales por ejemplo en la corrupcin local, o en la solidez de las
finanzas locales, por ejemplo la minera eleva los precios de los alimentos y otros bienes,
adems de afectar el valor de la moneda local, esto puede ser el lado negativo del incremento de
los ingresos, considerando adems que las poblaciones locales sufren evidentes cambios en sus
perfiles socio culturales.

Preguntas
1. Cmo diseara un modelo (o modelos) LOGIT para medir los efectos de la minera
en los hogares, incluya las variables a usar?
2. Cmo tomara la informacin o que fuentes de datos necesita?
3. Qu valores o signos deben tener los parmetros para explicar el efecto de la
minera en los hogares?

330

Modelos de respuesta limitada: Probabilidad lineal y logit

Ejercicios
Si consideramos que la tasa de inters en moneda extranjera para un pas cualquiera sube,
entonces esto promueve la entrada de capitales y el tipo de cambio expresado en la moneda
local debera bajar (por ejemplo en soles por dlar). Al revs, menores tasa de inters por la
moneda extranjera suponen que el tipo de cambio debe subir en moneda local, esto se da por la
salida de moneda extranjera del pas.
En buena cuenta, si las tasas de inters se reducen, es ms probable que suban los tipos de
cambio en moneda local o que la moneda local se deprecie.
El modelo previo puede expresarse del siguiente modo:
F = St * ( 1+ i en moneda local t ) / ( 1+ i en Moneda extranjera t )
Donde F se expresa en dlares por sol y S tambin, F es el tipo de cambio esperado, as un
crecimiento de la tasa en moneda extranjera implica una cada de F (cae en dlar por sol), lo que
a su vez indica un alza de la moneda en soles por dlar. Esto valida la intuicin de la salida de
capitales por menor rendimiento local frente a la moneda extranjera (medido en tasas de inters
pasivas).
Entonces podemos plantear el modelo siguiente:
Y=a+bX+e
Donde Y es la probabilidad lineal de que suba el tipo de cambio en dlares por sol, en buena
cuenta la probabilidad de que (F/S) sea creciente. Considere que Y es 1 si F es creciente o tiene
variacin porcentual positiva (indicando lo que en economa se denomina apreciacin del sol o de
la moneda local pues requiere ms moneda extranjera por unidad) y cero de no ser as. Esto
puede expresarse del siguiente modo tambin:
F = St+1 = St* ( 1+ i en moneda local t ) / ( 1+ i en Moneda extranjera t )
St+1 / St = ( 1+ i en moneda local t ) / ( 1+ i en Moneda extranjera t )
Donde:
331

Modelos de respuesta limitada: Probabilidad lineal y logit

Sol se aprecia: (St+1 / St ) 1 > 0 , Y = 1


Sol se deprecia: (St+1 / St ) 1 < 0 , Y = 0
X es el ratio entre (1+ i en moneda local) sobre (1+ i en moneda extranjera), entonces si el ratio
sube, la probabilidad de que el tipo de cambio F (respecto a S), suba es creciente o tiende a 1. Si
no sucede esto la probabilidad sera cero. En resumen alzas del inters local, elevan la
probabilidad de que el sol se aprecie.
Datos a usar:

TC Nominal Interbancario
Venta - promedio
mensual (S/. por US$)

Tasa Pasiva
Promedio en
Moneda Nacional
(TIPMN)

Tasa Pasiva
Promedio en
Moneda Extranjera
(TIPMEX)

Oct12

2.5883000

2.4000

0.7000

Nov12

2.599142857

2.4423

0.8703

Dic12

2.567045635

2.3700

0.8860

Ene13

2.552474026

2.3774

0.9752

Feb13

2.579000000

2.3671

1.1500

Mar13

2.594601504

2.2871

1.1213

Abr13

2.598584416

2.3090

0.9172

May13

2.646616883

2.3039

0.7265

Jun13

2.750819549

2.3187

0.6263

Jul13

2.778047619

2.3271

0.5968

Ago13

2.802897959

2.3158

0.5448
332

Modelos de respuesta limitada: Probabilidad lineal y logit

Sep13

2.77937415

2.3467

0.4763

Oct13

2.770027211

2.3432

0.4461

Nov13

2.799300000

2.3327

0.4367

Dic13

2.787042857

2.2697

0.4074

Ene14

2.810006494

2.2552

0.3700

Feb14

2.813221429

2.2636

0.3493

Mar14

2.807285714

2.2732

0.3390

Abr14

2.795021429

2.2957

0.3400

May14

2.787659864

2.3419

0.3452

Jun14

2.795306122

2.403

0.3547

Jul14

2.78722449

2.3829

0.3548

Ago14

2.815619048

2.3319

0.3539

Sep14

2.865642857

2.324

0.3517

Fuente: BCRP

Preguntas

Considere los datos siguientes y estime el modelo previo, analice si se cumple la intuicin
aqu sealada o si requiere algunos ajustes al modelo.
Si el modelo es poco explicativo, qu otras variables pueden explicar la probabilidad de
que el sol se aprecie?

333

Modelos de respuesta limitada: Probabilidad lineal y logit

Referencias bibliogrficas
Aragon, F. Rud., J. (2009) The blessing of natural resources: Evidence from Peruvian gold mine.
DT 2009-015. BCRP.
Cox, D. R., and E. J. Snell. 1989. The Analysis of Binary Data, 2nd ed. London: Chapman and
Hall.
Greene, W. (2003) Econometric Analysis. Fifth Edition. Pearson Ed.
Gujarati, D. (2004) Econometra. 4ta Edic. Mc Graw Hill.
Hausman, R. Hwang, J. and Rodrick, D. (2005) What your export matters. NBER Working Papers
11905.
Imbs, J. and Wacziarg, R. (2003) Stages of Diversification. American Economic Review. Vol. 93
Issue 1.
Johnston, J. and Dinardo, J. (1997) Econometric Methods. Fourth Edition. Mc Graw Hill
Kunanayagam, R. McMahon, G. Sheldon, C. Strongman, J. and Weber, M. (2000) La minera y la
reduccin de la pobreza. Banco Mundial
Mc Fadden, D. 1974. Conditional logit analysis of qualitative choice behavior. In: Frontiers in
Economics, P. Zarembka, eds. New York: Academic Press.
Nagelkerke, N. J. D. 1991. A note on the general definition of the coefficient of determination.
Biometrika, 78:3, 691-692.
Novales, A. (1993) Econometra. Mc Graw Hill.
Rodrick, D. And Mc Millan, M. (2012) Globalization, structural change and Economic Growth.
NBER Working Papers 17143.
Wooldridge, J. (2009) Introductory Econometrics. A modern approach. Third Edition. Cengage
Learning.
Zegarra, E. Orihuela, C. y Paredes M. (2007) Minera y economa en los hogares en la sierra
peruana: Impactos y espacios de conflicto. DT Nro 51, GRADE.

334

También podría gustarte