Está en la página 1de 16

Examen de grado – Universidad Diego Portales -2016/2

ECONOMETRÍA
REPASO DE INFERENCIA ESTADÍSTICA
CONCEPTOS PRINCIPALES
Una estimación es una afirmación respecto al valor del parámetro

 Puntual: se obtiene un solo valor para el parámetro.


 De intervalos: propone un segmento de un continuo de valores (un intervalo) en algún punto del cual se
supone que se encuentre el verdadero valor del parámetro que se está estimando, con un cierto nivel de
confianza.
o Este intervalo se denomina intervalo de confianza.
o El nivel de confianza (1 − 𝛼, donde 𝛼 es el error que estamos dispuestos a cometer).
o Sus puntos limites reciben el nombre de límites de confianza.

APLICANDO EL TEOREMA DEL LÍMITE CENTRAL

x -µ
Z =
s
n

s
x - µ = Z·
n

Z=-1,96 Z=1,96
Nivel de confianza=0,95

x ·-sµ
Z x ·-sµ
Z
n µ n

PROPIEDADES DE LOS ESTIMADORES


I. Insesgamiento:

𝐸(𝜃̂) = 𝜃; 𝑆𝑒𝑠𝑔𝑜 = 𝐸(𝜃̂) − 𝜃 = 0

II. Mínima Varianza:

𝜃̂1 → 𝑚𝑖𝑛. 𝑣𝑎𝑟. < = > 𝑣𝑎𝑟(𝜃̂1 ) ≤ 𝑣𝑎𝑟(𝜃̂2 )

III. Mejor estimador insesgado o eficiente

𝑖𝑛𝑠𝑒𝑠𝑔𝑎𝑑𝑜 𝑦 𝑑𝑒 𝑚í𝑛𝑖𝑚𝑎 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎

Página 1 de 16
Examen de grado – Universidad Diego Portales -2016/2

IV. Linealidad: el estimador es una función lineal de 𝑥𝑖 .

1
𝜃̂ = 𝑋̅ = (𝑥 + 𝑥2 + 𝑥3 + ⋯ + 𝑥𝑛 )
𝑛 1

V. Mejor estimador lineal e insesgado (MELI):

𝑖𝑛𝑠𝑒𝑠𝑔𝑎𝑑𝑜, 𝑑𝑒 𝑚𝑖𝑛𝑖𝑚𝑎 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑦 𝑙𝑖𝑛𝑒𝑎𝑙

VI. Estimador del mínimo error medio cuadrático (EMC):


2 2
𝐸𝑀𝐶(𝜃̂) = 𝐸(𝜃̂ − 𝜃) = 𝑣𝑎𝑟(𝜃̂) + 𝑠𝑒𝑠𝑔𝑜(𝜃̂ )

MODELO DE REGRESIÓN LINEAL (MRL)


CONCEPTOS BÁSICOS DE REGRESIÓN Y ESTIMACIÓN
 Y & X son dos variables que representan alguna población y se desea “explicar Y en términos de X” o “estudiar
cómo varía Y cuando varía X”

𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝑢

Por ejemplo, un modelo que relaciona rendimiento del maíz con la cantidad de fertilizante.

𝑀𝑎𝑖𝑧 = 𝛽0 + 𝛽1 𝐹𝑒𝑟𝑡𝑖𝑙𝑖𝑧𝑎𝑛𝑡𝑒 + 𝑢

 Donde Maíz representa las toneladas por hectárea de maíz sembrado y Fertilizante los litros ocupados por
hectárea.
 El término de error 𝑢 comprende factores como la calidad de la tierra, precipitación pluvial, etc.

CONCEPTO DE REGRESIÓN
 El objetivo es predecir o estimar el valor medio poblacional de Y conocidos los valores de las variables
explicativas X.
 Veamos la relación entre los valores promedios de Y correspondiente a los diversos valores de X.
𝑌
Matemáticamente 𝐸 (𝑋).

Página 2 de 16
Examen de grado – Universidad Diego Portales -2016/2

FUNCIÓN DE REGRESIÓN POBLACIONAL (FRP)


 Si conectamos los diversos valores esperados de Y, la recta resultante se denomina Recta de regresión
poblacional.
𝑌
 Existe una relación “verdadera”, 𝐸 (𝑋 ) = 𝑔(𝑋𝑖 ) un proceso generador de datos que existe en la realidad, pero
𝑖
que no podemos observar a simple vista. Solo podemos observar las realizaciones de tal proceso poblacional
en una muestra aleatoria.
 ¿Qué forma tiene la función 𝑔(𝑋𝑖 ) específicamente?
 La forma funcional debe ser conjeturada en base a consideraciones teóricas.

𝑌
𝐸 ( ) = 𝑔(𝑋𝑖 ) = 𝛽0 + 𝛽1 𝑋1
𝑋𝑖

 Los parámetros 𝛽0 y 𝛽1 se conocen como los coeficientes de la regresión y determinan la posición de la recta
poblacional. 𝛽0 será el intercepto y 𝛽1 la pendiente.
 Si esta es la función “generadora de datos”, entonces las desviaciones observadas en torno a ella representan
variaciones aleatorias, que se denominan errores poblacionales (𝑢).

NATURALEZA DEL TÉRMINO DE ERROR ALEATORIO O ESTOCÁSTICO


 El error resume toda la ignorancia frente a las causas del fenómeno interés.
 Refleja la omisión consciente del investigador de todas aquellas variables que no constituyen el foco de la
investigación.
 Omisión de variables relevantes cuya medición se hace impracticable o cuyos datos no están disponibles, o
bien, utilización de variables proxy.
 Error de medición en variables explicativas y explicadas.
 Indeterminación de la conducta humana.
 La teoría económica proporciona solo ideas generales acerca de las formas funcionales.

FUNCIÓN DE REGRESIÓN MUESTRAL (FRM)


 Nuestro objetivo es estimar la función poblacional con datos de una muestra.
 En particular lo que deseamos estimar son los parámetros 𝛽0 y 𝛽1 .
 Un estimador o un estadígrafo muestral, es una regla o método que intenta, en base a la información disponible,
estimar del modo más preciso posible parámetros del modelo.
 La forma de la FRM es:

𝑌𝑖
𝑌𝑖 = 𝐸̂ ( ) + 𝜇̂ 𝑖 = 𝑌̂𝑖 + 𝜇̂ 𝑖 = 𝛽̂0 + 𝛽̂1 𝑋𝑖 + 𝜇̂ 𝑖
𝑋𝑖

 El 𝜇̂ 1 se conoce como “error muestral”. Como procede de la ecuación anterior, es igual a:

𝜇̂ 𝑖 = 𝑌𝑖 − 𝑌̂𝑖 = 𝑌𝑖 − 𝛽̂0 − 𝛽̂1 𝑋𝑖

 Equivale gráficamente a la distancia vertical entre un punto (X, Y) y la recta muestral.


 Este error intenta reflejar lo mismo que el error poblacional, pero además posee inexactitud propia de la
variabilidad aleatoria de la muestra utilizada.

Página 3 de 16
Examen de grado – Universidad Diego Portales -2016/2

ESTIMACIÓN DE PARÁMETROS
 La idea es obtener la recta de regresión a través de los puntos del gráfico de forma que esté lo más próxima
posible a la nube de puntos.
 La recta debiese ser tal, que ningún punto se aleje demasiado de ella. Esto es equivalente a decir que queremos
reducir al mínimo posible los errores de la FRM, seleccionando apropiadamente los valores de los estimadores.
 El método de los mínimos cuadrados ordinarios (MCO) consiste en minimizar la suma de las desviaciones al
cuadrado.
 De acuerdo a la FRM, con una variable explicativa, el problema resulta ser:
𝑛 𝑛
2
min = 𝜃 = ∑ 𝜇̂ 𝑖2 = ∑(𝑌𝑖 − 𝛽̂! − 𝛽̂ 2 𝑋𝑖 )
𝑖=1 𝑖=1

𝛽̂𝑖 = (𝑋 𝑇 𝑋)−1 𝑋𝑌

Ejemplo: La siguiente tabla contiene observaciones de un estudio de oferta laboral, donde las variables son: Ingreso
(ingreso laboral en miles de dólares) y Educación (años de educación).

INGRESO EDUCACIÓN
1715 18
400 12
2272 19
520 10
2000 17
1984 14
3120 22
2000 16
2000 17
1877 15
Tabla ejemplo

Se propone el siguiente modelo. Obténgase los estimadores.

𝐼𝑛𝑔𝑟𝑒𝑠𝑜 = 𝛽1 + 𝛽2 𝐸𝑑𝑎𝑑 + 𝜇𝑖

𝑎 = 9.006 = 𝛽1

𝑏 = 0.0039098 = 𝛽2

𝐼𝑛𝑔𝑟𝑒𝑠𝑜 = 9.006 + 0.004 ∗ 𝐸𝑑𝑎𝑑 + 𝜇𝑖 ; 𝑅 = 0.9005

Página 4 de 16
Examen de grado – Universidad Diego Portales -2016/2

MODELO DE REGRESIÓN LINEAL MÚLTIPLE


NOTACIÓN
 En economía, es difícil tener un fenómeno explicado por una sola variable.
 𝑌 = 𝑓(𝑋1 , 𝑋2 , … , 𝑋𝑘 , 𝜇𝑖 ). A este tipo de modelo lo llamamos modelo múltiple.

Modelo de regresión lineal población múltiple

(1) 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖2 + 𝛽3 𝑋𝑖3 + ⋯ + 𝛽𝑘 𝑋𝑖𝑘 + 𝜇𝑖 ; 𝑝𝑎𝑟𝑎 𝑖 = 1, 2, … , 𝑛

Donde 𝑋𝑖𝑘 representa la observación 𝑖 de la variable 𝑘.

𝑌1 = 𝛽1 + 𝛽2 𝑋12 + ⋯ + 𝛽𝑘 𝑋1𝑘 + 𝜇1
(2) { 𝑌2 = 𝛽1 + 𝛽2 𝑋22 …
+ ⋯ + 𝛽𝑘 𝑋2𝑘 + 𝜇2 }
𝑌𝑛 = 𝛽1 + 𝛽2 𝑋𝑛2 + ⋯ + 𝛽𝑘 𝑋𝑛𝑘 + 𝜇𝑛

FORMA MATRICIAL
𝑌1 1 𝑋12 … 𝑋1𝑘 𝛽1 𝜇1
(3) [ … ] = [… … … … ][…] + […]
𝑌𝑛 1 𝑋𝑛2 … 𝑋𝑛𝑘 𝛽𝑘 𝜇𝑛

Definiendo las siguientes matrices

Podemos expresar (3) como:

(4) 𝑌𝑛𝑥1 = 𝑋𝑛𝑥𝑘 𝛽𝑘𝑥1 + 𝜇𝑛𝑥1

Para modelo de regresión lineal muestral múltiple.

(5) 𝑌̂𝑖 = 𝛽̂1 + 𝛽̂2 𝑋12 + ⋯ + 𝛽̂𝑘 𝑋1𝑘 ; 𝑝𝑎𝑟𝑎 𝑖 = 1, 2, … , 𝑛

(6)

(7) 𝑌̂𝑛𝑥1 = 𝑋𝑛𝑥𝑘 𝛽̂𝑘𝑥1

(8) 𝑌𝑛𝑥1 = 𝑋𝑛𝑥𝑘 𝛽̂𝑘𝑥1 + 𝜇̂ 𝑛𝑥1

Página 5 de 16
Examen de grado – Universidad Diego Portales -2016/2

De la diferencia entre (8) y (7) sale la definición del error.

(9)

PROPIEDADES DE LA MATRIZ X’X


 Es simétrica.
 Cuadrada, de dimensión 𝑘𝑥𝑘.
 En la diagonal principal se encuentran los cuadrados de cada variable y fuera de la diagonal la suma de
productos cruzados.

Si (𝑋′𝑋)−1 existe, entonces:

(𝑋′𝑋)−1 𝑋 ′ 𝑌 = (𝑋′𝑋)−1 𝑋 ′ 𝑋𝛽̂

(𝑋′𝑋)−1 𝑋 ′ 𝑌 = 𝐼𝛽̂

𝛽̂ = (𝑋′𝑋)−1 𝑋′𝑌

INTERPRETACIÓN COEFICIENTES Y PROPIEDADES DE LOS


ESTIMADORES

RESUMEN MCO
 Es un problema de minimización
 Queremos encontrar parámetros que minimicen:
𝑛 𝑛
2
∑(𝑢̂)2 = ∑(𝑌𝑖 − 𝛽̂0 − 𝛽̂1 𝑋𝑖 )
𝑖=1 𝑖=1

INTERPRETACIÓN DE LOS COEFICIENTES


 Cuando tenemos un modelo múltiple, los coeficientes 𝛽̂𝑗 estimados, miden el efecto parcial de la variable 𝑋𝑖
sobre 𝑌, luego de eliminar los efectos de las otras variables sobre 𝑋𝑖 .

𝑌̂ = 𝛽̂1 + 𝛽̂2 𝑋𝑖2 + ⋯ + 𝛽̂𝑘 𝑋𝑖𝑘

̂ = 𝛽̂1 + 𝛽̂2 𝛥𝑋𝑖2 + ⋯ + 𝛽̂𝑘 𝛥𝑋𝑖𝑘


𝛥𝑌

Entonces, manteniendo constante 𝑋𝑖2 , … , 𝑋𝑖𝑘 , implica que 𝛥𝑌̂ = 𝛽̂2 𝛥𝑋𝑖2, cada 𝛽 tiene una interpretación ceteris
paribus o de efecto parcial.

Página 6 de 16
Examen de grado – Universidad Diego Portales -2016/2

DIAGRAMA DE BALLENTINE

 Mientras más variables tenemos, MCO utiliza menos información.


 El área común entre dos variables independientes nos dice la colinealidad.
 Si la colinealidad es perfecta, se hace imposible la estimación.
 Por el contrario, si las variables independientes son ortogonales, los estimadores serán los mismos en regresión
múltiple que en dos regresiones simples.

FORMAS FUNCIONALES
 Lineal: 𝑌 = 𝛼 + 𝛽𝑋
 Log-Log: ln(𝑌) = 𝛼 + 𝛽 ln(𝑋)
o También se le llama doble logarítmica.
o Elasticidad constante.
 Semi-logarítmica: ln(𝑌) = 𝛼 + 𝛽𝑋
o Elasticidad variable.
1
 Lineal-Recíproco: 𝑌 = 𝛼 + 𝛽 ( )
𝑥
 Lineal-Log: 𝑌 = 𝛼 + 𝛽 ln(𝑋)

Página 7 de 16
Examen de grado – Universidad Diego Portales -2016/2

INTERPRETACIÓN DE LOS MODELOS LOG


 Si el modelo es ln(𝑌) = 𝛽0 + 𝛽1 ln(𝑋) + 𝜇, 𝛽1 es la elasticidad de 𝑌, con respecto a 𝑋.
 Por ejemplo: se estima la relación entre el resultado de una prueba estandarizada en los colegios y los ingresos
por distrito, pero ahora con ambas variables en logaritmo.

̂ ) = 6.336 + 0.0554 ln(𝑖𝑛𝑔𝑟𝑒𝑠𝑜)


ln(𝑡𝑒𝑠𝑡

𝑅̅ 2 = 0.557

De acuerdo a esta estimación, un incremento de un 1% en los ingresos, corresponde a un incremento de 0.0554%


en los resultados esperados del test.

 Si el modelo es ln(𝑌) = 𝛽0 + 𝛽1 𝑋 + 𝜇, un cambio de una unidad en 𝑋 se asocia a un cambio de 𝛽1 ∗ 100%.


 Por ejemplo, se estimó la relación edad e ingresos para una subpoblación:

̂ ) = 2.655 + 0.0086 ∗ 𝑒𝑑𝑎𝑑


ln(𝑖𝑛𝑔𝑟𝑒𝑠𝑜𝑠

𝑅̅ 2 = 0.030

De acuerdo a esta estimación, se predice un incremento de los ingresos de un 0.86% por cada año adicional de
edad.
𝛽1
 Si el modelo es 𝑌 = 𝛽0 + 𝛽1 ln(𝑥) + 𝜇, un cambio de 1% en 𝑋 se asocia a un cambio de .
100
 Por ejemplo, se estima la relación entre el resultado de una prueba estandarizada de los colegios y los ingresos
por distrito según la ecuación.

̂ = 557.8 + 36.42 ln(𝑖𝑛𝑔𝑟𝑒𝑠𝑜)


𝑡𝑒𝑠𝑡

𝑅̅ 2 = 0.561

De acuerdo a esta estimación, un incremento de un 1% en el ingreso del distrito se asocia con un incremento de
0.01 ∗ 36.42 = 0.36 puntos en el test.

MODELOS CUADRÁTICOS
 Para un modelo de la forma 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝛽2 𝑋 2 + 𝜇, no podemos interpretar 𝛽1 solo con una medida del
cambio en 𝑌 con respecto a 𝑋, necesitamos tomar en cuenta también a 𝛽2 .
 Esta ecuación dice que un cambio en 𝑋 genera un cambio esperado en 𝑌 distinto, dependiendo del nivel inicial
de la variable 𝑋.

𝛥𝑦̂ ≈ (𝛽̂1 + 2𝛽̂2 𝑋)𝛥𝑋, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠

𝛥𝑦̂
≈ 𝛽̂1 + 2𝛽̂2 𝑋
𝛥𝑥̂

 Suponga que el coeficiente de 𝑋 es negativo y el coeficiente de 𝑋 2 es positivo.


 Entonces 𝑌 es decreciente en 𝑋 al principio, pero eventualmente crecerá en algún punto.

𝛽̂1
𝑆𝑖 𝛽̂1 < 0 & 𝛽̂2 > 0, 𝑒𝑙 𝑝𝑢𝑛𝑡𝑜 𝑑𝑒 𝑐𝑎𝑚𝑏𝑖𝑜 𝑠𝑒𝑟á 𝑒𝑛 𝑋 ∗ = | | , 𝑒𝑙 𝑐𝑢𝑎𝑙 𝑒𝑠 𝑒𝑙 𝑚𝑖𝑠𝑚𝑜 𝑐𝑢𝑎𝑛𝑑𝑜 𝛽̂1 > 0 & 𝛽̂2 < 0
(2𝛽̂2 )

Página 8 de 16
Examen de grado – Universidad Diego Portales -2016/2

 Veamos un ejemplo: se estimó la siguiente ecuación.

̂ = 3.73 + 0.298 ∗ 𝑒𝑥𝑝𝑒𝑟 − 0.0061 ∗ 𝑒𝑥𝑝𝑒𝑟 2 ; 𝑛 = 526; 𝑅 2 = 0.093


𝑠𝑎𝑙𝑎𝑟𝑖𝑜

 Cuando 𝛽1 y 𝛽2 tienen distinto signo, hay un valor de 𝑋 positivo a partir del cual el efecto ceteris pabirus de 𝑋
𝛽
en 𝑌 cambia de dirección. En el ejemplo, este valor es 𝑥 = |2𝛽1 | cuyo valor estimado es 24.4. Esto significa
2
que a partir de los 24.4 años de experiencia, un año más trabajando disminuye el valor esperado de los ingresos.

PROPIEDADES ALGEBRAICAS DE MCO


1. La suma, y por tanto el promedio muestral de los residuos de MCO, es cero.
𝑛
∑𝑛𝑖=1 𝜇̂ 𝑖
∑ 𝜇̂ 𝑖 = 0 ; 𝑦 𝑝𝑜𝑟 𝑡𝑎𝑛𝑡𝑜, =0
𝑛
𝑖=1

2. La covarianza muestral entre los regresores y los residuos MCO, es cero.


𝑛

∑ 𝑋𝑖 𝜇̂ 𝑖 = 0
𝑖=1

3. La línea de regresión muestral pasa siempre por los valores promedios de la muestra.
4. Los residuos muéstrales son ortogonales al valor explicado, es decir su covarianza es cero.
5. La media de los valores predichos de 𝑌 es igual a la media de 𝑌.

MEDIDA DE BONDAD DE AJUSTE


PROPIEDADES DE LOS ESTIMADORES MCO
 El TGM1 asegura que si existe otro estimador (𝛽2∗) con similares propiedades al que tiene MICO (linealidad, e
insesgamiento), para que la varianza de 𝛽2∗ sea mínima, este estimador debe ser el estimador MICO.
 Como consecuencia, MICO es el mejor estimador entre los estimadores lineales e insesgados.

Los estimadores MICO son de mínima varianza entre los estimadores lineales e insesgados, entonces MICO son
los mejores estimadores lineales insesgados (MELI)

ANOVA
Definimos

 ∑(𝑌𝑖 − 𝑌̅)2: Suma de cuadrados totales (SCT).


2
 ∑(𝑌̂ − 𝑌̅) : Suma de cuadrados explicados (SCE).
 ∑𝜇̂ 2 : Suma de cuadrados residuales (SCR).

Si el modelo tiene intercepto, se verifica que:


𝑆𝐶𝑇 𝑆𝐶𝐸 𝑆𝐶𝑅
(𝑛 − 1) = (𝑘 − 1) + (𝑛 − 𝑘)

1 Teorema de Gauss Markov

Página 9 de 16
Examen de grado – Universidad Diego Portales -2016/2

COEFICIENTE DE DETERMINACIÓN 𝐑𝟐
 ¿Cómo podemos saber qué tan bien nuestra línea de regresión muestral se ajusta a nuestros datos?
 Podemos construir un indicador que corresponda a la proporción de la varianza muestral de 𝑌 que es explicada
por la regresión MCO, o alternativamente, uno menos la proporción de la varianza que no podemos explicar.
 A eso lo llamaremos 𝑅 2

𝑆𝐶𝐸 𝑆𝐶𝑅
𝑅2 = =1−
𝑆𝐶𝑇 𝑆𝐶𝑇

 Es una medida de bondad absoluta del modelo ya que mide qué proporción de la varianza total (la varianza de
𝑌) es explicada por el modelo de regresión (por 𝑋).
 Cuanto mayor sea la relación entre 𝑋 e 𝑌, mayor será este indicador.
 Es una medida de bondad relativa entre modelos. Por ejemplo, permite comparar si la capacidad explicativa es
mayor incluyendo 𝑋 como variable independiente respecto a incluir 𝑍.
 Este indicador presenta las siguientes propiedades.
I. 0 ≤ 𝑅2 ≤ 1
(Si el modelo no explica nada SCR = SCT → R2 = 0).
(Si el modelo explica todo SCE = SCT = R2 = 1).
II. El estimador MCO maximiza el 𝑅 2 al minimizar los errores.
III. En el modelo simple, 𝑅 2 es igual al coeficiente de correlación entre 𝑋 e 𝑌 al cuadrado.\

𝐶𝑜𝑣(𝑋, 𝑌)
𝑅2 = 2
= 𝜌𝑥𝑦
𝑉𝑎𝑟(𝑋)𝑉𝑎𝑟(𝑌)

IV. En el caso del modelo múltiple, 𝑅 2 es igual al coeficiente de correlación entre 𝑌 y su valor predicho al
cuadrado.

∗ (∑𝑦𝑖 𝑦̂𝑖 )2
𝑅2 =
∑𝑦̂ 2 ∑𝑦𝑖2

 El 𝑅 2 de una regresión con sólo la constante es cero.


 El 𝑅 2 nunca decrece cuando agregamos más variables independientes, porque “algo” explican. Por lo tanto,
hay que tomarlo con cautela para comparar modelos.

COEFICIENTE DE DETERMINACIÓN CORREGIDO O AJUSTADO: 𝐑𝟐𝒄


 Tiene sentido incorporar una variable solo si ésta consigue explicar más que la pérdida de un grado de libertar
que ocasiona.
 El 𝑅𝑐2 corrige el 𝑅 2 común por los grados de libertar de las sumas de cuadrados, evitando de esa forma, que la
bondad de ajuste se sobreestime.

𝑆𝐶𝑅
𝑅𝑐2 =1− −𝑘
𝑛
𝑆𝐶𝑇
𝑛−1

 Puede demostrarse que algebraicamente.

𝑛−1
𝑅𝑐2 = 1 − (1 − 𝑅 2 )
𝑛−𝑘

Página 10 de 16
Examen de grado – Universidad Diego Portales -2016/2

 Propiedades:
o 𝑅𝑐2 ≤ 𝑅 2.
o 𝑅𝑐2 tiende a 𝑅 2 a medida que el tamaño muestral aumenta, para un 𝑘 dado.
o 𝑅𝑐2 puede ser negativo si 𝑅 2 es bajo y 𝑛 es mayor que 𝑘.

USO E INTERPRETACIÓN DE LAS MEDIDAS DE BONDAD DE AJUSTE


 El 𝑅 2 puede ser de alguna utilidad como medida de bondad de ajuste global del modelo y para discernir entre
modelos con similares méritos teóricos e igual variable dependiente.
 Se debe prestar especial atención a la comparabilidad entre modelos, si la variable dependiente no es
exactamente la misma, los 𝑅 2 no son directamente comparables.
 El indicador 𝑅𝑐2 no resuelve todos los problemas de buscar un criterio para seleccionar un modelo apropiado.
Muchas veces se corre el riesgo de “data mining”, seleccionar variables que maximicen el 𝑅𝑐2.
 Por último, otra medida importante en lo que se refiere a bondad de ajuste es 𝜎̂ 2. Este indica cual es la varianza
de los errores, es decir, cual es el grado de precisión de la estimación.
 La precisión de las predicciones no tiene que ver con un criterio de ajuste de una recta a los datos, sino con las
características de la población de la cual presumimos que se han generado los datos.

TEOREMA GAUSS-MARKOV
1. La linealidad de los parámetros: el supuesto indica que la estimación MCO debe realizarse en un modelo cuyos
parámetros sean lineales.
2. Los valores de 𝑋 son no estocásticos, es decir, fijos en muestreo repetido.
3. La esperanza condicional de 𝑋 del error es cero, es decir 𝐸(𝜇|𝑋) = 0.
4. La matriz de varianza-covarianza de los errores es esférica (homocedásticidad y no autocorrelación).

y
f(y|x)
. E(y|x) = b + b x
. 0 1

x1 x2 f(y|x)

.
.
. E(y|x) = b0 + b1x

x1 x2 x3 x

𝑉𝑎𝑟(𝜇2 |𝑋) = 𝐸(𝜇2 |𝑋) − [𝐸(𝜇|𝑋)]2

𝐸(𝜇|𝑋) = 0, 𝜎 2 = 𝐸(𝜇2 |𝑋) = 𝐸(𝜇2 ) = 𝑉𝑎𝑟(𝜇)

 La varianza de los errores es constante e igual a 𝜎 2 a esta propiedad se le conoce como homocedasticidad.
 La covarianza entre los errores es constante e igual a cero. A esta propiedad se la denomina no autocorrelación
de los errores.

Página 11 de 16
Examen de grado – Universidad Diego Portales -2016/2

5. La covarianza entre el error poblacional y las variables explicativas es cero.


6. El modelo de regresión está correctamente especificado. No hay regresores incorrectos y la forma funcional es
la apropiada.
7. Los parámetros se mantienen constante durante el periodo de estudio.
8. El número de observaciones debe ser mayor que el número de parámetros a estimar.

 Si se satisfacen los supuestos uno al ocho, los estimadores MCO serán los mejores estimadores entre la clase
de los lineales e insesgados, es decir, el estimador lineal más eficiente.
 Como los estimadores son una función de la muestra aleatoria, en sí mismos son variables aleatorias.
 Ahora sabemos que la distribución muestral del estimador está centrada alrededor del verdadero parámetro.
 También es importante saber qué tanto puede esperarse que 𝛽̂ se aleje, en promedio, de 𝛽.

𝑉𝑎𝑟(𝛽̂ |𝑋) = 𝜎 2 (𝑋′𝑋)−1

ESTIMADOR DE 𝛔𝟐
 No conocemos 𝜎 2 , porque no observamos los errores de 𝜇𝑖

𝜎 2 = 𝐸(𝜇2 |𝑋) = 𝐸(𝜇2 ) = 𝑉𝑎𝑟(𝜇)

 Lo que observamos son los errores muéstrales, 𝜇̂ 𝑖 .


 Este parámetro no se estima directamente por MCO, ya que el modelo de regresión lineal no asume una
distribución de los errores precisa.
 Usamos los errores muéstrales para estimar la varianza.

(∑𝜇̂ 𝑖2 )
𝜎̂ 2 =
(𝑛 − 𝑘)

Entonces, 𝑉𝑎𝑟(𝛽̂ ) = 𝜎̂ 2 (𝑋′𝑋)−1

𝜇̂ ′𝜇̂
𝜎̂ 2 =
𝑛−𝑘

 𝑑𝑓 = 𝑛 − 𝑘.
 𝑑𝑓 (i.e. grados de libertad) es (número de observaciones) – (número parámetros).

Página 12 de 16
Examen de grado – Universidad Diego Portales -2016/2

INFERENCIA EN EL MRL
EL SUPUESTO DE NORMALIDAD
 Para hacer la prueba de hipótesis clásica, tenemos que añadir otro supuesto (más allá de los supuestos de
Gauss-Markov)
 Suponga que 𝜇 es independiente de 𝑋1 , 𝑋2 , … 𝑋𝑘 y 𝜇 se distribuye normal con media cero y varianza 𝜎 2 .

𝜇~𝑁𝑜𝑟𝑚𝑎𝑙 (0; 𝜎 2 ). (𝑆𝑢𝑝𝑢𝑒𝑠𝑡𝑜 𝑑𝑒 𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑑𝑎𝑑)

 Se cumple entonces que:

𝑌|𝑋 ~ 𝑁𝑜𝑟𝑚𝑎𝑙 (𝛽0 + 𝛽1 𝑋1 + ⋯ + 𝛽𝑘 𝑋𝑘 , 𝜎 2 )

 ¿Cuándo es razonable este supuesto?


o Por ahora se asumirá normalidad, aunque a veces no sea el caso.
o Por ejemplo, para el ingreso y sus determinantes. La variable ingreso toma solo valores positivos.
Entonces, el ingreso no sigue una distribución normal condicionada en educación y experiencia. La
evidencia empírica sugiere que suponer normalidad no es un buen supuesto para esta variable.
o Algunas transformaciones como logaritmo aproximan la variable más a una distribución normal.
o En muestras grandes, que este supuesto no se cumpla no es un problema.
 La distribución de 𝛽.

𝛽̂𝑗 ~𝑁𝑜𝑟𝑚𝑎𝑙[𝛽𝑗 , 𝑉𝑎𝑟(𝛽̂𝑗 )]

 Recordemos que una combinación lineal de variables aleatorias de distribución normal es también una variable
aleatoria que se distribuye normal multivariante.

𝛽̂ = (𝑋′𝑋)−1𝑋 ′ 𝑌 = (𝑋′𝑋)−1 𝑋 ′(𝑋𝛽+𝜇) = 𝛽 + (𝑋′𝑋)−1𝑋 ′ 𝜇

 Esto implica que:

(𝛽̂𝑗 − 𝛽𝑗 )
~𝑁𝑜𝑟𝑚𝑎𝑙 (0,1)
√𝑉𝑎𝑟(𝛽̂𝑗 )

 Pero como desconocemos 𝜎 2 :

(𝛽̂𝑗 − 𝛽𝑗 )
~𝑡𝑛−𝑘
̂ 𝑆(𝛽̂𝑗 )
√𝐷

Página 13 de 16
Examen de grado – Universidad Diego Portales -2016/2

TEST DE HIPÓTESIS DE UN PARÁMETRO


 Conocer la distribución muestral del estimador nos permite llevar a cabo las pruebas de hipótesis.
 Supongamos que queremos testear la hipótesis nula

𝐻0 : 𝛽𝑗 = 𝑎𝑗

 Para testear esta hipótesis usamos el estadístico construido bajo 𝐻0 verdadera.


 Uno de los test más usados es testear la significancia de una variable independiente en la regresión, es decir,
𝑎𝑗 = 0. Si no rechazamos la hipótesis nula, entonces quiere decir que 𝑋𝑗 no tiene efecto sobre 𝑌, controlado
por otras 𝑋𝑠 .
 Aparte de nuestra hipótesis nula, 𝐻0, necesitamos una hipótesis alternativa 𝐻1 y un nivel de significancia.
 𝐻1 puede ser de una o dos colas.

𝐻1 : 𝛽𝑗 > 0 & 𝐻1 : 𝛽𝑗 < 0𝑙; 𝑠𝑜𝑛 𝑡𝑒𝑠𝑡 𝑑𝑒 𝑢𝑛𝑎 𝑐𝑜𝑙𝑎

𝐻1 : 𝛽𝑗 ≠ 0; 𝑒𝑠 𝑑𝑒 𝑑𝑜𝑠 𝑐𝑜𝑙𝑎𝑠

TEST DE DOS COLAS


 Una vez que escogemos nuestro nivel de significancia, 𝛼, definimos el valor critico 𝑐 de manera que el área en
𝛼 1−𝛼
cada cola de la distribución 𝑡 sea igual a 2%. Es decir, 𝑐 corresponder al percentil 2
de la distribución de una
variable t-student de 𝑛 − 𝑘 grados de libertad.
 Rechazamos 𝐻1 : 𝛽𝑗 ≠ 0 si el valor absoluto de 𝑡 > 𝑐 y en caso contrario no la rechazamos.

𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖2 + ⋯ + 𝛽𝑘 𝑋𝑖𝑘 +, 𝜇𝐼

𝐻0 : 𝛽𝑗 = 0; 𝐻1 : 𝛽𝑗 ≠ 0

Página 14 de 16
Examen de grado – Universidad Diego Portales -2016/2

TEST DE UNA COLA


 La regla de rechazo establece que se rechaza 𝐻0 a favor de 𝐻1 a un nivel de significancia del 5% cuando
𝑡 > 𝑐, donde el valor crítico 𝑐 es el percentil 95 de una distribución t-student de 𝑛 − 𝑘 grados de libertar.
 Si por el contrario, la hipótesis alternativa es de forma 𝐻1 : 𝛽𝑗 < 𝑎𝑗 , similarmente al caso anterior, entonces
rechazamos la hipótesis nula a favor de la alternativa cuando el valor del estadístico es pequeño, 𝑡 < 𝑐. Este 𝑐
es el mismo anterior dada la simetría de la distribución t-student.

𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖2 + ⋯ + 𝛽𝑘 𝑋𝑖𝑘 +, 𝜇𝐼

𝐻0 : 𝛽𝑗 = 0; 𝐻1 : 𝛽𝑗 > 0

TEST DE HIPÓTESIS DE UN PARÁMETRO


 Nota 1: recordemos que 𝑡 → 𝑍(0; 1) cuando 𝑛 → ∞. Luego, en la práctica, cuando los grados de libertad del
estadístico 𝑡 son más de 120 suele aproximar a la normal y usar los valores críticos de esta distribución.
 Nota 2: cuando 𝐻0 no es rechazada decimos “no se rechaza hipótesis nula a un nivel de significancia de 𝛼%”.
No decimos “aceptamos la hipótesis nula a un nivel de significancia de 𝛼%".
 Supongamos que, dado un MRL y una muestra de 𝑛 observaciones, obtenemos una estimación de 𝛽1 igual a
1.5. Es posible que ni la hipótesis nula 𝐻0 = 𝛽1 = 1 ni 𝐻0 : 𝛽1 = 2 puedan ser rechazadas. En este caso no
tiene sentido decir que aceptamos ambas hipótesis nulas, dado que ambas no pueden ser verdad. Notemos
que siempre hay un rango para el cual podemos establecer hipótesis nulas que no son rechazadas.

INTERVALOS DE CONFIANZA
 Otra forma de utilizar la prueba estadística clásica es construir un intervalo de confianza con el valor crítico que
se utilizó para una prueba de dos colas.
𝛼
𝛽̂𝑗 ± 𝑐 ∗ 𝐷
̂ 𝑆(𝛽̂𝑗 ), 𝑑𝑜𝑛𝑑𝑒 𝑐 𝑒𝑠 𝑒𝑙 𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 (1 − ) 𝑒𝑛 𝑢𝑛𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑡𝑛−𝑘
2

 Recordemos que el intervalo de confianza al 95% quiere decir que, si tomamos todas las muestras aleatorias
posibles y para cada una construyéramos el intervalo de confianza, el verdadero valor del parámetro estará
contenido en dichos intervalos en un 95% de las veces.

Página 15 de 16
Examen de grado – Universidad Diego Portales -2016/2

P-VALUE
 Una alternativa al enfoque clásico es preguntar, ¿cuál es el menor nivel de significancia al que se rechazaría la
hipótesis nula?
 Hasta el momento hemos visto que para testear una hipótesis nula, antes de decidir si rechazar o no, debemos
decidiré un nivel de significancia 𝛼.
 El 𝑝 − 𝑣𝑎𝑙𝑢𝑒 es la probabilidad de observar un estadístico 𝑡 de valor absoluto lo suficientemente grande tal
que rechazamos la hipótesis nula, a pesar de que ésta sea verdadera.
 𝑝 − 𝑣𝑎𝑙𝑢𝑒 pequeños son evidencias en contra de la hipótesis nula y 𝑝 − 𝑣𝑎𝑙𝑢𝑒 altos no proveen evidencia
importante contra la hipótesis nula.

TABLA ANOVA

Página 16 de 16