Sesión 9

ECONOMETRÍA I
SESIÓN 9: Contrastes de hipótesis e intervalos de confianza en

regresión múltiple
Regresión lineal con varios regresores
Profesor: Javier Hualde
1
ÍNDICE
1. Contrastes de hipótesis e intervalos de confianza para un
parámetro
2. Contrastes de hipótesis conjuntas
3. Otro tipo de contrastes sobre varios parámetros
4. Conjuntos de confianza para varios parámetros
2
SESIÓN IX - CONTRASTES DE HIPÓTESIS E INTERVALOS DE CONFIANZA EN REGRESIÓN MÚLTIPLE –
CONTRASTES DE HIPÓTESIS E INTERVALOS DE CONFIANZA PARA UN PARÁMETRO
 Básicamente la misma lógica y receta que en el modelo de regresión simple
β1− E(β1)
 es aproximadamente N(0,1) (teorema central del límite)
var(β1 )
 El estadístico t tiene una distribución aproximada para muestras grandes N(0,1) (bajo la nula)
 De esta forma, un contraste sobre β1 se puede basar en el estadístico t habitual y el intervalo de
confianza se construye como [β1 ± 1,96×ES(β1 )]
 Idénticos resultados para β2 ,…, β𝑘
 ¡IMPORTANTE! Si se cumplen los cuatro supuestos de mínimos cuadrados del modelo múltiple y añadimos
homocedasticidad (varianza condicional del error constante) y normalidad condicional del error es posible
derivar la distribución exacta de t (en su forma válida bajo homocedasticidad) bajo la nula: t de Student con
n-k-1 grados de libertad (𝒕𝒏−𝒌−𝟏 )
 k: número de regresores en la regresión (en el modelo simple k=1) 3

SESIÓN IX - CONTRASTES DE HIPÓTESIS E INTERVALOS DE CONFIANZA EN REGRESIÓN MÚLTIPLE –
CONTRASTES DE HIPÓTESIS E INTERVALOS DE CONFIANZA PARA UN PARÁMETRO
Volviendo a nuestro ejemplo empírico
 El coeficiente de REM es el efecto estimado sobre Notas

de un cambio unitario en REM, manteniendo constante
PctEI (porcentaje de alumnos aprendiendo inglés en el
distrito)
 El coeficiente estimado de REM se reduce a la mitad

respecto a lo obtenido en el modelo simple
 El intervalo de confianza al 95% para 𝛽1 es [–1,10 ±

1,96×0,43] = [–1,95, –0,25]
 El estadístico t para contrastar 𝐻0 : 𝛽1 = 0 es t = –

1,10/0,43 = –2,54, así que se rechaza 𝐻0 al 5% frente a
𝐻1 : 𝛽1 ≠ 0 4
SESIÓN IX - CONTRASTES DE HIPÓTESIS E INTERVALOS DE CONFIANZA EN REGRESIÓN
MÚLTIPLE – CONTRASTES DE HIPÓTESIS CONJUNTAS
 Supongamos que se observa la variable Gasto = gasto por alumno y consideramos el

modelo de regresión poblacional
Notasi = β0 + β1REMi + β2Gastoi + β3PctEIi + ui
 La hipótesis nula que “los recursos escolares no afectan a las notas” y la alternativa que
sí afectan, se corresponden a
H0: β1 = 0 y β2 = 0
vs. H1: β1 ≠ 0 ó β2 ≠ 0 ó ambas
5
 Una hipótesis conjunta impone más de una restricción sobre los parámetros del modelo
 En general, una hipótesis conjunta involucra q restricciones. En el ejemplo anterior, q = 2, siendo

las dos restricciones β1 = 0 y β2 = 0
 Una idea de “sentido común” sería rechazar la nula al 5% si cualquiera de los estadísticos t
excediese 1,96 en valor absoluto
 Este contraste de coeficientes individuales “de uno en uno” no es adecuado: específicamente la

nula se rechaza demasiadas veces bajo la nula (más de un 5%)
6
¿Por qué no podemos simplemente contrastar los coeficientes individuales “de uno en uno”?
 Porque la probabilidad de rechazo bajo la nula no sería 5%
 ¿Cuál es esa probabilidad de rechazar incorrectamente la nula cuando es cierta de este contraste “de
uno en uno”? Para simplificar el cálculo, asumamos que t1 y t2 son independientes (en general, esto no
es verdad). Claramente:
β1 − E(β1 ) β2 − E(β2 )
𝑡1 = 𝑦 𝑡2 =
𝐸𝑆(β1 ) 𝐸𝑆(β2 )
 El contraste “de uno en uno” es: rechazar H0: β1 = β2 = 0 si |t1| > 1.96 y/ó |t2| > 1.96
 ¿Cuál es la probabilidad de rechazar incorrectamente la nula cuando es cierta de este contraste?
(Debería ser 5%)
7
¿Por qué no podemos simplemente contrastar los coeficientes individuales “de uno en uno”?
 La probabilidad de rechazar la nula cuando es cierta (tamaño del contraste) sería
𝑃𝑟𝐻0 |t1| > 1,96 y/ó |t2| > 1,96 = 1 − 𝑃𝑟𝐻0 |t1| ≤ 1,96 y |t2| ≤ 1,96
= 1 − 𝑃𝑟𝐻0 |t1| ≤ 1,96 𝑃𝑟𝐻0 |t2| ≤ 1,96 = 1 − 0,952 = 0,0975
 El tamaño es 9,75% cuando debería ser 5%
 El tamaño depende de la relación entre t1 y t2 (es decir, de la dependencia entre β1 y β2 )
 Soluciones:
 Método de Bonferroni: usar este procedimiento ajustando los valores críticos
(raramente usado en la práctica)
 Usar un estadístico de contraste distinto diseñado para contrastar ambas
restricciones a la vez: el estadístico F (esto es lo que se usa en la práctica)
8
El estadístico F
 El estadístico F contrasta a la vez todas las restricciones
 Fórmula para el caso especial de contraste conjunto β1 = β1,0 y β2 = β2,0 en una regresión con dos regresores
2 2
1 𝑡1 +𝑡2 −2ρ𝑡1,𝑡2 𝑡1 𝑡2
𝐹=
2 1−ρ2𝑡1 ,𝑡2
donde ρ2𝑡1 ,𝑡2 es un estimador de la correlación entre t1 y t2

 Se rechaza cuando F es grande (¿cómo de grande?)
 El estadístico F es grande cuando t1 y/ó t2 es grande
 El estadístico F corrige (del modo adecuado) por la correlación entre t1 y t2
 La fórmula para más de dos parámetros es complicada a menos que se use álgebra matricial
 ¿Valores críticos?
9
La distribución en muestras grandes del estadístico F
 Consideremos inicialmente una situación particular donde t1 y t2 son independientes y la nula es cierta
 En este caso, para n grande: ρ𝑡1,𝑡2 ≈ 0, por lo que
2 2
1 𝑡1 +𝑡2 −2ρ𝑡1,𝑡2 𝑡1 𝑡2 1
𝐹= ≈ 𝑡12 + 𝑡22
2 1−ρ2𝑡1 ,𝑡2 2
 Bajo la nula, t1 y t2 tienen aproximadamente distribuciones normales estándar que, en este caso especial, son
independientes
 De esta forma, la distribución aproximada del estadístico F es la distribución de la media de dos N(0,1)
independientes al cuadrado
 La distribución chi-cuadrado con q grados de libertad (χ2𝑞 ) es la distribución de la suma de q N(0,1) independientes
¡¡IMPORTANTE!! En muestras grandes, q×F se distribuye aproximadamente como 𝝌𝟐𝒒 (no solo con independencia)
Alternativamente, F se distribuye aproximadamente como 𝝌𝟐𝒒 /𝒒 (a menudo llamada 𝑭𝒒,∞ )

10
El contraste F con Gretl
 Contraste correspondiente a la nula de que los

parámetros de REM y Gasto son cero, contra la
alternativa de que al menos uno de ellos es distinto
de cero
 𝑞 × 𝐹 = 2 × 5,43 = 10,86
 Valor crítico (1%) de la distribución χ22 : 9,21 ⟹ se

rechaza la nula
 p-valor = probabilidad en la cola de la distribución

χ2𝑞 a la derecha del estadístico q×F calculado
 p-valor= 0,0047 < 0,01 ⟹ se rechaza la nula al 1%

11
Expresión de estadístico F solo válida bajo homocedasticidad
 No es muy útil pero ayuda a entender el funcionamiento del estadístico
 Procedimiento:
 Se estiman dos regresiones, una bajo la hipótesis nula (la regresión

“restringida”) y otra bajo la alternativa (la regresión “no restringida”)
 Se comparan los ajustes de ambas regresiones (los 𝑅2 s) y si el ajuste de la

regresión “no restringida” es sustancialmente mejor, se rechaza la nula
12
Regresión “no restringida”
Siempre un 𝑅2 superior al de la regresión “restringida” ¿Por qué?
A mayor diferencia entre los 𝑅2 s restringido y sin restringir, es

decir, a mayor mejora de ajuste, mayor evidencia para rechazar la
nula
2
𝑅𝑛𝑜 𝑟𝑒𝑠𝑡𝑟𝑖𝑛𝑔𝑖𝑑𝑎 = 0,437
Regresión “restringida”
¿Es la pérdida de ajuste suficientemente grande como para
rechazar la nula?
2
𝑅𝑟𝑒𝑠𝑡𝑟𝑖𝑛𝑔𝑖𝑑𝑎 = 0,415
13
Estadístico F solo válido bajo homocedasticidad
2 2
𝑅𝑛𝑜 𝑟𝑒𝑠𝑡𝑟𝑖𝑛𝑔𝑖𝑑𝑎 − 𝑅𝑟𝑒𝑠𝑡𝑟𝑖𝑛𝑔𝑖𝑑𝑎 /𝑞
𝐹= 2
1 − 𝑅𝑛𝑜 𝑟𝑒𝑠𝑡𝑟𝑖𝑛𝑔𝑖𝑑𝑎 / 𝑛 − 𝑘𝑛𝑜 𝑟𝑒𝑠𝑡𝑟𝑖𝑛𝑔𝑖𝑑𝑎 − 1
donde:
2 2 de la regresión “no restringida”
 𝑅𝑛𝑜 𝑟𝑒𝑠𝑡𝑟𝑖𝑛𝑔𝑖𝑑𝑎 : 𝑅
2
 𝑅𝑟𝑒𝑠𝑡𝑟𝑖𝑛𝑔𝑖𝑑𝑎 : 𝑅2 de la regresión “restringida”
 q: número de restricciones bajo la nula
 𝑘𝑛𝑜 𝑟𝑒𝑠𝑡𝑟𝑖𝑛𝑔𝑖𝑑𝑎 : número de regresores en la regresión “no restringida”
 En nuestro ejemplo empírico

0,4366 − 0,4149 /2
𝐹= = 8,01
1 − 0,4366 / 420 − 3 − 1
 El estadístico F robusto a herocedasticidad tenía un valor de 5,43 14

Resumiendo
 El estadístico
2 2
𝑅𝑛𝑜 𝑟𝑒𝑠𝑡𝑟𝑖𝑛𝑔𝑖𝑑𝑎 − 𝑅𝑟𝑒𝑠𝑡𝑟𝑖𝑛𝑔𝑖𝑑𝑎 /𝑞
𝐹= 2
1 − 𝑅𝑛𝑜 𝑟𝑒𝑠𝑡𝑟𝑖𝑛𝑔𝑖𝑑𝑎 / 𝑛 − 𝑘𝑛𝑜 𝑟𝑒𝑠𝑡𝑟𝑖𝑛𝑔𝑖𝑑𝑎 − 1
solo es válido bajo homocedasticidad
 Se rechaza la nula cuando en la regresión “no restringida” se incrementa el R2 (es decir, el ajuste) de
forma “suficiente”
 Ventaja: su cálculo es muy sencillo
 Si los errores son homocedásticos, 𝑞 × 𝐹 tiene una distribución para muestras grandes χ2𝑞 (bajo la
nula)
 Si los errores son heterocedásticos, 𝑞 × 𝐹 NO tiene una distribución para muestras grandes χ2𝑞 (bajo
la nula)
15
El papel de la distribución F
 Las salidas de ordenador de cualquier software econométrico se refieren a la distribución “F” (tabulada en
cualquier libro de estadística)
 Como en el caso del estadístico t, si se cumplen los cuatro supuestos de mínimos cuadrados del modelo
múltiple y añadimos homocedasticidad (varianza condicional del error constante) y normalidad condicional del
error es posible derivar la distribución exacta del F válido bajo homocedasticidad bajo la nula: 𝐹𝑞,𝑛−𝑘−1 donde
 q: número de restricciones bajo la nula

 𝑘 = 𝑘𝑛𝑜 𝑟𝑒𝑠𝑡𝑟𝑖𝑛𝑔𝑖𝑑𝑎 : número de regresores en la regresión “no restringida”
 La distribución 𝐹𝑞,𝑛−𝑘−1 es a la distribución 𝜒𝑞2 /𝑞 como la 𝑡𝑛−𝑘−1 es a la N(0,1)
 Para n grande, los valores críticos de la 𝐹𝑞,𝑛−𝑘−1 son muy similares a los de la distribución 𝜒𝑞2 /𝑞
 Para q no demasiado grande y n≥100, ambas distribuciones son casi idénticas
 Resultados usando la distribución F aparecen frecuentemente en trabajo aplicado. Con n pequeño, algunas
veces los investigadores usan la distribución F porque ofrece valores críticos mayores, lo que es más
conservativo
16
Origen histórico de la distribución F
 La teoría que respalda el estadístico F solo válido bajo homocedasticidad y el uso de la distribución Fq,n–k–1 se
basa en supuestos muy fuertes que son típicamente no plausibles (¿se distribuyen los ingresos como una
normal?)
 Estos resultados datan del inicio del siglo XX…, escasez de datos y sin ordenadores…
 El estadístico F y la distribución Fq,n–k–1 fueron enormes descubrimientos: una fórmula sencilla aplicable a
muchas situaciones y una justificación precisa y desde el punto de vista matemático muy elegante
 Los supuestos tan fuertes que sustentan los resultados eran un precio bajo para la entidad del descubrimiento
 Pero actualmente, con gran disponibilidad de datos, ordenadores,…, se deben usar estadísticos robustos a
heterocedasticidad y la distribución 𝜒𝑞2 /𝑞, ya que su uso está justificado solo bajo los cuatro supuestos de
mínimos cuadrados del modelo múltiple
 El legado histórico persiste en el software moderno. Típicamente, los errores estándar solo válidos bajo
homocedasticidad (y los correspondientes estadísticos F) son proporcionados de forma automática, y los p-
valores se calculan usando una distribución Fq,n–k–1 17
MÚLTIPLE – OTRO TIPO DE CONTRASTES SOBRE VARIOS PARÁMETROS
Otro tipo de hipótesis nula que implica varios parámetros: restricción única
 Supongamos que en el modelo
Yi = β0 + β1X1i + β2X2i + ui, i = 1,…,n
queremos contrastar la hipótesis nula frente a la alternativa,

H0: β1 = β2 vs. H1: β1 ≠ β2
 La nula impone una única restricción (q = 1) en multiples coeficientes, no es una hipótesis conjunta con
restricciones múltiples (comparemos con β1 = 0 y β2 = 0)
 Dos métodos aplicables a esta situación:

 Transformación de la regresión: se redefinen los regresores de tal manera que la restricción se
convierte en una restricción sobre un coeficiente único en una regresión equivalente
 Llevar a cabo el contraste directamente: usando un software como Gretl
18
MÚLTIPLE – OTRO TIPO DE CONTRASTES SOBRE VARIOS PARÁMETROS
Transformación de la regresión
 Modelo y contraste a realizar
Yi = β0 + β1X1i + β2X2i + ui, i = 1,…,n H0: β1 = β2 vs. H1: β1 ≠ β2
 Sumando y restando β2X1i

Yi = β0 + (β1 – β2) X1i + β2(X1i + X2i) + ui
 Equivalentemente
Yi = β0 + γ1 X1i + β2Wi + ui
donde γ1 = β1 – β2 , Wi = X1i + X2i
 Las hipótesis iniciales se pueden reescribir como H0: γ1 = 0 vs. H1: γ1 ≠ 0

 Las dos regresiones tienen el mismo R2, los mismos valores predichos, y los mismos residuos
 El contraste es muy simple: se contrasta con el estadístico t si γ1 = 0 en el modelo transformado
19
MÚLTIPLE – CONJUNTOS DE CONFIANZA PARA VARIOS PARÁMETROS
 En el modelo
Yi = β0 + β1X1i + β2X2i + … + βkXki + ui, i = 1,…,n
supongamos que queremos derivar un conjunto de confianza para los parámetros β1, β2
 Es una generalización de la idea de intervalos de confianza
 Un conjunto de confianza al 95% es:
 Una función de los datos que consiste en un conjunto que contiene los verdaderos
valores de los parámetros en un 95% de las hipotéticas muestras repetidas
 Equivalentemente, es el conjunto de valores para los parámetros que no pueden ser
rechazados al 5%
 Se puede calcular un conjunto de confianza al 95% para (β1, β2) usando el estadístico F
(¿por qué no combinar los dos intervalos de confianza al 95%?)
 En el caso de dos parámetros el conjunto de confianza es una elipse
20
MÚLTIPLE – CONJUNTOS DE CONFIANZA PARA VARIOS PARÁMETROS
21

Sesión 9

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Sesión 9

Cargado por

Copyright:

Formatos disponibles

ECONOMETRÍA I

SESIÓN 9: Contrastes de hipótesis e intervalos de confianza en

Profesor: Javier Hualde

 Básicamente la misma lógica y receta que en el modelo de regresión simple

 k: número de regresores en la regresión (en el modelo simple k=1) 3

 El coeficiente de REM es el efecto estimado sobre Notas

 El coeficiente estimado de REM se reduce a la mitad

 El intervalo de confianza al 95% para 𝛽1 es [–1,10 ±

 El estadístico t para contrastar 𝐻0 : 𝛽1 = 0 es t = –

 Supongamos que se observa la variable Gasto = gasto por alumno y consideramos el

 En general, una hipótesis conjunta involucra q restricciones. En el ejemplo anterior, q = 2, siendo

 Este contraste de coeficientes individuales “de uno en uno” no es adecuado: específicamente la

 Porque la probabilidad de rechazo bajo la nula no sería 5%

donde ρ2𝑡1 ,𝑡2 es un estimador de la correlación entre t1 y t2

 En este caso, para n grande: ρ𝑡1,𝑡2 ≈ 0, por lo que

Alternativamente, F se distribuye aproximadamente como 𝝌𝟐𝒒 /𝒒 (a menudo llamada 𝑭𝒒,∞ )

 Contraste correspondiente a la nula de que los

 Valor crítico (1%) de la distribución χ22 : 9,21 ⟹ se

 p-valor = probabilidad en la cola de la distribución

 p-valor= 0,0047 < 0,01 ⟹ se rechaza la nula al 1%

 No es muy útil pero ayuda a entender el funcionamiento del estadístico

 Se estiman dos regresiones, una bajo la hipótesis nula (la regresión

 Se comparan los ajustes de ambas regresiones (los 𝑅2 s) y si el ajuste de la

Regresión “no restringida”

Siempre un 𝑅2 superior al de la regresión “restringida” ¿Por qué?

A mayor diferencia entre los 𝑅2 s restringido y sin restringir, es

 En nuestro ejemplo empírico

 El estadístico F robusto a herocedasticidad tenía un valor de 5,43 14

 q: número de restricciones bajo la nula

queremos contrastar la hipótesis nula frente a la alternativa,

 Dos métodos aplicables a esta situación:

 Sumando y restando β2X1i

 Las hipótesis iniciales se pueden reescribir como H0: γ1 = 0 vs. H1: γ1 ≠ 0

También podría gustarte