Está en la página 1de 12

Contrastes de significación conjunta 1 /12

APUNTES DE CLASE ECONOMETRÍA I. UDI ECONOMETRÍA E INFORMÁTICA

CONTRASTES DE SIGNIFICACIÓN CONJUNTA EN EL MBRL

Prof. Rafael de Arce


rafael.dearce@uam.es

I. Contraste de significación conjunta del modelo a partir de una F de Snedecor

II. Contraste de restricción de parámetros a partir del test de Wald (e


implementación en E-Views).

III. Contrastes de significación conjunta a partir del coeficiente de determinación


lineal R2

IV. Relación entre el contraste conjunto de parámetros “F Snedecor” y la R2

I. CONTRASTE DE SIGNIFICACIÓN CONJUNTA DEL MODELO A PARTIR DE


UNA F DE SNEDECOR

El objetivo que se pretende en este tipo de contraste del modelo, es poder dar una
medida numérica representativa de la capacidad global de todas las variables
explicativas para seguir la evolución de la variable endógena. Para ello, y como es
habitual en toda contrastación estadística, cubriremos las siguientes etapas:

1. Crear una ratio capaz de suministrarnos información sobre todos los


parámetros del modelo con un solo número.
2. Determinar la función de distribución de esta ratio.
3. Contrastar el cumplimiento o rechazo de una hipótesis nula a partir de la
utilización de la función de distribución teórica y conocida de la ratio.

En el caso del MBRL hemos planteado como hipótesis de partida la distribución


normal – Gaussiana – de las perturbaciones aleatorias; por lo que lo único que
habrá que comprobar es qué distribución siguen las normales sometidas a las
variantes matemáticas que planteamos en una ratio intuitivamente comprensible
como el del valor medio estandarizado de todos los parámetros del modelo.

En nuestro caso, tiene interés conocer una ratio que englobe la información
contenida por todos los parámetros (k) de un modelo. Para ello, y partiendo de la
notación como vector (k x 1) que hemos dado a los parámetros del modelo escrito
Contrastes de significación conjunta 2 /12

en su forma matricial, podríamos presentar una medida del parámetro medio


estandarizado (escritos al cuadrado para que no se compensen signos positivos y
negativos) como sigue:

[ ][
 βˆ − β ' βˆ − β 
 2
]
−1 
/k
 σ [X ' X ] 

donde no hemos calculado otra cosa que la suma cuadrada de los parámetros
estandarizados (a cada uno se le ha restado su media y se le ha dividido por su
desviación típica y la suma de un vector columna transpuesto por el mismo no es
más que la suma de las componentes al cuadrado).

Conocer cuál es la función de distribución del valor medio de todos los parámetros
que intervienen en un modelo considerados de forma conjunta, como ocurre en
esta ratio, es fácilmente deducible a partir de la constancia de que los parámetros
estimados se distribuyen como una normal βˆ → N (β ; σ 2 [ X ' X ]−1 ) . Volviendo a la
ratio escrita más arriba, para poder realizar el cálculo en un modelo concreto
habrá que dar un valor estimado a la varianza de la perturbación aleatoria (σ2).
Realizando una serie de sustituciones matemáticas (que en el desarrollo se
comentan escritas entre llaves), obtendríamos la función de densidad de la ratio
antes escrito:

[
 2
][
 βˆ − β ' βˆ − β 
 /
]k = 
[ ]
 βˆ − β ' [ X ' X ] βˆ − β [ ] = σˆˆ 2
=
e' e 
=
 σˆ [X ' X ]  n− k
−1
 σˆ 2 k  
 

=
[[ ] [
 βˆ − β ' [ X ' X ] βˆ − β / k ]]
=
  e' e  
   
  n− k  

1 / σ  2
[[[ ] [
βˆ − β ' [X ' X ] βˆ − β / σ 2 / k ]] ] ∑ N (0,1) 2
→ χ k2
= 2 
= = k
→ Fk , n − k
1 / σ   e' e 
 2  /(n − k )
σ 
∑ N (0,1)
n −k
2
→χ 2
n− k

Por lo que la ratio, que hemos escrito como el cociente entre dos χ2 , se distribuye
como un F k,n-k cuando se cumple la hipótesis de que las perturbaciones aleatorias
se distribuyen como una normal.

Conocida la ratio que nos engloba conjuntamente la información de todos los


parámetros del modelo y su función de distribución, podríamos ahora plantear un
modelo restringido o una hipótesis nula en la que “pusiéramos a prueba” el
cumplimiento de lo que acabamos de demostrar. Es decir, podríamos comprobar
si el cálculo de esta ratio sigue comportándose como una F de Snedecor cuando
imponemos alguna característica a los parámetros del modelo.
Contrastes de significación conjunta 3 /12

A partir de las tablas de esta distribución, podemos saber entre que valores se
sitúa una variable aleatoria de las características de la ratio que hemos construido
con un 95% de probabilidad. Si el cálculo de esta ratio en un caso concreto,
aplicando las características a los parámetros que queramos (es decir;
contrastando una hipótesis nula), deja de estar comprendido entre los valores en
los que lo estaría una F k, n-k, podremos decir que, con un 95% de probabilidades, la
condición que hemos impuesto a los parámetros es falsa.

Podemos plantear, por ejemplo, una hipótesis nula en la que sostengamos que el
valor real de todos los parámetros es igual a cero, lo que nos serviría para decir
que ninguna de las variables incluidas como explicativas en el modelo es
realmente válida para explicar la endógena. La hipótesis a aplicar a la ratio
formulada sería entonces H 0 ( β 1 = β 2 = .... = β k = 0) , que es lo mismo que decir
todo el vector de parámetros de las beta reales es igual a ceros, con lo que la ratio
anterior se podría escribir como:


PR 0 <
[ ] [ =
]
βˆ − 0 ' [X ' X ] βˆ − 0 βˆ ' [ X ' X ]βˆ 
< Fkε; n − k  = 1 − ε
 σˆ k
2
σˆ k
2

En principio esta ratio debiera seguir comprendido entre los valores tabulados para
la F si la restricción impuesta es cierta; es decir, si aceptamos la hipótesis nula. En
el caso en el que la imposición de esta hipótesis nos determinara un valor fuera de
la F tabulada, estaríamos diciendo que dicha hipótesis no es compatible con lo
que conocemos a ciencia cierta del modelo (ya para su demostración no habíamos
hecho ninguna hipótesis adicional), luego deberíamos rechazarla. Esto sería lo
mismo que admitir la hipótesis alternativa lógica: por lo menos alguna de las
variables explicativas elegidas sí sirve para explicar el comportamiento de la
endógena con un 95% de probabilidades.

Evidentemente, la hipótesis de nulidad de todos los parámetros del modelo es


demasiado pesimista en cuanto la especificación del modelo se haya realizado
con un mínimo cuidado. Evidentemente, la hipótesis alternativa será muy fácil de
lograr (que por lo menos alguna de los parámetros sea significativamente distinto
de cero). Además, el término independiente presente en el modelo recogería una
alta carga de explicación de la endógena si el resto de las variables especificadas
no fueran significativas 1, por lo que, por lo menos éste, sí sería significativo en
este peor de los casos. Dicho esto, el contraste de esta ratio difícilmente se
cumpliría con la hipótesis manejada, ya que el parámetro de la constante sería

1
Cuando no existe información distinta para explicar una variable, es fácil demostrar que el mejor
valor de estimación de la misma que se puede dar sería el de su media, valor que recogería el
término independiente del modelo o constante en el caso de que el resto de las variables no
sirvieran en absoluto para definir el comportamiento de la endógena.
Contrastes de significación conjunta 4 /12

significativo. En definitiva, este contraste es prácticamente inútil si, al realizarlo, se


plantea un hipótesis nula que contenga el término independiente del modelo.

Para poder realizar esta misma ratio sobre un modelo sin término independiente,
es necesario escribir dicho modelo en lo que se conoce como desviaciones a la
media que no es si no una combinación lineal de las n ecuaciones anteriores, del
siguiente modo:

( yi − y ) = β 1 (x 1i − x 1 ) + β 2 (x 2 i − x 2 ) + β 3 (x 3 i − x 3 ) + ..... + β k (x ki − x ki ) + ui

dado que la variable x1i es un vector que sólo incluye unos para dar lugar a ese
término independiente, su media también será uno y la resta planteada en la
ecuación superior hará que el parámetro β 1 esté multiplicado por cero en esta
rescritura equivalente del modelo inicial.

El cálculo de la ratio anterior sería ahora (sin incluir ese término constante) igual a:

βˆ ' [ X ' X ]βˆ


→ Fk −1, n− k
σˆ 2 (k −1)

donde todas las variables empleadas estarían en desviaciones a la media (hecho


que mantendremos de ahora en adelante, a pesar de que sigamos llamando a las
variables X e Y). En esta ratio se podría presentar una hipótesis nula a contrastar
más razonable, que sería la nulidad de todos los parámetros menos el del término
independiente H 0 ( β 2 = .... = β k = 0) , siendo de aplicación todo lo dicho
anteriormente.

La expresión de la ratio manejada hasta el momento se puede escribir de forma


rápida de otro modo por una simple, aunque algo tediosa, sustitución de los
valores estimados de los parámetros por su fórmula de cálculo MCO
βˆ = [X ' X ] X ' Y , de donde obtendríamos la siguiente expresión 2:
−1

2
Nótese nuevamente que las fórmulas entre llaves tan sólo son “recordatorios” de las operaciones
aplicadas para obtener los resultados presentados en la demostración.
Contrastes de significación conjunta 5 /12

βˆ ' [X ' X ]βˆ ([X ' X ]−1 X ' Y )' [X ' X ]([X ' X ]−1 X ' Y )
= =
σˆ 2 (k − 1) σˆ 2 (k − 1)
 y = Xβ + U 
Y ' X [X ' X ]−1 X ' Y  
= =  M = ( I n − X [X ' X ] X ' ) =
−1

σˆ 2 (k − 1)  
 e' e = U ' MU 
Y ' Y − e' e  2 e' e 
= 2 = σˆ = =
σ (k − 1) 
ˆ n −k
(Y ' Y − e ' e ) /(k − 1)
=
e ' e /(n − k )

La ratio así presentada se convierte ahora en una proporción del error cuadrático y
de la endógena que quiero explicar; es decir, una medida, en cierto modo, de la
bondad o maldad del modelo en comparación con la misma ratio calculada para
un posible modelo alternativo. Evidentemente, un modelo con iguales grados de
libertad será tanto mejor que otro alternativo en la medida en la que esta ratio de
“explicación conjunta” de todas las variables sea mayor (lo que supone, por
construcción, una menor importancia de los errores respecto a la endógena).

(Y 'Y − e' e) /( k − 1)  (Y ' Y )  ( n − k )


= − 1 → Fk −1, n − k
e' e /( n − k )  e' e  (k − 1)

Evidentemente el contraste planteado tiene ciertas limitaciones, pero la estructura


de una F de Snedecor nos servirá para plantear otros contrastes menos amplios y
más útiles para determinar ciertas propiedades teóricas en los parámetros de un
modelo, ya que se abre la puerta al planteamiento de hipótesis restrictivas sobre
los parámetros que, en el caso visto, eran demasiado simples (comprobación de si
todos los parámetros del modelo son igual a cero).

II. CONTRASTE DE RESTRICCIÓN DE PARÁMETROS A PARTIR DEL TEST


DE WALD

El objetivo de este tipo de contrastes es verificar algunos supuestos, hechos a


priori y desde el campo de vista teórico, sobre el comportamiento de los
parámetros estimados. Por ejemplo, puede tener interés comprobar si nuestros
resultados empíricos en un modelo de producción confirman que dicha producción
presenta una elasticidad unitaria o, dicho de otro modo, que la suma de los
parámetros que afectan al capital y al trabajo son iguales a uno:

Qi = K iα · Lβi ·U i / α + β = 1

Matemáticamente, los contrastes de restricción de parámetros parten de la


diferencia en la suma de errores al cuadrado entre dos modelos alternativos:
Contrastes de significación conjunta 6 /12

- modelo sin restricciones, o modelo original y más amplio a estimar.


- modelo restringido, en el se impone un cierto valor a algún/algunos
parámetros (p.e., que sean igual a cero) o a alguna operación entre ellos
(p.e., que su suma sea igual a uno).

Evidentemente, si las restricciones que se imponen son ciertas, el modelo


estimado teniendo estas en cuenta tendrá un error menor que el modelo en el que
no se tienen en cuenta. Por supuesto, para comprobar si la diferencia entre dos
valores del error es significativamente distinta de cero, conocer la forma en la que
se distribuye una ratio de comparación entre ambos errores nos permitirá cotejar si
dicha restricción es verosímil o no.

Wald propone otra ratio muy similar al visto hasta ahora para la determinación de
la veracidad o no de una serie de restricciones impuestas a los parámetros del
modelo original.

La hipótesis nula a contrastar sería H 0 ( Rβ − r = 0) , donde R es una matriz de q x k


que recoge las características que exigimos a los parámetros del modelo (p.e.,
que la suma de todos ellos sea igual a uno)3.

Siguiendo los mismo pasos que antes, propone la siguiente ratio de la suma
cuadrada de los parámetros estandarizados sujetos a la restricción impuesta:

( R β − r )' [X ' X ]( Rβ − r )
W =
σˆ 2
Lo que se distribuiría como una χ2 con “q” grados de libertad (siendo “q” el número
de restricciones exigidas al modelo).

3
En ese ejemplo, podríamos escribir matricialmente la restricción del siguiente modo:
 β1 
β 
[1 1 ... 1] 2  − [1] = [0 ]
.
 
β k 
R = [1 1 ... 1] con una restricción (q=1):que los “k” parámetros sumen uno.
r = [1]
Contrastes de significación conjunta 7 /12

Demostrando que, si se mantiene la hipótesis de que las perturbaciones aleatorias


se distribuyen como una normal en el caso del MBRL, entonces 4:

(e r' e r − e' e) / q
W /q= → Fq , n − k
e' e /( n − k )

donde e 'r e r es la suma de los residuos al cuadrado de la regresión restringida


(aquella que incorpora las restricciones sobre los parámetros).

En principio, se está contrastando la diferencia entre los residuos de una regresión


a la que se le han impuesto restricciones, frente a la original. Si las restricciones
son asumibles en el modelo, debe haber una diferencia muy pequeña entre los
errores al cuadrado estimados en uno u otro caso, por lo que el valor de la F
calculada deberá seguir siendo pequeño y estar comprendido entre los valores
tabulados para una confianza del 95% y los grados de libertad especificados.

Nótese que esta última expresión es muy similar a la obtenida finalmente como
contraste conjunto de parámetros F-Snedecor

Utilización del test de Wald en E-views

Una vez obtenido el resultado de una regresión en e-views, según los


procedimientos habituales, el programa ofrece la posibilidad de realizar contrastes
del tipo del de Wald dentro de las opciones (una vez realizada una regresión):

View - Coefficient Test – Wald Coefficient Restrictions.

Como ejemplo de aplicación, intentaremos estimar las elasticidades del consumo


privado (gasto nacional de los hogares o (GTOHOGNAC)) ante los precios de dicho
consumo (LOG(PRECI_CONS)) y la renta disponible de los hogares destinada al
consumo (LOG(RENTA )), para lo cual realizamos la regresión de dichas variables en
logaritmos, obteniéndose así con los parámetros las elasticidades.

e' e U' U
4
Como ya se demostró e’e=U’MU, donde U → N (0; σ 2 I n ) , por lo que = M → χ n2− k
σ 2
σ σ
Contrastes de significación conjunta 8 /12

Dependent Variable: LOG(GTOHOGNAC)


Method: Least Squares
Sample: 1980:1 2001:2
Included observations: 86
Variable Coefficient Std. Error t-Statistic Prob.
C -1.627612 0.358055 -4.545698 0.0000
LOG(PRECI_CONS) -0.078593 0.009919 -7.923505 0.0000
LOG(RENTA) 1.065902 0.021373 49.87053 0.0000
R-squared 0.996115 Mean dependent var 16.09916
Adjusted R-squared 0.996021 S.D. dependent var 0.162897
S.E. of regression 0.010275 Akaike info criterion -6.283916
Sum squared resid 0.008763 Schwarz criterion -6.198299
Log likelihood 273.2084 F-statistic 10640.20
Durbin-Watson stat 0.069931 Prob(F-statistic) 0.000000

Estimada la elasticidad precio y renta del consumo, se plantea si la suma de


ambas es igual a uno, hecho que debe cumplirse para que se mantenga el
principio de que toda la renta destinada al consumo efectivamente se gasta en
este fin. La restricción sería entonces que los parámetros de las variables
explicativas (todos menos la constante) han de sumar uno. En el modelo que
hemos estimado, y según lo representa e-views, la restricción que debemos
contrastar sería

C(2)+C(3)=1

Donde:

LOG(GTOHOGNAC)= C(1)+C(2)* LOG(PRECI_CONS)+C(3)* LOG(RENTA)

Para obtener los resultados del test de Wald, seguiremos los pasos antes citados
(View - Coefficient Test – Wald Coefficient Restrictions.) que se encuentran en la
ventana de la salida de regresión; abriéndose entonces el cuadro de diálogo que
se observa en la figura de más abajo.
Contrastes de significación conjunta 9 /12

En este cuadro habrá que inc luir la restricción paramétrica a contrastar; en nuestro
caso: C(2)+C(3)=1 y pulsar OK; obteniéndose la siguiente salida:

Wald Test:
Equation: Untitled
Null Hypothesis: C(2)+C(3)=1
F-statistic 1.077667 Probability 0.302235
Chi-square 1.077667 Probability 0.299220

Podemos afirmar esta restricción del modelo (C(2)+C(3)=1) como cierta con un 30%
de probabilidad (a sensu contrario, sólo podríamos rechazarla con un 70% de
probabilidades que, como no llega al 95%, no es suficiente).
Contrastes de significación conjunta 10 /12

III. CONTRASTES DE SIGNIFICACIÓN CONJUNTA A PARTIR DEL


COEFICIENTE DE DETERMINACIÓN LINEAL R2

La R2 representa la proporción de la varianza de la variable endógena real (y) que


viene explicada por la varianza de la variable estimada. Es decir:

S 2yˆ
R2 =
S 2y

Sabiendo que en el Modelo Básico de Regresión Lineal se cumple que la varianza


de la endógena coincide con la suma de la varianza de la estimada más la
varianza del error 5: S y2 = S y2ˆ + S e2 , la expresión de la R2 se suele expresar del
siguiente modo:

S y2ˆ S y2 − S e2 S e2
R2 = = =1−
S y2 S 2y S 2y

Expresión de la que se pueden extraer las siguientes conclusiones:

5
Partiendo de las variables en desviaciones a la media (a cada una de ellas se les habría
sustraído previamente su correspondiente media):

βˆ ' = [X ' X ]−1 X 'Y 


e' e = (Y − X βˆ )' (Y − Xβˆ ) = Y 'Y − Y ' Xβˆ − βˆ ' X ' Y + βˆ ' X ' X βˆ =  =
βˆ = βˆ ' X ' Y 
 Y ' X 
Y = Xβ + e
ˆ
= Y ' Y − 2βˆ ' X ' Y + βˆ ' X ' X `[X ' X ] X ' Y = Y ' Y − βˆ ' X ' Y = 
−1
=
 
 e = MU 
Y ' Y − βˆ ' X ' ( Xβˆ + e) = Y ' Y − βˆ ' X ' X βˆ + βˆ ' X ' e =  =
 M = I n − X [X ' X ] X ' 
−1

βˆ ' X ' ( I n − X [X ' X ]−1 X ' )U = βˆ ' X 'U − βˆ ' X ' X [ X ' X ]−1 X 'U = 0
Y ' Y − βˆ ' X ' X βˆ + βˆ ' X ' MU =  =
 
Y ' Y − βˆ ' X ' X βˆ = Y 'Y − Yˆ ' Yˆ

En definitiva, llegamos a que e' e = Y ' Y − Yˆ ' Yˆ ⇔ ∑ ei2 = ∑ y i2 + ∑ yˆ i2 , donde, si dividimos


ambos lados de la igualdad por el número de datos y despejamos, obtenemos:

S y2 = S y2ˆ + S e2 , ya que las variables estaban en desviaciones a la media, luego las resultantes
tendrían media cero5.
Contrastes de significación conjunta 11 /12

- En el mejor de los casos posibles, la varianza de la endógena coincidiría


con la varianza de la estimada, caso en que el valor de la varianza del error
sería igual a cero y la R2 tomaría el valor igual a uno.
- A medida que la varianza de la estimada sea más diferente de la varianza
de la endógena real, irá aumentando el valor de la varianza del error,
siendo el punto máximo que ésta pueda tomar S y2 = 0 + S e2 , donde la R2
valdría cero.
- En definitiva, la segunda expresión de la R2 se puede interpretar como el
porcentaje de la varianza real recogida por la estimada ya que, de éste, se
deduce el porcentaje que supone el error.

En cualquier caso, este porcentaje de la varianza explicada de la endógena estará


claramente condicionado por el número de explicativas empleadas en el modelo.
Ateniéndonos al principio de “parquedad estadística”, parece adecuado que para
comparar entre dos modelos con distinto número de variables se tenga en cuenta
este hecho, penalizando aquél que cuenta con un mayor número de explicativos.
Por esta razón se emplea habitualmente la R2 ajustada, calculada dividiendo cada
valor estimado por sus grados de libertad en la fórmula anterior:

S e2 /( n − k ) Se2 ( n − 1)  ( n − 1) 
R2 =1− = − = 1 − (1 − R 2 )
( n − k ) 
1
S y /( n − 1)
2
S y (n − k )
2

A partir de esta expresión, es fácil determinar que el valor de la R cuadrado


siempre será superior al de la R cuadrado ajustada.

IV. RELACIÓN ENTRE EL CONTRASTE CONJUNTO DE PARÁMETROS “F


SNEDECOR” Y LA R2

Partiendo de la penúltima expresión analizada para el contraste F-Snedecor:

(Y ' Y − e' e) /( k − 1)
Fk −1, n− k =
e' e /(n − k )

y si tenemos en cuenta, como decíamos antes, que la varianza no es sensible a


los cambios de origen, si dividimos numerador y denominador por el número de
observaciones en la expresión anterior:

(Y ' Y / n − e' e / n ) /( k − 1) ( S y − S e ) /( k − 1)
2 2

Fk −1,n −k = =
e' e / n /( n − k ) S e2 /( n − k )
Contrastes de significación conjunta 12 /12

Si dividimos ahora denominador y numerador por la varianza de la endógena:

(( S y2 − S e2 ) / S 2y ) /( k − 1) ((1 − Se2 / S 2y ) /( k − 1)
Fk −1,n −k = =
( S e2 / S 2y ) /( n − k ) ( Se2 / S y2 ) /( n − k )

A partir de la expresión de R2 :

S e2 Se2
R2 = 1 − ⇒ = 1 − R2
S 2y Sy2

La F se podría escribir como:

((1 − S e2 / S 2y ) /( k − 1) R 2 /( k − 1)
Fk −1,n −k = =
( S e2 / S 2y ) /(n − k ) (1 − R 2 ) /( n − k )

poniendo así en relación ambos contrastes de significación conjunta.

También podría gustarte