Está en la página 1de 27

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS

FACULTAD DE CIENCIAS ECONOMICAS


Econometría I – Ciclo 2012-I

Solucionario Práctica 3

1. En el modelo de regresión múltiple

; se Y i= β1 + β 2 X 2i + β 3 X 3 i + β 4 X 4 i +u i cumple que X2i =3X4i

Indique qué parámetros son estimables


a) Cuando no se dispone de información a priori sobre ningún coeficiente
b) Cuando se sabe que 4 = 2

Solución
a) Cuando no se dispone de información a priori sobre ningún coeficiente

Y = β1 +3 β 2 X 4 i + β 3 X 3i + β 4 X 4 i+ ui

Y = β1 + β 3 X 3 i+ ( 3 β2 + β 4 ) X 4 i +ui

Notamos que existe multicolinealidad perfecta en la regresión.


Los parámetros estimables son β 1 y β 3, ya que el coeficiente de la variable X4i es una
combinación lineal de las otras, en la cual no podemos hallar el valor de cada
parámetro contenida en ésta.

b) Cuando se sabe que 4 = 2

En este caso, ya que tenemos la información de que 4 es igual a 2, nuestros


parámetros a estimar serían β 1, β 3 y (3 β 2+ 2¿, entonces todos los parámetros del
modelo de regresión son estimables

Solucionado por: Hugo Calixto Linares, Kenio Espinoza Soto, Linda Melendez Risco,
Jeanmarco Velásquez.

2. Comente la siguiente proposición;

En el modelo de regresión múltiple 2


log(Y i )=β 1+β 2 log( X i )+ β3 log(X i )+ui
existe multicolinealidad exacta porque la segunda variable es el cuadrado de la primera.
Este problema puede corregirse aplicando la transformación logarítmica y estimando la
ecuación
2
log(Y i )=β 1 + β 2 log( X i )+ β3 log( X i )+ui
Solución
a) Sea la proposición 1 como sigue:

En el modelo de regresión múltiple 2


log(Y i )=β 1+β 2 log( X i )+ β3 log(X i )+ui
Existe multicolinealidad exacta porque la segunda variable es el cuadrado de la primera.

Según Casas “La colinealidad está referida a la existencia de una sola relación lineal entre
las variables explicativas y, por lo tanto, la multicolinealidad se refiere a la existencia de
más de una relación lineal. Es importante anotar que la multicolinealidad se refiere sólo a
relaciones lineales entre las variables independientes y no a cualquier otro tipo de relación,
así pues, si xi = xj2, entonces no existirá multicolinealidad en el modelo.”

Entonces en el modelo señalado no existe multicolinealidad.

b) Sea la proposición 2 como sigue:

En el modelo de regresión múltiple 2


log(Y i )=β 1+β 2 log( X i )+ β3 log(X i )+ui
Este problema (de aparente o supuesta multicolinealidad exacta) puede corregirse aplicando
la transformación logarítmica y estimando la ecuación

log (Y i )=β 1 +β 2 log( X i )+ β3 log ( X i2 )+ui


De hecho que si esto es asi va a existir mutlicolinealidad exacta ya que la expresión
sería equivalente a

log (Y i )=β 1 +β 2 log ( X i )+2 β 3 log( X i )+ui

log(Y i )=β 1 +( β2 + 2 β3 )log( X i )+ui , y si definimos el parámetro


β 2 + 2 β 3= β 4 se tiene

log(Y i )=β 1+β 4 log ( X i )+ui


Y esta es la forma de tratamiento de un modelo cuando existe multicolinealidad perfecta.

Solucionado por: Sicha Morales, Meguis

3. La siguiente tabla proporciona información sobre los automóviles nuevos vendidos en USA
como función de diversas variables
a) Desarrolle un modelo lineal o log-lineal apropiado para estimar una función de
demanda de automóviles en Estados Unidos.
b) Si decide incluir todas las variables como regresoras en el modelo ¿esperaría
encontrar el problema de multicolinealidad? ¿porqué?
c) Si espera lo anterior ¿cómo resolvería el problema?. Plantee los supuestos claramente
y muestre todos los cálculos de manera explícita.

Y: Automóviles nuevos vendidos (miles)


X2: automóviles nuevos
X3: IPC, 1967=100
X4: Ingreso personal disponible (IPD) (miles de millones de dólares)
X5: Tasa de interés (porcentaje)
X6: fuerza laboral civil empleada (miles)

Año Y X2 X3 X4 X5 X6
1971 10227 112 121.3 776.8 4.89 79367
1972 10872 111 125.3 839.6 4.55 82153
1973 11350 111.1 133.1 949.8 7.38 85064
1974 8775 117.5 147.7 1038.4 8.61 86794
1975 8539 127.6 161.2 1142.8 6.16 85846
1976 9994 135.7 170.5 1252.6 5.22 88752
1977 11046 142.9 181.5 1379.3 5.5 92017
1978 11164 153.8 195.3 1551.2 7.78 96048
1979 10559 166 217.7 1729.3 10.25 98824
1980 8979 179.3 247 1918 11.28 99303
1981 8535 190.2 272.3 2127.6 13.73 100397
1982 7980 197.6 286.6 2261.4 11.2 99526
1983 9179 202.6 297.4 2428.1 8.69 100834
1984 10394 208.5 307.6 2670.6 9.65 105005
1985 11039 215.2 318.5 2841.1 7.75 10750
1986 11450 224.4 323.4 3022.1 6.31 109597

SOLUCION:

a) Desarrolle un modelo lineal o log-lineal apropiado para estimar una función


de demanda de automóviles en Estados Unidos.

Se propone el modelo log – lineal siguiente:

log ( Y t )=β 1 + β 2 log ( X 3 t ) + β 3 log ( X 4 t ) + μt

a) Si decide incluir todas las variables como regresoras en el modelo ¿esperaría


encontrar el problema de multicolinealidad? ¿Por qué?
Test de Ortogonalidad:

|R|=0.0000291
χ 2CALC =− n−1− [
( 2 k +5 )
6
∗ln |R| ]
[
χ 2CALC =− 16−1−
10+5
6 ]
∗(−10.44477238)

2 2
χ CALC =130.5596548 > χ =20.5

Existen indicios de multicolinealidad alta.

Test F

El R2 máximo pertenece a la variable X 3 :

2
Rmax =0.996132

R2max / ( K −1 ) 0.996132/4
F CALC= = =93.64783304
( 1−R ) / ( N−K )
2
max
(1−0.996132)/11

F CALC=93.64783304> F=3.36

La variable X3 está colineada con las demás variables explicativas.


Test t

El r 2 máximo pertenece a la variable X 2 :

r 2max =0.996865

r max √ n−2
2
0.996865 √ 14
t CALC = = =66.61646657
√ 1−r 2
max
√1−0.996865
t CALC =66.61646657>t=2.145

La variable X2 está colineada con x3


b) Si espera lo anterior ¿cómo resolvería el problema?. Plantee los supuestos
claramente y muestre todos los cálculos de manera explícita.

Eliminando las variables que no explican mucho al modelo X5 y X6

Esto me haría quedar con tres variables X2, X3 Y X4 y las estimo en un modelo
Log-Lineal

log ( Y t )=β 1 + β 2 log ( X 2 t ) + β 3 log ( X 3 t ) + β 4 log ( X 4 t ) μ t

Sin

embargo, ya se demostró que las variables X2 y X3 están altamente


colineadas. Por lo tanto elimino la variable X2 por motivos teóricos. Mi
modelo quedaría como el primer modelo elegido.
log ( Y t )=β 1 + β 2 log ( X 3 t ) + β 3 log ( X 4 t ) + μt

Solucionado por: Valencia Ortiz, Stephania; Ramos Torres, Luis; Torres Polanco,Diana;
BarrantesLimahuaya, Jesús, Meza Sales, Richard.

4. Dada la función de consumo Keynesiana, en la que el consumo es función lineal de la renta


disponible, se pretende contrastar para datos referidos a una muestra de familias peruanas,
si el consumo autónomo difiere según la familia reside en las ciudades de Lima, Trujillo o
Arequipa.(unidades en cientos de S/.)

Famili Ciudad de Residencia Consumo Renta disponible


a
1 Lima 9 10
2 Lima 16 20
3 Lima 62 100
4 Lima 20 25
5 Lima 6.8 8
6 Trujillo 19 30
7 Trujillo 12 20
8 Trujillo 30 50
9 Trujillo 10 18
10 Arequipa 6 10
11 Arequipa 25 40
12 Arequipa 15 25
13 Arequipa 22 34

Por MCO obtenemos:

Dependent Variable: CONSUMO


Method: Least Squares
Date: 12/07/01 Time: 00:09
Sample: 1 13
Included observations: 13
Variable Coefficient Std. Error t-Statistic Prob.
C 0.794799 0.631800 1.257992 0.2401
RENTAD 0.594686 0.012637 47.06096 0.0000
LIMA 2.578428 0.713896 3.611772 0.0056
TRUJILLO -0.588044 0.749670 -0.784404 0.4530

R-squared 0.996094 Mean dependent var 19.44615


Adjusted R-squared 0.994792 S.D. dependent var 14.68063
S.E. of regression 1.059430 Akaike info criterion 3.200999
Sum squared resid 10.10153 Schwarz criterion 3.374830
Log likelihood -16.80650 F-statistic 765.0773
Durbin-Watson stat 3.212438 Prob(F-statistic) 0.000000

Matriz de covarianzas de los coeficientes estimados.


C RENTAD LIMA TRUJILLO
0.399172 -0.004351 -0.257319 -0.270808
-0.004351 0.000160 -0.000854 -0.000359
-0.257319 -0.000854 0.509647 0.282520
-0.270808 -0.000359 0.282520 0.562005

5
Series: Residuals
Sample 1 13
4 Observations 13

Mean 5.12E-16
3 Median -0.100481
Maximum 1.759616
Minimum -1.330718
2 Std. Dev. 0.917494
Skewness 0.370236
Kurtosis 2.102938
1
Jarque-Bera 0.732885
Probability 0.693196
0
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0

a) Interprete los resultados obtenidos, analice el incumplimiento de supuestos para las


perturbaciones del modelo. Contrastar si los consumos autónomos difieren
significativamente.
b) Se estimó un segundo modelo obteniéndose los siguientes resultados:

Dependent Variable: CONSUMO


Method: Least Squares
Date: 12/07/01 Time: 00:21
Sample: 1 13
Included observations: 13
Variable Coefficient Std. Error t-Statistic Prob.
C 0.511444 0.508275 1.006235 0.3380
RENTAD 0.594310 0.012382 47.99738 0.0000
LIMA 2.874039 0.594543 4.834033 0.0007
R-squared 0.995827 Mean dependent var 19.44615
Adjusted R-squared 0.994993 S.D. dependent var 14.68063
S.E. of regression 1.038852 Akaike info criterion 3.113283
Sum squared resid 10.79213 Schwarz criterion 3.243656
Log likelihood -17.23634 F-statistic 1193.212
Durbin-Watson stat 2.934236 Prob(F-statistic) 0.000000
6
Series: Residuals
Sample 1 13
5 Observations 13

4 Mean 1.81E-15
Median -0.328586
Maximum 1.756759
3
Minimum -1.339966
Std. Dev. 0.948338
2 Skewness 0.365802
Kurtosis 2.105622
1
Jarque-Bera 0.723210
Probability 0.696557
0
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0

Matriz de covarianzas para los coeficientes estimados


C RENTAD LIMA
0.258344 -0.004350 -0.116521
-0.004350 0.000153 -0.000648
-0.116521 -0.000648 0.353481

b1) Compare los resultados de este modelo con el modelo anterior. Interprete a los
coeficientes de este modelo.
b2) Obtenga una predicción puntual e interválica para el consumo de una familia residente en la
ciudad de Lima, cuya renta disponible es de S/. 3000 (RENTAD = 30).

Solución
a) Interprete los resultados obtenidos, analice el incumplimiento de supuestos para las
perturbaciones del modelo. Contrastar si los consumos autónomos difieren
significativamente.

Sabemos que el modelo es el siguiente:

CONSUMO i=β 1+ β 2 RENTAD i + β 3 LIMA i + β 4 TRUJILLOi + ε i


Donde:

*Variables dummy
 LIMA (1= familia de lima, 0= otra ciudad)
 TRUJILLO (1= familia de Trujillo, 0=otra ciudad)
 LIMA=0 Y TRUJILLO=0 => AREQUIPA (categoría de referencia)

*Estimación e interpretación de los coeficientes

La función de regresión poblacional se puede expresar como:

 LIMA ⇒ CONSUMOi =( β 1+ β 3 ) + β 2 RENTAD i +ε i

 TRUJILLO ⇒ CONSUMO i=( β 1+ β 4 ) + β 2 RENTAD i+ ε i

 AREQUIPA ⇒ CONSUMO i=β 1 + β 2 RENTADi + ε i

Usando los resultados de EVIEWS:


Modelo estimado:
^
CONSUMO i=0.794799+0.594686 RENTAD i+ 2.578428 LIMA i −0.588044 TRUJILLOi +ε i

Donde se puede observar que los regresores RENTADi y LIMAi son significativos para
explicar el consumo medio de las familias, en cambio la variable TRUJILLO ino es
significativa a un nivel de 5% (valor critico de la t de Student con 9 grados de libertad
es 2.262) y comparando con la Prob. de cada coeficiente.

*Interpretación de coeficientes:

 ^β 1=0.7948 ⇒ El consumo autónomo (consumo medio) para una familia que


reside en Arequipa y con cero de renta disponible es de 79.48 soles.

 ^β 2=0.5947 ⇒ El consumo medio estimado de una familia se incrementa en


59.47 soles en aumentar en 100 soles la renta disponible de la familia.

 ^β =2.5784 ⇒ Es el efecto diferencial, es decir, el cambio en el consumo medio


3
que se produce por ser una familia residente en Lima y no en Arequipa. Se
estima que entre las familias con la misma renta disponible, el consumo medio
de la residente en Lima es 257.84 más que la que reside en Arequipa.

 ^β =−0.5880 ⇒ Es el efecto diferencial en el consumo medio que se produce por


4
ser una familia que reside en Trujillo y no en Arequipa. Se estima que entre las
familias con la misma renta disponible, el consumo medio de la residente en
Trujillo es 58.80 soles menos que la que reside en Arequipa.
2
 R =0.996⇒ La variabilidad del consumo medio de las familias es explicada por
las variables incluidas.

*Interpretación del error:


5 Como sabemos, el
Series: Residuals histograma de
Sample 1 13 frecuenciasrepresenta
4 Observations 13
gráficamente la
Mean 5.12E-16 distribución de las
3 Median -0.100481 frecuencias de los valores
Maximum 1.759616 de la serie de los residuos.
Minimum -1.330718
2 Std. Dev. 0.917494 Estos resultados nos
Skewness 0.370236 indican que la media
Kurtosis 2.102938 aritmética del error será
1
siempre nula.
Jarque-Bera 0.732885
Probability 0.693196
0
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0

Aparecen en primer lugar dos medidas de tendencia central de la serie:


 La media (mean) de los residuos, calculada como promedio aritmético tiende a
cero.
 La mediana (median) de los residuos es aquel valor que separa los valores de la
serie en dos conjuntos de igual densidad de frecuencias.

A continuación se muestran dos aproximaciones a la dispersión de la serie respecto a


sus valores centrales:

 El valor máximo (maximun) y mínimo (minimun) de la serie residual.


 La desviación típica (Std. Dev.) de la serie residual 0.92 que tiende a uno (raíz
de la varianza de los residuos).
Por último algunos cálculos que ayudan a valorar la normalidad estadística de la serie
residual:
 El coeficiente de asimetría (skewness) 0.3702 tiende a cero, nos da indicios de
normalidad.

 El coeficiente de curtosis (kurtosis) 2.1029 tiende a tres, con un apuntamiento


algo menor a la distribución normal. Se puede decir que se acepta la H0 de
normalidad de los residuos cuando la curtosis se acerca a 3, a pesar que la
asimetría no sea cero.

 El JARQUE –BERA para contrastar la hipótesis nula de que la serie residual se


distribuye como una Normal ya que esta expresión (JB) se distribuye como una
χ 2 con dos grados de libertad.
Donde:
H0: εi se aproxima a una distribución Normal.
H1: εi no se aproxima a una distribución Normal.
2
El JB es 0.7329 que es menor a 5.99 ( χ ( 5 % ,2) ) no se rechaza la hipótesis nula.

 El valor de la probabilidad (Probability) ofrecido por Eviews, se entiende como


el nivel de significación asociado al rechazo de la hipótesis nula: valores
pequeños para esa probabilidad (inferiores a 0.05) indicarían, por tanto, ausencia
de normalidad en la distribución de valores de la variable analizada. Decimos
entonces que existe una alta probabilidad de 69.66% (mayor a 5%) de no
rechazar la hipótesis nula de normalidad.

*Contraste de significancia para los consumos autónomos:

H 0 : ^β 3− ^β 4=0
H 1 : ^β3 − ^β 4 ≠ 0

Donde la hipótesis nula indica que no hay efecto diferencial en las familias que residen
en Lima frente a las que residen en Trujillo, sobre el consumo medio autónomo.

Utilizamos la prueba F
{( R ^β−r ) [ R ( X X ) R ] ( R ^β−r ) }/q
' −1 −1
' '

F=
e e ' / ( n−k )
Para:
 q= 1
 k= 4
 n= 13

Se puede expresar así:


−1
F=( R ^β−r ) [ RV ( ^β ) R ] ( R β−r
^ )
' '

Calculando R:
R=[ 0 0 1 −1 ]

Necesitamos

RV ( β^ ) R :
'

[ ][ ]
0.399172 −0.004351 −0.257319 −0.270808 0
RV ( β^ ) R =[ 0 0 1 −1 ] −0.004351 0.000160 −0.000854 −0.000359 0
'

−0.257319 −0.000854 0.509647 0.282520 1


−0.270808 −0.000359 0.282520 0.562005 −1

[]
0
RV ( β^ ) R =[ 0.013489 −0.000495 0.227127 −0.279485 ] 0
'

1
−1
RV ( β^ ) R =0.506612
'

−1
[ RV ( β^ ) R' ] =1.973897
 R ^β−r :

[ ]
0.794799
R ^β−r =[ 0 0 1 −1 ] 0.594686 − [ 0 ]
2.578428
−0.588044

'
R ^β−r =( R ^β−r ) =3.166472

Remplazamos:
F=( 3.166472 ) [ 1.973897 ] ( 3.166472 )

F=19.791
El F tabulada:
F (q , n−k )=F (1,13−4 )=F (1,9 )

F (1,9 )=5.117
Región de
Rechazo
0.05

Región de
Aceptación
0.95

F= 19.79
5.12

Como F Calculado> F(1,9) rechazamos la Hipótesis nula ( H 0 ) , y concluimos que los


consumos autónomos si difieren significativamente respecto a una familia que reside en
Lima sobre una que reside en Trujillo.

a) Se estimó un segundo modelo obteniéndose los siguientes resultados:

Dependent Variable: CONSUMO


Method: LeastSquares
Date: 12/07/01 Time: 00:21
Sample: 1 13
Included observations: 13
Variable Coefficient Std. Error t-Statistic Prob.
C 0.511444 0.508275 1.006235 0.3380
RENTAD 0.594310 0.012382 47.99738 0.0000
LIMA 2.874039 0.594543 4.834033 0.0007
R-squared 0.995827 Mean dependent var 19.44615
Adjusted R-squared 0.994993 S.D. dependent var 14.68063
S.E. of regression 1.038852 Akaike info criterion 3.113283
Sum squared resid 10.79213 Schwarz criterion 3.243656
Log likelihood -17.23634 F-statistic 1193.212
Durbin-Watson stat 2.934236 Prob(F-statistic) 0.000000

6
Series: Residuals
Sample 1 13
5 Observations 13

4 Mean 1.81E-15
Median -0.328586
Maximum 1.756759
3
Minimum -1.339966
Std. Dev. 0.948338
2 Skewness 0.365802
Kurtosis 2.105622
1
Jarque-Bera 0.723210
Probability 0.696557
0
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0
Matriz de covarianzas para los coeficientes estimados

C RENTAD LIMA
0.258344 -0.004350 -0.116521
-0.004350 0.000153 -0.000648
-0.116521 -0.000648 0.353481

b1) Compare los resultados de este modelo con el modelo anterior. Interprete a los
coeficientes de este modelo.

Sabemos que el nuevo modelo de regresión seria:


CONSUMO i=α 1+ α 2 RENTAD i +α 3 LIMA i + ε i

La función de regresión poblacional se puede expresar como:


 LIMA ⇒ CONSUMOi =( α 1+ α 3 ) + α 2 RENTAD i +ε i
 NOLIMA ⇒ CONSUMOi =α 1 + α 2 RENTAD i
Modelo estimado:

^
CONSUMO i=0.511444 +0.594310 RENTAD i +2.874039 LIMA i+ ε i

Donde se puede observar que a diferencia del modelo anterior, todos los regresores son
significativos para la explicación del modelo y la estimación del consumo medio de las
familias. Esto con una significancia del 5% y contratándolo con las probabilidades. De
cada coeficiente que son menores.

*Interpretación de los coeficientes

 α^ 1=0.5114 ⇒ El consumo autónomo para una familia que no reside en Lima


asciende a 51.14 soles.

 α^ 2=0.5943 ⇒ El consumo medio estimado de una familia se incrementa en


59.43 soles en aumentar en 100 soles la renta disponible de la familia.

 α^ 3=2.8740 ⇒ Es el efecto diferencial en el consumo medio de una familia por


residir en Lima y no en otra ciudad. Se estima que entre las familias con la
misma renta disponible, el consumo medio de la residente en Lima es 287.40
más que la que no reside allí.

Al igual que en el modelo anterior la variabilidad del consumo medio es explicada en un


gran porcentaje por sus variables, en este caso es de 99.58%. Además que hay
significancia conjunta con una prueba F (F-statistic) de 1193.212.
*Interpretación del error:
6
Series: Residuals Al igual que en el modelo
Sample 1 13
5 Observations 13 anterior, analizando el
histograma de frecuencias en
4 Mean 1.81E-15
Median -0.328586 los residuos con un JB de
3
Maximum 1.756759 0.7232 no rechazamos la
Minimum -1.339966
Std. Dev. 0.948338 hipótesis nula de distribución
2 Skewness 0.365802 normal en los residuos.
Kurtosis 2.105622
Además de una probabilidad
1
Jarque-Bera
Probability
0.723210
0.696557
de 69.66% (mayor al 5%) de
0 no rechazar la hipótesis nula
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 de normalidad.

La kurtosis tiende a tres lo que nos indica que pueda tener distribución normal, a pesar
que el coeficiente de asimetría 0.3658 no sea cero pero tienda a este.
b2) Obtenga una predicción puntual e interválica para el consumo de una familia
residente en la ciudad de Lima, cuya renta disponible es de S/. 3000 (RENTAD = 30).
Modelo estimado:

^
CONSUMO i=0.511444 +0.594310 RENTAD i +2.874039 LIMA i+ ε i

Predicción puntual:
Y^ =0.511444+0.594310(30)+2.874039(1)
Y^ =21.214783
Predicción interválica:
L=Y^ i ± t
1−
α
2
√ S (1+ X ( X X )
2
e
'
i
' −1
X i)

L=Y^ i ± t
1−
α √ S + X V ( ^β ) X
2
e
'
i i
2
Donde:
Y^ =21.214783

t (n−k )=t ( 13−3 )=2.228

Se =
2 ∑ e 2 = 10.79213 =1.079213
n−k 13−3

X 'i =[ 1 30 1 ]

Remplazamos:

[ ][ ]
0,258344 −0,004350 −0,116521 1
X i V ( ^β ) X i=[ 1 30 1 ] −0,004350 0,000153 −0,000648 30
'

−0,116521 −0,000648 0,353481 1


[]
1
^
X V ( β ) X i=[ 0.011323 −0.000408 0.21752 ] 30
'
i
1

X i V ( ^β ) X i=0.216603
'

Intervalos:
L=21.214783 ± 2.228 √ 1.079213+0.216603

L=21.214783 ± 2.536220

Li=18.678563

Ls =23.751003

Por lo tanto el consumo medio de una familia residente en Lima y con una renta
disponible de S/3000 soles se estima con 95% de confianza entre los intervalos
[ 18.678563 ,23.751003 ].
Solucionado por: Delgado Aragón, Rodrigo, Ibañez Campos, Marcia, Ppampas Ogosi, Liliana
Elizabeth, Querhuayo Huamaní, Jessica

5. Dado el modelo lineal general:


Yi = 1 + 2 x2i + 3 x3i + i Con i N(0,2)

Para el que se dispone de la información muestral siguiente:

( ) ( )
10 8 11 6
X ´ X = 8 598 791 ; X ´Y = 506 ; Y ´ Y = 454
11 791 1128 632
Se pide:
a) Obtener la estimación MCO del modelo. ¿hay problema de multicolinealidad?
Justifique.
b) Contrastar al nivel del 5% de significancia : H0 : 1 + 32 = 2 y 3 =1
c) Dados los valores postmuestrales X2 11 = 1; X3 11 = 1
c1) Obtener una predicción puntual e interválica para Y 11
c2) Si Y11= 0.8, verificar si puede aceptarse que exista permanencia estructural, al nivel de
significancia del 5%

Solución
a) Obtener la estimación MCO del modelo. ¿hay problema de multicolinealidad?
Justifique.

SOLUCIÓN:

[ ]
0.1011 −0.000668 −0.000517
−1
( x ´ x) = −0.000668 0.0231 −0.0162
−0.000517 −0.0162 0.01224
[ ]( )
0 .1011 −0. 000668 −0 .000517 6
−0 .000668 0 .0231 −0.0162 506

( x´ x)−1 X ´ Y = −0 .000517 −0 .0162 0 .01224 632

[ ]
−0.058152
^β= 1.446192
−0.464622

Por lo tanto:
β 1=−0.058152
β 2=1.446192
β 3=−0.464622

Yi = -0.058152 + 1.446192 x2i – 0.464622 x3i

¿Hay problema de multicolinealidad?

rX = 2 X3
[ 1 r 23
r 32 1 ]
=
∑ X 2 X 3−n X 2 X 3
SX SX
2 3

= 0.9627

Determinando la matriz de correlaciones:

R= [ 0.9627
1 0.9627
1 ] R
−1
[ 13.6596
=
−13.15
−13.15
13.6596 ]
FIV X 3 X 2= 13.6596 ¿ 10
FIV X 2 X 3 = 13.6596 ¿ 10

El factor de incremento de varianza es mayor que 10, por lo tanto existe


multicolinealidad entre las variables.

b) Contrastar al nivel del 5% dee significancia:

H 0 : β 1+3 β 2=2
β 3=1
SOLUCIÓN:

A partir de la hipótesis mencionada, obtenemos la matriz de las restricciones lineales:


][ ][]
−0.058128
[
H 0 : Rβ=r 1 3 0
0 0 1
1.450738 =
−0.455894
2
1

Utilizamos la Prueba F para las restricciones lineales:

F (q ;n−k )

es

[−0.455894] [ 1] [−1.455894
( R ^β−r ) = 4.294086 − 2 2.294086
= ]
( R ^β−r ) =[ 2.294086−1.455894 ]
'

][ ][ ]
0.101104 −0.000668 −0.000517 1 0
' −1
R( X X ) R =¿ '
0 0 1[
1 3 0∗
−0.000668 0.023089 −0.016184 ∗ 3 0
−0.000517 −0.016184 0.012241 0 1

[
R( X ' X )−1 R' = 0.304897−0.049069
−0.049069 0.012241 ]
[37.0478193 230.201736 ]
= 9.2421356937.0478193
−1
[ R( X ' X )−1 R' ]

¿¿

[
¿ [ 2.294086−1.455894 ] 9.2421356937.0478193 2.294086
37.0478193 230.201736 −1.455894 ][ ]
¿ 289.1061185

Hallamos la prueba F:

144.55
1.2000497

F=120.45589

F(q , n−k)=F(2 ,7 )=4.74


Interpretación: Dado que el F calculado> Ftabla se rechaza la H 0, por lo tanto se acepta la
hipótesis alternativa, de que las restricciones lineales de la hipótesis son diferentes.

c) Dados los valores postmuestrales X 2 11=1 ; X 3 11= 1

C1) Obtener una predicción puntual e interválica para Y 11

X 2 11=1 X 3 11 =1

De acuerdo al modelo estimado con la data inicial se predice el valor de la variable Y


un horizonte adelante

Predicción puntual:

Y^ i= β^ 1 + ^β 2 X 2i + β^ 3 i X 3 i

Y^ 11 =−0.058+1.450 X 211−0.456 X 3 11

Reemplazando

Y^ 11 =−0.058+1.450∗( 1 )−0.456 8∗( 1 ) =0.936

Y^ 11 =0.936

Predicción interválica individual:

L=Y^ i ± t (n−k) √ Su^ (1+ X 0 ' (X X ) X 0) para i=11


2 ' −1

L=0.936± 2.365 √ S 2^u (1+ X 0 ' ( X ' X )−1 X 0 )


2 e ' e 8.778
Su^ = = =1.254
n−k 10−3
' −1
Hallando: X 0 ' ( X X) X 0 ¿

( )( )
0.1011036 −0.000668 −0.005173 1
( 1 1 1 ) −0.000668 0.0230894 −0.016185 1
−0.000517 −0.161847 0.012241 1

−1
X 0' ( X X )
'
X 0 ¿=0.1017

L=0.936± 2.365 √ 1.254(1+0.1017)

L=0.936± 1.382

L1=3.716 L2=−1.848

Entonces el intervalo de confianza al 95% para Y 11 es [3.716;-1.848], quiere decir que


en el momento t=11 Y tomará un valor situado entre -1.848 y 3.716 u.m.
.

C2) verificar si puede aceptarse que exista permanencia estructural, al nivel de


significancia del 5 %

Solución

Hacemos el Test predictivo de un periodo.

Hipótesis nula: Hay estabilidad Hipótesis alternativa: No hay estabilidad

et
T= ¿
σ e √ 1+ X ´t ¿ ¿ ¿

Cancelando algunos valores tenemos

et
T=
√1+ X ¿ ¿ ¿ ´
t

^ 11=0.936 y Y 11=0.80
Para t=11 Y

e t =Y 11−Y^ 11 e t =0.8−0.936=−0.136
−1
X 11 ' ( X 10' X 10 ) X 11 ¿=0.1017
−0.136
T= =−0.1296
√1+ 0.1017
t tab=±2.3
El t calculado es muy cercano a cero y cae dentro de la región de aceptación de la
hipótesis nula, entonces concluimos que hay estabilidad en el modelo.

Solucionado por: Alarcon Alvarez, Debora Mabel; Cañari Maza, Edith Lucia; Espinoza
Vega, Whinny Daise; Ruiz Delgado, Diego; Paucar Ramirez,Ibeth del Rosario; Pichiua
Tenorio, Flor Maria.

6. En un muestreo de 100 grandes y medianas empresas de la industria química de un país


se ha obtenido la siguiente regresión referida al personal empleado en dicho sector:

E = 2.3 + 0.05 T – 2.4 C + 1.9 F + e


(S =0.037) (S =0.53) (S =0.61)
donde:
E = nº de empleado de una empresa (medido en cientos de personas)
T = 1 si la empresa incorpora los últimos adelantos tecnológicos y 0 en caso contrario.
C = 1 si existen empresas competidoras en un radio de 50 km y 0 en caso contrario.
F = 1 si hay una empresa complementaria (farmacéutica, por ejemplo) en un radio de 50
km y 0 en caso contrario.

a) Justifique si es verdadero o falso y, en caso de que lo sea corregirlo:


a1) Una empresa con tecnología de punta tiene, por término medio, cinco empleados más
que una que no está en la vanguardia de la innovación.
a2) Por cada empresa de la competencia existente en un radio de 50 km, una empresa de
la industria química contrata 240 trabajadores menos.
b) Dar una interpretación del coeficiente de F y analizar su significancia

Solucionario

a) Justifique si es verdadero o falso y, en caso de que lo sea corregirlo:

a1) Una empresa con tecnología de punta tiene, por término medio, cinco empleados
más que una que no está en la vanguardia de la innovación.

Es verdadero.

Teniendo en cuenta que el coeficiente β 2 representa el efecto diferencial que tiene


una empresa que incorpora los últimos adelantos tecnológicos con respecto a las que
otras empresas que no incorporan los últimos adelantos tecnológicos, ya que el
coeficiente β 2, esta expresado en cientos de personas, nos quiere decir que β 2=0.05
nos indica que las empresas con tecnología de punta tienen en promedio 5
empleados más que las empresas que no tienen tecnología de punta.

a2) Por cada empresa de la competencia existente en un radio de 50 km, una


empresa de la industria química contrata 240 trabajadores menos.

Es Falso.

Sabemos que el coeficiente β 3 representa el efecto diferencial que se presenta


cuando existen empresas competidoras en un radio de 50 km con respecto a cuando
no existen otras empresas en un radio de 50 km, por lo cual no importa cuántas
empresas competidoras existan alrededor de la empresa de la industria química, ya
que el efecto siempre será el mismo.

La proposición correcta debería ser: “Si por lo menos hay una empresa competidora
en un radio de 50 km, la empresa de la industria química contrata 240 trabajadores
menos”.

a) Dar una interpretación del coeficiente de F y analizar su significancia

El coeficiente β 4 nos muestra el efecto diferencial que existe si hay una empresa
complementaria en un radio de 50 km con respecto a cuando no hay una empresa
complementaria en un radio de 50 km. Debido a que el coeficiente β 4 esta expresado
en cientos de personas, un β 4 =1.9 , nos indica que en promedio la empresa que
tiene una empresa complementaria en un radio de 50km, contratara 190 empleados
más que una empresa que no tiene una empresa complementaria en un radio de
50km.

*Análisis de significancia:

*Prueba de Hipótesis:
H 0 : ^β 4=0 H 1 : ^β 4 ≠0
*Estadística de prueba:

( ^β 4 −β ¿4 ) 1.9−0
T 0= = =3.115
S ^β 4
0.61
*Valor Crítico:

T α =T (0.975)(100−2)=T (0.975)(98) =1,984


(1− )(n−k)
2

*En la gráfica:
Conclusión: Con una confianza del 95% podemos decir que se rechaza la hipótesis nula,
ya que como apreciamos en el grafico T tabla < T calculado, T tabla>Tcalculado ,esto
nos muestra que el coeficiente β 4 es significativo, lo que nos indica que sí existe un
efecto diferencial entre las empresas donde si hay una empresa complementaria en un
radio de 50 km con respecto a las empresas donde no hay una empresa complementaria
en un radio de 50 km.

Solucionado por: Delgado Aragón, Rodrigo, Ibañez Campos, Marcia, Ppampas Ogosi, Liliana
Elizabeth, Querhuayo Huamaní, Jessica

7. El gerente de ventas de cierta empresa cree que la capacidad de ventas, entre otros
factores podría asociarse con la capacidad de razonamiento verbal de los vendedores, con
su interés vocacional y su nivel de instrucción. Para comprobar esto, se escogen al azar 10
vendedores de su personal y se les dan dos pruebas, una de capacidad de razonamiento
verbal y otra de interés vocacional. Los resultados se dan el cuadro, donde:

Y: ventas medias mensuales de un vendedor en miles de dólares


X2: Puntuación en la prueba de razonamiento verbal
X3: Puntuación en la prueba de interés vocacional
I: Nivel de instrucción (1 = Instrucción superior, 0 = sin instrucción Superior)

a) Plantee el modelo para evaluar el efecto diferencial de la instrucción en las ventas medias.
Proporcione la matriz (X´X), (X´Y).
b) Plantee el modelo para evaluar el efecto total de la instrucción en las ventas, considerando
el efecto interactivo en la puntuación de razonamiento verbal y en la puntuación de interés
vocacional. Proporcione las matrices (X´X), (X´Y).

Agente Y X2 X3 I
1 1 1 1 0
2 3 2 5 0
3 4 3 4 0
4 2 4 3 0
5 1 1 2 1
6 2 2 3 1
7 2 3 2 1
8 5 4 5 1
9 3 5 2 1
10 6 5 6 1
Media 2.9 3.0 3.3 0.6
S 1.66 1.49 1.64 0.516

c) Se estimó el siguiente modelo. Analice e interprete a los coeficientes del modelo e indique
la importancia relativa de las variables regresoras. Es válido hacer inferencia con el modelo
¿por qué?

Dependent Variable: Y
Method: Least Squares
Sample: 1 10
Included observations: 10
Variable Coefficient Std. Error t-Statistic Prob.
C -0.849928 0.593732 -1.431501 0.2022
I 0.257129 0.455372 0.564658 0.5928
X2 0.420735 0.177132 2.375255 0.0551
X3 0.707105 0.154547 4.575339 0.0038
R-squared 0.891747 Mean dependent var 2.900000
Adjusted R-squared 0.837620 S.D. dependent var 1.663330
S.E. of regression 0.670262 Akaike info criterion 2.326878
Sum squared resid 2.695505 Schwarz criterion 2.447912
Log likelihood -7.634388 F-statistic 16.47520
Durbin-Watson stat 2.628830 Prob(F-statistic) 0.002660

Matriz de covarianzas de los estimadores de los coeficientes


C 0.352518 -0.077843 -0.036804 -0.045598
I -0.077843 0.207363 -0.025079 0.008685
X2 -0.036804 -0.025079 0.031376 -0.012811
X3 -0.045598 0.008685 -0.012811 0.023885
2.5
Series: Residuals
Sample 1 10
2.0 Observations 10

Mean 4.83E-16
1.5 Median -0.004350
Maximum 0.759304
Minimum -0.954326
1.0 Std. Dev. 0.547266
Skewness -0.142098
Kurtosis 2.142203
0.5
Jarque-Bera 0.340243
Probability 0.843562
0.0
-1.0 -0.5 0.0 0.5 1.0

Solucionario:
a) Plantee el modelo para evaluar el efecto diferencial de la instrucción en las
ventas medias. Proporcione la matriz (X´X), (X´Y).
El modelo que planteamos es el siguiente:
Y = β1 + β 2 X 2 + β3 X 3 + β 4 I + ε
Esto dado que queremos saber cuál es el efecto diferencial de tener un nivel de
instrucción superior frente a la opción de no tenerlo respecto a las ventas
medias mensuales.

[ ]
Nuestra matriz (X´X) sería la siguiente:
n n
n ∑ X2i ∑ X3i n2
i=1 i=1

[ ]
n n n n
10 30 33 6

i=1
X2i ∑
i=1
X 2
2i ∑
i=1
X2i X3i ∑ X2i
i=n +1 30 110 109 20
( X ´ X )= 1
=
n n n n
33 109 133 20
∑ X3i ∑ X3i X2i ∑ X 23 i ∑ X3i 6 20 20 6 4x4
i=1 i=1 i=1 i=n1+1
n n
n2 ∑ X2i ∑ X3i n2 4 x4
i=n1+1 i=n1+1

Luego, nuestra matriz (X´Y) sería:


[]
n

∑Yi
i=1

[]
n
29
∑ X2iY i 103
( X ´ Y )= i=1
=
n
117
∑ X3iY i 19 4x1
i=1
n

∑ Yi 4x1
i=n1+1

b) Plantee el modelo para evaluar el efecto total de la instrucción en las ventas,


considerando el efecto interactivo en la puntuación de razonamiento verbal
y en la puntuación de interés vocacional. Proporcione las matrices (X´X), (X
´Y).

Este modelo lo planteamos de la siguiente manera:


Y = β1 + β 2 X 2+ β3 X 3 + β 4 I + β5 X 2∗I+ β 6 X 3∗I + ε
Esto debido a que ahora el modelo toma en cuenta el cambio en el efecto de la
puntuación de razonamiento verbal y de la puntación de interés vocacional
cuando se pasa de no tener instrucción superior a tenerla, sobre el promedio

[ ]
de ventas mensuales.
Nuestra matriz (X´X) sería la siguiente:
n n n n
n ∑ X 2i ∑ X3i n2 ∑ X2i ∑ X3i
i=1 i =1 i=n1 +1 i=n1+1
n n n n n n

∑ X 2i
i=1
∑ X 22i
i=1
∑ X 2i X 3 i
i=1
∑ X2i
i=n +1

i=n +1
X 22 i ∑
i =n1 +1
X2i X3i
1 1
n n n n n n

∑ X3i ∑ X3i X2i ∑X 2


3i ∑ X3i ∑ X3i X2i ∑ X 23 i
i=1 i=1 i =1 i=n1 +1 i=n1+1 i=n1+1
( X ´ X )= n n n n
n2 ∑ X 2i ∑ X3i n2 ∑ X2i ∑ X3i
i=n1+1 i=n1+ 1 i=n1 +1 i=n1+1
n n n n n n

∑ X 2i ∑ 2
X 2i ∑ X 2i X 3 i ∑ X2i ∑ X2i
2
∑ X2i X3i
i=n1+1 i=n1+1 i=n 1+1 i=n1 +1 i=n1 +1 i =n1 +1
n n n n n n

∑ X 3i ∑ X3i X2i ∑ X 23 i ∑ X3i ∑ X 2i X 3 i ∑ X 23 i 6x 6


i=n1+1 i=n1 +1 i=n1+ 1 i=n1 +1 i=n1+1 i=n1+1

[ ]
10 30 33 6 20 20
30 110 109 20 80 74
( X ´ X ) = 33 109 133 20 74 82
6 20 20 6 20 20
20 80 74 20 80 74
20 74 82 20 74 82 6x 6

Luego, nuestra matriz (X´Y) sería:


[]
n

∑Yi
i=1
n

∑ X2iY i

[]
i=1
n
29
∑ X3iY i 103
( X ´ Y )= i=1
n = 117
19
∑ Yi 76
i=n1+1
n 79 6x 1
∑ X2iY i
i=n1 +1
n

∑ X3i Y i 6x 1
i=n1 +1

c) Se estimó el siguiente modelo. Analice e interprete a los coeficientes del


modelo e indique la importancia relativa de las variables regresoras. Es válido
hacer inferencia con el modelo ¿por qué?

Matriz de covarianzas de los estimadores de los coeficientes


C 0.352518 -0.077843 -0.036804 -0.045598
I -0.077843 0.207363 -0.025079 0.008685
X2 -0.036804 -0.025079 0.031376 -0.012811
X3 -0.045598 0.008685 -0.012811 0.023885

β 1=−0.849928 : Es el valor autónomo que toman las ventas medias mensuales


independientemente de los puntajes obtenidos en las pruebas de razonamiento
verbal y de interés vocacional, y de que si tenga o no tenga instrucción
superior. Como el coeficiente es negativo, se puede decir que existen pérdidas
para la empresa (- 849.928 u.m.) al no cumplirse un mínimo de requerimientos
respecto a las variables regresoras del modelo.
β 2=0.257129 : Es el efecto diferencial de tener instrucción superior frente a no
tenerla en las ventas medias mensuales. Es decir, cuando se cuenta con
instrucción superior, las ventas medias mensuales aumentan de manera
autónoma en 257.129 u.m.
β 3=0.420735 : Es el incremento de las ventas medias mensuales (420.735 u.m.)
cuando el puntaje de la prueba de razonamiento verbal aumenta en una
unidad.
β 4 =0.707105: Es el incremento de las ventas medias mensuales (707.105 u.m.)
cuando el puntaje de la prueba de interés vocacional aumenta en una unidad.

Importancia relativa de las regresoras


Para I :
S I 0.257129∗0.455372
β ¿2= ^β 2 = =0.0704
Sy 1.663330

Un cambio es una desviación estándar en la variable (estandarizada) I


provocará un cambio de 0.0704 desviaciones estándar de la variable Y . Por lo
que podemos decir que es relativamente poco importante.

Para X 2 :
Sx 0.420735∗0.177132
β 3= ^β 3
¿ 2
= =0.0448
Sy 1.663330

Un cambio es una desviación estándar en la variable (estandarizada) X 2


provocará un cambio de 0.0448 desviaciones estándar de la variable Y . Por lo
que podemos decir que es relativamente muy poco importante.

Para X 3 :
Sx 0.707105∗0.154547
β ¿4 = ^β 4 3
= =0.0657
Sy 1.663330

Un cambio es una desviación estándar en la variable (estandarizada) X 3


provocará un cambio de 0.0657 desviaciones estándar de la variable Y . Por lo
que podemos decir que es relativamente poco importante.

¿Se puede hacer inferencia con el modelo?


Para poder probar si el modelo es válido para la inferencia o no, debemos
evaluar el supuesto de normalidad de los errores. Este supuesto es
fundamental para toda la serie de pruebas con las que contamos para la
inferencia que se pueda hacer con el modelo.
Ahora, con la información disponible, podemos hacer dos Pruebas de
normalidad: Histograma de frecuencias de los residuos y el Test de Jarque-
Bera.

Histograma de frecuencia de los residuos:


2.5
Series: Residuals
Sample 1 10
2.0 Observations 10

Mean 4.83E-16
1.5 Median -0.004350
Maximum 0.759304
Minimum -0.954326
1.0 Std. Dev. 0.547266
Skewness -0.142098
Kurtosis 2.142203
0.5
J arque-Bera 0.340243
Probability 0.843562
0.0
-1.0 -0.5 0.0 0.5 1.0

El diagrama muestra que los residuos no tienen una distribución normal


perfecta; sin embargo, podemos considerar que este método aproximado y
rápido de detección nos dice que la distribución de los errores es, al menos,
cercana a la normal.

Test de Jarque-Bera:
Lo ideal es que nuestro coeficiente de Jarque-Bera sea muy cercano a cero. En
nuestro caso, el modelo posee un JB=0.340243 que es bajo, esto nos da cierta
aproximación a la distribución normal. Ahora bien, nuestro JB tiene su valorp
correspondiente, que es la probalidadde obtener un estadístico igual o mayor a
nuestro JB, con el supuesto de normalidad, es aproximadamente 84%. En
consecuencia, no rechazamos la hipótesis nula del test que es la normalidad de
los errores.

Solucionado por: Nuñez Díaz, Irving Adolfo; Panduro Chávez, Raúl Mesias; Álvarez Tovar,
Christian Manuel; Coello Martínez, Adrián Manuel; Cámac Yaya, Manuel Jesús

También podría gustarte