Apunte - Extensiones de Regresion PDF

ECONOMETRÍA FORTINO VELA PEÓN
EL MODELO EN DESVIOS
Considere los datos proporcionados en el cuadro siguiente para estimar el modelo

de regresión lineal
Yi = β 1 + β 2 X i + ei
t Y X Y-Ybar X-Xbar
1 3 3 -1 0
2 1 1 -3 -2
3 8 5 4 2
4 3 2 -1 -1
5 5 4 1 1
media 4 3 0 0
Sabemos que los estimadores de MCO están dados por las expresiones:
∑(X i − X )(Yi − Y )
βˆ 2 = i =1
2
βˆ1 = Y − βˆ 2 X
n
∑(X
i =1
i − X)
que al aplicar a los datos mostrados rinden los siguientes resultados:
regress y x
Source | SS df MS Number of obs = 5

-------------+------------------------------ F( 1, 3) = 32.00
Model | 25.6 1 25.6 Prob > F = 0.0109
Residual | 2.4 3 .8 R-squared = 0.9143
-------------+------------------------------ Adj R-squared = 0.8857
Total | 28 4 7 Root MSE = .89443
------------------------------------------------------------------------------
y | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
x | 1.6 .2828427 5.66 0.011 .6998683 2.500132
_cons | -.8 .9380832 -0.85 0.456 -3.785399 2.185399
------------------------------------------------------------------------------
Ahora, considere el mismo modelo pero estimado en términos de sus

desviaciones respecto a la media, esto es, donde las variables están dadas por X*
y Y*, es decir,
X* = (X i − X ) Y * = (Yi − Y )
Una diferencia importante es que el estimador de β̂ 2 -bajo estas condiciones-

queda expresado como
UAM-X 1 10P
∑x y i i
β̂ 2 = i =1
n
∑x
i =1
2
i
mientras que β̂1 se puede obtener de la manera acostumbrada, esto es,

βˆ1 = Y − βˆ 2 X (aunque Stata considera a β̂1 =0 (¿por qué?), como se muestra a
continuación. Para recuperar al estimador de β̂1 en Stata se puede considerar la
expresión βˆ1 = Y − βˆ 2* X ).
regress yybar xxbar

-------------+------------------------------ F( 1, 3) = 32.00
Model | 25.6 1 25.6 Prob > F = 0.0109
Residual | 2.4 3 .8 R-squared = 0.9143
-------------+------------------------------ Adj R-squared = 0.8857
Total | 28 4 7 Root MSE = .89443
------------------------------------------------------------------------------
yybar | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
xxbar | 1.6 .2828427 5.66 0.011 .6998683 2.500132
_cons | 0 .4 0.00 1.000 -1.272979 1.272979
------------------------------------------------------------------------------
REGRESIÓN A TRAVÉS DEL ORIGEN
Se ha considerado el modelo
Yi = β 1 + β 2 X i + ei
el cuál es una recta de regresión con un intercepto. En ocasiones puede ser

necesario estimar el modelo
Yi = β 2 X i + ei
esto es, una línea que pasa a través del origen. Este modelo se llama modelo sin
intercepto.
El forzar que la línea pase a través del origen puede deberse a razones teóricas o
por otras consideraciones físicas y/o materiales del caso particular en estudio( por
ejemplo, la distancia de viaje es una función del tiempo pero no debe tener ninguna
constante).
La estimación aplicando el principio de mínimos cuadrados del modelo sin

intercepto da por resultado (se recomienda al lector elaborar este ejercicio)
UAM-X 2 10P
∑X Y i i
β̂ 2 = i =1
n
∑X
i =1
2
i
donde el valor ajustado para i-ésima observación esta dado por
Yî = βˆ 2 X i + ei i= 1, 2,…, n.
y la residual correspondiente es
eˆ1 = Yi − Yî i= 1, 2,…, n
El error estándar del coeficiente β̂ 2 es igual a
σˆ
ee( βˆ 2 ) =
n
∑X
i =1
2
i
donde
SCE
σˆ 2 =
n −1
Observe que los grados de libertad para SCE son n-1, y ya no n-2, como lo es en el
caso del modelo con intercepto.
Además los residuales señalados arriba no necesariamente suman cero como si

ocurría con el modelo con intercepto. También, la identidad SCT= SCR+SCR
tampoco se cumple en general. Por esta razón, algunas medidas de la calidad de
ajuste de los modelos con intercepto como no resultan ser apropiadas para los
modelos sin intercepto. La identidad apropiada modelos sin intercepto se obtiene
substituyendo a Y = 0 en la sumas de cuadrados. Por lo tanto, la identidad
fundamental de la SCT se convierte
n n n
VT = VE + VNE = SCT = SCR + SCE = ∑ Yi 2 =∑ Yî 2 + ∑ ei
2
i =1 i =1 i =1
lo que se a su vez redefine a R2 como
n n
∑ Yî 2 ∑e
2
i
R2 = i =1
n
= 1− i =1
n
∑Y i =1
i
2
∑Y
i =1
i
2
Ésta es la forma apropiada de R2 para los modelos sin intercepto. Note, sin
embargo, que las interpretaciones para los casos del modelo con y sin intercepto
UAM-X 3 10P
de R2 son diferentes. En el caso de modelos con intercepto, R2 se puede interpretar

como la proporción de la variación de Y que es explicada por la variable X (después
de ajustar a Y por su media). Para los modelos sin intercepto, esta interpretación
ya no es posible mantenerla dado que incluso R2 puede llegar a ser negativa.
Por otra parte, la fórmula basada en el estadístico t para la pruebas de significancia

individual sobre β 2 , esto es, cuando HO: β 2 = 0 vs la alternativa H1: β1 ≠ 0 ,
continúa sosteniéndose pero con la nueva definición de ee( β̂ 2 ) antes señalada.
Como se apunto anteriormente, los modelos sin intercepto deben ser utilizados
siempre que sean consistentes con la teoría que esta en estudio o debido a
consideraciones físicas y materiales. En algunos usos, sin embargo, uno puede no
estar seguro qué modelo debe ser utilizado. En estos casos, la decisión entre los
modelos dados (con y sin intercepto) tiene que ser tomada con cuidado1.
_______________________________________________________________________________________________
Ejemplo
_______________________________________________________________________________________________
Uno puede preguntarse si la gente de altura similar tiende a casarse. Con este fin,
una muestra de parejas recientemente casados fue seleccionada. Sea X la altura del
esposo y Y la altura de la esposa. Las alturas se encuentran dadas en centímetros y
se muestran en el cuadro siguiente.
a) Calcule la covarianza entre las alturas de los esposos y las esposas.

b) Cuál sería la covarianza si las alturas fueron medidas en pulgadas
(recuerde que 1cm=0.39 pulgadas).
c) Calcule el coeficiente de correlación entre las alturas de los esposos.
d) ¿Cuál sería si la correlación de las alturas si fueran medidas en
pulgadas en lugar de centímetros?
e) ¿Cuál sería la correlación si cada hombre se casa con a una mujer
exactamente 5 centímetros más pequeña que él?
f) Deseamos ajustar un modelo de regresión que relacione a las alturas de
los esposos y las esposas. ¿Cuál de las dos variables usted elegiría como
la variable de la respuesta? Justifique su respuesta.
g) Usando su opción de la variable de la respuesta del inciso anterior,
pruebe la hipótesis nula de que el coeficiente pendiente es cero.
h) Usando su opción sobre la variable de respuesta del inciso (f), pruebe
la hipótesis nula de que el intercepto es cero.
i) Usando su opción de la variable de la respuesta en (f), pruebe el
hipótesis nula de que el intercepto y el coeficiente pendiente son cero.
j) ¿Cuál de las hipótesis y pruebas antedichas elegiría usted para probar
que la gente de altura similar tiende a casarse? ¿Cuál es su conclusión?
1 Una exposición excelente de los modelos de regresión a través del origen es proporcionada por
Eisenhauer (2003) que también alerta a los usuarios de los modelos de regresión a través del
origen a tener cuidado cuando ajustan estos modelos usando los programas de computo, ya que
algunos de ellos dan los resultados incorrectos.
UAM-X 4 10P
k) ¿Si ninguna de las pruebas antedichas son apropiadas para probar la

hipótesis que la gente de altura similar tiende a casarse, que prueba
utilizaría usted ? Cuál es su conclusión basada en esta prueba?
Cuadro 1. Altura de los esposos
Altura Altura
id Esposo Esposa id Esposo Esposa
1 86 175 25 182 167
2 180 168 26 162 160
3 160 154 27 169 165
4 186 166 28 176 167
5 163 162 29 180 175
6 172 152 30 157 157
7 192 179 31 170 172
8 170 163 32 186 181
9 174 172 33 180 166
10 191 170 34 188 181
11 182 170 35 153 148
12 178 147 36 179 169
13 181 165 37 175 170
14 168 162 38 165 157
15 162 154 39 156 162
16 188 166 40 185 174
17 168 167 41 172 168
18 183 174 42 166 162
19 188 173 43 179 159
20 166 164 44 181 155
21 180 163 45 176 171
22 176 163 46 170 159
23 185 171 47 165 164
24 169 161 48 183 175
UAM-X 5 10P
Altura Altura
id Esposo Esposa id Esposo Esposa
49 162 156 73 179 160
50 192 180 74 170 149
51 185 167 75 170 160
52 163 157 76 165 148
53 185 167 77 165 154
54 170 157 78 169 171
55 176 168 79 171 165
56 176 167 80 192 175
57 160 145 81 176 161
58 167 156 82 168 162
59 157 153 83 169 162
60 180 162 84 184 176
61 172 156 85 171 160
62 184 174 86 161 158
63 185 160 87 185 175
64 165 152 88 184 174
65 181 175 89 179 168
66 170 169 90 184 177
67 161 149 91 175 158
68 188 176 92 173 161
69 181 165 93 164 146
70 156 143 94 181 168
71 161 158 95 187 178
72 152 141 96 181 170
192
altura esposo
86
140 150 160 170 180

altura esposa
UAM-X 6 10P
correlate, covariance
(obs=96)
| esposo esposa
-------------+------------------
esposo | 178.794
esposa | 57.7243 83.3364
gen pesposo= .39*esposo

gen pesposa= .39*esposa
74.88
pesposo
33.54
55 60 65 70
pesposa
correlate pesposo pesposa, covariance

(obs=96)
| pesposo pesposa
-------------+------------------
pesposo | 27.1945
pesposa | 8.77987 12.6755
pwcorr esposo esposa, sig
| esposo esposa
-------------+------------------
esposo | 1.0000
esposa | 0.4729 1.0000
| 0.0000
pwcorr pesposo pesposa, sig
| pesposo pesposa
-------------+------------------
pesposo | 1.0000
UAM-X 7 10P
pesposa | 0.4729 1.0000

| 0.0000
regress esposo esposa

-------------+------------------------------ F( 1, 94) = 27.08
Model | 3798.45368 1 3798.45368 Prob > F = 0.0000
Residual | 13186.9526 94 140.286729 R-squared = 0.2236
-------------+------------------------------ Adj R-squared = 0.2154
Total | 16985.4063 95 178.79375 Root MSE = 11.844
------------------------------------------------------------------------------
esposo | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
esposa | .6926666 .1331156 5.20 0.000 .4283623 .9569708
_cons | 59.75608 21.85056 2.73 0.007 16.37127 103.1409
------------------------------------------------------------------------------
regress esposo esposa, noconst

-------------+------------------------------ F( 1, 95) =19253.94
Model | 2885282.85 1 2885282.85 Prob > F = 0.0000
Residual | 14236.1458 95 149.854167 R-squared = 0.9951
-------------+------------------------------ Adj R-squared = 0.9950
Total | 2899519 96 30203.3229 Root MSE = 12.241
------------------------------------------------------------------------------
esposo | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
esposa | 1.056149 .0076114 138.76 0.000 1.041038 1.071259
------------------------------------------------------------------------------
twoway lfit esposo esposa , estopts(nocons)
UAM-X 8 10P
Regresión sobre variables estandarizadas
Otro aspecto importante de considerar es lo que se obtendría si estimamos un

modelo donde las variables se encuentren estandarizadas, esto es, libres de
unidades de medida (recuerde que una variable estandarizada se caracteriza por
contar con media igual a cero y desviación estándar a 1).
Para ver esto consideraremos nuevamente al conjunto de datos relativos a los

gastos en diversión de las familias y al tamaño de las mismas. Calcularemos
entonces las variables estandarizadas y*= gasto y x*=tamaño, mediante la siguiente
expresión general:
x−x
Z=
s
Los resultados se muestran en el siguiente cuadro.
Tamaño Gasto
2 2 * *
id y x (y-ybar) (y-ybar) (x-xbar) (x-xbar) y x
- -
1 3 1287 -1.5 2.25 -157.30 24743.29 1.1818 0.4981
-
2 6 1352 1.5 2.25 -92.30 8519.29 1.1818 0.2923
3 5 1963 0.5 0.25 518.70 269049.69 0.3939 1.6425
4 6 1677 1.5 2.25 232.70 54149.29 1.1818 0.7369
5 6 1846 1.5 2.25 401.70 161362.89 1.1818 1.2720
- -
6 3 1443 -1.5 2.25 -1.30 1.69 1.1818 0.0041
- -
7 4 962 -0.5 0.25 -482.30 232613.29 0.3939 1.5273
- -
8 4 1183 -0.5 0.25 -261.30 68277.69 0.3939 0.8274
9 5 1547 0.5 0.25 102.70 10547.29 0.3939 0.3252
- -
10 3 1183 -1.5 2.25 -261.30 68277.69 1.1818 0.8274
45 14443 14.5 897542.1 0.0000 0.0000
media 4.5 1444.3
varianza 1.6111 99726.9
desv. estándar 1.2693 315.7957
Estimemos entonces los modelos:
original y = β1 + β 2 x + e
con variables estandarizadas y * = β 1* + β 2* x * + e *
donde se puede comprobar que
 Sx 
βˆ 2* = βˆ 2  

S
 y
UAM-X 9 10P
donde
S x = desviación estándar de x (original).

S y = desviación estándar de y (original).
A los coeficientes de la ecuación de regresión con variables estandarizadas, es

decir, β1* y β 2* , se les denomina coeficientes beta.
La interpretación de los valores de los coeficientes beta es muy particular: “si el tamaño
de la familia estandarizado aumenta en una desviación estándar, en promedio, el
gasto en diversión aumenta en β 2* unidades de desviación estándar”.
Observe además que si al estimar al modelo con variables estandarizadas empleamos las
formulaciones antes establecidas para encontrar a los coeficientes estimados, a los
coeficientes betas, en particular para β1* , se tiene
βˆ1* = Y * − βˆ 2* X *
Pero dado que las medias de Y y X están estandarizadas, su valor es cero, por lo
que β1* =0, esto es. Se tiene un modelo sin intercepto. Así, tenemos para los datos
considerados los siguientes resultados.
regress gasto tamaño, noheader
------------------------------------------------------------------------------
gasto | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
tamaño | 146.5862 71.07385 2.06 0.073 -17.31039 310.4828
_cons | 784.6621 331.0852 2.37 0.045 21.17832 1548.146
------------------------------------------------------------------------------
regress ys xs, noheader
------------------------------------------------------------------------------
ys | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
xs | .5891824 .2856713 2.06 0.073 -.0695767 1.247942
_cons | -1.99e-08 .2710115 -0.00 1.000 -.6249535 .6249535
------------------------------------------------------------------------------
regress ys xs, nocons noheader
------------------------------------------------------------------------------
ys | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
xs | .5891824 .2693334 2.19 0.056 -.0200921 1.198457
------------------------------------------------------------------------------
UAM-X 10 10P
regress gasto tamaño, beta noheader
------------------------------------------------------------------------------
gasto | Coef. Std. Err. t P>|t| Beta
-------------+----------------------------------------------------------------
tamaño | 146.5862 71.07385 2.06 0.073 .5891823
_cons | 784.6621 331.0852 2.37 0.045 .
------------------------------------------------------------------------------
Comprobemos también que
 Sx 
βˆ 2* = βˆ 2   = 146.5862  1.269296  = 0.58918243
  315.7957 
 Sy 
que en Stata puede calcularse de la manera siguiente

dis 146.5862 *(1.269296/315.7957)=.58918243
El modelo de regresión con variables estandarizadas es útil si se desea comparar a

los coeficientes estimados entre modelos rivales. Dado que las variables se
encuentran libres de unidades de medición, un valor mayor de un coeficiente de
regresión indica un impacto mucho más fuerte.
edit
sum
Variable | Obs Mean Std. Dev. Min Max

-------------+--------------------------------------------------------
tamaño | 10 4.5 1.269296 3 6
gasto | 10 1444.3 315.7957 962 1963
gen ys= (gasto- 1444.3)/315.7957

gen xs= (tamaño- 4.5)/1.269296
sum
Variable | Obs Mean Std. Dev. Min Max

-------------+--------------------------------------------------------
tamaño | 10 4.5 1.269296 3 6
gasto | 10 1444.3 315.7957 962 1963
ys | 10 -1.99e-08 .9999999 -1.527253 1.642518
xs | 10 0 .9999996 -1.181757 1.181757
regress gasto tamaño, noheader

------------------------------------------------------------------------------
gasto | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
tamaño | 146.5862 71.07385 2.06 0.073 -17.31039 310.4828
_cons | 784.6621 331.0852 2.37 0.045 21.17832 1548.146
------------------------------------------------------------------------------
UAM-X 11 10P
MANEJO DE LAS VARIABLES DE SERIES DE TIEMPO EN STATA
Datos anuales
Para manejar información anual, resulta conveniente establecer un índice de tiempo.

Considere los datos del cuadro 3.8 de Gujarati y Porter (2010) relativos al producto
interno bruto nominal y real para el periodo 1959-2005.
Year NGDP RGDP Year NGDP RGDP

1959 506.6 2441.3 1983 3536.7 5423.8
1960 526.4 2501.8 1984 3933.2 5813.6
1961 544.7 2560.0 1985 4220.3 6053.7
1962 585.6 2715.2 1986 4462.8 6263.6
1963 617.7 2834.0 1987 4739.5 6475.1
1964 663.6 2998.6 1988 5103.8 6742.7
1965 719.1 3191.1 1989 5484.4 6981.4
1966 787.8 3399.1 1990 5803.1 7112.5
1967 832.6 3484.6 1991 5995.9 7100.5
1968 910.0 3652.7 1992 6337.7 7336.6
1969 984.6 3765.4 1993 6657.4 7532.7
1970 1038.5 3771.9 1994 7072.2 7835.5
1971 1127.1 3898.6 1995 7397.7 8031.7
1972 1238.3 4105.0 1996 7816.9 8328.9
1973 1382.7 4341.5 1997 8304.3 8703.5
1974 1500.0 4319.6 1998 8747.0 9066.9
1975 1638.3 4311.2 1999 9268.4 9470.3
1976 1825.3 4540.9 2000 9817.0 9817.0
1977 2030.9 4750.5 2001 10128.0 9890.7
1978 2294.7 5015.0 2002 10469.6 10048.8
1979 2563.3 5173.4 2003 10960.8 10301.0
1980 2789.5 5161.7 2004 11712.5 10703.5
1981 3128.4 5291.7 2005 12455.8 11048.6
1982 3255.0 5189.3
Dado que la primera observación corresponde al año 1959 es posible generar una
variable o índice de tiempo mediante el comando
generate t=1959+_n-1
tsset t, annual
Observe que la variable “_n” es un índice natural de las observaciones, el cual inicia en
1 y corre hasta el número de observaciones n. La instrucción generate crea una
variable llamada “t” la cual agrega valores desde 1959 hasta “_n”, para entonces
subtraer 1, de forma tal que la serie creada va desde “1959”, “1960”, “1961”, de uno
en uno, hasta “2005”, en este caso.
Por su parte, la instrucción tsset establece a la variable “t” a ser considerada como
un índice de tiempo.
UAM-X 12 10P
Datos trimestrales
Stata almacena al índice de tiempo como un entero. Así, por ejemplo, para datos
trimestrales usa la convención de que el primer trimestre de 1960 es 0. El segundo
trimestre de 1960 es 1, el primer trimestre de 1961 es 4, etc. La fechas antes de 1960
son enteros negativos, de forma tal que el cuatro trimestre de 1959 es ‐1, el tercer
trimestre es ‐2, etc.
Cuando se formatea a las fechas, Stata despliega a los periodos trimestrales como
“1957q2”, que significa el segundo trimestre de 1957 (aún cuando Stata lo almacena
como un número “‐11”, es decir, el undécimo trimestre antes de 1960 1960q1.)
Stata utiliza la formula “tq(1957q2)” para convertir a la fecha formateada “1957q2” a

un índice numérico “‐11”.
Considere la siguiente información trimestral correspondiente al PIB y la tasa de

desempleo de los Estados Unidos desde el último trimestre de 1991. Para incluir estos
datos en Stata se deben realizar los siguientes comandos:
DATE GDPC1 UNRATE DATE GDPC1 UNRATE

1991-10-01 6720.9 7.10 1997-07-01 8216.6 4.87
1992-01-01 6783.3 7.37 1997-10-01 8272.9 4.67
1992-04-01 6846.8 7.60 1998-01-01 8396.3 4.63
1992-07-01 6899.7 7.63 1998-04-01 8442.9 4.40
1992-10-01 6990.6 7.37 1998-07-01 8528.5 4.53
1993-01-01 6988.7 7.13 1998-10-01 8667.9 4.43
1993-04-01 7031.2 7.07 1999-01-01 8733.2 4.30
1993-07-01 7062.0 6.80 1999-04-01 8775.5 4.27
1993-10-01 7168.7 6.63 1999-07-01 8886.9 4.23
1994-01-01 7229.4 6.57 1999-10-01 9040.1 4.07
1994-04-01 7330.2 6.20 2000-01-01 9097.4 4.03
1994-07-01 7370.2 6.00 2000-04-01 9205.7 3.97
1994-10-01 7461.1 5.63 2000-07-01 9218.7 4.07
1995-01-01 7488.7 5.47 2000-10-01 9243.8 3.93
1995-04-01 7503.3 5.67 2001-01-01 9229.9 4.17
1995-07-01 7561.4 5.67 2001-04-01 9193.1 4.47
1995-10-01 7621.9 5.57 2001-07-01 9186.4 4.83
1996-01-01 7676.4 5.53 2001-10-01 9248.8 5.60
1996-04-01 7802.9 5.50 2002-01-01 9363.2 5.63
1996-07-01 7841.9 5.27 2002-04-01 9392.4 5.83
1996-10-01 7931.3 5.33 2002-07-01 9485.6 5.77
1997-01-01 8016.4 5.23 2002-10-01 9518.2 5.90
1997-04-01 8131.9 5.00
Fuente: Tomado de http://economics.about.com/cs/datasources/a/quarterlydata.htm
generate t=tq(1991q4)+_n-1
format t %tq
tsset t
UAM-X 13 10P
El comando generate crea a la variable “t” como un número entero. El comando

format como lo dice su nombre formatea a la variable “t” usando el formato de serie
de tiempo trimestral. La “tq” se refiere a una “serie de tiempo‐trimestral”. El
comando tsset declara a la variable “t” como el índice de tiempo.
twoway tsline unrate

8
7
UNRATE
6
5
4
1992q1 1994q3 1997q1 1999q3 2002q1

t
Datos mensuales
El manejo de datos mensuales es similar pero reemplazando una “m” por la “q” del
trimestral. Stata almacena el índice del tiempo con la convención 1960m1 es 0. Para
generar un índice mensual iniciando el segundo mes de 1962 se deben utilizar los
siguientes comandos:
generate t=tm(1962m2)+_n-1
format t %tm
tsset t
Datos semanales
Con datos semanales es similar usando “w” en lugar de “q” y “m”, donde la base del
periodo es, por ejemplo, 1960w1. De esta manera, para una serie que inicia en la 7ª.
semana de 1973 se utilizan los comandos:
generate t=tw(1973w7)+_n-1
format t %tw
tsset t
UAM-X 14 10P
Datos diarios
Los datos diarios son almacenados por fechas. Por ejemplo, “01jan1960” es Jan 1,
1960, el cual es el periodo base. Para generar un índice de tiempo diario iniciando en
April 18, 1962, se utilizan los comandos
generate t=td(18apr1962)+_n-1
format t %td
tsset t
Operadores de Series de Tiempo
Sea una serie de tiempo denominada y, entonces
L. rezago y(t‐1) Ejemplo: L.y
L2. 2 dos periodos de rezago y(t‐2) Ejemplo: L2.y
F. adelanto y(t+1) Ejemplo: F.y
F. 2 dos periodos de adelanto y(t+2) Ejemplo: F2.y
D. diferencia y(t)‐y(t‐1) Ejemplo: D.y
D2. doble diferencia (y(t)‐y(t‐1))‐ (y(t‐1)‐y(t‐2))

Ejemplo: D2.y
S. diferencia estacional y(t)‐y(t‐s), donde s es la frecuencia estacional

(e.g., s=4 para trimestres) Ejemplo: S.y
S2. 2 diferencia de periodo estacional y(t)‐y(t‐2s)

Ejemplo: S2.y
UAM-X 15 10P
ALGEBRA MATRICIAL CON STATA
a) Construcción de matrices en STATA
Existen dos formas de crear matrices con STATA. La primera es utilizando el

comando matrix (el cual es la abreviación de "matrix define"); aquí la matriz
se elabora elemento por elemento. La segunda, de manera alternativa, es mediante
el comando mkmat el cual es usado para crear un matriz a partir de las variables
existentes en una base de datos concatenando (juntando) los valores de las
columnas. Veamos cada uno de estos comandos.
a.1) Comando matrix
Bajo este comando la sintaxis básica es la siguiente
matrix nombre = (elementos)
Esto indica que después de emplear al comando y otorgarle un nombre a la matriz,

los datos que forman a la matriz deben estar encerrados dentro de paréntesis
observando que los elementos de una misma fila o renglón deben estar separados
por comas mientras que la separación entre filas o renglones mediante una slash
inverso (\) (el número de columnas implica necesariamente el número de
elemntos por cada renglón)). Así, por ejemplo, si la matriz es denominada como A,
siendo una matriz de dimensión 2x4, se tiene entonces que escribir
(2,4,3,7\1,5,3,1), esto es,
matrix A= (2,4,3,7\1,5,3,1)
por lo que la matriz deberá parecerse a algo como lo siguiente:
2 4 3 7 
A= 
1 5 3 1 
Observe que Stata no despliega a la matriz dentro de la ventana de resultados sino

que la almacena en memoria. Si se desea ver a la matriz y a sus elementos es
necesario escribir
matrix list A
con lo que Stata despliega la dimensión y los elementos de la matriz A, esto es:
A[2,4]
c1 c2 c3 c4
r1 2 4 3 7
r2 1 5 3 1
Los vectores columna y renglón son creados con el mismo comando. De esta
forma, el comando "matrix A=(2,1,4,3)" elabora una vector renglón de
UAM-X 16 10P
dimensión 1x4 mientras que el comando "matrix A=(2\1\4\3)" crea un vector

columna de orden 4x1.
a.2) Comando mkmat
La sintaxis utilizada bajo este comando es la siguiente
mkmat varnames, matrix(matrix name)
Aquí las matrices son creadas a partir de una base de datos existente. De esta
manera, se puede desear construir una matriz a partir de un archivo que contenga
3 variables (por ejemplo, las variables V1, V2 y V3) dentro de una matriz
denominada A con lo que se escribe
mkmat V1, V2, V3, matrix (A)
De esta manera, el comando concatenara (juntará) a las variables señaladas (V1,

V2 y V3) dentro de la matriz A compuesta de N renglones (donde N es el número
de casos en el archivo de datos para cada una de estas variables, observando que
deberá ser el mismo) y 3 columnas (1 para cada variable).
b) Manipulación de matrices
matrix C = A,B une las matrices A y B (deben ser conformable).
matrix C = A\ une a las matrices A y B de manera transpuesta

(renglones por columna).
matrix A = J (#1, #2, #3) Crea una matriz rectangular #1 por #2 cuyos
valores en todos sus elementos es igual a valor
fijado en #3.
matrix I = I (#1) Crea una matriz identidad cuadrada con

columnas y renglones igual a #1.
Matrix A = DIAG (V) Crea una matriz cuadrada con valores del vector
V como diagonal principal y cero en los otros
elementos.
matrix NR = ROWSOF (A) Encuentra el # de renglones en A.
matrix NC = COLSOF (A) Encuentrael # de columnas en A.
UAM-X 17 10P
c) Operaciones básicas de matrices
matrix C = A + B
matrix C = A - B
matrix C = A * B
matrix AT = A'
matrix INVA = INV (A)
matrix DETA = DET (A)
matrix DIAGA = VECDIAG (A)
d) Ejemplos y extensiones
Multiplicación por un escalar
mat B = 3*A
mat lis B
B[3,2]
c1 c2
r1 6 3
r2 9 6
r3 -6 6
Suma y resta de matrices
mat B = (1,1\4,2\-2,1)
mat C = A + B
mat lis C
C[3,2]
c1 c2
r1 3 2
r2 7 4
r3 -4 3
mat D = A - B
mat lis D
D[3,2]
c1 c2
r1 1 0
r2 -1 0
r3 0 1
Multiplicación de matrices
mat D = (2,1,3\-2,2,1)
mat C = D*A
mat lis C
C[2,2]
c1 c2
UAM-X 18 10P
r1 1 10
r2 0 4
mat C = A*D
mat lis C
C[3,3]
c1 c2 c3
r1 2 4 7
r2 2 7 11
r3 -8 2 -4
mat D = (2,1,3)
mat C = D*A
mat lis C
C[1,2]
c1 c2
r1 1 10
mat C = A*D
conformability error
r(503);
Transposición de matrices
mat AT = A'
mat lis AT
AT[2,3]
r1 r2 r3
c1 2 3 -2
c2 1 2 2
mat ATT = AT'

mat lis ATT
ATT[3,2]
c1 c2
r1 2 1
r2 3 2
r3 -2 2
Vectores de uso común
Vector unitario
mat U = J(3,1,1)
mat lis U
U[3,1]
c1
r1 1
r2 1
r3 1
UAM-X 19 10P
Matrices de uso común
Matriz unitaria
mat U = J(3,2,1)
mat lis U
U[3,2]
c1 c2
r1 1 1
r2 1 1
r3 1 1
Matriz diagaonal
mat S = (2,1,4\3,2,2\-2,2,3)
mat lis S
S[3,3]
c1 c2 c3
r1 2 1 4
r2 3 2 2
r3 -2 2 3
mat D = diag(vecdiag(S))
mat lis D
symmetric D[3,3]
c1 c2 c3
c1 2
c2 0 2
c3 0 0 3
mat V = (3,1,2)
mat D = diag(V)
mat lis D
symmetric D[3,3]
c1 c2 c3
c1 3
c2 0 1
c3 0 0 2
Matriz identidad
mat I = I(3)
mat lis I
symmetric I[3,3]
c1 c2 c3
r1 1
r2 0 1
r3 0 0 1
Matriz simetrica
mat C = (2,1,5\1,3,4\5,4,-2)
UAM-X 20 10P
mat lis C
symmetric C[3,3]
c1 c2 c3
r1 2
r2 1 3
r3 5 4 -2
mat CT = C'
mat lis CT
symmetric CT[3,3]
r1 r2 r3
c1 2
c2 1 3
c3 5 4 -2
Matriz inversa
matrix A = (4,2,2 \ 4,6,8 \ -2,2,4)

matrix list A
A[3,3]
c1 c2 c3
r1 4 2 2
r2 4 6 8
r3 -2 2 4
matrix A1 = inv(A)
matrix list A1
A1[3,3]
r1 r2 r3
c1 1 -.5 .5
c2 -4 2.5 -3
c3 2.5 -1.5 2
Matriz inversa y determinante
mat C = (2,1,6\1,3,4\6,4,-2)
mat CI = syminv(C)
mat lis CI
symmetric CI[3,3]
r1 r2 r3
c1 .6
c2 -.2 .4
c3 0 0 0
scalar d = det(C)
display d
-102
Despliegue del número de columnas y renglones
mat X = (3,2\2,-2\4,6\3,1)
mat lis X
X[4,2]
UAM-X 21 10P
c1 c2
r1 3 2
r2 2 -2
r3 4 6
r4 3 1
scalar r = rowsof(X)
scalar c = colsof(X)
display r, " ", c
4 2
Calculo de las sumas por renglon o columna
mat A = (2,1\3,2\-2,2)
mat lis A
A[3,2]
c1 c2
r1 2 1
r2 3 2
r3 -2 2
mat U = J(rowsof(A),1,1)
mat list U
U[3,1]
c1
r1 1
r2 1
r3 1
mat c = U'*A
mat list c
c1 c2
c1 3 5
Cálculo de las medias por renglón o columna
mat cm = c/rowsof(A)
mat lis cm
cm[1,2]
c1 c2
r1 1 1.6666667
UAM-X 22 10P

Apunte - Extensiones de Regresion PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Apunte - Extensiones de Regresion PDF

Cargado por

Copyright:

Formatos disponibles

ECONOMETRÍA FORTINO VELA PEÓN

Considere los datos proporcionados en el cuadro siguiente para estimar el modelo

que al aplicar a los datos mostrados rinden los siguientes resultados:

Source | SS df MS Number of obs = 5

Ahora, considere el mismo modelo pero estimado en términos de sus

Una diferencia importante es que el estimador de β̂ 2 -bajo estas condiciones-

mientras que β̂1 se puede obtener de la manera acostumbrada, esto es,

regress yybar xxbar

Source | SS df MS Number of obs = 5

REGRESIÓN A TRAVÉS DEL ORIGEN

el cuál es una recta de regresión con un intercepto. En ocasiones puede ser

La estimación aplicando el principio de mínimos cuadrados del modelo sin

donde el valor ajustado para i-ésima observación esta dado por

eˆ1 = Yi − Yˆi i= 1, 2,…, n

El error estándar del coeficiente β̂ 2 es igual a

Además los residuales señalados arriba no necesariamente suman cero como si

de R2 son diferentes. En el caso de modelos con intercepto, R2 se puede interpretar

Por otra parte, la fórmula basada en el estadístico t para la pruebas de significancia

a) Calcule la covarianza entre las alturas de los esposos y las esposas.

k) ¿Si ninguna de las pruebas antedichas son apropiadas para probar la

Cuadro 1. Altura de los esposos

140 150 160 170 180

gen pesposo= .39*esposo

correlate pesposo pesposa, covariance

pwcorr esposo esposa, sig

pwcorr pesposo pesposa, sig

pesposa | 0.4729 1.0000

regress esposo esposa

Source | SS df MS Number of obs = 96

regress esposo esposa, noconst

Source | SS df MS Number of obs = 96

twoway lfit esposo esposa , estopts(nocons)

Regresión sobre variables estandarizadas

Otro aspecto importante de considerar es lo que se obtendría si estimamos un

Para ver esto consideraremos nuevamente al conjunto de datos relativos a los

Los resultados se muestran en el siguiente cuadro.

Estimemos entonces los modelos:

donde se puede comprobar que

S x = desviación estándar de x (original).

A los coeficientes de la ecuación de regresión con variables estandarizadas, es

regress gasto tamaño, noheader

regress ys xs, noheader

regress ys xs, nocons noheader

regress gasto tamaño, beta noheader

Comprobemos también que

que en Stata puede calcularse de la manera siguiente

El modelo de regresión con variables estandarizadas es útil si se desea comparar a

Variable | Obs Mean Std. Dev. Min Max

gen ys= (gasto- 1444.3)/315.7957

Variable | Obs Mean Std. Dev. Min Max

regress gasto tamaño, noheader

MANEJO DE LAS VARIABLES DE SERIES DE TIEMPO EN STATA

Para manejar información anual, resulta conveniente establecer un índice de tiempo.

Year NGDP RGDP Year NGDP RGDP

Stata utiliza la formula “tq(1957q2)” para convertir a la fecha formateada “1957q2” a

Considere la siguiente información trimestral correspondiente al PIB y la tasa de

DATE GDPC1 UNRATE DATE GDPC1 UNRATE

Fuente: Tomado de http://economics.about.com/cs/datasources/a/quarterlydata.htm

El comando generate crea a la variable “t” como un número entero. El comando

twoway tsline unrate

1992q1 1994q3 1997q1 1999q3 2002q1

Operadores de Series de Tiempo

Sea una serie de tiempo denominada y, entonces