Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Una parte importante del análisis econométrico es la obtención de una versión muestral
de la regresión a partir de los datos disponibles para el investigador. Como se vio, la
recta de regresión queda completamente caracterizada mediante sus parámetros, por lo
que la primera tarea consiste en la estimación de estos parámetros utilizando inferencia
estadística. En esta parte la econometría se apoya en los métodos de estimación
provenientes de la estadística, como por ejemplo el método de mínimos cuadrados, el de
máxima verosimilitud o el método de los momentos.
En (2.1), 𝑌̂𝑖 es un estimador de 𝐸[𝑌𝑖 |𝑋𝑖 ], 𝛽̂1 es un estimador del parámetro poblacional
𝛽1 y 𝛽̂2 es un estimador del parámetro poblacional 𝛽2. Nótese que se está definiendo
30
una función lineal en los estimadores. En ocasiones llamamos a la ecuación (2.1)
simplemente como recta estimada.
Figura 2.1
Rectas de regresión poblacional y muestral
31
En comparación con los términos de perturbación, no hay nada que diga que los
residuos 𝑒𝑖 sean más grandes o más pequeños que las perturbaciones 𝑢𝑖 . Inclusive para
un mismo individuo 𝑒𝑖 y 𝑢𝑖 podrían tener signos distintos.
Llamaremos a la ecuación (2.2) el modelo estimado, el cual viene a ser una versión
estimada de la ecuación (1.1) del capítulo anterior.
Antes de proseguir vale la pena aclarar algunos términos para evitar confusiones.
Fundamentalmente tenemos dos grupos de ecuaciones: las poblacionales y las
muestrales. Llamamos modelo econométrico a la expresión 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 , de la
cual la regresión o función de regresión poblacional es 𝐸[𝑌𝑖 |𝑋𝑖 ] = 𝛽1 + 𝛽2 𝑋𝑖 . Existen
también sus contrapartidas muestrales, vamos a llamar el modelo estimado a 𝑌𝑖 = 𝛽̂1 +
𝛽̂2 𝑋𝑖 + 𝑒𝑖 , de la cual la recta estimada o función de regresión muestral es 𝑌̂𝑖 = 𝛽̂1 +
𝛽̂2 𝑋𝑖 .
Existen métodos para calcular la FRM, siendo el más popular el de Mínimos Cuadrados
Ordinarios (𝑀𝐶𝑂). Intuitivamente, este método busca trazar una recta estimada que
pase entre los puntos de las observaciones de tal manera que las distancias de cada
punto respecto a la recta estimada (es decir, los residuos) sean las más pequeñas
posibles. Para evaluar que estas distancias sean pequeñas, una forma podría ser
minimizar la suma de todos los residuos. No obstante, debido a que algunos residuos
son positivos y otros negativos, no tendría mucho sentido hacer una suma simple de
ellos. Por el contrario, elevando los residuos al cuadrado y sumándolos tendríamos una
mejor manera de evaluar la recta de regresión estimada propuesta en comparación con
otras rectas alternativas. La recta que mejor se ajuste a los datos será aquella que
presente la menor suma de cuadrados de los residuos.
32
No es necesario probar diferentes rectas estimadas, pues matemáticamente es posible
encontrar la mejor recta utilizando cálculo. Para ello se define a la sumatoria de
cuadrados de los residuos (SCR) como:
El método de mínimos cuadrados ordinarios consiste en escoger los valores de β̂1 y β̂2 ,
tal que se minimice la SCR. Derivando la ecuación (2.3) respecto a los parámetros se
obtienen las condiciones necesarias de 1er orden de esta minimización:
𝜕𝑆𝐶𝑅
̂1 = −2 ∑𝑛𝑖=1(𝑌𝑖 − 𝛽̂1 − 𝛽̂2 𝑋𝑖 ) = 0 (2.4)
𝜕𝛽
𝜕𝑆𝐶𝑅
̂2 = −2 ∑𝑛𝑖=1(𝑌𝑖 − 𝛽̂1 − 𝛽̂2 𝑋𝑖 ) . 𝑋𝑖 = 0 (2.5)
𝜕𝛽
Estas dos ecuaciones son conocidas como las “ecuaciones normales” de la estimación
𝑀𝐶𝑂, y de las cuales se desprenden algunas propiedades que se verán más adelante. En
sí son dos ecuaciones con dos incógnitas (𝛽̂1 y 𝛽̂2) que debemos resolver. Omitiendo los
subíndices de las sumatorias, de la ecuación (2.4) se cumple que
La ecuación (2.4b) nos dice que la recta estimada pasa necesariamente por la
combinación de valores (𝑋̅, 𝑌̅) pues esos puntos satisfacen la ecuación. Podemos
despejar el valor de 𝛽̂1 y obtener
𝛽̂1 = 𝑌̅ − 𝛽̂2 𝑋̅ (2.4𝑐)
∑ 𝑋𝑖 𝑌𝑖 = 𝛽̂1 ∑ 𝑋𝑖 + 𝛽̂2 ∑ 𝑋𝑖 2
33
Reemplazando (2.4c) en la última expresión,
∑ 𝑋𝑖 𝑌𝑖 − 𝑌̅ ∑ 𝑋𝑖 = 𝛽̂2 (∑ 𝑋𝑖 2 − 𝑋̅ ∑ 𝑋𝑖 )
∑ 𝑋𝑖 𝑌𝑖 − 𝑌̅ ∑ 𝑋𝑖
𝛽̂2 =
∑ 𝑋𝑖 2 − 𝑋̅ ∑ 𝑋𝑖
Una vez calculado, se puede obtener el valor estimado de β̂1 de la ecuación (2.4c).
Los estimadores de los parámetros por 𝑀𝐶𝑂, expresados en las ecuaciones (2.4c) y
(2.6) generan algunas propiedades numéricas muy importantes para la estimación. Estas
propiedades son:
Tal propiedad resalta el hecho que, para obtener los valores estimados, lo único
que se necesita es reemplazar los valores de las variables de la muestra en las
fórmulas (2.4c) y (2.6). No es necesario hacer ningún supuesto adicional ni
calcular otros parámetros para obtener estas estimaciones. Un detalle adicional es
que, al depender íntegramente de las muestras aleatorias, estos estimadores son en
sí mismos variables aleatorias.
b) ∑ 𝑒𝑖 = 0
34
El hecho que la suma de los residuos sea exactamente igual a cero es un resultado
que se deduce directamente de las ecuaciones normales. La ecuación (2.4) dice
explícitamente que esta suma es igual a cero recordando que el residuo se define
como 𝑒𝑖 = 𝑌𝑖 − 𝛽̂1 − 𝛽̂2 𝑋𝑖 . De esta característica se desprende directamente que el
promedio de los residuos es igual a cero, 𝑒̅ = 0.1 Es importante no confundir esta
propiedad numérica de la estimación 𝑀𝐶𝑂 con el supuesto 2 sobre la nulidad del
valor esperado del término de perturbación, 𝐸[𝑢𝑖 ] = 0. Esto último es un
supuesto, mientras que la propiedad que estamos explicando es un producto del
proceso de minimización.
c) ∑ 𝑒𝑖 𝑋𝑖 = 0
d) ∑ 𝑒𝑖 𝑌̂𝑖 = 0
e) La recta de regresión estimada pasa por el punto de los promedios (𝑋̅, 𝑌̅).
f) 𝑌̅̂ = 𝑌̅
Este resultado quiere decir que promediando los valores de 𝑌̂𝑖 se obtiene ̅𝑌.2
Para las variables 𝑋 e 𝑌, definimos las desviaciones (en minúscula y cursiva) respecto a
sus promedios como:
1
El lector puede notar que si el modelo econométrico no incluyera al intercepto, es decir si en el modelo
𝛽1 = 0, entonces en el proceso de estimación no habría minimizar la SCR respecto a 𝛽̂1 . Luego, no
existiría la ecuación (2.4) y por lo tanto ya no se cumpliría esta característica.
2
Se deja al lector esta demostración.
35
𝑦𝑖 = 𝑌𝑖 − 𝑌̅
𝑥𝑖 = 𝑋𝑖 − 𝑋̅
1. ∑ 𝑥i = 0, ∑ 𝑦i = 0
2. ∑ 𝑥i Xi = ∑ 𝑥i2 , ∑ 𝑦i Yi = ∑ 𝑦i2
3. ∑ 𝑥i 𝑦i = ∑ 𝑥i Yi = ∑ Xi 𝑦i
En términos gráficos, trabajar con las variables en desviaciones respecto a las medias
equivale a desplazar las observaciones hacia el origen, haciendo que el punto de los
promedios de las variables sea el (0, 0). Esto puede observarse en la figura 2.2, en donde
3
Se dejan estas demostraciones como ejercicio.
36
los puntos negros corresponden a los datos en sus niveles originales y los puntos grises
son los datos en desviaciones respecto a las medias. Puesto que se trata de un simple
desplazamiento, la pendiente de una regresión que pase por esos puntos será la misma,
es decir tal pendiente 𝛽̂2 no se ve alterada por el desplazamiento. En cambio en el
modelo en desviaciones la estimación de 𝛽̂1 es igual a cero pues se fuerza a que la recta
pase por el origen.
Figura 2.2
Estimación del modelo en niveles y en desviaciones respecto a las medias
𝑛 𝑛
𝜕SCR
= −2(𝑦i − β̂2 𝑥i )𝑥i = 0 (2.8)
𝜕β̂2
∑(𝑥i 𝑦i − 𝛽̂2 𝑥i 2 ) = 0
37
∑ 𝑥i 𝑦i = 𝛽̂2 ∑ 𝑥i 2
∑ 𝑥i 𝑦i
𝛽̂2 = (2.9)
∑ 𝑥i 2
Este resultado de la ecuación (2.9) es exactamente el mismo que la ecuación (2.6), por
lo que ambas expresiones se pueden usar en forma alternativa.
Ejemplo 2.1: Supongamos que contamos con datos de 12 personas sobre sus años de
educación (𝑋) y sus salarios (𝑌), y queremos estimar el modelo de regresión lineal (1.1)
por mínimos cuadrados ordinarios utilizando estos datos. Vamos a computar en primer
lugar las variables en desviaciones respecto a sus promedios, para luego hacer el cálculo
de los valores estimados. En la tabla 2.1 las columnas 𝑋 e 𝑌 muestran los datos
hipotéticos con los que vamos a hacer el ejercicio. En la parte inferior de las columnas
𝑋 e 𝑌 se han calculado las sumas y los promedios de estas columnas.
Tabla 2.1
Cálculo de las variables del modelo en desviaciones
Obs. X Y x y x2 xy
1 4 225 -4.08 -307.17 16.67 1254.26
2 6 155 -2.08 -377.17 4.34 785.76
3 3 700 -5.08 167.83 25.84 -853.15
4 10 600 1.92 67.83 3.67 130.01
5 8 675 -0.08 142.83 0.01 -11.90
6 8 350 -0.08 -182.17 0.01 15.18
7 7 456 -1.08 -76.17 1.17 82.51
8 11 485 2.92 -47.17 8.51 -137.57
9 13 650 4.92 117.83 24.17 579.35
10 11 820 2.92 287.83 8.51 839.51
11 14 1150 5.92 617.83 35.01 3655.51
12 2 120 -6.08 -412.17 37.01 2507.35
38
Para hacer el cálculo del estimador de la pendiente, 𝛽̂2, nos apoyamos en la ecuación
(2.9) (que es lo mismo que (2.6)), y obtenemos
8846.83
𝛽̂2 = = 53.6443
164.92
El estimador del intercepto, 𝛽̂1, se obtiene de la ecuación (2.4c), que sería en este caso
El lector no debería tener problemas en realizar por su cuenta estos cálculos. Asimismo,
el parámetro β̂2 se puede obtener de expresiones equivalentes a (2.6). Estas son:
∑ 𝑋𝑖 𝑌𝑖 − 𝑌̅ ∑ 𝑋𝑖 60467 − 6386 × 97
𝛽̂2 = = = 53.6443
∑ 𝑋𝑖 2 − 𝑋̅ ∑ 𝑋𝑖 949 − 8.0833 × 97
Tabla 2.2
̂ y de los residuos
Calculo de Y
Obs. X Y 𝑌̂ e e2
1 4 225 313.12 -88.12 7765.00
2 6 155 420.41 -265.41 70441.29
3 3 700 259.47 440.53 194062.29
39
4 10 600 634.98 -34.98 1223.94
5 8 675 527.70 147.30 21698.38
6 8 350 527.70 -177.70 31575.98
7 7 456 474.05 -18.05 325.88
8 11 485 688.63 -203.63 41464.81
9 13 650 795.92 -145.92 21291.96
10 11 820 688.63 131.37 17258.31
11 14 1150 849.56 300.44 90263.05
12 2 120 205.83 -85.83 7366.91
Como bien sabemos los estimadores obtenidos 𝛽̂1 y 𝛽̂2 son variables aleatorias pues sus
resultados varían según las muestras aleatorias tomadas. En esta sección vamos a ver
cuáles serán sus valores esperados y varianzas, y discutiremos sus propiedades.
∑ 𝑥𝑖 𝑦𝑖 ∑ 𝑥𝑖 (𝑌𝑖 − 𝑌̅) ∑ 𝑥𝑖 𝑌𝑖 − 𝑌̅ ∑ 𝑥𝑖 ∑ 𝑥𝑖 𝑌𝑖
β̂2 = = = =
∑ 𝑥𝑖 2 ∑ 𝑥𝑖 2 ∑ 𝑥𝑖 2 ∑ 𝑥𝑖 2
∑ 𝑥𝑖 (𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 ) 𝛽1 ∑ 𝑥𝑖 𝛽2 ∑ 𝑥𝑖 𝑋𝑖 ∑ 𝑥𝑖 𝑢𝑖
𝛽̂2 = = + +
∑ 𝑥𝑖 2 ∑ 𝑥𝑖 2 ∑ 𝑥𝑖 2 ∑ 𝑥𝑖 2
∑ 𝑥𝑖 𝑢𝑖
𝛽̂2 = 𝛽2 + (2.10)
∑ 𝑥𝑖 2
Tomando valor esperado a la expresión en (2.10) obtenemos
∑ 𝑥𝑖 𝑢𝑖 ∑ 𝑥𝑖 𝑢𝑖
𝐸[𝛽̂2 ] = 𝐸 [𝛽2 + ] = 𝛽2 + 𝐸 [ ]
∑ 𝑥𝑖 2 ∑ 𝑥𝑖 2
Bajo el supuesto 4,
40
1
𝐸[𝛽̂2 ] = 𝛽2 + ∑ 𝑥 2 ∑ 𝑥𝑖 𝐸[𝑢𝑖 ]
𝑖
Dado el supuesto 2, el valor esperado del término de perturbación es cero, con ello
resulta que 𝛽̂2 es un estimador insesgado.
𝐸[𝛽̂2 ] = 𝛽2
Esto quiere decir que aunque 𝛽̂2 pueda tomar valores en forma aleatoria, en promedio
esperaremos que este estimador de 𝑀𝐶𝑂 entregue un valor que sea igual al poblacional,
siempre y cuando se cumplan los supuestos aludidos del modelo econométrico. No debe
pensarse que la propiedad de insesgadez asegura que 𝛽̂2 = 𝛽2, pues debido a las
variabilidades muestrales eso ocurrirá solo por cuestión de suerte. Lo que si ocurrirá es
que si se tomaran infinitas muestras y si se calculara en cada una de ellas el valor de 𝛽̂2,
el promedio de todos esos valores calculados sí coincidirá con el verdadero valor
poblacional.
41
Figura 2.3
Cuatro muestras aleatorias y las estimaciones 𝑴𝑪𝑶
Calculemos ahora el valor esperado del estimador del intercepto, 𝛽̂1. Partiendo del
modelo econométrico 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 , lo podemos promediar aplicándole
sumatoria y dividiéndolo entre el número de observaciones de la muestra obteniendo
𝑌̅ = 𝛽1 + 𝛽2 𝑋̅ + 𝑢̅. Reemplazando esta expresión en la ecuación (2.4c) se obtiene
𝛽̂1 = 𝛽1 + 𝛽2 𝑋̅ + 𝑢̅ − 𝛽̂2 𝑋̅
∑𝑢 ∑ 𝐸[𝑢 ]
Dado que 𝐸[𝛽̂2 ] = 𝛽2 , queda 𝐸[𝛽̂1 ] = 𝛽1 + 𝐸[𝑢̅] = 𝛽1 pues 𝐸[𝑢̅] = 𝐸 [ 𝑛 𝑖 ] = 𝑛 𝑖 =
42
2
𝑉𝑎𝑟(𝛽̂2 ) = 𝐸 [𝛽̂2 − 𝐸[𝛽̂2 ]]
2
∑ 𝑥𝑖 𝑢𝑖 1 2
𝑉𝑎𝑟(𝛽̂2 ) = 𝐸 [ ] = 𝐸 [(∑ 𝑥𝑖 𝑖 ]
𝑢 )
∑ 𝑥𝑖 2 (∑ 𝑥𝑖 2 )2
1
= 𝐸 [∑ 𝑥𝑖 2 𝑢𝑖 2 + 2 ∑ ∑ 𝑥𝑖 𝑥𝑗 𝑢𝑖 𝑢𝑗 ]
(∑ 𝑥𝑖 2 )2
𝑖<𝑗
1
= [∑ 𝑥𝑖 2 𝐸[𝑢𝑖 2 ] + 2 ∑ ∑ 𝑥𝑖 𝑥𝑗 𝐸[𝑢𝑖 𝑢𝑗 ]]
(∑ 𝑥𝑖 2 )2
𝑖<𝑗
1 𝜎2
𝑉𝑎𝑟(𝛽̂2 ) = [∑ 𝑥𝑖
2 2
𝜎 ] = ∑ 𝑥𝑖 2
(∑ 𝑥𝑖 2 )2 (∑ 𝑥𝑖 2 )2
𝜎2
𝑉𝑎𝑟(𝛽̂2 ) = (2.12)
∑ 𝑥𝑖 2
Obsérvese en (2.12) que la variabilidad de 𝛽̂2 es directamente proporcional a la varianza
del término de perturbación e inversamente proporcional a la variabilidad de 𝑋 respecto
a su media. Es decir, la estimación de 𝛽̂2 será más imprecisa mientras más grande sea la
varianza 𝜎 2 , que es a su vez la varianza de la variable endógena 𝑌. Por otro lado, si la
variable 𝑋 muestra una gran amplitud de valores, esto brindará más información para
poder calcular el efecto de 𝑋 sobre 𝑌. Si 𝑋 presenta una mínima variabilidad alrededor
de su promedio, la varianza de la estimación aumentará4.
4
Se sugiere al lector trazar diagramas de dispersión considerando variaciones en 𝑋 e 𝑌 grandes y
pequeñas, con el fin de observar estas propiedades.
43
2
= 𝐸 [𝑋̅ 2 (𝛽̂2 − 𝛽2 ) + 𝑢̅2 − 2𝑋̅(𝛽̂2 − 𝛽2 )𝑢̅]
= 𝑋̅ 2 𝑉𝑎𝑟(𝛽̂2 ) + 𝐸[𝑢̅2 ] − 2𝑋̅𝐸(𝛽̂2 − 𝛽2 )𝑢̅
𝜎2 𝜎2 ∑ 𝑥𝑖 𝑢𝑖 ∑ 𝑢𝑖
= 𝑋̅ 2 + − 2𝑋̅𝐸 [ . ]
∑ 𝑥𝑖 2 𝑛 ∑ 𝑥𝑖 2 𝑛
∑𝑥 𝑢 ∑ 𝑢𝑖 1
𝐸 [ ∑ 𝑥𝑖 2𝑖 . ] = 𝑛 ∑ 𝑥 2 𝐸[∑ 𝑥𝑖 𝑢𝑖 ∑ 𝑢𝑖 ]
𝑖 𝑛 𝑖
1
= 𝑛 ∑ 𝑥 2 𝐸[∑ 𝑥𝑖 𝑢𝑖 2 ∑ ∑ 𝑢𝑖 𝑢𝑗 (𝑥𝑖 + 𝑥𝑗 )]
𝑖
1
= 𝑛 ∑ 𝑥 2 [𝜎 2 ∑ 𝑥𝑖 + ∑ ∑ 𝐶𝑜𝑣(𝑢𝑖 𝑢𝑗 )(𝑥𝑖 + 𝑥𝑗 )] = 0
𝑖
2.6 Estimación de 𝝈𝟐
44
𝑒𝑖 = 𝑦𝑖 − 𝛽̂2 𝑥𝑖 (2.15)
Multiplicamos y dividimos el segundo término del lado derecho por 𝑛 − 1 (para darle la
forma de la varianza muestral de 𝑢𝑖 , esto es ∑(ui − u̅)2 /(n − 1), aplicando las
propiedades de las desviaciones en el tercer término del lado derecho, y utilizando la
ecuación (2.10) obtenemos
∑(𝑢𝑖 −𝑢
̅) 2 ∑𝑥 𝑢
𝐸[∑ 𝑒𝑖 2 ] = 𝑉𝑎𝑟(𝛽̂2 ) ∑ 𝑥𝑖2 + (𝑛 − 1)𝐸 [ 𝑛−1 ] − 2𝐸 [ ∑ 𝑥𝑖 2𝑖 ∑ 𝑥𝑖 𝑢𝑖 ]
𝑖
∑𝑥 𝑢 2
= 𝑉𝑎𝑟(𝛽̂2 ) ∑ 𝑥𝑖2 + (𝑛 − 1)𝑉𝑎𝑟(𝑢𝑖 ) − 2 ∑ 𝑥𝑖2 𝐸 [( ∑ 𝑥𝑖 2𝑖 ) ]
𝑖
2
∑ 𝑒𝑖 2
𝑠 = (2.16)
𝑛−2
∑𝑒 2 1
𝐸(𝑠 2 ) = 𝐸 [ 𝑛−2
𝑖
] = 𝑛−2 𝐸[∑ 𝑒𝑖 2 ]
45
[𝑛 − 2] 2
= 𝜎 = 𝜎2
[𝑛 − 2]
calcular las varianzas de los parámetros, nótese que estas varianzas dependen del
parámetro poblacional no observable 𝜎 2 . Entonces utilizaremos al estimador s2 en su
lugar en las ecuaciones (2.12) y (2.13), teniendo entonces a las varianzas estimadas
siguientes:
1 𝑋̅ 2 1 (8.0833)2
̂ 2
𝑉𝑎𝑟(𝛽1 ) = 𝑠 ( + ) = 50473.78 ( + ) = 24203.9499
𝑛 ∑ 𝑥𝑖 2 12 164.92
𝑠2 50473.78
𝑉𝑎𝑟(𝛽̂2 ) = = = 306.0536
∑ 𝑥𝑖 2 164.92
La ecuación (2.17) nos dice que 𝛽̂2 es igual a la suma ponderada de 𝑌𝑖 , en donde los
𝑥
ponderadores son las expresiones 𝑤𝑖 = ∑ 𝑥𝑖 2 . Además, como se comprobó que estos
𝑖
estimadores son insesgados, se afirma que los estimadores 𝑀𝐶𝑂 pertenecen a la clase de
estimadores lineales e insesgados.
46
Para probar este teorema, planteamos otro estimador lineal que sea insesgado.
Definamos este estimador como 𝑏2 = ∑ 𝑐𝑖 𝑌𝑖 , en donde los valores ci son ponderadores
no aleatorios, que podrían ser cualquier número. Reemplazando la expresión del modelo
econométrico en 𝑏2 se obtiene
𝑏2 = ∑ 𝑐𝑖 (𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 ) = 𝛽1 ∑ 𝑐𝑖 + 𝛽2 ∑ 𝑐𝑖 𝑋𝑖 + ∑ 𝑐𝑖 𝑢𝑖
𝐸[𝑏2 ] = 𝛽1 ∑ 𝑐𝑖 + 𝛽2 ∑ 𝑐𝑖 𝑋𝑖 + ∑ 𝑐𝑖 𝐸[𝑢𝑖 ] = 𝛽1 ∑ 𝑐𝑖 + 𝛽2 ∑ 𝑐𝑖 𝑋𝑖
𝑏2 = 𝛽2 + ∑ 𝑐𝑖 𝑢𝑖
∑ 𝑥𝑖 𝑐 𝑖 𝑥𝑖 2
∑ 𝑤𝑖 (𝑐𝑖 − 𝑤𝑖 ) = ∑ 𝑤𝑖 𝑐𝑖 − ∑ 𝑤𝑖 2 = 2
− ∑ (∑ 2
)
∑ 𝑥𝑖 𝑥𝑖
1 ∑ 𝑥𝑖 2
= − =0
∑ 𝑥𝑖 2 (∑ 𝑥𝑖 2 )2
47
𝑉𝑎𝑟(𝑏2 ) = 𝑉𝑎𝑟(𝛽̂2 ) + 𝜎 2 ∑(𝑐𝑖 − 𝑤𝑖 )2
Al ser el último término mayor o igual a cero, resulta que 𝑉𝑎𝑟(𝑏2 ) ≥ 𝑉𝑎𝑟(𝛽̂2 ).
1 1 1 1
= ∑ ( ) 𝑌𝑖 − 𝑌̅ ∑ ( )
𝑛 𝑥𝑖 𝑛 𝑥𝑖
1 1 1 1 1
= 𝑛 ∑ (𝑥 ) 𝑌𝑖 − 𝑛 ∑ (𝑥 ) (𝑛 ∑ 𝑌𝑖 )
𝑖 𝑖
1 1 1 1
= 𝑛 ∑ (𝑥 ) 𝑌𝑖 − 𝑛2 ∑ (𝑥 ) ∑ 𝑌𝑖
𝑖 𝑖
∑(𝑌𝑖 − 𝑌̅)2
𝑆𝑌2 =
𝑛−1
48
Para relacionar a la SCT con la recta estimada, elevamos al cuadrado a (2.7) y aplicando
sumatorias resulta en
El último término del lado derecho es igual a cero pues en el modelo en desviaciones,
∑ 𝑥𝑖 𝑒𝑖 = 0. Luego,
𝑆𝐶𝑅 𝑆𝐶𝐸
𝑅2 = 1 − =
𝑆𝐶𝑇 𝑆𝐶𝑇
49
algún error en nuestros datos, o que estamos analizando una relación determinística (por
ejemplo, alguna identidad contable) que no necesita análisis estadístico ni econométrico.
Cabe mencionar que no existe un mínimo valor de R-cuadrado como para juzgar si los
resultados de una estimación son “buenos” o “malos”. De hecho, en la práctica se suele
observar ciertas regularidades de los valores de R-cuadrado según el tipo de datos. Con
frecuencia se observa que con datos de corte transversal –especialmente si son datos
microeconómicos a nivel de personas o familias– el R-cuadrado se encuentra por debajo
de 0.30. Una posible explicación a este fenómeno radica en que en los modelos que
explican la conducta de los individuos existen innumerables factores que afectan los
resultados de la variable endógena 𝑌. En un modelo con un solo regresor, la
perturbación u incorpora a todos estos factores, y por lo tanto es de esperar que 𝑋
explique solo una fracción pequeña de la variabilidad de 𝑌. Esto no quiere decir que 𝑋
sea un mal regresor. Por ejemplo, en la relación entre la educación y los salarios, tal
como se ve en la figura 1.2 del capítulo anterior, no se puede dudar que más educación
(variaciones en la educación) se relaciona con más ingresos (variaciones en los
salarios). No obstante, se aprecia en el gráfico que con mucha frecuencia existen puntos
que se alejan verticalmente de la recta. Tales alejamientos se deben a los demás factores
incluidos en 𝑢. Por ejemplo, si un trabajador tiene más experiencia laboral que otro
50
pueda ganar un poco más pese a tener ambos la misma educación; o si algún otro sufre
problemas de salud, esto puede provocar que gane menos, etc.5 Sin embargo, el modelo
de dos variables nos muestra que sí se puede esperar que con mayores niveles de
educación se espere un salario mayor.
En el caso de los datos de series de tiempo, como por ejemplo los datos
macroeconómicos, las regresiones entre estas variables suelen arrojar valores de R-
cuadrado relativamente altos, muchos por encima de 0.7. Por ejemplo, una regresión
bivariada del Consumo Privado contra el Producto Bruto Interno como variable
explicativa puede arrojar valores de R-cuadrado cercanos a 0.99. Esto se debe tomar con
cuidado pues muchas series de tiempo se comportan siguiendo patrones crecientes en el
tiempo o tendencias. El R-cuadrado puede estar reflejando esta tendencia común de
ambas series, sobreestimando entonces la fortaleza de la relación entre estas series
macroeconómicas. En estos casos puede ser mejor transformar los datos a tasas de
crecimiento, las cuales limpian el efecto de las tendencias.
Por último, se debe tener en cuenta que el R-cuadrado solamente es una medida
estadística acerca de la asociación entre las variables 𝑋 e 𝑌, pero no se le debe tomar
como un indicador que valide algún tipo de causalidad entre las variables. Es posible
que una regresión entre dos variables no unidas causalmente muestre un R-cuadrado
muy alto.
5
En el capítulo 4 se extiende el modelo de regresión lineal agregando más regresores. Pese a ello el R-
.cuadrado en corte transversal con datos microeconómicos sigue siendo “bajo”, pues la cantidad de
variables disponibles suele ser limitada en comparación con los miles de factores que afectan a 𝑌.
51
Figura 2.4
Dos conjuntos de datos y sus R2
Utilizaremos los datos hipotéticos del ejemplo 2.1 para hacer una estimación por
mínimos cuadrados ordinarios en Stata. Véase el apéndice en donde se indica cómo
trasladar estos datos desde un archivo MS Excel a Stata.
52
Una vez que ya tenemos los datos en Stata, se escribe en la línea de comandos lo
siguiente:
regress y x
Tabla 2.3
Tabla de resultados de Stata
53
abajo figura Root MSE, que no es otra cosa que la raíz cuadrada de 𝑠 2 , es decir la
desviación estándar de la regresión.
Ahora mostraremos los resultados de la estimación por 𝑀𝐶𝑂 usando datos reales de la
relación entre los años de educación de una persona (llamada aquí escolaridad) y el
logaritmo de la remuneración promedio por hora (llamada aquí salario). Usaremos los
datos del ejemplo 1.1 del capítulo 1, en donde hemos restringido la muestra a personas
que viven en zonas urbanas y con una edad en el rango de 14 a 65 años inclusive6. El
modelo a ser estimado es
ln(𝑆𝑎𝑙𝑎𝑟𝑖𝑜𝑖 ) = 𝛽1 + 𝛽2 𝐸𝑠𝑐𝑜𝑙𝑎𝑟𝑖𝑑𝑎𝑑𝑖 + 𝑢𝑖
ln(𝑌𝑖 ) = 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 .
6
En el Perú la edad de jubilación es 65 años.
54
Tabla 2.4
Estimación de la relación entre la educación y los salarios
Podemos ver que el signo del intercepto estimado es positivo, siendo 𝛽̂1 = 0.8138182.
Tomando el exponencial a este valor se obtiene el valor 2.2565, lo que indica que para
las personas que no tienen educación el salario por hora es apenas de 2.25 soles. A partir
de ahí, por cada año adicional de educación el salario por hora se incrementa en
promedio aproximadamente en 8%.
Por otro lado, el R-cuadrado en esta estimación es 0.1821, lo cual indica que la
variabilidad de la educación explica el 18.2% de la variabilidad de los salarios. Aunque
este indicador pueda parecer bajo, para ser una estimación por corte transversal se puede
considerar como aceptable.
Apéndice 2.1
𝟐
̂ 𝟐 ) = − 𝑿̅𝝈 𝟐 .
̂ 𝟏, 𝜷
Demostración de que 𝑪𝒐𝒗(𝜷 ∑𝒙 𝒊
De la definición de covarianza,
𝐶𝑜𝑣(𝛽̂1 , 𝛽̂2 ) = 𝐸[(𝛽̂1 − 𝐸[𝛽̂1 ])(𝛽̂2 − 𝐸[𝛽̂2 ])]
Utilizando (2.11)
= 𝐸[(−𝑋̅(𝛽̂2 − 𝛽2 ) + 𝑢̅)(𝛽̂2 − 𝛽2 )]
2
= −𝑋̅𝐸 [(𝛽̂2 − 𝛽2 ) ] + 𝐸[𝑢̅(𝛽̂2 − 𝛽2 )]
55
De (2.12) y (2.10),
𝑋̅𝜎 2 ∑ 𝑢𝑖 ∑ 𝑥𝑖 𝑢𝑖
=− + 𝐸 [ ∙ ]
∑ 𝑥𝑖2 𝑛 ∑ 𝑥𝑖2
Como se demostró, el último término es igual a cero, con lo cual se completa la prueba.
Apéndice 2.2
Introducción a Stata
Descripción de
Línea de comandos variables y archivo
Cuando se inicia el programa, estas pantallas se encuentran vacías. Una vez que se
ha abierto un archivo de datos de Stata (con extensión .dta), en la ventana superior
derecha aparecerán los nombres de las variables. Seleccionando alguna de ellas, en
la ventana inferior derecha se obtendrá información del formato de esa variable (por
ejemplo, si es una variable numérica o de texto), y también se tiene información del
número de observaciones y variables en el archivo.
56
En la parte inferior central de la pantalla se encuentra la línea de comandos. En esa
ventana podemos escribir comandos o instrucciones al programa. Como
consecuencia de un comando tendremos un resultado, que se mostrará en la pantalla
central.7Si hemos cometido algún error en la escritura de un comando, obtendremos
un mensaje de error en color rojo. Por último, cada comando que empleemos
quedará registrado en la ventana izquierda de historial de comandos.
Para poder trabajar en Stata, lo primero que necesitamos son los datos. Hay varias
formas de importar datos a Stata. Aquí tenemos tres formas:
sysuse auto
Luego presione la tecla Enter. Esto abre el archivo “auto.dta” que contiene
información sobre autos de diversas marcas. La lista completa de archivos de
7
En el caso de los gráficos se suele abrir automáticamente una ventana aparte.
57
datos que vienen con el software puede ser visualizada escribiendo en la línea
de comandos sysuse dir.
En la red de Stata hay más bases que pueden ser llamadas si se tiene una
conexión a internet. Por ejemplo, escriba en la línea de comandos
webuse klein
iii. Copiando y pegando los datos desde MS Excel: Supongamos que tenemos
nuestros datos en Excel, tal como se muestra en la siguiente imagen:
Seleccione con el mouse las tres variables desde la celda A1 hasta la D13 y
presione las teclas CTRL+C. Luego abra el programa Stata, y dé click en el
ícono Editor de Datos (cuadrícula con un lápiz). Aparecerá una cuadrícula.
Ubique el mouse en la esquina superior derecha y presione CTRL+V. El
programa preguntará si desea que la primera fila copiada sea tomada como los
nombres de las variables. Elija esta opción. Obtendrá la siguiente pantalla.
58
Nótese que los nombres en Excel se encontraban en mayúscula, pero al
copiarlos a Stata ahora se encuentran en minúscula.
Finalmente cierre la pantalla y ya tendrá los datos listos para ser usados. Por
ejemplo si escribe en la línea de comandos:
regress y x
En cualquier momento podemos ver los datos haciendo click en el ícono del visor
de datos (cuadrícula con una lupa), o escribiendo en la línea de comandos browse.
Esta pantalla es idéntica a la del data editor, con la diferencia que no se puede
modificar los datos.
Es importante notar que los datos pueden ser numéricos o alfanuméricos. Los
primeros se presentan en color negro o azul, mientras que los alfanuméricos
(palabras, códigos, etc.) se presentan en color rojo. En la pantalla anterior las
variables X e Y son numéricas mientras que las variables Z y 𝑊 son alfanuméricas.
Solo se pueden hacer operaciones matemáticas con datos numéricos, sin embargo,
se pueden obtener algunas estadísticas también con los alfanuméricos. En el
capítulo 6 trabajaremos con datos que no son numéricos.
59
i. Diagrama de dispersión: Escriba en la línea de comandos scatter y x.
Obtendrá un gráfico similar a los mostrados en este capítulo. Si desea que se
agregue la línea de estimación por 𝑀𝐶𝑂 escriba
scatter y x || lfit y x
1200
1000
800
600
400
200
0 5 10 15
X
Y Fitted values
. sum x y
x 12 8.083333 3.872005 2 14
y 12 532.1667 298.3774 120 1150
iii. Tablas de frecuencias: Son tablas que muestran la frecuencia absoluta (cantidad
de observaciones) y relativa (porcentaje) de los valores o categorías de alguna
variable. Típicamente se usa para variables no numéricas, aunque en ocasiones
también se puede usar para variables numéricas si sus valores no son muy
numerosos. Se obtiene con el comando tabulate o simplemente tab.
60
. tab z
Total 12 100.00
iv. Tablas cruzadas: Son tablas de doble entrada. Se consiguen con el mismo
comando tabulate, solo que indicando dos variables. Por ejemplo tab z w
nos muestra la tabla cruzada de individuos por género y región.
. tab z w
W
Z Centro Norte Sur Total
Hombre 2 2 3 7
Mujer 1 3 1 5
Total 3 5 4 12
Los números en cada celda son el número de casos que cumplen las dos
condiciones. Por ejemplo, hay tres mujeres que son del norte. Se puede
conseguir porcentajes por filas o columnas agregando las opciones col o row.
En Stata las opciones específicas de algún comando se escriben después de una
coma.
tab z w, col
tab z w, row
61
(f) Otros comandos básicos
Como el lector puede haber notado, en esta sesión introductoria hemos utilizado
varios comandos, que quizás desearíamos utilizar en otra ocasión. Para ello es muy
recomendable utilizar los archivos Do (más conocidos como do-files). En estos
archivos podemos escribir muchos comandos en varias líneas y guardarlos para el
futuro. Lo usual es que uno prepare sus do-files y con el tiempo los edite y extienda
según nuestras necesidades.
Para crear un archivo Do, damos click al ícono del editor de archivo Do. Ahí se
pueden escribir los comandos (si desea puede copiarlos del historial de comandos).
62
Este do-file puede ser guardado como un archivo con extensión *.do, y si deseamos
recuperarlo en otra sesión, desde esta misma ventana podemos abrirlo. Para correr
todos los comandos o una parte de ellos, se puede seleccionar las líneas y luego dar
click en el ícono encerrado en un óvalo.
Ejercicios
2.1 Demuestre que cuando usted regresiona a una variable 𝑌𝑖 contra una constante y
nada más, es decir se estima el modelo 𝑌𝑖 = 𝛽1 + 𝑢𝑖 , el estimador 𝑀𝐶𝑂 𝛽̂1 es
igual al promedio simple de los 𝑌𝑖 y que los residuos son iguales a la variable en
desviaciones. (Ayuda: Plantee la SCR y derive respecto al único estimador).
63
2.5 Si en el modelo 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 los datos de 𝑋 e 𝑌 son multiplicados por una
constante M. ¿Qué diferencia habrá entre los parámetros estimados del nuevo
modelo 𝛽̂1∗ y 𝛽̂2∗ respecto a los parámetros estimados con los datos originales, 𝛽̂1 y
𝛽̂2?
2.6 Contamos con datos de producción para 22 firmas en cierta industria, donde
𝑌 = ln(𝑝𝑟𝑜𝑑𝑢𝑐𝑐𝑖ó𝑛) y 𝑋 = ln(𝑡𝑟𝑎𝑏𝑎𝑗𝑜) medido en horas: 𝑌̅ = 20, 𝑋̅ = 10,
∑(𝑌𝑖 − 𝑌̅)2 = 100, ∑(𝑋𝑖 − 𝑋̅)2 = 60 y ∑(𝑋𝑖 − 𝑋̅)(𝑌𝑖 − 𝑌̅) = 30. Calcule los
estimadores mínimos cuadráticos del modelo bivariado.
2.7 En el contexto del modelo de regresión lineal clásico con dos variables, evalúe en
función de la esperanza y la varianza cuál es el mejor estimador de los siguientes
estimadores de la pendiente 𝛽2:
∑𝑌 ∑ 𝑋𝑖 𝑌𝑖 1 𝑌
𝑏1 = ∑ 𝑋𝑖 𝑏2 = ∑ 𝑋𝑖2
𝑏3 = 𝑛 ∑ (𝑋𝑖 )
𝑖 𝑖
2.8 Suponga que las variables 𝑋 e 𝑌 están relacionadas de acuerdo con la función de
regresión poblacional 𝑌𝑖 = 𝛽2 𝑋𝑖 + 𝑢𝑖 , la cual no tiene intercepto. Suponga que
equivocadamente usted regresiona el modelo con intercepto por 𝑀𝐶𝑂 obteniendo
𝑌𝑖 = 𝛽̂1 + 𝛽̂2 𝑋𝑖 . Calcule la esperanza de los estimadores y la varianza 𝑉𝑎𝑟(𝛽̂2 ).
Año 1 2 3 4 5 6 7 8 9 10 11 12
Consumo (C) 15.6 6.4 9.2 14.9 7.2 7.6 7.2 7.2 7.9 8.8 4.1 11.1
Ingreso (I) 16.3 6.8 8.6 15.3 8.7 7.8 8.7 8.3 9.4 10.8 5.1 11.6
64
2.12 Supongamos un modelo bivariado 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 en donde se obtienen
estimaciones por 𝑀𝐶𝑂 𝛽̂1 y 𝛽̂2. Ahora, suponga que se define la variable 𝑍𝑖 =
𝐶 − 𝑋𝑖 , en donde 𝐶 es una constante. Si regresiona el modelo 𝑌𝑖 = 𝛼1 + 𝛼2 𝑍𝑖 +
𝑢𝑖 por 𝑀𝐶𝑂, ¿Qué relación hay entre 𝛼̂2 y 𝛽̂2?
2.13 La siguiente tabla muestra datos del precio y antigüedad de autos usados de una
marca y modelo conocidos en la ciudad de Lima en el año 2016. El precio está
medido en dólares y la antigüedad en años transcurridos desde su fabricación
hasta el año 2016.
(b) Según la estimación, ¿en cuánto se reduce cada año el precio de los autos? Si
tengo un auto de esa marca y modelo del año 1997, ¿cuánto esperaría obtener por
ese auto?
2.14 Compruebe usted mismo la insesgadez de los estimadores 𝑀𝐶𝑂. Vamos a simular
datos de 𝑋 e 𝑌 de acuerdo al modelo poblacional 𝑌𝑖 = 50 + 3𝑋𝑖 + 𝑢𝑖 para luego
estimarlos por 𝑀𝐶𝑂. Las estimaciones deberían estar cerca de los valores
poblacionales 𝛽1 = 50 y 𝛽2 = 3. Para hacer esto abrimos una nueva venta de
archivo do-file. Luego, escriba lo siguiente:
65
La estrategia es crear la perturbación aleatoria 𝑢 usando números aleatorios
normales. Para esto se usa el comando drawnorm que crea una base de datos de
30 observaciones. En la segunda línea se genera los valores de la variable exógena
𝑋, los cuales son números aleatorios normales con media 20 y desviación estándar
igual a 4. Se usa la función “rnormal” para generar los números aleatorios. No
es necesario usar drawnorm nuevamente pues ya se ha creado la base con
𝑛 = 30 en la línea anterior. En la tercera línea se genera la variable endógena, en
función de 𝑋 y 𝑢. Por último, en la cuarta línea se hace la estimación 𝑀𝐶𝑂, y en
la quinta se limpia completamente la sesión.
Para que corra el programa se debe seleccionar todo el texto y hacer click en el
ícono que está marcado con un óvalo en la figura de arriba. Se obtiene la siguiente
tabla:
Obtenemos 𝛽̂1 = 53.14907 y 𝛽̂2 = 2.71301, los cuales son valores cercanos a los
valores poblacionales (si usted ha realizado el ejercicio en Stata, no hay problema
66
si obtiene otros valores). Para observar que la estimación 𝑀𝐶𝑂 entrega valores
insesgados, vuelva a correr el programa. Obtendrá nuevas estimaciones. Repita
esto muchas veces y observará que los valores estimados se encuentran alrededor
de los parámetros poblacionales, 𝛽1 = 50 y 𝛽2 = 3.
67